CN117745597A

CN117745597A - 图像处理方法及相关装置

Info

Publication number: CN117745597A
Application number: CN202410191872.4A
Authority: CN
Inventors: 黄坤; 王松
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2024-02-21
Filing date: 2024-02-21
Publication date: 2024-03-22

Abstract

本申请实施例提供一种图像处理方法及相关装置，涉及终端技术领域。该方法包括：获取第一图像中各部位的待修复图像；其中，第一图像为第一视频中的其中一帧图像，第一视频是对第二视频中的目标对象的数字模型进行渲染得到的；针对第一图像中的第N部位的待修复图像，在第二视频中获取与第N部位的位姿相似度满足相似度要求的第N部位图像，第N部位为各部位的任一部位；基于第N部位的待修复图像中关键点的位置，对第N部位图像中关键点的位置进行对齐，得到第N部位的对齐图像；融合第N部位的对齐图像和第N部位的待修复图像，得到第N部位的修复图像。这样，有利于提高待修复图像的图像质量。

Description

图像处理方法及相关装置

技术领域

本申请涉及终端技术领域，尤其涉及一种图像处理方法及相关装置。

背景技术

数字人是通过计算机技术制作的类人形象或者软件制作的结果。随着终端技术的发展，电子设备可以支持基于视频中的一帧人物图像生成数字人视频。

在一些示例中，电子设备可以基于视频中的一帧人物图像，生成与人物图像中的某一个人物相对应的数字人，并对该数字人进行渲染，得到数字人视频。

目前，通过数字人渲染得到的数字人视频中会出现图像质量较差的现象。

发明内容

本申请实施例提供一种图像处理方法及相关装置，应用于终端技术领域，有利于提高数字人视频的图像质量。

第一方面，本申请实施例提供一种图像处理方法。该方法包括：获取第一图像中各部位的待修复图像；其中，第一图像为第一视频中的其中一帧图像，第一视频是对第二视频中的目标对象的数字模型进行渲染得到的，目标对象包括具有多个关键点的对象，多个关键点中任两个关键点的相对位置关系是固定的，各部位中任一部位包括至少两个关键点之间的部位；针对第一图像中的第N部位的待修复图像，在第二视频中获取与第N部位的位姿相似度满足相似度要求的第N部位图像，第N部位为各部位的任一部位；基于第N部位的待修复图像中关键点的位置，对第N部位图像中关键点的位置进行对齐，得到第N部位的对齐图像；融合第N部位的对齐图像和第N部位的待修复图像，得到第N部位的修复图像。

第一视频也可以称为初始数字人视频或者初始数字视频，本申请实施例对此不作限定。第一图像可以为第一视频中任一帧图像，这样，电子设备可以第一视频中任一帧图像进行修复，有利于提高图像质量。第一图像可以为第一视频中满足预设条件的一帧图像。预设条件可以是修复迫切度高于预设值。这样，电子设备可以对第一视频中的部分图像进行修复，有利于在提高图像质量的同时，节省功耗。

第一图像中各部位的待修复图像也可以称为第一图像中各部位的低分辨率图像。

目标对象可以为人、狗、或者猫等关节分明的对象。目标对象的数字模型可以为3D数字模型。

各部位可以包括：头部、颈部、躯干、左上臂、右上臂、左前臂、右前臂、左手、右手、左大腿、右大腿、左小腿、右小腿、左脚以及右脚等。

第N部位图像与第N部位的待修复图像的相似度满足相似度要求，可以理解为在第二视频中，第N部位图像与第N部位的待修复图像的相似度大于其他图像与第N部位的待修复图像的相似度。

基于第N部位的待修复图像中关键点的位置，对第N部位图像中关键点的位置进行对齐，可以理解为使对其后的第N部位图像中关键点的位置与第N部位的待修复图像中关键点的位置相同。

在本申请实施例中，第一图像可以参考图4中的初始数字人视频中的任一帧人体图像。第N部位的待修复图像可以参考图4中的头部图像、躯干图像、左前臂图像或者左腿图像等。若第N部位的待修复图像为头部图像，则第N部位图像可以参考图4中的参考帧1、参考帧2、参考帧3以及参考帧4，第N部位的修复图像可以参考图4中的HR头部图像。

这样，针对不同的部位进行修复，相比针对整个人体进行修复，有利于从第二视频中找到与其位姿相近的图像，将不同的图像对齐后进行融合，有利于提高融合后图像的图像质量。

在一种可能的实现方式中，基于第N部位的待修复图像中关键点的位置，对第N部位图像中关键点的位置进行对齐，得到第N部位的对齐图像，包括：对第N部位的待修复图像中关键点的位置与第N部位图像中关键点的位置进行匹配，得到仿射变换参数；根据仿射变换参数对第N部位图像进行仿射变换，得到第N部位的对齐图像。

仿射变换参数可以为矩阵或者向量，本申请实施例对此不作限定。

电子设备可以通过仿射变换，将第N部位图像中关键点的位置与第N部位的待修复图像中关键点的位置对齐，得到第N部位的对齐图像。

这样，将第N部位图像中关键点的位置与第N部位的待修复图像中关键点的位置对齐，有利于后续融合的准确度。

在一种可能的实现方式中，融合第N部位的对齐图像和第N部位的待修复图像，得到第N部位的修复图像，包括：获取第一特征，第一特征用于表征第N部位的对齐图像；获取第二特征，第二特征用于表征第N部位的待修复图像；将第一特征与第二特征进行至少一种尺度的拼接，得到第三特征，至少一种尺度包括像素级尺度和/或图像块尺度；解码第三特征，得到第N部位的修复图像。

在本申请实施例中，第一特征可以参考编码器1的输出，第二特征可以参考编码器2的输出，像素级尺度的拼接可以参考图5中的像素级聚合，图像块尺度的拼接可以参考图5中的图像块级别的聚合。

像素级尺度用于表示细粒度，图像块尺度用于表示粗粒度，这样，通过至少一种尺度的拼接，有利于在第二特征中融合第一特征，有利于使得解码融合后的特征所得的图像的质量较高。

在一种可能的实现方式中，将第一特征与第二特征进行至少一种尺度的拼接，得到第三特征，包括：将第一特征与第二特征进行M次至少一种尺度的拼接，得到第三特征，M为大于2的正整数。

在本申请实施例中，将第一特征与第二特征进行M次至少一种尺度的拼接，可以参考图5中的循环聚合。

这样，多次拼接，有利于使得第一特征更好地融合第二特征，更有利于使得解码融合后的特征所得的图像的质量较高。

在一种可能的实现方式中，获取第一图像中各部位的待修复图像，包括：对第一图像进行语义识别，得到第一图像中各像素的语义，各像素的语义中每个像素的语义为各部位中的其中一个；根据第一图像中各像素的语义，对第一图像进行分割，得到各部位的待修复图像。

在本申请实施例中，该步骤可以参考图4中初始数字人视频中的任一帧人体图像分割为各个部位的图像。

这样，有利于得到各部位的待修复图像，以便于后续基于各个部位进行修复。

在一种可能的实现方式中，获取第一图像中各部位的待修复图像，包括：播放第二视频；响应于对第二视频的第一操作，显示第二图像，第二图像为第二视频中的其中一帧图像，第二图像包括目标对象；响应于对第二图像的第二操作，得到第一视频；从第一视频中获取第一图像中各部位的待修复图像。

第一操作可以为暂停播放的操作，电子设备响应于对第二视频暂停播放的操作，可以显示第二视频中的一帧图像，该帧图像中包括目标对象。第二操作可以为基于目标对象生成数字人视频的操作，电子设备可以基于该帧图像生成第一视频，并对第一视频中的第一图像进行修复，故从第一视频中获取第一图像中各部位的待修复图像。

在本申请实施例中，第二图像可以参考图8中所示界面包括的图像。

这样，用户可以自主选择生成数字人视频的图像，灵活性更强。

在一种可能的实现方式中，获取第一图像中各部位的待修复图像，包括：播放第二视频；响应于对第二视频的第三操作，显示多帧图像，多帧图像为第二视频中的图像，多帧图像均包括目标对象，多帧图像中目标对象的位姿不同；响应于对多帧图像中第三图像的第四操作，得到第一视频；从第一视频中获取第一图像中各部位的待修复图像。

第三操作可以为生成数字人视频的操作，电子设备响应于对第二视频生成数字人视频的操作，可以第二视频中的多帧图像。这些图像均可以生成数字人视频。电子设备支持用户选择任一个图像生成数字人视频。

第四操作可以为选中操作，响应于对多帧图像中第三图像的选中操作，基于第三图像生成第一视频，并对第一视频中的第一图像进行修复，故从第一视频中获取第一图像中各部位的待修复图像。

在本申请实施例中，显示多帧图像的界面可以参考图9中所示界面。

这样，电子设备提供用户可用于生成数字人视频的图像，有利于降低用户选择的图像不能生成数字人视频的概率。

在一种可能的实现方式中，获取第一图像中各部位的待修复图像，包括：播放第一视频；响应于对第一视频的第五操作，获取第一图像中各部位的待修复图像。

第五操作可以是修复图像的操作，电子设备响应于对第一视频修复图像的操作，可以从第一视频中获取第一图像中各部位的待修复图像以便于进行修复。

在本申请实施例中，播放第一视频的界面可以参考图10所示的界面。

这样，电子设备是否修复第一视频由用户选择，有利于满足用户在不同场景下的需求，提高用户体验。

第二方面，本申请实施例提供一种图像处理装置，该图像处理装置可以是电子设备，也可以是电子设备内的芯片或者芯片系统。该图像处理装置可以包括获取单元和处理单元。当该图像处理装置是电子设备时，该处理单元可以是处理器。该图像处理装置还可以包括存储单元，该存储单元可以是存储器。该存储单元用于存储指令，该处理单元执行该存储单元所存储的指令，以使该电子设备实现第一方面或第一方面的任意一种可能的实现方式中描述的一种图像处理方法。当该图像处理装置是电子设备内的芯片或者芯片系统时，该处理单元可以是处理器。该处理单元执行存储单元所存储的指令，以使该电子设备实现第一方面或第一方面的任意一种可能的实现方式中描述的一种图像处理方法。该存储单元可以是该芯片内的存储单元（例如，寄存器、缓存等），也可以是该电子设备内的位于该芯片外部的存储单元（例如，只读存储器、随机存取存储器等）。

示例性的，获取单元，用于获取第一图像中各部位的待修复图像；其中，第一图像为第一视频中的其中一帧图像，第一视频是对第二视频中的目标对象的数字模型进行渲染得到的，目标对象包括具有多个关键点的对象，多个关键点中任两个关键点的相对位置关系是固定的，各部位中任一部位包括至少两个关键点之间的部位。

处理单元，用于针对第一图像中的第N部位的待修复图像，在第二视频中获取与第N部位的位姿相似度满足相似度要求的第N部位图像，第N部位为各部位的任一部位；基于第N部位的待修复图像中关键点的位置，对第N部位图像中关键点的位置进行对齐，得到第N部位的对齐图像；融合第N部位的对齐图像和第N部位的待修复图像，得到第N部位的修复图像。

在一种可能的实现方式中，处理单元还用于：对第N部位的待修复图像中关键点的位置与第N部位图像中关键点的位置进行匹配，得到仿射变换参数；根据仿射变换参数对第N部位图像进行仿射变换，得到第N部位的对齐图像。

在一种可能的实现方式中，处理单元还用于：获取第一特征，第一特征用于表征第N部位的对齐图像；获取第二特征，第二特征用于表征第N部位的待修复图像；将第一特征与第二特征进行至少一种尺度的拼接，得到第三特征，至少一种尺度包括像素级尺度和/或图像块尺度；解码第三特征，得到第N部位的修复图像。

在一种可能的实现方式中，处理单元还用于：将第一特征与第二特征进行M次至少一种尺度的拼接，得到第三特征，M为大于2的正整数。

在一种可能的实现方式中，处理单元还用于：对第一图像进行语义识别，得到第一图像中各像素的语义，各像素的语义中每个像素的语义为各部位中的其中一个；根据第一图像中各像素的语义，对第一图像进行分割，得到各部位的待修复图像。

在一种可能的实现方式中，图像处理装置还包括显示单元。显示单元还用于：播放第二视频；响应于对第二视频的第一操作，显示第二图像，第二图像为第二视频中的其中一帧图像，第二图像包括目标对象；处理单元还用于：响应于对第二图像的第二操作，得到第一视频；从第一视频中获取第一图像中各部位的待修复图像。

在一种可能的实现方式中，图像处理装置还包括显示单元。处理单元还用于：播放第二视频；显示单元用于：响应于对第二视频的第三操作，显示多帧图像，多帧图像为第二视频中的图像，多帧图像均包括目标对象，多帧图像中目标对象的位姿不同；处理单元还用于：响应于对多帧图像中第三图像的第四操作，得到第一视频；从第一视频中获取第一图像中各部位的待修复图像。

在一种可能的实现方式中，处理单元还用于：播放第一视频；获取单元还用于：响应于对第一视频的第五操作，获取第一图像中各部位的待修复图像。

第三方面，本申请实施例提供一种电子设备，包括一个或多个处理器和存储器；存储器与一个或多个处理器耦合，存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，一个或多个处理器调用计算机指令以使得电子设备执行第一方面或第一方面的任意一种可能的实现方式中描述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序或指令，当计算机程序或指令在电子设备上运行时，使得电子设备执行第一方面或第一方面的任意一种可能的实现方式中描述的方法。

第五方面，本申请实施例提供一种计算机程序产品，计算机程序产品包括计算机程序代码，当计算机程序代码在电子设备上运行时，使得电子设备执行第一方面或第一方面的任意一种可能的实现方式中描述的方法。

第六方面，本申请提供一种芯片或者芯片系统，该芯片或者芯片系统应用于电子设备，该芯片或者芯片系统包括至少一个或多个处理器，一个或多个处理器用于调用计算机指令以执行第一方面或第一方面的任意一种可能的实现方式中描述的方法。

在一种可能的实现中，本申请中上述描述的芯片或者芯片系统还包括至少一个存储器，该至少一个存储器中存储有指令。该存储器可以为芯片内部的存储单元，例如，寄存器、缓存等，也可以是该芯片的存储单元（例如，只读存储器、随机存取存储器等）。

应当理解的是，本申请的第二方面至第六方面与本申请的第一方面的技术方案相对应，各方面及对应的可行实施方式所取得的有益效果相似，不再赘述。

附图说明

图1为本申请实施例提供的一种数字人视频生成的示意图；

图2为本申请实施例提供的一种电子设备的硬件结构的示意图；

图3为本申请实施例提供的一种电子设备的软件架构的示意图；

图4为本申请实施例提供的一种图像处理方法的示意框图；

图5为本申请实施例提供的一种图像融合的示意图；

图6为本申请实施例提供的一种特征聚合的示意图；

图7为本申请实施例提供的另一种图像融合的示意图；

图8为本申请实施例提供的一种界面示意图；

图9为本申请实施例提供的另一种界面示意图；

图10为本申请实施例提供的又一种界面示意图；

图11为本申请实施例提供的一种芯片的结构示意图。

具体实施方式

为了便于清楚描述本申请实施例的技术方案，首先进行以下说明：

在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如，第一图像和第二图像仅仅是为了区分不同的图像，并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

需要说明的是，本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项（个）”或其类似表达，是指的这些项中的任意组合，包括单项（个）或复数项（个）的任意组合。例如，a，b，或c中的至少一项（个），可以表示：a，b，c，a-b，a--c，b-c，或a-b-c，其中a，b，c可以是单个，也可以是多个。

在一些示例中，电子设备可以基于视频中的一帧人物图像，生成与人物图像中的某一个人物相对应的数字人，并对该数字人进行渲染，得到数字人视频。该数字人视频可以包括人物以相同姿势旋转360度的图像，或者，可以包括人物以不同姿势旋转360度的图像，或者，可以包括人物说话、跳舞的图像。

示例性地，图1示出了一种数字人视频生成的示意图。如图1所示，电子设备可以获取一个视频。该视频中的图像可以包括至少一个人物图像。该视频可以是电子设备响应于用户拍摄视频的操作拍摄的，也可以是电子设备响应于用户下载视频的操作下载的，本申请实施例对此不做限定。

电子设备可以从视频中获取一帧人物图像。该人物图像可以是用户指定的。该人物图像中可以包括一个或者多个人物，本申请实施例对此不做限定。

电子设备可以对该人物图像中的人物进行提取和识别。若人物图像中包括一个人物，电子设备可以将该人物作为目标人物，将人物图像输入至数字人模型中，得到目标人物对应的数字人。若人物图像中包括多个人物，电子设备可以基于用户输入的选择指令，将多个人物中用户指定的人物作为目标人物，将目标人物所对应的图像输入至数字人模型中，得到该目标人物对应的数字人。

电子设备可以使用动态神经辐射场（NeRF）技术对数字人进行渲染，得到数字人视频。该数字人视频中可以为目标人物旋转360度的视频。可以理解的是，数字人是基于某个视角下拍摄的人物图像生成的，而基于数字人渲染得到的视频是包括人物在360度范围内的不同视角下的图像，可以说明电子设备基于NeRF技术生成了新视角的图像。

通过数字人渲染的视频中包括新视角图像，新视角图像容易出现图像质量较差的现象。

示例性地，使用NeRF技术渲染得到的数字人视频中的图像可能包括噪声，还可能存在图像模糊、内容损毁、或者图像退化等现象。其中，图像模糊可以是人物边缘不清晰。内容损毁可以是人物失真。图像退化可以是纹理细节丢失的低质量图像。

有鉴于此，本申请实施例提供一种图像处理方法及相关装置，在基于人物视频中的某一帧人物图像得到数字人视频的情况下，可以获取人物视频中与数字人视频中任一图像的各个部位的位姿相近的图像，并将其与该任一图像的各个部位对齐后，与该任一图像的各个部位做融合，这样，针对不同的部位进行修复，相比针对整个人体进行修复，有利于从人物视频中找到与其位姿相近的图像，将不同的图像对齐后进行融合，有利于提高融合后图像的图像质量。

本申请实施例提供的图像处理方法，可以适用于电子设备。本申请实施例的电子设备可以为手持式设备和车载设备等。例如，一些电子设备为：手机（mobile phone）、平板电脑、掌上电脑、笔记本电脑、移动互联网设备（mobile internet device，MID）、可穿戴设备，虚拟现实（virtual reality，VR）设备、增强现实（augmented reality，AR）设备、工业控制（industrial control）中的无线终端、无人驾驶（self driving）中的无线终端、远程手术（remote medical surgery）中的无线终端、智能电网（smart grid）中的无线终端、运输安全（transportation safety）中的无线终端、智慧城市（smart city）中的无线终端、智慧家庭（smart home）中的无线终端、蜂窝电话、无绳电话、会话启动协议（sessioninitiation protocol，SIP）电话、无线本地环路（wireless local loop，WLL）站、个人数字助理（personal digital assistant，PDA）、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备、可穿戴设备，5G网络中的终端设备或者未来演进的公用陆地移动通信网络（public land mobile network，PLMN）中的终端设备等，本申请实施例对此并不限定。

本申请实施例中的电子设备也可以称为：终端设备、用户设备（user equipment，UE）、移动台（mobile station，MS）、移动终端（mobile terminal，MT）、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置等。

为了便于理解本申请实施例，下面对本申请实施例提供的电子设备的硬件结构进行介绍。

图2示出了本申请实施例提供的一种电子设备的硬件结构的示意图。如图2所示，电子设备可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线（universal serial bus，USB）接口130，充电管理模块140，电源管理模块141，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，以及显示屏194等。

可选地，上述传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备的具体限定。在本申请另一些实施例中，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以部署有本申请实施例提供的图像处理方法。在一些示例中，电子设备响应于用户拍摄视频的操作，通过摄像头193中的单目摄像头拍摄某一个人物的视频，并将拍摄的视频存储在内部存储器121中。电子设备响应于用户查看该视频的操作，播放该视频，并在播放该视频的某一时刻，响应于用户生成数字人视频的操作，生成与这时刻播放的人物图像中的人物相对应的数字人，并对该数字人进行渲染，得到数字人视频。

处理器110可以在不同场景下，提高数字人视频的图像质量。

在一种可能的实现方式中，处理器110将数字人视频存储在内部存储器121中，并通过显示屏194显示数字人视频。响应于用户提高数字人视频质量的操作，使用本申请实施例提供的图像处理方法对数字人视频进行处理，得到图像质量较高的数字人视频。

这样，是否提高数字人视频的图像质量是用户确定的，可以在不同场景下满足用户不同的需求，灵活性更强。

在另一种可能的实现方式中，处理器110得到数字人视频后，使用本申请实施例提供的图像处理方法对数字人视频进行处理，得到图像质量较高的数字人视频，并通过显示屏194显示图像质量提高后的数字人视频。

这样，直接显示图像质量提高后的数字人视频，图像质量较高，有利于提高用户体验。

电子设备的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。分层架构可以采用安卓（Android）系统，也可以采用苹果（IOS）系统，还可以采用其他操作系统，本申请实施例对此不作限定。下面以分层架构的Android系统为例，示例性说明本申请实施例提供的电子设备的软件架构。

图3为本申请实施例提供的一种电子设备的软件架构的示意图。如图3所示，分层架构将终端设备的软件系统分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，可以将Android系统分为四层，从上到下依次为应用程序层（applications）、应用程序框架层（application framework）、安卓运行时（Androidruntime）和系统库、以及内核层（kernel）。

应用程序层可以包括一系列应用程序包，应用程序层通过调用应用程序框架层所提供的应用程序接口（application programming interface，API）运行应用程序。如图3所示，应用程序包可以包括相机，图库，聊天，视频以及地图等应用程序。

应用程序框架层为应用程序层的应用程序提供API和编程框架。应用程序框架层包括一些预先定义的函数。如图3所示，应用程序框架层可以包括窗口管理器，内容提供器以及视图系统等。

安卓系统运行时包括核心库和虚拟机。安卓系统运行时负责安卓系统的调度和管理。核心库包含两部分：一部分是Java语言需要调用的功能函数，另一部分是安卓的核心库。应用程序层和应用程序框架层运行在虚拟机中。系统库可以包含多个功能的模块，例如：表面管理器，媒体库以及三维图形处理库等。

其中，三维图形处理库用于实现三维图形绘图，图像渲染，合成和图层处理等。在本申请实施例中，在某一个人物视频播放过程中，三维图形处理库可以接收到从应用程序层传输至系统库中的生成数字人视频的操作。

响应于生成数字人视频的操作，三维图形处理库可以生成与这时刻播放的人物图像中的人物相对应的数字人，并对该数字人进行渲染，得到数字人视频，并可以使用本申请实施例提供的方法提高数字人视频的图像质量，得到图像质量较高的数字人视频。

三维图形处理库可以将数字人视频传输至应用程序层中的图库应用显示。

内核层是硬件和软件之间的层。内核层用于驱动硬件，使得硬件工作。内核层至少包含显示驱动，摄像头驱动以及蓝牙驱动等。

上面结合图2和图3对本申请实施例适用的电子设备进行介绍，下面对本申请实施例提供的图像处理方法进行介绍。

图4示出了本申请实施例提供的一种图像处理方法的示意图。如图4所示，在基于人物视频中的某一帧人物图像创建数字人视频时，生成与人物图像中某一个人物相对应的数字人，并对该数字人进行渲染，得到初始数字人视频。该初始数字人视频中新视角图像可能为低分辨率图像。低分辨率图像用于表示图像质量低的图像。

本申请实施例可以对该初始数字人视频中的每一帧人体图像进行处理，得到高分辨率（high resolution，HR）人体图像，进而得到高质量的数字人视频。具体的处理过程可以如图4所示。

由于对每一帧人体图像的处理过程均相同，故本申请实施例以初始数字人视频中的任一帧人体图像进行说明。在图4中，电子设备可以获取初始数字人视频中的任一帧人体图像。为了便于描述，本申请实施例将这任一帧人体图像称为目标图像。

电子设备可以将目标图像输入至语义分割模型中，语义分割模型可以对目标图像中人物的各个部分进行标注，得到语义分割图。其中，人物的各个部分可以包括头部（head）、颈部、躯干（body）、左上臂、右上臂、左前臂、右前臂、左手、右手、左大腿、右大腿、左小腿、右小腿、左脚以及右脚等部分。在图4中，以头部、躯干、左前臂以及左腿进行示例说明，其他部位未示出。这些部位均可以为人体的两个关节点之间的部位，这两个关节点之间的相位位置关系是固定的。

电子设备可以基于语义分割图对目标图像进行分割，得到目标图像中各个部位的图像。各个部位的图像可以均对应有一个标记，这个标记可用于指示其所对应的部位的图像在目标图像中所在的位置。各个部位的图像所对应的标记可以用于将这些图像拼接为目标图像。

初始数字人视频中每帧人体图像均对应有人体位姿参数，该人体位姿参数可用于表示人体图像中人物的位姿。该人体位姿参数可以是以带皮肤为例的多人线性模型（skinned multi-person linear model，SMPL）为参考得到的。人体位姿参数可以包括各个部位的位姿参数。故目标图像对应有各个部位的位姿参数。其中，人体位姿参数也可以称为人体姿态参数，各个部位的位姿参数也可以称为各个部位的姿态参数，本申请实施例对此不作限定。

电子设备可以根据姿态相似性从人物视频中找到与目标图像中人物的各个部位的位姿参数相近的参考帧。如图4所示，本申请实施例以目标图像中人物的头部的位姿参数为例进行说明。

电子设备可以从人物视频中找到与目标图像中人物头部的位姿参数最接近的K张参考帧，该K张参考帧可以表示为。其中，K为大于或等于1的正整数。

在一些示例中，电子设备在基于人物视频中某一帧图像生成数字人时，可以计算人物视频中每一帧图像所对应的人体位姿参数，故电子设备可以得到人物视频中每一帧图像各个部位的位姿参数。这样，电子设备可以获取人物视频中每一帧图像头部的位姿参数，并将其与目标图像的头部的位姿参数作差，将差值进行排序，从最小差值开始，取K帧图像，得到K帧参考帧。其中，人物视频中每一帧图像的头部位姿参数可以用，目标图像的头部位姿参数可以用，则每一帧图像的头部姿势参数与目标图像的头部位姿参数的差值可以表示为。

在一些实现中，K可以是预设的。例如，K可以为4。在图4中，这4帧图像可以分别为参考帧1、参考帧2、参考帧3以及参考帧4。这样，实现简单。

由于K张参考帧中头部位姿参数与目标图像中头部位姿参数不一定相同，故电子设备可以分别将这K张参考帧的头部图像与目标图像的头部图像作姿态对齐，以便于后续融合。

在一些示例中，电子设备可以分别根据这K张参考帧中头部位姿参数与目标图像中头部位姿参数的对应关系，对这K张参考帧作仿射变换，使得这K张参考帧中头部与目标图像的头部姿态对齐。

在图4所示的示例中，电子设备可以分别将这4张参考帧中头部图像与目标图像的头部图像作姿态对齐。

电子设备可以将姿态对齐后的K张参考帧中的头部图像与目标图像中的头部图像进行融合，得到高质量的头部图像。

特征1用于表征姿态对齐后的参考帧图像的头部图像，特征2用于表征目标图像的头部图像。电子设备可以对特征1和特征2进行不同尺度的拼接，并对拼接后的特征进行解码，得到HR的头部图像。其中，拼接的尺度可以包括像素级（pixel-wise）的尺度和/或图像块级（path-wise）尺度。

可选地，电子设备还可以特征1和特征2进行多次不同尺度的拼接，以实现将特征1更高地融合进特征2，使拼接后的特征能够解码出HR的图像。

示例性地，图5示出了本申请实施例提供的一种图像融合方法的示意图。如图5所示，电子设备可以通过编码器1（Encoder-1）提取特征1，该特征1用于表征姿态对齐后的参考帧图像的头部图像，并通过编码器2（Encoder-2）提取特征2，该特征2用于表征目标图像的头部图像。其中，编码器1和编码器2的结构可以相同，也可以不同，本申请实施例对此不做限定。

电子设备可以对特征1和特征2进行像素级聚合，并对特征1和特征2进行图像块级别聚合，并对像素级聚合后的特征与图像块聚合后的特征分别进行像素级聚合和图像块级别聚合。依次类推，达到预设次数后，对得到的特征进行重构，得到重构后的图像。可以理解的是，聚合可以理解为拼接，重构可以理解为解码，重构后的图像可以理解为HR的头部图像。

以图6为例，介绍聚合过程。在图6中，特征1用于表示40*60个像素点，特征2用于表示40*60个像素点，像素级聚合是在特征1中找到与特征2中每个像素点相似的特征，将相似的特征加入到特征2中。图像块可以包括100个像素，特征1包括4*6个图像块，特征2包括4*6个图像块，图像块聚合是在是在特征1中找到与特征2中每个图像块相似的特征，将相似的特征加入到特征2中。

电子设备还可以对除头部之外的各个部位执行上述操作，得到HR的躯干图像、HR的左前臂图像以及HR的左腿图像等等。如图4所示，电子设备可以基于各个部位的图像的标记，对这些HR的各个部位的图像进行组合，得到HR的人体图像。

电子设备可以初始数字人视频中的每一帧图像进行上述处理，得到HR的数字人视频。

在上述图4所示的示例中，电子设备可以先将4张参考帧中头部图像与目标图像的头部图像作姿态对齐后进行图像融合。在另一种示例中，电子设备可以先获取用于表征这4张参考帧中头部图像的特征和用于表征目标图像的头部图像的特征，基于用于表征目标图像的头部图像的特征，对用于表征这4张参考帧中头部图像的特征进行对齐。然后，电子设备将对齐后的特征与用于表征目标图像的头部图像的特征进行拼接，并对拼接后的特征进行解码，得到HR的头部图像。

示例性地，图7示出了本申请实施例提供的一种图像融合方法的示意图。如图7所示，电子设备得到参考帧图像的头部图像和目标图像的头部图像，并计算参考帧图像的头部图像和目标图像的头部图像之间的对应关系。

在图7中，特征3用于表征目标图像的头部图像，特征4用于表征参考帧图像的头部图像，电子设备可以将对应关系作用于特征4，使其与特征3对齐，然后对对齐后的特征4和特征3进行拼接，并对拼接后的图像进行解码，得到HR头部图像。这样，实现简单。

上述结合图4至图，详细描述了本申请实施例提供的图像处理方法，该方法利用人体的铰链式结构（即分段直立特性），在缺乏准确整个人体图像参考帧的情况下，使用人体各个部位的参考帧恢复数字人视频中LR图像，不需要整图进行对齐，在有利于提高图像质量的情况下，实现简单。

上述图4至图7所示的方法中，电子设备对数字人视频中的每帧图像均作修复。在另一种示例中，电子设备可以对数字人视频中满足预设修复需求的图像作修复，其中，满足预设修复需求的图像包括图像清晰度较差、失真度较高、或者噪声较多的图像。这样，电子设备可以对数字人视频中的部分图像进行修复，有利于提高修复速度。

上述图4至图7所示的方法中，电子设备对数字人视频中的每帧图像中各个部分的图像均作修复。在另一种示例中，电子设备可以对各个部分的图像中部分部位的图像作修复，该部分部位的图像的图像质量比其他部分的图像的图像质量差。这样，有利于节省电子设备的功耗。

上面结合图4至图7详细描述了本申请实施例提供的图像处理方法，下面将详细介绍本申请实施例提供的方法所适用的场景。

在一种场景中，电子设备播放人物视频，响应于暂停播放人物视频的操作，显示人物视频的某一帧人物图像。图8示出了一种界面显示的示意图。如图8所示，人物视频的整体时长为10秒钟，播放至5秒钟时暂停，电子设备显示有人物视频中第5秒钟的人物图像。

电子设备响应于针对第5秒钟的人物图像生成数字人视频的操作，生成初始数字人视频，然后基于上述图4所示的方法，对初始数字人视频进行修复。

在这种场景中，用户可以自主选择所需生成数字人视频的图像，更加灵活，有利于提高用户体验。

在另一种场景中，电子设备播放人物视频，响应于针对人物视频生成数字人的操作，显示人物视频的多帧人物图像，这多帧人物图像均可用于生成数字人视频。这多帧人物图像可以是同一个人物的不同位姿的图像，也可以是不同人物的图像，本申请实施例对此不作限定。

在一种示例中，多帧人物图像是同一个人物的不同位姿的图像。例如，图9示出了一种界面显示的示意图。如图9所示，电子设备响应于针对人物视频生成数字人的操作，显示人物视频的两帧人物图像，这两帧人物图像为同一个人物不同位姿的图像。电子设备响应于选择这两帧任务图像中任一图像的操作，生成初始数字人视频，然后基于上述图4所示的方法，对初始数字人视频进行修复。

在又一种场景中，电子设备播放初始数字人视频，响应于对初始数字人视频的修复操作，基于上述图4所示的方法，对初始数字人视频进行修复。

示例性地，图10示出了一种界面显示的示意图。如图10所示，电子设备显示的为初始数字人视频中第5秒钟的图像。从图中可看出，图像中人物的手和腿存在模糊的现象，响应于电子设备对初始数字人的修复操作，基于上述图4所示的方法，对初始数字人视频进行修复。

本申请实施例以人物图像进行举例说明，本申请实施例还可以适用于狗、猫等关节分明的图像，通过对各个部位的图像进行修复，实现对整张图像进行修复的效果。

本申请实施例对各个场景的操作的具体实现不作限定。

本申请实施例中数字人视频的背景可以是预设的，也可以根据实际场景的背景渲染得到的，本申请实施例对此不作限定。若数字人视频中的背景是预设的，实现简单。若根据实际场景的背景设置，则可以多从各个角度采集背景的照片，以便于在数字人视频中渲染得到实际背景。

上面以数字人视频为例对本申请实施例提供的方法进行说明，下面将从任一视频的角度对本申请实施例提供的方法进行说明。

示例性地，本申请实施例提供的图像处理方法可以包括：获取第一图像中各部位的待修复图像；其中，第一图像为第一视频中的其中一帧图像，第一视频是对第二视频中的目标对象的数字模型进行渲染得到的，目标对象包括具有多个关键点的对象，多个关键点中任两个关键点的相对位置关系是固定的，各部位中任一部位包括至少两个关键点之间的部位；针对第一图像中的第N部位的待修复图像，在第二视频中获取与第N部位的位姿相似度满足相似度要求的第N部位图像，第N部位为各部位的任一部位；基于第N部位的待修复图像中关键点的位置，对第N部位图像中关键点的位置进行对齐，得到第N部位的对齐图像；融合第N部位的对齐图像和第N部位的待修复图像，得到第N部位的修复图像。

这样，通过至少一种尺度的拼接，有利于在第二特征中融合第一特征，有利于使得解码融合后的特征所得的图像的质量较高。

需要说明的是，本申请实施例所涉及的模块名称均可以定义为其他的名称，能够实现各模块的作用即可，不对模块的名称做具体限制。

需要说明的是，本申请实施例所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

上面已对本申请实施例的图像处理方法进行了说明，下面对本申请实施例提供的执行上述方法的装置进行描述。本领域技术人员可以理解，方法和装置可以相互结合和引用，本申请实施例提供的相关装置可以执行上述图像处理方法中的步骤。

图11为本申请实施例提供的一种芯片的结构示意图。如图11所示，芯片110包括一个或两个以上（包括两个）处理器1101、通信线路1102、通信接口1103和存储器1104。

在一些实施方式中，存储器1104存储了如下的元素：可执行模块或者数据结构，或者他们的子集，或者他们的扩展集。

上述本申请实施例描述的图像处理方法可以应用于处理器1101中，或者由处理器1101实现。处理器1101可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述图像处理方法的各步骤可以通过处理器1101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1101可以是通用处理器（例如，微处理器或常规处理器）、数字信号处理器（digital signal processing，DSP）、专用集成电路（application specificintegrated circuit，ASIC）、现成可编程门阵列（field-programmable gate array，FPGA）或者其他可编程逻辑器件、分立门、晶体管逻辑器件或分立硬件组件，处理器1101可以实现或者执行本申请实施例中的公开的各处理相关的方法、步骤及逻辑框图。

结合本申请实施例所公开的图像处理方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。其中，软件模块可以位于随机存储器、只读存储器、可编程只读存储器或带电可擦写可编程存储器（electricallyerasable programmable read only memory，EEPROM）等本领域成熟的存储介质中。该存储介质位于存储器1104，处理器1101读取存储器1104中的信息，结合其硬件完成上述方法的步骤。

处理器1101、存储器1104以及通信接口1103之间可以通过通信线路1102进行通信。

在上述实施例中，存储器存储的供处理器执行的指令可以以计算机程序产品的形式实现。其中，计算机程序产品可以是事先写入在存储器中，也可以是以软件形式下载并安装在存储器中。

本申请实施例提供的图像处理方法，可以应用在具备通信功能的电子设备中。电子设备包括终端设备，终端设备的具体设备形态等可以参照上述相关说明，此处不再赘述。

本申请实施例提供一种终端设备，该终端设备包括：包括：处理器和存储器；存储器存储计算机执行指令；处理器执行存储器存储的计算机执行指令，使得终端设备执行上述方法。

本申请实施例还提供了一种计算机可读存储介质。计算机可读存储介质存储有计算机程序。计算机程序被处理器执行时实现上述方法。上述实施例中描述的方法可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。如果在软件中实现，则功能可以作为一个或多个指令或代码存储在计算机可读介质上或者在计算机可读介质上传输。计算机可读介质可以包括计算机存储介质和通信介质，还可以包括任何可以将计算机程序从一个地方传送到另一个地方的介质。存储介质可以是可由计算机访问的任何目标介质。

一种可能的实现方式中，计算机可读介质可以包括RAM，ROM，只读光盘（compactdisc read-only memory，CD-ROM）或其它光盘存储器，磁盘存储器或其它磁存储设备，或目标于承载的任何其它介质或以指令或数据结构的形式存储所需的程序代码，并且可由计算机访问。而且，任何连接被适当地称为计算机可读介质。例如，如果使用同轴电缆，光纤电缆，双绞线，数字用户线（Digital Subscriber Line，DSL）或无线技术（如红外，无线电和微波）从网站，服务器或其它远程源传输软件，则同轴电缆，光纤电缆，双绞线，DSL或诸如红外，无线电和微波之类的无线技术包括在介质的定义中。如本文所使用的磁盘和光盘包括光盘，激光盘，光盘，数字通用光盘（Digital Versatile Disc，DVD），软盘和蓝光盘，其中磁盘通常以磁性方式再现数据，而光盘利用激光光学地再现数据。上述的组合也应包括在计算机可读介质的范围内。

本申请实施例提供一种计算机程序产品，计算机程序产品包括计算机程序，当计算机程序被运行时，使得计算机执行上述方法。

本申请实施例是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理单元以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理单元执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种图像处理方法，其特征在于，包括：

获取第一图像中各部位的待修复图像；其中，所述第一图像为第一视频中的其中一帧图像，所述第一视频是对第二视频中的目标对象的数字模型进行渲染得到的，所述目标对象包括具有多个关键点的对象，所述多个关键点中任两个关键点的相对位置关系是固定的，所述各部位中任一部位包括至少两个关键点之间的部位；

针对所述第一图像中的第N部位的待修复图像，在所述第二视频中获取与所述第N部位的位姿相似度满足相似度要求的第N部位图像，所述第N部位为所述各部位的任一部位；

基于所述第N部位的待修复图像中关键点的位置，对所述第N部位图像中关键点的位置进行对齐，得到第N部位的对齐图像；

融合所述第N部位的对齐图像和所述第N部位的待修复图像，得到所述第N部位的修复图像。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第N部位的待修复图像中关键点的位置，对所述第N部位图像中关键点的位置进行对齐，得到第N部位的对齐图像，包括：

对所述第N部位的待修复图像中关键点的位置与所述第N部位图像中关键点的位置进行匹配，得到仿射变换参数；

根据所述仿射变换参数对所述第N部位图像进行仿射变换，得到所述第N部位的对齐图像。

3.根据权利要求1所述的方法，其特征在于，所述融合所述第N部位的对齐图像和所述第N部位的待修复图像，得到所述第N部位的修复图像，包括：

获取第一特征，所述第一特征用于表征所述第N部位的对齐图像；

获取第二特征，所述第二特征用于表征所述第N部位的待修复图像；

将所述第一特征与所述第二特征进行至少一种尺度的拼接，得到第三特征，所述至少一种尺度包括像素级尺度和/或图像块尺度；

解码所述第三特征，得到所述第N部位的修复图像。

4.根据权利要求3所述的方法，其特征在于，所述将所述第一特征与所述第二特征进行至少一种尺度的拼接，得到第三特征，包括：

将所述第一特征与所述第二特征进行M次至少一种尺度的拼接，得到所述第三特征，所述M为大于2的正整数。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述获取第一图像中各部位的待修复图像，包括：

对所述第一图像进行语义识别，得到所述第一图像中各像素的语义，所述各像素的语义中每个像素的语义为所述各部位中的其中一个；

根据所述第一图像中各像素的语义，对所述第一图像进行分割，得到所述各部位的待修复图像。

6.根据权利要求1至4中任一项所述的方法，其特征在于，所述获取第一图像中各部位的待修复图像，包括：

播放所述第二视频；

响应于对所述第二视频的第一操作，显示第二图像，所述第二图像为所述第二视频中的其中一帧图像，所述第二图像包括所述目标对象；

响应于对所述第二图像的第二操作，得到所述第一视频；

从所述第一视频中获取所述第一图像中各部位的待修复图像。

7.根据权利要求1至4中任一项所述的方法，其特征在于，所述获取第一图像中各部位的待修复图像，包括：

播放所述第二视频；

响应于对所述第二视频的第三操作，显示多帧图像，所述多帧图像为所述第二视频中的图像，所述多帧图像均包括所述目标对象，所述多帧图像中所述目标对象的位姿不同；

响应于对所述多帧图像中第三图像的第四操作，得到所述第一视频；

8.根据权利要求1至4中任一项所述的方法，其特征在于，所述获取第一图像中各部位的待修复图像，包括：

播放所述第一视频；

响应于对所述第一视频的第五操作，获取第一图像中各部位的待修复图像。

9.一种电子设备，其特征在于，所述电子设备包括：一个或多个处理器和存储器；所述存储器与所述一个或多个处理器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，所述一个或多个处理器调用所述计算机指令以使得所述电子设备执行如权利要求1至8中任一项所述的方法。

10.一种芯片系统，其特征在于，所述芯片系统应用于电子设备，所述芯片系统包括一个或多个处理器，所述一个或多个处理器用于调用计算机指令以使得所述电子设备执行如权利要求1至8中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1至8中任一项所述的方法。

12.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序代码，当所述计算机程序代码在电子设备上运行时，使得所述电子设备执行如权利要求1至8中任一项所述的方法。