CN117079083B

CN117079083B - 图像修复模型训练方法、装置、电子设备及存储介质

Info

Publication number: CN117079083B
Application number: CN202311331636.XA
Authority: CN
Inventors: 温东超; 梁玲燕; 史宏志; 赵雅倩; 葛沅; 崔星辰; 张英杰
Original assignee: Suzhou Metabrain Intelligent Technology Co Ltd
Current assignee: Suzhou Metabrain Intelligent Technology Co Ltd
Priority date: 2023-10-16
Filing date: 2023-10-16
Publication date: 2024-02-09
Anticipated expiration: 2043-10-16
Also published as: CN117079083A

Abstract

本申请提供了一种图像修复模型训练方法、装置、电子设备及存储介质。所述包括：对待处理图像进行切片处理，构建得到模型训练样本；基于待训练图像修复模型对所述模型训练样本进行处理，以得到所述模型训练样本的像素特征、结构特征和视觉感知特征；基于所述像素特征、所述结构特征和所述视觉感知特征，分别计算得到重构损失函数、结构相似损失函数和视觉感知损失函数；基于所述重构损失函数、所述结构相似损失函数和所述视觉感知损失函数，计算得到所述待训练图像修复模型的损失函数；在基于损失函数确定待训练图像修复模型收敛的情况下，得到图像修复模型。本申请可以有效控制重建区域的目标结构和视觉纹理，使得修复的图像具有更好的视觉效果。

Description

图像修复模型训练方法、装置、电子设备及存储介质

技术领域

本申请涉及图像修复技术领域，尤其涉及一种图像修复模型训练方法、装置、电子设备及存储介质。

背景技术

图像和视频是人类传递信息的重要媒介和手段，是记录和管理日常生活的重要工具。然而，图像和视频图像在采集、传输、存储和使用等过程中，局部信息可能出现缺失。实际上，图像出现缺失是很常见的情况。在图像采集之前，现实世界的图像素材已经被破坏，例如：在拍摄古代文本、历史文物等的时候，这些古代文本和历史文物已经存在某种程度的损坏等。在图像采集之后，存储的图像可以因为存储介质的损坏而出现缺失像素；传输和使用中的图像被各种图像编辑工具修改等等。

由于存在上述各种图像缺失情况，所以通过人工修复或者技术手段恢复缺失的图像区域是学术界和工业界重要的研究方向。在这样的背景下，图像修复技术（ImageInpainting）成为广泛研究的经典计算机视觉问题。然而，图像修复技术不仅可以用于修复缺失的图像区域，而且可以用于其他应用，例如目标去除、图像渲染等。

现有技术中，已经存在基于上下文的像素预测驱动的无监督特征学习算法，根据周围环境生成任意图像区域的内容，该方法采用像素级的重构损失和对抗损失作为监督信号训练神经网络模型，用于直接预测缺失的像素值。此种方式仅考虑到了像素级重构损失和对抗损失，只能重建区域的像素值，而不能控制重建区域的目标结构和视觉纹理。

发明内容

本申请实施例提供一种图像修复模型训练方法、装置、电子设备及存储介质，以解决相关技术中仅考虑到了像素级重构损失和对抗损失，只能重建区域的像素值，而不能控制重建区域的目标结构和视觉纹理的问题。

为了解决上述技术问题，本申请实施例是这样实现的：

第一方面，本申请实施例提供了一种图像修复模型训练方法，所述方法包括：

对待处理图像进行切片处理，构建得到模型训练样本；

基于待训练图像修复模型对所述模型训练样本进行处理，以得到所述模型训练样本的像素特征、结构特征和视觉感知特征；其中，像素特征用于指示输出图像中每个像素的像素值的特征，结构特征用于指示输出图像的灰度标准差、平均灰度值、以及输入图像与输出图像的灰度协方差的特征，视觉感知特征用于指示识别得到的输出图像内包含的物体的特征；

基于所述像素特征、所述结构特征和所述视觉感知特征，分别计算得到重构损失函数、结构相似损失函数和视觉感知损失函数；

基于所述重构损失函数、所述结构相似损失函数和所述视觉感知损失函数，计算得到所述待训练图像修复模型的损失函数；

在基于所述损失函数确定所述待训练图像修复模型收敛的情况下，得到所述图像修复模型。

可选地，所述对待处理图像进行切片处理，构建得到模型训练样本，包括：

对所述待处理图像进行图像片划分处理，得到所述待处理图像的多个图像片；

随机选取所述多个图像片中的至少一个图像片；

对所述至少一个图像片进行遮挡处理，得到遮挡图像片；

基于所述遮挡图像片和所述多个图像片中的未遮挡图像片，构建得到所述模型训练样本。

可选地，所述待训练图像修复模型包括：线性投影层、编码层、图像像素重建层和图像分类网络层，

所述基于待训练图像修复模型对所述模型训练样本进行处理，以得到所述模型训练样本的像素特征、结构特征和视觉感知特征，包括：

将所述模型训练样本输入至所述待训练图像修复模型；

调用所述线性投影层对所述模型训练样本进行处理，得到所述模型训练样本的图像特征嵌入；

调用所述编码层对所述图像特征嵌入进行处理，得到所述模型训练样本的输出特征嵌入；

调用所述图像像素重建层对所述输出特征嵌入进行特征重建处理，得到所述模型训练样本的像素特征和结构特征；

调用所述图像分类网络层对所述输出特征嵌入进行处理，得到所述模型训练样本的视觉感知特征。

可选地，所述调用所述线性投影层对所述模型训练样本进行处理，得到所述模型训练样本的图像特征嵌入，包括：

调用所述线性投影层对所述模型训练样本中的未遮挡图像片进行处理，得到所述未遮挡图像片的第一特征嵌入；

将所述第一特征嵌入与所述未遮挡图像片的位置编码信息进行叠加，以得到所述未遮挡图像片的图像特征嵌入。

可选地，所述方法还包括：

确定所述遮挡图像片的可学习特征嵌入；

将所述可学习特征嵌入与所述遮挡图像片的位置编码信息进行叠加，以得到所述遮挡图像片的图像特征嵌入。

可选地，所述编码层包括：自注意力层、第一归一化层、前馈神经网络层和第二归一化层，

所述调用所述编码层对所述图像特征嵌入进行处理，得到所述模型训练样本的输出特征嵌入，包括：

调用所述自注意力层对所述图像特征嵌入进行注意力学习，得到所述图像特征嵌入的初始特征嵌入，并将所述图像特征嵌入与所述初始特征嵌入按位相加，得到注意力特征嵌入；

调用所述第一归一化层对所述注意力特征嵌入进行归一化处理，得到归一化特征嵌入；

调用所述前馈神经网络层对所述归一化特征嵌入进行线性转换处理，得到前馈特征嵌入；

将所述归一化特征嵌入和所述前馈特征嵌入按位相加，得到相加特征嵌入；

调用所述第二归一化层对所述相加特征嵌入进行归一化处理，得到输出特征嵌入。

可选地，所述自注意力层包括：匹配计算层、缩放层、激活函数层和特征嵌入计算层，

所述调用所述自注意力层对所述图像特征嵌入进行注意力学习，得到所述图像特征嵌入的注意力特征嵌入，包括：

对所述图像特征嵌入进行处理，得到所述图像特征嵌入对应的查询值、键值和特征嵌入值；

调用所述匹配计算层计算所述查询值与所述键值之间的点乘值；

调用所述缩放层对所述点乘值进行缩放处理，得到缩放点乘值；

调用所述激活函数层对所述缩放点乘值进行转化处理，得到概率值；

调用所述特征嵌入计算层对所述概率值和所述特征嵌入值进行处理，得到所述图像特征嵌入的注意力特征嵌入。

可选地，所述对所述图像特征嵌入进行处理，得到所述图像特征嵌入对应的查询值、键值和特征嵌入值，包括：

基于查询值变换矩阵对所述图像特征嵌入进行处理，得到所述查询值；

基于键值变换矩阵对所述图像特征嵌入进行处理，得到所述键值；

基于特征嵌入值变换矩阵对所述图像特征嵌入进行处理，得到所述特征嵌入值。

可选地，所述图像像素重建层包括：第一全连接神经网络层和第二全连接神经，

所述调用所述图像像素重建层对所述输出特征嵌入进行特征重建处理，得到所述模型训练样本的像素特征和结构特征，包括：

调用所述第一全连接神经网络层对所述输出特征嵌入进行处理，得到所述输出特征嵌入的指定维度的特征嵌入；

调用所述第二全连接网络层对所述指定维度的特征嵌入进行处理，得到重建图像片，所述重建图像片中包含所述像素特征和所述结构特征。

可选地，通过以下公式计算得到所述重构损失函数：

上述公式中，/>为第/>图像片的重构损失函数，/>为一维向量维数，/>为第/>图像片的一维向量，/>为图像像素重建层输出的第/>图像片的一维向量。

可选地，通过以下公式计算得到所述结构相似损失函数：

上述公式中，/>是第/>图像片的平均灰度值，是第/>图像片的灰度标准差，/>是图像像素重建层输出的第/>图像片的平均灰度值，是图像像素重建层输出的第/>图像片的灰度标准差，/>是上述两幅图像的灰度协方差，，/>，其中，/>和/>为常数，/>为与输入图像的像素值范围的最大值。

可选地，通过以下公式计算得到所述视觉感知损失函数：

上述公式中，/>为视觉感知损失函数，/>为输入至模型的第i图像片的特征向量，/>为图像分类网络层输出第i图像片的特征向量。

可选地，所述基于所述重构损失函数、所述结构相似损失函数和所述视觉感知损失函数，计算得到所述待训练图像修复模型的损失函数，包括：

获取所述结构相似损失函数的第一权重，及所述视觉感知损失函数的第二权重；

基于所述重构损失函数、所述结构相似损失函数和所述第一权重、及所述视觉感知损失函数和所述第二权重，计算得到所述待训练图像修复模型的损失函数。

可选地，通过以下公式计算得到所述损失函数：

上述公式中，/>为第i图像片的总损失函数，/>为重构损失函数，/>为结构相似损失函数，/>为视觉感知损失函数，/>为第一权重，/>为第二权重，/>为损失函数，/>为图像片总数。

可选地，所述基于所述像素特征、所述结构特征和所述视觉感知特征，分别计算得到重构损失函数、结构相似损失函数和视觉感知损失函数，包括：

基于未遮挡图像片的像素特征、结构特征和视觉感知特征，分别计算得到所述未遮挡图像片的第一重构损失函数、第一结构相似损失函数和第一视觉感知损失函数；

基于遮挡图像片的像素特征、结构特征和视觉感知特征，分别计算得到所述遮挡图像片的第二重构损失函数、第二结构相似损失函数和第二视觉感知损失函数；

基于所述第一重构损失函数、所述第一结构相似损失函数和所述第一视觉感知损失函数，计算得到所述未遮挡图像片的第一损失函数；

基于所述第二重构损失函数、所述第二结构相似损失函数和所述第二视觉感知损失函数，计算得到所述遮挡图像片的第二损失函数；

基于所述第一损失函数、所述第二损失函数、所述待训练图像修复模型的总周期数和当前训练周期数，计算得到所述待训练图像修复模型的损失函数。

可选地，通过以下公式计算得到所述损失函数：

上述公式中，/>为损失函数，/>为第一损失函数，/>为第二损失函数，/>为未遮挡图像片中第i图像片的损失函数，/>为遮挡图像片中第i图像片的损失函数，/>为未遮挡图像片的数量，/>为图像片的总数量，/>为训练总周期数，/>为当前训练周期数。

可选地，在所述将训练后的待训练图像修复模型作为最终的图像修复模型之后，还包括：

获取待修复图像；

在所述待修复图像上标记待修复区域；

基于所述待修复区域对所述待修复图像进行裁剪处理，得到待修复子图像；

对所述待修复子图像进行图像片划分处理，得到未遮挡图像片区域和遮挡图像片区域；

基于所述图像修复模型对所述未遮挡图像片区域和所述遮挡图像片区域进行重建处理，以得到重建遮挡图像片区域；

基于所述重建遮挡图像片区域替换所述待修复图像的对应区域，得到修复图像。

第二方面，本申请实施例提供了一种图像修复模型训练装置，所述装置包括：

模型样本构建模块，用于对待处理图像进行切片处理，构建得到模型训练样本；

图像特征获取模块，用于基于待训练图像修复模型对所述模型训练样本进行处理，以得到所述模型训练样本的像素特征、结构特征和视觉感知特征；其中，像素特征用于指示输出图像中每个像素的像素值的特征，结构特征用于指示输出图像的灰度标准差、平均灰度值、以及输入图像与输出图像的灰度协方差的特征，视觉感知特征用于指示识别得到的输出图像内包含的物体的特征；

第一损失计算模块，用于基于所述像素特征、所述结构特征和所述视觉感知特征，分别计算得到重构损失函数、结构相似损失函数和视觉感知损失函数；

第二损失计算模块，用于基于所述重构损失函数、所述结构相似损失函数和所述视觉感知损失函数，计算得到所述待训练图像修复模型的损失函数；

图像修复模型获取模块，用于在基于所述损失函数确定所述待训练图像修复模型收敛的情况下，得到所述图像修复模型。

可选地，所述模型样本构建模块包括：

图像片获取单元，用于对所述待处理图像进行图像片划分处理，得到所述待处理图像的多个图像片；

图像片选取单元，用于随机选取所述多个图像片中的至少一个图像片；

遮挡图像片获取单元，用于对所述至少一个图像片进行遮挡处理，得到遮挡图像片；

模型样本构建单元，用于基于所述遮挡图像片和所述多个图像片中的未遮挡图像片，构建得到所述模型训练样本。

所述图像特征获取模块包括：

模型样本输入单元，用于将所述模型训练样本输入至所述待训练图像修复模型；

图像特征嵌入获取单元，用于调用所述线性投影层对所述模型训练样本进行处理，得到所述模型训练样本的图像特征嵌入；

输出特征嵌入获取单元，用于调用所述编码层对所述图像特征嵌入进行处理，得到所述模型训练样本的输出特征嵌入；

像素结构特征获取单元，用于调用所述图像像素重建层对所述输出特征嵌入进行特征重建处理，得到所述模型训练样本的像素特征和结构特征；

视觉感知特征获取单元，用于调用所述图像分类网络层对所述输出特征嵌入进行处理，得到所述模型训练样本的视觉感知特征。

可选地，所述图像特征嵌入获取单元包括：

第一特征嵌入获取子单元，用于调用所述线性投影层对所述模型训练样本中的未遮挡图像片进行处理，得到所述未遮挡图像片的第一特征嵌入；

图像特征嵌入获取子单元，用于将所述第一特征嵌入与所述未遮挡图像片的位置编码信息进行叠加，以得到所述未遮挡图像片的图像特征嵌入。

可选地，所述装置还包括：

可学习嵌入确定模块，用于确定所述遮挡图像片的可学习特征嵌入；

图像特征嵌入获取模块，用于将所述可学习特征嵌入与所述遮挡图像片的位置编码信息进行叠加，以得到所述遮挡图像片的图像特征嵌入。

所述输出特征嵌入获取单元包括：

注意力特征嵌入获取子单元，用于调用所述自注意力层对所述图像特征嵌入进行注意力学习，得到所述图像特征嵌入的初始特征嵌入，并将所述图像特征嵌入与所述初始特征嵌入按位相加，得到注意力特征嵌入；

归一化特征嵌入获取子单元，用于调用所述第一归一化层对所述注意力特征嵌入进行归一化处理，得到归一化特征嵌入；

前馈特征嵌入获取子单元，用于调用所述前馈神经网络层对所述归一化特征嵌入进行线性转换处理，得到前馈特征嵌入；

相加特征嵌入获取子单元，用于将所述归一化特征嵌入和所述前馈特征嵌入按位相加，得到相加特征嵌入；

输出特征嵌入获取子单元，用于调用所述第二归一化层对所述相加特征嵌入进行归一化处理，得到输出特征嵌入。

所述注意力特征嵌入获取子单元包括：

嵌入值获取子单元，用于对所述图像特征嵌入进行处理，得到所述图像特征嵌入对应的查询值、键值和特征嵌入值；

点乘值计算子单元，用于调用所述匹配计算层计算所述查询值与所述键值之间的点乘值；

缩放点乘值获取子单元，用于调用所述缩放层对所述点乘值进行缩放处理，得到缩放点乘值；

概率值获取子单元，用于调用所述激活函数层对所述缩放点乘值进行转化处理，得到概率值；

注意力嵌入获取子单元，用于调用所述特征嵌入计算层对所述概率值和所述特征嵌入值进行处理，得到所述图像特征嵌入的注意力特征嵌入。

可选地，所述嵌入值获取子单元包括：

查询值获取子单元，用于基于查询值变换矩阵对所述图像特征嵌入进行处理，得到所述查询值；

键值获取子单元，用于基于键值变换矩阵对所述图像特征嵌入进行处理，得到所述键值；

特征嵌入值获取子单元，用于基于特征嵌入值变换矩阵对所述图像特征嵌入进行处理，得到所述特征嵌入值。

所述像素结构特征获取单元包括：

特征嵌入获取子单元，用于调用所述第一全连接神经网络层对所述输出特征嵌入进行处理，得到所述输出特征嵌入的指定维度的特征嵌入；

重建图像片获取子单元，用于调用所述第二全连接网络层对所述指定维度的特征嵌入进行处理，得到重建图像片，所述重建图像片中包含所述像素特征和所述结构特征。

可选地，通过以下公式计算得到所述重构损失函数：

可选地，通过以下公式计算得到所述结构相似损失函数：

可选地，通过以下公式计算得到所述视觉感知损失函数：

可选地，所述第二损失计算模块包括：

权重获取单元，用于获取所述结构相似损失函数的第一权重，及所述视觉感知损失函数的第二权重；

第一损失计算单元，用于基于所述重构损失函数、所述结构相似损失函数和所述第一权重、及所述视觉感知损失函数和所述第二权重，计算得到所述待训练图像修复模型的损失函数。

可选地，通过以下公式计算得到所述损失函数：

可选地，所述第一损失计算模块包括：

第二损失计算单元，用于基于未遮挡图像片的像素特征、结构特征和视觉感知特征，分别计算得到所述未遮挡图像片的第一重构损失函数、第一结构相似损失函数和第一视觉感知损失函数；

第三损失计算单元，用于基于遮挡图像片的像素特征、结构特征和视觉感知特征，分别计算得到所述遮挡图像片的第二重构损失函数、第二结构相似损失函数和第二视觉感知损失函数。

可选地，所述第二损失计算模块包括：

第四损失计算单元，用于基于所述第一重构损失函数、所述第一结构相似损失函数和所述第一视觉感知损失函数，计算得到所述未遮挡图像片的第一损失函数；

第五损失计算单元，用于基于所述第二重构损失函数、所述第二结构相似损失函数和所述第二视觉感知损失函数，计算得到所述遮挡图像片的第二损失函数；

第六损失计算单元，用于基于所述第一损失函数、所述第二损失函数、所述待训练图像修复模型的总周期数和当前训练周期数，计算得到所述待训练图像修复模型的损失函数。

可选地，通过以下公式计算得到所述损失函数：

可选地，所述装置还包括：

待修复图像获取模块，用于获取待修复图像；

待修复区域标记模块，用于在所述待修复图像上标记待修复区域；

待修复子图像获取模块，用于基于所述待修复区域对所述待修复图像进行裁剪处理，得到待修复子图像；

图像片区域获取模块，用于对所述待修复子图像进行图像片划分处理，得到未遮挡图像片区域和遮挡图像片区域；

图像片区域重建模块，用于基于所述图像修复模型对所述未遮挡图像片区域和所述遮挡图像片区域进行重建处理，以得到重建遮挡图像片区域；

修复图像获取模块，用于基于所述重建遮挡图像片区域替换所述待修复图像的对应区域，得到修复图像。

第三方面，本申请实施例提供了一种电子设备，包括：

存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述任一项所述的图像修复模型训练方法。

第四方面，本申请实施例提供了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述任一项所述的图像修复模型训练方法。

在本申请实施例中，通过对待处理图像进行切片处理，构建得到模型训练样本。基于待训练图像修复模型对模型训练样本进行处理，以得到模型训练样本的像素特征、结构特征和视觉感知特征。基于像素特征、结构特征和视觉感知特征，分别计算得到重构损失函数、结构相似损失函数和视觉感知损失函数。基于重构损失函数、结构相似损失函数和视觉感知损失函数，计算得到待训练图像修复模型的损失函数。在基于损失函数确定待训练图像修复模型收敛的情况下，得到图像修复模型。本申请实施例通过考虑了图像的低级特征（像素）和中级特征（结构）和高级特征（视觉感知）以构建重构损失、结构相似损失和视觉感知损失，从而可以使模型能够从上述三个层级恢复原始信息，以在重建区域像素值的基础上，有效控制重建区域的目标结构和视觉纹理，并使得修复的图像具有更好的视觉效果。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种图像修复模型训练方法的步骤流程图；

图2为本申请实施例提供的一种模型训练样本构建方法的步骤流程图；

图3为本申请实施例提供的一种特征获取方法的步骤流程图；

图4为本申请实施例提供的一种图像特征嵌入获取方法的步骤流程图；

图5为本申请实施例提供的另一种图像特征嵌入获取方法的步骤流程图；

图6为本申请实施例提供的一种输出特征嵌入获取方法的步骤流程图；

图7为本申请实施例提供的一种注意力特征嵌入获取方法的步骤流程图；

图8为本申请实施例提供的一种特征值获取方法的步骤流程图；

图9为本申请实施例提供的一种重建图像片获取方法的步骤流程图；

图10为本申请实施例提供的一种损失函数计算方法的步骤流程图；

图11为本申请实施例提供的另一种损失函数计算方法的步骤流程图；

图12为本申请实施例提供的又一种损失函数计算方法的步骤流程图；

图13为本申请实施例提供的一种修复图像获取方法的步骤流程图；

图14为本申请实施例提供的一种图像修复架构的示意图；

图15为本申请实施例提供的一种图像片划分流程的示意图；

图16为本申请实施例提供的一种Transformer编码层的示意图；

图17为本申请实施例提供的一种自注意力层的示意图；

图18为本申请实施例提供的一种图像修复模型修复装置的结构示意图；

图19为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参照图1，示出了本申请实施例提供的一种图像修复模型训练方法的步骤流程图，如图1所示，该图像修复模型训练方法可以包括：步骤101、步骤102、步骤103、步骤104和步骤105。

步骤101：对待处理图像进行切片处理，构建得到模型训练样本。

本申请实施例可以应用于训练具备像素重建能力，且能控制重建区域的目标结构和视觉纹理的图像修复模型的场景中。

待处理图像可以为构建模型训练样本的图像，在本示例中，待处理图像是与图像修复任务密切相关，例如，若图像修复任务是修复任意的自然图像，那么待处理图像应包含各种类别的自然图像，涵盖各种背景、光照、季节变化等。若图像修复任务是修复人脸图像，那么待处理图像应包含人脸图像，涵盖各种姿态、年龄、种族、各类脸部附属物等。随着数字技术的发展，各类图像生成技术可以生成逼真的数字图像，这些数字图像也可以作为图像修复任务的待处理图像，用以补充特定类别的图像。

可以理解地，上述示例仅是为了更好地理解本申请实施例的技术方案而列举的示例，不作为对本实施例的唯一限制。

在构建模型训练样本时，可以获取待处理图像，并对待处理图像进行切片处理，以构建得到用于训练图像修复模型的模型训练样本。

在具体实现中，在得到待处理图像之后，可以对待处理图像进行图像片划分以得到多个图像片，然后，可以随机选取多个图像片的至少一个图像片进行遮挡处理，从而构建得到模型训练样本。对于该实现过程可以结合图2进行如下详细描述。

参照图2，示出了本申请实施例提供的一种模型训练样本构建方法的步骤流程图。如图2所示，该模型训练样本构建方法可以包括：步骤201、步骤202、步骤203和步骤204。

步骤201：对所述待处理图像进行图像片划分处理，得到所述待处理图像的多个图像片。

在本申请实施例中，在得到待处理图像之后，可以对待处理图像进行图像片划分处理，以得到待处理图像的多个图像片。

在对待处理图像进行图像片划分处理得到待处理图像的多个图像片之后，执行步骤202。

步骤202：随机选取所述多个图像片中的至少一个图像片。

在得到待处理图像的多个图像片之后，则可以随机选取多个图像片中的至少一个图像片。

步骤203：对所述至少一个图像片进行遮挡处理，得到遮挡图像片。

进而，可以对选取的至少一个图像片进行遮挡处理，以得到遮挡图像片。

可以理解地，遮挡的图像片的数量应当小于待处理图像划分的多个图像片的数量。

在对至少一个图像片进行遮挡处理得到遮挡图像片之后，执行步骤204。

步骤204：基于所述遮挡图像片和所述多个图像片中的未遮挡图像片，构建得到所述模型训练样本。

在对至少一个图像片进行遮挡处理得到遮挡图像片之后，则可以基于遮挡图像片和多个图像片中的未遮挡图像片构建得到模型训练样本。

在神经网络训练过程中，本实施例从输入图像/样本截取固定大小的子图像，并将上述子图像切分成图像片，然后随机遮挡一个或者多个图像片来创建含有遮挡区域的训练样本（模拟图像损坏的情况）。将上述图像片分为两个集合：被遮挡图像片集合和未被遮挡图像片集合。

假设训练集中的任意一个图像为/>，图像宽度为/>，图像高度为/>，通道为/>，/>,/>，/>（这里的图像宽度、图像高度和通道数是示例性数字，本实施例的应用范围不局限于上述指定的图像规格）。

根据上述图像，创建用于训练的图像片的步骤如下：

步骤一：在上述图像中随机选取一个宽度是224像素、高度是224像素的子图像，定义为/>。

步骤二：将上述子图像划分为196个不重叠的16*16图像片，定义图像片的集合为/>。

步骤三：随机遮挡其中一个或者多个图像片。所谓遮挡一个或者多个图像片是将上述区域里面的像素值设置为零值或者其他固定值或者采用其他方式记录下来。值得注意的是，这些被遮挡的图像片的原始像素值被保存下来，用于计算损失值。

图像片的尺寸设置与图像修复任务的最终目标相关。本实施例可以采用以下设置方案：如果待修复区域的尺寸不大于16*16像素，那么子区域的尺寸可以设置为16*16像素；如果待修复区域的尺寸不大于32*32像素，那么子区域的尺寸可以设置为32*32像素。

图15是将一个示例图像划分为若干个图像片的示意图。示例图像被分割为相同大小的不重合的9个区域，然后，随机选择2个图像片作为被遮挡图像片。即可以得到示例图像的模型训练样本。

在对待处理图像进行切片处理构建得到模型训练样本之后，执行步骤102。

步骤102：基于待训练图像修复模型对所述模型训练样本进行处理，以得到所述模型训练样本的像素特征、结构特征和视觉感知特征。

在本示例中，像素特征用于指示输出图像中每个像素的像素值的特征。

结构特征用于指示输出图像的灰度标准差、平均灰度值、以及输入图像与输出图像的灰度协方差的特征。

视觉感知特征用于指示识别得到的输出图像内包含的物体的特征。

在对待处理图像进行切片处理构建得到模型训练样本之后，则可以基于待训练图像修复模型对模型训练样本进行处理，以得到模型训练样本的像素特征、结构特征和视觉感知特征。本实施例通过学习图像的低级特征（像素）和中级特征（结构）和高级特征（视觉感知），从而可以使模型能够从这三个层级恢复原始信息，提高图像修复效果。

在本实施例中，待训练图像修复模型包括：线性投影层、编码层、图像像素重建层和图像分类网络层，通过这些神经网络层对模型训练样本进行处理，即可以得到模型训练样本的像素特征、结构特征和视觉感知特征。对于该实现过程可以结合图3进行如下详细描述。

参照图3，示出了本申请实施例提供的一种特征获取方法的步骤流程图。如图3所示，该特征获取方法可以包括：步骤301、步骤302、步骤303、步骤304和步骤305。

步骤301：将所述模型训练样本输入至所述待训练图像修复模型。

在本申请实施例中，待训练图像修复模型可以包括：线性投影层、编码层、图像像素重建层和图像分类网络层。

在获取到模型训练样本之后，则可以将模型训练样本输入至待训练图像修复模型。

在将模型训练样本输入至待训练图像修复模型之后，执行步骤302。

步骤302：调用所述线性投影层对所述模型训练样本进行处理，得到所述模型训练样本的图像特征嵌入。

在将模型训练样本输入至待训练图像修复模型之后，则可以调用线性投影层对模型训练样本进行处理，以得到模型训练样本的图像特征嵌入。

在本示例中，特征嵌入是指一个一维特征向量，如256维特征向量等。

针对未遮挡图像片的特征嵌入获取流程可以结合图4进行如下详细描述。

参照图4，示出了本申请实施例提供的一种图像特征嵌入获取方法的步骤流程图。如图4所示，该图像特征嵌入获取方法可以包括：步骤401和步骤402。

步骤401：调用所述线性投影层对所述模型训练样本中的未遮挡图像片进行处理，得到所述未遮挡图像片的第一特征嵌入。

在本申请实施例中，针对模型训练样本中的未遮挡图像片，可以调用线性投影层对未遮挡图像片进行处理，得到未遮挡图像片的第一特征嵌入。

在调用线性投影层对未遮挡图像片进行处理得到未遮挡图像片的第一特征嵌入之后，执行步骤402。

步骤402：将所述第一特征嵌入与所述未遮挡图像片的位置编码信息进行叠加，以得到所述未遮挡图像片的图像特征嵌入。

在调用线性投影层对未遮挡图像片进行处理得到未遮挡图像片的第一特征嵌入之后，则可以将第一特征嵌入于未遮挡图像片的位置编码信息进行叠加，以得到未遮挡图像片的图像特征嵌入。

在具体实现中，为了充分利用图像片的位置信息，本实施例中增加位置编码来编码图像片的绝对位置和相对位置。位置编码与上述特征嵌入具有相同维度的一维向量。每个图像片对应一个位置编码。线性投影层输出的每个图像片的特征嵌入与对应的位置编码叠加，对应被遮挡区域的可学习特征嵌入也与对应的位置编码叠加，所谓叠加就是按位置逐像素相加。本示例中可以使用不同频率的正弦函数和余弦函数作为位置编码。

线性投影层是可学习的前馈神经网络。本实施例采用一个全连接神经网络来实现线性投影层。线性投影层的输入是二维图像片经过展平操作得到的一维像素向量。假设输入的二维图像片是16*16*3像素（其中，第一个16代表图像宽度，第二个16代表图像高度，3代表通道数），那么一维像素向量是维向量，/> 线性投影层的输出是二维图像片经过展平操作得到的一维像素向量经过前馈神经网络得到的维向量。这里，线性投影层的权重在各个未被遮挡的图像片之间共享，也就是说任意一个未被遮挡的图像片都经过同一个前馈神经网络得到该图像片的/>特征嵌入。

被遮挡的图像片不经过线性投影层，被遮挡的图像片输入到Transformer解码器的特征嵌入是可学习的特征嵌入。本实施例采用随机初始化的方式初始化可学习的/>特征嵌入，然后在模型训练过程中自动更新可学习的特征嵌入。所有被遮挡的图像片共享同一个可学习特征嵌入。

对于遮挡图像片的图像特征嵌入的获取流程可以结合图5进行如下详细描述。

参照图5，示出了本申请实施例提供的另一种图像特征嵌入获取方法的步骤流程图。如图5所示，该图像特征嵌入获取方法可以包括：步骤501和步骤502。

步骤501：确定所述遮挡图像片的可学习特征嵌入。

在本实施例中，针对遮挡图像片，可以先确定遮挡图像片的可学习特征嵌入。具体地，可以采用随机初始化的方式初始化可学习的特征嵌入。

在得到遮挡图像片的可学习特征嵌入之后，执行步骤502。

步骤502：将所述可学习特征嵌入与所述遮挡图像片的位置编码信息进行叠加，以得到所述遮挡图像片的图像特征嵌入。

在得到遮挡图像片的可学习特征嵌入之后，则可以将可学习特征嵌入与遮挡图像片的位置编码信息进行叠加，以得到遮挡图像片的图像特征嵌入。

在得到模型训练样本的图像特征嵌入之后，执行步骤303。

步骤303：调用所述编码层对所述图像特征嵌入进行处理，得到所述模型训练样本的输出特征嵌入。

在得到模型训练样本的图像特征嵌入之后，则可以调用编码层对对图像特征嵌入进行处理，以得到模型训练样本的输出特征嵌入。具体地， Transformer编码层可以根据图像片（包含遮挡图像片和未遮挡图像片）的特征嵌入和对应的位置编码生成每个图像片的输出特征嵌入。

在本示例中，编码层可以包括：自注意力层、第一归一化层、前馈神经网络层和第二归一化层，通过这几个网络层对图像特征嵌入进行处理即可以得到输出特征嵌入。对于该处理过程可以结合图6进行如下详细描述。

参照图6，示出了本申请实施例提供的一种输出特征嵌入获取方法的步骤流程图。如图6所示，该输出特征嵌入获取方法可以包括：步骤601、步骤602、步骤603、步骤604和步骤605。

步骤601：调用所述自注意力层对所述图像特征嵌入进行注意力学习，得到所述图像特征嵌入的初始特征嵌入，并将所述图像特征嵌入与所述初始特征嵌入按位相加，得到注意力特征嵌入。

在本实施例中，编码层可以包括：自注意力层、第一归一化层、前馈神经网络层和第二归一化层，如图16所示。

在得到图像特征嵌入之后，则可以调用自注意力层对图像特征嵌入进行注意力学习，得到图像特征嵌入的初始特征嵌入，然后，可以将图像特征嵌入于初始特征嵌入按位相加，即可以得到注意力特征嵌入。即通过残差连接方式将图像特征嵌入与初始特征嵌入按位相加，得到注意力特征嵌入。残差连接应用于自注意力层的残差连接将自注意力层的输入特征嵌入与自注意力层的输出特征嵌入按位相加。

在本示例中，自注意力层的输入是前一个子网络输出的特征嵌入（featureembedding）。在Transformer编码器的输入端，自注意力层的输入是图像片的特征嵌入（特征嵌入与对应的位置编码叠加构成自注意力层的输入）。

在本示例中，自注意力层可以包括：匹配计算层、缩放层、激活函数层和特征嵌入计算层，这些网络层可以通过相应的计算方式得到自注意力特征嵌入。对于该实现过程可以结合图7进行如下详细描述。

参照图7，示出了本申请实施例提供的一种注意力特征嵌入获取方法的步骤流程图。如图7所示，该注意力特征嵌入获取方法可以包括：步骤701、步骤702、步骤703、步骤704和步骤705。

步骤701：对所述图像特征嵌入进行处理，得到所述图像特征嵌入对应的查询值、键值和特征嵌入值。

在本申请实施例中，在得到图像特征嵌入之后，则可以对图像特征嵌入进行处理，得到图像特征嵌入对应的查询值、键值和特征嵌入值。对于查询值、键值和特征嵌入值的计算过程可以结合图8进行如下详细描述。

参照图8，示出了本申请实施例提供的一种特征值获取方法的步骤流程图。如图8所示，该特征值获取方法可以包括：步骤801、步骤802和步骤803。

步骤801：基于查询值变换矩阵对所述图像特征嵌入进行处理，得到所述查询值。

在本实施例中，可以基于查询值变换矩阵对所述图像特征嵌入进行处理，以得到查询值。如图17所示，特征嵌入经过查询值变换矩阵，即可以得到查询值。

步骤802：基于键值变换矩阵对所述图像特征嵌入进行处理，得到所述键值。

可以基于键值变换矩阵对图像特征嵌入进行处理，以得到键值。如图2所示，特征嵌入经过键值变换矩阵即可以得到键值。

步骤803：基于特征嵌入值变换矩阵对所述图像特征嵌入进行处理，得到所述特征嵌入值。

可以基于特征嵌入值变换矩阵对图像特征嵌入进行处理，以得到特征嵌入值。如图17所示特征嵌入经过特征嵌入值变换矩阵即可以得到特征嵌入值。

对任意一个子结构，Transformer编码器的每个子结构的处理方式相同。假设第/>个特征嵌入为/>，其中K代表特征嵌入的总数（对应图像片的总数），/>代表维度。特征嵌入/>经过查询值变换矩阵/>生成查询值/>,特征嵌入经过键值变换矩阵/>生成键值/>, 特征嵌入/>经过特征嵌入值变换矩阵/>生成特征嵌入值/>，其中，查询值和键值的维度相同，它们的维度与特征嵌入值的维度可以相同（/>），也可以不同（/>）。在本实施例中，/>。在同一层，全部共享一组、/>和/>。/>、/>和/>的元素值在模型训练过程中学习得到。

如图17所示，得到的值依次经过匹配计算层、缩放层、Softmax层和特征嵌入计算层的计算流程之后，即可以得到输出特征嵌入。

步骤702：调用所述匹配计算层计算所述查询值与所述键值之间的点乘值。

在得到查询值和键值之后，可以调用匹配计算层计算查询值与键值之间的点乘值。具体地，匹配计算层可以计算查询值与键值/>的点乘值，获得K个点乘值，如下述公式（1）所示：

（1）上述公式中，/>代表/>的转置向量（/>是列向量，/>为行向量）。

在调用匹配计算层计算得到查询值与键值之间的点乘值之后，执行步骤703。

步骤703：调用所述缩放层对所述点乘值进行缩放处理，得到缩放点乘值。

在调用匹配计算层计算得到查询值与键值之间的点乘值之后，则可以调用缩放层对点乘值进行缩放处理，得到缩放点乘值。具体地，缩放层对上述点乘值进行缩放，得到缩放点乘值，如下公式（2）所示：

（2）

在调用缩放层对点乘值进行缩放处理得到缩放点乘值之后，执行步骤704。

步骤704：调用所述激活函数层对所述缩放点乘值进行转化处理，得到概率值。

在调用缩放层对点乘值进行缩放处理得到缩放点乘值之后，则可以调用激活函数层对缩放点乘值进行转化处理，以得到概率值。具体地，Softmax层（即激活函数层）可以将上述点乘值转化为概率值。

其中，，定义/>。

步骤705：调用所述特征嵌入计算层对所述概率值和所述特征嵌入值进行处理，得到所述图像特征嵌入的注意力特征嵌入。

在调用激活函数层对缩放点乘值进行转化处理得到概率值之后，可以调用特征嵌入计算层对概率值和特征嵌入值进行处理，得到图像特征嵌入的注意力特征嵌入。具体地，特征嵌入计算层计算对应的特征嵌入/>，如下公式所示：

（3）

在得到注意力特征嵌入之后，执行步骤602。

步骤602：调用所述第一归一化层对所述注意力特征嵌入进行归一化处理，得到归一化特征嵌入。

在得到注意力特征嵌入之后，则可以调用第一归一化层对注意力特征嵌入进行归一化处理，得到归一化特征嵌入。

在本示例中，第一归一化层可以为层归一化（layer Norm）。对于归一化层的任意输入向量，层归一化采用下述公式进行计算：

（4）

其中，是/>中所有元素的均值/>，/>为/>中一个元素。

是均方差/>，/>和/>是可学习参数。

在调用第一归一化层对注意力特征嵌入进行归一化处理，得到归一化特征嵌入之后，执行步骤603。

步骤603：调用所述前馈神经网络层对所述归一化特征嵌入进行线性转换处理，得到前馈特征嵌入。

在调用第一归一化层对注意力特征嵌入进行归一化处理，得到归一化特征嵌入之后，则可以调用前馈神经网络层对归一化特征嵌入进行线性转换处理，得到前馈特征嵌入。

在本申请实施例中，前馈神经网络层是利用级联的两层全连接网络实现的线性转换层，然后加上一个ReLU激活函数。前馈神经网络的输入是的特征嵌入，输出也是/>的特征嵌入，前馈神经网络的内部隐藏神经单元数是/>，/>，本实施例可以采用/>。

在调用前馈神经网络层对归一化特征嵌入进行线性转换处理，得到前馈特征嵌入之后，执行步骤604。

步骤604：将所述归一化特征嵌入和所述前馈特征嵌入按位相加，得到相加特征嵌入。

在调用前馈神经网络层对归一化特征嵌入进行线性转换处理，得到前馈特征嵌入之后，则可以将归一化特征嵌入和前馈特征嵌入按位相加，得到相加特征嵌入。

在得到相加特征嵌入之后，执行步骤605。

步骤605：调用所述第二归一化层对所述相加特征嵌入进行归一化处理，得到输出特征嵌入。

在得到相加特征嵌入之后，则可以调用第二归一化层对相加特征嵌入进行归一化处理，以得到输出特征嵌入。

在调用编码层对图像特征嵌入进行处理得到模型训练样本的输出特征嵌入之后，执行步骤304。

步骤304：调用所述图像像素重建层对所述输出特征嵌入进行特征重建处理，得到所述模型训练样本的像素特征和结构特征。

在调用编码层对图像特征嵌入进行处理得到模型训练样本的输出特征嵌入之后，则可以调用图像像素重建层对输出特征嵌入进行特征重建处理，得到模型训练样本的像素特征和结构特征。

在本实施例中，图像像素重建层是一个前馈神经网络，包括2个级联的全连接神经网络层，其中：第一个全连接神经网络层的输入是维特征向量（特征嵌入），输出是/>维特征向量(/>),本实施例采用/>；第二个全连接神经网络层的输入是第一个全连接神经网络层的输出向量，第二个全连接神经网络层的输出是重建的图像。所有图像片共享一个图像像素重建层的全连接神经网络层。

图像像素重建层重建输入的全部图像片，图像像素重建层的输入是Transformer编码层输出的对应图像片的特征嵌入，图像像素重建层的输出是重建的图像片。在本实施例中，输入图像片的规格是宽度等于16、高度等于16、通道数等于3。输出的重建图像片的规格也是宽度等于16、高度等于16、通道数等于3。

对于图像像素重建层的处理过程可以结合下述图9进行如下详细描述。

参照图9，示出了本申请实施例提供的一种重建图像片获取方法的步骤流程图。如图9所示，该重建图像片获取方法可以包括：步骤901和步骤902。

步骤901：调用所述第一全连接神经网络层对所述输出特征嵌入进行处理，得到所述输出特征嵌入的指定维度的特征嵌入。

在本实施例中，在得到输出特征嵌入之后，则可以调用第一全连接神经网络层对输出特征嵌入进行处理，得到输出特征嵌入的指定维度的特征嵌入。

步骤902：调用所述第二全连接网络层对所述指定维度的特征嵌入进行处理，得到重建图像片，所述重建图像片中包含所述像素特征和所述结构特征。

在得到指定维度的特征嵌入之后，则可以调用第二全连接网络层对所述指定维度的特征嵌入进行处理，得到重建图像片，重建图像片中包含像素特征和结构特征。

步骤305：调用所述图像分类网络层对所述输出特征嵌入进行处理，得到所述模型训练样本的视觉感知特征。

在得到输出特征嵌入之后，则可以调用图像分类网络层对输出特征嵌入进行处理，得到模型训练样本的视觉感知特征。在本示例中，图像分类网络层可以为VGG-16图像分类网络，用VGG-16图像分类网络提取的中间层（relu2-2层）的输出特征向量可以作为图像表观的表达，即视觉感知特征。

在得到像素特征、结构特征和视觉感知特征之后，执行步骤103。

步骤103：基于所述像素特征、所述结构特征和所述视觉感知特征，分别计算得到重构损失函数、结构相似损失函数和视觉感知损失函数。

在得到像素特征、结构特征和视觉感知特征之后，则可以基于像素特征、结构特征和视觉感知特征分别计算得到重构损失函数、结构相似损失函数和视觉感知损失函数。如图14所示，针对原始的图像片可以进行随机遮挡，以得到随机遮挡图像片。进而通过线性投影层、Transformer编码层和图像像素重建层，得到重建的图像片，进而可以根据重建的图像片和原始的图像片进行损失函数的计算。

在本实施例中，提供了两种损失函数的计算方式，一种是结合每个批次的全部模型训练的样本的输出进行损失函数计算，另一种是结合每个批次的遮挡图像片和未遮挡图像片，分别进行对应损失函数的计算，然后结合这两个损失函数进行最终损失函数的计算。

首先，对第一种损失函数计算方式进行如下详细描述。

在本实施例中，在得到像素特征之后，则可以基于像素特征计算得到重构损失函数。

在本示例中，设输入图像片经过展平之后得到的一维向量集合为。图像像素重建层输出的图像片经过展平之后得到的一维向量集合为/>。在本实施例中，输入图像是224*224*3，图像片是16*16*3，图像片总数是/>，向量为/>。

进一步，定义第i图像片的一维向量为/>，图像像素重建层输出的第i图像片的一维向量/>为/>，那么，第i图像片/>和图像像素重建层输出的第i图像片/>之间的重构损失定义如下公式（5）所示：

（5）

上述公式中，为第/>图像片的重构损失函数，/>为一维向量维数，/>为第/>图像片的一维向量，/>为图像像素重建层输出的第/>图像片的一维向量。

在得到结构特征之后，则可以基于结构特征，计算得到结构相似损失函数。

函数定义如下公式所示：

（6）

是第/>图像片的平均灰度值，/>是第/>图像片的灰度标准差，是图像像素重建层输出的第/>图像片的平均灰度值，/>是图像像素重建层输出的第/>图像片的灰度标准差，/>是上述两幅图像的灰度协方差，/>，/>，其中，和/>为常数，/>为与输入图像的像素值范围的最大值。

例如，输入图像的像素值范围是0-255，所以本实施例设置。如果输入图像的像素值范围是0-1，那么设置/>。

在得到视觉感知特征之后，则可以基于视觉感知特征计算得到视觉感知损失函数。

为了使得第i个图像片与图像像素重建层输出的第i个图像片尽可能视觉上相似，可以采用在ImageNet2012数据集合上训练的VGG-16[文献-2]图像分类网络的中间层（relu2-2层）的输出作为图像表观的表达来计算感知损失。如下公式所示：

（7）

上述公式中，为视觉感知损失函数，/>为输入至模型的第i图像片的特征向量，/>为图像分类网络层输出第i图像片的特征向量。

对于第二种损失函数计算方式可以进行如下详细描述。

首先，可以先计算未遮挡图像片的重构损失函数、结构相似损失函数和视觉感知损失函数，然后计算遮挡图像片的重构损失函数、结构相似损失函数和视觉感知损失函数。对于该实现过程结合图11进行如下详细描述。

参照图11，示出了本申请实施例提供的另一种损失值计算方法的步骤流程图。如图11所示，该损失值计算方法可以包括：步骤1101和步骤1102。

步骤1101：基于未遮挡图像片的像素特征、结构特征和视觉感知特征，分别计算得到所述未遮挡图像片的第一重构损失函数、第一结构相似损失函数和第一视觉感知损失函数。

在本实施例中，在得到未遮挡图像片的像素特征、结构特征和视觉感知特征，可以基于未遮挡图像片的像素特征、结构特征和视觉感知特征，分别计算得到未遮挡图像片的第一重构损失函数、第一结构相似损失函数和第一视觉感知损失函数。

可以理解地，第一重构损失函数、第一结构相似损失函数和第一视觉感知损失函数的计算方式可以如上述公式（5）（6）（7）所示，本实施例在此不再加以赘述。

步骤1102：基于遮挡图像片的像素特征、结构特征和视觉感知特征，分别计算得到所述遮挡图像片的第二重构损失函数、第二结构相似损失函数和第二视觉感知损失函数。

在得到遮挡图像片的像素特征、结构特征和视觉感知特征之后，则可以基于遮挡图像片的像素特征、结构特征和视觉感知特征，分别计算得到遮挡图像片的第二重构损失函数、第二结构相似损失函数和第二视觉感知损失函数。

可以理解地，第二重构损失函数、第二结构相似损失函数和第二视觉感知损失函数的计算方式可以如上述公式（5）（6）（7）所示，本实施例在此不再加以赘述。

在计算得到重构损失函数、结构相似损失函数和视觉感知损失函数之后，执行步骤104。

步骤104：基于所述重构损失函数、所述结构相似损失函数和所述视觉感知损失函数，计算得到所述待训练图像修复模型的损失函数。

在计算得到重构损失函数、结构相似损失函数和视觉感知损失函数之后，可以基于重构损失函数、结构相似损失函数和视觉感知损失函数，计算得到待训练图像修复模型的损失函数。

在具体实现中，可以预先为结构相似损失函数和视觉感知损失函数设置相应的权重，结合权重进行最终损失值的计算。对于该实现过程可以结合图10进行如下详细描述。

参照图10，示出了本申请实实施例提供的一种损失函数计算方法的步骤流程图。如图10所示，该损失函数计算方法可以包括：步骤1001和步骤1002。

步骤1001：获取所述结构相似损失函数的第一权重，及所述视觉感知损失函数的第二权重。

在本实施例中，可以获取预先设置的结构相似损失函数的第一权重，及视觉感知损失函数的第二权重。

步骤1002：基于所述重构损失函数、所述结构相似损失函数和所述第一权重、及所述视觉感知损失函数和所述第二权重，计算得到所述待训练图像修复模型的损失函数。

进而，可以基于重构损失函数、结构相似损失函数和第一权重、及视觉感知损失函数和第二权重，计算得到待训练图像修复模型的损失函数。

根据上述损失函数计算公式，对应于第i图像片的总体损失函数定义为：

针对第二种计算方式可以结合图12进行如下详细描述。

在分别计算得到遮挡图像片和未遮挡图像片的重构损失函数、结构相似损失函数和视觉感知损失函数之后，则可以进行最终的损失函数的计算。

参照图12，示出了本申请实施例提供的又一种损失函数计算方法的步骤流程图。如图12所示，该损失函数计算方法可以包括：步骤1201、步骤1202和步骤1203。

步骤1201：基于所述第一重构损失函数、所述第一结构相似损失函数和所述第一视觉感知损失函数，计算得到所述未遮挡图像片的第一损失函数。

在本实施例中，在计算得到第一重构损失函数、第一结构相似损失函数和第一视觉感知损失函数之后，则可以基于第一重构损失函数、第一结构相似损失函数和第一视觉感知损失函数计算得到未遮挡图像片的第一损失函数。

步骤1202：基于所述第二重构损失函数、所述第二结构相似损失函数和所述第二视觉感知损失函数，计算得到所述遮挡图像片的第二损失函数。

在计算得到第二重构损失函数、第二结构相似损失函数和第二视觉感知损失函数之后，则可以基于第二重构损失函数、第二结构相似损失函数和第二视觉感知损失函数计算得到遮挡图像片的第二损失函数。

步骤1203：基于所述第一损失函数、所述第二损失函数、所述待训练图像修复模型的总周期数和当前训练周期数，计算得到所述待训练图像修复模型的损失函数。

进而，可以结合第一损失函数、第二损失函数、待训练图像修复模型的总周期数和当前训练周期数，计算得到待训练图像修复模型的损失函数。

例如，对于一个输入图像，将图像片分为两个集合：未被遮挡图像片集合（代表未被遮挡图像片的下标集合)和被遮挡图像片集合(/>代表被遮挡图像片的下标集合)。定义输入图像中的未被遮挡图像片数为/>，那么被遮挡图像片数为/>。分别计算未被遮挡图像片生成的损失值/>和被遮挡图像片生成的损失值/>。如下公式所示：

通过在损失函数中注入训练周期信息来控制训练算法逐步提高对缺失的区域的关注度。在训练的初始阶段，动态损失函数相对均衡地关注重建未被遮挡区域和重建遮挡区域；在训练的结束阶段，动态损失函数更加关注于重建遮挡区域，从而实现更好的重建效果。

在模型训练过程中，训练程序每次取一个批次样本，神经网络训练算法利用一个批次样本的总损失优化神经网络参数。所述总损失可以是一个批次样本的全部样本的损失值之和，也可以是一个批次样本的全部样本的损失函数的平均值。

在基于重构损失函数、结构相似损失函数和视觉感知损失函数，计算得到待训练图像修复模型的损失函数之后，执行步骤105。

步骤105：在基于所述损失函数确定所述待训练图像修复模型收敛的情况下，得到所述图像修复模型。

在计算得到待训练图像修复模型的损失函数之后，则可以基于该损失函数判断待训练图像修复模型是否收敛。若该待训练图像修复模型已收敛，则可以将训练后的待训练图像修复模型作为最终训练好的图像修复模型。

在具体实现中，可以预先设置一个损失函数对应的预设范围，该预设范围是指预先设置的用于判断模型是否收敛的损失函数范围。对于预设范围的具体数值可以根据业务需求而定，本实施例对此不加以限制。

在计算得到待训练图像修复模型的损失函数之后，可以判断该损失函数是否处于预设范围内。

若该损失函数未处于预设范围内，则表示待训练图像修复模型未收敛，此时可以结合更多的模型训练样本对待训练图像修复模型继续进行训练。

若该损失函数处于预设范围内，则表示待训练图像修复模型已收敛，此时，可以将训练后的待训练图像修复模型作为最终的用于图像修复场景的图像修复模型。

本申请实施例考虑了图像的低级特征（像素）和中级特征（结构）和高级特征（视觉感知），因此，本实施例提供的图像修复模型可以从上述三个层级恢复原始信息，从而可以在重建区域的像素值的基础上，有效控制重建区域的目标结构和视觉纹理，并使得修复的图像具有更好的视觉效果。

对于图像修复过程可以结合图13进行如下详细描述。

参照图13，示出了本申请实施例提供的一种修复图像获取方法的步骤流程图。如图13所示，该修复图像获取方法可以包括：步骤1301、步骤1302、步骤1303、步骤1304、步骤1305和步骤1306。

步骤1301：获取待修复图像。

在本实施例中，在进行图像修复时，可以获取待修复图像。在本示例中，输入的待修复图像可以是任意尺寸的图像，例如：全高清（Full HD）、HD；或者是其他经过图像处理得到的非标准尺寸图像等。

在获取到待修复图像之后，执行步骤1302。

步骤1302：在所述待修复图像上标记待修复区域。

在获取到待修复图像之后，则可以在待修复图像上标记待修复区域。在本示例中，可以采用两种区域标记方式，一种是人工标记，另一种是自动检测标记。

在某些示例中，可以基于手动标记方式，在待修复图像上标记待修复区域。具体地，可以由操作人员手工设置待修复的区域，也就是手工设置待修复区域的坐标，例如：左上角坐标和右下角坐标等。

在某些示例中，可以基于自动检测技术，检测待修复图像上的待修复区域，并标记该待修复区域。具体地，待修复区域也可以采用计算机程序自动识别出来，并存储待修复区域的坐标。根据上述坐标，确定待修复区域。

在待修复图像上标记待修复区域之后，执行步骤1303。

步骤1303：基于所述待修复区域对所述待修复图像进行裁剪处理，得到待修复子图像。

在待修复图像上标记待修复区域之后，则可以基于待修复区域对所述待修复图像进行裁剪处理，得到待修复子图像。具体地，可以根据确定下来的待修复区域，从原始图像中截取一个包含待修复区域的图像。上述截取的子图像缩放到适合图像修复神经网络模型输入规格的尺寸，并记录缩放比例。

在基于待修复区域对待修复图像进行裁剪处理得到待修复子图像之后，执行步骤1304。

步骤1304：对所述待修复子图像进行图像片划分处理，得到未遮挡图像片区域和遮挡图像片区域。

在基于待修复区域对待修复图像进行裁剪处理得到待修复子图像之后，则可以对待修复子图像进行图像片划分处理，得到未遮挡图像片区域和遮挡图像片区域。具体地，可以将上述图像截取模块截取的子图像划分为图像片，并将包含待修复区域的图像片设置为被遮挡区域，并记录这些遮挡区域。

在对待修复子图像进行图像片划分处理得到未遮挡图像片区域和遮挡图像片区域之后，执行步骤1305。

步骤1305：基于所述图像修复模型对所述未遮挡图像片区域和所述遮挡图像片区域进行重建处理，以得到重建遮挡图像片区域。

在对待修复子图像进行图像片划分处理得到未遮挡图像片区域和遮挡图像片区域之后，则可以基于图像修复模型对未遮挡图像片区域和遮挡图像片区域进行重建处理，以得到重建遮挡图像片区域。即将上述图像片输入到利用本实施例训练的图像修复模型，获得重建的图像片。

在得到重建遮挡图像片区域之后，执行步骤1306。

步骤1306：基于所述重建遮挡图像片区域替换所述待修复图像的对应区域，得到修复图像。

在得到重建遮挡图像片区域之后，则可以基于重建遮挡图像片区域替换待修复图像的对应区域，得到修复图像。具体地，可以根据图像截取模块截取子图像的时候记录的缩放比例，将重建的被遮挡图像片放缩到适合原始图像的尺寸，并用这些重建的图像片替换原始图像中的被遮挡区域。

本申请实施例提供的图像修复模型训练方法，通过对待处理图像进行切片处理，构建得到模型训练样本。基于待训练图像修复模型对模型训练样本进行处理，以得到模型训练样本的像素特征、结构特征和视觉感知特征。基于像素特征、结构特征和视觉感知特征，分别计算得到重构损失函数、结构相似损失函数和视觉感知损失函数。基于重构损失函数、结构相似损失函数和视觉感知损失函数，计算得到待训练图像修复模型的损失函数。在基于损失函数确定待训练图像修复模型收敛的情况下，得到图像修复模型。本申请实施例通过考虑了图像的低级特征（像素）和中级特征（结构）和高级特征（视觉感知）以构建重构损失、结构相似损失和视觉感知损失，从而可以使模型能够从上述三个层级恢复原始信息，以在重建区域像素值的基础上，有效控制重建区域的目标结构和视觉纹理，并使得修复的图像具有更好的视觉效果。

参照图18，示出了本申请实施例提供的一种图像修复模型训练装置的结构示意图。如图18所示，该图像修复模型训练装置1800可以包括以下模块：

模型样本构建模块1810，用于对待处理图像进行切片处理，构建得到模型训练样本；

图像特征获取模块1820，用于基于待训练图像修复模型对所述模型训练样本进行处理，以得到所述模型训练样本的像素特征、结构特征和视觉感知特征；其中，像素特征用于指示输出图像中每个像素的像素值的特征，结构特征用于指示输出图像的灰度标准差、平均灰度值、以及输入图像与输出图像的灰度协方差的特征，视觉感知特征用于指示识别得到的输出图像内包含的物体的特征；

第一损失计算模块1830，用于基于所述像素特征、所述结构特征和所述视觉感知特征，分别计算得到重构损失函数、结构相似损失函数和视觉感知损失函数；

第二损失计算模块1840，用于基于所述重构损失函数、所述结构相似损失函数和所述视觉感知损失函数，计算得到所述待训练图像修复模型的损失函数；

图像修复模型获取模块1850，用于在基于所述损失函数确定所述待训练图像修复模型收敛的情况下，得到所述图像修复模型。

可选地，所述模型样本构建模块包括：

所述图像特征获取模块包括：

可选地，所述图像特征嵌入获取单元包括：

可选地，所述装置还包括：

所述输出特征嵌入获取单元包括：

所述注意力特征嵌入获取子单元包括：

可选地，所述嵌入值获取子单元包括：

所述像素结构特征获取单元包括：

可选地，通过以下公式计算得到所述重构损失函数：

可选地，通过以下公式计算得到所述结构相似损失函数：

可选地，通过以下公式计算得到所述视觉感知损失函数：

可选地，所述第二损失计算模块包括：

可选地，通过以下公式计算得到所述损失函数：

可选地，所述第一损失计算模块包括：

可选地，所述第二损失计算模块包括：

可选地，通过以下公式计算得到所述损失函数：

可选地，所述装置还包括：

待修复图像获取模块，用于获取待修复图像；

本申请实施例提供的图像修复模型训练装置，通过对待处理图像进行切片处理，构建得到模型训练样本。基于待训练图像修复模型对模型训练样本进行处理，以得到模型训练样本的像素特征、结构特征和视觉感知特征。基于像素特征、结构特征和视觉感知特征，分别计算得到重构损失函数、结构相似损失函数和视觉感知损失函数。基于重构损失函数、结构相似损失函数和视觉感知损失函数，计算得到待训练图像修复模型的损失函数。在基于损失函数确定待训练图像修复模型收敛的情况下，得到图像修复模型。本申请实施例通过考虑了图像的低级特征（像素）和中级特征（结构）和高级特征（视觉感知）以构建重构损失、结构相似损失和视觉感知损失，从而可以使模型能够从上述三个层级恢复原始信息，以在重建区域像素值的基础上，有效控制重建区域的目标结构和视觉纹理，并使得修复的图像具有更好的视觉效果。

另外地，本申请实施例还提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述图像修复模型训练方法。

图19示出了本发明实施例的一种电子设备1900的结构示意图。如图19所示，电子设备1900包括中央处理单元（CPU）1901，其可以根据存储在只读存储器（ROM）1902中的计算机程序指令或者从存储单元1908加载到随机访问存储器（RAM）1903中的计算机程序指令，来执行各种适当的动作和处理。在RAM 1903中，还可存储电子设备1900操作所需的各种程序和数据。CPU1901、ROM 1902以及RAM 1903通过总线1904彼此相连。输入/输出（I/O）接口1905也连接至总线1904。

电子设备1900中的多个部件连接至I/O接口1905，包括：输入单元1906，例如键盘、鼠标、麦克风等；输出单元1907，例如各种类型的显示器、扬声器等；存储单元1908，例如磁盘、光盘等；以及通信单元1909，例如网卡、调制解调器、无线通信收发机等。通信单元1909允许电子设备1900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理，可由处理单元1901执行。例如，上述任一实施例的方法可被实现为计算机软件程序，其被有形地包含于计算机可读介质，例如存储单元1908。在一些实施例中，计算机程序的部分或者全部可以经由ROM1902和/或通信单元1909而被载入和/或安装到电子设备1900上。当计算机程序被加载到RAM1903并由CPU1901执行时，可以执行上文描述的方法中的一个或多个动作。

本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述图像修复模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器（Read-Only Memory，简称ROM）、随机存取存储器（Random AccessMemory，简称RAM）、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

本领域普通技术人员可以意识到，结合本申请实施例中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种图像修复模型训练方法，其特征在于，所述方法包括：

对待处理图像进行切片处理，构建得到模型训练样本；

在基于所述损失函数确定所述待训练图像修复模型收敛的情况下，得到所述图像修复模型；

通过以下公式计算得到所述重构损失函数：

上述公式中，为第/>图像片的重构损失函数，/>为一维向量维数，/>为第/>图像片的一维向量，/>为图像像素重建层输出的第/>图像片的一维向量，所述第/>图像片为将所述待处理图像进行切片得到多个图像片中的一个图像片。

2.根据权利要求1所述的方法，其特征在于，所述对待处理图像进行切片处理，构建得到模型训练样本，包括：

随机选取所述多个图像片中的至少一个图像片；

对所述至少一个图像片进行遮挡处理，得到遮挡图像片；

3.根据权利要求1所述的方法，其特征在于，所述待训练图像修复模型包括：线性投影层、编码层、图像像素重建层和图像分类网络层，

将所述模型训练样本输入至所述待训练图像修复模型；

4.根据权利要求3所述的方法，其特征在于，所述调用所述线性投影层对所述模型训练样本进行处理，得到所述模型训练样本的图像特征嵌入，包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

确定所述遮挡图像片的可学习特征嵌入；

6.根据权利要求3所述的方法，其特征在于，所述编码层包括：自注意力层、第一归一化层、前馈神经网络层和第二归一化层，

7.根据权利要求6所述的方法，其特征在于，所述自注意力层包括：匹配计算层、缩放层、激活函数层和特征嵌入计算层，

8.根据权利要求7所述的方法，其特征在于，所述对所述图像特征嵌入进行处理，得到所述图像特征嵌入对应的查询值、键值和特征嵌入值，包括：

9.根据权利要求3所述的方法，其特征在于，所述图像像素重建层包括：第一全连接神经网络层和第二全连接神经网络层，

调用所述第二全连接神经网络层对所述指定维度的特征嵌入进行处理，得到重建图像片，所述重建图像片中包含所述像素特征和所述结构特征。

10.根据权利要求3所述的方法，其特征在于，通过以下公式计算得到所述结构相似损失函数：

上述公式中，是第/>图像片的平均灰度值，/>是第/>图像片的灰度标准差，/>是图像像素重建层输出的第/>图像片的平均灰度值，/>是图像像素重建层输出的第/>图像片的灰度标准差，/>是两幅图像的灰度协方差，/>，/>，其中，/>和/>为常数，为与输入图像的像素值范围的最大值。

11.根据权利要求3所述的方法，其特征在于，通过以下公式计算得到所述视觉感知损失函数：

上述公式中，为视觉感知损失函数，/>为输入至模型的第i图像片的特征向量，为图像分类网络层输出第i图像片的特征向量。

12.根据权利要求1所述的方法，其特征在于，所述基于所述重构损失函数、所述结构相似损失函数和所述视觉感知损失函数，计算得到所述待训练图像修复模型的损失函数，包括：

13.根据权利要求12所述的方法，其特征在于，通过以下公式计算得到所述损失函数：

上述公式中，为第i图像片的总损失函数，/>为重构损失函数，/>为结构相似损失函数，/>为视觉感知损失函数，/>为第一权重，/>为第二权重，/>为损失函数，/>为图像片总数。

14.根据权利要求1所述的方法，其特征在于，所述基于所述像素特征、所述结构特征和所述视觉感知特征，分别计算得到重构损失函数、结构相似损失函数和视觉感知损失函数，包括：

基于遮挡图像片的像素特征、结构特征和视觉感知特征，分别计算得到所述遮挡图像片的第二重构损失函数、第二结构相似损失函数和第二视觉感知损失函数。

15.根据权利要求14所述的方法，其特征在于，所述基于所述重构损失函数、所述结构相似损失函数和所述视觉感知损失函数，计算得到所述待训练图像修复模型的损失函数，包括：

16.根据权利要求15所述的方法，其特征在于，通过以下公式计算得到所述损失函数：

上述公式中，为损失函数，/>为第一损失函数，/>为第二损失函数，/>为未遮挡图像片中第i图像片的损失函数，/>为遮挡图像片中第i图像片的损失函数，/>为未遮挡图像片的数量，/>为图像片的总数量，/>为训练总周期数，/>为当前训练周期数。

17.根据权利要求1所述的方法，其特征在于，在所述得到所述图像修复模型之后，还包括：

获取待修复图像；

在所述待修复图像上标记待修复区域；

18.一种图像修复模型训练装置，其特征在于，所述装置包括：

图像修复模型获取模块，用于在基于所述损失函数确定所述待训练图像修复模型收敛的情况下，得到所述图像修复模型；

通过以下公式计算得到所述重构损失函数：

19.一种电子设备，其特征在于，包括：

存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至17中任一项所述的图像修复模型训练方法。

20.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行权利要求1至17任一项所述的图像修复模型训练方法。