CN114627012B

CN114627012B - 基于自动编码器的老照片复原方法

Info

Publication number: CN114627012B
Application number: CN202210231138.7A
Authority: CN
Inventors: 赵怀林; 邓茗芳
Original assignee: Shanghai Institute of Technology
Current assignee: Shanghai Institute of Technology
Priority date: 2022-03-09
Filing date: 2022-03-09
Publication date: 2024-04-19
Anticipated expiration: 2042-03-09
Also published as: CN114627012A

Abstract

本发明提供了一种基于自动编码器的老照片复原方法，包括获取第一训练集中残缺的老照片，并将残缺的老照片进行初步补全形成第一完整照片；对所有第一完整照片分进行预处理，分别将每个预处理后的第一完整照片分割成若干子块，并分别嵌入对应的位置信息到若干子块内；分别将每一预处理后的第一完整照片的若干子块按照预设的遮盖率进行随机遮盖；将对应的预训练的ViT模型的权重作为MAE模型的基础权重，将将每一预处理后的第一完整照片未遮盖的子块作为MAE模型的输入，将对应的预处理后的完整照片作为MAE模型的输出，对MAE模型的权重进行微调得到训练好的MAE模型。本发明能够减少计算机的运算负荷且能够满足大范围残缺的照片的修复需求。

Description

基于自动编码器的老照片复原方法

技术领域

本发明涉及深度学习技术领域，具体地，涉及基于自动编码器的老照片复原方法。

背景技术

目前，老照片的复原在国内外还是个正在研究的课题。它作为某个时期有形的物质遗存，真实的记录了它的社会背景，比起文字来更加清晰，明确，令人一目了然，具有鲜明的区域性，真实性，时代性和多样性，是多种文献都无法替代的。它将历史定格在一个永恒且真实的瞬间，帮助我们去具体，形象地重新认识原以为己熟知的人或事，恢复历史的本来面目。

而且，目前，“复古风”盛行，不少收藏爱好者将目光转向老照片的收集，展览老照片逐渐成为热门。但是，因为时代久远、保存问题和当时照片所使用的材料的问题，市面上的很多老照片都存在像素缺失的现象，因此，急需一种发明一个复原率高的方法去复原老照片来满足收藏者以及其他类人群的需求。

目前在老照片恢复领域，其中一种方法就是，采用常用的软件有PS软件，其恢复手段仍然停留在做图像补丁，锐化，阈值分割等基础的传统图像处理阶段。

另一种方法机就是，通过深度学习的方法，在深度学习方面老照片的绝大部分恢复手段采取的是对抗性网络GAN，该网络里包含两个子网络，分别为Generator网络和Discriminator网络。通过训练Generator网络达到让达到Discriminator网络收敛的目的，Generator网络就是使得造样本的能力尽可能的强，强到Discriminator网络无法分辨的程度，Discriminator网络的目的是判断是否恢复的图片逼近于真实图像。

但是，由于GAN网络存在两个子网络，不可避免的造成网络模型过大，造成参数量过大，无法实现模型的轻量化，同时，在做图像恢复的过程中，需要大量的图片做训练，代价太高。

深度学习在视觉领域需要大量标注数据来完成模型的训练，但是自然语言处理(NLP)可以通过自监督训练来避免大量标注数据的依赖，例如GPT的自然语言回归模型和BERT中的Masked encoding的解决方案。这两种方案都是通过删掉一部分数据，通过学习预测删除的内容。

虽然masked encoding在自然语言处理方面如火如荼地展开，但是在图像处理方面却仍存在难点，最大的难点在于图像中包含太多的自然信息，由于网络架构的不同，视觉任务常用卷积操作等问题。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于自动编码器的老照片复原方法。

根据本发明提供的一种基于自动编码器的老照片复原方法，包括如下步骤：

获取第一训练集中残缺的老照片，并将残缺的老照片进行初步补全形成第一完整照片；

对所有第一完整照片分进行预处理，分别将每个预处理后的第一完整照片分割成若干子块，并分别嵌入对应的位置信息到若干子块内；

分别将每一预处理后的第一完整照片的若干子块按照预设的遮盖率进行随机遮盖；

将对应的预训练的ViT模型的权重作为MAE模型的基础权重，将将每一预处理后的第一完整照片未遮盖的子块作为MAE模型的输入，将对应的预处理后的完整照片作为MAE模型的输出，对MAE模型的权重进行微调得到训练好的MAE模型；

将测试集中的残缺的老照片输入到训练好的MAE模型中，输出复原的老照片。

可选地，残缺的老照片进行初步补全形成第一完整照片采用的是双三次线性插值法。

可选地，对所有第一完整照片分进行预处理，分别将每个预处理后的第一完整照片分割成若干子块，并分别嵌入对应的位置信息到若干子块内，进一步包括：

获取所有第一完整照片的像素值，将所有第一完整照片的像素值调整一致；

将每一像素值一致的第一完整照片分割成若干相同大小的子块；

对每一子块进行编号，并将编号嵌入到对对应的子块中。

可选地，预设的遮盖率大于等于百分之七十五且小于等于百分之八十五。

可选地，MAE模型包括编码器和解码器；

其中，编码器的的参数设置为：通道数为3，嵌入维数为768维，深度为12，多头注意力机制层的头数为12，且不设置偏置；

解码器的参数设置为：深度为8，嵌入维数为512维，多头注意力机制层的头数为8。

可选地，对应的预训练的ViT模型是采用的第二训练集训练得到的，其中，预训练的ViT模型的训练集包括作为输出的第二完整照片，第二完整照片的像素值和预处理后的第一完整照片的像素值一致。

可选地，将输出的复原的老照片分装成bash文件并植入GUI平台。

与现有技术相比，本发明具有如下的有益效果：

本发明提供的基于自动编码器的老照片复原方法，采用MAE模型进行修复照片，MAE模型在遮盖率为百分之七十五及以上的时候仍可以恢复图片的原貌，能够满足大范围残缺照片的修复需求，而且，MAE模型通过对遮掩块的不断学习，获取到整张完整的图，不需要两个网络的不断优化，降低了计算机的负荷，直接采用预训练的ViT模型的权重作为MAE模型的基础权重，无需大量的样本进行网络训练，只需少量训练样本对MAE模型的基础权重进行微调即可，减少了工作量，MAE模型的编码器和解码器是采用不同的维数，这种不对称的方式进一步减少网络的运算负担。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明提供的基于自动编码器的老照片复原方法的流程图；

图2为本发明提供的基于自动编码器的老照片复原方法的编码器内部结构示意图；

图3为本发明提供的基于自动编码器的老照片复原方法的解码器的内部结构示意图；

图4为本发明提供的基于自动编码器的老照片复原方法的MAE模型图；

图5为本发明提供的基于自动编码器的老照片复原方法的第一修复结果对照图，其中，(a)为修复前的照片，(b)为修复后的照片；

图6为本发明提供的基于自动编码器的老照片复原方法的第二修复结果对照图，其中，(a)为修复前的照片，(b)为修复后的照片；

图7为本发明提供的基于自动编码器的老照片复原方法的第三修复结果对照图，其中，(a)为修复前的照片，(b)为修复后的照片。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

在对本实施例进行介绍说明之前，现结合本实施例对Vision Transformer进行介绍，其中，Vision Transformer是对原始图片进行分块，展平成序列，输入进原始Transformer模型的编码器部分，最后接入一个全连接层对图片进行分类的模型。

如图1所示，本发明中的方法可以包括：

S1，获取第一训练集中残缺的老照片，并将残缺的老照片进行初步补全形成第一完整照片。

在实际应用中，为了使得初步补全的第一完整照片更加平滑，本实施例中采用双三次线性插值法(bucubic)对残缺的老照片进行补全，双三次线性插值法采用三次方程对老照片进行不断的拟合，其中，双三次线性插值法的三次方程的表达式如下：

S(x)＝1-2|x|²+|x|³ 0≤|x|＜1

S(x)＝8|x|+5|x|²-|x|³ 1≤|x|＜2

S(x)＝0 |x|≥2

S2，对所有第一完整照片分进行预处理，分别将每个预处理后的第一完整照片分割成若干子块，并分别嵌入对应的位置信息到若干子块内。

在本实施例中，为了消除第一完整照片中的奇异照片，避免不一致的第一完整照片造成的不良影响，采用归一化处理的方法对所有的第一完整照片进行处理，其中，归一化处理可一理解为：获取所有第一完整照片的像素值，将所有第一完整照片的像素值调整一致，像素值采用H×W进行表示，其中，H表示第一完整照片的高度值，W表示第一完整照片的宽度值，本实施例中的像素值可以是224×224英寸；

将每一像素值一致的第一完整照片分割成若干相同大小的子块，在实际应用中，是将像素值一致的第一完整照片的高分割为16等分，宽分割为16等分，换言之将像素值一致的第一完整照片分割为256个子块；

对每一子块进行编号，并将编号嵌入到对对应的子块中，可以理解的是，在编号中，可以是将每个第一完整照片的的子块进行单独编号，其中编号可以是阿拉伯数字也可以是英文字母。

S3，分别将每一预处理后的第一完整照片的若干子块按照预设的遮盖率进行随机遮盖。

因为MAE模型在遮盖率为大于等于百分之七十五且小于等于百分之八十五的时候对照片的复原效果较好，因此遮盖率选用上述数据，其中遮盖方式是采用掩码块进行实现的，掩码块是将对应的子块遮盖成灰度值为零的形式，其中灰度值为零可以理解为子块为黑色的形式，掩码块的数量为分割的子块的数量乘以遮盖率。

S4，将对应的预训练的ViT模型的权重作为MAE模型的基础权重，将将每一预处理后的第一完整照片未遮盖的子块作为MAE模型的输入，将对应的预处理后的完整照片作为MAE模型的输出，对MAE模型的权重进行微调得到训练好的MAE模型。

如图3和图4所示，本实施例中的MAE模型可以包括编码器和解码器，编码器一般包括若干个标准化层，其中一个标准化层把包括一个多头注意力机制层和一个全连接前馈网络层，多头注意力机制层和全连接前馈网络层之间通过一个残差连接以及归一化模块连接，标准化层之间同样通过残差连接以及归一化模块连接，多头注意力机制层的目的是反映各子块的重要程度，输入编码器的子块一般是通过位置编码层进行编号的，然后输入获取的子块的隐表示，其中，隐表示可以理解为子块的特征量，编码器的输出是可以进行并行计算的，一次输出所有的编码(encoding)内容；

解码器的设计沿用谷歌(google)的前序编解码预测模型(transformer)中的编码器，其层架构的实现基于自然语言处理的BERT模型，解码器一般也可以包括多个标准层，其中，解码器的标准层一般包括带掩码操作的多头注意力机制层、多头注意力机制层和全连接前馈网络层，各层之间均通过残差连接以及归一化模块连接，各标准层之间也是通过残差连接以及归一化模块进行连接，解码器的输入为编码的输出和对应掩码块，输出为对应位置输出子块的概率分布，解码器是一个一个按顺序输出的；

在本实施例中，上述编码器和解码器的参数设置一般为通道数为3，嵌入维数为768维，深度为12，多头注意力机制层的头数为12，且不设置偏置；

其中，嵌入维数满足如下计算公式：

embedding_num＝encoder_channel×patch_size×patch_size

embedding_num表示嵌入维数，encoder_channel表示图像的通道数，patch_size为图像长宽的等分数，本实施例中的等分数为16。

解码器的参数设置为：深度为8，嵌入维数为512维，多头注意力机制层的头数为8；

上述图像的通道数应选用3是因为输入的照片的格式一般都是RGB格式的图片。

MAE模型的解码器和编码器的嵌入维数是不对称的的，因此能够减少网络的运算负担；

为了减少训练的工作量，在本实施例中，先选用ViT模型是预训练好的，其中预训练的ViT模型采用的第二训练集训练得到的，其中，预训练的ViT模型的训练集包括作为输出的第二完整照片，第二完整照片的像素值和预处理后的第一完整照片的像素值一致，预训练的ViT模型可以通过网站下载来的，采用的是deit_base_patch16_224模型。

S5，将测试集中的残缺的老照片输入到训练好的MAE模型中，输出复原的老照片。

在老照片修复好后，为了对吸附后的老照片进行批量处理，将输出的复原的老照片分装成bash文件并植入GUI(图形用户界面)平台，其中bash是一个命令处理器，通常运行于文本窗口中，并能执行用户直接输入的命令。

如图2所示，MAE模型的原理图，其中，第一完整照片进行遮盖后，去除遮盖部分的子块，将未遮盖的子块以纵向矩阵的形式输入到编码器，编码器根据相邻子块之间的关联度、色差等进行推理，将其余子块补充完整，补充完整后，输入到解码器，解码器根据输出子块的概率分布状况将各子块进行排布，从而输出复原的照片。

本实施例的效果，可以从图5、图6和图7明显的获知，其中，图5中的(a)为修复前的照片，(b)为修复后的照片，图6中的(a)为修复前的照片，(b)为修复后的照片，图7中的(a)为修复前的照片，(b)为修复后的照片。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于自动编码器的老照片复原方法，其特征在于，包括如下步骤：

获取第一训练集中残缺的老照片，并将所述残缺的老照片进行初步补全形成第一完整照片；

将测试集中的残缺的老照片输入到训练好的MAE模型中，输出复原的老照片；

其中，对所有第一完整照片分进行预处理，分别将每个预处理后的第一完整照片分割成若干子块，并分别嵌入对应的位置信息到若干子块内，进一步包括：获取所有第一完整照片的像素值，将所有第一完整照片的像素值调整一致；将每一像素值一致的第一完整照片分割成若干相同大小的子块；对每一子块进行编号，并将编号嵌入到对对应的子块中；

其中，分别将每一预处理后的第一完整照片的若干子块按照预设的遮盖率进行随机遮盖包括采用遮盖方式是采用掩码块进行实现，所述掩码块是将对应的子块遮盖成灰度值为零的形式；

其中，所述MAE模型包括编码器和解码器；所述编码器的的参数设置为：通道数为3，嵌入维数为768维，深度为12，多头注意力机制的头数为12，且不设置偏置；所述解码器的参数设置为：深度为8，嵌入维数为512维，多头注意力机制层的头数为8。

2.根据权利要求1所述的基于自动编码器的老照片复原方法，其特征在于，所述残缺的老照片进行初步补全形成第一完整照片采用的是双三次线性插值法。

3.根据权利要求1所述的基于自动编码器的老照片复原方法，其特征在于，所述预设的遮盖率大于等于百分之七十五且小于等于百分之八十五。

4.根据权利要求1所述的基于自动编码器的老照片复原方法，其特征在于，所述对应的预训练的ViT模型是采用的第二训练集训练得到的，其中，所述预训练的ViT模型的训练集包括作为输出的第二完整照片，所述第二完整照片的像素值和预处理后的第一完整照片的像素值一致。

5.根据权利要求1中任一项所述的基于自动编码器的老照片复原方法，其特征在于，将输出的复原的老照片分装成bash文件并植入GUI平台。