CN113628108B

CN113628108B - 基于离散表示学习的图像超分辨率方法和系统、终端

Info

Publication number: CN113628108B
Application number: CN202110755689.9A
Authority: CN
Inventors: 张小云; 黄一轩; 乔宇; 董超; 张娅; 王延峰
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-07-05
Filing date: 2021-07-05
Publication date: 2023-10-27
Anticipated expiration: 2041-07-05
Also published as: CN113628108A

Abstract

本发明提供一种基于离散表示学习的图像超分辨率方法和系统、终端，所述方法包括：分别创建低分辨率以及高分辨率的离散字典；将低分辨率图像输入卷积神经网络得到提取的图像特征，并参照低分辨率离散字典，将图像特征转换为离散表示；将基于低分辨率字典的离散表示通过自回归网络，映射成基于高分辨率字典的离散表示；将离散表示参照高分辨率字典，转换为高分辨率图像特征，再通过卷积神经网络，进行反卷积的操作，生成输入低分辨率图像对应的高分辨率图像。本发明能够利用低清高清数据对来分别建立低分辨率以及高分辨率离散字典，将输入的低分辨率图像通过这两个字典变为对应的高分辨率图像，提升图像的清晰度。

Description

基于离散表示学习的图像超分辨率方法和系统、终端

技术领域

本发明涉及图像处理技术领域，特别涉及一种基于离散表示学习的图像超分辨率方法及系统、终端。

背景技术

图像超分辨率，是数字图像处理领域中的基本问题，将低分辨率的低清图像通过上采样变为高分辨率的高清图像，使得图像变得更加清晰，提高主观视觉质量。现如今随着移动通信的发展，人们可以通过网络随时观看大量视频图片，以及显示设备的成熟，大量的电视和显示器都已经达到了4K，甚至8K的分辨率，人们对于高分辨率的视频图像需求越来越高。另一方面，在计算机视觉领域，高分辨率图像对于目标检测，图像分割等high-level任务都有重要的意义，较高的图像分辨率可以让算法具有更好的性能。同时超分辨率技术在监控设备、卫星图像以及医学影像等领域都有重要的应用价值。因此如何将低分辨率的图像转换为高分辨率的图像已经成为学术界以及工业界的研究热点。

自将深度学习应用在超分辨率重建上的开山之作SRCNN发表后，基于深度学习的超分辨率算法研究在近几年来取得了可观的进展。基于深度学习的超分辨率算法，其基本方法就是将成对的低清高清数据集，低清图片作为深度网络的输入，高清图片作为其监督信息，对深度网络的参数进行训练，从大量数据对中学习到从低清图片到高清图片的上采样方法，深度网络基本都是由大量的卷积层以及一些额外的辅助模块构成，比如自注意力机制等等。然而，现如今的大多数基于深度学习的超分算法，整个算法过程仅仅使用了输入低分辨率图片的信息，来对高分辨率图片进行重建，但超分任务本身是一个ill-pose的问题，一个低清图片可以对应着无数个高清图片，因此单单使用低分辨率图片来恢复高分辨率图片，即使采用了深度学习的方法，其信息往往是不够的。

经检索，中国发明专利公开号为CN108830792A、申请号为201810478700.X的发明申请，该发明提出了一种图像超分辨率的方法。在训练阶段，通过对图像的旋转得到更多的训练图像，以提高此方法的性能。同时，通过以描述图像块的纹理特征的一阶梯度和二阶拉普拉斯算子来定义图像块之间的距离，并根据计算出的距离把所有图像块分为K个类，得到每个类的中心，低分辨率的字典、和高分辨率的字典。在线过程中，先根据输入低分辨率图像上的块的类别来选择低分辨率的字典，并求出此字典下稀疏表示的系数。然后，根据此类别中的高分辨率的字典和此系数，对低分辨率块进行放大和重构。最终，对块与块之间重叠的区域，采取取平均值的方法，得到高分辨率的放大图像。该发明的方法使用了传统的字典学习方法，表征能力有待进一步提高。

发明内容

针对现有技术中的缺陷，本发明提供一种基于离散表示学习的图像超分辨率方法，使用了字典学习与深度学习相结合的方法，对图像的特征提取，以及表征能力更强，同时使用了自回归网络能够生成更加自然，有着更多细节的高清图像。

本发明的第一目的，提供一种基于离散表示学习的图像超分辨率方法，包括：

S11：将低分辨率图像、高分辨率图像输入卷积神经网络进行特征提取，提取的图像特征用来分别创建低分辨率离散字典、高分辨率离散字典，整个字典创建过程为自监督学习过程；

S12：根据创建的所述低分辨率离散字典，将所述卷积神经网络输出的低分辨率图像的图像特征转换为低分辨率字典的离散表示；

S13：将所述低分辨率字典的离散表示通过自回归网络，映射成基于高分辨率字典的离散表示；

S14：将映射后所述高分辨率字典的离散表示S11创建的所述高分辨率离散字典，转换为高分辨率图像特征，再通过所述卷积神经网络进行卷积以及反卷积的操作，生成输入低分辨率图像对应的高分辨率图像。

较佳地，所述整个字典创建过程为自监督的过程，具体为：

将所述卷积神经网络的编码器提取的图像特征中的每一个向量与离散字典中的每一个向量进行比较，筛选出字典向量中最相近的向量进行替代，其过程如下所示：

其中z_q代表经过字典量化后的图像特征，Z代表离散字典，z_k代表字典中第k个向量，代表输入图像经过编码器后未量化的图像特征；

再将由离散字典向量替代后的图像特征通过解码器来恢复重建输入图像，整个过程的监督为输入图像本身；整个字典创建阶段的过程如下所示：

其中代表最后重建的输入图像，G代表解码器，q(·)代表使用字典进行量化的过程，E代表编码器，x代表输入图像。

较佳地，所述S12中：对于低分辨率图像的离散表示，将所述卷积神经网络提取的图像特征参照S11已经创建训练完毕的低分辨率离散字典，按照最相似的原则，计算出图像特征每个位置向量的index q_L，得到低分辨率图像的离散表示；index是指图像特征中每个向量与字典向量相比，其中最相近向量的索引；

低分辨率离散字典向量的纵向维数为D，其量子化公式如下所示：

该式给出了E(x)的one hot表示，即如果z_e(x)与第k个字典向量最相近，那么其量子化坐标第k位为1，其余为0；z_j为第j个字典向量，k代表字典向量中与z_e(x)向量最相近的向量位置索引。

较佳地，所述S13中：利用一个自回归网络，将低分辨率字典位置索引图转变为高分辨率字典位置索引图。高分辨率字典位置索引图是图像特征参照高分辨率字典而得到的。

较佳地，所述S13中：自回归网络的训练数据是通过成对的低清高清图像得到的，将对应的低清高清图像通过特征提取网络得到图像特征，图像特征分别参照低分辨率字典以及高分辨率字典，依照最相近原则分辨生成低分辨率字典位置索引图以及高分辨率字典位置索引图，两个对应的字典位置索引图即为自回归网络的训练数据，其中低分辨率字典位置索引图为网络的输入，高分辨率字典位置索引图为网络的输出监督。

较佳地，所述S14中：高分辨率字典位置索引图参照高分辨率字典，生成对应的图像特征；图像特征输入解码器中，从而得到超分重建后的高清图像。

本发明的第二目的，提供一种基于离散表示学习的图像超分辨率系统，包括：离散字典创建模块、低分辨率图像离散表示模块、离散表示映射模块以及图像生成模块；其中，

所述离散字典创建模块，将低分辨率图像、高分辨率图像输入卷积神经网络进行特征提取，提取的图像特征用来分别创建低分辨率离散字典、高分辨率离散字典，整个字典创建过程为自监督学习过程；

所述低分辨率图像离散表示模块，根据所述离散字典创建模块创建的所述低分辨率离散字典，将所述卷积神经网络输出的低分辨率图像的图像特征转换为低分辨率字典的离散表示；

所述离散表示映射模块，将基于低分辨率字典的离散表示通过自回归网络，映射成基于高分辨率字典的离散表示；

所述图像生成模块，将映射后的离散表示参照高分辨率离散字典，转换为高分辨率图像特征，再通过卷积神经网络进行卷积以及反卷积的操作，生成输入低分辨率图像对应的高分辨率图像。

本发明的第三目的，提供一种图像超分辨率终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行所述的图像超分辨率方法。

相较于现有技术，本发明实施例具有以下至少一种优点：

(1)本发明提供的基于离散表示学习的图像超分辨率方法及系统，通过低清以及高清的图像数据，通过卷积神经网络进行自监督学习，分别创建低分辨字典以及高分辨率字典，字典中存储图像的特征向量，且特征向量具有良好的泛化性，字典中的特征向量可以表征出绝大部分的自然图像。

(2)发明提供的基于离散表示学习的图像超分辨率方法及系统，通过自回归网络，构造了低分辨率字典以及高分辨率字典的联系，很好的桥接了低分辨率图像特征以及高分辨率图像特征。该网络保障了从低分辨率特征向高分辨率特征进行映射的稳定性，同时映射的过程为超分任务引入额外的高清图像的信息，提升超分图像的主观质量。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例的基于离散表示学习的图像超分辨率方法的流程图；

图2为本发明一实施例的基于离散表示学习的图像超分辨率系统的框图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

本发明为了提高图像超分辨率的表征能力，使用了字典学习与深度学习相结合的方法对图像的特征提取，特别考虑了额外信息的引入问题，即利用低清图像特征和高清图像特征的对应关系来为超分任务引入更多的信息。为实现信息引入，本发明提供了一种基于离散表示学习的图像超分辨率方法，利用低清以及高清图片，分别训练低分辨率以及高分辨率图像特征词典，构造两个词典的联系，为超分任务引入更多高清图像特征先验信息。

如图1所示，为本发明一实施例的基于离散表示学习的图像超分辨率方法的流程图。

请参考图1，本实施例的基于离散表示学习的图像超分辨率方法，包括如下步骤：

S11：利用卷积神经网络对输入低分辨率以及高分辨率图像进行特征提取，将提取得到的图像特征来分别创建低分辨率以及高分辨率的离散字典，整个字典创建过程为自监督学习过程；

S12：将低分辨率图像输入卷积神经网络得到提取的图像特征，并参照S11创建的低分辨率离散字典，将图像特征转换为低分辨率字典的离散表示；

S13：将S12低分辨率字典的离散表示通过自回归网络，映射成基于高分辨率字典的离散表示；

S14：将S13映射后的离散表示参照S11高分辨率离散字典，转换为高分辨率图像特征，再通过卷积神经网络进行卷积以及反卷积的操作，生成输入低分辨率图像对应的高分辨率图像。

本实施例能够利用低清高清数据对来分别建立低分辨率以及高分辨率离散字典，将输入的低分辨率图像通过这两个字典变为对应的高分辨率图像，提升图像的清晰度。

较佳实施例中，S11中，将低分辨率图像、高分辨率图像输入卷积神经网络进行特征提取，其中分别采用低分辨率图像特征提取网络、高分辨率图像特征提取网络对输入低分辨率图像、高分辨率图像进行特征提取，低分辨率图像特征提取网络、高分辨率图像特征提取网络采用卷积神经网络。具体的，在一实施例中，特征提取网络主要由若干卷积操作构成，同时会对图像进行下采样操作，来提取更加高层的图像特征，该图像特征是对图像下采样后，分辨率减小的图像特征，该分辨率更小的图像特征相比于之前的图像特征会有着更多的高层语义信息。提取到的图像特征会用来创建以及更新离散字典，使得离散字典存储大量以及泛化性较强的高层图像特征。图像特征会由离散字典中的向量依照最相近原则进行替代，再将图像特征通过解码器来恢复重建输入图像，解码器中主要也是由若干卷积操作构成，其中也伴随着反卷积的操作，来使得经过下采样的高层图像特征恢复为原输入图像的分辨率大小。

具体的，使用低分辨率图像来创建低分辨率离散字典，使用高分辨率图像来创建高分辨率离散字典；字典为2维变量，其中第一个维度为字典向量的长度，第二个维度为字典的大小，也就是存储特征向量的数量。由特征提取网络得到的图像特征会对字典来进行创建并更新。

整个字典创建过程为自监督的过程，输入图像经过编码器后生成的图像特征，图像特征中的每一个向量都会与离散字典中的每一个向量进行比较，筛选出字典向量中最相近的向量进行替代，其过程如下所示：

其中z_q代表经过字典量化后的图像特征，Z代表离散字典，z_k代表字典中第k个向量，代表输入图像经过编码器后未量化的图像特征。再将由离散字典向量替代后的图像特征通过解码器来恢复重建输入图像，整个过程的监督为输入图像本身。整个字典创建阶段的过程如下所示：

进一步的，上述实施例中，S11的整个过程损失函数如下所示：

其中x为输入图像，G是解码器，E是编码器，z_q表示经过离散字典量化后的特征向量，sg是stop gradient的缩写，表示不对sg[·]中的变量计算梯度，误差不向此变量传递。损失函数一共分为三个部分，第一部分为重构损失，这里的重构误差与普通AutoEncoder的重构损失不完全相同，因为解码器的输入为经过离散字典量化后的特征向量e，重构损失同时更新编码器以及解码器。第二部分为编码器输出的潜在向量与字典向量的MSE损失，该损失项只向离散字典向量z_q进行传递，用于更新字典。第三部分损失与第二部分类似，但第三部分损失只向编码器进行传递，因此只用于更新编码器的参数，其中β为用于平衡第三部分损失与其他损失权重的一个超参数。

较佳实施例中，S12中对于低分辨率图像的离散表示，将输入图像通过编码器进行特征提取，再将提取的特征参照已经创建训练完毕的低分辨率离散字典，按照最相似的原则，计算出图像特征每个位置向量的index q_L，得到低分辨率图像的离散表示。字典向量的纵向维数为D，其等于卷积编码器的filter个数，其量子化公式如下所示：

该式给出了E(x)的one hot(独热编码)表示，即如果z_e(x)与第k个字典向量最相近，那么其量子化坐标第k位为1，其余为0。

较佳实施例中，S13中通过一个自回归网络将依照低分辨率字典计算得到的输入图像离散表示q_L，转化为依照高分辨率字典的高清图像离散表示q_H，其表达式如下所示：

该式为条件生成图像的表示式，其中s为所要生成的图像，s_i对应为生成图像的第i个像素，而c为生成图像的条件信息，c可以为标签类的信息，也可以是完整的图像等。对应到本方法，s代表了高清图像离散表示q_H，c代表了输入图像离散表示q_L。

对于自回归网络的监督数据对，可由成对的低清高清图像通过编码器编码，再分别根据低分辨率字典以及高分辨率字典，得到相对应的低清图像离散表示，以及高清图像离散表示，两个离散表示则构成了数据对。训练自回归网络的损失函数则如下所示：

该损失函数为CrossEntropy交叉熵损失，其中y为高清图像离散表示的真值，x为低清图像的离散表示，E为自回归网络。通过自回归网络将输入图像离散表示q_L，转化为依照高分辨率字典的高清图像离散表示q_H，其自回归过程采用了加窗的方法来减小计算量。

较佳实施例中，S14中将得到的高清图像离散表示q_H，参照高分辨率字典，对其进行索引，得到高清图像的图像特征，再将图像特征通过解码器进行解码，得到最终的高清图像。解码器由卷积层组成，其中也包括了一些反卷积操作，使得高清图像的图像特征进行上采样。

本发明上述实施例中，特征提取网络与编码器是同一个网络(卷积神经网络)，对输入图像进行特征提取；解码器是将图像特征恢复为图像的网络。低分辨率图像的编码器与高分辨率图像的编码器结构相同，但参数不同；低分辨率图像的解码器与高分辨率图像的解码器结构相同，但参数不同。

如图2所示为本发明一实施例的基于离散表示学习的图像超分辨率系统的框图。

请参考图2，本实施例的基于离散表示学习的图像超分辨率系统用于实现上述实施例的基于离散表示学习的图像超分辨率方法，其包括：低分辨率以及高分辨率离散字典创建模块、低分辨率图像离散表示模块、离散表示映射模块以及图像生成模块。

其中，低分辨率以及高分辨率离散字典创建模块用于对输入低分辨率以及高分辨率图像，利用卷积神经网络进行特征提取，利用得到的图像特征来分别创建低分辨率以及高分辨率的离散字典；

低分辨率图像离散表示模块用于将低分辨率图像输入卷积神经网络得到提取的图像特征，并参照创建的低分辨率离散字典，将图像特征转换为字典的离散表示；

离散表示映射模块用于将基于低分辨率字典的离散表示通过自回归网络，映射成基于高分辨率字典的离散表示；

图像生成模块用于将映射后的离散表示参照高分辨率字典，转换为高分辨率图像特征，再通过卷积神经网络，进行一些卷积以及反卷积的操作，生成输入低分辨率图像对应的高分辨率图像。

上述各个模块所采用的技术可以基于离散表示学习的图像超分辨率方法的说明，在此不再赘述。

综上，上述实施例提供的基于离散表示学习的图像超分辨率方法及系统，通过低清以及高清图像数据，使用卷积神经网络进行特征提取，分别创建了低分辨率离散字典以及高分辨率离散字典。使用编码器将输入低分辨率图像转变为高维的图像特征，并参照低分辨率字典生成低分辨率字典离散表达。利用自回归网络，得到高分辨率字典离散表达，参照高分辨率离散字典，生成图像特征。将图像特征通过解码器，得到输入低分辨率图像对应的高分辨率图像，为超分过程引入了额外的高清图像信息。

需要说明的是，本发明提供的所述方法中的步骤，可以利用所述系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照所述系统的技术方案实现所述方法的步骤流程，即，所述系统中的实施例可理解为实现所述方法的优选例，在此不予赘述。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

此处公开的仅为本发明的优选实施例，本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，并不是对本发明的限定。任何本领域技术人员在说明书范围内所做的修改和变化，均应落在本发明所保护的范围内。

Claims

1.一种基于离散表示学习的图像超分辨率方法，其特征在于包括：

S14：将映射后所述高分辨率字典的离散表示参照S11创建的所述高分辨率离散字典，转换为高分辨率图像特征，再通过所述卷积神经网络进行卷积以及反卷积的操作，生成输入低分辨率图像对应的高分辨率图像；

所述整个字典创建过程为自监督的过程，具体为：

其中代表最后重建的输入图像，G代表解码器，q(·)代表使用字典进行量化的过程，E代表编码器，x代表输入图像；

所述S13中，具体如下：

通过一个自回归网络将依照低分辨率离散字典计算得到的输入图像离散表示q_L，转化为依照高分辨率字典的高清图像离散表示q_H，其表达式如下所示：

该式为条件生成图像的表示式，其中s为所要生成的图像，s_i对应为生成图像的第i个像素，而c为生成图像的条件信息，s代表了高清图像离散表示q_H，c代表了输入图像离散表示q_L，p代表概率。

2.根据权利要求1所述的基于离散表示学习的图像超分辨率方法，其特征在于，所述S11中：离散字典为2维变量，其中第一个维度为字典向量的长度，第二个维度为字典的大小即存储特征向量的数量；由特征提取网络得到的图像特征会对字典来进行创建并更新。

3.根据权利要求1所述的基于离散表示学习的图像超分辨率方法，其特征在于，所述S11的整个过程损失函数L如下所示：

其中x为输入图像，G是解码器，E是编码器，z_q表示经过离散字典量化后的特征向量，sg是stop gradient的缩写，表示不对sg[·]中的变量计算梯度，误差不向此变量传递；

损失函数一共分为三个部分：

第一部分为重构损失，解码器的输入为经过离散字典量化后的特征向量e，重构损失同时更新编码器以及解码器；

第二部分为编码器输出的潜在向量与字典向量的MSE损失，该损失项只向离散字典向量z_q进行传递，用于更新字典；

第三部分损失与第二部分类似，但第三部分损失只向编码器进行传递，因此只用于更新编码器的参数，其中β为用于平衡第三部分损失与其他损失权重的一个超参数。

4.根据权利要求1所述的基于离散表示学习的图像超分辨率方法，其特征在于，所述S12中：对于低分辨率图像的离散表示，将所述卷积神经网络提取的图像特征参照S11已经创建训练完毕的低分辨率离散字典，按照最相似的原则，计算出图像特征每个位置向量的index qL，得到低分辨率图像的离散表示；index是指图像特征中每个向量与字典向量相比，其中最相近向量的索引；

5.根据权利要求1所述的基于离散表示学习的图像超分辨率方法，其特征在于，所述自回归网络采用监督数据对进行训练，训练自回归网络的损失函数则如下所示：

该损失函数为CrossEntropy交叉熵损失，其中y为高清图像离散表示的真值，x为低清图像的离散表示，E为自回归网络；

所述监督数据对，由成对的低分辨率图像、高分辨率图像通过编码器编码，再分别根据低分辨率字典以及高分辨率字典，得到相对应的低分辨率字典以及高分辨率字典的离散表示，两个离散表示则构成了数据对。

6.根据权利要求5所述的基于离散表示学习的图像超分辨率方法，其特征在于，所述自回归网络，其中自回归过程采用加窗的方法来减小计算量。

7.一种基于离散表示学习的图像超分辨率系统，其特征在于，用于实现如权利要求1至6任一项所述的基于离散表示学习的图像超分辨率方法，其包括：离散字典创建模块、低分辨率图像离散表示模块、离散表示映射模块以及图像生成模块；其中，

8.一种图像超分辨率终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时可用于执行权利要求1-6中任一项所述的方法。