CN114881856A - 一种人体图像超分辨率重建方法、系统、装置及存储介质 - Google Patents

一种人体图像超分辨率重建方法、系统、装置及存储介质 Download PDF

Info

Publication number
CN114881856A
CN114881856A CN202210422556.4A CN202210422556A CN114881856A CN 114881856 A CN114881856 A CN 114881856A CN 202210422556 A CN202210422556 A CN 202210422556A CN 114881856 A CN114881856 A CN 114881856A
Authority
CN
China
Prior art keywords
image
human body
convolution
resolution
super
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210422556.4A
Other languages
English (en)
Inventor
张琦
孙季丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202210422556.4A priority Critical patent/CN114881856A/zh
Publication of CN114881856A publication Critical patent/CN114881856A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种人体图像超分辨率重建方法、系统、装置及存储介质,其中方法包括:对三维人体数据集进行降维处理,得到二维人体图像的数据集,作为训练集;将空间特异性卷积模块和多头注意力机制模块对标准卷积进行改进,得到新型卷积;使用新型卷积来代替标准卷积应用在基础的图像超分网络方法,得到初始网络;采用训练集对初始网络进行训练,获得图像超分辨率模型;获取低分辨率的人体图像,将低分辨率的人体图像输入图像超分辨率模型进行重建,获得高分辨率的人体图像。本发明基于空间特异性卷积模块和多头注意力机制模块,充分提取到空间上具有差异性的有用特征,提高图像的重建性能,可广泛应用于图像超分辨率技术。

Description

一种人体图像超分辨率重建方法、系统、装置及存储介质
技术领域
本发明涉及图像超分辨率技术,尤其涉及一种人体图像超分辨率重建方法、系统、装置及存储介质。
背景技术
随着时代的不断发展,人们对身边的各种信息质量也有更高的要求,尤其是在短视频蓬勃发展的近些年,人们对画面的清晰度和连贯性有着更高的期待。视频是由多帧图像在时间上通过相关性组成的,因此图像的清晰像素和丰富细节会给人们带来更多的信息和更好的体验。近几年卷积神经网络(CNN)的发展给计算机视觉领域指出了新的方向,在图像超分辨率(SISR)任务中,卷积神经网络的引入不仅突破了传统方法存有的限制,而且图像的质量上得到了大幅度提升,通过学习数据分布的方式来重建图像还可以获得灵活性更好的模型。
Dong等人提出了一种只有三层卷积组成的简单神经网络,称为SRCNN,算法直接学习LR-HR之间的非线性映射,由于CNN的引入,尽管只有浅层的网络组成,其性能表现良好,这是深度学习第一次被引入到图像超分辨任务中并且取得很好的效果,为深度学习在该任务的继续研究奠定了基础。同时作者又提出了FSRCNN,让网络在末端位置上采用反卷积层,回避了输入时就放大图像尺寸给网络处理上带来的开销。使用反卷积操作可以避免网络在高维空间上学习,ESPCN提出的亚像素卷积层的概念也能起到相同作用,它只在最后一层放大特征图,此时再对像素进行重排列,具体指的是在卷积层最后输出的特征个数与需要还原的高分辨率图像的像素个数一致,将像素重排列就可以恢复高分辨率图像。
为了进一步提高性能,Kim等人将卷积层的深度增加到了20层,同时引入了全局残差学习,提出了更加精确的VDSR,用更深的网络是为了提取更多的特征,全局残差学习的引入可以在一定程度上解决网络过深可能存在的梯度消失或爆炸问题,这使得该网络的效果进一步的得到提升。考虑到网络深度不断的增加,即使加入了全局残差学习,仍然会有梯度消失或爆炸问题的存在,因此Tai等人在受到ResNet的启发之后,提出了DRRN,将局部残差学习加入到网络的设计中,介绍了一种包含局部残差学习的方法。当然,影响SISR性能的因素还包括每层中特征的多样性和信息性,因此,注意力机制模块被嵌入到图像的处理中,以特征增强的方式提高CNN在图像超分辨率任务中的性能,在RCAN中,Zhang等人将通道注意力应用于在图像任务中,利用通道之间的关系对不同通道的特征进行区别对待,最终显著提升图像超分辨率的性能。
另外,随着生成对抗网络(GAN)的出现并在图像生成任务中取得一定的成绩,GAN被更多研究人员关注,Leding等人将其应用在图像超分辨率上,提出了SRGAN,并且使用感知损失函数,加入VGG预训练模型,让生成图像更加自然,符合人类视觉感观,但存在不易训练难以收敛的缺点。
图像超分辨率在采用了CNN之后性能相比传统方法而言得到了显著的提升,然而由于基于CNN的方法一直在不断的被改进,网络越来越复杂,网络的层数越来越深,显然计算成本也大幅度上升,昂贵的计算成本限制了它们的实际使用。
现如今的图像超分辨率方法仍存在不足之处,首先方法都采用标准卷积实现,忽略了大量的空间具有差异性的特征,并且为了性能提升一直在加深加宽网络,限制了方法的应用场景,如何有效提升图像超分性能同时不会增加参数量是目前需要解决的问题。
发明内容
为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种人体图像超分辨率重建方法、系统、装置及存储介质。
本发明所采用的技术方案是:
一种人体图像超分辨率重建方法,包括以下步骤:
对三维人体数据集进行降维处理,得到二维人体图像的数据集,作为训练集;
将空间特异性卷积模块和多头注意力机制模块对标准卷积进行改进,得到新型卷积;
使用新型卷积来代替标准卷积应用在基础的图像超分网络方法,得到初始网络;采用训练集对初始网络进行训练,获得图像超分辨率模型;
获取低分辨率的人体图像,将低分辨率的人体图像输入图像超分辨率模型进行重建,获得高分辨率的人体图像;
其中,基础的图像超分网络方法指的是用于图像超分任务中,为提升性能的、基于深度学习的方法。
进一步地,所述对三维人体数据集进行降维处理,得到二维人体图像的数据集,作为训练集,包括:
将三维人体图像经过降维处理后,得到二维人体图像,作为高分辨率图像;
将二维人体图像经过下采样操作,生成对应的低分辨率图像;
将高分辨率图像和对应的低分辨率图像组成训练对,构成训练集。
进一步地,所述空间特异性卷积模块通过计算卷积核的权重参数,给每个像素都使用不同的卷积核处理,过程如下:
(1)根据中心像素与周围像素的向量对卷积核函数进行确定,让每个位置特征都有符合各自的卷积核参数;对于k×k卷积内核,在卷积核函数生成过程中,整个核生成函数表示为:
Figure BDA0003608514420000031
其中,
Figure BDA0003608514420000032
表示核生成函数,
Figure BDA0003608514420000033
代表生成的卷积核,ψi,j代表一系列像素位置;
Figure BDA0003608514420000034
为输入特征,c指的是特征图的通道数,h是特征图的高度,w是特征图的宽度;
(2)根据生成的卷积核与输入特征进行乘加运算,得到最终的输出特征图
Figure BDA0003608514420000035
定义为:
Figure BDA0003608514420000036
其中,k指的是通道,Xi,j,k表示某一通道上的输入特征,
Figure BDA0003608514420000037
代表在对中心像素进行卷积时,邻居像素相对中心像素偏移的集合,表示公式如下:
Figure BDA0003608514420000038
其中K表示卷积核大小,×表示笛卡尔积操作。
进一步地,所述卷积核函数的生成过程如下:
(1)选择一个像素以及与卷积核大小相同数量的周围像素,将这些像素的所有通道所形成形状为k×k×c的张量,使用线性函数f(x)作线性处理,将原始像素的特征投影到适合计算相似性的空间,将通道从c变换为d,得到k×k×d的向量;中心像素对应得到1×1×d的向量;
(2)在线性函数f(x)作用之后,使用l2归一化来消除向量模的影响,通过将每个像素的d维向量作为像素的特征,计算中心像素的向量与所有k×k向量之间的内积,两个向量经过l2归一化之后内积,等价于求两个向量的余弦相似度;
(3)将得到的所有卷积核权重系数除以k,以保持它们(所有卷积核权重系数)的值在
Figure BDA0003608514420000039
之间,保证实验的稳定性以及训练时模型的收敛速度,得到k×k矩阵,该矩阵表示中心像素与其周围所有像素的相似度,该矩阵就是这个中心像素特有的卷积核;
整个过程采用以下公式来表示:
Figure BDA00036085144200000310
其中,Xi,j表示输入的中心像素,Xi+u,j+v表示的是中心像素的周围相邻像素,f表示线性函数,||f(x)||2是指将线性函数处理后的结果进行归一化操作,⊙表示内积。
进一步地,所述多头注意力机制模块的处理过程如下:
将计算卷积核的步骤中复制多个向量进行运算,每个向量都有head个,在卷积后得到head个1×1×c的向量;
通过求平均后拼接成1×1×head的向量,多头注意力机制的公式表示为:
MultiHead(Q,K,V)=[mean(head1)||mean(head2)||…||mean(headi)]
Figure BDA0003608514420000041
其中,Q表示中心像素,K和V都是周围像素,W是1×1卷积,headi是每个单头的计算方式;
通过线性函数得到输出
Figure BDA0003608514420000042
特征图:
Y=MultiHead(Q,K,V)·g(x)
其中g(x)为线性函数。
进一步地,所述使用新型卷积来代替标准卷积应用在基础的图像超分网络方法,得到初始网络,包括:
使用新型卷积代替小型的SAN网络中的标准卷积;
所述小型的SAN网络包含5个残差组,每个残差组都直接作用于任意一个残差组,融合了各个组内的特征表达,每个残差组包括5个残差块,每个残差块由2个卷积和1个激活函数组成。
进一步地,在对初始网络进行训练过程中采用Charbonnier损失函数作为目标函数:
Figure BDA0003608514420000043
其中,ISR、IHR分别代表重建后的图像和真实的高分辨率图像,ε是一个常量;Charbonnier损失在L1损失的基础上加了一个正则项,使得训练损失更加稳定,并且可以有效减少图像里的一些重建伪影。
本发明所采用的另一技术方案是:
一种人体图像超分辨率重建系统,包括:
数据获取模块,用于对三维人体数据集进行降维处理,得到二维人体图像的数据集,作为训练集;
卷积改进模块,用于将空间特异性卷积模块和多头注意力机制模块对标准卷积进行改进,得到新型卷积;
模型训练模块,用于使用新型卷积来代替标准卷积应用在基础的图像超分网络方法,得到初始网络;采用训练集对初始网络进行训练,获得图像超分辨率模型;
图像重建模块,用于获取低分辨率的人体图像,将低分辨率的人体图像输入图像超分辨率模型进行重建,获得高分辨率的人体图像;
其中,基础的图像超分网络方法指的是用于图像超分任务中,为提升性能的、基于深度学习的方法。
本发明所采用的另一技术方案是:
一种人体图像超分辨率重建装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
本发明所采用的另一技术方案是:
一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。
本发明的有益效果是:本发明基于空间特异性卷积模块和多头注意力机制模块,充分提取到空间上具有差异性的有用特征,且不会增加网络的复杂性,减少模型的参数量,使用提取到的空间和通道特征有效的还原图像的分辨率,提高图像的重建性能。
附图说明
为了更清楚地说明本发明实施例或者现有技术中的技术方案,下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1是本发明实施例中一种人体图像超分辨率重建方法的步骤流程图;
图2是本发明实施例中处理过后的二维人体图像;
图3是本发明实施例中SAN网络的结构示意图;
图4是本发明实施例中空间特异性卷积模块的示意图;
图5是本发明实施例中多头注意力机制模块的示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
术语解释:
SAN网络:Second-order Attention Network。
如图1所示,本实施例提供一种人体图像超分辨率重建方法,具体包括以下步骤:
S1、对三维人体数据集进行降维处理,得到二维人体图像的数据集,作为训练集。
参见图2,在步骤S1中,将现有的三维人体图像经过降维处理后得到二维人体图像,作为高分辨率原始图像,再将二维人体图像经过下采样操作生成对应的低分辨率图像,两者组成训练对,构成初始训练集。
具体地,数据集的处理:将现有的三维人体图像经过降维处理后得到二维人体图像,同时通过matlab将二维数据进行处理,得到对应的低分辨率图像,其中包含尺度因子为2、3、4的图像,以倍数为2为例,将二维人体图像经过下采样得到与之对应的低分辨率图像,同时低分辨率图像大小为原图像的一半,最终通过网络预测将低分辨率图像放大2倍后重建出与原图大小一致的高分辨率图像。
S2、将空间特异性卷积模块和多头注意力机制模块对标准卷积进行改进,得到新型卷积。
搭建网络:本实施例中使用小型的SAN作为网络的基本结构,SAN的网络结构如图3所示。
参见图3,本实施例采用小型的SAN网络,其中包含5个残差组,每个残差组都直接作用于任意一个残差组,融合了各个组内的特征表达,每个残差组有5个残差块,每个残差块由2个卷积和1个激活函数组成,同时将新型卷积代替0.6倍的标准卷积,且都代替于尾部位置。
其中新型卷积采用空间特异性卷积模块和多头注意力机制模块组成,图4和图5分别为这两大模块的示意图。标准卷积只表达通道上特异性的特征,但是由于通道上的交互信息比较冗余,不仅完全忽略空间上的特征信息,而且提取到的特征冗杂,提出的空间特异性卷积模块主要是充分利用空间上具有差异性的特征,让网络针对每个像素位置都能有各自的卷积核,使得整个模型可以提取到有效的空间上的特征,有利于图像超分重建的任务。多头注意力机制的引入是让网络在关注空间特征的基础上不会忽略掉过多的通道特征,通道特征对于图像重建任务也是不可或缺的一部分,因此多头注意力机制能够让网络在一定程度上关注通道上的交互信息,对任务起到促进作用。
本实施例中,空间特异性卷积模块通过计算卷积核的权重参数给每个像素都使用不同的卷积核处理,采用空间特异性卷积使得能够更多的关注空间上特征的差异性,更有效的学习到真实特征,并且能够减缓大多数为了提高性能而增加深度的网络的参数量和计算量。过程如下:
(1)根据中心像素与周围像素的向量对卷积核函数进行确定,让每个位置特征都有符合各自的卷积核参数。在输入为
Figure BDA0003608514420000071
的特征中,其中c指的是特征图的通道数,h是特征图的高度,w是特征图的宽度,以k×k卷积内核为例,在卷积核函数生成过程中,我们可以将整个核生成函数表示为:
Figure BDA0003608514420000072
其中
Figure BDA0003608514420000073
表示核生成函数,
Figure BDA0003608514420000074
代表生成的卷积核,ψi,j代表一系列像素位置;
(2)根据生成的卷积核与输入特征进行乘加运算,得到最终的输出特征图
Figure BDA0003608514420000078
可以定义为:
Figure BDA0003608514420000076
其中k指的是通道,Xi,j,k表示某一通道上的输入特征,
Figure BDA0003608514420000077
代表在对中心像素进行卷积时,邻居像素相对中心像素偏移的集合,可以用以下公式表示:
Figure BDA0003608514420000081
其中卷积函数的生成是空间特异性卷积的关键步骤,具体的卷积函数的生成过程如下:
(1)首先,选择一个像素以及与卷积核大小相同数量的周围像素,将这些像素的所有通道所形成形状为k×k×c的张量,使用线性函数f(x)作线性处理,将原始像素的特征投影到适合计算相似性的空间,此时可以将通道从c变换为d,得到k×k×d的向量,中心像素单独地也通过同样的处理得到1×1×d的向量;
(2)在线性函数f(x)作用之后,使用l2归一化来消除向量模的影响,通过将每个像素的d维向量作为它们的特征,我们计算中心像素的向量与所有k×k向量之间的内积,两个向量经过l2归一化之后内积,等价于求两个向量的余弦相似度,此处就考虑了周围像素对中间像素的影响;
(3)将所有元素除以k以保持它们的值在
Figure BDA0003608514420000082
之间,可以保证实验的稳定性以及训练时模型的收敛速度,现在我们得到k×k矩阵,它表示中心像素与其周围所有像素的相似度,该矩阵就是这个中心像素特有的卷积核;
整个过程可以用以下公式来表示:
Figure BDA0003608514420000083
其中Xi,j表示输入的中心像素,Xi+u,j+v表示的是该像素的周围相邻像素,f表示线性函数,||f(x)||2是指将线性函数处理后的结果进行归一化操作,⊙表示内积。
在本实施例中,多头注意力机制模块在卷积核计算过程中采用多头来实现,使用多头注意力机制从不同角度来探索和表达注意力,对于图像超分辨率重建任务,采用多头机制后表现出来的形式是在通道上,产生和实现通道特异性,同时还在输入特征上乘以多维向量引入通道特异性,让网络自适应地调节卷积核参数权重系数。具体的处理过程如下:
首先将计算卷积核的步骤中复制多个向量进行运算,每个向量都有head个,在卷积后得到head个1×1×c的向量;
接着通过求平均后拼接成1×1×head的向量,多头注意力机制的公式可以表示为:
MultiHead(Q,K,V)=[mean(head1)||mean(head2)||…||mean(headi)]
Figure BDA0003608514420000084
其中Q表示中心像素,K和V都是周围像素,W是1×1卷积,headi是每个单头的计算方式。
最后通过线性函数得到输出
Figure BDA0003608514420000091
持征图:
Y=MultiHead(Q,K,V)·g(x)
其中g(x)为线性函数。
将多头注意力机制模块和空间特异性卷积模块应用在卷积的计算过程中得到新型卷积,不仅能够提取到通道上的特征而且同时关注在空间上的特征,将新型卷积代替标准卷积后形成最终训练使用的模型,该模型能够重建出更为真实的高分辨率图像。
S3、使用新型卷积来代替标准卷积应用在基础的图像超分网络方法,得到初始网络;采用训练集对初始网络进行训练,获得图像超分辨率模型。其中,基础的图像超分网络方法指的是用于图像超分任务中为提升性能的一些基于深度学习的方法,其中卷积计算是由标准卷积实现,新型卷积具有独立性,可以方便的应用在这些方法中。
训练模型:使用最终确定的网络模型对处理后的数据集进行训练,训练的目的是让生成的图像与原始图像尽可能的接近,训练后的网络可以作为重建图像的模型。
在本实施例中,在数据集作为输入放入网络训练前,将图像进行了随机裁剪,图像大小为64×64。为了让网络具有更高的鲁棒性,在训练集进入网络前对图像进行了基本的数据增强操作,其中包括随机的垂直翻转,水平翻转和转置,这不仅增加了数据的多样性让模型学习到更好的分布,同时还让模型可具有泛化能力。另外,训练时采用小批量梯度下降法,实验采用端到端的训练方式,不需要任何预训练环节。
在本实施例中,整个网络在训练过程中使用Charbonnier损失函数作为目标函数:
Figure BDA0003608514420000092
其中ISR、IHR分别代表重建后的图像和真实的高分辨率图像,ε是一个很小的常量。Charbonnier损失在L1损失的基础上加了一个正则项,使得训练损失更加稳定,并且可以有效减少图像里的一些重建伪影。
S4、获取低分辨率的人体图像,将低分辨率的人体图像输入图像超分辨率模型进行重建,获得高分辨率的人体图像。
预测结果:对于待放大的低分辨率人体图像,使用训练好的图像超分辨率模型对图像进行重建,最终得到放大若干倍与原图像大小一致的高分辨率人体图像,完成图像重建任务。其中在重建图像时,为了不受到显存的限制,我们将单张低分辨率图片切分成四等分(垂直和水平均二等分),分别经过网络得到四个高分辨率图片,再拼接成最终的输出。
综上所述,本实施例方法相对于现有技术,具有如下优点及有益效果:
(1)本发明针对目前存在的忽略空间差异性特征、网络过深导致的参数量大的问题,提出一种基于多头注意力机制和空间特异性的图像超分辨率方法,使用新型卷积代替标准卷积对特征进行多层面的提取,既结合了空间特异性来获得不同的空间信息,又将卷积核参数与像素间的影响相关联,为所有像素生成适当的内核,让每个特征都有适合自己的卷积参数,可以进一步学习更真实的特征。
(2)使用多头机制对频域上信息引入更多的学习机会,在空间和通道上均能提取到有效的特征,并且加入了可变向量来自主调节权重系数,可以自适应的调节卷积核参数,这两处改进分别在卷积前后让通道上体现出更多的特异性。
(3)整个新型卷积方式可看作是一个独立的模型,可以用在任何其它网络中并且不需要更改其结构,体现了整体置换标准卷积的便捷性,有着即插即用的效果。
(4)由于卷积方式结构设计和运算,可以显著减少可学习参数的数量和计算量,能够应用在更多的场景并且存储更加方便。
本实施例还提供一种人体图像超分辨率重建系统,包括:
数据获取模块,用于对三维人体数据集进行降维处理,得到二维人体图像的数据集,作为训练集;
卷积改进模块,用于将空间特异性卷积模块和多头注意力机制模块对标准卷积进行改进,得到新型卷积;
模型训练模块,用于使用新型卷积来代替标准卷积应用在基础的图像超分网络方法,得到初始网络;采用训练集对初始网络进行训练,获得图像超分辨率模型;
图像重建模块,用于获取低分辨率的人体图像,将低分辨率的人体图像输入图像超分辨率模型进行重建,获得高分辨率的人体图像;
其中,基础的图像超分网络方法指的是用于图像超分任务中,为提升性能的、基于深度学习的方法。
本实施例的一种人体图像超分辨率重建系统,可执行本发明方法实施例所提供的一种人体图像超分辨率重建方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本实施例还提供一种人体图像超分辨率重建装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现图1所示方法。
本实施例的一种人体图像超分辨率重建装置,可执行本发明方法实施例所提供的一种人体图像超分辨率重建方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本申请实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
本实施例还提供了一种存储介质,存储有可执行本发明方法实施例所提供的一种人体图像超分辨率重建方法的指令或程序,当运行该指令或程序时,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种人体图像超分辨率重建方法,其特征在于,包括以下步骤:
对三维人体数据集进行降维处理,得到二维人体图像的数据集,作为训练集;
将空间特异性卷积模块和多头注意力机制模块对标准卷积进行改进,得到新型卷积;
使用新型卷积来代替标准卷积应用在基础的图像超分网络方法,得到初始网络;采用训练集对初始网络进行训练,获得图像超分辨率模型;
获取低分辨率的人体图像,将低分辨率的人体图像输入图像超分辨率模型进行重建,获得高分辨率的人体图像;
其中,基础的图像超分网络方法指的是用于图像超分任务中,为提升性能的、基于深度学习的方法。
2.根据权利要求1所述的一种人体图像超分辨率重建方法,其特征在于,所述对三维人体数据集进行降维处理,得到二维人体图像的数据集,作为训练集,包括:
将三维人体图像经过降维处理后,得到二维人体图像,作为高分辨率图像;
将二维人体图像经过下采样操作,生成对应的低分辨率图像;
将高分辨率图像和对应的低分辨率图像组成训练对,构成训练集。
3.根据权利要求1所述的一种人体图像超分辨率重建方法,其特征在于,所述空间特异性卷积模块通过计算卷积核的权重参数,给每个像素都使用不同的卷积核处理,过程如下:
(1)根据中心像素与周围像素的向量对卷积核函数进行确定,让每个位置特征都有符合各自的卷积核参数;对于k×k卷积内核,在卷积核函数生成过程中,整个核生成函数表示为:
Figure FDA0003608514410000011
其中,
Figure FDA0003608514410000012
表示核生成函数,
Figure FDA0003608514410000013
代表生成的卷积核,ψi,j代表一系列像素位置;
Figure FDA0003608514410000014
为输入特征,c指的是特征图的通道数,h是特征图的高度,w是特征图的宽度;
(2)根据生成的卷积核与输入特征进行乘加运算,得到最终的输出特征图
Figure FDA0003608514410000015
定义为:
Figure FDA0003608514410000016
其中,k指的是通道,Xi,j,k表示某一通道上的输入特征,
Figure FDA0003608514410000017
代表在对中心像素进行卷积时,邻居像素相对中心像素偏移的集合,表示公式如下:
Figure FDA0003608514410000021
其中K表示卷积核大小,×表示笛卡尔积操作。
4.根据权利要求3所述的一种人体图像超分辨率重建方法,其特征在于,所述卷积核函数的生成过程如下:
(1)选择一个像素以及与卷积核大小相同数量的周围像素,将这些像素的所有通道所形成形状为k×k×c的张量,使用线性函数f(x)作线性处理,将原始像素的特征投影到适合计算相似性的空间,将通道从c变换为d,得到k×k×d的向量;中心像素对应得到1×1×d的向量;
(2)在线性函数f(x)作用之后,使用l2归一化来消除向量模的影响,通过将每个像素的d维向量作为像素的特征,计算中心像素的向量与所有k×k向量之间的内积,两个向量经过l2归一化之后内积,等价于求两个向量的余弦相似度;
(3)将得到的所有卷积核权重系数除以k,以保持它们的值在
Figure FDA0003608514410000022
之间,保证实验的稳定性以及训练时模型的收敛速度,得到k×k矩阵,该矩阵表示中心像素与其周围所有像素的相似度,该矩阵就是这个中心像素特有的卷积核;
整个过程采用以下公式来表示:
Figure FDA0003608514410000023
其中,Xi,j表示输入的中心像素,Xi+u,j+v表示的是中心像素的周围相邻像素,f表示线性函数,‖f(x)‖2是指将线性函数处理后的结果进行归一化操作,⊙表示内积。
5.根据权利要求1所述的一种人体图像超分辨率重建方法,其特征在于,所述多头注意力机制模块的处理过程如下:
将计算卷积核的步骤中复制多个向量进行运算,每个向量都有head个,在卷积后得到head个1×1×c的向量;
通过求平均后拼接成1×1×head的向量,多头注意力机制的公式表示为:
MultiHead(Q,K,V)=[mean(head1)||mean(head2)||…||mean(headi)]
Figure FDA0003608514410000024
其中,Q表示中心像素,K和V都是周围像素,W是1×1卷积,headi是每个单头的计算方式;
通过线性函数得到输出
Figure FDA0003608514410000031
特征图:
Y=MultiHead(Q,K,V)·g(x)
其中g(x)为线性函数。
6.根据权利要求1所述的一种人体图像超分辨率重建方法,其特征在于,所述使用新型卷积来代替标准卷积应用在基础的图像超分网络方法,得到初始网络,包括:
使用新型卷积代替小型的SAN网络中的标准卷积;
所述小型的SAN网络包含5个残差组,每个残差组都直接作用于任意一个残差组,融合了各个组内的特征表达,每个残差组包括5个残差块,每个残差块由2个卷积和1个激活函数组成。
7.根据权利要求6所述的一种人体图像超分辨率重建方法,其特征在于,在对初始网络进行训练过程中采用Charbonnier损失函数作为目标函数:
Figure FDA0003608514410000032
其中,ISR、IHR分别代表重建后的图像和真实的高分辨率图像,ε是一个常量。
8.一种人体图像超分辨率重建系统,其特征在于,包括:
数据获取模块,用于对三维人体数据集进行降维处理,得到二维人体图像的数据集,作为训练集;
卷积改进模块,用于将空间特异性卷积模块和多头注意力机制模块对标准卷积进行改进,得到新型卷积;
模型训练模块,用于使用新型卷积来代替标准卷积应用在基础的图像超分网络方法,得到初始网络;采用训练集对初始网络进行训练,获得图像超分辨率模型;
图像重建模块,用于获取低分辨率的人体图像,将低分辨率的人体图像输入图像超分辨率模型进行重建,获得高分辨率的人体图像;
其中,基础的图像超分网络方法指的是用于图像超分任务中,为提升性能的、基于深度学习的方法。
9.一种人体图像超分辨率重建装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现权利要求1-7任一项所述方法。
10.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-7任一项所述方法。
CN202210422556.4A 2022-04-21 2022-04-21 一种人体图像超分辨率重建方法、系统、装置及存储介质 Pending CN114881856A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210422556.4A CN114881856A (zh) 2022-04-21 2022-04-21 一种人体图像超分辨率重建方法、系统、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210422556.4A CN114881856A (zh) 2022-04-21 2022-04-21 一种人体图像超分辨率重建方法、系统、装置及存储介质

Publications (1)

Publication Number Publication Date
CN114881856A true CN114881856A (zh) 2022-08-09

Family

ID=82671500

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210422556.4A Pending CN114881856A (zh) 2022-04-21 2022-04-21 一种人体图像超分辨率重建方法、系统、装置及存储介质

Country Status (1)

Country Link
CN (1) CN114881856A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115293985A (zh) * 2022-08-11 2022-11-04 北京拙河科技有限公司 一种用于图像优化的超分降噪方法及装置
CN117372261A (zh) * 2023-12-04 2024-01-09 无锡日联科技股份有限公司 基于卷积神经网络的分辨率重建方法、装置、设备及介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115293985A (zh) * 2022-08-11 2022-11-04 北京拙河科技有限公司 一种用于图像优化的超分降噪方法及装置
CN117372261A (zh) * 2023-12-04 2024-01-09 无锡日联科技股份有限公司 基于卷积神经网络的分辨率重建方法、装置、设备及介质
CN117372261B (zh) * 2023-12-04 2024-02-27 无锡日联科技股份有限公司 基于卷积神经网络的分辨率重建方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN114881856A (zh) 一种人体图像超分辨率重建方法、系统、装置及存储介质
CN112270644A (zh) 基于空间特征变换和跨尺度特征集成的人脸超分辨方法
CN112837224A (zh) 一种基于卷积神经网络的超分辨率图像重建方法
Vu et al. Perception-enhanced image super-resolution via relativistic generative adversarial networks
CN112580473B (zh) 一种融合运动特征的视频超分辨率重构方法
CN116091313A (zh) 一种图像超分辨率网络模型和重建方法
CN112270646B (zh) 基于残差密集跳跃网络的超分辨增强方法
Wang et al. 4k-nerf: High fidelity neural radiance fields at ultra high resolutions
López-Tapia et al. A single video super-resolution GAN for multiple downsampling operators based on pseudo-inverse image formation models
Wang et al. Underwater image super-resolution and enhancement via progressive frequency-interleaved network
CN114170286A (zh) 一种基于无监督深度学习的单目深度估计方法
Löhdefink et al. On low-bitrate image compression for distributed automotive perception: Higher peak snr does not mean better semantic segmentation
CN113112416A (zh) 一种语义引导的人脸图像修复方法
CN116739899A (zh) 基于saugan网络的图像超分辨率重建方法
CN113610912B (zh) 三维场景重建中低分辨率图像单目深度估计系统及方法
CN116797461A (zh) 基于多级强化注意力机制的双目图像超分辨率重建方法
CN115797176A (zh) 一种图像超分辨率重建方法
CN114841859A (zh) 基于轻量神经网络和Transformer的单图像超分辨率重建方法
CN113379606B (zh) 一种基于预训练生成模型的人脸超分辨方法
Tian et al. Clsa: a contrastive learning framework with selective aggregation for video rescaling
Junayed et al. Consistent video inpainting using axial attention-based style transformer
CN117391920A (zh) 基于rgb通道差分平面的大容量隐写方法及系统
KR102057395B1 (ko) 기계학습 기반 비디오 보외법을 이용한 영상 생성 방법
CN113674154B (zh) 一种基于生成对抗网络的单幅图像超分辨率重建方法及系统
CN113191947B (zh) 一种图像超分辨率的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination