CN115131214A - 基于自注意力的室内老人图像超分辨率重构方法及系统 - Google Patents

基于自注意力的室内老人图像超分辨率重构方法及系统 Download PDF

Info

Publication number
CN115131214A
CN115131214A CN202211050463.XA CN202211050463A CN115131214A CN 115131214 A CN115131214 A CN 115131214A CN 202211050463 A CN202211050463 A CN 202211050463A CN 115131214 A CN115131214 A CN 115131214A
Authority
CN
China
Prior art keywords
image
attention
resolution
matrix
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211050463.XA
Other languages
English (en)
Other versions
CN115131214B (zh
Inventor
李晓飞
宋璋晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202211050463.XA priority Critical patent/CN115131214B/zh
Publication of CN115131214A publication Critical patent/CN115131214A/zh
Application granted granted Critical
Publication of CN115131214B publication Critical patent/CN115131214B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了图像处理技术领域的一种基于自注意力的室内老人图像超分辨率重构方法及系统。方法包括:获取室内场景下含有老人的低分辨率图像;将室内场景下含有老人的低分辨率图像输入构建的基于自注意力机制的图像超分辨率重构模型,生成并输出对应的超分辨率图像。本发明通过构建的基于自注意力机制的图像超分辨率重构模型能够捕捉图像远程特征依赖关系,获得纹理细节质量更高的超分辨率图像,为后续居家独居老人异常发现提供基础保障。

Description

基于自注意力的室内老人图像超分辨率重构方法及系统
技术领域
本发明属于图像处理技术领域,具体涉及一种基于自注意力的室内老人图像超分辨率重构方法及系统。
背景技术
根据国新办公布的2021年中国人口数据,60岁以上人口占18.9%,中国正在步入中度老龄化社会,同时,养老看护领域面临的社会需求日益增长。随着人工智能技术不断发展,中国老人日常看护模式,以“医院”为核心逐渐向“医院+家庭”的智慧型模式进行转变。基于视觉技术的智能家用摄像头得到广泛使用,保障居家独居老年人的生命健康和财产安全。然而,监控设备由于硬件型号、焦距,以及图像传输过程中带宽受限、信道噪声等诸多因素影响,产生了大量纹理细节丢失的低分辨率图像帧,尤其不能满足室内独居老人监护中身份识别、跌倒检测等下游任务的需求。为此,需要让低质量图像恢复原有的丰富细节纹理,尽可能重构图像信息。
传统的图像重构方法包括基于插值的最近邻插值法、双线性插值法及双三次插值法,这些传统方法计算简单,且插值过程造成严重伪影。基于重构的图像超分算法分为频域法和空域法。频域法采用递归最小二乘法、离散DCT 变换和小波变换;空域法常用方法包括非均匀采样内插法、基于最大后验概率法等,但无法获取更多纹理细节。
发明内容
为解决现有技术中的不足,本发明提供一种基于自注意力的室内老人图像超分辨率重构方法及系统,能够捕捉图像远程特征依赖关系,获得纹理细节质量更高的超分辨率图像,为后续居家独居老人异常发现提供基础保障。
为达到上述目的,本发明所采用的技术方案是:
第一方面,提供一种基于自注意力的室内老人图像超分辨率重构方法,包括:获取室内场景下含有老人的低分辨率图像;将室内场景下含有老人的低分辨率图像输入构建的基于自注意力机制的图像超分辨率重构模型,生成并输出对应的超分辨率图像。
进一步地,所述基于自注意力机制的图像超分辨率重构模型的构建方法,包括:构建多头自注意力特征编码网络E,用于提取图像远程依赖的特征编码;构建多头自注意力解码器作为GAN网络的生成器G,用于解码生成得到虚假超分辨率图像;构建GAN网络的鉴别器D,用于判别生成图像为真实图像的概率;定义损失函数,将多头自注意力特征编码网络E与生成器G、鉴别器D交替训练,直至鉴别器D无法区分超分辨率图像和真实图像,即纳什平衡。
进一步地,所述多头自注意力特征编码网络E包括嵌入模块,所述嵌入模块用于将低分辨率图像从三维映射到二维矩阵,包括:
S1:将
Figure 499495DEST_PATH_IMAGE001
的输入图像均匀切割成N个Patches,其中,H为输入图像的高,W为输入图像的宽,C为图像通道数,每个Patch的宽、高均为patch_size,如公式(3)所示:
Figure 578309DEST_PATH_IMAGE002
S2:对每一个Patch进行展开运算,用长度为
Figure 889336DEST_PATH_IMAGE003
的一维向量表征每一个Patch,则低分辨率图像的尺度转换为
Figure 254458DEST_PATH_IMAGE004
的二维矩阵,此二维矩阵经可学习的线性映射矩阵
Figure 939518DEST_PATH_IMAGE005
,得到尺度为
Figure 290864DEST_PATH_IMAGE006
的二维矩阵F
S3:添加位置编码,使用尺度为
Figure 751671DEST_PATH_IMAGE006
的可学习二维位置嵌入编码矩阵pos,初始化为随机标准正态分布,与二维矩阵F相加,得到尺度同为
Figure 163060DEST_PATH_IMAGE006
的二维矩阵X,作为编码器模块的输入:
Figure 335416DEST_PATH_IMAGE007
其中,
Figure 615087DEST_PATH_IMAGE008
表示大小为
Figure 290919DEST_PATH_IMAGE009
的矩阵。
进一步地,所述多头自注意力特征编码网络E还包括编码器模块,所述编码器模块包括B个重复堆叠的多头自注意力编码模块,每个多头自注意力编码模块包括:层归一化模块、多头自注意力模块和前馈全连接模块;所述多头自注意力编码模块用于提取输入图像的特征编码,包括:
S1:层归一化模块,按照公式(5)将层归一化模块的输入数据分布转换为标准正态分布:
Figure 14156DEST_PATH_IMAGE010
其中,x为输入特征层矩阵,
Figure 408228DEST_PATH_IMAGE011
为x的均值,
Figure 366957DEST_PATH_IMAGE012
为x的方差,
Figure 287508DEST_PATH_IMAGE013
为一无穷小值,
Figure 775121DEST_PATH_IMAGE014
Figure 295970DEST_PATH_IMAGE015
为可学习参数;
S2:多头注意力模块,设头数为n,将层归一化后的二维矩阵X,分别与n路随机初始 值相同的可学习线性映射矩阵
Figure 792811DEST_PATH_IMAGE016
Figure 708814DEST_PATH_IMAGE017
Figure 757542DEST_PATH_IMAGE018
相乘,
Figure 126206DEST_PATH_IMAGE019
Figure 36524DEST_PATH_IMAGE019
,并行计算得到查 询矩阵
Figure 72613DEST_PATH_IMAGE020
、关键词矩阵
Figure 167608DEST_PATH_IMAGE021
和价值矩阵
Figure 148203DEST_PATH_IMAGE022
,如公式(6)~(8)所示:
Figure 986846DEST_PATH_IMAGE023
Figure 877441DEST_PATH_IMAGE024
Figure 517239DEST_PATH_IMAGE025
其中,可学习线性映射矩阵
Figure 594916DEST_PATH_IMAGE016
Figure 361884DEST_PATH_IMAGE017
Figure 841407DEST_PATH_IMAGE018
的大小分别为
Figure 543784DEST_PATH_IMAGE026
Figure 984124DEST_PATH_IMAGE026
Figure 164569DEST_PATH_IMAGE027
,所得查询矩阵
Figure 888812DEST_PATH_IMAGE020
的大小为
Figure 496510DEST_PATH_IMAGE028
,关键词矩阵
Figure 814359DEST_PATH_IMAGE021
的大小为
Figure 178257DEST_PATH_IMAGE028
,价值矩阵
Figure 632372DEST_PATH_IMAGE022
的大小为
Figure 535606DEST_PATH_IMAGE029
计算得到查询矩阵
Figure 340751DEST_PATH_IMAGE020
和关键词矩阵
Figure 862999DEST_PATH_IMAGE021
的相关系数矩阵
Figure 312566DEST_PATH_IMAGE030
,如公式(9)所示,
Figure 262067DEST_PATH_IMAGE030
矩阵中的每个元素为标量;
Figure 413563DEST_PATH_IMAGE031
其中,
Figure 739502DEST_PATH_IMAGE032
Figure 902630DEST_PATH_IMAGE033
的转置,所得相关系数矩阵
Figure 928093DEST_PATH_IMAGE030
的大小为
Figure 176671DEST_PATH_IMAGE034
接着对
Figure 306301DEST_PATH_IMAGE030
的每一个标量元素进行
Figure 714149DEST_PATH_IMAGE035
的倍乘,再进行归一化处理,得到权重矩阵
Figure 5453DEST_PATH_IMAGE036
,矩阵
Figure 882273DEST_PATH_IMAGE037
中的元素如公式(10)所示:
Figure 550015DEST_PATH_IMAGE038
将权重矩阵
Figure 953314DEST_PATH_IMAGE037
与价值矩阵
Figure 540154DEST_PATH_IMAGE022
相乘并行得到n路自注意层的输出
Figure 28904DEST_PATH_IMAGE039
,如公式(11)所示:
Figure 608659DEST_PATH_IMAGE040
将n路的自注意层输出
Figure 600885DEST_PATH_IMAGE041
级联,与可学习线性映射矩阵
Figure 765150DEST_PATH_IMAGE042
相乘作为多头自注意力特征编码网络E的输出Z
Figure 600251DEST_PATH_IMAGE043
S3:前馈全连接模块,包括两个线性层和一个重塑层,两个线性层先将Z线性映射到
Figure 344216DEST_PATH_IMAGE044
大小,然后,重塑Z的尺寸到
Figure 597474DEST_PATH_IMAGE045
进一步地,构建多头自注意力解码器作为GAN网络的生成器,具体为:选用基于Transformer的多头自注意力解码器作为生成器G,分阶段逐步提高特征图分辨率,直至达到设定的分辨率,每一阶段包括M个多头自注意力解码模块堆叠结构和一个像素重组上采样模块,具体为:采样noise_dim个先验的标准正态分布随机数向量z,通过多层感知机,将z映射为
Figure 401482DEST_PATH_IMAGE046
长度的向量
Figure 864825DEST_PATH_IMAGE047
,重塑
Figure 537114DEST_PATH_IMAGE047
的尺寸到
Figure 769513DEST_PATH_IMAGE048
,与尺寸为
Figure 383902DEST_PATH_IMAGE045
的特征编码Z级联,得到尺度为
Figure 803382DEST_PATH_IMAGE049
的特征矩阵I;第一阶段,特征矩阵经过M层多头自注意力解码模块,所述多头自注意力解码模块与所述多头自注意力编码模块的结构相同,输出大小为
Figure 420309DEST_PATH_IMAGE050
,接着使用像素重组上采样模块,进行尺度因子为2的上采样,得到大小为
Figure 366268DEST_PATH_IMAGE051
的输出特征矩阵;与第一阶段操作一致,每一阶段将多头自注意力解码模块的输出特征图分辨率提高2倍,通道数减小到1/4,经过r/2个阶段,最终得到大小为
Figure 43237DEST_PATH_IMAGE052
的特征图,其中r为超分比例因子,最后进行线性映射操作,把通道维度映射为3,得到RGB超分辨率图像
Figure 825379DEST_PATH_IMAGE053
进一步地,所述像素重组上采样模块采用多通道间的补偿重排方式,将低分辨率的特征图在宽、高方向提升分辨率,减少通道数;具体包括:
S1:像素恢复重组上采样模块的输入是多头自注意力解码模块的输出特征矩阵,大小为
Figure 980417DEST_PATH_IMAGE050
,将其大小重塑到
Figure 921828DEST_PATH_IMAGE054
S2:将
Figure 894332DEST_PATH_IMAGE054
大小的特征图,每4个通道对应位置像素按照各自可学习的通道权重优先级进行重组,使得1个像素扩充到2×2个像素,同时每4个通道变为1个通道,最终得到
Figure 288405DEST_PATH_IMAGE055
个通道的2W,2H大小的特征图,即尺寸为
Figure 247133DEST_PATH_IMAGE051
S3:将输出特征图大小从
Figure 168951DEST_PATH_IMAGE051
重塑到
Figure 922144DEST_PATH_IMAGE056
进一步地,所述鉴别器D,包括一个包含普通卷积和Leaky ReLU激活函数的第一卷积层,七个包含普通卷积、BN层和Leaky ReLU激活函数的第二卷积层,一个自适应平均池化层,两个全连接层,一个Sigmoid归一化层;所述鉴别器输出0~1之间的值,表示输入图像为真实图像的概率;Leaky ReLU激活函数如公式(13)所示;
Figure 193725DEST_PATH_IMAGE057
其中,
Figure 956145DEST_PATH_IMAGE058
为激活层输入,
Figure 606569DEST_PATH_IMAGE059
是一个常数;
进一步地,基于自注意力机制的图像超分辨率重构模型的训练方法,包括:收集高分辨率的室内场景下含有老人的图像,构建数据集并分为训练集和测试集;分别对训练集和测试集内的高分辨率图像进行预处理及降采样操作,得到与高分辨率图像对应的低分辨率图像;使用训练集对基于自注意力机制的图像超分辨率重构模型进行训练,包括:制定网络训练方式,多头自注意力特征编码网络E、生成器G与鉴别器D按照各自的损失函数进行交替训练,先固定多头自注意力特征编码网络E、生成器G的网络参数,训练优化k次鉴别器D,再固定鉴别器D的网络参数,训练优化1次多头自注意力特征编码网络E、生成器G,如此反复交替进行训练,通过零和博弈解决极大极小值问题,直至网络达到纳什平衡,即生成器G生成的超分辨率图像分布接近于真实图像,鉴别器D无法判别出真假;使用测试集对训练好的基于自注意力机制的编-解码器进行测试,将测试集中的低分辨率图像输入训练好的基于自注意力机制的图像超分辨率重构模型,获得对应的超分辨率图像。
进一步地,生成器G的损失函数
Figure 406029DEST_PATH_IMAGE060
包括:
Figure 774693DEST_PATH_IMAGE061
其中,
Figure 934279DEST_PATH_IMAGE062
为像素级均方误差损失,
Figure 970368DEST_PATH_IMAGE063
为内容感知损失,
Figure 799784DEST_PATH_IMAGE064
为对抗损失,
Figure 295225DEST_PATH_IMAGE065
Figure 133868DEST_PATH_IMAGE066
为超参数;
鉴别器D的损失函数
Figure 758884DEST_PATH_IMAGE067
包括:
Figure 149414DEST_PATH_IMAGE068
其中,
Figure 227092DEST_PATH_IMAGE069
为鉴别器的输出值,
Figure 10371DEST_PATH_IMAGE070
为生成器生成的超分辨率图像,
Figure 755473DEST_PATH_IMAGE071
为对应的高分辨率图像。
第二方面,提供一种基于自注意力的室内老人图像超分辨率重构系统,包括:图像采集模块,用于获取室内场景下含有老人的低分辨率图像;图像重构模块,用于将室内场景下含有老人的低分辨率图像输入构建的基于自注意力机制的图像超分辨率重构模型,生成并输出对应的超分辨率图像。
与现有技术相比,本发明所达到的有益效果:本发明通过将室内场景下含有老人的低分辨率图像输入构建的基于自注意力机制的编-解码器,生成并输出对应的超分辨率图像,能够捕捉图像远程特征依赖关系,从而获得纹理细节质量更高的超分辨率图像,为后续居家独居老人异常发现提供基础保障。
附图说明
图1是本发明实施例中SRTGAN超分辨率重建的流程示意图;
图2是本发明实施例中SRTGAN超分辨率重建网络结构示意图;
图3是本发明实施例中多头自注意力特征提取网络结构示意图;
图4是本发明实施例中生成器G的网络结构示意图;
图5是本发明实施例中像素重组上采样模块的结构示意图;
图6是本发明实施例中判别器D的网络结构示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一:
一种基于自注意力的室内老人图像超分辨率重构方法,包括:获取室内复杂场景下含有老人的低分辨率图像;将室内场景下含有老人的低分辨率图像输入构建的基于自注意力机制的图像超分辨率重构模型,生成并输出对应的超分辨率图像。
本发明的主要步骤如下:
构建数据集,包括:
(1)收集制作高分辨率的室内场景下含老人的数据集,分为训练集和测试集;
(2)对高清室内场景下含老人的数据集进行预处理,获得高分辨率图像
Figure 192271DEST_PATH_IMAGE071
,对
Figure 147457DEST_PATH_IMAGE071
执行降采样操作,得到对应的低分辨率图像
Figure 327903DEST_PATH_IMAGE072
构建基于自注意力机制的图像超分辨率重构模型并训练,包括:
(3)构建多头自注意力特征编码网络E,提取图像远程依赖的特征编码Z
(4)构建生成对抗网络GAN,构建多头自注意力解码器作为生成器G,解码得到虚假超分辨率图像
Figure 927512DEST_PATH_IMAGE053
,构建鉴别器,判别输入图像为真实图像的概率;
(5)定义损失函数,将多头自注意力特征编码网络E与多头自注意力解码器(生成器G)一起,和鉴别器交替训练,直至鉴别器无法区分超分辨率图像和真实图像,即纳什平衡;
(6)测试阶段,将测试集中低分辨率图像输入训练好的基于自注意力机制的图像超分辨率重构模型,生成最终超分辨率图像。
步骤1:收集制作高分辨率的室内场景下含有老人的数据集,分为训练集和测试集。
采用网站提取真实室内含有老人的高清图像、摄像机拍摄室内场景、影视剧室内场景抓取等方式,构建有500张高分辨率(尺寸至少1000×1000)的室内含老人的图像数据集,通过调整亮度、调整对比度、图像随机方向旋转等方式,将数据集进行扩充到4000张,分为80%的训练集(图像编号0001~3200)和20%的测试集(图像编号3201~4000)。
步骤2:对高清室内场景下含老人的数据集进行裁剪预处理,获得高分辨率图像
Figure 909112DEST_PATH_IMAGE071
,对
Figure 961381DEST_PATH_IMAGE071
执行降采样操作,得到对应的低分辨率图像
Figure 70152DEST_PATH_IMAGE072
对数据集的每一张图像
Figure 789846DEST_PATH_IMAGE073
以左上角为原点,按照公式(1)(2)进行裁剪,得到大小为
Figure 568446DEST_PATH_IMAGE074
的高分辨率图像集合
Figure 248957DEST_PATH_IMAGE071
,其中r是超分比例因子,是
Figure 771206DEST_PATH_IMAGE071
通道数,
Figure 204461DEST_PATH_IMAGE075
Figure 419542DEST_PATH_IMAGE076
Figure 180824DEST_PATH_IMAGE071
的宽和高,对
Figure 146244DEST_PATH_IMAGE071
使用r的降采样因子进行Bicubic降采样操作,得到
Figure 309372DEST_PATH_IMAGE001
的低分辨率图像集合
Figure 695354DEST_PATH_IMAGE072
Figure 334146DEST_PATH_IMAGE077
其中,
Figure 198197DEST_PATH_IMAGE078
Figure 356777DEST_PATH_IMAGE079
为数据集中第
Figure 913660DEST_PATH_IMAGE080
张图像的宽和高,
Figure 915114DEST_PATH_IMAGE081
Figure 707489DEST_PATH_IMAGE082
为剪裁后所得第
Figure 845210DEST_PATH_IMAGE080
张高分辨率图像的宽和高。
步骤3:多头自注意力特征编码网络,用于提取图像远程依赖的特征编码。
将低分辨率图像
Figure 952755DEST_PATH_IMAGE072
输入到多头自注意力特征编码网络E中,该网络包括嵌入模块、编码器模块和层归一化三个部分,如图3所示。
步骤3.1:因为多头自注意力模块的输入只能是二维矩阵形式,所述嵌入模块,将低分辨率图像
Figure 441505DEST_PATH_IMAGE072
从三维映射到二维矩阵。
步骤3.1.1:将
Figure 647359DEST_PATH_IMAGE001
的输入图像均匀切割成N个Patches,H为输入图像的高,W为输入图像的宽,N为Patch的个数,其中C为图像通道数每个Patch的宽高均为patch_ size,如公式(3)所示;
Figure 29798DEST_PATH_IMAGE002
步骤3.1.2:将每一个Patch进行展开运算,用长度为
Figure 928484DEST_PATH_IMAGE003
的一维向量表征每一个Patch,则
Figure 638951DEST_PATH_IMAGE072
的尺度转换为
Figure 523862DEST_PATH_IMAGE004
,将此二维矩阵通过可学习的线性映射矩阵
Figure 901754DEST_PATH_IMAGE005
,得到尺度为
Figure 830395DEST_PATH_IMAGE006
的二维矩阵F
步骤3.1.3:添加位置编码,使用尺度为
Figure 293738DEST_PATH_IMAGE006
的可学习二维位置嵌入编码矩阵pos,初始化为随机的标准正态分布,与二维矩阵F相加,得到尺寸同为
Figure 841394DEST_PATH_IMAGE006
的二维矩阵X,作为编码器模块的输入:
Figure 182114DEST_PATH_IMAGE007
其中,
Figure 422603DEST_PATH_IMAGE008
表示大小为
Figure 373241DEST_PATH_IMAGE009
的矩阵。
步骤3.2:如图3所示,编码器模块由B个重复堆叠的多头自注意力编码模块构成,每个多头自注意力编码模块的组成为:层归一化模块、多头注意力模块和前馈全连接模块,编码器模块提取输入图像的特征编码Z
所述层归一化模块,是将此模块的输入数据x的分布按照公式(5)转换为均值为0,方差为1的标准正态分布的操作,其中
Figure 849222DEST_PATH_IMAGE014
Figure 670547DEST_PATH_IMAGE015
是可学习的:
Figure 957303DEST_PATH_IMAGE010
其中,x为输入特征层矩阵,
Figure 129659DEST_PATH_IMAGE011
x的均值,
Figure 143751DEST_PATH_IMAGE012
x的方差,
Figure 350741DEST_PATH_IMAGE013
为一无穷小值(通常默认为),
Figure 667453DEST_PATH_IMAGE014
Figure 435427DEST_PATH_IMAGE015
为可学习参数。
步骤3.2.1:层归一化模块,按照公式(5)将此模块的输入数据x分布转换为标准正态分布,使得输入数据的分布相对稳定,减少梯度消失的问题。
步骤3.2.2:多头自注意力编码模块,设头数为n ,将多头自注意力编码模块的输入二维矩阵X,分别与n路初始值相同的可学习线性映射矩阵
Figure 394156DEST_PATH_IMAGE016
Figure 455652DEST_PATH_IMAGE017
Figure 333479DEST_PATH_IMAGE018
相乘,
Figure 480426DEST_PATH_IMAGE019
,并行计算得到查询矩阵
Figure 587054DEST_PATH_IMAGE020
、关键词矩阵
Figure 503057DEST_PATH_IMAGE021
和价值矩阵
Figure 427151DEST_PATH_IMAGE022
,如公式(6)~(8)所示:
Figure 920449DEST_PATH_IMAGE023
Figure 220980DEST_PATH_IMAGE024
Figure 99812DEST_PATH_IMAGE025
其中,可学习线性映射矩阵
Figure 460386DEST_PATH_IMAGE016
Figure 581926DEST_PATH_IMAGE017
Figure 279624DEST_PATH_IMAGE018
的大小分别为
Figure 904640DEST_PATH_IMAGE026
Figure 436116DEST_PATH_IMAGE026
Figure 389159DEST_PATH_IMAGE027
,所得查询矩阵
Figure 297072DEST_PATH_IMAGE020
的大小为
Figure 901229DEST_PATH_IMAGE028
,关键词矩阵
Figure 603606DEST_PATH_IMAGE021
的大小为
Figure 168579DEST_PATH_IMAGE028
,价值矩阵
Figure 451488DEST_PATH_IMAGE022
的大小为
Figure 316676DEST_PATH_IMAGE029
计算得到查询矩阵
Figure 49008DEST_PATH_IMAGE020
和关键词矩阵
Figure 366857DEST_PATH_IMAGE021
的相关系数矩阵
Figure 85414DEST_PATH_IMAGE030
,如公式(9)所示:
Figure 680475DEST_PATH_IMAGE031
其中,
Figure 459075DEST_PATH_IMAGE032
Figure 123275DEST_PATH_IMAGE033
的转置,所得相关系数矩阵
Figure 911102DEST_PATH_IMAGE030
的大小为
Figure 219724DEST_PATH_IMAGE034
接着对
Figure 808706DEST_PATH_IMAGE030
的每一个标量元素进行
Figure 569988DEST_PATH_IMAGE035
的倍乘,再进行归一化处理,得到权重矩阵
Figure 161507DEST_PATH_IMAGE083
Figure 449269DEST_PATH_IMAGE037
的元素如公式(10)所示:
Figure 835250DEST_PATH_IMAGE084
将权重矩阵
Figure 224775DEST_PATH_IMAGE037
与价值矩阵
Figure 354405DEST_PATH_IMAGE022
相乘并行得到n路自注意层的输出
Figure 372039DEST_PATH_IMAGE039
,如公式(11)所示:
Figure 319136DEST_PATH_IMAGE040
将n路的自注意层输出
Figure 55010DEST_PATH_IMAGE041
横向级联,与
Figure 722752DEST_PATH_IMAGE042
矩阵相乘作为多头自注意力特征编码网络E的输出Z
Figure 234374DEST_PATH_IMAGE043
步骤3.2.3:前馈全连接模块,包括两个线性层和一个重塑层,两个线性层先将Z线性映射到
Figure 962158DEST_PATH_IMAGE044
大小,然后,重塑Z的尺寸到
Figure 309963DEST_PATH_IMAGE045
步骤4:构建GAN网络。
步骤4.1:构建GAN的生成器G,选用基于Transformer的多头自注意力解码器,如图4所示,分段逐步提高特征图的分辨率,直到达到目标分辨率,每一阶段由M个多头自注意解码模块堆叠结构和一个像素重组上采样模块构成。
步骤4.1.1:如图2所示,采样noise_dim个先验的标准正态分布随机数z,通过多层感知机(MLP),将z映射为
Figure 781396DEST_PATH_IMAGE046
长度的向量
Figure 39202DEST_PATH_IMAGE047
,重塑(reshape)
Figure 547675DEST_PATH_IMAGE047
的尺寸到
Figure 523721DEST_PATH_IMAGE048
,与尺寸为
Figure 657899DEST_PATH_IMAGE045
的特征编码Z级联,得到尺度为
Figure 770211DEST_PATH_IMAGE049
的特征矩阵I
步骤4.1.2:第一阶段,该特征矩阵经过M层多头自注意解码模块,输出大小为
Figure 839799DEST_PATH_IMAGE050
,接着使用如图5所示的像素重组上采样模块,进行尺度因子为2的上采样,将
Figure 411463DEST_PATH_IMAGE050
大小重塑到
Figure 224698DEST_PATH_IMAGE054
大小的特征图,每4个通道对应位置像素按照各自可学习的通道权重优先级进行重组,使得1个像素扩充到2×2个像素,同时每4个通道变为1个通道,得到尺寸为
Figure 457097DEST_PATH_IMAGE051
,最后将输出特征图大小从
Figure 556640DEST_PATH_IMAGE051
重塑得到大小为
Figure 241699DEST_PATH_IMAGE056
的输出特征矩阵。
步骤4.1.3:与第一阶段操作一致,每一阶段将多头自注意解码模块的输出特征图分辨率提高2倍,通道数减小到1/4,经过r/2个阶段,最终得到
Figure 733991DEST_PATH_IMAGE052
大小的特征图,最后把通道维度线性映射为3,得到RGB超分辨率图像
Figure 555317DEST_PATH_IMAGE053
步骤4.2:构建GAN的判别器D。
判别器D的构成如图6所示,包括1个包含普通卷积和Leaky ReLU激活函数的卷积层,7个同样包含普通卷积、BN层和Leaky ReLU激活函数的卷积层,1个自适应平均池化层,2个全连接层,1个Sigmoid归一化层,输出0-1之间的值,表示输入图像为真实图像的概率;Leaky ReLU激活函数如公式(13)所示,其非零斜率设为0.01:
Figure 966706DEST_PATH_IMAGE057
其中,
Figure 998116DEST_PATH_IMAGE058
为激活层输入,
Figure 418733DEST_PATH_IMAGE059
是一个很小的常数(通常默认为0.01)。
步骤5:制定网络的训练方式。
步骤5.1:进行模型迭代训练,迭代次数为epoch = 200,构建优化器,使用Adam作为梯度下降策略;每一个epoch分批次处理训练数据集图像,每一批处理batch_size = 16个图像,更新网络参数,直至所有批次图像处理完成。
D与编-解码网络(E, G)按照各自的损失函数,先固定(E, G)网络参数,训练优化1次判别器D,再固定鉴别器D的网络参数,训练优化1次(E, G),如此反复交替进行训练,通过零和博弈解决极大极小值问题,直至网络达到纳什均衡。即G生成的超分辨率图像分布接近于真实图像,D无法判别出真假, GAN模型为:
Figure 474326DEST_PATH_IMAGE085
步骤5.2:定义网络训练的损失函数。
步骤5.2.1:定义生成器的损失函数。本发明G的损失函数包括像素级均方误差(MSE)损失,以及内容感知损失和对抗损失的加权和,G的损失函数
Figure 56617DEST_PATH_IMAGE060
如公式(15)所示;
Figure 716269DEST_PATH_IMAGE061
其中,
Figure 799631DEST_PATH_IMAGE062
为像素级均方误差(MSE)损失,
Figure 595549DEST_PATH_IMAGE063
为内容感知损失,
Figure 614320DEST_PATH_IMAGE064
为对抗损失,
Figure 105476DEST_PATH_IMAGE065
Figure 867895DEST_PATH_IMAGE066
为超参数。
最小化MSE,则图像像素间的差值越小,图像重构质量越高,MSE损失函数如公式(16)所示;
Figure 642953DEST_PATH_IMAGE086
其中,W、H
Figure 567047DEST_PATH_IMAGE072
的宽高,
Figure 309613DEST_PATH_IMAGE075
Figure 344565DEST_PATH_IMAGE076
Figure 974129DEST_PATH_IMAGE071
Figure 69124DEST_PATH_IMAGE053
的宽高,
Figure 925085DEST_PATH_IMAGE087
Figure 639094DEST_PATH_IMAGE088
分别为
Figure 264111DEST_PATH_IMAGE071
Figure 920220DEST_PATH_IMAGE053
在像素点 (x, y) 的值。
由于MSE总是在像素点上取平均,所以生成的超分辨率图像纹理过于平滑;本发明基于预训练的VGG-19网络的高层特征映射的内容感知损失,如公式(17)所示,将损失函数转换到特征空间中,是更接近感知相似性的损失函数,其中
Figure 997897DEST_PATH_IMAGE089
表示VGG-19网络中第i个最大池化层之前通过第j个卷积层的特征映射,
Figure 640231DEST_PATH_IMAGE090
Figure 493655DEST_PATH_IMAGE091
表示该特征图的宽和高,逐像素计算
Figure 930453DEST_PATH_IMAGE071
Figure 885639DEST_PATH_IMAGE053
特征映射后两者的欧氏距离:
Figure 66085DEST_PATH_IMAGE092
其中,
Figure 931273DEST_PATH_IMAGE093
Figure 414338DEST_PATH_IMAGE094
分别代表
Figure 466608DEST_PATH_IMAGE071
和生成图像
Figure 575378DEST_PATH_IMAGE053
Figure 29493DEST_PATH_IMAGE095
像素点处在VGG-19网络中第i个最大池化层之前通过第j个卷积层的特征映射。
对抗损失如公式(18)所示,目的是将判别器D的输出的判别概率p馈送到生成器G中,促使G进一步生成欺骗判别器的图像;
Figure 73672DEST_PATH_IMAGE096
其中,
Figure 721560DEST_PATH_IMAGE069
为鉴别器的输出值,
Figure 243809DEST_PATH_IMAGE070
为生成器生成的超分辨率图像。
步骤5.2.2:定义判别器D的损失函数。
判别器D的输入是判断输入是否来自真实训练数据的概率,希望真实高分辨率图像输出概率为1,虚假生成超分辨率图像输出概率为0,即最大化
Figure 942643DEST_PATH_IMAGE097
,最小化
Figure 892145DEST_PATH_IMAGE098
,得到D的损失函数如公式(19)所示:
Figure 184586DEST_PATH_IMAGE068
步骤6:将测试集中低分辨率图像输入训练好的基于自注意力机制的图像超分辨率重构模型,生成最终超分辨率图像。
本发明针对室内含有老人的场景下,将Transformer编-解码器和GAN相结合,捕捉图像远程特征依赖关系,构建纹理细节恢复质量更高的图像超分网络,获得纹理细节质量更高的超分辨率图像,为后续居家独居老人异常发现提供基础保障。
实施例二:
基于实施例一所述的基于自注意力的室内老人图像超分辨率重构方法,本实施例提供一种基于自注意力的室内老人图像超分辨率重构系统,包括:
图像采集模块,用于获取室内场景下含有老人的低分辨率图像;
图像重构模块,用于将室内场景下含有老人的低分辨率图像输入构建的基于自注意力机制的图像超分辨率重构模型,生成并输出对应的超分辨率图像。
本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (8)

1.一种基于自注意力的室内老人图像超分辨率重构方法,其特征是,包括:
获取室内场景下含有老人的低分辨率图像;
将室内场景下含有老人的低分辨率图像输入构建的基于自注意力机制的图像超分辨率重构模型,生成并输出对应的超分辨率图像;
其中,所述基于自注意力机制的图像超分辨率重构模型的构建方法,包括:
构建多头自注意力特征编码网络E,用于提取图像远程依赖的特征编码;
构建多头自注意力解码器作为GAN网络的生成器G,用于解码生成得到虚假超分辨率图像;
构建GAN网络的鉴别器D,用于判别生成图像为真实图像的概率;
定义损失函数,将多头自注意力特征编码网络E与生成器G、鉴别器D交替训练,直至鉴别器D无法区分超分辨率图像和真实图像,即纳什平衡;
所述多头自注意力特征编码网络E包括嵌入模块,所述嵌入模块用于将低分辨率图像从三维映射到二维矩阵,包括:
S1:将
Figure 568617DEST_PATH_IMAGE001
的输入图像均匀切割成N个Patches,其中,H为输入图像的高,W为输入图像的宽,C为图像通道数,每个Patch的宽、高均为patch_size,如公式(3)所示:
Figure 424578DEST_PATH_IMAGE002
S2:对每一个Patch进行展开运算,用长度为
Figure 122275DEST_PATH_IMAGE003
的一维向量表征每一个Patch,则低分辨率图像的尺度转换为
Figure 12871DEST_PATH_IMAGE004
的二维矩阵,此二维矩阵经可学习的线性映射矩阵
Figure 278767DEST_PATH_IMAGE005
,得到尺度为
Figure 730346DEST_PATH_IMAGE006
的二维矩阵F
S3:添加位置编码,使用尺度为
Figure 638259DEST_PATH_IMAGE006
的可学习二维位置嵌入编码矩阵pos,初始化为随机标准正态分布,与二维矩阵F相加,得到尺度同为
Figure 242416DEST_PATH_IMAGE006
的二维矩阵X,作为编码器模块的输入:
Figure 944792DEST_PATH_IMAGE007
其中,
Figure 509766DEST_PATH_IMAGE008
表示大小为
Figure 565578DEST_PATH_IMAGE009
的矩阵。
2.根据权利要求1所述的基于自注意力的室内老人图像超分辨率重构方法,其特征是,所述多头自注意力特征编码网络E还包括编码器模块,所述编码器模块包括B个重复堆叠的多头自注意力编码模块,每个多头自注意力编码模块包括:层归一化模块、多头自注意力模块和前馈全连接模块;所述多头自注意力编码模块用于提取输入图像的特征编码,包括:
S1:层归一化模块,按照公式(5)将层归一化模块的输入数据分布转换为标准正态分布:
Figure 165186DEST_PATH_IMAGE010
其中,x为输入特征层矩阵,
Figure 38464DEST_PATH_IMAGE011
为x的均值,
Figure 215368DEST_PATH_IMAGE012
为x的方差,
Figure 199504DEST_PATH_IMAGE013
为一无穷小值,
Figure 27521DEST_PATH_IMAGE014
Figure 806121DEST_PATH_IMAGE015
为可学习参数;
S2:多头注意力模块,设头数为n,将层归一化后的二维矩阵X,分别与n路随机初始值相同的可学习线性映射矩阵
Figure 611266DEST_PATH_IMAGE016
Figure 258148DEST_PATH_IMAGE017
Figure 832349DEST_PATH_IMAGE018
相乘,
Figure 657216DEST_PATH_IMAGE019
,并行计算得到查询矩阵
Figure 684078DEST_PATH_IMAGE020
、关键词矩阵
Figure 10017DEST_PATH_IMAGE021
和价值矩阵
Figure 563358DEST_PATH_IMAGE022
,如公式(6)~(8)所示:
Figure 683761DEST_PATH_IMAGE023
Figure 463498DEST_PATH_IMAGE024
Figure 707310DEST_PATH_IMAGE025
其中,可学习线性映射矩阵
Figure 990524DEST_PATH_IMAGE016
Figure 672041DEST_PATH_IMAGE017
Figure 673495DEST_PATH_IMAGE018
的大小分别为
Figure 75657DEST_PATH_IMAGE026
Figure 88744DEST_PATH_IMAGE026
Figure 82108DEST_PATH_IMAGE027
,所得查询矩阵
Figure 164333DEST_PATH_IMAGE020
的大小为
Figure 635766DEST_PATH_IMAGE028
,关键词矩阵
Figure 893572DEST_PATH_IMAGE021
的大小为
Figure 900580DEST_PATH_IMAGE028
,价值矩阵
Figure 611047DEST_PATH_IMAGE022
的大小为
Figure 10804DEST_PATH_IMAGE029
计算得到查询矩阵
Figure 857537DEST_PATH_IMAGE020
和关键词矩阵
Figure 192704DEST_PATH_IMAGE021
的相关系数矩阵
Figure 254DEST_PATH_IMAGE030
,如公式(9)所示,
Figure 79068DEST_PATH_IMAGE030
矩阵中的每个元素为标量;
Figure 170521DEST_PATH_IMAGE031
其中,
Figure 145430DEST_PATH_IMAGE032
Figure 96069DEST_PATH_IMAGE033
的转置,所得相关系数矩阵
Figure 821317DEST_PATH_IMAGE030
的大小为
Figure 642643DEST_PATH_IMAGE034
接着对
Figure 178666DEST_PATH_IMAGE030
的每一个标量元素进行
Figure 85442DEST_PATH_IMAGE035
的倍乘,再进行归一化处理,得到权重矩阵
Figure 506059DEST_PATH_IMAGE036
,矩阵
Figure 57258DEST_PATH_IMAGE037
中的元素如公式(10)所示:
Figure 639549DEST_PATH_IMAGE038
将权重矩阵
Figure 158255DEST_PATH_IMAGE037
与价值矩阵
Figure 116983DEST_PATH_IMAGE022
相乘并行得到n路自注意层的输出
Figure 286802DEST_PATH_IMAGE039
,如公式(11)所示:
Figure 39995DEST_PATH_IMAGE040
将n路的自注意层输出
Figure 921363DEST_PATH_IMAGE041
级联,与可学习线性映射矩阵
Figure 542837DEST_PATH_IMAGE042
相乘作为多头自注意力特征编码网络E的输出Z
Figure 458841DEST_PATH_IMAGE043
S3:前馈全连接模块,包括两个线性层和一个重塑层,两个线性层先将Z线性映射到
Figure 258301DEST_PATH_IMAGE044
大小,然后,重塑Z的尺寸到
Figure 892544DEST_PATH_IMAGE045
3.根据权利要求2所述的基于自注意力的室内老人图像超分辨率重构方法,其特征是,构建多头自注意力解码器作为GAN网络的生成器,具体为:
选用基于Transformer的多头自注意力解码器作为生成器G,分阶段逐步提高特征图分辨率,直至达到设定的分辨率,每一阶段包括M个多头自注意力解码模块堆叠结构和一个像素重组上采样模块,具体为:
采样noise_dim个先验的标准正态分布随机数向量z,通过多层感知机,将z映射为
Figure 927496DEST_PATH_IMAGE046
长度的向量
Figure 822640DEST_PATH_IMAGE047
,重塑
Figure 917635DEST_PATH_IMAGE047
的尺寸到
Figure 773596DEST_PATH_IMAGE048
,与尺寸为
Figure 980281DEST_PATH_IMAGE045
的特征编码Z级联,得到尺度为
Figure 605297DEST_PATH_IMAGE049
的特征矩阵I
第一阶段,特征矩阵经过M层多头自注意力解码模块,所述多头自注意力解码模块与所述多头自注意力编码模块的结构相同,输出大小为
Figure 261406DEST_PATH_IMAGE050
,接着使用像素重组上采样模块,进行尺度因子为2的上采样,得到大小为
Figure 339084DEST_PATH_IMAGE051
的输出特征矩阵;
与第一阶段操作一致,每一阶段将多头自注意力解码模块的输出特征图分辨率提高2倍,通道数减小到1/4,经过r/2个阶段,最终得到大小为
Figure 981418DEST_PATH_IMAGE052
的特征图,其中r为超分比例因子,最后进行线性映射操作,把通道维度映射为3,得到RGB超分辨率图像
Figure 336307DEST_PATH_IMAGE053
4.根据权利要求3所述的基于自注意力的室内老人图像超分辨率重构方法,其特征是,所述像素重组上采样模块采用多通道间的补偿重排方式,将低分辨率的特征图在宽、高方向提升分辨率,减少通道数;具体包括:
S1:像素恢复重组上采样模块的输入是多头自注意力解码模块的输出特征矩阵,大小为
Figure 38684DEST_PATH_IMAGE050
,将其大小重塑到
Figure 728291DEST_PATH_IMAGE054
S2:将
Figure 908736DEST_PATH_IMAGE054
大小的特征图,每4个通道对应位置像素按照各自可学习的通道权重优先级进行重组,使得1个像素扩充到2×2个像素,同时每4个通道变为1个通道,最终得到
Figure 773924DEST_PATH_IMAGE055
个通道的2W,2H大小的特征图,即尺寸为
Figure 755525DEST_PATH_IMAGE056
S3:将输出特征图大小从
Figure 807794DEST_PATH_IMAGE056
重塑到
Figure 916564DEST_PATH_IMAGE057
5.根据权利要求4所述的基于自注意力的室内老人图像超分辨率重构方法,其特征是,所述鉴别器D,包括一个包含普通卷积和Leaky ReLU激活函数的第一卷积层,七个包含普通卷积、BN层和Leaky ReLU激活函数的第二卷积层,一个自适应平均池化层,两个全连接层,一个Sigmoid归一化层;所述鉴别器输出0~1之间的值,表示输入图像为真实图像的概率;Leaky ReLU激活函数如公式(13)所示;
Figure 636259DEST_PATH_IMAGE058
其中,
Figure 414859DEST_PATH_IMAGE059
为激活层输入,
Figure 829791DEST_PATH_IMAGE060
是一个常数。
6.根据权利要求5所述的基于自注意力的室内老人图像超分辨率重构方法,其特征是,基于自注意力机制的图像超分辨率重构模型的训练方法,包括:
收集高分辨率的室内场景下含有老人的图像,构建数据集并分为训练集和测试集;
分别对训练集和测试集内的高分辨率图像进行预处理及降采样操作,得到与高分辨率图像对应的低分辨率图像;
使用训练集对基于自注意力机制的图像超分辨率重构模型进行训练,包括:制定网络训练方式,多头自注意力特征编码网络E、生成器G与鉴别器D按照各自的损失函数进行交替训练,先固定多头自注意力特征编码网络E、生成器G的网络参数,训练优化k次鉴别器D,再固定鉴别器D的网络参数,训练优化1次多头自注意力特征编码网络E、生成器G,如此反复交替进行训练,通过零和博弈解决极大极小值问题,直至网络达到纳什平衡,即生成器G生成的超分辨率图像分布接近于真实图像,鉴别器D无法判别出真假;
使用测试集对训练好的基于自注意力机制的编-解码器进行测试,将测试集中的低分辨率图像输入训练好的基于自注意力机制的图像超分辨率重构模型,获得对应的超分辨率图像。
7.根据权利要求6所述的基于自注意力的室内老人图像超分辨率重构方法,其特征是,生成器G的损失函数
Figure 352039DEST_PATH_IMAGE061
包括:
Figure 926240DEST_PATH_IMAGE062
其中,
Figure 375DEST_PATH_IMAGE063
为像素级均方误差损失,
Figure 292816DEST_PATH_IMAGE064
为内容感知损失,
Figure 727077DEST_PATH_IMAGE065
为对抗损失,
Figure 155785DEST_PATH_IMAGE066
Figure 541767DEST_PATH_IMAGE067
为超参数;
鉴别器D的损失函数
Figure 914979DEST_PATH_IMAGE068
包括:
Figure 779030DEST_PATH_IMAGE069
其中,
Figure 203189DEST_PATH_IMAGE070
为鉴别器的输出值,
Figure 494493DEST_PATH_IMAGE071
为生成器生成的超分辨率图像,
Figure 355002DEST_PATH_IMAGE072
为对应的高分辨率图像。
8.一种基于自注意力的室内老人图像超分辨率重构系统,其特征是,包括:
图像采集模块,用于获取室内场景下含有老人的低分辨率图像;
图像重构模块,用于将室内场景下含有老人的低分辨率图像输入构建的基于自注意力机制的图像超分辨率重构模型,生成并输出对应的超分辨率图像;
其中,所述基于自注意力机制的图像超分辨率重构模型的构建方法,包括:
构建多头自注意力特征编码网络E,用于提取图像远程依赖的特征编码;
构建多头自注意力解码器作为GAN网络的生成器G,用于解码生成得到虚假超分辨率图像;
构建GAN网络的鉴别器D,用于判别生成图像为真实图像的概率;
定义损失函数,将多头自注意力特征编码网络E与生成器G、鉴别器D交替训练,直至鉴别器D无法区分超分辨率图像和真实图像,即纳什平衡;
所述多头自注意力特征编码网络E包括嵌入模块,所述嵌入模块用于将低分辨率图像从三维映射到二维矩阵,包括:
S1:将
Figure 288323DEST_PATH_IMAGE001
的输入图像均匀切割成N个Patches,其中,H为输入图像的高,W为输入图像的宽,C为图像通道数,每个Patch的宽、高均为patch_size,如公式(3)所示:
Figure 426043DEST_PATH_IMAGE002
S2:对每一个Patch进行展开运算,用长度为
Figure 527729DEST_PATH_IMAGE003
的一维向量表征每一个Patch,则低分辨率图像的尺度转换为
Figure 750900DEST_PATH_IMAGE004
的二维矩阵,此二维矩阵经可学习的线性映射矩阵
Figure 487912DEST_PATH_IMAGE005
,得到尺度为
Figure 604773DEST_PATH_IMAGE006
的二维矩阵F
S3:添加位置编码,使用尺度为
Figure 503458DEST_PATH_IMAGE006
的可学习二维位置嵌入编码矩阵pos,初始化为随机标准正态分布,与二维矩阵F相加,得到尺度同为
Figure 89292DEST_PATH_IMAGE006
的二维矩阵X,作为编码器模块的输入:
Figure 98836DEST_PATH_IMAGE007
其中,
Figure 211148DEST_PATH_IMAGE008
表示大小为
Figure 405369DEST_PATH_IMAGE009
的矩阵。
CN202211050463.XA 2022-08-31 2022-08-31 基于自注意力的室内老人图像超分辨率重构方法及系统 Active CN115131214B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211050463.XA CN115131214B (zh) 2022-08-31 2022-08-31 基于自注意力的室内老人图像超分辨率重构方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211050463.XA CN115131214B (zh) 2022-08-31 2022-08-31 基于自注意力的室内老人图像超分辨率重构方法及系统

Publications (2)

Publication Number Publication Date
CN115131214A true CN115131214A (zh) 2022-09-30
CN115131214B CN115131214B (zh) 2022-11-29

Family

ID=83387334

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211050463.XA Active CN115131214B (zh) 2022-08-31 2022-08-31 基于自注意力的室内老人图像超分辨率重构方法及系统

Country Status (1)

Country Link
CN (1) CN115131214B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116309924A (zh) * 2023-05-25 2023-06-23 之江实验室 一种模型训练的方法、图像展示的方法及装置
CN116402679A (zh) * 2022-12-28 2023-07-07 长春理工大学 一种轻量级红外超分辨率自适应重建方法
CN117062002A (zh) * 2023-08-01 2023-11-14 哈尔滨工程大学 一种基于轻量级transformer的5g nr室内定位方法及系统
CN117078510A (zh) * 2022-11-16 2023-11-17 电子科技大学 一种潜在特征的单幅图像超分辨重建方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111192200A (zh) * 2020-01-02 2020-05-22 南京邮电大学 基于融合注意力机制残差网络的图像超分辨率重建方法
US20200357096A1 (en) * 2018-01-25 2020-11-12 King Abdullah University Of Science And Technology Deep-learning based structure reconstruction method and apparatus
CN114943646A (zh) * 2022-06-07 2022-08-26 山东师范大学 基于纹理导向的梯度权重损失和注意力机制超分辨方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200357096A1 (en) * 2018-01-25 2020-11-12 King Abdullah University Of Science And Technology Deep-learning based structure reconstruction method and apparatus
CN111192200A (zh) * 2020-01-02 2020-05-22 南京邮电大学 基于融合注意力机制残差网络的图像超分辨率重建方法
CN114943646A (zh) * 2022-06-07 2022-08-26 山东师范大学 基于纹理导向的梯度权重损失和注意力机制超分辨方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117078510A (zh) * 2022-11-16 2023-11-17 电子科技大学 一种潜在特征的单幅图像超分辨重建方法
CN117078510B (zh) * 2022-11-16 2024-04-30 电子科技大学 一种潜在特征的单幅图像超分辨重建方法
CN116402679A (zh) * 2022-12-28 2023-07-07 长春理工大学 一种轻量级红外超分辨率自适应重建方法
CN116402679B (zh) * 2022-12-28 2024-05-28 长春理工大学 一种轻量级红外超分辨率自适应重建方法
CN116309924A (zh) * 2023-05-25 2023-06-23 之江实验室 一种模型训练的方法、图像展示的方法及装置
CN116309924B (zh) * 2023-05-25 2023-08-18 之江实验室 一种模型训练的方法、图像展示的方法及装置
CN117062002A (zh) * 2023-08-01 2023-11-14 哈尔滨工程大学 一种基于轻量级transformer的5g nr室内定位方法及系统
CN117062002B (zh) * 2023-08-01 2024-04-30 哈尔滨工程大学 一种基于轻量级transformer的5g nr室内定位方法及系统

Also Published As

Publication number Publication date
CN115131214B (zh) 2022-11-29

Similar Documents

Publication Publication Date Title
CN115131214B (zh) 基于自注意力的室内老人图像超分辨率重构方法及系统
CN111798400B (zh) 基于生成对抗网络的无参考低光照图像增强方法及系统
CN112750082B (zh) 基于融合注意力机制的人脸超分辨率方法及系统
CN111915484A (zh) 基于密集匹配与自适应融合的参考图引导超分辨率方法
CN109949217B (zh) 基于残差学习和隐式运动补偿的视频超分辨率重建方法
CN115484410B (zh) 基于深度学习的事件相机视频重建方法
CN115131675A (zh) 一种基于参考影像纹理迁移的遥感影像压缩方法及系统
CN115578262A (zh) 基于afan模型的偏振图像超分辨率重建方法
CN115222998A (zh) 一种图像分类方法
CN116091916A (zh) 一种多尺度从rgb图像重建对应的高光谱图像算法及系统
CN117593187A (zh) 基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法
TW202409963A (zh) 生成高分辨率圖像的方法、裝置及計算機可讀介質
CN115439849B (zh) 基于动态多策略gan网络的仪表数字识别方法及系统
Jeevan et al. WaveMixSR: Resource-efficient neural network for image super-resolution
CN116137043A (zh) 一种基于卷积和Transformer的红外图像彩色化方法
CN113838104B (zh) 基于多光谱与多模态图像一致性增强网络的配准方法
CN116128722A (zh) 基于频域-纹理特征融合的图像超分辨率重建方法及系统
CN115100599A (zh) 基于掩码transformer的半监督人群场景异常检测方法
CN114782995A (zh) 一种基于自注意力机制的人交互行为检测方法
CN112634126A (zh) 人像减龄处理方法、训练方法、装置、设备及存储介质
Wen et al. Mrft: Multiscale recurrent fusion transformer based prior knowledge for bit-depth enhancement
TWI836972B (zh) 水下影像增強方法及使用該方法的影像處理系統
CN113298075B (zh) 一种基于注意力机制的启发式图像尺度归一化方法
TWI771250B (zh) 用於降低資料維度的裝置及方法、用於轉換資料維度的裝置的操作方法
CN118052712A (zh) 一种基于多阶段空频联合的遥感图像超分辨率重建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant