CN115131214A

CN115131214A - 基于自注意力的室内老人图像超分辨率重构方法及系统

Info

Publication number: CN115131214A
Application number: CN202211050463.XA
Authority: CN
Inventors: 李晓飞; 宋璋晗
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2022-09-30
Anticipated expiration: 2042-08-31
Also published as: CN115131214B

Abstract

本发明公开了图像处理技术领域的一种基于自注意力的室内老人图像超分辨率重构方法及系统。方法包括：获取室内场景下含有老人的低分辨率图像；将室内场景下含有老人的低分辨率图像输入构建的基于自注意力机制的图像超分辨率重构模型，生成并输出对应的超分辨率图像。本发明通过构建的基于自注意力机制的图像超分辨率重构模型能够捕捉图像远程特征依赖关系，获得纹理细节质量更高的超分辨率图像，为后续居家独居老人异常发现提供基础保障。

Description

基于自注意力的室内老人图像超分辨率重构方法及系统

技术领域

本发明属于图像处理技术领域，具体涉及一种基于自注意力的室内老人图像超分辨率重构方法及系统。

背景技术

根据国新办公布的2021年中国人口数据，60岁以上人口占18.9%，中国正在步入中度老龄化社会，同时，养老看护领域面临的社会需求日益增长。随着人工智能技术不断发展，中国老人日常看护模式，以“医院”为核心逐渐向“医院+家庭”的智慧型模式进行转变。基于视觉技术的智能家用摄像头得到广泛使用，保障居家独居老年人的生命健康和财产安全。然而，监控设备由于硬件型号、焦距，以及图像传输过程中带宽受限、信道噪声等诸多因素影响，产生了大量纹理细节丢失的低分辨率图像帧，尤其不能满足室内独居老人监护中身份识别、跌倒检测等下游任务的需求。为此，需要让低质量图像恢复原有的丰富细节纹理，尽可能重构图像信息。

传统的图像重构方法包括基于插值的最近邻插值法、双线性插值法及双三次插值法，这些传统方法计算简单，且插值过程造成严重伪影。基于重构的图像超分算法分为频域法和空域法。频域法采用递归最小二乘法、离散DCT 变换和小波变换；空域法常用方法包括非均匀采样内插法、基于最大后验概率法等，但无法获取更多纹理细节。

发明内容

为解决现有技术中的不足，本发明提供一种基于自注意力的室内老人图像超分辨率重构方法及系统，能够捕捉图像远程特征依赖关系，获得纹理细节质量更高的超分辨率图像，为后续居家独居老人异常发现提供基础保障。

为达到上述目的，本发明所采用的技术方案是：

第一方面，提供一种基于自注意力的室内老人图像超分辨率重构方法，包括：获取室内场景下含有老人的低分辨率图像；将室内场景下含有老人的低分辨率图像输入构建的基于自注意力机制的图像超分辨率重构模型，生成并输出对应的超分辨率图像。

进一步地，所述基于自注意力机制的图像超分辨率重构模型的构建方法，包括：构建多头自注意力特征编码网络E，用于提取图像远程依赖的特征编码；构建多头自注意力解码器作为GAN网络的生成器G，用于解码生成得到虚假超分辨率图像；构建GAN网络的鉴别器D，用于判别生成图像为真实图像的概率；定义损失函数，将多头自注意力特征编码网络E与生成器G、鉴别器D交替训练，直至鉴别器D无法区分超分辨率图像和真实图像，即纳什平衡。

进一步地，所述多头自注意力特征编码网络E包括嵌入模块，所述嵌入模块用于将低分辨率图像从三维映射到二维矩阵，包括：

S1：将

的输入图像均匀切割成N个Patches，其中，H为输入图像的高，W为输入图像的宽，C为图像通道数，每个Patch的宽、高均为patch_size，如公式（3）所示：

；

S2：对每一个Patch进行展开运算，用长度为

的一维向量表征每一个Patch，则低分辨率图像的尺度转换为

的二维矩阵，此二维矩阵经可学习的线性映射矩阵

，得到尺度为

的二维矩阵F；

S3：添加位置编码，使用尺度为

的可学习二维位置嵌入编码矩阵pos，初始化为随机标准正态分布，与二维矩阵F相加，得到尺度同为

的二维矩阵X，作为编码器模块的输入：

其中，

表示大小为

的矩阵。

进一步地，所述多头自注意力特征编码网络E还包括编码器模块，所述编码器模块包括B个重复堆叠的多头自注意力编码模块，每个多头自注意力编码模块包括：层归一化模块、多头自注意力模块和前馈全连接模块；所述多头自注意力编码模块用于提取输入图像的特征编码，包括：

S1：层归一化模块，按照公式（5）将层归一化模块的输入数据分布转换为标准正态分布：

其中，x为输入特征层矩阵，

为x的均值，

为x的方差，

为一无穷小值，

、

为可学习参数；

S2：多头注意力模块，设头数为n，将层归一化后的二维矩阵X，分别与n路随机初始值相同的可学习线性映射矩阵

、

、

相乘，

，并行计算得到查询矩阵

、关键词矩阵

和价值矩阵

，如公式（6）~（8）所示：

其中，可学习线性映射矩阵

、

、

的大小分别为

、

、

，所得查询矩阵

的大小为

，关键词矩阵

的大小为

，价值矩阵

的大小为

；

计算得到查询矩阵

和关键词矩阵

的相关系数矩阵

，如公式（9）所示，

矩阵中的每个元素为标量；

其中，

为

的转置，所得相关系数矩阵

的大小为

；

接着对

的每一个标量元素进行

的倍乘，再进行归一化处理，得到权重矩阵

，矩阵

中的元素如公式（10）所示：

将权重矩阵

与价值矩阵

相乘并行得到n路自注意层的输出

，如公式（11）所示：

将n路的自注意层输出

级联，与可学习线性映射矩阵

相乘作为多头自注意力特征编码网络E的输出Z；

；

S3：前馈全连接模块，包括两个线性层和一个重塑层，两个线性层先将Z线性映射到

大小，然后，重塑Z的尺寸到

。

进一步地，构建多头自注意力解码器作为GAN网络的生成器，具体为：选用基于Transformer的多头自注意力解码器作为生成器G，分阶段逐步提高特征图分辨率，直至达到设定的分辨率，每一阶段包括M个多头自注意力解码模块堆叠结构和一个像素重组上采样模块，具体为：采样noise_dim个先验的标准正态分布随机数向量z，通过多层感知机，将z映射为

长度的向量

，重塑

的尺寸到

，与尺寸为

的特征编码Z级联，得到尺度为

的特征矩阵I；第一阶段，特征矩阵经过M层多头自注意力解码模块，所述多头自注意力解码模块与所述多头自注意力编码模块的结构相同，输出大小为

，接着使用像素重组上采样模块，进行尺度因子为2的上采样，得到大小为

的输出特征矩阵；与第一阶段操作一致，每一阶段将多头自注意力解码模块的输出特征图分辨率提高2倍，通道数减小到1/4，经过r/2个阶段，最终得到大小为

的特征图，其中r为超分比例因子，最后进行线性映射操作，把通道维度映射为3，得到RGB超分辨率图像

。

进一步地，所述像素重组上采样模块采用多通道间的补偿重排方式，将低分辨率的特征图在宽、高方向提升分辨率，减少通道数；具体包括：

S1：像素恢复重组上采样模块的输入是多头自注意力解码模块的输出特征矩阵，大小为

，将其大小重塑到

；

S2：将

大小的特征图，每4个通道对应位置像素按照各自可学习的通道权重优先级进行重组，使得1个像素扩充到2×2个像素，同时每4个通道变为1个通道，最终得到

个通道的2W，2H大小的特征图，即尺寸为

；

S3：将输出特征图大小从

重塑到

。

进一步地，所述鉴别器D，包括一个包含普通卷积和Leaky ReLU激活函数的第一卷积层，七个包含普通卷积、BN层和Leaky ReLU激活函数的第二卷积层，一个自适应平均池化层，两个全连接层，一个Sigmoid归一化层；所述鉴别器输出0~1之间的值，表示输入图像为真实图像的概率；Leaky ReLU激活函数如公式（13）所示；

其中，

为激活层输入，

是一个常数；

进一步地，基于自注意力机制的图像超分辨率重构模型的训练方法，包括：收集高分辨率的室内场景下含有老人的图像，构建数据集并分为训练集和测试集；分别对训练集和测试集内的高分辨率图像进行预处理及降采样操作，得到与高分辨率图像对应的低分辨率图像；使用训练集对基于自注意力机制的图像超分辨率重构模型进行训练，包括：制定网络训练方式，多头自注意力特征编码网络E、生成器G与鉴别器D按照各自的损失函数进行交替训练，先固定多头自注意力特征编码网络E、生成器G的网络参数，训练优化k次鉴别器D，再固定鉴别器D的网络参数，训练优化1次多头自注意力特征编码网络E、生成器G，如此反复交替进行训练，通过零和博弈解决极大极小值问题，直至网络达到纳什平衡，即生成器G生成的超分辨率图像分布接近于真实图像，鉴别器D无法判别出真假；使用测试集对训练好的基于自注意力机制的编-解码器进行测试，将测试集中的低分辨率图像输入训练好的基于自注意力机制的图像超分辨率重构模型，获得对应的超分辨率图像。

进一步地，生成器G的损失函数

包括：

其中，

为像素级均方误差损失，

为内容感知损失，

为对抗损失，

和

为超参数；

鉴别器D的损失函数

包括：

其中，

为鉴别器的输出值，

为生成器生成的超分辨率图像，

为对应的高分辨率图像。

第二方面，提供一种基于自注意力的室内老人图像超分辨率重构系统，包括：图像采集模块，用于获取室内场景下含有老人的低分辨率图像；图像重构模块，用于将室内场景下含有老人的低分辨率图像输入构建的基于自注意力机制的图像超分辨率重构模型，生成并输出对应的超分辨率图像。

与现有技术相比，本发明所达到的有益效果：本发明通过将室内场景下含有老人的低分辨率图像输入构建的基于自注意力机制的编-解码器，生成并输出对应的超分辨率图像，能够捕捉图像远程特征依赖关系，从而获得纹理细节质量更高的超分辨率图像，为后续居家独居老人异常发现提供基础保障。

附图说明

图1是本发明实施例中SRTGAN超分辨率重建的流程示意图；

图2是本发明实施例中SRTGAN超分辨率重建网络结构示意图；

图3是本发明实施例中多头自注意力特征提取网络结构示意图；

图4是本发明实施例中生成器G的网络结构示意图；

图5是本发明实施例中像素重组上采样模块的结构示意图；

图6是本发明实施例中判别器D的网络结构示意图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一：

一种基于自注意力的室内老人图像超分辨率重构方法，包括：获取室内复杂场景下含有老人的低分辨率图像；将室内场景下含有老人的低分辨率图像输入构建的基于自注意力机制的图像超分辨率重构模型，生成并输出对应的超分辨率图像。

本发明的主要步骤如下：

构建数据集，包括：

（1）收集制作高分辨率的室内场景下含老人的数据集，分为训练集和测试集；

（2）对高清室内场景下含老人的数据集进行预处理，获得高分辨率图像

，对

执行降采样操作，得到对应的低分辨率图像

；

构建基于自注意力机制的图像超分辨率重构模型并训练，包括：

（3）构建多头自注意力特征编码网络E，提取图像远程依赖的特征编码Z；

（4）构建生成对抗网络GAN，构建多头自注意力解码器作为生成器G，解码得到虚假超分辨率图像

，构建鉴别器，判别输入图像为真实图像的概率；

（5）定义损失函数，将多头自注意力特征编码网络E与多头自注意力解码器（生成器G）一起，和鉴别器交替训练，直至鉴别器无法区分超分辨率图像和真实图像，即纳什平衡；

（6）测试阶段，将测试集中低分辨率图像输入训练好的基于自注意力机制的图像超分辨率重构模型，生成最终超分辨率图像。

步骤1：收集制作高分辨率的室内场景下含有老人的数据集，分为训练集和测试集。

采用网站提取真实室内含有老人的高清图像、摄像机拍摄室内场景、影视剧室内场景抓取等方式，构建有500张高分辨率（尺寸至少1000×1000）的室内含老人的图像数据集，通过调整亮度、调整对比度、图像随机方向旋转等方式，将数据集进行扩充到4000张，分为80%的训练集（图像编号0001~3200）和20%的测试集（图像编号3201~4000）。

步骤2：对高清室内场景下含老人的数据集进行裁剪预处理，获得高分辨率图像

，对

执行降采样操作，得到对应的低分辨率图像

。

对数据集的每一张图像

以左上角为原点，按照公式（1）（2）进行裁剪，得到大小为

的高分辨率图像集合

，其中r是超分比例因子，是

通道数，

、

是

的宽和高，对

使用r的降采样因子进行Bicubic降采样操作，得到

的低分辨率图像集合

；

其中，

和

为数据集中第

张图像的宽和高，

和

为剪裁后所得第

张高分辨率图像的宽和高。

步骤3：多头自注意力特征编码网络，用于提取图像远程依赖的特征编码。

将低分辨率图像

输入到多头自注意力特征编码网络E中，该网络包括嵌入模块、编码器模块和层归一化三个部分，如图3所示。

步骤3.1：因为多头自注意力模块的输入只能是二维矩阵形式，所述嵌入模块，将低分辨率图像

从三维映射到二维矩阵。

步骤3.1.1：将

的输入图像均匀切割成N个Patches，H为输入图像的高，W为输入图像的宽，N为Patch的个数，其中C为图像通道数每个Patch的宽高均为patch_ size，如公式（3）所示；

。

步骤3.1.2：将每一个Patch进行展开运算，用长度为

的一维向量表征每一个Patch，则

的尺度转换为

，将此二维矩阵通过可学习的线性映射矩阵

，得到尺度为

的二维矩阵F；

步骤3.1.3：添加位置编码，使用尺度为

的可学习二维位置嵌入编码矩阵pos，初始化为随机的标准正态分布，与二维矩阵F相加，得到尺寸同为

的二维矩阵X，作为编码器模块的输入：

其中，

表示大小为

的矩阵。

步骤3.2：如图3所示，编码器模块由B个重复堆叠的多头自注意力编码模块构成，每个多头自注意力编码模块的组成为：层归一化模块、多头注意力模块和前馈全连接模块，编码器模块提取输入图像的特征编码Z。

所述层归一化模块，是将此模块的输入数据x的分布按照公式（5）转换为均值为0，方差为1的标准正态分布的操作，其中

和

是可学习的：

其中，x为输入特征层矩阵，

为x的均值，

为x的方差，

为一无穷小值（通常默认为），

和

为可学习参数。

步骤3.2.1：层归一化模块，按照公式（5）将此模块的输入数据x分布转换为标准正态分布，使得输入数据的分布相对稳定，减少梯度消失的问题。

步骤3.2.2：多头自注意力编码模块，设头数为n ，将多头自注意力编码模块的输入二维矩阵X，分别与n路初始值相同的可学习线性映射矩阵

、

、

相乘，

，并行计算得到查询矩阵

、关键词矩阵

和价值矩阵

，如公式（6）~（8）所示：

其中，可学习线性映射矩阵

、

、

的大小分别为

、

、

，所得查询矩阵

的大小为

，关键词矩阵

的大小为

，价值矩阵

的大小为

。

计算得到查询矩阵

和关键词矩阵

的相关系数矩阵

，如公式（9）所示：

其中，

为

的转置，所得相关系数矩阵

的大小为

；

接着对

的每一个标量元素进行

的倍乘，再进行归一化处理，得到权重矩阵

，

的元素如公式（10）所示：

将权重矩阵

与价值矩阵

相乘并行得到n路自注意层的输出

，如公式（11）所示：

将n路的自注意层输出

横向级联，与

矩阵相乘作为多头自注意力特征编码网络E的输出Z：

。

步骤3.2.3：前馈全连接模块，包括两个线性层和一个重塑层，两个线性层先将Z线性映射到

大小，然后，重塑Z的尺寸到

。

步骤4：构建GAN网络。

步骤4.1：构建GAN的生成器G，选用基于Transformer的多头自注意力解码器，如图4所示，分段逐步提高特征图的分辨率，直到达到目标分辨率，每一阶段由M个多头自注意解码模块堆叠结构和一个像素重组上采样模块构成。

步骤4.1.1：如图2所示，采样noise_dim个先验的标准正态分布随机数z，通过多层感知机（MLP），将z映射为

长度的向量

，重塑（reshape）

的尺寸到

，与尺寸为

的特征编码Z级联，得到尺度为

的特征矩阵I。

步骤4.1.2：第一阶段，该特征矩阵经过M层多头自注意解码模块，输出大小为

，接着使用如图5所示的像素重组上采样模块，进行尺度因子为2的上采样，将

大小重塑到

大小的特征图，每4个通道对应位置像素按照各自可学习的通道权重优先级进行重组，使得1个像素扩充到2×2个像素，同时每4个通道变为1个通道，得到尺寸为

，最后将输出特征图大小从

重塑得到大小为

的输出特征矩阵。

步骤4.1.3：与第一阶段操作一致，每一阶段将多头自注意解码模块的输出特征图分辨率提高2倍，通道数减小到1/4，经过r/2个阶段，最终得到

大小的特征图，最后把通道维度线性映射为3，得到RGB超分辨率图像

。

步骤4.2：构建GAN的判别器D。

判别器D的构成如图6所示，包括1个包含普通卷积和Leaky ReLU激活函数的卷积层，7个同样包含普通卷积、BN层和Leaky ReLU激活函数的卷积层，1个自适应平均池化层，2个全连接层，1个Sigmoid归一化层，输出0-1之间的值，表示输入图像为真实图像的概率；Leaky ReLU激活函数如公式（13）所示，其非零斜率设为0.01：

其中，

为激活层输入，

是一个很小的常数（通常默认为0.01）。

步骤5：制定网络的训练方式。

步骤5.1：进行模型迭代训练，迭代次数为epoch = 200，构建优化器，使用Adam作为梯度下降策略；每一个epoch分批次处理训练数据集图像，每一批处理batch_size = 16个图像，更新网络参数，直至所有批次图像处理完成。

D与编-解码网络（E, G）按照各自的损失函数，先固定(E, G)网络参数，训练优化1次判别器D，再固定鉴别器D的网络参数，训练优化1次(E, G)，如此反复交替进行训练，通过零和博弈解决极大极小值问题，直至网络达到纳什均衡。即G生成的超分辨率图像分布接近于真实图像，D无法判别出真假， GAN模型为：

步骤5.2：定义网络训练的损失函数。

步骤5.2.1：定义生成器的损失函数。本发明G的损失函数包括像素级均方误差（MSE）损失，以及内容感知损失和对抗损失的加权和，G的损失函数

如公式（15）所示；

其中，

为像素级均方误差（MSE）损失，

为内容感知损失，

为对抗损失，

和

为超参数。

最小化MSE，则图像像素间的差值越小，图像重构质量越高，MSE损失函数如公式（16）所示；

其中，W、H为

的宽高，

、

为

和

的宽高，

和

分别为

和

在像素点 (x, y) 的值。

由于MSE总是在像素点上取平均，所以生成的超分辨率图像纹理过于平滑；本发明基于预训练的VGG-19网络的高层特征映射的内容感知损失，如公式（17）所示，将损失函数转换到特征空间中，是更接近感知相似性的损失函数，其中

表示VGG-19网络中第i个最大池化层之前通过第j个卷积层的特征映射，

、

表示该特征图的宽和高，逐像素计算

和

特征映射后两者的欧氏距离：

其中，

、

分别代表

和生成图像

的

像素点处在VGG-19网络中第i个最大池化层之前通过第j个卷积层的特征映射。

对抗损失如公式（18）所示，目的是将判别器D的输出的判别概率p馈送到生成器G中，促使G进一步生成欺骗判别器的图像；

其中，

为鉴别器的输出值，

为生成器生成的超分辨率图像。

步骤5.2.2：定义判别器D的损失函数。

判别器D的输入是判断输入是否来自真实训练数据的概率，希望真实高分辨率图像输出概率为1，虚假生成超分辨率图像输出概率为0，即最大化

，最小化

，得到D的损失函数如公式（19）所示：

。

步骤6：将测试集中低分辨率图像输入训练好的基于自注意力机制的图像超分辨率重构模型，生成最终超分辨率图像。

本发明针对室内含有老人的场景下，将Transformer编-解码器和GAN相结合，捕捉图像远程特征依赖关系，构建纹理细节恢复质量更高的图像超分网络，获得纹理细节质量更高的超分辨率图像，为后续居家独居老人异常发现提供基础保障。

实施例二：

基于实施例一所述的基于自注意力的室内老人图像超分辨率重构方法，本实施例提供一种基于自注意力的室内老人图像超分辨率重构系统，包括：

图像采集模块，用于获取室内场景下含有老人的低分辨率图像；

图像重构模块，用于将室内场景下含有老人的低分辨率图像输入构建的基于自注意力机制的图像超分辨率重构模型，生成并输出对应的超分辨率图像。

本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于自注意力的室内老人图像超分辨率重构方法，其特征是，包括：

获取室内场景下含有老人的低分辨率图像；

将室内场景下含有老人的低分辨率图像输入构建的基于自注意力机制的图像超分辨率重构模型，生成并输出对应的超分辨率图像；

其中，所述基于自注意力机制的图像超分辨率重构模型的构建方法，包括：

构建多头自注意力特征编码网络E，用于提取图像远程依赖的特征编码；

构建多头自注意力解码器作为GAN网络的生成器G，用于解码生成得到虚假超分辨率图像；

构建GAN网络的鉴别器D，用于判别生成图像为真实图像的概率；

定义损失函数，将多头自注意力特征编码网络E与生成器G、鉴别器D交替训练，直至鉴别器D无法区分超分辨率图像和真实图像，即纳什平衡；

所述多头自注意力特征编码网络E包括嵌入模块，所述嵌入模块用于将低分辨率图像从三维映射到二维矩阵，包括：

S1：将

；

S2：对每一个Patch进行展开运算，用长度为

的一维向量表征每一个Patch，则低分辨率图像的尺度转换为

的二维矩阵，此二维矩阵经可学习的线性映射矩阵

，得到尺度为

的二维矩阵F；

S3：添加位置编码，使用尺度为

的二维矩阵X，作为编码器模块的输入：

其中，

表示大小为

的矩阵。

2.根据权利要求1所述的基于自注意力的室内老人图像超分辨率重构方法，其特征是，所述多头自注意力特征编码网络E还包括编码器模块，所述编码器模块包括B个重复堆叠的多头自注意力编码模块，每个多头自注意力编码模块包括：层归一化模块、多头自注意力模块和前馈全连接模块；所述多头自注意力编码模块用于提取输入图像的特征编码，包括：

其中，x为输入特征层矩阵，

为x的均值，

为x的方差，

为一无穷小值，

、

为可学习参数；

、

、

相乘，

，并行计算得到查询矩阵

、关键词矩阵

和价值矩阵

，如公式（6）~（8）所示：

其中，可学习线性映射矩阵

、

、

的大小分别为

、

、

，所得查询矩阵

的大小为

，关键词矩阵

的大小为

，价值矩阵

的大小为

；

计算得到查询矩阵

和关键词矩阵

的相关系数矩阵

，如公式（9）所示，

矩阵中的每个元素为标量；

其中，

为

的转置，所得相关系数矩阵

的大小为

；

接着对

的每一个标量元素进行

的倍乘，再进行归一化处理，得到权重矩阵

，矩阵

中的元素如公式（10）所示：

将权重矩阵

与价值矩阵

相乘并行得到n路自注意层的输出

，如公式（11）所示：

将n路的自注意层输出

级联，与可学习线性映射矩阵

相乘作为多头自注意力特征编码网络E的输出Z：

；

大小，然后，重塑Z的尺寸到

。

3.根据权利要求2所述的基于自注意力的室内老人图像超分辨率重构方法，其特征是，构建多头自注意力解码器作为GAN网络的生成器，具体为：

选用基于Transformer的多头自注意力解码器作为生成器G，分阶段逐步提高特征图分辨率，直至达到设定的分辨率，每一阶段包括M个多头自注意力解码模块堆叠结构和一个像素重组上采样模块，具体为：

采样noise_dim个先验的标准正态分布随机数向量z，通过多层感知机，将z映射为

长度的向量

，重塑

的尺寸到

，与尺寸为

的特征编码Z级联，得到尺度为

的特征矩阵I；

第一阶段，特征矩阵经过M层多头自注意力解码模块，所述多头自注意力解码模块与所述多头自注意力编码模块的结构相同，输出大小为

的输出特征矩阵；

与第一阶段操作一致，每一阶段将多头自注意力解码模块的输出特征图分辨率提高2倍，通道数减小到1/4，经过r/2个阶段，最终得到大小为

。

4.根据权利要求3所述的基于自注意力的室内老人图像超分辨率重构方法，其特征是，所述像素重组上采样模块采用多通道间的补偿重排方式，将低分辨率的特征图在宽、高方向提升分辨率，减少通道数；具体包括：

，将其大小重塑到

；

S2：将

个通道的2W，2H大小的特征图，即尺寸为

；

S3：将输出特征图大小从

重塑到

。

5.根据权利要求4所述的基于自注意力的室内老人图像超分辨率重构方法，其特征是，所述鉴别器D，包括一个包含普通卷积和Leaky ReLU激活函数的第一卷积层，七个包含普通卷积、BN层和Leaky ReLU激活函数的第二卷积层，一个自适应平均池化层，两个全连接层，一个Sigmoid归一化层；所述鉴别器输出0~1之间的值，表示输入图像为真实图像的概率；Leaky ReLU激活函数如公式（13）所示；

其中，

为激活层输入，

是一个常数。

6.根据权利要求5所述的基于自注意力的室内老人图像超分辨率重构方法，其特征是，基于自注意力机制的图像超分辨率重构模型的训练方法，包括：

收集高分辨率的室内场景下含有老人的图像，构建数据集并分为训练集和测试集；

分别对训练集和测试集内的高分辨率图像进行预处理及降采样操作，得到与高分辨率图像对应的低分辨率图像；

使用训练集对基于自注意力机制的图像超分辨率重构模型进行训练，包括：制定网络训练方式，多头自注意力特征编码网络E、生成器G与鉴别器D按照各自的损失函数进行交替训练，先固定多头自注意力特征编码网络E、生成器G的网络参数，训练优化k次鉴别器D，再固定鉴别器D的网络参数，训练优化1次多头自注意力特征编码网络E、生成器G，如此反复交替进行训练，通过零和博弈解决极大极小值问题，直至网络达到纳什平衡，即生成器G生成的超分辨率图像分布接近于真实图像，鉴别器D无法判别出真假；

使用测试集对训练好的基于自注意力机制的编-解码器进行测试，将测试集中的低分辨率图像输入训练好的基于自注意力机制的图像超分辨率重构模型，获得对应的超分辨率图像。

7.根据权利要求6所述的基于自注意力的室内老人图像超分辨率重构方法，其特征是，生成器G的损失函数