CN116309050A

CN116309050A - 图像超分辨率方法、程序产品、存储介质及电子设备

Info

Publication number: CN116309050A
Application number: CN202310180478.6A
Authority: CN
Inventors: 袁一璟
Original assignee: Beijing Jigan Technology Co ltd
Current assignee: Beijing Jigan Technology Co ltd
Priority date: 2023-02-17
Filing date: 2023-02-17
Publication date: 2023-06-23

Abstract

本申请涉及图像处理技术领域，提供一种图像超分辨率方法、程序产品、存储介质及电子设备。其中，图像超分辨率方法包括：获取针对同一场景采集的长焦图像和标准图像；将长焦图像向标准图像配准，得到配准长焦图像；根据配准长焦图像和标准图像计算掩膜图像；利用神经网络模型执行以下操作：分别提取标准图像和配准长焦图像的特征，基于掩膜图像融合提取到的特征，并根据融合后的特征计算超分辨图像。该方法的有益效果包括：其一，有利于简化神经网络模型的结构设计，提高超分辨图像解析力和稳定性；其二，超分辨图像在全局上都具有较高的解析力；其三，超分辨图像的画面自然，不容易出现瑕疵。

Description

图像超分辨率方法、程序产品、存储介质及电子设备

技术领域

本发明涉及图像处理技术领域，具体而言，涉及一种图像超分辨率方法、程序产品、存储介质及电子设备。

背景技术

图像超分辨率是根据低分辨率图像重构高分辨率图像的一种操作，在图像和视频处理中有着广泛的应用。图像超分辨率方法主要包括基于单帧图像的方法和基于参考图像的方法，其中，基于参考图像的方法除了提供低分辨率图像以外，还要提供至少一帧相同场景的参考图像，以便为超分辨率操作提供更多参考信息。

在基于参考图像的方法中，又进一步包括基于深度学习的参考图像超分辨方法，这类方法通常是将参考图像和低分辨率图像一同输入到训练好的神经网络模型中，由模型直接输出高分辨率图像。然而，实践表明这类方法的超分辨率效果并不稳定，经常出现输出的高分辨图像解析力不佳的问题。

发明内容

本申请实施例的目的在于提供一种图像超分辨率方法、程序产品、存储介质及电子设备，以改善上述技术问题。

为实现上述目的，本申请提供如下技术方案：

第一方面，本申请实施例提供一种图像超分辨率方法，包括：获取针对同一场景采集的长焦图像和标准图像，所述长焦图像和所述标准图像的采集时间间隔小于时间间隔阈值；将所述长焦图像向所述标准图像配准，得到配准长焦图像；根据所述配准长焦图像和所述标准图像计算掩膜图像，所述掩膜图像中的每个像素的像素值表征所述标准图像和所述配准长焦图像在对应像素处的相似度；将所述标准图像、所述配准长焦图像和所述掩膜图像输入神经网络模型，得到所述标准图像对应的超分辨图像；其中，所述神经网络模型内部执行以下操作：分别提取所述标准图像和所述配准长焦图像的特征，基于所述掩膜图像融合提取到的特征，并根据融合后的特征计算所述超分辨图像。

上述方法的有益效果包括：其一，该方法将图像配准和掩膜图像计算的操作放到神经网络模型之外进行，从而神经网络模型可以专注于进行图像特征的提取、融合以及图像超分辨，如此不仅能够简化神经网络模型的结构，也使得模型的优化任务变得相对简单，从而有利于改善神经网络模型在超分辨率方面的性能，使获得的超分辨图像解析力较高、稳定性良好。

其二，该方法基于融合后的特征计算超分辨率图像，而非简单地组合长焦图像和标准图像(例如，将标准图像中的部分区域用配准长焦图像替换)，使得超分辨图像在全局上解析力都有所提高。并且，由于特征融合操作结合了长焦图像和标准图像中的信息，使得超分辨图像的解析力甚至可能超过长焦图像的解析力(长焦图像的解析力高于标准图像的解析力)。

其三，该方法中计算了掩膜图像，并将掩膜图像用于引导特征融合，从而有利于改善融合效果，使得超分辨图像的画面更加自然，不容易出现算法导致的瑕疵(artifacts)。

在第一方面的一种实现方式中，所述根据所述配准长焦图像和所述标准图像计算掩膜图像，包括：针对所述配准长焦图像中的每个像素执行以下操作：确定所述配准长焦图像中该像素的第一邻域和所述标准图像中该像素的对应像素的第二邻域，所述第一邻域和所述第二邻域尺寸相同；计算所述第一邻域和所述第二邻域的结构相似性(StructuralSimilarity，简称SSIM)响应值；根据所述SSIM响应值确定所述掩膜图像中该像素的对应像素的像素值。

在上述实现方式中，SSIM响应值对图像亮度不敏感，而长焦图像和标准图像之间本来就很可能存在亮度差异，因此采用基于SSIM的方法来计算掩膜图像，能够更准确地反映配准长焦图像和标准图像之间的相似性。

在第一方面的一种实现方式中，所述分别提取所述标准图像和所述配准长焦图像的特征，基于所述掩膜图像融合提取到的特征，并根据融合后的特征计算所述超分辨图像，包括：提取所述配准长焦图像在第1至第m个尺度下的特征，以及分别提取所述标准图像和所述掩膜图像在第m个尺度下的特征，m为正整数；k从m递减至1，执行以下操作：利用所述掩膜图像在第m个尺度下的特征，融合所述配准长焦图像在第k个尺度下的特征和第k+1个尺度下的融合特征，得到第k个尺度下的融合特征；其中，第m+1个尺度下的融合特征为所述标准图像在第m个尺度下的特征；根据第1个尺度下的融合特征计算所述超分辨图像。

在上述实现方式中，若m>1，则属于多尺度的特征融合，多尺度的特征融合可以使得最终的超分辨率图像画面更加自然，避免出现解析力跨越的问题(即图像中部分区域的解析力明显高于其余部分，解析力过渡不自然)。另外，为实现多尺度特征融合，必须发掘图像中更深层次的特征，也有利于改善超分辨率效果。当然，m＝1的实现方式也是可以的，只是此时不属于多尺度特征融合。

在第一方面的一种实现方式中，所述利用所述掩膜图像在第m个尺度下的特征，融合所述配准长焦图像在第k个尺度下的特征和第k+1个尺度下的融合特征，得到第k个尺度下的融合特征，包括：直接融合所述配准长焦图像在第k个尺度下的特征以及第k+1个尺度下的融合特征，得到第k个尺度下的初步融合特征；利用所述掩膜图像在第m个尺度下的特征，融合所述第k个尺度下的初步融合特征和所述第k+1个尺度下的融合特征，得到所述第k个尺度下的融合特征。

在上述实现方式中，特征融合分为两步进行，其对于融合长焦图像中的信息是比较谨慎的，因为长焦图像和标准图像的解析力差距较大，采用上述谨慎的融合方式而不是直接将二者的特征融合有利于改善超分辨率图像中的解析力跨越问题。

在第一方面的一种实现方式中，所述利用所述掩膜图像在第m个尺度下的特征，融合所述第k个尺度下的初步融合特征和所述第k+1个尺度下的融合特征，得到所述第k个尺度下的融合特征，包括：利用所述掩膜图像在第m个尺度下的特征对所述第k个尺度下的初步融合特征进行加权计算，得到第k个尺度下的加权特征；将所述第k个尺度下的加权特征与和所述第k+1个尺度下的融合特征相加，得到所述第k个尺度下的融合特征。

在上述实现方式中，通过掩膜图像来引导特征融合，使得在标准图像和配准长焦图像相似度高的区域更多地融合长焦图像的信息，而在标准图像和配准长焦图像相似度低的区域则更多地融合标准图像的信息，从而兼顾了超分辨率图像的解析力和视场范围。

在第一方面的一种实现方式中，所述分别提取所述标准图像和所述配准长焦图像的特征，基于所述掩膜图像融合提取到的特征，并根据融合后的特征计算所述超分辨图像，包括：分别提取所述配准长焦图像和所述掩膜图像在第1至第m个尺度下的特征，以及提取所述标准图像在第m个尺度下的特征，m为正整数；k从m递减至1，执行以下操作：利用所述掩膜图像在第k个尺度下的特征，融合所述配准长焦图像在第k个尺度下的特征和第k+1个尺度下的融合特征，得到第k个尺度下的融合特征；其中，第m+1个尺度下的融合特征为所述标准图像在第m个尺度下的特征；根据第1个尺度的融合特征计算所述超分辨图像。

在上述实现方式中，若m>1，则属于多尺度的特征融合，多尺度的特征融合可以使得最终的超分辨率图像画面更加自然，避免出现解析力跨越的问题。另外，为实现多尺度特征融合，必须发掘图像中更深层次的特征，也有利于改善超分辨率效果。另外，此种实现方式对于掩膜图像的多尺度特征利用得更加充分。

在第一方面的一种实现方式中，所述方法还包括：获取训练样本，所述训练样本包括：第一训练标准图像、第二训练标准图像、训练长焦图像和训练掩膜图像；其中，所述第二训练标准图像为所述第一训练标准图像下采样后得到的图像，所述第二训练标准图像、所述训练长焦图像和所述训练掩膜图像依次对应所述标准图像、所述配准长焦图像和所述掩膜图像；利用所述训练样本训练所述神经网络模型，训练所用的损失函数包括：第一损失项，表征所述第二训练标准图像和其对应的训练超分辨率图像的低频成分差异；其中，所述训练超分辨率图像为将所述第二训练标准图像、所述训练长焦图像和所述训练掩膜图像输入所述神经网络模型后得到的输出图像；第二损失项，表征在被所述训练掩膜图像加权后，所述训练长焦图像和所述训练超分辨率图像的高频成分差异；第三损失项，表征在被所述训练掩膜图像的互补图像加权后，所述第一训练标准图像和所述训练超分辨率图像的高频成分差异。

在上述实现方式中，第一损失项可以使得训练超分辨率图像的整体颜色亮度与第二训练标准图像接近，第二损失项可以使得在第二训练标准图像和训练长焦图像相似度高的区域内，训练超分辨率图像和训练长焦图像的纹理细节接近，第三损失项可以使得在第二训练标准图像和训练长焦图像相似度低的区域内，训练超分辨率图像和第一训练标准图像的纹理细节接近。综合这三个损失项，有利于提升超分辨率图像的解析力，并保持超分辨率效果的合理性。

在第一方面的一种实现方式中，所述损失函数还包括：第四损失项，表征所述第一训练标准图像和所述训练超分辨率图像的高频成分差异。

在上述实现方式中，第四损失项可以使得训练超分辨率图像和第一训练标准图像在整体上的纹理细节接近。该损失项可以使得训练超分辨率图像画面风格统一，避免出现解析力跨越的问题。

第二方面，本申请实施例提供一种图像超分辨率装置，包括：图像获取单元，用于获取针对同一场景采集的长焦图像和标准图像，所述长焦图像和所述标准图像的采集时间间隔小于时间间隔阈值；图像配准单元，用于将所述长焦图像向所述标准图像配准，得到配准长焦图像；掩膜计算单元，用于根据所述配准长焦图像和所述标准图像计算掩膜图像，所述掩膜图像中的每个像素的像素值表征所述标准图像和所述配准长焦图像在对应像素处的相似度；超分辨率单元，用于将所述标准图像、所述配准长焦图像和所述掩膜图像输入神经网络模型，得到所述标准图像对应的超分辨图像；其中，所述神经网络模型内部执行以下操作：分别提取所述标准图像和所述配准长焦图像的特征，基于所述掩膜图像融合提取到的特征，并根据融合后的特征计算所述超分辨图像。

第三方面，本申请实施例提供一种计算机程序产品，包括计算机程序指令，所述计算机程序指令被处理器读取并运行时，执行第一方面或第一方面的任意一种可能的实现方式提供的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器读取并运行时，执行第一方面或第一方面的任意一种可能的实现方式提供的方法。

第五方面，本申请实施例提供一种电子设备，包括：存储器以及处理器，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器读取并运行时，执行第一方面或第一方面的任意一种可能的实现方式提供的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种图像超分辨率方法的流程图；

图2为适用于图1方法中的一种神经网络模型的结构图；

图3为图2所示的神经网络模型中的resblock的结构图；

图4为适用于图1方法中的另一种神经网络模型的结构图；

图5(A)～图5(D)分别为第一训练标准图像、第二训练标准图像、训练长焦图像、训练掩膜图像的示例；

图6为本申请实施例提供的一种图像超分辨率装置的模块图；

图7为本申请实施例提供的一种电子设备的结构图。

具体实施方式

近年来，基于人工智能的计算机视觉、深度学习、机器学习、图像处理、图像识别等技术研究取得了重要进展。人工智能(Artificial Intelligence，简称AI)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用系统的新兴科学技术。人工智能学科是一门综合性学科，涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支，具体是让机器识别世界，计算机视觉技术通常包括人脸识别、活体检测、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图像处理、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、行为识别、三维重建、虚拟现实、增强现实、同步定位与地图构建、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步，该项技术在众多领域展开了应用，例如安防、城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。

发明人调查发现，在现有技术中，基于深度学习的参考图像超分辨方法通常是端到端的，即将参考图像和低分辨率图像一同输入到训练好的神经网络模型中，由模型直接输出高分辨率图像。发明人进一步研究认为，端到端的方法导致神经网络模型的结构变得复杂，其内部必须涵盖完成图像超分辨率流程所需的一系列模块，从而模型在进行参数优化时，不得在某种程度上平衡不同的模块的表现，导致其并不能专注于优化与提高分辨率密切相关的几个模块，因此最终得到的神经网络模型超分辨率效果并不稳定，经常出现结果图像解析力不佳的问题。

本申请实施例提供的图像超分辨率方法从总体上看，也可以划分为基于深度学习的参考图像超分辨方法，但不同于现有方法，本申请提出的图像超分辨率方法简化了神经网络模型的结构设计，从而使得模型的参数优化能够集中于与提高分辨率密切相关的几个模块，因此有利于改善模型在超分辨率方面的表现。

需要指出，除了本申请实施例提出的新方法之外，上述对于导致现有方法超分辨率效果不佳的原因分析，也属于发明人研究发现的内容，而并非现有技术中已经存在结论。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

术语“第一”、“第二”等仅用于将一个实体或者操作与另一个实体或操作区分开来，而不能理解为指示或暗示相对重要性，也不能理解为要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

图1为本申请实施例提供的一种图像超分辨率方法的流程图。图1中的方法可以、但不限于由图7中的电子设备执行，该电子设备的结构可以参照后文关于图7的阐述。参照图1，图像超分辨率方法包括：

步骤S110：获取长焦图像和标准图像。

标准图像是要进行超分辨率的图像(步骤S140最后得到的是标准图像对应的超分辨图像)，而长焦图像则是作为超分辨方法中的参考图像，用于给标准图像的超分辨率操作提供额外的参考信息，以改善超分辨率效果。长焦图像和标准图像可以都是彩色图像，或者可以都是灰度图像。

长焦图像和标准图像是针对同一场景采集的图像，长焦图像对应的摄像头焦距大于标准图像对应的摄像头焦距。例如，长焦图像可以是长焦摄像头采集的图像，标准图像可以是标准摄像头采集的图像，长焦摄像头的焦距大于标准摄像头的焦距。注意，这里的“长焦”是指相较于“标准”而言焦距更大，即“长焦”和“标准”都是相对意义上的，而非摄影学意义上的“长焦”和“标准”。

长焦摄像头和标准摄像头可以是两个不同的摄像头，例如一台多摄像头手机上的其中两个摄像头、一台多摄像头无人机上的其中两个摄像头。或者，长焦摄像头和标准摄像头也可能是同一个摄像头，该摄像头的焦距可以调节，在调节为不同的焦距时分别采集长焦图像和标准图像。

长焦图像和标准图像的采集时间间隔小于时间间隔阈值，该阈值可以是一个预先设定的值，例如200ms、1s、5s等。之所以针对图像采集设置时间间隔要求，是为了使得长焦图像和标准图像的画面在光照等条件上更加接近，从而改善超分辨率效果(反之，比如标准图像是白天采集的，长焦图像是夜晚采集的，则长焦图像并不能给标准图像的超分辨率操作提供什么有价值的参考信息)。

注意，在某些实现方式中，采集长焦图像和标准图像时并不用显式地去设置一个时间间隔阈值，也不用显式地去校验长焦图像和标准图像的采集时间间隔是否小于一个时间间隔阈值。例如，通过控制信号同步地控制长焦摄像头和标准摄像头进行图像采集，此时长焦图像和标准图像基本是同时采集的，因此是满足超分辨方法需求的，并不需要比如先设置好一个1s的时间间隔阈值，在采集完两张图像后再校验二者的采集时间是否小于1s。

应当理解，不显式地设置时间间隔阈值，并不代表对长焦图像和标准图像的采集时间间隔不作任何限制，只是该时间间隔阈值可能是隐性存在的，因为用户对于二者的采集时间间隔必然是存在预期的，如果通过技术手段可以使得二者的采集时间间隔总是满足用户的预期，这时就没有必要将用户的预期显式地用数值表达出来。

长焦图像和标准图像存在差异，主要包括以下三项：

视场差异：长焦图像的视场范围小于标准图像的视场范围；

解析力差异：长焦图像的解析力通常高于标准图像的解析力；

亮度差异：长焦图像的亮度通常不同于标准图像的亮度。

步骤S110中的长焦图像和标准图像可能存在多种获取方式：例如，可以是实时采集的；又例如，可以是预先采集好并存储起来的，在步骤S110中只是将其读取出来，等等。

步骤S120：将长焦图像向标准图像配准，得到配准长焦图像。

长焦图像和标准图像的视场是不同的，除了视场范围的差异之外，若两张图像由不同的摄像头采集，则还可能存在拍摄角度上的差异。在进一步处理之前，需要将长焦图像向标准图像配准，以消除或者至少是在一定程度上消除二者在视场上的不同。

所谓“将长焦图像向标准图像配准”，就是将标准图像作为基准图像，对长焦图像进行变换，使得在变换后两张图像中对应于场景的同一位置的像素能够对齐。图像配准可以通过图像配准算法完成，图像配准算法包括基于单应性矩阵的算法、基于光流的算法等。大部分图像配准算法都要求待配准的图像和基准图像尺寸相同，从而若长焦图像和标准图像尺寸不同，则在配准时需要先将二者处理为统一的尺寸。

步骤S130：根据配准长焦图像和标准图像计算掩膜图像。

掩膜图像中的每个像素的像素值表征标准图像和配准长焦图像在对应像素处的相似度。掩膜图像可以是二值化的图像，也可以是非二值化的图像。

例如，若掩膜图像为二值化图像，则其中的像素只取两种像素值：第一像素值(例如，1)，表示在该像素处标准图像和配准长焦图像是相似的；第二像素值(例如，0)，表示在该像素处标准图像和配准长焦图像是不相似的。

又例如，若掩膜图像为非二值化图像，则其中的像素可取连续的像素值，比如[0,1]之间的某个实数值，此实数值表示在该像素处标准图像和配准长焦图像的相似程度，像素值越大则越相似。

二值化的掩膜图像也可以看作是非二值化的掩膜图像进行二值化操作的结果。例如，在非二值化的掩膜图像中，若设定二值化阈值0.5，像素值在(0.5,1]之间则映射为1，像素值在[0,0.5]之间则映射为0，则可以得到二值化的掩膜图像。相较而言，二值化的掩膜图像拉大了标准图像和配准长焦图像中相似像素和不相似像素之间的相似度差异，并且二值化的掩膜图像也更方便进行展示。

掩膜图像存在多种不同的计算方式，例如，在一种实现方式中，可以针对配准长焦图像中的每个像素执行以下操作：

步骤A1：确定配准长焦图像中该像素的第一邻域和标准图像中该像素的对应像素的第二邻域。其中，第一邻域和第二邻域尺寸相同，例如，二者都可以都是n×n的邻域(n可取大于1的奇数)。

步骤A2：计算第一邻域和第二邻域之间的SSIM响应值。SSIM响应值越大，表明这两个邻域的图像内容越相似，否则越不相似。

步骤A3：根据SSIM响应值确定掩膜图像中该像素的对应像素的像素值。

如果计算的是非二值化的掩膜图像，可以直接将步骤A2中算出的SSIM响应值作为掩膜图像中该像素的对应像素的像素值；如果计算的是二值化的掩膜图像，可以将步骤A2中算出的SSIM响应值二值化后作为掩膜图像中该像素的对应像素的像素值。

SSIM是一种评估图像相似度的算法，此算法对于图像的边缘、纹理比较敏感，但对于图像亮度则并不敏感。通俗来说，两张除亮度以外内容相同的图像，在采用此算法进行评估时具有较高的相似度。

如前所述，长焦图像和标准图像虽然是针对同一场景采集，但二者之间很可能存在亮度差异，这种亮度差异可能是一些客观因素导致的，比如摄像头自身的参数，因此并不能真实地反映二者在图像内容上的差异。在上述实现方式中，采用基于SSIM的方法来计算掩膜图像，能够在一定程度上削弱亮度差异对相似度计算的影响，使获得的掩膜图像能够更准确地反映配准长焦图像和标准图像之间的相似性。

当然，掩膜图像的计算也存在其他的方法，比如下面的方法：

步骤B1：将配准长焦图像和标准图像的亮度调节至同一水平；例如，可以采用直方图匹配等算法进行调节。

步骤B2：针对配准长焦图像中的每个像素，执行以下操作：

步骤B21：确定配准长焦图像中该像素的第三邻域和标准图像中该像素的对应像素的第四邻域，第三邻域和第四邻域尺寸相同；该步骤可以参考步骤A1的实现。

步骤B22：计算第三邻域内的像素值均值以及第四邻域内的像素值均值，对这两个均值求差值并取绝对值。

步骤B23：根据计算出的绝对值确定掩膜图像中该像素的对应像素的像素值；该步骤可以参考步骤A3的实现。

以上方法由于先进行了图像亮度调整，所以后续计算时可用像素值均值之差的绝对值代替SSIM响应值。其他计算掩膜图像的方法不再列举。

步骤S140：将标准图像、配准长焦图像和掩膜图像输入神经网络模型，得到标准图像对应的超分辨图像。

步骤S140中的神经网络模型内部执行以下操作：分别提取标准图像和配准长焦图像的特征，基于掩膜图像融合提取到的特征，并根据融合后的特征计算超分辨图像。

从模型结构的角度来看，该神经网络模型大致可以分为用于提取图像特征的特征提取模块，用于融合图像特征的特征融合模块，以及用于实现超分辨率计算的超分辨率模块。可选的，特征提取模块和超分辨率计算模块均可以采用一个或多个卷积层实现(当然还可以包含其他层)，而特征融合单元则可以采用拼接、加权求和等一种或多种融合结构实现，后文会给出步骤S140中使用的神经网络模型的详细例子。

该神经网络模型是在执行步骤S140之前已经训练好的，后文会给出其可能的训练方法，这里暂不展开阐述。

简单总结图1中方法的有益效果：

其一，该方法将图像配准和掩膜图像计算的操作放到神经网络模型之外进行，从而神经网络模型可以专注于进行图像特征的提取、融合以及图像超分辨，如此不仅能够简化神经网络模型的结构，也使得模型的优化任务变得相对简单，可以专注于优化与提高分辨率关系更为密切的几个模块(即上面提到的特征提取模块、特征融合模块、超分辨率模块)，从而有利于改善神经网络模型在超分辨率方面的性能，使获得的超分辨图像解析力较高、稳定性良好。

其二，该方法基于融合后的特征计算超分辨率图像，而非简单地组合长焦图像和标准图像(例如，将标准图像中的部分区域用配准长焦图像替换)，使得超分辨图像在全局上解析力都有所提高。并且，由于特征融合操作结合了长焦图像和标准图像中的信息，使得超分辨图像的解析力甚至可能超过长焦图像的解析力(如前所述，长焦图像的解析力本来就高于标准图像的解析力)。

在以上实施例的基础上，可选的，步骤S140中神经网络模型内部执行的操作可以通过以下步骤实现(结合图2中给出的神经网络模型结构进行说明)：

步骤C1：提取配准长焦图像在第1至第m个尺度下的特征，以及分别提取标准图像和掩膜图像在第m个尺度下的特征。

其中，m为正整数，若m＞1，则存在多个尺度下的特征。为便于阐述，引出序数k，k可以取1至m中的任意整数。在k＝1时，第1个尺度下的特征是提取到的最浅层次的图像特征，也是最小尺度的图像特征(特征的尺度可以认为是和感受野大小对应的)，随着k的增大，图像特征的层次逐渐加深，尺度也逐渐增大，当k＝m时，第m个尺度下的特征是提取到的最深层次的图像特征，也是最大尺度的图像特征。

配准长焦图像在第1至第m个尺度下的特征可以依次提取，即先提取第1个尺度下的特征，再基于第1个尺度下的特征提取第2个尺度下的特征，再基于第2个尺度下的特征提取第3个尺度下的特征，以此类推。

注意，为提取标准图像在第m个尺度下的特征，不排除也需要先依次提取标准图像在第1至第m-1个尺度下的特征(假设m＞1)，但在步骤C2中直接使用的只有标准图像在第m个尺度下的特征。对于掩膜图像，情况也是类似的。

参照图2，mask表示掩膜图像，tele表示配准长焦图像，wide表示标准图像，m＝2。通过设置卷积模块来进行特征提取，每个卷积模块的结构都是类似的，包括两个连续的conv(卷积层)和四个连续的resblock(残差模块)。其中，resblock的内部结构如图3所示，图3中的加号表示加法单元，用于将两个输入支路的特征图求和(矩阵加法)，而ReLU是一种激活函数。图2上方总共六个上述卷积模块可以认为构成了神经网络模型的特征提取模块。

应当理解，图2中的卷积模块仅为示例，例如，在其他实现方式中，conv的数量可以不是2，resblock的数量可以不是4，或者，resblock的内部结构也可能和图3示出的不同，或者，卷积模块也可能只包括若干conv，但不包括resblock，等等。

对于mask，提取到的第1个尺度下的特征为mask_feature1，第2个尺度下的特征为mask_feature2，但只有mask_feature2会用于后面的特征融合；对于tele，提取到的第1个尺度下的特征为tele_feature1，第2个尺度下的特征为tele_feature1，tele_feature1和tele_feature2都会用于后面的特征融合；对于wide，提取到的第1个尺度下的特征为wide_feature1，第2个尺度下的特征为wide_feature2，但只有wide_feature2会用于后面的特征融合。

步骤C2：令k从m递减至1，执行以下操作：利用掩膜图像在第m个尺度下的特征，融合配准长焦图像在第k个尺度下的特征和第k+1个尺度下的融合特征，得到第k个尺度下的融合特征。特别地，第m+1个尺度下的融合特征为标准图像在第m个尺度下的特征。

继续参照图2，中部的虚线方框可称为特征融合单元，神经网络模型通过两个特征融合单元完成特征融合，这两个特征融合单元可以认为构成了神经网络模型的特征融合模块。

靠右侧的特征融合单元的输入为mask_feature2(mask在第2个尺度下的特征)、tele_feature2(tele在第2个尺度下的特征)和wide_feature2(wide在第2个尺度下的特征，同时也是第3个尺度下的融合特征)，在其内部利用mask_feature2融合tele_feature2和wide_feature2，即k＝2时的特征融合操作，得到的输出为fused_feature2(第2个尺度下的融合特征)。靠左侧的特征融合单元的输入为mask_feature2(mask在第2个尺度下的特征)、tele_feature1(tele在第1个尺度下的特征)和fused_feature2(第2个尺度下的融合特征)，在其内部利用mask_feature2融合tele_feature1和fused_feature2，即k＝1时的特征融合操作，得到的输出为fused_feature1(第1个尺度下的融合特征)。

关于特征融合单元内部可能具有的结构稍后再阐述。

步骤C3：根据第1个尺度下的融合特征计算超分辨图像。

继续参照图2，利用两个连续的conv(卷积层)处理fused_feature1，得到的output就是wide对应的超分辨率图像，此处的两个conv应具有上采样功能，即能够实现分辨率的提高。这两个conv可以认为构成了神经网络模型的超分辨率模块。

应当理解，在其他实现方式中，超分辨率模块中conv的数量可以不是2，或者，除了conv之外还可以包含其他上采样单元，例如插值计算单元，等等。

在步骤C1～C3的实现方式中，若m>1，则属于多尺度的特征融合(例如，图2属于两个尺度的特征融合)，多尺度的特征融合可以使得最终的超分辨率图像画面更加自然，避免出现解析力跨越的问题(即图像中部分区域的解析力明显高于其余部分，解析力过渡不自然)。另外，为实现多尺度特征融合，必须发掘图像中更深层次的特征，也有利于改善超分辨率效果。在图2的基础上，通过在特征提取模块中增加卷积模块的数量，以及在特征融合模块中增加特征融合单元的数量，就很容易地将特征融合推广至m>2的情况。

需要指出，m＝1的实现方式也是可行的，只是此时不属于多尺度特征融合的方案。

在一种实现方式中，步骤C2可以进一步包括：

步骤C21：直接融合配准长焦图像在第k个尺度下的特征以及第k+1个尺度下的融合特征，得到第k个尺度下的初步融合特征。

步骤C22：利用掩膜图像在第m个尺度下的特征，融合第k个尺度下的初步融合特征和第k+1个尺度下的融合特征，得到第k个尺度下的融合特征。

步骤C11中的所谓的“直接融合”是指不利用额外的信息进行融合，比如，步骤C22中利用了掩膜图像在第m个尺度下的特征进行融合，就属于利用了额外的信息进行融合的情况，因此不属于直接融合。

继续参照图2，每个特征融合单元均包括一个concat(拼接结构)和一个fusion(融合结构)，分别用于执行步骤C21和C22。

例如，在靠右侧的特征融合单元中(k＝2)，先利用concat将tele_feature2(tele在第2个尺度下的特征)和wide_feature2(wide在第2个尺度下的特征，同时也是第3个尺度下的融合特征)拼接在一起，得到concat_feature2(第2个尺度下的初步融合特征)，然后在fusion中，利用mask_feature2(mask在第2个尺度下的特征)，融合concat_feature2和wide_feature2，得到fused_feature2(第2个尺度下的融合特征)。

可见，tele_feature2并不是直接被融合到fused_feature2中，而是先将其与wide_feature2融合，再将得到的concat_feature2融合到fused_feature2中。

在靠左侧的特征融合单元中(k＝1)，先利用concat将tele_feature1(tele在第1个尺度下的特征)和fused_feature2(第2个尺度下的融合特征)拼接在一起，得到concat_feature1(第1个尺度下的初步融合特征)，然后在fusion中，利用mask_feature2(mask在第2个尺度下的特征)，融合concat_feature1和fused_feature2，得到fused_feature1(第1个尺度下的融合特征)。

可见，tele_feature1并不是直接被融合到fused_feature1中，而是先将其与fused_feature2融合，再将得到的concat_feature1融合到fused_feature1中。

应当理解，特征融合单元中的concat也可以替换为其他能够进行直接融合的组件，例如加法单元、内积计算单元等。关于fusion结构进行融合的可能方式，稍后再阐述。

下面简单分析上述对步骤C2的实现方式：由于长焦图像的解析力高于标准图像，所以要改善超分辨率图像的解析力，在进行特征融合时，融合长焦图像中的信息是必要的，但另一方面，长焦图像和标准图像的解析力差距较大，如果融合的方式比较生硬，则在最终得到的超分辨率图像中容易出现解析力跨越的问题。在上述实现方式中，特征融合分为两步进行，其对于在融合结果(例如，fused_feature2、fused_feature1)中加入长焦图像中的信息(例如，tele_feature2、tele_feature1)是比较谨慎的，从而有利于改善超分辨率图像中的解析力跨越问题。

在一种实现方式中，步骤C22可以进一步包括：

步骤C221：利用掩膜图像在第m个尺度下的特征对第k个尺度下的初步融合特征进行加权计算，得到第k个尺度下的加权特征。

步骤C222：将第k个尺度下的加权特征与和第k+1个尺度下的融合特征相加，得到第k个尺度下的融合特征。

继续参照图2，在靠右侧的特征融合单元中(k＝2)，fusion结构中进行的计算可以用公式表示为：fused_feature2＝mask_feature2×concat_feature2+wide_feature2。其中，公式右侧的乘法运算(矩阵点乘)对应步骤C221，mask_feature2中的像素值视为加权计算中的权重，加法运算(矩阵加法)对应步骤C222。

可以结合fused_feature2的计算公式分析采用步骤C221～C222的方式进行特征融合的意义，mask_feature2是mask在第2个尺度下的特征，或者可以将其理解为：在第2个尺度下，标准图像和配准长焦图像之间的相似度。mask_feature2中像素值较大(例如，大于0.5)的像素构成的区域，也就对应在第2个尺度下标准图像和配准长焦图像相似度较高的区域，在这些区域中可以更多地融合长焦图像中的信息，即concat_feature2(如前所述，concat_feature2中包含了tele_feature2)，因为这些区域中的画面大概率是长焦图像和标准图像都包含的，而长焦图像相较于标准图像本来就具有解析力上的优势；mask_feature2中像素值较小(例如，不大于0.5)的像素构成的区域，也就对应在第2个尺度下标准图像和配准长焦图像相似度较低的区域，在这些区域中可以更多地融合标准图像中的信息，即wide_feature2，因为这些区域中的画面大概率只包含在标准图像中，因为标准图像的视场范围较大。

如此通过mask_feature2的引导来融合concat_feature2和wide_feature2，有利于获得更合理的融合特征fused_feature2，从而兼顾了超分辨率图像的解析力和视场范围。

在靠左侧的特征融合单元中(k＝1)，fusion结构中进行的计算可以用公式表示为：fused_feature1＝mask_feature2×concat_feature1+fused_feature2。其中，公式右侧的乘法运算(矩阵点乘)对应步骤C221，mask_feature2中的像素值视为加权计算中的权重，加法运算(矩阵加法)对应步骤C222。

对于fused_feature1的计算公式，可以参照fused_feature2的计算公式进行分析，不再重复阐述。可选的，在fused_feature1的计算公式中，mask_feature2也可以替换为mask_feature1，从逻辑上说，该公式进行的是第1个尺度下的特征融合，采用mask_feature1可能更加合适，但实验表明此处沿用mask_feature2也能够得到较好的超分辨率图像，从而出于简化网络设计的考虑，采用mask_feature2也是可以的。若采用mask_feature1，则图2中的网络结构需要相应地调整为图4中的网络结构。

应当理解，步骤C221～C222并非步骤C22的唯一实现方式，例如，步骤C222中，对于第k+1个尺度下的融合特征，是直接将其和第k个尺度下的加权特征相加的，但也不排除先对第k+1个尺度下的融合特征进行加权计算，然后将加权计算的结果与第k个尺度下的加权特征相加。比如，在这一实现方式下fused_feature2的计算公式可能会改为fused_feature2＝mask_feature2×concat_feature2+(1－mask_feature2)×wide_feature2，其中，“1”可以理解为一个尺寸和mask_feature2相同的全1矩阵，而mask_feature2中的像素值要求在[0,1]范围内。

还应当理解，步骤C21～C22并非步骤C2的唯一实现方式，例如，可以直接通过一个步骤融合配准长焦图像在第k个尺度下的特征和第k+1个尺度下的融合特征。比如，此时fused_feature2的计算公式可能会改为fused_feature2＝mask_feature2×tele_feature2+wide_feature2，而fused_feature1的计算公式可能会改为fused_feature2＝mask_feature2×tele_feature1+fused_feature2。相应地，图2中的concat结构也可以去掉。

在以上实施例的基础上，可选的，步骤S140中神经网络模型内部执行的操作可以通过以下步骤实现：

步骤D1：分别提取配准长焦图像和掩膜图像在第1至第m个尺度下的特征，以及提取标准图像在第m个尺度下的特征；其中，m为正整数。

步骤D2：令k从m递减至1，执行以下操作：利用掩膜图像在第k个尺度下的特征，融合配准长焦图像在第k个尺度下的特征和第k+1个尺度下的融合特征，得到第k个尺度下的融合特征；其中，第m+1个尺度下的融合特征为标准图像在第m个尺度下的特征。

步骤D3：根据第1个尺度的融合特征计算超分辨图像。

步骤D1～D3和步骤C1～C3是比较类似的，主要区别在于步骤C2中的“掩膜图像在第m个尺度下的特征”被替换为了“掩膜图像在第k个尺度下的特征”，即在不同的尺度下进行特征融合，所使用的掩膜图像的特征也是对应尺度下的，此举充分利用了掩膜图像的多尺度特征，可能会取得更好的特征融合效果。

关于步骤D1～D3的其他实现细节及所产生的有益效果，均可以参照步骤C1～C3的相关内容，不再重复阐述。图4为一种适配于步骤D1～D3的神经网络模型的结构图，在图4中，mask_feature1和mask_feature2都用于了特征融合，而在图2中，则只有mask_feature2用于了特征融合。

下面，在以上实施例的基础上，继续介绍步骤S140中神经网络模型可能的训练方法：

步骤E1：获取训练样本。

其中，每个训练样本包括以下四项数据：

(1)第一训练标准图像

第一训练标准图像可以是标准摄像头采集的图像，图5(A)示出了第一训练标准图像的一个示例。

(2)第二训练标准图像

第二训练标准图像可以是第一训练标准图像下采样后得到的图像，图5(B)示出了第二训练标准图像的一个示例。

模型训练阶段的第二训练标准图像对应模型推理阶段的标准图像，而第一训练标准图像可视为第二训练标准图像进行超分辨率的理想结果(Ground Truth)。

第二训练标准图像可以是第一训练标准图像下采样后直接得到的图像，也可以是第一训练标准图像下采样后再经过一定的模糊处理(例如，高斯模糊等)后得到的图像。模糊处理可以采用不同的参数，这样针对同一张第一训练标准图像就可以衍生出多张第二训练标准图像，从而形成多个训练样本，达到扩增样本数量，改善模型性能的目的。

(3)训练长焦图像

训练长焦图像可以是长焦摄像头采集的图像向第二训练标准图像配准后得到的图像，图5(C)示出了训练长焦图像的一个示例，由于长焦摄像头采集的图像其视场范围小于第二训练标准图像，所以配准后需要填充一部分像素(图中黑色部分)才能得到训练长焦图像，填充的像素其像素值可以是0。

模型训练阶段的训练长焦图像对应模型推理阶段的配准长焦图像。

(4)训练掩膜图像

训练掩膜图像可以是根据第二训练标准图像和训练长焦图像计算出的图像，训练掩膜图像中的每个像素的像素值表征第二训练标准图像和训练长焦图像在对应像素处的相似度，图5(D)示出了训练掩膜图像的一个示例，白色表示像素值为1(或者像素值较大)的区域，即第二训练标准图像和训练长焦图像相似度较高的区域，黑色表示像素值为0(或者像素值较小)的区域，即第二训练标准图像和训练长焦图像相似度较低的区域。

模型训练阶段的训练掩膜图像对应模型推理阶段的掩膜图像，其计算方式也可以参照步骤S130的内容，不再重复阐述。

步骤E2：利用训练样本训练神经网络模型。

例如，一种可能的训练过程为：将训练样本中的第二训练标准图像、训练长焦图像和训练掩膜图像输入待训练的神经网络模型，得到模型的输出图像，称为训练超分辨率图像。利用训练样本和训练超分辨率图像计算损失函数(其形式稍后介绍)的梯度，并根据损失函数的梯度更新神经网络模型的参数。持续上面的步骤，直至损失函数收敛，得到训练好的神经网络模型。

其中，训练所用的损失函数至少包括第一损失项、第二损失项和第三损失项，可选的还包括第四损失项，下面分别介绍这些损失项的含义以及可能的计算方式：

(1)第一损失项

第一损失项表征第二训练标准图像和训练超分辨率图像的低频成分差异。换句话说，在损失函数中加入第一损失项进行训练，可使得训练超分辨率图像的整体颜色亮度(整体颜色亮度主要取决于图像中的低频成分)与第二训练标准图像接近。从而，在神经网络模型训练好后用于推理时，可使得超分辨率图像的整体颜色亮度与标准图像接近。

例如，第一损失项可以用公式表示为：Loss1＝L1(LR_blur,SR_blur)，其中，L1表示L1损失，LR_blur表示对第二训练标准图像LR进行低通滤波的结果，或者说表示LR的低频成分，SR_blur表示对训练超分辨率图像SR进行低通滤波的结果，或者说表示SR的低频成分。应当理解，上述公式中低通滤波的具体方式不限，并且L1损失也可以替换为L2损失等。

(2)第二损失项

第二损失项表征在被训练掩膜图像加权后，训练长焦图像和训练超分辨率图像的高频成分差异。换句话说，在损失函数中加入第二损失项进行训练，可使得在第二训练标准图像和训练长焦图像相似度高的区域内，训练超分辨率图像和训练长焦图像的纹理细节(纹理细节主要取决于图像中的高频成分，表征图像解析力)接近。从而，在神经网络模型训练好后用于推理时，可使得在标准图像和配准长焦图像相似度高的区域内，超分辨率图像的解析力与配准长焦图像接近。

其中，第二训练标准图像和训练长焦图像相似度高的区域，对应到训练掩膜图像中，就是像素值较大的像素(比如像素值大于0.5的像素)构成的区域，从而利用训练掩膜图像分别对训练长焦图像和训练超分辨率图像进行加权计算，可以(至少是在一定程度上)将训练长焦图像和训练超分辨率图像中对应于该区域的像素过滤出来，并用于高频成分差异的计算。

例如，第二损失项可以用公式表示为：Loss2＝L1(VGG(MASK×REF),VGG(MASK×SR))，其中，MASK表示训练掩膜图像，REF表示训练长焦图像，MASK×REF和MASK×SR分别表示利用MASK对REF和SR进行加权计算。VGG表示VGG神经网络(具体可以是VGG16、VGG19、VGG54等子类型中的一种)，其可以提取输入图像中的纹理细节，VGG(MASK×REF)表示将MASK×REF的结果输入到VGG中所得到的输出图像，该输出图像中包含了MASK×REF的纹理细节，或者说高频成分。类似的，VGG(MASK×SR)中包含了MASK×SR的纹理细节，或者说高频成分。

注意，严格来说，MASK和SR的尺寸并不相同(MASK的尺寸和LR相同，小于SR的尺寸)，不能直接进行矩阵点乘，实际中可以将MASK上采样至和SR相同的尺寸后再进行矩阵点乘(若MASK是二值化的，上采样后产生了非二值化数据，可以再次进行二值化操作)，上述公式为简单起见，省略了这里的计算细节。后文的公式中，类似之处不再重复解释。

应当理解，上述公式中的VGG也可以替换为其他神经网络模型(例如ResNet)或者纹理细节提取算法，并且L1损失也可以替换为L2损失等。

(3)第三损失项

第三损失项表征在被训练掩膜图像的互补图像加权后，第一训练标准图像和训练超分辨率图像的高频成分差异。其中，训练掩膜图像的互补图像可以指满足这样条件的图像：将该图像和训练掩膜图像相加(矩阵加法)后，得到的结果图像中的每个像素的像素值都相同且为固定值。例如，若训练掩膜图像MASK中的每个像素的像素值都位于区间[0,1]中，则可以用1－MASK表示其对应的互补图像，其中，“1”表示一个尺寸和MASK相同的全1矩阵。

换句话说，在损失函数中加入第三损失项进行训练，可使得在第二训练标准图像和训练长焦图像相似度低的区域内，训练超分辨率图像和第一训练标准图像的纹理细节接近。从而，在神经网络模型训练好后用于推理时，可使得在标准图像和配准长焦图像相似度低的区域内，超分辨率图像的解析力至少与标准图像接近，甚至于更好(因为第三损失项中用的是第一训练标准图像，其解析力高于与标准图像对应的第二训练标准图像)。

其中，第二训练标准图像和训练长焦图像相似度低的区域，对应到训练掩膜图像的互补图像中，就是像素值较大的像素(比如像素值大于0.5的像素)构成的区域，从而利用互补图像分别对第一训练标准图像和训练超分辨率图像进行加权计算，可以(至少是在一定程度上)将第一训练标准图像和训练超分辨率图像中对应于该区域的像素过滤出来，并用于高频成分差异的计算。

例如，第三损失项可以用公式表示为：Loss3＝L1(VGG((1-MASK)×HR),VGG((1-MASK)×SR))，其中，1－MASK表示训练掩膜图像的互补图像，HR表示第一训练标准图像，VGG表示VGG神经网络，注意这里的VGG神经网络和第二损失项中的未必相同(只是从总体结构上看都属于VGG)。

(4)第四损失项

第四损失项表征第一训练标准图像和训练超分辨率图像的高频成分差异。换句话说，在损失函数中加入第四损失项进行训练，可使得训练超分辨率图像和第一训练标准图像在整体上的纹理细节接近。从而，在神经网络模型训练好后用于推理时，可使得超分辨率图像的整体纹理细节都比较高，并且画面风格比较统一，不容易出现解析力跨越的问题。

例如，第四损失项可以用公式表示为：Loss4＝L1(VGG(SR),VGG(HR))，其中，VGG表示VGG神经网络，注意这里的VGG神经网络和第二损失项、第三损失项中的未必相同(只是从总体结构上看都属于VGG)。

例如，一种同时包含上述四个损失项的损失函数为：

Loss＝w1×Loss1+w2×Loss2+w3×Loss3+w4×Loss4

其中，w1、w2、w3、w4分别为Loss1、Loss2、Loss3、Loss4对应的权重，其取值可以是事先设定好的，例如(0,100)之间的值。

综合以上三个或四个损失项进行训练，有利于提升超分辨率图像的解析力，并保持超分辨率图像的合理性(指画面亮度颜色相对于超分辨之前没有大的变化)和一致性(指画面中没有或较少解析力跨越的问题)。

图6为本申请实施例提供的图像超分辨率装置200的模块图。图像超分辨率装置200可用于执行本申请实施提供的图像超分辨率方法。参照图6，图像超分辨率装置200包括：

图像获取单元210，用于获取针对同一场景采集的长焦图像和标准图像，所述长焦图像和所述标准图像的采集时间间隔小于时间间隔阈值；

图像配准单元220，用于将所述长焦图像向所述标准图像配准，得到配准长焦图像；

掩膜计算单元230，用于根据所述配准长焦图像和所述标准图像计算掩膜图像，所述掩膜图像中的每个像素的像素值表征所述标准图像和所述配准长焦图像在对应像素处的相似度；

超分辨率单元240，用于将所述标准图像、所述配准长焦图像和所述掩膜图像输入神经网络模型，得到所述标准图像对应的超分辨图像；其中，所述神经网络模型内部执行以下操作：分别提取所述标准图像和所述配准长焦图像的特征，基于所述掩膜图像融合提取到的特征，并根据融合后的特征计算所述超分辨图像。

在图像超分辨率装置200的一种实现方式中，掩膜计算单元230根据所述配准长焦图像和所述标准图像计算掩膜图像，包括：针对所述配准长焦图像中的每个像素执行以下操作：确定所述配准长焦图像中该像素的第一邻域和所述标准图像中该像素的对应像素的第二邻域，所述第一邻域和所述第二邻域尺寸相同；计算所述第一邻域和所述第二邻域的SSIM响应值；根据所述SSIM响应值确定所述掩膜图像中该像素的对应像素的像素值。

在图像超分辨率装置200的一种实现方式中，所述分别提取所述标准图像和所述配准长焦图像的特征，基于所述掩膜图像融合提取到的特征，并根据融合后的特征计算所述超分辨图像，包括：提取所述配准长焦图像在第1至第m个尺度下的特征，以及分别提取所述标准图像和所述掩膜图像在第m个尺度下的特征，m为正整数；k从m递减至1，执行以下操作：利用所述掩膜图像在第m个尺度下的特征，融合所述配准长焦图像在第k个尺度下的特征和第k+1个尺度下的融合特征，得到第k个尺度下的融合特征；其中，第m+1个尺度下的融合特征为所述标准图像在第m个尺度下的特征；根据第1个尺度下的融合特征计算所述超分辨图像。

在图像超分辨率装置200的一种实现方式中，所述利用所述掩膜图像在第m个尺度下的特征，融合所述配准长焦图像在第k个尺度下的特征和第k+1个尺度下的融合特征，得到第k个尺度下的融合特征，包括：直接融合所述配准长焦图像在第k个尺度下的特征以及第k+1个尺度下的融合特征，得到第k个尺度下的初步融合特征；利用所述掩膜图像在第m个尺度下的特征，融合所述第k个尺度下的初步融合特征和所述第k+1个尺度下的融合特征，得到所述第k个尺度下的融合特征。

在图像超分辨率装置200的一种实现方式中，所述利用所述掩膜图像在第m个尺度下的特征，融合所述第k个尺度下的初步融合特征和所述第k+1个尺度下的融合特征，得到所述第k个尺度下的融合特征，包括：利用所述掩膜图像在第m个尺度下的特征对所述第k个尺度下的初步融合特征进行加权计算，得到第k个尺度下的加权特征；将所述第k个尺度下的加权特征与和所述第k+1个尺度下的融合特征相加，得到所述第k个尺度下的融合特征。

在图像超分辨率装置200的一种实现方式中，所述分别提取所述标准图像和所述配准长焦图像的特征，基于所述掩膜图像融合提取到的特征，并根据融合后的特征计算所述超分辨图像，包括：分别提取所述配准长焦图像和所述掩膜图像在第1至第m个尺度下的特征，以及提取所述标准图像在第m个尺度下的特征，m为正整数；k从m递减至1，执行以下操作：利用所述掩膜图像在第k个尺度下的特征，融合所述配准长焦图像在第k个尺度下的特征和第k+1个尺度下的融合特征，得到第k个尺度下的融合特征；其中，第m+1个尺度下的融合特征为所述标准图像在第m个尺度下的特征；根据第1个尺度的融合特征计算所述超分辨图像。

在图像超分辨率装置200的一种实现方式中，所述装置还包括：

样本获取单元，用于获取训练样本，所述训练样本包括：第一训练标准图像、第二训练标准图像、训练长焦图像和训练掩膜图像；其中，所述第二训练标准图像为所述第一训练标准图像下采样后得到的图像，所述第二训练标准图像、所述训练长焦图像和所述训练掩膜图像依次对应所述标准图像、所述配准长焦图像和所述掩膜图像；

模型训练单元，用于利用所述训练样本训练所述神经网络模型，训练所用的损失函数包括：第一损失项，表征所述第二训练标准图像和其对应的训练超分辨率图像的低频成分差异；其中，所述训练超分辨率图像为将所述第二训练标准图像、所述训练长焦图像和所述训练掩膜图像输入所述神经网络模型后得到的输出图像；第二损失项，表征在被所述训练掩膜图像加权后，所述训练长焦图像和所述训练超分辨率图像的高频成分差异；第三损失项，表征在被所述训练掩膜图像的互补图像加权后，所述第一训练标准图像和所述训练超分辨率图像的高频成分差异。

在图像超分辨率装置200的一种实现方式中，所述损失函数还包括：第四损失项，表征所述第一训练标准图像和所述训练超分辨率图像的高频成分差异。

本申请实施例提供的图像超分辨率装置200，其实现原理及产生的技术效果在前述方法实施例中已经介绍，为简要描述，装置实施例部分未提及之处，可参考方法实施例中相应内容。

图7示出了本申请实施例提供的电子设备300的一种可能的结构。参照图7，电子设备300包括：处理器310、存储器320以及通信接口330，这些组件通过通信总线340和/或其他形式的连接机构(未示出)互连并相互通讯。

其中，处理器310包括一个或多个(图中仅示出一个)，其可以是一种集成电路芯片，具有信号的处理能力。上述的处理器310可以是通用处理器，包括中央处理器(CentralProcessing Unit，简称CPU)、微控制单元(Micro Controller Unit，简称MCU)、网络处理器(Network Processor，简称NP)或者其他常规处理器；还可以是专用处理器，包括神经网络处理器(Neural-network Processing Unit，简称NPU)、图形处理器(Graphics ProcessingUnit，简称GPU)、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific Integrated Circuits，简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。并且，在处理器310为多个时，其中的一部分可以是通用处理器，另一部分可以是专用处理器。

存储器320包括一个或多个(图中仅示出一个)，其可以是，但不限于，随机存取存储器(Random Access Memory，简称RAM)，只读存储器(Read Only Memory，简称ROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，电可擦除可编程只读存储器(Electric Erasable Programmable Read-Only Memory，简称EEPROM)等。

处理器310以及其他可能的组件可对存储器320进行访问，读和/或写其中的数据。特别地，在存储器320中可以存储一个或多个计算机程序指令，处理器310可以读取并运行这些计算机程序指令，以实现本申请实施例提供的图像超分辨率方法。

通信接口330包括一个或多个(图中仅示出一个)，可以用于和其他设备进行直接或间接地通信，以便进行数据的交互。通信接口330可以包括进行有线和/或无线通信的接口。

可以理解，图7所示的结构仅为示意，电子设备300还可以包括比图7中所示更多或者更少的组件，或者具有与图7所示不同的配置。例如，若电子设备300无需与其他设备通信，则电子设备300可以不设置通信接口330。又例如，电子设备300还可以包括一个或多个摄像头，用于采集图像超分辨率方法所需的标准图像和长焦图像。

图7中所示的各组件可以采用硬件、软件或其组合实现。电子设备300可能是实体设备，例如手机、PC机、平板电脑、笔记本电脑、相机、服务器、可穿戴设备、机器人等，也可能是虚拟设备，例如虚拟机、虚拟化容器等。并且，电子设备300也不限于单台设备，也可以是多台设备的组合或者大量设备构成的集群。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序指令，这些计算机程序指令被处理器读取并运行时，执行本申请实施例提供的图像超分辨率方法。例如，计算机可读存储介质可以实现为图7中电子设备300中的存储器320。

本申请实施例还提供一种计算机程序产品，该计算机程序产品包括计算机程序指令，这些计算机程序指令被处理器读取并运行时，执行本申请实施例提供的图像超分辨率方法。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像超分辨率方法，其特征在于，包括：

获取针对同一场景采集的长焦图像和标准图像，所述长焦图像和所述标准图像的采集时间间隔小于时间间隔阈值；

将所述长焦图像向所述标准图像配准，得到配准长焦图像；

根据所述配准长焦图像和所述标准图像计算掩膜图像，所述掩膜图像中的每个像素的像素值表征所述标准图像和所述配准长焦图像在对应像素处的相似度；

将所述标准图像、所述配准长焦图像和所述掩膜图像输入神经网络模型，得到所述标准图像对应的超分辨图像；其中，所述神经网络模型内部执行以下操作：分别提取所述标准图像和所述配准长焦图像的特征，基于所述掩膜图像融合提取到的特征，并根据融合后的特征计算所述超分辨图像。

2.根据权利要求1所述的图像超分辨率方法，其特征在于，所述根据所述配准长焦图像和所述标准图像计算掩膜图像，包括：

针对所述配准长焦图像中的每个像素执行以下操作：

确定所述配准长焦图像中该像素的第一邻域和所述标准图像中该像素的对应像素的第二邻域，所述第一邻域和所述第二邻域尺寸相同；

计算所述第一邻域和所述第二邻域的结构相似性SSIM响应值；

根据所述SSIM响应值确定所述掩膜图像中该像素的对应像素的像素值。

3.根据权利要求1所述的图像超分辨率方法，其特征在于，所述分别提取所述标准图像和所述配准长焦图像的特征，基于所述掩膜图像融合提取到的特征，并根据融合后的特征计算所述超分辨图像，包括：

提取所述配准长焦图像在第1至第m个尺度下的特征，以及分别提取所述标准图像和所述掩膜图像在第m个尺度下的特征，m为正整数；

k从m递减至1，执行以下操作：利用所述掩膜图像在第m个尺度下的特征，融合所述配准长焦图像在第k个尺度下的特征和第k+1个尺度下的融合特征，得到第k个尺度下的融合特征；其中，第m+1个尺度下的融合特征为所述标准图像在第m个尺度下的特征；

根据第1个尺度下的融合特征计算所述超分辨图像。

4.根据权利要求3所述的图像超分辨率方法，其特征在于，所述利用所述掩膜图像在第m个尺度下的特征，融合所述配准长焦图像在第k个尺度下的特征和第k+1个尺度下的融合特征，得到第k个尺度下的融合特征，包括：

直接融合所述配准长焦图像在第k个尺度下的特征以及第k+1个尺度下的融合特征，得到第k个尺度下的初步融合特征；

利用所述掩膜图像在第m个尺度下的特征，融合所述第k个尺度下的初步融合特征和所述第k+1个尺度下的融合特征，得到所述第k个尺度下的融合特征。

5.根据权利要求4所述的图像超分辨率方法，其特征在于，所述利用所述掩膜图像在第m个尺度下的特征，融合所述第k个尺度下的初步融合特征和所述第k+1个尺度下的融合特征，得到所述第k个尺度下的融合特征，包括：

利用所述掩膜图像在第m个尺度下的特征对所述第k个尺度下的初步融合特征进行加权计算，得到第k个尺度下的加权特征；

将所述第k个尺度下的加权特征与和所述第k+1个尺度下的融合特征相加，得到所述第k个尺度下的融合特征。

6.根据权利要求1所述的图像超分辨率方法，其特征在于，所述分别提取所述标准图像和所述配准长焦图像的特征，基于所述掩膜图像融合提取到的特征，并根据融合后的特征计算所述超分辨图像，包括：

分别提取所述配准长焦图像和所述掩膜图像在第1至第m个尺度下的特征，以及提取所述标准图像在第m个尺度下的特征，m为正整数；

k从m递减至1，执行以下操作：利用所述掩膜图像在第k个尺度下的特征，融合所述配准长焦图像在第k个尺度下的特征和第k+1个尺度下的融合特征，得到第k个尺度下的融合特征；其中，第m+1个尺度下的融合特征为所述标准图像在第m个尺度下的特征；

根据第1个尺度的融合特征计算所述超分辨图像。

7.根据权利要求1-6中任一项所述的图像超分辨率方法，其特征在于，所述方法还包括：

获取训练样本，所述训练样本包括：第一训练标准图像、第二训练标准图像、训练长焦图像和训练掩膜图像；其中，所述第二训练标准图像为所述第一训练标准图像下采样后得到的图像，所述第二训练标准图像、所述训练长焦图像和所述训练掩膜图像依次对应所述标准图像、所述配准长焦图像和所述掩膜图像；

利用所述训练样本训练所述神经网络模型，训练所用的损失函数包括：

第一损失项，表征所述第二训练标准图像和其对应的训练超分辨率图像的低频成分差异；其中，所述训练超分辨率图像为将所述第二训练标准图像、所述训练长焦图像和所述训练掩膜图像输入所述神经网络模型后得到的输出图像；

第二损失项，表征在被所述训练掩膜图像加权后，所述训练长焦图像和所述训练超分辨率图像的高频成分差异；

第三损失项，表征在被所述训练掩膜图像的互补图像加权后，所述第一训练标准图像和所述训练超分辨率图像的高频成分差异。

8.一种计算机程序产品，其特征在于，包括计算机程序指令，所述计算机程序指令被处理器读取并运行时，执行如权利要求1-7中任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器读取并运行时，执行如权利要求1-7中任一项所述的方法。

10.一种电子设备，其特征在于，包括存储器以及处理器，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器读取并运行时，执行权利要求1-7中任一项所述的方法。