CN111340711B

CN111340711B - 一种超分辨率重建方法、装置、设备和存储介质

Info

Publication number: CN111340711B
Application number: CN202010435082.8A
Authority: CN
Inventors: 王茹; 李雅卿; 涂承杰; 熊诗尧; 江林燕; 彭龙涛
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2020-09-08
Anticipated expiration: 2040-05-21
Also published as: WO2021233008A1; JP7417747B2; CN111340711A; US20220261960A1; JP2023508512A

Abstract

本申请实施例公开了一种基于人工智能的超分辨率重建方法、装置、设备和存储介质，当需要对某个视频文件进行超分辨率重建时，获取第一分辨率的待处理视频帧序列，待处理视频帧序列即该视频文件的视频帧序列。针对待处理视频帧序列中每帧待处理视频帧，根据分辨率重建模型对待处理视频帧进行分辨率重建，得到第二分辨率的初始重建视频帧；第二分辨率高于第一分辨率。通过残差分离方式确定初始重建视频帧中的轮廓区域，对轮廓区域进行轮廓增强处理，得到目标重建视频帧，使得高频细节更加清晰，得到符合线上实际应用场景的画质最优结果，这样，根据目标重建视频帧生成第二分辨率的重建视频帧序列，可以为用户提供更加干净清晰、自然舒适的视频体验。

Description

一种超分辨率重建方法、装置、设备和存储介质

技术领域

本申请涉及图像处理领域，特别是涉及一种基于人工智能的超分辨率重建方法、装置、设备和存储介质。

背景技术

图像超分辨率是指对通过一幅或者多幅信息互补的低分辨率图像进行处理，重构出一幅高分辨率图像的技术，被广泛的应用在各种需要提升媒体数据（例如视频或图像）质量的领域，例如线上视频观看、医学影像、视频监控、遥感成像等领域。

相关技术中提出了基于深度学习的超分率重建方法，但是相关技术中的超分辨重建方法泛化效果差，面对线上的真实场景，得到的结果未必是画质最优的结果，往往不能取得令人满意的超分效果。

发明内容

为了解决上述技术问题，本申请提供了一种基于人工智能的超分辨率重建方法、装置、设备和存储介质，通过对模型输出的初始重建视频帧进行后处理，可以得到符合线上实际应用场景的画质最优结果，泛化效果更好，有利于提高用户的视频体验。

本申请实施例公开了如下技术方案：

一方面，本申请实施例提供一种基于人工智能的超分辨率重建方法，所述方法包括：

获取第一分辨率的待处理视频帧序列；

针对所述待处理视频帧序列中的每帧待处理视频帧，根据分辨率重建模型对所述待处理视频帧进行分辨率重建，得到第二分辨率的初始重建视频帧；所述第二分辨率高于所述第一分辨率；

通过残差分离方式确定所述初始重建视频帧中的轮廓区域；

对所述轮廓区域进行轮廓增强处理，得到目标重建视频帧；

根据所述目标重建视频帧生成第二分辨率的重建视频帧序列。

另一方面，本申请实施例提供一种基于人工智能的超分辨率重建装置，所述装置包括获取单元、重建单元、确定单元、处理单元和生成单元：

所述获取单元，用于获取第一分辨率的待处理视频帧序列；

所述重建单元，用于针对所述待处理视频帧序列中的每帧待处理视频帧，根据分辨率重建模型对所述待处理视频帧进行分辨率重建，得到第二分辨率的初始重建视频帧；所述第二分辨率高于所述第一分辨率；

所述确定单元，用于通过残差分离方式确定所述初始重建视频帧中的轮廓区域；

所述处理单元，用于对所述轮廓区域进行轮廓增强处理，得到目标重建视频帧；

所述生成单元，用于根据所述目标重建视频帧生成第二分辨率的重建视频帧序列。

另一方面，本申请实施例提供一种设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行前述任一项所述的超分辨率重建方法。

另一方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行前述任一项所述的超分辨率重建方法。

由上述技术方案可以看出，当需要对某个视频文件进行超分辨率重建时，获取第一分辨率的待处理视频帧序列，该待处理视频帧序列即该视频文件的视频帧序列。针对待处理视频帧序列中的每帧待处理视频帧，根据分辨率重建模型对待处理视频帧进行分辨率重建，得到第二分辨率的初始重建视频帧；第二分辨率高于第一分辨率。此时，虽然可以实现超分辨重建，但是得到的初始重建视频帧未必是该应用场景下画质最优的结果，因此，可以对得到的初始重建视频帧进行后处理，即通过残差分离方式确定初始重建视频帧中的轮廓区域，对轮廓区域进行轮廓增强处理，得到目标重建视频帧。通过对初始重建视频帧进行精细的轮廓增强处理，使得高频细节更加清晰，以得到符合线上实际应用场景的画质最优结果，这样，根据目标重建视频帧生成第二分辨率的重建视频帧序列，可以为用户提供更加干净清晰、自然舒适的视频体验。可见，通过对模型输出的初始重建视频帧进行后处理，可以得到符合线上实际应用场景的画质最优结果，泛化效果更好，有利于提高用户的视频体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于人工智能的超分辨率重建方法的应用场景示意图；

图2为本申请实施例提供的一种基于人工智能的超分辨率重建方法的流程图；

图3为本申请实施例提供的通过残差分离的方式确定高频掩膜和低频掩膜的流程图；

图4为本申请实施例提供的不同超分辨率重建方法的效果对比图；

图5为本申请实施例提供的一种分辨率重建模型的网络结构示意图；

图6为本申请实施例提供的一种基于人工智能的分辨率重建模型训练方法的流程图；

图7为本申请实施例提供的构造低分辨率样本集和高分辨率样本集的流程图；

图8为本申请实施例提供的第三图像、目标算子图以及剔除的目标标签图的示意图；

图9为本申请实施例提供的一种基于人工智能的超分辨率重建方法的流程图；

图10为本申请实施例提供的一种基于人工智能的超分辨率重建装置的结构图；

图11为本申请实施例提供的一种终端设备的结构图；

图12为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

相关技术在进行超分辨重建时，往往采用简单的端到端映射的处理方式，即低分辨率图像经过模型处理直接得到超分辨率重建结果，但是该方式面对线上的真实场景，泛化效果差，在一些场景中往往不能取得令人满意的超分效果。

为此，本申请实施例提供一种基于人工智能的超分辨率重建方法，在基于分辨率重建模型得到初始重建视频帧后，可以对初始重建视频帧进行后处理，使得初始重建视频帧中的高频细节更加清晰，以得到符合线上实际应用场景的画质最优结果即目标重建视频帧，这样，根据目标重建视频帧生成第二分辨率的重建视频帧序列，可以为用户提供更加干净清晰、自然舒适的视频体验。

本申请实施例所提供的方法涉及到云技术领域，例如涉及大数据（Big data），大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临，大数据也吸引了越来越多的关注，大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。例如获取线上待处理视频帧序列、挖掘线上真实高清视频作为原始视频样本，以用于训练分辨率重建模型。

例如涉及所谓人工智能云服务，一般也被称作是AIaaS（AI as a Service，中文为“AI即服务”）。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。

人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，可以涉及的人工智能技术包括计算机视觉（图像）和机器学习等方向。计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。

例如，本申请实施例可以通过计算机视觉技术中的视频处理（video processing)技术对原始视频样本进行降采样处理、视频压缩处理、轮廓增强处理等；通过图像语义理解（Image Semantic Understanding，ISU）中的图像分割(Image segmention)技术对图像进行分割；在分辨率重建训练过程中，通过图像语义理解中的图像特征提取（Image featureextraction）技术可以进行特征提取等。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习通常包括深度学习（Deep Learning）等技术，深度学习包括人工神经网络（artificial neuralnetwork），例如卷积神经网络(Convolutional Neural Network，CNN)、循环神经网络（Recurrent Neural Network，RNN）、深度神经网络（Deep neural network，DNN）等。

在本实施例中，可以利用机器学习训练分辨率重建模型，以利用分辨率重建模型对待处理视频帧序列进行分辨率重建。

本申请实施例提供的方法可以应用到本发明可以应用到各类需要提升视频分辨率、清晰度的应用场景里，为用户提供更好的观看体验。例如，当用户通过各类长视频应用程序（Application，APP）观看视频时，根据需求可作为超高清/蓝光/4K档，或作为老视频翻新的一种技术手段；也可在各类短视频APP中用于提升不清晰视频的清晰度；还可用于4K内容资源生产等场景。

为了便于理解本申请的技术方案，下面结合实际应用场景对本申请实施例提供的基于人工智能的超分辨率重建方法进行介绍。

参见图1，图1为本申请实施例提供的超分辨率重建方法的应用场景示意图。该应用场景中包括终端设备101和服务器102，终端设备101上可以安装视频APP，当终端设备101获取到视频文件时，可以利用该方法训练得到的分辨率重建模型对该视频文件进行超分辨率重建，进而得到更加清晰的视频。

网络上存在大量的视频文件，这些视频文件可以是各种类型的视频文件，例如游戏视频、动画视频、对真实人物拍摄的影视内容等视频文件。当用户通过终端设备101上某视频APP观看视频时，为了提高服务器102向终端设备101传输视频文件的速度、缓解网络传输压力等，服务器102向终端设备101提供的视频文件的分辨率可能比较低、视频不清晰，终端设备102在接收到视频文件后，可以将视频文件进行超分辨率重建，提升视频分辨率、清晰度，以便用户观看。又如，若希望生产4K内容资源，也可以由服务器102或终端设备101对低分辨率视频文件进行超分辨率重建，等等。

其中，终端设备101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端设备101以及服务器102可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在本实施例中，本申请实施例提供的超分辨率重建方法可以应用于终端设备101，终端设备101可以是具有图形处理器（Graphics Processing Unit，GPU）的设备。当然，在一些场景下，上述方法还可能应用于服务器102，本申请实施例对此不做限定。

终端设备101可以获取第一分辨率的待处理视频帧序列，该待处理视频帧序列可以是在终端设备101上播放的、需要进行超分辨率重建的视频文件的视频帧序列。

针对待处理视频帧序列中的每帧待处理视频帧，终端设备101根据分辨率重建模型对待处理视频帧进行分辨率重建，得到第二分辨率的初始重建视频帧；第二分辨率高于第一分辨率。

此时，虽然可以实现超分辨重建，但是得到的初始重建视频帧未必是该应用场景下画质最优的结果，因此，可以继续对得到的初始重建视频帧进行后处理，即终端设备101通过残差分离方式确定初始重建视频帧中的轮廓区域，对轮廓区域进行轮廓增强处理，得到目标重建视频帧。通过对初始重建视频帧进行精细的轮廓增强处理，使得高频细节更加清晰，以得到符合线上实际应用场景的画质最优结果即目标重建视频帧，这样，根据目标重建视频帧生成第二分辨率的重建视频帧序列，可以为用户提供更加干净清晰、自然舒适的视频体验。

接下来，将以终端设备为例，结合附图对本申请实施例提供的基于人工智能的超分辨率重建方法进行介绍。

参见图2，图2示出了一种基于人工智能的超分辨率重建方法的流程图，所述方法包括：

S201、获取第一分辨率的待处理视频帧序列。

待处理视频帧序列为在终端设备上播放的、需要进行超分辨率重建的视频文件的视频帧序列，例如可以是终端设备从服务器获取的不清晰视频的视频帧序列。

在本实施例中，对视频文件进行超分辨率重建的时机可以有所不同，一种可以是只要接收到视频文件便直接对视频文件进行超分辨率重建；另一种是响应于分辨率切换指令进行超分辨率重建，例如当用户发现当前分辨率较低，视频不够清晰时，触发分辨率切换指令。在第二种情况下，获取第一分辨率的待处理视频帧序列的方式可以是：获取视频播放指令，该视频播放指令指示需要播放某一视频文件，根据视频播放指令获取视频文件并播放。在视频文件播放过程中，若用户发现视频文件的分辨率较低，视频不是很清晰，可以选择切换分辨率即触发分辨率切换指令，当检测到针对视频文件的分辨率切换指令时，获取视频文件的视频帧序列作为第一分辨率的待处理视频帧序列。

S202、针对所述待处理视频帧序列中的每帧待处理视频帧，根据分辨率重建模型对所述待处理视频帧进行分辨率重建，得到第二分辨率的初始重建视频帧。

终端设备获取到待处理视频帧序列后，可以将待处理视频帧序列中每帧待处理视频帧作为低分辨率（Low Resolution，LR）图像，输入至分辨率重建模型，通过分辨率重建模型对每帧待处理视频帧进行分辨率重建得到第二分辨率的初始重建视频帧，即得到超分辨率（Super Resolution，SR）图像。其中，第二分辨率高于第一分辨率，也就是说，通过分辨率重建模型可以提升视频文件中每帧待处理视频帧的分辨率。

S203、通过残差分离方式确定所述初始重建视频帧中的轮廓区域。

通过上述分辨率重建模型进行超分辨率重建可以提高待处理视频帧的分辨率，但是得到的初始重建视频帧未必是该应用场景下画质最优的结果，因此，可以对得到的初始重建视频帧进行后处理。

在本实施例中，初始重建视频帧中一般包括反映纹理细节的高频细节区域即轮廓区域，为了面对线上复杂的应用场景，可以在通过分辨率重建模型得到初始重建视频帧后，精细化调整轮廓增强程度，从而保证任一应用场景下画质输出最优。

另外，初始重建视频帧中还可能包括一些集中平坦、缺乏纹理细节的平坦区域，平坦区域可能存在一些噪声，为了对使得画质输出最优，还可以通过残差分离方式确定初始重建视频帧中的平坦区域，以便对轮廓区域进行轮廓增强处理时，对平坦区域进行去噪处理，得到目标重建视频帧。

在一些可能的实施例中，确定轮廓区域和平坦区域的方式可以是针对待处理视频帧序列中的每帧待处理视频帧，通过双三次插值得到双三次插值放大结果，根据待处理视频帧对应的初始重建视频帧和双三次插值放大结果进行残差分离，得到高频掩膜和低频掩膜。通过残差分离的方式确定高频掩膜和低频掩膜的流程图例如图3所示，根据LR图像通过分辨率重建模型生成SR图像，并根据LR图像利用双三次插值（Bicubic）方法生成双三次插值（Bicubic）放大结果，生成SR图像与双三次插值放大结果的残差图（混合残差），该残差图可以是将SR图像与双三次插值放大结果相减得到，以及生成双三次插值放大结果与经过一个高斯低通滤波结果（高斯模糊标准差

，半径

）的残差图（高通残差），该残差图可以是通过双三次插值放大结果与高斯低通滤波结果相减得到。将两个残差（混合残差和高通残差）进行相乘，相乘结果大于0的值赋为1，小于0的值赋为0，即可得到一个高频掩膜（

）。将相乘结果小于0的值赋为1，大于0的值赋为0，即可得到一个低频掩膜（

）。将

和

作为判断SR图像中轮廓区域与平坦区域所在位置的依据。

然后，根据初始重建视频帧、双三次插值放大结果和高频掩膜确定轮廓区域，如公式（1）所示；还可以根据初始重建视频帧、双三次插值放大结果和低频掩膜确定平坦区域，如公式（2）所示：

（1）

（2）

其中，

为轮廓区域，

为SR图像（初始重建视频帧），

为双三次插值放大结果，

为平坦区域，

为高频掩膜，

为低频掩膜，“

”表示点乘运算。

S204、对所述轮廓区域进行轮廓增强处理，得到目标重建视频帧。

在一些实施例中，对轮廓区域进行轮廓增强处理得到目标重建视频帧的方式可以是，对轮廓区域进行轮廓增强处理，并对平坦区域进行去噪处理，得到目标重建视频帧。其中，对轮廓区域进行轮廓增强处理可以是利用轮廓增强系数对轮廓区域进行调整，对平坦区域进行去噪处理可以是利用去噪系数对平坦区域进行处理。

轮廓增强系数可以根据应用场景进行选择，不同应用场景对轮廓增强程度的要求不同，使用的轮廓增强系数也有所不同。在动画视频或游戏视频的场景中，视频中线条简单，因此，轮廓增强程度可以大一些，则轮廓增强系数可以取大于1的数值，例如取大于1且小于等于2的数值。而在由真实人物拍摄的影视视频场景中，视频中的人物如果轮廓增强程度比较大，则会使得观看视频的用户觉得人物比较突兀，画面不协调，观看体验较差，因此，在这种场景下轮廓增强程度应该比较小，轮廓增强系数甚至可以取小于1的数值，例如取大于等于0且小于等于1的数值。

在一些实施例中，还可以确定出初始重建视频帧中的平坦区域，为了进一步提升视频的分辨率、清晰度，提升用户观看视频的体验，还可以对初始重建视频帧中的低频平坦区域进行去噪，同理，去噪程度也可以根据应用场景确定。那么，在通过轮廓增强系数对轮廓区域进行调整的同时，也可以通过噪声系数对平坦区域进行调整。去噪系数也可以根据不同的应用场景选择合适的取值。

在确定出轮廓区域与平坦区域后，可以取轮廓增强系数为

，去噪系数

，

，

，根据具体应用场景选择

和

的具体数值，以对SR图像进行轮廓增强和去噪强度的调整，得到的目标重建视频帧Y可以表示为：

（3）

其中，

表示LR图像，

为轮廓区域，

为平坦区域，

表示双三次插值放大结果。

本申请实施例在通过分辨率重建模型得到初始重建视频帧后，细化调整轮廓增强程度，以面对线上复杂的应用场景，保证任一应用场景下画质输出最优，增强普适性。

图4展示了不同超分辨率重建方法的效果对比图，其中，左图为双三次插值放大结果，右图为本申请实施例提供的超分辨率重建方法得到的目标重建视频帧，可以看出右图比左图更加干净清晰，观看起来更加自然舒适。

S205、根据所述目标重建视频帧生成第二分辨率的重建视频帧序列。

将目标重建视频帧按照对应的待处理视频帧在待处理视频帧序列的顺序，生成重建视频帧序列，以便按照重建视频帧序列进行播放，即每播放一帧视频帧时，将会从重建视频帧序列中确定出一个目标重建视频帧来进行播放。

因此，在生成重建视频帧序列后，可以确定当前播放视频帧的下一视频帧，在重建视频帧序列中确定下一视频帧对应的目标重建视频帧，当播放下一视频帧时，切换至下一视频帧对应的目标重建视频帧，播放重建视频帧序列中的目标重建视频帧。

例如当前播放视频帧为第10帧视频帧，那么，下一视频帧即第11帧视频帧，当播放到第11帧视频帧时，切换到第11帧视频帧对应的目标重建视频帧进行播放。

由上述技术方案可以看出，当需要对某个视频文件进行超分辨率重建时，获取第一分辨率的待处理视频帧序列，该待处理视频帧序列即该视频文件的视频帧序列。针对待处理视频帧序列中的每帧待处理视频帧，根据分辨率重建模型对待处理视频帧进行分辨率重建，得到第二分辨率的初始重建视频帧；第二分辨率高于第一分辨率。此时，虽然可以实现超分辨率重建，但是得到的初始重建视频帧未必是该应用场景下画质最优的结果，因此，可以对得到的初始重建视频帧进行后处理，即通过残差分离方式确定初始重建视频帧中的轮廓区域，对轮廓区域进行轮廓增强处理，得到目标重建视频帧。通过对初始重建视频帧进行精细的轮廓增强处理，使得高频细节更加清晰，以得到符合线上实际应用场景的画质最优结果，这样，根据目标重建视频帧生成第二分辨率的重建视频帧序列，可以为用户提供更加干净清晰、自然舒适的视频体验。可见，通过对模型输出的初始重建视频帧进行后处理，可以得到符合线上实际应用场景的画质最优结果，泛化效果更好，有利于提高用户的视频体验。

在本实施例中，分辨率重建模型的模型类型和拓扑结构可以包括多种，可以是各种可以实现分辨率重建的神经网络模型。在一些可能的实施例中，可以利用增强深度超分辨率网络(enhanced deep super-resolution network，EDSR)对残差网络（ResidualNetwork，ResNet）的改进结构作为分辨率重建模型的主体结构（backbone），并结合深度递归卷积网络（deeply-recursive convolutional network，DRCN）使网络各级特征都参与到最后的分辨率重建。

以针对二倍超分建立分辨率重建模型为例，分辨率重建模型可以采用图5所示的网络结构。分辨率重建模型具体参数如下：分辨率重建模型输入为红绿蓝（Red-Green-Blue，RGB）三通道图。第一层卷积网络输入通道数为3，输出特征通道数为32，卷积核大小为

，卷积步幅为1。然后，与一个修正线性单元（Rectified Linear Unit，ReLU）层连接。网络主体结构（backbone）由5个残差块（ResBlock）构成，如图5中501所示，每个ResBlock由两个卷积网络层与一个修正线性单元（Rectified Linear Unit，ReLU）层构成，输入和输出构成残差连接（如图5中502所示），其中，x₁表示ResBlock的输入，x₁+1表示ResBlock中残差连接后的输出，所有ResBlock的卷积网络层参数设置相同，输入、输出特征通道数均取32，卷积核大小为

，卷积步幅为1。

然后接一个拼接层（concat），将5个ResBlock的输出进行拼接，得到

维的特征，通过一个卷积核大小为

的卷积层进行特征融合，输出特征通道数为32。

再对得到的特征图进行一次卷积，卷积网络输入通道数为32，输出特征通道数为12，卷积核大小为

，卷积步幅为1。然后接上采样（subpixel）层对特征图进行上采样，得到超分放大两倍的结果输出，即输出初始重建视频帧。

其中，subpixel层的个数与超分放大的倍数有关，若放大两倍，则如图5所示接一个subpixel层。若放大四倍，则接两个subpixel层。若放大八倍，则接三个subpixel层，以此类推。

基于图5所示的分辨率重建模型的网络结构，S202中得到第二分辨率的初始重建视频帧的方式可以是通过分辨率重建模型对待处理视频帧进行至少两次残差提取，得到各残差提取结果，基于各残差提取结果对待处理视频帧进行分辨率重建，得到第二分辨率的初始重建视频帧。

在一些实施例中，得到各残差提取结果的方式可以是通过分辨率重建模型中的卷积层对待处理视频帧进行卷积处理，得到待处理视频帧对应卷积处理结果，基于卷积处理结果依次通过网络主体结构中各残差块（例如图5中残差块）进行残差提取，得到各残差块的残差提取结果，各残差块级联。

图5所示的网络结构中在5个残差块级联后，连接拼接层和卷积层，故可以通过拼接层将所述各残差提取结果进行拼接，得到残差拼接特征，再将残差拼接特征进行特征融合得到融合特征图。进而对融合特征图进行上采样处理，得到第二分辨率的初始重建视频帧，其中，初始重建视频帧与所述待处理视频帧对应。

本申请实施例不具体限定分辨率重建模型的模型类型和拓扑结构，可以替换为其他有效的新型模型结构，例如，网络主体结构可以由ResNet残差结构换为密集卷积网络（DenseNet）连接的结构。可以根据对分辨率重建模型表达能力的要求和所拥有的计算资源条件对分辨率重建模型的网络结构进行改变，拓展或是简化。

本申请实施例采用较轻量级网络实现模型计算，在t4 GPU上处理分辨率为

的视频，能够达到4卡60fps实时的处理速度（4卡60fps实时的处理速度即通过四张包括t4 GPU的显卡并行处理可以达到60fps实时的处理速度），可以实现实时超分辨率重建。

本申请实施例利用分辨率重建模型待处理视频帧进行分辨率重建，得到初始重建视频帧，分辨率重建模型的重建效果对于最终得到的目标重建视频帧的画面效果有着重要影响。接下来，将对分辨率重建模型的训练方法进行详细介绍。

相关技术中，在对分辨率重建模型进行训练过程中，使用的退化方式过于简单，与真实高分辨率（High Resolution，HR）图像到LR图像的退化场景相去甚远，在这样的训练数据集上训练分辨率重建模型，得到的分辨率重建模型泛化效果差。

在模拟退化时，考虑到实际应用场景中除了降采样，还有图像模糊、视频编码会带来压缩噪声等，同时由于降采样和图像模糊的发生顺序难以确认，为方便训练数据集的构造，将在生成低分辨率样本集过程中的图像模糊，通过对高清视频进行轮廓增强来模拟这种退化，从而构造包括低分辨率样本集和高分辨率样本集的训练数据集，以训练分辨率重建模型。参见图6，所述方法中训练分辨率重建模型的步骤包括：

S601、对采集到的原始视频样本进行降采样处理和视频压缩处理，得到目标视频样本。

网络上存在大量的高分辨率视频，可以用这些高分辨率视频作为构造训练数据集的依据。终端设备可以采集网络上的大量高分辨率视频（例如分辨率高于预设阈值）作为原始视频样本，这些高分辨率视频可以是各种类型的视频，例如游戏视频、动画视频、对真实人物拍摄的影视内容等。例如，原始视频样本可以为在视频观看场景中常见的高清视频等。

考虑到线上实际应用场景，采取更接近线上真实情况的方式来模拟高分辨视频图像到低分辨视频图像的退化模型，在本实施例中，采用的退化模型可以表示为：

，或

（4）

其中，X表示高分辨率图像，Y表示低分辨率图像，

表示降采样处理，

表示图像模糊，

表示噪声。

降采样处理的方式有很多种，在一些实施例中可以采用双三次插值的方式对原始视频样本进行降采样处理。考虑到视频编码过程总会导致压缩失真，带来伪影、块效应、轮廓边缘毛刺等压缩噪声，本实施例中选择对原始视频样本进行视频压缩处理来模拟退化中的噪声模型。

在对原始视频样本进行视频压缩处理时，通常会使用固定码率系数（ConstantRate Factor，CRF）实现视频压缩处理，使用不同的CRF实现视频压缩处理会得到不同的视频压缩结果。基于此，在本实施例中，可以在预设范围内选取多种不同的固定码率系数，采用多种不同的CRF对原始视频样本进行不同等级的视频压缩处理，从而得到多种分辨率的目标视频样本，实现训练数据集的增广。其中，CRF可以随机选取，一般情况下，CRF的预设范围可以为[20，35]。

S602、根据所述目标视频样本确定低分辨率样本集。

在得到目标视频样本后，可以对目标视频样本进行视频抽帧，从目标视频样本中抽取位于预设帧位置的第一图像，从而得到多帧第一图像构成低分辨率样本集。本实施例对预设帧位置不做限定，即对视频抽帧方式不做限定，例如视频抽帧方式可以为对目标视频样本每隔1s抽取一帧，也就是说，预设帧位置为目标视频样本中第1s所对应的视频帧、第2s所对应的视频帧、第3s所对应的视频帧、……第Ns所对应的视频帧，N为目标视频样本的总长度。

以原始视频样本是4K超高清视频为例，构造低分辨率样本集和高分辨率样本集的流程图可以参见图7所示，对4K超高清视频进行双三次插值（S701），再对双三次插值后的结果进行视频压缩处理（S702），得到目标视频样本。接着，对目标视频样本进行视频抽帧（S703），得到LR样本集。

S603、对所述原始视频样本中处于所述预设帧位置的多帧第二图像进行轮廓增强处理，得到高分辨率样本集。

在实际的退化场景中，降采样处理和图像模糊的发生顺序难以确认，如果采用对原始视频样本进行降采样处理、图像模糊和噪声而为低分辨样本增加模糊操作相当于使模型具备一定的轮廓增强的能力，为方便数据集构造，可以去掉低分辨样本制作过程中的模糊处理，通过对高分辨图像进行适当的轮廓增强，来模拟这种退化。

由于通过S601-S603模拟的是高分辨率图像如何退化得到对应的低分辨率图像的，那么，低分辨率样本集中的每个第一图像，在高分辨率样本集中应该有对应的图像，而第一图像是目标视频样本中位于预设帧位置的图像，那么，高分辨率样本集中的图像也应该是根据原始视频样本中预设帧位置的第二图像得到的。故，在本实施例中，可以对原始视频样本中处于预设帧位置的多帧第二图像进行轮廓增强处理，得到高分辨率样本集。也就是说，若对目标视频样本每隔1s抽取一帧，以得到低分辨率样本集，那么，对在得到高分辨率样本集过程中，对原始视频样本也需要每隔1s抽取一帧视频帧，得到多帧第二图像。

其中，轮廓增强处理的方式可以包括多种，在本实施例中可以通过图像处理软件（Adobe Photoshop，PS）智能锐化实现。

继续参考图7，以上述原始视频样本是4K超高清视频为例，对4K超高清视频进行视频抽帧（S704），得到多帧第二图像。对多帧第二图像进行PS智能锐化（S705），得到HR样本集。

S604、根据所述低分辨率样本集和所述高分辨率样本集构造训练数据集。

在本实施例中，利用低分辨率样本集和高分辨率样本集构造训练数据集的方式可以包括多种，一种构造方式可以是直接将低分辨率样本集和高分辨率样本集作为训练数据集，来训练分辨率重建模型。

通常情况下，分辨率重建模型在学习分辨率重建的过程中，主要是学习如何重建高频细节。由于LR样本集和HR样本集中的图像中总是会或多或少的存在纹理细节较少的平坦区域。例如图8中801所示的图像中，包括蓝天、湖面、山、房屋、树、船等，蓝天、湖面等所在区域纹理细节非常少，可以认为是平坦区域。而这些部分对分辨率重建模型的训练没有实际帮助，为了减少这部分对分辨率重建模型训练的干扰，在构造训练数据集时，可以对LR样本集和HR样本集进行一步操作，剔除掉平坦区域，只保留纹理细节丰富的部分用于训练。

基于此，另一种构造方式可以是按照第一尺寸对多帧第三图像分别进行分割，裁剪得到标签图，以及按照第二尺寸对多帧第一图像分别进行分割，裁剪得到输入图像。其中，第一尺寸和第二尺寸可以是分辨率尺寸，第一尺寸可以是第二尺寸的整数倍，第一尺寸与第二尺寸之间的倍数关系，影响着分辨率重建模型在训练过程中对低分辨率图像进行分辨率重建时可以实现几倍的分辨率放大，以及影响分辨率重建模型在使用过程中对待处理视频帧进行分辨率重建时可以实现几倍的分辨率放大，即第二分辨率相对于第一分辨率放大几倍。若第一尺寸是64×64，第二尺寸为32×32，那么，训练得到的分辨率重建模型可以实现二倍超分，即利用分辨率重建模型进行分辨率重建时，初始重建视频帧的第二分辨率相对于输入待处理视频帧序列的第一分辨率放大二倍。

由于每帧第三图像都按照第一尺寸进行分割，故每帧第三图像对应分割得到的多个标签图。针对多帧第三图像中每帧第三图像对应的标签图，从标签图中确定属于第三图像的平坦区域的目标标签图，则剔除该目标标签图。由于对每帧第一图像也进行了分割，而每帧第一图像分别与第三图像对应，二者分割的标签图和输入图像也具有对应关系，因此，还可以剔除与目标标签图对应的输入图像，将余下的标签图和输入图像作为训练数据集。

本实施例对HR样本集和LR样本集中的数据进行筛选，通过剔除平坦区域等缺乏纹理细节的冗余部分来构造训练数据集，使分辨率重建模型能够集中在对高频细节的学习上，保证分辨率重建模型的高效训练。

在一种可能的实现方式中，确定属于第三图像的平坦区域的目标标签图的方式可以是根据第三图像生成对应的初始算子图，初始算子图可以反映每个像素点的像素值，该像素值可以体现像素点为高频细节点的可能性，像素值越大，该像素点越有可能是高频细节点，若像素值足够小，例如小于第一阈值，则可以认为该像素点非高频细节点，因此，可以将初始算子图中像素值小于第一阈值的像素点的像素值重新赋为零，得到目标算子图。按照第一尺寸对目标算子图进行分割，裁剪得到目标算子图的算子子图，每个算子子图与第三图像的标签图一一对应。每个算子子图中包括多个像素点，若算子子图中像素值非零的像素点个数未超过第二阈值，说明该算子子图中属于高频细节的像素点非常少，则可以认为该算子子图对应的标签图为平坦区域，确定该算子子图对应的标签图为目标标签图。

其中，初始算子图的生成方式可以是对第三图像进行高斯模糊处理，例如取标准差

，半径

进行高斯模糊处理，对高斯模糊处理后的图像求初始算子图。初始算子图可以通过多种算法获得，例如通过对高斯模糊处理后的图像取一阶索贝尔（sobel）算子、罗伯茨（Roberts）算子和拉普拉斯（Laplacian）算子等，本实施例对此不做限定。

第一阈值（

）和第二阈值（

）可以根据经验设置，例如

，

。也就是说，将初始算子图内像素值小于

的像素点的像素值重新赋为0，得到目标算子图，若标签图对应的算子子图中像素值非0的像素点个数≤

，则认为该标签图属于整张第三图像的平坦区域，即目标标签图，则丢弃掉该目标标签图和对应的输入图像。

以图8中801所示的图像为第三图像为例，生成的第三图像对应的目标算子图如802所示，802中白色像素点为山、房屋、树、船等高频细节，按照上述方法可以将第三图像分割裁剪成多个标签图、对目标算子图采用相同的方式进行分割裁剪得到与标签图分别对应的算子子图。根据每个算子子图可以确定属于平坦区域的目标标签图，则剔除掉这些目标标签图。剔除掉的目标标签图可以参见803所示，803中每个小图像表示一个目标标签图（例如803中虚线框所标识的图像），被剔除的目标标签图基本上是天空（如803中虚线框所标识的图像）、湖面等对应的图像。

S605、根据所述训练数据集，对所述分辨率重建模型进行训练。

根据训练数据集可以对分辨率重建模型进行训练，分辨率重建模型根据训练数据集中的第一图像或根据第一图像确定的输入图像进行分辨率重建，输出初始重建视频帧，其中，第一图像或输入图像相当于分辨率重建模型使用过程中的待处理视频帧。利用初始重建视频帧与标签图构建损失函数，从而根据损失函数调整分辨率重建模型的参数，直到损失函数值最小。

其中，构建的损失函数可以是

损失函数，即将标签图作为目标值

，将输出的初始重建视频帧作为估计值，目标值

与估计值

的绝对差值的总和

最小化，具体公式如下：

（5）

其中，S为

损失函数，

为目标值，

为估计值，

为输入图像。

虽然本实施例在训练过程中采用的是

损失函数，但是由于训练数据集中的HR图像（第三图像）是通过轮廓增强处理得到的，使得分辨率重建模型具有轮廓增强的能力，使的分辨率重建模型可以输出高频细节更清晰的初始重建视频帧，避免初始重建视频帧趋于平均化、模糊和过度平滑的问题。

训练过程中取批量（batch）为16，初始学习率设置为

，每迭代

次批量训练，学习率对应减半，分辨率重建模型采用自适应矩估计（Adam）优化器，设置Adam优化器的参数

、

、

。采用DIV2K（一种数据集）验证集指导整个训练过程，将整个训练数据集迭代60轮后，分辨率重建模型在验证集上的表现基本停止变化，停止训练并选择在验证集上表现最好的分辨率重建模型为最终的分辨率重建模型。

在构造训练数据集时，将视频编码带来的压缩噪声等考虑在内，使得退化场景更加贴近线上真实场景，提升了分辨率重建模型泛化效果，面对线上的真实超分辨率重建场景，可以取得更好的分辨率重建效果，即得到的初始重建视频帧相对于相关技术效果更好。另外，由于对原始视频样本进行轮廓增强，赋予分辨率重建模型轮廓增强，产生更丰富高频细节的能力。

接下来，将结合实际应用场景对本申请实施例提供的人工智能的超分辨率重建方法进行介绍。该应用场景可以是用户通过视频APP观看视频，为了提高服务端向终端设备传输视频的速度、缓解网络传输压力等，服务端向终端设备提供的视频文件的分辨率可能比较低、视频不清晰，终端设备在接收到视频文件后，可以将视频文件进行超分辨率重建，提升视频文件的分辨率、清晰度，以便用户观看。参见图9，所述方法包括：

S901、用户打开终端设备上的视频APP。

S902、用户搜索某个视频。

S903、终端设备获取并播放该视频的视频文件，该视频文件的视频帧序列作为待处理视频帧序列。

S904、终端设备依次读取待处理视频帧序列中每个待处理视频帧。

S905、终端设备通过分辨率重建模型对读取到的待处理视频帧进行分辨率重建，得到第二分辨率的初始重建视频帧。

S906、通过轮廓增强系数和噪声系数分别对初始重建视频帧中的轮廓区域和平坦区域进行调整，得到目标重建视频帧。

S907、终端设备向用户播放目标重建视频帧。

基于前述图2所对应的实施例，本申请实施例还提供一种基于人工智能的超分辨率重建装置，参见图10，所述装置包括获取单元1001、重建单元1002、确定单元1003、处理单元1004和生成单元1005：

所述获取单元1001，用于获取第一分辨率的待处理视频帧序列；

所述重建单元1002，用于针对所述待处理视频帧序列中的每帧待处理视频帧，根据分辨率重建模型对所述待处理视频帧进行分辨率重建，得到第二分辨率的初始重建视频帧；所述第二分辨率高于所述第一分辨率；

所述确定单元1003，用于通过残差分离方式确定所述初始重建视频帧中的轮廓区域；

所述处理单元1004，用于对所述轮廓区域进行轮廓增强处理，得到目标重建视频帧；

所述生成单元1005，用于根据所述目标重建视频帧生成第二分辨率的重建视频帧序列。

在一种可能的实现方式中，所述确定单元1003，用于通过所述残差分离方式确定所述初始重建视频帧中的轮廓区域和平坦区域；所述处理单元1004，用于对所述轮廓区域进行轮廓增强处理，并对所述平坦区域进行去噪处理，得到目标重建视频帧。

在一种可能的实现方式中，所述确定单元1003，用于针对所述待处理视频帧序列中的每帧待处理视频帧，通过双三次插值得到双三次插值放大结果；

根据所述待处理视频帧对应的所述初始重建视频帧和所述双三次插值放大结果进行残差分离，得到高频掩膜和低频掩膜；

根据所述初始重建视频帧、所述双三次插值放大结果和所述高频掩膜确定所述轮廓区域，以及根据所述初始重建视频帧、所述双三次插值放大结果和所述低频掩膜确定所述平坦区域。

在一种可能的实现方式中，所述获取单元1001，用于：

获取视频播放指令；

根据所述视频播放指令获取视频文件并播放；

当检测到所述视频文件的分辨率切换指令时，获取所述视频文件的视频帧序列作为第一分辨率的待处理视频帧序列。

在一种可能的实现方式中，所述装置还包括播放单元，用于：

确定当前播放视频帧的下一视频帧；

在所述重建视频帧序列中确定所述下一视频帧对应的目标重建视频帧；

当播放下一视频帧时，切换至所述下一视频帧对应的目标重建视频帧，播放所述重建视频帧序列中的目标重建视频帧。

在一种可能的实现方式中，所述装置还包括训练单元，用于：

对采集到的原始视频样本进行降采样处理和视频压缩处理，得到目标视频样本；所述原始视频样本的分辨率高于预设阈值；

根据所述目标视频样本确定低分辨率样本集，所述低分辨率样本集中包括所述目标视频样本中处于预设帧位置的多帧第一图像；

对所述原始视频样本中处于所述预设帧位置的多帧第二图像进行轮廓增强处理，得到高分辨率样本集；所述高分辨率样本集中包括多帧第三图像，所述多帧第三图像为轮廓增强处理后的所述多帧第二图像；

根据所述低分辨率样本集和所述高分辨率样本集构造训练数据集；

根据所述训练数据集，对所述分辨率重建模型进行训练。

在一种可能的实现方式中，所述训练单元，用于：

按照第一尺寸对所述多帧第三图像分别进行分割，得到标签图；以及按照第二尺寸对所述多帧第一图像分别进行分割，得到输入图像；

针对所述多帧第三图像中每帧第三图像对应的标签图，从所述标签图中确定属于所述第三图像的平坦区域的目标标签图；

剔除所述目标标签图以及与所述目标标签图对应的输入图像。

在一种可能的实现方式中，所述训练单元，用于：

根据所述第三图像生成对应的初始算子图；

将所述初始算子图中像素值小于第一阈值的像素点的像素值重新赋为零，得到目标算子图；

按照所述第一尺寸对所述目标算子图进行分割，得到所述目标算子图的算子子图；所述算子子图与所述第三图像的标签图一一对应；

若所述算子子图中像素值非零的像素点个数未超过第二阈值，确定所述算子子图对应的标签图为所述目标标签图。

在一种可能的实现方式中，所述训练单元，用于：

在预设范围内选取多种不同的固定码率系数；

利用所述多种不同的固定码率系数分别对所述原始视频样本进行视频压缩处理，得到多种分辨率的目标视频样本。

在一种可能的实现方式中，所述重建单元1002，用于：

通过所述分辨率重建模型对所述待处理视频帧进行至少两次残差提取，得到各残差提取结果；

基于各残差提取结果对所述待处理视频帧进行分辨率重建，得到第二分辨率的初始重建视频帧。

在一种可能的实现方式中，所述重建单元1002，用于：

通过所述分辨率重建模型中的卷积层对所述待处理视频帧进行卷积处理，得到所述待处理视频帧对应卷积处理结果；

基于所述卷积处理结果依次通过网络主体结构中各残差块进行残差提取，得到所述各残差块的残差提取结果；所述各残差块级联。

在一种可能的实现方式中，所述重建单元1002，用于：

通过拼接层将所述各残差提取结果进行拼接，得到残差拼接特征；

将所述残差拼接特征进行特征融合得到融合特征图；

对融合特征图进行上采样处理，得到第二分辨率的初始重建视频帧；所述初始重建视频帧与所述待处理视频帧对应。

本申请实施例还提供了一种设备，该设备可以基于人工智能的超分辨率重建方法。下面结合附图对该设备进行介绍。请参见图11所示，本申请实施例提供了一种设备，该设备还可以是终端设备，该终端设备可以为包括计算机、平板电脑、手机、个人数字助理（Personal Digital Assistant，简称PDA）、销售终端（Point of Sales，简称POS）、车载电脑等，以终端设备为手机为例：

图11示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图11，手机包括：射频（Radio Frequency，简称RF）电路1110、存储器1120、输入单元1130、显示单元1140、传感器1150、音频电路1160、无线保真（wireless fidelity，简称WiFi）模块1170、处理器1180、以及电源1190等部件。本领域技术人员可以理解，图11中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图11对手机的各个构成部件进行具体的介绍：

RF电路1110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1180处理；另外，将设计上行的数据发送给基站。通常，RF电路1110包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器（Low NoiseAmplifier，简称LNA）、双工器等。此外，RF电路1110还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统（Global System of Mobile communication，简称GSM）、通用分组无线服务（GeneralPacket Radio Service，简称GPRS）、码分多址（Code Division Multiple Access，简称CDMA）、宽带码分多址（Wideband Code Division Multiple Access，简称WCDMA）、长期演进（Long Term Evolution，简称LTE）、电子邮件、短消息服务（Short Messaging Service，简称SMS）等。

存储器1120可用于存储软件程序以及模块，处理器1180通过运行存储在存储器1120的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器1120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1130可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1130可包括触控面板1131以及其他输入设备1132。触控面板1131，也称为触摸屏，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触控面板1131上或在触控面板1131附近的操作），并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1180，并能接收处理器1180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1131。除了触控面板1131，输入单元1130还可以包括其他输入设备1132。具体地，其他输入设备1132可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1140可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1140可包括显示面板1141，可选的，可以采用液晶显示器（LiquidCrystal Display，简称LCD）、有机发光二极管（Organic Light-Emitting Diode，简称OLED）等形式来配置显示面板1141。进一步的，触控面板1131可覆盖显示面板1141，当触控面板1131检测到在其上或附近的触摸操作后，传送给处理器1180以确定触摸事件的类型，随后处理器1180根据触摸事件的类型在显示面板1141上提供相应的视觉输出。虽然在图11中，触控面板1131与显示面板1141是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1131与显示面板1141集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1141的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1141和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上（一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等; 至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1160、扬声器1161，传声器1162可提供用户与手机之间的音频接口。音频电路1160可将接收到的音频数据转换后的电信号，传输到扬声器1161，由扬声器1161转换为声音信号输出；另一方面，传声器1162将收集的声音信号转换为电信号，由音频电路1160接收后转换为音频数据，再将音频数据输出处理器1180处理后，经RF电路1110以发送给比如另一手机，或者将音频数据输出至存储器1120以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图11示出了WiFi模块1170，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1180是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1120内的软件程序和/或模块，以及调用存储在存储器1120内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1180可包括一个或多个处理单元；优选的，处理器1180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1180中。

手机还包括给各个部件供电的电源1190（比如电池），优选的，电源可以通过电源管理系统与处理器1180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本实施例中，该终端设备所包括的处理器1180还具有以下功能：

获取第一分辨率的待处理视频帧序列；

通过残差分离方式确定所述初始重建视频帧中的轮廓区域；

对所述轮廓区域进行轮廓增强处理，得到目标重建视频帧；

本申请实施例还提供服务器，请参见图12所示，图12为本申请实施例提供的服务器1200的结构图，服务器1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（Central Processing Units，简称CPU）1222（例如，一个或一个以上处理器）和存储器1232，一个或一个以上存储应用程序1242或数据1244的存储介质1230（例如一个或一个以上海量存储设备）。其中，存储器1232和存储介质1230可以是短暂存储或持久存储。存储在存储介质1230的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1222可以设置为与存储介质1230通信，在服务器1200上执行存储介质1230中的一系列指令操作。

服务器1200还可以包括一个或一个以上电源1226，一个或一个以上有线或无线网络接口1250，一个或一个以上输入输出接口1258，和/或，一个或一个以上操作系统1241，例如Windows ServerTM，Mac OS XTM，UnixTM, LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图12所示的服务器结构执行。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行前述各个实施例所述的方法。

本申请实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例所述的方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，简称ROM）、随机存取存储器（Random Access Memory，简称RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于人工智能的超分辨率重建方法，其特征在于，所述方法包括：

获取第一分辨率的待处理视频帧序列；

通过残差分离方式确定所述初始重建视频帧中的轮廓区域；通过残差分离方式确定所述初始重建视频帧中的轮廓区域，包括：针对所述待处理视频帧序列中的每帧待处理视频帧，通过双三次插值得到双三次插值放大结果；根据所述初始重建视频帧和所述双三次插值放大结果生成混合残差，以及根据所述双三次插值放大结果和高斯低通滤波结果生成高通残差；根据所述混合残差和所述高通残差得到高频掩膜；根据所述初始重建视频帧、所述双三次插值放大结果和所述高频掩膜确定所述轮廓区域；

对所述轮廓区域进行轮廓增强处理，得到目标重建视频帧；

2.根据权利要求1所述的方法，其特征在于，所述通过残差分离的方式确定所述初始重建视频帧中的轮廓区域，包括：

通过所述残差分离方式确定所述初始重建视频帧中的轮廓区域和平坦区域；

所述对所述轮廓区域进行轮廓增强处理，得到目标重建视频帧，包括：

对所述轮廓区域进行轮廓增强处理，并对所述平坦区域进行去噪处理，得到目标重建视频帧。

3.根据权利要求2所述的方法，其特征在于，所述平坦区域的确定方式为：

根据所述混合残差和所述高通残差得到低频掩膜；

根据所述初始重建视频帧、所述双三次插值放大结果和所述低频掩膜确定所述平坦区域。

4.根据权利要求1所述的方法，其特征在于，所述获取第一分辨率的待处理视频帧序列，包括：

获取视频播放指令；

根据所述视频播放指令获取视频文件并播放；

5.根据权利要求1所述的方法，其特征在于，所述根据所述目标重建视频帧生成第二分辨率的重建视频帧序列之后，还包括：

确定当前播放视频帧的下一视频帧；

6.根据权利要求1所述的方法，其特征在于，所述分辨率重建模型是根据以下步骤训练得到的：

对所述原始视频样本中处于所述预设帧位置的多帧第二图像进行轮廓增强处理，得到高分辨率样本集；所述高分辨率样本集中包括多帧第三图像，所述多帧第三图像是对所述多帧第二图像进行轮廓增强处理后得到的图像；

根据所述训练数据集，对所述分辨率重建模型进行训练。

7.根据权利要求6所述的方法，其特征在于，所述根据所述低分辨率样本集和所述高分辨率样本集构造训练数据集，包括：

8.根据权利要求7所述的方法，其特征在于，所述从所述标签图中确定属于所述第三图像的平坦区域的目标标签图，包括：

根据所述第三图像生成对应的初始算子图；

按照所述第一尺寸对所述目标算子图进行分割，得到所述目标算子图的算子子图；所述算子子图与所述第三图像对应的标签图一一对应；

9.根据权利要求6所述的方法，其特征在于，对采集到的原始视频样本进行视频压缩处理，包括：

在预设范围内选取多种不同的固定码率系数；

10.根据权利要求1所述的方法，其特征在于，所述根据分辨率重建模型对所述待处理视频帧进行分辨率重建，得到第二分辨率的初始重建视频帧，包括：

11.根据权利要求10所述的方法，其特征在于，所述通过所述分辨率重建模型对所述待处理视频帧进行至少两次残差提取，得到各残差提取结果，包括：

12.根据权利要求10所述的方法，其特征在于，所述基于各残差提取结果对所述待处理视频帧进行分辨率重建，得到第二分辨率的初始重建视频帧，包括：

将所述残差拼接特征进行特征融合得到融合特征图；

13.一种基于人工智能的超分辨率重建装置，其特征在于，所述装置包括获取单元、重建单元、确定单元、处理单元和生成单元：

所述获取单元，用于获取第一分辨率的待处理视频帧序列；

所述确定单元，用于通过残差分离方式确定所述初始重建视频帧中的轮廓区域；通过残差分离方式确定所述初始重建视频帧中的轮廓区域，包括：针对所述待处理视频帧序列中的每帧待处理视频帧，通过双三次插值得到双三次插值放大结果；根据所述初始重建视频帧和所述双三次插值放大结果生成混合残差，以及根据所述双三次插值放大结果和高斯低通滤波结果生成高通残差；根据所述混合残差和所述高通残差得到高频掩膜；根据所述初始重建视频帧、所述双三次插值放大结果和所述高频掩膜确定所述轮廓区域；

14.一种基于人工智能的超分辨率重建设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-12任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-12任一项所述的方法。