CN111932594B

CN111932594B - 一种基于光流的十亿像素视频对齐方法及装置、介质

Info

Publication number: CN111932594B
Application number: CN202010991642.8A
Authority: CN
Inventors: 郝梁; 袁潮; 温建伟; 刘烨斌; 周玥眉; 赵月峰
Original assignee: Xi'an Zhuohe Anjian Information Technology Co ltd
Current assignee: Xi'an Zhuohe Anjian Information Technology Co ltd
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2023-12-19
Anticipated expiration: 2040-09-18
Also published as: CN111932594A

Abstract

本文是关于一种基于光流的十亿像素视频对齐方法及装置、介质，涉及十亿像素视频技术。本文公开的基于光流的十亿像素视频对齐方法，包括：确定待处理视频数据中局部图像对应的全局图像区块；将局部图像及对应的全局图像区块输入深度学习网络，得到超分辨率区域图像，其中，深度学习网络用于对输入的图像进行光流估计、光流超分辨以及图像变形处理；将得到的超分辨率区域图像,叠加至对应的全局图像的对应图像区域上，得到超分辨率全局图像；根据超分辨率全局图像生成十亿像素视频。本文利用逐像素引导变形的光流及基于大数据的深度学习网络，实现精细的差分辨率及不同视点的图像之间的对齐，提高了十亿像素视频的对齐质量。

Description

一种基于光流的十亿像素视频对齐方法及装置、介质

技术领域

本文涉及十亿像素视频技术，尤其涉及一种基于光流的十亿像素视频对齐方法及装置、介质。

背景技术

十亿像素视频是计算机视觉领域的重点问题。随着5G通信的到来，信息传播的媒介向着更大容量和更大速度的方向飞速发展，为了满足人们日益增强的对高质量、高清晰度的图像和视频的需求，十亿像素视频的诞生对于大型赛事直播和大型场景安控有不可忽视的积极影响。十亿像素视频系统利用不同焦距的视频采集装置采集到大场景的全局图像和感兴趣区域的高清图像，之后利用算法进行融合，使得人们能够实时地观看超高分辨率的感兴趣区域，为如体育赛事、大型文艺节目以及安防追捕等应用提供了更好的支持。而目前十亿像素视频中的对齐操作，多基于网格状的图像变形进行，但由于特征点提取不足使得图像变形对齐过程较为粗糙，导致十亿像素视频拼接过程中出现接缝处的不连续等瑕疵。

发明内容

为克服相关技术中存在的问题，本文提供一种基于光流的十亿像素视频对齐方法及装置、介质。

根据本文的第一方面，提供一种基于光流的十亿像素视频对齐方法，包括：

确定待处理视频数据中局部图像对应的全局图像区块，所述全局图像区块为局部图像对应的全局图像中，与所述局部图像匹配的图像区域；

将局部图像及对应的全局图像区块输入深度学习网络，得到超分辨率区域图像，其中，所述深度学习网络用于对输入的图像进行光流估计、光流超分辨以及图像变形处理；将得到的超分辨率区域图像,叠加至对应的全局图像的对应图像区域上，得到超分辨率全局图像；

根据所述超分辨率全局图像生成十亿像素视频。

其中，上述方法中，所述确定待处理视频数据中局部图像对应的全局图像区块，包括：

按照不同的比例缩小所述局部图像，并将缩小的局部图像分别与全局图像进行匹配，得到局部图像在不同比例下对应的匹配区域；

将匹配区域中，匹配度达到设定要求的匹配区域确定为所述局部图像对应的全局图像区块。

其中，上述方法，还包括：

在确定待处理视频数据中局部图像对应的全局图像区块之前，获取待处理视频数据中的全局图像以及全局图像对应的局部图像，并对所述全局图像以及局部图像进行去畸变处理。

其中，上述方法中，所述将局部图像及对应的全局图像区块输入深度学习网络，得到超分辨率区域图像，包括：

利用所述深度学习网络对局部图像及对应的全局图像区块进行光流估计处理，得到表征局部图像及其对应的全局图像区块之间变换关系的低分辨率的光流图像；

利用局部图像对所述低分辨率的光流图像进行多尺度光流超分辨处理，得到超分辨率的光流图像；

利用所述超分辨率的光流图像，在不同的特征层上分别对所述局部图像进行变形处理，并将变形处理后的局部图像进行融合处理，生成对齐的超分辨率区域图像。

其中，上述方法中，所述将得到的对齐的超分辨率区域图像,叠加至对应的全局图像的对应图像区域上，得到超分辨率全局图像，包括：

将全局图像对应的所有超分辨率区域图像，分别叠加至所述全局图像的对应图像区域上，得到超分辨率全局图像。

根据本文的另一方面，提供一种基于光流的十亿像素视频对齐装置，包括：

图像匹配模块，用于确定待处理视频数据中局部图像对应的全局图像区块，所述全局图像区块为局部图像对应的全局图像中，与所述局部图像匹配的图像区域；

局部图像处理模块，用于将局部图像及对应的全局图像区块输入深度学习网络，得到超分辨率区域图像，其中，所述深度学习网络用于对输入的图像进行光流估计、光流超分辨以及图像变形处理；全局图像处理模块，用于将得到的超分辨率区域图像,叠加至对应的全局图像的对应图像区域上，得到超分辨率全局图像；

视频生成模块，用于根据所述超分辨率全局图像生成十亿像素视频。其中，上述装置中，所述图像匹配模块，包括：

模板匹配子模块，用于按照不同的比例缩小所述局部图像，并将缩小的局部图像分别与全局图像进行匹配，得到局部图像在不同比例下对应的匹配区域；

匹配优化子模块，将匹配区域中，匹配度达到设定要求的匹配区域确定为所述局部图像对应的全局图像区块。

其中，上述装置，还包括：

去畸变模块，用于在确定待处理视频数据中局部图像对应的全局图像区块之前，获取待处理视频数据中的全局图像以及全局图像对应的局部图像，并对所述全局图像以及局部图像进行去畸变处理。

其中，上述装置中，所述局部图像处理模块，包括：

第一子模块，用于利用所述深度学习网络对局部图像及对应的全局图像区块进行光流估计处理，得到表征局部图像及其对应的全局图像区块之间变换关系的低分辨率的光流图像；

第二子模块，用于利用局部图像对所述低分辨率的光流图像进行光流多尺度超分辨处理，得到超分辨率的光流图像；

第三子模块，用于利用所述超分辨率的光流图像，在不同的特征层上分别对所述局部图像进行变形处理，并将变形处理后的局部图像进行融合处理，生成对齐的超分辨率区域图像。

其中，上述装置中，所述全局图像处理模块，将得到的超分辨率区域图像,叠加至对应的全局图像的对应图像区域上，得到超分辨率全局图像,包括：

根据本文的另一方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端设备的处理器执行时，使得终端设备能够执行上述任一项所述的一种十亿像素视频生成方法。

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

执行上述任一项所述的基于光流的十亿像素视频对齐方法。

本文利用逐像素引导变形的光流及基于大数据的深度学习网络，实现全局图像与局部图像之间精细的差分辨率及不同视点的图像之间的对齐，从而提高十亿像素视频的对齐质量，增强了十亿像素视频的观看效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本文。

附图说明

构成本文的一部分的附图用来提供对本文的进一步理解，本文的示意性实施例及其说明用于解释本文，并不构成对本文的不当限定。在附图中：

图1是根据一示例性实施例示出的一种基于光流的十亿像素视频对齐方法的流程图。

图2是根据一示例性实施例示出的一种基于光流的十亿像素视频对齐方法的流程图。

图3是根据一示例性实施例示出的一种基于光流的十亿像素视频对齐方法中网络模型训练流程图。

图4是根据一示例性实施例示出的一种基于光流的十亿像素视频对齐装置的框图。

具体实施方式

为使本文实施例的目的、技术方案和优点更加清楚，下面将结合本文实施例中的附图，对本文实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本文一部分实施例，而不是全部的实施例。基于本文中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本文保护的范围。需要说明的是，在不冲突的情况下，本文中的实施例及实施例中的特征可以相互任意组合。

相关技术中十亿像素视频对齐方案,是将局部图像划分成多个网格，并对每个网格进行单应矩阵估计和图像变形操作，从而导致了变形的局限性。当面对复杂场景时，这样的变形配准往往会导致一些较细结构的物体，如电线杆等，产生不同程度的扭曲。另外对于深度变化较为明显的区域也会产生一些深度不连续的不真实感。

针对上述缺点，本申请一种基于光流的十亿像素视频对齐方法及装置、介质。

图1是根据一示例性实施例示出的一种基于光流的十亿像素视频对齐方法的流程图。该方法包括如下操作步骤：

步骤S101，确定待处理视频数据中局部图像对应的全局图像区块，全局图像区块为局部图像对应的全局图像中，与局部图像匹配的图像区域；

该步骤中，待处理视频数据中局部图像和对应的全局图像是预先获取的。其中，待处理视频数据中每一帧全局图像对应有多张局部图像。

待处理视频数据的获取方式可以包括多种。例如，可以从已存储的图像数据中获取。也可以通过十亿像素采集装置实时采集获取。当通过十亿像素采集装置实时采集获取时，可以通过十亿像素采集装置中的全局相机采集全局图像，通过十亿像素采集装置中的局部相机采集局部图像。

步骤S102，将局部图像及对应的全局图像区块输入深度学习网络，得到超分辨率区域图像，其中，深度学习网络用于对输入的图像进行光流估计、光流超分辨以及图像变形处理；

该步骤中，利用深度学习网络在低分辨率(即全局图像区块的分辨率)尺度下对局部图像及对应的全局图像区块可以进行光流估计处理，得到表征局部图像及其对应的全局图像区块之间变换关系的低分辨率的光流图像。之后，利用局部图像对光流图像进行光流超分辨处理，可以得到超分辨率的光流图像。最后利用超分辨率的光流图像，在不同的特征层上分别对局部图像进行变形处理，并将变形处理后的局部图像进行融合处理，生成对齐的超分辨率区域图像。步骤S103，将得到的超分辨率区域图像,叠加至对应的全局图像的对应图像区域上，得到超分辨率全局图像；

该步骤中，使得超分辨率区域图像替换对应全局图像的对应区域上，指将超分辨率区域图像，替换该局部图像所属的全局图像中，与局部图像相匹配的区域上。由于叠加的局部图像具备超分辨率，因此，叠加处理后得到的全局图像也具备超分辨率。

步骤S104，根据超分辨率全局图像生成十亿像素视频。

该步骤中，超分辨率全局图像即为十亿像素图像。这样，由每一帧十亿像素图像即生成十亿像素视频。

从上述实施例可以看出，本实施例借助光流来完成高分辨率局部视点的像素到低分辨率全局视点像素的逐一变换关系，并基于大数据的深度学习网络对不同视点的局部图像与全局图像的特征匹配来完成高分辨率像素的迁移，能够解决现有技术中分块变形带来的场景结构变形和深度不连续的问题，提高了十亿像素视频的对齐质量，增强了十亿像素视频的观看效果。

本实施例还提供一种基于光流的十亿像素视频对齐方法，其中，确定局部图像对应的全局图像区块，包括：

按照不同的比例缩小局部图像，并将缩小的局部图像分别与全局图像进行匹配，得到局部图像在不同比例下对应的匹配区域；

将匹配区域中，匹配度达到设定要求的匹配区域确定为局部图像对应的全局图像区块。

其中，按照不同的比例缩小局部图像，可以得到多个缩小的局部图像。不同的比例可以预先设置，或实时设置。

将缩小的局部图像分别与全局图像进行模板匹配，得到局部图像在不同比例下对应的匹配区域，表示得到的多个缩小的局部图像可以分别与全局图像进行匹配，这样，每个缩小的局部图像对应匹配区域。

在这多个缩小的局部图像对应的匹配区域中，将匹配度达到设定要求的匹配区域即可做为局部图像对应的全局图像区块。例如，设定要求可以是要求匹配度最高，即将匹配度最高的匹配区域确定为局部图像对应的全局图像区块。

在实际应用中，上述过程，可以通过迭代匹配操作来实现。即，先按照比例a缩小局部图像，与全局图像进行匹配，得到在比例a的场景下，局部图像在全局图像上匹配的区域A(即全局图像的一个坐标范围)，以及局部图像与区域A的相似度。然后，将比例调节为b，与全局图像进行匹配，得到在比例b的场景下，局部图像在全局图像上匹配的区域B(即全局图像的一个坐标范围)，以及局部图像与该区域B的相似度。依次类推，迭代计算在不同的比例下，得到的匹配区域，以及局部图像与匹配区域的相似度。直到在某个比例n下，得到的匹配区域N与局部图像的相似度达到了设定相似度。即可确定局部图像对应的全局图像区块为匹配区域N。

可见，本实施例利用不同尺度的光流计算获得鲁棒的密集特征匹配，可以解决分块变形带来的场景结构变形和深度不连续的问题，提高图像之间的对齐质量，从而提高十亿像素视频的对齐质量，增强了十亿像素视频的观看效果。

本实施例还提供一种基于光流的十亿像素视频对齐方法，该方法还包括：

在确定待处理视频数据中局部图像对应的全局图像区块之前，获取待处理视频数据中的全局图像以及全局图像对应的局部图像，并对全局图像以及局部图像进行去畸变处理。

其中，可以按照待处理视频数据的设备内参进行去畸变处理。例如，根据与畸变信息相关的参数(十亿像素采集装置中相机的畸变系数等)，对获待处理视频数据中的全局图像以及局部图像进行去畸变操作。

本实施例对图像数据先进行去畸变处理，可以为在后续的超分辨率全局图像处理，提供更精确的原始图像数据为基础。使得最终生成的超分辨率全局图像中可以避免拼接不连贯等现象。提高十亿像素视频的对齐质量和观感。

本实施例还提供一种基于光流的十亿像素视频对齐方法，其中，将局部图像及对应的全局图像区块输入深度学习网络，得到超分辨率区域图像，包括：

深度学习网络对局部图像及对应的全局图像区块进行光流估计处理，得到表征局部图像及其对应的全局图像区块之间变换关系的低分辨率的光流图像；

利用局部图像对低分辨率的光流图像进行光流多尺度超分辨处理，得到超分辨率的光流图像；

利用超分辨率的光流图像,在不同的特征层上分别对局部图像进行变形处理，并将变形处理后的局部图像进行融合处理，生成对齐的超分辨率区域图像。

其中，深度学习模型可以由相关匹配的光流估计网络组成，类似FlowNetS等网络的结构，用于估计两个视点图像(即局部图像及其对应的全局图像区块)之间变换关系的光流图像，此步骤获得的光流图像是低分辨率的初始光流结果。以全局图像区块的分辨率为尺度。

可以利用原始的高分辨RGB图像对光流估计生成的光流图像进行进一步的超分辨处理。例如，可以采用多尺度的级联的导向滤波残差模块进行光流超分辨处理，其输入为低分辨率的光流图像以及高分辨率的局部RGB图像和全局图像；在不同尺度阶段利用输入两个图像之间的变形关系不断对低分辨率的光流进行上采样；输出为超分辨率的光流图像。

可见，本实施例，按照全局图像和局部图像之间图像清晰度差及不同视点，可以解决分块变形带来的场景结构变形和深度不连续的问题，提高图像之间的对齐质量。

本实施例还提供一种基于光流的十亿像素视频对齐方法，其中，将得到的对齐的超分辨率区域图像,叠加至对应的全局图像的对应图像区域上，得到超分辨率全局图像，包括：

如前文所介绍的，对于每一帧全局图像而言，其对应有多张局部图像。因此，需要得到这多张局部图像的超分辨率区域图像。然后将全局图像对应的所有超分辨率区域图像，分别叠加至全局图像的不同位置上，才完成了全局图像的叠加处理。

其中，由于待处理视频数据中，全局图像与局部图像的原始尺寸大小是相同的。而叠加处理时，超分辨率区域图像只是全局图像上的某个区域。因此，在进行替换处理之前，需要先将全局图像放大后，再将超分辨率区域图像替换放大的全局图像的对应区域。当该全局图像对应的所有局部图像对应的超分辨率区域图替换了放大的全局图像的对应区域后，即可得到到超分辨率全局图像。

可见，本实施例，基于多张局部图像，生成超分辨率区域图像，替换处理得到的全局图像也具备了超分辨率。这样，最终生成的十亿像素视频也具备超高分辨率。提高了十亿像素视频的质量和观感。

图2是根据一示例性实施例示出的一种基于光流的十亿像素视频对齐方法的流程图。如图2所示，包括如下操作：

步骤S201，获取十亿像素视频数据中的每一帧全局图像以及每一帧全局图像对应的多张局部图像。

该步骤中，可以通过十亿像素采集装置中的全局相机采集并获取十亿像素视频数据中的每一帧全局图像，可以通过十亿像素采集装置中的局部相机采集并获取与每一帧全局图像相对应的多张局部图像。因此，每一帧全局图像所对应的局部图像的数量与十亿像素采集装置中局部相机的总个数相同。

其中，全局相机采集的全局图像为低分辨率图像，而局部相机采集的局部图像为高分辨率图像。

步骤S202，确定每一张局部图像对应的全局图像区块。

该步骤中，局部图像对应的全局图像区块为，局部图像对应的全局图像中与该局部图像匹配的图像区域。例如，每一帧全局图像对应有N张局部图像时，对于任一帧全局图像对应的N张局部图像，其对应的全局图像区块分别为该帧全局图像中的一个图像区域。其中，N等于十亿像素采集装置中局部相机的个数。

本实施例中，上述步骤S202可以包括如下两个部分：

首先，通过十亿像素采集装置采集原始图像数据，使用预先设置的十亿像素采集装置的相机内参中与畸变信息相关的参数(例如相机的畸变系数等)对获取的图像数据(包括全局图像及局部图像)进行去畸变操作。

其次，可以利用十亿像素采集装置中全局相机与局部相机的焦距之间的差别，以及局部图像与全局图像之间的特征匹配，得到每张局部图像在其对应的全局图像中所匹配的图像区域。与局部图像所匹配的图像区域即为，该局部图像对应的全局图像区块。

例如，可以按照不同的比例缩小局部图像，并将缩小的局部图像分别与全局图像进行匹配，得到局部图像在不同比例下对应的匹配区域；

将匹配区域中，匹配度达到设定要求(例如匹配度最高)的匹配区域确定为局部图像对应的全局图像区块。

本实施例中，可以按照比例缩小局部图像，将缩小的局部图像与全局图像进行匹配，得到缩小的局部图像对应的匹配区域以及匹配程度评估指标计算结果。之后可以按精度逐渐增加的方式不断改变局部图像的缩放比例，使得最佳匹配区域的匹配程度不断提升，最终将匹配度达到设定要求的匹配区域确定为局部图像对应的全局图像区块。

具体可以采用如下公式(1)和(2)确定局部图像对应的全局图像区块。

上述公式(1)中，

为局部图像(local image)的高度H和宽度W各放缩α倍后得到的图像，α为缩放比例；

为高度为H，宽度为W的全局图像；

表示图像/>与图像/>之间的模板匹配计算，输出的结果为局部图像在全局图像上最为匹配的位置loc以及对应的匹配评价指标计算结果val。

公式(2)中，α_best表示不断改变缩放比例α的值并进行模板匹配计算，直到模板匹配计算的结果中匹配程度val达到设定值，即获得最优的比例α_best，此时，模板匹配计算输出的局部图像在全局图像上最为匹配的位置loc，即为局部图像对应的全局图像区块。

其中，在公式(1)中比例α的初始值可以设置为拍摄局部图像的局部相机的焦距与拍摄全局图像的全局相机的焦距的比值。之后，可以在比例α的初始值的基础上，按照一定的精度调节比例α的值，从而进行根据不同的比例α进行模板匹配计算，确定最终的与局部图像对应的全局图像区块。例如，缩放比例α的初始值为X，则基于比例X进行了模板匹配计算后，可以将比例α的值调节为X+0.1，再次进行模板匹配计算。如果此时模板匹配计算的结果中，局部图像在全局图像上最为匹配的位置loc的匹配度val变小了，即表示按照比例X+0.1进行匹配时，与比例X相比，匹配结果变差了。因此，可以在比例α的初始值为X的基础上，将比例α的值调节为X-0.1，再次进行模板匹配计算。依次类推，直到在某个比例α下，模板匹配计算的局部图像在全局图像上最为匹配的位置loc的匹配度val最大，则结束模板匹配计算。此时，匹配度val最大的位置loc，即为局部图像对应的全局图像区块。其中，每次调节比例时，调节的精度也可以动态变化。例如，初始值为X时，再次调节比例时，可以调节比例为X+0.01或X-0.01。另外，为便于后续处理，确定局部图像对应的全局图像区块后，还可以利用颜色分布对局部图像及其对应的全局图像区块对进行颜色变换操作。这样可以使得局部图像及其对应的全局图像区块的颜色分布尽可能相似，保证最终生成的十亿像素视频的色彩过渡更自然。

步骤S203，将局部图像以及对应的全局图像区块输入深度学习网络，得到超分辨率区域图像。

该步骤中，分别将每张局部图像及对应的全局图像区块做为一组数据，输入至深度学习网络，得到一张超分辨率区域图像。

本实施例中，深度学习网络可采用神经网络实现。深度学习网络包括光流估计、光流超分辨以及多尺度图像变形处理。

其中，光流估计可以由相关匹配的光流估计网络组成，类似FlowNetS等网络的结构，用于估计两个视点图像(即局部图像及其对应的全局图像区块)之间变换关系的光流图像。本实施例中，可以先将局部图像进行下采样变换为低频段图像(即高度为H宽度为W的图像)，将对应的全局图像区块进行上采样变换为高度为H宽度为W的图像后，再进行光流估计处理。对局部图像以及对应的全局图像区块进行光流估计处理时，以全局图像区块的分辨率(可认为是低分辨)为基础进行的。因此，光流估计处理后得到表征局部图像及其对应的全局图像区块之间变换关系的低分辨率的光流图像；

光流超分辨，可以利用原始的高分辨RGB图像对光流估计生成的低分辨率的光流图像进行进一步的超分辨处理。本实施例中，光流超分辨可以由多尺度的级联的残差模块构成，其输入为低分辨率的光流图像以及高分辨率的局部RGB图像和全局图像区块；在不同尺度阶段利用输入两个图像之间的变形关系不断对低分辨率的光流进行上采样，最后输出为超分辨率的光流图像。

得到超分辨率的光流图像之后，在不同的特征层上对输入的超分辨率的局部图像进行变形，叠加卷积，融合生成最终的参考超分辨视角的对齐图像，即超分辨率区域图像。

步骤S204，将全局图像对应的所有超分辨率区域图像，分别叠加至全局图像的对应图像区域上，得到超分辨率全局图像，根据每一帧对齐的超分辨率全局图像生成十亿像素视频。

从上述描述可以看出，本实施例技术方案，采用逐像素的对应关系的光流估计技术，使得图像超分辨配准问题能够更加准确和精细，最终生成得到的十亿像素视频具有较好的空间连续性，即提高了十亿像素视频的图像对齐质量，提高了用户体验。

另外，上述方法中涉及的步骤S203中用于光流估计、光流超分辨和多尺度图像变形处理的深度学习网络可以由预先训练生成的神经网络模型实施，其中，神经网络模型的训练生成的过程如图3所示，包括如下操作：

步骤S301，训练生成深度学习网络的初始模型。

该步骤中，可以利用开源光流的数据集做为训练数据，训练生成深度学习网络的初始模型。也就是说，以一张模拟的低分辨率RGB图像，以及多视点或多时序上具有不同高分辨率的RGB图像，以及用于监督的光流图像做为训练数据即可。

其中，训练数据需要对低分辨率RGB图像进行模拟，因此，可以采用数据增强方法融入不同的尺度变换方式、图像模糊、图像加噪、使用不同模糊核等方式对训练数据进行变换处理，用于训练深度学习网络。这样，可以使得网络能够对不同分辨率差别及噪声的数据有更好的适应能力，从而使得深度学习网络得到充分的训练。

步骤S302，接收用于训练的图像数据，对图像数据进行处理后，输入至深度学习网络的初始模型，得到深度学习网络输出的具有超分辨的对齐的十亿像素全局图像。

对图像数据进行处理指，按照上述步骤S201至步骤S203的操作，将局部图像以及对应的全局图像区块输入深度学习网络。在此不再赘述。

步骤S303，对得到的对齐的十亿像素图像进行监督操作；

该步骤中，可以利用如下的损失函数对生成的超分辨率图像进行监督：

式中，L_flow为超分辨光流的损失函数，监督超分辨光流与数据集中的真实光流更为接近；

L_ing损失定义在图像在已训练好的图像分类网络的各个特征层上的范数差距；

FlowSR(·)为光流超分辨处理函数；

为光流超分辨模块估计的低分辨率光流；

F为数据集给出的目标光流；

λ_m为平衡每个网络层尺度的系数，φ_m为网络层m的输出的特征图；

为输出的超分辨率图像，I_tar为数据集中的真实超分辨率图像。

步骤S304，判断计算出的损失代价是否小于设定值，如果是，结束模型训练流程，否则，优化深度学习网络的参数，并返回步骤S302。

该步骤中，设定值即用于确定当前的计算损失代价是否在设定范围内，当判断损失代价小于设定值时，即确定计算损失代价在设定范围内，已满足需求。此时，可认为当前的神经网络模型训练完成。其中，优化的深度学习网络的参数可以包括，深度学习网络中的卷积核的具体参数。例如，可以根据计算出的损失代价，调小学习率等网络更新参数，对深度学习网络的参数进行较小的调整，使得深度学习网络的特性更加贴合当前相机采集系统的数据特性。

从上述实施例可以看出，本实施例借助光流来完成高分辨率局部视点的像素到低分辨率全局视点像素的逐一变换关系，利用稠密的特征匹配来完成高分辨率像素的迁移，能够解决现有技术中分块变形带来的场景结构变形和深度不连续的问题。本申请通过构建基于光流的差分辨率对齐网络的深度学习模型，利用大量不同场景的经过数据增强操作的数据进行训练，提高深度学习模型的抗干扰能力，从而提升了十亿像素视频对齐的准确性和真实性。

图4根据一示例性实施例示出的一种基于光流的十亿像素视频对齐装置的框图。如图4所示，该装置至少包括图像匹配模块41、局部图像处理模块42、全局图像处理模块43和视频生成模块44。

图像匹配模块41，被配置为，确定局部图像对应的全局图像区块，全局图像区块为局部图像对应的全局图像中，与局部图像匹配的图像区域；

局部图像处理模块42，被配置为，将局部图像及对应的全局图像区块输入深度学习网络，得到超分辨率区域图像，其中，深度学习网络用于对输入的图像进行光流估计、光流超分辨以及图像变形处理；

全局图像处理模块43，被配置为，将得到的超分辨率区域图像,叠加至对应的全局图像的对应图像区域上，得到超分辨率全局图像；

视频生成模块44，被配置为，根据超分辨率全局图像生成十亿像素视频。

本实施例还提供一种基于光流的十亿像素视频对齐装置，其中，图像匹配模块，包括：

模板匹配子模块，被配置为，按照不同的比例缩小局部图像，并将缩小的局部图像分别与全局图像进行匹配，得到局部图像在不同比例下对应的匹配区域；

匹配优化子模块，被配置为，将匹配区域中，匹配度最高的匹配区域确定为局部图像对应的全局图像区块。

本实施例还提供一种基于光流的十亿像素视频对齐装置，该装置还包括：

去畸变模块，被配置为，在获取待处理视频数据中的全局图像以及全局图像对应的局部图像后，对全局图像以及局部图像进行去畸变处理。

本实施例还提供一种基于光流的十亿像素视频对齐装置，其中，局部图像处理模块，包括：

第一子模块，被配置为，利用深度学习网络对局部图像及对应的全局图像区块行光流估计处理，得到表征局部图像及其对应的全局图像区块之间变换关系的低分辨率的光流图像；

第二子模块，被配置为，利用局部图像对低分辨率的光流图像进行光流超分辨处理，得到超分辨率的光流图像；

第三子模块，被配置为，利用超分辨率的光流图像，在不同的特征层上分别对局部图像进行变形处理，并将变形处理后的局部图像进行融合处理，生成对齐的超分辨率区域图像。

本实施例还提供一种基于光流的十亿像素视频对齐装置，其中，全局图像处理模块，将得到的超分辨率区域图像,叠加至对应的全局图像的对应图像区域上，得到超分辨率全局图像,包括：

将全局图像对应的所有超分辨率区域图像，分别叠加至全局图像的对应图像区域上，得到超分辨率全局图像。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本文还提供一种实施例，公开一种基于光流的十亿像素视频对齐装置，该装置包括：处理器，以及用于存储处理器可执行指令的存储器。

其中，处理器被配置为：

执行上述实施例中提供的基于光流的十亿像素视频对齐方法。

本实施例中，处理器的具体配置操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本领域技术人员应明白，本文的实施例可提供为方法、装置(设备)、或计算机程序产品。因此，本文可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本文可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质，包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质等。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

本文是参照根据本文实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。

尽管已描述了本文的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本文范围的所有变更和修改。

显然，本领域的技术人员可以对本文进行各种改动和变型而不脱离本文的精神和范围。这样，倘若本文的这些修改和变型属于本文权利要求及其等同技术的范围之内，则本文的意图也包含这些改动和变型在内。

Claims

1.一种基于光流的十亿像素视频对齐方法，其特征在于，包括：

根据所述超分辨率全局图像生成十亿像素视频；

其中，所述确定待处理视频数据中局部图像对应的全局图像区块，包括：

将匹配区域中，匹配度达到设定要求的匹配区域确定为所述局部图像对应的全局图像区块；

所述将局部图像及对应的全局图像区块输入深度学习网络，得到超分辨率区域图像，包括：

利用所述超分辨率的光流图像在不同的特征层上分别对所述局部图像进行变形处理，并将变形处理后的局部图像进行融合处理，生成对齐的超分辨率区域图像。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

3.如权利要求1所述的方法，其特征在于，所述将得到的对齐的超分辨率区域图像,叠加至对应的全局图像的对应图像区域上，得到超分辨率全局图像，包括：

4.一种基于光流的十亿像素视频对齐装置，其特征在于，包括：

视频生成模块，用于根据所述超分辨率全局图像生成十亿像素视频；

其中，所述图像匹配模块，包括：

匹配优化子模块，将匹配区域中，匹配度达到设定要求的匹配区域确定为所述局部图像对应的全局图像区块；

所述局部图像处理模块，包括：

第二子模块，用于利用局部图像对所述低分辨率的光流图像进行多尺度光流超分辨处理，得到超分辨率的光流图像；

第三子模块，用于利用所述超分辨率的光流图像,在不同的特征层上分别对所述局部图像进行变形处理，并将变形处理后的局部图像进行融合处理，生成对齐的超分辨率区域图像。

5.如权利要求4所述的装置，其特征在于，所述装置还包括：

6.如权利要求4所述的装置，其特征在于，所述全局图像处理模块，将得到的超分辨率区域图像,叠加至对应的全局图像的对应图像区域上，得到超分辨率全局图像,包括：

7.一种基于光流的十亿像素视频对齐装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

执行上述权利要求1至3中任一项所述的基于光流的十亿像素视频对齐方法。

8.一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端设备的处理器执行时，使得终端设备能够执行上述权利要求1至3中任一项所述的一种十亿像素视频生成方法。