CN112203023B

CN112203023B - 一种十亿像素视频生成方法及装置、设备、介质

Info

Publication number: CN112203023B
Application number: CN202010992693.2A
Authority: CN
Inventors: 袁潮; 温建伟; 刘烨斌; 周玥眉; 赵月峰
Original assignee: Xi'an Zhuohe Anjian Information Technology Co ltd
Current assignee: Xi'an Zhuohe Anjian Information Technology Co ltd
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2023-09-12
Anticipated expiration: 2040-09-18
Also published as: CN112203023A

Abstract

本文是关于一种十亿像素视频生成方法及装置、设备、介质,涉及十亿像素视频技术。本文提供的十亿像素视频生成方法，包括：确定待处理视频数据中局部图像对应的全局图像区块；将局部图像分别投影变换至对应的全局图像区块的不同视平面上，得到局部图像对应的视平面图像组，所述视平面图像组包括D个视平面图像；将局部图像对应的全局图像区块以及视平面图像组输入深度学习网络，得到超分辨率区域图像；用所述超分辨率区域图像,替换全局图像中的对应区域，得到超分辨率全局图像；根据所述超分辨率全局图像生成十亿像素视频。本文使得生成的十亿像素视频可以达到视点超分辨拼接的效果。

Description

一种十亿像素视频生成方法及装置、设备、介质

技术领域

本文涉及十亿像素视频技术，尤其涉及一种十亿像素视频生成方法及装置、设备、介质。

背景技术

十亿像素视频是计算机视觉领域的重点问题。随着信息时代的到来，各种信息的载体向着更大容量和更高精度的方向不断发展。视频也是如此，高分辨率显示屏和更高带宽的信息传输使得人们越来越追求高清的图像和视频带来的精细的观感。十亿像素视频的提出使得人们可以从多尺度的角度观察世界，使得大场景的安防监控和演出、赛事的直播能够获得质量的飞升。目前，十亿像素视频系统一般由一个全局相机和多个局部相机组成，十亿像素图像是由局部相机拍摄到的高清图像向全局图像的对应区域变形融合得到。

发明内容

为克服相关技术中存在的问题，本文提供一种十亿像素视频生成方法及装置、设备、介质。

根据本文的第一方面，提供一种十亿像素视频生成方法，包括：

确定待处理视频数据中局部图像对应的全局图像区块，所述全局图像区块为局部图像对应的全局图像中，与所述局部图像匹配的图像区域；

将局部图像分别投影变换至对应的全局图像区块的不同视平面上，得到局部图像对应的视平面图像组，所述视平面图像组包括D个视平面图像，D为全局图像区块包含的视平面的总个数；

将局部图像对应的全局图像区块以及视平面图像组输入深度学习网络，得到超分辨率区域图像，其中，所述深度学习网络基于不同视平面图像的特征，对多视平面图像进行图像加权融合处理；

用所述超分辨率区域图像,替换全局图像中的对应区域，得到超分辨率全局图像；

根据所述超分辨率全局图像生成十亿像素视频。

其中，上述十亿像素视频生成方法中，所述确定局部图像对应的全局图像区块，包括：

按照不同的比例缩小所述局部图像，并将缩小的局部图像分别与全局图像进行匹配，得到局部图像在不同比例下对应的匹配区域；

将匹配区域中，匹配度达到设定要求的匹配区域确定为所述局部图像对应的全局图像区块。

其中，上述十亿像素视频生成方法，还包括：

在确定待处理视频数据中局部图像对应的全局图像区块之前，获取待处理视频数据中的全局图像以及全局图像对应的局部图像，并对所述全局图像以及局部图像进行去畸变处理。

其中，上述十亿像素视频生成方法中，所述将局部图像对应的全局图像区块以及视平面图像组输入深度学习网络，得到超分辨率区域图像，包括：

所述深度学习网络基于全局图像区块中不同视平面图像的特征，确定所述视平面图像组中每一个视平面图像的权重信息；

根据所述视平面图像组中所有视平面图像的权重信息，对所述视平面图像组中所有视平面图像进行融合处理，得到超分辨率区域图像。

其中，上述十亿像素视频生成方法中，所述用所述超分辨率区域图像,替换全局图像中的对应区域，得到超分辨率全局图像，包括：

将全局图像对应的所有超分辨率区域图像，分别替换所述全局图像中对应区域，得到超分辨率全局图像。

根据本文的另一方面，提供一种十亿像素视频生成装置，包括：

图像匹配模块，用于确定局部图像对应的全局图像区块，所述全局图像区块为局部图像对应的全局图像中，与所述局部图像匹配的图像区域；

图像投影变换模块，用于将局部图像分别投影变换至对应的全局图像区块的不同视平面上，得到局部图像对应的视平面图像组，所述视平面图像组包括D个视平面图像，D为全局图像区块包含的视平面的总个数；

深度学习网络模块，用于基于所述局部图像对应的全局图像区块以及视平面图像，得到超分辨率区域图像，其中，所述深度学习网络模块基于不同视平面图像的特征，对多视平面图像进行图像加权融合处理；

图像处理模块，用于将所述超分辨率区域图像,替换全局图像中的对应区域，得到超分辨率全局图像；

视频生成模块，用于根据所述超分辨率全局图像生成十亿像素视频。

其中，上述十亿像素视频生成装置中，所述图像匹配模块，包括：

模板匹配子模块，用于按照不同的比例缩小所述局部图像，并将缩小的局部图像分别与全局图像进行匹配，得到局部图像在不同比例下对应的匹配区域；

匹配优化子模块，将匹配区域中，匹配度达到设定要求的匹配区域确定为所述局部图像对应的全局图像区块。

其中，上述十亿像素视频生成装置，还包括：

去畸变模块，用于在确定待处理视频数据中局部图像对应的全局图像区块之前，获取待处理视频数据中的全局图像以及全局图像对应的局部图像，并对所述全局图像以及局部图像进行去畸变处理。

其中，上述十亿像素视频生成装置中，所述深度学习网络模块，包括：

图像权重计算模块，用于基于全局图像区块中不同视平面图像的特征，确定所述视平面图像组中每一个视平面图像的权重信息；

图像加权融合模块，用于根据所述视平面图像组中所有视平面图像的权重信息，对所述视平面图像组中所有视平面图像进行融合处理，得到超分辨率区域图像。

其中，上述十亿像素视频生成装置中，所述图像处理模块，将得到的超分辨率区域图像,替换全局图像中的对应区域，得到超分辨率全局图像，包括：

将全局图像对应的所有超分辨率区域图像，分别替换所述全局图像中的对应区域，得到超分辨率全局图像。

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取待处理视频数据中的全局图像以及全局图像对应的局部图像；

确定局部图像对应的全局图像区块，所述全局图像区块为局部图像对应的全局图像中，与所述局部图像匹配的图像区域；

根据所述超分辨率全局图像生成十亿像素视频。

根据本文的另一方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端设备的处理器执行时，使得终端设备能够执行一种十亿像素视频生成方法，所述方法包括：

根据所述超分辨率全局图像生成十亿像素视频。

本文通过引入全局相机与局部相机的视点之间的对极几何关系，对采集的图像重建深度并渲染变换视点操作，从而使得生成的十亿像素视频可以达到视点超分辨拼接的效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本文。

附图说明

构成本文的一部分的附图用来提供对本文的进一步理解，本文的示意性实施例及其说明用于解释本文，并不构成对本文的不当限定。在附图中：

图1是根据一示例性实施例示出的一种十亿像素视频生成方法的流程图。

图2是根据一示例性实施例示出的一种十亿像素视频生成方法的流程图。

图3是根据一示例性实施例示出的一种十亿像素视频生成方法中网络模型训练流程图。

图4是根据一示例性实施例示出的一种十亿像素视频生成装置框图。

具体实施方式

为使本文实施例的目的、技术方案和优点更加清楚，下面将结合本文实施例中的附图，对本文实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本文一部分实施例，而不是全部的实施例。基于本文中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本文保护的范围。需要说明的是，在不冲突的情况下，本文中的实施例及实施例中的特征可以相互任意组合。

相关技术中，十亿像素视频的生成一般是以图像层面的变形为基础的，即针对图像层面的二维特征点，进行图像层面上的分块的变形和对齐操作。本申请发明人发现图像层面上的变形处理，可能会导致场景中一些精细的物体(例如电线)或场景深度变化明显的区域(例如近处的广告牌和远处的道路的交界处)，产生拼接不连贯甚至错位的现象。

针对上述缺点，本申请一种十亿像素视频生成方法及装置、设备、介质。

图1是根据一示例性实施例示出的一种十亿像素视频生成方法的流程图。该方法包括如下操作步骤：

步骤S101，确定待处理视频数据中局部图像对应的全局图像区块，其中，全局图像区块为局部图像对应的全局图像中，与局部图像匹配的图像区域；

该步骤中，待处理视频数据中局部图像和对应的全局图像是预先获取的。其中，待处理视频数据中每一帧全局图像对应有多张局部图像。

待处理视频数据的获取方式可以包括多种。例如，可以从已存储的图像数据中获取。也可以通过十亿像素采集装置实时采集获取。当通过十亿像素采集装置实时采集获取时，可以通过十亿像素采集装置中的全局相机采集全局图像，通过十亿像素采集装置中的局部相机采集局部图像。

步骤S102，将局部图像分别投影变换至对应的全局图像区块的不同视平面上，得到局部图像对应的视平面图像组，其中，视平面图像组包括D个视平面图像，D为全局图像区块包含的视平面的总个数；

该步骤中，图像的投影变换操作可以采用多种方式实现。例如，可以采用单应变换实现投影变换操作。即全局图像区块共包含有D个视平面，则需要将局部图像分别单应变换到这D个视平面上，从而得到D个视平面图像。D个视平面图像构成局部图像对应的视平面图像组。

步骤S103，将局部图像对应的全局图像区块以及视平面图像组输入深度学习网络，得到超分辨率区域图像，其中，深度学习网络基于不同视平面图像的特征，对多视平面图像进行图像加权融合处理；

该步骤中，利用深度学习网络对局部图像对应的视平面图像组进行了图像加权融合处理，这样得到的超分辨率区域图像融合了全局图像区块中不同视平面的图像特征。

步骤S104，用超分辨率区域图像,替换全局图像中的对应区域，得到超分辨率全局图像；

该步骤中，使得超分辨率区域图像替换对应全局图像的对应区域上，指将超分辨率区域图像，替换该局部图像所属的全局图像中，与局部图像相匹配的区域上。由于叠加的局部图像具备超分辨率，因此，叠加处理后得到的全局图像也具备超分辨率。

步骤S105，根据超分辨率全局图像生成十亿像素视频。

该步骤中，超分辨率全局图像即为十亿像素图像。这样，由每一帧十亿像素图像即生成十亿像素视频。

从上述实施例可以看出，与相关技术中的十亿像素视频相比，本实施例考虑到了拍摄场景中不同被摄物所在平面不相同，且全局相机和局部相机之间的拍摄视角不同。因此，按照全局图像和局部图像之间的投影关系，将局部图像分别投影到全局图像区块的不同视平面上，进行图像加权融合处理得到超分辨率区域图像。这样，最终生成的全局图像中一些精细的物体或视角变化明显的区域位置，就不会发生拼接不连贯或错位的现象了。并且，将高分辨率的局部图像叠加至全局图像后，全局图像也具备了超分辨率，这样，最终生成的十亿像素视频也具备超高分辨率。提高了十亿像素视频的质量和观感。

本实施例还提供一种十亿像素视频生成方法，其中，确定局部图像对应的全局图像区块，包括：

按照不同的比例缩小局部图像，并将缩小的局部图像分别与全局图像进行匹配，得到局部图像在不同比例下对应的匹配区域；

将匹配区域中，匹配度达到设定要求的匹配区域确定为局部图像对应的全局图像区块。

其中，按照不同的比例缩小局部图像，可以得到多个缩小的局部图像。不同的比例可以预先设置，或实时设置。

将缩小的局部图像分别与全局图像进行模板匹配，得到局部图像在不同比例下对应的匹配区域，表示得到的多个缩小的局部图像可以分别与全局图像进行匹配，这样，每个缩小的局部图像对应匹配区域。

在这多个缩小的局部图像对应的匹配区域中，将匹配度达到设定要求的匹配区域即可做为局部图像对应的全局图像区块。例如，设定要求可以是要求匹配度最高，即将匹配度最高的匹配区域确定为局部图像对应的全局图像区块。

在实际应用中，上述过程，可以通过迭代匹配操作来实现。即，先按照比例a缩小局部图像，与全局图像进行匹配，得到在比例a的场景下，局部图像在全局图像上匹配的区域A(即全局图像的一个坐标范围)，以及局部图像与区域A的相似度。然后，将比例调节为b，与全局图像进行匹配，得到在比例b的场景下，局部图像在全局图像上匹配的区域B(即全局图像的一个坐标范围)，以及局部图像与该区域B的相似度。依次类推，迭代计算在不同的比例b下，得到的匹配区域，以及局部图像与匹配区域的相似度。直到在某个比例n下，得到的匹配区域N与局部图像的相似度达到了设定相似度。即可确定局部图像对应的全局图像区块为匹配区域N。

可见，本实施例考虑到了拍摄场景中不同被摄物所在平面不相同，且全局相机和局部相机之间的拍摄视角不同。因此，按照全局图像和局部图像之间的投影关系，将局部图像分别投影到全局图像区块的不同视平面上，进行图像加权融合处理得到超分辨率区域图像。这样超分辨率区域图像与全局图像之间的配准结果更加真实。

本实施例还提供一种十亿像素视频生成方法，该方法还包括：

在确定待处理视频数据中局部图像对应的全局图像区块之前，获取待处理视频数据中的全局图像以及全局图像对应的局部图像，并对全局图像以及局部图像进行去畸变处理。

其中，可以按照待处理视频数据的设备内参进行去畸变处理。例如，根据与畸变信息相关的参数(十亿像素采集装置中相机的畸变系数等)，对获待处理视频数据中的全局图像以及局部图像进行去畸变操作。

本实施例对图像数据先进行去畸变处理，可以为在后续的局部图像的融合处理，以及全局图像的叠加处理，提供更精确的原始图像数据为基础。这样，最终生成的全局图像中也可以避免被摄物借位，或拼接不连贯等现象。提高了十亿像素视频的质量和观感。

本实施例还提供一种十亿像素视频生成方法，其中，将局部图像对应的全局图像区块以及视平面图像组输入深度学习网络，得到超分辨率区域图像，包括：

深度学习网络基于全局图像区块中不同视平面图像的特征，确定视平面图像组中每一个视平面图像的权重信息；

根据视平面图像组中所有视平面图像的权重信息，对视平面图像组中所有视平面图像进行融合处理，得到超分辨率区域图像。

其中，可以对局部图像对应的全局图像区块进行插值采样，得到与局部图像相同分辨率的图像。之后，根据该图像以及局部图像对应的视平面图像组中的所有视平面图像，计算得到视平面图像组中每张视平面图像的权重图像。该权重图像即表征了每一个视平面图像在图像加权融合处理中的权重信息。

根据视平面图像组中所有视平面图像的权重信息，对视平面图像组中所有视平面图像进行融合处理时，可以是对所有颜色模式(RGB)的视平面图像，按照对应的权重信息，进行图像加权融合处理。

可见，本实施例，基于全局图像和局部图像之间的拍摄视角不同，确定全局图像和不同的局部图像之间的投影关系不相同。从而基于不同视平面的投影变换图像进行加权融合处理，生成超分辨率区域图像。使得融合生成的超分辨区域图像更精准，最终生成超分辨全局图像更加连续。

本实施例还提供一种十亿像素视频生成方法，其中，用超分辨率区域图像,替换全局图像中的对应区域，得到超分辨率全局图像，包括：

如前文所介绍的，对于每一帧全局图像而言，其对应有多张局部图像。因此，需要得到这多张局部图像的超分辨率区域图像。然后将全局图像对应的所有超分辨率区域图像，分别叠加至全局图像的不同位置上，才完成了全局图像的叠加处理。

其中，由于待处理视频数据中，全局图像与局部图像的原始尺寸大小是相同的。而叠加处理时，超分辨率区域图像只是全局图像上的某个区域。因此，在进行替换处理之前，需要先将全局图像放大后，再将超分辨率区域图像替换放大的全局图像的对应区域。当该全局图像对应的所有局部图像对应的超分辨率区域图替换了放大的全局图像的对应区域后，即可得到到超分辨率全局图像。

可见，本实施例，基于多张局部图像，生成超分辨率区域图像，替换处理得到的全局图像也具备了超分辨率。这样，最终生成的十亿像素视频也具备超高分辨率。提高了十亿像素视频的质量和观感。

图2是根据一示例性实施例示出的一种十亿像素视频生成方法的流程图。如图2所示，包括如下操作：

步骤S201，获取十亿像素视频数据中的每一帧全局图像以及每一帧全局图像对应的多张局部图像。

该步骤中，可以通过十亿像素采集装置中的全局相机采集并获取十亿像素视频数据中的每一帧全局图像，可以通过十亿像素采集装置中的局部相机采集并获取与每一帧全局图像相对应的多张局部图像。因此，每一帧全局图像所对应的局部图像的数量与十亿像素采集装置中局部相机的总个数相同。

其中，全局相机采集的全局图像为低分辨率图像，而局部相机采集的局部图像为高分辨率图像。

步骤S202，确定每一张局部图像对应的全局图像区块。

该步骤中，局部图像对应的全局图像区块为，局部图像对应的全局图像中与该局部图像匹配的图像区域。例如，每一帧全局图像对应有N张局部图像时，对于任一帧全局图像对应的N张局部图像，其对应的全局图像区块分别为该帧全局图像中的一个图像区域。其中，N等于十亿像素采集装置中局部相机的个数。

本实施例中，上述步骤S202可以包括如下两个部分：

首先，通过十亿像素采集装置采集原始图像数据，使用预先设置的十亿像素采集装置的相机内参中与畸变信息相关的参数(例如相机的畸变系数等)对获取的图像数据(包括全局图像及局部图像)进行去畸变操作。

其次，可以利用十亿像素采集装置中全局相机与局部相机的焦距之间的差别，以及局部图像与全局图像之间的特征匹配，得到每张局部图像在其对应的全局图像中所匹配的图像区域。与局部图像所匹配的图像区域即为，该局部图像对应的全局图像区块。

例如，可以按照不同的比例缩小局部图像，并将缩小的局部图像分别与全局图像进行匹配，得到局部图像在不同比例下对应的匹配区域；

将匹配区域中，匹配度达到设定要求(例如匹配度最高)的匹配区域确定为局部图像对应的全局图像区块。

本实施例中，可以按照比例缩小局部图像，将缩小的局部图像与全局图像进行匹配，得到缩小的局部图像对应的匹配区域以及匹配程度评估指标计算结果。之后可以按精度逐渐增加的方式不断改变局部图像的缩放比例，使得最佳匹配区域的匹配程度不断提升，最终将匹配度达到设定要求的匹配区域确定为局部图像对应的全局图像区块。

具体可以采用如下公式(1)和(2)确定局部图像对应的全局图像区块。

上述公式(1)中，

为局部图像(local image)的高度H和宽度W各放缩α倍后得到的图像，α为缩放比例；

为高度为H，宽度为W的全局图像；

表示图像/>与图像/>之间的模板匹配计算，输出的结果为局部图像在全局图像上最为匹配的位置loc以及对应的匹配评价指标计算结果val。

公式(2)中，α_best表示不断改变缩放比例α的值并进行模板匹配计算，直到模板匹配计算的结果中匹配程度val达到设定值，即获得最优的比例α_best，此时，模板匹配计算输出的局部图像在全局图像上最为匹配的位置loc，即为局部图像对应的全局图像区块。

其中，在公式(1)中比例α的初始值可以设置为拍摄局部图像的局部相机的焦距与拍摄全局图像的全局相机的焦距的比值。之后，可以在比例α的初始值的基础上，按照一定的精度调节比例α的值，从而进行根据不同的比例α进行模板匹配计算，确定最终的与局部图像对应的全局图像区块。例如，缩放比例α的初始值为X，则基于比例X进行了模板匹配计算后，可以将比例α的值调节为X+0.1，再次进行模板匹配计算。如果此时模板匹配计算的结果中，局部图像在全局图像上最为匹配的位置loc的匹配度val变小了，即表示按照比例X+0.1进行匹配时，与比例X相比，匹配结果变差了。因此，可以在比例α的初始值为X的基础上，将比例α的值调节为X-0.1，再次进行模板匹配计算。依次类推，直到在某个比例α下，模板匹配计算的局部图像在全局图像上最为匹配的位置loc的匹配度val最大，则结束模板匹配计算。此时，匹配度val最大的位置loc，即为局部图像对应的全局图像区块。其中，每次调节比例时，调节的精度也可以动态变化。例如，初始值为X时，再次调节比例时，可以调节比例为X+0.01或X-0.01。另外，为便于后续处理，确定局部图像对应的全局图像区块后，还可以利用颜色分布对局部图像及其对应的全局图像区块对进行颜色变换操作。这样可以使得局部图像及其对应的全局图像区块的颜色分布尽可能相似，保证最终生成的十亿像素视频的色彩过渡更自然。

步骤S203，将局部图像分别单应变换至对应的全局图像区块的不同视平面上，得到局部图像对应的视平面图像组。

由于全局图像区块是全局图像中的一个图像区域。因此，上述步骤S203可分为如下两部分操作：

首先，将局部图像对应的全局图像区块的尺寸大小放大至与局部图像的尺寸大小相同的尺寸。

然后，将局部图像单应变换至全局图像区块的不同视平面上。其中，全局图像区块中不同视平面均与全局相机平面平行，且不同视平面与拍摄镜头光心之间的距离不相同。例如，全局图像区块共分为D个视平面时，需要将局部图像依次单应变换至这D个视平面上。这样，得到的视平面图像组即包含D个视平面图像。

步骤S204，将每张局部图像以及对应的视平面图像组输入至深度学习网络，至少得到视平面图像组中每张视平面图像的权重图像。

其中，预先生成的深度学习网络可以采用包括带有跳跃连接的编码器和解码器的卷积神经网络实现。该深度学习网络用于确定图像加权融合处理中待融合的每张图像在图像加权融合处理中所占的比重。

本实施例中，视平面图像组中每张视平面图像的权重图像表示，各个视平面图像在图像加权融合处理中所占的比重。即对视平面图像组中的所有视平面图像进行图像加权融合处理时，不同视平面图像所占的比重与视平面图像的权重图像相关。

步骤S205，根据以及每张视平面图像的权重图像，对视平面图像组中所有视平面图像的RGB图像进行融合处理，得到超分辨率区域图像。

上述步骤S204和步骤S205的操作，可通过深度学习网络实现。

其中，深度学习网络可采用如下公式计算不同视平面图像的权重图像：

式中，I_L为局部图像；

为图像I_L对应的全局图像区块利用双三次插值上采样到与I_L相同分辨率的图像；

PSV(I_L)为图像I_L经过平面扫描(planesweep)获得的经过视点单应变换到全局图像区块对应的不同视平面上的D张视平面图像；

F(·)表示具有带有跳跃连接的编码器和解码器的卷积神经网络；

alphas表示卷积神经网络估计的对应PSV(I_L)的D张权重图像；

网络最终的输出是经过融合操作B(·)，即按照Alphas对PSV(I_L)进行融合操作得到的超分辨区域图像。

步骤S206，用超分辨率区域图像,替换全局图像中对应区域，得到超分辨率全局图像。

该步骤中，得到的超分辨率区域图像的尺寸与获取的原始的全局图像的尺寸的大小相同。而替换处理时，由于超分辨率区域图像只是全局图像上的某个区域。因此，可以将全局图像放大倍后，用超分辨率区域图像替换放大的全局图像的对应区域。将该全局图像对应的所有局部图像对应的超分辨率区域图像分别替换放大的全局图像的对应区域即可。

其中，对于每一帧全局图像而言，其对应有多张局部图像。因此，需要按照步骤S204至步骤S205的操作，为这多张局部图像分别生成对应的超分辨率区域图像之后，将这多张超分辨率区域图像分别替换全局图像中不同区域，从而得到完整的一帧超分辨率全局图像。例如，每一帧全局图像对应有N张局部图像时，需要先根据这N张局部图像生成N张超分辨率区域图像，再将N张超分辨率区域图像分别替换放大的全局图像中不同区域，从而生成超分辨率全局图像。

步骤S207，根据得到的超分辨率全局图像生成十亿像素视频。

从上述描述可以看出，本实施例基于将具有分辨率差别和视点差别的局部图像以及对应的全局图像区块，做为深度学习网络的输入，获取局部图像在全局图像区块的不同视平面上的视平面图像的权重图像，用于融合多视平面图像，从而得到超分辨率区域图像。再将多个超分辨率区域图像，分别替换全局图像中的对应区域，即可得到具有超分辨率的全局图像(即为十亿像素图像)。根据具有超分辨率的全局图像发生成具有超分辨率的十亿像素视频。

在上述方法中涉及的深度学习网络可以是预先训练生成的，其训练生成的过程如图3所示，包括如下操作：

步骤S301，训练生成深度学习网络的初始模型。

该步骤中，可以利用包含两个或多个不同视点的图像的开源数据集做为训练数据。并可以基于开源数据集，进行不同的噪声处理，改变图像分辨率等处理增强训练数据的变化。利用这些训练数据使得深度学习网络得到充分的训练。

其中，建立的初始模型可以基于不同视点图像的视平面图像特征，对多视平面图像进行图像加权融合处理。

步骤S302，获取十亿像素相机采集的全局图像以及局部图像，

步骤S303，基于全局图像以及局部图像生成待处理图像，将待处理图像输入至深度学习网络的初始模型，得到深度学习网络输出的具有超分辨的区域图像。

上述步骤S302中，基于全局图像以及局部图像生成的待处理图像的过程可参照上述步骤S201至步骤S203的操作，将局部图像对应的视平面图像组输入至初始构建的深度学习网络。在此不再赘述。

步骤S304，对生成的超分辨率区域图像进行监督。

该步骤中，可以利用如下的损失函数对生成的超分辨率区域图像进行监督：

其中，L_percep为网络估计的超分辨区域图像的损失代价，该损失定义在图像经过经典的图像分类网络(如VGG)的各个特征层上的比较得到的；

为平衡图像分类网络的每个网络层尺度的平衡因子；

为网络估计值，I_t为真实监督值，即ground truth；

φ_l(·)为网络层l输出的特征图，在特征层上的比较包含了图像更高层的语义信息。

步骤S305，判断计算出的损失代价是否小于设定值，如果是，结束模型训练流程，否则，优化深度学习网络的参数，并返回步骤S303。

该步骤中，优化的深度学习网络的参数可以包括，深度学习网络中的卷积核的具体参数。例如，可以根据计算出的损失代价，调小学习率等网络更新参数，对深度学习网络的参数进行较小的调整，使得深度学习网络的特性更加贴合当前相机采集系统的数据特性。

从上述实施例可以看出，与相关技术中的十亿像素视频相比，本实施例考虑到了拍摄场景中不同被摄物所在平面不相同，即全局图像包含有多个不同的视平面，且全局相机和局部相机之间的拍摄视角不同，即全局图像和不同的局部图像之间的投影关系不相同。从而利用了采集系统的视角信息，对每个像素的深度进行了估计，这样基于不同视平面的变形将使得超分辨配准结果更加真实。而深度学习网络中对多个视平面的权重估计，使得融合生成的超分辨区域图像更精准，最终生成超分辨全局图像更加连续。提高了十亿像素视频的质量和观感。

图4根据一示例性实施例示出的一种十亿像素视频生成装置的框图。如图4所示，该装置至少包括图像匹配模块41、图像投影变换模块42、深度学习网络模块43、图像处理模块44和视频生成模块45。

图像匹配模块41，被配置为，确定局部图像对应的全局图像区块，全局图像区块为局部图像对应的全局图像中，与局部图像匹配的图像区域；

图像投影变换模块42，被配置为，将局部图像分别投影变换至对应的全局图像区块的不同视平面上，得到局部图像对应的视平面图像组，视平面图像组包括D个视平面图像，D为全局图像区块包含的视平面的总个数；

深度学习网络模块43，被配置为，基于局部图像对应的全局图像区块以及视平面图像，得到超分辨率区域图像，其中，深度学习网络模块基于不同视平面图像的特征，对多视平面图像进行图像加权融合处理；

图像处理模块44，被配置为，用超分辨率区域图像，替换全局图像中的对应区域，得到超分辨率全局图像；

视频生成模块45，被配置为，根据超分辨率全局图像生成十亿像素视频。

本实施例还提供一种十亿像素视频生成装置，其中，图像匹配模块，包括：

模板匹配子模块，被配置为，按照不同的比例缩小局部图像，并将缩小的局部图像分别与全局图像进行匹配，得到局部图像在不同比例下对应的匹配区域；

匹配优化子模块，被配置为，将匹配区域中，匹配度最高的匹配区域确定为局部图像对应的全局图像区块。

本实施例还提供一种十亿像素视频生成装置，该装置还包括：

去畸变模块，被配置为，在获取待处理视频数据中的全局图像以及全局图像对应的局部图像后，对全局图像以及局部图像进行去畸变处理。

本实施例还提供一种十亿像素视频生成装置，其中，深度学习网络模块，包括：

图像权重计算模块，被配置为，基于全局图像区块中不同视平面图像的特征，确定视平面图像组中每一个视平面图像的权重信息；

图像加权融合模块，被配置为，根据视平面图像组中所有视平面图像的权重信息，对视平面图像组中所有视平面图像进行融合处理，得到超分辨率区域图像。

本实施例还提供一种十亿像素视频生成装置，其中，图像处理模块：

用全局图像对应的所有超分辨率区域图像，分别替换全局图像中的对应区域，得到超分辨率全局图像。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本文还提供一种实施例，公开一种十亿像素视频生成装置，该装置包括：处理器，以及用于存储处理器可执行指令的存储器。

其中，处理器被配置为：

确定局部图像对应的全局图像区块，全局图像区块为局部图像对应的全局图像中，与局部图像匹配的图像区域；

将局部图像分别投影变换至对应的全局图像区块的不同视平面上，得到局部图像对应的视平面图像组，视平面图像组包括D个视平面图像，D为全局图像区块包含的视平面的总个数；

将局部图像对应的全局图像区块以及视平面图像组输入深度学习网络，得到超分辨率区域图像，其中，深度学习网络基于不同视平面图像的特征，对多视平面图像进行图像加权融合处理；

用超分辨率区域图像,替换全局图像中的对应区域，得到超分辨率全局图像；

根据超分辨率全局图像生成十亿像素视频。

本实施例中，处理器的具体配置操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本领域技术人员应明白，本文的实施例可提供为方法、装置(设备)、或计算机程序产品。因此，本文可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本文可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质,包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质等。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

本文是参照根据本文实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。

尽管已描述了本文的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本文范围的所有变更和修改。

显然，本领域的技术人员可以对本文进行各种改动和变型而不脱离本文的精神和范围。这样，倘若本文的这些修改和变型属于本文权利要求及其等同技术的范围之内，则本文的意图也包含这些改动和变型在内。

Claims

1.一种十亿像素视频生成方法，其特征在于，包括：

将所述局部图像对应的全局图像区块的尺寸大小放大至与所述局部图像的尺寸大小相同的尺寸，将所述局部图像分别单应变换至对应的全局图像区块的不同视平面上，得到所述局部图像对应的视平面图像组，所述视平面图像组包括D个视平面图像，D为所述全局图像区块包含的视平面的总个数，所述全局图像区块中不同视平面均与全局相机平面平行，且所述不同视平面与拍摄镜头光心之间的距离不相同；

根据所述超分辨率全局图像生成十亿像素视频；

其中，所述确定局部图像对应的全局图像区块，包括：

将匹配区域中，匹配度达到设定要求的匹配区域确定为所述局部图像对应的全局图像区块；

其中，所述比例的初始值为拍摄所述局部图像的局部相机的焦距与拍摄所述全局图像的全局相机的焦距的比值；

其中，所述将局部图像对应的全局图像区块以及视平面图像组输入深度学习网络，得到超分辨率区域图像，包括：

所述深度学习网络基于所述全局图像区块中不同视平面图像的特征，通过下述公式确定所述视平面图像组中每一个视平面图像的权重信息：

；

根据所述视平面图像组中所有视平面图像的权重信息，对所述视平面图像组中所有视平面图像进行融合处理，通过下述公式得到所述超分辨率区域图像：

；

其中，为所述局部图像，/>为所述局部图像/>对应的全局图像区块利用双三次插值上采样到与/>相同分辨率的图像，/>为所述局部图像/>经过平面扫描获得的经过视点单应变换到全局图像区块对应的不同视平面上的D张视平面图像，F表示具有带有跳跃连接的编码器和解码器的卷积神经网络，/>表示卷积神经网络估计的对应/>的D张权重信息，B表示按照/>对/>进行融合操作，/>为所述超分辨区域图像。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

3.如权利要求1所述的方法，其特征在于，所述用所述超分辨率区域图像,替换全局图像中的对应区域，得到超分辨率全局图像，包括：

4.一种十亿像素视频生成装置，其特征在于，包括：

图像投影变换模块，用于将所述局部图像对应的全局图像区块的尺寸大小放大至与所述局部图像的尺寸大小相同的尺寸，将所述局部图像分别单应变换至对应的全局图像区块的不同视平面上，得到所述局部图像对应的视平面图像组，所述视平面图像组包括D个视平面图像，D为所述全局图像区块包含的视平面的总个数，所述全局图像区块中不同视平面均与全局相机平面平行，且所述不同视平面与拍摄镜头光心之间的距离不相同；

视频生成模块，用于根据所述超分辨率全局图像生成十亿像素视频；

其中，所述图像匹配模块，包括：

匹配优化子模块，将匹配区域中，匹配度达到设定要求的匹配区域确定为所述局部图像对应的全局图像区块；

其中，所述深度学习网络模块，包括：

图像权重计算模块，用于基于所述全局图像区块中不同视平面图像的特征，通过下述公式确定所述视平面图像组中每一个视平面图像的权重信息：

；

图像加权融合模块，用于根据所述视平面图像组中所有视平面图像的权重信息，对所述视平面图像组中所有视平面图像进行融合处理，通过下述公式得到所述超分辨率区域图像：

；

5.如权利要求4所述的装置，其特征在于，所述装置还包括：

6.如权利要求4所述的装置，其特征在于，所述图像处理模块，将得到的超分辨率区域图像,替换全局图像中的对应区域，得到超分辨率全局图像，包括：

7.一种十亿像素视频生成装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

根据所述超分辨率全局图像生成十亿像素视频；

其中，所述确定局部图像对应的全局图像区块，包括：

；

8.一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端设备的处理器执行时，使得终端设备能够执行一种十亿像素视频生成方法，所述方法包括：

根据所述超分辨率全局图像生成十亿像素视频；

其中，所述确定局部图像对应的全局图像区块，包括：

；