CN117058001A

CN117058001A - 超分辨率视频融合重建方法、装置及计算机设备

Info

Publication number: CN117058001A
Application number: CN202311316600.4A
Authority: CN
Inventors: 刘琦; 王曜; 许亦; 贺国超; 请求不公布姓名
Original assignee: Shenzhen Yuntian Changxiang Information Technology Co ltd
Current assignee: Shenzhen Yuntian Changxiang Information Technology Co ltd
Priority date: 2023-10-12
Filing date: 2023-10-12
Publication date: 2023-11-14
Anticipated expiration: 2043-10-12
Also published as: CN117058001B

Abstract

本发明公开了一种超分辨率视频融合重建方法、装置及计算机设备，包括以下步骤：获取流媒体视频；对第一视频帧，进行视频帧完整性评价，得到第二视频帧和第三视频帧；对第二视频帧，通过预测视觉模型，得到第四视频帧；根据第四视频帧和第二视频帧，通过特征融合，得到第五视频帧，所述第五视频帧对应于第四视频帧和第二视频帧的特征融合结果；将超分辨率第五视频帧和超分辨率第三视频帧，替换至流媒体视频中，得到流媒体超分辨率视频。本发明通过视频帧的模型预测值提供了不同于原始视频帧的图形聚焦区域，利用视频帧的模型预测值和视频帧的真实值进行超分辨率重建，增加了高清晰信息量，提升超分辨率重建效果。

Description

超分辨率视频融合重建方法、装置及计算机设备

技术领域

本发明涉及视频处理技术领域，具体涉及一种超分辨率视频融合重建方法、装置及计算机设备。

背景技术

图像超分辨率重构(super resolution,SR)是指利用计算机将一幅低分辨率图像(low resolution,LR)或图像序列进行处理，恢复出高分辨率图像(high resolution，HR)的一种图像处理技术。HR意味着图像具有高像素密度，可以提供更多的细节，这些细节往往在应用中起到关键作用。

现有技术在视频超分辨重建时，利用对原始视频帧的图像特征提取，获取空间信息和时间信息，再对空间信息和时间信息进行重建得到超分辨率视频，原始视频帧具有固定的某一聚焦区域，只能确保聚焦区域中的图像信息清晰度高，而非聚焦区域的图像信息清晰度低，由此可知超分辨率重建仅依赖于原始视频帧，原始视频帧能够用于重建的高清晰信息量少，难以确保超分辨率重建效果达到最佳。

发明内容

本发明的目的在于提供一种超分辨率视频融合重建方法、装置及计算机设备，以解决现有技术中超分辨率重建仅依赖于原始视频帧，原始视频帧能够用于重建的高清晰信息量少，难以确保超分辨率重建效果达到最佳的技术问题。

为解决上述技术问题，本发明具体提供下述技术方案：

在本发明的第一个方面，一种超分辨率视频融合重建方法，包括以下步骤：

获取流媒体视频，所述流媒体视频中包含有多个第一视频帧；

对第一视频帧，进行视频帧完整性评价，得到第二视频帧和第三视频帧，其中，第二视频帧对应于画面完整度高的第一视频帧，第三视频帧对应于画面完整度低的第一视频帧；

对第二视频帧，通过预测视觉模型，得到第四视频帧，所述预测视觉模型为神经网络，所述第四视频帧对应于神经网络对第二视频帧的预测结果；

根据第四视频帧和第二视频帧，通过特征融合，得到第五视频帧，所述第五视频帧对应于第四视频帧和第二视频帧的特征融合结果；

对第五视频帧，通过超分辨率处理，得到超分辨率第五视频帧；

根据超分辨率第五视频帧，对第三视频帧进行视频帧完整度补偿，得到超分辨率第三视频帧；

将超分辨率第五视频帧和超分辨率第三视频帧，替换至流媒体视频中，得到流媒体超分辨率视频。

作为本发明的一种优选方案，所述视频帧完整性评价，包括：

依次将各个第一视频帧输入至视频帧分类模型，由所述视频帧分类模型输出对第一视频帧的分类标签，所述分类标签包括高完整性和低完整性；

将具有高完整性标签的第一视频帧标记为第二视频帧；

将具有低完整性标签的第一视频帧标记为第三视频帧；

所述视频帧分类模型由神经网络对第一视频帧进行大数据训练得到。

作为本发明的一种优选方案，所述预测视觉模型的构建，包括：

在流媒体视频的第一视频帧的序列顺序中，提取处于相邻第三视频帧之间的所有第二视频帧作为第二视频帧序列；

将第二视频帧序列，通过基于LSTM网络学习训练，得到预测视觉模型；

所述预测视觉模型的模型表达式为：K2p_i=LSTM(K2₁,k2₂,…,k2_i-1)；式中，K2p_i为第二视频帧序列中第i个第二视频帧的预测值，K2₁,k2₂,…,k2_i-1分别为第二视频帧序列中第1个，第2个，…，第i-1个真实值，LSTM为LSTM神经网络，i为计数变量，i>1。作为本发明的一种优选方案，所述第四视频帧的得到，包括：

将第二视频帧序列中任一第二视频帧的序列前端的所有第二视频帧真实值，输入至预测视觉模型中，由预测视觉模型输出所述任一第二视频帧的预测值；

将任一第二视频帧的预测值标记为第四视频帧。

作为本发明的一种优选方案，所述根据第四视频帧和第二视频帧，通过特征融合，得到第五视频帧，包括：

在第二视频帧序列中将同一序列位置处的第四视频帧和第二视频帧，分别通过CNN神经网络进行图像特征提取，得到同一序列位置处的第四视频帧的图像特征和第二视频帧的图像特征图；

将同一序列位置处的第四视频帧的图像特征图和第二视频帧的图像特征图，进行sofmax网络分类，得到新图像特征图；

将所述新图像特征图作为所述第五视频帧，所述第五视频帧具有第二视频帧的序列位置。

作为本发明的一种优选方案，所述根据超分辨率第五视频帧，对第三视频帧进行视频帧完整度补偿，得到超分辨率第三视频帧，包括：

在流媒体视频的第一视频帧的序列顺序中，获取第三视频帧相邻两端的超分辨率第五视频帧；

将第三视频帧相邻两端的超分辨率第五视频帧进行特征融合，得到超分辨率第三视频帧。

作为本发明的一种优选方案，所述第三视频帧相邻两端的超分辨率第五视频帧进行特征融合，包括：

在第三视频帧相邻两端的超分辨率第五视频帧，分别通过CNN神经网络进行图像特征提取，得到第三视频帧相邻两端的超分辨率第五视频帧的图像特征图；

将第三视频帧相邻两端的超分辨率第五视频帧的图像特征图，进行sofmax网络分类，得到第二新图像特征图；

将所述第二新图像特征图作为超分辨第三视频帧，所述超分辨率第三视频帧具有第三视频帧的序列位置。

作为本发明的一种优选方案，所述将超分辨率第五视频帧和超分辨率第三视频帧，替换至流媒体视频中，得到流媒体超分辨率视频，包括：

将超分辨率第五视频帧和超分辨率第三视频帧，分别依据第二视频帧的序列位置和第三视频帧的序列位置，对相应序列位置处的第二视频帧和第三视频帧进行替换，得到所述流媒体超分辨率视频。

在本发明的第二个方面，一种超分辨率视频融合重建装置，包括：

数据获取模块，用于获取流媒体视频，所述流媒体视频中包含有多个第一视频帧；

数据处理模块，用于进行视频帧完整性评价，得到第二视频帧和第三视频帧，其中，第二视频帧对应于画面完整度高的第一视频帧，第三视频帧对应于画面完整度低的第一视频帧；

用于对第二视频帧，通过预测视觉模型，得到第四视频帧，所述预测视觉模型为神经网络，所述第四视频帧对应于神经网络对第二视频帧的预测结果；

用于根据第四视频帧和第二视频帧，通过特征融合，得到第五视频帧，所述第五视频帧对应于第四视频帧和第二视频帧的特征融合结果；

用于对第五视频帧，通过超分辨率处理，得到超分辨率第五视频帧；

用于根据超分辨率第五视频帧，对第三视频帧进行视频帧完整度补偿，得到超分辨率第三视频帧；以及

用于将超分辨率第五视频帧和超分辨率第三视频帧，替换至流媒体视频中，得到流媒体超分辨率视频；

数据存储模块，用于存储视频帧分类模型、预测视觉模型、CNN神经网络和sofmax网络，以及流媒体视频帧的序列顺序。

在本发明的第三个方面，本发明提提供了一种计算机设备，

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使计算机设备执行超分辨率视频融合重建方法。

在本发明的第四个方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现超分辨率视频融合重建方法。

本发明与现有技术相比较具有如下有益效果：

本发明通过预测视觉模型，对视频帧在序列上变化趋势进行学习，实现对视频帧进行模型预测值，视频帧的模型预测值提供了不同于原始视频帧的图形聚焦区域，利用视频帧的模型预测值和视频帧的真实值进行超分辨率重建，增加了高清晰信息量，提升超分辨率重建效果。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例提供的超分辨率视频融合重建方法流程图；

图2为本发明实施例提供的超分辨率视频融合重建装置框图；

图3为本发明实施例提供的计算机装置的内部结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，在本发明的第一个方面，一种超分辨率视频融合重建方法，包括以下步骤：

获取流媒体视频，流媒体视频中包含有多个第一视频帧；

对第二视频帧，通过预测视觉模型，得到第四视频帧，预测视觉模型为神经网络，第四视频帧对应于神经网络对第二视频帧的预测结果；

根据第四视频帧和第二视频帧，通过特征融合，得到第五视频帧，第五视频帧对应于第四视频帧和第二视频帧的特征融合结果；

本发明为了提升视频的视觉效果，对利用超分辨率重建的方法，实现视频的分辨率的提高。

本发明为了提升视频超分辨率重建效果，使超分辨率重建效果达到最佳，利用具有时序预测功能的神经网络构建出预测视觉模型，学习掌握到视频帧在序列上展现出的动态变化趋势，即根据前置序列位置上的视频帧，预测出后置序列位置上的视频帧。

本发明利用预测视觉模型可根据掌握的视频帧在序列上展现出的动态变化趋势，输出每个序列位置上的至少一个视频帧预测值，即根据每个序列位置的前置序列位置的视频帧真实值（位于第一流媒体中的第一视频帧，摄像装置真实拍摄到的视频帧），输出每个序列位置的视频帧预测值，每个序列位置上的视频帧预测值，是一个虚拟值，由模型预测得到，因此，视频帧预测值形成了一个不同于同一序列位置上的视频帧真实值的聚焦视频帧，使得同一序列位置上至少存在两个具有不同聚焦的视频帧。

本发明对同一序列位置上存在的至少两个具有不同聚焦的视频帧进行特征提取，即对同一序列位置上的视频帧真实值和视频帧预测值进行特征提取，由于同一序列位置上的视频帧真实值和视频帧预测值具有不同聚焦，会产生不同聚焦区域，所以视频帧真实值和视频帧预测值的特征提取会获得多个高清晰目标，融合视频帧真实值和视频帧预测值的图像特征，可使得融合得到的视频帧为全聚焦视频帧，即融合得到的视频帧中所有目标均呈高清晰状态。

本发明利用融合得到的所有目标均呈高清晰状态的视频帧，进行超分辨率处理，增加了高清晰信息量，提升视频超分辨率重建效果，使超分辨率重建效果达到最佳。

进一步的，本发明在进行视频帧的超分辨率处理之前，对视频帧进行检测，将视频帧中低完整度的第一视频帧（俗称坏帧）选出，即将视频帧中俗称坏帧的视频帧选出，不对其进行特征融合、超分辨率处理，由于坏帧没有超分辨率处理的意义，因此视频帧检测，能够避免掉无效或无意义的超分辨率处理。

更进一步的，本发明为了保持视频的连贯性，需要保持视频帧的完整性，由于未对坏帧进行超分辨处理，破坏了视频帧超分辨率处理的完整性，导致坏帧依旧存在于视频中，并未得到解决，本发明利用了超分辨处理后的高完整性的视频帧进行融合，得到融合后超分辨率视频帧，用于替换坏帧，实现了坏帧得到超分辨率处理，保持视频连贯性，且使得整个视频中全部的视频帧都是超分辨的视频帧，达到了对视频帧超分辨处理的完整性。

本发明对视频帧进行检测，将视频帧中低完整度的第一视频帧（俗称坏帧）选出，具体如下：

视频帧完整性评价，包括：

依次将各个第一视频帧输入至视频帧分类模型，由视频帧分类模型输出对第一视频帧的分类标签，分类标签包括高完整性和低完整性；

将具有高完整性标签的第一视频帧标记为第二视频帧；

将具有低完整性标签的第一视频帧标记为第三视频帧；

视频帧分类模型由神经网络对第一视频帧进行大数据训练得到。

本发明为了提升视频超分辨率重建效果，使超分辨率重建效果达到最佳，利用具有时序预测功能的神经网络构建出预测视觉模型，具体如下：

预测视觉模型的构建，包括：

预测视觉模型的模型表达式为：K2p_i=LSTM(K2₁,k2₂,…,k2_i-1)；式中，K2p_i为第二视频帧序列中第i个第二视频帧的预测值，K2₁,k2₂,…,k2_i-1分别为第二视频帧序列中第1个，第2个，…，第i-1个真实值，LSTM为LSTM神经网络，i为计数变量，i>1。第四视频帧的得到，包括：

将第二视频帧序列中任一第二视频帧的序列前端的所有第二视频帧真实值，输入至预测视觉模型中，由预测视觉模型输出任一第二视频帧的预测值；

将任一第二视频帧的预测值标记为第四视频帧。

根据第四视频帧和第二视频帧，通过特征融合，得到第五视频帧，包括：

将新图像特征图作为第五视频帧，第五视频帧具有第二视频帧的序列位置。

本发明利用预测视觉模型可根据掌握的视频帧在序列上展现出的动态变化趋势，输出每个序列位置上的至少一个视频帧预测值，即根据每个序列位置的前置序列位置的视频帧真实值（位于第一流媒体中的第一视频帧，摄像装置真实拍摄到的视频帧），输出每个序列位置的视频帧预测值（即第四视频帧），每个序列位置上的视频帧预测值（即第四视频帧），是一个虚拟值，由模型预测得到，因此，视频帧预测值形成了一个不同于同一序列位置上的视频帧真实值的聚焦视频帧，使得同一序列位置上至少存在两个具有不同聚焦的视频帧。

本发明对同一序列位置上存在的至少两个具有不同聚焦的视频帧进行特征提取，即对同一序列位置上的视频帧真实值（即第二视频帧）和视频帧预测值（即第四视频帧）进行特征提取，由于同一序列位置上的视频帧真实值和视频帧预测值具有不同聚焦，会产生不同聚焦区域，所以视频帧真实值和视频帧预测值的特征提取会获得多个高清晰目标，融合视频帧真实值（即第二视频帧）和视频帧预测值（即第四视频帧）的图像特征，可使得融合得到的视频帧为全聚焦视频帧，即融合得到的视频帧中所有目标均呈高清晰状态。

本发明中视频帧预测值虽然是一个模型预测出的虚拟值，但是是神经网络根据视频帧在序列上展现出的动态变化趋势进行预测得到，是具有实际意义，即是视频帧的一种可能性，因而可以作为视频帧在不同聚焦下的结果，形成虚拟视觉和真实视觉的融合，因此可以为视频帧真实值和视频帧预测值提供融合基础，保证方案的可解释性和可实施性。

本发明为了保持视频的连贯性，需要保持视频帧的完整性，利用超分辨率处理后的高完整度的视频帧对低分辨率的视频帧进行补偿，具体如下：

根据超分辨率第五视频帧，对第三视频帧进行视频帧完整度补偿，得到超分辨率第三视频帧，包括：

第三视频帧相邻两端的超分辨率第五视频帧进行特征融合，包括：

将第二新图像特征图作为超分辨第三视频帧，超分辨率第三视频帧具有第三视频帧的序列位置。

将超分辨率第五视频帧和超分辨率第三视频帧，替换至流媒体视频中，得到流媒体超分辨率视频，包括：

将超分辨率第五视频帧和超分辨率第三视频帧，分别依据第二视频帧的序列位置和第三视频帧的序列位置，对相应序列位置处的第二视频帧和第三视频帧进行替换，得到流媒体超分辨率视频。

本发明为了保持视频的连贯性，需要保持视频帧的完整性，由于未对坏帧（第三视频帧）进行超分辨处理，破坏了视频帧超分辨率处理的完整性，导致坏帧（第三视频帧）依旧存在于视频中，并未得到解决，本发明利用了超分辨处理后的高完整性的视频帧（超分辨率第五视频帧）进行融合，得到融合后超分辨率视频帧，用于替换坏帧（第三视频帧），实现了坏帧（第三视频帧）得到超分辨率处理，保持视频连贯性，且使得整个视频中全部的视频帧都是超分辨的视频帧，达到了对视频帧超分辨处理的完整性。

本发明中采用通道注意力模型、空间注意力模型和多头自注意力模型，融合三者的优势进行互补，达到分辨率提升效果的目的，其中，多头自注意力模型是基于ResNet-101进行的改进，Res-2, Res-3, Res-4, Res-5所生成的特征图，将他们通过线性插值的方式上采样到相同的尺寸，进行连接操作，而后进行卷积操作，生成多尺寸注意力特征图（全局特征），空间注意力模型用于对全局特征的空间上下文进行建模，增强每个特征图的空间表达，通道注意力模型用于更好地构建通道之间的依赖关系，扩大感受野，从而帮助空间注意力模型捕获全局特征的空间表达，融合过程具体为：通过多尺寸的策略（多头自注意力模型）来获取视频帧的全局特征, 然后将所学习到的视频帧全局特征引入到注意力模块中，注意力模块由通道注意力模型、空间注意力模型两部分组成，一方面可以帮助局部特征与全局特征的融合，另一方面也可以过滤到不相关的噪音信息。

如图2所示，在本发明的第二个方面，一种超分辨率视频融合重建装置，包括：

数据获取模块，用于获取流媒体视频，流媒体视频中包含有多个第一视频帧；

用于对第二视频帧，通过预测视觉模型，得到第四视频帧，预测视觉模型为神经网络，第四视频帧对应于神经网络对第二视频帧的预测结果；

用于根据第四视频帧和第二视频帧，通过特征融合，得到第五视频帧，第五视频帧对应于第四视频帧和第二视频帧的特征融合结果；

如图3所示，在本发明的第三个方面，本发明提提供了一种计算机设备，至少一个处理器；以及

与至少一个处理器通信连接的存储器；

其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使计算机设备执行超分辨率视频融合重建方法。

在本发明的第四个方面，本发明提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当处理器执行计算机执行指令时，实现超分辨率视频融合重建方法。

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

Claims

1.一种超分辨率视频融合重建方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种超分辨率视频融合重建方法，其特征在于：所述视频帧完整性评价，包括：

将具有高完整性标签的第一视频帧标记为第二视频帧；

将具有低完整性标签的第一视频帧标记为第三视频帧；

3.根据权利要求2所述的一种超分辨率视频融合重建方法，其特征在于：所述预测视觉模型的构建，包括：

所述预测视觉模型的模型表达式为：K2p_i=LSTM(K2₁,k2₂,…,k2_i-1)；式中，K2p_i为第二视频帧序列中第i个第二视频帧的预测值，K2₁,k2₂,…,k2_i-1分别为第二视频帧序列中第1个，第2个，…，第i-1个真实值，LSTM为LSTM神经网络，i为计数变量，i>1。

4.根据权利要求3所述的一种超分辨率视频融合重建方法，其特征在于：所述第四视频帧的得到，包括：

将任一第二视频帧的预测值标记为第四视频帧。

5.根据权利要求4所述的一种超分辨率视频融合重建方法，其特征在于：所述根据第四视频帧和第二视频帧，通过特征融合，得到第五视频帧，包括：

6.根据权利要求5所述的一种超分辨率视频融合重建方法，其特征在于：所述根据超分辨率第五视频帧，对第三视频帧进行视频帧完整度补偿，得到超分辨率第三视频帧，包括：

7.根据权利要求6所述的一种超分辨率视频融合重建方法，其特征在于：所述第三视频帧相邻两端的超分辨率第五视频帧进行特征融合，包括：

8.根据权利要求7所述的一种超分辨率视频融合重建方法，其特征在于：所述将超分辨率第五视频帧和超分辨率第三视频帧，替换至流媒体视频中，得到流媒体超分辨率视频，包括：

9.一种超分辨率视频融合重建装置，其特征在于，包括：

10.一种计算机设备，其特征在于，

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使计算机设备执行权利要求 1-8 任一项所述的方法。