CN117061790B

CN117061790B - 流媒体视频帧渲染方法、装置及存储介质

Info

Publication number: CN117061790B
Application number: CN202311316478.0A
Authority: CN
Inventors: 刘琦; 王曜; 许亦; 贺国超; 请求不公布姓名
Original assignee: Shenzhen Yuntian Changxiang Information Technology Co ltd
Current assignee: Shenzhen Yuntian Changxiang Information Technology Co ltd
Priority date: 2023-10-12
Filing date: 2023-10-12
Publication date: 2024-01-30
Anticipated expiration: 2043-10-12
Also published as: CN117061790A

Abstract

本发明公开了一种流媒体视频帧渲染方法、装置及存储介质，包括以下步骤：对高视频帧质量的视频帧，通过分辨率增强模型进行超分辨率处理，得到超分辨率的高视频帧质量的视频帧；根据超分辨率的高视频帧质量的视频帧，对低视频帧质量的视频帧进行视频帧质量补偿，得到超分辨率的低视频质量的视频帧；对超分辨率的高视频帧质量的视频帧和超分辨率的低视频帧质量的视频帧，进行渲染处理，得到视频帧的超分辨率渲染结果。本发明利用多因子融合技术在渲染前对视频帧进行超分辨处理，融合通道注意力模型、空间注意力模型和多头自注意力模型的优点进行互补，避免单一处理方法的缺点，分辨率提升效果更好。

Description

流媒体视频帧渲染方法、装置及存储介质

技术领域

本发明涉及视频帧处理技术领域，具体涉及一种流媒体视频帧渲染方法、装置及存储介质。

背景技术

流媒体已经遍布人们工作生活的方方面面，例如电视、手机、笔记本等各种终端中都要使用流媒体进行视频及云视频播放。相应的，人们对视频播放质量的要求，包括清晰度、流畅性、实时性等方面要求也越来越高。很多流媒体场景比如云游戏的云渲染(Rendering)，是在云端完成渲染，然后将渲染得到的视频图像编码串流传输至端侧，由端侧对接收到的码流进行解码。这样，端侧可以获取到高质量的渲染内容实现视频播放。

现有技术中需要在保持视频帧渲染效果时，进行视频帧预处理，提高视频帧的分辨率，但是通过图像的本身内容提高图像的分辨率，并没有带来更多纹理轮廓信息，相反还有噪声放大、计算复杂度增加、结果模糊等副作用，而且多方法融合多方优点的分辨率提高方法，以人为经验确定融合权重，导致多方法融合多方优点的分辨率提高方法难以摆脱经验性融合，达不到最佳效果。

发明内容

本发明的目的在于提供一种流媒体视频帧渲染方法、装置及存储介质，以解决现有技术中通过多方法融合多方优点的分辨率提高方法，难以摆脱经验融合，达不到最佳效果的技术问题。

为解决上述技术问题，本发明具体提供下述技术方案：

在本发明的第一个方面，本发明提供了一种流媒体视频帧渲染方法，包括以下步骤：

获取流媒体视频，所述流媒体视频中包含有多个视频帧；

对视频帧进行视频帧质量评价，得到高视频帧质量的视频帧和低视频帧质量的视频帧；

对高视频帧质量的视频帧，通过分辨率增强模型进行超分辨率处理，得到超分辨率的高视频帧质量的视频帧，其中，分辨率增强模型由通道注意力模型、空间注意力模型和多头自注意力模型进行多模型融合得到；

根据超分辨率的高视频帧质量的视频帧，对低视频帧质量的视频帧进行视频帧质量补偿，得到超分辨率的低视频帧质量的视频帧；

对超分辨率的高视频帧质量的视频帧和超分辨率的低视频帧质量的视频帧，进行渲染处理，得到视频帧的超分辨率渲染结果。

作为本发明的一种优选方案，所述对视频帧进行视频帧质量评价，得到高视频帧质量的视频帧和低视频帧质量的视频帧，包括：

依次将各个视频帧输入至视频帧分类模型，由所述视频帧分类网络输出对视频帧的分类结果，所述分类结果包括高视频帧质量的视频帧和低视频帧质量的视频帧；

所述视频帧分类模型由神经网络对视频帧进行大数据训练得到。

作为本发明的一种优选方案，所述对高视频帧质量的视频帧，通过分辨率增强模型进行超分辨率处理，得到超分辨率的高视频帧质量的视频帧，包括：

将高视频帧质量的视频帧的分辨率与超分辨率阈值进行比较，其中，

当高视频帧质量的视频帧的分辨率小于超分辨率阈值，则对高视频帧质量的视频帧的分辨率利用分辨率增强模型进行分辨率增强，得到超分辨率的高视频帧质量的视频帧；

当高视频帧质量的视频帧的分辨率大于或等于超分辨率阈值，则将高视频帧质量的视频帧直接作为超分辨率的高视频帧质量的视频帧。

作为本发明的一种优选方案，利用分辨率增强模型对高视频帧质量的视频帧的分辨率进行分辨率增强，包括：

将高视频帧质量的视频帧，通过通道注意力模型，获取所述视频帧的通道注意力特征图；

将高视频帧质量的视频帧，通过空间注意力模型，获取所述视频帧的空间注意力特征图；

将高视频帧质量的视频帧，通过多头自注意力模型，获取所述视频帧的多尺寸注意力特征图；

将所述视频帧的通道注意力特征图、所述视频帧的空间注意力特征图和所述视频帧的多尺寸注意力特征图进行加权融合，得到所述超分辨率的高视频帧质量的视频帧。

作为本发明的一种优选方案，所述视频帧的通道注意力特征图、所述视频帧的空间注意力特征图和所述视频帧的多尺寸注意力特征图的融合权重确定，包括：

将所述通道注意力特征图、所述空间注意力特征图和多尺寸注意力特征图输入至预建立的权重测算模型中，由权重测算模型得到所述通道注意力特征图的融合权重、所述空间注意力特征图的融合权重和多尺寸注意力特征图的融合权重；

其中，所述权重测算模型的预构建，包括：

选取多个样本视频帧，并获取样本视频帧的通道注意力特征图、所述空间注意力特征图和多尺寸注意力特征图；

在每个样本视频帧中随机设定多组通道注意力特征图、所述空间注意力特征图和多尺寸注意力特征图的融合权重；

在每个样本视频帧中依次利用每组融合权重对通道注意力特征图、所述空间注意力特征图和多尺寸注意力特征图进行加权融合，得到每个样本视频帧的多组超分辨处理结果；

利用神经网络对每个样本视频帧的通道注意力特征图、所述空间注意力特征图和多尺寸注意力特征图的融合权重与融合权重对应获得的超分辨率处理结果进行卷积学习，得到每个样本视频帧的超分辨率测算模型；

利用每个样本视频帧的超分辨率测算模型测算出每个样本视频帧的通道注意力特征图、所述空间注意力特征图和多尺寸注意力特征图的融合权重所有可选值对应的超分辨率处理结果，并在融合权重所有可选值对应的超分辨率处理结果中选出最高分辨率对应的融合权重，作为每个样本视频帧的通道注意力特征图、所述空间注意力特征图和多尺寸注意力特征图的融合权重最优选；

在多个视频帧中利用神经网络对通道注意力特征图、所述空间注意力特征图和多尺寸注意力特征图和通道注意力特征图、所述空间注意力特征图和多尺寸注意力特征图的融合权重最优选进行卷积学习，得到所述权重测算模型；

所述权重测算模型的模型表达式为：

[W1,W2,W3]=BP(G1,G2,G3)；

其中，W1，W2，W3分别为通道注意力特征图、所述空间注意力特征图和多尺寸注意力特征图的融合权重，G1，G2，G3分别为通道注意力特征图、所述空间注意力特征图和多尺寸注意力特征图，BP为神经网络。

作为本发明的一种优选方案，所述根据超分辨率的高视频帧质量的视频帧，对低视频帧质量的视频帧进行视频帧质量补偿，得到超分辨率的低视频帧质量的视频帧，包括：

依据流媒体视频中视频帧的排列顺序，获取低视频帧质量的视频帧两侧的超分辨率的高视频帧质量的视频帧；

将低视频帧质量的视频帧两侧的超分辨率的高视频帧质量的视频帧进行融合，得到超分辨率的融合视频帧替换低视频帧质量的视频帧，成为超分辨率的低视频帧质量的视频帧。

作为本发明的一种优选方案，所述超分辨率的高视频帧质量的视频帧和超分辨率的低视频帧质量的视频帧依据流媒体视频中视频帧的排列顺序进行排列。

作为本发明的一种优选方案，对超分辨率的高视频帧质量的视频帧和超分辨率的低视频帧质量的视频帧采用多帧渲染方式进行渲染处理。

在本发明的第二个方面，本发明提供了一种计算机装置，

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使电子设备执行流媒体视频帧渲染方法。

在本发明的第三个方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现流媒体视频帧渲染方法。

本发明与现有技术相比较具有如下有益效果：

本发明利用在渲染前对视频帧进行超分辨处理，融合通道注意力模型、空间注意力模型和多头自注意力模型的优点进行互补，避免单一处理方法的缺点，分辨率提升效果更好，同时利用神经网络对融合方法进行权重客观化确定，摆脱经验融合，以期达到分辨率处理的最佳效果。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例提供的流媒体视频帧渲染方法流程图；

图2为本发明实施例提供的计算机装置的内部结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，在本发明的第一个方面，本发明提供了一种流媒体视频帧渲染方法，包括以下步骤：

获取流媒体视频，流媒体视频中包含有多个视频帧；

本发明为了获得最佳的视频渲染效果，在渲染之前对视频帧进行超分辨率处理，提高视频帧的分辨率，使得渲染后的视频帧具有高分辨率。

本发明为了提高视频帧超分辨处理的效果，突出视频帧中重要区域的特征，抑制噪音，分辨率提升效果最佳，利用多因子融合思想，将多种注意力模型应用于超分辨率处理，包括通道注意力模型、空间注意力模型和多头自注意力模型，融合三者的优势进行互补，达到分辨率提升效果的目的。

本发明在融合通道注意力模型、空间注意力模型和多头自注意力模型的优势时，利用神经网络进行融合权重的确定，客观化、自动化确定了最优的融合权重，能够使得三者模型的优势在融合中发挥到最大，达到分辨率提升效果最佳的目的。

进一步的，本发明在进行视频帧的超分辨率处理之前，对视频帧进行检测，将视频帧中低视频帧质量的视频帧（俗称坏帧）选出，即将视频帧中俗称坏帧的视频帧选出，不对其进行超分辨率处理，由于坏帧没有渲染处理的意义，因此视频帧检测，能够避免掉无效或无意义的超分辨率处理。

更进一步的，本发明为了保持渲染后视频的连贯性，需要保持视频帧的完整性，由于未对坏帧进行超分辨处理，破坏了视频帧超分辨率处理的完整性，导致坏帧依旧存在于视频中，并未得到解决，本发明利用了超分辨处理后的高视频帧质量的视频帧进行融合，得到融合后超分辨率视频帧，用于替换坏帧，实现了坏帧得到超分辨率处理，保持视频连贯性，且使得整个视频中全部的视频帧都是超分辨的视频帧，达到了对视频帧超分辨处理的完整性。

本发明在进行视频帧的超分辨率处理之前，对视频帧进行检测，将视频帧中低视频帧质量的视频帧（俗称坏帧）选出，具体如下：

对视频帧进行视频帧质量评价，得到高视频帧质量的视频帧和低视频帧质量的视频帧，包括：

依次将各个视频帧输入至视频帧分类模型，由视频帧分类网络输出对视频帧的分类结果，分类结果包括高视频帧质量的视频帧和低视频帧质量的视频帧；

视频帧分类模型由神经网络对视频帧进行大数据训练得到。

对高视频帧质量的视频帧，通过分辨率增强模型进行超分辨率处理，得到超分辨率的高视频帧质量的视频帧，包括：

本发明为了提高视频帧超分辨处理的效果，突出视频帧中重要区域的特征，抑制噪音，分辨率提升效果最佳，利用多因子融合思想，将多种注意力模型应用于超分辨率处理，包括通道注意力模型、空间注意力模型和多头自注意力模型，融合三者的优势进行互补，达到分辨率提升效果的目的，具体如下：

利用分辨率增强模型对高视频帧质量的视频帧的分辨率进行分辨率增强，包括：

将高视频帧质量的视频帧，通过通道注意力模型，获取视频帧的通道注意力特征图；

将高视频帧质量的视频帧，通过空间注意力模型，获取视频帧的空间注意力特征图；

将高视频帧质量的视频帧，通过多头自注意力模型，获取视频帧的多尺寸注意力特征图；

本发明中采用通道注意力模型、空间注意力模型和多头自注意力模型，融合三者的优势进行互补，达到分辨率提升效果的目的，其中，多头自注意力模型是基于ResNet-101进行的改进，Res-2, Res-3, Res-4, Res-5所生成的特征图，将他们通过线性插值的方式上采样到相同的尺寸，进行连接操作，而后进行卷积操作，生成多尺寸注意力特征图（全局特征），空间注意力模型用于对全局特征的空间上下文进行建模，增强每个特征图的空间表达，通道注意力模型用于更好地构建通道之间的依赖关系，扩大感受野，从而帮助空间注意力模型捕获全局特征的空间表达，融合过程具体为：通过多尺寸的策略（多头自注意力模型）来获取视频帧的全局特征, 然后将所学习到的视频帧全局特征引入到注意力模块中，注意力模块由通道注意力模型、空间注意力模型两部分组成，一方面可以帮助局部特征与全局特征的融合，另一方面也可以过滤到不相关的噪音信息。

本发明在融合通道注意力模型、空间注意力模型和多头自注意力模型的优势时，利用神经网络进行融合权重的确定，客观化、自动化确定了最优的融合权重，能够使得三者模型的优势在融合中发挥到最大，达到分辨率提升效果最佳的目的，具体如下：

将视频帧的通道注意力特征图、视频帧的空间注意力特征图和视频帧的多尺寸注意力特征图进行加权融合，得到超分辨率的高视频帧质量的视频帧。

视频帧的通道注意力特征图、视频帧的空间注意力特征图和视频帧的多尺寸注意力特征图的融合权重确定，包括：

将通道注意力特征图、空间注意力特征图和多尺寸注意力特征图输入至预建立的权重测算模型中，由权重测算模型得到通道注意力特征图的融合权重、空间注意力特征图的融合权重和多尺寸注意力特征图的融合权重；

其中，权重测算模型的预构建，包括：

选取多个样本视频帧，并获取样本视频帧的通道注意力特征图、空间注意力特征图和多尺寸注意力特征图；

在每个样本视频帧中随机设定多组通道注意力特征图、空间注意力特征图和多尺寸注意力特征图的融合权重；

在每个样本视频帧中依次利用每组融合权重对通道注意力特征图、空间注意力特征图和多尺寸注意力特征图进行加权融合，得到每个样本视频帧的多组超分辨处理结果；

利用神经网络对每个样本视频帧的通道注意力特征图、空间注意力特征图和多尺寸注意力特征图的融合权重与融合权重对应获得的超分辨率处理结果进行卷积学习，得到每个样本视频帧的超分辨率测算模型；

利用每个样本视频帧的超分辨率测算模型测算出每个样本视频帧的通道注意力特征图、空间注意力特征图和多尺寸注意力特征图的融合权重所有可选值对应的超分辨率处理结果，并在融合权重所有可选值对应的超分辨率处理结果中选出最高分辨率对应的融合权重，作为每个样本视频帧的通道注意力特征图、空间注意力特征图和多尺寸注意力特征图的融合权重最优选；

在多个视频帧中利用神经网络对通道注意力特征图、空间注意力特征图和多尺寸注意力特征图和通道注意力特征图、空间注意力特征图和多尺寸注意力特征图的融合权重最优选进行卷积学习，得到权重测算模型；

权重测算模型的模型表达式为：

[W1,W2,W3]=BP(G1,G2,G3)；

其中，W1，W2，W3分别为通道注意力特征图、空间注意力特征图和多尺寸注意力特征图的融合权重，G1，G2，G3分别为通道注意力特征图、空间注意力特征图和多尺寸注意力特征图，BP为神经网络。

本发明利用神经网络构建出权重测算模型，直接可根据通道注意力特征图、空间注意力特征图和多尺寸注意力特征图，测算出对应的融合权重，效率高。

本发明在构建权重测算模型时，基于的样本数据来自于每个样本视频帧通道注意力特征图、空间注意力特征图和多尺寸注意力特征图的融合权重的最优选，因此保持权重测算模型效率高的同时，能够保证测算准确度高。

本发明为了确定样本视频帧的融合权重的最优选，通过超分辨率测算模型进行自动化测算分析，分析效率高，客观性强。

本发明为了保持渲染后视频的连贯性，需要保持视频帧的完整性，由于未对坏帧进行超分辨处理，破坏了视频帧超分辨率处理的完整性，导致坏帧依旧存在于视频中，并未得到解决，本发明利用了超分辨处理后的高视频帧质量的视频帧进行融合，得到融合后超分辨率视频帧，用于替换坏帧，实现了坏帧得到超分辨率处理，保持视频连贯性，且使得整个视频中全部的视频帧都是超分辨的视频帧，达到了对视频帧超分辨处理的完整性，具体如下：

根据超分辨率的高视频帧质量的视频帧，对低视频帧质量的视频帧进行视频帧质量补偿，得到超分辨率的低视频帧质量的视频帧，包括：

超分辨率的高视频帧质量的视频帧和超分辨率的低视频帧质量的视频帧依据流媒体视频中视频帧的排列顺序进行排列。

对超分辨率的高视频帧质量的视频帧和超分辨率的低视频帧质量的视频帧采用多帧渲染方式进行渲染处理。

如图2所示，在本发明的第二个方面，本发明提供了一种计算机装置，

至少一个处理器；以及

与至少一个处理器通信连接的存储器；

其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使电子设备执行流媒体视频帧渲染方法。

在本发明的第三个方面，本发明提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当处理器执行计算机执行指令时，实现流媒体视频帧渲染方法。

本发明利用多因子融合技术在渲染前对视频帧进行超分辨处理，融合通道注意力模型、空间注意力模型和多头自注意力模型的优点进行互补，避免单一处理方法的缺点，分辨率提升效果更好，同时利用神经网络对融合方法进行权重客观化确定，摆脱经验融合，以期达到分辨率处理的最佳效果。

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

Claims

1.一种流媒体视频帧渲染方法，其特征在于，包括以下步骤：

获取流媒体视频，所述流媒体视频中包含有多个视频帧；

2.根据权利要求1所述的一种流媒体视频帧渲染方法，其特征在于：所述对视频帧进行视频帧质量评价，得到高视频帧质量的视频帧和低视频帧质量的视频帧，包括：

依次将各个视频帧输入至视频帧分类模型，由所述视频帧分类模型输出对视频帧的分类结果，所述分类结果包括高视频帧质量的视频帧和低视频帧质量的视频帧；

3.根据权利要求2所述的一种流媒体视频帧渲染方法，其特征在于：所述对高视频帧质量的视频帧，通过分辨率增强模型进行超分辨率处理，得到超分辨率的高视频帧质量的视频帧，包括：

4.根据权利要求3所述的一种流媒体视频帧渲染方法，其特征在于：利用分辨率增强模型对高视频帧质量的视频帧的分辨率进行分辨率增强，包括：

5.根据权利要求4所述的一种流媒体视频帧渲染方法，其特征在于：

所述视频帧的通道注意力特征图、所述视频帧的空间注意力特征图和所述视频帧的多尺寸注意力特征图的融合权重确定，包括：

其中，所述权重测算模型的预构建，包括：

所述权重测算模型的模型表达式为：

[W1,W2,W3]=BP(G1,G2,G3)；

6.根据权利要求5所述的一种流媒体视频帧渲染方法，其特征在于：所述根据超分辨率的高视频帧质量的视频帧，对低视频帧质量的视频帧进行视频帧质量补偿，得到超分辨率的低视频帧质量的视频帧，包括：

7.根据权利要求6所述的一种流媒体视频帧渲染方法，其特征在于：所述超分辨率的高视频帧质量的视频帧和超分辨率的低视频帧质量的视频帧依据流媒体视频中视频帧的排列顺序进行排列。

8.根据权利要求7所述的一种流媒体视频帧渲染方法，其特征在于：对超分辨率的高视频帧质量的视频帧和超分辨率的低视频帧质量的视频帧采用多帧渲染方式进行渲染处理。

9.一种计算机装置，其特征在于，

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使计算机装置执行权利要求 1-8 任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求 1-8 任一项所述的方法。