CN117061790B - 流媒体视频帧渲染方法、装置及存储介质 - Google Patents

流媒体视频帧渲染方法、装置及存储介质 Download PDF

Info

Publication number
CN117061790B
CN117061790B CN202311316478.0A CN202311316478A CN117061790B CN 117061790 B CN117061790 B CN 117061790B CN 202311316478 A CN202311316478 A CN 202311316478A CN 117061790 B CN117061790 B CN 117061790B
Authority
CN
China
Prior art keywords
video frame
video
resolution
quality
super
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311316478.0A
Other languages
English (en)
Other versions
CN117061790A (zh
Inventor
刘琦
王曜
许亦
贺国超
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yuntian Changxiang Information Technology Co ltd
Original Assignee
Shenzhen Yuntian Changxiang Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yuntian Changxiang Information Technology Co ltd filed Critical Shenzhen Yuntian Changxiang Information Technology Co ltd
Priority to CN202311316478.0A priority Critical patent/CN117061790B/zh
Publication of CN117061790A publication Critical patent/CN117061790A/zh
Application granted granted Critical
Publication of CN117061790B publication Critical patent/CN117061790B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23412Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs for generating or manipulating the scene composition of objects, e.g. MPEG-4 objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234363Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the spatial resolution, e.g. for clients with a lower screen resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Television Systems (AREA)

Abstract

本发明公开了一种流媒体视频帧渲染方法、装置及存储介质,包括以下步骤:对高视频帧质量的视频帧,通过分辨率增强模型进行超分辨率处理,得到超分辨率的高视频帧质量的视频帧;根据超分辨率的高视频帧质量的视频帧,对低视频帧质量的视频帧进行视频帧质量补偿,得到超分辨率的低视频质量的视频帧;对超分辨率的高视频帧质量的视频帧和超分辨率的低视频帧质量的视频帧,进行渲染处理,得到视频帧的超分辨率渲染结果。本发明利用多因子融合技术在渲染前对视频帧进行超分辨处理,融合通道注意力模型、空间注意力模型和多头自注意力模型的优点进行互补,避免单一处理方法的缺点,分辨率提升效果更好。

Description

流媒体视频帧渲染方法、装置及存储介质
技术领域
本发明涉及视频帧处理技术领域,具体涉及一种流媒体视频帧渲染方法、装置及存储介质。
背景技术
流媒体已经遍布人们工作生活的方方面面,例如电视、手机、笔记本等各种终端中都要使用流媒体进行视频及云视频播放。相应的,人们对视频播放质量的要求,包括清晰度、流畅性、实时性等方面要求也越来越高。很多流媒体场景比如云游戏的云渲染(Rendering),是在云端完成渲染,然后将渲染得到的视频图像编码串流传输至端侧,由端侧对接收到的码流进行解码。这样,端侧可以获取到高质量的渲染内容实现视频播放。
现有技术中需要在保持视频帧渲染效果时,进行视频帧预处理,提高视频帧的分辨率,但是通过图像的本身内容提高图像的分辨率,并没有带来更多纹理轮廓信息,相反还有噪声放大、计算复杂度增加、结果模糊等副作用,而且多方法融合多方优点的分辨率提高方法,以人为经验确定融合权重,导致多方法融合多方优点的分辨率提高方法难以摆脱经验性融合,达不到最佳效果。
发明内容
本发明的目的在于提供一种流媒体视频帧渲染方法、装置及存储介质,以解决现有技术中通过多方法融合多方优点的分辨率提高方法,难以摆脱经验融合,达不到最佳效果的技术问题。
为解决上述技术问题,本发明具体提供下述技术方案:
在本发明的第一个方面,本发明提供了一种流媒体视频帧渲染方法,包括以下步骤:
获取流媒体视频,所述流媒体视频中包含有多个视频帧;
对视频帧进行视频帧质量评价,得到高视频帧质量的视频帧和低视频帧质量的视频帧;
对高视频帧质量的视频帧,通过分辨率增强模型进行超分辨率处理,得到超分辨率的高视频帧质量的视频帧,其中,分辨率增强模型由通道注意力模型、空间注意力模型和多头自注意力模型进行多模型融合得到;
根据超分辨率的高视频帧质量的视频帧,对低视频帧质量的视频帧进行视频帧质量补偿,得到超分辨率的低视频帧质量的视频帧;
对超分辨率的高视频帧质量的视频帧和超分辨率的低视频帧质量的视频帧,进行渲染处理,得到视频帧的超分辨率渲染结果。
作为本发明的一种优选方案,所述对视频帧进行视频帧质量评价,得到高视频帧质量的视频帧和低视频帧质量的视频帧,包括:
依次将各个视频帧输入至视频帧分类模型,由所述视频帧分类网络输出对视频帧的分类结果,所述分类结果包括高视频帧质量的视频帧和低视频帧质量的视频帧;
所述视频帧分类模型由神经网络对视频帧进行大数据训练得到。
作为本发明的一种优选方案,所述对高视频帧质量的视频帧,通过分辨率增强模型进行超分辨率处理,得到超分辨率的高视频帧质量的视频帧,包括:
将高视频帧质量的视频帧的分辨率与超分辨率阈值进行比较,其中,
当高视频帧质量的视频帧的分辨率小于超分辨率阈值,则对高视频帧质量的视频帧的分辨率利用分辨率增强模型进行分辨率增强,得到超分辨率的高视频帧质量的视频帧;
当高视频帧质量的视频帧的分辨率大于或等于超分辨率阈值,则将高视频帧质量的视频帧直接作为超分辨率的高视频帧质量的视频帧。
作为本发明的一种优选方案,利用分辨率增强模型对高视频帧质量的视频帧的分辨率进行分辨率增强,包括:
将高视频帧质量的视频帧,通过通道注意力模型,获取所述视频帧的通道注意力特征图;
将高视频帧质量的视频帧,通过空间注意力模型,获取所述视频帧的空间注意力特征图;
将高视频帧质量的视频帧,通过多头自注意力模型,获取所述视频帧的多尺寸注意力特征图;
将所述视频帧的通道注意力特征图、所述视频帧的空间注意力特征图和所述视频帧的多尺寸注意力特征图进行加权融合,得到所述超分辨率的高视频帧质量的视频帧。
作为本发明的一种优选方案,所述视频帧的通道注意力特征图、所述视频帧的空间注意力特征图和所述视频帧的多尺寸注意力特征图的融合权重确定,包括:
将所述通道注意力特征图、所述空间注意力特征图和多尺寸注意力特征图输入至预建立的权重测算模型中,由权重测算模型得到所述通道注意力特征图的融合权重、所述空间注意力特征图的融合权重和多尺寸注意力特征图的融合权重;
其中,所述权重测算模型的预构建,包括:
选取多个样本视频帧,并获取样本视频帧的通道注意力特征图、所述空间注意力特征图和多尺寸注意力特征图;
在每个样本视频帧中随机设定多组通道注意力特征图、所述空间注意力特征图和多尺寸注意力特征图的融合权重;
在每个样本视频帧中依次利用每组融合权重对通道注意力特征图、所述空间注意力特征图和多尺寸注意力特征图进行加权融合,得到每个样本视频帧的多组超分辨处理结果;
利用神经网络对每个样本视频帧的通道注意力特征图、所述空间注意力特征图和多尺寸注意力特征图的融合权重与融合权重对应获得的超分辨率处理结果进行卷积学习,得到每个样本视频帧的超分辨率测算模型;
利用每个样本视频帧的超分辨率测算模型测算出每个样本视频帧的通道注意力特征图、所述空间注意力特征图和多尺寸注意力特征图的融合权重所有可选值对应的超分辨率处理结果,并在融合权重所有可选值对应的超分辨率处理结果中选出最高分辨率对应的融合权重,作为每个样本视频帧的通道注意力特征图、所述空间注意力特征图和多尺寸注意力特征图的融合权重最优选;
在多个视频帧中利用神经网络对通道注意力特征图、所述空间注意力特征图和多尺寸注意力特征图和通道注意力特征图、所述空间注意力特征图和多尺寸注意力特征图的融合权重最优选进行卷积学习,得到所述权重测算模型;
所述权重测算模型的模型表达式为:
[W1,W2,W3]=BP(G1,G2,G3);
其中,W1,W2,W3分别为通道注意力特征图、所述空间注意力特征图和多尺寸注意力特征图的融合权重,G1,G2,G3分别为通道注意力特征图、所述空间注意力特征图和多尺寸注意力特征图,BP为神经网络。
作为本发明的一种优选方案,所述根据超分辨率的高视频帧质量的视频帧,对低视频帧质量的视频帧进行视频帧质量补偿,得到超分辨率的低视频帧质量的视频帧,包括:
依据流媒体视频中视频帧的排列顺序,获取低视频帧质量的视频帧两侧的超分辨率的高视频帧质量的视频帧;
将低视频帧质量的视频帧两侧的超分辨率的高视频帧质量的视频帧进行融合,得到超分辨率的融合视频帧替换低视频帧质量的视频帧,成为超分辨率的低视频帧质量的视频帧。
作为本发明的一种优选方案,所述超分辨率的高视频帧质量的视频帧和超分辨率的低视频帧质量的视频帧依据流媒体视频中视频帧的排列顺序进行排列。
作为本发明的一种优选方案,对超分辨率的高视频帧质量的视频帧和超分辨率的低视频帧质量的视频帧采用多帧渲染方式进行渲染处理。
在本发明的第二个方面,本发明提供了一种计算机装置,
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使电子设备执行流媒体视频帧渲染方法。
在本发明的第三个方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现流媒体视频帧渲染方法。
本发明与现有技术相比较具有如下有益效果:
本发明利用在渲染前对视频帧进行超分辨处理,融合通道注意力模型、空间注意力模型和多头自注意力模型的优点进行互补,避免单一处理方法的缺点,分辨率提升效果更好,同时利用神经网络对融合方法进行权重客观化确定,摆脱经验融合,以期达到分辨率处理的最佳效果。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本发明实施例提供的流媒体视频帧渲染方法流程图;
图2为本发明实施例提供的计算机装置的内部结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,在本发明的第一个方面,本发明提供了一种流媒体视频帧渲染方法,包括以下步骤:
获取流媒体视频,流媒体视频中包含有多个视频帧;
对视频帧进行视频帧质量评价,得到高视频帧质量的视频帧和低视频帧质量的视频帧;
对高视频帧质量的视频帧,通过分辨率增强模型进行超分辨率处理,得到超分辨率的高视频帧质量的视频帧,其中,分辨率增强模型由通道注意力模型、空间注意力模型和多头自注意力模型进行多模型融合得到;
根据超分辨率的高视频帧质量的视频帧,对低视频帧质量的视频帧进行视频帧质量补偿,得到超分辨率的低视频帧质量的视频帧;
对超分辨率的高视频帧质量的视频帧和超分辨率的低视频帧质量的视频帧,进行渲染处理,得到视频帧的超分辨率渲染结果。
本发明为了获得最佳的视频渲染效果,在渲染之前对视频帧进行超分辨率处理,提高视频帧的分辨率,使得渲染后的视频帧具有高分辨率。
本发明为了提高视频帧超分辨处理的效果,突出视频帧中重要区域的特征,抑制噪音,分辨率提升效果最佳,利用多因子融合思想,将多种注意力模型应用于超分辨率处理,包括通道注意力模型、空间注意力模型和多头自注意力模型,融合三者的优势进行互补,达到分辨率提升效果的目的。
本发明在融合通道注意力模型、空间注意力模型和多头自注意力模型的优势时,利用神经网络进行融合权重的确定,客观化、自动化确定了最优的融合权重,能够使得三者模型的优势在融合中发挥到最大,达到分辨率提升效果最佳的目的。
进一步的,本发明在进行视频帧的超分辨率处理之前,对视频帧进行检测,将视频帧中低视频帧质量的视频帧(俗称坏帧)选出,即将视频帧中俗称坏帧的视频帧选出,不对其进行超分辨率处理,由于坏帧没有渲染处理的意义,因此视频帧检测,能够避免掉无效或无意义的超分辨率处理。
更进一步的,本发明为了保持渲染后视频的连贯性,需要保持视频帧的完整性,由于未对坏帧进行超分辨处理,破坏了视频帧超分辨率处理的完整性,导致坏帧依旧存在于视频中,并未得到解决,本发明利用了超分辨处理后的高视频帧质量的视频帧进行融合,得到融合后超分辨率视频帧,用于替换坏帧,实现了坏帧得到超分辨率处理,保持视频连贯性,且使得整个视频中全部的视频帧都是超分辨的视频帧,达到了对视频帧超分辨处理的完整性。
本发明在进行视频帧的超分辨率处理之前,对视频帧进行检测,将视频帧中低视频帧质量的视频帧(俗称坏帧)选出,具体如下:
对视频帧进行视频帧质量评价,得到高视频帧质量的视频帧和低视频帧质量的视频帧,包括:
依次将各个视频帧输入至视频帧分类模型,由视频帧分类网络输出对视频帧的分类结果,分类结果包括高视频帧质量的视频帧和低视频帧质量的视频帧;
视频帧分类模型由神经网络对视频帧进行大数据训练得到。
对高视频帧质量的视频帧,通过分辨率增强模型进行超分辨率处理,得到超分辨率的高视频帧质量的视频帧,包括:
将高视频帧质量的视频帧的分辨率与超分辨率阈值进行比较,其中,
当高视频帧质量的视频帧的分辨率小于超分辨率阈值,则对高视频帧质量的视频帧的分辨率利用分辨率增强模型进行分辨率增强,得到超分辨率的高视频帧质量的视频帧;
当高视频帧质量的视频帧的分辨率大于或等于超分辨率阈值,则将高视频帧质量的视频帧直接作为超分辨率的高视频帧质量的视频帧。
本发明为了提高视频帧超分辨处理的效果,突出视频帧中重要区域的特征,抑制噪音,分辨率提升效果最佳,利用多因子融合思想,将多种注意力模型应用于超分辨率处理,包括通道注意力模型、空间注意力模型和多头自注意力模型,融合三者的优势进行互补,达到分辨率提升效果的目的,具体如下:
利用分辨率增强模型对高视频帧质量的视频帧的分辨率进行分辨率增强,包括:
将高视频帧质量的视频帧,通过通道注意力模型,获取视频帧的通道注意力特征图;
将高视频帧质量的视频帧,通过空间注意力模型,获取视频帧的空间注意力特征图;
将高视频帧质量的视频帧,通过多头自注意力模型,获取视频帧的多尺寸注意力特征图;
本发明中采用通道注意力模型、空间注意力模型和多头自注意力模型,融合三者的优势进行互补,达到分辨率提升效果的目的,其中,多头自注意力模型是基于ResNet-101进行的改进,Res-2, Res-3, Res-4, Res-5所生成的特征图,将他们通过线性插值的方式上采样到相同的尺寸,进行连接操作,而后进行卷积操作,生成多尺寸注意力特征图(全局特征),空间注意力模型用于对全局特征的空间上下文进行建模,增强每个特征图的空间表达,通道注意力模型用于更好地构建通道之间的依赖关系,扩大感受野,从而帮助空间注意力模型捕获全局特征的空间表达,融合过程具体为:通过多尺寸的策略(多头自注意力模型)来获取视频帧的全局特征, 然后将所学习到的视频帧全局特征引入到注意力模块中,注意力模块由通道注意力模型、空间注意力模型两部分组成,一方面可以帮助局部特征与全局特征的融合,另一方面也可以过滤到不相关的噪音信息。
本发明在融合通道注意力模型、空间注意力模型和多头自注意力模型的优势时,利用神经网络进行融合权重的确定,客观化、自动化确定了最优的融合权重,能够使得三者模型的优势在融合中发挥到最大,达到分辨率提升效果最佳的目的,具体如下:
将视频帧的通道注意力特征图、视频帧的空间注意力特征图和视频帧的多尺寸注意力特征图进行加权融合,得到超分辨率的高视频帧质量的视频帧。
视频帧的通道注意力特征图、视频帧的空间注意力特征图和视频帧的多尺寸注意力特征图的融合权重确定,包括:
将通道注意力特征图、空间注意力特征图和多尺寸注意力特征图输入至预建立的权重测算模型中,由权重测算模型得到通道注意力特征图的融合权重、空间注意力特征图的融合权重和多尺寸注意力特征图的融合权重;
其中,权重测算模型的预构建,包括:
选取多个样本视频帧,并获取样本视频帧的通道注意力特征图、空间注意力特征图和多尺寸注意力特征图;
在每个样本视频帧中随机设定多组通道注意力特征图、空间注意力特征图和多尺寸注意力特征图的融合权重;
在每个样本视频帧中依次利用每组融合权重对通道注意力特征图、空间注意力特征图和多尺寸注意力特征图进行加权融合,得到每个样本视频帧的多组超分辨处理结果;
利用神经网络对每个样本视频帧的通道注意力特征图、空间注意力特征图和多尺寸注意力特征图的融合权重与融合权重对应获得的超分辨率处理结果进行卷积学习,得到每个样本视频帧的超分辨率测算模型;
利用每个样本视频帧的超分辨率测算模型测算出每个样本视频帧的通道注意力特征图、空间注意力特征图和多尺寸注意力特征图的融合权重所有可选值对应的超分辨率处理结果,并在融合权重所有可选值对应的超分辨率处理结果中选出最高分辨率对应的融合权重,作为每个样本视频帧的通道注意力特征图、空间注意力特征图和多尺寸注意力特征图的融合权重最优选;
在多个视频帧中利用神经网络对通道注意力特征图、空间注意力特征图和多尺寸注意力特征图和通道注意力特征图、空间注意力特征图和多尺寸注意力特征图的融合权重最优选进行卷积学习,得到权重测算模型;
权重测算模型的模型表达式为:
[W1,W2,W3]=BP(G1,G2,G3);
其中,W1,W2,W3分别为通道注意力特征图、空间注意力特征图和多尺寸注意力特征图的融合权重,G1,G2,G3分别为通道注意力特征图、空间注意力特征图和多尺寸注意力特征图,BP为神经网络。
本发明利用神经网络构建出权重测算模型,直接可根据通道注意力特征图、空间注意力特征图和多尺寸注意力特征图,测算出对应的融合权重,效率高。
本发明在构建权重测算模型时,基于的样本数据来自于每个样本视频帧通道注意力特征图、空间注意力特征图和多尺寸注意力特征图的融合权重的最优选,因此保持权重测算模型效率高的同时,能够保证测算准确度高。
本发明为了确定样本视频帧的融合权重的最优选,通过超分辨率测算模型进行自动化测算分析,分析效率高,客观性强。
本发明为了保持渲染后视频的连贯性,需要保持视频帧的完整性,由于未对坏帧进行超分辨处理,破坏了视频帧超分辨率处理的完整性,导致坏帧依旧存在于视频中,并未得到解决,本发明利用了超分辨处理后的高视频帧质量的视频帧进行融合,得到融合后超分辨率视频帧,用于替换坏帧,实现了坏帧得到超分辨率处理,保持视频连贯性,且使得整个视频中全部的视频帧都是超分辨的视频帧,达到了对视频帧超分辨处理的完整性,具体如下:
根据超分辨率的高视频帧质量的视频帧,对低视频帧质量的视频帧进行视频帧质量补偿,得到超分辨率的低视频帧质量的视频帧,包括:
依据流媒体视频中视频帧的排列顺序,获取低视频帧质量的视频帧两侧的超分辨率的高视频帧质量的视频帧;
将低视频帧质量的视频帧两侧的超分辨率的高视频帧质量的视频帧进行融合,得到超分辨率的融合视频帧替换低视频帧质量的视频帧,成为超分辨率的低视频帧质量的视频帧。
超分辨率的高视频帧质量的视频帧和超分辨率的低视频帧质量的视频帧依据流媒体视频中视频帧的排列顺序进行排列。
对超分辨率的高视频帧质量的视频帧和超分辨率的低视频帧质量的视频帧采用多帧渲染方式进行渲染处理。
如图2所示,在本发明的第二个方面,本发明提供了一种计算机装置,
至少一个处理器;以及
与至少一个处理器通信连接的存储器;
其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使电子设备执行流媒体视频帧渲染方法。
在本发明的第三个方面,本发明提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现流媒体视频帧渲染方法。
本发明利用多因子融合技术在渲染前对视频帧进行超分辨处理,融合通道注意力模型、空间注意力模型和多头自注意力模型的优点进行互补,避免单一处理方法的缺点,分辨率提升效果更好,同时利用神经网络对融合方法进行权重客观化确定,摆脱经验融合,以期达到分辨率处理的最佳效果。
以上实施例仅为本申请的示例性实施例,不用于限制本申请,本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内,对本申请做出各种修改或等同替换,这种修改或等同替换也应视为落在本申请的保护范围内。

Claims (10)

1.一种流媒体视频帧渲染方法,其特征在于,包括以下步骤:
获取流媒体视频,所述流媒体视频中包含有多个视频帧;
对视频帧进行视频帧质量评价,得到高视频帧质量的视频帧和低视频帧质量的视频帧;
对高视频帧质量的视频帧,通过分辨率增强模型进行超分辨率处理,得到超分辨率的高视频帧质量的视频帧,其中,分辨率增强模型由通道注意力模型、空间注意力模型和多头自注意力模型进行多模型融合得到;
根据超分辨率的高视频帧质量的视频帧,对低视频帧质量的视频帧进行视频帧质量补偿,得到超分辨率的低视频帧质量的视频帧;
对超分辨率的高视频帧质量的视频帧和超分辨率的低视频帧质量的视频帧,进行渲染处理,得到视频帧的超分辨率渲染结果。
2.根据权利要求1所述的一种流媒体视频帧渲染方法,其特征在于:所述对视频帧进行视频帧质量评价,得到高视频帧质量的视频帧和低视频帧质量的视频帧,包括:
依次将各个视频帧输入至视频帧分类模型,由所述视频帧分类模型输出对视频帧的分类结果,所述分类结果包括高视频帧质量的视频帧和低视频帧质量的视频帧;
所述视频帧分类模型由神经网络对视频帧进行大数据训练得到。
3.根据权利要求2所述的一种流媒体视频帧渲染方法,其特征在于:所述对高视频帧质量的视频帧,通过分辨率增强模型进行超分辨率处理,得到超分辨率的高视频帧质量的视频帧,包括:
将高视频帧质量的视频帧的分辨率与超分辨率阈值进行比较,其中,
当高视频帧质量的视频帧的分辨率小于超分辨率阈值,则对高视频帧质量的视频帧的分辨率利用分辨率增强模型进行分辨率增强,得到超分辨率的高视频帧质量的视频帧;
当高视频帧质量的视频帧的分辨率大于或等于超分辨率阈值,则将高视频帧质量的视频帧直接作为超分辨率的高视频帧质量的视频帧。
4.根据权利要求3所述的一种流媒体视频帧渲染方法,其特征在于:利用分辨率增强模型对高视频帧质量的视频帧的分辨率进行分辨率增强,包括:
将高视频帧质量的视频帧,通过通道注意力模型,获取所述视频帧的通道注意力特征图;
将高视频帧质量的视频帧,通过空间注意力模型,获取所述视频帧的空间注意力特征图;
将高视频帧质量的视频帧,通过多头自注意力模型,获取所述视频帧的多尺寸注意力特征图;
将所述视频帧的通道注意力特征图、所述视频帧的空间注意力特征图和所述视频帧的多尺寸注意力特征图进行加权融合,得到所述超分辨率的高视频帧质量的视频帧。
5.根据权利要求4所述的一种流媒体视频帧渲染方法,其特征在于:
所述视频帧的通道注意力特征图、所述视频帧的空间注意力特征图和所述视频帧的多尺寸注意力特征图的融合权重确定,包括:
将所述通道注意力特征图、所述空间注意力特征图和多尺寸注意力特征图输入至预建立的权重测算模型中,由权重测算模型得到所述通道注意力特征图的融合权重、所述空间注意力特征图的融合权重和多尺寸注意力特征图的融合权重;
其中,所述权重测算模型的预构建,包括:
选取多个样本视频帧,并获取样本视频帧的通道注意力特征图、所述空间注意力特征图和多尺寸注意力特征图;
在每个样本视频帧中随机设定多组通道注意力特征图、所述空间注意力特征图和多尺寸注意力特征图的融合权重;
在每个样本视频帧中依次利用每组融合权重对通道注意力特征图、所述空间注意力特征图和多尺寸注意力特征图进行加权融合,得到每个样本视频帧的多组超分辨处理结果;
利用神经网络对每个样本视频帧的通道注意力特征图、所述空间注意力特征图和多尺寸注意力特征图的融合权重与融合权重对应获得的超分辨率处理结果进行卷积学习,得到每个样本视频帧的超分辨率测算模型;
利用每个样本视频帧的超分辨率测算模型测算出每个样本视频帧的通道注意力特征图、所述空间注意力特征图和多尺寸注意力特征图的融合权重所有可选值对应的超分辨率处理结果,并在融合权重所有可选值对应的超分辨率处理结果中选出最高分辨率对应的融合权重,作为每个样本视频帧的通道注意力特征图、所述空间注意力特征图和多尺寸注意力特征图的融合权重最优选;
在多个视频帧中利用神经网络对通道注意力特征图、所述空间注意力特征图和多尺寸注意力特征图和通道注意力特征图、所述空间注意力特征图和多尺寸注意力特征图的融合权重最优选进行卷积学习,得到所述权重测算模型;
所述权重测算模型的模型表达式为:
[W1,W2,W3]=BP(G1,G2,G3);
其中,W1,W2,W3分别为通道注意力特征图、所述空间注意力特征图和多尺寸注意力特征图的融合权重,G1,G2,G3分别为通道注意力特征图、所述空间注意力特征图和多尺寸注意力特征图,BP为神经网络。
6.根据权利要求5所述的一种流媒体视频帧渲染方法,其特征在于:所述根据超分辨率的高视频帧质量的视频帧,对低视频帧质量的视频帧进行视频帧质量补偿,得到超分辨率的低视频帧质量的视频帧,包括:
依据流媒体视频中视频帧的排列顺序,获取低视频帧质量的视频帧两侧的超分辨率的高视频帧质量的视频帧;
将低视频帧质量的视频帧两侧的超分辨率的高视频帧质量的视频帧进行融合,得到超分辨率的融合视频帧替换低视频帧质量的视频帧,成为超分辨率的低视频帧质量的视频帧。
7.根据权利要求6所述的一种流媒体视频帧渲染方法,其特征在于:所述超分辨率的高视频帧质量的视频帧和超分辨率的低视频帧质量的视频帧依据流媒体视频中视频帧的排列顺序进行排列。
8.根据权利要求7所述的一种流媒体视频帧渲染方法,其特征在于:对超分辨率的高视频帧质量的视频帧和超分辨率的低视频帧质量的视频帧采用多帧渲染方式进行渲染处理。
9.一种计算机装置,其特征在于,
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使计算机装置执行权利要求 1-8 任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求 1-8 任一项所述的方法。
CN202311316478.0A 2023-10-12 2023-10-12 流媒体视频帧渲染方法、装置及存储介质 Active CN117061790B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311316478.0A CN117061790B (zh) 2023-10-12 2023-10-12 流媒体视频帧渲染方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311316478.0A CN117061790B (zh) 2023-10-12 2023-10-12 流媒体视频帧渲染方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN117061790A CN117061790A (zh) 2023-11-14
CN117061790B true CN117061790B (zh) 2024-01-30

Family

ID=88655810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311316478.0A Active CN117061790B (zh) 2023-10-12 2023-10-12 流媒体视频帧渲染方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN117061790B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766608A (zh) * 2019-08-28 2020-02-07 西安理工大学 一种纹理分类的图像超分辨率重建的方法
CN112750082A (zh) * 2021-01-21 2021-05-04 武汉工程大学 基于融合注意力机制的人脸超分辨率方法及系统
CN112801877A (zh) * 2021-02-08 2021-05-14 南京邮电大学 一种视频帧的超分辨率重构方法
KR20230115043A (ko) * 2022-01-26 2023-08-02 세종대학교산학협력단 영상의 화질에 따라 초해상도 딥러닝 네트워크를 적용하는 비디오 처리 방법 및 비디오 처리 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766608A (zh) * 2019-08-28 2020-02-07 西安理工大学 一种纹理分类的图像超分辨率重建的方法
CN112750082A (zh) * 2021-01-21 2021-05-04 武汉工程大学 基于融合注意力机制的人脸超分辨率方法及系统
CN112801877A (zh) * 2021-02-08 2021-05-14 南京邮电大学 一种视频帧的超分辨率重构方法
KR20230115043A (ko) * 2022-01-26 2023-08-02 세종대학교산학협력단 영상의 화질에 따라 초해상도 딥러닝 네트워크를 적용하는 비디오 처리 방법 및 비디오 처리 장치

Also Published As

Publication number Publication date
CN117061790A (zh) 2023-11-14

Similar Documents

Publication Publication Date Title
Ma et al. Image retargeting quality assessment: A study of subjective scores and objective metrics
CN111105376B (zh) 基于双分支神经网络的单曝光高动态范围图像生成方法
CN111612708A (zh) 一种基于对抗生成网络的图像修复方法
CN111709900A (zh) 一种基于全局特征指导的高动态范围图像重建方法
Feng et al. Saliency based objective quality assessment of decoded video affected by packet losses
CN113096029A (zh) 基于多分支编解码器神经网络的高动态范围图像生成方法
CN111524060B (zh) 一种实时人像背景虚化的系统、方法、存储介质和设备
CN112950579B (zh) 图像质量评价方法、装置和电子设备
CN114125495A (zh) 视频质量评估模型训练方法、视频质量评价方法和装置
Luo et al. Bi-GANs-ST for perceptual image super-resolution
CN117670687A (zh) 一种基于CNN和Transformer混合结构的水下图像增强方法
CN117061790B (zh) 流媒体视频帧渲染方法、装置及存储介质
Krishnan et al. A novel underwater image enhancement technique using ResNet
CN108665455B (zh) 图像显著性预测结果的评价方法和装置
CN116309171A (zh) 一种输电线路监控图像增强方法和装置
CN114189695B (zh) 一种基于gan的hevc压缩视频视觉感知提升方法
CN113469998B (zh) 基于主观和客观特征融合的全参考图像质量评价方法
CN114511465A (zh) 一种基于改进dcgan的图像修复方法及系统
CN117061824B (zh) 流媒体视频补帧方法、装置及计算机设备
Li et al. Context convolution dehazing network with channel attention
CN113688694B (zh) 基于非配对学习的提升视频清晰度的方法及装置
CN110738638A (zh) 视觉显著性检测算法适用性预测与性能盲评价方法
CN117422927B (zh) 一种乳腺超声图像分类方法、系统、电子设备及介质
Shi et al. A Semi-Supervised Underexposed Image Enhancement Network With Supervised Context Attention and Multi-Exposure Fusion
Xiang et al. Dual-branch contrastive learning for image enhancement of underwater internet of things

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant