CN117058002A - 视频帧超分辨率重构方法、装置及计算机设备 - Google Patents

视频帧超分辨率重构方法、装置及计算机设备 Download PDF

Info

Publication number
CN117058002A
CN117058002A CN202311316640.9A CN202311316640A CN117058002A CN 117058002 A CN117058002 A CN 117058002A CN 202311316640 A CN202311316640 A CN 202311316640A CN 117058002 A CN117058002 A CN 117058002A
Authority
CN
China
Prior art keywords
video frame
sampling rate
super
resolution
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311316640.9A
Other languages
English (en)
Other versions
CN117058002B (zh
Inventor
刘琦
王曜
许亦
贺国超
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yuntian Changxiang Information Technology Co ltd
Original Assignee
Shenzhen Yuntian Changxiang Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yuntian Changxiang Information Technology Co ltd filed Critical Shenzhen Yuntian Changxiang Information Technology Co ltd
Priority to CN202311316640.9A priority Critical patent/CN117058002B/zh
Publication of CN117058002A publication Critical patent/CN117058002A/zh
Application granted granted Critical
Publication of CN117058002B publication Critical patent/CN117058002B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234363Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the spatial resolution, e.g. for clients with a lower screen resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440263Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the spatial resolution, e.g. for displaying on a connected PDA

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种视频帧超分辨率重构方法、装置及计算机设备,包括以下步骤:获取流媒体视频;对第一视频帧,通过图像特征提取,得到第一视频帧的第一焦点特征;根据第一视频帧,通过目标映射关系,得到第一视频帧的第一采样率;根据第一采样率对第一视频帧,进行图像重采样,得到第二视频帧;对第二视频帧,进行超分辨率处理,得到第二超分辨率视频帧;将第二超分辨率视频帧对应替换至流媒体视频中,得到流媒体超分辨率视频。本发明通过建立目标映射关系,得到使得视频帧保留焦点特征的最佳压缩采样率,基于最佳压缩采样率压缩得到的视频帧进行超分辨率处理,实现了提高视频帧的分辨率同时,保持低数据量。

Description

视频帧超分辨率重构方法、装置及计算机设备
技术领域
本发明涉及视频处理技术领域,具体涉及一种视频帧超分辨率重构方法、装置及计算机设备。
背景技术
图像超分辨率重构(super resolution,SR)是指利用计算机将一幅低分辨率图像(low resolution,LR)或图像序列进行处理,恢复出高分辨率图像(high resolution,HR)的一种图像处理技术。HR意味着图像具有高像素密度,可以提供更多的细节,这些细节往往在应用中起到关键作用。
现有技术在视频超分辨重建时,利用对原始视频帧的图像特征提取,获取空间信息和时间信息,再对空间信息和时间信息进行重建得到超分辨率视频帧,如此获得的超分辨率视频帧虽然提高了视频帧的分辨率,但也大大的提高了视频帧的数据量,不利于视频帧的传输和存储。
发明内容
本发明的目的在于提供一种视频帧超分辨率重构方法、装置及计算机设备,以解决现有技术中超分辨率重建大大的提高了视频帧的数据量,不利于视频帧的传输和存储的技术问题。
为解决上述技术问题,本发明具体提供下述技术方案:
在本发明的第一个方面,本发明提供了一种视频帧超分辨率重构方法,包括以下步骤:
获取流媒体视频,所述流媒体视频中包含有多个第一视频帧;
对第一视频帧,通过图像特征提取,得到第一视频帧的第一焦点特征,所述第一焦点特征对应于第一视频帧中第一对象形成的图像特征,所述第一对象为流媒体视频的拍摄对象;
根据第一视频帧,通过目标映射关系,得到第一视频帧的第一采样率,所述第一采样率对应于使得第一视频帧保留第一焦点特征的压缩采样率,所述目标映射关系为表征第一视频帧与第一采样率间关联关系的神经网络;
根据第一采样率对第一视频帧,进行图像重采样,得到第二视频帧,所述第二视频帧对应于压缩后的第一视频帧;
对第二视频帧,进行超分辨率处理,得到第二超分辨率视频帧;
将第二超分辨率视频帧对应替换至流媒体视频中,得到流媒体超分辨率视频。
作为本发明的一种优选方案,所述第一视频帧的第一焦点特征,包括:
利用区域生长法对第一视频帧进行分割,得到第一对象所在的图像区域和非第一对象所在的图像区域;
将第一对象所在的图像区域,通过CNN神经网络进行图像特征提取,得到所述第一视频帧的第一焦点特征。
作为本发明的一种优选方案,所述目标映射关系的构建,包括:
选取多个第一视频帧作为样本视频帧;
在每个样本视频帧中,利用梯度下降法设定多个采样率;
在每个样本视频帧中,逐一利用每个采样率对样本视频帧进行图像重采样,得到每个采样率下的压缩样本视频帧;
在每个样本视频帧中,逐一将每个采样率下的压缩样本视频帧中第一对象所在的图像区域,通过CNN神经网络进行图像特征提取,得到每个采样率下的压缩样本视频帧的第一焦点特征;以及
将样本视频帧中第一对象所在的图像区域,通过CNN神经网络进行图像特征提取,得到样本视频帧的第一焦点特征;
在每个样本视频帧中,根据每个采样率下的压缩样本视频帧与样本视频帧进行差异度量化,得到第一差异度;
在每个样本视频帧中,利用BP神经网络对采样率与第一差异度进行学习训练,得到第一采样率测算网络;
所述第一采样率测算网络的函数表达式为:
K=BP(f);
式中,K为第一差异度,f为采样率,BP为神经网络;
在每个样本视频帧中,利用第一采样率测算网络对样本视频帧所有可选的采样率进行第一差异度测算,并将最小第一差异度对应的采样率作为样本视频帧的第一采样率;
在多个样本视频帧中,利用BP神经网络对样本视频帧与样本视频帧的第一采样率进行学习训练,得到所述目标映射关系,以实现利用视频帧测算出视频帧的第一采样率;
所述目标映射关系的函数表达式为:
f_s=BP(G);
式中,f_s为第一采样率,G为视频帧,BP为BP神经网络。
作为本发明的一种优选方案,所述第一差异度的量化,包括:
将每个采样率下的压缩样本视频帧中第一对象所在的图像区域,通过CNN神经网络进行图像特征提取,得到每个采样率下的压缩样本视频帧的第一焦点特征,封装至第一孪生网络中作为第一CNN神经网络结构,其中,压缩样本视频帧中第一对象所在的图像区域作为第一CNN神经网络的输入项,将压缩样本视频帧的第一焦点特征作为第一CNN神经网络的输出项;
将样本视频帧中第一对象所在的图像区域,通过CNN神经网络进行图像特征提取,得到样本视频帧的第一焦点特征,封装至第一孪生网络中作为第二CNN神经网络结构,其中,样本视频帧中第一对象所在的图像区域作为第二CNN神经网络的输入项,将样本视频帧的第一焦点特征作为第二CNN神经网络的输出项;
将样本视频帧作为第二孪生网络中第一CNN神经网络的输入项,将样本视频帧的全局图像特征作为第二孪生网络中第一CNN神经网络的输出项;
将压缩样本视频帧作为第二孪生网络中第二CNN神经网络的输入项,将压缩样本视频帧的全局图像特征作为第二孪生网络中第二CNN神经网络的输出项;
将第一孪生网络的损失函数与第二孪生网络的损失函数间差值作为第一差异度;
其中,所述第一孪生网络的损失函数对应于压缩样本视频帧的第一焦点特征与样本视频帧的第一焦点特征间的差异性;
所述第二孪生网络的损失函数对应于压缩样本视频帧的全局图像特征与样本视频帧的全局图像特征间的差异性;
第一差异度对应于压缩样本视频帧相对于样本视频帧的压缩目标,损失压缩目标包含压损损失和压缩比;
最小第一差异度对应于压缩样本视频帧相对于样本视频帧具有最小压缩损失和最大压缩比。
作为本发明的一种优选方案,所述压缩样本视频帧中第一对象所在的图像区域与样本视频帧中第一对象所在的图像区域具有一致的像素坐标。
作为本发明的一种优选方案,所述第一视频帧的第一采样率,包括:
将第一视频帧输入至目标映射关系中,由目标映射关系输出第一视频帧的第一采样率。
作为本发明的一种优选方案,所述第一视频帧是流媒体视频经过坏帧检测确定为图像完整的视频帧。
作为本发明的一种优选方案,所述将第二超分辨率视频帧对应替换至流媒体视频中,得到流媒体超分辨率视频,包括:
将第二超分辨率视频帧,分别依据第一视频帧在流媒体视频帧中的序列位置,对相应序列位置处的第一视频帧进行替换,得到所述流媒体超分辨率视频。
在本发明的第二个方面,本发明提供了一种视频帧超分辨率重构装置,包括:
数据获取模块,用于获取流媒体视频,所述流媒体视频中包含有多个第一视频帧;
数据处理模块,用于对第一视频帧,通过图像特征提取,得到第一视频帧的第一焦点特征;
用于根据第一视频帧,通过目标映射关系,得到第一视频帧的第一采样率;
用于根据第一采样率对第一视频帧,进行图像重采样,得到第二视频帧;
用于对第二视频帧,进行超分辨率处理,得到第二超分辨率视频帧;
用于将第二超分辨率视频帧对应替换至流媒体视频中,得到流媒体超分辨率视频;
数据存储模块,用于存储目标映射关系。
在本发明的第三个方面,本发明提供了一种计算机设备,
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使计算机设备执行视频帧超分辨率重构方法。
在本发明的第四个方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现视频帧超分辨率重构方法。
本发明与现有技术相比较具有如下有益效果:
本发明通过建立目标映射关系,得到使得视频帧保留焦点特征的最佳压缩采样率,基于最佳压缩采样率压缩得到的视频帧进行超分辨率处理,实现了提高视频帧的分辨率同时,保持低数据量。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本发明实施例提供的视频帧超分辨率重构方法流程图;
图2为本发明实施例提供的视频帧超分辨率重构装置框图;
图3为本发明实施例提供的计算机装置的内部结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,在本发明的第一个方面,本发明提供了一种视频帧超分辨率重构方法,包括以下步骤:
获取流媒体视频,流媒体视频中包含有多个第一视频帧;
对第一视频帧,通过图像特征提取,得到第一视频帧的第一焦点特征,第一焦点特征对应于第一视频帧中第一对象形成的图像特征,第一对象为流媒体视频的拍摄对象;
根据第一视频帧,通过目标映射关系,得到第一视频帧的第一采样率,第一采样率对应于使得第一视频帧保留第一焦点特征的压缩采样率,目标映射关系为表征第一视频帧与第一采样率间关联关系的神经网络;
根据第一采样率对第一视频帧,进行图像重采样,得到第二视频帧,第二视频帧对应于压缩后的第一视频帧;
对第二视频帧,进行超分辨率处理,得到第二超分辨率视频帧;
将第二超分辨率视频帧对应替换至流媒体视频中,得到流媒体超分辨率视频。
本发明为了降低超分辨率重构后的视频帧数据量,在超分辨率重构前对视频帧进行重采样,实现对视频帧数据量的压缩。
本发明为了降低视频帧数据量压缩对视频帧画质的影响,通过构建目标映射关系,表征第一视频帧与第一采样率间关联关系的神经网络,即直接通过视频帧测算得到最佳压缩采样率,利用最佳压缩采样率能够最大程度的压缩数据量同时最大程度的保持原有图像信息,降低压缩损失,保证画质。
本发明为了保证深度学习构建出的目标映射关系的客观性和可解释性,将视频帧进行区域分割,得到第一对象所在的图像区域和非第一对象所在的图像区域,其中,第一对象所在的图像区域才是决定用户观感体验或者说流媒体视频想要传达给用户的图像信息,也就是说,第一对象所在的图像区域的图像特征是视频帧画质的关键性特征,最大程度的保持原有图像信息需要保持第一对象所在的图像区域的图像特征在压缩前后具有最小的差异,即测算出的最佳压缩采样率需要保持第一对象所在的图像区域的图像特征在压缩前后具有最小的差异,因此,将保持第一对象所在的图像区域的图像特征在压缩前后具有最小的差异作为压缩采样率的一个期望目标。
本发明中最大程度的压缩数据量需要保持压缩前的视频帧和压缩后的视频帧间的图像特征具有最大的差异,即压缩后的视频帧与压缩前的视频帧存在最大差异,说明压缩后的视频帧数据改变显著,也就是说数据量发生了最大程度的改变,测算出的最佳压缩采样率需要保持压缩前的视频帧和压缩后的视频帧间的图像特征具有最大的差异,因此,将保持压缩前的视频帧和压缩后的视频帧间的图像特征具有最大的差异作为压缩采样率的另一个期望目标。
本发明利用孪生网络对压缩采样率的两个期望目标进行组合,孪生网络利用自身具有的损失函数分别量化出压缩后的视频帧与压缩前的视频帧间的差异度,以及第一对象所在的图像区域的图像特征在压缩前后的差异度,并对压缩后的视频帧与压缩前的视频帧间的差异度,和第一对象所在的图像区域的图像特征在压缩前后的差异度进行最小化组合,将双目标优化(两个期望目标优化)转换为单目标优化(第一差异度),以目标优化思维确定出样本视频帧的最佳压缩采样率,具体:
单目标优化(第一差异度)为第一对象所在的图像区域的图像特征在压缩前后的差异度减去压缩后的视频帧与压缩前的视频帧间的差异度,最小化单目标优化,即最小化第一差异度,从数学上解释是第一对象所在的图像区域的图像特征在压缩前后的差异度减去压缩后的视频帧与压缩前的视频帧间的差异度得到差值最小,映射至实际意义上,第一对象所在的图像区域的图像特征在压缩前后具有最小的差异,压缩前的视频帧和压缩后的视频帧间的图像特征具有最大的差异。
本发明在积累训练表征目标映射关系的神经网络的样本数据时,对每个样本数据帧均利用第一差异度作为优化目标确定出最佳压缩采样率,因此基于样本数据帧和利用第一差异度作为优化目标确定出最佳压缩采样率进行学习训练,使得目标映射关系根据视频帧能够输出的最佳压缩采样率,使得视频帧实现第一对象所在的图像区域的图像特征在压缩前后具有最小的差异,压缩前的视频帧和压缩后的视频帧间的图像特征具有最大的差异,即最大程度的压缩数据量同时最大程度的保持原有图像信息。
本发明为了建立出压缩采样率的期望目标中的保持第一对象所在的图像区域的图像特征在压缩前后具有最小的差异,需要获得视频帧中关键性特征,即第一对象所在的图像区域的图像特征,具体如下:
第一视频帧的第一焦点特征,包括:
利用区域生长法对第一视频帧进行分割,得到第一对象所在的图像区域和非第一对象所在的图像区域;
将第一对象所在的图像区域,通过CNN神经网络进行图像特征提取,得到第一视频帧的第一焦点特征。
本发明为了降低视频帧数据量压缩对视频帧画质的影响,通过构建目标映射关系,具体如下:
目标映射关系的构建,包括:
选取多个第一视频帧作为样本视频帧;
在每个样本视频帧中,利用梯度下降法设定多个采样率;
在每个样本视频帧中,逐一利用每个采样率对样本视频帧进行图像重采样,得到每个采样率下的压缩样本视频帧;
在每个样本视频帧中,逐一将每个采样率下的压缩样本视频帧中第一对象所在的图像区域,通过CNN神经网络进行图像特征提取,得到每个采样率下的压缩样本视频帧的第一焦点特征;以及
将样本视频帧中第一对象所在的图像区域,通过CNN神经网络进行图像特征提取,得到样本视频帧的第一焦点特征;
在每个样本视频帧中,根据每个采样率下的压缩样本视频帧与样本视频帧进行差异度量化,得到第一差异度;
在每个样本视频帧中,利用BP神经网络对采样率与第一差异度进行学习训练,得到第一采样率测算网络;
第一采样率测算网络的函数表达式为:
K=BP(f);
式中,K为第一差异度,f为采样率,BP为神经网络;
在每个样本视频帧中,利用第一采样率测算网络对样本视频帧所有可选的采样率进行第一差异度测算,并将最小第一差异度对应的采样率作为样本视频帧的第一采样率;
在多个样本视频帧中,利用BP神经网络对样本视频帧与样本视频帧的第一采样率进行学习训练,得到目标映射关系,以实现利用视频帧测算出视频帧的第一采样率;
目标映射关系的函数表达式为:
f_s=BP(G);
式中,f_s为第一采样率,G为视频帧,BP为BP神经网络。
本发明为了保证深度学习构建出的目标映射关系的客观性和可解释性,将视频帧进行区域分割,得到第一对象所在的图像区域和非第一对象所在的图像区域,其中,第一对象所在的图像区域才是决定用户观感体验或者说流媒体视频想要传达给用户的图像信息,也就是说,第一对象所在的图像区域的图像特征是视频帧画质的关键性特征,最大程度的保持原有图像信息需要保持第一对象所在的图像区域的图像特征在压缩前后具有最小的差异,即测算出的最佳压缩采样率需要保持第一对象所在的图像区域的图像特征在压缩前后具有最小的差异,因此,将保持第一对象所在的图像区域的图像特征在压缩前后具有最小的差异作为压缩采样率的一个期望目标。
本发明中最大程度的压缩数据量需要保持压缩前的视频帧和压缩后的视频帧间的图像特征具有最大的差异,即压缩后的视频帧与压缩前的视频帧存在最大差异,说明压缩后的视频帧数据改变显著,也就是说数据量发生了最大程度的改变,测算出的最佳压缩采样率需要保持压缩前的视频帧和压缩后的视频帧间的图像特征具有最大的差异,因此,将保持压缩前的视频帧和压缩后的视频帧间的图像特征具有最大的差异作为压缩采样率的另一个期望目标。
两个期望目标等同于两个压缩目标,第一对象所在的图像区域的图像特征在压缩前后具有最小的差异(对应于最小压缩损失),压缩前的视频帧和压缩后的视频帧间的图像特征具有最大的差异(对应于最大压缩比)。
本发明利用孪生网络对压缩采样率的两个期望目标进行组合,孪生网络利用自身具有的损失函数分别量化出压缩后的视频帧与压缩前的视频帧间的差异度,以及第一对象所在的图像区域的图像特征在压缩前后的差异度,并对压缩后的视频帧与压缩前的视频帧间的差异度,和第一对象所在的图像区域的图像特征在压缩前后的差异度进行最小化组合,将双目标优化(两个期望目标优化)转换为单目标优化(第一差异度),以目标优化思维确定出样本视频帧的最佳压缩采样率。
单目标优化(第一差异度)为第一对象所在的图像区域的图像特征在压缩前后的差异度减去压缩后的视频帧与压缩前的视频帧间的差异度,最小化单目标优化,即最小化第一差异度,从数学上解释是第一对象所在的图像区域的图像特征在压缩前后的差异度减去压缩后的视频帧与压缩前的视频帧间的差异度得到差值最小,映射至实际意义上,第一对象所在的图像区域的图像特征在压缩前后具有最小的差异(最小压缩损失),压缩前的视频帧和压缩后的视频帧间的图像特征具有最大的差异(最大压缩比)。
具体的,第一差异度的量化,包括:
将每个采样率下的压缩样本视频帧中第一对象所在的图像区域,通过CNN神经网络进行图像特征提取,得到每个采样率下的压缩样本视频帧的第一焦点特征,封装至第一孪生网络中作为第一CNN神经网络结构,其中,压缩样本视频帧中第一对象所在的图像区域作为第一CNN神经网络的输入项,将压缩样本视频帧的第一焦点特征作为第一CNN神经网络的输出项;
将样本视频帧中第一对象所在的图像区域,通过CNN神经网络进行图像特征提取,得到样本视频帧的第一焦点特征,封装至第一孪生网络中作为第二CNN神经网络结构,其中,样本视频帧中第一对象所在的图像区域作为第二CNN神经网络的输入项,将样本视频帧的第一焦点特征作为第二CNN神经网络的输出项;
将样本视频帧作为第二孪生网络中第一CNN神经网络的输入项,将样本视频帧的全局图像特征作为第二孪生网络中第一CNN神经网络的输出项;
将压缩样本视频帧作为第二孪生网络中第二CNN神经网络的输入项,将压缩样本视频帧的全局图像特征作为第二孪生网络中第二CNN神经网络的输出项;
将第一孪生网络的损失函数与第二孪生网络的损失函数间差值作为第一差异度;
其中,第一孪生网络的损失函数对应于压缩样本视频帧的第一焦点特征与样本视频帧的第一焦点特征间的差异性;
第二孪生网络的损失函数对应于压缩样本视频帧的全局图像特征与样本视频帧的全局图像特征间的差异性;
第一差异度对应于压缩样本视频帧相对于样本视频帧的压缩目标,损失压缩目标包含压损损失和压缩比;
最小第一差异度对应于压缩样本视频帧相对于样本视频帧具有最小压缩损失和最大压缩比。
压缩样本视频帧中第一对象所在的图像区域与样本视频帧中第一对象所在的图像区域具有一致的像素坐标。
第一视频帧的第一采样率,包括:
将第一视频帧输入至目标映射关系中,由目标映射关系输出第一视频帧的第一采样率。
第一视频帧是流媒体视频经过坏帧检测确定为图像完整的视频帧。
将第二超分辨率视频帧对应替换至流媒体视频中,得到流媒体超分辨率视频,包括:
将第二超分辨率视频帧,分别依据第一视频帧在流媒体视频帧中的序列位置,对相应序列位置处的第一视频帧进行替换,得到流媒体超分辨率视频。
如图2所示,在本发明的第二个方面,本发明提供了一种视频帧超分辨率重构装置,包括:
数据获取模块,用于获取流媒体视频,流媒体视频中包含有多个第一视频帧;
数据处理模块,用于对第一视频帧,通过图像特征提取,得到第一视频帧的第一焦点特征;
用于根据第一视频帧,通过目标映射关系,得到第一视频帧的第一采样率;
用于根据第一采样率对第一视频帧,进行图像重采样,得到第二视频帧;
用于对第二视频帧,进行超分辨率处理,得到第二超分辨率视频帧;
用于将第二超分辨率视频帧对应替换至流媒体视频中,得到流媒体超分辨率视频;
数据存储模块,用于存储目标映射关系。
如图3所示,在本发明的第三个方面,本发明提供了一种计算机设备,
至少一个处理器;以及
与至少一个处理器通信连接的存储器;
其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使计算机设备执行视频帧超分辨率重构方法。
在本发明的第四个方面,本发明提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现视频帧超分辨率重构方法。
本发明通过建立目标映射关系,得到使得视频帧保留焦点特征的最佳压缩采样率,基于最佳压缩采样率压缩得到的视频帧进行超分辨率处理,实现了提高视频帧的分辨率同时,保持低数据量。
本发明中采用通道注意力模型、空间注意力模型和多头自注意力模型,融合三者的优势进行互补,达到分辨率提升效果的目的,其中,多头自注意力模型是基于ResNet-101进行的改进,Res-2, Res-3, Res-4, Res-5所生成的特征图,将他们通过线性插值的方式上采样到相同的尺寸,进行连接操作,而后进行卷积操作,生成多尺寸注意力特征图(全局特征),空间注意力模型用于对全局特征的空间上下文进行建模,增强每个特征图的空间表达,通道注意力模型用于更好地构建通道之间的依赖关系,扩大感受野,从而帮助空间注意力模型捕获全局特征的空间表达,融合过程具体为:通过多尺寸的策略(多头自注意力模型)来获取视频帧的全局特征, 然后将所学习到的视频帧全局特征引入到注意力模块中,注意力模块由通道注意力模型、空间注意力模型两部分组成,一方面可以帮助局部特征与全局特征的融合,另一方面也可以过滤到不相关的噪音信息。
以上实施例仅为本申请的示例性实施例,不用于限制本申请,本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内,对本申请做出各种修改或等同替换,这种修改或等同替换也应视为落在本申请的保护范围内。

Claims (10)

1.一种视频帧超分辨率重构方法,其特征在于:包括以下步骤:
获取流媒体视频,所述流媒体视频中包含有多个第一视频帧;
对第一视频帧,通过图像特征提取,得到第一视频帧的第一焦点特征,所述第一焦点特征对应于第一视频帧中第一对象形成的图像特征,所述第一对象为流媒体视频的拍摄对象;
根据第一视频帧,通过目标映射关系,得到第一视频帧的第一采样率,所述第一采样率对应于使得第一视频帧保留第一焦点特征的压缩采样率,所述目标映射关系为表征第一视频帧与第一采样率间关联关系的神经网络;
根据第一采样率对第一视频帧,进行图像重采样,得到第二视频帧,所述第二视频帧对应于压缩后的第一视频帧;
对第二视频帧,进行超分辨率处理,得到第二超分辨率视频帧;
将第二超分辨率视频帧对应替换至流媒体视频中,得到流媒体超分辨率视频。
2.根据权利要求1所述的一种视频帧超分辨率重构方法,其特征在于:所述第一视频帧的第一焦点特征,包括:
利用区域生长法对第一视频帧进行分割,得到第一对象所在的图像区域和非第一对象所在的图像区域;
将第一对象所在的图像区域,通过CNN神经网络进行图像特征提取,得到所述第一视频帧的第一焦点特征。
3.根据权利要求2所述的一种视频帧超分辨率重构方法,其特征在于:所述目标映射关系的构建,包括:
选取多个第一视频帧作为样本视频帧;
在每个样本视频帧中,利用梯度下降法设定多个采样率;
在每个样本视频帧中,逐一利用每个采样率对样本视频帧进行图像重采样,得到每个采样率下的压缩样本视频帧;
在每个样本视频帧中,逐一将每个采样率下的压缩样本视频帧中第一对象所在的图像区域,通过CNN神经网络进行图像特征提取,得到每个采样率下的压缩样本视频帧的第一焦点特征;以及
将样本视频帧中第一对象所在的图像区域,通过CNN神经网络进行图像特征提取,得到样本视频帧的第一焦点特征;
在每个样本视频帧中,根据每个采样率下的压缩样本视频帧与样本视频帧进行差异度量化,得到第一差异度;
在每个样本视频帧中,利用BP神经网络对采样率与第一差异度进行学习训练,得到第一采样率测算网络;
所述第一采样率测算网络的函数表达式为:
K=BP(f);
式中,K为第一差异度,f为采样率,BP为神经网络;
在每个样本视频帧中,利用第一采样率测算网络对样本视频帧所有可选的采样率进行第一差异度测算,并将最小第一差异度对应的采样率作为样本视频帧的第一采样率;
在多个样本视频帧中,利用BP神经网络对样本视频帧与样本视频帧的第一采样率进行学习训练,得到所述目标映射关系,以实现利用视频帧测算出视频帧的第一采样率;
所述目标映射关系的函数表达式为:
f_s=BP(G);
式中,f_s为第一采样率,G为视频帧,BP为BP神经网络。
4.根据权利要求3所述的一种视频帧超分辨率重构方法,其特征在于:所述第一差异度的量化,包括:
将每个采样率下的压缩样本视频帧中第一对象所在的图像区域,通过CNN神经网络进行图像特征提取,得到每个采样率下的压缩样本视频帧的第一焦点特征,封装至第一孪生网络中作为第一CNN神经网络结构,其中,压缩样本视频帧中第一对象所在的图像区域作为第一CNN神经网络的输入项,将压缩样本视频帧的第一焦点特征作为第一CNN神经网络的输出项;
将样本视频帧中第一对象所在的图像区域,通过CNN神经网络进行图像特征提取,得到样本视频帧的第一焦点特征,封装至第一孪生网络中作为第二CNN神经网络结构,其中,样本视频帧中第一对象所在的图像区域作为第二CNN神经网络的输入项,将样本视频帧的第一焦点特征作为第二CNN神经网络的输出项;
将样本视频帧作为第二孪生网络中第一CNN神经网络的输入项,将样本视频帧的全局图像特征作为第二孪生网络中第一CNN神经网络的输出项;
将压缩样本视频帧作为第二孪生网络中第二CNN神经网络的输入项,将压缩样本视频帧的全局图像特征作为第二孪生网络中第二CNN神经网络的输出项;
将第一孪生网络的损失函数与第二孪生网络的损失函数间差值作为第一差异度;
其中,所述第一孪生网络的损失函数对应于压缩样本视频帧的第一焦点特征与样本视频帧的第一焦点特征间的差异性;
所述第二孪生网络的损失函数对应于压缩样本视频帧的全局图像特征与样本视频帧的全局图像特征间的差异性;
第一差异度对应于压缩样本视频帧相对于样本视频帧的压缩目标,损失压缩目标包含压损损失和压缩比;
最小第一差异度对应于压缩样本视频帧相对于样本视频帧具有最小压缩损失和最大压缩比。
5.根据权利要求4所述的一种视频帧超分辨率重构方法,其特征在于:所述压缩样本视频帧中第一对象所在的图像区域与样本视频帧中第一对象所在的图像区域具有一致的像素坐标。
6.根据权利要求4所述的一种视频帧超分辨率重构方法,其特征在于:所述第一视频帧的第一采样率,包括:
将第一视频帧输入至目标映射关系中,由目标映射关系输出第一视频帧的第一采样率。
7.根据权利要求1所述的一种视频帧超分辨率重构方法,其特征在于:所述第一视频帧是流媒体视频经过坏帧检测确定为图像完整的视频帧。
8.根据权利要求1所述的一种视频帧超分辨率重构方法,其特征在于:所述将第二超分辨率视频帧对应替换至流媒体视频中,得到流媒体超分辨率视频,包括:
将第二超分辨率视频帧,分别依据第一视频帧在流媒体视频帧中的序列位置,对相应序列位置处的第一视频帧进行替换,得到所述流媒体超分辨率视频。
9.一种视频帧超分辨率重构装置,其特征在于,包括:
数据获取模块,用于获取流媒体视频,所述流媒体视频中包含有多个第一视频帧;
数据处理模块,用于对第一视频帧,通过图像特征提取,得到第一视频帧的第一焦点特征;
用于根据第一视频帧,通过目标映射关系,得到第一视频帧的第一采样率;
用于根据第一采样率对第一视频帧,进行图像重采样,得到第二视频帧;
用于对第二视频帧,进行超分辨率处理,得到第二超分辨率视频帧;
用于将第二超分辨率视频帧对应替换至流媒体视频中,得到流媒体超分辨率视频;
数据存储模块,用于存储目标映射关系。
10.一种计算机设备,其特征在于,
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使计算机设备执行权利要求 1-8 任一项所述的方法。
CN202311316640.9A 2023-10-12 2023-10-12 视频帧超分辨率重构方法、装置及计算机设备 Active CN117058002B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311316640.9A CN117058002B (zh) 2023-10-12 2023-10-12 视频帧超分辨率重构方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311316640.9A CN117058002B (zh) 2023-10-12 2023-10-12 视频帧超分辨率重构方法、装置及计算机设备

Publications (2)

Publication Number Publication Date
CN117058002A true CN117058002A (zh) 2023-11-14
CN117058002B CN117058002B (zh) 2024-02-02

Family

ID=88659435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311316640.9A Active CN117058002B (zh) 2023-10-12 2023-10-12 视频帧超分辨率重构方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN117058002B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710993A (zh) * 2009-11-30 2010-05-19 北京大学 基于块的自适应超分辨率视频处理方法及系统
CN109922339A (zh) * 2017-12-12 2019-06-21 四川大学 结合多采样率下采样和超分辨率重建技术的图像编码框架
CN111726638A (zh) * 2019-03-18 2020-09-29 四川大学 一种结合去压缩效应与超分辨率的hevc编码优化方法
KR20210018668A (ko) * 2019-08-08 2021-02-18 동국대학교 산학협력단 딥러닝 신경 네트워크를 사용하여 다운샘플링을 수행하는 이미지 처리 시스템 및 방법, 영상 스트리밍 서버 시스템
CN113115067A (zh) * 2021-04-19 2021-07-13 脸萌有限公司 直播系统、视频处理方法及相关装置
CN114363649A (zh) * 2021-12-31 2022-04-15 北京字节跳动网络技术有限公司 视频处理方法、装置、设备及存储介质
CN115546030A (zh) * 2022-11-30 2022-12-30 武汉大学 基于孪生超分辨率网络的压缩视频超分辨率方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710993A (zh) * 2009-11-30 2010-05-19 北京大学 基于块的自适应超分辨率视频处理方法及系统
CN109922339A (zh) * 2017-12-12 2019-06-21 四川大学 结合多采样率下采样和超分辨率重建技术的图像编码框架
CN111726638A (zh) * 2019-03-18 2020-09-29 四川大学 一种结合去压缩效应与超分辨率的hevc编码优化方法
KR20210018668A (ko) * 2019-08-08 2021-02-18 동국대학교 산학협력단 딥러닝 신경 네트워크를 사용하여 다운샘플링을 수행하는 이미지 처리 시스템 및 방법, 영상 스트리밍 서버 시스템
CN113115067A (zh) * 2021-04-19 2021-07-13 脸萌有限公司 直播系统、视频处理方法及相关装置
CN114363649A (zh) * 2021-12-31 2022-04-15 北京字节跳动网络技术有限公司 视频处理方法、装置、设备及存储介质
CN115546030A (zh) * 2022-11-30 2022-12-30 武汉大学 基于孪生超分辨率网络的压缩视频超分辨率方法及系统

Also Published As

Publication number Publication date
CN117058002B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN113362223B (zh) 基于注意力机制和双通道网络的图像超分辨率重建方法
CN111898701B (zh) 模型训练、帧图像生成、插帧方法、装置、设备及介质
CN110675321A (zh) 一种基于渐进式的深度残差网络的超分辨率图像重建方法
CN108537733A (zh) 基于多路径深度卷积神经网络的超分辨率重建方法
CN111105376B (zh) 基于双分支神经网络的单曝光高动态范围图像生成方法
KR102141319B1 (ko) 다시점 360도 영상의 초해상화 방법 및 영상처리장치
CN111709900A (zh) 一种基于全局特征指导的高动态范围图像重建方法
CN110418139B (zh) 一种视频超分辨修复方法、装置、设备及存储介质
CN109118428B (zh) 一种基于特征增强的图像超分辨率重建方法
CN111008938A (zh) 一种基于内容和连续性引导的实时多帧比特增强方法
CN110689509B (zh) 基于循环多列3d卷积网络的视频超分辨率重建方法
CN116485934A (zh) 一种基于CNN和ViT的红外图像彩色化方法
CN115170915A (zh) 一种基于端到端注意力网络的红外与可见光图像融合方法
CN115880158B (zh) 一种基于变分自编码的盲图像超分辨率重建方法及系统
CN108416736A (zh) 一种基于二次锚点邻域回归的图像超分辨率重建方法
Yao et al. Bidirectional translation between uhd-hdr and hd-sdr videos
CN109523508B (zh) 一种密集光场质量评价方法
CN113610912A (zh) 三维场景重建中低分辨率图像单目深度估计系统及方法
CN117058002B (zh) 视频帧超分辨率重构方法、装置及计算机设备
CN112862675A (zh) 时空超分辨率的视频增强方法和系统
CN112150360A (zh) 一种基于稠密残差网络的ivus图像超分辨率重建方法
CN116980549A (zh) 视频帧处理方法、装置、计算机设备和存储介质
CN104574320B (zh) 一种基于稀疏编码系数匹配的图像超分辨率复原方法
CN117058001B (zh) 超分辨率视频融合重建方法、装置及计算机设备
CN113674154A (zh) 一种基于生成对抗网络的单幅图像超分辨率重建方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant