CN114786007B - 一种结合编码与图像超分辨率的智能视频传输方法及系统 - Google Patents

一种结合编码与图像超分辨率的智能视频传输方法及系统 Download PDF

Info

Publication number
CN114786007B
CN114786007B CN202210277960.7A CN202210277960A CN114786007B CN 114786007 B CN114786007 B CN 114786007B CN 202210277960 A CN202210277960 A CN 202210277960A CN 114786007 B CN114786007 B CN 114786007B
Authority
CN
China
Prior art keywords
video
target
sample
frame
target video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210277960.7A
Other languages
English (en)
Other versions
CN114786007A (zh
Inventor
李清
于骞
何睿
王向荣
邹龙昊
李伟超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peng Cheng Laboratory
Original Assignee
Peng Cheng Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peng Cheng Laboratory filed Critical Peng Cheng Laboratory
Priority to CN202210277960.7A priority Critical patent/CN114786007B/zh
Publication of CN114786007A publication Critical patent/CN114786007A/zh
Application granted granted Critical
Publication of CN114786007B publication Critical patent/CN114786007B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/107Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/587Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种结合编码与图像超分辨率的智能视频传输方法及系统。本发明对于目标视频的每个视频块,对关键帧利用下采样神经网络模型进行下采样后得到低分辨率关键帧,再利用超分神经网络模型进行超分,得到超分关键帧后,以超分关键帧为参考帧编码非关键帧,将下采样后的低分辨率关键帧进行编码,得到第一编码文件,将非关键帧的编码文件作为第二编码文件,将超分神经网络模型、第一编码文件和第二编码文件传输给播放端,这样视频压缩效率提高,既减小了文件的传输大小,降低传输时间,同时播放端也只需要超分部分的视频帧,对播放端的算力要求低,能够有效提升移动视频的传输质量,提升用户的视频观看体验。

Description

一种结合编码与图像超分辨率的智能视频传输方法及系统
技术领域
本发明涉及视频分发技术领域,特别涉及一种结合编码与图像超分辨率的智能视频传输方法及系统。
背景技术
随着移动用户的增加,移动视频流已经成为网络视频流的重要组成部分,移动用户对移动视频的观看体验的需求不断提高。但是,在很多场所,移动带宽较低或者不稳定,限制了移动视频的传输质量,使得用户很难获得稳定的高质量视频体验。
因此,现有技术还有待改进和提高。
发明内容
针对现有技术的上述缺陷,本发明提供一种结合编码与图像超分辨率的智能视频传输方法及系统,旨在解决现有技术中移动视频的传输质量不高的问题。
为了解决上述技术问题,本发明所采用的技术方案如下:
一种结合编码与图像超分辨率的智能视频传输方法,所述结合编码与图像超分辨率的智能视频传输方法包括:
获取目标视频以及所述目标视频对应的目标神经网络模型,其中,所述目标神经网络模型包括下采样模型和超分模型;
提取所述目标视频的目标视频块中的关键帧,将所述目标视频块的关键帧输入至所述下采样模型,得到第一低分关键帧,对所述第一低分关键帧进行帧内编码,得到第一编码文件;
对所述第一编码文件进行解码,得到第二低分关键帧,所述第二低分关键帧输入至所述超分模型,对所述第二低分关键帧进行超分处理,得到超分关键帧,以所述超分关键帧为参考帧对所述目标视频块中的非关键帧进行帧间编码,得到第二编码文件;
在播放端请求播放所述目标视频后,将所述第一编码文件、所述第二编码文件和所述超分模型发送至所述播放端,以使得所述播放端根据所述第一编码文件、所述超分模型和所述第二编码文件解码得到所述超分关键帧和所述非关键帧进行播放。
所述的结合编码与图像超分辨率的智能视频传输方法,其中,所述获取目标视频以及所述目标视频对应的目标神经网络模型,包括:
根据样本视频对应的已训练的神经网络模型在所述样本视频和所述目标视频上取得的量化效果确定所述目标视频与样本视频是否为相似视频;
当所述目标视频与所述样本视频为相似视频时,获取所述样本视频对应的已训练的神经网络模型为所述目标神经网络模型;
当所述目标视频与任一所述样本视频均不为相似视频时,根据所述目标视频训练得到所述目标神经网络模型。
所述的结合编码与图像超分辨率的智能视频传输方法,其中,所述根据所述样本视频对应的已训练的神经网络模型在所述样本视频和所述目标视频上取得的量化效果确定所述目标视频与所述样本视频是否为相似视频,包括:
获取所述目标视频的标签,当所述目标视频的标签和所述样本视频不同时,确定所述目标视频与所述样本视频不为相似视频;
当所述目标视频的标签和所述样本视频的标签相同时,分别提取所述目标视频和所述样本视频中的多个关键帧,对所述目标视频中提取的关键帧进行聚类,得到目标关键帧簇,对所述样本视频中提取的关键帧进行聚类,得到样本关键帧簇,当所述目标关键帧簇和所述样本关键帧簇之间的距离大于第一门限值时,确定所述目标视频与所述样本视频不为相似视频;
当所述目标关键帧簇和所述样本关键帧簇之间的距离不大于所述第一门限值时,将所述目标视频的关键帧和所述样本视频的关键帧分别输入至所述样本视频对应的已训练的神经网络模型,获取所述样本视频对应的已训练的神经网络模型对所述目标视频的关键帧和对所述样本视频的关键帧的量化效果之间的差异值,当所述差异值大于第二门限值时,确定所述目标视频与所述样本视频不为相似视频,当所述差异值不大于所述第二门限值时,确定所述目标视频与所述样本视频为相似视频。
所述的结合编码与图像超分辨率的智能视频传输方法,其中,所述获取所述样本视频对应的已训练的神经网络模型对所述目标视频的关键帧和对所述样本视频的关键帧的量化效果之间的差异值,包括:
将所述目标视频的关键帧输入至所述样本视频对应的已训练的神经网络模型,获取第一超分帧,将所述样本视频的关键帧输入至所述样本视频对应的已训练的神经网络模型,获取第二超分帧;
根据所述第一超分帧和所述目标视频的关键帧确定所述样本视频对应的已训练的神经网络模型对所述目标视频的关键帧的量化效果,根据所述第二超分帧和所述样本视频的关键帧确定所述样本视频对应的已训练的神经网络模型对所述样本视频的关键帧的量化效果;
基于获取的量化效果获取所述差异值。
所述的结合编码与图像超分辨率的智能视频传输方法,其中,所述目标神经网络模型的训练过程为:
将训练样本视频帧输入至所述目标神经网络模型,获取所述下采样模型输出的第一低分样本帧,对所述第一低分样本帧进行编码再解码,得到第二低分样本帧,将所述第二低分样本帧输入至所述超分模型中,获取所述超分模型输出的第一超分样本帧;
根据所述第一低分样本帧和预设下采样帧得获取第一损失,根据所述第一超分样本帧和所述训练样本视频帧获取第二损失,其中,所述预设下采样帧是对所述训练样本视频帧采用预设下采样方式下采样后得到的帧;
根据所述第一损失和所述第二损失更新所述下采样模型和所述超分模型的参数,直至所述下采样模型的参数收敛;
将训练样本视频帧输入至参数收敛后的所述下采样模型后,将所述下采样模型的输出结果输入至所述超分模型中,获取所述超分模型输出的第二超分样本帧,根据所述超分样本帧和所述训练样本视频帧获取第三损失,根据所述第三损失更新所述超分模型的参数,直至所述超分模型的参数收敛;
所述训练样本视频帧为所述目标视频中的帧或者为样本视频中的帧。
所述的结合编码与图像超分辨率的智能视频传输方法,其中,所述预设下采样方式为双三次插值下采样。
所述的结合编码与图像超分辨率的智能视频传输方法,其中,所述将所述第一编码文件、所述第二编码文件和所述超分模型发送至播放端,包括:
在接收到所述播放端对所述目标视频的播放请求时,将所述超分模型发送至所述播放端;
将所述目标视频块的目标编码文件发送至所述播放端;
其中,在所述超分模型没有完全传输至所述播放端之前,所述目标视频块的目标编码文件是从所述目标视频的第一编码文件库中选择得到的,所述第一编码文件库中包括采用传统视频编码器基于多种比特率对所述目标视频块进行编码得到的编码文件;
在所述超分模型完全传输至所述播放端之后,所述目标比特率的所述目标视频块的编码文件是从所述目标视频的所述第一编码文件库和所述第二编码文件库中选择得到的,所述第二编码文件库中包括采用各个比特率对应的所述目标神经网络模型对所述目标视频块进行处理并编码得到的所述第一编码文件和所述第二编码文件。
所述的结合编码与图像超分辨率的智能视频传输方法,其中,所述目标视频块的目标编码文件是将当前传输状态输入至已训练的强化模型后得到的;
其中,所述当前传输状态包括:已传输视频块的吞吐量、已传输视频块的传输时间、所述目标视频块的实际传输数据量、所述目标视频块经过所述目标神经网络模型处理并编码后的编码文件的比特率观看体验值、所述播放端已缓存的视频数据量、剩余的待传输视频块的数据量、上一个已传输视频块的比特率、以及待传输的所述超分模型的数据量。
所述的结合编码与图像超分辨率的智能视频传输方法,其中,所述接收到所述播放端对所述目标视频的播放请求之前,包括:
根据传统视频编码器在各个比特率下对视频帧进行编码后的编码文件与原始视频帧的结构相似性和比特率观看体验值的对应关系,以及经过所述各个比特率对应的目标神经网络模型对视频帧处理并编码后的编码文件与原始视频帧的结构相似性,构建各个比特率对应的所述目标神经网络模型与比特率观看体验值的映射关系;
基于所述映射关系获取下个待结合编码与图像超分辨率的智能视频传输视频块经过所述目标神经网络模型处理并以编码后的比特率观看体验值。
一种结合编码与图像超分辨率的智能视频传输装置,所述装置包括:
模型获取模块,所述模型获取模块用于获取目标视频以及所述目标视频对应的目标神经网络模型,其中,所述目标神经网络模型包括下采样模型和超分模型;
第一编码模块,所述第一编码模块用于提取所述目标视频的目标视频块中的关键帧,将所述目标视频块的关键帧输入至所述下采样模型,得到第一低分关键帧,对所述第一低分关键帧进行帧内编码,得到第一编码文件;
第二编码模块,所述第二编码模块用于对所述第一编码文件进行解码,得到第二低分关键帧,所述第二低分关键帧输入至所述超分模型,对所述第二低分关键帧进行超分处理,得到超分关键帧,以所述超分关键帧为参考帧对所述目标视频块中的非关键帧进行帧间编码,得到第二编码文件;
传输模块,所述传输模块用于在播放端请求播放所述目标视频后,将所述第一编码文件、所述第二编码文件和所述超分模型发送至所述播放端,以使得所述播放端根据所述第一编码文件、所述超分模型和所述第二编码文件解码得到所述超分关键帧和所述非关键帧进行播放。
一种视频分发服务器,其中,所述视频分发服务器包括:处理器、与处理器通信连接的存储介质,所述存储介质适于存储多条指令,所述处理器适于调用所述存储介质中的指令,以执行实现上述结合编码与图像超分辨率的智能视频传输方法的步骤。
一种视频传输系统,其中,所述系统包括:视频分发服务器和播放端;
所述视频分发服务器用于:
获取目标视频以及所述目标视频对应的目标神经网络模型,其中,所述目标神经网络模型包括下采样模型和超分模型;
提取所述目标视频的目标视频块中的关键帧,将所述目标视频块的关键帧输入至所述下采样模型,得到第一低分关键帧,对所述第一低分关键帧进行帧内编码,得到第一编码文件;
对所述第一编码文件进行解码,得到第二低分关键帧,所述第二低分关键帧输入至所述超分模型,对所述第二低分关键帧进行超分处理,得到超分关键帧,以所述超分关键帧为参考帧对所述目标视频块中的非关键帧进行帧间编码,得到第二编码文件;
在所述播放端请求播放所述目标视频后,将所述第一编码文件、所述第二编码文件和所述超分模型发送至所述播放端;
所述播放端用于根据所述第一编码文件、所述超分模型和所述第二编码文件解码得到所述超分关键帧和所述非关键帧进行播放。
一种计算机可读存储介质,其中,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述结合编码与图像超分辨率的智能视频传输方法的步骤。
有益效果:与现有技术相比,本发明提供了一种结合编码与图像超分辨率的智能视频传输方法及系统,对于目标视频的每个视频块,对关键帧利用下采样神经网络模型进行下采样后得到低分辨率关键帧,再利用超分神经网络模型进行超分,得到超分关键帧后,以超分关键帧为参考帧编码非关键帧,将下采样后的低分辨率关键帧进行编码,得到第一编码文件,将非关键帧的编码文件作为第二编码文件,将超分神经网络模型、第一编码文件和第二编码文件传输给播放端,这样视频压缩效率提高,既减小了文件的传输大小,降低传输时间,同时播放端也只需要超分部分的视频帧,对播放端的算力要求低,能够有效提升移动视频的传输质量,提升用户的视频观看体验。
附图说明
图1为本发明提供的结合编码与图像超分辨率的智能视频传输方法的实施例的流程图;
图2为本发明提供的结合编码与图像超分辨率的智能视频传输系统的实施例的示意图;
图3为本发明提供的结合编码与图像超分辨率的智能视频传输方法的实施例中编码过程示意图;
图4为本发明提供的结合编码与图像超分辨率的智能视频传输方法的实施例中播放端解码过程示意图;
图5为本发明提供的集合编码与图像分辨率的智能视频传输方法的实施例中相似视频判断过程伪代码示意图;
图6为本发明提供的结合编码与图像超分辨率的智能视频传输方法的实施例中强化学习模型的示意图;
图7为本发明提供的结合编码与图像超分辨率的智能视频传输装置的实施例的结构原理图;
图8为本发明提供的视频分发服务器的实施例的结构原理图。
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提供的一种结合编码与图像超分辨率的智能视频传输方法,是可以应用在一种视频传输系统中,所述视频传输系统中包括视频分发服务器和播放端,视频分发服务器执行本发明提供的结合编码与图像超分辨率的智能视频传输方法,所述视频分发服务器可以是任一具有计算能力的终端。所述视频分发服务器在获取到数据后,可以根据所述结合编码与图像超分辨率的智能视频传输方法对视频进行处理传输至播放端。
实施例一
请参照图1,图1为本发明提供的结合编码与图像超分辨率的智能视频传输方法的一个实施例的流程图。所述结合编码与图像超分辨率的智能视频传输方法包括步骤:
S100、获取目标视频以及所述目标视频对应的目标神经网络模型,其中,所述目标神经网络模型包括下采样模型和超分模型;
所述目标视频是视频分发服务器中存储的视频,当播放端向所述视频分发服务器请求播放所述目标视频时,所述播放端将所述目标视频传输给所述播放端。具体地,在本实施例中,为所述视频分发服务器中存储的视频都对应设置一个已训练的神经网络模型,将所述目标视频对应的神经网络模型称为所述目标神经网络模型,所述目标神经网络模型包括下采样模型和超分模型。
如图1所示,本实施例提供的结合编码与图像超分辨率的智能视频传输方法,还包括步骤:
S200、提取所述目标视频的目标视频块中的关键帧,将所述目标视频块的关键帧输入至所述下采样模型,得到第一低分关键帧,对所述第一低分关键帧进行帧内编码,得到第一编码文件;
S300、对所述第一编码文件进行解码,得到第二低分关键帧,所述第二低分关键帧输入至所述超分模型,对所述第二低分关键帧进行超分处理,得到超分关键帧,以所述超分关键帧为参考帧对所述目标视频块中的非关键帧进行帧间编码,得到第二编码文件。
在视频传输过程中,并不是一次性将整个视频发给所述播放端,而是将视频划分为多个视频块,每次传输一个视频块。如图2所示,对于每个视频块,所述视频分发服务器分别进行编码,得到该视频块对应的编码文件,在所述播放端请求播放所述目标视频时,将所述目标视频的各个视频块对应的编码文件发送给所述播放端,所述播放端解码后实现所述目标视频的播放。
视频帧的编码可以分为帧间编码和帧内编码两类,帧内编码的压缩效率洗浴帧间编码,视频块的第一帧称为关键帧,由于关键帧没有编码参考帧,必须采用帧内编码,压缩效率较低,导致该帧在视频块的编码文件中内存占比较高,如图3所示,在本实施例中,将对于所述目标视频的目标视频块的关键帧,首先通过所述目标神经网络模型中的所述下采样模型进行下采样,得到低分辨率的图像,即所述第一低分关键帧,然后再将所述第一低分关键帧编码得到所述第一编码文件,对所述第一编码文件解码后再输入至所述超分模型中进行超分处理,以超分后的高分辨率图像,即所述高分关键帧为参考帧对非关键帧(即所述目标视频块中除关键帧之外的帧)进行帧间编码得到所述第二编码文件,将所述第一低分关键帧进行帧内编码得到所述第一编码文件。所述目标视频块可以是所述目标视频的任一个视频块。这样,所述目标视频块的编码文件中的关键帧是以低分辨率的形式被编码,提升了压缩效率,能够在保持视频压缩质量不变的情况下,减少视频传输消耗的带宽,同时在所述播放端只需要超分辨率部分帧,所需算力较低,可以在移动端实现实时解码,保证了移动视频播放的可靠性。
可以将所述第二编码文件中的关键帧的位置置0,这样,在解码端,即所述播放端,如图4所示,在接收到所述第一编码文件后解码,可以得到所述第二低分关键帧,将所述第二低分关键帧输入至所述超分模型后可以得到所述超分关键帧,再将所述超分关键帧以无损编码模式压缩并插入至所述第二编码文件中的关键帧位置,实现对所述第二编码文件解码播放,播放的视频帧为所述超分关键帧和所述非关键帧。由于在所述视频分发服务器端时对所述第一编码文件解码后再超分,所述播放端也是对所述第一编码文件解码后再超分,可以保证所述播放端对所述第一编码文件解码后再超分得到的图像与所述高分关键帧一致。
具体地,所述目标神经网络模型是已训练的网络模型,从而使得输入至所述目标神经网络模型中的关键帧在经过所述下采样模型和所述超分模型后能够输出高质量的所述超分关键帧。所述目标神经网络模型是基于多组训练数据完成的,对于所述目标神经网络模型的训练分为两个部分:首先采用原始的训练样本视频帧(高清帧)和其经过预设下采样方式下采样处理后得到的第一低分样本帧(低清帧)作为第一训练集进行所述下采样模型和所述超分模型的级联训练,在所述下采样模型训练结束,即参数收敛后,固定所述下采样模型的参数,再采用原始的训练样本视频帧作为第二训练集,对所述超分模型进行微调训练。所述目标神经网络模型的具体训练过程如下:
将训练样本视频帧输入至所述目标神经网络模型,获取所述下采样模型输出的第一低分样本帧,对所述第一低分样本帧进行编码再解码,得到第二低分样本帧,将所述第二低分样本帧输入至所述超分模型中,获取所述超分模型输出的第一超分样本帧;
根据所述第一低分样本帧和预设下采样帧得获取第一损失,根据所述第一超分样本帧和所述训练样本视频帧获取第二损失,其中,所述预设下采样帧是对所述训练样本视频帧采用预设下采样方式下采样后得到的帧;
根据所述第一损失和所述第二损失更新所述下采样模型和所述超分模型的参数,直至所述下采样模型的参数收敛;
将训练样本视频帧输入至参数收敛后的所述下采样模型后,将所述下采样模型的输出结果输入至所述超分模型中,获取所述超分模型输出的第二超分样本帧,根据所述超分样本帧和所述训练样本视频帧获取第三损失,根据所述第三损失更新所述超分模型的参数,直至所述超分模型的参数收敛。
具体地,所述第一损失为所述低分样本帧和所述预设下采样帧之间的L1损失,所述第二损失为所述训练样本视频帧和所述第一超分样本帧之间的L1损失,所述目标神经网络的训练损失中包括所述第一损失,可以保证所述下采样模型处理得到的图片具有视觉可观性,所述目标神经网络的训练损失中包括所述第二损失,可以保证所述目标神经网络最终输出的高分辨图像具有较好的质量。之后对所述超分模型进行微调训练,可以减少因视频编解码误差对超分辨率网络性能产生的影响。所述预设下采样方式可以为现有的下采样方式,例如双三次插值下采样。
由于所述视频分发服务器和所述播放端之间的传输速度受到所述播放端所处网络环境的影响很大,不同的网络环境适用的视频编码比特率不同,因此,所述视频分发服务器事先按照多种比特率进行编码。在所述目标神经网络的训练过程中,通过改变所述第一低分样本帧进行编码的比特率,可以训练得到不同比特率对应的所述目标神经网络,即,每个预先设置的比特率,都对应有一个所述目标神经网络。
在一种可能的实现方式中,可以是对每个所述目标视频,都针对性地训练对应的所述目标神经网络模型,即采用所述目标视频中的视频帧来训练所述目标神经网络模型,这样,有神经网络具有过拟合效果,针对某一视频训练出的专用神经网络模型的处理质量会非常高,从而使得经过所述目标神经网络模型进行处理后得到的所述超分关键帧质量很高,进而提升传输到所述播放端的编码文件的质量,使得所述播放端播放的视频质量更高,用户观看体验更好。
另一方面,可以理解的是,对于所述视频分发服务器中的每个视频都训练一个专属的神经网络模型,会耗费比较长的时间,因此,在本实施例中,是先对一部分视频进行训练,得到这一部分视频分别对应的已训练的神经网络模型,将这一部分视频称为样本视频,对于其他的视频,判断其与所述样本视频的相似性,如果所述目标视频是所述样本视频的相似视频,那么可以直接将所述样本视频对应的已训练的神经网络视频作为所述目标视频对应的神经网络模型,即所述目标神经网络模型。也就是说,两个视频可以共享一个神经网络模型,即,前文中用于训练所述目标神经网络模型的所述训练样本视频帧可以为所述目标视频中的帧(当所述目标视频为样本视频或者不存在与所述目标视频相似的样本视频时)或者为样本视频中的帧(当所述目标视频和所述样本视频为相似视频时)。具体地,所述获取目标视频以及所述目标视频对应的目标神经网络模型,包括:
根据样本视频对应的已训练的神经网络模型在所述样本视频和所述目标视频上取得的量化效果确定所述目标视频与样本视频是否为相似视频;
当所述目标视频与所述样本视频为相似视频时,获取所述样本视频对应的已训练的神经网络模型为所述目标神经网络模型;
当所述目标视频与任一所述样本视频均不为相似视频时,根据所述目标视频训练得到所述目标神经网络模型。
在本实施例中,为了使得所述目标视频和所述样本视频之间是否可以共享神经网络模型的判断更准确,结合所述样本视频对应的已训练完成的神经网络模型对所述目标视频和所述样本视频的量化效果来确定所述目标视频和所述样本视频是否相似,具体地,所述根据所述样本视频对应的已训练的神经网络模型在所述样本视频和所述目标视频上取得的量化效果确定所述目标视频与所述样本视频是否为相似视频,包括:
获取所述目标视频的标签,当所述目标视频的标签和所述样本视频不同时,确定所述目标视频与所述样本视频不为相似视频;
当所述目标视频的标签和所述样本视频的标签相同时,分别提取所述目标视频和所述样本视频中的多个关键帧,对所述目标视频中提取的关键帧进行聚类,得到目标关键帧簇,对所述样本视频中提取的关键帧进行聚类,得到样本关键帧簇,当所述目标关键帧簇和所述样本关键帧簇之间的距离大于第一门限值时,确定所述目标视频与所述样本视频不为相似视频;
当所述目标关键帧簇和所述样本关键帧簇之间的距离不大于所述第一门限值时,将所述目标视频的关键帧和所述样本视频的关键帧分别输入至所述样本视频对应的已训练的神经网络模型,获取所述样本视频对应的已训练的神经网络模型对所述目标视频的关键帧和对所述样本视频的关键帧的量化效果之间的差异值,当所述差异值大于第二门限值时,确定所述目标视频与所述样本视频不为相似视频,当所述差异值不大于所述第二门限值时,确定所述目标视频与所述样本视频为相似视频。
下面对所述目标视频和一个所述样本视频是否为相似视频的判断过程进行详细说明:
首先,判断所述目标视频和所述样本视频的标签是否相同,具体地,在视频被上传至所述视频分发服务器后,上传者会选择一个标签对视频进行分类,不同标签的视频之间的内容差异较大,例如生活类的视频的色彩等与恐怖类的视频的色彩差异非常大。因此,当所述目标视频和所述样本视频的标签不同时,确定所述目标视频和所述样本视频不为相似视频,需要对所述目标视频针对地训练一个神经网络模型。
当所述目标视频和所述样本视频的标签相同时,提取所述目标视频和所述样本视频的关键帧,分别对所述目标视频的关键帧和所述样本视频的关键帧进行聚类,得到两个视频的关键帧簇:目标关键帧簇和样本关键帧簇,具体地,可以通过图像感知算法(Phash)计算相邻的关键帧的差异性,实现聚类。随后计算两个视频的关键帧簇之间的距离,例如推土机距离(Earth Movers Distance),当然,也可以采用其他的衡量差异性的距离计算方式。如果该距离大于第一门限值,则确定两个视频不相似,反之,则进行下一步的判断。
当所述目标关键帧簇和所述样本关键帧簇之间的距离不大于所述第一门限值时,将所述样本视频对应的已训练的神经网络模型应用于两个视频上,计算量化效果来判断两个视频是否相似,具体地,所述获取所述样本视频对应的已训练的神经网络模型对所述目标视频的关键帧和对所述样本视频的关键帧的量化效果之间的差异值,包括:
将所述目标视频的关键帧输入至所述样本视频对应的已训练的神经网络模型,获取第一超分帧,将所述样本视频的关键帧输入至所述样本视频对应的已训练的神经网络模型,获取第二超分帧;
根据所述第一超分帧和所述目标视频的关键帧确定所述样本视频对应的已训练的神经网络模型对所述目标视频的关键帧的量化效果,根据所述第二超分帧和所述样本视频的关键帧确定所述样本视频对应的已训练的神经网络模型对所述样本视频的关键帧的量化效果;
基于获取的量化效果获取所述差异值。
判断视频相似性的过程的算法伪代码可以如图5所示。
请再次参阅图1,本实施例提供的结合编码与图像超分辨率的智能视频传输方法,在利用所述目标神经网络视频对所述目标视频块得到所述第一编码文件和所述第二编码文件之后,还包括步骤:
S400、在播放端请求播放所述目标视频后,将所述第一编码文件、所述第二编码文件和所述超分模型发送至所述播放端,以使得所述播放端根据所述第一编码文件、所述超分模型和所述第二编码文件解码得到所述超分关键帧和所述非关键帧进行播放。
当所述播放端请求播放所述目标视频后,所述视频分发服务器将所述目标视频的视频块和所述目标视频对应的所述目标神经网络模型中的所述超分模型下发给所述播放端。在视频的传输过程中,关键帧的编码文件与非关键帧的编码文件分开传输,因此所述播放端接收、处理整个视频块的时间从从降至其中bkey-frame,bnon-key-frame分别为关键帧的编码文件(所述第一编码文件)与非关键帧的视编码文件(所述第二编码文件)的比特率大小,Bandwidth为网络的带宽,tSR为所述播放端端超分辨率视频帧的时间。
正如前面所说明的,对于所述播放端所处的网络环境的不同,适用的视频块的编码比特率不同。在所述目标视频的视频块下发给所述播放端之前,需要确定下发什么样的比特率的视频块。
以需要将所述目标视频块下发至所述播放端为例对如何确定下发什么样的视频块给所述播放端的过程进行说明:
所述将所述第一编码文件、所述第二编码文件和所述超分模型发送至播放端,包括:
在接收到所述播放端对所述目标视频的播放请求时,将所述超分模型发送至所述播放端;
将所述目标视频块的目标编码文件发送至所述播放端;
其中,在所述超分模型没有完全传输至所述播放端之前,所述目标视频块的目标编码文件是从所述目标视频的第一编码文件库中选择得到的,所述第一编码文件库中包括采用传统视频编码器基于多种比特率对所述目标视频块进行编码得到的编码文件;
在所述超分模型完全传输至所述播放端之后,所述目标比特率的所述目标视频块的编码文件是从所述目标视频的所述第一编码文件库和所述第二编码文件库中选择得到的,所述第二编码文件库中包括采用各个比特率对应的所述目标神经网络模型对所述目标视频块进行处理并编码得到的所述第一编码文件和所述第二编码文件。
在所述视频分发服务器接收到所述播放端对所述目标视频的播放请求后,首先将所述目标神经网络视频中的所述超分模型发送给所述播放端,由于所述超分模型的数据量较小,为了后期能够快速将不同比特率的遍文件发送给所述播放端,所述视频分发服务器在接收到所述目标视频的播放请求后,将各个预设的比特率分别对应的所述目标神经网络视频都直接发送给所述播放端。
所述视频分发服务器除了按照本发明提供的步骤S100-S300对所述目标视频的视频块分别按照不同的比特率进行编码外,还按照传统视频编码器对所述目标视频的视频块分别按照不同的比特率进行编码。根据所述播放端的实际网络环境的不同,下发不同的编码文件给所述播放端。
在所述目标神经网络模型没有被完全传输至所述播放端之前,在传统视频编码器编码的文件,即不经过所述目标神经网络模型处理,按照传统编码方式编码得到的编码文件中选择合适的比特率对应的编码文件发送给所述播放端。在所述目标神经网络模型已经完全传输至所述播放端之后,在传统视频编码器编码的文件和经过所述目标神经网络模型进行处理并编码的文件中选择合适的比特率对应的编码文件发送给所述播放端。具体如何进行选择,则通过一个已训练的强化学习模型来实现。即所述目标视频块的目标编码文件是将当前传输状态输入至已训练的强化模型后得到的。
具体地,所述强化学习模型可以是运行在所述播放端,即所述播放端收集需要输入至所述强化学习模型中的状态信息,并输入至所述强化学习模型,得到所述强化学习模型输出的选择结果,即是选择传统视频编码器编码的文件,还是选择经过所述目标神经网络模型进行处理并编码的文件(所述第一编码文件和所述第二编码文件),以及具体选择哪种比特率。
在确定所述目标视频块对应的下发的编码文件时,所述强化学习模型的输入为所述视频分发服务器和所述播放端之间的当前传输状态,如图6所示,所述传输状态包括:已传输视频块的吞吐量、已传输视频块的传输时间、所述目标视频块的实际传输数据量、所述目标视频块经过所述目标神经网络模型处理并编码后的编码文件的比特率观看体验值、所述播放端已缓存的视频数据量、剩余的待传输视频块的数据量、上一个已传输视频块的比特率、以及待传输的所述超分模型的数据量。
具体地,所述比特率观看体验值是用户体验评价内容中的一项,用于评价编码文件被解码并播放后用户的体验感。所述接收到所述播放端对所述目标视频的播放请求之前,包括:
根据传统视频编码器在各个比特率下对视频帧进行编码后的编码文件与原始视频帧的结构相似性和比特率观看体验值的对应关系,以及经过所述各个比特率对应的目标神经网络模型对视频帧处理并编码后的编码文件与原始视频帧的结构相似性,构建各个比特率对应的所述目标神经网络模型与比特率观看体验值的映射关系;
基于所述映射关系获取下个待结合编码与图像超分辨率的智能视频传输视频块经过所述目标神经网络模型处理并以编码后的比特率观看体验值。
使用公式Reffective(Vn)=SSIM-1(SSIM(SR-Codec(Vn)))表示所述目标视频块在用户质量体验(QoE)中的实际比特率观看体验值的大小,其中,SSIM-1映射SSIM值((结构相似性))到比特率观看体验值,SR-Codec(Vn)表示经过所述目标神经网络模型处理并编码后的编码文件。为了创造SSIM-1的映射关系,本发明测量了视频块在传统视频编码器中多个比特率编码的SSIM值,并使用了分段线性插值的方式填补空比特率编码的SSIM值。
由于所述目标神经网络对视频的处理效果会随着视频内容有较大变化,可能有极小部分弱于传统的视频编码器,因此将所述目标视频块经过所述目标神经网络模型处理并编码的所有比特率的编码文件的比特率观看体验值也作为所述强化学习的状态输入,可以保证所述播放端解码后的视频播放质量。
综上所述,本发明提供一种结合编码与图像超分辨率的智能视频传输方法,对于目标视频的每个视频块,对关键帧利用下采样神经网络模型进行下采样后得到低分辨率关键帧,再利用超分神经网络模型进行超分,得到超分关键帧后,以超分关键帧为参考帧编码非关键帧,将下采样后的低分辨率关键帧进行编码,得到第一编码文件,将非关键帧的编码文件作为第二编码文件,将超分神经网络模型、第一编码文件和第二编码文件传输给播放端,这样视频压缩效率提高,既减小了文件的传输大小,降低传输时间,同时播放端也只需要超分部分的视频帧,对播放端的算力要求低,能够有效提升移动视频的传输质量,提升用户的视频观看体验。
应该理解的是,虽然本发明说明书附图中给出的的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
实施例二
基于上述实施例,本发明还提供了一种结合编码与图像超分辨率的智能视频传输装置,如图7所示,所述装置包括:
模型获取模块,所述模型获取模块用于获取目标视频以及所述目标视频对应的目标神经网络模型,其中,所述目标神经网络模型包括下采样模型和超分模型,具体如实施例一中所述;
第一编码模块,所述第一编码模块用于提取所述目标视频的目标视频块中的关键帧,将所述目标视频块的关键帧输入至所述下采样模型,得到第一低分关键帧,对所述第一低分关键帧进行帧内编码,得到第一编码文件,具体如实施例一中所述;
第二编码模块,所述第二编码模块用于对所述第一编码文件进行解码,得到第二低分关键帧,所述第二低分关键帧输入至所述超分模型,对所述第二低分关键帧进行超分处理,得到超分关键帧,以所述超分关键帧为参考帧对所述目标视频块中的非关键帧进行帧间编码,得到第二编码文件,具体如实施例一中所述;
传输模块,所述传输模块用于在播放端请求播放所述目标视频后,将所述第一编码文件、所述第二编码文件和所述超分模型发送至所述播放端,以使得所述播放端根据所述第一编码文件、所述超分模型和所述第二编码文件解码得到所述超分关键帧和所述非关键帧进行播放,具体如实施例一中所述。
实施例三
基于上述实施例,本发明还相应提供了一种视频分发服务器,如图8所示,所述视频分发服务器包括处理器10以及存储器20。图8仅示出了视频分发服务器的部分组件,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器20在一些实施例中可以是所述视频分发服务器的内部存储单元,例如视频分发服务器的硬盘或内存。所述存储器20在另一些实施例中也可以是所述视频分发服务器的外部存储设备,例如所述视频分发服务器上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器20还可以既包括所述视频分发服务器的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述视频分发服务器的应用软件及各类数据。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中,存储器20上存储有基于模板的视频传输程序30,该视频传输30可被处理器10所执行,从而实现本申请中结合编码和图像超分辨率的智能视频传输方法。
所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他芯片,用于运行所述存储器20中存储的程序代码或处理数据,例如执行所述结合编码和图像超分辨率的智能视频传输方法等。
本领域技术人员可以理解,图8中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的视频分发服务器的限定,具体的视频分发服务器可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一实施例中,当处理器10执行所述存储器20中基于模板的多模态命名实体识别程序30时实现以下步骤:
获取目标视频以及所述目标视频对应的目标神经网络模型,其中,所述目标神经网络模型包括下采样模型和超分模型;
提取所述目标视频的目标视频块中的关键帧,将所述目标视频块的关键帧输入至所述下采样模型,得到第一低分关键帧,对所述第一低分关键帧进行帧内编码,得到第一编码文件;
对所述第一编码文件进行解码,得到第二低分关键帧,所述第二低分关键帧输入至所述超分模型,对所述第二低分关键帧进行超分处理,得到超分关键帧,以所述超分关键帧为参考帧对所述目标视频块中的非关键帧进行帧间编码,得到第二编码文件;
在播放端请求播放所述目标视频后,将所述第一编码文件、所述第二编码文件和所述超分模型发送至所述播放端,以使得所述播放端根据所述第一编码文件、所述超分模型和所述第二编码文件解码得到所述超分关键帧和所述非关键帧进行播放。
其中,所述获取目标视频以及所述目标视频对应的目标神经网络模型,包括:
根据样本视频对应的已训练的神经网络模型在所述样本视频和所述目标视频上取得的量化效果确定所述目标视频与样本视频是否为相似视频;
当所述目标视频与所述样本视频为相似视频时,获取所述样本视频对应的已训练的神经网络模型为所述目标神经网络模型;
当所述目标视频与任一所述样本视频均不为相似视频时,根据所述目标视频训练得到所述目标神经网络模型。
其中,所述根据所述样本视频对应的已训练的神经网络模型在所述样本视频和所述目标视频上取得的量化效果确定所述目标视频与所述样本视频是否为相似视频,包括:
获取所述目标视频的标签,当所述目标视频的标签和所述样本视频不同时,确定所述目标视频与所述样本视频不为相似视频;
当所述目标视频的标签和所述样本视频的标签相同时,分别提取所述目标视频和所述样本视频中的多个关键帧,对所述目标视频中提取的关键帧进行聚类,得到目标关键帧簇,对所述样本视频中提取的关键帧进行聚类,得到样本关键帧簇,当所述目标关键帧簇和所述样本关键帧簇之间的距离大于第一门限值时,确定所述目标视频与所述样本视频不为相似视频;
当所述目标关键帧簇和所述样本关键帧簇之间的距离不大于所述第一门限值时,将所述目标视频的关键帧和所述样本视频的关键帧分别输入至所述样本视频对应的已训练的神经网络模型,获取所述样本视频对应的已训练的神经网络模型对所述目标视频的关键帧和对所述样本视频的关键帧的量化效果之间的差异值,当所述差异值大于第二门限值时,确定所述目标视频与所述样本视频不为相似视频,当所述差异值不大于所述第二门限值时,确定所述目标视频与所述样本视频为相似视频。
其中,所述获取所述样本视频对应的已训练的神经网络模型对所述目标视频的关键帧和对所述样本视频的关键帧的量化效果之间的差异值,包括:
将所述目标视频的关键帧输入至所述样本视频对应的已训练的神经网络模型,获取第一超分帧,将所述样本视频的关键帧输入至所述样本视频对应的已训练的神经网络模型,获取第二超分帧;
根据所述第一超分帧和所述目标视频的关键帧确定所述样本视频对应的已训练的神经网络模型对所述目标视频的关键帧的量化效果,根据所述第二超分帧和所述样本视频的关键帧确定所述样本视频对应的已训练的神经网络模型对所述样本视频的关键帧的量化效果;
基于获取的量化效果获取所述差异值。
其中,所述目标神经网络模型的训练过程为:
将训练样本视频帧输入至所述目标神经网络模型,获取所述下采样模型输出的第一低分样本帧,对所述第一低分样本帧进行编码再解码,得到第二低分样本帧,将所述第二低分样本帧输入至所述超分模型中,获取所述超分模型输出的第一超分样本帧;
根据所述第一低分样本帧和预设下采样帧得获取第一损失,根据所述第一超分样本帧和所述训练样本视频帧获取第二损失,其中,所述预设下采样帧是对所述训练样本视频帧采用预设下采样方式下采样后得到的帧;
根据所述第一损失和所述第二损失更新所述下采样模型和所述超分模型的参数,直至所述下采样模型的参数收敛;
将训练样本视频帧输入至参数收敛后的所述下采样模型后,将所述下采样模型的输出结果输入至所述超分模型中,获取所述超分模型输出的第二超分样本帧,根据所述超分样本帧和所述训练样本视频帧获取第三损失,根据所述第三损失更新所述超分模型的参数,直至所述超分模型的参数收敛;
所述训练样本视频帧为所述目标视频中的帧或者为样本视频中的帧。
其中,所述预设下采样方式为双三次插值下采样。
其中,所述将所述第一编码文件、所述第二编码文件和所述超分模型发送至播放端,包括:
在接收到所述播放端对所述目标视频的播放请求时,将所述超分模型发送至所述播放端;
将所述目标视频块的目标编码文件发送至所述播放端;
其中,在所述超分模型没有完全传输至所述播放端之前,所述目标视频块的目标编码文件是从所述目标视频的第一编码文件库中选择得到的,所述第一编码文件库中包括采用传统视频编码器基于多种比特率对所述目标视频块进行编码得到的编码文件;
在所述超分模型完全传输至所述播放端之后,所述目标比特率的所述目标视频块的编码文件是从所述目标视频的所述第一编码文件库和所述第二编码文件库中选择得到的,所述第二编码文件库中包括采用各个比特率对应的所述目标神经网络模型对所述目标视频块进行处理并编码得到的所述第一编码文件和所述第二编码文件。
其中,所述目标视频块的目标编码文件是将当前传输状态输入至已训练的强化模型后得到的;
其中,所述当前传输状态包括:已传输视频块的吞吐量、已传输视频块的传输时间、所述目标视频块的实际传输数据量、所述目标视频块经过所述目标神经网络模型处理并编码后的编码文件的比特率观看体验值、所述播放端已缓存的视频数据量、剩余的待传输视频块的数据量、上一个已传输视频块的比特率、以及待传输的所述超分模型的数据量。
其中,所述接收到所述播放端对所述目标视频的播放请求之前,包括:
根据传统视频编码器在各个比特率下对视频帧进行编码后的编码文件与原始视频帧的结构相似性和比特率观看体验值的对应关系,以及经过所述各个比特率对应的目标神经网络模型对视频帧处理并编码后的编码文件与原始视频帧的结构相似性,构建各个比特率对应的所述目标神经网络模型与比特率观看体验值的映射关系;
基于所述映射关系获取下个待结合编码与图像超分辨率的智能视频传输视频块经过所述目标神经网络模型处理并以编码后的比特率观看体验值。
实施例四
基于上述实施例,本发明还相应提供了一种结合编码与图像超分辨率的智能视频传输系统,所述系统包括:视频分发服务器和播放端;
所述视频分发服务器用于:
获取目标视频以及所述目标视频对应的目标神经网络模型,其中,所述目标神经网络模型包括下采样模型和超分模型,具体如实施例一中所述;
提取所述目标视频的目标视频块中的关键帧,将所述目标视频块的关键帧输入至所述下采样模型,得到第一低分关键帧,对所述第一低分关键帧进行帧内编码,得到第一编码文件,具体如实施例一中所述;
对所述第一编码文件进行解码,得到第二低分关键帧,所述第二低分关键帧输入至所述超分模型,对所述第二低分关键帧进行超分处理,得到超分关键帧,以所述超分关键帧为参考帧对所述目标视频块中的非关键帧进行帧间编码,得到第二编码文件,具体如实施例一中所述;
在所述播放端请求播放所述目标视频后,将所述第一编码文件、所述第二编码文件和所述超分模型发送至所述播放端,具体如实施例一中所述;
所述播放端用于根据所述第一编码文件、所述超分模型和所述第二编码文件解码得到所述超分关键帧和所述非关键帧进行播放,具体如实施例一中所述。
实施例五
本发明还提供了一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述实施例一所述的结合编码与图像超分辨率的智能视频传输方法的步骤和/或上述实施例二所述的结合编码与图像超分辨率的智能视频传输方法的步骤。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (11)

1.一种结合编码与图像超分辨率的智能视频传输方法,其特征在于,所述结合编码与图像超分辨率的智能视频传输方法包括:
获取目标视频以及所述目标视频对应的目标神经网络模型,其中,所述目标神经网络模型包括下采样模型和超分模型;
所述获取目标视频以及所述目标视频对应的目标神经网络模型,包括:
根据样本视频对应的已训练的神经网络模型在所述样本视频和所述目标视频上取得的量化效果确定所述目标视频与样本视频是否为相似视频;
当所述目标视频与所述样本视频为相似视频时,获取所述样本视频对应的已训练的神经网络模型为所述目标神经网络模型;
当所述目标视频与任一所述样本视频均不为相似视频时,根据所述目标视频训练得到所述目标神经网络模型;
所述根据样本视频对应的已训练的神经网络模型在所述样本视频和所述目标视频上取得的量化效果确定所述目标视频与样本视频是否为相似视频,包括:
获取所述目标视频的标签,当所述目标视频的标签和所述样本视频不同时,确定所述目标视频与所述样本视频不为相似视频;
当所述目标视频的标签和所述样本视频的标签相同时,分别提取所述目标视频和所述样本视频中的多个关键帧,对所述目标视频中提取的关键帧进行聚类,得到目标关键帧簇,对所述样本视频中提取的关键帧进行聚类,得到样本关键帧簇,当所述目标关键帧簇和所述样本关键帧簇之间的距离大于第一门限值时,确定所述目标视频与所述样本视频不为相似视频;
当所述目标关键帧簇和所述样本关键帧簇之间的距离不大于所述第一门限值时,将所述目标视频的关键帧和所述样本视频的关键帧分别输入至所述样本视频对应的已训练的神经网络模型,获取所述样本视频对应的已训练的神经网络模型对所述目标视频的关键帧和对所述样本视频的关键帧的量化效果之间的差异值,当所述差异值大于第二门限值时,确定所述目标视频与所述样本视频不为相似视频,当所述差异值不大于所述第二门限值时,确定所述目标视频与所述样本视频为相似视频;
提取所述目标视频的目标视频块中的关键帧,将所述目标视频块的关键帧输入至所述下采样模型,得到第一低分关键帧,对所述第一低分关键帧进行帧内编码,得到第一编码文件;
对所述第一编码文件进行解码,得到第二低分关键帧,所述第二低分关键帧输入至所述超分模型,对所述第二低分关键帧进行超分处理,得到超分关键帧,以所述超分关键帧为参考帧对所述目标视频块中的非关键帧进行帧间编码,得到第二编码文件;
在播放端请求播放所述目标视频后,将所述第一编码文件、所述第二编码文件和所述超分模型发送至所述播放端,以使得所述播放端根据所述第一编码文件、所述超分模型和所述第二编码文件解码得到所述超分关键帧和所述非关键帧进行播放。
2.根据权利要求1所述的结合编码与图像超分辨率的智能视频传输方法,其特征在于,所述获取所述样本视频对应的已训练的神经网络模型对所述目标视频的关键帧和对所述样本视频的关键帧的量化效果之间的差异值,包括:
将所述目标视频的关键帧输入至所述样本视频对应的已训练的神经网络模型,获取第一超分帧,将所述样本视频的关键帧输入至所述样本视频对应的已训练的神经网络模型,获取第二超分帧;
根据所述第一超分帧和所述目标视频的关键帧确定所述样本视频对应的已训练的神经网络模型对所述目标视频的关键帧的量化效果,根据所述第二超分帧和所述样本视频的关键帧确定所述样本视频对应的已训练的神经网络模型对所述样本视频的关键帧的量化效果;
基于获取的量化效果获取所述差异值。
3.根据权利要求1所述的结合编码与图像超分辨率的智能视频传输方法,其特征在于,所述目标神经网络模型的训练过程为:
将训练样本视频帧输入至所述目标神经网络模型,获取所述下采样模型输出的第一低分样本帧,对所述第一低分样本帧进行编码再解码,得到第二低分样本帧,将所述第二低分样本帧输入至所述超分模型中,获取所述超分模型输出的第一超分样本帧;
根据所述第一低分样本帧和预设下采样帧得获取第一损失,根据所述第一超分样本帧和所述训练样本视频帧获取第二损失,其中,所述预设下采样帧是对所述训练样本视频帧采用预设下采样方式下采样后得到的帧;
根据所述第一损失和所述第二损失更新所述下采样模型和所述超分模型的参数,直至所述下采样模型的参数收敛;
将训练样本视频帧输入至参数收敛后的所述下采样模型后,将所述下采样模型的输出结果输入至所述超分模型中,获取所述超分模型输出的第二超分样本帧,根据所述超分样本帧和所述训练样本视频帧获取第三损失,根据所述第三损失更新所述超分模型的参数,直至所述超分模型的参数收敛;
所述训练样本视频帧为所述目标视频中的帧或者为样本视频中的帧。
4.根据权利要求3所述的结合编码与图像超分辨率的智能视频传输方法,其特征在于,所述预设下采样方式为双三次插值下采样。
5.根据权利要求1所述的结合编码与图像超分辨率的智能视频传输方法,其特征在于,所述将所述第一编码文件、所述第二编码文件和所述超分模型发送至播放端,包括:
在接收到所述播放端对所述目标视频的播放请求时,将所述超分模型发送至所述播放端;
将所述目标视频块的目标编码文件发送至所述播放端;
其中,在所述超分模型没有完全传输至所述播放端之前,所述目标视频块的目标编码文件是从所述目标视频的第一编码文件库中选择得到的,所述第一编码文件库中包括采用传统视频编码器基于多种比特率对所述目标视频块进行编码得到的编码文件;
在所述超分模型完全传输至所述播放端之后,所述目标比特率的所述目标视频块的编码文件是从所述目标视频的所述第一编码文件库和所述第二编码文件库中选择得到的,所述第二编码文件库中包括采用各个比特率对应的所述目标神经网络模型对所述目标视频块进行处理并编码得到的所述第一编码文件和所述第二编码文件。
6.根据权利要求5所述的结合编码与图像超分辨率的智能视频传输方法,其特征在于,所述目标视频块的目标编码文件是将当前传输状态输入至已训练的强化模型后得到的;
其中,所述当前传输状态包括:已传输视频块的吞吐量、已传输视频块的传输时间、所述目标视频块的实际传输数据量、所述目标视频块经过所述目标神经网络模型处理并编码后的编码文件的比特率观看体验值、所述播放端已缓存的视频数据量、剩余的待传输视频块的数据量、上一个已传输视频块的比特率、以及待传输的所述超分模型的数据量。
7.根据权利要求6所述的结合编码与图像超分辨率的智能视频传输方法,其特征在于,所述接收到所述播放端对所述目标视频的播放请求之前,包括:
根据传统视频编码器在各个比特率下对视频帧进行编码后的编码文件与原始视频帧的结构相似性和比特率观看体验值的对应关系,以及经过所述各个比特率对应的目标神经网络模型对视频帧处理并编码后的编码文件与原始视频帧的结构相似性,构建各个比特率对应的所述目标神经网络模型与比特率观看体验值的映射关系;
基于所述映射关系获取下个待结合编码与图像超分辨率的智能视频传输视频块经过所述目标神经网络模型处理并以编码后的比特率观看体验值。
8.一种结合编码与图像超分辨率的智能视频传输装置,其特征在于,所述结合编码与图像超分辨率的智能视频传输装置包括:
模型获取模块,所述模型获取模块用于获取目标视频以及所述目标视频对应的目标神经网络模型,其中,所述目标神经网络模型包括下采样模型和超分模型;
所述获取目标视频以及所述目标视频对应的目标神经网络模型,包括:
根据样本视频对应的已训练的神经网络模型在所述样本视频和所述目标视频上取得的量化效果确定所述目标视频与样本视频是否为相似视频;
当所述目标视频与所述样本视频为相似视频时,获取所述样本视频对应的已训练的神经网络模型为所述目标神经网络模型;
当所述目标视频与任一所述样本视频均不为相似视频时,根据所述目标视频训练得到所述目标神经网络模型;
所述根据样本视频对应的已训练的神经网络模型在所述样本视频和所述目标视频上取得的量化效果确定所述目标视频与样本视频是否为相似视频,包括:
获取所述目标视频的标签,当所述目标视频的标签和所述样本视频不同时,确定所述目标视频与所述样本视频不为相似视频;
当所述目标视频的标签和所述样本视频的标签相同时,分别提取所述目标视频和所述样本视频中的多个关键帧,对所述目标视频中提取的关键帧进行聚类,得到目标关键帧簇,对所述样本视频中提取的关键帧进行聚类,得到样本关键帧簇,当所述目标关键帧簇和所述样本关键帧簇之间的距离大于第一门限值时,确定所述目标视频与所述样本视频不为相似视频;
当所述目标关键帧簇和所述样本关键帧簇之间的距离不大于所述第一门限值时,将所述目标视频的关键帧和所述样本视频的关键帧分别输入至所述样本视频对应的已训练的神经网络模型,获取所述样本视频对应的已训练的神经网络模型对所述目标视频的关键帧和对所述样本视频的关键帧的量化效果之间的差异值,当所述差异值大于第二门限值时,确定所述目标视频与所述样本视频不为相似视频,当所述差异值不大于所述第二门限值时,确定所述目标视频与所述样本视频为相似视频;
第一编码模块,所述第一编码模块用于提取所述目标视频的目标视频块中的关键帧,将所述目标视频块的关键帧输入至所述下采样模型,得到第一低分关键帧,对所述第一低分关键帧进行帧内编码,得到第一编码文件;
第二编码模块,所述第二编码模块用于对所述第一编码文件进行解码,得到第二低分关键帧,所述第二低分关键帧输入至所述超分模型,对所述第二低分关键帧进行超分处理,得到超分关键帧,以所述超分关键帧为参考帧对所述目标视频块中的非关键帧进行帧间编码,得到第二编码文件;
传输模块,所述传输模块用于在播放端请求播放所述目标视频后,将所述第一编码文件、所述第二编码文件和所述超分模型发送至所述播放端,以使得所述播放端根据所述第一编码文件、所述超分模型和所述第二编码文件解码得到所述超分关键帧和所述非关键帧进行播放。
9.一种视频分发服务器,其特征在于,所述视频分发服务器包括:处理器、与处理器通信连接的存储介质,所述存储介质适于存储多条指令,所述处理器适于调用所述存储介质中的指令,以执行实现如权利要求1-7任一项所述的结合编码与图像超分辨率的智能视频传输方法的步骤。
10.一种结合编码与图像超分辨率的智能视频传输系统,其特征在于,所述结合编码与图像超分辨率的智能视频传输系统包括视频分发服务器和播放端;
所述视频分发服务器用于:
获取目标视频以及所述目标视频对应的目标神经网络模型,其中,所述目标神经网络模型包括下采样模型和超分模型;
所述获取目标视频以及所述目标视频对应的目标神经网络模型,包括:
根据样本视频对应的已训练的神经网络模型在所述样本视频和所述目标视频上取得的量化效果确定所述目标视频与样本视频是否为相似视频;
当所述目标视频与所述样本视频为相似视频时,获取所述样本视频对应的已训练的神经网络模型为所述目标神经网络模型;
当所述目标视频与任一所述样本视频均不为相似视频时,根据所述目标视频训练得到所述目标神经网络模型;
所述根据样本视频对应的已训练的神经网络模型在所述样本视频和所述目标视频上取得的量化效果确定所述目标视频与样本视频是否为相似视频,包括:
获取所述目标视频的标签,当所述目标视频的标签和所述样本视频不同时,确定所述目标视频与所述样本视频不为相似视频;
当所述目标视频的标签和所述样本视频的标签相同时,分别提取所述目标视频和所述样本视频中的多个关键帧,对所述目标视频中提取的关键帧进行聚类,得到目标关键帧簇,对所述样本视频中提取的关键帧进行聚类,得到样本关键帧簇,当所述目标关键帧簇和所述样本关键帧簇之间的距离大于第一门限值时,确定所述目标视频与所述样本视频不为相似视频;
当所述目标关键帧簇和所述样本关键帧簇之间的距离不大于所述第一门限值时,将所述目标视频的关键帧和所述样本视频的关键帧分别输入至所述样本视频对应的已训练的神经网络模型,获取所述样本视频对应的已训练的神经网络模型对所述目标视频的关键帧和对所述样本视频的关键帧的量化效果之间的差异值,当所述差异值大于第二门限值时,确定所述目标视频与所述样本视频不为相似视频,当所述差异值不大于所述第二门限值时,确定所述目标视频与所述样本视频为相似视频;
提取所述目标视频的目标视频块中的关键帧,将所述目标视频块的关键帧输入至所述下采样模型,得到第一低分关键帧,对所述第一低分关键帧进行帧内编码,得到第一编码文件;
对所述第一编码文件进行解码,得到第二低分关键帧,所述第二低分关键帧输入至所述超分模型,对所述第二低分关键帧进行超分处理,得到超分关键帧,以所述超分关键帧为参考帧对所述目标视频块中的非关键帧进行帧间编码,得到第二编码文件;
在所述播放端请求播放所述目标视频后,将所述第一编码文件、所述第二编码文件和所述超分模型发送至所述播放端;
所述播放端用于根据所述第一编码文件、所述超分模型和所述第二编码文件解码得到所述超分关键帧和所述非关键帧进行播放。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-7任一项所述的结合编码与图像超分辨率的智能视频传输方法的步骤。
CN202210277960.7A 2022-03-21 2022-03-21 一种结合编码与图像超分辨率的智能视频传输方法及系统 Active CN114786007B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210277960.7A CN114786007B (zh) 2022-03-21 2022-03-21 一种结合编码与图像超分辨率的智能视频传输方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210277960.7A CN114786007B (zh) 2022-03-21 2022-03-21 一种结合编码与图像超分辨率的智能视频传输方法及系统

Publications (2)

Publication Number Publication Date
CN114786007A CN114786007A (zh) 2022-07-22
CN114786007B true CN114786007B (zh) 2024-04-19

Family

ID=82425674

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210277960.7A Active CN114786007B (zh) 2022-03-21 2022-03-21 一种结合编码与图像超分辨率的智能视频传输方法及系统

Country Status (1)

Country Link
CN (1) CN114786007B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117676154A (zh) * 2022-08-22 2024-03-08 华为技术有限公司 一种图像处理方法、装置及系统
CN116886960A (zh) * 2023-09-01 2023-10-13 深圳金三立视频科技股份有限公司 一种视频传输方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111586412A (zh) * 2020-05-06 2020-08-25 华为技术有限公司 高清视频处理方法、主设备、从设备和芯片系统
CN112203093A (zh) * 2020-10-12 2021-01-08 苏州天必佑科技有限公司 一种基于深度神经网络的信号处理方法
CN113115067A (zh) * 2021-04-19 2021-07-13 脸萌有限公司 直播系统、视频处理方法及相关装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111586412A (zh) * 2020-05-06 2020-08-25 华为技术有限公司 高清视频处理方法、主设备、从设备和芯片系统
CN112203093A (zh) * 2020-10-12 2021-01-08 苏州天必佑科技有限公司 一种基于深度神经网络的信号处理方法
CN113115067A (zh) * 2021-04-19 2021-07-13 脸萌有限公司 直播系统、视频处理方法及相关装置

Also Published As

Publication number Publication date
CN114786007A (zh) 2022-07-22

Similar Documents

Publication Publication Date Title
CN114786007B (zh) 一种结合编码与图像超分辨率的智能视频传输方法及系统
Hu et al. Improving deep video compression by resolution-adaptive flow coding
US20210099715A1 (en) Method and apparatus for applying deep learning techniques in video coding, restoration and video quality analysis (vqa)
CN109379550B (zh) 基于卷积神经网络的视频帧率上变换方法及系统
US9350990B2 (en) Systems and methods of encoding multiple video streams with adaptive quantization for adaptive bitrate streaming
CN109788316B (zh) 码率控制、视频转码方法与装置、计算机设备及存储介质
Liu et al. Conditional entropy coding for efficient video compression
WO2019001108A1 (zh) 视频处理的方法和装置
US20070147504A1 (en) Selecting key frames from video frames
CN112102212B (zh) 一种视频修复方法、装置、设备及存储介质
TW202247650A (zh) 使用機器學習系統進行隱式圖像和視訊壓縮
JP2016526336A (ja) 適応ビットレートストリーミングのための適応量子化を用いて複数のビデオストリームをエンコードするシステムおよび方法
Nakanishi et al. Neural multi-scale image compression
CN101842812A (zh) 用于数字图像转码中的参数质量感知选择的系统和方法
Liu et al. End-to-end neural video coding using a compound spatiotemporal representation
CN114374846B (zh) 视频压缩方法、装置、设备及存储介质
GB2570879A (en) Encoding data arrays
CN115134629A (zh) 视频传输方法、系统、设备及存储介质
US9014255B2 (en) System and method for identifying unique portions of videos with validation and predictive scene changes
Luo et al. Masked360: Enabling Robust 360-degree Video Streaming with Ultra Low Bandwidth Consumption
CN116567237A (zh) 视频编码及解码方法、装置、计算机设备和存储介质
CN112702607A (zh) 一种基于光流决策的智能视频压缩方法及装置
CN113014954A (zh) 影像存储服务提供方法、记录介质以及计算装置
US20220385914A1 (en) Methods and apparatus for processing of high-resolution video content
CN115866245A (zh) 视频编码方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant