CN107105278B - 运动矢量自动生成的视频编解码系统 - Google Patents

运动矢量自动生成的视频编解码系统 Download PDF

Info

Publication number
CN107105278B
CN107105278B CN201710267434.1A CN201710267434A CN107105278B CN 107105278 B CN107105278 B CN 107105278B CN 201710267434 A CN201710267434 A CN 201710267434A CN 107105278 B CN107105278 B CN 107105278B
Authority
CN
China
Prior art keywords
motion vector
coding
video
vector
motion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710267434.1A
Other languages
English (en)
Other versions
CN107105278A (zh
Inventor
陈志波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201710267434.1A priority Critical patent/CN107105278B/zh
Publication of CN107105278A publication Critical patent/CN107105278A/zh
Application granted granted Critical
Publication of CN107105278B publication Critical patent/CN107105278B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock

Abstract

本发明公开了一种运动矢量自动生成的视频编解码框架,无需进行运动矢量预测和运动矢量编码传输,其包括:编码端与解码端;其中:所述编码端,根据当前参考帧的视频数据内容,并基于通过学习的方法构建的像素级的运动光场矢量生成网络,来预测当前帧视频像素的光流信息,再结合输入的块模式信息计算对应块的运动矢量,最终将编码的残差信息传输至解码端;所述解码端,对残差信息进行解码,获得重构参考帧数据,并采用与编码端相同的方法获得每一重构参考帧数据的运动矢量,再进行视频数据重建。由于该编码框架无需进行运动矢量搜索和运动矢量编码传输,从而降低编码复杂度和提升编码效率。

Description

运动矢量自动生成的视频编解码系统
技术领域
本发明涉及视频编码技术领域,尤其涉及一种运动矢量自动生成的视频编解码系统。
背景技术
作为现有视频编码标准的核心框架,混合视频编码(HVC-Hybrid Video Coding)框架是一种混合时间空间视频压缩方案,即先用帧间预测编码消除时间域的相关性,然后对残差进行变换编码,消除空间相关性,最后进行熵编码去除统计上的冗余度。其中帧间预测编码可以有效去除视频信号在时间域的冗余度,极大地提升视频编码效率。自80年代帧间运动预测编码方式被H.261标准采纳被延续至今。
在现有的H.264,HEVC等视频编码标准中采用了更为复杂的运动预测模式,包括更多的预测参考帧、更多的预测块模式、更多的运动矢量预测编码模式等等,无论是从运动矢量预测的复杂度还是运动矢量本身编码传输的数据量比例都是很高的。
鉴于此,有必要进行深入研究,使得编码框架中既可以避免复杂的运动矢量搜索,又可以节约运动矢量的传输数据量。
发明内容
本发明的目的是提供一种运动矢量自动生成的视频编解码系统,无需进行运动矢量预测和运动矢量编码传输,从而降低编码复杂度和提升编码效率。
本发明的目的是通过以下技术方案实现的:
一种运动矢量自动生成的视频编解码系统,无需进行运动矢量预测和运动矢量编码传输,其包括:编码端与解码端;其中:
所述编码端,根据当前参考帧的视频数据内容,并基于通过学习的方法构建的像素级的运动光场矢量生成网络,来预测当前帧视频像素的光流信息,再结合输入的块模式信息计算对应编码块的运动矢量,然后,进行运动补偿并计算残差,最终将编码的残差信息传输至解码端;
所述解码端,将已经解码的视频帧作为输入,并采用与编码端相同的方法预测相应的光流信息,进而获得对应解码块的运动矢量,再利用接收到的残差信息重建视频帧。
所述通过学习的方法构建的像素级的运动光场矢量生成网络包括:
建立包含多种视频内容类型、运动过程和不同压缩程度的视频数据的数据集;计算每一视频数据的光流信息作为训练样本的标签;
构建神经网络,并以重建生成的当前重构参考帧作为经网络输入进行前向传播预测光流信息,并根据训练样本标签计算损失值,再根据损失值反向传播更新参数,如此反复迭代多次作为神经网络训练过程,训练完成的网络作为像素级的运动光场矢量生成网络。
所构建的神经网络结构为:依次设置的卷积层、池化层、局部响应归一化层、全连接层以及空间Softmax层;或者,依次设置的卷积层、池化层、卷积层、反卷积层、剪裁层以及Softmax层。
所述编码端中运动矢量的计算公式为:
其中,为第i个块模式信息对应的光流信息,N的大小由块模式信息决定。
由上述本发明提供的技术方案可以看出,在视频编码端通过学习的方法自动生成像素级的光流矢量,进而生成不同数据块模式下的运动矢量,替代原有混合编码框架下的运动矢量搜索模块;在解码段基于同样的学习网络生成运动矢量,进行解码和视频数据重建;最终实现一个新的无需进行运动矢量预测和运动矢量编码传输的视频编码框架。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的传统视频编码的混合编解码框架;
图2为本发明实施例提供的运动矢量自动生成的视频编解码系统;
图3为本发明实施例提供的基于学习的运动矢量生成模块的示意图;
图4为本发明实施例提供的神经网络结构示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种运动矢量自动生成的视频编解码系统,无需进行运动矢量预测和运动矢量编码传输,其包括:编码端与解码端;其中:
所述编码端,根据当前参考帧的视频数据内容,并基于通过学习的方法构建的像素级的运动光场矢量生成网络,来预测当前帧视频像素的光流信息,再结合输入的块模式信息计算对应编码块的运动矢量,然后,进行运动补偿并计算残差,最终将编码的残差信息传输至解码端;
所述解码端,将已经解码的视频帧作为输入,并采用与编码端相同的方法预测相应的光流信息,进而获得对应解码块的运动矢量,再利用接收到的残差信息重建视频帧。
本领域技术人员可以理解,在上述视频编解码框中,编码端与解码端的其他处理过程,例如,变换、量化、熵编码、熵解码、反量化、反变换等过程均可利用常规技术来实现,故不再赘述。上述方案主要是视频编码端通过学习的方法自动生成像素级的光流矢量,进而生成不同数据块模式下的运动矢量,替代原有混合编码框架下的运动矢量搜索模块;在解码段基于同样的学习网络生成运动矢量,进行解码和视频数据重建;由于视频编码框架中无需进行运动矢量预测和运动矢量编码传输的,从而降低编码复杂度和提升编码效率。
如图1~图2所示,分别为传统的混合编解码框架,以及运动矢量自动生成的视频编解码系统,两个图中虚线部分为解码器(即解码端)。可以看到,传统框架中的“运动矢量估计”模块被“基于学习的运动矢量生成”模块代替,这样对应的编码器输出也发生了变化,传统的“运动矢量”信息输出不再需要。同时,编码端“基于学习的运动矢量生成”模块不再需要原始图像的输入,其输入为重建的参考帧数据。图1所示传统混合编解码框架中的解码部分模块中运动矢量信息的获得来自于编码器输出的运动矢量信息,而在图2所示的新的编解码结构中,解码器中的运动矢量则是来自于与编码器部分对应的“基于学习的运动矢量生成”模块。
本领域技术人员可以理解,图1与图2的虚线部分既是编码器部分,也是解码器部分,即虚线内部分是重叠的,为编码端与解码端共有的。
本发明实施例中,运动矢量信息是利用块模式信息(来自编码器中的块模式决策模块或者解码器中的码流信息)与相应的光流信息计算而来,也就是说,可以将“基于学习的运动矢量生成”模块细分为如图3所示的像素级的运动光场矢量生成网络,以及基于块的运动矢量生成模块,具体的计算公式如下:
其中,为第i个块模式信息对应的光流信息,N的大小由块模式信息决定。
本领域技术人员可以理解,图3所示为基于学习的运动矢量生成模块,在进行编码与解码时的区别仅在于编码时输入的数据为原始视频数据,而解码时输入的是重构参考帧。
本发明实施例中,像素级的运动光场矢量生成网络通过学习的方法构建,其过程如下:
1)建立包含多种视频内容类型、运动过程和不同压缩程度的视频数据的数据集;计算每一视频数据的光流信息作为训练样本的标签。
2)构建神经网络,并以重建生成的当前重构参考帧作为神经网络输入进行前向传播预测光流信息,并根据训练样本标签计算损失值,再根据损失值反向传播更新参数,如此反复迭代多次作为神经网络训练过程,训练完成的网络作为像素级的运动光场矢量生成网络。本领域技术人员可以理解,重构参考帧可以来自任何视频数据,具体到本方案中,其来自于数据集。
所构建的神经网络结构包括:如图4(a)所示的,依次设置的卷积层、池化层、局部响应归一化层、全连接层以及空间Softmax层;或者,如图4(b)所示的,依次设置的卷积层、池化层、卷积层、反卷积层、剪裁层以及Softmax层。
图4(a)中采用空间Softmax层代替Softmax层,以生成与空间相关的运动矢量;图4(b)的网络结构由全卷积网络组成,该结构能够有效的保留图片、视频中的局部信息。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (3)

1.一种运动矢量自动生成的视频编解码系统,其特征在于,无需进行运动矢量预测和运动矢量编码传输,其包括:编码端与解码端;其中:
所述编码端,根据当前参考帧的视频数据内容,并基于通过学习的方法构建的像素级的运动光场矢量生成网络,来预测当前帧视频像素的光流信息,再结合输入的块模式信息计算对应编码块的运动矢量,然后,进行运动补偿并计算残差,最终将编码的残差信息传输至解码端;
所述解码端,将已经解码的视频帧作为输入,并采用与编码端相同的方法预测相应的光流信息,进而获得对应解码块的运动矢量,再利用接收到的残差信息重建视频帧;
其中,所述通过学习的方法构建的像素级的运动光场矢量生成网络包括:
建立包含多种视频内容类型、运动过程和不同压缩程度的视频数据的数据集;计算每一视频数据的光流信息作为训练样本的标签;
构建神经网络,并以重建生成的当前重构参考帧作为经网络输入进行前向传播预测光流信息,并根据训练样本标签计算损失值,再根据损失值反向传播更新参数,如此反复迭代多次作为神经网络训练过程,训练完成的网络作为像素级的运动光场矢量生成网络。
2.根据权利要求1所述的一种运动矢量自动生成的视频编解码系统,其特征在于,所构建的神经网络结构为:依次设置的卷积层、池化层、局部响应归一化层、全连接层以及空间Softmax层;或者,依次设置的卷积层、池化层、卷积层、反卷积层、剪裁层以及Softmax层。
3.根据权利要求1所述的一种运动矢量自动生成的视频编解码系统,其特征在于,所述编码端中运动矢量的计算公式为:
其中,为第i个块模式信息对应的光流信息,N的大小由块模式信息决定。
CN201710267434.1A 2017-04-21 2017-04-21 运动矢量自动生成的视频编解码系统 Active CN107105278B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710267434.1A CN107105278B (zh) 2017-04-21 2017-04-21 运动矢量自动生成的视频编解码系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710267434.1A CN107105278B (zh) 2017-04-21 2017-04-21 运动矢量自动生成的视频编解码系统

Publications (2)

Publication Number Publication Date
CN107105278A CN107105278A (zh) 2017-08-29
CN107105278B true CN107105278B (zh) 2019-10-25

Family

ID=59657048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710267434.1A Active CN107105278B (zh) 2017-04-21 2017-04-21 运动矢量自动生成的视频编解码系统

Country Status (1)

Country Link
CN (1) CN107105278B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108174218B (zh) * 2018-01-23 2020-02-07 中国科学技术大学 基于学习的视频编解码系统
CN110324620B (zh) * 2018-03-30 2021-08-24 杭州海康威视数字技术股份有限公司 帧内预测方法、装置、电子设备及机器可读存储介质
WO2020036502A1 (en) * 2018-08-14 2020-02-20 Huawei Technologies Co., Ltd Machine-learning-based adaptation of coding parameters for video encoding using motion and object detection
CN109451308B (zh) 2018-11-29 2021-03-09 北京市商汤科技开发有限公司 视频压缩处理方法及装置、电子设备及存储介质
CN110191359A (zh) * 2019-05-16 2019-08-30 华侨大学 一种基于关键子孔径图像选取的光场图像压缩方法
CN110392264B (zh) * 2019-08-26 2022-10-28 中国科学技术大学 一种基于神经网络的对齐外插帧方法
CN110913218A (zh) * 2019-11-29 2020-03-24 合肥图鸭信息科技有限公司 一种视频帧预测方法、装置及终端设备
CN110830806A (zh) * 2019-11-29 2020-02-21 合肥图鸭信息科技有限公司 一种视频帧预测方法、装置及终端设备
CN110913230A (zh) * 2019-11-29 2020-03-24 合肥图鸭信息科技有限公司 一种视频帧预测方法、装置及终端设备
CN110913219A (zh) * 2019-11-29 2020-03-24 合肥图鸭信息科技有限公司 一种视频帧预测方法、装置及终端设备
CN113132735A (zh) * 2019-12-30 2021-07-16 北京大学 一种基于视频帧生成的视频编码方法
CN111083479A (zh) * 2019-12-31 2020-04-28 合肥图鸭信息科技有限公司 一种视频帧预测方法、装置及终端设备
CN111083478A (zh) * 2019-12-31 2020-04-28 合肥图鸭信息科技有限公司 一种视频帧重构方法、装置及终端设备
CN111083499A (zh) * 2019-12-31 2020-04-28 合肥图鸭信息科技有限公司 一种视频帧重构方法、装置及终端设备
CN113132729B (zh) * 2020-01-15 2023-01-13 北京大学 一种基于多参考帧的环路滤波方法及电子装置
CN111464815B (zh) * 2020-04-17 2021-04-23 中国科学技术大学 一种基于神经网络的视频编码方法及系统
CN111901595B (zh) * 2020-06-29 2021-07-20 北京大学 一种基于深度神经网络的视频编码方法及装置、介质
CN114501031B (zh) * 2020-11-13 2023-06-02 华为技术有限公司 一种压缩编码、解压缩方法以及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6628715B1 (en) * 1999-01-15 2003-09-30 Digital Video Express, L.P. Method and apparatus for estimating optical flow
CN104952073A (zh) * 2015-06-15 2015-09-30 上海交通大学 基于深度学习的镜头边缘检测方法
CN105847804A (zh) * 2016-05-18 2016-08-10 信阳师范学院 一种基于稀疏冗余表示模型的视频帧率上转换方法
CN106445985A (zh) * 2016-04-29 2017-02-22 上海交通大学 基于手绘运动轮廓的视频检索方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102801972B (zh) * 2012-06-25 2017-08-29 北京大学深圳研究生院 基于特征的运动矢量估计和传递方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6628715B1 (en) * 1999-01-15 2003-09-30 Digital Video Express, L.P. Method and apparatus for estimating optical flow
CN104952073A (zh) * 2015-06-15 2015-09-30 上海交通大学 基于深度学习的镜头边缘检测方法
CN106445985A (zh) * 2016-04-29 2017-02-22 上海交通大学 基于手绘运动轮廓的视频检索方法及系统
CN105847804A (zh) * 2016-05-18 2016-08-10 信阳师范学院 一种基于稀疏冗余表示模型的视频帧率上转换方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《光场图像压缩算法研究》;蒋妍;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20170215;全文 *

Also Published As

Publication number Publication date
CN107105278A (zh) 2017-08-29

Similar Documents

Publication Publication Date Title
CN107105278B (zh) 运动矢量自动生成的视频编解码系统
CN106973293B (zh) 基于视差预测的光场图像编码方法
CN102137263B (zh) 基于cnm关键帧分类的分布式视频编码及解码方法
CN101557514B (zh) 一种帧间预测编解码方法、装置及系统
CN104221375B (zh) 速率失真优化量化中的等级决定
CN102572435B (zh) 基于压缩采样的视频编解码系统及其方法
CN103561263A (zh) 基于运动矢量约束和加权运动矢量的运动补偿预测方法
CN104301730A (zh) 基于视频移动设备的双向视频编解码系统及其方法
CN103002283A (zh) 多视角分布式视频压缩的边信息生成方法
CN105306945A (zh) 一种监控视频的可伸缩浓缩编码方法和装置
CN101014129B (zh) 一种视频数据压缩方法
CN103826125A (zh) 用于已压缩监控视频的浓缩分析方法和装置
CN102256133A (zh) 一种基于边信息精化的分布式视频编码及解码方法
CN102572428B (zh) 面向多媒体传感网分布式编解码的边信息估计方法
CN110062239A (zh) 一种用于视频编码的参考帧选择方法及装置
CN101682787A (zh) 空间增强的变换编码
CN110324637A (zh) 一种双向帧间预测方法及装置
KR101845622B1 (ko) 영상에 대한 적응적 rdpcm 방법, 적응적 rdpcm에 기반한 인코딩 방법 및 적응적 rdpcm에 기반한 디코딩 방법
CN113068041B (zh) 一种智能仿射运动补偿编码方法
CN100493194C (zh) 用于视频感兴趣区域编解码的泄漏运动补偿方法
CN102223537B (zh) 基于压缩感知的多视角分布式视频编解码系统及其方法
CN108200440B (zh) 一种基于时间相关性的分布式视频压缩感知重构方法
CN103999490A (zh) 可终止的基于空间树的位置编码和解码
JP2024512914A (ja) マシンビジョンのためのビデオ符号化のための方法および装置
CN103379349B (zh) 一种视点合成预测编码方法、解码方法、对应的装置及码流

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant