CN113068041A - 一种智能仿射运动补偿编码方法 - Google Patents

一种智能仿射运动补偿编码方法 Download PDF

Info

Publication number
CN113068041A
CN113068041A CN202110272279.9A CN202110272279A CN113068041A CN 113068041 A CN113068041 A CN 113068041A CN 202110272279 A CN202110272279 A CN 202110272279A CN 113068041 A CN113068041 A CN 113068041A
Authority
CN
China
Prior art keywords
block
time domain
motion
intelligent
motion compensation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110272279.9A
Other languages
English (en)
Other versions
CN113068041B (zh
Inventor
雷建军
靳登朝
彭勃
李戈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202110272279.9A priority Critical patent/CN113068041B/zh
Publication of CN113068041A publication Critical patent/CN113068041A/zh
Application granted granted Critical
Publication of CN113068041B publication Critical patent/CN113068041B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种智能仿射运动补偿编码方法,所述方法包括:构建智能仿射运动补偿网络,该网络的输入为空时域预测块、时域参考块、运动场信息输出为当前编码块的预测结果;通过多尺度卷积单元分别从三个输入中提取特征,设计一运动估计单元特征级联,通过两层卷积层,分别为空时域预测块和时域参考块估计相应的运动场信息;利用运动场信息,通过可变形卷积操作补偿空时域预测块和时域参考块的特征得到目标图像的特征图;以目标图像的特征图为输入,基于注意力融合多通道信息并重建目标图像。本发明借助于深度学习的特征表达能力,通过充分利用空域、时域和运动场信息来估计更准确的像素级运动场。

Description

一种智能仿射运动补偿编码方法
技术领域
本发明涉及深度学习、视频编码领域,尤其涉及一种智能仿射运动补偿编码方法。
背景技术
随着高清、超高清应用走进人们的生活,视频的数据量不断增长。视频压缩编码的目标旨在尽可能保证视频质量的前提下,通过去除冗余降低编码视频数据所需的比特率。与图像压缩任务不同,视频编码通过运动补偿预测技术有效地消除时域冗余信息。运动补偿预测通过在参考帧中寻找与当前编码块最相似的块来实现对当前编码块的预测。因此,提高运动补偿预测准确性是提高视频压缩效率的有效途径。为了提升对复杂场景的编码效率,新一代编码标准VVC(Versatile Video Coding)在保留平移运动补偿技术的同时,集成了仿射运动补偿技术。然而仿射运动补偿本质上仍是手工设计和基于子块的块匹配算法,因此仍然难以处理实际场景中的高阶运动。此外,仿射运动补偿局限于使用时域信息,未充分利用空域信息进行联合预测。
得益于人工智能、深度学习在图像和视频处理中的成功,目前已有工作关注于使用深度学习方案增强或代替传统混合编码框架中的平移运动补偿。Huo等提出了一种基于卷积神经网络的运动补偿增强算法,该算法不仅利用当前块进行运动补偿预测,而且利用当前编码块的邻近重建区域来进一步提高预测的准确度。Zhao等提出了一种基于卷积神经网络的双向运动补偿算法,将不规则运动检测、运动表示和预测生成集成到端到端框架,解决了传统线性叠加方案的不足,提升了双向预测的性能。然而现有方法主要针对平移运动补偿任务,目前仍然缺乏基于深度学习的智能仿射运动补偿编码方法。
发明内容
本发明提供了一种智能仿射运动补偿编码方法,本发明借助于深度学习的特征表达能力,通过充分利用空域、时域和运动场信息来估计更准确的像素级运动场,详见下文描述:
一种智能仿射运动补偿编码方法,所述方法包括:
构建智能仿射运动补偿网络,该网络的输入为空时域预测块、时域参考块、运动场信息输出为当前编码块的预测结果;
通过多尺度卷积单元分别从三个输入中提取特征,设计一运动估计单元特征级联,通过两层卷积层,分别为空时域预测块和时域参考块估计相应的运动场信息;
利用运动场信息,通过可变形卷积操作补偿空时域预测块和时域参考块的特征得到目标图像的特征图;
以目标图像的特征图为输入,基于注意力融合多通道信息并重建目标图像。
其中,所述运动估计单元分别计算了两个运动偏移场
Figure BDA0002974839530000021
计算公式表示为:
Figure BDA0002974839530000022
其中,δC为空时域预测块计算的运动场,δR为时域参考块计算的运动场,H为补偿块的高度,W为补偿块的宽度,C为多尺度卷积单元提取的特征通道数,θ1和θ2是网络学习的参数,f(·)代表运动估计单元的运动估计函数,FR为时域参考块的特征,FC为空时域预测块的特征,FMF为运动场信息的特征。
进一步地,所述通过可变形卷积操作补偿空时域预测块和时域参考块的特征得到目标图像的特征图具体为:
Figure BDA0002974839530000023
Figure BDA0002974839530000024
其中,
Figure BDA0002974839530000025
Figure BDA0002974839530000026
为两个纹理分支的补偿特征,DConv(·)代表可变形卷积操作。
其中,所述方法还包括:将所述智能仿射运动补偿网络与编码框架VTM6.0整合,对VVC中的编码单元划分结构,每一种尺寸类型的编码单元都训练单独的网络模型。
本发明提供的技术方案的有益效果是:
1、本发明借助于深度学习的特征表达能力,通过充分利用空域、时域和运动场信息来估计更准确的像素级运动场。
2、本方案提供了一种智能仿射运动补偿编码方法,与最新视频编码标准VVC的参考软件VTM6.2相比,该方法能有效节省码率,提升编码性能。
附图说明
图1为一种智能仿射运动补偿编码方法的流程图;
图2为智能仿射运动补偿网络输入的示意图;
图3为集成至编码平台的流程图;
图4为本发明方法所实现的视频编码性能提升的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
本发明实施例提供了一种智能仿射运动补偿编码方法,参见图1,该方法包括以下步骤:
一、构建智能仿射运动补偿网络输入
网络的输入为空时域预测块、时域参考块、运动场信息,参见图2;输出为智能仿射运动补偿块,即对当前编码块的预测结果。其中,空时域预测块通过将原仿射模式预测结果(已知项,本领域技术人员所公知)与当前编码块的空间相邻像素拼接得到,具体的,空间相邻像素包括:当前编码块左、左上、上的16个像素内的所有重建像素点(即图2中的空间相邻块的像素)。
对于时域参考块,首先利用控制点运动向量(本领域技术人员所公知的技术术语)在相应参考帧中找到与当前编码块最相似的参考块,随后再自适应拼接周边像素块得到,使得时域参考块的尺寸大小与空时域预测块的大小保持一致。
其中,运动场信息为当前编码块的预测运动场信息,需要将运动信息从16倍像素精度转换到整数像素精度。
二、精细运动估计
给定空时域预测块、时域参考块、运动场信息作为输入,为空时域预测块和时域参考块分别估计更精细的运动场。精细运动估计中包括:多尺度卷积和运动估计。
首先,通过多尺度卷积单元分别从以上三个输入(空时域预测块、时域参考块、运动场信息)中提取特征,分别为1×1、3×3、5×5。然后,设计一个运动估计单元用于估计更准确的运动场。运动估计单元将从多尺度卷积单元得到的特征级联,随后通过两层卷积层,分别为空时域预测块和时域参考块估计相应的运动场信息。
由于最终输出的智能仿射运动补偿块与空时域预测块之间的偏差相对于其与时域参考块之间的偏差更小,因此运动估计单元为空时域预测块预测的是更精细的运动场。
运动估计单元分别计算了两个运动偏移场
Figure BDA0002974839530000031
计算公式表示为:
Figure BDA0002974839530000032
其中,δC为空时域预测块计算的运动场,δR为时域参考块计算的运动场,H为补偿块的高度,W为补偿块的宽度,C为多尺度卷积单元提取的特征通道数,θ1和θ2是网络学习的参数,f(·)代表运动估计单元的运动估计函数,FR为时域参考块的特征,FC为空时域预测块的特征,FMF为运动场信息的特征。
三、可变形运动补偿设计
利用精细运动估计的运动场信息,可变形运动补偿通过补偿空时域预测块和时域参考块的特征得到目标图像的特征图。
在运动估计单元估计的精细运动场的控制下,通过可变形卷积操作实现运动补偿。两个纹理分支的补偿特征
Figure BDA0002974839530000041
Figure BDA0002974839530000042
计算如下:
Figure BDA0002974839530000043
Figure BDA0002974839530000044
其中,DConv(·)代表可变形卷积操作。由于可变形运动补偿目标图像的特征图而不是像素,因此更好地利用非局部上下文信息。
四、基于注意力的融合重建设计
以可变形运动补偿的输出为输入,基于注意力的融合重建的主要任务是融合多通道信息并重建目标图像。
首先,将补偿后的特征
Figure BDA0002974839530000045
与未补偿的特征FR,FC级联。随后,利用两个残差注意力单元将级联后的特征进行特征融合,得到初步融合特征。然后,初步融合特征依次经过一个上采样层,两个残差注意力单元和下采样层,增大网络的感受野和保留低频信息(用于提高生成结果的准确性)。最后,再额外利用一个新的残差注意力单元和两个卷积层生成残差图像,再将残差图像加上空时域预测块后,最终生成智能仿射运动补偿块。
其中,每个残差注意力单元均包含一个残差单元和一个注意力单元。
本发明实施例为了优化提出的智能仿射运动补偿网络,使用L2损失计算损失函数Loss:
Figure BDA0002974839530000046
其中,GT表示原始视频中的对应块,ODAMC表示智能仿射运动补偿块。
五、集成至编码平台
将通过上述一至四部分构建、且训练好的智能仿射运动补偿网络模型与编码框架VTM6.0(本领域技术人员所公知)整合。所提出的智能仿射运动补偿网络应用在VVC中的两种仿射模式,即仿射帧间模式和仿射跳过模式。针对VVC中复杂的编码单元划分结构,每一种尺寸类型的编码单元都训练单独的网络模型。具体的,在VVC中,提出的智能仿射运动补偿网络被设计成一种可选模式,即DAMC模式。
在编码端,参见图3,经过原仿射运动估计和补偿后,首先得到空时域预测块、时域参考块、运动场信息为网络的输入,调用对应的网络模型进行智能仿射运动补偿,得到补偿结果后,将扩充的周边像素去除后作为当前编码块的智能仿射运动补偿预测图像。随后,使用率失真决策函数判断是否需要使用DAMC模式,并向解码端传输对应的1比特的标志符。
在解码端,解码相应的标志位后,如果当前编码块使用了DAMC模式时,解码端部分会经过以上同样的步骤预测得到智能仿射运动补偿图像。
对于仿射帧间模式,一共训练12个模型;对于仿射跳过模式,一共训练19个模型,此外,为了减少编码复杂度,仅当得到最优仿射跳过模式候选后才会进入DAMC模式。
其中,仿射帧间模式、仿射跳过模式为本领域技术人员所公知,本发明实施例对此不做赘述。
本发明将VTM6.2的仿射帧间模式与本发明所提方法进行了对比。参见图4,相比于去除仿射帧间模式的VTM6.2,本发明能实现3.84%的比特率节省,而VTM6.2中仿射帧间模式能实现2.44%的性能提升,说明本发明所提方案能够有效的补偿复杂运动,提升视频编码性能。本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种智能仿射运动补偿编码方法,其特征在于,所述方法包括:
构建智能仿射运动补偿网络,该网络的输入为空时域预测块、时域参考块、运动场信息输出为当前编码块的预测结果;
通过多尺度卷积单元分别从三个输入中提取特征,设计一运动估计单元特征级联,通过两层卷积层,分别为空时域预测块和时域参考块估计相应的运动场信息;
利用运动场信息,通过可变形卷积操作补偿空时域预测块和时域参考块的特征得到目标图像的特征图;
以目标图像的特征图为输入,基于注意力融合多通道信息并重建目标图像。
2.根据权利要求1所述的一种智能仿射运动补偿编码方法,其特征在于,所述运动估计单元分别计算了两个运动偏移场
Figure FDA0002974839520000011
计算公式表示为:
Figure FDA0002974839520000012
其中,δC为空时域预测块计算的运动场,δR为时域参考块计算的运动场,H为补偿块的高度,W为补偿块的宽度,C为多尺度卷积单元提取的特征通道数,θ1和θ2是网络学习的参数,f(·)代表运动估计单元的运动估计函数,FR为时域参考块的特征,FC为空时域预测块的特征,FMF为运动场信息的特征。
3.根据权利要求2所述的一种智能仿射运动补偿编码方法,其特征在于,所述通过可变形卷积操作补偿空时域预测块和时域参考块的特征得到目标图像的特征图具体为:
Figure FDA0002974839520000013
Figure FDA0002974839520000014
其中,
Figure FDA0002974839520000015
Figure FDA0002974839520000016
为两个纹理分支的补偿特征,DConv(·)代表可变形卷积操作。
4.根据权利要求1-3中任一权利要求所述的一种智能仿射运动补偿编码方法,其特征在于,所述方法还包括:将所述智能仿射运动补偿网络与编码框架VTM6.0整合,对VVC中的编码单元划分结构,每一种尺寸类型的编码单元都训练单独的网络模型。
CN202110272279.9A 2021-03-12 2021-03-12 一种智能仿射运动补偿编码方法 Active CN113068041B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110272279.9A CN113068041B (zh) 2021-03-12 2021-03-12 一种智能仿射运动补偿编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110272279.9A CN113068041B (zh) 2021-03-12 2021-03-12 一种智能仿射运动补偿编码方法

Publications (2)

Publication Number Publication Date
CN113068041A true CN113068041A (zh) 2021-07-02
CN113068041B CN113068041B (zh) 2022-02-08

Family

ID=76560243

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110272279.9A Active CN113068041B (zh) 2021-03-12 2021-03-12 一种智能仿射运动补偿编码方法

Country Status (1)

Country Link
CN (1) CN113068041B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116117800A (zh) * 2022-12-19 2023-05-16 广东建石科技有限公司 补偿高度差的机器视觉处理方法、电子设备及存储介质
WO2023206420A1 (zh) * 2022-04-29 2023-11-02 Oppo广东移动通信有限公司 视频编解码方法、装置、设备、系统及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100329347A1 (en) * 2008-01-29 2010-12-30 Dong Hyung Kim Method and apparatus for encoding and decoding video signal using motion compensation based on affine transformation
CN108605137A (zh) * 2016-03-01 2018-09-28 联发科技股份有限公司 利用仿射运动补偿的视频编码方法与装置
CN108965869A (zh) * 2015-08-29 2018-12-07 华为技术有限公司 图像预测的方法及设备
US20190158873A1 (en) * 2017-11-20 2019-05-23 Google Llc Motion field-based reference frame rendering for motion compensated prediction in video coding
US20190387249A1 (en) * 2018-06-19 2019-12-19 Qualcomm Incorporated Unification of affine motion field derivation and affine motion compensation
CN111373754A (zh) * 2018-10-23 2020-07-03 北京字节跳动网络技术有限公司 仿射编码的自适应控制点选择
US20200228821A1 (en) * 2016-03-15 2020-07-16 Mediatek Inc. Method and Apparatus of Video Coding with Affine Motion Compensation
CN111464815A (zh) * 2020-04-17 2020-07-28 中国科学技术大学 一种基于神经网络的视频编码方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100329347A1 (en) * 2008-01-29 2010-12-30 Dong Hyung Kim Method and apparatus for encoding and decoding video signal using motion compensation based on affine transformation
CN108965869A (zh) * 2015-08-29 2018-12-07 华为技术有限公司 图像预测的方法及设备
CN108605137A (zh) * 2016-03-01 2018-09-28 联发科技股份有限公司 利用仿射运动补偿的视频编码方法与装置
US20190058896A1 (en) * 2016-03-01 2019-02-21 Mediatek Inc. Method and apparatus of video coding with affine motion compensation
US20200228821A1 (en) * 2016-03-15 2020-07-16 Mediatek Inc. Method and Apparatus of Video Coding with Affine Motion Compensation
US20190158873A1 (en) * 2017-11-20 2019-05-23 Google Llc Motion field-based reference frame rendering for motion compensated prediction in video coding
US20190387249A1 (en) * 2018-06-19 2019-12-19 Qualcomm Incorporated Unification of affine motion field derivation and affine motion compensation
CN111373754A (zh) * 2018-10-23 2020-07-03 北京字节跳动网络技术有限公司 仿射编码的自适应控制点选择
CN111464815A (zh) * 2020-04-17 2020-07-28 中国科学技术大学 一种基于神经网络的视频编码方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023206420A1 (zh) * 2022-04-29 2023-11-02 Oppo广东移动通信有限公司 视频编解码方法、装置、设备、系统及存储介质
CN116117800A (zh) * 2022-12-19 2023-05-16 广东建石科技有限公司 补偿高度差的机器视觉处理方法、电子设备及存储介质
CN116117800B (zh) * 2022-12-19 2023-08-01 广东建石科技有限公司 补偿高度差的机器视觉处理方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN113068041B (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
CN106973293B (zh) 基于视差预测的光场图像编码方法
CN111405283B (zh) 基于深度学习的端到端视频压缩方法、系统及存储介质
Chen et al. Learning for video compression
CN112203093B (zh) 一种基于深度神经网络的信号处理方法
Hu et al. Coarse-to-fine deep video coding with hyperprior-guided mode prediction
CN103873861B (zh) 一种用于hevc的编码模式选择方法
CN101668205B (zh) 基于残差宏块自适应下采样立体视频压缩编码方法
Liu et al. Learned video compression via joint spatial-temporal correlation exploration
CN113068041B (zh) 一种智能仿射运动补偿编码方法
CN108924558B (zh) 一种基于神经网络的视频预测编码方法
CN110062239B (zh) 一种用于视频编码的参考帧选择方法及装置
Gao et al. Recent standard development activities on video coding for machines
CN101883284B (zh) 基于背景建模和可选差分模式的视频编/解码方法及系统
CN114503576A (zh) 通过可变形卷积生成用于视频编解码的预测帧
CN108289224B (zh) 一种视频帧预测方法、装置及自动补偿神经网络
CN110677624B (zh) 基于深度学习的面向监控视频的前景和背景并行压缩方法
CN113592746B (zh) 一种由粗到细地融合时空信息的压缩视频质量增强方法
CN112770120B (zh) 基于深度神经网络的3d视频深度图帧内快速编码方法
CN110677644B (zh) 一种视频编码、解码方法及视频编码帧内预测器
CN109151476A (zh) 一种基于双向预测的b帧图像的参考帧生成方法及装置
CN115914654A (zh) 一种用于视频编码的神经网络环路滤波方法及装置
CN115278262A (zh) 一种端到端智能视频编码方法及装置
Liu et al. Learned video compression with residual prediction and loop filter
Mathew et al. Hierarchical and polynomial motion modeling with quad-tree leaf merging
CN117915107B (zh) 图像压缩系统、图像压缩方法、存储介质与芯片

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant