CN117061760A - 一种基于注意力机制的视频压缩方法和系统 - Google Patents

一种基于注意力机制的视频压缩方法和系统 Download PDF

Info

Publication number
CN117061760A
CN117061760A CN202310937014.5A CN202310937014A CN117061760A CN 117061760 A CN117061760 A CN 117061760A CN 202310937014 A CN202310937014 A CN 202310937014A CN 117061760 A CN117061760 A CN 117061760A
Authority
CN
China
Prior art keywords
motion information
compressed
compression
attention mechanism
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310937014.5A
Other languages
English (en)
Inventor
段鹏瑞
马华东
张思茹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202310937014.5A priority Critical patent/CN117061760A/zh
Publication of CN117061760A publication Critical patent/CN117061760A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供一种基于注意力机制的视频压缩方法和系统,该方法包括:接收待压缩的原始视频,将原始视频划分为多个图像组;通过第一压缩模型对第一类待压缩帧进行压缩得到参考帧;将参考帧和第二类待压缩帧输入到第二压缩模型中,第二压缩模型包含的基于注意力机制的运动信息编码器提取运动信息,第二压缩模型包含的运动信息解码器对提取的运动信息进行重建,将重建的运动信息和参考帧输入到运动补偿模块并输出对每个第二类待压缩帧进行压缩得到的重建帧;将每个图像组经过第一压缩模型和第二压缩模型处理后得到的参考帧和重建帧顺序组合得到压缩后的视频。本发明能够通过引入注意力机制增强光流估计视频压缩的鲁棒性。

Description

一种基于注意力机制的视频压缩方法和系统
技术领域
本发明涉及视频图像压缩技术领域,尤其涉及一种基于注意力机制的视频压缩方法和系统。
背景技术
视频内容相比于其他形式的如文字、图片和音频等其他形式的内容相比,能够携带更多的信息,当今时代,视频内容愈加广泛传播,在人们的日常生活中扮演着越来越重要的角色。在视频的表示、传输和存储等方面,视频压缩技术是一个重要的前提,尤其是在实时的视频压缩技术领域。视频压缩一直是计算机视觉领域的前沿技术,多年来,对于视频压缩方法的研究一直在蓬勃发展。
在人工智能蓬勃发展之前,基于块的传统视频压缩技术主导了视频压缩领域的研究与产业发展,人们常用基于块的方法对运动信息做预测和变换,由这种基于块的视频压缩框架衍生出了多种有效且被广泛使用的协议,例如H.264、H.265、H.266、VP8、VP9、AV1等。而随着深度学习技术的更新迭代,基于数据驱动的神经网络在图像分类、物体检测和图像分割等视觉任务中取得的不错成果,深度学习方法逐渐被应用于视频压缩领域,例如基于卷积的DVC,C2F,基于生成对抗网络的SGANC,以及基于Transformer的VCT。
在现有技术中,提供了一种基于深度学习的端到端视频压缩模型框架,仿照传统的视频编解码框架,将传统的组件——运动估计和运动补偿映射到卷积神经网络模块,利用基于卷积神经网络的光流估计实现运动估计,在运动估计环节,通过SpyNet光流模型得到当前帧与参考帧之间的光流值,再利用8层卷积从光流中提取运动信息,并量化所提取到的运动信息。
然而,现有的基于卷积神经网络的运动估计模块严重依赖光流估计的结果,当光流估计提取到的运动信息不准确时,所压缩得到的视频质量不理想。并且,完全卷积神经网络进行的运动估计模块在特征提取的过程中,由于需要利用局部信息得到视频或者图像的紧密表示,因此容易造成全局信息的丢失。
发明内容
鉴于此,本发明实施例提供了一种基于注意力机制的视频压缩方法和系统,以消除或改善现有技术中存在的一个或更多个缺陷。
本发明的一个方面提供了一种基于注意力机制的视频压缩方法和系统,该方法包括以下步骤:
接收待压缩的原始视频,将原始视频划分为多个图像组;其中,每个图像组包含第一类待压缩帧和多个第二类待压缩帧,所述第一类待压缩帧为每个图像组包含的来自原始视频的时间排序第一的图像帧;
通过预设的第一压缩模型对第一类待压缩帧进行压缩,并将压缩的结果作为参考帧;
将参考帧和第二类待压缩帧输入到第二压缩模型中,第二压缩模型包含的基于注意力机制的运动信息编码器提取输入的每个第二类待压缩帧相对于参考帧的运动信息,第二压缩模型包含的运动信息解码器对提取的运动信息进行重建,将重建的运动信息和参考帧输入到运动补偿模块并输出对每个第二类待压缩帧进行压缩得到的重建帧;其中,基于注意力机制的运动信息编码器包含多个运动信息提取单元,每个运动信息提取单元基于输入提取子运动信息,结合对每个运动信息提取单元的提取结果的预设权重,加权计算得到最终的运动信息;
将每个图像组经过第一压缩模型和第二压缩模型处理后得到的参考帧和重建帧顺序组合得到压缩后的视频。
在本发明的一些实施例中,在将重建的运动信息和参考帧输入到运动补偿模块并输出对每个第二类待压缩帧进行压缩得到的重建帧的步骤中,该方法还包括:对每个第二类待压缩帧及其对应的运动补偿模块输出的重建帧做减法计算,得到第二类待压缩帧对应的残差;将第二类待压缩帧对应的残差输入到残差编码器中,对残差编码器的输出进行量化处理;将量化后的残差编码器的输出输入到残差解码器中进行重建;对残差解码器的输出与运动补偿模块输出的重建帧做加法计算,加法计算的结果作为去除残差冗余后的重建帧。
在本发明的一些实施例中,在第二压缩模型包含的运动信息解码器对提取的运动信息进行重建之前,该方法还包括:对运动信息编码器提取的运动信息进行量化;在对残差编码器的输出进行量化处理的步骤后,该方法还包括:将量化后的残差编码器的输出和量化后的运动信息输入到码率估计模型中,估算压缩编码后的码流大小。
在本发明的一些实施例中,预设的第一压缩模型为基于Ballé算法搭建的端到端图像压缩模型。
在本发明的一些实施例中,运动信息编码器包含第一运动信息提取单元,第一运动信息提取单元包含下采样模块、光流模型、运动信息压缩网络和卷积层;所述运动信息提取单元基于输入提取子运动信息的步骤包括:将原始分辨率的第二类待压缩帧和参考帧输入到第一运动信息提取单元,基于下采样模块获得降低分辨率的第二类待压缩帧和参考帧,基于光流模型从降低分辨率的第二类待压缩帧和参考帧中提取运动信息,并将光流模型提取的运动信息输入到联合注意力机制网络与卷积神经网络的运动信息压缩网络以压缩所述运动信息,运动信息压缩网络的输出经过卷积层处理得到第一运动信息提取单元提取的子运动信息。
在本发明的一些实施例中,将光流模型提取的运动信息输入到联合注意力机制与卷积神经网络的运动信息压缩网络以压缩所述运动信息的步骤,包括:运动信息压缩网络包含的预设数量个大小为1×1的卷积核对光流模型提取的运动信息进行处理,将得到的预设数量个卷积核的处理结果分别输出到全连接层和注意力机制网络中;利用全连接层拼接预设数量个卷积核的处理结果,并将拼接后的处理结果输入到卷积神经网络中,利用卷积神经网络将输入均匀的分割成预设数量的张量块,对每个张量块利用不同的卷积核进行处理,对卷积神经网络的输出进行拼接;将输入的预设数量个卷积核的处理结果分别作为注意力机制网络的请求Query、键Key和值Value,利用Query和Key计算注意力矩阵,并利用所述注意力矩阵和Value进行矩阵乘法计算得到注意力特征矩阵,对注意力机制网络的输出进行拼接;基于对卷积神经网络的输出和注意力机制网络的输出的预设权值,加权求和得到最终的运动信息压缩网络的输出。
在本发明的一些实施例中,所述运动信息编码器还包含第二运动信息提取单元,第二运动信息提取单元包含光流模型、卷积层和广义除法归一化函数;所述运动信息提取单元基于输入提取子运动信息的步骤还包括:将原始分辨率的第二类待压缩帧和参考帧输入到第二运动信息提取单元以提取原始分辨率的运动信息,将第二运动信息提取单元提取的原始分辨率的运动信息先后经过卷积层和广义除法归一化函数处理,得到第二运动信息提取单元提取的子运动信息。
在本发明的一些实施例中,所述运动信息编码器还包含第三运动信息提取单元,第三运动信息提取单元包含大小为1×1的卷积核、自注意力机制网络和卷积层;所述运动信息提取单元基于输入提取子运动信息的步骤还包括:将参考帧输入到1×1的卷积核中,并将1×1的卷积核的输出作为自注意力机制网络的键Key和值Value,将原始分辨率的第二类待压缩帧输入到又一1×1的卷积核中,并将所述又一1×1的卷积核的输出作为自注意力机制网络的请求Query,将基于如上Key、Value和Query的自注意力机制网络的输出输入到卷积层进行处理,得到第三运动信息提取单元提取的子运动信息。
本发明的另一方面提供了一种基于注意力机制的视频压缩系统,包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该系统实现如上实施例中任一项所述方法的步骤。
本发明的另一方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上实施例中任一项所述方法的步骤。
本发明所提出的基于注意力机制的视频压缩方法和系统,引入了基于注意力机制的运动信息编码器提取运动信息,基于注意力机制的运动信息编码器相比于基于卷积神经网络的运动信息编码器能够更好的保留全局信息,同时基于注意力机制的运动信息编码器所包含的多个运动信息提取单元,基于不同策略提取运动信息,并加权计算得到一个最终的运动信息,避免了单一的运动信息计算方式,从而避免了对光流估计的结果的过度依赖,保障了视频压缩质量的稳定性。
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1为本发明一实施例中基于注意力机制的视频压缩方法流程图。
图2为本发明一实施例中基于注意力机制的视频压缩方法整体框架图。
图3为本发明另一实施例中基于注意力机制的视频压缩方法整体框架图。
图4为本发明一实施例中基于注意力机制的运动信息编码器结构示意图。
图5为本发明一实施例中运动信息压缩网络进行运动信息压缩的流程图。
图6为本发明一实施例中运动信息解码器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
在此,还需要说明的是,如果没有特殊说明,术语“连接”在本文不仅可以指直接连接,也可以表示存在中间物的间接连接。
在下文中,将参考附图描述本发明的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。
现有的基于光流的视频压缩模型,其计算复杂度较高,模型参数量较大,整体所需的训练与测试的时间较长,且视频压缩效果基本依赖于光流估计结果,当所需压缩的视频不适用于光流网络时,难以得到恰当的运动信息。为了解决现有技术中存在的对光流估计的单一的光流估计的结果的过度依赖问题,以及完全使用卷积神经网络所可能导致的全局信息丢失的问题,本发明提出了一种基于注意力机制的视频压缩方法和系统。该方法和系统在卷积神经网络的基础上结合了注意力机制,并设计了包含多个运动信息提取单元的运动信息编码器(Motion Encoder),基于不同策略提取运动信息并加权计算最终的运动信息,一方面,在卷积神经网络的基础上结合注意力机制能够更好的保留全局信息,另一方面,能够降低对单一的运动信息计算方式的依赖,避免了单一路径获取的质量波动所导致的进行视频压缩的图像质量波动。此外,本发明还通过光流网络(Optical Flow Net)得到原始分辨率的大致光流信息,然后将下采样的帧作为另外的输入,得到不同尺度的光流信息,再将原始帧和参考帧作为输入,分别作为自注意力机制(Self-Attention Mechanism)的Query和Key、Value,同时得到空域和时域的特征信息。其中,光流指的是在运动者的世界里感觉到的明显的视觉运动,通过光流可以判断物体间的相对距离和相对角度。它是空间物体在观察平面上的像素运动的瞬时速度,是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧和当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。例如,通过不同目标的运动速度判断它们与我们的距离,越远的目标越接近静止,越近的目标运动速度越快。例如,运动方向与眼睛成90度的物体速度要比其他角度快,运动方向与眼睛看过去方向垂直的物体,虽然越来越大了,但是好像静止了一样。光流模型指的是用于对视频数据包含的时变图像上的二维运动场进行分析以提取重要视觉线索的预训练模型,在动作识别、视频理解、视频分割、目标跟踪以及全景拼接等领域,都有广泛应用。目前已知的光流模型包含FlowNet、MMFlow(由OpenMMLab开发)和PWC-Net等。
图1为本发明一实施例中基于注意力机制的视频压缩方法流程图,该方法包含以下步骤:
步骤S110:接收待压缩的原始视频,将原始视频划分为多个图像组;其中,每个图像组包含第一类待压缩帧和多个第二类待压缩帧,所述第一类待压缩帧为每个图像组包含的来自原始视频的时间排序第一的图像帧。
步骤S120:通过预设的第一压缩模型对第一类待压缩帧进行压缩,并将压缩的结果作为参考帧。
在本发明一实施例中,预设的第一压缩模型可以是基于Ballé算法搭建的端到端图像压缩模型,发表于ICLR会议的End-to-end optimized image compression。但本发明并不限于此,该第一压缩模型仅为示例,用于对第一类待压缩帧进行压缩,从而得到参考帧,基于参考帧和提取的运动信息对图像组内的第二类待压缩帧进行压缩,并生成一个重建帧。
步骤S130:将参考帧和第二类待压缩帧输入到第二压缩模型中,第二压缩模型包含的基于注意力机制的运动信息编码器提取输入的每个第二类待压缩帧相对于参考帧的运动信息,第二压缩模型包含的运动信息解码器(Motion Decoder)对提取的运动信息进行重建,将重建的运动信息和参考帧输入到运动补偿模块并输出对每个第二类待压缩帧进行压缩得到的重建帧;其中,基于注意力机制的运动信息编码器包含多个运动信息提取单元,每个运动信息提取单元基于输入提取子运动信息,结合对每个运动信息提取单元的提取结果的预设权重,加权计算得到最终的运动信息。其中,运动补偿模块是传统视频压缩技术向深度学习领域的一个映射,首先通过运动信息编码器提取运动信息,再通过量化处理和运动信息解码器的处理对运动信息进行重建,基于重建后的运动信息以及参考帧生成一个重建帧,这个重建帧实际上已经是被压缩了的。其中,在注意力机制(Attention Mechanism)中Query是查询,Key是键,Value是值,通过Query映射到数据库中相关的Key,从而得到最为匹配的Value。
可选地,在步骤S130的对残差编码器(Residual Encoder)的输出进行量化处理的步骤后,该方法还包括:将量化后的残差编码器的输出和量化后的运动信息输入到码率估计模型中,估算压缩编码后的码流大小。量化操作是为了压缩数据的占用量,量化就是将连续的权值进一步稀疏化和离散化,进行离散化之后,相较于原来的连续稠密的值就可以用离散的值来表示了。码率估计(Bitrate Estimation)是为了估计压缩编码后的码流大小,在本发明一实施例中,可以采用Ballé提出的概率估计模型估计所需比特大小。
进一步地,在将重建的运动信息和参考帧输入到运动补偿模块并输出对每个第二类待压缩帧进行压缩得到的重建帧的步骤中,该方法还可以包括:(1)对每个第二类待压缩帧及其对应的运动补偿模块输出的重建帧做减法计算,得到第二类待压缩帧对应的残差;(2)将第二类待压缩帧对应的残差输入到残差编码器中,对残差编码器的输出进行量化处理;(3)将量化后的残差编码器的输出输入到残差解码器(Residual Decoder)中进行重建;(4)对残差解码器的输出与运动补偿模块输出的重建帧做加法计算,加法计算的结果作为去除残差冗余后的重建帧。通过计算残差,并对残差进行编码是为了进一步减少残差冗余,解码操作与反量化对应。可选地,在模型训练中,这一步骤中在残差编码和量化的同时会添加噪声,以提高模型的泛化能力。在本发明又一实施例中,未经过残差处理的重建帧被称为预测帧。
其中,在上述步骤中的对残差编码器的输出进行量化处理的步骤后,该方法还包括:将量化后的残差编码器的输出和量化后的运动信息输入到码率估计模型中,估算压缩编码后的码流大小。通过估算码流的大小,可以判断需要进行的视频压缩的程度,从而达到压缩后的视频质量和传输带宽之间的一个最平衡的点,尽可能的保障压缩后的视频质量。
步骤S140:将每个图像组经过第一压缩模型和第二压缩模型处理后得到的参考帧和重建帧顺序组合得到压缩后的视频。
其中,步骤S140中,每个图像组包含所以图像帧都经过压缩,基于原始视频的图像帧的顺序,将压缩后的图像帧进行组合,就得到了压缩后的视频。
本发明所提出的基于注意力机制的视频压缩方法和系统,引入了基于注意力机制的运动信息编码器提取运动信息,基于注意力机制的运动信息编码器相比于基于卷积神经网络的运动信息编码器能够更好的保留全局信息,同时基于注意力机制的运动信息编码器所包含的多个运动信息提取单元,基于不同策略提取运动信息,并加权计算得到一个最终的运动信息,避免了单一的运动信息计算方式,从而避免了对光流估计的结果的过度依赖,避免了单一运动信息获取路径的质量波动所导致的视频压缩的图像质量波动,保障了视频压缩质量的稳定性。
更为具体地,在本发明一实施例中,运动信息编码器包含第一运动信息提取单元,第一运动信息提取单元包含下采样模块、光流模型、运动信息压缩网络和卷积层。
相应地,步骤S130中包含的运动信息提取单元基于输入提取子运动信息的步骤包括:将原始分辨率的第二类待压缩帧和参考帧输入到第一运动信息提取单元,基于下采样模块获得降低分辨率的第二类待压缩帧和参考帧,基于光流模型从降低分辨率的第二类待压缩帧和参考帧中提取运动信息,并将光流模型提取的运动信息输入到联合注意力机制网络与卷积神经网络的运动信息压缩网络以压缩所述运动信息,运动信息压缩网络的输出经过卷积层处理得到第一运动信息提取单元提取的子运动信息。其中,运动信息编码器包含第一运动信息提取单元,第一运动信息提取单元包含运动信息压缩网络,运动信息压缩网络主要包含两部分——注意力机制网络和卷积神经网络。
进一步地,上述将光流模型提取的运动信息输入到联合注意力机制与卷积神经网络的运动信息压缩网络以压缩所述运动信息的步骤,包括:(1)运动信息压缩网络包含的预设数量个大小为1×1的卷积核对光流模型提取的运动信息进行处理,将得到的预设数量个卷积核的处理结果分别输出到全连接层和注意力机制网络中,该预设数量可以为3个,这样可以与Q、K和V的数量保持一致,但其他数量也是可行的;(2)利用全连接层拼接(Concatenation,可简写为Concat)预设数量个卷积核的处理结果,并将拼接后的处理结果输入到卷积神经网络中,利用卷积神经网络将输入均匀的分割成预设数量的张量块,对每个张量块利用不同的卷积核进行处理,对卷积神经网络的输出进行拼接;(3)将输入的预设数量个卷积核的处理结果分别作为注意力机制网络的请求Query、键Key和值Value,利用Query和Key计算注意力矩阵,并利用所述注意力矩阵和Value进行矩阵乘法计算得到注意力特征矩阵,对注意力机制网络的输出进行拼接;(4)基于对卷积神经网络的输出和注意力机制网络的输出的预设权值,加权求和得到最终的运动信息压缩网络的输出。需要说明的是,其中的Query是查询语句,Value是数据项,Key是对应每个数据项的钥匙,Query、Key和Value可以理解为注意力机制网络包含的函数,将预设数量个卷积核的处理结果作为函数的输入,这里实际上是涉及的张量计算操作,预设数量个卷积核的输出为相同大小的张量,该技术内容属于本领域技术人员所能够理解的。
在上述发明实施例中,在基于注意力机制的运动信息编码器的第一运动信息提取单元,通过下采样模块降低输入图像的分辨率,从而降低第二压缩模型进行图像压缩的复杂度,从而减少模型参数量,在引入注意力机制与卷积神经网络结合的过程中避免引入巨大的计算复杂度,缩短训练和推理时长,避免了现有技术中存在的采用整体参数量较大的光流模型和原始分辨率的图像,所导致的模型推理时间较长,难以实际应用。
此外,运动信息编码器还包含第二运动信息提取单元,其中,第二运动信息提取单元包含光流模型、卷积层和广义除法归一化函数。运动信息编码器还包含第三运动信息提取单元,第三运动信息提取单元包含大小为1×1的卷积核、自注意力机制网络和卷积层。
相应地,上述将光流模型提取的运动信息输入到联合注意力机制与卷积神经网络的运动信息压缩网络以压缩所述运动信息的步骤,还包括:将原始分辨率的第二类待压缩帧和参考帧输入到第二运动信息提取单元以提取原始分辨率的运动信息,将第二运动信息提取单元提取的原始分辨率的运动信息先后经过卷积层和广义除法归一化函数处理,得到第二运动信息提取单元提取的子运动信息。
相应地,上述将光流模型提取的运动信息输入到联合注意力机制与卷积神经网络的运动信息压缩网络以压缩所述运动信息的步骤,还包括:将参考帧输入到1×1的卷积核中,并将1×1的卷积核的输出作为自注意力机制网络的键Key和值Value,将原始分辨率的第二类待压缩帧输入到又一1×1的卷积核中,并将所述又一1×1的卷积核的输出作为自注意力机制网络的请求Query,将基于如上Key、Value和Query的自注意力机制网络的输出输入到卷积层进行处理,得到第三运动信息提取单元提取的子运动信息。
以上,本发明通过增加两路辅助信息,即多个运动信息提取单元,弥补了光流估计不准确给运动估计带来的影响,避免了运动估计对光流估计结果的过度依赖,即便当光流估计提取到的运动信息不够准确时,仍然能够取得较好的视频压缩效果。
图2为本发明一实施例中基于注意力机制的视频压缩方法整体框架图。本发明的整体框架包含对运动信息进行编码和解码的模块,基于运动信息得到对图像组中除参考帧以为的压缩帧。其中,这个运动信息理解为待压缩帧相对于参考帧的运动信息。图3为本发明另一实施例中基于注意力机制的视频压缩方法整体框架图。本发明的整体框架包含对运动信息和残差信息进行编码和解码的模块,用运动信息补偿残差部分的模型,压缩残差信息的网络,以及估计比特率的网络。并且,本发明提出了一种新的运动估计模块,称为基于注意力机制的运动信息编码器,以增强从帧间提取运动信息的鲁棒性。
在本发明一具体实施例中,整个视频压缩的流程包含如下步骤:
(1)自然视频数据集Ultra Video Group(UVG)为例,利用UVG视频数据集中的1920x1080的YUV420视频为原始数据集,利用ffmpeg命令将YUV420的视频转换为色彩模式RGB24的PNG格式的图像,作为本发明的原始输入。
(2)默认图像组GOP(Group of Pictures)大小为12,以Ballé算法作为I帧压缩模型,将压缩后的I帧作为后续11个原始P帧的参考帧,分别以和Pin表示,作为模型的输入,模型输出,即压缩的帧,/>需要解释的是,I帧是业内对第一类待压缩帧的简称,通过第一图像压缩模型(即Ballé算法)进行压缩,P帧为第二类压缩帧,基于参考帧在第二图像压缩模型中对第二类压缩帧进行压缩,所述第二图像压缩模型包含本发明所设计并提出提出的基于注意力机制的运动估计模块,该运动估计模块包含多个运动信息提取单元,其中,第一运动信息提取单元包含结合注意力机制网络和卷积神经网络的运动信息压缩网络。
(3)编码端:具体来说,模型(第二图形压缩模型,用于压缩第二类待压缩图形)有两帧输入,分别是该图像组包含的第一类待压缩帧所压缩得到的参考帧和第二类待压缩帧xt,输入到基于注意力机制的运动编码器得到运动信息mt,经量化得到需要传输的预测运动信息/>再经过运动信息解码器得到重建的运动信息/>将输入的参考帧和解码后的运动信息作为运动补偿的输入,得到模型的预测帧/>将输入帧xt与预测帧/>相减,得到残差rt,将残差编码得到yt,为进一步提升压缩率,量化yt得到/>对残差解码得到重建的残差/>最后将预测帧/>与重建的残差相加,得到重建帧/>即第二压缩模型输出的对第二类待压缩帧的压缩结果。需要注意的是,这里的预测帧也可以直接作为重建帧,后续的计算残差、残差编码与解码是一个可选的步骤。通过对残差进行编码,可以进一步减少残差冗余,在模型训练中,此处的残差编码操作在量化的同时会添加噪声,以提升模型泛化能力,而解码操作是与反量化操作相对应的。
图6为本发明一实施例中运动信息解码器的结构示意图。在运动信息解码器中,输入为运动信息经过Deconv(转置卷积)不断提升分辨率,每经过一个转置卷积,分辨率乘2,中间还经过了多个IGDN(Inverse GDN),最终得到与输入帧相同的初始分辨率。其中,IGDN是广义除法归一化(generalized divisive normalization,GDN)的逆过程。
(4)网络传输部分:基于预测运动信息和/>可以得到模型估计的码流大小,即网络传输的文件大小。本发明能够在结合网络信道环境的情况下,最大化的保障压缩后图像的质量,避免出现现有技术中由于运动信息提取渠道单一所可能导致的压缩后图像质量不佳。
(5)解码端:模型直接传输I帧,以GOP为单位,对P帧进行还原。每一个GOP的I帧作为当前GOP的参考帧,经网络传输,解码端得到P帧的量化运动信息和编码量化后的残差以参考帧/>和/>作为运动信息解码器的输入,得到预测帧/>以/>作为残差解码器的输入,得到残差/>将预测帧/>与残差/>相加得到解码帧/>
图4为本发明一实施例中基于注意力机制的运动信息编码器结构示意图。其中,运动信息编码器(Attention-guided Motion Encoder)包含第一运动信息提取单元、第二运动信息提取单元和第三路侧信息提取单元,图2中分为三个路径,中间的是第一运动信息提取单元,下面的是第二运动信息提取单元,上面的是第三运动信息提取单元。对于三个运动信息提取单元,其说明如下:
(1)对于第一运动信息提取单元,以原始分辨率的当前帧和参考帧作为输入,先对输入帧做下采样,再利用光流模型提取较低分辨率的光流信息,然后将得到的光流信息输入到联合注意力机制与卷积神经网络的运动信息压缩网络(Attention-CNN MotionCompression network,ACMC),得到不同尺度的运动信息。其中,图4中的vt,↓2表示输出的分辨率为原来的1/2。通过卷积处理,可以将多个运动信息还原为同一尺寸,以便后续的加权平均计算。
(2)对于第二运动信息提取单元,将原始分辨率的当前帧(第二类待压缩帧)和参考帧(已经压缩了的第一类待压缩帧)作为输入,利用光流模型提取原始分辨率的运动信息,再对输出的运动信息(以光流值的形式存在)利用卷积神经网络(CNN)增强运动信息,运动消息的提取可以理解为特征提取的一种。其中,广义除法归一化(generalized divisivenormalization,GDN),是一种由生物学启发的激活函数,可以很好地捕捉图像的统计特性,并将其转换为高斯分布,凭经验证明GDN可以有效减少模型的参数/层数,同时达到相似的质量性能。
(3)对于第三运动信息提取单元,以原始分辨率的当前帧和参考帧作为输入,同时经过1x1的卷积处理,得到注意力机制中的Key(K)、Query(Q)、Value(V),区别在于K、V来自参考帧,Q来自当前帧,然后通过自注意力机制计算,同时保留空域和时域的运动信息。
最后,为(1)-(3)的输出分配权重,合并三路输出,作为最终的运动信息,mt=α*fpath1+β*fpath2+γ*fpath3。,其中的α、β、γ为权重值,f表示运动信息。在本发明一实施例中,对于α、β、γ的权重预设为0.25,0.25,0.5,仅为示例。
图5为本发明一实施例中运动信息压缩网络进行运动信息压缩的流程图。第一运动信息提取网络所包含的运动信息压缩网络(Attention-CNN Motion Comprssionnetwork,ACMC),进一步地,包含注意力机制网络和卷积神经网络,首先,在阶段I将在上一步提取到的光流经过三个相同的1x1的卷积核处理,将这三份相同特征分别送入阶段II的全连接层(Fully Connected)层和注意力机制网络(Attention Network),分别使用卷积范式和注意力机制范式处理特征信息。其中,在阶段II中:
(1)拼接全连接层(FC,fully connected layer)的处理结果,并送入卷积操作,该卷积神经网络将全连接层的输出分为多个分块(chunk),对每个分块利用不同的卷积核进行处理。其中,全连接层用于对阶段I的输出在Channel维度上拼接。需要说明的是,步骤(1)中的分为预设数量(N)个。拼接操作(Concatenation,也可简写为Concat)指的是新向量拼接在原向量之后,对应的维数增加。
(2)将三个相同的1x1的卷积输出分别作为Query(Q)、Key(K)、Value(V),利用Q、K计算注意力矩阵M,再利用矩阵乘法计算VM,得到基于注意力机制所提取的特征矩阵。需要说明的是,步骤(2)中的分为预设数量(N)个。
最后,分别拼接(1)、(2)中的N个输出,利用加权参数μ和σ,将两者求和,作为最终的特征输出,fACMC=μ*fcnn+σ*fattn
以上,本发明所提出的基于注意力机制的视频压缩方法和系统,引入了基于注意力机制的运动信息编码器提取运动信息,基于注意力机制的运动信息编码器相比于基于卷积神经网络的运动信息编码器能够更好的保留全局信息,同时基于注意力机制的运动信息编码器所包含的多个运动信息提取单元,基于不同策略提取运动信息,并加权计算得到一个最终的运动信息,避免了单一的运动信息计算方式,从而避免了对光流估计的结果的过度依赖,避免了单一运动信息获取路径的质量波动所导致的视频压缩的图像质量波动,保障了视频压缩质量的稳定性,增强了基于光流估计的视频压缩鲁棒性。
在本发明一些实施例中,在基于注意力机制的运动信息编码器的第一运动信息提取单元,通过下采样模块降低输入图像的分辨率,然后将下采样的帧作为另外的输入,得到不同尺度的光流信息,再将原始帧和参考帧作为输入,分别作为自注意力机制网络的Query和Key、Value,同时得到空域和时域的特征信息,从而降低第二压缩模型进行图像压缩的复杂度,从而减少模型参数量,在引入注意力机制与卷积神经网络结合的过程中避免引入巨大的计算复杂度,缩短训练和推理时长,避免了现有技术中存在的采用整体参数量较大的光流模型和原始分辨率的图像,所导致的模型推理时间较长,难以实际应用等问题。
在本发明又一些实施例中,通过增加两路辅助信息,即多个运动信息提取单元,弥补了光流估计不准确给运动估计带来的影响,避免了运动估计对光流估计结果的过度依赖,即便当光流估计提取到的运动信息不够准确时,仍然能够取得较好的视频压缩效果。
本发明通过将基于注意力机制的运动估计获得的运动信息引入到基于光流估计的视频压缩模型中,利用不同尺度的时域信息和基于注意力机制的时空信息,提升运动估计的准确度,能够灵活适应不同类型的视频,能够在尽量保障视频画面质量的同时,进一步提高视频的压缩率,以适应数据传输的带宽。
与上述方法相应地,本发明还提供了一种基于注意力机制的视频压缩系统,该系统包括计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该系统实现如前所述方法的步骤。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现如前所述方法的步骤。该计算机可读存储介质可以是有形存储介质,诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于注意力机制的视频压缩方法,其特征在于,该方法包括以下步骤:
接收待压缩的原始视频,将原始视频划分为多个图像组;其中,每个图像组包含第一类待压缩帧和多个第二类待压缩帧,所述第一类待压缩帧为每个图像组包含的来自原始视频的时间排序第一的图像帧;
通过预设的第一压缩模型对第一类待压缩帧进行压缩,并将压缩的结果作为参考帧;
将参考帧和第二类待压缩帧输入到第二压缩模型中,第二压缩模型包含的基于注意力机制的运动信息编码器提取输入的每个第二类待压缩帧相对于参考帧的运动信息,第二压缩模型包含的运动信息解码器对提取的运动信息进行重建,将重建的运动信息和参考帧输入到运动补偿模块并输出对每个第二类待压缩帧进行压缩得到的重建帧;其中,基于注意力机制的运动信息编码器包含多个运动信息提取单元,每个运动信息提取单元基于输入提取子运动信息,结合对每个运动信息提取单元的提取结果的预设权重,加权计算得到最终的运动信息;
将每个图像组经过第一压缩模型和第二压缩模型处理后得到的参考帧和重建帧顺序组合得到压缩后的视频。
2.根据权利要求1所述的方法,其特征在于,在将重建的运动信息和参考帧输入到运动补偿模块并输出对每个第二类待压缩帧进行压缩得到的重建帧的步骤中,该方法还包括:
对每个第二类待压缩帧及其对应的运动补偿模块输出的重建帧做减法计算,得到第二类待压缩帧对应的残差;
将第二类待压缩帧对应的残差输入到残差编码器中,对残差编码器的输出进行量化处理;
将量化后的残差编码器的输出输入到残差解码器中进行重建;
对残差解码器的输出与运动补偿模块输出的重建帧做加法计算,加法计算的结果作为去除残差冗余后的重建帧。
3.根据权利要求2所述的方法,其特征在于,
在第二压缩模型包含的运动信息解码器对提取的运动信息进行重建之前,该方法还包括:对运动信息编码器提取的运动信息进行量化;
在对残差编码器的输出进行量化处理的步骤后,该方法还包括:将量化后的残差编码器的输出和量化后的运动信息输入到码率估计模型中,估算压缩编码后的码流大小。
4.根据权利要求1所述的方法,其特征在于,预设的第一压缩模型为基于Ballé算法搭建的端到端图像压缩模型。
5.根据权利要求1所述的方法,其特征在于,运动信息编码器包含第一运动信息提取单元,第一运动信息提取单元包含下采样模块、光流模型、运动信息压缩网络和卷积层;
所述运动信息提取单元基于输入提取子运动信息的步骤包括:
将原始分辨率的第二类待压缩帧和参考帧输入到第一运动信息提取单元,基于下采样模块获得降低分辨率的第二类待压缩帧和参考帧,基于光流模型从降低分辨率的第二类待压缩帧和参考帧中提取运动信息,并将光流模型提取的运动信息输入到联合注意力机制网络与卷积神经网络的运动信息压缩网络以压缩所述运动信息,运动信息压缩网络的输出经过卷积层处理得到第一运动信息提取单元提取的子运动信息。
6.根据权利要求5所述的方法,其特征在于,将光流模型提取的运动信息输入到联合注意力机制与卷积神经网络的运动信息压缩网络以压缩所述运动信息的步骤,包括:
运动信息压缩网络包含的预设数量个大小为1×1的卷积核对光流模型提取的运动信息进行处理,将得到的预设数量个卷积核的处理结果分别输出到全连接层和注意力机制网络中;
利用全连接层拼接预设数量个卷积核的处理结果,并将拼接后的处理结果输入到卷积神经网络中,利用卷积神经网络将输入均匀的分割成预设数量的张量块,对每个张量块利用不同的卷积核进行处理,对卷积神经网络的输出进行拼接;
将输入的预设数量个卷积核的处理结果分别作为注意力机制网络的请求Query、键Key和值Value,利用Query和Key计算注意力矩阵,并利用所述注意力矩阵和Value进行矩阵乘法计算得到注意力特征矩阵,对注意力机制网络的输出进行拼接;
基于对卷积神经网络的输出和注意力机制网络的输出的预设权值,加权求和得到最终的运动信息压缩网络的输出。
7.根据权利要求5所述的方法,其特征在于,所述运动信息编码器还包含第二运动信息提取单元,第二运动信息提取单元包含光流模型、卷积层和广义除法归一化函数;
所述运动信息提取单元基于输入提取子运动信息的步骤还包括:
将原始分辨率的第二类待压缩帧和参考帧输入到第二运动信息提取单元以提取原始分辨率的运动信息,将第二运动信息提取单元提取的原始分辨率的运动信息先后经过卷积层和广义除法归一化函数处理,得到第二运动信息提取单元提取的子运动信息。
8.根据权利要求5所述的方法,其特征在于,所述运动信息编码器还包含第三运动信息提取单元,第三运动信息提取单元包含大小为1×1的卷积核、自注意力机制网络和卷积层;
所述运动信息提取单元基于输入提取子运动信息的步骤还包括:
将参考帧输入到1×1的卷积核中,并将1×1的卷积核的输出作为自注意力机制网络的键Key和值Value,将原始分辨率的第二类待压缩帧输入到又一1×1的卷积核中,并将所述又一1×1的卷积核的输出作为自注意力机制网络的请求Query,将基于如上Key、Value和Query的自注意力机制网络的输出输入到卷积层进行处理,得到第三运动信息提取单元提取的子运动信息。
9.一种基于注意力机制的视频压缩系统,包括处理器和存储器,其特征在于,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该系统实现如权利要求1至8中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至8中任一项所述方法的步骤。
CN202310937014.5A 2023-07-27 2023-07-27 一种基于注意力机制的视频压缩方法和系统 Pending CN117061760A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310937014.5A CN117061760A (zh) 2023-07-27 2023-07-27 一种基于注意力机制的视频压缩方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310937014.5A CN117061760A (zh) 2023-07-27 2023-07-27 一种基于注意力机制的视频压缩方法和系统

Publications (1)

Publication Number Publication Date
CN117061760A true CN117061760A (zh) 2023-11-14

Family

ID=88652723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310937014.5A Pending CN117061760A (zh) 2023-07-27 2023-07-27 一种基于注意力机制的视频压缩方法和系统

Country Status (1)

Country Link
CN (1) CN117061760A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117750021A (zh) * 2024-02-19 2024-03-22 北京铁力山科技股份有限公司 一种视频压缩方法、装置、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117750021A (zh) * 2024-02-19 2024-03-22 北京铁力山科技股份有限公司 一种视频压缩方法、装置、计算机设备及存储介质
CN117750021B (zh) * 2024-02-19 2024-04-30 北京铁力山科技股份有限公司 一种视频压缩方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN113673307B (zh) 一种轻量型的视频动作识别方法
Zhang et al. Image restoration: From sparse and low-rank priors to deep priors [lecture notes]
Wang et al. Domain adaptation for underwater image enhancement
CN116664450A (zh) 基于扩散模型的图像增强方法、装置、设备及存储介质
CN117061760A (zh) 一种基于注意力机制的视频压缩方法和系统
CN116205962B (zh) 基于完整上下文信息的单目深度估计方法及系统
CN116600119B (zh) 视频编码、解码方法、装置、计算机设备和存储介质
Tang et al. AutoEnhancer: Transformer on U-Net architecture search for underwater image enhancement
CN117408924A (zh) 一种基于多重语义特征融合网络的低光照图像增强方法
CN113902647B (zh) 一种基于双闭环网络的图像去模糊方法
Zhuang et al. Ucsnet: Priors guided adaptive compressive sensing framework for underwater images
Ren et al. A lightweight object detection network in low-light conditions based on depthwise separable pyramid network and attention mechanism on embedded platforms
Jaisurya et al. Attention-based single image dehazing using improved cyclegan
Peng et al. RAUNE-Net: A Residual and Attention-Driven Underwater Image Enhancement Method
Xing et al. Improved shallow-uwnet for underwater image enhancement
CN116433516A (zh) 一种基于注意力机制的低照度图像去噪增强方法
Bhat et al. Underwater Image Enhancement with Feature Preservation using Generative Adversarial Networks (UIEFP GAN)
Ertan et al. Enhancement of underwater images with artificial intelligence
CN114549302A (zh) 一种图像超分辨率重建方法及系统
Li et al. Image Defogging Algorithm Based on Dual-Stream Skip Connections
Braun et al. Optical flow for compressive sensing video reconstruction
Mao et al. Aggregating Global and Local Representations via Hybrid Transformer for Video Deraining
CN117061824B (zh) 流媒体视频补帧方法、装置及计算机设备
CN118155105B (zh) 一种无人机山区救援方法、系统、介质及电子设备
Liu et al. Feature fusion attention network for underwater image enhancement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination