CN114095728B - 一种端到端的视频压缩方法、装置和计算机可读存储介质 - Google Patents
一种端到端的视频压缩方法、装置和计算机可读存储介质 Download PDFInfo
- Publication number
- CN114095728B CN114095728B CN202210074408.8A CN202210074408A CN114095728B CN 114095728 B CN114095728 B CN 114095728B CN 202210074408 A CN202210074408 A CN 202210074408A CN 114095728 B CN114095728 B CN 114095728B
- Authority
- CN
- China
- Prior art keywords
- feature map
- decoding
- frame image
- model
- entropy coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/13—Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
- H04N19/91—Entropy coding, e.g. variable length coding [VLC] or arithmetic coding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本申请公开了一种端到端的视频压缩方法、装置和计算机可读存储介质,该方法包括:获取待处理视频数据中每帧图像的特征图;采用时域熵编解码策略、多尺度熵编解码策略以及注意力熵编解码策略中的至少一种对特征图进行编码,得到压缩数据;其中,时域熵编解码策略为采用基于时域的熵编解码模型对当前帧图像的特征图以及当前帧图像的时域相关帧图像的特征图进行编码处理,生成当前帧图像的压缩数据;多尺度熵编解码策略为采用基于多尺度超先验模型的熵编解码模型对特征图进行编码和/或熵编解码模型包括至少两个概率分布模型;注意力熵编解码策略为采用基于注意力模型的熵编解码模型对特征图进行编码。通过上述方式,本申请能够提高视频的压缩率。
Description
技术领域
本申请涉及视频编解码技术领域,具体涉及一种端到端的视频压缩方法、装置和计算机可读存储介质。
背景技术
深度学习可以应用于视频压缩领域中,形成以深度神经网络为视频编码核心的端到端深度视频压缩方案,该方案充分利用了神经网络强大的非线性表达能力以及端到端联合优化的优势,但是该视频压缩方案中所采用的熵编解码模型存在一些弊端,导致压缩率不高。
发明内容
本申请提供一种端到端的视频压缩方法、装置和计算机可读存储介质,能够提高视频的压缩率。
为解决上述技术问题,本申请采用的技术方案是:提供一种端到端的视频压缩方法,该方法包括:获取待处理视频数据中每帧图像的特征图;采用时域熵编解码策略、多尺度熵编解码策略以及注意力熵编解码策略中的至少一种对特征图进行编码,得到压缩数据;其中,时域熵编解码策略为采用基于时域的熵编解码模型对当前帧图像的特征图以及当前帧图像的时域相关帧图像的特征图进行编码处理,生成当前帧图像的压缩数据;多尺度熵编解码策略为采用基于多尺度超先验模型的熵编解码模型对特征图进行编码和/或熵编解码模型包括至少两个概率分布模型;注意力熵编解码策略为采用基于注意力模型的熵编解码模型对特征图进行编码。
为解决上述技术问题,本申请采用的另一技术方案是:提供一种视频压缩装置,该视频压缩装置包括互相连接的存储器和处理器,其中,存储器用于存储计算机程序,计算机程序在被处理器执行时,用于实现上述技术方案中的端到端的视频压缩方法。
为解决上述技术问题,本申请采用的另一技术方案是:提供一种计算机可读存储介质,该计算机可读存储介质用于存储计算机程序,计算机程序在被处理器执行时,用于实现上述技术方案中的端到端的视频压缩方法。
通过上述方案,本申请的有益效果是:先获取待处理视频数据,然后对待处理视频数据中的每帧图像进行特征提取处理,得到相应的特征图;然后采用时域熵编解码策略、多尺度熵编解码策略以及注意力熵编解码策略中的至少一种对特征图进行编码,得到压缩数据;时域熵编解码策略为采用基于时域的熵编解码模型对当前帧图像的特征图以及当前帧图像的时域相关帧图像的特征图进行编码处理,生成当前帧图像的压缩数据;多尺度熵编解码策略为采用基于多尺度超先验模型的熵编解码模型对特征图进行编码和/或熵编解码模型包括至少两个概率分布模型;注意力熵编解码策略为采用基于注意力模型的熵编解码模型对特征图进行编码;由于采用多种编码策略来构建熵编解码模型,考虑了其他帧图像对当前帧图像的影响以去除时域冗余信息,引入了注意力机制对特征的重要性进行区分以提升编码的性能,还采用多尺度的超先验模型来调整预测效果,通过将多种编码策略结合有助于提升视频的压缩率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请提供的端到端的视频压缩方法一实施例的流程示意图;
图2是本申请提供的通道注意力模型的结构示意图;
图3是本申请提供的空域注意力模型的结构示意图;
图4是图3中空域注意力模型的非局部网络模型的结构示意图;
图5是本申请提供的基于时域注意力模型进行视频压缩的流程示意图;
图6是本申请提供的基于时域注意力模型的时域熵模型的结构示意图;
图7是本申请提供的基于LSTM/RNN的时域熵模型的结构示意图;
图8是本申请提供的基于混合概率分布模型进行视频压缩的流程示意图;
图9是本申请提供的基于混合概率分布模型的多尺度超先验熵模型的结构示意图;
图10是本申请提供的基于多尺度超先验模型的多尺度超先验熵模型的结构示意图;
图11是本申请提供的视频压缩装置一实施例的结构示意图;
图12是本申请提供的计算机可读存储介质一实施例的结构示意图。
具体实施方式
下面结合附图和实施例,对本申请作进一步的详细描述。特别指出的是,以下实施例仅用于说明本申请,但不对本申请的范围进行限定。同样的,以下实施例仅为本申请的部分实施例而非全部实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
需要说明的是,本申请中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,图1是本申请提供的端到端的视频压缩方法一实施例的流程示意图,该方法包括:
S11:获取待处理视频数据中每帧图像的特征图。
可先采用摄像设备(比如:相机)对当前监控场景进行拍摄,得到待处理视频数据,或者从视频数据库中获取待处理视频数据,该待处理视频数据包括多帧图像;采用相关技术中的特征提取方法对每一帧图像或者间隔预设帧图像进行特征提取处理,得到相应的特征图。
S12:采用时域熵编解码策略、多尺度熵编解码策略以及注意力熵编解码策略中的至少一种对特征图进行编码,得到压缩数据。
时域熵编解码策略为采用基于时域的熵编解码模型对当前帧图像的特征图以及当前帧图像的时域相关帧图像的特征图进行编码处理,生成当前帧图像的压缩数据;多尺度熵编解码策略为采用基于多尺度超先验模型的熵编解码模型对特征图进行编码和/或熵编解码模型包括至少两个概率分布模型;注意力熵编解码策略为采用基于注意力模型的熵编解码模型对特征图进行编码。
进一步地,可采用时域熵编解码策略与多尺度熵编解码策略,对当前帧图像的特征图进行编码处理,得到当前帧图像的压缩数据(即码流);或者,采用时域熵编解码策略与注意力熵编解码策略,对当前帧图像的特征图进行编码处理;或者,采用多尺度熵编解码策略与注意力熵编解码策略,对当前帧图像的特征图进行编码处理;或者,采用时域熵编解码策略、多尺度熵编解码策略以及注意力熵编解码策略,对当前帧图像的特征图进行编码处理。下面对时域熵编解码策略、多尺度熵编解码策略以及注意力熵编解码策略进行详细描述。
(一)基于注意力模型的熵编解码模型(记作注意力熵模型)
相关技术中的熵编解码模型并未考虑网络中不同通道/位置的特征的重要程度,但是实际上一张图像中不同通道/位置处的特征对人眼来说重要程度是不同的,网络中后面的层更应该注重前面层中的重要信息,抑制不重要的信息。基于此,本实施例在熵编解码模型中加入注意力模型来提升模型的性能。
注意力熵模型包括多个卷积层,注意力模型设置于多个卷积层中的一个卷积层的后面,注意力模型可以为空域注意力模型、通道注意力模型或自注意力模型。
进一步地,自注意力模型可参考变换器(Transformer)网络的结构进行设计,此处不再列举;通道注意力模型的结构如图2所示,其中,“Reshape”为调整维度的函数,“Transpose”为转置函数;空域注意力模型的网络结构如图3所示,其中,NLN为非局部网络(Non-local Network)模型,用来获取图像中局部和全局的关系,NLN模型的典型结构如图4所示,其中,“1×1”代表卷积核为1×1的卷积层,“+”为相加操作,H、W以及C分别为输入特征图的高度、宽度以及通道数,g为映射函数,θ与φ为超参数,softmax为逻辑回归函数。
上述注意力模型可以灵活地插入多尺度超先验熵模型或者时域熵模型中的卷积神经网络中,注意力模型的位置是不固定的,从而形成多种形式的网络结构。
可以理解地,图2与图4所示的模型仅为注意力熵模型的一些实施方式,在具体的应用中,注意力熵模型还可以为其他形式。
相关技术中的熵编解码模型认为网络中每层不同特征的重要性相同;本实施例引入注意力机制,对特征从不同维度来区分重要性,从而获取图像中局部特征和全局特征的关系,有助于改善编码效果。
(二)基于时域的熵编解码模型(记作时域熵模型)
相关技术中一般采用空域信息构建熵编解码模型,不考虑帧与帧之间的时域相关性,本实施例参考已编码帧的信息来建立当前帧图像的熵编解码模型,从而进一步去除时域冗余,减少编码的比特数。
在一具体的实施例中,可以采用时域注意力模型对相邻帧的信息进行融合并编码,具体采用的方案如图5所示,包括以下步骤:
S51:对当前帧图像的特征图与时域相关帧图像的特征图进行融合,得到融合特征图。
时域相关帧图像包括当前帧图像的前第一预设数量帧图像和/或后第二预设数量帧图像中的至少一帧图像;具体地,第一预设数量与第二预设数量可以根据具体应用需要或经验进行设置,第一预设数量与第二预设数量可以相同;例如,假设当前帧图像的帧数记作第n帧,时域相关帧图像的帧数可以为一帧,比如:第(n-2)帧图像、第(n-1)帧图像或第(n+1)图像,或者,时域相关帧图像的帧数为两帧,如:第(n-1)帧图像与第(n+1)图像。
在获取到当前帧图像的特征图以及时域相关帧图像的特征图后,采用相关技术中的特征融合方法对这些特征图进行融合,从而得到融合后的特征图(记作融合特征图)。
S52:基于融合特征图,估计当前帧图像的概率分布信息。
在获取到融合特征图后,利用相关技术中的概率分布模型对融合特征图进行估计,得到相应的概率分布信息;具体地,可采用不同的概率分布模型来近似像素的概率分布,例如:单高斯模型、混合高斯模型、拉普拉斯模型或逻辑回归模型等。
S53:基于概率分布信息对当前帧图像的特征图进行熵编码,得到当前帧图像的压缩数据。
在获取到概率分布信息后,采用相关技术中的方案基于概率分布信息与时域相关帧图像的特征图,对当前帧图像的特征图进行算数编码,得到当前帧图像对应的码流。
在一实施方式中,以时域相关帧图像的帧数为一帧为例,该时域相关帧图像为当前帧图像的前一帧,时域熵模型的具体网络结构如图6所示,其中,“×”为相乘操作,“D”表示点乘操作,“S”表示sigmoid函数,μ为概率分布信息的均值,σ为概率分布信息的标准差。
进一步地,先将当前帧图像的特征图与时域相关帧图像的特征图分别输入卷积神经网络,得到第一特征图与第二特征图;将第一特征图与第二特征图相乘,得到第三特征图;然后采用sigmoid函数对第三特征图进行激活处理,得到第四特征图;将当前帧图像的特征图与第四特征图相乘,得到融合特征图;计算出融合特征图的概率分布信息;利用该概率分布信息对当前帧特征图进行算数编码,得到当前帧图像对应的码流。
在另一具体的实施例中,采用循环模型对当前帧图像的特征图与时域相关帧图像的特征图进行处理,得到第五特征图,循环模型包括循环神经网络(Recurrent NeuralNetwork,RNN)或长短期记忆网络(Long Short Term Mermory Network,LSTM);采用卷积神经网络对第五特征图进行处理,得到第六特征图;基于第六特征图,估计当前帧图像的概率分布信息;基于概率分布信息对当前帧图像的特征图进行熵编码处理,得到当前帧图像的压缩数据。
在一实施方式中,采用RNN/LSTM网络实现时域熵模型,具体的网络结构如图7所示,RNN/LSTM网络的输入可以是单帧/多帧特征图,也可以是单向或双向的,具体与当前帧图像与已编码帧的参考关系有关,如图7中的虚线所示;图7以时域相关帧图像的帧数为一帧为例进行说明,其中,卷积神经网络可采用若干卷积层实现,例如,几个大小为3×3(或5×5等)的卷积层,也可在LSTM/RNN网络之前接入卷积神经网络;概率分布模型的构建过程中可采用卷积层的串联实现,如:普通卷积层或带掩膜的3维(Dimension,D)卷积层等。
可以理解地,图6与图7所示的网络结构仅为时域熵模型的一些实施方式,在具体的应用中,时域熵模型还可以为其他形式。
相关技术中一般根据当前帧像素的概率分布情况构建熵编解码模型,不考虑时域信息,本实施例所提供的方案考虑了其他帧图像对当前帧图像的影响,可进一步去除时域上的冗余信息,减少编码的比特数,即提高压缩率。
在另一实施方式中,除了单独采用上述的时域熵模型对当前帧图像进行压缩之外,还可以将注意力熵编解码策略与时域熵编解码策略进行结合,得到混合熵模型,该混合熵模型的主要架构为时域熵模型,且在时域熵模型中的至少一个卷积层的后面插入自注意力模型,该混合熵模型综合了注意力熵编解码策略与时域熵编解码策略的优势,相比仅采用注意力熵编解码策略的方案来说,能够进一步提升压缩率,改善压缩效果。
(三)基于多尺度超先验模型或多概率分布模型(记作混合概率分布模型)的熵编解码模型(记作多尺度超先验熵模型)
相关技术中的熵编解码模型采用超先验结构,来去除掉图像中的结构冗余;本实施例使用多个尺度或多个概率分布模型的超先验模型,来进一步压缩码流。
在一具体的实施例中,可以考虑不同的概率分布模型来构建熵编解码模型,提升概率预测的准确性,减少码字长度,具体方案如图8所示,包括以下步骤:
S81:对当前帧图像的特征图进行拆分处理,得到至少两个子特征图。
可以采用sigmoid函数对当前帧图像的特征图进行拆分处理。
S82:基于至少两个概率分布模型分别对至少两个子特征图进行处理,得到相应的子概率分布信息。
每个概率分布模型对应一个子特征图,使用概率分布模型对其对应的子特征图进行预测,便可得到子概率分布信息。
S83:对所有子概率分布信息进行串联,得到当前帧图像的概率分布信息。
将所有子概率分布信息拼接在一起,得到拼接后的概率分布信息。
S84:基于概率分布信息对当前帧图像的特征图进行熵编码处理,生成当前帧图像的压缩数据。
采用算数编码方法基于当前帧图像的概率分布信息对当前帧图像的特征图进行编码,得到相应的压缩数据。
在一实施方式中,如图9所示,假设当前图像的帧数为n,至少两个概率分布模型包括第一概率分布模型与第二概率分布模型,其中,“S”代表sigmoid函数,采用以下方案来生成压缩数据:
1)对当前帧图像的特征图进行拆分处理,得到第一子特征图与第二子特征图。
采用sigmoid函数对输入的第n帧特征图进行处理,经过此步骤,第n帧特征图沿着通道的维度被切分为两部分:第一子特征图与第二子特征图。
2)分别对第一子特征图与第二子特征图进行量化,得到第三子特征图与第四子特征图;采用串联层1对第三子特征图与第四子特征图进行拼接处理,得到第七特征图。
3)采用超先验编码模型对第七特征图进行编码处理,得到第一编码结果。
4)对第一编码结果进行解码处理,得到第一解码结果。
如图9所示,对第一编码结果进行熵编码,得到二进制码流;对该二进制码流进行熵解码,得到第一解码结果。
5)采用超先验解码模型对第一解码结果进行解码,得到第二解码结果。
6)对第二解码结果进行拆分处理,得到第五子特征图与第六子特征图。
采用sigmoid函数对第二解码结果进行拆分处理,生成第五子特征图与第六子特征图。
7)采用第一概率分布模型对第三子特征图与第五子特征图进行处理,得到第一子概率分布信息;采用第二概率分布模型对第四子特征图与第六子特征图进行处理,得到第二子概率分布信息。
第一概率分布模型和第二概率分布模型可以采用不同的模型组合,例如:零均值高斯模型+混合高斯模型、零均值高斯模型+拉普拉斯模型或逻辑回归模型+拉普拉斯模型等。
8)采用串接层2对第一子概率分布信息与第二子概率分布信息进行拼接处理,得到概率分布信息。
串接层1与串接层2为相关技术中的实现特征拼接的算法。
9)基于概率分布信息对当前帧图像的特征图进行熵编码处理,生成当前帧图像的压缩数据。
本实施例通过将两种或两种以上的不同的概率分布模型进行组合,来近似像素值的实际分布,能够提高概率预测的准确性,减少码字长度。
在另一具体的实施方式中,多尺度超先验熵模型通过级联多个超先验模型对码流进行多层次的压缩,降低结构冗余;具体地,多尺度超先验熵模型的网络结构如图10所示,多尺度超先验熵模型包括多尺度超先验模型,多尺度超先验模型包括至少两个超先验编码模型以及与超先验编码模型对应的超先验解码模型,超先验编码模型与超先验解码模型一一对应,可基于超先验编码模型对当前帧图像的特征图进行编码处理,得到第二编码结果;对第二编码结果进行编解码处理,得到第二解码结果;基于超先验解码模型对第二解码结果进行解码处理,得到第八特征图;基于第八特征图,生成当前帧图像的压缩数据;可以理解地,超先验模型的数量可以根据网络的复杂程度进行添加或移除。
可以理解地,图9与图10所示的网络结构仅为多尺度超先验熵模型的几种可行实施方式,在具体的应用中,多尺度超先验熵模型还可以为其他形式,比如:将图9与图10中的模型进行结合,即采用多尺度的超先验模型与混合概率分布模型来对当前帧图像的特征图进行编解码处理。
相关技术中的熵编解码模型采用单一超先验结构,本实施例采用了多尺度超先验结构,并可结合不同的概率分布模型构建待编码块的熵编解码模型,能够提高概率分布模型的准确性。
在其他实施方式中,除了单独采用上述的多尺度熵编解码策略对当前帧图像进行压缩之外,还可以将注意力熵编解码策略与多尺度熵编解码策略进行结合,得到混合熵模型,该混合熵模型的主要架构为多尺度超先验熵模型,且在该多尺度超先验熵模型中的至少一个卷积层的后面插入自注意力模型,该混合熵模型综合了注意力熵编解码策略与多尺度熵编解码策略的优势,相比仅采用注意力熵编解码策略或多尺度熵编解码策略的方案来说,能够进一步提升压缩率。或者,还可将时域熵编解码策略与多尺度熵编解码策略进行结合,得到混合熵模型,该混合熵模型综合了时域熵模型与多尺度熵编解码策略的优势,相比仅采用熵编解码策略或多尺度熵编解码策略的方案来说,能够进一步提升压缩率。或者,将时域熵模型、多尺度熵编解码策略以及自注意力模型进行结合,得到混合熵模型,该混合熵模型综合了时域熵编解码策略、多尺度熵编解码策略以及注意力熵编解码策略的优势,相比上述采用两种熵编解码策略的方案来说,能够进一步改善压缩效果。
综上所述,上述实施例中的三个模型可以相互组合,从而形成多套方案;例如,时域熵模型中可以引入多尺度超先验模型或注意力模型等;多尺度超先验模型不仅可以用于构建时域熵模型,也可在空域熵编解码模型中使用;注意力模型同样也可以插入到不同的熵编解码模型结构中。
本实施例提出了一种基于深度神经网络的熵编解码方法,从时域角度、多尺度超先验角度及注意力机制角度出发,构建出更有效的熵编解码模型,该方案能够内置于端到端的视频压缩框架或混合框架中,以此提升编码压缩率。
请参阅图11,图11是本申请提供的视频压缩装置一实施例的结构示意图,视频压缩装置110包括互相连接的存储器111和处理器112,存储器111用于存储计算机程序,计算机程序在被处理器112执行时,用于实现上述实施例中的端到端的视频压缩方法。
请参阅图12,图12是本申请提供的计算机可读存储介质一实施例的结构示意图,计算机可读存储介质120用于存储计算机程序121,计算机程序121在被处理器执行时,用于实现上述实施例中的端到端的视频压缩方法。
计算机可读存储介质120可以是服务端、U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请所提供的几个实施方式中,应该理解到,所揭露的方法以及设备,可以通过其它的方式实现。例如,以上所描述的设备实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (8)
1.一种端到端的视频压缩方法,其特征在于,包括:
获取待处理视频数据中每帧图像的特征图;
采用多尺度熵编解码策略对所述特征图进行编码,得到压缩数据;或,采用时域熵编解码策略和多尺度熵编解码策略对所述特征图进行编码,得到压缩数据;或,采用时域熵编解码策略、多尺度熵编解码策略以及注意力熵编解码策略对所述特征图进行编码,得到压缩数据;其中:
所述时域熵编解码策略为采用基于时域的熵编解码模型对当前帧图像的特征图以及所述当前帧图像的时域相关帧图像的特征图进行编码处理,生成所述当前帧图像的压缩数据;所述时域相关帧图像包括所述当前帧图像的前第一预设数量帧图像和/或后第二预设数量帧图像中的至少一帧图像;
所述多尺度熵编解码策略为采用基于多尺度超先验模型的熵编解码模型对所述特征图进行编码和/或熵编解码模型包括至少两个概率分布模型;
所述注意力熵编解码策略为采用基于注意力模型的熵编解码模型对所述特征图进行编码;
其中,在所述多尺度熵编解码策略为熵编解码模型包括至少两个概率分布模型时,对所述当前帧图像的特征图进行拆分处理,得到至少两个子特征图;基于所述至少两个概率分布模型分别对所述至少两个子特征图进行处理,得到相应的子概率分布信息;对所有所述子概率分布信息进行串联,得到所述当前帧图像的概率分布信息;基于所述概率分布信息对所述当前帧图像的特征图进行熵编码处理,生成所述当前帧图像的压缩数据;
在所述多尺度熵编解码策略为采用基于多尺度超先验模型的熵编解码模型对所述特征图进行编码时,所述多尺度超先验模型包括至少两个超先验编码模型以及与所述超先验编码模型对应的超先验解码模型,基于所述超先验编码模型对所述当前帧图像的特征图进行编码处理,得到第二编码结果;对所述第二编码结果进行编解码处理,得到第二解码结果;基于所述超先验解码模型对所述第二解码结果进行解码处理,得到第八特征图;基于所述第八特征图,生成所述当前帧图像的压缩数据。
2.根据权利要求1所述的端到端的视频压缩方法,其特征在于,所述方法还包括:
对所述当前帧图像的特征图与所述时域相关帧图像的特征图进行融合,得到融合特征图;
基于所述融合特征图,估计所述当前帧图像的概率分布信息;
基于所述概率分布信息对所述当前帧图像的特征图进行熵编码,得到所述当前帧图像的压缩数据。
3.根据权利要求2所述的端到端的视频压缩方法,其特征在于,所述对所述当前帧图像的特征图与所述时域相关帧图像的特征图进行融合,得到融合特征图的步骤,包括:
将所述当前帧图像的特征图与所述时域相关帧图像的特征图分别输入卷积神经网络,得到第一特征图与第二特征图;
将所述第一特征图与第二特征图相乘,得到第三特征图;
对所述第三特征图进行激活处理,得到第四特征图;
将所述当前帧图像的特征图与所述第四特征图相乘,得到所述融合特征图。
4.根据权利要求1所述的端到端的视频压缩方法,其特征在于,所述方法还包括:
采用循环模型对所述当前帧图像的特征图与所述时域相关帧图像的特征图进行处理,得到第五特征图,所述循环模型包括循环神经网络或长短期记忆网络;
采用卷积神经网络对所述第五特征图进行处理,得到第六特征图;
基于所述第六特征图,估计所述当前帧图像的概率分布信息;
基于所述概率分布信息对所述当前帧图像的特征图进行熵编码处理,得到所述当前帧图像的压缩数据。
5.根据权利要求4所述的端到端的视频压缩方法,其特征在于,所述至少两个概率分布模型包括第一概率分布模型与第二概率分布模型,所述方法还包括:
对所述当前帧图像的特征图进行拆分处理,得到第一子特征图与第二子特征图;
分别对所述第一子特征图与所述第二子特征图进行量化,得到第三子特征图与第四子特征图;
对所述第三子特征图与所述第四子特征图进行拼接处理,得到第七特征图;
采用超先验编码模型对所述第七特征图进行编码处理,得到第一编码结果;
对所述第一编码结果进行解码处理,得到第一解码结果;
采用超先验解码模型对所述第一解码结果进行解码,得到第二解码结果;
对所述第二解码结果进行拆分处理,得到第五子特征图与第六子特征图;
采用所述第一概率分布模型对所述第三子特征图与所述第五子特征图进行处理,得到第一子概率分布信息;
采用所述第二概率分布模型对所述第四子特征图与所述第六子特征图进行处理,得到第二子概率分布信息;
对所述第一子概率分布信息与所述第二子概率分布信息进行拼接处理,得到概率分布信息;
基于所述概率分布信息,生成所述当前帧图像的压缩数据。
6.根据权利要求1所述的端到端的视频压缩方法,其特征在于,
所述熵编解码模型包括多个卷积层,所述注意力模型设置于所述多个卷积层中的一个卷积层的后面,所述注意力模型为空域注意力模型、通道注意力模型或自注意力模型。
7.一种视频压缩装置,其特征在于,包括互相连接的存储器和处理器,其中,所述存储器用于存储计算机程序,所述计算机程序在被所述处理器执行时,用于实现权利要求1-6中任一项所述的端到端的视频压缩方法。
8.一种计算机可读存储介质,用于存储计算机程序,其特征在于,所述计算机程序在被处理器执行时,用于实现权利要求1-6中任一项所述的端到端的视频压缩方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210074408.8A CN114095728B (zh) | 2022-01-21 | 2022-01-21 | 一种端到端的视频压缩方法、装置和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210074408.8A CN114095728B (zh) | 2022-01-21 | 2022-01-21 | 一种端到端的视频压缩方法、装置和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114095728A CN114095728A (zh) | 2022-02-25 |
CN114095728B true CN114095728B (zh) | 2022-07-15 |
Family
ID=80309057
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210074408.8A Active CN114095728B (zh) | 2022-01-21 | 2022-01-21 | 一种端到端的视频压缩方法、装置和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114095728B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005223852A (ja) * | 2004-02-09 | 2005-08-18 | Sanyo Electric Co Ltd | 画像符号化装置および方法、ならびに画像復号装置および方法 |
CN109996071A (zh) * | 2019-03-27 | 2019-07-09 | 上海交通大学 | 基于深度学习的可变码率图像编码、解码系统及方法 |
CN110062239A (zh) * | 2019-03-18 | 2019-07-26 | 杭州师范大学 | 一种用于视频编码的参考帧选择方法及装置 |
CN110781893A (zh) * | 2019-09-24 | 2020-02-11 | 浙江大华技术股份有限公司 | 特征图的处理方法、图像处理方法、装置以及存储介质 |
CN111815606A (zh) * | 2020-07-09 | 2020-10-23 | 浙江大华技术股份有限公司 | 图像质量评估方法、存储介质及计算装置 |
CN111815639A (zh) * | 2020-07-03 | 2020-10-23 | 浙江大华技术股份有限公司 | 目标分割方法及其相关装置 |
CN112970256A (zh) * | 2018-09-14 | 2021-06-15 | 皇家Kpn公司 | 基于经全局运动补偿的运动矢量的视频编码 |
CN113014927A (zh) * | 2021-03-02 | 2021-06-22 | 三星(中国)半导体有限公司 | 图像压缩方法和图像压缩装置 |
CN113545037A (zh) * | 2019-03-11 | 2021-10-22 | 腾讯美国有限责任公司 | 视频码流中自适应图片尺寸的信令 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11257254B2 (en) * | 2018-07-20 | 2022-02-22 | Google Llc | Data compression using conditional entropy models |
CN111818346B (zh) * | 2019-04-11 | 2023-04-18 | 富士通株式会社 | 图像编码方法和装置、图像解码方法和装置 |
CN111405283B (zh) * | 2020-02-20 | 2022-09-02 | 北京大学 | 基于深度学习的端到端视频压缩方法、系统及存储介质 |
-
2022
- 2022-01-21 CN CN202210074408.8A patent/CN114095728B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005223852A (ja) * | 2004-02-09 | 2005-08-18 | Sanyo Electric Co Ltd | 画像符号化装置および方法、ならびに画像復号装置および方法 |
CN112970256A (zh) * | 2018-09-14 | 2021-06-15 | 皇家Kpn公司 | 基于经全局运动补偿的运动矢量的视频编码 |
CN113545037A (zh) * | 2019-03-11 | 2021-10-22 | 腾讯美国有限责任公司 | 视频码流中自适应图片尺寸的信令 |
CN110062239A (zh) * | 2019-03-18 | 2019-07-26 | 杭州师范大学 | 一种用于视频编码的参考帧选择方法及装置 |
CN109996071A (zh) * | 2019-03-27 | 2019-07-09 | 上海交通大学 | 基于深度学习的可变码率图像编码、解码系统及方法 |
CN110781893A (zh) * | 2019-09-24 | 2020-02-11 | 浙江大华技术股份有限公司 | 特征图的处理方法、图像处理方法、装置以及存储介质 |
CN111815639A (zh) * | 2020-07-03 | 2020-10-23 | 浙江大华技术股份有限公司 | 目标分割方法及其相关装置 |
CN111815606A (zh) * | 2020-07-09 | 2020-10-23 | 浙江大华技术股份有限公司 | 图像质量评估方法、存储介质及计算装置 |
CN113014927A (zh) * | 2021-03-02 | 2021-06-22 | 三星(中国)半导体有限公司 | 图像压缩方法和图像压缩装置 |
Non-Patent Citations (2)
Title |
---|
H.265技术引领高清时代的到来;徐旺;《中国公共安全(综合版)》;20180914;全文 * |
基于深度卷积神经网络的信息流增强图像压缩方法;李志军等;《吉林大学学报(工学版)》;20200915(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114095728A (zh) | 2022-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110933429B (zh) | 基于深度神经网络的视频压缩感知与重构方法和装置 | |
US10965948B1 (en) | Hierarchical auto-regressive image compression system | |
CN111263161B (zh) | 视频压缩处理方法、装置、存储介质和电子设备 | |
EP3885966B1 (en) | Method and device for generating natural language description information | |
US11983906B2 (en) | Systems and methods for image compression at multiple, different bitrates | |
CN112565777B (zh) | 基于深度学习模型视频数据传输方法、系统、介质及设备 | |
CN116342884B (zh) | 图像分割及模型训练的方法、服务器 | |
CN116233445B (zh) | 视频的编解码处理方法、装置、计算机设备和存储介质 | |
WO2023077707A1 (zh) | 视频编码方法、模型训练方法、设备和存储介质 | |
Ding et al. | A deep learning approach for quality enhancement of surveillance video | |
CN112584158B (zh) | 视频质量增强方法和系统 | |
CN114328898A (zh) | 文本摘要生成方法及其装置、设备、介质、产品 | |
CN115988215A (zh) | 可变码率图像压缩方法、系统、装置、终端及存储介质 | |
US20240242467A1 (en) | Video encoding and decoding method, encoder, decoder and storage medium | |
CN114095728B (zh) | 一种端到端的视频压缩方法、装置和计算机可读存储介质 | |
CN112702607A (zh) | 一种基于光流决策的智能视频压缩方法及装置 | |
US20240223817A1 (en) | Video compression using optical flow | |
CN113542780B (zh) | 一种网络直播视频的压缩伪影去除方法及装置 | |
US20220377342A1 (en) | Video encoding and video decoding | |
CN112668504A (zh) | 动作识别方法、装置及电子设备 | |
EP4412204A1 (en) | Encoding method, decoding method, bitstream, encoder, decoder, storage medium, and system | |
CN116634178B (zh) | 一种极低码率的安防场景监控视频编解码方法及系统 | |
US20230262237A1 (en) | System and methods for video analysis | |
CN114140363B (zh) | 视频去模糊方法及装置、视频去模糊模型训练方法及装置 | |
WO2024093627A1 (zh) | 一种视频压缩方法、视频解码方法和相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |