CN114374846B - 视频压缩方法、装置、设备及存储介质 - Google Patents
视频压缩方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114374846B CN114374846B CN202210021487.6A CN202210021487A CN114374846B CN 114374846 B CN114374846 B CN 114374846B CN 202210021487 A CN202210021487 A CN 202210021487A CN 114374846 B CN114374846 B CN 114374846B
- Authority
- CN
- China
- Prior art keywords
- frame data
- characteristic
- reconstructed
- video
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007906 compression Methods 0.000 title claims abstract description 68
- 230000006835 compression Effects 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012545 processing Methods 0.000 claims abstract description 66
- 230000004927 fusion Effects 0.000 claims abstract description 11
- 239000000203 mixture Substances 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 20
- 238000010586 diagram Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 9
- 238000013139 quantization Methods 0.000 description 7
- 230000004075 alteration Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013144 data compression Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
Abstract
本发明提供了一种视频压缩方法、装置、设备及存储介质,涉及图像处理技术领域,包括:获取待处理视频,划分成包含若干连续的帧数据的图像集合;获取一帧数据,获取在前连续的三个帧数据对应的重建帧数据;采用Conv‑LSTM模块基于重建帧数据生成帧数据对应的预测帧数据;对帧数据和预测帧数据进行特征提取,计算残差特征,获得第三特征图;进行图像重建,获得初步重建帧数据;生成差分图像,获得中间重建帧数据;进行融合色差去除,生成帧数据对应的重建帧数据;将重建帧数据依序存储在数据库中,直至获得所有帧数据对应的重建帧数据,获得目标视频;解决现有视频压缩方法需要运动估计和运动补偿,存储量较大,存储空间大,压缩效率较低的问题。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种视频压缩方法、装置、设备及存储介质。
背景技术
一般而言,视频的存储需求是在有限的存储空间上尽可能存储更多的视频,同时视频的质量要尽可能高。很多应用场景对图片和视频有很强的需求。现有的很多视频压缩存储方式可以保证一定时间内的海量视频存储,但是这些视频压缩后恢复出现质量低下,视频中的目标变得模糊,难以追寻等问题,因此,压缩算法备受关注。
近几年来,出现了结合深度学习的混合视频压缩方法。利用传统视频压缩方法中的经典架构和神经网络的强大非线性表达能力,提出端到端视频压缩的深度模型。该方法利用基于学习的光流估计来获得运动信息并重建当前帧,然后采用编码器(auto-encoder)的神经网络来压缩相应的运动和残差信息。
因此,现有技术大多采用进行运动估计获得运动矩阵,把运动矩阵量化、编码并存储,然后恢复出运动矩阵进行运动补偿获得预测图,在恢复时把对应的量恢复,然后做原来相应的运算的逆运算即可重建帧。这种方法的存在的问题主要在于运动估计的量存储很大,由此需要的存储空间较大。
发明内容
为了克服上述技术缺陷,本发明的目的在于提供一种视频压缩方法、装置、设备及存储介质,解决现有视频压缩方法需要运动估计和运动补偿,其存储量较大,需要较大的存储空间,压缩效率较低的问题。
本发明公开了一种视频压缩方法,包括以下:
获取待处理视频,将所述待处理视频划分成包含若干连续的帧数据的图像集合;
从所述图像集合中获取一帧数据,从数据库中获取在所述帧数据前连续的三个帧数据对应的重建帧数据;
采用Conv-LSTM模块基于所述重建帧数据生成所述帧数据对应的预测帧数据;
对所述帧数据和所述预测帧数据进行特征提取,分别生成第一特征图和第二特征图;
计算所述第一特征图和所述第二特征图的残差特征,对所述残差特征进行压缩处理后,与所述第二特征图相加,获得第三特征图;
基于所述第三特征图进行图像重建,获得所述帧数据对应的初步重建帧数据;
基于所述帧数据和所述初步重建帧数据生成差分图像,对所述差分图像进行压缩处理后,与所述初步重建帧数据进行相加,获得中间重建帧数据;
对所述中间重建帧数据进行融合色差去除,生成所述帧数据对应的重建帧数据;
将所述重建帧数据依序存储在所述数据库中,并获取下一帧数据,直至获得所有帧数据对应的重建帧数据,以获得目标视频。
优选地,所述对所述残差特征进行压缩处理,或对所述差分图像进行压缩处理,包括以下:
采用第一编码器对所述残差特征或所述差分图像进行编码,并对编码后的残差特征或差分图像进行量化,获得第一处理数据;
基于所述第一处理数据采用高斯混合模型确定所述第一处理数据对应的特征分布;
采用自编码器根据所述特征分布对所述第一处理数据进行压缩处理。
优选地,所述基于所述第一处理数据采用高斯混合模型确定所述第一处理数据对应的特征分布,包括以下:
对所述第一处理数据进行编码,量化,自编码生成分布参数;
其中,所述分布参数高斯混合模型中各个子模型对应的期望、方差以及在高斯混合模型中发生的概率,每一子模型对应一类别特征;
根据所述分布参数确定所述第一处理数据对应的特征分布。
优选地,所述确定所述第一处理数据对应的特征分布,包括以下:
根据下述公式确定特征分布:
其中,μ为子模型k的期望,σ为子模型k的方差,α为子模型k在高斯混合模型中发生的概率。
优选地,在对编码后的残差特征或差分图像进行量化时,采用先验概率模型对所述残差特征或差分图像的特征分布进行估计,以生成参考分布;
在采用高斯混合模型确定所述第一处理数据对应的特征分布后,基于所述参考分布对所述特征分布进行调整。
优选地,在对编码后的残差特征或差分图像进行量化后,还包括:
对所述编码后的残差特征或差分图像进行熵编码。
优选地,所述基于所述第三特征图进行图像重建,获得所述帧数据对应的初步重建帧数据,包括以下:
采用深度卷积生成对抗网络模型基于所述第三特征图进行图像重建,获得所述帧数据对应的初步重建帧数据。
本发明还包括一种基于Conv-LSTM的视频压缩装置,包括以下:
预处理模块,用于获取待处理视频,将所述待处理视频划分成包含若干连续的帧数据的图像集合;从所述图像集合中获取一帧数据,从数据库中获取在所述帧数据前连续的三个帧数据对应的重建帧数据;
第一处理模块,用于采用Conv-LSTM模块基于所述重建帧数据生成所述帧数据对应的预测帧数据;
特征提取模块,用于对所述帧数据和所述预测帧数据进行特征提取,分别生成第一特征图和第二特征图;
第二处理模块,用于计算所述第一特征图和所述第二特征图的残差特征,对所述残差特征进行压缩处理后,与所述第二特征图相加,获得第三特征图;
重建模块,用于基于所述第三特征图进行图像重建,获得所述帧数据对应的初步重建帧数据;
第三处理模块,用于基于所述帧数据和所述初步重建帧数据生成差分图像,对所述差分图像进行压缩处理后,与所述初步重建帧数据进行相加,获得中间重建帧数据;
第四处理模块,用于对所述中间重建帧数据进行融合色差去除,生成所述帧数据对应的重建帧数据;
执行模块,用于将所述重建帧数据依序存储在所述数据库中,并获取下一帧数据,直至获得所有帧数据对应的重建帧数据,以获得目标视频。
本发明还提供一种计算机设备,所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述视频压缩方法的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述视频压缩方法的步骤。
采用了上述技术方案后,与现有技术相比,具有以下有益效果:
本方案中根据帧数据在先连续三个帧数据的重建帧数据,采用Conv-LSTM模块处理获得所述帧数据的预测帧数据,经过压缩、量化等步骤后,得到初步重建帧,基于该重建帧数据和帧数据的差分图像,得到中间重建帧数据,消除融合色差,得到最终重建帧,基于Conv-LSTM模块的图像预测,免去了运动估计和运动补偿步骤,存储所需空间更少的残差特征,提高了压缩性能,同时,在压缩、量化等步骤,采用高斯混合模型进行特征分布估计,采用DCGAN进行图像重建,可以实现高性能的视频压缩与恢复。
附图说明
图1为本发明所述视频压缩方法实施例一的流程图;
图2为本发明所述视频压缩方法实施例一的处理流程示意图;
图3为本发明所述视频压缩方法实施例一中对所述残差特征进行压缩处理,或对所述差分图像进行压缩处理的流程图;
图4为本发明所述视频压缩方法实施例一Conv-LSTM模块的模型示意图;
图5为本发明所述视频压缩方法实施例一中编码、量化的处理模型示意图;
图6为本发明所述视频压缩方法实施例一中简易生成器的模型示意图;
图7为本发明所述视频压缩装置实施例二的程序模块示意图;
图8为本发明计算机设备实施例三中计算机设备的硬件结构示意图。
附图标记:
10-视频压缩装置;101-预处理模块;102-第一处理模块;103-特征提取模块;104-第二处理模块;105-重建模块;106-第三处理模块;107-第四处理门模块;108-执行模块;11-计算机设备;111-存储器;112-处理器。
具体实施方式
以下结合附图与具体实施例进一步阐述本发明的优点。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,除非另有规定和限定,需要说明的是,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身并没有特定的意义。因此,“模块”与“部件”可以混合地使用。
实施例一:本实施例提供一种视频压缩方法,应用于服务器端,参阅图1和图2,包括以下步骤:
S100:获取待处理视频,将所述待处理视频划分成包含若干连续的帧数据的图像集合;
上述步骤中,对视频分帧可以采用现有常用的软件(如PR、AE)辅助,上述连续的帧数据即对视频进行分帧后,按照时间顺序或视频播放序列排列,以便在后续对各个帧数据进行分别压缩处理,并在处理完成后进行合帧输出,以实现对待处理视频的压缩。
S200:从所述图像集合中获取一帧数据,从数据库中获取在所述帧数据前连续的三个帧数据对应的重建帧数据;
在本方案中,利用与当前帧数据(即上述获取的一帧数据)最近的三个连续的历史重建帧输入得到该帧数据的预测帧数据,即任一帧数据的重建帧数据(压缩后的数据)均依赖于其前三帧的帧数据,需要说明的是,初始三个帧的帧数据由于无法直接获取其在先的连续帧数据,因此采用预设现有简单的压缩算法(如H264)对初始的三个帧数据进行预先处理,也可以采用编码等预设处理流程对初始的三个帧数据进行预先处理。在本具体实施方式中,其中三帧是一个时序性的输入,按每帧的重建时序依次输入。
S300:采用Conv-LSTM模块基于所述重建帧数据生成所述帧数据对应的预测帧数据;
在上述步骤中,先将所述帧数据对应的,在前的,三个帧数据的重建帧数据中的每个重建帧数据,进行一系列卷积、下采样等操作得到各自的特征图,然后将三个特征图输入到Conv-LSTM模块(参考图4),基于Conv-LSTM模块预测得到预测特征图,最后利用上采样、卷积等一系列操作生成当前帧的预测帧数据。Conv-LSTM模块的处理方式与现有LSTM网络相似的,将上一层的输出作为下一层的输入。不同的地方在于Conv-LSTM加入了卷积操作之后,不仅能够得到时序关系,还能够利用卷积层提取空间特征,由此Conv-LSTM模块可以同时提取时间特征和空间特征(时空特征),并且状态与状态之间的切换也换成了卷积运算。在本实施方式中,利用Conv-LSTM模块执行帧数据的预测,免去了运动估计和运动补偿步骤,存储所需空间更少的残差特征,提高了压缩性能,且压缩率不降低,可以实现对高分辨率视频的高效压缩存储和优质重建。
S400:对所述帧数据和所述预测帧数据进行特征提取,分别生成第一特征图和第二特征图;
在上述步骤中,对帧数据(即当前帧)和预测帧的特征提取,可以采用卷积网络实现,也可以采用特征提取算法或提取算子(包括但不限于HOG特征提取算法)等实现。上述步骤中的特征提取,特征提取模块采用若干个残差模块重叠而成,只做特征提取,将输入的图像映射到特征空间,降低后续部分的计算量,且保留一些更关键的内容信息。
S500:计算所述第一特征图和所述第二特征图的残差特征,对所述残差特征进行压缩处理后,与所述第二特征图相加,获得第三特征图;
在上述步骤中,残差是指实际观察值与估计值(拟合值)之间的差,该残差特征用于比对帧数据和预测帧数据,用于评价Conv-LSTM模块的预测,具体的,可以在卷积网络中根据预设残差公式计算,或采用其他可用于特征图的残差计算方法。
在上述步骤中,所述对所述残差特征进行压缩处理,或对所述差分图像(下述步骤S700)进行压缩处理,参阅图3和图5,包括以下步骤:
S510:采用第一编码器对所述残差特征或所述差分图像进行编码,并对编码后的残差特征或差分图像进行量化,获得第一处理数据;
需要说明的是,上述对残差特征的压缩处理与下述对差分图像的处理,具体的均可包括编码、量化、熵编码、熵解码、反量化、特征恢复过程。
在量化部分,为了提升压缩效率,本专利利用先验概率模型对编码特征分布进行估计,保证估计的编码特征分布与实际特征分布尽可能地接近。即,在对编码后的残差特征或差分图像进行量化时,采用先验概率模型对所述残差特征或差分图像的特征分布进行估计,以生成参考分布;并在后续采用高斯混合模型确定所述第一处理数据对应的特征分布后,基于所述参考分布对所述特征分布进行调整,以减少编码后特征分布与实际特征分布区别较大的情况。
S520:基于所述第一处理数据采用高斯混合模型确定所述第一处理数据对应的特征分布;
在上述步骤中,考虑到由帧数据处理得到的特征图内容中,含有人、车辆、房屋等多个关键环境内容要素的特征表示,采用单一的高斯分布模型来进行建模可能会导致特征分布确定准确性较差,因此采用了高斯混合模型。
具体的,上述步骤中所述基于所述第一处理数据采用高斯混合模型确定所述第一处理数据对应的特征分布,包括以下:
S521:对所述第一处理数据进行编码,量化,自编码生成分布参数;
其中,所述分布参数高斯混合模型中各个子模型对应的期望μ、方差以及在高斯混合模型中发生的概率σ,每一子模型对应一类别特征α;
S522:根据所述分布参数确定所述第一处理数据对应的特征分布。
具体的,所述确定所述第一处理数据对应的特征分布,包括以下:
根据下述公式确定特征分布:
其中,μ为子模型k的期望,σ为子模型k的方差,α为子模型k在高斯混合模型中发生的概率。
在上述公式中,每个子模型代表了一个目标类别的分布特征,通过这样的分布估计,可以保留更多的细节特征,实现更高质量的重建。其中的DE_x,EN_x分别代表了解码器和编码器,所述编码器和解码器均为一系列重叠的卷积和上采样、下采样等操作的组合,AD和AE分别代表自编码器,自编码器是一种能够通过无监督学习,学到输入数据高效表示的人工神经网络,一个自编码器接收输入,将其转换成高效的内部表示,然后再输出输入数据的类似物。自编码器通常包括两部分:encoder(也称为识别网络,即AD)将输入转换成内部表示,decoder(也称为生成网络,即AE)将内部表示转换成输出。
S530:采用自编码器根据所述特征分布对所述第一处理数据进行压缩处理。
基于步骤S522可知,在采用高斯混合模型时会采用一次自编码器来确定特征分布,在上述步骤中,再次采用自编码器的处理,实现对数据的压缩,该压缩可包括在上述量化把采样点上对应的亮度连续变化区间转换为单个特定数码的过程后,根据特征分布保留关键特征,去除冗余信息。
在对编码后的残差特征或差分图像进行量化后,还包括:对所述编码后的残差特征或差分图像进行熵编码。熵是信源的平均信息量,更精确的描述为表示信源所有符号包含信息的平均比特数,信源编码要尽可能的减少信源的冗余,使之接近熵,熵编码即数据压缩中根据信源消息的概率模型使消息的熵最小化,熵编码是无损数据压缩过程,因此在其他处理步骤建立网络结构训练使熵编码过程不需要训练,在执行过程中单独执行即可。
S600:基于所述第三特征图进行图像重建,获得所述帧数据对应的初步重建帧数据;
具体的,所述基于所述第三特征图进行图像重建,获得所述帧数据对应的初步重建帧数据,包括以下:
采用深度卷积生成对抗网络模型基于所述第三特征图进行图像重建,获得所述帧数据对应的初步重建帧数据。
在上述步骤中,深卷积生成对抗网络(DCGAN),生成对抗网络由生成器(generator)G和判别器(discriminator)D两部分组成,前者通过输入(0,1)的均匀噪声或高斯随机噪声生成图像,后者对输入的图像进行判别,确定是来自数据集的图像还是由生成器产生的图像。DCGAN(深度卷积对抗生成网络)是GAN的变体,判别器使用stridedconvolutions(卷积步长)来替代空间池化,生成器(参考图6)使用反卷积;使用BN(BatchNormalization)稳定学习,有助于处理初始化不良导致的训练问题;生成器输出层使用Tanh激活函数,其它层使用Relu激活函数。判别器上使用Leaky Relu激活函数。在本实施方式中,以对抗损失来进行训练模型,增加模型的鲁棒性,适应更多的视频压缩场景,判别器为简单的识别模型即可,只用作判别输入的是真实图像还是由特征图生成的图像。
S700:基于所述帧数据和所述初步重建帧数据生成差分图像,对所述差分图像进行压缩处理后,与所述初步重建帧数据进行相加,获得中间重建帧数据;
具体的,所述对差分图像的压缩处理参考上述步骤S510-S530,在此不作赘述。
S800:对所述中间重建帧数据进行融合色差去除,生成所述帧数据对应的重建帧数据;
具体的,在上述步骤中,设置该中间重建帧经过一个自编码器,即可消除融合色差,融合色差为上述步骤S300-S700对帧数据处理过程中产生的色差,因不同区域进行特征提取的不同,而呈现出因不同色光的光路差别而引起的像差。
S900:将所述重建帧数据依序存储在所述数据库中,并获取下一帧数据,直至获得所有帧数据对应的重建帧数据,以获得目标视频。
在本实施方式中,对连续的各个帧数据分别执行上述S300-S800的处理,即每一帧数据均依赖于在先的三个帧数据的重建帧数据,生成其对应的重建帧数据,即采用基于Conv-LSTM的图像预测,免去了运动估计和运动补偿步骤,存储所需空间更少的残差特征,提高了压缩性能,且压缩率不降低,可以实现对高分辨率视频的高效压缩存储和优质重建,同时采用用高斯混合模型进行特征分布估计,采用DCGAN模型进行图像重建,在复杂的有序场景变化中可以实现高性能的视频压缩与恢复,细节处理效果更佳。
实施例二:本实施方式提供一种视频压缩装置10,参考图7,包括以下:
预处理模块101,用于获取待处理视频,将所述待处理视频划分成包含若干连续的帧数据的图像集合;从所述图像集合中获取一帧数据,从数据库中获取在所述帧数据前连续的三个帧数据对应的重建帧数据;
第一处理模块102,用于采用Conv-LSTM模块基于所述重建帧数据生成所述帧数据对应的预测帧数据;
特征提取模块103,用于对所述帧数据和所述预测帧数据进行特征提取,分别生成第一特征图和第二特征图;
具体的,特征提取模块采用若干个残差模块重叠而成,只做特征提取,将输入的图像映射到特征空间,降低后续部分的计算量,且保留一些更关键的内容信息。
第二处理模块104,用于计算所述第一特征图和所述第二特征图的残差特征,对所述残差特征进行压缩处理后,与所述第二特征图相加,获得第三特征图;
重建模块105,用于基于所述第三特征图进行图像重建,获得所述帧数据对应的初步重建帧数据;
第三处理模块106,用于基于所述帧数据和所述初步重建帧数据生成差分图像,对所述差分图像进行压缩处理后,与所述初步重建帧数据进行相加,获得中间重建帧数据;
具体的,上述第二处理模块与第三处理模块均包括执行其压缩、量化、熵编码、熵解码、反量化、特征恢复过程。
第四处理模块107,用于对所述中间重建帧数据进行融合色差去除,生成所述帧数据对应的重建帧数据;
执行模块108,用于将所述重建帧数据依序存储在所述数据库中,并获取下一帧数据,直至获得所有帧数据对应的重建帧数据,以获得目标视频。
在上述步骤中,为了加快训练收敛速度和让最终生成的图像质量更好,内容更贴近真实结果,各个模块中的网络采用对抗式训练方法,其判别器采用PatchGAN的判别器,损失函数为对抗损失和感知损失,感知损失由生成的图像和标签图像分别输入到VGG19网络的4-3卷积层后输出的两组特征图在各个通道上的对应像素的差值之和得到。
在本实施方式中,由预处理模块提取出待处理的帧数据(当前帧),以及其对应的在先连续三个帧数据的重建帧数据,而后第一处理模块采用Conv-LSTM模块处理获得所述帧数据的预测帧数据,特征提取模块对预测帧数据和帧数据分别进行特征提取后,第三处理模块得到前述两个特征图的残差,对该残差进行压缩、量化等步骤并存储,恢复量化的残差特征图,与初始预测特征图相加得到恢复的预测特征图,重建模块利用图像重建算法,从恢复的预测特征恢复得到初步重建帧,得到该重建帧数据和当前帧数据的差分图像,把该图像进行压缩、量化和编码等后续步骤,接着恢复出该差分图像,和初步重建帧数据相加得到中间重建帧数据,得到的中间重建帧数据存在细节上的融合色差,因此,第四处理模块将其经过一个自编码器,消除融合色差,得到最终重建帧,最后由执行模块将各个帧数据对应的重建帧数据集合,即可得到压缩视频(即目标视频)。基于Conv-LSTM的图像预测,免去了运动估计和运动补偿步骤,存储所需空间更少的残差特征,提高了压缩性能。
实施例三:为实现上述目的,本发明还提供一种计算机设备11,参阅图8,该计算机设备可包括多个计算机设备,实施例二的视频压缩装置10的组成部分可分散于不同的计算机设备11中,计算机设备11可以是执行程序的台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于:可通过系统总线相互通信连接的存储器111、处理器112以及缓存视频压缩装置10,如图8所示。需要指出的是,图8仅示出了具有组件-的计算机设备,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器111可以包括存储程序区和存储数据区,其中,存储程序区可存储搡作系统、至少一个功能所需要的应用程序;存储数据区可存储用户在计算机设备的皮肤数据信息。此外,存储器111可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器111可选包括相对于处理器远程设置的存储器111,这些远程存储器可以通过网络连接至数据库。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器112在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器112通常用于控制计算机设备的总体操作。本实施例中,处理器112用于运行存储器112中存储的程序代码或者处理数据,例如运行视频压缩装置10,以实现实施例一的视频压缩方法。
需要指出的是,图8仅示出了具有部件111-112的计算机设备11,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器111中的所述视频压缩装置10还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器111中,并由一个或多个处理器(本实施例为处理器112)所执行,以完成本发明。
实施例四:
为实现上述目的,本发明还提供一种计算机可读存储介质,其包括多个存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器112执行时实现相应功能。本实施例的计算机可读存储介质用于存储视频压缩装置10,被处理器112执行时实现实施例一的视频压缩方法。
应当注意的是,本发明的实施例有较佳的实施性,且并非对本发明作任何形式的限制,任何熟悉该领域的技术人员可能利用上述揭示的技术内容变更或修饰为等同的有效实施例,但凡未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何修改或等同变化及修饰,均仍属于本发明技术方案的范围内。
Claims (10)
1.一种视频压缩方法,其特征在于,包括以下:
获取待处理视频,将所述待处理视频划分成包含若干连续的帧数据的图像集合;
从所述图像集合中获取一帧数据,从数据库中获取在所述帧数据前连续的三个帧数据对应的重建帧数据;
采用Conv-LSTM模块基于所述重建帧数据生成所述帧数据对应的预测帧数据;
对所述帧数据和所述预测帧数据进行特征提取,分别生成第一特征图和第二特征图;计算所述第一特征图和所述第二特征图的残差特征,对所述残差特征进行压缩处理后,与所述第二特征图相加,获得第三特征图;
采用深度卷积生成对抗网络模型基于所述第三特征图进行图像重建,获得所述帧数据对应的初步重建帧数据;
基于所述帧数据和所述初步重建帧数据生成差分图像,对所述差分图像进行压缩处理后,与所述初步重建帧数据进行相加,获得中间重建帧数据;采用自编码器对所述中间重建帧数据进行融合色差去除,生成所述帧数据对应的重建帧数据;
将所述重建帧数据依序存储在所述数据库中,并获取下一帧数据,直至获得所有帧数据对应的重建帧数据,以获得目标视频。
2.根据权利要求1所述的视频压缩方法,其特征在于,所述对所述残差特征进行压缩处理,或对所述差分图像进行压缩处理,包括以下:
采用第一编码器对所述残差特征或所述差分图像进行编码,并对编码后的残差特征或差分图像进行量化,获得第一处理数据;
基于所述第一处理数据采用高斯混合模型确定所述第一处理数据对应的特征分布;
采用自编码器根据所述特征分布对所述第一处理数据进行压缩处理。
3.根据权利要求2所述的视频压缩方法,其特征在于,所述基于所述第一处理数据采用高斯混合模型确定所述第一处理数据对应的特征分布,包括以下:
对所述第一处理数据进行编码,量化,自编码生成分布参数;
其中,所述分布参数高斯混合模型中各个子模型对应的期望、方差以及在高斯混合模型中发生的概率,每一子模型对应一类别特征;
根据所述分布参数确定所述第一处理数据对应的特征分布。
4.根据权利要求3所述的视频压缩方法,其特征在于,所述确定所述第一处理数据对应的特征分布,包括以下:
根据下述公式确定特征分布:
其中,μ为子模型k的期望,σ为子模型k的方差,α为子模型k在高斯混合模型中发生的概率。
5.根据权利要求2所述的视频压缩方法,其特征在于,包括以下:
在对编码后的残差特征或差分图像进行量化时,采用先验概率模型对所述残差特征或差分图像的特征分布进行估计,以生成参考分布;
在采用高斯混合模型确定所述第一处理数据对应的特征分布后,基于所述参考分布对所述特征分布进行调整。
6.根据权利要求2所述的视频压缩方法,其特征在于,在对编码后的残差特征或差分图像进行量化后,还包括:
对所述编码后的残差特征或差分图像进行熵编码。
7.根据权利要求1所述的视频压缩方法,其特征在于,所述基于所述第三特征图进行图像重建,获得所述帧数据对应的初步重建帧数据,包括以下:
采用深度卷积生成对抗网络模型基于所述第三特征图进行图像重建,获得所述帧数据对应的初步重建帧数据。
8.一种视频压缩装置,其特征在于,包括以下:
预处理模块,用于获取待处理视频,将所述待处理视频划分成包含若干连续的帧数据的图像集合;从所述图像集合中获取一帧数据,从数据库中获取在所述帧数据前连续的三个帧数据对应的重建帧数据;
第一处理模块,用于采用Conv-LSTM模块基于所述重建帧数据生成所述帧数据对应的预测帧数据;
特征提取模块,用于对所述帧数据和所述预测帧数据进行特征提取,分别生成第一特征图和第二特征图;
第二处理模块,用于计算所述第一特征图和所述第二特征图的残差特征,对所述残差特征进行压缩处理后,与所述第二特征图相加,获得第三特征图;
重建模块,用于采用深度卷积生成对抗网络模型基于所述第三特征图进行图像重建,获得所述帧数据对应的初步重建帧数据;
第三处理模块,用于基于所述帧数据和所述初步重建帧数据生成差分图像,对所述差分图像进行压缩处理后,与所述初步重建帧数据进行相加,获得中间重建帧数据;
第四处理模块,用于采用自编码器对所述中间重建帧数据进行融合色差去除,生成所述帧数据对应的重建帧数据;
执行模块,用于将所述重建帧数据依序存储在所述数据库中,并获取下一帧数据,直至获得所有帧数据对应的重建帧数据,以获得目标视频。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述视频压缩方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述权利要求1-7任一项所述视频压缩方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210021487.6A CN114374846B (zh) | 2022-01-10 | 2022-01-10 | 视频压缩方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210021487.6A CN114374846B (zh) | 2022-01-10 | 2022-01-10 | 视频压缩方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114374846A CN114374846A (zh) | 2022-04-19 |
CN114374846B true CN114374846B (zh) | 2024-03-26 |
Family
ID=81144150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210021487.6A Active CN114374846B (zh) | 2022-01-10 | 2022-01-10 | 视频压缩方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114374846B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115834905B (zh) * | 2023-02-09 | 2023-04-11 | 北京大学 | 帧间预测的方法、装置、电子设备及介质 |
CN116996697B (zh) * | 2023-07-24 | 2024-02-23 | 南通大学 | 一种面向hevc编码框架的视频恢复方法 |
CN116665004B (zh) * | 2023-07-31 | 2023-11-10 | 深圳海岸线数据技术有限公司 | 一种扩展现实图像处理方法、系统、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080084890A (ko) * | 2007-03-17 | 2008-09-22 | 김해광 | 동영상 부호화 및 재생 방법 및 장치 |
CN110677651A (zh) * | 2019-09-02 | 2020-01-10 | 合肥图鸭信息科技有限公司 | 一种视频压缩方法 |
CN111263161A (zh) * | 2020-01-07 | 2020-06-09 | 北京地平线机器人技术研发有限公司 | 视频压缩处理方法、装置、存储介质和电子设备 |
CN113298894A (zh) * | 2021-05-19 | 2021-08-24 | 北京航空航天大学 | 一种基于深度学习特征空间的视频压缩方法 |
-
2022
- 2022-01-10 CN CN202210021487.6A patent/CN114374846B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080084890A (ko) * | 2007-03-17 | 2008-09-22 | 김해광 | 동영상 부호화 및 재생 방법 및 장치 |
CN110677651A (zh) * | 2019-09-02 | 2020-01-10 | 合肥图鸭信息科技有限公司 | 一种视频压缩方法 |
CN111263161A (zh) * | 2020-01-07 | 2020-06-09 | 北京地平线机器人技术研发有限公司 | 视频压缩处理方法、装置、存储介质和电子设备 |
CN113298894A (zh) * | 2021-05-19 | 2021-08-24 | 北京航空航天大学 | 一种基于深度学习特征空间的视频压缩方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114374846A (zh) | 2022-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114374846B (zh) | 视频压缩方法、装置、设备及存储介质 | |
CN108520503B (zh) | 一种基于自编码器和生成对抗网络修复人脸缺损图像的方法 | |
US8223837B2 (en) | Learning-based image compression | |
CN109087258B (zh) | 一种基于深度学习的图像去雨方法及装置 | |
CN111641832B (zh) | 编码方法、解码方法、装置、电子设备及存储介质 | |
CN109949222B (zh) | 基于语义图的图像超分辨率重建方法 | |
CN110248190B (zh) | 一种基于压缩感知的多层残差系数图像编码方法 | |
CN111246206B (zh) | 一种基于自编码器的光流信息压缩方法及装置 | |
CN111641826B (zh) | 对数据进行编码、解码的方法、装置与系统 | |
CN108650509B (zh) | 一种多尺度自适应近似无损编解码方法及系统 | |
CN110753225A (zh) | 一种视频压缩方法、装置及终端设备 | |
EP4260558A1 (en) | Method and data processing system for lossy image or video encoding, transmission and decoding | |
CN114897189A (zh) | 模型训练方法、视频编码方法及解码方法 | |
CN116523985B (zh) | 一种结构和纹理特征引导的双编码器图像修复方法 | |
CN110730347A (zh) | 图像压缩方法、装置及电子设备 | |
CN114422795A (zh) | 一种面部视频编码方法、解码方法及装置 | |
CN115880762A (zh) | 面向人机混合视觉的可伸缩人脸图像编码方法、系统 | |
CN112991169B (zh) | 基于图像金字塔和生成对抗网络的图像压缩方法及系统 | |
CN115131673A (zh) | 一种面向任务的遥感影像压缩方法及系统 | |
CN113747178A (zh) | 一种电力通道可视化场景下的图像边缘端压缩及后端恢复方法及系统 | |
CN117173263B (zh) | 基于增强型多尺度残差生成对抗网络的图像压缩方法 | |
CN110717948A (zh) | 一种图像后处理方法、系统及终端设备 | |
CN116634178B (zh) | 一种极低码率的安防场景监控视频编解码方法及系统 | |
CN114663536B (zh) | 一种图像压缩方法及装置 | |
CN117459727B (zh) | 一种图像处理方法、装置、系统、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |