CN115941966A - 一种视频压缩方法及电子设备 - Google Patents
一种视频压缩方法及电子设备 Download PDFInfo
- Publication number
- CN115941966A CN115941966A CN202211743372.4A CN202211743372A CN115941966A CN 115941966 A CN115941966 A CN 115941966A CN 202211743372 A CN202211743372 A CN 202211743372A CN 115941966 A CN115941966 A CN 115941966A
- Authority
- CN
- China
- Prior art keywords
- network
- residual
- feature
- compressed
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007906 compression Methods 0.000 title claims abstract description 91
- 230000006835 compression Effects 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000000605 extraction Methods 0.000 claims abstract description 80
- 238000012549 training Methods 0.000 claims description 117
- 238000012545 processing Methods 0.000 claims description 81
- 238000005070 sampling Methods 0.000 claims description 42
- 230000004927 fusion Effects 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 34
- 238000013139 quantization Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 16
- 230000009467 reduction Effects 0.000 claims description 11
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 10
- 238000007499 fusion processing Methods 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 230000014509 gene expression Effects 0.000 claims description 6
- 230000006872 improvement Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 33
- 230000003287 optical effect Effects 0.000 description 12
- 230000006837 decompression Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种视频压缩方法及电子设备,该方法包括:通过获取待压缩视频,待压缩视频包括至少一个待压缩数据帧;针对每个待压缩数据帧,如果待压缩数据帧为非首帧数据帧,根据待压缩数据帧及上一解码帧结合预训练的目标视频编码网络确定当前解码帧,目标视频编码网络中包括残差提取网络,残差提取网络用于从特征空间进行残差提取;根据各待压缩数据帧所对应的当前解码帧确定压缩后的视频,解决了视频压缩性能较差的问题,通过目标视频编码网络中的残差提取网络从特征空间进行残差提取,将编码压缩的过程从像素空间转换到特征空间,可以减轻误差,获得更好的视频压缩性能,无需进行运动估计和运动补偿,提高了视频压缩效果。
Description
技术领域
本发明涉及一种图像处理技术领域,尤其涉及一种视频压缩方法及电子设备。
背景技术
传统的视频编码标准已经沿用了几十年,如今所有正在使用或即将使用的标准都遵循了相同的框架,即包括运动估计、运动补偿、基于块的变换和手工的熵编码等模块。随着深度学习在视频领域的广泛应用以及其在视频领域展现出来的巨大潜力,基于深度学习的视频压缩研究也越发的火热起来。大多数深度视频压缩方法都有类似的框架,包括运动估计、运动补偿和残差压缩等模块。许多运动估计模块使用光流网络来估计运动矢量。
但是,使用光流网络来估计运动矢量时很难产生准确的像素级光流信息,尤其是对于具有复杂非刚性运动模式的视频。所有光流方法都需要对光流进行精确估计,即使使用最佳的光流估计网络,也很难获得高质量的运动矢量。此外即使能够提取足够准确的运动信息,基于warp操作的运动补偿也可能由于光流值的准确性不够高而导致解码帧序列中出现伪影。同时由于变化的光线也会被错误的识别为光流,因此该方法对光线敏感,从而会影响到识别效果。因此,在视频压缩时,如何保证压缩性能成为有待解决的问题。
发明内容
本发明提供了一种视频压缩方法及电子设备,以解决视频压缩性能较差的问题。
根据本发明的一方面,提供了一种视频压缩方法,包括:
获取待压缩视频,所述待压缩视频包括至少一个待压缩数据帧;
针对每个待压缩数据帧,如果所述待压缩数据帧为非首帧数据帧,根据所述待压缩数据帧及上一解码帧结合预训练的目标视频编码网络确定当前解码帧,所述目标视频编码网络中包括残差提取网络,所述残差提取网络用于从特征空间进行残差提取;
根据各所述待压缩数据帧所对应的当前解码帧确定压缩后的视频。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的视频压缩方法。
本发明实施例的技术方案,通过获取待压缩视频,待压缩视频包括至少一个待压缩数据帧;针对每个待压缩数据帧,如果待压缩数据帧为非首帧数据帧,根据待压缩数据帧及上一解码帧结合预训练的目标视频编码网络确定当前解码帧,目标视频编码网络中包括残差提取网络,残差提取网络用于从特征空间进行残差提取;根据各待压缩数据帧所对应的当前解码帧确定压缩后的视频,解决了视频压缩性能较差的问题,通过预先训练得到目标视频编码网络对待压缩数据帧进行处理,实现了端到端的视频压缩,在处理过程中结合待压缩数据帧的上一解码帧提高了视频压缩质量,本申请实施例的目标视频编码网络中包括残差提取网络,残差提取网络用于从特征空间进行残差提取,目标视频编码网络通过在特征空间提取残差进行视频压缩,将编码压缩的过程从像素空间转换到特征空间,可以减轻不准确的像素级操作带来的误差,从而获得更好的视频压缩性能,本申请中的目标视频编码网络无需进行运动估计和运动补偿,因此可以避免光流网络带来的缺点,可以在实现视频压缩的同时保证视频压缩性能,提高视频压缩效果。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例一提供的一种视频压缩方法的流程图;
图2是根据本发明实施例二提供的一种视频压缩方法的流程图;
图3是根据本发明实施例二提供的一种确定残差结果的实现示例图;
图4是根据本发明实施例三提供的一种视频压缩装置的结构示意图;
图5是实现本发明实施例的视频压缩方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1为本发明实施例一提供了一种视频压缩方法的流程图,本实施例可适用于对视频进行压缩的情况,该方法可以由视频压缩装置来执行,该视频压缩装置可以采用硬件和/或软件的形式实现,该视频压缩装置可配置于电子设备中。如图1所示,该方法包括:
S101、获取待压缩视频,待压缩视频包括至少一个待压缩数据帧。
在本实施例中,待压缩视频具体可以理解为具有压缩需求的视频,待压缩视频可以用户通过录像机、手机、平板电脑等设备录制的视频,也可以是从网络上下载的视频,还可以是通过软件制作的视频等。待压缩数据帧具体可以理解为构成待压缩视频的数据帧,可以是图像帧,也可以是图像帧加上音频帧。
具体的,待压缩视频可以由用户指定,用户通过手动操作确定待压缩视频,例如,本实施例的视频压缩方法由视频压缩软件执行,用户可以选择一段视频并将其移动到视频压缩软件中作为待压缩视频进行压缩,或者,用户在选中一段视频中,选择视频压缩软件对其进行压缩处理,此时用户所选中的视频即可以作为待压缩视频;还可以自动选择视频作为待压缩视频,例如设置一定的条件,将满足条件的视频作为待压缩视频进行处理。在获取待压缩视频后,对待压缩视频进行解析,将构成待压缩视频的数据帧作为待压缩数据帧。
S102、针对每个待压缩数据帧,如果待压缩数据帧为非首帧数据帧,根据待压缩数据帧及上一解码帧结合预训练的目标视频编码网络确定当前解码帧,目标视频编码网络中包括残差提取网络,残差提取网络用于从特征空间进行残差提取。
在本实施例中,上一解码帧具体可以理解为待压缩数据帧的前一帧数据的解码帧;当前解码帧具体可以理解为待压缩数据压缩处理后得到的解码帧;目标视频编码网络具体可以理解为预先训练好的用于对视频进行压缩的神经网络模型;残差提取网络具体可以理解为目标视频编码网络中的子网络模型,用于从特征空间进行残差提取。
具体的,预先训练目标视频编码网络,获取大量的视频用于训练目标视频编码网络。每段视频中包括一定数量的数据帧,每段视频中的数据帧的数量可以相同,也可以不同。视频中数据帧的数量可以根据视频中人、物体、动物等运动对象的变化速度确定,对于变化速度大的视频,视频可以选择短一些的视频,对于变化速度小的视频,视频可以选择长一些的视频。在训练过程中根据损失函数不断调整模型的参数,最终得到符合要求的目标视频编码网络,完成训练。训练好的目标视频编码网络可以直接输入数据,根据学习经验得到处理结果。
将待压缩视频解析为待压缩数据帧后,对于每个待压缩数据帧,判断待压缩数据帧是否为首帧数据帧。若待压缩数据帧为非首帧数据帧,确定待压缩数据帧对应的上一解码帧,将待压缩数据帧和上一解码帧输入到预先训练好的目标视频编码网络中,目标视频编码网络根据训练过程中学习到的经验对待压缩数据帧和上一解码帧进行处理,输出待压缩数据帧对应的当前解码帧。每个待压缩数据帧在不是最后一帧数据帧时,其对应的当前解码帧均会作为下一个数据帧的上一解码帧参与数据压缩过程。目标视频编码网络在对待压缩数据帧进行压缩时,通过残差提取网络从特征空间提取残差,通过进一步对所提取的残差进行处理,得到当前解码帧,对残差进行处理可以是压缩、量化、熵编码、解压缩、特征重构、帧重构等处理。如果待压缩数据帧为首帧数据帧,则其不存在上一解码帧,因此,可以采用其他方式对此待压缩数据帧进行处理,例如,采用图像编码方式进行压缩,或者不进行压缩等;还可以将其上一解码帧设置为默认的数据,同样采用目标视频编码网络进行压缩。本申请实施例对各待压缩数据帧进行压缩处理时,按照待压缩数据帧的顺序依次进行处理。
S103、根据各待压缩数据帧所对应的当前解码帧确定压缩后的视频。
在本实施例中,将每个待压缩数据帧对应的当前解码帧按照待压缩数据帧的顺序排列,结合首帧数据帧的当前解码帧形成压缩后的视频,并保存到指定路径中。
本发明实施例提供了一种视频压缩方法,解决了视频压缩性能较差的问题,通过预先训练得到目标视频编码网络对待压缩数据帧进行处理,实现了端到端的视频压缩,在处理过程中结合待压缩数据帧的上一解码帧提高了视频压缩质量,本申请实施例的目标视频编码网络中包括残差提取网络,残差提取网络用于从特征空间进行残差提取,目标视频编码网络通过在特征空间提取残差进行视频压缩,将编码压缩的过程从像素空间转换到特征空间,可以减轻不准确的像素级操作带来的误差,从而获得更好的视频压缩性能,本申请中的目标视频编码网络无需进行运动估计和运动补偿,因此可以避免光流网络带来的缺点,可以在实现视频压缩的同时保证视频压缩性能,提高视频压缩效果。
实施例二
图2为本发明实施例二提供的一种视频压缩方法的流程图,本实施例在上述实施例的基础上进行细化。如图2所示,该方法包括:
S201、获取待压缩视频,待压缩视频包括至少一个待压缩数据帧。
S202、确定作为首帧数据帧的待压缩数据帧,对待压缩数据帧进行图像编码,确定待压缩数据帧对应的当前解码帧。
待压缩视频所包括的待压缩数据帧是按照数据帧的顺序排序的,因此,获取待压缩视频中的第一帧待压缩数据帧,将其确定为首帧数据帧对应的待压缩数据帧,通过图像编码的方式对此待压缩数据帧进行压缩,得到此待压缩数据帧对应的当前解码帧。
可选的,目标视频编码网络还包括:特征提取网络、残差处理网络和帧重构网络。
S203、针对作为非首帧数据帧的每个待压缩数据帧,将待压缩数据帧及上一解码帧输入到特征提取网络中,得到特征提取网络所输出的第一特征表示和第二特征表示。
在本实施例中,特征提取网络具体可以理解为进行特征提取的神经网络;第一特征表示具体可以理解为可以在特征空间对待压缩数据帧进行表示的信息;第二特征表示具体可以理解为可以在特征空间对上一解码帧进行表示的信息。
在步骤S202确定作为首帧数据帧的待压缩数据帧所对应的当前解码帧后,其余的待压缩数据帧均为非首帧数据帧。对于作为非首帧数据帧的每个待压缩数据帧,依次采用S203-S207的方式进行压缩处理,得到对应的当前解码帧。
针对作为非首帧数据帧的每个待压缩数据帧,对此待压缩数据帧进行压缩处理时,确定待压缩数据帧对应的上一解码帧,将待压缩数据帧及上一解码帧输入到特征提取网络中,特征提取网络根据网络参数(即训练过程所学习到的经验)分别对待压缩数据帧和上一解码帧进行特征提取,得到待压缩数据帧对应的第一特征表示,以及上一解码帧对应的第二特征表示。
本步骤所采用的特征提取网络在训练目标视频编码网络时完成相应的训练,训练好的特征提取网络可以直接根据网络参数进行特征提取。同理,残差提取网络、残差处理网络和帧重构网络也是在训练目标视频编码网络时完成相应的训练,训练好的网络可以直接使用,进行相应的数据处理,以实现相应的功能。
S204、根据第一特征表示和第二特征表示确定输入序列。
在本实施例中,输入序列具体可以理解为残差提取所需的序列,由多个特征表示组成。将第一特征表示和第二特征表示沿时间方向组成输入序列,由于第二特征表示在时间上先于第一特征表示,因此得到的输入序列按照时间描述为第二特征表示加上第一特征表示。本申请在进行视频压缩时采用两帧数据进行压缩,在采用更多的数据时,可以依次沿时间方向组成输入序列。
S205、将输入序列输入到残差提取网络中,得到残差提取网络所输出的残差结果。
在本实施例中,残差结果具体可以理解为进行残差提取所得到的结果。将输入序列输入到残差提供网络后,残差提取网络根据网络参数对输入序列进行处理,提取残差,得到残差结果并输出。
可选的,残差提取网络包括:第一金字塔网络、第二金字塔网络和三维卷积网络,第一金字塔网络和第二金字塔网络为对称结构。
作为本实施例的一个可选实施例,本可选实施例进一步将输入序列输入到残差提取网络中,得到残差提取网络所输出的残差结果,优化为:
A1、将输入序列输入至第一金字塔网络中进行卷积处理,得到第一卷积特征和至少一个中间卷积特征。
在本实施例中,第一金字塔网络和第二金字塔网络为对称结构的网络,一个为自下而上的金字塔,一个为自上而下的金字塔,两个金字塔横向连接。第一金字塔网络和第二金字塔网络为多尺度金字塔,实现多尺度时空特征提取。第一卷积特征具体可以理解为第一金字塔网络对输入序列经过多次卷积采样处理后得到的特征。
训练残差提取网络即为训练第一金字塔、第二金字塔和三维卷积网络,在参加提取网络完成训练后,第一金字塔、第二金字塔和三维卷积网络的网络参数相应确定。可以用D×H×W×C来表示输入序列,其中D、H、W和C分别表示深度、高度、宽度和通道数,其中深度为2对应2个视频帧,经过两个对称结构的第一金字塔网络和第二金字塔网络后的输出仍可表示为D×H×W×C。将输入序列输入至第一金字塔网络中进行卷积处理,第一金字塔网络在卷积处理过程中依次进行上采样或者下采样,得到采样过程中每次采样后得到的中间卷积特征,以及采样完成后得到的第一卷积特征。
A2、将第一卷积特征和至少一个中间卷积特征输入至第二金字塔网络中进行特征融合处理,得到第二卷积特征。
在本实施例中,第二卷积特征具体可以理解为第二金字塔网络经过多次卷积处理后最终得到的特征,即两个金字塔网络最终输出结果。
具体的,将第一卷积特征和至少一个中间卷积特征输入至第二金字塔网络中,第二金字塔网络对输入的第一特征数据进行卷积处理,并将卷积处理后的数据进行下采样或上采样,将采样结果与中间卷积特征进行融合,得到最终结果即为第二卷积特征。
需要知道的是,第一金字塔网络和第二金字塔网络一个进行上采样,一个进行下采样。
作为本实施例的一个可选实施例,本可选实施例进一步对将第一卷积特征输入至第二金字塔网络中进行特征融合处理,得到第二卷积特征,进行优化,包括:
A21、对第一卷积特征进行三维卷积,得到初始卷积特征。
在本实施例中,初始卷积特征具体理解为第二金字塔网络进行卷积和特征融合处理的特征。
预先设定卷积步长,按照设定的步长对第一卷积特征进行三维卷积处理,得到初始卷积特征。示例性的,本申请实施例优选将步长设置为1,第一卷积特征经过步长为1的3D卷积层,经过3D卷积层的三维卷积后得到初始卷积特征。
A22、对初始卷积特征进行采样,并将采样结果与对应的中间卷积特征进行特征融合,得到融合特征。
在本实施例中,融合特征具体可以理解为由至少两个特征融合得到的特征。对初始卷积特征进行采样得到采样结果,采样可以是上采样,也可以是下采样。采样结果和中间卷积特征的对应关系预先根据第一金字塔网络和第二金字塔网络的结构确定,根据对应关系确定此步骤的采样结果对应的中间卷积特征。将采样结果与对应的中间卷积特征进行特征融合,特征融合方式可以是通道数合并、特征图相加等方式,通过特征融合得到融合特征。
A23、将融合特征作为新的初始卷积特征,返回执行对初始卷积特征进行采样,并将采样结果与对应的中间卷积特征进行特征融合,得到融合特征的步骤,直到满足融合结束条件。
在本实施例中,融合结束条件具体可以理解为用于判断是否进行特征融合的条件,例如,是否存在未进行融合的中间卷积特征。判断是否满足融合结束特征,若否,将融合特征作为新的初始卷积特征,重新执行A22步骤进行采样和特征融合。若是,则结束融合,执行A24步骤。
A24、对最后一个融合特征进行采样处理,得到第二卷积特征。
对最后一次融合得到的融合特征进行采样处理,得到第二卷积特征。需要知道的是,第二金字塔网络中的所执行的采样相同,即全部为上采样或者全部为下采样,同理,第一金字塔网络中的所执行的采样也相同,且第一金字塔网络和第二金字塔网络所执行采样相反。
A3、将第二卷积特征输入到三维卷积网络中,得到残差结果。
本申请实施例中的三维卷积网络即为3D卷积网络,通过三维卷积网络对第二卷积特征进行卷积处理,得到残差结果。
可选的,三维卷积网络为可分解网络,三维卷积网络包括:四个可分解三维残差块和一个深度缩减层。
第二卷积特征依次经由四个可分解三维残差块和一个深度缩减层处理,得到残差结果。在可解码的三维卷积网络中,普通卷积核kd×kh×kw被分为两个卷积核:1×kh×kw和kd×1×1。通过这样的操作,大大减少了计算量和参数。
示例性的,本申请实施例提供一种确定残差结果的实现方式,主要包括如下步骤:
1、第一金字塔网络为自下而上的网络,由第二特征表示和第一特征表示组成的输入序列表示为I[t-1,t],3D卷积过程可以用如下符号表示:
fi-1↓2→fi i=1,2,3
其中↓2表示2倍下采样,f0为输入序列I[t-1,t]。
卷积得到的f1和f2为中间卷积特征,f3为第一卷积特征。
2、第二金字塔网络为在自顶向下的网络,f3经过为步长为1的3D卷积层,并输出初始卷积特征h3。进行特征融合过程可以用如下符号表示:
hi↑2+fi-1→hi-1i=3,2
h1↑2→h0
其中,↑2表示两倍上采样,上采样通过3D亚像素卷积实现。对于3D亚像素卷积,尺寸为D×H×W×s2C的张量可以被重塑为D×sH×sW×C,其中s2C为输入序列的通道数,可以利用亚像素卷积通过缩减通道数的方法放大图像尺寸,例如s=2,则放大倍数为2,即可以实现两倍放大效果。
h1为最后一个融合特征,h0为第二卷积特征。
本申请实施例中的第一金字塔网络和第二金字塔网络构成多尺度金字塔网络。
3、第二卷积特征作为三维卷积网络的输入,得到残差结果。
可分解的三维卷积网络由四个可分解3D残差块和一个深度缩减层组成。在可解码的三维卷积网络中,普通卷积核kd×kh×kw被分为两个卷积核:1×kh×kw和kd×1×1。减少了计算量和参数。
示例性的,图3为本发明实施例提供的一种确定残差结果的实现示例图,描述了数据处理和流转的过程,其实现原理与上述描述的原理一致。I[t-1,t]作为INPUT,经过CONV1下采样得到f1,f1经过CONV2进行下采样得到f2,f2经过CONV3进行下采样得到f3;f3经过CONV4进行步长为1的3D卷积得到h3,h3经过CON_UP1进行3D亚像素上采样得到h3↑2,与f2进行特征融合得到h2,h2经过CON_UP2进行3D亚像素上采样得到h2↑2,与f1进行特征融合得到h1,h1经过CON_UP2进行3D亚像素上采样得到h0,h0作为第二卷积特征依次输入到四个可分解三维残差块中,经过四个可分解三维残差块得到的输出结果输入到深度缩减层进行深度缩减,得到残差结果作为OUTPUT。可分解三维残差块和深度缩减层均为Split3D_CONV网络,图3中的Split3D_CONV×4表示四个可分解三维残差块,Split3D_CONV表示深度缩减层。
其中,图3中的CONV是一个channel为64,strides为(1,2,2)的3D卷积层,CONV_UP是一个channel为64*2*2,strides为(1,1,1)的3D卷积层,Split3D_CONV是一个可分解三维卷积块,通过分解一个普通的3D卷积的方式使网络在减少参数量的同时能够加速学习。可分解三维残差块和深度缩减层为通道数不同,其他结构相同的网络。通过深度缩减层对特征的通道数进行调整,以适配残差处理网络的输入。
本申请实施例在特征空间中进行压缩编码,通过设计第一金字塔网络、第二金字塔网络和三维卷积网络作为残差提取网络来提取特征空间中的残差。通过输入相邻两帧图像所对应的特征表示,对视频序列进行多尺度时空特征提取与融合操作。通过级联多个3D卷积层来提取视频帧之间的多尺度时空特征。在特征融合时,将浅层的细节与深层的抽象特征进行融合,对低级特征加以利用使得相应的图像特征得到增强,能够更好地利用到多尺度特征之间的时空信息,提高残差处理的准确性。本申请通过使用残差提取网络来代替运动估计和运动补偿模块,因此可以避免光流网络所带来的缺点。
S206、将残差结果输入到残差处理网络中,得到第一重构特征。
将残差结果输入到残差处理网络中进行处理,残差处理可以是压缩、量化、熵编码、解压缩、特征重构、帧重构等处理。
作为本实施例的一个可选实施例,本可选实施例进一步对将残差结果输入到残差处理网络中,得到第一重构特征进行优化,包括:
B1、将残差结果进行压缩和量化处理,将量化后的残差进行熵编码,确定压缩后的数据。
先对残差结果进行压缩,压缩可以通过残差编码器进行压缩,对压缩后的残差进行量化处理,量化处理后的残差进行熵编码,被编码为必特,得到压缩后的数据。
B2、对压缩后的数据进行解压缩,确定第一重构残差。
在本实施例中,第一重构残差具体可以理解为视频压缩过程中对残差结果进行压缩、解压缩等处理后得到的残差。通过残差解码器进行解压缩,得到第一重构残差。
可选的,本申请实施例在进行残差压缩和解压缩时,可以使用非线性的残差编码器-解码器网络结构来实现。
B3、根据第一重构残差和第二特征表示确定当前帧特征表示。
在本实施例中,当前帧特征表示具体可以理解为在确定待压缩数据帧的当前解码帧时所重构的特征表示。预先确定重构公式,将第一重构残差和第二特征表示带入重构公式进行重构,得到当前帧特征表示。示例性的,本申请提供一种重构公式,其中,为当前帧特征表示,为第一重构残差,为第二特征表示。
B4、对当前帧特征表示进行细节提升处理,得到第一重构特征。
在本实施例中,第一重构特征具体可以理解为特征重构后进一步进行细化得到的重构特征。对当前帧特征表示进行细节提升处理同样可以采用神经网络模型,该网络可以为编码器-解码器结构,先进行上采样后进行下采样,得到更为准确的第一重构特征,提高了编码质量。示例性的,进行细节提升的网络分别用进行两次步长为2的卷积和反卷积运算,其中,卷积层用于提取图像特征,反卷积层用来恢复图像细节。
S207、将第一重构特征输入到帧重构网络中,得到当前解码帧。
在本实施例中,帧重构网络具体可以理解为实现特征空间到像素空间的映射的网络,帧重构网络与特征提取网络实现功能正好相反。预先训练好帧重构网络,将第一重构特征输入到帧重构网络中,帧重构网络将第一重构特征从特征空间映射到像素空间得到当前解码帧。
S208、根据各待压缩数据帧所对应的当前解码帧确定压缩后的视频。
将待压缩视频中的每个待压缩数据帧对应的当前解码帧按照顺序排列,得到压缩后的视频。
作为本实施例的一个可选实施例,本可选实施例进一步对目标视频编码网络的确定步骤进行优化,包括:
C1、获取包括至少一个训练样本的训练样本集,训练样本中包括待训练数据帧、上一重构帧和标准解码帧。
在本实施例中,待训练数据帧具体可以理解为训练过程中进行压缩的数据帧;上一重构帧具体可以理解为待训练数据帧的上一个数据帧压缩后得到数据帧,此数据帧经过了特征重构;标准解码帧具体可以理解为训练样本真值,用于作为训练过程中压缩处理得到的结果的参考标准。训练样本中包括一组用于学习的待训练数据帧和上一重构帧,以及作为样本真值的标准解码帧;训练样本集具体可以理解为包括一个或者多个训练样本的数据集。
预先确定训练样本集并存储,在训练时直接从相应的存储空间获取训练样本集。本申请实施例所使用的训练样本集中所包括的训练样本可以是同一段视频中不同数据帧,也可以是从多个视频中所截取的数据帧。
C2、将当前迭代下对应的训练样本输入至待训练视频编码网络中的特征提取网络,得到第一训练特征和第二训练特征。
在本实施例中,待训练视频编码网络具体可以理解为未完成训练的神经网络模型,待训练视频编码网络中的特征提取网络、残差提取网络、帧重构网络与目标视频编码网络中的特征提取网络、残差提取网络、帧重构网络相同,但是在对残差处理时与残差处理网络存在一些区别,原因是量化和熵编码的过程无法实现神经网络的反向传播,因此,本申请在训练过程中不对数据进行直接的量化和熵编码,采用模拟的方式实现相同的功能,在完成训练后的应用过程中,进行量化和熵编码。第一训练特征具体可以理解为待训练数据帧在经过特征提取后得到的特征数据;第二训练特征具体可以理解为上一重构帧在经过特征提取后得到的特征数据。
将训练样本输入至待训练视频编码网络中的特征提取网络,特征提取网络基于当前的网络参数对待训练数据帧进行特征提取,得到第一训练特征,对上一重构帧进行特征提取,得到第二训练特征。
C3、根据第一训练特征和第二训练特征确定训练序列,并输入至待训练视频编码网络中的残差提取网络,得到训练残差结果。
在本实施例中,训练序列具体可以理解为由第一训练特征和第二训练特征组成的序列,用于作为残差提取的输入;训练残差结果具体可以理解为训练过程中通残差提取网络所提取出的残差结果。
将第一训练特征和第二训练特征沿时间方向组成训练序列,将训练序列输入至待训练视频编码网络中的残差提取网络,残差提取网络基于当前的网络参数对训练序列进行残差提取,得到训练残差结果。本申请中的残差提取网络对训练序列进行残差提取的实现原理与应用过程中对输入序列进行残差提取的实现原理相同,在此不再赘述。
C4、将训练残差结果进行残差处理,得到压缩比特数和第二重构特征。
在本实施例中,压缩比特数具体可以理解为训练残差结果经过压缩后的比特数;第二重构特征具体可以理解为训练残差结果处理后进行特征重构后得到的特征数据。
对训练残差结果进行残差处理可以是压缩、解压缩、特征重构、细节提升等。对训练残差结果进行残差处理,通过实际压缩编码处理,或者模拟压缩编码处理过程得到压缩比特数,在对训练残差结果进行压缩、解压缩、特征重构、细节提升等处理后,得到第二重构特征。
作为本实施例的一个可选实施例,本可选实施例进一步对将训练残差结果进行残差处理,得到压缩比特数和第二重构特征进行优化,包括:
C41、通过残差处理网络中的残差编码器对训练残差结果进行压缩,并将压缩后残差进行模拟量化处理。
本申请实施例通过残差编码器和残差解码器进行残差压缩和解压缩,本实施例优选采用非线性的残差编码器-解码器网络结构来进行残差压缩和解压缩。通过残差处理网络中的残差编码器直接对训练残差结果进行压缩,压缩后的残差使用加噪声等方式进行模拟量化处理。
C42、通过残差处理网络中的卷积神经网络确定模拟量化后的残差进行压缩所需的压缩比特数,并通过残差处理网络中的残差解码器对模拟量化后的残差进行解压缩,确定第二重构残差。
在本实施例中,第二重构残差具体可以理解为视频压缩过程中对残差结果进行压缩、解压缩等处理后得到的残差。预先训练好卷积神经网络,通过卷积神经网络模型通过计算其分布对模拟量化后的残差进行压缩所需的压缩比特数进行估计,示例性的,本申请实施例中的卷积神经网络可以采用CNN网络。通过残差解码器对模拟量化后的残差进行解压缩,得到第二重构残差。
C43、根据第二重构残差和第二训练特征确定训练特征表示。
在本实施例中,训练特征表示具体可以理解为在训练时待训练数据帧在解码过程中所重构的特征表示。通过预先确定的重构公式进行重构,得到训练特征表示。本步骤同样采用上述所使用重构公式,将第二重构残差与第二训练特征相加得到训练特征表示。
C44、对训练特征表示进行细节提升处理,得到第二重构特征。
对训练特征表示进行细节提升处理,提高编码质量,本步骤进行细节提升处理的方式与B4步骤进行细节提升处理的处理方式与原理相同,在此不进行赘述。通过对训练特征表示进行细节提升处理,得到第二重构特征。
C5、将第二重构特征输入到待训练视频编码网络中的帧重构网络中,得到压缩数据帧。
在本实施例中,压缩数据帧具体可以理解为待训练数据帧在经过待训练视频编码网络的压缩处理后得到的数据帧。将第二重构特征输入到帧重构网络中,帧重构网络将第二重构特征从特征空间映射到像素空间,得到重构后的压缩数据帧。
C6、基于给定的损失函数表达式,结合压缩数据帧、标准解码帧和压缩比特数确定损失函数。
预先确定模型所采用的损失函数,损失函数可以是GAN损失函数、L1损失函数、focal损失函数、VGG perceptual损失函数等,在确定损失函数后相应确定损失函数表达式,将压缩数据帧、标准解码帧和压缩比特数带入到损失函数表达式中计算得到损失函数。
在计算损失函数时,还可以采用多种损失函数,对多种损失函数进行融合处理。例如,加权求和、取平均值、最大值、最小值等方式计算得到融合处理后的损失函数,用于反向传播。
C7、基于损失函数对待训练视频编码网络进行反向传播,得到用于下一迭代的待训练视频编码网络,直至满足迭代收敛条件,得到目标视频编码网络。
在神经网络模型的训练过程中,通过反向传播方法不断更新调整模型的参数,直至模型的输出与目标趋于一致,将此时模型的参数确定为目标视频编码网络的参数。在确定了损失函数后,通过损失函数对待训练视频编码网络进行反向传播,直到得到满足收敛条件的目标视频编码网络。本发明实施例对具体的反向传播过程不做限定,可根据具体情况进行设置。
需要知道的是,本申请实施例在对待训练视频编码网络进行反向传播时,调整特征提取网络、残差提取网络和帧重构网络的网络参数,对于残差处理网络,其实现模拟量化的过程不进行调整,以及确定压缩比特数所采用的卷积神经网络的参数不进行调整,其余进行压缩、解压缩和细节提升处理所采用的编码器或解码器可以进行调整。可以理解为模拟量化和估计压缩比特数的过程由于无法进行反向传播,所以不参与调整过程。
本发明实施例提供了一种视频压缩方法,解决了视频压缩性能较差的问题,通过直接压缩特征空间中相邻两帧之间的残差来进行视频压缩工作,不仅简化了视频压缩的步骤,也大幅的提高了视频压缩效果。基于许多应用中深层特征的鲁棒表示能力,本申请将编码压缩的过程从像素空间转换到了特征空间,可以减轻不准确的像素级操作带来的误差,从而获得更好的视频压缩性能。并且,本申请的目标视频编码网络由单个率失真函数联合优化,通过压缩比特率确定损失函数,效果更好,网络模型简单,参数较少,训练过程简单,易于实现。
实施例三
图4为本发明实施例三提供的一种视频压缩装置的结构示意图。如图4所示,该装置包括:待压缩视频获取模块41、第一解码帧确定模块42和压缩视频获取模块43;
待压缩视频获取模块41,用于获取待压缩视频,所述待压缩视频包括至少一个待压缩数据帧;
第一解码帧确定模块42,用于针对每个待压缩数据帧,如果所述待压缩数据帧为非首帧数据帧,根据所述待压缩数据帧及上一解码帧结合预训练的目标视频编码网络确定当前解码帧,所述目标视频编码网络中包括残差提取网络,所述残差提取网络用于从特征空间进行残差提取;
压缩视频获取模块43,用于根据各所述待压缩数据帧所对应的当前解码帧确定压缩后的视频。
本发明实施例提供了一种视频压缩方法,解决了视频压缩性能较差的问题,通过预先训练得到目标视频编码网络对待压缩数据帧进行处理,实现了端到端的视频压缩,在处理过程中结合待压缩数据帧的上一解码帧提高了视频压缩质量,本申请实施例的目标视频编码网络中包括残差提取网络,残差提取网络用于从特征空间进行残差提取,目标视频编码网络通过在特征空间提取残差进行视频压缩,将编码压缩的过程从像素空间转换到特征空间,可以减轻不准确的像素级操作带来的误差,从而获得更好的视频压缩性能,本申请中的目标视频编码网络无需进行运动估计和运动补偿,因此可以避免光流网络带来的缺点,可以在实现视频压缩的同时保证视频压缩性能,提高视频压缩效果。
可选的,该装置包括:
第二解码帧确定模块,用于如果所述待压缩数据帧为首帧数据帧,则对所述待压缩数据帧进行图像编码,确定所述待压缩数据帧对应的当前解码帧。
可选的,目标视频编码网络还包括:特征提取网络、残差处理网络和帧重构网络;
相应的,第一解码帧确定模块42,包括:
特征提取单元,用于将所述待压缩数据帧及上一解码帧输入到特征提取网络中,得到所述特征提取网络所输出的第一特征表示和第二特征表示;
输入序列确定单元,用于根据所述第一特征表示和第二特征表示确定输入序列;
残差提取单元,用于将所述输入序列输入到所述残差提取网络中,得到所述残差提取网络所输出的残差结果;
第一重构特征确定单元,用于将所述残差结果输入到所述残差处理网络中,得到第一重构特征;
解码帧确定单元,用于将所述第一重构特征输入到所述帧重构网络中,得到当前解码帧。
可选的,残差提取网络包括:第一金字塔网络、第二金字塔网络和三维卷积网络,所述第一金字塔网络和第二金字塔网络为对称结构;
相应的,残差提取单元,包括:
卷积子单元,用于将所述输入序列输入至所述第一金字塔网络中进行卷积处理,得到第一卷积特征和至少一个中间卷积特征;
特征融合子单元,用于将所述第一卷积特征和至少一个中间卷积特征输入至所述第二金字塔网络中进行特征融合处理,得到第二卷积特征;
三维卷积子单元,用于将所述第二卷积特征输入到所述三维卷积网络中,得到残差结果。
相应的,特征融合子单元,具体用于对所述第一卷积特征进行三维卷积,得到初始卷积特征;对所述初始卷积特征进行采样,并将采样结果与对应的中间卷积特征进行特征融合,得到融合特征;将所述融合特征作为新的初始卷积特征,返回执行所述对所述初始卷积特征进行采样,并将采样结果与对应的中间卷积特征进行特征融合,得到融合特征的步骤,直到满足融合结束条件;对最后一个融合特征进行采样处理,得到第二卷积特征。
可选的,所述三维卷积网络为可分解网络,所述三维卷积网络包括:四个可分解三维残差块和一个深度缩减层。
可选的,第一重构特征确定单元,具体用于将所述残差结果进行压缩和量化处理,将量化后的残差进行熵编码,确定压缩后的数据;对所述压缩后的数据进行解压缩,确定第一重构残差;根据所述第一重构残差和第二特征表示确定当前帧特征表示;对所述当前帧特征表示进行细节提升处理,得到第一重构特征。
可选的,该装置还包括:
训练样本获取模块,用于获取包括至少一个训练样本的训练样本集,所述训练样本中包括待训练数据帧、上一重构帧和标准解码帧;
训练特征确定模块,用于将当前迭代下对应的训练样本输入至待训练视频编码网络中的特征提取网络,得到第一训练特征和第二训练特征;
训练残差确定模块,用于根据所述第一训练特征和第二训练特征确定训练序列,并输入至所述待训练视频编码网络中的残差提取网络,得到训练残差结果;
残差处理模块,用于将所述训练残差结果进行残差处理,得到压缩比特数和第二重构特征;
压缩帧确定模块,用于将所述第二重构特征输入到所述待训练视频编码网络中的帧重构网络中,得到压缩数据帧;
损失函数确定模块,用于基于给定的损失函数表达式,结合所述压缩数据帧、标准解码帧和压缩比特数确定损失函数;
反向传播模块,用于基于所述损失函数对所述待训练视频编码网络进行反向传播,得到用于下一迭代的待训练视频编码网络,直至满足迭代收敛条件,得到目标视频编码网络。
可选的,残差处理模块包括:
模拟量化单元,用于通过残差处理网络中的残差编码器对所述训练残差结果进行压缩,并将压缩后残差进行模拟量化处理;
重构残差确定单元,用于通过残差处理网络中的卷积神经网络确定模拟量化后的残差进行压缩所需的压缩比特数,并通过残差处理网络中的残差解码器对模拟量化后的残差进行解压缩,确定第二重构残差;
训练特征确定单元,用于根据所述第二重构残差和第二训练特征确定训练特征表示;
重构特征确定单元,用于对所述训练特征表示进行细节提升处理,得到第二重构特征。
本发明实施例所提供的视频压缩装置可执行本发明任意实施例所提供的视频压缩方法,具备执行方法相应的功能模块和有益效果。
实施例四
图5示出了可以用来实施本发明的实施例的电子设备50的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图5所示,电子设备50包括至少一个处理器51,以及与至少一个处理器51通信连接的存储器,如只读存储器(ROM)52、随机访问存储器(RAM)53等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器51可以根据存储在只读存储器(ROM)52中的计算机程序或者从存储单元58加载到随机访问存储器(RAM)53中的计算机程序,来执行各种适当的动作和处理。在RAM 53中,还可存储电子设备50操作所需的各种程序和数据。处理器51、ROM 52以及RAM 53通过总线54彼此相连。输入/输出(I/O)接口55也连接至总线54。
电子设备50中的多个部件连接至I/O接口55,包括:输入单元56,例如键盘、鼠标等;输出单元57,例如各种类型的显示器、扬声器等;存储单元58,例如磁盘、光盘等;以及通信单元59,例如网卡、调制解调器、无线通信收发机等。通信单元59允许电子设备50通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器51可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器51的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器51执行上文所描述的各个方法和处理,例如视频压缩方法。
在一些实施例中,视频压缩方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元58。在一些实施例中,计算机程序的部分或者全部可以经由ROM 52和/或通信单元59而被载入和/或安装到电子设备50上。当计算机程序加载到RAM 53并由处理器51执行时,可以执行上文描述的视频压缩方法的一个或多个步骤。备选地,在其他实施例中,处理器51可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行视频压缩方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种视频压缩方法,其特征在于,包括:
获取待压缩视频,所述待压缩视频包括至少一个待压缩数据帧;
针对每个待压缩数据帧,如果所述待压缩数据帧为非首帧数据帧,根据所述待压缩数据帧及上一解码帧结合预训练的目标视频编码网络确定当前解码帧,所述目标视频编码网络中包括残差提取网络,所述残差提取网络用于从特征空间进行残差提取;
根据各所述待压缩数据帧所对应的当前解码帧确定压缩后的视频。
2.根据权利要求1中所述的方法,其特征在于,还包括:
如果所述待压缩数据帧为首帧数据帧,则对所述待压缩数据帧进行图像编码,确定所述待压缩数据帧对应的当前解码帧。
3.根据权利要求1所述的方法,其特征在于,所述目标视频编码网络还包括:特征提取网络、残差处理网络和帧重构网络;
相应的,所述根据所述待压缩数据帧及上一解码帧结合预训练的目标视频编码网络确定当前解码帧,包括:
将所述待压缩数据帧及上一解码帧输入到特征提取网络中,得到所述特征提取网络所输出的第一特征表示和第二特征表示;
根据所述第一特征表示和第二特征表示确定输入序列;
将所述输入序列输入到所述残差提取网络中,得到所述残差提取网络所输出的残差结果;
将所述残差结果输入到所述残差处理网络中,得到第一重构特征;
将所述第一重构特征输入到所述帧重构网络中,得到当前解码帧。
4.根据权利要求3所述的方法,其特征在于,所述残差提取网络包括:第一金字塔网络、第二金字塔网络和三维卷积网络,所述第一金字塔网络和第二金字塔网络为对称结构;
相应的,所述将所述输入序列输入到所述残差提取网络中,得到所述残差提取网络所输出的残差结果,包括:
将所述输入序列输入至所述第一金字塔网络中进行卷积处理,得到第一卷积特征和至少一个中间卷积特征;
将所述第一卷积特征和至少一个中间卷积特征输入至所述第二金字塔网络中进行特征融合处理,得到第二卷积特征;
将所述第二卷积特征输入到所述三维卷积网络中,得到残差结果。
5.根据权利要求4中所述的方法,其特征在于,所述将所述第一卷积特征输入至所述第二金字塔网络中进行特征融合处理,得到第二卷积特征,包括:
对所述第一卷积特征进行三维卷积,得到初始卷积特征;
对所述初始卷积特征进行采样,并将采样结果与对应的中间卷积特征进行特征融合,得到融合特征;
将所述融合特征作为新的初始卷积特征,返回执行所述对所述初始卷积特征进行采样,并将采样结果与对应的中间卷积特征进行特征融合,得到融合特征的步骤,直到满足融合结束条件;
对最后一个融合特征进行采样处理,得到第二卷积特征。
6.根据权利要求4中所述的方法,其特征在于,所述三维卷积网络为可分解网络,所述三维卷积网络包括:四个可分解三维残差块和一个深度缩减层。
7.根据权利要求3中所述的方法,其特征在于,所述将所述残差结果输入到所述残差处理网络中,得到第一重构特征,包括:
将所述残差结果进行压缩和量化处理,将量化后的残差进行熵编码,确定压缩后的数据;
对所述压缩后的数据进行解压缩,确定第一重构残差;
根据所述第一重构残差和第二特征表示确定当前帧特征表示;
对所述当前帧特征表示进行细节提升处理,得到第一重构特征。
8.根据权利要求1中所述的方法,其特征在于,所述目标视频编码网络的确定步骤包括:
获取包括至少一个训练样本的训练样本集,所述训练样本中包括待训练数据帧、上一重构帧和标准解码帧;
将当前迭代下对应的训练样本输入至待训练视频编码网络中的特征提取网络,得到第一训练特征和第二训练特征;
根据所述第一训练特征和第二训练特征确定训练序列,并输入至所述待训练视频编码网络中的残差提取网络,得到训练残差结果;
将所述训练残差结果进行残差处理,得到压缩比特数和第二重构特征;
将所述第二重构特征输入到所述待训练视频编码网络中的帧重构网络中,得到压缩数据帧;
基于给定的损失函数表达式,结合所述压缩数据帧、标准解码帧和压缩比特数确定损失函数;
基于所述损失函数对所述待训练视频编码网络进行反向传播,得到用于下一迭代的待训练视频编码网络,直至满足迭代收敛条件,得到目标视频编码网络。
9.根据权利要求8中所述的方法,其特征在于,所述将所述训练残差结果进行残差处理,得到压缩比特数和第二重构特征,包括:
通过残差处理网络中的残差编码器对所述训练残差结果进行压缩,并将压缩后残差进行模拟量化处理;
通过残差处理网络中的卷积神经网络确定模拟量化后的残差进行压缩所需的压缩比特数,并通过残差处理网络中的残差解码器对模拟量化后的残差进行解压缩,确定第二重构残差;
根据所述第二重构残差和第二训练特征确定训练特征表示;
对所述训练特征表示进行细节提升处理,得到第二重构特征。
10.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的一种视频压缩方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211743372.4A CN115941966B (zh) | 2022-12-30 | 2022-12-30 | 一种视频压缩方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211743372.4A CN115941966B (zh) | 2022-12-30 | 2022-12-30 | 一种视频压缩方法及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115941966A true CN115941966A (zh) | 2023-04-07 |
CN115941966B CN115941966B (zh) | 2023-08-22 |
Family
ID=86552340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211743372.4A Active CN115941966B (zh) | 2022-12-30 | 2022-12-30 | 一种视频压缩方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115941966B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117714693A (zh) * | 2024-02-06 | 2024-03-15 | 成都科玛奇信息科技有限责任公司 | 一种医疗影像数据压缩传输方法、系统、设备及介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110182352A1 (en) * | 2005-03-31 | 2011-07-28 | Pace Charles P | Feature-Based Video Compression |
CN109949221A (zh) * | 2019-01-30 | 2019-06-28 | 深圳大学 | 一种图像处理方法及电子设备 |
CN110753225A (zh) * | 2019-11-01 | 2020-02-04 | 合肥图鸭信息科技有限公司 | 一种视频压缩方法、装置及终端设备 |
CN111277826A (zh) * | 2020-01-22 | 2020-06-12 | 腾讯科技(深圳)有限公司 | 一种视频数据处理方法、装置及存储介质 |
CN111970509A (zh) * | 2020-08-10 | 2020-11-20 | 杭州海康威视数字技术股份有限公司 | 一种视频图像的处理方法、装置与系统 |
CN112203093A (zh) * | 2020-10-12 | 2021-01-08 | 苏州天必佑科技有限公司 | 一种基于深度神经网络的信号处理方法 |
CN113225568A (zh) * | 2021-04-30 | 2021-08-06 | 刘明瑞 | 一种视频压缩感知低延迟帧间重构的迭代渐进假设预测方法 |
WO2022088631A1 (zh) * | 2020-10-28 | 2022-05-05 | Oppo广东移动通信有限公司 | 图像编码方法、图像解码方法及相关装置 |
CN114501013A (zh) * | 2022-01-14 | 2022-05-13 | 上海交通大学 | 一种可变码率视频压缩方法、系统、装置及存储介质 |
CN114584776A (zh) * | 2020-11-30 | 2022-06-03 | 华为技术有限公司 | 帧内预测模式的译码方法和装置 |
CN114842400A (zh) * | 2022-05-23 | 2022-08-02 | 山东海量信息技术研究院 | 基于残差块和特征金字塔的视频帧生成方法及系统 |
CN115529457A (zh) * | 2022-09-05 | 2022-12-27 | 清华大学 | 基于深度学习的视频压缩方法和装置 |
-
2022
- 2022-12-30 CN CN202211743372.4A patent/CN115941966B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110182352A1 (en) * | 2005-03-31 | 2011-07-28 | Pace Charles P | Feature-Based Video Compression |
CN109949221A (zh) * | 2019-01-30 | 2019-06-28 | 深圳大学 | 一种图像处理方法及电子设备 |
CN110753225A (zh) * | 2019-11-01 | 2020-02-04 | 合肥图鸭信息科技有限公司 | 一种视频压缩方法、装置及终端设备 |
CN111277826A (zh) * | 2020-01-22 | 2020-06-12 | 腾讯科技(深圳)有限公司 | 一种视频数据处理方法、装置及存储介质 |
CN111970509A (zh) * | 2020-08-10 | 2020-11-20 | 杭州海康威视数字技术股份有限公司 | 一种视频图像的处理方法、装置与系统 |
CN112203093A (zh) * | 2020-10-12 | 2021-01-08 | 苏州天必佑科技有限公司 | 一种基于深度神经网络的信号处理方法 |
WO2022088631A1 (zh) * | 2020-10-28 | 2022-05-05 | Oppo广东移动通信有限公司 | 图像编码方法、图像解码方法及相关装置 |
CN114584776A (zh) * | 2020-11-30 | 2022-06-03 | 华为技术有限公司 | 帧内预测模式的译码方法和装置 |
CN113225568A (zh) * | 2021-04-30 | 2021-08-06 | 刘明瑞 | 一种视频压缩感知低延迟帧间重构的迭代渐进假设预测方法 |
CN114501013A (zh) * | 2022-01-14 | 2022-05-13 | 上海交通大学 | 一种可变码率视频压缩方法、系统、装置及存储介质 |
CN114842400A (zh) * | 2022-05-23 | 2022-08-02 | 山东海量信息技术研究院 | 基于残差块和特征金字塔的视频帧生成方法及系统 |
CN115529457A (zh) * | 2022-09-05 | 2022-12-27 | 清华大学 | 基于深度学习的视频压缩方法和装置 |
Non-Patent Citations (2)
Title |
---|
JIANPING LUO ET AL.: "Novel Multitask Conditional Neural-Network Surrogate Models for Expensive Optimization", 《IEEE TRANSACTIONS ON CYBERNETICS》, vol. 52, no. 5, pages 3984 - 3997, XP011908624, DOI: 10.1109/TCYB.2020.3014126 * |
胡强: "面向实时视频压缩的HEVC编码算法研究及系统实现", 《博士电子期刊 信息科技辑》, no. 06 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117714693A (zh) * | 2024-02-06 | 2024-03-15 | 成都科玛奇信息科技有限责任公司 | 一种医疗影像数据压缩传输方法、系统、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115941966B (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102332476B1 (ko) | 신경망을 이용한 타일 이미지 압축 | |
CN108022212B (zh) | 高分辨率图片生成方法、生成装置及存储介质 | |
CN113259676B (zh) | 一种基于深度学习的图像压缩方法和装置 | |
CN111586412B (zh) | 高清视频处理方法、主设备、从设备和芯片系统 | |
CN112950471A (zh) | 视频超分处理方法、装置、超分辨率重建模型、介质 | |
CN115861131B (zh) | 基于图像生成视频、模型的训练方法、装置及电子设备 | |
CN114723760B (zh) | 人像分割模型的训练方法、装置及人像分割方法、装置 | |
CN112203098B (zh) | 基于边缘特征融合和超分辨率的移动端图像压缩方法 | |
CN113888410A (zh) | 图像超分辨率方法、装置、设备、存储介质以及程序产品 | |
CN116320216A (zh) | 视频生成方法、模型的训练方法、装置、设备和介质 | |
CN111510739A (zh) | 一种视频传输方法及装置 | |
CN115941966B (zh) | 一种视频压缩方法及电子设备 | |
CN112561792A (zh) | 图像风格迁移方法、装置、电子设备及存储介质 | |
CN114187318B (zh) | 图像分割的方法、装置、电子设备以及存储介质 | |
CN115426075A (zh) | 语义通信的编码传输方法及相关设备 | |
CN114501031B (zh) | 一种压缩编码、解压缩方法以及装置 | |
CN112637604B (zh) | 低时延视频压缩方法及装置 | |
CN113177483A (zh) | 视频目标分割方法、装置、设备以及存储介质 | |
CN108668169B (zh) | 图像信息处理方法及装置、存储介质 | |
CN115082624A (zh) | 一种人体模型构建方法、装置、电子设备及存储介质 | |
CN115690238A (zh) | 图像生成及模型训练方法、装置、设备和存储介质 | |
KR20240025629A (ko) | 광학 흐름를 이용한 비디오 압축 | |
CN113132732B (zh) | 一种人机协同的视频编码方法及视频编码系统 | |
CN111565317A (zh) | 图像压缩方法、编解码网络训练方法、装置及电子设备 | |
CN111565314A (zh) | 图像压缩方法、编解码网络训练方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |