CN117750021B - 一种视频压缩方法、装置、计算机设备及存储介质 - Google Patents

一种视频压缩方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN117750021B
CN117750021B CN202410182239.9A CN202410182239A CN117750021B CN 117750021 B CN117750021 B CN 117750021B CN 202410182239 A CN202410182239 A CN 202410182239A CN 117750021 B CN117750021 B CN 117750021B
Authority
CN
China
Prior art keywords
frame
original
loss function
original frame
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410182239.9A
Other languages
English (en)
Other versions
CN117750021A (zh
Inventor
孟兆健
丁江伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tielishan Technology Co ltd
Original Assignee
Beijing Tielishan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tielishan Technology Co ltd filed Critical Beijing Tielishan Technology Co ltd
Priority to CN202410182239.9A priority Critical patent/CN117750021B/zh
Publication of CN117750021A publication Critical patent/CN117750021A/zh
Application granted granted Critical
Publication of CN117750021B publication Critical patent/CN117750021B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明涉及视频压缩技术领域,尤其涉及一种视频压缩方法、装置、计算机设备及存储介质,方法包括获取待压缩视频的视频帧序列,对所述视频帧序列中的原始帧的帧信息进行编码,得到位置编码;所述帧信息包括空间信息与时间信息;基于优化的视频压缩模型处理所述位置编码,得到视频压缩数据;本发明便于同步实现对视频高效、高质以及实时的压缩。

Description

一种视频压缩方法、装置、计算机设备及存储介质
技术领域
本发明涉及视频压缩技术领域,尤其涉及一种视频压缩方法、装置、计算机设备及存储介质。
背景技术
随着5G、虚拟现实、增强现实等前沿技术的广泛应用,对视频压缩的要求越来越高,不仅要求压缩后的视频质量高,而且要求压缩和解压缩的速度快,以满足实时传输和处理的需要。
目前的一种传统视频压缩方式为,将视频压缩为MPEG或者H.264格式的视频,从而实现视频的压缩;另一种视频压缩方式为,通过卷积神经网络CNN或者循环神经网络RNN实现对视频的压缩。
但是,将视频压缩为MPEG或者H.264格式视频的方式,虽然能够实现较高的压缩比,但是在高压缩比下,视频的质量往往会受到严重的损失;通过卷积神经网络CNN或者循环神经网络RNN压缩视频的方式,往往依赖于大量的训练数据,并且需要大量的计算资源进行训练和推理,从而导致视频压缩的实时性较差;综上可见,通过现有技术难以同步实现对视频高效、高质以及实时的压缩。
发明内容
为了便于同步实现对视频高效、高质以及实时的压缩,本发明实施例提供一种视频压缩方法、装置、计算机设备及存储介质。
第一方面,本发明实施例提供一种视频压缩方法,包括:
获取待压缩视频的视频帧序列,对所述视频帧序列中的原始帧的帧信息进行编码,得到位置编码;所述帧信息包括空间信息与时间信息;
基于优化的视频压缩模型处理所述位置编码,得到视频压缩数据;
其中,对所述视频压缩模型进行优化的步骤包括:
基于网络原始参数构建骨干网络,通过所述骨干网络处理所述位置编码,得到重建帧;
基于所述重建帧以及与所述重建帧对应的原始帧,构建频域损失函数;还基于所述重建帧以及对应的所述原始帧构建时间对比度损失函数;
对所述原始帧进行编解码,得到编解码输出帧,基于所述原始帧与对应的所述编解码输出帧构建空间域重建损失函数;
基于所述频域损失函数、所述时间对比度损失函数以及所述空间域重建损失函数构建总体损失函数;处理所述总体损失函数得到网络优化参数,基于所述网络优化参数优化所述视频压缩模型。
第二方面,本发明实施例提供一种视频压缩装置,包括:
编码模块,用于获取待压缩视频的视频帧序列,对所述视频帧序列中的原始帧的帧信息进行编码,得到位置编码;所述帧信息包括空间信息与时间信息;
处理模块,用于基于优化的视频压缩模型处理所述位置编码,得到视频压缩数据;
其中,对所述视频压缩模型进行优化的步骤包括:
基于网络原始参数构建骨干网络,通过所述骨干网络处理所述位置编码,得到重建帧;
基于所述重建帧以及与所述重建帧对应的原始帧,构建频域损失函数;还基于所述重建帧以及对应的所述原始帧构建时间对比度损失函数;
对所述原始帧进行编解码,得到编解码输出帧,基于所述原始帧与对应的所述编解码输出帧构建空间域重建损失函数;
基于所述频域损失函数、所述时间对比度损失函数以及所述空间域重建损失函数构建总体损失函数;处理所述总体损失函数得到网络优化参数,基于所述网络优化参数优化所述视频压缩模型。
第三方面,本发明实施例提供了一种计算机设备,计算机设备包括存储器和处理器,所述存储器存储有计算机程序,处理器执行该计算机程序时实现上述的方法中的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的方法中的步骤。
第五方面,本发明实施例还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任一方法实施例中的步骤。
上述视频压缩方法、装置、计算机设备及存储介质的实施例,先对未经优化的视频压缩模型进行优化,具体的,通过未经优化的视频压缩模型处理待压缩视频,从而得到频域损失函数、时间对比度损失函数以及空间域重建损失函数,然后对频域损失函数、时间对比度损失函数以及空间域重建损失函数进行加权处理得到总体损失函数,然后基于总体损失函数生成网络优化参数,接着通过网络优化参数对视频压缩模型进行优化,然后通过优化后的视频压缩模型对待压缩视频进行压缩,得到视频压缩数据;如此便于同步实现对视频高效、高质以及实时的压缩。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例中视频压缩方法的应用环境图;
图2为本发明一个实施例中提供的一种视频压缩方法流程图;
图3为本发明一个实施例中提供的一种视频压缩装置的结构示意图;
图4为本发明一个实施例中提供的一种计算机设备的结构示意图;
图5为本发明一个实施例中提供的一种计算机可读存储介质的内部结构图。
具体实施方式
为了使本公开的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本公开进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本公开,并不用于限定本公开。
需要说明的是,本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本文的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
为解决上述问题,本公开实施例提供了一种视频压缩方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
图2为本发明实施例提供的一种视频压缩方法流程图,参考图2,该方法可以由执行该种方法的装置来执行,该装置可以由软件和/或硬件的方式实现,该方法包括:
S100、对视频压缩模型进行优化。
具体的,对视频压缩模型进行优化的步骤包括:
S110、基于网络原始参数构建骨干网络,通过骨干网络处理位置编码,得到重建帧。
需要说明的是,为了保证视频压缩的效率与质量,也即在最小的位率下尽可能保留更多的视频信息,在构建视频压缩模型时需要初步构建一个骨干网络;在本实施例中,具体采用隐式神经网络作为骨干网络;初始状况下,骨干网络的网络参数是基于历史经验数据确定的,而不是用于视频压缩的最佳的网络参数,且将此时的网络参数记为网络原始参数;构建出的骨干网络是一种以神经网络为基础的逼近函数,用于学习并表示复杂的数据结构,在本实施例中,骨干网路具体用于学习并表示待压缩视频v。
在实施中,根据历史经验数据先确定出网络原始参数,根据网络原始参数与预设的隐式神经网络构建初始的骨干网络,初始的骨干网络对待压缩视频v中的视频帧v_t进行学习,并将视频帧v_t表示为重建帧 F(theta, p_t)。
具体的,获取到待压缩视频v后,进一步的,按照时序依次获取待压缩视频v中的视频帧v_t,为了便于和后续的视频帧对应的重建帧进行区别,后续将视频帧v_t记为原始帧v_t;然后,获取原始帧v_t中的空间信息以及时间信息,然后对空间信息与时间信息进行编码,从而得到与原始帧v_t对应的位置编码p_t ;位置编码p_t 的编码格式便于骨干网络进行理解与处理,从而便于提升骨干网络对原始帧v_t的处理速度;其中,空间信息表征原始帧v_t中与像素位置有关的信息,时间信息表征原始帧v_t所属的时序信息。
进一步的,将位置编码p_t 输入至骨干网络中进行处理,从而得到重建帧F(theta, p_t);其中,F为逼近函数,theta为网络原始参数, p_t为位置编码。
S120、基于重建帧以及与重建帧对应的原始帧,构建频域损失函数;还基于重建帧以及对应的原始帧构建时间对比度损失函数。
具体的,S120包括以下步骤:
S121、对原始帧进行频域转换,得到原始帧频谱;对重建帧进行频域转换,得到重建帧频谱。
需要说明的是,为了对视频压缩模型进行优化,可以获取原始帧v_t的原始帧频谱与重建帧的重建帧频谱,然后基于原始帧频谱与重建帧频谱建立对应的频域损失函数,然后求解频域损失函数函数值最小时对应的网络参数,作为用于优化视频压缩模型的网络参数;频域损失函数函数值最小时说明,重建帧与原始帧之间的差异最小,也即说明应用对应网络参数的视频压缩模型的压缩效果最佳。
在实施中,预设有频域转换函数S,用于将原始帧v_t或者重建帧F(theta, p_t)转换到对应的频域;通过频域转换函数S对原始帧v_t进行频域转换,得到原始帧频谱S(v_t),通过频域转换函数S对重建帧F(theta, p_t)进行频域转换,得到重建帧频谱S(F(theta,p_t))。
S122、计算原始帧频谱与重建帧频谱之间的差值,得到频谱差值。
需要说明的是,通过计算原始帧频谱与重建帧频谱之间的差值,可以初步实现原始帧频谱与重建帧频谱之间差异程度的计算。
在实施中,通过S121步骤计算得到原始帧频谱S(v_t)与重建帧频谱S(F(theta,p_t))后,进一步的,计算原始帧频谱S(v_t)与重建帧频谱S(F(theta, p_t))的差值,得到频谱差值“S(v_t) - S(F(theta, p_t))”。
S123、基于频谱差值构建频域损失函数。
需要说明的是,通过上述S122步骤计算出的频谱差值“S(v_t) - S(F(theta, p_t))”,可以体现原始帧频谱S(v_t)与重建帧频谱S(F(theta, p_t))之间的差异程度,但是这种差异程度不够直观,为此,需要进一步对频谱差值“S(v_t) - S(F(theta, p_t))进行进一步的量化,在本实施例中,通过计算频谱差值的欧式范数的平方,从而实现对频谱差值“S(v_t) - S(F(theta, p_t))的量化;频谱差值的欧式范数的平方为:||S(v_t) - S(F(theta, p_t))||^2;其中,||...||^2表示欧氏范数的平方,用于量化两个频谱之间的差异;频谱差值的欧式范数的平方也即用于表征原始帧频谱S(v_t)与重建帧频谱S(F(theta,p_t))之间的差异程度的频域损失函数L_freq。
在实施中,通过S122步骤计算出频谱差值“S(v_t) - S(F(theta, p_t))”后,进一步的,计算频谱差值“S(v_t) - S(F(theta, p_t))”的欧氏范数的平方||S(v_t) - S(F(theta, p_t))||^2,然后将||S(v_t) - S(F(theta, p_t))||^2作为频域损失函数L_freq,也即,频域损失函数L_freq=||S(v_t) - S(F(theta, p_t))||^2。
需要说明的是,将使频域损失函数的函数值最小时所计算出的网络参数应用到视频压缩模型中,可以使视频在压缩的过程中,不会丢失重要的频率信息。因为许多视频细节和结构都与特定的频率成分相关,所以确保这些成分在重建帧中得到保留是非常重要的。
S124、获取相邻的原始帧,分别记为第一原始帧与第二原始帧,通过骨干网络处理第一原始帧与第二原始帧,生成与第一原始帧对应的第一重建帧,以及与第二原始帧对应的第二重建帧。
需要说明的是,视频序列中的原始帧v_t对应的时序是原始帧v_t的基石,原始帧v_t在时序上的连续性表征的是原始帧之间的流畅过渡,为此需要保证每相邻的两重建帧F(theta, p_t)与对应的原始帧v_t之间在时序上尽量接近,为此可以构建对应的时间对比度损失函数,并计算时间对比度损失函数的函数值最小时对应的网络参数,然后依据网络参数优化视频压缩模型,从而使视频压缩模型压缩后的视频过渡流畅,进而提升视频压缩的质量。
在实施中,从待压缩视频的视频序列中获取在时序上相邻的两个原始帧,分别记为第一原始帧v_t,与第二原始帧v_t+1;然后,通过骨干网路对第一原始帧v_t帧进行处理,获取与第一原始帧v_t对应的第一重建帧F(theta, p_t);还通过骨干网络对第二原始帧v_t+1进行处理,获取与第二原始帧v_t+1对应的第二重建帧F(theta, p_t+1)。
S125、基于第一原始帧与第一重建帧,生成第一帧差值;基于第二原始帧与第二重建帧,生成第二帧差值。
需要说明的是,第一帧差值也即第一原始帧与对应的第一重建帧在时序上的差值,第二帧差值也即第二原始帧与对应的第二重建帧在时序上的差值。
在实施中,通过S124步骤获取到第一原始帧v_t、第二原始帧v_t+1、与第一原始帧v_t对应的第一重建帧F(theta, p_t),以及与第二原始帧v_t+1对应的第二重建帧F(theta, p_t+1)后,进一步的,计算第一原始帧v_t与对应的第一重建帧F(theta, p_t)之间在时序上的差值,得到第一帧差值“v_t - F(theta, p_t)”;还计算第二原始帧v_t+1与对应的第二重建帧F(theta, p_t+1)之间在时序上的差值,得到第二帧差值“v_t+1 - F(theta, p_t+1)”。
S126、基于第一帧差值、第二帧差值以及预设的第一权重,构建时间对比度损失函数。
需要说明的是,在本实施例中,预设有第一权重lambda ,用于平衡第一帧差值与第二帧差值之间的重要性。在特定的应用场景下,可能更关注某一原始帧的重建质量,而不是连续两帧之间的差异。通过调整lambda的值,可以微调时间对比度损失函数以适应特定的需求。
在实施中,通过S125步骤,获取到第一帧差值“v_t - F(theta, p_t)”与第二帧差值“v_t+1 - F(theta, p_t+1)”后,进一步的,计算第一帧差值的欧氏范数的平方,用于量化第一原始帧与对应的第一重建帧之间的时序差异;还计算第二帧差值的欧氏范数的平方,用于量化第二原始帧与对应的第二重建帧之间的时序差异;然后,计算第二帧差值的欧氏范数的平方与第一权重lambda的乘积“lambda ||v_t+1 - F(theta, p_t+1)||^2”;接着,计算第一帧差值的欧氏范数的平方与该乘积之间的差值,从而得到时间对比度损失函数L_time,具体的,L_time=||v_t - F(theta, p_t)||^2 - lambda ||v_t+1 - F(theta,p_t+1)||^2。
需要说明的是,将使时间对比度损失函数L_time的函数值最小时的网络参数,用于优化视频压缩模型,可以使优化后视频压缩模型压缩后的重建帧与原有时序尽量接近,从而提升重建帧在时序上的准确性与连续性,进而提升视频的感知质量。
S130、对原始帧进行编解码,得到编解码输出帧,基于原始帧与对应的编解码输出帧构建空间域重建损失函数。
具体的,S130包括以下步骤:S131、从视频帧序列中获取原始帧,对原始帧进行压缩编码,得到低维压缩数据。
需要说明的是,通过未优化的视频压缩模型对待压缩视频进行编解码处理,可以生成与待压缩视频的原始帧v_t对应的编解码输出帧vhat_t;其中,对原始帧v_t的编码过程,是将高维的原始帧数据映射为低维的帧数据,同时保留尽可能多的与原始帧有关的信息;对低维的帧数据进行解码的过程,是将低维的帧数据恢复为高维的原始帧数据。
在实施中,先获取待压缩视频的视频帧序列中的原始帧,然后通过未优化的视频压缩模型中的深度编码器网络Enc对原始v_t进行编码,得到低维压缩数据z_t,其中,z_t=Enc(v_t)。
S132、对低维压缩数据进行解码,得到编解码输出帧。
通过S131步骤生成低维压缩数据z_t后,进一步的,通过未优化的视频压缩模型中的深度解码器网络Dec对低维压缩数据z_t进行解码,得到编解码输出帧vhat_t,其中,vhat_t=Dec(z_t)。
S133、计算原始帧与对应的编解码输出帧之间的差值,得到第三帧差值;基于第三帧差值构建空间域重建损失函数。
在实施中,通过S132步骤生成编解码输出帧vhat_t后,进一步的,还获取与该编解码输出帧vhat_t对应的原始帧v_t;然后,计算原始帧v_t与对应的编解码输出帧vhat_t之间的数据量差值,得到第三帧差值v_t - vhat_t,其中,第三帧差值用于表征原始帧与重建帧在空间上的差异;进一步的,计算第三帧差值的欧氏范数的平方,从而得到量化后的第三帧差值||v_t - vhat_t||^2,也即空间域重建损失函数L_Space,具体的,L_Space=||v_t -vhat_t||^2。
S140、基于频域损失函数、时间对比度损失函数以及空间域重建损失函数构建总体损失函数;处理总体损失函数得到网络优化参数,基于网络优化参数优化视频压缩模型。
为了统一使频域损失函数的函数值最小时所计算出的网络参数,使时间对比度损失函数的函数值最小时所计算出的网络参数,以及使空间域重建损失函数的函数值最小时所计算出的网络参数,在实施中,先为时间对比度损失函数匹配预设的第二权重alpha ,再计算时间对比度损失函数L_time 与第二权重之间alpha的乘积;还为空间域重建损失函数匹配预设的第三权重beta,再计算空间域重建损失函数L_Space与第三权重beta之间的乘积;需要说明的是,第二权重alpha与第三权重beta用于调整不同的损失函数在整体损失中的比重。
进一步的,计算频域损失函数L_freq、时间对比度损失函数L_time 与第二权重之间alpha的乘积,以及空间域重建损失函数L_Space与第三权重beta的乘积,的和,从而得到频域损失函数L_freq、时间对比度损失函数L_time以及空间域重建损失函数L_Space之间的加权和L,且将L记为总体损失函数,
然后,计算使总体损失函数L的函数值最小时对应的网络参数,记为网络优化参数,然后依据网络优化参数优化初始状态的视频压缩模型,从而得到优化后的视频压缩模型。
S200、获取待压缩视频的视频帧序列,对视频帧序列中的原始帧的帧信息进行编码,得到位置编码;帧信息包括空间信息与时间信息。
在实施中,通过S100步骤完成初始状态的视频压缩模型的优化,并得到优化后的视频压缩模型后,进一步的,获取待压缩视频的视频帧序列,然后对视频帧序列中原始帧v_t的帧信息进行编码,得到位置编码p_t,需要说明的是,在本实施例中,帧信息具体包括空间信息与时间信息。
S300、基于优化的视频压缩模型处理位置编码,得到视频压缩数据。
具体的,S300包括以下步骤:
S310、基于视频压缩模型中的空间位置嵌入函数处理位置编码,生成空间位置二维向量;空间位置二维向量为视频压缩数据中的一种数据。
需要说明的是,视频帧序列中的原始帧中的许多结构信息是周期性的,为了表示这种周期性,在实施中,可以通过优化后的视频压缩模型中的空间位置嵌入函数对原始帧的位置编码p_t进行处理,从而得到原始帧中每个像素点的编码E(p_t),其中E(p_t)=[cos(p_t), sin(p_t)],是一个空间位置二维向量;需要说明的是,空间位置二维向量为视频压缩数据中的一种数据。
通过上述实施方式,可以对原始帧提供一个连续的、密集的空间表示,从而能够更精确地建模视频帧内的微小结构,以提升视频压缩的质量。
S320、获取与位置编码对应的第一原始帧,以及与第一原始帧在时序上相邻的第二原始帧。
需要说明的是,在视频压缩中,仅仅模拟视频帧静态的空间信息是不够的,由于待压缩视频是一系列在时序上分布的视频帧,每帧之间的动态信息同样重要,动态信息用于描述物体或场景在连续的帧之间的移动和变化。为了有效地压缩视频并确保重建视频的质量,需要准确地捕获并重建物体或场景在连续的帧之间的移动和变化。
为了表示物体或场景在连续的帧之间的移动和变化,可以定义一个移变向量O_t,t+1,用于表示物体或场景的像素在连续帧之间的运动方向和距离,移变向量O_t,t+1=Flow(v_t, v_t+1);其中,v_t, v_t+1,表示在时序上相邻的两视频帧,且将v_t记为与位置编码p_t对应的第一原始帧,将v_t+1记为与第一原始帧在时序上相邻的第二原始帧;
S330、计算第一原始帧与第二原始帧之间的像素运动信息,得到像素运动向量信息;像素运动向量信息为视频压缩数据中的一种数据。
通过上述步骤,获取到第一原始帧v_t与第二原始帧 v_t+1后,进一步的,计算第一原始帧与第二原始帧之间的像素运动信息O_t,t+1= Flow(v_t, v_t+1),O_t,t+1用于表征相邻视频帧之间每个像素的运动信息。
图2为一个实施例中视频压缩方法的流程示意图。应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行;除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行;并且图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本公开实施例还提供了一种用于实现上述所涉及的视频压缩方法的视频压缩装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个视频压缩装置实施例中的具体限定可以参见上文中对于视频压缩方法的限定,在此不再赘述。
在一个实施例中,如图3所示,提供了一种视频压缩装置,包括:
编码模块,用于获取待压缩视频的视频帧序列,对视频帧序列中的原始帧的帧信息进行编码,得到位置编码;帧信息包括空间信息与时间信息;
处理模块,用于基于优化的视频压缩模型处理位置编码,得到视频压缩数据;
其中,对视频压缩模型进行优化的步骤包括:
基于网络原始参数构建骨干网络,通过骨干网络处理位置编码,得到重建帧;
基于重建帧以及与重建帧对应的原始帧,构建频域损失函数;还基于重建帧以及对应的原始帧构建时间对比度损失函数;
对原始帧进行编解码,得到编解码输出帧,基于原始帧与对应的编解码输出帧构建空间域重建损失函数;
基于频域损失函数、时间对比度损失函数以及空间域重建损失函数构建总体损失函数;处理总体损失函数得到网络优化参数,基于网络优化参数优化视频压缩模型。
上述视频压缩装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频压缩方法。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,如图5所示,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本公开所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本公开所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本公开所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本公开的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本公开专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本公开构思的前提下,还可以做出若干变形和改进,这些都属于本公开的保护范围。因此,本公开的保护范围应以所附权利要求为准。

Claims (8)

1.一种视频压缩方法,其特征在于,包括:
获取待压缩视频的视频帧序列,对所述视频帧序列中的原始帧的帧信息进行编码,得到位置编码;所述帧信息包括空间信息与时间信息;
基于优化的视频压缩模型处理所述位置编码,得到视频压缩数据;
其中,对所述视频压缩模型进行优化的步骤包括:
基于网络原始参数构建骨干网络,通过所述骨干网络处理所述位置编码,得到重建帧;
基于所述重建帧以及与所述重建帧对应的原始帧,构建频域损失函数;还基于所述重建帧以及对应的所述原始帧构建时间对比度损失函数;
对所述原始帧进行编解码,得到编解码输出帧,基于所述原始帧与对应的所述编解码输出帧构建空间域重建损失函数;
基于所述频域损失函数、所述时间对比度损失函数以及所述空间域重建损失函数构建总体损失函数;处理所述总体损失函数得到网络优化参数,基于所述网络优化参数优化所述视频压缩模型;
其中,所述基于所述重建帧以及对应的所述原始帧构建时间对比度损失函数,包括:
获取相邻的所述原始帧,分别记为第一原始帧与第二原始帧,通过所述骨干网络处理所述第一原始帧与所述第二原始帧,生成与所述第一原始帧对应的第一重建帧,以及与所述第二原始帧对应的第二重建帧;
基于所述第一原始帧与所述第一重建帧,生成第一帧差值;基于所述第二原始帧与所述第二重建帧,生成第二帧差值;
基于所述第一帧差值、所述第二帧差值以及预设的第一权重,构建所述时间对比度损失函数;
其中,所述对所述原始帧进行编解码,得到编解码输出帧,基于所述原始帧与对应的所述编解码输出帧构建空间域重建损失函数,包括:
从所述视频帧序列中获取原始帧,对所述原始帧进行压缩编码,得到低维压缩数据;
对所述低维压缩数据进行解码,得到编解码输出帧;
计算所述原始帧与对应的所述编解码输出帧之间的差值,得到第三帧差值;基于所述第三帧差值构建所述空间域重建损失函数。
2.根据权利要求1所述的一种方法,其特征在于,基于所述重建帧以及与所述重建帧对应的原始帧,构建频域损失函数,包括:
对所述原始帧进行频域转换,得到原始帧频谱;对所述重建帧进行频域转换,得到重建帧频谱;
计算所述原始帧频谱与所述重建帧频谱之间的差值,得到频谱差值;
基于所述频谱差值构建所述频域损失函数。
3.根据权利要求1所述的一种方法,其特征在于,所述基于优化的视频压缩模型处理所述位置编码,得到视频压缩数据,包括:
基于所述视频压缩模型中的空间位置嵌入函数处理所述位置编码,生成空间位置二维向量;所述空间位置二维向量为所述视频压缩数据中的一种数据。
4.根据权利要求1所述的一种方法,其特征在于,所述基于优化的视频压缩模型处理所述位置编码,得到视频压缩数据,包括:
获取与所述位置编码对应的第一原始帧,以及与所述第一原始帧在时序上相邻的第二原始帧;
计算所述第一原始帧与所述第二原始帧之间的像素运动信息,得到像素运动向量信息;所述像素运动向量信息为所述视频压缩数据中的一种数据。
5.一种视频压缩装置,其特征在于,所述装置包括:
编码模块,用于获取待压缩视频的视频帧序列,对所述视频帧序列中的原始帧的帧信息进行编码,得到位置编码;所述帧信息包括空间信息与时间信息;
处理模块,用于基于优化的视频压缩模型处理所述位置编码,得到视频压缩数据;
其中,对所述视频压缩模型进行优化的步骤包括:
基于网络原始参数构建骨干网络,通过所述骨干网络处理所述位置编码,得到重建帧;
基于所述重建帧以及与所述重建帧对应的原始帧,构建频域损失函数;还基于所述重建帧以及对应的所述原始帧构建时间对比度损失函数;
对所述原始帧进行编解码,得到编解码输出帧,基于所述原始帧与对应的所述编解码输出帧构建空间域重建损失函数;
基于所述频域损失函数、所述时间对比度损失函数以及所述空间域重建损失函数构建总体损失函数;处理所述总体损失函数得到网络优化参数,基于所述网络优化参数优化所述视频压缩模型;
其中,所述基于所述重建帧以及对应的所述原始帧构建时间对比度损失函数,包括:
获取相邻的所述原始帧,分别记为第一原始帧与第二原始帧,通过所述骨干网络处理所述第一原始帧与所述第二原始帧,生成与所述第一原始帧对应的第一重建帧,以及与所述第二原始帧对应的第二重建帧;
基于所述第一原始帧与所述第一重建帧,生成第一帧差值;基于所述第二原始帧与所述第二重建帧,生成第二帧差值;
基于所述第一帧差值、所述第二帧差值以及预设的第一权重,构建所述时间对比度损失函数;
其中,所述对所述原始帧进行编解码,得到编解码输出帧,基于所述原始帧与对应的所述编解码输出帧构建空间域重建损失函数,包括:
从所述视频帧序列中获取原始帧,对所述原始帧进行压缩编码,得到低维压缩数据;
对所述低维压缩数据进行解码,得到编解码输出帧;
计算所述原始帧与对应的所述编解码输出帧之间的差值,得到第三帧差值;基于所述第三帧差值构建所述空间域重建损失函数。
6.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
8.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
CN202410182239.9A 2024-02-19 2024-02-19 一种视频压缩方法、装置、计算机设备及存储介质 Active CN117750021B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410182239.9A CN117750021B (zh) 2024-02-19 2024-02-19 一种视频压缩方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410182239.9A CN117750021B (zh) 2024-02-19 2024-02-19 一种视频压缩方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN117750021A CN117750021A (zh) 2024-03-22
CN117750021B true CN117750021B (zh) 2024-04-30

Family

ID=90277650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410182239.9A Active CN117750021B (zh) 2024-02-19 2024-02-19 一种视频压缩方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN117750021B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021022686A1 (zh) * 2019-08-08 2021-02-11 合肥图鸭信息科技有限公司 一种视频压缩方法、装置及终端设备
WO2021055360A1 (en) * 2019-09-20 2021-03-25 Interdigital Vc Holdings, Inc. Video compression based on long range end-to-end deep learning
CN112637599A (zh) * 2020-12-02 2021-04-09 哈尔滨工业大学(深圳) 一种基于分布式压缩视频感知系统的新型重构方法
CN114897189A (zh) * 2022-06-23 2022-08-12 阿里巴巴(中国)有限公司 模型训练方法、视频编码方法及解码方法
CN115240100A (zh) * 2022-06-21 2022-10-25 有米科技股份有限公司 基于视频帧的模型训练方法及装置
WO2023116173A1 (zh) * 2021-12-21 2023-06-29 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备以及存储介质
CN116886922A (zh) * 2023-04-17 2023-10-13 中国科学院大学 视频处理方法、装置、电子设备及计算机可读存储介质
CN117061760A (zh) * 2023-07-27 2023-11-14 北京邮电大学 一种基于注意力机制的视频压缩方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109451308B (zh) * 2018-11-29 2021-03-09 北京市商汤科技开发有限公司 视频压缩处理方法及装置、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021022686A1 (zh) * 2019-08-08 2021-02-11 合肥图鸭信息科技有限公司 一种视频压缩方法、装置及终端设备
WO2021055360A1 (en) * 2019-09-20 2021-03-25 Interdigital Vc Holdings, Inc. Video compression based on long range end-to-end deep learning
CN112637599A (zh) * 2020-12-02 2021-04-09 哈尔滨工业大学(深圳) 一种基于分布式压缩视频感知系统的新型重构方法
WO2023116173A1 (zh) * 2021-12-21 2023-06-29 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备以及存储介质
CN115240100A (zh) * 2022-06-21 2022-10-25 有米科技股份有限公司 基于视频帧的模型训练方法及装置
CN114897189A (zh) * 2022-06-23 2022-08-12 阿里巴巴(中国)有限公司 模型训练方法、视频编码方法及解码方法
CN116886922A (zh) * 2023-04-17 2023-10-13 中国科学院大学 视频处理方法、装置、电子设备及计算机可读存储介质
CN117061760A (zh) * 2023-07-27 2023-11-14 北京邮电大学 一种基于注意力机制的视频压缩方法和系统

Also Published As

Publication number Publication date
CN117750021A (zh) 2024-03-22

Similar Documents

Publication Publication Date Title
US10599935B2 (en) Processing artificial neural network weights
WO2020237646A1 (zh) 图像处理方法、设备及计算机可读存储介质
TW202247650A (zh) 使用機器學習系統進行隱式圖像和視訊壓縮
CN109451308A (zh) 视频压缩处理方法及装置、电子设备及存储介质
US11570477B2 (en) Data preprocessing and data augmentation in frequency domain
CN111641826B (zh) 对数据进行编码、解码的方法、装置与系统
KR20200089635A (ko) 다수의 상이한 비트레이트로 영상 압축을 하기 위한 시스템들 및 방법들
CN113613010A (zh) 基于稀疏卷积神经网络的点云几何无损压缩方法
CN113747163B (zh) 基于上下文重组建模的图像编码、解码方法及压缩方法
CN109949217A (zh) 基于残差学习和隐式运动补偿的视频超分辨率重建方法
CN115426075A (zh) 语义通信的编码传输方法及相关设备
US20220335560A1 (en) Watermark-Based Image Reconstruction
CN116600119B (zh) 视频编码、解码方法、装置、计算机设备和存储介质
CN117750021B (zh) 一种视频压缩方法、装置、计算机设备及存储介质
CN115499666A (zh) 视频的压缩方法、解压缩方法、装置、设备和存储介质
CN111107377A (zh) 深度图像压缩方法及其装置、设备和存储介质
CN117980914A (zh) 用于以有损方式对图像或视频进行编码、传输和解码的方法及数据处理系统
CN111565314A (zh) 图像压缩方法、编解码网络训练方法、装置及电子设备
CN111565317A (zh) 图像压缩方法、编解码网络训练方法、装置及电子设备
CN116828184B (zh) 视频编码、解码方法、装置、计算机设备和存储介质
CN114998457B (zh) 图像压缩方法、图像解压方法及相关设备、可读存储介质
US20230316606A1 (en) Generating and modifying digital images using a joint feature style latent space of a generative neural network
CN117616753A (zh) 使用光流的视频压缩
US20240163479A1 (en) Entropy-Constrained Neural Video Representations
JP2006304270A (ja) 復号化装置、逆量子化方法及びこれらのプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant