CN112702607B - 一种基于光流决策的智能视频压缩方法及装置 - Google Patents
一种基于光流决策的智能视频压缩方法及装置 Download PDFInfo
- Publication number
- CN112702607B CN112702607B CN202011559323.6A CN202011559323A CN112702607B CN 112702607 B CN112702607 B CN 112702607B CN 202011559323 A CN202011559323 A CN 202011559323A CN 112702607 B CN112702607 B CN 112702607B
- Authority
- CN
- China
- Prior art keywords
- current frame
- optical flow
- frame
- pixel
- error
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
本发明提供了一种基于光流决策的智能视频压缩方法及装置,包括:获取当前帧的全景语义分割表达;判断当前帧是否为关键帧,是则获取当前帧的光流能量强度;获取光流能量阀值OPET的分数;判断光流能量强度是否大于光流能量阀值OPET的分数,是则采用高位比特数对当前帧的图像特征进行量化处理。本发明的有益效果在于:根据光流的时间连续性与空间一致性,利用场景分析技术,将视频帧组中较强运动信息相关的帧保留全分辨率,将信息量少的部分经过下采样后特征提取的方式进行传输,从而有效减少了传输数据量,通过将重建误差信息提取出并且返回到视频帧中,使得纹理信息在重建过程中更好地保留下来,实现了更好的视频压缩系统的比特率‑失真优化。
Description
技术领域
本发明涉及视频压缩技术领域,尤其是指一种基于光流决策的智能视频压缩方法及装置。
背景技术
随着互联网发展,当今时代视频内容已经占据了流量的80%以上,并且预计未来可能会进一步地提高这一比例。此外,大部分计算机视觉任务在应用到现实场景中时,对视频的压缩质量要求非常的高。高效率的视频压缩方法能够为计算机视觉任务的部署实施提供极大的便利。由此可见,建立一个高效率的视频压缩系统从而实现在预定带宽预算下传输高质量的视频是关键而又迫切的。
传统的视频压缩方法采用预测编码结构,对相应的运动信息和残差信息进行编码。在现存的传统视频压缩技术中,尽管系统中的每个模块都设计得很好,然而其实现需要大量手工处理。深度神经网络强大的非线性表示能力,使得在视频压缩领域内的端到端优化成为可能。
基于学习的视频压缩方法大致可以分为两类:一类是基于预测编码的视频压缩。这类方法利用光流信息进行运动补偿,从而通过过去帧的信息来预测当前帧。因此,这类方法通常选择先对光流进行估计和编码,然后对预测帧以及当前原始帧之间的残差进行编码。这种视频压缩方式适用于需要低延迟压缩的场景。另一类则是基于插值的视频压缩。这些方法利用神经网络对相邻两个关键帧进行中间帧插值,而关键帧则通常采用图像压缩方法进行压缩。与基于预测编码的视频压缩类似,该方法也需要对插值帧与原始帧之间的光流和残差进行编码。与基于预测编码的视频压缩相比,它通常能够获得更好性能。在经典的视频编码标准中,这种方法也称为双向预测。
然而,直接应用深度神经网络来建立一个端到端的视频压缩学习系统并非易事。学习如何生成和压缩视频内容中的运动信息是一个有待解决的问题。视频压缩方法严重依赖运动信息来减少视频序列中的时间冗余。一个简单的解决方案是使用基于学习的光流来表示运动信息。然而,目前基于学习的光流方法的目标是产生尽可能精确的流场。但是,对于特定的视频任务,精确的光流往往不是最佳的。此外,与传统压缩系统中的运动信息相比,光流的数据量显著增加,直接应用现有的压缩方法来压缩光流值将显著增加存储运动信息所需的比特数。
发明内容
本发明所要解决的技术问题是:针对现有技术的不足,提出一种基于光流决策与补偿的智能视频压缩方法及装置。
为了解决上述技术问题,本发明采用的技术方案为:一种基于光流决策的智能视频压缩方法,包括:
S1、获取当前帧fn的全景语义分割表达{∑type∑group p(i,j)},其中p(i,j)标定了某一种类别type的像素组group中某一元素的坐标为(i,j);
S2、判断当前帧fn是否为关键帧,是则进入步骤S3;
S3、获取当前帧fn的光流能量强度En,及获取当前帧fn的光流能量阀值OPET的分数Ethres;
S4、判断当前帧fn的光流能量强度En是否大于当前帧fn的光流能量阀值OPET的分数Ethres,是则进入步骤S5;
S5、获取当前帧fn的图像特征;
S6、采用高位比特数对当前帧fn的图像特征进行量化处理。
进一步的,在步骤S1之中,通过基于语义的光流能量强度计算公式获取当前帧fn的全景语义分割表达{∑type∑group p(i,j)}。
进一步的,在步骤S3之中,所述基于语义的光流能量强度计算公式为:
其中vi,j(n)为在当前尺度下第n帧中像素点p(i,j)的速度,K为多尺度下采样的尺度数目,DSk为尺度k下的下采样因子系数,H×W为输入视频的帧尺寸大小,mean(·)表示取平均值,α和β均为常数。
进一步的,在步骤S3之中,通过光流能量阈值OPET的分数计算公式获取当前帧fn之前的全部基于语义的光流能量强度的指数移动平均加权值,所述光流能量阈值OPET的分数计算公式为:
其中,a、b、c均为常数。
进一步的,在步骤S3之中,通过普通的光流能量强度计算公式获取当前帧fn的光流能量强度En,所述普通的光流能量强度计算公式为:
进一步的,在步骤S5之后,还包括帧补偿处理:
S51、将当前帧fn的图像特征输入至图像合成网络,获得预重建视频帧freconstruct;
S52、根据预处理公式对预重建视频帧freconstruct进行处理,得到fpre,所述预处理公式为:
其中,normal(·)是归一化映射,将输入像素值映射到[-1,1]邻域上,p为输入重建视频帧freconstruct像素,pr为输出的预处理重建帧fpre像素,a1、a2、a3、a4、a5、b1、b2、c1和c2均为常数;
S53、将原始视频帧foriginal与预处理重建帧fpre的对应位置像素值进行相减,得到一个合成误差信息帧ferror:
ferror={perror|perror=poriginal-pr};
S54、将合成误差信息帧ferror对应位置像素通过补偿公式进行补偿,得到补偿后的当前帧fn的图像特征,所述补偿公式为:
其中,k和γ均为常数;
S55、进入步骤S6。
进一步的,在步骤S4之中,当En<Ethres,则进入步骤S41:
S41、对当前帧fn进行下采样处理,得到下采样处理后的当前帧fn的图像特征,进入步骤S42;
S42、对下采样处理后的当前帧fn的图像特征进行补偿处理;
S43、采用高位比特数对下采样处理后的当前帧fn的补偿图像特征进行量化处理。
进一步的,在步骤S4之中,当En≥Ethres,则进入步骤S44:
S44、对当前帧fn的图像特征进行补偿处理;
S45、采用高位比特数对当前帧fn的图像特征进行量化处理。
进一步的,在步骤S2之中,当前帧fn不是关键帧时,进入步骤S31,
S31、根据语义对光流场进行分组;
S32、判断图像像素所在语义对象属于事物属性或材质属性,当图像像素所在语义对象属于事物属性则进入步骤S33,当图像像素所在语义对象属于材质属性则进入步骤S34;
S33、采用高位比特数对当前帧fn的事物属性像素进行量化处理;
S34、采用低位比特数对当前帧fn的材质属性像素进行量化处理。
本发明还涉及一种基于光流决策的智能视频压缩装置,包括获取模块、判断模块和处理模块,
所述获取模块用于获取当前帧fn的全景语义分割表达{∑type∑group p(i,j)}、当前帧fn的基于语义的光流能量强度εn及普通光流能量强度En、当前帧fn的光流能量阀值OPET的分数Ethres以及当前帧fn的图像特征,其中p(i,j)标定了某一种类别type的像素组group中某一元素的坐标为(i,j);
所述判断模块用于判断当前帧fn的光流能量强度En与是否大于当前帧fn之前的光流能量阀值OPET的分数Ethres;
所述处理模块用于采用不同比特数对当前帧fn的图像特征进行处理;
所述处理模块还用于将当前帧fn的图像特征输入至图像合成网络进行补偿处理,获得预重建视频帧freconstruct;
对预重建视频帧freconstruct进行处理,得到fpre;
将原始视频帧foriginal与预处理重建帧fpre的对应位置像素值进行相减,得到一个合成误差信息帧ferror;
将合成误差信息帧ferror对应位置像素通过补偿公式进行补偿,得到补偿后的当前帧fn的图像特征,所述补偿公式为:
其中,k和γ均为常数。
本发明的有益效果在于:根据光流的时间连续性与空间一致性,利用场景分析技术,将视频帧组中较强运动信息相关的帧保留全分辨率,将视频帧组中帧间信息量少的部分经过下采样后特征提取的方式进行传输,从而有效减少了传输数据量,同时,通过预定重建帧的合成,将重建误差信息提取出并且返回到视频帧中,从而使得视频帧中的纹理信息在量化重建过程中更好地保留下来,实现了更好的视频压缩系统的比特率-失真优化。
附图说明
下面结合附图详述本发明的具体流程及结构:
图1为本发明的整体流程示意图;
图2为本发明的补偿流程示意图;
图3为本发明的非关键帧处理流程示意图;
图4为本发明的当前帧的光流能量强度小于当前帧之前的光流能量阀值OPET的分数时的处理流程示意图;
图5为本发明的当前帧的光流能量强度大于或等于当前帧之前的光流能量阀值OPET的分数时的处理流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
实施例1
请参阅图1至图5,一种基于光流决策的智能视频压缩方法,包括:
S1、将第n帧视频f(n)进行多尺度下采样,将所有尺度的下采样结果都输入到一个场景分析网络中,通过基于语义的光流能量强度计算公式可获取到当前帧fn的一个全景语义分割表达{∑type∑group p(i,j)},其中p(i,j)标定了某一种类别type的像素组group中某一元素的坐标为(i,j),所述基于语义的光流能量强度计算公式为:
其中vi,j(n)为在当前尺度下第n帧中像素点p(i,j)的速度,K为多尺度下采样的尺度数目,DSk为尺度k下的下采样因子系数,H×W为输入视频的帧尺寸大小,mean(·)表示取平均值,实验性的,εn中的α=0.5,w(i,j)中的β=0.3;
对一组待压缩的视频帧计算其光流能量强度,该光流能量强度能够反映输入的视频帧中是否存在剧烈运动情况,通常的,剧烈运动行为往往具有肢体动作幅度大,目标运动速度快等特征,光流具有很好的时空特征,能够很好地表征剧烈运动的行为特征;
S2、判断当前帧fn是否为关键帧,是则进入步骤S3,否则进入S31;
S3、通过普通的光流能量强度计算公式获取当前帧fn的光流能量强度En,所述普通的光流能量强度计算公式为:
通过光流能量阈值OPET的分数计算公式获取当前帧fn之前的全部光流能量强度的指数移动平均加权值,作为预先确定的光流能量阈值OPET的分数,所述光流能量阈值OPET的分数计算公式为:
实验性的,a=3.216,b=-0.033,c=0.402;
通过光流能量来判断输入视频帧内容中对象的运动剧烈情况,从而决策该视频帧是否能够进行下采样以减少压缩成本;
S4、判断当前帧fn的光流能量强度En是否大于当前帧fn之前的光流能量阀值OPET的分数Ethres,是则进入步骤S5;
通过使用与视频帧之间的光流相关的质量指标:光流能量阈值OPET分数可对空间下采样的视频帧以及其全分辨率原始视频帧之间的感知质量差异进行评价;
S5、获取当前帧fn的图像特征;
为了补偿由于量化、由图像特征合成重建视频帧以及重建视频帧上采样所造成的重建误差,在步骤S5之后,还包括:
S51、将当前帧fn的图像特征输入至图像合成网络,获得预重建视频帧freconstruct;
S52、根据预处理公式对预重建视频帧freconstruct进行处理,得到fpre,所述预处理公式为:
实验性的,a1=249.15,a2=53.66,a3=-1.98,a4=-0.84,a5=0.07,b1=270.93,b2=106.92,c1=133.71,c2=78.15,ω=0.06,normal(·)是归一化映射,将输入像素值映射到[-1,1]邻域上,p为输入重建视频帧freconstruct像素,pr为输出的预处理重建帧fpre像素;
S53、将原始视频帧foriginal与预处理重建帧fpre的对应位置像素值进行相减,得到一个合成误差信息帧ferror:
ferror={perror|perror=poriginal-pr};
S54、将合成误差信息帧ferror对应位置像素通过补偿公式进行补偿,得到补偿后的当前帧fn的图像特征,所述补偿公式为:
实验性的,有2.5≤k≤10,0≤γ≤0.04;
S55、进入步骤S6。
S6、采用高位比特数对当前帧fn的图像特征进行量化处理,具体的,
当图像像素所在语义对象属于事物属性({∑group p(i,j)}type1∈thing)时,光流图所对应区域的光流组将采取诸如float 32的高位比特数进行量化处理,以保证视频帧中的细节留存,有效保证了重建画面的质量;
当图像像素所在语义对象属于材质属性({∑group p(i,j)}type1∈stuff)时,光流图所对应区域的光流组将采取诸如uint8的低位比特数进行量化处理,以保证视频帧传输的速度以及码数的控制。
在步骤S4之中,当En<Ethres,则进入步骤S41,
S41、对当前帧fn进行下采样处理,得到下采样处理后的当前帧fn的图像特征,进入步骤S42;
S42、对下采样处理后的当前帧fn的图像特征进行补偿处理,以补偿由于量化、由图像特征合成重建视频帧以及重建视频帧上采样所造成的重建误差;
S43、采用高位比特数对下采样处理后的当前帧fn的补偿图像特征进行量化处理。
在步骤S4之中,当En≥Ethres,则进入步骤S44:
S44、对当前帧fn的图像特征进行补偿处理,以补偿由于量化、由图像特征合成重建视频帧以及重建视频帧上采样所造成的重建误差;
S45、采用高位比特数对当前帧fn的图像特征进行量化处理。
在步骤S2之中,当前帧fn不是关键帧时,进入步骤S31,
S31、根据语义对光流场进行分组;
S32、判断图像像素所在语义对象属于事物属性或材质属性,当图像像素所在语义对象属于事物属性则进入步骤S33,当图像像素所在语义对象属于材质属性则进入步骤S34;
S33、采用诸如float 32的高位比特数对当前帧fn像素进行量化处理,以保证视频帧中的细节留存,有效保证了画面的质量;
S34、采用诸如uint8的低位比特数对当前帧fn像素进行量化处理,以保证视频帧传输的速度以及码数的控制。
从上述描述可知,本发明的有益效果在于:根据光流的时间连续性与空间一致性,利用场景分析技术,将视频帧组中较强运动信息相关的帧保留全分辨率,将视频帧组中帧间信息量少的部分经过下采样后特征提取的方式进行传输,从而有效减少了传输数据量,同时,通过预定重建帧的合成,将重建误差信息提取出并且返回到视频帧中,从而使得视频帧中的纹理信息在量化重建过程中更好地保留下来,实现了更好的视频压缩系统的比特率-失真优化。
实施例2
本发明还涉及一种基于光流决策的智能视频压缩装置,包括获取模块、判断模块和处理模块,
将第n帧视频f(n)进行多尺度下采样,将所有尺度的下采样结果都输入到一个场景分析网络中,获取模块通过基于语义的光流能量强度计算公式可获取到当前帧fn的一个全景语义分割表达{∑type∑group p(i,j)},其中p(i,j)标定了某一种类别type的像素组group中某一元素的坐标为(i,j),所述基于语义的光流能量强度计算公式为:
其中vi,j(n)为在当前尺度下第n帧中像素点p(i,j)的速度,K为多尺度下采样的尺度数目,DSk为尺度k下的下采样因子系数,H×W为输入视频的帧尺寸大小,mean(·)表示取平均值,实验性的,En中的α=0.5,w(i,j)中的β=0.3;
对一组待压缩的视频帧计算其光流能量强度,该光流能量强度能够反映输入的视频帧中是否存在剧烈运动情况。通常的,剧烈运动行为往往具有肢体动作幅度大,目标运动速度快等特征。光流具有很好的时空特征,能够很好地表征剧烈运动的行为特征;
获取模块还通过普通的光流能量强度计算公式获取当前帧fn的光流能量强度En,所述普通的光流能量强度计算公式为:
获取模块还通过光流能量阈值OPET的分数计算公式获取当前帧fn之前的全部光流能量强度的指数移动平均加权值,作为预先确定的光流能量阈值OPET的分数,所述光流能量阈值OPET的分数计算公式为:
实验性的,a=3.216,b=-0.033,c=0.402;
获取模块还获取当前帧fn的图像特征。
判断模块通过基于语义的光流能量强度判断当前帧fn是否为关键帧,以及判断当前帧fn的光流能量强度En与是否大于当前帧fn之前的光流能量阀值OPET的分数Ethres;
所述处理模块用于通过采取诸如float 32的高位比特数对当前帧fn的图像特征进行量化处理,以保证视频帧中的细节留存,有效保证了画面的质量。
及根据预处理公式对预重建视频帧freconstruct进行处理,得到fpre,所述预处理公式为:
实验性的设置:a1=249.15,a2=53.66,a3=-1.98,a4=-0.84,a5=0.07,b1=270.93,b2=106.92,c1=133.71,c2=78.15,ω=0.06,normal(·)是归一化映射,将输入像素值映射到[-1,1]邻域上,p为输入重建视频帧freconstruct像素,pr为输出的预处理重建帧fpre像素;
及将原始视频帧foriginal与预处理重建帧fpre的对应位置像素值进行相减,得到一个合成误差信息帧ferror:
ferror={perror|perror=poriginal-pr};
及将合成误差信息帧ferror对应位置像素通过补偿公式进行补偿,得到补偿后的当前帧fn的图像特征,所述补偿公式为:
实验性的,有2.5≤k≤10,0≤γ≤0.04。
实施例3
本发明还涉及一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现上述任意一项所述方法的步骤。
所述处理器执行计算机程序时实现上述各个方法实施例中的步骤。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块或单元的功能。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述计算机设备中的执行过程。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
实施例4
本发明还涉及一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现上述任意一项所述的方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (7)
1.一种基于光流决策的智能视频压缩方法,包括:
S1、获取当前帧fn的全景语义分割表达{∑type∑groupp(i,j)},其中p(i,j)标定了某一种类别type的像素组group中某一元素的坐标为(i,j);
S2、判断当前帧fn是否为关键帧,是则进入步骤S3;
S3、获取当前帧fn的光流能量强度En,及获取当前帧fn的光流能量阈值OPET的分数Ethres;
S4、判断当前帧fn的光流能量强度En是否大于当前帧fn的光流能量阈值OPET的分数Ethres,
当En<Ethres,则进入步骤S41:
S41、对当前帧fn进行下采样处理,得到下采样处理后的当前帧fn的图像特征,进入步骤S42;
S42、对下采样处理后的当前帧fn的图像特征进行补偿处理;
S43、采用高位比特数对下采样处理后的当前帧fn的补偿图像特征进行量化处理;
当En≥Ethres,则进入步骤S44:
S44、对当前帧fn的图像特征进行补偿处理;
S45、采用高位比特数对当前帧fn的图像特征进行量化处理;
还包括补偿处理:
S51、将当前帧fn的图像特征输入至图像合成网络,获得预重建视频帧freconstruct;
S52、根据预处理公式对预重建视频帧freconstruct进行处理,得到fpre,所述预处理公式为:
其中,normal(·)是归一化映射,将输入像素值映射到[-1,1]邻域上,p为输入重建视频帧freconstruct像素,pr为输出的预处理重建帧fpre像素,a1、a2、a3、a4、a5、b1、b2、c1和c2均为常数;
S53、将原始视频帧foriginal与预处理重建帧fpre的对应位置像素值进行相减,得到一个合成误差信息帧ferror:
ferror={perror|perror=poriginal-pr};
S54、将合成误差信息帧ferror对应位置像素通过补偿公式进行补偿,得到补偿后的当前帧fn的图像特征,所述补偿公式为:
其中,k和γ均为常数。
2.如权利要求1所述的一种基于光流决策的智能视频压缩方法,其特征在于:在步骤S1之中,通过基于语义的光流能量强度计算公式获取当前帧fn的全景语义分割表达{∑type∑groupp(i,j)}。
6.如权利要求5所述的一种基于光流决策的智能视频压缩方法,其特征在于:在步骤S2之中,当前帧fn不是关键帧时,进入步骤S31,
S31、根据语义对光流场进行分组;
S32、判断图像像素所在语义对象属于事物属性或材质属性,当图像像素所在语义对象属于事物属性则进入步骤S33,当图像像素所在语义对象属于材质属性则进入步骤S34;
S33、采用高位比特数对当前帧fn的事物属性像素进行量化处理;
S34、采用低位比特数对当前帧fn的材质属性像素进行量化处理。
7.一种基于光流决策的智能视频压缩装置,其特征在于:包括获取模块、判断模块和处理模块,
所述获取模块用于获取当前帧fn的全景语义分割表达{∑type∑groupp(i,j)}、当前帧fn的基于语义的光流能量强度εn及当前帧fn的光流能量强度En、当前帧fn的光流能量阈值OPET的分数Ethres以及当前帧fn的图像特征,其中p(i,j)标定了某一种类别type的像素组group中某一元素的坐标为(i,j);
所述判断模块用于判断当前帧fn的光流能量强度En与是否大于当前帧fn的光流能量阈值OPET的分数Ethres;
所述处理模块用于:
当En<Ethres时,对当前帧fn进行下采样处理,得到下采样处理后的当前帧fn的图像特征,对下采样处理后的当前帧fn的图像特征进行补偿处理,采用高位比特数对下采样处理后的当前帧fn的补偿图像特征进行量化处理;
当En≥Ethres时,对当前帧fn的图像特征进行补偿处理,采用高位比特数对当前帧fn的图像特征进行量化处理;
所述补偿处理为:
将当前帧fn的图像特征输入至图像合成网络,获得预重建视频帧freconstruct;
根据预处理公式对预重建视频帧freconstruct进行处理,得到fpre,所述预处理公式为:
其中,normal(·)是归一化映射,将输入像素值映射到[-1,1]邻域上,p为输入重建视频帧freconstruct像素,pr为输出的预处理重建帧fpre像素,a1、a2、a3、a4、a5、b1、b2、c1和c2均为常数;
将原始视频帧foriginal与预处理重建帧fpre的对应位置像素值进行相减,得到一个合成误差信息帧ferror:
ferror={perror|perror=poriginal-pr};
将合成误差信息帧ferror对应位置像素通过补偿公式进行补偿,得到补偿后的当前帧fn的图像特征,所述补偿公式为:
其中,k和γ均为常数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011559323.6A CN112702607B (zh) | 2020-12-25 | 2020-12-25 | 一种基于光流决策的智能视频压缩方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011559323.6A CN112702607B (zh) | 2020-12-25 | 2020-12-25 | 一种基于光流决策的智能视频压缩方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112702607A CN112702607A (zh) | 2021-04-23 |
CN112702607B true CN112702607B (zh) | 2022-11-22 |
Family
ID=75510348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011559323.6A Active CN112702607B (zh) | 2020-12-25 | 2020-12-25 | 一种基于光流决策的智能视频压缩方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112702607B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113473040A (zh) * | 2021-06-29 | 2021-10-01 | 北京紫光展锐通信技术有限公司 | 视频分割方法和设备 |
CN114143541B (zh) * | 2021-11-09 | 2023-02-14 | 华中科技大学 | 一种面向语义分割的云边协同视频压缩上载方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111083501A (zh) * | 2019-12-31 | 2020-04-28 | 合肥图鸭信息科技有限公司 | 一种视频帧重构方法、装置及终端设备 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103763562B (zh) * | 2014-01-22 | 2016-11-16 | 复旦大学 | 一种基于线裁剪的视频浓缩方法 |
GB2557622A (en) * | 2016-12-12 | 2018-06-27 | V Nova Int Ltd | Motion compensation techniques for video |
KR102580910B1 (ko) * | 2017-08-29 | 2023-09-20 | 에스케이텔레콤 주식회사 | 양방향 옵티컬 플로우를 이용한 움직임 보상 방법 및 장치 |
US20200053388A1 (en) * | 2018-08-10 | 2020-02-13 | Disney Enterprises, Inc. | Machine learning based video compression |
CN110086985B (zh) * | 2019-03-25 | 2021-03-30 | 华为技术有限公司 | 一种延时摄影的录制方法及电子设备 |
CN110913219A (zh) * | 2019-11-29 | 2020-03-24 | 合肥图鸭信息科技有限公司 | 一种视频帧预测方法、装置及终端设备 |
CN111083478A (zh) * | 2019-12-31 | 2020-04-28 | 合肥图鸭信息科技有限公司 | 一种视频帧重构方法、装置及终端设备 |
-
2020
- 2020-12-25 CN CN202011559323.6A patent/CN112702607B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111083501A (zh) * | 2019-12-31 | 2020-04-28 | 合肥图鸭信息科技有限公司 | 一种视频帧重构方法、装置及终端设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112702607A (zh) | 2021-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Akbari et al. | DSSLIC: Deep semantic segmentation-based layered image compression | |
CN111709896B (zh) | 一种将ldr视频映射为hdr视频的方法和设备 | |
CN112702607B (zh) | 一种基于光流决策的智能视频压缩方法及装置 | |
CN111263161B (zh) | 视频压缩处理方法、装置、存储介质和电子设备 | |
Nakanishi et al. | Neural multi-scale image compression | |
KR20200114436A (ko) | 스케일러블 영상 부호화를 수행하는 장치 및 방법 | |
CN112954398B (zh) | 编码方法、解码方法、装置、存储介质及电子设备 | |
US11477465B2 (en) | Colour component prediction method, encoder, decoder, and storage medium | |
CN115943422A (zh) | 视频处理方法、装置、设备、解码器、系统及存储介质 | |
CN112601095B (zh) | 一种视频亮度和色度分数插值模型的创建方法及系统 | |
WO2022037162A1 (zh) | 图像处理方法、装置、设备、计算机存储介质和系统 | |
Wang et al. | End-to-end video compression for surveillance and conference videos | |
CN111901595B (zh) | 一种基于深度神经网络的视频编码方法及装置、介质 | |
WO2022204392A1 (en) | Multi-distribution entropy modeling of latent features in image and video coding using neural networks | |
CN115460415A (zh) | 一种面向人机混合视觉的视频压缩方法 | |
CN115205117A (zh) | 图像重建方法及装置、计算机存储介质、电子设备 | |
CN113766233B (zh) | 图像预测方法、编码器、解码器以及存储介质 | |
EP2991354A1 (en) | Method and apparatus for improving the prediction of a block of the enhancement layer | |
CN117528085B (zh) | 一种基于智能特征聚类的视频压缩编码方法 | |
CN117425013B (zh) | 一种基于可逆架构的视频传输方法和系统 | |
CN113840144B (zh) | 图像分量的预测方法、编码器、解码器及计算机存储介质 | |
WO2022246809A1 (zh) | 编解码方法、码流、编码器、解码器以及存储介质 | |
CN114095728B (zh) | 一种端到端的视频压缩方法、装置和计算机可读存储介质 | |
WO2024077738A1 (en) | Learned image compression based on fast residual channel attention network | |
CN117939146A (zh) | 一种视频编码方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |