CN110225342B - 基于语义失真度量的视频编码的比特分配系统及方法 - Google Patents

基于语义失真度量的视频编码的比特分配系统及方法 Download PDF

Info

Publication number
CN110225342B
CN110225342B CN201910286965.4A CN201910286965A CN110225342B CN 110225342 B CN110225342 B CN 110225342B CN 201910286965 A CN201910286965 A CN 201910286965A CN 110225342 B CN110225342 B CN 110225342B
Authority
CN
China
Prior art keywords
map
video
gradient
bit allocation
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910286965.4A
Other languages
English (en)
Other versions
CN110225342A (zh
Inventor
陈志波
李业
石隽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201910286965.4A priority Critical patent/CN110225342B/zh
Publication of CN110225342A publication Critical patent/CN110225342A/zh
Application granted granted Critical
Publication of CN110225342B publication Critical patent/CN110225342B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本公开提供了基于语义失真度量的视频编码的比特分配系统及方法其比特分配系统,包括:重要性图提取模块、比特分配模块和编码器模块;重要性图提取模块在语义理解任务驱动下,从原始视频中提取空域和/或时域的关键特征,得到表征视频不同空域和/或时域内容对于语义理解任务重要性程度的权重因子的图,作为重要性图;比特分配模块接收所述重要性图提取模块提供的视频不同空域和/或时域内容的权重因子,为视频不同区域和不同帧分配比特,并确定编码参数;编码器模块接收所述比特分配模块确定的编码参数,进行编码,同时将编码后的结果反馈给比特分配模块。本公开在实际应用中可根据具体视频分析任务,对不同的语义分析任务具有灵活性。

Description

基于语义失真度量的视频编码的比特分配系统及方法
技术领域
本公开涉及视频编码的比特分配领域,尤其涉及一种基于语义失真度量的视频编码的比特分配系统及方法。
背景技术
在当前视频技术的应用场景下,视频编码和视频分析被当做两个独立的过程,由不同的模块完成。其中比特分配的目的是为视频的不同空域区域和不同的时域帧分配合适的比特,以达到在总编码比特限制的条件下,最优化编码后视频的失真度量。一般视频编码后的失真可分为三个等级,即像素级失真,感知级失真和语义级失真。
随着计算机视觉技术的不断发展,未来的视频在更多应用场景下是由机器进行语义级的智能分析,如目标跟踪、行人重识别等,这就需要在视频压缩过程中要保证语义信息不丢失。然而由于在已有技术中视频编码独立于视频分析进行,编码过程少有考虑后续视频分析的应用。
因此在编码的优化过程中,考虑的只有像素级失真和感知级失真,这样导致的后果就是经编码后的视频会损失语义信息,也就使得机器进行语义分析时准确度下降。
发明内容
(一)要解决的技术问题
本公开提供了一种基于语义失真度量的视频编码的比特分配系统及方法,以至少部分解决以上所提出的技术问题。
(二)技术方案
根据本公开的一个方面,提供了一种基于语义失真度量的视频编码的比特分配系统,包括:重要性图提取模块、比特分配模块和编码器模块;重要性图提取模块在语义理解任务驱动下,从原始视频中提取空域和/或时域的关键特征,得到表征视频不同空域和/或时域内容对于语义理解任务重要性程度的权重因子的图,作为重要性图。比特分配模块接收所述重要性图提取模块提供的视频不同空域和/或时域内容的权重因子,为视频不同区域和不同帧分配比特,并确定编码参数。编码器模块接收所述比特分配模块确定的编码参数,进行编码,同时将编码后的结果反馈给比特分配模块。
根据本公开的另一个方面,提供了一种基于局域语义失真度量的视频编码的比特分配方法,包括:步骤S100:在语义理解任务驱动下,从原始视频中提取空域和/或时域的关键特征,得到表征视频不同空域和/或时域内容对于语义理解任务重要性程度的权重因子的图,作为重要性图;步骤S200:接收所述步骤S100提供的视频在特定语义理解任务下的重要性图,为视频不同区域和不同帧分配比特,并确定编码参数;步骤S300:接收所述步骤S200确定的编码参数,进行编码,同时将编码后的结果反馈给比特分配模块。
在本公开的一些实施例中,所述步骤S100包括:子步骤S110:基于已经训练好的用于语义分析任务的神经网络,对原始视频中的输入图像进行一次前向传播计算;子步骤S120:从语义分析任务的神经网络的输出端选取某个神经元,从该神经元的输出量执行一次反向传播计算,得到最后一层卷积层特征图的梯度;子步骤S130:从子步骤S120得到卷积层特征图的梯度,经过全局平均池化和加权求和,得到梯度热度图;子步骤S140:从子步骤S120中选取神经元的输出量执行一次导向反向传播计算,得到输入图像的梯度,即导向传播图;子步骤S150:将子步骤S130得到的梯度热度图进行上采样操作,使其变成与输入图像相同大小,然后将上采样后的梯度热度图与子步骤S140中得到的导向传播图相加,得到最终的表征了原始视频不同空域和/或时域内容权重因子的重要性图。
在本公开的一些实施例中,所述子步骤S110还包括:在语义理解任务驱动下,从原始视频中提取空域和/或时域的关键特征,得到原始视频不同空域和/或时域内容的权重因子。
在本公开的一些实施例中,所述子步骤S130还包括:子分步骤S131:根据子步骤S120得到卷积层特征图的梯度,经过全局平均池化操作,得到特征图在每个通道上的权重:
Figure BDA0002022754750000021
其中,wi为特征图梯度在第i个通道上经池化后得到的权重值;(N,M)分别表示特征图的宽和高;Gradi,n,m表示特征图梯度在第i个通道上坐标(n,m)处的取值;
子分步骤S132:根据子分步骤S131得到的权重,对最后一个卷积层的特征图按照通道进行加权求和,得到梯度热度图:
Figure BDA0002022754750000031
其中,GradCam表示得到的梯度热图度;Fi表示第i个通道上的特征图。
在本公开的一些实施例中,所述子步骤S140中的导向反向传播与普通反向传播的不同之处经过线性整流函数层时,将前向传播时线性整流函数层的输入和反向传播时线性整流函数层的梯度均大于零所对应的梯度回传,定义为:
Figure BDA0002022754750000032
其中,
Figure BDA0002022754750000033
表示第l层的梯度;Fi l表示第l层的特征;
Figure BDA0002022754750000034
表示第l+1层的梯度。
在本公开的一些实施例中,所述步骤S100中对于原始视频的图像组中的每一张图像,计算每一张图像所有像素重要性因子的平均值,作为该图像的重要性因子
Ii=avg(Mapi,n,m)
其中Ii表示第i张图像的重要性因子,Mapi,n,m表示第i张重要性图,在位置(n,m)除的重要性因子。
在本公开的一些实施例中,所述步骤S200中对于原始视频的图像组的总比特数,按照每张图像的重要性因子作为权重进行比特分配,
Figure BDA0002022754750000035
其中,Ri表示给第i张图分配的比特数,NG表示图像组中包含图像的数目,RGOP表示图像组的总比特数。
在本公开的一些实施例中,所述步骤S200中对每张图像进行编码时,以64x64的编码块为单位,将当前块的像素值、当前块的重要性因子图以及上下文信息,作为强化学习模块状态空间的输入;经过网络计算后,强化学习模块输出当前块的编码参数。
在本公开的一些实施例中,所述步骤S300包括:子步骤S310:根据得到的lambda和QP参数,对当前64x64块进行编码;子步骤S320:将当前块的编码结果回传给比特分配模型,用来更新状态。
(三)有益效果
从上述技术方案可以看出,本公开基于语义失真度量的视频编码的比特分配系统及方法至少具有以下有益效果其中之一或其中一部分:
(1)在视频编码过程中对编码参数进行动态决策中,通过视频分析任务驱动生成重要性图,赋予视频不同内容以不同的失真权值,以用于比特分配过程的决策因素。
(2)本公开在实际应用中可根据具体视频分析任务,如目标检测与跟踪,视频内容理解等进行替代,对不同的语义分析任务具有灵活性。
附图说明
图1为基于学习的视频语义失真度量下比特分配方案的框架图。
图2为重要性图生成模块的框架图。
图3为基于强化学习的比特分配框架示意图。
具体实施方式
本公开提供了基于语义失真度量的视频编码的比特分配系统及方法其比特分配系统,包括:重要性图提取模块、比特分配模块和编码器模块;重要性图提取模块在语义理解任务驱动下,从原始视频中提取空域和/或时域的关键特征,得到表征视频不同空域和/或时域内容对于语义理解任务重要性程度的权重因子的图,作为重要性图;比特分配模块接收所述重要性图提取模块提供的视频不同空域和/或时域内容的权重因子,为视频不同区域和不同帧分配比特,并确定编码参数;编码器模块接收所述比特分配模块确定的编码参数,进行编码,同时将编码后的结果反馈给比特分配模块。本公开在实际应用中可根据具体视频分析任务,对不同的语义分析任务具有灵活性。
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
本公开某些实施例于后方将参照所附附图做更全面性地描述,其中一些但并非全部的实施例将被示出。实际上,本公开的各种实施例可以许多不同形式实现,而不应被解释为限于此数所阐述的实施例;相对地,提供这些实施例使得本公开满足适用的法律要求。
在本公开的一个示例性实施例中,提供了一种基于语义失真度量的视频编码的比特分配系统。图1为基于学习的视频语义失真度量下比特分配方案的框架图。如图1所示,本公开基于语义失真度量的视频编码的比特分配系统,包括:重要性图提取模块、比特分配模块和编码器模块。重要性图提取模块在语义理解任务驱动下,从原始视频中提取空域和/或时域的关键特征,得到表征视频不同空域和/或时域内容对于语义理解任务重要性程度的权重因子的图,作为重要性图。比特分配模块接收所述重要性图提取模块提供的视频不同空域和/或时域内容的权重因子,为视频不同区域和不同帧分配比特,并确定编码参数。编码器模块接收所述比特分配模块确定的编码参数,进行编码,同时将编码后的结果反馈给比特分配模块。
在本公开的一个示例性实施例中,还提供了一种基于局域语义失真度量的视频编码的比特分配方法。图2为重要性图生成模块的框架图。图3为基于强化学习的比特分配框架示意图。如图2、图3所示,本公开基于局域语义失真度量的视频编码的比特分配方法,包括:步骤S100:在语义理解任务驱动下,从原始视频中提取空域和/或时域的关键特征,得到表征视频不同空域和/或时域内容对于语义理解任务重要性程度的权重因子的图,作为重要性图。步骤S200:接收所述步骤S100提供的视频在特定语义理解任务下的重要性图,为视频不同区域和不同帧分配比特,并确定编码参数。步骤S300:接收所述步骤S200确定的编码参数,进行编码,同时将编码后的结果反馈给比特分配模块。
具体的,所述步骤S100中对于原始视频的图像组中的每一张图像,计算每一张图像所有像素重要性因子的平均值,作为该图像的重要性因子,
Ii=avg(Mapi,n,m)
其中,Ii表示第i张图像的重要性因子,Mapi,n,m表示第i张重要性图,在位置(n,m)除的重要性因子。
更进一步地,所述步骤S100包括:
子步骤S110:基于已经训练好的用于语义分析任务的神经网络,对原始视频中的输入图像进行一次前向传播计算。进一步地,所述子步骤S110还包括:在语义理解任务驱动下,从原始视频中提取空域和/或时域的关键特征,得到原始视频不同空域和/或时域内容的权重因子。
子步骤S120:从语义分析任务的神经网络的输出端选取某个神经元,从该神经元的输出量执行一次反向传播计算,得到最后一层卷积层特征图的梯度。
子步骤S130:从子步骤S120得到卷积层特征图的梯度,经过全局平均池化和加权求和,得到梯度热度图。进一步地,所述子步骤S130还包括:
子分步骤S131:根据子步骤S120得到卷积层特征图的梯度,经过全局平均池化操作,得到特征图在每个通道上的权重:
Figure BDA0002022754750000061
其中,wi为特征图梯度在第i个通道上经池化后得到的权重值;(N,M)分别表示特征图的宽和高;Gradi,n,m表示特征图梯度在第i个通道上坐标(n,m)处的取值;
子分步骤S132:根据子分步骤S131得到的权重,对最后一个卷积层的特征图按照通道进行加权求和,得到梯度热度图:
Figure BDA0002022754750000062
其中,GradCam表示得到的梯度热图度;Fi表示第i个通道上的特征图。
子步骤S140:从子步骤S120中选取神经元的输出量执行一次导向反向传播计算,得到输入图像的梯度,即导向传播图。其中,所述子步骤S140中的导向反向传播与普通反向传播的不同之处经过线性整流函数层时,将前向传播时线性整流层的输入和反向传播时线性整流函数层的梯度均大于零所对应的梯度回传,定义为:
Figure BDA0002022754750000071
其中,
Figure BDA0002022754750000072
表示第l层的梯度;Fi l表示第l层的特征;
Figure BDA0002022754750000073
表示第l+1层的梯度。
子步骤S150:将子步骤S130得到的梯度热度图进行上采样操作,使其变成与输入图像相同大小,然后将上采样后的梯度热度图与子步骤S140中得到的导向传播图相加,得到最终的表征了原始视频不同空域和/或时域内容权重因子的重要性图。
具体的,所述步骤S200中对于原始视频的图像组的总比特数,按照每张图像的重要性因子作为权重进行比特分配,
Figure BDA0002022754750000074
其中,Ri表示给第i张图分配的比特数,NG表示图像组中包含图像的数目,RGOP表示图像组的总比特数。
在一些实施例中,所述步骤S200中对每张图像进行编码时,以64x64的编码块为单位,将当前块的像素值、当前块的重要性因子图以及上下文信息,作为强化学习模块状态空间的输入;经过网络计算后,强化学习模块输出当前块的编码参数。
具体的,所述步骤S300包括:子步骤S310:根据得到的lambda和QP参数,对当前64x64块进行编码;子步骤S320:将当前块的编码结果回传给比特分配模型,用来更新状态。
至此,已经结合附图对本公开实施例进行了详细描述。需要说明的是,在附图或说明书正文中,未绘示或描述的实现方式,均为所属技术领域中普通技术人员所知的形式,并未进行详细说明。此外,上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式,本领域普通技术人员可对其进行简单地更改或替换。
依据以上描述,本领域技术人员应当对本公开基于语义失真度量的视频编码的比特分配系统及方法有了清楚的认识。
综上所述,本公开提供一种能够对不同的语义分析任务具有灵活性的基于语义失真度量的视频编码的比特分配系统及方法,其在视频编码过程中对编码参数进行动态决策中,通过视频分析任务驱动生成重要性图,赋予视频不同内容以不同的失真权值,以用于比特分配过程的决策因素。适于在视频编码的比特分配领域广泛发展。
此外,除非特别描述或必须依序发生的步骤,上述步骤的顺序并无限制于以上所列,且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑,彼此混合搭配使用或与其他实施例混合搭配使用,即不同实施例中的技术特征可以自由组合形成更多的实施例。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的启示一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本公开也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本公开的内容,并且上面对特定语言所做的描述是为了披露本公开的最佳实施方式。
本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。本公开的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开实施例的相关设备中的一些或者全部部件的一些或者全部功能。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。并且,在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。
类似地,应当理解,为了精简本公开并帮助理解各个公开方面中的一个或多个,在上面对本公开的示例性实施例的描述中,本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,公开方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的单独实施例。
以上所述的具体实施例,对本公开的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本公开的具体实施例而已,并不用于限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (9)

1.一种基于局域语义失真度量的视频编码的比特分配方法,包括:
步骤S100:在语义理解任务驱动下,从原始视频中提取空域和/或时域的关键特征,得到表征视频不同空域和/或时域内容对于语义理解任务重要性程度的权重因子的图,作为重要性图;其中,所述步骤S100包括:
子步骤S110:基于已经训练好的用于语义分析任务的神经网络,对原始视频中的输入图像进行一次前向传播计算;
子步骤S120:从语义分析任务的神经网络的输出端选取某个神经元,从该神经元的输出量执行一次反向传播计算,得到最后一层卷积层特征图的梯度;
子步骤S130:从子步骤S120得到卷积层特征图的梯度,经过全局平均池化和加权求和,得到梯度热度图;
子步骤S140:从子步骤S120中选取神经元的输出量执行一次导向反向传播计算,得到输入图像的梯度,即导向传播图;
子步骤S150:将子步骤S130得到的梯度热度图进行上采样操作,使其变成与输入图像相同大小,然后将上采样后的梯度热度图与子步骤S140中得到的导向传播图相加,得到最终的表征了原始视频不同空域和/或时域内容权重因子的重要性图;
步骤S200:接收所述步骤S100提供的视频在特定语义理解任务下的重要性图,为视频不同区域和不同帧分配比特,并确定编码参数;
步骤S300:接收所述步骤S200确定的编码参数,进行编码,同时将编码后的结果反馈给比特分配模块。
2.根据权利要求1所述的基于局域语义失真度量的视频编码的比特分配方法,其中,所述子步骤S110还包括:在语义理解任务驱动下,从原始视频中提取空域和/或时域的关键特征,得到原始视频不同空域和/或时域内容的权重因子。
3.根据权利要求1所述的基于局域语义失真度量的视频编码的比特分配方法,其中,所述子步骤S130还包括:
子分步骤S131:根据子步骤S120得到卷积层特征图的梯度,经过全局平均池化操作,得到特征图在每个通道上的权重:
Figure FDA0002819476490000021
其中,wi为特征图梯度在第i个通道上经池化后得到的权重值;(N,M)分别表示特征图的宽和高;Gradi,n,m表示特征图梯度在第i个通道上坐标(n,m)处的取值;
子分步骤S132:根据子分步骤S131得到的权重,对最后一个卷积层的特征图按照通道进行加权求和,得到梯度热度图:
Figure FDA0002819476490000022
其中,GradCam表示得到的梯度热图度;Fi表示第i个通道上的特征图。
4.根据权利要求1所述的基于局域语义失真度量的视频编码的比特分配方法,其中,所述子步骤S140中的导向反向传播与普通反向传播的不同之处经过线性整流函数层时,将前向传播时线性整流函数层的输入和反向传播时线性整流函数层的梯度均大于零所对应的梯度回传,定义为:
Figure FDA0002819476490000023
其中,
Figure FDA0002819476490000024
表示第l层的梯度;Fi l表示第l层的特征;
Figure FDA0002819476490000025
表示第l+1层的梯度。
5.根据权利要求1所述的基于局域语义失真度量的视频编码的比特分配方法,其中,所述步骤S100中对于原始视频的图像组中的每一张图像,计算每一张图像所有像素重要性因子的平均值,作为该图像的重要性因子
Ii=avg(Mapi,n,m)
其中Ii表示第i张图像的重要性因子,Mapi,n,m表示第i张重要性图,在位置(n,m)处的重要性因子。
6.根据权利要求1所述的基于局域语义失真度量的视频编码的比特分配方法,其中,所述步骤S200中对于原始视频的图像组的总比特数,按照每张图像的重要性因子作为权重进行比特分配,
Figure FDA0002819476490000031
其中,Ri表示给第i张图分配的比特数,NG表示图像组中包含图像的数目,RGOP表示图像组的总比特数。
7.根据权利要求1所述的基于局域语义失真度量的视频编码的比特分配方法,其中,所述步骤S200中对每张图像进行编码时,以64x64的编码块为单位,将当前块的像素值、当前块的重要性因子图以及上下文信息,作为强化学习模块状态空间的输入;经过网络计算后,强化学习模块输出当前块的编码参数。
8.根据权利要求1所述的基于局域语义失真度量的视频编码的比特分配方法,其中,所述步骤S300包括:
子步骤S310:根据得到的lambda和QP参数,对当前64x64块进行编码;
子步骤S320:将当前块的编码结果回传给比特分配模型,用来更新状态。
9.一种基于语义失真度量的视频编码的比特分配系统,包括:
重要性图提取模块,在语义理解任务驱动下,从原始视频中提取空域和/或时域的关键特征,得到表征视频不同空域和/或时域内容对于语义理解任务重要性程度的权重因子的图,作为重要性图;其中,所述重要性图提取模块还包括:
第一子模块,配置为基于已经训练好的用于语义分析任务的神经网络,对原始视频中的输入图像进行一次前向传播计算;
第二子模块,配置为从语义分析任务的神经网络的输出端选取某个神经元,从该神经元的输出量执行一次反向传播计算,得到最后一层卷积层特征图的梯度;
第三子模块,配置为从所述第二子模块得到卷积层特征图的梯度,经过全局平均池化和加权求和,得到梯度热度图;
第四子模块,配置为从所述第二子模块中选取神经元的输出量执行一次导向反向传播计算,得到输入图像的梯度,即导向传播图;
第五子模块,配置为将所述第三子模块得到的梯度热度图进行上采样操作,使其变成与输入图像相同大小,然后将上采样后的梯度热度图与所述第四子模块中得到的导向传播图相加,得到最终的表征了原始视频不同空域和/或时域内容权重因子的重要性图;
比特分配模块,接收所述重要性图提取模块提供的视频不同空域和/或时域内容的权重因子,为视频不同区域和不同帧分配比特,并确定编码参数;
编码器模块,接收所述比特分配模块确定的编码参数,进行编码,同时将编码后的结果反馈给比特分配模块。
CN201910286965.4A 2019-04-10 2019-04-10 基于语义失真度量的视频编码的比特分配系统及方法 Active CN110225342B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910286965.4A CN110225342B (zh) 2019-04-10 2019-04-10 基于语义失真度量的视频编码的比特分配系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910286965.4A CN110225342B (zh) 2019-04-10 2019-04-10 基于语义失真度量的视频编码的比特分配系统及方法

Publications (2)

Publication Number Publication Date
CN110225342A CN110225342A (zh) 2019-09-10
CN110225342B true CN110225342B (zh) 2021-03-09

Family

ID=67822508

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910286965.4A Active CN110225342B (zh) 2019-04-10 2019-04-10 基于语义失真度量的视频编码的比特分配系统及方法

Country Status (1)

Country Link
CN (1) CN110225342B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110996101B (zh) * 2019-11-22 2022-05-27 网宿科技股份有限公司 一种视频编码的方法和装置
CN113259665B (zh) * 2020-02-07 2022-08-09 华为技术有限公司 一种图像处理方法以及相关设备
CN114448563B (zh) * 2021-12-13 2024-03-08 北京邮电大学 语义编码传输方法及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010127173A2 (en) * 2009-04-30 2010-11-04 Reservoir Labs, Inc. System, apparatus and methods to implement high-speed network analyzers
CN106063266A (zh) * 2014-01-10 2016-10-26 汤姆逊许可公司 用于编码图像数据的方法和装置以及用于解码图像数据的方法和装置
CN106604031A (zh) * 2016-11-22 2017-04-26 金华就约我吧网络科技有限公司 一种基于兴趣区域的h.265视频质量提升方法
CN108989818A (zh) * 2017-05-31 2018-12-11 深圳市中兴微电子技术有限公司 一种图像编码参数调整方法及装置
CN109101975A (zh) * 2018-08-20 2018-12-28 电子科技大学 基于全卷积神经网络的图像语义分割方法
CN109309834A (zh) * 2018-11-21 2019-02-05 北京航空航天大学 基于卷积神经网络和hevc压缩域显著信息的视频压缩方法
CN109409221A (zh) * 2018-09-20 2019-03-01 中国科学院计算技术研究所 基于帧选择的视频内容描述方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010127173A2 (en) * 2009-04-30 2010-11-04 Reservoir Labs, Inc. System, apparatus and methods to implement high-speed network analyzers
CN106063266A (zh) * 2014-01-10 2016-10-26 汤姆逊许可公司 用于编码图像数据的方法和装置以及用于解码图像数据的方法和装置
CN106604031A (zh) * 2016-11-22 2017-04-26 金华就约我吧网络科技有限公司 一种基于兴趣区域的h.265视频质量提升方法
CN108989818A (zh) * 2017-05-31 2018-12-11 深圳市中兴微电子技术有限公司 一种图像编码参数调整方法及装置
CN109101975A (zh) * 2018-08-20 2018-12-28 电子科技大学 基于全卷积神经网络的图像语义分割方法
CN109409221A (zh) * 2018-09-20 2019-03-01 中国科学院计算技术研究所 基于帧选择的视频内容描述方法和系统
CN109309834A (zh) * 2018-11-21 2019-02-05 北京航空航天大学 基于卷积神经网络和hevc压缩域显著信息的视频压缩方法

Also Published As

Publication number Publication date
CN110225342A (zh) 2019-09-10

Similar Documents

Publication Publication Date Title
CN110225342B (zh) 基于语义失真度量的视频编码的比特分配系统及方法
CN112102212B (zh) 一种视频修复方法、装置、设备及存储介质
US20200007872A1 (en) Video decoding method, video decoder, video encoding method and video encoder
CN110689599A (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
CN111182303A (zh) 共享屏幕的编码方法、装置、计算机可读介质及电子设备
CN110139102B (zh) 视频编码复杂度的预测方法、装置、设备和存储介质
CN114926766A (zh) 识别方法及装置、设备、计算机可读存储介质
CN115294282A (zh) 三维场景重建中增强特征融合的单目深度估计系统及其方法
US10536696B2 (en) Image encoding device and image encoding method
CN113850900A (zh) 三维重建中基于图像和几何线索恢复深度图的方法及系统
CN114332094A (zh) 基于轻量级多尺度信息融合网络的语义分割方法及装置
CN111179201A (zh) 一种视频去噪方法和电子设备
CN113066018A (zh) 一种图像增强方法及相关装置
CN116205820A (zh) 图像增强方法、目标识别方法、设备及介质
CN113838134B (zh) 图像关键点检测方法、装置、终端和存储介质
CN114119694A (zh) 一种基于改进U-Net的自监督单目深度估计算法
CN117036436A (zh) 一种基于双编码器-解码器的单目深度估计方法及系统
CN111935484A (zh) 一种视频帧压缩编码方法及装置
WO2023142715A1 (zh) 视频编码方法、实时通信方法、装置、设备及存储介质
CN111583345A (zh) 一种相机参数的获取方法、装置、设备及存储介质
CN113808157B (zh) 图像处理方法、装置、及计算机设备
CN113591838B (zh) 目标检测方法、装置、电子设备和存储介质
Yang et al. Real-time hardware stereo matching using guided image filter
CN115471413A (zh) 图像处理方法及装置、计算机可读存储介质和电子设备
CN115115560A (zh) 图像处理方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant