CN110225342B

CN110225342B - 基于语义失真度量的视频编码的比特分配系统及方法

Info

Publication number: CN110225342B
Application number: CN201910286965.4A
Authority: CN
Inventors: 陈志波; 李业; 石隽
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-04-10
Filing date: 2019-04-10
Publication date: 2021-03-09
Anticipated expiration: 2039-04-10
Also published as: CN110225342A

Abstract

本公开提供了基于语义失真度量的视频编码的比特分配系统及方法其比特分配系统，包括：重要性图提取模块、比特分配模块和编码器模块；重要性图提取模块在语义理解任务驱动下，从原始视频中提取空域和/或时域的关键特征，得到表征视频不同空域和/或时域内容对于语义理解任务重要性程度的权重因子的图，作为重要性图；比特分配模块接收所述重要性图提取模块提供的视频不同空域和/或时域内容的权重因子，为视频不同区域和不同帧分配比特，并确定编码参数；编码器模块接收所述比特分配模块确定的编码参数，进行编码，同时将编码后的结果反馈给比特分配模块。本公开在实际应用中可根据具体视频分析任务，对不同的语义分析任务具有灵活性。

Description

基于语义失真度量的视频编码的比特分配系统及方法

技术领域

本公开涉及视频编码的比特分配领域，尤其涉及一种基于语义失真度量的视频编码的比特分配系统及方法。

背景技术

在当前视频技术的应用场景下，视频编码和视频分析被当做两个独立的过程，由不同的模块完成。其中比特分配的目的是为视频的不同空域区域和不同的时域帧分配合适的比特，以达到在总编码比特限制的条件下，最优化编码后视频的失真度量。一般视频编码后的失真可分为三个等级，即像素级失真，感知级失真和语义级失真。

随着计算机视觉技术的不断发展，未来的视频在更多应用场景下是由机器进行语义级的智能分析，如目标跟踪、行人重识别等，这就需要在视频压缩过程中要保证语义信息不丢失。然而由于在已有技术中视频编码独立于视频分析进行，编码过程少有考虑后续视频分析的应用。

因此在编码的优化过程中，考虑的只有像素级失真和感知级失真，这样导致的后果就是经编码后的视频会损失语义信息，也就使得机器进行语义分析时准确度下降。

发明内容

(一)要解决的技术问题

本公开提供了一种基于语义失真度量的视频编码的比特分配系统及方法，以至少部分解决以上所提出的技术问题。

(二)技术方案

根据本公开的一个方面，提供了一种基于语义失真度量的视频编码的比特分配系统，包括：重要性图提取模块、比特分配模块和编码器模块；重要性图提取模块在语义理解任务驱动下，从原始视频中提取空域和/或时域的关键特征，得到表征视频不同空域和/或时域内容对于语义理解任务重要性程度的权重因子的图，作为重要性图。比特分配模块接收所述重要性图提取模块提供的视频不同空域和/或时域内容的权重因子，为视频不同区域和不同帧分配比特，并确定编码参数。编码器模块接收所述比特分配模块确定的编码参数，进行编码，同时将编码后的结果反馈给比特分配模块。

根据本公开的另一个方面，提供了一种基于局域语义失真度量的视频编码的比特分配方法，包括：步骤S100：在语义理解任务驱动下，从原始视频中提取空域和/或时域的关键特征，得到表征视频不同空域和/或时域内容对于语义理解任务重要性程度的权重因子的图，作为重要性图；步骤S200：接收所述步骤S100提供的视频在特定语义理解任务下的重要性图，为视频不同区域和不同帧分配比特，并确定编码参数；步骤S300：接收所述步骤S200确定的编码参数，进行编码，同时将编码后的结果反馈给比特分配模块。

在本公开的一些实施例中，所述步骤S100包括：子步骤S110：基于已经训练好的用于语义分析任务的神经网络，对原始视频中的输入图像进行一次前向传播计算；子步骤S120：从语义分析任务的神经网络的输出端选取某个神经元，从该神经元的输出量执行一次反向传播计算，得到最后一层卷积层特征图的梯度；子步骤S130：从子步骤S120得到卷积层特征图的梯度，经过全局平均池化和加权求和，得到梯度热度图；子步骤S140：从子步骤S120中选取神经元的输出量执行一次导向反向传播计算，得到输入图像的梯度，即导向传播图；子步骤S150：将子步骤S130得到的梯度热度图进行上采样操作，使其变成与输入图像相同大小，然后将上采样后的梯度热度图与子步骤S140中得到的导向传播图相加，得到最终的表征了原始视频不同空域和/或时域内容权重因子的重要性图。

在本公开的一些实施例中，所述子步骤S110还包括：在语义理解任务驱动下，从原始视频中提取空域和/或时域的关键特征，得到原始视频不同空域和/或时域内容的权重因子。

在本公开的一些实施例中，所述子步骤S130还包括：子分步骤S131：根据子步骤S120得到卷积层特征图的梯度，经过全局平均池化操作，得到特征图在每个通道上的权重：

其中，w_i为特征图梯度在第i个通道上经池化后得到的权重值；(N，M)分别表示特征图的宽和高；Grad_i，n，m表示特征图梯度在第i个通道上坐标(n，m)处的取值；

子分步骤S132：根据子分步骤S131得到的权重，对最后一个卷积层的特征图按照通道进行加权求和，得到梯度热度图：

其中，Grad_Cam表示得到的梯度热图度；F_i表示第i个通道上的特征图。

在本公开的一些实施例中，所述子步骤S140中的导向反向传播与普通反向传播的不同之处经过线性整流函数层时，将前向传播时线性整流函数层的输入和反向传播时线性整流函数层的梯度均大于零所对应的梯度回传，定义为：

其中，

表示第l层的梯度；F_i ^l表示第l层的特征；

表示第l+1层的梯度。

在本公开的一些实施例中，所述步骤S100中对于原始视频的图像组中的每一张图像，计算每一张图像所有像素重要性因子的平均值，作为该图像的重要性因子

I_i＝avg(Map_i，n，m)

其中I_i表示第i张图像的重要性因子，Map_i，n，m表示第i张重要性图，在位置(n，m)除的重要性因子。

在本公开的一些实施例中，所述步骤S200中对于原始视频的图像组的总比特数，按照每张图像的重要性因子作为权重进行比特分配，

其中，R_i表示给第i张图分配的比特数，N_G表示图像组中包含图像的数目，R_GOP表示图像组的总比特数。

在本公开的一些实施例中，所述步骤S200中对每张图像进行编码时，以64x64的编码块为单位，将当前块的像素值、当前块的重要性因子图以及上下文信息，作为强化学习模块状态空间的输入；经过网络计算后，强化学习模块输出当前块的编码参数。

在本公开的一些实施例中，所述步骤S300包括：子步骤S310：根据得到的lambda和QP参数，对当前64x64块进行编码；子步骤S320：将当前块的编码结果回传给比特分配模型，用来更新状态。

(三)有益效果

从上述技术方案可以看出，本公开基于语义失真度量的视频编码的比特分配系统及方法至少具有以下有益效果其中之一或其中一部分：

(1)在视频编码过程中对编码参数进行动态决策中，通过视频分析任务驱动生成重要性图，赋予视频不同内容以不同的失真权值，以用于比特分配过程的决策因素。

(2)本公开在实际应用中可根据具体视频分析任务，如目标检测与跟踪，视频内容理解等进行替代，对不同的语义分析任务具有灵活性。

附图说明

图1为基于学习的视频语义失真度量下比特分配方案的框架图。

图2为重要性图生成模块的框架图。

图3为基于强化学习的比特分配框架示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

本公开某些实施例于后方将参照所附附图做更全面性地描述，其中一些但并非全部的实施例将被示出。实际上，本公开的各种实施例可以许多不同形式实现，而不应被解释为限于此数所阐述的实施例；相对地，提供这些实施例使得本公开满足适用的法律要求。

在本公开的一个示例性实施例中，提供了一种基于语义失真度量的视频编码的比特分配系统。图1为基于学习的视频语义失真度量下比特分配方案的框架图。如图1所示，本公开基于语义失真度量的视频编码的比特分配系统，包括：重要性图提取模块、比特分配模块和编码器模块。重要性图提取模块在语义理解任务驱动下，从原始视频中提取空域和/或时域的关键特征，得到表征视频不同空域和/或时域内容对于语义理解任务重要性程度的权重因子的图，作为重要性图。比特分配模块接收所述重要性图提取模块提供的视频不同空域和/或时域内容的权重因子，为视频不同区域和不同帧分配比特，并确定编码参数。编码器模块接收所述比特分配模块确定的编码参数，进行编码，同时将编码后的结果反馈给比特分配模块。

在本公开的一个示例性实施例中，还提供了一种基于局域语义失真度量的视频编码的比特分配方法。图2为重要性图生成模块的框架图。图3为基于强化学习的比特分配框架示意图。如图2、图3所示，本公开基于局域语义失真度量的视频编码的比特分配方法，包括：步骤S100：在语义理解任务驱动下，从原始视频中提取空域和/或时域的关键特征，得到表征视频不同空域和/或时域内容对于语义理解任务重要性程度的权重因子的图，作为重要性图。步骤S200：接收所述步骤S100提供的视频在特定语义理解任务下的重要性图，为视频不同区域和不同帧分配比特，并确定编码参数。步骤S300：接收所述步骤S200确定的编码参数，进行编码，同时将编码后的结果反馈给比特分配模块。

具体的，所述步骤S100中对于原始视频的图像组中的每一张图像，计算每一张图像所有像素重要性因子的平均值，作为该图像的重要性因子，

I_i＝avg(Map_i，n，m)

其中，I_i表示第i张图像的重要性因子，Map_i，n，m表示第i张重要性图，在位置(n，m)除的重要性因子。

更进一步地，所述步骤S100包括：

子步骤S110：基于已经训练好的用于语义分析任务的神经网络，对原始视频中的输入图像进行一次前向传播计算。进一步地，所述子步骤S110还包括：在语义理解任务驱动下，从原始视频中提取空域和/或时域的关键特征，得到原始视频不同空域和/或时域内容的权重因子。

子步骤S120：从语义分析任务的神经网络的输出端选取某个神经元，从该神经元的输出量执行一次反向传播计算，得到最后一层卷积层特征图的梯度。

子步骤S130：从子步骤S120得到卷积层特征图的梯度，经过全局平均池化和加权求和，得到梯度热度图。进一步地，所述子步骤S130还包括：

子分步骤S131：根据子步骤S120得到卷积层特征图的梯度，经过全局平均池化操作，得到特征图在每个通道上的权重：

子步骤S140：从子步骤S120中选取神经元的输出量执行一次导向反向传播计算，得到输入图像的梯度，即导向传播图。其中，所述子步骤S140中的导向反向传播与普通反向传播的不同之处经过线性整流函数层时，将前向传播时线性整流层的输入和反向传播时线性整流函数层的梯度均大于零所对应的梯度回传，定义为：

其中，

表示第l层的梯度；F_i ^l表示第l层的特征；

表示第l+1层的梯度。

子步骤S150：将子步骤S130得到的梯度热度图进行上采样操作，使其变成与输入图像相同大小，然后将上采样后的梯度热度图与子步骤S140中得到的导向传播图相加，得到最终的表征了原始视频不同空域和/或时域内容权重因子的重要性图。

具体的，所述步骤S200中对于原始视频的图像组的总比特数，按照每张图像的重要性因子作为权重进行比特分配，

在一些实施例中，所述步骤S200中对每张图像进行编码时，以64x64的编码块为单位，将当前块的像素值、当前块的重要性因子图以及上下文信息，作为强化学习模块状态空间的输入；经过网络计算后，强化学习模块输出当前块的编码参数。

具体的，所述步骤S300包括：子步骤S310：根据得到的lambda和QP参数，对当前64x64块进行编码；子步骤S320：将当前块的编码结果回传给比特分配模型，用来更新状态。

至此，已经结合附图对本公开实施例进行了详细描述。需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换。

依据以上描述，本领域技术人员应当对本公开基于语义失真度量的视频编码的比特分配系统及方法有了清楚的认识。

综上所述，本公开提供一种能够对不同的语义分析任务具有灵活性的基于语义失真度量的视频编码的比特分配系统及方法，其在视频编码过程中对编码参数进行动态决策中，通过视频分析任务驱动生成重要性图，赋予视频不同内容以不同的失真权值，以用于比特分配过程的决策因素。适于在视频编码的比特分配领域广泛发展。

此外，除非特别描述或必须依序发生的步骤，上述步骤的顺序并无限制于以上所列，且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑，彼此混合搭配使用或与其他实施例混合搭配使用，即不同实施例中的技术特征可以自由组合形成更多的实施例。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的启示一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本公开也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本公开的内容，并且上面对特定语言所做的描述是为了披露本公开的最佳实施方式。

本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。本公开的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开实施例的相关设备中的一些或者全部部件的一些或者全部功能。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。并且，在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。

类似地，应当理解，为了精简本公开并帮助理解各个公开方面中的一个或多个，在上面对本公开的示例性实施例的描述中，本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，公开方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本公开的单独实施例。

以上所述的具体实施例，对本公开的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本公开的具体实施例而已，并不用于限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于局域语义失真度量的视频编码的比特分配方法，包括：

步骤S100：在语义理解任务驱动下，从原始视频中提取空域和/或时域的关键特征，得到表征视频不同空域和/或时域内容对于语义理解任务重要性程度的权重因子的图，作为重要性图；其中，所述步骤S100包括：

子步骤S110：基于已经训练好的用于语义分析任务的神经网络，对原始视频中的输入图像进行一次前向传播计算；

子步骤S120：从语义分析任务的神经网络的输出端选取某个神经元，从该神经元的输出量执行一次反向传播计算，得到最后一层卷积层特征图的梯度；

子步骤S130：从子步骤S120得到卷积层特征图的梯度，经过全局平均池化和加权求和，得到梯度热度图；

子步骤S140：从子步骤S120中选取神经元的输出量执行一次导向反向传播计算，得到输入图像的梯度，即导向传播图；

子步骤S150：将子步骤S130得到的梯度热度图进行上采样操作，使其变成与输入图像相同大小，然后将上采样后的梯度热度图与子步骤S140中得到的导向传播图相加，得到最终的表征了原始视频不同空域和/或时域内容权重因子的重要性图；

步骤S200：接收所述步骤S100提供的视频在特定语义理解任务下的重要性图，为视频不同区域和不同帧分配比特，并确定编码参数；

步骤S300：接收所述步骤S200确定的编码参数，进行编码，同时将编码后的结果反馈给比特分配模块。

2.根据权利要求1所述的基于局域语义失真度量的视频编码的比特分配方法，其中，所述子步骤S110还包括：在语义理解任务驱动下，从原始视频中提取空域和/或时域的关键特征，得到原始视频不同空域和/或时域内容的权重因子。

3.根据权利要求1所述的基于局域语义失真度量的视频编码的比特分配方法，其中，所述子步骤S130还包括：

4.根据权利要求1所述的基于局域语义失真度量的视频编码的比特分配方法，其中，所述子步骤S140中的导向反向传播与普通反向传播的不同之处经过线性整流函数层时，将前向传播时线性整流函数层的输入和反向传播时线性整流函数层的梯度均大于零所对应的梯度回传，定义为：

其中，

表示第l层的梯度；F_i ^l表示第l层的特征；

表示第l+1层的梯度。

5.根据权利要求1所述的基于局域语义失真度量的视频编码的比特分配方法，其中，所述步骤S100中对于原始视频的图像组中的每一张图像，计算每一张图像所有像素重要性因子的平均值，作为该图像的重要性因子

I_i＝avg(Map_i，n，m)

其中I_i表示第i张图像的重要性因子，Map_i，n，m表示第i张重要性图，在位置(n，m)处的重要性因子。

6.根据权利要求1所述的基于局域语义失真度量的视频编码的比特分配方法，其中，所述步骤S200中对于原始视频的图像组的总比特数，按照每张图像的重要性因子作为权重进行比特分配，

7.根据权利要求1所述的基于局域语义失真度量的视频编码的比特分配方法，其中，所述步骤S200中对每张图像进行编码时，以64x64的编码块为单位，将当前块的像素值、当前块的重要性因子图以及上下文信息，作为强化学习模块状态空间的输入；经过网络计算后，强化学习模块输出当前块的编码参数。

8.根据权利要求1所述的基于局域语义失真度量的视频编码的比特分配方法，其中，所述步骤S300包括：

子步骤S310：根据得到的lambda和QP参数，对当前64x64块进行编码；

子步骤S320：将当前块的编码结果回传给比特分配模型，用来更新状态。

9.一种基于语义失真度量的视频编码的比特分配系统，包括：

重要性图提取模块，在语义理解任务驱动下，从原始视频中提取空域和/或时域的关键特征，得到表征视频不同空域和/或时域内容对于语义理解任务重要性程度的权重因子的图，作为重要性图；其中，所述重要性图提取模块还包括：

第一子模块，配置为基于已经训练好的用于语义分析任务的神经网络，对原始视频中的输入图像进行一次前向传播计算；

第二子模块，配置为从语义分析任务的神经网络的输出端选取某个神经元，从该神经元的输出量执行一次反向传播计算，得到最后一层卷积层特征图的梯度；

第三子模块，配置为从所述第二子模块得到卷积层特征图的梯度，经过全局平均池化和加权求和，得到梯度热度图；

第四子模块，配置为从所述第二子模块中选取神经元的输出量执行一次导向反向传播计算，得到输入图像的梯度，即导向传播图；

第五子模块，配置为将所述第三子模块得到的梯度热度图进行上采样操作，使其变成与输入图像相同大小，然后将上采样后的梯度热度图与所述第四子模块中得到的导向传播图相加，得到最终的表征了原始视频不同空域和/或时域内容权重因子的重要性图；

比特分配模块，接收所述重要性图提取模块提供的视频不同空域和/或时域内容的权重因子，为视频不同区域和不同帧分配比特，并确定编码参数；

编码器模块，接收所述比特分配模块确定的编码参数，进行编码，同时将编码后的结果反馈给比特分配模块。