CN114913250A

CN114913250A - 基于语义分割和匈牙利算法的视频编解码系统和方法

Info

Publication number: CN114913250A
Application number: CN202111601878.7A
Authority: CN
Inventors: 史国杰; 曹靖城; 吕超; 沈文琦
Original assignee: Tianyi Digital Life Technology Co Ltd
Current assignee: Tianyi Digital Life Technology Co Ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-08-16

Abstract

本申请公开了一种基于语义分割和匈牙利算法的视频编解码系统和方法。该方法包括：使用语义分割将图像的前景部分和背景部分分离，其中前景部分为图像的运动实体；如果背景部分的亮度变化和角度调整不超过阈值，则不对其进行编解码；使用匈牙利算法对前景部分进行匹配以在当前帧与前一帧之间建立对应关系；以及对经匹配的前景部分进行光流运动估计和残差计算。该系统包括：帧内编码子系统；以及帧间编码子系统，其中帧内编码子系统包括：I帧编码模块、I帧评估模块、语义分割模块、以及实体编码模块；其中帧间编码子系统包括：匈牙利匹配模块、光流运动估计模块、特征提取模块、以及残差计算模块。

Description

基于语义分割和匈牙利算法的视频编解码系统和方法

技术领域

本申请涉及视频编码、视频解码、计算机视觉、以及机器学习等领域，并且更为具体地，涉及一种基于语义分割和匈牙利算法来优化深度学习的视频编解码的系统和方法。

背景技术

随着5G和视频技术的发展，基于摄像头的看家类产品发展迅速，对带宽和存储容量的资源需求也越来越大。以中国电信天翼看家产品为例，以H265为例，每秒750Kb的码流速度，即使按照500万并发上行带宽来算，也需要3.75TB的带宽，存储容量也达到了每日25PB。如此海量的带宽和存储对于扩容、运维、容灾等都带来很大的管理成本。所以对视频文件尽可能大的压缩是一个迫在眉睫且长期存在的技术难题。

天翼看家产品的H26X系列的编解码标准是目前视频领域最主流的压缩方式，其可被分为帧内空域编码和帧间时域压缩编码。为了使得压缩比更大，一般的办法是增加宏块的大小、增大GOP的间隔等等。但这样会带来用户体验的下降，因为太大的压缩比会造成块伪影、振铃效应、呼吸效应伪影等问题的放大。

H26X系列最根本的问题是对帧内和帧间执行统一的线性变换造成原始视频的失真。这在当前有限的带宽资源和海量视频传播需求成为突出矛盾的情况下，显然是逼不得已的折衷方案。

然而，随着AI技术的发展，基于深度学习的编解码技术日趋成熟，基于深度学习的编解码一般帧内以自编码器技术为基础，帧间运动估计以光流技术为基础，比如基于深度学习的OpenDVR技术。其压缩比已经超过H265，衡量图像质量的PSNR(Peak Signal toNoise Ratio，峰值信噪比)和MS-SSIM指标也都超过了H265。

但现有的基于深度学习的视频编解码系统和方法存在的问题主要有以下几点：第一，经训练的样本的提取较为复杂；第二，对算力的要求特别高，尤其是帧间整幅图片光流的提取，需要耗费大量的GPU算力资源；第三，对于静态的背景而言，频繁的向量计算和浮点数量化操作会造成背景的不稳定，从而影响用户的体验。

图1中示出了传统的基于深度学习的编码架构示意性框图。

如图1中所示，传统的帧间压缩方案核心有以下三点。

第一，不使用宏块划分，直接对整张图片在空域内进行压缩；第二，使用光流估计代替传统H264/H265的运动估计；第三，使用残差网络代替传统的帧间差值法。

然而，对于摄像头场景而言，大部分场景是静止的。因此，频繁的光流提取和残差计算对算力的消耗特别大。另外，对于静态的背景来说，频繁的向量计算和浮点数量化操作会造成背景的不稳定。因而，客户的体验感非常不好。

例如，专利“基于深度学习的端到端视频压缩方法、系统及存储介质”(CN111405283A)公开了一种基于深度学习的端到端视频压缩方法、系统及存储介质。该申请的基于深度学习的端到端视频压缩方法通过将目标视频分为多个图像组；然后对图像组中的关键帧进行端到端帧内编码得到关键帧编码；关键帧编码通过环路滤波网络进行重建后得到关键帧重建帧。其次，基于关键帧重建帧对图像组中的非关键帧进行端到端帧间编码得到非关键帧编码。最后，非关键帧编码通过环路滤波网络进行重建后得到非关键帧重建帧。

与传统采用的视频压缩编码器相比，该申请可以实现端到端全局优化视频编码器，在低码率下能够取得较好的编码性能。

该专利解决了如何利用深度神经网络实现端到端视频编码的同时保证较好的率失真性能的问题。但该方案以光流网络flownet提取前后帧图像的光流信息，对算力的要求特别高，因此在算力资源有限时很难做到实时编解码。

再例如，专利“一种基于神经网络的视频编码方法及系统”(CN111464815A)公开了一种基于神经网络的视频编码方法及系统。该方法包括：获取用于训练神经网络的视频数据，构建一个含有多参考帧的神经网络，基于视频数据对含有多参考帧的神经网络进行训练，得到训练好的神经网络，基于训练好的神经网络对视频进行编码。该申请能够基于神经网络，利用多参考帧，从而有效地提升面向低延时场景时的视频编码的性能。

然而，该专利使用多参考帧的方式进行运动评估，在提高视频质量的同时，对算力的要求更高。

因此，在本领域中，对于既无需很大的算力，又能利用AI技术来提高用户的查看体验的视频编解码的系统和方法存在很大的需求。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在标识出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以作为稍后给出的更加详细的描述之序。

如上所述，鉴于现有技术中存在的诸多问题，本申请的目的在于提供一种帧内基于深度学习语义分割、帧间使用匈牙利算法进行实例间匹配，然后局部光流运动估计编码方案。采用根据本申请的方案，能够在降低带宽、降低存储、减少算力消耗的同时，又能保证用户对于流畅视频的良好体验。

根据本申请的第一方面，提供了一种基于语义分割和匈牙利算法的视频编解码方法，该方法包括：

使用该语义分割将图像的前景部分和背景部分分离，其中该前景部分为该图像的运动实体；

如果该背景部分的亮度变化和角度调整不超过阈值，则不对其进行编解码；

使用该匈牙利算法对该前景部分进行匹配以在当前帧与前一帧之间建立对应关系；以及

对经匹配的前景部分进行光流运动估计和残差计算。

根据本申请的优选实施例，当检测到移动侦测时，对该图像执行该语义分割以分离该前景部分和该背景部分。

根据本申请的优选实施例，如果该背景部分的该亮度变化或该角度调整超过该阈值，则将所当前帧设为新的I帧。

根据本申请的优选实施例，该方法进一步包括：对经光流运动估计的特征向量进行编码。

根据本申请的优选实施例，该方法进一步包括：对经编码的特征向量进行量化。

根据本申请的优选实施例，该方法进一步包括：对经量化的特征向量进行解码。

根据本申请的优选实施例，该方法进一步包括：基于该前一帧对该当前帧进行运动补偿预测

根据本申请的优选实施例，基于预测结果和该当前帧进行该残差计算。

根据本申请的优选实施例，该方法进一步包括：在该残差计算后，将I帧信息、该前景部分的光流运动估计信息、以及该前景部分的残差计算信息按编码规则进行存储。

根据本申请的第二方面，提供了一种根据如上所述的方法进行视频编解码的系统，该系统包括：

帧内编码子系统；以及

帧间编码子系统，

其中该帧内编码子系统包括：

I帧编码模块，用于使用深度学习编码方案对该I帧进行编码；

I帧评估模块，用于确定是否需要更新该I帧；

语义分割模块，用于在检测到移动侦测时对该图像进行语义分割；以及

实体编码模块，用于对经语义分割的图像进行编码，

其中该帧间编码子系统包括：

匈牙利匹配模块，用于基于该匈牙利算法在该当前帧与该上一帧之间建议对应关系；

光流运动估计模块，用于对该前景部分进行光流运动估计；

特征提取模块，用于对该前景部分进行特征提取；以及

残差计算模块，用于对该当前帧与该上一帧执行残差计算。

为能达成前述及相关目的，这一个或多个方面包括在下文中充分描述并在所附权利要求中特别指出的特征。以下描述和附图详细阐述了这一个或多个方面的某些解说性特征。但是，这些特征仅仅是指示了可采用各种方面的原理的各种方式中的若干种，并且本描述旨在涵盖所有此类方面及其等效方案。

附图说明

为了能详细理解本申请的以上陈述的特征所用的方式，可参照各方面来对以上简要概述的内容进行更具体的描述，其中一些方面在附图中解说。然而应该注意，附图仅解说了本申请的某些典型方面，故不应被认为限定其范围，因为本描述可允许有其他等同有效的方面。

在附图中：

图1是解说本领域中常用的传统的基于深度学习的编码架构的示意性示图；

图2是解说根据本申请的实施例的基于语义分割和匈牙利算法来实现视频实时高清编码的系统的示意性框图；

图3是解说根据本申请的实施例的基于语义分割和匈牙利算法来实现视频实时高清编码的方法的整体流程图；

图4是解说解说根据本申请的实施例的使用语义分割网络对变化的物体进行语义分割的示意图；以及

图5是解说匈牙利算法的简单示意图。

具体实施方式

以下结合附图阐述的详细描述旨在作为各种配置的描述，而无意表示可实践本文所描述的概念的仅有配置。本详细描述包括具体细节以提供对各种概念的透彻理解。然而，对于本领域技术人员将显而易见的是，没有这些具体细节也可实践这些概念。在某些实例中，以框图形式示出众所周知的组件以便避免淡化此类概念。

应当理解，基于本公开，其他实施例将是显而易见的，并且可以在不脱离本公开的范围的情况下做出系统、结构、过程或机械改变。

如上所述，本申请提出了一种基于语义分割和匈牙利算法来实现视频的实时高清编码的系统和方法。该系统能够和方法能够使用图像语义分割技术，对可能的运动目标和背景进行分离，对于背景部分在光照不超过一定阈值，角度调整不超过一定阈值的情况下不需要进行重新编码，而对于可能的运动目标，使用匈牙利算法在帧间进行匹配，对于运动的目标实体进行光流运动估计计算和残差网络计算。这样，对于背景的I帧间的画面组(Group of Pictures，以下简称GOP)来说是足够长并且是稳定的，而对于运动目标而言，只需要对实体部分进行光流运动估计和残差网络计算，算力会大大地减小。以下结合附图来详细阐述根据本申请的实施例的系统和方法的实现过程。

如本领域技术人员能够领会的，以下附图参照可执行本文所描述的动作或功能的一个或多个组件以及一种或多种方法描绘了诸方面。在一方面，本文使用的术语“组件”/“模块”可以是构成系统的诸部分之一，可以是硬件或软件或其某种组合，并且可以被划分成其他组件。

尽管以下在图3中所描述的操作以特定次序呈现和/或如由示例组件执行，但应理解这些动作的次序以及执行动作的组件可取决于实现而变化。此外，应当理解，以下动作或功能可由专门编程的处理器、执行专门编程的软件或计算机可读介质的处理器、或由能够执行所描述的动作或功能的硬件组件和/或软件组件的任何其他组合来执行。

图2中解说了根据本申请的实施例的基于语义分割和匈牙利算法来实现视频实时高清编码的系统的示意性框图。

如图2中所示，该系统可被分为帧内编码子系统和帧间编码子系统。

帧内编码子系统主要包括：I帧编码模块、I帧评估模块、语义分割模块、实体编码模块等四个模块。以下对各个模块的具体功能和作用进行详细描述。

I帧编码模块：使用深度学习图片编码方案对I帧进行编码，诸如但不限于，CommpressAI。

I帧评估模块：对于I帧是否需要更新进行评估。当背景部分在亮度平均值不超过一定阈值，角度调整不超过一定阈值时，不需要进行重新编码；而当背景部分的亮度平均值超过亮度阈值，或者角度调整超过角度阈值时，开始新的I帧。

如本领域技术人员能够领会的，亮度阈值和角度阈值可由本领域技术人员根据实际需要进行自行设定。亮度阈值和角度阈值的设定方法对于本领域技术人员是已知的，并且可由他们自行设定。当亮度阈值和角度阈值中的任何一者超过其阈值时，即开始新I帧(即，进行重新编码)。

语义分割模块：当检测到移动侦测(Motion detection technology，一般也叫运动检测，常用于无人值守监控录像和自动报警)时，使用语义分割网络，诸如，U-Net对图片中的物体进行分割，并对视频中可能出现的人、车、动物进行训练。如果检测到移动侦测，但U-Net并没有分割出实体时，则可能为特殊实体的出现，这需要将整幅图片作为一整个变化的实体进行处理。

实体编码模块：使用深度学习图片编码方案(诸如，上述CommpressAI)对经语义分割的实体进行编码。

帧间编码子系统主要包括：匈牙利匹配模块、残差计算模块、光流运动评估模块、特征值提取模块等四个模块。

以下对各个模块的具体功能和作用进行详细描述。

匈牙利匹配模块：用于在前后两帧直接的实体之间建立相互对应的关系。

残差计算模块：用于分别对前后两帧的经语义分割的实体执行残差计算，并在解码时合成光流后执行反向的ADD(加法)操作。这样可以解决光流恢复图像的伪影问题。

光流运动估计模块：用于使用flownet进行光流估计。根据本申请的方案不需要对整幅图片进行光流估计，只需要对实体间运动信息进行光流估计，从而极大地减小了算力。使用flownet进行光流估计的技术细节在本领域是已知的，因此在此不做赘述。并且，如本领域技术人员能够理解的，其他用于光流估计的办法也包括在本申请的范围之内。

特征值提取模块：使用VGG、Resnet等本领域典型的CNN(Convolutional NeuralNetworks，基本卷积神经网络，简称CNN)网络对实体执行特征值的提取，主要针对匈牙利匹配模块。

本申请基于传统的深度学习的编码框架进行优化。图3中解说根据本申请的实施例的基于语义分割和匈牙利算法来实现视频实时高清编码的方法的整体流程图。

以下结合图3和具体实施方式，对本申请的训练阶段的技术方案做进一步的详细描述。浅灰色底框部分为本申请的技术方案的新增步骤，而深灰色底框部分为按照本申请需要进行微调的模块，白底底框部分为基于常规的深度学习编解码框架中不需要进行其他变动的部分。

如图所示，根据本申请的实施例的基于语义分割和匈牙利算法来实现视频实时高清编码的方法主要包括以下步骤。

步骤1：对当前帧进行背景评估，如果该帧是第一帧，则直接进行压缩；如果不是第一帧，则计算当前图片的平均亮度变化和角度调整变化是否超过预定的阈值。如果两者均未超过预定阈值，则保持I帧不变；如果超过了预定阈值，则将当前帧更改为I帧。

步骤2：摄像头进行移动侦测，当有变化触发了移动侦测时，则使用语义分割网络，诸如U-Net，对变化的物体进行语义分割，并对视频中可能出现的人、车、动物进行训练。如果检测到移动侦测，但语义分割网络并没有分割出实体时，则可能为特殊实体的出现，这时候，需要将整幅图片作为一整个变化的实体进行处理。

图4中示出了当检测到移动侦测时，使用语义分割网络对变化的物体进行语义分割的示意图。

步骤3：对当前帧中每一个经语义分割的实体和前一帧经语义分割的实体进行匈牙利算法匹配。众所周知，匈牙利算法是一种在多项式时间内求解任务分配问题的组合优化算法。匈牙利算法主要用来解决二分图的最大匹配数和最小点覆盖数的问题，由此用来对两帧图片中的相应实体进行匹配。

结合图5来解说匈牙利算法的示意图。众所周知，匈牙利算法主要用于解决一些与二分图匹配有关的问题。二分图(Bipartite graph)是一类特殊的图，它可以被划分为两个部分，每个部分内的点互不相连。

如图5中所示，每条边的端点都分别处于点集X和Y中。匈牙利算法主要用来解决两个问题：求二分图的最大匹配数和最小点覆盖数。

鉴于匈牙利算法对于二分图的应用是本领域已知的，因此再次不赘述以便更为清楚地表述本申请的方案。

步骤4：当前帧和前一帧中对应的实体分别进入到光流网络，进行光流运动评估。

步骤5：对光流运动评估的特征向量进行编码。

步骤6：对步骤5中经编码的光流特征向量进行量化。

步骤7：对步骤6中经量化的信息进行运动解码。

步骤8：根据前一帧的信息和实体光流信息，对当前帧的实体进行补偿预测。

步骤9：根据预测的实体和实际语义分割的实体进行残差计算，包括残差网络编码、量化以及残差网络解码过程。

步骤10：对I帧信息、实体光流信息和实体残差信息按照编码规则序列化到存储(比特流存储)。

与现有技术中存在的基于深度学习的视频编解码系统和方法相比，本申请的技术方案存在以下其显著优势。

第一，对于传统H264/H265编码方案而言，I帧P帧交替排列，I帧使用帧内预测编码，跟jpeg类似，压缩比相对P帧来说，没有那么大，因此I帧的数据量很大，但是I帧也相对比较清楚，P帧以I帧为基准进行预测编码，I帧清楚了，P帧才有可能清楚。一般情况下，我们都会将I帧调的比较大，一个GOP内，离I帧越远的P帧，编码误差越大，图像降质也越严重，当下一个I帧出现时，图像又立即变得清楚起来，纵观整个视频流，就会周期性出现清楚到模糊的突变，我们称这种现象为呼吸效应。呼吸效应会导致伪影，从而严重影响用户的体验。而本申请的方案使用弹性智能I帧技术，使得视频图片的前景和背景部分分离，因此其背景部分并不会因为长间距编码而造成伪影，由此极大地改善了用户体验。

第二，如背景技术部分所述，现有的基于深度学习的视频编解码系统和方法往往针对两张完整图片进行光流提取和残差运算，频繁的光流提取和残差运算对算力的消耗特别大，因此经常无法保证实时编解码。而根据本申请的方案不需要对整幅图片进行光流估计，而只是针对运动物体进行运动光流估计和残差计算，因此对算力的要求会大幅下降。

第三，传统的基于深度学习的视频编解码系统和方法因为频繁的光流提取和残差运算，因此对带宽和存储有很大的需求。如此海量的带宽和存储对于扩容、运维、容灾等都带来很大的管理成本。而本申请的方案对于静态的摄像头场景而言，由于运动场景只是偶然出现，因此可以有效地降低带宽和存储。

与现有技术相比，本申请采用前景部分和背景部分分离的编解码方案，对于静态摄像头的效果非常好，并且对于带宽和存储要求更低。此外，本申请使用语义分割技术进行运动目标获取，对于相邻帧之间的运动光流信息的提取只提取实体的光流，而不计算整幅图片的光流，从而极大地降低了对算力的要求。再者，本申请使用匈牙利算法进行前后帧的实体关联，对于相邻帧之间残差信息的提取只计算实体间的残差，而不计算整幅图片的残差，从而进一步降低了对算力的要求。

如本领域技术人员所能够构想的，本申请的方案可被用于天翼看家以及其他诸如此类的摄像头应用场景。经测算，如果采用本申请的方案，目前的视频可以继续压缩20％以上，带宽要求可以减少30％以上，将本增效极为明显。

并且，该技术的生命周期很长，保守估计至少在十年以上。只要存在摄像头的场景(天翼看家、路况识别等等)，该系统和方法均可以被广泛地应用。

提供先前描述是为了使本领域任何技术人员均能够实践本文中所述的各种方面。对这些方面的各种改动将容易为本领域技术人员所明白，并且在本文中所定义的普适原理可被应用于其他方面。因此，权利要求并非旨在被限定于本文中所示出的各方面，而是应被授予与权利要求的语言相一致的全部范围，其中对要素的单数形式的引述并非旨在表示“有且仅有一个”(除非特别如此声明)而是“一个或多个”。除非特别另外声明，否则术语“一些”指的是一个或多个。引述一列项目中的“至少一个”的短语是指这些项目的任何组合，包括单个成员。作为示例，“a、b或c中的至少一者”旨在涵盖：至少一个a；至少一个b；至少一个c；至少一个a和至少一个b；至少一个a和至少一个c；至少一个b和至少一个c；以及至少一个a、至少一个b和至少一个c。本公开通篇描述的各种方面的要素为本领域普通技术人员当前或今后所知的所有结构上和功能上的等效方案通过引述被明确纳入于此，且旨在被权利要求所涵盖。此外，本文中所公开的任何内容都并非旨在贡献给公众，无论这样的公开是否在权利要求书中被显式地叙述。

Claims

1.一种基于语义分割和匈牙利算法的视频编解码方法，其特征在于，所述方法包括：

使用所述语义分割将图像的前景部分和背景部分分离，其中所述前景部分为所述图像的运动实体；

如果所述背景部分的亮度变化和角度调整不超过阈值，则不对其进行编解码；

使用所述匈牙利算法对所述前景部分进行匹配以在当前帧与前一帧之间建立对应关系；以及

对经匹配的前景部分进行光流运动估计和残差计算。

2.如权利要求1所述的方法，其特征在于，当检测到移动侦测时，对所述图像执行所述语义分割以分离所述前景部分和所述背景部分。

3.如权利要求1所述的方法，其特征在于，如果所述背景部分的所述亮度变化或所述角度调整超过所述阈值，则将所当前帧设为新的I帧。

4.如权利要求1所述的方法，其特征在于，所述方法进一步包括：

对经光流运动估计的特征向量进行编码。

5.如权利要求4所述的方法，其特征在于，所述方法进一步包括：

对经编码的特征向量进行量化。

6.如权利要求5所述的方法，其特征在于，所述方法进一步包括：

对经量化的特征向量进行解码。

7.如权利要求5所述的方法，其特征在于，所述方法进一步包括：

基于所述前一帧对所述当前帧进行运动补偿预测。

8.如权利要求4所述的方法，其特征在于，基于预测结果和所述当前帧进行所述残差计算。

9.如权利要求1所述的方法，其特征在于，所述方法进一步包括：在所述残差计算后，将I帧信息、所述前景部分的光流运动估计信息、以及所述前景部分的残差计算信息按编码规则进行存储。

10.一种根据权利要求1－9中任一项所述的方法进行视频编解码的系统，其特征在于，所述系统包括：

帧内编码子系统；以及

帧间编码子系统，

其中所述帧内编码子系统包括：

I帧编码模块，用于使用深度学习编码方案对所述I帧进行编码；

I帧评估模块，用于确定是否需要更新所述I帧；

语义分割模块，用于在检测到移动侦测时对所述图像进行语义分割；以及

实体编码模块，用于对经语义分割的图像进行编码，

其中所述帧间编码子系统包括：

匈牙利匹配模块，用于基于所述匈牙利算法在所述当前帧与所述上一帧之间建议对应关系；

光流运动估计模块，用于对所述前景部分进行光流运动估计；

特征提取模块，用于对所述前景部分进行特征提取；以及

残差计算模块，用于对所述当前帧与所述上一帧执行残差计算。