CN117528085B

CN117528085B - 一种基于智能特征聚类的视频压缩编码方法

Info

Publication number: CN117528085B
Application number: CN202410020281.0A
Authority: CN
Inventors: 赵作鹏; 闵冰冰; 刘营; 高宇蒙; 缪小然; 胡建峰; 贺晨; 赵广明; 周杰; 雅可; 胡帅; 唐婷
Original assignee: Yanyuan Security Technology Xuzhou Co ltd; China University of Mining and Technology CUMT
Current assignee: Yanyuan Security Technology Xuzhou Co ltd; China University of Mining and Technology CUMT
Priority date: 2024-01-08
Filing date: 2024-01-08
Publication date: 2024-03-19
Anticipated expiration: 2044-01-08
Also published as: CN117528085A

Abstract

本发明公开了一种基于智能特征聚类的视频压缩编码方法，包括以下步骤：步骤1、将视频进行预处理后利用深度学习模型对视频进行智能特征提取；步骤2、采用特征聚类算法对提取出的特征进行聚类，将相似或冗余的特征整合在一起，为后续编码提供更有效的数据结构；步骤3、对聚类后的特征集进行编码，通过视觉增强和数据压缩的联合制定来进行视频压缩；步骤4、在解码端，根据编码数据和聚类中心信息，恢复出原始的特征集；步骤5、利用深度学习模型的重建模块，根据解码后的特征集重建原始视频。本发明能够准确有效地进行特征提取和压缩编码，同时具有较高的压缩比和图像质量。

Description

一种基于智能特征聚类的视频压缩编码方法

技术领域

本发明属于视频处理技术领域，具体涉及一种基于智能特征聚类的视频压缩编码方法。

背景技术

随着数字媒体技术的不断发展，视频压缩编码技术逐渐成熟。在当前的数字媒体时代，视频数据量呈现出爆炸性的增长，因此，有效的视频压缩编码技术成为了解决数据存储和传输问题的关键。

传统的视频压缩编码方法，如H.264、H.265等，主要基于像素块之间的空间和时间相关性进行压缩，通过预测、变换、量化等步骤实现视频数据的压缩。然而，这些方法在压缩比和图像质量之间存在一定的权衡，往往需要在两者之间进行取舍。

近年来，随着深度学习技术的快速发展，研究者们开始尝试将深度学习技术应用于视频压缩编码领域。其中，智能特征聚类作为一种有效的特征提取和压缩方法，逐渐引起了研究者的关注。该方法通过聚类算法将视频帧中的像素或特征进行分组，并针对不同的组进行不同的压缩编码，从而在保证图像质量的同时，实现更高的压缩比。

然而，现有的基于智能特征聚类的视频压缩编码方法还存在一些问题。例如，如何准确有效地进行特征聚类、如何根据不同的聚类结果进行高效的压缩编码。此外，对于不同类型和内容的视频数据，也需要采取不同的聚类算法和压缩策略。

发明内容

本发明的目的在于提供一种基于智能特征聚类的视频压缩编码方法，能够准确有效地进行特征提取和压缩编码，同时具有较高的压缩比和图像质量。

为实现上述目的，本发明一种基于智能特征聚类的视频压缩编码方法，包括以下步骤：

步骤1、将视频进行预处理后利用深度学习模型对视频进行智能特征提取；

步骤2、采用特征聚类算法对提取出的特征进行聚类，将相似或冗余的特征整合在一起，为后续编码提供更有效的数据结构；

步骤3、对聚类后的特征集进行编码，通过视觉增强和数据压缩的联合制定来进行视频压缩；

步骤4、在解码端，根据编码数据和聚类中心信息，恢复出原始的特征集；

步骤5、利用深度学习模型的重建模块，根据解码后的特征集重建原始视频。

作为本发明进一步的方案：步骤1具体包括以下步骤：

对输入的视频序列进行预处理，包括帧率调整、分辨率缩放，以得到适应后续处理需求的视频数据；

对预处理后的视频数据进行特征提取，包括颜色特征、纹理特征、运动特征；

所述深度学习模型使用卷积神经网络对视频数据进行特征提取，并对提取的特征进行后处理。

作为本发明进一步的方案：步骤2使用结合特征金字塔网络的半监督AP聚类算法进行特征聚类，具体包括以下步骤：

使用改进的特征金字塔网络来获得图像不同尺度的特征图，对不同大小的特征图进行融合，获得图像的高级语义特征，识别不同大小、不同实例的目标；

k近邻标记更新策略动态增加标记数据集样本数量。

作为本发明进一步的方案：步骤3具体包括以下步骤：

由两个相互关联的组件组成的视觉增强网络来进行视觉增强，优化增强帧的质量和大小；

使用一个流细化网络和一个基于注意力的损失函数，用于有效的运动估计和压缩；

使用运动补偿网络进行进一步处理。

作为本发明进一步的方案：步骤4具体包括以下步骤：

使用与编码端相同的特征提取方法，将输入的编码数据解码为相应的特征向量，这些特征向量包括颜色、纹理、运动特征；

对于同时包含音频和图像的视频序列，需要将音频特征和图像特征进行融合，以恢复出完整的视频内容。

作为本发明进一步的方案：步骤5具体包括以下步骤：

将量化运动表示的残差表示编码成比特并发送给解码器；

解码器接收量化表示并重建运动信息。

与现有技术相比，本发明的有益效果如下：

1、通过智能特征聚类，将相似或冗余的特征整合在一起，可以减少视频数据的冗余信息，提高压缩比；

2、与传统的视频压缩编码方法相比，本发明通过利用视觉增强和数据压缩之间的自然权衡，在保证视频质量的同时进行视频压缩；这种模型可以自动学习和优化从特征提取到压缩编码的整个过程，从而减少了人为干预和计算量；

3、通过结合深度学习技术与传统的视频压缩编码方法，本发明实现了一种智能化压缩方法，能够提供更高的压缩效率和更好的图像质量。

附图说明

图1示出了本发明实施例提供的工作原理的示意图。

图2示出了本发明实施例提供的视频压缩编码框架。

图3示出了本发明实施例提供的模糊残差估计网络的主干网络示意图。

图4示出了本发明实施例提供的压缩自编码器网络示意图。

具体实施方式

下面通过实施例对本发明作进一步说明。

如图1所示，一种基于智能特征聚类的视频压缩编码方法，包括以下步骤：

进一步的，步骤1具体包括以下步骤：

具体的，还可以将色彩空间转换为更适合压缩的格式，常见的是从RGB到YUV的转换；进行去噪处理，可用于消除视频中的噪声和干扰；利用运动估计与补偿可以优化压缩处理中的运动场景；通过设置关键帧可以影响到压缩算法的参考点；最后，裁剪和剪辑视频以去除不必要的部分，进一步减小最终的文件大小；

所述深度学习模型使用卷积神经网络（CNN）对视频数据进行特征提取，并对提取的特征进行后处理，例如归一化、降维等。

进一步的，步骤2使用结合特征金字塔网络的半监督AP聚类算法（FPNSAP）进行特征聚类，具体包括以下步骤：

k近邻标记更新策略动态增加标记数据集样本数量。

具体的，改进的特征金字塔网络的图像输入大小为224 × 224，首先使用一个大的卷积核(5 × 5)对图像做初始卷积处理，之后使用Inception模块依次对图像进行下采样，使用两次辅助计算模块：Aux_Logits，得到图像的特征图大小分别为28 × 28和14 ×14，与上采样网络进行拼接处理，做不同尺寸的特征融合。

其中，两个辅助计算模块“Aux_logits”的结构相同，但是输出的特征图的尺寸不同，第一层是一个平均池化下采样层，池化核大小为5 × 5，步长为3；第二层是全连接层，通道数是2048；第四层是全连接层，通道数是对应分类的类别个数，根据数据集动态调整。接着通过自上而下的网络将上层特征尺寸上采样，为了和对应下层特征尺寸相同，将对应元素相加获得融合特征。最后将融合后的特征图使用Conv进行通道改变适应不同的数据集样本分类数量。

进一步的，步骤3具体包括以下步骤：

由两个相互关联的组件组成的视觉增强网络(SA-VENet)来进行视觉增强，优化增强帧的质量和大小；

具体的，如图2所示，使用端到端方式对SA-VENet网络进行训练，最大限度地提高输入帧的质量，以实现最佳的视频压缩。骨干网络由像素洗牌层、卷积层、残差密集块(RDB)和亚像素卷积层组成。

给定一个模糊输入序列{B_t, B_t+1，…，B_t+n}，估算一个加法向量表示b_t（即模糊残差），以抵消来自B_t的模糊；

压缩模糊残差。压缩后的模糊残余信息将被添加到B_t中，从而输出视觉效果增强帧/>，模糊残差估计网络的主干网络如图3所示。

为了压缩估计的模糊残余信息b_t，采用了自动编码器式网络，如图4所示，模糊残差被输入一系列卷积和非线性变换层。给定大小为M × N × 3的模糊残差b_t，编码器生成大小为M/16 × N/16 × 128的模糊残差表示u_t。然后将u_t量化为。使用因子熵模型进行量化。因子熵模型在这个过程中的作用是估计u_t的概率分布，以便于更有效地对其进行编码。具体来说，该模型通过分解u_t的分布为多个因子（更小的、可管理的部分），然后独立地估计这些因子的概率分布。通过这种方式，模型可以更精确地估计整个数据的概率分布。该概率分布为：/>，其中N是高斯分布，u_ti是u_t的第i个因子，/>和/>分别是该因子的均值和方差，k是因子的总数。

解码器输入量化表示并重建模糊残余信息。然后将/>加入模糊输入B_t，即，得到增强帧/>。

在本实施例中，视频压缩的目标是最小化给定视频帧B_t的比特数，同时提高X_t的质量，并减少增强帧和重建帧/>之间的失真。因此，制定如下优化公式：/>

其中，其中和/>为超参数，用于控制增强E、失真D和比特率R之间的三向权衡。

{X_t，X_t+1，…，X_t+n} 表示真实值（GT）序列，优化模糊残差的编码比特数，以及增强帧/>与对应的GT帧X_t之间的/>光度损失，还加入了B_t+b_t和X_t之间的/>光度损失，这样模糊残差b_t自动编码器就不会在/> 时达到一个局部极小值，公式如下所示：

其中，R() 表示用于编码表征的比特数，使用密度模型来估算R。定义为，其中s是阶跃衰减参数，用于随着训练的进行保持视觉增强和压缩之间的权衡。

使用一个流细化网络(FIRNet)和一个基于注意力的损失函数，用于有效的运动估计和压缩；

具体的，估计当前增强帧和之前重建帧/>之间的运动，使用一个预训练的光流网络来预测/>的初始流。

FIRNet输入初始流、/>和/>，并输出残差流/>，将其添加到初始流中生成细化流。

使用了一个残差密集架构，用三个RDB生成。

使用流量自动编码器网络将细化流量信息编码、量化并重构为/>。

的计算公式如下：/>

的计算公式如下：/>，式中||表示通道级联；

使用一种情境感知训练函数，强制FIRNet关注视觉增强区域，根据的不同区域的增强程度（相对于B_t）对其进行评分，从而生成一个关注图，以便运动细化阶段知道哪些区域需要特别关注。

首先计算误差图，/>的计算公式如下：/>

其定义为增强帧与相应GT帧X_t之间的均方误差，即/>。/>是一个大小为M×N的二维张量，其中的值是各通道的平均值。为了避免出现噪声图，使用池化核大小为k×k、步长为k的平均池化层，并为误差图中的每个像素分配了其邻域的相应平均值，即将/>分割为大小为k ×k 的/>个区域，其中v是一个常数，以确保误差图分布的方差增大。然后，用整数值 />，其中v是一个常数，以确保误差图分布的方差增大。

中较高的值表示仍然有运动伪影的部分，而较低的值表示增强的区域(或最初锐利的区域)。通过使用/>作为注意力权重，提出了一种新的损失，称之为上下文感知损失(LCaL)，用于知情的运动细化和压缩，公式如下：/>

其中，，W_b表示光流映射。

为了补偿伪影，使用运动补偿网络(MCNet)进行进一步处理。MCNet输入光流映射帧、X_t-1和并输出运动补偿帧/>，/>的计算公式如下：/>

进一步的，步骤4具体包括以下步骤：

进一步的，步骤5具体包括以下步骤：

将量化运动表示的残差表示编码成比特并发送给解码器；

解码器接收量化表示并重建运动信息。

具体的，增强的原始帧和运动补偿帧/>之间的残差，即/>会通过残差编码器-解码器网络进行压缩。与模糊残差和运动压缩一样，残差信息r_t首先被编码为潜在表示/>，然后量化为/>，最后解码为/>。重建后的残差信息/>添加到运动补偿帧/>中，得到压缩帧/>，即/>。

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

Claims

1.一种基于智能特征聚类的视频压缩编码方法，其特征在于，包括以下步骤：

使用结合特征金字塔网络的半监督AP聚类算法进行特征聚类，具体包括以下步骤：

k近邻标记更新策略动态增加标记数据集样本数量；

具体的，使用端到端方式对SA-VENet网络进行训练，最大限度地提高输入帧的质量，骨干网络由像素洗牌层、卷积层、残差密集块(RDB)和亚像素卷积层组成；

压缩模糊残差：压缩后的模糊残余信息将被添加到B_t中，从而输出视觉效果增强帧/>；

模糊残差被输入一系列卷积和非线性变换层，给定大小为M × N × 3的模糊残差b_t，编码器生成大小为M/16 × N/16 × 128的模糊残差表示u_t，然后将u_t量化为，使用因子熵模型进行量化，可以更精确地估计整个数据的概率分布，该概率分布为：，其中N是高斯分布，u_ti是u_t的第i个因子，/>和/>分别是该因子的均值和方差，k是因子的总数；

解码器输入量化表示并重建模糊残余信息，然后将/>加入模糊输入B_t，即/>，得到增强帧/>；

视频压缩的目标是最小化给定视频帧B_t的比特数，同时提高X_t的质量，并减少增强帧和重建帧/>之间的失真，因此，制定如下优化公式：/>；

其中，和/>为超参数，用于控制增强E、失真D和比特率R之间的三向权衡；

{X_t，X_t+1，…，X_t+n} 表示真实值（GT）序列，优化模糊残差的编码比特数，以及增强帧/>与对应的GT帧X_t之间的/>光度损失，还加入了B_t+b_t和X_t之间的/>光度损失，这样模糊残差b_t自动编码器就不会在/> 时达到一个局部极小值，公式如下所示：；

其中，R() 表示用于编码表征的比特数，使用密度模型来估算R，定义为/>，其中s是阶跃衰减参数，用于随着训练的进行保持视觉增强和压缩之间的权衡；

具体的，估计当前增强帧和之前重建帧/>之间的运动，使用一个预训练的光流网络来预测/>的初始流；

FIRNet输入初始流、/>和/>，并输出残差流/>，将其添加到初始流中生成细化流；

使用了一个残差密集架构，用三个RDB生成；

使用流量自动编码器网络将细化流量信息编码、量化并重构为/>；

的计算公式如下：/>；

的计算公式如下：/>，式中||表示通道级联；

使用一种情境感知训练函数，强制FIRNet关注视觉增强区域，根据的不同区域的增强程度（相对于B_t）对其进行评分，从而生成一个关注图，以便运动细化阶段知道哪些区域需要特别关注；

首先计算误差图，/>的计算公式如下：/>；

其定义为增强帧与相应GT帧X_t之间的均方误差，即/>，/>是一个大小为M×N的二维张量，其中的值是各通道的平均值，为了避免出现噪声图，使用池化核大小为k×k、步长为k的平均池化层，并为误差图中的每个像素分配了其邻域的相应平均值，即将/>分割为大小为k ×k 的/>个区域，其中v是一个常数，以确保误差图分布的方差增大，然后，用整数值 />，其中v是一个常数，以确保误差图分布的方差增大；

中较高的值表示仍然有运动伪影的部分，而较低的值表示增强的区域或最初锐利的区域，通过使用/>作为注意力权重，提出了一种新的损失，称之为上下文感知损失(LCaL)，用于知情的运动细化和压缩，公式如下：/>；

其中，，W_b表示光流映射；

为了补偿伪影，使用运动补偿网络(MCNet)进行进一步处理，MCNet输入光流映射帧、X_t-1和并输出运动补偿帧/>，/>的计算公式如下：/>；

2.根据权利要求1所述的一种基于智能特征聚类的视频压缩编码方法，其特征在于，步骤1具体包括以下步骤：

3.根据权利要求1或2所述的一种基于智能特征聚类的视频压缩编码方法，其特征在于，步骤4具体包括以下步骤：

4.根据权利要求3所述的一种基于智能特征聚类的视频压缩编码方法，其特征在于，步骤5具体包括以下步骤：

将量化运动表示的残差表示编码成比特并发送给解码器；

解码器接收量化表示并重建运动信息。