CN116112694A

CN116112694A - 一种应用于模型训练的视频数据编码方法及系统

Info

Publication number: CN116112694A
Application number: CN202211581196.9A
Authority: CN
Inventors: 左金晶; 金伟; 殷波; 范文沁
Original assignee: Wuxi Tianchen Jiahang Technology Co ltd
Current assignee: Wuxi Tianchen Jiahang Technology Co ltd
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2023-05-12
Anticipated expiration: 2042-12-09
Also published as: CN116112694B

Abstract

本发明提出了一种应用于模型训练的视频数据编码方法及系统，属于图像数据处理的技术领域，其中方法具体包括步骤如下：步骤1、锁定数据训练集的获取源头；步骤2、建立数据传输通信链路；步骤3、通过数据通信链路发送数据读取请求；步骤4、构建数据编码模型，并对请求读取到的数据进行编码操作；步骤5、将编码后的数据通过数据传输链路进行传输；步骤6、将编码后的数据作为训练集应用于自动驾驶模型中。本发明通过对传输的视频数据进行编码压缩，可以有效的降低存储容量，以及传输过程中占用的带宽；同时，针对解码过程会出现的问题，进一步提出影像编码数据的无损恢复方法提高有效数据的利用方式，从而提高应用模型训练后的性能。

Description

一种应用于模型训练的视频数据编码方法及系统

技术领域

本发明属于图像数据处理的技术领域，特别是涉及一种应用于模型训练的视频数据编码方法及系统。

背景技术

随着计算机技术的发展，信息呈现的形式逐渐被影像数据替代，基于影像数据进行日常生活的作业的方式也逐渐在生活中占据一席地位。

在高清视频数据和超高清视频数据的出现浪潮下，视频数据占用的存储空间逐渐增加，因此如何实现影像数据的高效传输，成为众多应用领域中的热点问题之一。

基于影像数据分析处理的图像数据处理领域，为了更好的提高图像数据分析模型的性能，常会采用模型性能训练的方式，提高其性能。因此，有效数据集的构建与传输应用成为当前亟待解决的问题之一。

发明内容

发明目的：提出一种应用于模型训练的视频数据编码方法及系统，以解决现有技术存在的上述问题。通过对影像视频数据的有效编码，提高数据的传输速度，以及提高有效数据的利用方式，从而提高模型训练后的性能。

技术方案：第一方面，提出了一种应用于模型训练的视频数据编码方法，该方法具体包括以下步骤：

步骤1、锁定数据训练集的获取源头；

步骤2、建立数据传输通信链路；

步骤3、通过数据通信链路发送数据读取请求；

步骤4、构建数据编码模型，并对请求读取到的数据进行编码操作；其中，数据编码模型执行编码的过程中，具体包括以下步骤：

步骤4.1、采用树形编码的形式划分编码单元；其中，编码单元包括：帧内预测单元、帧间预测单元、变换编码单元、量化编码单元、环路滤波单元和熵编码单元；

步骤4.2、利用所述帧内预测单元执行帧内预测，利用帧间预测单元执行帧间预测；

步骤4.3、利用所述变换编码单元执行变化编码；

步骤4.4、利用所述量化编码单元执行量化编码；

步骤4.5、利用环路滤波单元执行环路滤波；

步骤4.6、利用所述熵编码单元结合不同单元的数据处理结果，执行熵编码操作。

步骤5、将编码后的数据通过数据传输链路进行传输；

步骤6、将编码后的数据作为训练集应用于自动驾驶模型中。

在第一方面的一些可实现方式中，执行编码的过程中，通过将可变分辨率帧编码为I帧的方式进行编码操作；针对读取到的原始帧，首先进行降采样，对比将采样后与原始帧的大小，以原始帧大小为参考，将降采样后的图像帧其余部分以像素0进行填充；随后采用数据编码模型对其进行编码操作。

在第一方面的一些可实现方式中，自动驾驶模型针对获得的数据训练集首先对其进行解码，随后基于解码后的数据进行性能训练。针对编码后的影像数据，构建影像数据无损恢复模型从不同层面进行编码后的影像数据到原始无损数据的恢复，通过针对性的种类分析，获得高质量的视频数据。具体包括以下步骤：

步骤6.1、构建影像数据无损恢复模型；

步骤6.2、利用影像数据无损恢复模型从不同层面从不同层面进行对传输过来的编码数据进行解码操作。

利用影像数据无损恢复模型从单帧层面恢复无损影像数据的过程中，在深度学习技术的基础上，先分析作为先验信息的编码单元划分结构和图像边缘结构的特点，挖掘两者之间的潜在联系，获得影像数据恢复所需的特征信息；随后，通过基于注意力机制的多模态信息融合，优化先验信息中的有效信息。

利用影像数据无损恢复模型从多帧层面恢复无损影像数据的过程中，基于影像数据参考帧的时域信息与目标帧对齐的基础，通过添加多尺度可变卷积模块，以及分析可变卷积的实现机制，从梯度反向传播的方向上优化影像数据无损恢复模型的训练效果。

步骤6.3、自动驾驶模型读取解码后的数据进行性能训练。

第二方面，提出一种应用于模型训练的视频数据编码系统，用于实现视频数据编码方法，该系统具体包括以下模块：

用于根据需求从锁定的数据源头读取所需的影像数据的数据源读取模块；

用于构建数据传输链路的链路构建模块；

用于根据应用需求生成数据请求信息的数据请求模块；

用于对响应数请求的数据信息进行编码的编码模块；

用于基于传输链路实现编码信息交互的数据交互模块；

用于对接收到编码数据进行解码，并将解码后的数据作为后续应用基础的数据解码模块。

在第二方面的一些可实现方式中，在辅助智能驾驶的应用领域中，面对智能模型训练过程的数据集获取过程中，首先采用数据源读取模块根据需求确定数据训练集的获取源头，并读取相应的数据；其次，利用链路构建模块构建用于实现数据通信的传输链路；再次，根据应用于的对象生成数据读取请求，并通过数据传输链路传输至对应的数据源头；从次，数据源头响应数据请求，利用数据编码模块将请求的数据进行编码，并再次通过传输链路将编码后的数据传输给应用对象；最后，利用数据解码模块对接收到的影像数据进行解码，并将解码后的数据作为训练集传输至自动驾驶模型中。

第三方面，提出一种应用于模型训练的视频数据编码设备，该设备包括：处理器以及存储有计算机程序指令的存储器。

其中，处理器读取并执行计算机程序指令，以实现视频数据编码方法。

第四方面，提出一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序指令。计算机程序指令被处理器执行时，以实现视频数据编码方法。

有益效果：本发明提出了一种应用于模型训练的视频数据编码方法及系统，通过对传输的视频数据进行编码压缩，可以有效的降低存储容量，以及传输过程中占用的带宽。另外，本发明针对应用过程中会出现的解码恢复过程构建影像数据无损恢复模型从不同层面进行编码后的影像数据到原始无损数据的恢复，通过针对性的种类分析，获得高质量的视频数据。

附图说明

图1为本发明的数据处理流程图。

具体实施方式

在下文的描述中，给出了大量具体的细节以便提供对本发明更为彻底的理解。然而，对于本领域技术人员而言显而易见的是，本发明可以无需一个或多个这些细节而得以实施。在其他的例子中，为了避免与本发明发生混淆，对于本领域公知的一些技术特征未进行描述。

申请人认为在自动驾驶的应用领域，通过对影像数据的分析可以有效辅助驾驶人员对当前路况的识别，从而辅助驾驶人员的安全进行驾驶行为。为了有效提高自动驾驶过程中的模型识别分析能力，在进行智能化分析过程之前，首先采用海量的影响数据集对分析模型进行性能训练，但是海量的数据集由于占据的存储空间较大，因此普遍存储在云端或本地大型数据库，模型进行训练的作业时，需要借助互联网进行数据的读取操作。而大量的源数据传输往往会出现传输速度极慢，占据传输资源过多等现象，因此为了实现高效的数据传输，本发明针对模型训练所需要的的影像数据，提出一种应用于模型训练的视频数据编码方法及系统，实现高效的数据传输与读取。

实施例一

在一个实施例中，基于智能化驾驶应用邻域的需求，提出一种应用于模型训练的视频数据编码方法，如图1所示，该方法具体包括以下步骤：

步骤1、锁定数据训练集的获取源头；

步骤2、建立数据传输通信链路；

步骤3、通过数据通信链路发送数据读取请求；

步骤4、构建数据编码模型，并对请求读取到的数据进行编码操作；其中，数据编码模型执行编码的过程中包括帧内帧间预测、变化、量化、环路滤波和熵编码步骤。

步骤5、将编码后的数据通过数据传输链路进行传输；

步骤6、将编码后的数据进行解码后，作为训练集应用于自动驾驶模型中。

在进一步的实施例中，在视频编码的过程中针对编码单元的划分，由于高清影像数据的爆炸式增长，基于宏块的编码方式无法适应高分辨率的编码任务，因此本实施例采用基于树形编码单元的方式替换现有技术中的宏块方式。

具体的，一个树形编码单元采用四叉树的划分方式，获得亮度与色，而一个亮度和两个色度再结合语法元素信息，构成一个帧内预测编码单元。随后对帧内预测编码单元进行再次划分，获得预测单元和变换单元，其中预测单元用于存储编码时的预测信息，例如参考帧的选取信息、角度信息等；变换单元用于执行编码过程中的变换以及量化操作。通过在平坦区域采用大编码，细节区域采用小编码的方式灵活划分。优选实施例中，可根据图像分辨率以及内容的不同按需求进行灵活划分，从而突破传统的固定宏块限制。

在进一步的实施例中，由于视频帧之间相邻的像素存在强相关性，因此本实施例通过利用相邻块的重建像素信息预测当前块的像素信息，可以有消除空间上的冗余。另外，由于相邻帧之间存在大量的相似信息，因此本实施例进一步提出通过运动搜索与运动补偿的方式，对帧间信息的冗余进行消除。

在进一步的实施例中，由于利用数据编码模型执行编码的过程中，主要的失真来源于量化编码的过程，量化的步长越大，则信息损失就越大，因此本实施例通过联合调解机制实现对量化参数、量化步长的精准调控。

具体的，根据预设次数的实验数据获得量化参数存在以下线性关系：

QP＝4.2lnλ+13.7

式中，λ表示拉格朗日优化因子。当面对的图像包含A*B个像素时，若目标码率为tol，那么平均每像素的目标比特数为：

结合实验数据，λ与平均每像素的目标比特数bit之间的关系表达式为：

λ＝α*bit^β

式中，α和β是根据实验数据获得的常数。根据获得的关系表达式，得知在码率控制平稳精准的情况下，实际码率往往更接近目标码率，因此，在采用可变分辨率的情况时，树形编码的实际码率存在较大程度上的提升，进而量化参数减少，使得画质质量得到有效提升。

本实施例通过对传输的视频数据进行编码压缩，可以有效的降低存储容量，以及传输过程中占用的带宽。

实施例二

在实施例一基础上的进一步实施例中，执行编码的过程中，通过将可变分辨率帧编码为I帧的方式进行编码操作；

针对读取到的原始帧，首先进行降采样，对比将采样后与原始帧的大小，以原始帧大小为参考，将降采样后的图像帧其余部分以像素0进行填充；随后采用数据编码模型对其进行编码操作。优选实施例中，将降采样后的数据放置整体布局中的左上角。

通过填0操作，强制为I帧的全零块则会被编码器决策成Skip块，从而消耗极低码率。优选实施例中将降采样的数据放置在左上角，因此执行编码的过程中，可变分帧消耗的码率便集中在左上角的图像中，从而减少大量码率的使用。

在进一步的实施例中，为了保证可变分帧I帧后续的P帧可以获得高质量的参考帧，则后续对可变分帧I帧做二倍目标码率处理，即目标码率是P帧的2倍。

实施例三

在实施例一基础上的进一步实施例中，自动驾驶模型针对获得的数据训练集首先对其进行解码，随后基于解码后的数据进行性能训练。为了获得有效的影像数据，从而提高后续的模型分析性能，本实施例针对编码后的影像数据，构建影像数据无损恢复模型从不同层面进行编码后的影像数据到原始无损数据的恢复，通过针对性的种类分析，获得高质量的视频数据。

现有技术在基于深度学习实现单帧原始无损数据的恢复过程中，常采用将先验信息作为额外通道的方式，将先验信息与目标图像在通道维度上进行直接拼接后同步输入神经网络中。由于先验信息与目标图像特征之间属于不同种模态，因此现有技术中提出的方法并不能有效的将两者进行结合。针对当前存在缺陷，本实施例通过先分析先验信息中编码单元划分结构和图像边缘结构的特点，挖掘出两者之间的潜在联系，从而获得有助于图像恢复的特征信息，并更进一步提出基于注意力机制的多模态信息融合方式，用于实现不同模态信息的融合，优化先验信息中的有效特征。

具体的，通过分析编码过程中采用的方法以及图像边缘结构的特点，获得编码单元划分结构和图像边缘结构包含了目标图像中的块效应和振铃效应等噪声分布，两个结构单元共同包含了目标图像失真强度的信息。随后将获得信息作为先验信息，并用于后续的数据处理。最后，执行先验信息与编码图像特征图融合的作业时，利用注意力机制实现多模态融合，将编码单元划分结构信息和物体边缘结构信息作为权重加权到目标图像的特征中，并将其作为知道网络对目标图像不同区域做不同程度滤波处理的依据。

面向多帧数据恢复的过程中，常采用参考帧的时域信息与目标帧对齐，随后在将对齐后的时域信息融合到目标帧特征信息上的方式，实现无损数据恢复。但是由于时域对齐的效果有恢复效果具备较大的影响，因此现有技术中采用光流法和可变形卷积法常会出现伪影的现象。针对该问题，本实施例通过分析可变卷积的实现机制，从梯度反向传播的方向上优化影像数据无损恢复模型的训练效果。

具体的，在常见的标准卷积中，对于输入特征图的卷积位置，标准卷积的卷积核以当前卷积位置为中心，并通过正方形的固定样式进行采样，随后与卷积核中的对应的点加权求和，得到最终对应位置的值。但是由于标准卷积中固定形状的存在，因此特征的提取能力受到相应的限制。本实施例通过对卷积核的采样位置添加可学习的偏移量，采用可变形卷积增强卷积操作的形变能力。优选实施例中，可变形卷积表达式为：

式中，p表示当前的卷积位置；N表示卷积核大小；w表示卷积核；x表示输入特征图；b表示偏置；p_i表示当前卷积的偏移位置；Δp_i表示可变形卷积的卷积核采样位置相对于标准卷积的卷积核采样位置的偏移量。

在进一步的实施中，针对恢复好的影像数据进一步提出一种质量评价方法，用于衡量无损恢复的效果。由与输入数据与输出数据的形式相同，因此采用均方差的形式衡量输入与输出之间的距离，通过获取像素值之间差值的方式衡量输出数据与原始数据之间的相似性。

具体的，针对视频数据，对所有帧的均方差求均值，获得两组视频数据之间的相似度距离，同时，在优选实施例中，为了提高影像数据无损恢复模型的性能，均方差也可直接用做影像数据无损恢复模型性能训练过程中的损失函数。其中均方差的表达式为：

式中，n表示用于分析的样本数量；y_i表示原始视频数据；

表示影像数据无损恢复模型的输出数据。

为了提高模型的性能，在模型的性能训练过程中采用梯度反向传播的方式计算梯度，进而实现模型参数优化。由于可变形卷积相比于标准卷积在偏移值和特征值方面具有不同的性质，因此面对可变形卷从特征值的像素信息到偏移值的位置信息的梯度反向传播过程中，采用双线性插值实现采样。

本实施例提出的影像数据无损恢复模型有效克服了编码视频后的伪影，相比于现有技术，具备更好的质量恢复性能。面向单帧的数据恢复过程中，利用编码过程中采用的划分结构以及图像物体边缘结构作为先验信息，实现压缩图像的恢复过程；另外，本实施例介于先验信息与压缩图像为不同模态的信息，进一步在模型中提出通过注意力机制实现不同模态信息的融合。面向多帧的数据恢复过程中，进一步提出采用多尺度对齐的方式，从梯度反向传播的机制中优化可变形卷积训练不稳定的缺陷。

实施例四

在一个实施例中，提出一种应用于模型训练的视频数据编码系统用于实现视频数据的编码方法，该系统具体包括以下模块：数据源读取模块、链路构建模块、数据请求模块、数据编码模块、数据交互模块、数据解码模块。

其中，数据源读取模块用于根据需求从对应的数据获取源头读取相应的影像数据；链路构建模块用于构建实现数据通信的传输链路；数据请求模块用于根据需求生成所需的数据请求；数据编码模块用于对响应数据请求的影像数据进行编码；数据交互模块用于通过数据传输链路将编码后的影像数据传输至应用模型中；数据解码模块用于对编码后的影像数据进行恢复。

在进一步的实施例中，在辅助智能驾驶的应用领域中，面对智能模型训练过程的数据集获取过程中，首先采用数据源读取模块根据需求确定数据训练集的获取源头，并读取相应的数据；其次，利用链路构建模块构建用于实现数据通信的传输链路；再次，根据应用于的对象生成数据读取请求，并通过数据传输链路传输至对应的数据源头；从次，数据源头响应数据请求，利用数据编码模块将请求的数据进行编码，并再次通过传输链路将编码后的数据传输给应用对象；最后，利用数据解码模块对接收到的影像数据进行解码，并将解码后的数据作为训练集传输至自动驾驶模型中。

实施例五

在一个实施例中，提出一种应用于模型训练的视频数据编码设备，该设备包括：处理器以及存储有计算机程序指令的存储器。

实施例六

在一个实施例中，提出一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序指令。

其中，计算机程序指令被处理器执行时，以实现视频数据编码方法。

如上所述，尽管参照特定的优选实施例已经表示和表述了本发明，但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下，可对其在形式上和细节上做出各种变化。

Claims

1.一种应用于模型训练的视频数据编码方法，其特征在于，具体包括以下步骤：

步骤1、锁定数据训练集的获取源头；

步骤2、建立数据传输通信链路；

步骤3、通过数据通信链路发送数据读取请求；

步骤4、构建数据编码模型，并对请求读取到的数据进行编码操作；

步骤5、将编码后的数据通过数据传输链路进行传输；

步骤6、将编码后的数据作为训练集应用于自动驾驶模型中。

2.根据权利要求1所述的一种应用于模型训练的视频数据编码方法，其特征在于，执行编码的过程中，通过将可变分辨率帧编码为I帧的方式进行编码操作；

针对读取到的原始帧，首先进行降采样，对比将采样后与原始帧的大小，以原始帧大小为参考，将降采样后的图像帧其余部分以像素0进行填充；随后采用数据编码模型对其进行编码操作。

3.根据权利要求1所述的一种应用于模型训练的视频数据编码方法，其特征在于，所述数据编码模型执行编码的过程中，包括：

步骤4.1、划分编码单元；所述编码单元包括：帧内预测单元、帧间预测单元、变换编码单元、量化编码单元、环路滤波单元和熵编码单元；

步骤4.3、利用所述变换编码单元执行变化编码；

步骤4.4、利用所述量化编码单元执行量化编码；

步骤4.5、利用环路滤波单元执行环路滤波；

4.根据权利要求3所述的一种应用于模型训练的视频数据编码方法，其特征在于，采用树形编码的形式执行编码单元的划分操作。

5.根据权利要求1所述的一种应用于模型训练的视频数据编码方法，其特征在于，所述步骤6具体包括以下步骤：

步骤6.1、构建影像数据无损恢复模型；

步骤6.2、利用影像数据无损恢复模型从不同层面从不同层面进行对传输过来的编码数据进行解码操作；

步骤6.3、自动驾驶模型读取解码后的数据进行性能训练。

6.根据权利要求5所述的一种应用于模型训练的视频数据编码方法，其特征在于，利用影像数据无损恢复模型从单帧层面恢复无损影像数据的过程中，在深度学习技术的基础上，先分析作为先验信息的编码单元划分结构和图像边缘结构的特点，挖掘两者之间的潜在联系，获得影像数据恢复所需的特征信息；随后，通过基于注意力机制的多模态信息融合，优化先验信息中的有效信息。

7.根据权利要求5所述的一种应用于模型训练的视频数据编码方法，其特征在于，利用影像数据无损恢复模型从多帧层面恢复无损影像数据的过程中，基于影像数据参考帧的时域信息与目标帧对齐的基础，通过添加多尺度可变卷积模块，以及分析可变卷积的实现机制，从梯度反向传播的方向上优化影像数据无损恢复模型的训练效果。

8.一种应用于模型训练的视频数据编码系统，用于实现如权利要求1-7任意一项所述的视频数据编码方法，其特征在于，具体包括以下模块：

数据源读取模块，被设置为根据需求从锁定的数据源头读取所需的影像数据；

链路构建模块，被设置为构建数据传输的链路；

数据请求模块，被设置为根据应用需求生成数据请求信息；

数据编码模块，被设置为对响应数请求的数据信息进行编码；

数据交互模块，被设置为基于传输链路实现编码信息的交互；

数据解码模块，被设置为对接收到编码数据进行解码，并将解码后的数据作为后续应用的基础。

9.一种应用于模型训练的视频数据编码设备，其特征在于，所述设备包括：

处理器以及存储有计算机程序指令的存储器；

所述处理器读取并执行所述计算机程序指令，以实现如权利要求1-7任意一项所述的视频数据编码方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-7任意一项所述的视频数据编码方法。