CN112749802B

CN112749802B - 神经网络模型的训练方法、装置以及计算机可读存储介质

Info

Publication number: CN112749802B
Application number: CN202110100242.8A
Authority: CN
Inventors: 刘强; 李杉杉; 蔡振伟; 徐丽华; 徐�明
Original assignee: Shenzhen ZNV Technology Co Ltd; Nanjing ZNV Software Co Ltd
Current assignee: Nanjing Liwei Zhilian Technology Co.,Ltd.; Shenzhen ZNV Technology Co Ltd
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2024-02-09
Anticipated expiration: 2041-01-25
Also published as: CN112749802A

Abstract

本发明公开了一种神经网络模型的训练方法、装置以及计算机可读存储介质，获取预设格式的图像在解码过程生成的预设步长的频域信息；根据所述频域信息生成频域特征图；根据所述频域特征图在预设骨干网络模型中选取骨干网络；根据所述频域特征图与所述骨干网络生成神经网络模型；根据预设的训练集对神经网络模型进行训练得到目标模型并保存。本发明保证模型得到了能准确对高清图像进行分析的神经网络模型。

Description

神经网络模型的训练方法、装置以及计算机可读存储介质

技术领域

本发明涉及图像识别技术领域，尤其涉及一种神经网络模型的训练方法、装置以及计算机可读存储介质。

背景技术

随着图像传感器与显示技术的发展，在智能安防及城市管理、工业物联网等行业，超高清分辨图像的应用越来越丰富。特别是近年来，5G与8K技术的发展中，8K以超高清、高帧频、宽动态，5G以高带宽、低延时、广覆盖连接的优势，使基于超高清视频的人工智能应用与物联网融为一体，如基于无人机的超高清智能城市违建发现、工业瑕疵检测以及超高清智能摄像机等应用。

神经网络在计算机视觉任务中取得了显著的成绩，但当前的神经网络主要应用在空间域即直接处理RGB像素，输入大小固定。对于实际应用，特别是高清视频与图像数据，必须降采样到神经网络的预定输入大小。忽略了高清图像的细节特征，从而导致图像精度下降，甚至对于8K这种超分辨率图像，由于过度下采样导致无法全面解析超分辨率图像丰富的语义信息，从而导致无法训练出能准确对高清图像进行分析的神经网络模型。

发明内容

本发明的主要目的在于提供一种神经网络模型的训练方法、装置以及计算机可读存储介质，旨在解决无法训练出能准确对高清图像进行分析的神经网络模型的问题。

为实现上述目的，本发明提供的一种神经网络模型的训练方法，所述神经网络模型的训练方法包括以下步骤：

获取预设格式的图像在解码过程生成的预设步长的频域信息；

根据所述频域信息生成频域特征图；

根据所述频域特征图在预设骨干网络模型中选取骨干网络；

根据所述频域特征图与所述骨干网络生成神经网络模型；

根据预设的训练集对神经网络模型进行训练得到目标模型并保存。

在一实施例中，所述根据所述频域特征图与所述骨干网络确定神经网络模型的步骤包括：

确定所述频域特征图的特征图通道；

在所述特征图通道中抽取关键通道；

根据所述关键通道确定新的频域特征图；

根据所述新的频域特征图与所述骨干网络确定神经网络模型。

在一实施例中，所述在所述特征图通道中抽取关键通道的步骤包括：

确定每个所述特征图通道的权重信息；

将所述权重信息大于预设权重的所述特征图通道作为所述关键通道。

确定所述特征图通道的标准化矩阵，并确定所述标准化矩阵的相关系数矩阵；

根据所述相关系数矩阵确定所述标准化矩阵的特征根，并根据所述特征根确定主成分；

根据所述主成分的方差以及贡献率确定所述关键通道。

在一实施例中，所述根据所述频域信息生成频域特征图的步骤，还包括：

获取预设格式的图像亮度分量、蓝色色度分量以及红色色度分量的频域信息；

分别确定每个分量的频域信息对应的频域通道；

根据每个所述频域通道的张量形状对每个分量的所述频域通道进行调整，以使各个分量的频域通道的张量形状一致；

对调整后的各个分量的频域通道进行拼接，以生成特征图通道；

根据所述特征图通道确定所述频域特征图。

在一实施例中，所述分别根据所述频域通道的张量形状对每个分量的所述频域通道进行调整的步骤包括：

对蓝色色度分量与红色色度分量的频域信息进行采样，以得到采样频域信息；

根据所述采样频域信息对蓝色色度分量与红色色度分量的所述频域通道进行调整，以使蓝色色度分量与红色色度分量的频域通道的尺寸与亮度分量的频域通道的尺寸一致。

在一实施例中，所述获取预设格式的图像在解码过程生成预设步长的频域信息之前，还包括：

分别确定预设格式的图像的亮度分量、蓝色色度分量以及红色色度分量对应的分量图像；

将每个所述分量图像分割为预设步长的像素块；

对每个像素块做离散余弦变换以生成频域信息，所述频域信息包括高频分量和低频分量；

根据预设的量化表确定所述频域信息的量化精度，所述高频分量的量化精度低于所述低频分量的量化精度；

根据所述量化精度将所述频域信息进行量化并存储在存储空间。

在一实施例中，所述根据所述量化精度将所述频域信息进行量化并存储在存储空间的步骤之后，还包括：

根据预设算法对所述频域信息进行压缩，以减小所述频域信息的存储数据量。

为实现上述目的，本发明还提供一种神经网络模型的训练装置，所述神经网络模型的训练装置包括存储器、处理器以及存储在所述存储器并可在所述处理器上执行的神经网络模型的训练程序，所述神经网络模型的训练程序被所述处理器执行时实现如上所述的神经网络模型的训练方法的各个步骤。

为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有神经网络模型的训练程序，所述神经网络模型的训练程序被处理器执行时实现如上所述的神经网络模型的训练方法的各个步骤。

本发明提供的一种神经网络模型的训练方法、装置以及计算机可读存储介质，获取预设格式的图像在解码过程生成的预设步长的频域信息，根据频域信息生成频域特征图，根据频域特征图选取骨干网络；根据频域特征图与骨干网络生成神经网络模型，根据预设的训练集对神经网络模型进行训练得到目标模型并保存。训练得到的目标模型可以对高像素的图像进行训练，并且保留图像的重要图像信息，避免了由于图像像素过大使得神经网络模型训练过程中丢失较多图像信息的情况。

附图说明

图1为本发明实施例涉及的神经网络模型的训练装置的硬件结构示意图；

图2为本发明神经网络模型的训练方法的第一实施例的流程示意图；

图3为本发明神经网络模型的训练方法的图像进行离散余弦变换的示意图；

图4为本发明神经网络模型的训练方法的第二实施例的步骤S40的细化流程示意图；

图5为本发明神经网络模型的训练方法的第三实施例的步骤S20的细化流程示意图；

图6为本发明神经网络模型的训练方法的图像进行离散余弦变换的示意图；

图7为本发明神经网络模型的训练方法的第四实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：获取预设格式的图像在解码过程生成的预设步长的频域信息；根据所述频域信息生成频域特征图；根据所述频域特征图在预设骨干网络模型中选取骨干网络；根据所述频域特征图与所述骨干网络生成神经网络模型；根据预设的训练集对神经网络模型进行训练得到目标模型并保存。

训练得到的目标模型可以对高像素的图像进行训练，并且保留图像的重要图像信息，避免了由于图像像素过大使得神经网络模型训练过程中丢失较多图像信息的情况。

作为一种实现方案，神经网络模型的训练装置可以如图1所示。

本发明实施例方案涉及的是神经网络模型的训练装置，神经网络模型的训练装置包括：处理器101，例如CPU，存储器102，通信总线103。其中，通信总线103用于实现这些组件之间的连接通信。

存储器102可以是高速RAM存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。如图1所示，作为一种计算机可读存储介质的存储器102中可以包括神经网络模型的训练程序；而处理器101可以用于调用存储器102中存储的神经网络模型的训练程序，并执行以下操作：

根据所述频域信息生成频域特征图；

根据所述频域特征图在预设骨干网络模型中选取骨干网络；

根据所述频域特征图与所述骨干网络生成神经网络模型；

在一实施例中，处理器101可以用于调用存储器102中存储的神经网络模型的训练程序，并执行以下操作：

确定所述频域特征图的特征图通道；

在所述特征图通道中抽取关键通道；

根据所述关键通道确定新的频域特征图；

确定每个所述特征图通道的权重信息；

根据所述主成分的方差以及贡献率确定所述关键通道。

分别确定每个分量的频域信息对应的频域通道；

根据所述特征图通道确定所述频域特征图。

将每个所述分量图像分割为预设步长的像素块；

基于上述神经网络模型的训练装置的硬件构架，提出本发明神经网络模型的训练方法的实施例。

参照图2，图2为本发明神经网络模型的训练方法的第一实施例，所述神经网络模型的训练方法包括以下步骤：

步骤S10，获取预设格式的图像在解码过程生成的预设步长的频域信息。

具体的，预设格式的图像可以是JPEG文件格式的图像，其中，JPEG是JointPhotographic Experts Group(联合图像专家组)的缩写，JPEG文件格式的图像后辍名为“.Jpg”或“.Jpeg”。JPEG文件格式是一种支持8位和24位色彩的压缩位图格式。预设格式具体可以是ISO/IEC10918标准的文件格式，支持8位灰度图像和24位彩色图像的压缩编码。频域信息为预设格式的图像的空间频率，空间频率指的是预设格式的图像中灰度值相对其相邻点变化方式。频域信息可以分为高频分量和低频分量。

获取在解码过程中生成的预设步长的频域信息之前，需要对预设格式的图像进行编码，预设格式的图像可以是RGB色彩空间的图像，也可以是YCbCr色彩空间的图像。其中，当预设格式的图像是RGB色彩空间的图像时，需要转换为YCbCr色彩空间的图像。预设格式的图像可以是高清图像或者超高清图像，从高清图像到4K、8K分辨率的超高清图像，图像每帧分辨率从1920×1080(约207万像素)提升到3840×2160(约829万像素)、7680×4320(约3386万像素)。在对预设格式的图像编码过程中可以得到预设步长的频域信息并对频域信息进行量化，可以将量化后的频域信息进行压缩存储。对预设格式的解码过程是编码过程的逆向操作，对预设格式的图像进行不完全解码可以得到量化后的预设步长的频域信息。

步骤S20，根据所述频域信息生成频域特征图。

具体的，频域信息可以是通过预设格式的图像对应的分量图像生成的，分量图像包括亮度分量图像、蓝色色度分量图像以及红色色度分量图像。根据每个分量图像生成频域信息，根据频域信息确定频域特征图。

如图3所示，预设格式的图像分别按照亮度分量、蓝色色度分量以及红色色度分量进行DCT(Discrete Cosine Transform，离散余弦变换)变换得到各个分量的DCT系数块，DCT系数块可以是8×8DCT系数块，将每个分量中的8×8DCT系数块中每个编码位置的频域信息组装成为一个通道，亮度分量将产生64个通道，每个通道的特征图大小为(h/8)×(w/8)。蓝色色度分量以及红色色度分量分别产生64个通道，每个通道的特征图大小为(h/16)×(w/16)。由于亮度分量与蓝色色度分量以及红色色度分量的每个通道的特征图大小不一致,可通过对蓝色色度分量以及红色色度分量的通道进行上采样操作使其通道的特征图大小与亮度分量一致。通过拼接操作，将亮度分量、蓝色色度分量以及红色色度分量产生的通道拼接在一起，形成64×3个频域通道，根据64×3个频域通道生成频域特征图。

步骤S30，根据所述频域特征图在预设骨干网络模型中选取骨干网络。

具体的，根据频域特征图的形状选取现有的神经网络模型作为骨干网络，结合频域特征图的形状对骨干网络架构进行局部删减设计。例如，可以通过删除骨干网络中输入频域特征图的卷积层，保留剩余的骨干网络架构，从而可以复用骨干网络中训练好的网络架构与参数。

步骤S40，根据所述频域特征图与所述骨干网络生成神经网络模型。

具体的，由于频域特征图与骨干网络的输入形状相同，即可以将频域特征图与骨干网络进行合并得到神经网络模型。

步骤S50，根据预设的训练集对神经网络模型进行训练得到目标模型并保存。

具体的，通过预设的训练集对神经网络模型进行训练生产目标模型，预设的训练集包括预设格式的训练图像。对神经网络模型的训练可通过CPU与GPU协同完成。示例性的，将JPEG图像中哈夫曼解码等熵解码过程、DCT频域通道生成放到CPU进行处理，将需要大量矢量与矩阵运算的神经网络的部分放入GPU中处理，以最大化的利用处理器的特性，节省存取带宽，加快训练速度。

在本实施例的技术方案中，通过获取预设步长的频域信息生成频域特征图，根据频域特征图对骨干网络进行选取，将频域特征图与骨干网络进行拼接后得到神经网络模型，并将神经网络模型进行训练得到目标模型。训练得到的目标模型可以对高像素的图像进行训练，并且保留图像的重要图像信息，避免了由于图像像素过大使得神经网络模型训练过程中丢失较多图像信息的情况。

参照图4，图4为本发明神经网络模型的训练方法的第二实施例，基于第一或第二实施例，所述步骤S40包括：

步骤S41，确定所述频域特征图的特征图通道；

步骤S42，在所述特征图通道中抽取关键通道；

步骤S43，根据所述关键通道确定新的频域特征图；

步骤S44，根据所述新的频域特征图与所述骨干网络确定神经网络模型。

具体的，为了适配骨干网络的特征图输入层的特征图形状，可以对频域特征图通道进行抽取操作与压缩操作，并对频域特征图的长宽进行输入层卷积处理。对关键通道进行抽取和压缩之后得到新的频域特征图，根据新的频域特征图与骨干网络确定神经网络模型。

频域特征图的抽取操作可以通过SENet(Squeeze-and-Excitation Networks)模块，SENet模块是一种图像识别结构，通过对特征通道间的相关性进行建模，把重要特征进行强化来提升准确率。如图所示，该模块主要的功能是对各个通道进行权重的分配，获取重要的特征信息。其中X指输入，U是主干网络每一层卷积层的输出，X～表示结合了权重之后最终的输出。确定每个特征图通道的权重信息；将权重信息大于预设权重的特征图通道作为关键通道。频域特征图的抽取操作可以通过常规的主成分分析法确定关键通道，确定特征图通道的标准化矩阵，并确定标准化矩阵的相关系数矩阵；根据相关系数矩阵确定标准化矩阵的特征根，并根据特征根确定主成分；根据主成分的方差以及贡献率确定所述关键通道。其中每个主成分为变量的线性组合。主成分能够反映变量的绝大部分信息，且所含的信息互不重叠。频域特征图的抽取操作也可以是PCA(Principal Component Analysis，主成分分析法)、聚类算法等通道压缩方法。

在本实施例的技术方案中，对频域特征图中的特征图通道进行抽取和压缩，使得频域特征图的形状与骨干网络的的特征图输入层的特征图形状适配。便于将频域特征图与骨干网络进行拼接得到神经网络模型。

参照图5，图5为本发明神经网络模型的训练方法的第三实施例，基于第一至第三实施例，所述步骤S20包括：

步骤S21，获取预设格式的图像的亮度分量、蓝色色度分量以及红色色度分量的频域信息；

步骤S22，分别确定每个分量的频域信息对应的频域通道；

步骤S23，根据每个所述频域通道的张量形状对每个分量的所述频域通道进行调整，以使各个分量的频域通道的张量形状一致；

步骤S24，对调整后的各个分量的频域通道进行拼接，以生成特征图通道；

步骤S25，根据所述特征图通道确定所述频域特征图。

具体的，确定预设格式的图像的亮度分量、蓝色色度分量以及红色色度分量的频域信息，将每个分量中的DCT系数块中每个编码位置的频域信息组装成为一个通道，DCT系数块可以是8×8DCT系数块，亮度分量将产生64个通道，每个通道的特征图大小为(h/8)×(w/8)，如图6所示。蓝色色度分量以及红色色度分量分别产生64个通道，每个通道的特征图大小为(h/16)×(w/16)，如图6所示。由于亮度分量与蓝色色度分量以及红色色度分量的每个通道的特征图大小不一致,可通过调整蓝色色度分量以及红色色度分量的通道使其通道的特征图大小与亮度分量一致。示例性的，对蓝色色度分量与红色色度分量的频域信息进行采样，以得到采样频域信息；根据所述采样频域信息对蓝色色度分量与红色色度分量的所述频域通道进行调整，以使蓝色色度分量与红色色度分量的频域通道的尺寸与亮度分量的频域通道的尺寸一致。通过拼接操作，将亮度分量、蓝色色度分量以及红色色度分量产生的通道拼接在一起，形成64×3个特征图通道，根据特征图通道确定频域特征图。

在本实施例的技术方案中，确定预设格式图像各个分量的频域通道，由于频域通道的张量形状不一致，将各个分量的频域通道进行调整以使得张量形状一致，对各个分量的频域通道进行拼接，生成频域特征图的特征图通道，以确定频域特征图。

参照图7，图7为本发明神经网络模型的训练方法的第五实施例，基于第一至第四实施例，所述步骤S10之前，还包括：

步骤S60，分别确定预设格式的图像的亮度分量、蓝色色度分量以及红色色度分量对应的分量图像；

步骤S70，将每个所述分量图像分割为预设步长的像素块；

步骤S80，对每个像素块做离散余弦变换以生成频域信息，所述频域信息包括高频分量和低频分量；

步骤S90，根据预设的量化表确定所述频域信息的量化精度，所述高频分量的量化精度低于所述低频分量的量化精度；

步骤S100，根据所述量化精度将所述频域信息进行量化并存储在存储空间。

具体的，在对预设格式的图像解码之前，还需要对预设格式图像进行编码。分别确定预设格式的图像的亮度分量、蓝色色度分量以及红色色度分量对应的分量图像；将每个所述分量图像分割为预设步长的像素块；对每个像素块做离散余弦变换以生成频域信息，所述频域信息包括高频分量和低频分量；高频分量是指图像亮度或者灰度变化剧烈的位置，代表了图像的边缘、轮廓、噪声或者细节部分；低频分量是指图像亮度或者灰度变化平缓的位置，代表了图像的主要部分的信息，低频分量是对图像的亮度或者灰度的综合度量。由于低频分量包含图像的主要信息，因此高频分量的量化精度低于低频分量的量化精度，使得低频分量大部分被保留，高频分量被大部分丢弃。将量化后的频域信息存储在存储空间，对预设图像格式进行解码过程中，将会调用量化后的频域信息。

如图6所示，可以根据预设算法对量化后的所述频域信息进行压缩，以减小所述频域信息的存储数据量。预设算法可以是无损压缩算法(哈夫曼编码的变体)，进一步减小了频域信息的大小。

在本实施例的技术方案中，将每个所述分量图像分割为预设步长的像素块；对每个像素块做离散余弦变换以生成频域信息；根据预设的量化表确定所述频域信息的量化精度；根据所述量化精度将所述频域信息进行量化并存储在存储空间。对预设格式的图像进行编码，丢弃了大部分高频分量，保留了包含主要信息的低频分量，并对量化后的频域信息进行无损压缩，使得量化后的频域信息的数据保持较高的完整度。

本发明还提供一种神经网络模型的训练装置，所述神经网络模型的训练装置包括存储器、处理器以及存储在所述存储器并可在所述处理器上执行的神经网络模型的训练程序，所述神经网络模型的训练程序被所述处理器执行时实现如上实施例所述的神经网络模型的训练方法的各个步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有神经网络模型的训练程序，所述神经网络模型的训练程序被处理器执行时实现如上实施例所述的神经网络模型的训练方法的各个步骤。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种神经网络模型的训练方法，其特征在于，所述神经网络模型的训练方法包括：

根据所述频域信息生成频域特征图；

根据所述频域特征图在预设骨干网络模型中选取骨干网络；

根据所述频域特征图与所述骨干网络生成神经网络模型，包括：确定所述频域特征图的特征图通道；在所述特征图通道中抽取关键通道；根据所述关键通道确定新的频域特征图；根据所述新的频域特征图与所述骨干网络确定神经网络模型；

2.如权利要求1所述的神经网络模型的训练方法，其特征在于，所述在所述特征图通道中抽取关键通道的步骤包括：

确定每个所述特征图通道的权重信息；

3.如权利要求1所述的神经网络模型的训练方法，其特征在于，所述在所述特征图通道中抽取关键通道的步骤包括：

根据所述主成分的方差以及贡献率确定所述关键通道。

4.如权利要求1所述的神经网络模型的训练方法，其特征在于，所述根据所述频域信息生成频域特征图的步骤，还包括：

分别确定每个分量的频域信息对应的频域通道；

根据所述特征图通道确定所述频域特征图。

5.如权利要求4所述的神经网络模型的训练方法，其特征在于，所述分别根据所述频域通道的张量形状对每个分量的所述频域通道进行调整的步骤包括：

6.如权利要求1所述的神经网络模型的训练方法，其特征在于，所述获取预设格式的图像在解码过程生成预设步长的频域信息之前，还包括：

将每个所述分量图像分割为预设步长的像素块；

7.如权利要求6所述的神经网络模型的训练方法，其特征在于，所述根据所述量化精度将所述频域信息进行量化并存储在存储空间的步骤之后，还包括：

8.一种神经网络模型的训练装置，其特征在于，所述神经网络模型的训练装置包括存储器、处理器以及存储在所述存储器并可在所述处理器上执行的神经网络模型的训练程序，所述神经网络模型的训练程序被所述处理器执行时实现如权利要求1-7任一项所述的神经网络模型的训练方法的各个步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有神经网络模型的训练程序，所述神经网络模型的训练程序被处理器执行时实现如权利要求1-7任一项所述的神经网络模型的训练方法的各个步骤。