CN110738666A

CN110738666A - 一种基于离散余弦变换的图像语义分割方法及装置

Info

Publication number: CN110738666A
Application number: CN201910913306.9A
Authority: CN
Inventors: 樊硕
Original assignee: Beijing Yingpu Technology Co Ltd
Current assignee: Beijing Yingpu Technology Co Ltd
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2020-01-31

Abstract

本申请公开了一种基于离散余弦变换的图像语义分割方法及装置，涉及计算机视觉领域。本发明的基于离散余弦变换的图像语义分割方法包括：将RGB图像转换为DCT表示；采用FCR重新排列DCT系数；将系数重新排列后的DCT表示数据输入到改进的BiSeNet模型中进行图像语义分割，所述改进的BiSeNet模型为：在BiSeNet模型的基础上删除若干下采样操作，并增加模型深度。本发明的基于离散余弦变换的图像语义分割装置包括图像转换模块、重排模块以及语义分割模块。本申请通过DCT操作将原始区域的RGB图像编码成为频域中的分量，能够避免图像解压缩带来的计算消耗和时间消耗。

Description

一种基于离散余弦变换的图像语义分割方法及装置

技术领域

本申请涉及计算机视觉领域，特别是涉及基于离散余弦变换的图像语义分割方法及装置。

背景技术

深度学习模型已被证明在计算机视觉领域内取得了巨大的成功，例如图像语义分割、目标检测、视觉问答等等，其中最常用的模型为CNN(Convolutional Neural Networks，卷积神经网络)。在使用CNN模型对图像数据进行处理前，需要进行图像解压缩，这是由于在实际应用中图像一般被压缩为特征的编码格式以方便传输和储存，因此CNN模型训练的图像数据大多数都是RGB图像格式。但是图像解压缩会消耗大量的计算力，会降低模型训练的效率和速度，因此如何避免解压缩带来的计算消耗是一个值得考虑的问题。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种基于离散余弦变换的图像语义分割方法，所述方法包括：

将RGB图像转换为DCT(Discrete Cosine Transform，离散余弦变换)表示；

采用FCR(Frequency Component Rearrangement，频率分量重排)重新排列DCT系数；

将系数重新排列后的DCT表示数据输入到改进的BiSeNet模型中进行图像语义分割，所述改进的BiSeNet(Bilateral SegmentationNetwork，双分割网络)模型为：在BiSeNet模型的基础上删除若干下采样操作，并增加模型深度。

可选地，所述的将RGB图像转换为DCT表示包括：

将RGB图像转换为YCbCr表示；

对YCbCr表示数据进行DCT操作；

采用量化矩阵量化DCT系数；

通过熵编码对量化后的DCT系数进行编码。

可选地，所述的对YCbCr表示数据进行DCT操作包括：

将YCbCr的每个通道均划分为8×8大小的像素块，并且将每个像素点的像素值都减去128，然后采用下述公式进行DCT操作：

其中，α_u和α_v是归一化因子，g_x，y是(x，y)处的像素值，G_u，y是(u，v)处的DCT系数，0≤u，v＜8。

可选地，所述的采用FCR重新排列DCT系数包括：

将每个维度块(8，8，1)重新排列为(1，1，64)。

可选地，所述的在BiSeNet模型的基础上删除若干下采样操作，并增加模型深度包括：

在BiSeNet模型的基础上删除一半的下采样操作，并增加五个卷积层。

根据本申请的另一个方面，提供了一种基于离散余弦变换的图像语义分割装置，所述装置包括：

图像转换模块：其配置成将RGB图像转换为DCT表示；

重排模块：其配置成采用FCR重新排列DCT系数；

语义分割模块：其配置成将系数重新排列后的DCT表示数据输入到改进的BiSeNet模型中进行图像语义分割，所述改进的BiSeNet模型为：在BiSeNet模型的基础上删除若干下采样操作，并增加模型深度。

可选地，所述的图像转换模块包括：

颜色空间转换子模块：其配置成将RGB图像转换为YCbCr表示；

DCT操作子模块：其配置成对YCbCr表示数据进行DCT操作；

系数量化子模块：其配置成采用量化矩阵量化DCT系数；

系数编码子模块：其配置成通过熵编码对量化后的DCT系数进行编码。

可选地，所述的DCT操作子模块包括：

其中，α_u和α_v是归一化因子，g_x，y是(x，y)处的像素值，G_u，v是(u，v)处的DCT系数，0≤u，v＜8。

可选地，所述的采用FCR重新排列DCT系数为：

将每个维度块(8，8，1)重新排列为(1，1，64)。

第三方面，本申请还提供一种基于离散余弦变换的图像语义分割的数据处理设备，包括：存储器和处理器，所述存储器用于保存基于离散余弦变换的图像语义分割的指令，所述处理器用于基于离散余弦变换的图像语义分割的指令被执行时，执行上述的方法。

第四方面，本申请还提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述的方法。

第五方面，一种计算机程序产品，包括计算机可读代码，当所述计算机可读代码由计算机设备执行时，导致所述计算机设备执行上述的方法。

本申请的基于离散余弦变换的图像语义分割方法及装置由于通过DCT操作将原始区域的RGB图像编码成为频域中的分量，能够避免图像解压缩带来的计算消耗和时间消耗。

进一步地，本申请的基于离散余弦变换的图像语义分割方法及装置针对DCT操作后的图像特征对语义分割模型进行了改进，以便DCT表示数据能够适应性输入到分割模型中进行训练，能够进一步提高语义分割的准确率和效率，降低了高语义分割过程的整体计算消耗，也为语义分割领域的研究提供了新的思路。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请一个实施例的一种基于离散余弦变换的图像语义分割方法的示意性流程图；

图2是图1中将RGB图像转换为DCT表示的示意性流程图；

图3是图2中对YCbCr表示数据进行DCT操作的示意性流程图；

图4是根据本申请另一个实施例的一种基于离散余弦变换的图像语义分割装置的示意性结构框图；

图5是图4中DCT操作子模块的示意性结构框图；

图6是根据本申请另一个实施例的一种计算设备的示意性结构框图；

图7是根据本申请另一个实施例的一种计算机可读存储介质的示意性结构框图。

具体实施方式

根据下文结合附图对本申请的具体实施例进行详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

图1是根据本申请一个实施例的一种基于离散余弦变换的图像语义分割方法的示意性流程图。图2是图1中将RGB图像转换为DCT表示的示意性流程图。图3是图2中对YCbCr表示数据进行DCT操作的示意性流程图。如图1所示，本实施例提供了一种基于离散余弦变换的图像语义分割方法，在该实施例中，采用Cityscapes数据集进行实验。Cityscapes数据集是一种道路场景数据集，共有2975张图像，500张图像用于训练，1525张图像用于验证。

该实施例的基于离散余弦变换的图像语义分割方法一般性地可包括如下三个步骤：

S1、将RGB图像转换为DCT表示，具体包括：

S101、颜色空间转换，将RGB图像转换为YCbCr表示：

YcbCr颜色空间由亮度分量(Y)和两个色度分量(Cb，Cr)组成，Y代表亮度(Luminance/Luma)，也就是灰阶值，是通过RGB输入信号来建立的，具体方法是将RGB信号的特定部分叠加到一起。Cb反映的是RGB输入信号中蓝色部分与RGB信号亮度值之间的差异，Cr反映了RGB输入信号中红色部分与RGB信号亮度值之间的差异。将RGB转换为YCbCr的公式为：

Y＝0.257*R+0.564*G+0.098*B+16

Cb＝-0.148*R-0.291*G+0.439*B+128

Cr＝-0.439*R-0.368*G-0.071*B+128

S102、对YCbCr表示数据进行DCT操作：

如图3所示，首先进行颜色空间转换，将RGB转换为YCbCr的三个通道，然后将三个通道中的每一个通道都划分为若干个像素块，每个像素块的大小是8×8个像素，并且将每个像素点的像素值都减掉128，最后通过下述公式进行DCT操作：

S103、采用量化矩阵量化DCT系数：

在DCT域中，像素信息由空间频谱组成。每个8×8像素块中，低频子带位于左上方，而高频子带位于右下方，频率系数(DCT系数)由量化矩阵量化并舍入为整数。

S104、通过熵编码对量化后的DCT系数进行编码：

通过游程编码(RLE)和霍夫曼编码对量化后的DCT系数进行编码。

S2、采用FCR重新排列DCT系数：

在对YcbCr颜色空间的Y、Cb、Cr三个信道均进行逐块DCT后，每个信道不仅包含空间关系，还包含DCT系数的频谱关系。在8×8像素块中，每个DCT系数的位置对应于频率索引，也就是每个系数表示了其特定频率分量。但是，若直接将DCT操作的结果送入CNN进行操作，CNN会将频率关系视为空间关系，导致CNN信息提取失误并产生较大误差，因此需要采用FCR重新排列DCT的系数。重排规则为，将每个维度块(8，8，1)重新排列为(1，1，64)，即把每个频率分量放置到第三维的相应通道处，使得CNN能够适当地利用DCT表示。

S3、将系数重新排列后的DCT表示数据输入到改进的BiSeNet模型中进行图像语义分割，所述改进的BiSeNet模型为：在BiSeNet模型的基础上删除若干下采样操作，并增加模型深度：

BiSeNet(Frequency Component Rearrangement，频率分量重排)模型是目前图像语义分割领域最先进的模型，因此本实施例采用该模型进行后续的图像处理和训练。BiSeNet模型采用下采用操作来整合输入信息以扩大感受野，但是下采用操作会导致特征图的尺寸过小，而对于语义分割来说，空间信息和边界细节又是非常重要的，因此本实施例从两个方面对BiSeNet模型进行改进：第一方面是删除一半的下采样操作以适应图像的表示，第二方面是增加模型的深度，通过实验证明，具体为再增加五个卷积层可以更好地提取图像特征信息。训练过程中使用ADAM作为训练优化器，学习率设置为0.001。训练完成后，使用改进的BiSeNet模型对验证集和测试集进行验证和测试，实验表明本实施例的改进的BiSeNet模型在原BiSeNet模型的基准上进一步提升了图像语义分割准确率和效率。

从图像语义分割的发展现状来看，目前还没有从解压缩的角度来提高语义分割性能的报道。本实施提出从解压缩的角度来提升语义分割的效率和性能。图像语义分割是指根据图像内容对指定区域进行标记的计算机视觉任务，具体来讲，图像语义分割的目的在于标记图像中的每一点像素，并将像素和其对应的类别对应起来，目前有很多学者在神经网络模型的角度不断改进网络结构以增强语义分割准确率，本实施例在改进网络模型的同时还应用DCT操作，能够同时提高语义分割模型的准确率和效率。

图4是根据本申请一个实施例的一种基于离散余弦变换的图像语义分割装置的示意性结构框图。本实施例提供了一种基于离散余弦变换的图像语义分割装置，在该实施例中，采用Cityscapes数据集进行实验。Cityscapes数据集是一种道路场景数据集，共有2975张图像，500张图像用于训练，1525张图像用于验证。

该实施例的基于离散余弦变换的图像语义分割装置一般性地可包括如下三个模块：图像转换模块、重排模块和语义分割模块。图像转换模块配置成将RGB图像转换为DCT表示。重排模块配置成采用FCR重新排列DCT系数。语义分割模块配置成将系数重新排列后的DCT表示数据输入到改进的BiSeNet模型中进行图像语义分割，所述改进的BiSeNet模型为：在BiSeNet模型的基础上删除若干下采样操作，并增加模型深度。

图像转换模块具体包括：

颜色空间转换子模块配置成将RGB图像转换为YCbCr表示。

DCT操作子模块配置成对YCbCr表示数据进行DCT操作。

系数量化子模块其配置成采用量化矩阵量化DCT系数。

系数编码子模块其配置成通过熵编码对所述DCT系数进行编码。

YcbCr颜色空间由亮度分量(Y)和两个色度分量(Cb，Cr)组成，Y代表亮度(Luminance/Luma)，也就是灰阶值，是通过RGB输入信号来建立的，具体方法是将RGB信号的特定部分叠加到一起。Cb反映的是RGB输入信号中蓝色部分与RGB信号亮度值之间的差异，Cr反映了RGB输入信号中红色部分与RGB信号亮度值之间的差异。颜色空间转换子模块将RGB转换为YCbCr的公式为：

Y＝0.257*R+0.564*G+0.098*B+16

Cb＝-0.148*R-0.291*G+0.439*B+128

Cr＝-0.439*R-0.368*G-0.071*B+128

图5是DCT操作子模块的示意性结构框图，如图5所示，DCT操作子模块的工作原理为：首先进行颜色空间转换，将RGB转换为YCbCr的三个通道，然后将三个通道中的每一个通道都划分为若干个像素块，每个像素块的大小是8×8个像素，并且将每个像素点的像素值都减掉128，最后通过下述公式进行DCT操作：

在DCT域中，像素信息由空间频谱组成。每个8×8像素块中，低频子带位于左上方，而高频子带位于右下方，系数量化子模块中，频率系数(DCT系数)由量化矩阵量化并舍入为整数。

系数编码子模块通过游程编码(RLE)和霍夫曼编码对量化后的DCT系数进行编码。

重排模块采用FCR重新排列DCT系数。

在对YcbCr颜色空间的Y、Cb、Cr三个信道均进行逐块DCT后，每个信道不仅包含空间关系，还包含DCT系数的频谱关系。在8×8像素块中，每个DCT系数的位置对应于频率索引，也就是每个系数表示了其特定频率分量。但是，若直接将DCT操作的结果送入CNN进行操作，CNN会将频率关系视为空间关系，导致CNN信息提取失误并产生较大误差，因此需要采用FCR(Frequency Component Rearrangement，频率分量重排)重新排列DCT的系数。重排规则为，将每个维度块(8，8，1)重新排列为(1，1，64)，即把每个频率分量放置到第三维的相应通道处，使得CNN能够适当地利用DCT表示。

语义分割模块将系数重新排列后的DCT表示数据输入到改进的BiSeNet模型中进行图像语义分割，所述改进的BiSeNet模型为：在BiSeNet模型的基础上删除若干下采样操作，并增加模型深度。

BiSeNet(Bilateral Segmentation Network，双分割网络)模型是目前图像语义分割领域最先进的模型，因此本实施例采用该模型进行后续的图像处理和训练。BiSeNet模型采用下采用操作来整合输入信息以扩大感受野，但是下采用操作会导致特征图的尺寸过小，而对于语义分割来说，空间信息和边界细节又是非常重要的，因此本实施例从两个方面对BiSeNet模型进行改进：第一方面是删除一半的下采样操作以适应图像的表示，第二方面是增加模型的深度，通过实验证明，具体为再增加五个卷积层可以更好地提取图像特征信息。训练过程中使用ADAM作为训练优化器，学习率设置为0.001。训练完成后，使用改进的BiSeNet模型对验证集和测试集进行验证和测试，实验表明本实施例的改进的BiSeNet模型在原BiSeNet模型的基准上进一步提升了图像语义分割准确率和效率。

本申请实施例还提供了一种计算设备，参照图6，该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序，该计算机程序存储于存储器1120中的用于程序代码的空间1130，该计算机程序在由处理器1110执行时实现用于执行根据本发明的方法步骤1131。

本申请实施例还提供了一种计算机可读存储介质。参照图7，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本发明的方法步骤的程序1131′，该程序被处理器执行。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行根据本发明的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于离散余弦变换的图像语义分割方法，包括：

将RGB图像转换为DCT表示；

采用FCR重新排列DCT系数；

将系数重新排列后的DCT表示数据输入到改进的BiSeNet模型中进行图像语义分割，所述改进的BiSeNet模型为：在BiSeNet模型的基础上删除若干下采样操作，并增加模型深度。

2.根据权利要求1所述的方法，其特征在于，所述的将RGB图像转换为DCT表示包括：

将RGB图像转换为YCbCr表示；

对YCbCr表示数据进行DCT操作；

采用量化矩阵量化DCT系数；

通过熵编码对量化后的DCT系数进行编码。

3.根据权利要求2所述的方法，其特征在于，所述的对YCbCr表示数据进行DCT操作包括：

4.根据权利要求3所述的方法，其特征在于，所述的采用FCR重新排列DCT系数包括：

将每个维度块(8，8，1)重新排列为(1，1，64)。

5.根据权利要求1至4中任意一项所述的方法，其特征在于，所述的在BiSeNet模型的基础上删除若干下采样操作，并增加模型深度包括：

6.一种基于离散余弦变换的图像语义分割装置，包括：

图像转换模块：其配置成将RGB图像转换为DCT表示；

重排模块：其配置成采用FCR重新排列DCT系数；

7.根据权利要求6所述的装置，其特征在于，所述的图像转换模块包括：

颜色空间转换子模块：其配置成将RGB图像转换为YCbCr表示；

DCT操作子模块：其配置成对YCbCr表示数据进行DCT操作；

系数量化子模块：其配置成采用量化矩阵量化DCT系数；

8.根据权利要求7所述的装置，其特征在于，所述的DCT操作子模块包括：

9.根据权利要求8所述的装置，其特征在于，所述的采用FCR重新排列DCT系数为：

将每个维度块(8，8，1)重新排列为(1，1，64)。

10.根据权利要求6至9中任意一项所述的装置，其特征在于，所述的在BiSeNet模型的基础上删除若干下采样操作，并增加模型深度包括：