CN113011506B

CN113011506B - 一种基于深度重分形频谱网络的纹理图像分类方法

Info

Publication number: CN113011506B
Application number: CN202110311743.0A
Authority: CN
Inventors: 许勇; 黎枫; 全宇晖; 梁锦秀
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2023-08-25
Anticipated expiration: 2041-03-24
Also published as: CN113011506A

Abstract

本发明公开了一种基于深度重分形频谱网络的纹理图像分类方法，包括获取纹理图像及其对应的类别标签数据库；对纹理图像进行预处理，作为深度重分形频谱网络模型的输入；构建深度重分形频谱网络模型，并进行训练，所述深度重分形频谱网络模型包括对纹理图像进行特征提取，提取后的特征分别输入两个旁支进行计算得到特征向量，再通过双线性池化层对两个特征向量进行耦合，最后通过全连接层与Softmax函数映射成训练数据集所对应的类别数相等的类别预测概率向量，概率向量数值大的向量元素所对应的索引即为预测类别；利用训练后的深度重分形频谱网络模型，实现纹理图像的分类。本发明在真实场景下分类准确率更高。

Description

一种基于深度重分形频谱网络的纹理图像分类方法

技术领域

本发明涉及图像分类，具体涉及一种基于深度重分形频谱网络的纹理图像分类方法。

背景技术

在我们视觉自然世界中普遍存在的图像，视频和3D表面等视觉数据通常富含纹理。人们对纹理并不陌生，例如草，砖，人群，云，细胞，晶体等常见的视觉对象都处于纹理图像的范畴。在许多情况下，纹理为理解对象和场景提供了主要的视觉提示。因此，描述或者分类各种纹理是模式识别和计算机视觉的重要任务，在图像分类，材料识别，场景解析，医学图像处理，遥感图像分析等各个领域都有广泛的应用。

发明一种用于纹理描述和分类的有效方法具有挑战性。由于纹理的复杂性和随机性，在局部外观和全局分布方面，纹理图像通常表现出较大的类内变化。由于各种因素引起的环境变化，例如照明变化，非刚性表面变形和相机视点变化，这种变化进一步加剧。为了应对这些挑战，用于分类的纹理描述符应在辨别力和鲁棒性之间取得平衡。

在已有的大量发明中，人们通常致力于手动构造健壮的纹理描述符，这些描述符对图像变换具有一定程度的不变性。但是，当区分复杂或细粒度的纹理图案时，这些手工设计的纹理描述符无法有效分类。

与一般图像分类相比，纹理图像分类的深度学习方法有其自身的挑战。用于通用图像分类经典CNN网络将卷积层与全连接(FC)层相连。FC层保留了卷积层输出特征图的绝对空间布局，并用作分类器。这种CNN结构不适合用于富含纹理的图像分类任务，因为FC层基于“绝对”位置捕获空间布局，并且其输出对于诸如平移和旋转之类的空间变换敏感，而这种变换在真实场景中经常发生。此外，基于深度学习的纹理图像分类方法中的另一个问题是如何根据CNN输出的特征图来获得对空间变换具有鲁棒性的特征表示。现有方法一般对CNN输出的特征图进行全局池化，例如对每个通道特征图的空间位置求平均或在CNN特征图上计算统计量。

确实，要设计一种既能够刻画类内复杂多变图像的不变性特征且能够有效区分类间图像的空间分布特征是一个需要有效策略来平衡的问题。大多数现有基于深度学习的方法都采用简单的全局特征池，这可能会丢失基于CNN的特征的空间布局的许多细节。

发明内容

为了克服现有技术存在的缺点与不足，本发明提供一种基于深度重分形频谱网络的纹理图像分类方法，具体是充分利用纹理图像在全局上的统计自相似及其分布特征的分类方法，实现其基于数据集可以端到端完成模型训练并有效提高模型的分类准确率及鲁棒性。

本发明采用如下技术方案：

一种基于深度重分形频谱网络的纹理图像分类方法，包括：

获取纹理图像及其对应的类别标签数据库；

对纹理图像进行预处理，作为深度重分形频谱网络模型的输入；

构建深度重分形频谱网络模型，并进行训练，所述深度重分形频谱网络模型包括对纹理图像进行特征提取，提取后的特征分别输入两个旁支进行计算得到特征向量，再通过双线性池化层对两个特征向量进行耦合，最后通过全连接层与Softmax函数映射成训练数据集所对应的类别数相等的类别预测概率向量，概率向量数值大的向量元素所对应的索引即为预测类别；

利用训练后的深度重分形频谱网络模型，实现纹理图像的分类。

进一步，所述对纹理图像进行特征提取是基于深度残差网络进行提取。

进一步，所述两个旁支包括全局池化分支及重分形频谱计算分支。

进一步，所述全局池化分支具体是对提取特征进行全局池化并通过全连接层将输出向量维度压缩到48。

进一步，所述重分形频谱计算分支具体先经过逆卷积操作将提取纹理图像的特征进行上采样，并将其特征通道数压缩成3通道，而后对3通道的每个特征图进行直方图切片，每个通道切片划分成16个通道，得到48通道的特征点聚类特征图，再经过多尺度最大池化层近似实现的盒计数算法，计算每个通道特征点聚类特征图的分形维数，最终得到维度为48的重分形维数向量。

进一步，所述预处理包括，将输入图像的大小调整至256*256，并随机裁剪得到大小为224*224的图像，之后对图像进行50％概率的随机水平翻转，最后将图像像素值归一化到[0,1]。

进一步，将训练集图像分批输入网络预测模型，得到预测的类别概率向量后，将预测向量真实类别所对应的独热编码向量进行对比，计算交叉熵损失函数，根据交叉熵损失函数计算梯度，利用梯度反向传播和梯度下降更新模型参数。通过多次迭代，模型能够学习到分类结果越来越准确的模型参数。

进一步，所述重分形频谱计算分支包括逆卷积层、卷积层、点聚类模块、最大池化分形维估计模块及全连接层。

进一步，所述点聚类模块是模拟直方图统计过程，将纹理图像的不同基元结构通过直方图分片的方式划分至不同特征图中，进一步进行分形维数估计。

进一步，所述最大池化分形维估计模块通过多尺度最大池化层及最小二乘拟合模拟盒计数的分形维数计算过程。

本发明的有益效果：

1、本发明针对真实场景纹理图像分类，提出一种利用纹理图像全局自相似性及其分布特征的深度重分形频谱纹理图像分类方法，该方法能够预测诸如医学影像的病灶区域、场景图像、地质材料图像、遥感图像等富含纹理的图像的类别，对形变、光照变化、尺度变化等复杂的环境变化具有鲁棒性，适用于实际场景。

2、本发明提出的深度重分形频谱纹理图像分类网络能够将描述纹理图像的全局统计自相似性的能力端到端的嵌入网络的训练学习过程中，可以充分运用数据集的知识来自动学习确定重分形频谱计算过程中所需要的超参数。本发明将真实场景下纹理图像的统计自相似性一种沿着尺度方向进行统计时可以被刻画成随机平稳过程的统计特征嵌入网络的端到端学习过程中，具备对复杂的环境变化鲁棒的能力，使得该模型在多种真实场景下皆能够有效分类纹理图像类别。

3、本发明相比于传统的纹理图像分类算法具有更低的时间复杂度，本发明训练好的网络模型能够很快地得到预测结果，而传统方法需要先根据确定的局部特征描述子计算局部特征，需要更高的时间复杂度。本发明相对于其他深度学习方法，引入重分形池化模块，能够更好的处理多种复杂形变，在真实场景下分类准确率更高。

附图说明

图1为本发明的整体流程图。

图2为深度重分形频谱网络结构图。

图3为本发明设计的重分形频谱计算分支结构图

图4为本发明重分形频谱计算分支的点聚类模块结构图

图5为本发明重分形频谱计算分支的多尺度分形维数估计模块结构图

具体实施方式

下面结合实施例及附图，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例

如图1-图5所示，一种基于深度重分形频谱网络的纹理图像分类方法，包括如下步骤：

S1获取纹理图像及其对应的类别标签数据库；

选择并下载在真实场景下采集的纹理图像数据集并标注好类别，本发明是通过有监督学习的方式进行端到端的图像分类，所以本发明需要一个较大数量的待训练的多类别(两种或两种以上)纹理图像数据集，包含对应类别的多种纹理图像样本及其对应的类别标签。

S2对纹理图像进行预处理，作为深度重分形频谱网络模型的输入。

本实施例在训练数据集上选择了目前公开的，具有较大数据规模的自然场景纹理图像数据集，该数据集由移动电话设备摄像头拍摄。本发明将数据划分为训练集，测试集。

对每组图像进行大小调整，裁剪为224*224的尺寸，并以50％的概率随机水平翻转并进行归一化处理。

S3构建端到端的深度重分形频谱网络模型，并进行训练。

构建网络结构如图2所示，该网络结构由四部分组成，包括基于ResNet预训练模型的特征提取器和重分形频谱计算分支、全局池化分支、全连接层分类器。其中，重分形频谱计算分支将ResNet预训练模型的特征提取器部分的输出特征图压缩成三通道并上采样为原图的2倍，而后对三通道逐一进行直方图分片与多尺度最大池化估计分形维向量。

所述特征提取器可以是实现提取功能的其他卷积神经网络。

本实施例中的特征提取器具体为ResNet预训练，以ResNet18为例，具体包括：

卷积层1：卷积核大小为7*7，卷积核个数为64，步长stride＝2，padding＝3；

批规范化批规范化(Batch Normalization)1；

ReLU激活函数；

最大池化Max Pooling：核大小为3*3，步长stride＝2，padding＝1，dilation＝1；

残差模块(Residual Block，RB)1；

残差模块RB2；

残差模块RB3；

残差模块RB4。

所述重分形频谱计算分支，具体包括：

逆卷积层1：卷积核大小为3*3，卷积核个数为512，步长stride＝2

卷积层2：卷积核大小为1*1，卷积核个数为3

对每个通道i：点聚类模块i对每个点得到聚类特征图j：

多尺度最大池化分形维估计模块

连接层：

Fractal Dim₁|Fractal Dim₂|Fractal Dim₃|…Fractal Dim_p…|Fractal Dim₄₈。

本实施例中的全局池化分支，具体包括：

全局平均池化层：卷积核大小为：7*7，步长为7。

全连接层1：输入特征数512，输出特征数48。

本实施例中全连接分类器，包括：

双线性池化(Bilinear Pooling，BP)；

全连接层2：输入特征数2304，输出特征数128；

全连接层3：输入特征数128，输出特征为图像类别数

SoftMax层。

该模型以三通道RGB纹理图像作为输入，以深度残差网络(ResNet)的特征提取器部分为模型特征提取部分的基本结构并使用其在imagenet公开数据集上预训练的模型参数初始化，分别经过本发明设计的两个旁支计算过程，再经过双线性池化层对两个旁支计算得到的特征进行耦合，最后通过全连接层与Softmax函数映射成训练数据集所对应的类别数相等的类别预测概率向量，其中概率大的向量元素所对应的索引即为预测类别。

激活函数ReLu函数，ReLu函数表达式为：f(x)＝max(0,x)，非线性激活函数能够增加模型的非线性，加快模型收敛。

本实施例中模型训练的过程为：

特征提取器提取纹理图像的特征向量；

特征向量分别输入两个旁支进行计算得到两个特征向量，所述两个旁支包括全局池化分支及重分形频谱计算分支。

如图4中，重分形频谱计算分值的点聚类模块的实现计算过程，具体为：

点聚类模块如图4所示，旨在模拟直方图统计过程，将纹理图像的不同基元结构通过直方图分片的方式划分至不同的特征图中，基于此我们可以进一步进行分形维数估计。在本发明中，我们将特征图像素强度划分为K个区间，每个区间设置一个区间中心c_k，即{c_k∈R，k＝1，...，K}。为阐述方便本说明书前述内容以K＝16为例，而实际应用中K可根据实际需求具体选定。

因此，对于每一个输入特征图D，我们计算其对应区间的点聚类特征图：

即经过点聚类模块完成了特征图的计算。

所述多尺度最大池化分形维估计模块的实现计算过程

多尺度最大池化分形维估计模块如图5所示，旨在通过多尺度最大池化层及最小二乘拟合模拟盒计数的分形维数计算过程。经过该模块可以完成的分形维数计算过程。具体是选定一组核大小为m_s的最大池化层，其中m_s∈{m₁，m₂，m₃，...，m_s，...，m_s|m₁＞m₂＞…＞m_s，m₁＜min{W，H}}。在本说明书中，为阐述方便我们取m_s∈{2，3，4，5，6}。如图5所示，对于每一个/>经过一组最大池化层后，对输出的每个特征图取平均值得到N_s∈{N₁，N₂，N₃，...，N_s，...，N_S}，我们对log(m_s)-log(N_s)进行最小二乘拟合求得其斜率即为所估计出的分形维数β_k。

经过连接层，我们将所有输入特征图的所有点聚类特征图连接成重分形频谱向量β＝(β₁，β₂，...，β_K)。

双线性池化：

对于全局平均池化分支得到的特征向量g与重分形频谱计算分支得到的特征描述——重分形频谱向量β，我们通过双线性池化进行耦合：

B＝g^Tβ

构造损失函数

为了完成网络模型的端到端学习，让网络能够有效地学习到纹理图像的特征描述并完成到类别标签的分类映射，本发明使用交叉熵损失函数作为学习的目标函数。给定输入图像及其标签：{(I_j，l_j)}_j，其中l_j为对应类别的独热编码向量，记深度重分形频谱网络为f(·；Θ)，则交叉熵损失函数为：

其中

S4模型测试

在数据集中测试集读取测试图像数据，按照训练集的预处理方法进行预处理；

将测试图像输入加载的训练好的深度重分形频谱分类网络中，得到预测的类别概率向量，并计算其概率值最大位置所对应的类别。

将得到的预测类别与真实类别标签进行对比，计算预测准确率。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于深度重分形频谱网络的纹理图像分类方法，包括：

获取纹理图像及其对应的类别标签数据库；

利用训练后的深度重分形频谱网络模型，实现纹理图像的分类；

所述重分形频谱计算分支具体先经过逆卷积操作将提取纹理图像的特征进行上采样，并将其特征通道数压缩成3通道，而后对3通道的每个特征图进行直方图切片，每个通道切片划分成16个通道，得到48通道的特征点聚类特征图，再经过多尺度最大池化层近似实现的盒计数算法，计算每个通道特征点聚类特征图的分形维数，最终得到维度为48的重分形维数向量；

对于每一个输入特征图D，计算其对应区间的点聚类特征图：

完成点聚类特征图的计算；

所述多尺度最大池化分形维估计模块的实现计算过程：

通过多尺度最大池化层及最小二乘拟合模拟盒计数的分形维数计算过程；实现的分形维数计算过程，具体是选定一组核大小为m_s的最大池化层，其中m_s∈{m₁,m₂,m₃,…,m_s,…,m_S|m₁＞m₂＞…＞m_S,m₁∑min{W,H}}；

对于每一个经过一组最大池化层后，对输出的每个特征图取平均值得到N_s∈{N₁,N₂,N₃,…,N_s,…,N_S}，对log(m_s)-log(N_s)进行最小二乘拟合求得其斜率即为所估计出的分形维数β_k；

经过连接层，将所有输入特征图的所有点聚类特征图连接成重分形频谱向量β＝(β₁,β₂,…,β_K)。

2.根据权利要求1所述的纹理图像分类方法，其特征在于，所述对纹理图像进行特征提取是基于深度残差网络进行提取。

3.根据权利要求1所述的纹理图像分类方法，其特征在于，所述两个旁支包括全局池化分支及重分形频谱计算分支。

4.根据权利要求1-3任一项所述的纹理图像分类方法，其特征在于，所述全局池化分支具体是对提取特征进行全局池化并通过全连接层将输出向量维度压缩到48。

5.根据权利要求1-3任一项所述的纹理图像分类方法，其特征在于，m_s∈{2,3,4,5,6}。

6.根据权利要求1所述的纹理图像分类方法，其特征在于，所述预处理包括，将输入图像的大小调整至256*256，并随机裁剪得到大小为224*224的图像，之后对图像进行50％概率的随机水平翻转，最后将图像像素值归一化到[0,1]。

7.根据权利要求1所述的纹理图像分类方法，其特征在于，将训练集图像分批输入网络预测模型，得到预测的类别概率向量后，将预测向量真实类别所对应的独热编码向量进行对比，计算交叉熵损失函数，根据交叉熵损失函数计算梯度，利用梯度反向传播和梯度下降更新模型参数，通过多次迭代，模型能够学习到分类结果越来越准确的模型参数。

8.根据权利要求1所述的纹理图像分类方法，其特征在于，所述重分形频谱计算分支包括逆卷积层、卷积层、点聚类模块、最大池化分形维估计模块及全连接层。

9.根据权利要求8所述的纹理图像分类方法，其特征在于，所述点聚类模块是模拟直方图统计过程，将纹理图像的不同基元结构通过直方图分片的方式划分至不同特征图中，进一步进行分形维数估计。

10.根据权利要求8所述的纹理图像分类方法，其特征在于，所述最大池化分形维估计模块通过多尺度最大池化层及最小二乘拟合模拟盒计数的分形维数计算过程。