CN113887650B

CN113887650B - 一种基于深度学习的图像内部纹理分类方法

Info

Publication number: CN113887650B
Application number: CN202111216101.9A
Authority: CN
Inventors: 高红霞; 李日红; 曲连伟
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-10-19
Filing date: 2021-10-19
Publication date: 2024-05-24
Anticipated expiration: 2041-10-19
Also published as: CN113887650A

Abstract

本发明公开了一种基于深度学习的图像内部纹理分类方法，包括：1)输入纹理图像；2)使用ResNet50对图像提取特征，其对特征进行分层提取，将后面三个特征层的输出进行融合；3)设计多尺度特征感知模块对ResNet50提取的特征进行多尺度特征感知；4)使用skip跳接结构将中间特征层的信息直接引入后面特征层中，实现中间层纹理信息的传输；5)融合多尺度特征感知模块与跨层信息中的特征图；6)设计类别信息感知模块对融合后的特征图采用类似全连接网络中编码层的方法来计算类别信息，获得每个像素点的纹理分类结果。本发明可有效实现纹理类别的精准识别，提升不同纹理交界处的识别精度。

Description

一种基于深度学习的图像内部纹理分类方法

技术领域

本发明涉及图像内部纹理分类的技术领域，尤其是指一种基于深度学习的图像内部纹理分类方法。

背景技术

在图像内部纹理分类过程中，往往容易受到光照、尺度大小、方向变化等影响，且图像纹理虽然整体上存在一定的规律性，但其在局部区域的往往呈现出不规则性。纹理基元的排列可能是随机的，也可能是相互之间按照某种概率分布排列的，它可以用许多定性的语言来描述，如粗糙，精细，光滑，方向性等，但是将这些不同的纹理转化为数学模型乃至在图像中区分开来往往是一件具有挑战性的事。

传统的图像内部不同纹理区域的分类算法主要分两步走：图像纹理特征的提取和纹理分类组成。通过采用预先设定好的纹理描述符，提取出图像各区域的纹理信息，接着使用分类器，如SVM支持向量机进行分类得出不同区域的纹理类别，检测精度低。

由于纹理存在尺度多变性，传统方法中存在着一些不足：如传统纹理算子中存在固定的感受野，因此在面向不同类型的纹理时，需要人为手工调整相关设计，这带来很大的不便。此外，自然图像中存在的纹理规则性不强，使得纹理分类过程中容易出现误分。近年来，随着深度学习的发展，CNN具备更强的特征学习能力和泛化能力，使得它在图像分类领域中扮演着越来越重要的角色。

针对现有技术分类精度低的问题，本发明设计了一种基于深度学习的图像内部纹理分类方法，通过对同一图像中的多种纹理对象进行像素级分类，从而确定各个纹理的所属类别，最终将不同纹理对象分割开来。

发明内容

本发明的目的在于克服传统的全卷积网络在提取特征时一系列的下采样和较低的采样率导致的图像内部纹理分类不准确问题，提出了一种基于深度学习的图像内部纹理分类方法，可有效实现纹理类别的精准识别，提升不同纹理交界处的识别精度。

为实现上述目的，本发明所提供的技术方案为：一种基于深度学习的图像内部纹理分类方法，包括以下步骤：

1)输入纹理图像：输入需要进行内部纹理分类的图像；

2)使用ResNet50对图像提取特征，其对特征进行分层提取，且为了获取更多前层的细节信息，使得分类的结果更加精确，将后面三个特征层的输出进行融合；

3)设计多尺度特征感知模块对ResNet50提取的特征进行多尺度特征感知，获取多尺度的图像信息；

4)跨层信息传输：使用skip跳接结构将中间特征层的信息直接引入后面特征层中，实现中间层纹理信息的传输，使得最终输出的特征信息包含局部和全局信息；

5)特征图融合：融合多尺度特征感知模块与跨层信息中的特征图；

6)设计类别信息感知模块对融合后的特征图采用类似全连接网络中编码层的方法来计算类别信息，最终，获得每个像素点的纹理分类结果。

进一步，在步骤2)，在ResNet50的网络框架中，后面三个特征层的通道数为[512，1024，2048]，其大小为输入图像的[1/8，1/16，1/32]；为了减少计算时间和对特征信息进行精简，对后面三个特征层进行1×1卷积操作，将每一层的通道数映射到512个；同时，为了恢复图像中的细节信息，对最后两个映射后的特征层进行上采样，恢复到第三层的特征层的尺寸大小，其中采用的上采样算法为双线性插值算法；最终，将后面三个特征层输出叠加起来作为输出，其大小为输入图像的1/8，通道数为512×3＝1536。

进一步，在步骤3)，所述多尺度特征感知模块执行以下操作：

首先，对融合后的特征层使用不同空洞率的空洞卷积操作，来获取逐渐扩大的感受野，即获取多尺度的图像信息；同时，为了精简特征信息，在空洞卷积之后分别进行1×1卷积操作，将特征层通道数降至原先通道数的1/3，即每次空洞卷积后的通道数为512；最后，将经过不同空洞卷积操作的特征图连接起来作为多尺度信息输出，其大小为输入图像的1/8，通道数为512×4＝2048；采用1×1卷积将特征图精简为512通道，尺寸为输入图像的1/8，其大小与ResNet50的第三层输出的特征图相同。

进一步，在步骤5)，融合多尺度特征感知模块与跨层信息中的特征图，最终输出的特征层中通道数为512×2＝1024，尺寸为输入图像大小的1/8。

进一步，在步骤6)，所述类别信息感知模块执行以下操作：

为了恢复前面提取特征过程中造成的分辨率下降，首先对融合跨层信息输出后的特征图进行8倍上采样，使其尺寸恢复至输入图像大小；最后，通过1×1卷积将通道从1024映射到n层，此处的n等于任务所使用数据集中的类别数；

为了预测每个像素点所属的类别，并描述预测值与真实分布之间的偏差，使用交叉熵作为反映这种偏差的损失函数，此处交叉熵H(p′,p)的定义如下：

式中，p_k是通过全卷积神经网络中预测的像素点所属类别概率分布，p'_k是真实分布,K表示图中所有像素点数，k代表每个像素点；p_k和p'_k都是1×N的向量，此处N表示像素点可能所属的类别数；真实分布中采取one-hot编码的形式，设实际图像中第i个像素点的类别为Y_i ^*，其中Y_i ^*∈[1,N]，则该点对应的one-hot编码是一个1×N的向量，且其第Y_i ^*点对应位置处为1，其它位置处对应值为0；对于像素点的预测类别值X_i，采用软阈值softmax将其转化为概率分布模式；最终，训练损失函数/>定义如下：

式中，M代表整个图像中所有的像素点数；计算每个像素点上的损失，进行求和取平均作为最终损失。

本发明与现有技术相比，具有如下优点与有益效果：

为了纹理分类更准确，减少卷积过程中下采样带来的精度损失，本发明方法采用融合的后三个特征层并进行上采样叠加作为特征输出，同时，为了获取丰富的上下文信息，设计了多尺度特征感知模块进行特征编码，最后，由于在较低卷积层中含有更为丰富的纹理信息，且其分辨率更高，因此，为了使得不同纹理交界处的分类更精细化，本发明方法设计了一个跳接结构，将中间卷积层的结果连接到最后的输出特征层中，实现信息的跨层传输，最终获取高精度的分类结果。总之，对比传统的纹理算子在面向不同类型纹理时需要人为手工调整设计、检测精度低的情况，本发明的优点是采用深度网络在数据驱动下自主提取特征，并采用多尺度感知模块来获取多尺度的纹理信息以及采用跨层信息传输获取纹理细节信息，最终获取高精度的图像内部纹理分类结果，将不同纹理区域分割开。

附图说明

图1为本发明方法逻辑框架图。

图2为本发明方法流程图。

图3为多尺度特征感知模块的架构图。

图4为类别信息感知模块的架构图。

图5为实施例中分类结果图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

参见图1和图2所示，本实施例所提供的基于深度学习的图像内部纹理分类方法，包括以下步骤：

A、输入纹理图像：输入需要进行内部纹理分类的图像。

B、使用ResNet50提取特征：

在检测分类任务中，残差网络(ResNet)表现出了强大的特征学习能力和泛化能力。因此，本方法中将采用ResNet 50作为特征提取器进行特征提取，其对特征进行分层提取，可分为5层，层数越深，特征层对输入图像的全局形状越敏感，对纹理细节信息提取减弱。

C、后三层特征融合：

在ResNet50的特征提取层中，为了获取更多前层的细节信息，使得分类的结果更加精确，本方法中将后面三个特征层的输出进行融合。在ResNet50的网络框架中，后面三个特征层的通道数为[512，1024，2048]，其大小为输入图像的[1/8，1/16，1/32]。为了减少计算时间和对特征信息进行精简，对后面三层进行1×1卷积操作，将每一层的通道数映射到512个。同时，为了恢复图像中的细节信息，对最后两个映射后的特征层进行上采样，恢复到第三层的特征层的尺寸大小，此处采用的上采样算法为双线性插值算法。最终将三个特征层输出叠加起来作为输出，其大小为输入图像的1/8，通道数为512×3＝1536。

D、多尺度特征感知：

在检测任务中，对于输入图像，无论图像中目标区域的大小，都应该将其识别出来。在这里，物体的大小都是相对而言的，如图像中的小物体：一种是实际场景中的小物体，其本身比较小，在图像中所占像素就比较小；另一种是相对小物体，即由于视角或距离远近的影响，其所占像素相对于整个图像的比例偏小。在深度学习中，使用卷积层、池化层等来提取特征，这些结构对小尺度的物体检测是不友好的，如一个小尺度物体的像素是31×31，在ResNet50第5层时，其下采样率是1/32，很明显，经下采样后得到的特征图中，该小物体的大小不足一个像素点。因此，在上述特征融合过程中将特征图进行卷积和上采样操作后提升至原图的1/8，提升了小物体在特征图中的尺寸。

与此同时，在卷积过程中，存在感受野，感受野的大小取决于卷积核的大小，选取的卷积核大，则感受野相对就大。在ResNet50中，为了增加感受野，采用池化(pooling)进行下采样，这使得空间分辨率降低，对小尺度物体的检测不利。对于图像内部不同区块纹理的分类，使用空洞卷积十分有用，它能增大感受野，同时保持分辨率不变。一方面，感受野增大后可以检测大的纹理结构；另一方面，高分辨率有利于目标区域的精准定位。

因此，为了兼顾不同尺度图像纹理的检测分类任务，本方法设计了多尺度特征感知模块，其架构如图3所示。首先，对融合后的特征层使用不同空洞率(d＝1，2，4，8)的空洞卷积操作，来获取逐渐扩大的感受野，即获取多尺度的图像信息。同时，为了精简特征信息，在空洞卷积之后分别进行1×1卷积操作，将特征层通道数降至原先通道数的1/3，即每次空洞卷积后的通道数为512。最后，将经过不同空洞卷积操作的特征图连接起来作为多尺度信息输出，其大小为输入图像的1/8，通道数为512×4＝2048。采用1×1卷积将特征图精简为512通道，尺寸为输入图像的1/8，其大小与ResNet50的第三层输出的特征图相同。

E、跨层信息传输：

在经典的物体识别任务中，形状信息起着主要作用，因此需要对它们给予更多的关注。但在图像纹理内容分析时，很少需要对纹理的形状进行描述，甚至可以将这部分信息丢弃。网络中的特征具有分层特性：第二层中主要提取角点、边缘或其它颜色信息；第三层特征中含有更复杂的不变性，捕获相似的纹理信息；第四层中呈现出明显的类别具体化信息；第五层中则提取具有不同姿势的整个对象，如人脸、汽车、人等。即卷积神经网络的高层特征对输入图像的全局形状敏感，而中低层特征对输入图像中的纹理、线段等信息敏感，这也恰恰是本方法研究图像内部纹理信息时需要特别关注的点。

因此，在本方法设计的网络框架中，除了上述的多尺度信息提取分支外，还使用skip跳接结构将中间特征层的信息直接引入后面特征层中，实现中间层纹理信息的传输，使得最终输出的特征信息包含局部和全局信息。这在图像内部的纹理分类中是很关键的，它提供了携带大量纹理信息的高频细节，使得纹理交界处的分类更准确。

F、特征图融合：

融合多尺度特征感知模块与跨层信息中的特征图，最终输出的特征层中通道数为512×2＝1024，尺寸为输入图像大小的1/8。

G、类别信息感知：

对前面获取的特征图，本方法设计了类别信息感知模块，采用类似全连接网络中编码层的方法来计算类别信息，其架构如图4所示。为了恢复前面提取特征过程中造成的分辨率下降，首先对融合跨层信息输出后的特征图进行8倍上采样，使其尺寸恢复至输入图像大小。最后，通过1×1卷积将通道从1024映射到n层，此处的n等于任务所使用数据集中的类别数。

本方法中最终要实现像素级的分类，为了预测每个像素点所属的类别，并描述预测值与真实分布之间的偏差，本方法使用交叉熵作为反映这种偏差的损失函数，此处交叉熵H(p′,p)的定义如下：

H、获取纹理分类结果：

最终，通过类别信息感知模块得到每个像素点的纹理分类结果，部分结果如图5所示。从分类结果中可以看出，本发明所提方法在图像内部纹理分类中能接近真实类别，值得推广。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的图像内部纹理分类方法，其特征在于，包括以下步骤：

1)输入纹理图像：输入需要进行内部纹理分类的图像；

所述多尺度特征感知模块执行以下操作：

首先，对融合后的特征层使用不同空洞率的空洞卷积操作，来获取逐渐扩大的感受野，即获取多尺度的图像信息；同时，为了精简特征信息，在空洞卷积之后分别进行1×1卷积操作，将特征层通道数降至原先通道数的1/3，即每次空洞卷积后的通道数为512；最后，将经过不同空洞卷积操作的特征图连接起来作为多尺度信息输出，其大小为输入图像的1/8，通道数为512×4＝2048；采用1×1卷积将特征图精简为512通道，尺寸为输入图像的1/8，其大小与ResNet50的第三层输出的特征图相同；

6)设计类别信息感知模块对融合后的特征图采用类似全连接网络中编码层的方法来计算类别信息，最终，获得每个像素点的纹理分类结果；

所述类别信息感知模块执行以下操作：

2.根据权利要求1所述的一种基于深度学习的图像内部纹理分类方法，其特征在于，在步骤2)，在ResNet50的网络框架中，后面三个特征层的通道数为[512，1024，2048]，其大小为输入图像的[1/8，1/16，1/32]；为了减少计算时间和对特征信息进行精简，对后面三个特征层进行1×1卷积操作，将每一层的通道数映射到512个；同时，为了恢复图像中的细节信息，对最后两个映射后的特征层进行上采样，恢复到第三层的特征层的尺寸大小，其中采用的上采样算法为双线性插值算法；最终，将后面三个特征层输出叠加起来作为输出，其大小为输入图像的1/8，通道数为512×3＝1536。

3.根据权利要求1所述的一种基于深度学习的图像内部纹理分类方法，其特征在于，在步骤5)，融合多尺度特征感知模块与跨层信息中的特征图，最终输出的特征层中通道数为512×2＝1024，尺寸为输入图像大小的1/8。