CN112559791A

CN112559791A - 一种基于深度学习的布匹分类检索方法

Info

Publication number: CN112559791A
Application number: CN202011379047.5A
Authority: CN
Inventors: 赖舒健; 杨志景; 黄韵瑜; 陈俊阳; 王美林
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-03-26

Abstract

本发明公开了一种基于深度学习的布匹分类检索方法，属于图像分类技术领域。所述方法包括步骤：分类布匹样本，采集布匹图像以建立图像数据库；建立基于深度学习的双线性深度卷积神经网络布匹分类模型；训练布匹分类模型，并保存最优模型；将待检索的布匹图像载入到分类模型中进行分类，获得置信度最高的5类分类结果合并成一个临时的检索数据库；在临时数据库上对待检索的布匹图像进行检索并输出结果。通过双线性深度卷积神经网络，计算不同空间位置特征的外积，从而捕获图像的纹理信息，在布匹分类任务上具有很好的效果；通过在双线性深度卷积神经网络的基础上引用了双线性池化层降低输出特征维度，在保证分类结果准确率的同时减少了计算量。

Description

一种基于深度学习的布匹分类检索方法

技术领域

本发明涉及图像分类技术领域，更具体地，涉及一种基于深度学习的布匹分类检索方法。

背景技术

目前，我国乃至世界绝大多数布匹生产企业和销售公司在布匹的分类和检索步骤中，依然由人工来完成此类工作，存在着速度慢、效率低、劳动强度大的问题。同时，不同类别的纹理布匹具有一定相似性；再加上各种噪声和环境的干扰，使得人工识别、分类、检索变得十分困难。在识别过程中，还会受到检验人员的经验、熟练程度以及一些主观因素的影响，所以分类检索的结果会存在很大偏差，缺乏稳定性和可靠性。

布匹图像与普通的图像不同，普通的图像的特征绝大部分是关于形状的信息，但是布匹图像则含有大量的纹理特征信息，纹理在图像中体现为特征值强度的某种局部重复模式的宏观表现，这种布匹纹理存在着类内差异大，类间差异小的问题，目前，图像分类领域普遍采用基于深度学习的方法。大多数主流的深度学习图像分类框架，例如VGG、ResNet、GoogLeNet在实际应用中都是用于普通的图像分类，对于布匹这类包含丰富纹理信息的图像却不太适用。如果需要达到工业要求的准确率，一般需要很深的网络结构，不仅计算成本太高，而且耗时大，很难满足工业要求。因此，针对于这种纹理图像分类检索，需要特定的纹理分类检索网络框架去完成。

由于现有的中大规模的图像检索一般步骤为：图像特征提取、图像特征编码学习、距离排序匹配、图像检索。因此还存在耗时较长、硬件要求高的技术问题，同时考虑到纹理布匹的特点，这种方法应用到布匹数据库检索的效果很差。

公开号为CN107369155A公开日：2017-11-21提出的一种基于机器视觉的布匹表面疵点检测方法及其系统通过深度学习算法构建布匹瑕疵点分类模型，实现布匹瑕疵点的自动检测和分类，仅通过该专利申请技术方案中的瑕疵点分类模型以及模型训练方法，无法对合格布匹进行分类，在布匹分类阶段低效耗时。

因此，如何实现自动识别分类纹理布匹并且进行自动检索最相似的布匹，从而提升效率，减少工作量，是目前需要解决的技术问题。

发明内容

本发明为克服上述现有技术所述的用于普通图像分类的深度学习图像分类框架存在效率低、计算量大的缺陷，提供一种基于深度学习的布匹分类检索方法，技术方案如下：

一种基于深度学习的布匹分类检索方法，包括步骤：

S1.对布匹样本确认所属类别，拍照采集所述布匹样本的布匹图像，建立图像数据库；

S2.对全部布匹图像进行特征提取，建立特征数据库；

S3.对所述图像数据库中的布匹图像进行数据增强处理，扩充图像数据库；

S4.建立基于深度学习的布匹分类模型；

S5.采用所述扩充后的图像数据库训练布匹分类模型并保存其参数，得到完成训练的布匹分类模型；

S6.将待检索的布匹图像载入到完成训练的布匹分类模型中进行分类，获得在所述特征数据库中置信度最高的A类分类结果，其中A为正整数；

S7.在所述特征数据库中，选取所述置信度最高的A类分类结果对应的图像特征子集，组成一个临时的检索数据库；

S8.在临时的检索数据库中对待检索的布匹图像进行检索并输出结果。

本发明首先通过布匹分类模型获得置信度最高的若干分类结果，随后再进行图像检索的操作。具体地，在输入一张布匹图像后，通过分类模型获得该布匹图像置信度最高的A类布匹类别子集，优选地，选取置信度最高的5类布匹类别子集作为分类结果，然后在这个子集中进行布匹的检索操作。

进一步地，步骤S1中，所述布匹图像使用电子成像装置进行拍照采集，在进行图像拍照采集时采取多样化的拍摄环境和手法，所述多样化的拍摄环境和手法包括：在拍摄时选取多个拍摄角度、多种环境光亮度、多种光源类型、多个光照角度、多种拍摄设备、多种镜头清洁度、开启或关闭电子成像装置的闪光灯。

进一步地，步骤S2中利用预训练的VGG16特征提取模型对每个类别布匹图像进行所述特征提取。

进一步地，所述VGG16特征提取模型的权重由ImageNet训练得到。

进一步地，步骤S3中，所述数据增强处理包括对图像数据库中的一部分布匹图像同时进行旋转、平移、加噪处理，并得到一组数据增强后的图像数据；对另一部分布匹图像分别单独进行旋转、平移、加噪处理，得到三组数据增强后的图像数据。

进一步地，步骤S4中，所述基于深度学习的布匹分类模型包括：卷积神经网络VGG16、残差网络Resnet50、1*1的卷积核、双线性池化层、Softmax分类器；其中：

所述卷积神经网络VGG16中包括13个卷积层；

所述残差网络Resnet50中包括依次连接的48个卷积层，所述卷积层中第一层为7*7卷积层，其余为1*1卷积层或3*3卷积层，特殊功能单元为残差单元；

所述残差网络Resnet50输出端与1*1的卷积核的输入端连接，1*1的卷积核和卷积神经网络VGG16的输出端分别与所述双线性池化层的输入端连接，所述双线性池化层的输出端与Softmax分类器的输入端连接，Softmax分类器的输出端作为所述布匹分类模型的输出端，输出分类结果。

进一步地，步骤S5所述布匹分类模型训练阶段中的训练包括布匹分类模型通过反向传播BP算法在数据集上进行训练。

进一步地，步骤S5所述布匹分类模型训练阶段，其具体步骤如下：

S5.1：将步骤3数据增强处理后的图像数据库按照预设比例划分为训练集和验证集；

S5.2：采用预训练的方法将分类模型通过反向传播BP算法在训练集上进行训练。

进一步地，步骤S8中，所述进行检索包括对待检索图像和临时的检索数据库中的图像之间在视觉特征上的相似度匹配进行计算。

进一步地，通过余弦相似度计算所述视觉特征上的相似度匹配，具体地，通过将待检索的布匹图像的特征向量与临时的检索数据库中每一张布匹图像的特征向量进行余弦相似度的计算，选择余弦值最接近1的若干张布匹图像即相似度最高的若干张布匹图像进行输出。

所述布匹图像使用电子成像装置进行采集，所述电子成像装置是指具有电子图像传感器、镜头，并可以输出所采集图像数据的图像采集设备，包括：摄像头，数码相机，带拍摄功能的手机、个人计算机、平板电脑。

与现有技术相比，本发明技术方案的有益效果是：

由卷积神经网络VGG16和残差网络Resnet50组成双线性深度卷积神经网络，通过双线性深度卷积神经网络捕获图像的纹理信息，在布匹分类任务上具有很好的效果，在保证分类结果准确率的同时减少了计算量；并且将在整个布匹数据库进行检索转化成在一个小的数据库子集中进行检索，这不仅提升了速度，实际应用的检索效果也更好。

附图说明

图1为基于深度学习的布匹分类检索方法步骤示意图。

图2为基于双线性卷积网络的布匹分类模型框架示意图。

图3为布匹检索实验效果图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本发明提出基于深度学习的布匹分类检索方法，其实施步骤如图1所示，包括如下详细步骤：

准备布匹样本，根据布匹纹理的特点，对布匹样本进行人工分类确认所属类别，按照布匹样本类别拍照采集布匹图像，并标记布匹图像对应的类别；因为人工分类会受到工作人员的经验、熟练程度以及一些主观因素的影响，因此需要不同的工作人员对布匹进行多次的人工分类，以保证分类的客观性，在本实施例中共组织10人进行人工分类，对于有分歧的布匹类别，采用投票法来确定最终分类结果。即对于某一张有分歧的分类结果的布匹样本进行10人投票，得票高的类别就作为最后分类结果。

随后使用电子成像装置拍照采集布匹样本的图像数据，在实际情况中待检索的布匹样本绝大多数是直接使用手机拍照的，而且提供的图像质量也良莠不齐。因此在本实施例中也使用手机拍照采集布匹样本获取图像数据，同时在拍照过程尽量使拍摄环境和手法多样化，例如从多个角度对布匹进行拍摄取样、控制环境亮度进行拍摄取样、人为添加图像噪声、拍摄时打开或关闭闪光灯、采用多种光源类型、采用多个型号的手机、控制多种镜头清洁度等等，这是为了提高后续训练模型的鲁棒性。然后将获取的布匹图像作为数据库样本建立图像数据库。

S2.对全部布匹图像进行特征提取，建立特征数据库；

在特征提取阶段，利用预训练的VGG16特征提取模型对图像数据库中的全部布匹图像进行特征提取，以建立特征数据库，特别注意的是，提取出来的特征并不是直接合并成一个文件数据库，此处提取出来的是每个类别布匹图像的特征，供以之后检索步骤选用检索所需的特征类别，假设有N类布匹图像，提取出来的特征文件就有N个。所述VGG16特征提取模型的权重由ImageNet训练而来。

VGG卷积神经网络是牛津大学在2014年提出来的模型，它具有简洁性和实用性的特点，它在图像分类任务中都表现出非常好的效果。经过反复实验，相比于Resnet和Densenet这些更深的网络而言，VGG系列在布匹任务上的表现效果更佳。

所述数据增强处理包括对图像数据库中随机选取的一部分布匹图像同时进行旋转、平移和加噪处理，并得到一组数据增强后的图像数据；对另一部分布匹图像分别单独进行旋转、平移或加噪处理，得到三组数据增强后的图像数据；将数据增强处理后生成的所有组新数据加入到布匹图像数据库中，从而得到一个扩充的图像数据库，用于后续分类网络模型的训练。

S4.建立基于深度学习的布匹分类模型；

如图2所示，所述布匹分类模型包括卷积神经网络VGG16、残差网络 Resnet50、双线性池化层(Compact Bilinear Pooling)、Softmax分类器；具体地， ResNet包含49层卷积层，除了第一层是7*7卷积外，其余皆为1*1卷积和3*3 卷积，特殊功能单元为残差单元，最后一层为Softmax分类层；VGG16包含13 个卷积层，和3个全连接层。

在本实施例中，去掉VGG16的最后三个全连接层以及Resnet50最后的 Softmax分类层。

所述卷积神经网络VGG16中包括13个卷积层；

所述残差网络Resnet50中包括依次连接的48个卷积层，所述卷积层中第一层为7*7卷积层，其余为1*1卷积层或3*3卷积层；特殊功能单元为残差单元。

所述残差网络Resnet50和卷积神经网络VGG16的输出端分别与所述双线性池化层的输入端连接，所述双线性池化层的输出端作为所述布匹分类模型的输出端。

由于VGG16和Resnet50两个网络最后输出的特征图深度不同，VGG16输出的特征图深度是512维，而Resnet50输出的特征图深度是2048维，所以本实施例中添加1*1的卷积核对Resnet50最后输出的特征进行降维操作，特征图深度统一降维成512维，然后将两个网络最后输出的特征输入到双线性池化层中，双线性池化层输出的双线性特征向量最后经过Softmax分类器输出置信度最高的若干类布匹图像特征。

双线性池化层由以下步骤推导计算可得：

其中公式(1)是双线性池化层中的池化操作，即计算两个卷积网络的外积。 χ＝(x_1,…,x_s∈R^C)是一组局部特征描述符，而S是一组空间位置(行和列的组合)。使用CNN卷积神经网络的前向提取局部特征描述符x_s。如(1)中所定义， B(χ)是一个c×c矩阵，但出于分析的目的，本实施例中将其视为长度c²的向量。

给定两组本地特征描述符χ,γ。令k(x，y)表示比较内核，即二阶多项式内核。可以找到一些低维投影函数φ(c)∈R^d，其中d<<c²，满足

那么可以近似得出公式(2)如下：

C(χ)：＝∑_s∈Sφ(x_s) (3)

那么公式(3)中C(χ)就是所求的双线性特征向量，这是一个低维度的特征向量。

在布匹分类模型训练阶段，具体的流程如下：

(1)首先按照8:2的比例，对步骤3数据增强后的布匹数据集进行训练集与验证集的划分；

(2)将分类模型通过反向传播BP算法在数据集上进行训练。在训练过程中，采用预训练的方法，每次迭代的数据输入都执行数据增强操作，并且进行归一化，在本实施例中，所述布匹分类模型采用PyTorch框架，所述数据增强和归一化均通过调用PyTorch框架相应功能实现；每5次迭代便使用验证集在模型上进行性能测试，最优的测试结果对应的布匹分类模型则为完成训练的布匹分类模型。模型的参数更新方式是Adam，初始学习速率为0.0001，动量系数为0.9，批次大小为16,迭代次数为200。

所述布匹分类模型的分类流程为：将待检索的布匹图像载入到完成训练的布匹分类模型中，输入图像分别经过VGG16网络和Resnet50网络的一系列卷积层后，得到两个深层的图像特征图X1、X2，将Resnet50网络输出的深层的图像特征图X2输入1*1的卷积核进行降维操作，将X2降维到512维，随后经过一个双线性池化层得到一组双线性特征向量，最后将所述双线性特征向量输入到 Softmax分类器中，利用双线性特征向量推导出输入的布匹图像置信度最高的A 类图像特征；A是正整数，设布匹样本总共有N类，则A小于等于N-1，且A 大于等于2；本实施例中A为5。

在步骤S2所提取出来的N个布匹特征文件中，选择步骤S6所得到的5个置信度最高的类别特征文件，组合成一个临时的检索数据库供以之后步骤的检索操作。

所述检索操作是在步骤7所合并出来的一个临时的检索数据库中进行的；图像检索需要通过计算待检索布匹图像和特征数据库中的候选图像之间在视觉特征上的相似度匹配。因此需要定义一个合适的视觉特征相似度度量方法，本实例中所述视觉特征相似度选择的是余弦相似度度量，余弦相似度用向量空间中两向量夹角的余弦值作为衡量两个个体之间差异的大小。余弦值越接近1，表明两个向量的夹角越接近0度，则两个向量越相似。具体地，通过将待检索的布匹图像的特征向量与临时的检索数据库中每一张布匹图像的特征向量进行余弦相似度的计算，选择余弦值最接近1的若干张布匹图像及所述若干张布匹图像的对应类别进行输出；布匹检索实验效果如图3所示，其中，图3左侧图像为输入的待检索的布匹图像，右侧图像为临时的待检索数据库中与输入图像余弦相似度最高的8张布匹图像，并将所述8张布匹图像按照余弦相似度由高到低依次进行排序。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于深度学习的布匹分类检索方法，其特征在于，包括如下步骤：

S2.对全部布匹图像进行特征提取，建立特征数据库；

S4.建立基于深度学习的布匹分类模型；

2.根据权利要求1所述的一种基于深度学习的布匹分类检索方法，其特征在于，步骤S1中，所述布匹图像使用电子成像装置进行拍照采集，在进行图像拍照采集时采取多样化的拍摄环境和手法，所述多样化的拍摄环境和手法包括：在拍摄时选取多个拍摄角度、多种环境光亮度、多种光源类型、多个光照角度、多种拍摄设备、多种镜头清洁度、开启或关闭电子成像装置的闪光灯。

3.根据权利要求1所述的一种基于深度学习的布匹分类检索方法，其特征在于，步骤S2中利用预训练的VGG16特征提取模型对每个类别布匹图像进行所述特征提取。

4.根据权利要求3所述的一种基于深度学习的布匹分类检索方法，其特征在于，所述VGG16特征提取模型的权重由ImageNet训练得到。

5.根据权利要求1所述的一种基于深度学习的布匹分类检索方法，其特征在于，步骤S3中，所述数据增强处理包括对图像数据库中的一部分布匹图像同时进行旋转、平移、加噪处理，并得到一组数据增强后的图像数据；对另一部分布匹图像分别单独进行旋转、平移、加噪处理，得到三组数据增强后的图像数据。

6.根据权利要求1所述的一种基于深度学习的布匹分类检索方法，其特征在于，步骤S4中，所述基于深度学习的布匹分类模型包括：卷积神经网络VGG16、残差网络Resnet50、1*1的卷积核、双线性池化层、Softmax分类器；其中：

所述卷积神经网络VGG16中包括13个卷积层；

7.根据权利要求1所述的一种基于深度学习的布匹分类检索方法，其特征在于，步骤S5所述布匹分类模型训练阶段中的训练包括布匹分类模型通过反向传播BP算法在数据集上进行训练。

8.根据权利要求7所述的一种基于深度学习的布匹分类检索方法，其特征在于，步骤S5所述布匹分类模型训练阶段，其具体步骤如下：

9.据权利要求1所述的一种基于深度学习的布匹分类检索方法，其特征在于，步骤S8中，所述进行检索包括对待检索图像和临时的检索数据库中的图像之间在视觉特征上的相似度匹配进行计算。

10.根据权利要求9所述的一种基于深度学习的布匹分类检索方法，其特征在于，通过余弦相似度计算所述视觉特征上的相似度匹配，具体地，通过将待检索的布匹图像的特征向量与临时的检索数据库中每一张布匹图像的特征向量进行余弦相似度的计算，选择余弦值最接近1的若干张布匹图像即相似度最高的若干张布匹图像进行输出。