CN109840556A

CN109840556A - 一种基于孪生网络的图像分类识别方法

Info

Publication number: CN109840556A
Application number: CN201910068380.5A
Authority: CN
Inventors: 李红; 吕攀; 夏瑶; 杨国青; 吴朝晖
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-01-24
Filing date: 2019-01-24
Publication date: 2019-06-04
Anticipated expiration: 2039-01-24
Also published as: CN109840556B

Abstract

本发明公开了一种基于孪生网络的图像分类识别方法，该方法通过Hash编码进行重复性检验、边界框预测及仿射变换等预处理简化且提高数据集质量，然后通过Hash编码遍历测试集与训练集，依次组合成匹配与不匹配图片对，交替输入孪生分类网络进行训练拟合，最终实现相同种类分类为相同，不同种类的图片可有效区分的分类效果。本发明弥补了早前的深度学习分类方法在测试集多于训练集且类别数据不平衡时的预测准确率较低的缺点，解决了实际场景中分类数据不平衡、测试集多于训练集且整体规模较小的问题。此外，本发明通过对图片数据编码，分析出匹配与不匹配图片对，不仅提高了孪生分类网络的准确性，还为实际场景中的图片分类提供良好范例。

Description

一种基于孪生网络的图像分类识别方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于孪生网络的图像分类识别方法。

背景技术

随着深度学习的发展，计算机视觉成为深度学习领域最热门的研究方向之一；作为计算机视觉的关键组成部分，图像分类、定位和检测的最新进展极大地推动了视觉识别系统的进步。但其中图像分类问题经常需要面临以下几个挑战：视点变化、尺度变化、类内变化、图像变形、图像遮挡、照明条件和背景杂斑等。

目前常用的图像分类识别的方法大致流程为读取图片，生成批次并打乱样本数据，然后构造图像分类识别模型，接着训练参数，直到图像分类识别模型到达稳定，最后保存图像分类识别模型，以便对相关图像进行识别。常用的分类网络采用VGGNet、ResNet、GoogleNet等网络架构，有效的解决了识别准确率低、过拟合等问题，并且这些算法在图像识别分类上有明显的改善，而且相对于层数较多模型复杂的算法如GoogleNet、R-CNN等更加容易实现，因此在实际应用中更实用，稍加改变则实现各种图像的分类识别。

但是在实际生活中，由于对图片进行标注具有一定成本，因此可能会出现有标签的训练数据集大小小于测试集的情况，并且同一类别图片的尺寸比例多样，大小不一，此时若依旧采用上述常用的分类网络框架并不能达到理想效果。

例如公开号为CN108846421A的中国专利提出了一种基于深度学习的图像分类方法，采用了改进版Alexnet分类网络，但AlexNet总共只包含8层，面对训练数据集小且尺寸不一时拟合效果有限。又如公开号为CN108647723A的中国专利提出了一种基于深度学习网络的图像分类方法，利用ResNext模型与Softmax训练，并采用现有公开数据集进行预训练，但面对实际复杂数据集时，不进行专门数据预处理，只采用微调法训练，并严重依赖公开的标准数据集训练后的模型，效果依旧欠佳。由此可见，单纯的监督方法对数据集的大小具有严重依赖性，且对测试结果具有较大影响。

发明内容

鉴于上述，本发明提供了一种基于孪生网络的图像分类识别方法，该方法通过Hash编码进行重复性检验、边界框预测及仿射变换等预处理简化且提高数据集质量，然后通过上述Hash编码遍历测试集与训练集，依次组合成匹配与不匹配图片对，交替输入孪生分类网络进行训练拟合，最终实现相同种类分类为相同，不同种类的图片可有效区分的分类效果。

一种基于孪生网络的图像分类识别方法，包括如下步骤：

(1)获取图片数据库，采用增强版感知哈希算法为其中每张图片进行编码，并将所有图片分为训练集和测试集且训练集图片带有类别标签；

(2)根据Hash编码进行重复图片检验：若训练集中存在图片重复，则剔除多余的重复图片；若训练集中图片与测试集中图片存在重复，则使训练集中对应图片的类别标签赋予测试集中对应的图片；

(3)利用预训练的边界框检测模型，从每张图片中提取ROI(感兴趣目标区域)并将其置于图片中心；

(4)通过遍历训练集与测试集中所有图片组合得到一定数量的匹配组和不匹配组，所述匹配组包含两张分属于训练集和测试集的图片且两者重复，所述匹配组包含两张分属于训练集和测试集的图片且两者不重复；

(5)将匹配组和不匹配组交替输入至孪生网络进行分类训练，经过多轮训练得到分类模型；

(6)对于测试集中任一未知类别的图片，使其与训练集中的图片逐一组合输入至所述分类模型中进行识别，直至识别出该图片的类别。

进一步地，所述步骤(1)中增强版感知哈希算法的具体实现过程如下：

1.1将图片转化为灰度图像；

1.2对灰度图像进行离散余弦变换得到32×32大小的离散余弦矩阵，进而提取离散余弦矩阵中左上角8×8大小的矩阵作为图片的低频成分矩阵；

1.3计算所述低频成分矩阵的均值，使低频成分矩阵中每一元素值与均值进行比较：若大于等于均值则将元素值置换为1，若小于均值则将元素值置换为0，从而得到8×8大小且元素值为0或1的矩阵，将该矩阵各行元素按顺序横向拼接，即得到该图片对应的一串Hash编码。

进一步地，所述步骤(2)中重复图片检验的具体实现过程如下：

2.1对于任意两张图片，若两者具有相同Hash编码，则认定两者为同一张图片；

2.2对于任意两张图片，若两者Hash编码的差异在6位之内，且两者图片尺寸相同，且像素值归一化后两者之间的均方误差在给定阈值范围内，也认定两者为同一张图片；

2.3统一重复图片的Hash编码，即对于两张重复的图片，若两者同属于训练集，则将两者的Hash编码统一为其中高分辨率图片的Hash编码；若两者分属于训练集和测试集，则将两者的Hash编码统一为其中训练集图片的Hash编码。

进一步地，所述步骤(3)的具体实现过程如下：

3.1对训练集中一部分图片进行点标记，即从图片中选取标记出目标物体的5～7个显著边缘点，通过对这些点坐标的分析判断确定目标物体的边界框坐标，即边界框左上角和右下角的坐标；

3.2将上述训练集中的一部分图片逐一输入至VGGNet(Visual Geometry GroupNetwork)中，以这些图片目标物体的边界框坐标作为模型输出的真值标签对VGGNet进行训练，从而得到边界框检测模型；所述VGGNet中所有池化层2×2卷积核的步幅均设置为2；

3.3利用边界框检测模型对训练集和测试集中的所有图片进行目标物体边界框坐标检测，并对检测得到的边界框坐标放大5％；

3.4从图片中提取出由边界框坐标所确定的ROI，并通过仿射变换将ROI置于图片中心。

进一步地，所述步骤(5)中的孪生网络包括分支网络和分类网络，所述分支网络包含有两条支路，每条支路从输入至输出依次由6个卷积块Block1～Block6以及一个全局最大池化层P级联而成；其中，Block1由一个卷积层与一个池化层连接组成，其中卷积层采用3×3的卷积核且步幅为2，池化层采用2×2的卷积核；Block2由两个卷积层级联组成，其中卷积层采用3×3的卷积核且步幅为1；Block3～Block6均采用残差结构，残差结构由三个卷积层D1～D3级联而成，其中卷积层D1的输入与卷积层D3的输出叠加后作为残差结构的输出，卷积层D1采用1×1的卷积核，卷积层D2采用3×3的卷积核，卷积层D3采用1×1的卷积核；Block3～Block6依次叠加形成残差网络ResNet，最后通过全局最大池化层P后输出得到长度为512的向量。

所述分类网络的具体实现过程为：首先将分支网络两条支路输出的特征向量进行相加、相乘、误差绝对值以及平方差运算得到对应的四组向量结果，然后将这四组向量结果合并为张量形式并依次通过两个卷积层进行特征提取得到张量T，进而将张量T纵向拼接成一条特征向量L，最后将该特征向量L通过一个全连接层后利用sigmoid函数激活得到匹配结果；其中的卷积层采用4×1的卷积核，全连接层的节点数即为类别数。

本发明通过对图片数据进行预处理，然后设计孪生网络进行分类匹配，弥补了早前的深度学习分类方法在测试集多于训练集且类别数据不平衡时的预测准确率较低的缺点，解决了实际场景中分类数据不平衡、测试集多于训练集且整体规模较小的问题。此外，本发明通过对图片数据编码，分析出匹配与不匹配图片对，不仅提高了孪生分类网络的准确性，还为实际场景中的图片分类提供良好范例。

附图说明

图1为本发明方法的总体流程示意图。

图2为本发明孪生网络示意图。

图3(a)为本发明孪生网络中分支网络Block1的结构示意图。

图3(b)为本发明孪生网络中分支网络Block6的结构示意图。

图4为本发明孪生网络中分类网络的结构示意图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

本发明基于孪生网络的图像分类识别方法，通过Hash编码进行重复性检验、边界框预测及仿射变换等预处理简化并提高数据集质量，然后通过上述Hash编码遍历测试集与训练集，依次组合成匹配与不匹配图片对，交替输入孪生分类网络进行训练拟合，最终实现相同种类图片分类为相同，不同种类的图片可有效区分的分类效果。

本发明图像分类识别方法的总体流程如图1所示，在图片预处理部分，首先需要对图片编码Hash值进行重复性检验，然后通过训练边界框预测模型估计待分类的物体的边界框坐标，接着通过仿射变换将待分类物体调整至图片中心地带，且同时对边界框坐标进行仿射变换，最终按照仿射变换后的图片及边界框坐标剪切合理区域。

(1)采用增强版感知哈希算法为每张图片编码Hash值，且重复性检验具有一定规则：

(a)Hash编码处理。首先将图片转化为灰度图像，然后使用离散余弦变换对图片进行转化，得到32×32的离散余弦矩阵(DCT)，为简化计算量，只保留左上角的8×8矩阵，从而获取图片的低频成分；最后计算所得的8×8矩阵的均值，且根据8×8的离散余弦矩阵，设置0或1的64位Hash值，即大于等于DCT均值的设为1，小于DCT均值的设为0，组合构成一个64位的整数，这就是这张图片的Hash编码。

(b)重复性检验处理。对于具有相同Hash值的图片认定为同一图片；若Hash的差异在6位之内，且图片尺寸相同，归一化后的图片对之间的均方误差在给定阈值范围内，也可认为同一图片，以上认定为同一图片的分类结果应相同。

因此对于训练集与测试集，可基本确定两种集合：p2h为每张图片关联一个唯一的图像ID(Hash)，h2p将每个唯一图像ID与要用于此Hash的首选图像相关联，首选图像是具有最高分辨率的图像，或者若它们具有相同的分辨率则可为任何一个。

(2)由于要确定分类的图像可能存在不处于图片中心位置，且边缘与分类结果无关的区域过大；为使分类时不属于分类物体特征的空间尽可能小，提高分类准确度，需要把待分类物体合理提取出来，此时需要预训练边界框模型，将有效区域提取出来，然后经过仿射变化等操作将有效区域置于图片中心。

(a)训练集坐标标注。将待分类物体的边缘点中有代表性的7个显著边缘点坐标提取出来，如表1所示：

表1

(b)选取边界框坐标。对上述坐标点进行极值比较，记录x方向的最大最小值，y方向的最大最小值，将以上坐标组合为图片左上角和右下角的坐标，通过组合后的坐标连接成矩形，即可求得图片的边界框坐标标签。

(c)将上述有标记的图片作为训练集输入到VGG模型的变体中进行坐标预测，其中最大池化的2×2卷积的步幅替换为2，经过训练拟合边界框模型，并预测训练集和测试集中的所有图片的边界框坐标，为防止预测失误导致边界框没有包括全部待分类物体，需要把预测的坐标值放缩5％，此时可得到经过一定阈值调整的所有图片(训练集和测试集)的边界框坐标。

(3)为保证对图片尺寸各异的训练集和测试集的分类结果准确，在上述操作的基础上进行图片有效区域提取和整体数据集标准化。

(a)由于实际中训练数据集和测试数据集中的图片长宽比例可能参差不齐，因此考虑数据集中的尺寸分布，设置所有图片的水平压缩比强制调整为2.15。

(b)将所有图片通过仿射变换移动到居中位置，若输入图像太窄，根据水平压缩比扩展宽度，若输入图像太宽，根据水平压缩比延伸高度，且根据提供的仿射变换矩阵变换上述得到的原图中的边界框坐标，得到新的坐标。

(c)用上述新坐标对居中图片进行剪切，可提取所有图片的新的有效区域，此种相关空间的调整能使分类模型具有更高的准确率。

在孪生分类网络训练部分，首先对上述调整后的图片按照Hash值进行分组，设置匹配组与不匹配组，然后把两种分组图片交替输入孪生网络进行分类训练，经过400epoch后最终可得到训练好的分类模型。

(4)如图2所示，孪生网络分为两部分，分支网络和分类网络。

(a)分支网络。分支网络部分采用深度卷积网络与跳层连接设计，且由6块组成。每一块对特征图进行处理、上采样，并进行池化操作。其中，第一个Block1使图片分辨率调整为384×384，第二个Block2使图片分辨率调整为96×96，第三个Block3使图片分辨率调整为48×48，第四个Block4使图片分辨率调整为24×24，第五个Block5使图片分辨率调整为12×12，第六个Block6使图片分辨率调整为6×6。

如图3(a)所示，Block1为单个卷积层，步幅为2，最大池化为2×2，此操作可节省后续内存；Block2有两个类似于VGG的3×3卷积，在此之后，张量的尺寸为96×96×64，与初始的384×384×1图像的体积相同，因此可以假设没有丢失重要信息；如图3(b)所示，Block 3到Block 6执行类似ResNet之类的卷积，首先形成一个带有1×1卷积的子块，减少特征数量，然后通过使用3×3卷积和另一个1×1卷积，以恢复原始特征的数量，最后将这些卷积的输出添加到原始张量(旁路连接)，叠加使用4个这样的子块，再加上一个1×1卷积可增加每个池化层后的特征计数；分支模型的最后一步是全局最大池化，使得模型更加鲁棒。

(b)分类网络。如图4所示，分类网络将上述两支分支网络的输出特征向量进行相加、相乘、误差的绝对值、平方差运算，且将上述运算结果转化为张量形式，该张量形式即为新的特征向量；把该新的特征向量输入到两层卷积网络和一层全连接网络且用sigmoid函数激活后，可得到最终的分类结果，进而把相似性最大的训练集图片类别作为预测类别。

本实施方式在训练数据集规模小于测试数据集时的分类效果明显优于常用的模型框架，具体实验数据如表2所示。

表2

上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种基于孪生网络的图像分类识别方法，包括如下步骤：

(3)利用预训练的边界框检测模型，从每张图片中提取ROI并将其置于图片中心；

2.根据权利要求1所述的图像分类识别方法，其特征在于：所述步骤(1)中增强版感知哈希算法的具体实现过程如下：

1.1将图片转化为灰度图像；

3.根据权利要求1所述的图像分类识别方法，其特征在于：所述步骤(2)中重复图片检验的具体实现过程如下：

4.根据权利要求1所述的图像分类识别方法，其特征在于：所述步骤(3)的具体实现过程如下：

3.2将上述训练集中的一部分图片逐一输入至VGGNet中，以这些图片目标物体的边界框坐标作为模型输出的真值标签对VGGNet进行训练，从而得到边界框检测模型；所述VGGNet中所有池化层2×2卷积核的步幅均设置为2；

5.根据权利要求1所述的图像分类识别方法，其特征在于：所述步骤(5)中的孪生网络包括分支网络和分类网络，所述分支网络包含有两条支路，每条支路从输入至输出依次由6个卷积块Block1～Block6以及一个全局最大池化层P级联而成；其中，Block1由一个卷积层与一个池化层连接组成，其中卷积层采用3×3的卷积核且步幅为2，池化层采用2×2的卷积核；Block2由两个卷积层级联组成，其中卷积层采用3×3的卷积核且步幅为1；Block3～Block6均采用残差结构，残差结构由三个卷积层D1～D3级联而成，其中卷积层D1的输入与卷积层D3的输出叠加后作为残差结构的输出，卷积层D1采用1×1的卷积核，卷积层D2采用3×3的卷积核，卷积层D3采用1×1的卷积核；Block3～Block6依次叠加形成残差网络ResNet，最后通过全局最大池化层P后输出得到长度为512的向量。

6.根据权利要求5所述的图像分类识别方法，其特征在于：所述分类网络的具体实现过程为：首先将分支网络两条支路输出的特征向量进行相加、相乘、误差绝对值以及平方差运算得到对应的四组向量结果，然后将这四组向量结果合并为张量形式并依次通过两个卷积层进行特征提取得到张量T，进而将张量T纵向拼接成一条特征向量L，最后将该特征向量L通过一个全连接层后利用sigmoid函数激活得到匹配结果；其中的卷积层采用4×1的卷积核，全连接层的节点数即为类别数。