CN109034248A

CN109034248A - 一种基于深度学习的含噪声标签图像的分类方法

Info

Publication number: CN109034248A
Application number: CN201810846627.7A
Authority: CN
Inventors: 杨国武; 秦晓明; 何沂娟; 陈祥; 陈浩; 鲁品肃
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2018-12-18
Anticipated expiration: 2038-07-27
Also published as: CN109034248B

Abstract

本发明公开一种基于深度学习的含噪声标签图像的分类方法，涉及图像分类技术领域，本发明的方法包括如下步骤：步骤1，对语义元数据集和图像数据集进行数据提纯得到baseline数据集；步骤2，基于baseline数据集训练baseline模型，通过训练好的baseline模型提取baseline数据集的特征信息；步骤3，通过层次聚类对特征信息进行聚类，得到新的数据类别；步骤4，基于新的数据类别对baseline数据集进行重新划分，得到分类数据集data；步骤5，最后基于data数据集使用short_inception网络训练出最终的分类模型；步骤6，根据最终的分类模型对含噪声标签图像进行分类。本发明解决了现有的含噪声标签图像的分类方法无法适用于大数据集的问题。

Description

一种基于深度学习的含噪声标签图像的分类方法

技术领域

本发明涉及图像分类技术领域，尤其涉及一种基于深度学习的含噪声标签图像的分类方法。

背景技术

卷积神经网络(CNN)指的是一类用来处理具有已知网格状拓扑结构数据的深度学习算法，特指那些使用一种称作“卷积”运算的网络，其中卷积是一种特殊形式的线性运算，具体指在不止一层的网络层进行就地矩阵乘法。RNN是一种用于处理序列数据的深度学习算法，近些年来循环神经网络(RNN)成功应用于语音识别、机器翻译、语言模型等任务中，可以说是处理文本类数据的标配网络。层次聚类指的是通过合并或者分割数据集相继生成嵌套的类簇；主要的分类策略有两种：自上而下的分裂法和自下而上的集聚法。

半监督学习是监督学习和无监督学习相结合的一种学习方法，同时使用大量无标签数据和少量的有标签数据来进行学习，由于所需带标签数据比较少，只需要很少的时间和精力就可以获得一部分高精准的带标签数据，然后基于这部分高精准的带标签数据作为监督信号进行建模迭代分类，在某些分类任务中可以获得不错的效果，并且可以大大减少学习成本。但是缺陷也是显而易见的，由于具有高精度带标签的数据只有很少一部分，当带标签数据所占总体数据量过小(可能只是全部数据的千分之一、万分之一等)，并且带标签的数据在总体数据中分布不均匀的时候，基于这部分带标签数据来对整个数据集建立好的模型，显然是不可能的。

发明内容

本发明的目的在于：为解决现有的含噪声标签图像的分类方法无法适用于大数据集的问题，本发明提供一种基于深度学习的含噪声标签图像的分类方法。

为解决上述问题，本发明的技术方案如下：

一种基于深度学习的含噪声标签图像的分类方法，包括如下步骤：

步骤1：对语义元数据集和图像数据集进行数据提纯得到baseline数据集；数据提纯的具体步骤包括获取词向量和图片向量、将这两个向量进行权值连接得到综合向量、将综合向量传入混合距离相似度算法中、最后计算得到各个数据的相似度；其中词向量为所有子词向量、词均值向量串联而成；

步骤2：基于baseline数据集训练baseline模型，通过训练好的baseline模型提取baseline数据集的特征信息；

步骤3：通过层次聚类对特征信息进行聚类，得到新的数据类别；

步骤4：基于新的数据类别对baseline数据集进行重新划分，得到分类数据集data；

步骤5：最后基于data数据集使用short_inception网络训练出最终的分类模型；short_inception网络结构包括输入层、三层s_inception块、全连接层fc和输出层，s_inception块与s_inception块之间使用了的短连接层short_cut，s_inception块包括输入层、卷积核、池化层和concat层；

步骤6：根据最终的分类模型对含噪声标签图像进行分类。

具体地，所述步骤1的具体步骤为：

步骤1.1：获取语义元数据集的n维词向量；获取图片数据的m维图片向量；

步骤1.2：将n维词向量和m维图片向量进行权值连接，串联得到一个p*m+q*n维向量，其中，p和q是权值系数；

步骤1.3：将这p*m+q*n维向量传入混合距离相似度算法中，计算得到各个向量的相似度；

步骤1.4：剔除相似度距离大的数据，得到噪声小的baseline数据集。

具体地，所述步骤3中，层次聚类的方法采用SD距离法，具体的层次聚类的步骤为：

具体的SD法公式如下所示：

其中，α和β是控制方向和大小的权重系数，θ是向量a和向量b的夹角a_i和b_i是向量a和向量b上的第i个元素，这里是求其对应元素平方和。

具体地，所述混合距离相似度算法的具体步骤为：

(1)对这p*m+q*n维向量通过排序策略得到在欧式距离上最相似的前K个向量；

(2)对筛选出的K个向量，计算相应的余弦相似度并结合欧氏距离得到最终的混合相似度，具体计算如公式为：

其中，α为欧氏距离影响因子，α取值范围为[0,1]，混合距离相似度的取值范围为[0,1]，b和c为偏值因素，范围为[0,1]，euc(x,y)为通过归一化后的欧氏距离，为通过归一化后的欧氏距离，为通过归一化后的欧氏距离。

采用上述方案后，本发明的有益效果如下：

(1)文本词向量表示中，传统的方法是简单的将各个词的词向量相加求均值从而得到元数据的词向量表示，但是会损失句子的语序信息，本发明的方法是将每个词的词向量串联得到一个包含语序的向量，并同时串联自传统方法中得到的均值向量，从而得到一个新的向量，由该方法得到的向量一方面能够保留原始文本的语序信息，另一方面能够比较全面的囊括原始文本的语义信息；

(2)传统的方法是简单将词向量之间的欧式距离或者余弦距离作为相似度值，这种方法固然简单，但是却忽略了文本的复杂性，文本数据是复杂的，涉及很多的语义和语法等信息，简单使用欧式或余弦度量并不能含括这些语义语法属性，本发明采用了一种混合距离相似性算法，此算法在兼顾向量在数值和方向维度的同时，引入权值和偏值因素，能够更好的考虑到文本数据的语义和语法信息，更适合进行相似性度量；

(3)SD距离弥补了欧几里得距离和曼哈顿距离在样本方向上的缺失，并且计算量远小于马氏距离的计算量；

(4)short_inception的网络结构，使得训练出的分类模型性能更好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。通过附图所示，本发明的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本发明的主旨。

图1为本发明的流程示意图；

图2为本发明的数据提纯流程示意图；

图3本发明的short_inception网络结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面，将结合本发明最优选的一个实施例对本发明进行更加清楚、完整的说明。

本实施例的一种基于深度学习的含噪声标签图像的分类方法，如图1所示，包括如下步骤：

步骤1：对语义元数据集和图像数据集进行数据提纯得到baseline数据集；数据提纯的具体步骤包括获取词向量和图片向量、将这两个向量进行权值连接得到综合向量、将综合向量传入混合距离相似度算法中，最后计算得到各个数据的相似度；其中词向量为所有子词向量、词均值向量串联而成；原始数据集是混含许多噪声数据(与正常数据不符的干扰数据)的图片数据集，所以需要先对这部分数据进行数据提纯，即剔除原始数据集中的噪声数据，得到提纯后的含有噪声少的数据集，因为在噪声少的数据集上建立模型才能更准确的反映数据的真实分布情况，即建立的模型性能更高更准确；这里进行提纯操作的过程中需要借助元数据的辅助，所谓元数据这里指的是网络中对于每个图片数据内容的文本描述，例如图片标题、图片内容的文字表达等，这些元数据在网络中丰富且易获取；如图2所示，所述步骤1的具体步骤为：

步骤1.1：获取语义元数据集的n维词向量，具体地，借用网络中已有的训练好的词向量词典，这个词典将每个词和其对应的词向量以字典的方式存储，形如dog:[1.09,…,0.12]，cat:[-1.02,…,2.97]等，这样通过这个词向量字典就可以将原始的文本元数据转换成其对应的词向量表示；同时，获取图片数据的m维图片向量，仅仅用图片的像素值组成的m维向量来表示图片。

步骤1.2：将n维词向量和m维图片向量进行权值连接得到p*m+q*n维向量，p和q为权值系数。

步骤1.3：将这p*m+q*n维向量传入混合距离相似度算法中，计算得到各个向量的相似度；所述混合距离相似度算法的具体步骤为：

(1)对这p*m+q*n维向量通过排序策略得到在欧式距离上最相似的前K个向量。

步骤2：基于baseline数据集训练baseline模型，通过训练好的baseline模型提取baseline数据集的特征信息。

步骤3：通过层次聚类对特征信息进行聚类，得到新的数据类别；所述步骤3中，层次聚类的方法采用SD距离法，具体的层次聚类的步骤为：层次聚类的方法采用SD距离法，具体的层次聚类的步骤为：

SD距离法综合考虑了向量空间中方向和大小维度上的信息，具体的SD法公式如下所示：

其中α和β是控制方向和大小的权重系数，θ是向量a和b的夹角a_i和b_i是向量a和向量b上的第i个元素，这里是求其对应元素平方和。

一般层次聚类的策略主要有两种：自上而下的分裂法和自下而上的集聚法，分裂法开始将所有样本当作一个类，然后迭代的逐步进行分割；而集聚法开始时将每个样本当作一个类，然后迭代的逐步进行合并，层级聚类的一般都是贪婪方式进行合并或分割。为了确定哪些类簇能够合并或分裂，需要定义一种衡量样本间相似度的方法，在大多数层次聚类算法中，这是通过定义合适的样本间距离矩阵和联结准则实现的，距离矩阵一般有欧几里得距离、曼哈顿距离以及马氏距离，联结准则有完全联结、平均联结以及Ward联结，通过3种距离矩阵和3种联结准则来实现层次聚类的，但是距离矩阵中，马氏距离需要计算协方差矩阵的逆，计算量大，资源占有量太大，欧几里得距离和曼哈顿距离忽略了样本方向上的信息，因此，本发明采用SD距离方法，同时考虑了余弦距离和欧式距离，也就是考虑了向量在方向和大小维度上的信息，比欧几里得距离和曼哈顿距离要信息更全面；同时，SD距离公式中并不涉及求矩阵逆这种大规模的计算，所以计算量比马氏距离要小得多。

步骤4：基于新的数据类别对baseline数据集进行重新划分，得到分类数据集data。

步骤5：最后基于data数据集使用short_inception网络训练出最终的分类模型；short_inception网络结构包括输入层、三层s_inception块、全连接层fc和输出层，s_inception块与s_inception块之间使用了的短连接层short_cut，s_inception块包括输入层、大小为1和3的卷积核、池化层和concat层。这里的卷积核大小可以为其他的值，本发明中，1和3为优选值。

具体地，如图3所示，左边是整个short_inception网络的框架，依次为输入层、三层s_inception块、全连接层fc、输出，其中该网络使用了短连接short_cut，该连接的作用是将某层的输出跳过下一层直接连接到更底层中去；而右边就是s_inception的详细结构，base为输入，1x1和3x3分别是大小为1和3的卷积核，起特征提取的作用，Pool为池化层，起特征筛选的作用，最终的concat层是将所有的特征进行串联得到新的融合之后的特征向量。

在short_inception网络中s_inception块与s_inception块之间使用了的短连接层short_cut，并且在细化s_inception块的时候，简化了原有的块结构，其中1x1和3x3是不同尺寸的卷积核大小，Pool指的是池化操作，这种块的结构减少了计算量。

步骤6：根据最终的分类模型对含噪声标签图像进行分类。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何属于本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于深度学习的含噪声标签图像的分类方法，其特征在于，包括如下步骤：

步骤6：根据最终的分类模型对含噪声标签图像进行分类。

2.根据权利要求1所述的一种基于深度学习的含噪声标签图像的分类方法，其特征在于，所述步骤1的具体步骤为：

3.根据权利要求1所述的一种基于深度学习的含噪声标签图像的分类方法，其特征在于，所述步骤3中，层次聚类的方法采用SD距离法，具体的层次聚类的步骤为：

具体的SD法公式如下所示：

4.根据权利要求1或2中所述的一种基于深度学习的含噪声标签图像的分类方法，其特征在于，所述混合距离相似度算法的具体步骤为：