CN107247954A

CN107247954A - 一种基于深度神经网络的图像离群点检测方法

Info

Publication number: CN107247954A
Application number: CN201710461311.1A
Authority: CN
Inventors: 孙占全; 杨美红; 李钊; 霍继东
Original assignee: National Supercomputing Center in Jinan
Current assignee: National Supercomputing Center in Jinan
Priority date: 2017-06-16
Filing date: 2017-06-16
Publication date: 2017-10-13

Abstract

本发明公开一种基于深度神经网络的图像离群点检测方法，该方法采用深度神经网络提取图像特征，基于扩展熵的信息损失量度量图像之间的距离，在此基础上，提出基于聚类的图像异常检测方法，不合格图像检测方法的有效性通过实例分析得以验证，并提高不合格图像检测的效率。

Description

一种基于深度神经网络的图像离群点检测方法

技术领域

本发明涉及一种图像离群点检测方法，具体的说，是一种基于深度神经网络的图像离群点检测方法。

背景技术

在进行图像识别分析时，收集的图像数据中存在这样一些图像数据，这些数据并不适合于图像的自动识别分析，还有一些数据由于工作人员的疏忽和误判，将不同类的图像放在同一目录下，从而造成错误的分类数据，这些数据我们称之为不合格数据。这些数据会对图像的智能分析起到很大的影响，如何自动识别这些不合格的图像数据并将其剔除是非常重要的工作。离群检测是一种合适的自动识别方法，图像离群检测分析包括2部分，即图像特征抽取和离群检测。

特征抽取是描述一个模式里包含的相关形状特征，利用该特征可实现模式的分类，许多图像特征提取方法已被提出，常用的特征提取方法是基于图像的颜色、纹理和形状，灰度密度、颜色直方图、颜色矩等是常用的颜色特征，形状特征包含更多的图像可视化信息，如基于傅里叶描述的边界、基于矩不变性的区域、有限元方法、调整函数、小波变换等。纹理是图像的另一个重要特征，一些纹理特征是基于形态学，如协方差矩阵、邻接图等，一些纹理特征是基于统计的，如统计灰度阶特征、直方图特征等。不同的特征反映图像的不同特性，所有这些特征都是通过人的主观设定的。如何客观自动的提取图像特征一直是非常重要的问题，深度神经网络为该问题提供了解决思路。

通过图像特征提取获取图像的特征，需要设计合适的离群检测方法对异常图像进行识别。离群点是在一个数据集中严重偏离大多数数据点的数据点。离群点检测可应用于各种领域，已引起多种学科领域研究人员的关注，如数据挖掘，机器学习，统计和信息论研究人员。目前，针对不同的数据集提出了多种基于不同技术的离群点检测算法，这些算法可分成5大类，即基于统计、基于距离、基于密度、基于深度以及基于聚类检测算法等，其中基于聚类的离群点检测是最有效的方法。在该方向已有大量的研究工作，在基于聚类的离群点检测中，距离测度对于距离结果有很大的影响，常用的距离测度有欧几里得距离、名科夫斯基距离、曼哈顿距离等，但这些距离不能度量变量之间复杂的相关性，Tishby提出了基于信息瓶颈理论的信息损失量，它是一种重要的相关性测度，已在很多复杂的聚类中得到广泛的应用，如图像、文本、星系等复杂聚类问题。但该方法只能度量变量之间的全局概率分布的相关性，不能很好度量对应位置之间的相关性，另外，在一些实际应用中，无法获取数据集的概率分布。为推广信息损失量到更一般的情况，本文提出了基于扩展熵的信息损失量计算方法，该信息损失量应用于离群点检测方法中。

发明内容

本发明要解决的技术问题是提供一种基于深度神经网络的图像离群点检测方法，采用深度神经网络提取图像特征，基于扩展熵的信息损失量度量图像之间的距离，在此基础上，提出基于聚类的图像异常检测方法，不合格图像检测方法的有效性通过实例分析得以验证，并提高不合格图像检测的效率。

为了解决所述技术问题，本发明采用的技术方案是：

一种基于深度神经网络的图像离群点检测方法，包括以下步骤：1、基于深度神经网络进行图像特征提取；2、基于步骤1提取的图像特征，利用基于中心点的聚类方法把图像聚成k组，在该聚类中，基于扩展熵的信息损失作为距离测度；3、在每个聚类中，挑选离群点图像。

本发明所述基于深度神经网络的图像离群点检测方法，步骤1中，采用GoogLeNet模型抽取图像特征，利用imagenet数据库对GoogLeNet进行训练，训练后的模型用于图像特征的自动抽取，训练后的全连接层用做输入图像的特征。

进一步的，训练过程包括预训练阶段和微调阶段，在预训练阶段，ImageNet数据训练GoogLeNet得到ILSVRC模型，然后利用图像对网络进行微调，即利用已训练好的ILSVRC模型的权重，通过修改部分层参数的形式用少量样本进行训练，从而得到更加精确的图像特征提取模型。

本发明所述基于深度神经网络的图像离群点检测方法，步骤2的具体过程为：21)、将提取的图像特征组成数据集X＝{x₁，x₁，···，x_n}，其中n是数据点的个数，x_i∈{1,2，···n}是m维向量；

22)、指定聚类数K和截尾阈值ε，通过随机选择方式，选择K个数据点作为初始化聚类中心C⁰＝{C₁，C₂，···C_k}；

23)、根据式公式

计算每个数据点x_i∈{1,2，···n}与各个簇中心点C_j，j∈{1,2，···k}之间的

信息损失量，式中r(y_pj)表示每个特征值的比值，

该比值满足概率条件，即并且r(y_ij)≥0,j＝1,2,,n；r(y_cj)表示当

当p,q∈{1,2,,n}合并成簇c时，簇c的联合概率，

设p¹，p²，···，p^k为k个空集，如果数据点x与中心向量c_i ⁰的信息损失量

最小，则将x添加到数据集pⁱ中；

24)、根据得到的数据集p¹，p²，···，p^k，根据公式

重新计算各个簇的中心点C_j，c₁和c₂是数据向量的两个簇，然后将新的中心点反馈到初始的数据集，重复步骤23直到两次迭代得到的聚类中心之间的距离小于指定的截尾阈值ε，两次迭代的中心点之间的距离用Kull-back散度，

其中和表示第i个元素的原值和新值。

本发明所述基于深度神经网络的图像离群点检测方法，挑选离群点图像的过程为：

31)在生成的每个聚类中，比较簇中的数据量与指定阈值的关系，如果簇中的数据量少于指定的阈值，那么该簇被认为是离群图像，否则，执行下一步骤；

32)、根据公式计算每一类pⁱ，i∈{1,2，···k}的中心点，c₁和c₂是数据向量的两个簇，在簇pⁱ中的每个点其中j∈{1,2，···n_i}，n_i是簇中pⁱ中数据的数量，计算每个点与该簇中心点C_i的距离；

33)、在每个簇中，所有数据点与中心点距离值的概率分布利用极大似然方法进行估计，得到概率分布的协方差σ；

34)根据3σ原则挑选离群点图像，采用单边的3σ原则，小于距离平均值的所有点都是合格图像，距离大于平均值1.5σ的数据点被认为是离群点。

本发明所述基于深度神经网络的图像离群点检测方法，通过无监督聚类的方法进行离群图像检测。

本发明的有益效果：本发明所述离群点检测方法能够实现不合格图像的自动检测，为提高检测精度，引入基于扩展熵的信息损失，通过实例分析结果表明，基于信息损失测度比常规的距离测度更适合于离群点检测。通过不同图像特征的比较，发现图像特征在不合格图像检测中起到非常重要的作用，基于深度神经网络抽取的图像特征比常规的图像特征更能表达原始图像的信息，通过深度神经网络与基于扩展熵的信息损失距离测度的结合，显著提高了图像离群点检测的性能。

附图说明

图1为，为GoogLeNet模型的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的说明。

卷积神经网络已成功应用于计算机视觉领域，典型的卷积神经网络是由多层级联而成，一些层用于表示特征，其它的层是卷积层。卷积神经网络的头两个层通常由两个交替的卷积和子采样层组成，卷积层用几个尺寸相同的过滤映射执行卷积运算，子采样层通过计算在一个小的临近区域内的像素平均值来降低下面层的尺寸，全连接层用来表示不同抽象层的特征，这种结构允许2维数据作为卷积神经网络的输入，卷积神经网络比其它常规的、深度的、前馈的神经网络容易训练，需要估计更少的参数，因此，卷积神经网络深受欢迎。目前，已有多种卷积神经网络模型被提出，广泛应用的模型包括AlexNet,GoogLeNet,VGGNet,ResNet等。GoogLeNet设计的不仅层数深而且训练效率高，因此，本文采用GoogLeNet来抽取图像特征。

如图1所示，为GoogLeNet模型的结构示意图，GoogLeNet网络是具有22层的深度卷积神经网络模型，所有的卷积，包括在Inception模块里的卷积，都使用修正的线性激励函数。GoogLeNet的一个重要特点是引入了一种局部的Inception模块，Inception架构的主要思想是找到卷积视觉网络最优的局部稀疏结构是如何估计并被稠密组件覆盖。这种结构的一个最大好处是它允许在每个阶段增加神经元的数量而不会显著增加计算的复杂度。

本实施例中，采用GoogLeNet模型抽取图像特征，利用imagenet数据库对GoogLeNet进行训练，训练后的模型用于图像特征的自动抽取，训练后的全连接层用做输入图像的特征。具体的，训练过程包括预训练阶段和微调阶段，在预训练阶段，ImageNet数据训练GoogLeNet得到ILSVRC模型，从而得到更加精确的图像特征提取模型。

信息瓶颈理论是针对聚类问题提出的，它基于互信息。目标空间X和特征空间Y的联合概率分布表示为p(x,y)，根据信息瓶颈理论，由聚类产生的X与Y之间的信息损失可看作是失真测度的平均值，设c₁和c₂是两类特征，通过合并产生的信息损失表示为

其中，p(c_i)＝|c_i|/|X|,|c_i|表示c_i的势，|X|表示目标空间X的势，p(c₁∪c₂)＝|c₁∪c₂|/|X|。

假设两个簇是独立的，那么，两个簇的联合概率分布表示为

从上述的计算公式可看出信息损失是基于概率分布的，但在很多实际应用中是不能计算概率值的。因此，我们将扩展熵引入到信息瓶颈理论当中。在该方法中，变量y的每个元素被当作一个不同取值，每个取值的概率通过每个元素对应的数值与所有元素对应数值和的比值r进行计算。

与信息瓶颈理论相一致，通过合并产生的信息损失量表示为

假设有n个样本，每个样本包含m个特征，根据特征值计算特征之间的相关性。每个特征可看作是n维向量，即y_i＝y_i1,y_i2,,y_in,i＝1,2,,m，每个样本当作特征变量的值，n个样本意味着每个特征有n个值，对应的每个特征值的比值为

该比值满足概率条件，即并且r(y_ij)≥0,j＝1,2,,n。

基于比值的扩展熵定义为

根据信息损失的计算公式，当p,q∈{1,2,,n}合并成簇c时，簇c的联合概率可通过下式计算

基于扩展熵的定义，由于合并产生的信息损失定义为

设c₁和c₂是数据向量的两个簇，合并后每个元素的比值为

聚类是发掘数据分布和潜在模式的重要方法，k均值算法是一种基于中心点的聚类方法，通过定义每簇的重力中心点实现聚类，在模式识别、文档分类和图像处理等领域得到广泛的应用。

在k均值聚类中，通常决定最终聚类个数的k值是人为事先指定的，初始聚类中心是随机确定或根据一定规则计算生成，然后，每个数据点分配到离簇中心点最近的簇中。数据与簇中心点的距离可用多种不同的距离测度进行度量，如欧几里得、明可夫斯基、曼哈顿等距离，不同的距离测度会产生不同的聚类结果，距离测度在聚类中起到重要的作用，本实施例中将利用基于扩展熵的信息损失量作为距离测度。

针对步骤1中提取的图像特征，其聚类过程为：

21)、将提取的图像特征组成数据集X＝{x₁，x₁，···，x_n}，其中n是数据点的个数，x_i∈{1,2，···n}是m维向量；

23)、根据式公式(8)计算每个数据点x_i∈{1,2，···n}与各个簇中心点C_j，j∈{1,2，···k}之间的信息损失量，设p¹，p²，···，p^k为k个空集，如果数据点x与中心向量c_i ⁰的信息损失量最小，则将x添加到数据集pⁱ中；

24)、根据得到的数据集p¹，p²，···，p^k，根据公式(9)重新计算各个簇的中心点C_j，新的中心点反馈到初始的数据集，重复步骤23直到两次迭代得到的聚类中心之间的距离小于指定的截尾阈值ε，两次迭代的中心点之间的距离用Kull-back散度，

其中和表示第i个元素的原值和新值。

在一个图像数据集中，离群点图像是少数的，可通过无监督聚类的方法进行检测，检测过程总结如下：

首先，利用imagenet数据库对GoogLeNet进行训练，训练后的模型用于图像特征的自动抽取，全连接层用做输入图像的特征。

然后，基于提取的图像特征，利用本文提出的基于中心聚类方法把图像聚成K组，在该聚类中，基于扩展熵的信息损失作为距离测度。

第三，在每个聚类中，挑选离群点图像，挑选过程如下：

31)在生成的每个聚类中，比较簇中的数据量与指定阈值的关系，如果簇中的数据量少于指定的阈值(如1或2)，那么该簇被认为是离群图像，否则，执行下一步骤；

32)、根据公式(9)，计算每一类pⁱ，i∈{1,2，···k}的中心点，在簇pⁱ中的每个点其中j∈{1,2，···n_i}，n_i是簇中pⁱ中数据的数量，计算每个点与该簇中心点C_i的距离；

下面结合一个具体实施例对本方法进行说明。

中药材识别在中医领域变得越来越重要，中药材资源普查是发展中医的重要前提，目前正在全国范围内开展中药普查工作。在中药资源普查过程中，积累了上百万的中药资源图像，在收集的图像集中，一些图像是不适合用于图像识别的，这些图像如果不剔除会对中药材自动识别建模带来很大影响。人工剔除不合格的图像是非常费时费力的工作，如何自动实现不合格图像的剔除是非常重要的工作。本实施例中，采用本发明所述的方法进行中药材图像的自动识别。

一、收集数据源

收集10类药用植物图像数据，这些数据来自全国各地的中药资源普查，每类图像存储在一个文件夹下，每类文件都包含一些不合格的图像，本文分析的目标是实现不合格数据的自动检测。首先，通过人工标注的形式将不合格进行图像标识，生成训练测试样本，样本的基本信息如表1所示。然后，利用本文提出的离群点检测方法对不合格图像自动识别，分析过程如下。

表1药用植物图像信息

二、图像特征提取

在收集的药用植物图像中，不同种类的图像数量是不同的，首先将所有图像缩放到256×256，从网站http://dl.caffe.berkeleyvision.org/bvlc_googlenet.caffemodel下载Imagenet图像对GoogLeNet模型进行训练，将第一个全连接层“loss1/fc”和第二个全连接层“loss2/fc”作为图像的特征，每层的神经元数量为1024，每个图像用2048维向量表示特征，每个特征的取值范围是不一样的，这将影响距离测度的计算，为避免由于不同取值范围而导致的聚类偏差，所有的特征都归一化到[0,1]范围。

三、图像聚类

图像聚类是在对每种药用植物图像进行操作，聚类数设为3，通过聚类，不合格图像根据步骤3进行识别，下面两个指标用来评估聚类性能。

设TP表示被识别出来的不合格图像数量，TN表示被误识别为不合格图像的数量，FP表示在各数据集中人工标注的所有不合格图像的数量。

(1)精度

(2)召回率

将聚类数设为3，则自动检测分析结果如表2所示。

药用植物名	精度	召回率
			薄荷	0.72	0.76
侧柏	0.77	0.73
			黄精	0.75	0.67
麦冬	0.74	0.79
			金银花	0.76	0.84
山苍子	0.64	0.77
			益母草	0.76	0.68
远志	0.67	0.63
			紫金牛	0.67	0.81
紫苏	0.86	0.77

四、结果对比

为了比较，基于常规聚类方法的离群点检测用于不合格图像的检测，在该聚类方法中，欧几里得距离用来度量图像之间的相关性，用GoogLeNet模型获取的特征用于聚类，聚类数为3，分析结果如表3所示。

表3基于常规聚类方法的离群点图像检测结果

为比较不同图像特征对检测结果的影响，我们采用常用的图像Hu矩和颜色矩特征，基于扩展熵的信息损失被用做计算图像之间的距离，基于聚类的离群点检测方法，分析结果如表4所示。

表4基于常规图像特征的分析结果

药用植物名	精度	召回率
			薄荷	0.55	0.58
侧柏	0.66	0.62
			黄精	0.75	0.63
麦冬	0.67	0.72
			金银花	0.68	0.77
山苍子	0.63	0.75
			益母草	0.74	0.66
远志	0.67	0.55
			紫金牛	0.58	0.70
紫苏	0.70	0.66

五、结果分析

从上面分析结果可以看出，基于本文提出的离群点检测方法的不合格图像检测结果要好于传统的方法，抽取的不同图像特征在识别过程中起到重要的作用，基于扩展熵的信息损失更能体现图像之间真实的相关性。

离群点检测能够实现不合格图像的自动检测，常规的离群点检测方法不能满足实际的需求，为提高检测精度，引入基于扩展熵的信息损失，通过实例分析结果表明，基于信息损失测度比常规的距离测度更适合于离群点检测。通过不同图像特征的比较，发现图像特征在不合格图像检测中起到非常重要的作用，基于深度神经网络抽取的图像特征比常规的图像特征更能表达原始图像的信息，通过深度神经网络与基于扩展熵的信息损失距离测度的结合，显著提高了图像离群点检测的性能。

以上描述的仅是本发明的基本原理和优选实施例，本领域技术人员根据本发明做出的改进和替换，属于本发明的保护范围。

Claims

1.一种基于深度神经网络的图像离群点检测方法，其特征在于：包括以下步骤：

(1)基于深度神经网络进行图像特征提取；

(2)基于步骤1提取的图像特征，利用基于中心点的聚类方法把图像聚成k组，在该聚类中，基于扩展熵的信息损失作为距离测度；

(3)在每个聚类中，挑选离群点图像。

2.根据权利要求1所述的基于深度神经网络的图像离群点检测方法，其特征在于：步骤1中，采用GoogLeNet模型抽取图像特征，利用imagenet数据库对GoogLeNet进行训练，训练后的模型用于图像特征的自动抽取，训练后的全连接层用做输入图像的特征。

3.根据权利要求2所述的基于深度神经网络的图像离群点检测方法，其特征在于：训练过程包括预训练阶段和微调阶段，在预训练阶段，ImageNet数据训练GoogLeNet得到ILSVRC模型，然后利用图像对网络进行微调，即利用已训练好的ILSVRC模型的权重，通过修改部分层参数的形式用少量样本进行训练，从而得到更加精确的图像特征提取模型。

4.根据权利要求1所述的基于深度神经网络的图像离群点检测方法，其特征在于：步骤2的具体过程为：

23)、根据式公式

计算每个数据点x_i∈{1,2，···n}与各个簇中心点C_j，j∈{1,2，···k}之间的信息损失量，式中r(y_pj)表示每个特征值的比值，该比值满足概率条件，即并且r(y_ij)≥0,j＝1,2,,n；r(y_cj)表示当当p,q∈{1,2,,n}合并成簇c时，簇c的联合概率，

设p¹，p²，···，p^k为k个空集，如果数据点x与中心向量c_i ⁰的信息损失量最小，则将x添加到数据集pⁱ中；

24)、根据得到的数据集p¹，p²，···，p^k，根据公式

<mrow> <mi>r</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>&cup;</mo> <msub> <mi>c</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> </mrow> </munder> <mfrac> <mrow> <mo>|</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>&cup;</mo> <msub> <mi>c</mi> <mn>2</mn> </msub> <mo>|</mo> </mrow> </mfrac> <mi>r</mi> <mo>(</mo> <mrow> <msub> <mi>y</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow>

重新计算各个簇的中心点C_j，c¹和c₂是数据向量的两个簇，然后将新的中心点反馈到初始的数据集，重复步骤23直到两次迭代得到的聚类中心之间的距离小于指定的截尾阈值ε，两次迭代的中心点之间的距离用Kull-back散度，

<mrow> <mi>&delta;</mi> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msubsup> <mi>x</mi> <mi>i</mi> <mrow> <mi>n</mi> <mi>e</mi> <mi>w</mi> </mrow> </msubsup> <mi>log</mi> <mfrac> <msubsup> <mi>x</mi> <mi>i</mi> <mrow> <mi>n</mi> <mi>e</mi> <mi>w</mi> </mrow> </msubsup> <msubsup> <mi>x</mi> <mi>i</mi> <mrow> <mi>o</mi> <mi>l</mi> <mi>d</mi> </mrow> </msubsup> </mfrac> <mo>+</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msubsup> <mi>x</mi> <mi>i</mi> <mrow> <mi>o</mi> <mi>l</mi> <mi>d</mi> </mrow> </msubsup> <mi>log</mi> <mfrac> <msubsup> <mi>x</mi> <mi>i</mi> <mrow> <mi>o</mi> <mi>l</mi> <mi>d</mi> </mrow> </msubsup> <msubsup> <mi>x</mi> <mi>i</mi> <mrow> <mi>n</mi> <mi>e</mi> <mi>w</mi> </mrow> </msubsup> </mfrac> <mo>,</mo> </mrow>

其中和表示第i个元素的原值和新值。

5.根据权利要求4所述的基于深度神经网络的图像离群点检测方法，其特征在于：挑选离群点图像的过程为：

34)根据3σ原则挑选离群点图像，采用单边的3σ原则，小于距离平均值的所有点都是合格图像，因此，这里规定距离大于平均值1.5σ的数据点被认为是离群点。

6.根据权利要求1所述的基于深度神经网络的图像离群点检测方法，其特征在于：通过无监督聚类的方法进行离群图像检测。