CN108665000A

CN108665000A - 一种基于不确定性分析的数字图像自动标注方法

Info

Publication number: CN108665000A
Application number: CN201810413581.XA
Authority: CN
Inventors: 余鹰; 喻建云; 伍国华; 王乐为; 吴新念
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2018-05-03
Filing date: 2018-05-03
Publication date: 2018-10-16

Abstract

一种基于不确定性分析的数字图像自动标注方法，包括基于深度卷积神经网络的图像特征提取、基于变精度邻域粗糙集的图像自动标注系统构建和对未标注图像进行标注。本方法采集图像数据并进行标注得到训练集，通过深度卷积神经网络提取图像的特征向量；基于邻域估计类条件概率密度得到分类模型；预测时，提取图像特征，利用粗糙集上、下近似的概念估计待分类图像的位置；位于正域和负域的图像直接判断标记的隶属关系，而位于边界域中的图像则利用贝叶斯决策规则进行判断。本发明通过引入粗糙集上、下近似概念来估计待标注图像在样本空间的位置，降低不相关标记的错误预测率，解决了图像自动标注中，底层图像特征与高层语义之间存在的不确定性问题。

Description

一种基于不确定性分析的数字图像自动标注方法

技术领域

本发明涉及一种基于不确定性分析的数字图像自动标注方法，属计算机图像处理技术领域。

背景技术

随着计算机技术的迅猛发展以及多媒体应用和社交网络的风靡流行，互联网上的多媒体数据呈指数级增长。海量的数据给多媒体应用研究，尤其是基于图像的应用研究带来新的机遇和挑战。为了从海量的图像数据中挖掘出所需要的图像，必须要有一套有效的图像检索机制。图像自动标注技术可以让计算机自动地给无标注的图像加上能够反映图像内容的语义标签，是实现图像检索的关键。它试图在图像的高层语义信息和低层视觉特征之间建立一种映射关系，通过已标注图像或其它可获得的信息，自动学习语义概念空间与视觉特征空间的关系模型，并利用此模型标注未知语义的图像。

自Mori等人在1999年提出共生模型(Co-occurrence Model)以来，各种新颖的图像自动标注算法不断涌现,众多的研究者从不同的角度分析和解决标注问题,期望能找到良好的标注方法。有的将图像自动标注看成是从视觉语言到文本语言的翻译问题，有的学者则认为图像自动标注是一个图学习的过程。此外，由于图像标注具有多标记的特性，因此也有学者将它看作多标记学习问题。然而现有的方法存在着一些缺陷：首先，图像的底层特征不能完全反映和匹配用户的检索意图。当前已有的图像自动标注系统的特征表达依然采用人工设计的方式，例如SIFT、HOG等。这些特征在特定类型对象中能够达到较好的识别效果，基本能够满足现实需求。但这些算法提取的只是一些低层次(low-level)特征，抽象程度不高，包含的可区分性信息不足。例如算法经常基于像素灰度值等底层特征进行语义标注，而底层特征由于结构性不强，对于分类来说无法提供更多有价值的语义信息。其次，已有方法都基于一个共同的假设，即视觉的相似性可以保证语义的相似性，这是与“语义鸿沟”问题相冲突的。事实上，两幅视觉内容相似的图像可能会拥有不同的语义标签；例如两幅暖色调的图像分别显示了秋天和落日的景象，色彩明亮，都以黄色为主色调。它们视觉特征相似，但是表达的语义却完全不同。最后，已有的算法忽略了有限的训练样本带来的影响，样本有限使得无法准确估计每个类的分布。这些问题的出现主要是因为在视觉特征空间到语义概念空间的映射过程中存在着不确定性。本发明在考虑不确定性因素客观存在的前提下，基于不确定性分析工具变精度邻域粗糙集，设计一个图像自动标注方法。

发明内容

本发明的目的是，针对当前图像自动标注技术存在的问题，提供一种基于不确定性分析的数字图像自动标注方法，利用变精度邻域粗糙集减少底层视觉特征和高层语义匹配时存在的不确定性，减少特征学习的难度，提高自动标注的准确性。

实现本发明的技术方案如下,一种基于不确定性分析的数字图像自动标注方法,包括基于深度卷积神经网络的图像特征提取、基于变精度邻域粗糙集的图像自动标注系统构建和对未标注图像进行标注。

所述方法采集图像数据并进行标注得到训练集，通过深度卷积神经网络提取图像的特征向量；再基于邻域估计类条件概率密度得到分类模型；预测时，提取图像特征，利用粗糙集上、下近似的概念估计待分类图像的位置；位于正域和负域的图像直接判断标记的隶属关系，而位于边界域中的图像则利用贝叶斯决策规则进行判断。

所述基于深度卷积神经网络的图像特征提取步骤如下：

(1)将图片大小调整到224×224，把每个像素看作一个神经元输入到卷积神经网络中，其中设定四个卷积层，每层的卷积核个数分别为64,64,128,128，分别表示在对应层上提取的特征个数；

(2)卷积核大小都为3×3，步长为1，表示每个卷积核和特征图上邻域9个像素相连，且对每个特征图都权值共享；

(3)卷积后加上一个可训练的偏置参数，再经过ReLU激活函数，得到卷积层的结果，代表该卷积层所提取的特征。

例如第一个64代表在第一个卷积层上有64个卷积核，每一个卷积核因其参数不同(特征偏好)，从而提取不同特征，在第一层上可提取64种特征，并作为下一层的输入。每两个卷积层后接一个2×2，步长为2的最大池化层，在邻域4个像素上取最大值，保留主要特征，得到1/4大小的特征图。最后一层为全连接层，全连接层的输入是经过前面卷积池化层后所得到的分布式特征(不同类型的特征)，全连接层起到将这些“分布式特征表示”映射到样本标记空间的作用。至此，可将原始图像转变为多维的特征向量，即完成了图像的特征提取。

所述基于变精度邻域粗糙集的图像自动标注系统构建包括以下步骤：

(1)在包含n个样本的训练集中，计算每个类别l_j的先验概率和每一个样本对应着一个m维的标记向量y＝[y¹,y²,....,y^m]；如果样本具有类别标记l_j，则y^j＝1；反之，则y^j＝0；

表示类别标记l_j出现的概率；表示类别标记l_j不出现的概率；s是平滑参数，初始值设定为1，即Laplace平滑，计数的初始值最小为1可以避免分母为0时，无法计算概率值的问题。

(2)根据邻域粗糙集，求取每个样本x_i的邻域δ(x_i)，并统计邻域中各类样本的个数，然后计算邻域δ(x_i)中各类样本所占的比例λ；对于样本x_i，如果它具有类别标记l_j(j∈[1,m])，且邻域中l_j类样本所占比例为λ时，向量加1；如果它不具有类别标记l_j，且邻域中l_j类样本所占比例为λ时，则加1；

其中，表示x_i的邻域中具有标签l_j的对象的个数。

(3)针对不同类别标记l_j，统计λ取不同值的个数；然后根据统计结果，计算每个λ值的类条件概率和s是平滑参数，初始值设为1；

其中，表示具有标签l_j且邻居中l_j类对象个数占邻居总数的比例为λ的对象个数；m为标签的个数；表示不具有标签l_j且邻居中l_j类对象个数占邻居总数的比例为λ的对象个数。

(4)根据和采用多项式拟合方法生成每个类的条件概率密度曲线，用于估计λ取未知值的概率。

所述对未标注图像进行标注包括以下步骤：

(1)先利用深度卷积神经网络提取图像特征；

(2)计算待标注图像t的邻域δ(t)，然后在邻域δ(t)内统计不同类l_j的样本个数β；如果β＝k，则待标注图像位于类l_j正域，如果β＝0，则待标注图像位于类l_j的负域，如果0＜β＜k，则计算该类样本占邻域δ(t)内样本总数的比例λ；如果则否则

其中，表示δ(x_i)中具有标签l_j的对象所占的比例为λ。

(3)如果则图像具有类别标记l_j；否则图像不具有类别标记l_j。

本发明的有益效果是，本发明通过引入粗糙集上、下近似概念来估计待标注图像在样本空间的位置，降低不相关标记的错误预测率，并提高相关标记的正确预测率，有助于解决图像自动标注中，底层图像特征与高层语义之间匹配时存在的不确定性问题。

附图说明

图1为本发明数字图像自动标注方法流程图；

图2为基于卷积神经网络的图像特征提取过程；

图3为基于变精度邻域粗糙集的图像自动标注系统构建的过程；

图4为对未标注图像进行标注的过程。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明。

图1是实施基于不确定性分析的数字图像自动标注方法的业务流程。

本实施例方法的实现对硬件环境的要求为具有满足运行深度学习算法的工作站或服务器，配置了NVIDIA显卡。实现本实施例所用的语言工具没有特别要求，C语言、C++语言、Python语言等都能实现；对操作系统平台也没有特别要求，Microsoft Windows系统、各种Linux系统等均可以做操作系统运行平台，该发明可以开发成图形界面形式，也可以开发成非图形界面形式。

图1是实现该图像标注方法的功能结构框图，主要可以分为建模和预测两大部分，其中图像特征提取在建模和预测中都是必经步骤。

(1)图像数据集构建：为了训练模型，需要构建一个图像数据集。首先确定数据组织方式，包括数据存储形式、图片尺寸、目标物体的定义，图片中包含目标物体的选取、标注信息的描述等。然后，根据之前关于数据的定义，选择满足条件的样本，一方面可以利用已有的数据集，例如PASCAL VOC2007和VOC2012，另一方面可以从网络采集，尽量使各目标物体的数量分布均匀。该数据集需要进行定期扩充和更新，防止出现算法对数据的过拟合。

(2)图像标注：可以采用人工标注，也可以通过已有目标检测算法进行粗标注，然后再进行人工校正。由于数据量大，存在人为误操作，建议采用多用户同时参与，然后对用户选择判断结果进行统计，计算置信度来进行相应的选择判断，降低人为因素影响。

(3)图像特征提取：如图2所示，本实施例主要基于深度卷积神经网络提取图像特征，得到图像特征的向量表示。将图片大小调整到224×224，卷积神经网络设定了四个卷积层，每层的卷积核个数为64,64,128,128，卷积核大小都为3×3，步长为1。每两个卷积层接一个2×2，步长为2的最大池化层，在邻域4个像素上取最大值，保留主要特征，得到1/4之一大小的特征图。最后一层为全连接层，全连接层的输入是经过前面卷积池化层后所得到的分布式特征(不同类型的特征)。至此，可将原始图像转变为多维的特征向量。

(4)自动标注系统构建：如图3所示，在图像数据集中，求取每个样本的邻域，统计邻域中各类样本信息，并根据各类样本的比例信息构建各类的条件概率密度曲线。该模块涉及大量的矩阵运算，因此计算量较大，需要在性能较好的机器上运行。

(4)标注信息显示：如图4所示，根据建模阶段生成的模型和从未标注图像中提取的特征向量，基于变精度邻域粗糙集模型进行预测。

Claims

1.一种基于不确定性分析的数字图像自动标注方法，其特征在于，所述方法包括基于深度卷积神经网络的图像特征提取、基于变精度邻域粗糙集的图像自动标注系统构建和对未标注图像进行标注；

2.根据权利要求1所述的一种基于不确定性分析的数字图像自动标注方法，其特征在于，所述基于深度卷积神经网络的图像特征提取步骤如下：

3.根据权利要求1所述的一种基于不确定性分析的数字图像自动标注方法，其特征在于，所述基于变精度邻域粗糙集的图像自动标注系统构建包括以下步骤：

表示类别标记l_j出现的概率；表示类别标记l_j不出现的概率；s是平滑参数，初始值设定为1，即Laplace平滑，计数的初始值最小为1可以避免分母为0时，无法计算概率值的问题；

(2)根据邻域粗糙集，求取每个样本x_i的邻域δ(x_i)，并统计邻域中各类样本的个数，然后计算邻域δ(x_i)中各类样本所占的比例λ；对于样本x_i，如果它具有类别标记l_j(j∈[1,m])，且邻域中l_j类样本所占比例为λ时，向量λ∈[0,1])加1；如果它不具有类别标记l_j，且邻域中l_j类样本所占比例为λ时，则加1；

其中，表示x_i的邻域中具有标签l_j的对象的个数；

其中，表示具有标签l_j且邻居中l_j类对象个数占邻居总数的比例为λ的对象个数；m为标签的个数；表示不具有标签l_j且邻居中l_j类对象个数占邻居总数的比例为λ的对象个数；

4.根据权利要求1所述的一种基于不确定性分析的数字图像自动标注方法，其特征在于，所述对未标注图像进行标注包括以下步骤：

(1)先利用深度卷积神经网络提取图像特征；

其中，表示δ(x_i)中具有标签l_j的对象所占的比例为λ；