CN106250915A

CN106250915A - 一种融合深度特征和语义邻域的自动图像标注方法

Info

Publication number: CN106250915A
Application number: CN201610585022.8A
Authority: CN
Inventors: 柯逍; 周铭柯
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2016-07-22
Filing date: 2016-07-22
Publication date: 2016-12-21
Anticipated expiration: 2036-07-22
Also published as: CN106250915B

Abstract

本发明涉及一种融合深度特征和语义邻域的自动图像标注方法：针对传统图像标注方法中人工选取特征费时费力，以及传统标签传播算法忽视语义近邻，导致视觉相似而语义不相似进而影响标注效果等问题，提出了融合深度特征和语义邻域的自动图像标注方法，该方法首先构建基于深度卷积神经网络（CNN）的统一、自适应深度特征提取框架，接着对训练集划分语义组并建立待标注图像的邻域图像集，最后根据视觉距离计算邻域图像各标签的贡献值并排序得到标注关键词。本发明简单灵活，具有较强的实用性。

Description

一种融合深度特征和语义邻域的自动图像标注方法

技术领域

本发明涉及一种融合深度特征和语义邻域的自动图像标注方法。

背景技术

随着多媒体影像技术快速发展，互联网上图像信息呈爆炸性增长。这些数字图像的应用非常广泛，如商业、新闻媒体、医学、教育等方面。因此，如何帮助用户快速、准确地找到需要的图像成为近年来多媒体研究的热点课题之一。而解决这一课题最重要的技术就是图像检索和自动图像标注技术。

自动图像标注是图像检索与图像理解的关键步骤，它是一种给未知图像添加能够描述该图像语义内容的关键词的技术。该技术主要利用已经标注好关键词的图像训练集训练标注模型，再用训练好的模型标注未知图像。一方面，自动图像标注试图给高层语义特征和底层视觉特征之间建立一座桥梁，因此，它可以一定程度解决大多数基于内容图像检索方法存在的语义鸿沟问题，并且具有较好的客观性。另一方面，自动图像标注可以生成与图像内容相关的文字信息，具有更好的准确性。如果能实现自动图像标注，那么现有的图像检索问题实际上可以转化成较成熟的文本检索问题。因此，图像自动标注技术可以很方便地实现基于关键字的图像检索，符合人们的检索习惯。总的来说，自动图像标注涉及计算机视觉、机器学习、信息检索等多方而的内容，具有很强的研究价值和潜在的商业应用，如图像分类、图像检索、图像理解以及智能图像分析等。

传统图像标注方法几乎都采用人工特征，不同方法需要提取不同特征，不仅难以应用于实际图像环境，而且选取过程费时费力。基于标签传播的图像标注方法在图像标注的各种方法中，属于效果较好的一类方法，是解决图像标注问题较为理想的方法，然而传统标签传播算法仅靠视觉相似度来实现标注过程，容易受到视觉相似而语义不相似的图像的干扰，影响了标注效果。

发明内容

有鉴于此，本发明的目的在于提供一种融合深度特征和语义邻域的自动图像标注方法，以克服现有技术中存在的缺陷，并解决针对多对象多标签的自动图像标注问题。

为实现上述目的，本发明采用如下技术方案：一种融合深度特征和语义邻域的自动图像标注方法，其特征在于，包括以下步骤：

步骤S1：对训练图像进行语义分组，将一个标签所包含的所有图像作为一个语义组，并按组将所述训练图像输入训练好的CNN深度网络；

步骤S2：通过逐层卷积和逐层采样将训练图像转化为特征向量，并提取每个语义组的训练图像的特征；

步骤S3：将待标注图像输入所述训练好的CNN深度网络，按步骤S2对所述待标注图像进行特征提取；

步骤S4：计算所述待标注图像和每一个语义组中所有训练图像的视觉相似度，并构建邻域图像集；

步骤S5：计算待标注图像的标签的贡献值，并根据贡献值大小得到预测关键词。

进一步的，所述步骤S2的具体内容如下：

步骤S21：构建AlexNet网络，并用训练集充分训练整个网络，以得到训练好的网络模型；

步骤S22：对待提取特征的图像进行尺寸缩放，令I＝{I₀,I₁,…,I_N-1}为尺寸缩放后的图像集；其中N为图像数，I_i＝[f₁,f₂,…,f_M]^T为图像I_i的原始像素，M为像素数；

步骤S23：用训练好的卷积核执行前馈卷积运算，输出卷积层特征图；设第i层神经元的输入特征为I⁽ⁱ⁾，第i层神经元和第i+1层神经元间的卷积核为K⁽ⁱ⁺¹⁾，则第i+1层神经元的输入，即第i层卷积层的输出为：其中，为卷积运算，b⁽ⁱ⁺¹⁾为第i层和第i+1层间的偏置，f(·)为激活函数；

步骤S24：对所述卷积层特征图执行下采样运算，输出简化后的特征图；设第i层采样层的输入为I⁽ⁱ⁾，将I⁽ⁱ⁾划分为区域R_k,k＝1,…,m，m为划分出来的总的区域数，计算方法如下：令I⁽ⁱ⁾为n×n的特征图，则采样操作可按如下方式实现：pool(R_k)表示对区域R_k中的像素点取最大值；

步骤S25：执行全连接运算，输出图像特征；设第l层为全连接层，所述全连接层的权重为W_l，则图像特征F为：F＝f(W_l·I^(l-1)+b^(l))；其中，I^(l-1)为全连接层的前一层输出，b^(l)为全连接层的偏置，f(·)为激活函数。

进一步的，所述激活函数取ReLu函数，即f(x)＝max(0,x)。

进一步的，所述步骤S4的具体内容如下：

步骤S41：首先对图像标注问题进行符号定义，用I＝{I₁,I₂,…I_N}，表示训练图像，其中N为训练图像数，并用W＝{w₁,w₂,…,w_M}表示训练集中包含的关键词，M为关键词数；则图像标注问题的训练集可以记为：Ω＝{(I₁,W₁),(I₂,W₂),…,(I_N,W_N)}，这里的W_i为M维向量W_i∈{0,1}^M，当W_i ^j＝1时，表示图像i包含关键词w_j；而当W_i ^j＝0时，表示图像i不含关键词w_j；步骤S42：定义图像的语义邻域，将每个关键词所包含的所有图像看成一个语义组，那么，所有关键词对应的语义组集按如下方式表示：其中，w_i为关键词，为和关键词w_i关联的所有图像，

步骤S43：构建待标注图像的邻域图像集；令为关键词w_i对应的语义组，对待标注图像I，我们从G_i中选出与图像I视觉相似度最高的k幅图像得到局部子集其中，k为正整数且3≤k≤8；当所有语义组的局部子集都获取到后，对它们进行合并，最终得到针对待标注图像I的邻域图像集：

进一步的，所述步骤S5的具体内容如下：

步骤S51：将图像标注的预测问题转化为求后验概率的问题，首先定义条件概率P(I|w_k)，它表示关键词w_k和图像I的概率关系；由概率转换公式可知，图像关键词的预测值可按如下式子计算：其中，P(w_k)和P(I)为先验概率；因此，给定一幅待标注图像I，它的预测关键词可以通过对所有关键词的预测值排序得到，即：

步骤S52：根据公式可知，对P(w_k|I)的计算就转化为对P(I|w_k)的计算；对于给定关键词w_k∈W，它与图像I构成的概率关系定义如下：其中，P(w_k|I_i)∈{0,1}用于控制在图像I_i中哪些关键词需要增加贡献值，哪些不需要增加贡献值，具体表示为：即，当图像I_i包含关键词w_k时，P(w_k|I_i)＝1，当图像I_i不包含关键词w_k时，P(w_k|I_i)＝0；

步骤S53：公式中的为图像I_i对于图像I的贡献值，计算方法定义如下：其中，χ为固定常数，β为正整数，Dis(I,I_i)为图像I和图像I_i间的归一化后的视觉距离，计算方法如下：其中，L(.)表示为两个向量间的距离公式。

进一步的，所述步骤S53中，固定常数的取值为：χ＝1.0；β的取值为5≤β≤30。

本发明与现有技术相比具有以下有益效果：本发明构建通用、精简、有效的深度CNN特征提取框架，通过卷积保留有效信息、通过采样缩减特征维度，自适应提取特征，解决人工选取特征的问题；本发明还提出划分语义邻域的方法，构建视觉和语义均相近的近邻图像集来改善视觉相邻而语义不相邻的问题，并根据视觉相似度来确定每幅邻域图像的标签的贡献值，从而提升标注效果；该方法简单，实现灵活，实用性较强。

附图说明

图1是本发明的方法流程图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

本发明提供一种融合深度特征和语义邻域的自动图像标注方法，如图1所示，针对人工选取特征费时费力以及传统标签传播算法忽视语义相似性，导致标注模型难以应用于真实图像环境中，提出一种融合深度特征和语义邻域的的图像标注方法。该方法首先利用多层的CNN深度特征提取网络，实现通用、有效的深度特征的提取。接着根据关键词划分语义组，将视觉近邻限定在语义组中，保证邻域图像集中的图像语义相邻视觉也相邻。最后将待测图像作为出发点，根据深度特征的视觉距离计算预测关键词的贡献值，通过对贡献值排序得到最终的标注关键词，具体步骤如下：

步骤S2：通过逐层卷积和逐层采样将高分辨率的训练图像转化为简单、高效的特征向量，并提取每个语义组的训练图像的特征；

步骤S3：将待标注图像输入所述训练好的CNN深度网络，按步骤S2对所述待标注图像进行特征提取，即将步骤S2中的训练图像替换为未标注图像并进行相同的处理；

进一步的，所述步骤S2的具体内容如下：

步骤S21：构建AlexNet网络，并用ILSVRC竞赛所用ImageNet训练集充分训练整个网络，以得到训练好的网络模型；

步骤S22：对待提取特征的图像进行尺寸缩放，使图像的尺寸符合输入要求，令I＝{I₀,I₁,…,I_N-1}为尺寸缩放后的图像集；其中N为图像数，I_i＝[f₁,f₂,…,f_M]^T为图像I_i的原始像素，M为像素数；

进一步的，所述激活函数取ReLu函数，即f(x)＝max(0,x)。

进一步的，所述步骤S4的具体内容如下：

进一步的，所述步骤S5的具体内容如下：

步骤S51：将图像标注的预测问题转化为求后验概率的问题，首先定义条件概率P(I|w_k)，它表示关键词w_k和图像I的概率关系；由概率转换公式可知，图像关键词的预测值可按如下式子计算：其中，P(w_k)和P(I)为先验概率，取值固定，它们的值的大小并不会影响P(w_k|I)预测值的计算；因此，给定一幅待标注图像I，它的预测关键词可以通过对所有关键词的预测值排序得到，即：

步骤S53：公式中的为图像I_i对于图像I的贡献值，计算方法定义如下：其中，χ为固定常数，一般取χ＝1.0，β为正整数且5≤β≤30，Dis(I,I_i)为图像I和图像I_i间的归一化后的视觉距离，计算方法如下：其中，L(.)表示为两个向量间的距离公式，我们采用欧式距离。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种融合深度特征和语义邻域的自动图像标注方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的融合深度特征和语义邻域的自动图像标注方法，其特征在于：所述步骤S2的具体内容如下：

3.根据权利要求2所述的融合深度特征和语义邻域的自动图像标注方法，其特征在于：所述激活函数取ReLu函数，即f(x)＝max(0,x)。

4.根据权利要求2所述的融合深度特征和语义邻域的自动图像标注方法，其特征在于：所述步骤S4的具体内容如下：

步骤S41：首先对图像标注问题进行符号定义，用I＝{I₁,I₂,…I_N}，表示训练图像，其中N为训练图像数，并用W＝{w₁,w₂,…,w_M}表示训练集中包含的关键词，M为关键词数；则图像标注问题的训练集可以记为：Ω＝{(I₁,W₁),(I₂,W₂),…,(I_N,W_N)}，这里的W_i为M维向量W_i∈{0,1}^M，当W_i ^j＝1时，表示图像i包含关键词w_j；而当W_i ^j＝0时，表示图像i不含关键词w_j；

步骤S42：定义图像的语义邻域，将每个关键词所包含的所有图像看成一个语义组，那么，所有关键词对应的语义组集按如下方式表示：其中，w_i为关键词，为和关键词w_i关联的所有图像，

5.根据权利要求4所述的融合深度特征和语义邻域的自动图像标注方法，其特征在于：所述步骤S5的具体内容如下：

6.根据权利要求5所述的融合深度特征和语义邻域的自动图像标注方法，其特征在于：所述步骤S53中，固定常数的取值为：χ＝1.0；β的取值为5≤β≤30。