CN108154156A

CN108154156A - 基于神经主题模型的图像集成分类方法及装置

Info

Publication number: CN108154156A
Application number: CN201711242374.4A
Authority: CN
Inventors: 李晓旭; 耿丙乾; 常东良; 喻梨耘
Original assignee: Lanzhou University of Technology
Current assignee: Lanzhou University of Technology
Priority date: 2017-11-30
Filing date: 2017-11-30
Publication date: 2018-06-12
Anticipated expiration: 2037-11-30
Also published as: CN108154156B

Abstract

本公开提供了一种基于神经主题模型的图像集成分类方法，包括：S1，对图像进行预处理，提取图像的词袋特征v和深度卷积神经网络特征v_CNN，其中，图像包括训练集和测试集；S2，在神经主题模型中引入深度卷积神经网络特征v_CNN，并结合集成分类方法softmax混合模型，构建图像集成分类的神经主题模型；S3，基于训练集优化图像集成分类的神经主题模型的目标函数，并求解模型参数；S4，利用优化后的图像集成分类的神经主题模型对测试集图像进行分类。本公开还提供了一种基于神经主题模型的图像集成分类装置。本公开基于神经主题模型的图像集成分类方法及装置，解决了基于神经主题模型DocNADE的图像集成分类的问题，改善了图像分类效果。

Description

基于神经主题模型的图像集成分类方法及装置

技术领域

本公开涉及在计算机视觉领域中图像分类，尤其涉及一种基于神经主题模型的图像集成分类方法及装置。

背景技术

随着计算机技术的发展，人们浏览的信息日益丰富，每天都有大量图片被上传到网络，由于数量巨大，人工已经无法对此进行分类，因此，研究高效可靠的图片分类算法有很迫切的社会需求。

在计算机视觉领域中，首先要做的就是选取图像的特征描述。随着图像词袋(Bagof words)特征的出现，主题模型广泛应用于图像分类和图像标注中。主题模型可用学习到的主题特征代替原始的图像底层特征，从而缩小高层语义概念与底层图像特征间的距离。

Hofman在SIGIR1999会议上提出了经典概率主题模型PLSA，该模型使用所有词上的多项式分布来描述主题，并假设每一篇文档有不同的主题分布。Blei在PLSA基础上引入Dirichlet先验，在JMLR杂志上提出了LDA(Latent Dirichlet Allocation)模型，使模型更加鲁棒，应用更为广泛。2012年Larochelle和Lauly在NIPS会议上首次提出了一个无监督神经主题模型，文档神经自回归分布估计器(Document Neural AutoregressiveDistribution Estimator，简称DocNADE)模型，获得了较好的主题特征，该模型假设每个词的生成仅与在其之前生成的词有关联，并直接建模文档为所有词的条件概率乘积，每个条件概率使用前馈神经网络生成。基于主题模型的图像分类工作大都基于这几个模型。主要分为两类方法：一类方法是分为两个阶段，先使用主题模型学习主题特征，再对其分类。另一类方法是采用一个阶段，将主题特征学习和分类器训练整合为一个模型，试图学习出适合分类的主题特征。

近年来，这两种方式都有人进行了深入的研究，但是基于主题模型的图像分类工作大都使用词袋特征，未引入其它取值连续、辨识度又高的特征。另外，大多基于主题模型的图像分类或同时做图像分类和标注的任务都假设单一分类规则。面对类内相似度低、类间相似度高的真实图像，单一分类规则往往不能很好地拟合图像和类别间的关系。直观上建立多个分类规则更为合理，应为不同类型的图像建立不同的分类规则。然而，当含有潜变量的主题模型引入多个分类规则后，势必要增加参数求解的困难，甚至还会增加模型的时间复杂度。可见，主题模型中多分类规则的引入也是具有一定挑战性的。

发明内容

(一)要解决的技术问题

鉴于上述技术问题，本公开提供了一种基于神经主题模型的图像集成分类方法及装置，解决了基于神经主题模型DocNADE的图像集成分类的问题，改善了图像分类效果。

(二)技术方案

根据本公开的一个方面，提供了一种基于神经主题模型的图像集成分类方法，包括以下步骤：S1，对图像进行预处理，提取图像的词袋特征v和深度卷积神经网络特征v_CNN，其中，所述图像包括训练集和测试集；S2，在神经主题模型中引入所述深度卷积神经网络特征v_CNN，并结合集成分类方法softmax混合模型，构建图像集成分类的神经主题模型；S3，基于训练集优化所述图像集成分类的神经主题模型的目标函数，并求解模型参数；S4，利用优化后的图像集成分类的神经主题模型对测试集图像进行分类。

在一些实施例中，所述步骤S1包括以下子步骤：S11，输入图像和类标信息；S12，对图像进行特征检测，提取SIFT特征向量特征，即词袋特征v；S13，利用训练后的卷积神经网络，提取深度卷积神经网络特征v_CNN。

在一些实施例中，在所述步骤S12中，采用规则网格(Regular Grid)方法对图像进行特征检测，对每个图像区块提取128维SIFT特征向量特征。

在一些实施例中，在所述步骤S12中，提取SIFT特征向量特征后使用K-means聚类形成码书，并将图像用码词词频表示。

在一些实施例中，在所述步骤S13中，在ImageNet数据集上训练卷积神经网络VGG19，利用训练后的卷积神经网络VGG19，提取实验数据集上VGG19网络的倒数第二个全连接层特征，即深度卷积神经网络特征v_CNN。

在一些实施例中，在所述步骤S2中，将提取的SIFT词袋特征v＝[v₁,v₂,…,v_D]和Deep-CNN特征v_CNN作为网络的输入层，词袋特征v和类标y为网络输出层，结合集成分类方法softmax混合模型，将训练集图像和类标的联合概率建模为：

其中，

p(y_l|v,v_CNN)＝softmax(d+U_lh(v_CNN,v))；

p(v_i＝t|v_CNN,v<_i)使用前馈神经网络结构建模，

式中，v表示词袋特征，y表示类标，L表示分类器的总数，x_l表示第l个Softmax的权重，y_l表示图像在第l个分类器的预测值，D表示图像的词袋特征所包括的词的个数，v_i表示图像中的第i个词v_<i表示图像中在第i个词之前的词，即第1个到i-1个词；d、U表示参数，h()表示函数，v表示图像中任意一个词；g()表示sigmoid函数，c、T表示参数，表示参数矩阵；a表示softmax函数的输入，j表示任意一类别，C表示j的最大值；b、V表示参数，t、t’表示字典中词的序号；i、k表示图像中词的序号。

在一些实施例中，在步骤S3中，所述目标函数为V_n表示训练集中第n幅图像的词袋特征，y_n表示第n幅图像的类标，N为n的最大值所述模型参数的梯度为和

在一些实施例中，通过随机梯度下降法求解模型参数。

在一些实施例中，所述步骤S4包括以下子步骤：S41，输入待分类图像的SIFT特征向量特征和Deep-CNN特征；S42，将数据输入训练后的图像集成分类的神经主题模型，通过比较多个分类规则结果，寻找最大的预测值来得到类标，公式如下：其中，x_l表示第l个softmax的权重，p(y_l|v_CNN,v)表示第l个softmax输出的概率；S43，输出该新图像的类标。

根据本公开的另一个方面，还提供了一种基于神经主题模型的图像集成分类装置，包括：预处理模块，用于对图像进行预处理，提取图像的词袋特征v和深度卷积神经网络特征v_CNN，其中，所述图像包括训练集和测试集；处理模块，用于在神经主题模型中引入所述深度卷积神经网络特征v_CNN，并结合集成分类方法softmax混合模型，构建图像集成分类的神经主题模型；计算模块，用于基于训练集优化所述图像集成分类的神经主题模型的目标函数求解模型参数；以及分类模块，用于利用优化后的图像集成分类的神经主题模型对测试集图像进行分类。

(三)有益效果

从上述技术方案可以看出，本公开基于神经主题模型的图像集成分类方法及装置至少具有以下有益效果：

神经主题模型DocNADE中引入Deep-CNN特征，并结合集成分类方法softmax混合模型，构建图像集成分类的神经主题模型，由此本公开基于神经主题模型的图像集成分类方法及装置具有高效性，具有很高的实用价值。

附图说明

通过附图所示，本公开的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分，并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本公开的主旨。

图1为依据本公开实施例基于神经主题模型的图像集成分类方法流程图。

图2为依据本公开实施例基于DocNADE的图像集成分类的神经主题模型网络结构。

图3为依据本公开实施例集成休息模块的流程图。

图4为依据本公开实施例基于神经主题模型的图像集成分类装置功能模块示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，在附图或说明书描述中，相似或相同的部分都使用相同的图号。附图中未绘示或描述的实现方式，为所属技术领域中普通技术人员所知的形式。另外，虽然本文可提供包含特定值的参数的示范，但应了解，参数无需确切等于相应的值，而是可在可接受的误差容限或设计约束内近似于相应的值。实施例中提到的方向用语，例如“上”、“下”、“前”、“后”、“左”、“右”等，仅是参考附图的方向。因此，使用的方向用语是用来说明并非用来限制本公开的保护范围。

本公开提供了一种基于神经主题模型的图像集成分类方法。图1为依据本公开实施例基于神经主题模型的图像集成分类方法流程图。如图1所示，基于神经主题模型的图像集成分类方法，包括以下步骤：

S1，图像预处理：对图像提取词袋和深度卷积神经网络特征。

S2，构建图像集成分类的神经主题模型：在神经主题模型DocNADE中引入深度卷积神经网络Deep-CNN特征，并结合集成分类方法softmax混合模型，构建图像集成分类的神经主题模型。

S3，优化模型参数：通过求解最小化目标函数，求解最优模型参数，其中，使用随机梯度下降法求解模型参数。

S4，确立分类规则：对于一个新图像，利用优化后的模型，综合多个分类规则的结果得到最终的类标。

下面将对每个步骤进行详细的说明：

S1，图像预处理：对图像提取词袋和深度卷积神经网络特征，请配合参照图2所示。步骤S1主要包括以下子步骤：

S11，输入：图像和类标信息。

S12，首先进行图像特征检测，为了不遗漏图像信息，采用规则网格(RegularGrid)方法对图像进行特征检测，网格大小依照图像大小而定，对每个图像区块提取128维SIFT特征向量特征(尺度不变特征变换)，即SIFT词袋特征，然后使用K均值(K-means)聚类形成码书，最后将图像用码词词频表示。

S13，在大型图像数据集上训练用卷积神经网络来学习图像特征。具体选择ImageNet数据集和卷积神经网络VGG19(ImageNet用于训练Vgg19网络，Vgg19网络用于提取实验数据集的Deep-CNN特征)。ImageNet数据集包含7076580幅图像，1000个类标。VGG19网络共19层，前5个模块为卷积层，6、7、8模块为全连接层，最后一层为类标。这里使用VGG19网络的倒数第二个全连接层特征，共4096个单元。在ImageNet数据集上训练VGG19网络，然后使用训练好的VGG19网络，提取实验数据集(实验数据集实验数据集是包括训练和测试的图片)图像上的VGG19网络的倒数第二个全连接层卷积神经网络特征，即深度卷积神经网络特征v_CNN。

步骤S2以步骤S1所得的图像预处理数据为基础建立图像分类模型，其包括以下子步骤：

S21，输入：

a，输入由步骤S12得到的SIFT词袋特征向量特征v＝[v₁,v₂,…,v_D]；

b，输入由步骤S13得到的Deep-CNN特征v_CNN。

S22，将步骤S12提取的SIFT词袋特征v＝[v₁,v₂,…,v_D]和步骤S13提取的Deep-CNN特征v_CNN作为网络的输入层，词袋特征v和类标y为网络输出层。图像和类标的联合概率拟建模为：

其中，

p(y_l|v,v_CNN)＝softmax(d+U_lh(v_CNN,v))；

p(v_i＝t|v_CNN,v<_i)使用前馈神经网络结构建模，

式中，v表示词袋特征，y表示类标，L表示分类器的总数，x_l表示第l个Softmax的权重，yl表示图像在第l个分类器的预测值，D表示图像的词袋特征所包括的词的个数，v_i表示图像中的第i个词v_<i表示图像中在第i个词之前的词，即第1个到i-1个词；d、U表示参数，h()表示函数，v表示图像中任意一个词；g()表示sigmoid函数，c、T表示参数，表示参数矩阵；a表示softmax函数的输入，j表示任意一类别，C表示j的最大值；b、V表示参数，t、t’表示字典中词的序号；i、k表示图像中词的序号。

步骤S3：在S2建立的神经网络模型中，计算p(v_n，y_n)，以最小化为优化目标函数(V_n表示训练集中第n幅图像的词袋特征)，求解每个参数的梯度和(x是每个分类器的权重变量)。使用随机梯度下降法求解模型参数，该步骤可以使用Caffe、TensorFlow等框架来实现。

步骤S4，在前三步训练模型的基础上，对新图像进行分类，即对模型进行测试，具体过程如图3所示，其包括以下子步骤：

S41，输入：

a，输入新图像经过步骤S12得到的SIFT词袋特征向量特征v＝[v₁,v₂,…,v_D]；

b，输入新图像经过步骤S13得到的Deep-CNN特征v_CNN。

S42，将数据v，v_CNN输入步骤S3训练好的神经网络模型，通过比较分类规则结果，通过寻找最大的预测值x_lp(y_l|v_CNN,v)(每个Softmax对应一分类器(分类规则)，每个分类器对应1个分类结果(预测值)，在所有分类器中寻找最大的预测值找到最终的分类结果。)来得到类标，具体公式为：

其中，x_l表示第l个softmax的权重，p(y_l|v_CNN,v)表示第l个softmax输出的概率；

S43，输出该新图像的类标。

另外，本公开还提供了一种基于神经主题模型的图像集成分类装置。如图4所示，所述基于神经主题模型的图像集成分类装置包括：

预处理模块，用于对图像进行预处理，提取图像的词袋特征v和深度卷积神经网络特征v_CNN，其中，所述图像包括训练集和测试集；

处理模块，用于在神经主题模型中引入所述深度卷积神经网络特征v_CNN，并结合集成分类方法softmax混合模型，构建图像集成分类的神经主题模型；

计算模块，用于基于训练集优化所述图像集成分类的神经主题模型的目标函数求解模型参数；以及

分类模块，用于利用优化后的图像集成分类的神经主题模型对测试集图像进行分类。

以上结合附图对所提出的基于神经主题模型进行图像分类的方法及装置的具体实施方式进行了阐述。通过以上实施方式的描述，所属领域的技术人员可以清楚的了解该方法及装置的实施。

需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换。

此外，除非特别描述或必须依序发生的步骤，上述步骤的顺序并无限制于以上所列，且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑，彼此混合搭配使用或与其他实施例混合搭配使用，即不同实施例中的技术特征可以自由组合形成更多的实施例。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的启示一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本公开也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本公开的内容，并且上面对特定语言所做的描述是为了披露本公开的最佳实施方式。

类似地，应当理解，为了精简本公开并帮助理解各个公开方面中的一个或多个，在上面对本公开的示例性实施例的描述中，本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，公开方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本公开的单独实施例。

以上所述的具体实施例，对本公开的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本公开的具体实施例而已，并不用于限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于神经主题模型的图像集成分类方法，包括以下步骤：

S1，对图像进行预处理，提取图像的词袋特征v和深度卷积神经网络特征v_CNN，其中，所述图像包括训练集和测试集；

S2，在神经主题模型中引入所述深度卷积神经网络特征v_CNN，并结合集成分类方法softmax混合模型，构建图像集成分类的神经主题模型；

S3，基于训练集优化所述图像集成分类的神经主题模型的目标函数，并求解模型参数；

S4，利用优化后的图像集成分类的神经主题模型对测试集图像进行分类。

2.根据权利要求1所述的基于神经主题模型的图像集成分类方法，其中，所述步骤S1包括以下子步骤：

S11，输入图像和类标信息；

S12，对图像进行特征检测，提取SIFT特征向量特征，即词袋特征v；

S13，利用训练后的卷积神经网络，提取深度卷积神经网络特征v_CNN。

3.根据权利要求2所述的基于神经主题模型的图像集成分类方法，其中，在所述步骤S12中，采用规则网格(Regular Grid)方法对图像进行特征检测，对每个图像区块提取128维SIFT特征向量特征。

4.根据权利要求2所述的基于神经主题模型的图像集成分类方法，其中，在所述步骤S12中，提取SIFT特征向量特征后使用K-means聚类形成码书，并将图像用码词词频表示。

5.根据权利要求2所述的基于神经主题模型的图像集成分类方法，其中，在所述步骤S13中，在ImageNet数据集上训练卷积神经网络VGG19，利用训练后的卷积神经网络VGG19，提取实验数据集上VGG19网络的倒数第二个全连接层特征，即深度卷积神经网络特征v_CNN。

6.根据权利要求1所述的基于神经主题模型的图像集成分类方法，其中，在所述步骤S2中，将提取的SIFT词袋特征v＝[v₁,v₂,…,v_D]和Deep-CNN特征v_CNN作为网络的输入层，词袋特征v和类标y为网络输出层，结合集成分类方法softmax混合模型，将训练集图像和类标的联合概率建模为：

其中，

p(y_l|v,v_CNN)＝softmax(d+U_lh(v_CNN,v))；

p(v_i＝t|v_CNN,v_<i)使用前馈神经网络结构建模，

7.根据权利要求1所述的基于神经主题模型的图像集成分类方法，其中，在步骤S3中，所述目标函数为v_n表示训练集中第n幅图像的词袋特征，y_n表示第n幅图像的类标，N为n的最大值所述模型参数的梯度为和

8.根据权利要求7所述的基于神经主题模型的图像集成分类方法，其中，通过随机梯度下降法求解模型参数。

9.根据权利要求1所述的基于神经主题模型的图像集成分类方法，其中，所述步骤S4包括以下子步骤：

S41，输入待分类图像的SIFT特征向量特征和Deep-CNN特征；

S42，将数据输入训练后的图像集成分类的神经主题模型，通过比较多个分类规则结果，寻找最大的预测值来得到类标，公式如下：

S43，输出该新图像的类标。

10.一种基于神经主题模型的图像集成分类装置，包括：