CN108154156A - 基于神经主题模型的图像集成分类方法及装置 - Google Patents
基于神经主题模型的图像集成分类方法及装置 Download PDFInfo
- Publication number
- CN108154156A CN108154156A CN201711242374.4A CN201711242374A CN108154156A CN 108154156 A CN108154156 A CN 108154156A CN 201711242374 A CN201711242374 A CN 201711242374A CN 108154156 A CN108154156 A CN 108154156A
- Authority
- CN
- China
- Prior art keywords
- image
- neural
- topic model
- cnn
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001537 neural effect Effects 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 66
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000012360 testing method Methods 0.000 claims abstract description 14
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000003064 k means clustering Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 abstract description 3
- 238000005457 optimization Methods 0.000 abstract 2
- 239000000284 extract Substances 0.000 abstract 1
- 230000006870 function Effects 0.000 description 12
- 238000013461 design Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- WABPQHHGFIMREM-UHFFFAOYSA-N lead(0) Chemical compound [Pb] WABPQHHGFIMREM-UHFFFAOYSA-N 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种基于神经主题模型的图像集成分类方法,包括:S1,对图像进行预处理,提取图像的词袋特征v和深度卷积神经网络特征vCNN,其中,图像包括训练集和测试集;S2,在神经主题模型中引入深度卷积神经网络特征vCNN,并结合集成分类方法softmax混合模型,构建图像集成分类的神经主题模型;S3,基于训练集优化图像集成分类的神经主题模型的目标函数,并求解模型参数;S4,利用优化后的图像集成分类的神经主题模型对测试集图像进行分类。本公开还提供了一种基于神经主题模型的图像集成分类装置。本公开基于神经主题模型的图像集成分类方法及装置,解决了基于神经主题模型DocNADE的图像集成分类的问题,改善了图像分类效果。
Description
技术领域
本公开涉及在计算机视觉领域中图像分类,尤其涉及一种基于神经主题模型的图像集成分类方法及装置。
背景技术
随着计算机技术的发展,人们浏览的信息日益丰富,每天都有大量图片被上传到网络,由于数量巨大,人工已经无法对此进行分类,因此,研究高效可靠的图片分类算法有很迫切的社会需求。
在计算机视觉领域中,首先要做的就是选取图像的特征描述。随着图像词袋(Bagof words)特征的出现,主题模型广泛应用于图像分类和图像标注中。主题模型可用学习到的主题特征代替原始的图像底层特征,从而缩小高层语义概念与底层图像特征间的距离。
Hofman在SIGIR1999会议上提出了经典概率主题模型PLSA,该模型使用所有词上的多项式分布来描述主题,并假设每一篇文档有不同的主题分布。Blei在PLSA基础上引入Dirichlet先验,在JMLR杂志上提出了LDA(Latent Dirichlet Allocation)模型,使模型更加鲁棒,应用更为广泛。2012年Larochelle和Lauly在NIPS会议上首次提出了一个无监督神经主题模型,文档神经自回归分布估计器(Document Neural AutoregressiveDistribution Estimator,简称DocNADE)模型,获得了较好的主题特征,该模型假设每个词的生成仅与在其之前生成的词有关联,并直接建模文档为所有词的条件概率乘积,每个条件概率使用前馈神经网络生成。基于主题模型的图像分类工作大都基于这几个模型。主要分为两类方法:一类方法是分为两个阶段,先使用主题模型学习主题特征,再对其分类。另一类方法是采用一个阶段,将主题特征学习和分类器训练整合为一个模型,试图学习出适合分类的主题特征。
近年来,这两种方式都有人进行了深入的研究,但是基于主题模型的图像分类工作大都使用词袋特征,未引入其它取值连续、辨识度又高的特征。另外,大多基于主题模型的图像分类或同时做图像分类和标注的任务都假设单一分类规则。面对类内相似度低、类间相似度高的真实图像,单一分类规则往往不能很好地拟合图像和类别间的关系。直观上建立多个分类规则更为合理,应为不同类型的图像建立不同的分类规则。然而,当含有潜变量的主题模型引入多个分类规则后,势必要增加参数求解的困难,甚至还会增加模型的时间复杂度。可见,主题模型中多分类规则的引入也是具有一定挑战性的。
发明内容
(一)要解决的技术问题
鉴于上述技术问题,本公开提供了一种基于神经主题模型的图像集成分类方法及装置,解决了基于神经主题模型DocNADE的图像集成分类的问题,改善了图像分类效果。
(二)技术方案
根据本公开的一个方面,提供了一种基于神经主题模型的图像集成分类方法,包括以下步骤:S1,对图像进行预处理,提取图像的词袋特征v和深度卷积神经网络特征vCNN,其中,所述图像包括训练集和测试集;S2,在神经主题模型中引入所述深度卷积神经网络特征vCNN,并结合集成分类方法softmax混合模型,构建图像集成分类的神经主题模型;S3,基于训练集优化所述图像集成分类的神经主题模型的目标函数,并求解模型参数;S4,利用优化后的图像集成分类的神经主题模型对测试集图像进行分类。
在一些实施例中,所述步骤S1包括以下子步骤:S11,输入图像和类标信息;S12,对图像进行特征检测,提取SIFT特征向量特征,即词袋特征v;S13,利用训练后的卷积神经网络,提取深度卷积神经网络特征vCNN。
在一些实施例中,在所述步骤S12中,采用规则网格(Regular Grid)方法对图像进行特征检测,对每个图像区块提取128维SIFT特征向量特征。
在一些实施例中,在所述步骤S12中,提取SIFT特征向量特征后使用K-means聚类形成码书,并将图像用码词词频表示。
在一些实施例中,在所述步骤S13中,在ImageNet数据集上训练卷积神经网络VGG19,利用训练后的卷积神经网络VGG19,提取实验数据集上VGG19网络的倒数第二个全连接层特征,即深度卷积神经网络特征vCNN。
在一些实施例中,在所述步骤S2中,将提取的SIFT词袋特征v=[v1,v2,…,vD]和Deep-CNN特征vCNN作为网络的输入层,词袋特征v和类标y为网络输出层,结合集成分类方法softmax混合模型,将训练集图像和类标的联合概率建模为:
其中,
p(yl|v,vCNN)=softmax(d+Ulh(vCNN,v));
p(vi=t|vCNN,v<i)使用前馈神经网络结构建模,
式中,v表示词袋特征,y表示类标,L表示分类器的总数,xl表示第l个Softmax的权重,yl表示图像在第l个分类器的预测值,D表示图像的词袋特征所包括的词的个数,vi表示图像中的第i个词v<i表示图像中在第i个词之前的词,即第1个到i-1个词;d、U表示参数,h()表示函数,v表示图像中任意一个词;g()表示sigmoid函数,c、T表示参数, 表示参数矩阵;a表示softmax函数的输入,j表示任意一类别,C表示j的最大值;b、V表示参数,t、t’表示字典中词的序号;i、k表示图像中词的序号。
在一些实施例中,在步骤S3中,所述目标函数为Vn表示训练集中第n幅图像的词袋特征,yn表示第n幅图像的类标,N为n的最大值所述模型参数的梯度为和
在一些实施例中,通过随机梯度下降法求解模型参数。
在一些实施例中,所述步骤S4包括以下子步骤:S41,输入待分类图像的SIFT特征向量特征和Deep-CNN特征;S42,将数据输入训练后的图像集成分类的神经主题模型,通过比较多个分类规则结果,寻找最大的预测值来得到类标,公式如下:其中,xl表示第l个softmax的权重,p(yl|vCNN,v)表示第l个softmax输出的概率;S43,输出该新图像的类标。
根据本公开的另一个方面,还提供了一种基于神经主题模型的图像集成分类装置,包括:预处理模块,用于对图像进行预处理,提取图像的词袋特征v和深度卷积神经网络特征vCNN,其中,所述图像包括训练集和测试集;处理模块,用于在神经主题模型中引入所述深度卷积神经网络特征vCNN,并结合集成分类方法softmax混合模型,构建图像集成分类的神经主题模型;计算模块,用于基于训练集优化所述图像集成分类的神经主题模型的目标函数求解模型参数;以及分类模块,用于利用优化后的图像集成分类的神经主题模型对测试集图像进行分类。
(三)有益效果
从上述技术方案可以看出,本公开基于神经主题模型的图像集成分类方法及装置至少具有以下有益效果:
神经主题模型DocNADE中引入Deep-CNN特征,并结合集成分类方法softmax混合模型,构建图像集成分类的神经主题模型,由此本公开基于神经主题模型的图像集成分类方法及装置具有高效性,具有很高的实用价值。
附图说明
通过附图所示,本公开的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分,并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本公开的主旨。
图1为依据本公开实施例基于神经主题模型的图像集成分类方法流程图。
图2为依据本公开实施例基于DocNADE的图像集成分类的神经主题模型网络结构。
图3为依据本公开实施例集成休息模块的流程图。
图4为依据本公开实施例基于神经主题模型的图像集成分类装置功能模块示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,在附图或说明书描述中,相似或相同的部分都使用相同的图号。附图中未绘示或描述的实现方式,为所属技术领域中普通技术人员所知的形式。另外,虽然本文可提供包含特定值的参数的示范,但应了解,参数无需确切等于相应的值,而是可在可接受的误差容限或设计约束内近似于相应的值。实施例中提到的方向用语,例如“上”、“下”、“前”、“后”、“左”、“右”等,仅是参考附图的方向。因此,使用的方向用语是用来说明并非用来限制本公开的保护范围。
本公开提供了一种基于神经主题模型的图像集成分类方法。图1为依据本公开实施例基于神经主题模型的图像集成分类方法流程图。如图1所示,基于神经主题模型的图像集成分类方法,包括以下步骤:
S1,图像预处理:对图像提取词袋和深度卷积神经网络特征。
S2,构建图像集成分类的神经主题模型:在神经主题模型DocNADE中引入深度卷积神经网络Deep-CNN特征,并结合集成分类方法softmax混合模型,构建图像集成分类的神经主题模型。
S3,优化模型参数:通过求解最小化目标函数,求解最优模型参数,其中,使用随机梯度下降法求解模型参数。
S4,确立分类规则:对于一个新图像,利用优化后的模型,综合多个分类规则的结果得到最终的类标。
下面将对每个步骤进行详细的说明:
S1,图像预处理:对图像提取词袋和深度卷积神经网络特征,请配合参照图2所示。步骤S1主要包括以下子步骤:
S11,输入:图像和类标信息。
S12,首先进行图像特征检测,为了不遗漏图像信息,采用规则网格(RegularGrid)方法对图像进行特征检测,网格大小依照图像大小而定,对每个图像区块提取128维SIFT特征向量特征(尺度不变特征变换),即SIFT词袋特征,然后使用K均值(K-means)聚类形成码书,最后将图像用码词词频表示。
S13,在大型图像数据集上训练用卷积神经网络来学习图像特征。具体选择ImageNet数据集和卷积神经网络VGG19(ImageNet用于训练Vgg19网络,Vgg19网络用于提取实验数据集的Deep-CNN特征)。ImageNet数据集包含7076580幅图像,1000个类标。VGG19网络共19层,前5个模块为卷积层,6、7、8模块为全连接层,最后一层为类标。这里使用VGG19网络的倒数第二个全连接层特征,共4096个单元。在ImageNet数据集上训练VGG19网络,然后使用训练好的VGG19网络,提取实验数据集(实验数据集实验数据集是包括训练和测试的图片)图像上的VGG19网络的倒数第二个全连接层卷积神经网络特征,即深度卷积神经网络特征vCNN。
步骤S2以步骤S1所得的图像预处理数据为基础建立图像分类模型,其包括以下子步骤:
S21,输入:
a,输入由步骤S12得到的SIFT词袋特征向量特征v=[v1,v2,…,vD];
b,输入由步骤S13得到的Deep-CNN特征vCNN。
S22,将步骤S12提取的SIFT词袋特征v=[v1,v2,…,vD]和步骤S13提取的Deep-CNN特征vCNN作为网络的输入层,词袋特征v和类标y为网络输出层。图像和类标的联合概率拟建模为:
其中,
p(yl|v,vCNN)=softmax(d+Ulh(vCNN,v));
p(vi=t|vCNN,v<i)使用前馈神经网络结构建模,
式中,v表示词袋特征,y表示类标,L表示分类器的总数,xl表示第l个Softmax的权重,yl表示图像在第l个分类器的预测值,D表示图像的词袋特征所包括的词的个数,vi表示图像中的第i个词v<i表示图像中在第i个词之前的词,即第1个到i-1个词;d、U表示参数,h()表示函数,v表示图像中任意一个词;g()表示sigmoid函数,c、T表示参数, 表示参数矩阵;a表示softmax函数的输入,j表示任意一类别,C表示j的最大值;b、V表示参数,t、t’表示字典中词的序号;i、k表示图像中词的序号。
步骤S3:在S2建立的神经网络模型中,计算p(vn,yn),以最小化为优化目标函数(Vn表示训练集中第n幅图像的词袋特征),求解每个参数的梯度和(x是每个分类器的权重变量)。使用随机梯度下降法求解模型参数,该步骤可以使用Caffe、TensorFlow等框架来实现。
步骤S4,在前三步训练模型的基础上,对新图像进行分类,即对模型进行测试,具体过程如图3所示,其包括以下子步骤:
S41,输入:
a,输入新图像经过步骤S12得到的SIFT词袋特征向量特征v=[v1,v2,…,vD];
b,输入新图像经过步骤S13得到的Deep-CNN特征vCNN。
S42,将数据v,vCNN输入步骤S3训练好的神经网络模型,通过比较分类规则结果,通过寻找最大的预测值xlp(yl|vCNN,v)(每个Softmax对应一分类器(分类规则),每个分类器对应1个分类结果(预测值),在所有分类器中寻找最大的预测值找到最终的分类结果。)来得到类标,具体公式为:
其中,xl表示第l个softmax的权重,p(yl|vCNN,v)表示第l个softmax输出的概率;
S43,输出该新图像的类标。
另外,本公开还提供了一种基于神经主题模型的图像集成分类装置。如图4所示,所述基于神经主题模型的图像集成分类装置包括:
预处理模块,用于对图像进行预处理,提取图像的词袋特征v和深度卷积神经网络特征vCNN,其中,所述图像包括训练集和测试集;
处理模块,用于在神经主题模型中引入所述深度卷积神经网络特征vCNN,并结合集成分类方法softmax混合模型,构建图像集成分类的神经主题模型;
计算模块,用于基于训练集优化所述图像集成分类的神经主题模型的目标函数求解模型参数;以及
分类模块,用于利用优化后的图像集成分类的神经主题模型对测试集图像进行分类。
以上结合附图对所提出的基于神经主题模型进行图像分类的方法及装置的具体实施方式进行了阐述。通过以上实施方式的描述,所属领域的技术人员可以清楚的了解该方法及装置的实施。
需要说明的是,在附图或说明书正文中,未绘示或描述的实现方式,均为所属技术领域中普通技术人员所知的形式,并未进行详细说明。此外,上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式,本领域普通技术人员可对其进行简单地更改或替换。
此外,除非特别描述或必须依序发生的步骤,上述步骤的顺序并无限制于以上所列,且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑,彼此混合搭配使用或与其他实施例混合搭配使用,即不同实施例中的技术特征可以自由组合形成更多的实施例。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的启示一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本公开也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本公开的内容,并且上面对特定语言所做的描述是为了披露本公开的最佳实施方式。
类似地,应当理解,为了精简本公开并帮助理解各个公开方面中的一个或多个,在上面对本公开的示例性实施例的描述中,本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,公开方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的单独实施例。
以上所述的具体实施例,对本公开的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本公开的具体实施例而已,并不用于限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (10)
1.一种基于神经主题模型的图像集成分类方法,包括以下步骤:
S1,对图像进行预处理,提取图像的词袋特征v和深度卷积神经网络特征vCNN,其中,所述图像包括训练集和测试集;
S2,在神经主题模型中引入所述深度卷积神经网络特征vCNN,并结合集成分类方法softmax混合模型,构建图像集成分类的神经主题模型;
S3,基于训练集优化所述图像集成分类的神经主题模型的目标函数,并求解模型参数;
S4,利用优化后的图像集成分类的神经主题模型对测试集图像进行分类。
2.根据权利要求1所述的基于神经主题模型的图像集成分类方法,其中,所述步骤S1包括以下子步骤:
S11,输入图像和类标信息;
S12,对图像进行特征检测,提取SIFT特征向量特征,即词袋特征v;
S13,利用训练后的卷积神经网络,提取深度卷积神经网络特征vCNN。
3.根据权利要求2所述的基于神经主题模型的图像集成分类方法,其中,在所述步骤S12中,采用规则网格(Regular Grid)方法对图像进行特征检测,对每个图像区块提取128维SIFT特征向量特征。
4.根据权利要求2所述的基于神经主题模型的图像集成分类方法,其中,在所述步骤S12中,提取SIFT特征向量特征后使用K-means聚类形成码书,并将图像用码词词频表示。
5.根据权利要求2所述的基于神经主题模型的图像集成分类方法,其中,在所述步骤S13中,在ImageNet数据集上训练卷积神经网络VGG19,利用训练后的卷积神经网络VGG19,提取实验数据集上VGG19网络的倒数第二个全连接层特征,即深度卷积神经网络特征vCNN。
6.根据权利要求1所述的基于神经主题模型的图像集成分类方法,其中,在所述步骤S2中,将提取的SIFT词袋特征v=[v1,v2,…,vD]和Deep-CNN特征vCNN作为网络的输入层,词袋特征v和类标y为网络输出层,结合集成分类方法softmax混合模型,将训练集图像和类标的联合概率建模为:
其中,
p(yl|v,vCNN)=softmax(d+Ulh(vCNN,v));
p(vi=t|vCNN,v<i)使用前馈神经网络结构建模,
式中,v表示词袋特征,y表示类标,L表示分类器的总数,xl表示第l个Softmax的权重,yl表示图像在第l个分类器的预测值,D表示图像的词袋特征所包括的词的个数,vi表示图像中的第i个词v<i表示图像中在第i个词之前的词,即第1个到i-1个词;d、U表示参数,h()表示函数,v表示图像中任意一个词;g()表示sigmoid函数,c、T表示参数, 表示参数矩阵;a表示softmax函数的输入,j表示任意一类别,C表示j的最大值;b、V表示参数,t、t’表示字典中词的序号;i、k表示图像中词的序号。
7.根据权利要求1所述的基于神经主题模型的图像集成分类方法,其中,在步骤S3中,所述目标函数为vn表示训练集中第n幅图像的词袋特征,yn表示第n幅图像的类标,N为n的最大值所述模型参数的梯度为和
8.根据权利要求7所述的基于神经主题模型的图像集成分类方法,其中,通过随机梯度下降法求解模型参数。
9.根据权利要求1所述的基于神经主题模型的图像集成分类方法,其中,所述步骤S4包括以下子步骤:
S41,输入待分类图像的SIFT特征向量特征和Deep-CNN特征;
S42,将数据输入训练后的图像集成分类的神经主题模型,通过比较多个分类规则结果,寻找最大的预测值来得到类标,公式如下:
其中,xl表示第l个softmax的权重,p(yl|vCNN,v)表示第l个softmax输出的概率;
S43,输出该新图像的类标。
10.一种基于神经主题模型的图像集成分类装置,包括:
预处理模块,用于对图像进行预处理,提取图像的词袋特征v和深度卷积神经网络特征vCNN,其中,所述图像包括训练集和测试集;
处理模块,用于在神经主题模型中引入所述深度卷积神经网络特征vCNN,并结合集成分类方法softmax混合模型,构建图像集成分类的神经主题模型;
计算模块,用于基于训练集优化所述图像集成分类的神经主题模型的目标函数求解模型参数;以及
分类模块,用于利用优化后的图像集成分类的神经主题模型对测试集图像进行分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711242374.4A CN108154156B (zh) | 2017-11-30 | 2017-11-30 | 基于神经主题模型的图像集成分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711242374.4A CN108154156B (zh) | 2017-11-30 | 2017-11-30 | 基于神经主题模型的图像集成分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108154156A true CN108154156A (zh) | 2018-06-12 |
CN108154156B CN108154156B (zh) | 2021-11-12 |
Family
ID=62465887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711242374.4A Expired - Fee Related CN108154156B (zh) | 2017-11-30 | 2017-11-30 | 基于神经主题模型的图像集成分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108154156B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271401A (zh) * | 2018-09-26 | 2019-01-25 | 杭州大拿科技股份有限公司 | 一种题目搜索、批改方法、装置、电子设备和存储介质 |
CN110457483A (zh) * | 2019-06-21 | 2019-11-15 | 浙江大学 | 一种基于神经主题模型的长文本生成方法 |
CN110706200A (zh) * | 2019-09-02 | 2020-01-17 | 杭州深睿博联科技有限公司 | 数据预测的方法及装置 |
CN112434212A (zh) * | 2020-09-18 | 2021-03-02 | 昆明理工大学 | 基于神经自回归分布估计的涉案新闻主题模型构建方法及装置 |
CN114782752A (zh) * | 2022-05-06 | 2022-07-22 | 兰州理工大学 | 基于自训练的小样本图像集成分类方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156793A (zh) * | 2016-06-27 | 2016-11-23 | 西北工业大学 | 结合深层特征提取和浅层特征提取的医学图像分类方法 |
CN106445919A (zh) * | 2016-09-28 | 2017-02-22 | 上海智臻智能网络科技股份有限公司 | 一种情感分类方法及装置 |
CN106446930A (zh) * | 2016-06-28 | 2017-02-22 | 沈阳工业大学 | 基于深层卷积神经网络的机器人工作场景识别方法 |
-
2017
- 2017-11-30 CN CN201711242374.4A patent/CN108154156B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156793A (zh) * | 2016-06-27 | 2016-11-23 | 西北工业大学 | 结合深层特征提取和浅层特征提取的医学图像分类方法 |
CN106446930A (zh) * | 2016-06-28 | 2017-02-22 | 沈阳工业大学 | 基于深层卷积神经网络的机器人工作场景识别方法 |
CN106445919A (zh) * | 2016-09-28 | 2017-02-22 | 上海智臻智能网络科技股份有限公司 | 一种情感分类方法及装置 |
Non-Patent Citations (3)
Title |
---|
XIAOXU LI ET AL: "Mixture of softmax sLDA", 《2011 11TH IEEE INTERNATIONAL CONFERENCE ON DATA MINING》 * |
YIN ZHENG ET AL: "A Deep and Autoregressive Approach for Topic Modeling of Multimodal Data", 《ARXIV:1409.3970V3》 * |
李晓旭: "基于概率主题模型的图像分类和标注的研究", 《中国博士学位论文全文数据库信息科技辑》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271401A (zh) * | 2018-09-26 | 2019-01-25 | 杭州大拿科技股份有限公司 | 一种题目搜索、批改方法、装置、电子设备和存储介质 |
CN110457483A (zh) * | 2019-06-21 | 2019-11-15 | 浙江大学 | 一种基于神经主题模型的长文本生成方法 |
CN110706200A (zh) * | 2019-09-02 | 2020-01-17 | 杭州深睿博联科技有限公司 | 数据预测的方法及装置 |
CN110706200B (zh) * | 2019-09-02 | 2022-08-05 | 杭州深睿博联科技有限公司 | 数据预测的方法及装置 |
CN112434212A (zh) * | 2020-09-18 | 2021-03-02 | 昆明理工大学 | 基于神经自回归分布估计的涉案新闻主题模型构建方法及装置 |
CN112434212B (zh) * | 2020-09-18 | 2021-11-23 | 昆明理工大学 | 基于神经自回归分布估计的涉案新闻主题模型构建方法及装置 |
CN114782752A (zh) * | 2022-05-06 | 2022-07-22 | 兰州理工大学 | 基于自训练的小样本图像集成分类方法及装置 |
CN114782752B (zh) * | 2022-05-06 | 2023-09-05 | 兰州理工大学 | 基于自训练的小样本图像集成分类方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108154156B (zh) | 2021-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jiang et al. | Skeleton aware multi-modal sign language recognition | |
CN110866117B (zh) | 一种基于语义增强与多层次标签嵌入的短文本分类方法 | |
CN108154156B (zh) | 基于神经主题模型的图像集成分类方法及装置 | |
Hasani et al. | Spatio-temporal facial expression recognition using convolutional neural networks and conditional random fields | |
CN110021051B (zh) | 一种基于生成对抗网络通过文本指导的人物图像生成方法 | |
CN108804530B (zh) | 对图像的区域加字幕 | |
CN110046656B (zh) | 基于深度学习的多模态场景识别方法 | |
Zheng et al. | Topic modeling of multimodal data: an autoregressive approach | |
CN112347268A (zh) | 一种文本增强的知识图谱联合表示学习方法及装置 | |
Diba et al. | Deepcamp: Deep convolutional action & attribute mid-level patterns | |
Sun et al. | Facial expression recognition based on a hybrid model combining deep and shallow features | |
CN111027595B (zh) | 双阶段语义词向量生成方法 | |
CN108875076B (zh) | 一种基于Attention机制和卷积神经网络的快速商标图像检索方法 | |
CN107683469A (zh) | 一种基于深度学习的产品分类方法及装置 | |
CN109783666A (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
CN110674741A (zh) | 一种基于双通道特征融合的机器视觉中手势识别方法 | |
CN108427740B (zh) | 一种基于深度度量学习的图像情感分类与检索算法 | |
Xie et al. | Hierarchical coding of convolutional features for scene recognition | |
CN110111365B (zh) | 基于深度学习的训练方法和装置以及目标跟踪方法和装置 | |
CN113688894A (zh) | 一种融合多粒度特征的细粒度图像分类方法 | |
Liang et al. | An expressive deep model for human action parsing from a single image | |
CN112597324A (zh) | 一种基于相关滤波的图像哈希索引构建方法、系统及设备 | |
Wang et al. | Learning semantic text features for web text-aided image classification | |
CN110765285A (zh) | 基于视觉特征的多媒体信息内容管控方法及系统 | |
Zhou et al. | Classify multi-label images via improved CNN model with adversarial network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20211112 |
|
CF01 | Termination of patent right due to non-payment of annual fee |