CN108154156B - 基于神经主题模型的图像集成分类方法及装置 - Google Patents

基于神经主题模型的图像集成分类方法及装置 Download PDF

Info

Publication number
CN108154156B
CN108154156B CN201711242374.4A CN201711242374A CN108154156B CN 108154156 B CN108154156 B CN 108154156B CN 201711242374 A CN201711242374 A CN 201711242374A CN 108154156 B CN108154156 B CN 108154156B
Authority
CN
China
Prior art keywords
image
cnn
topic model
neural
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711242374.4A
Other languages
English (en)
Other versions
CN108154156A (zh
Inventor
李晓旭
耿丙乾
常东良
喻梨耘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lanzhou University of Technology
Original Assignee
Lanzhou University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lanzhou University of Technology filed Critical Lanzhou University of Technology
Priority to CN201711242374.4A priority Critical patent/CN108154156B/zh
Publication of CN108154156A publication Critical patent/CN108154156A/zh
Application granted granted Critical
Publication of CN108154156B publication Critical patent/CN108154156B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本公开提供了一种基于神经主题模型的图像集成分类方法,包括:S1,对图像进行预处理,提取图像的词袋特征v和深度卷积神经网络特征vCNN,其中,图像包括训练集和测试集;S2,在神经主题模型中引入深度卷积神经网络特征vCNN,并结合集成分类方法softmax混合模型,构建图像集成分类的神经主题模型;S3,基于训练集优化图像集成分类的神经主题模型的目标函数,并求解模型参数;S4,利用优化后的图像集成分类的神经主题模型对测试集图像进行分类。本公开还提供了一种基于神经主题模型的图像集成分类装置。本公开基于神经主题模型的图像集成分类方法及装置,解决了基于神经主题模型DocNADE的图像集成分类的问题,改善了图像分类效果。

Description

基于神经主题模型的图像集成分类方法及装置
技术领域
本公开涉及在计算机视觉领域中图像分类,尤其涉及一种基于神经主题模型的图像集成分类方法及装置。
背景技术
随着计算机技术的发展,人们浏览的信息日益丰富,每天都有大量图片被上传到网络,由于数量巨大,人工已经无法对此进行分类,因此,研究高效可靠的图片分类算法有很迫切的社会需求。
在计算机视觉领域中,首先要做的就是选取图像的特征描述。随着图像词袋(Bagof words)特征的出现,主题模型广泛应用于图像分类和图像标注中。主题模型可用学习到的主题特征代替原始的图像底层特征,从而缩小高层语义概念与底层图像特征间的距离。
Hofman在SIGIR1999会议上提出了经典概率主题模型PLSA,该模型使用所有词上的多项式分布来描述主题,并假设每一篇文档有不同的主题分布。Blei在PLSA基础上引入Dirichlet先验,在JMLR杂志上提出了LDA(Latent Dirichlet Allocation)模型,使模型更加鲁棒,应用更为广泛。2012年Larochelle和Lauly在NIPS会议上首次提出了一个无监督神经主题模型,文档神经自回归分布估计器(Document Neural AutoregressiveDistribution Estimator,简称DocNADE)模型,获得了较好的主题特征,该模型假设每个词的生成仅与在其之前生成的词有关联,并直接建模文档为所有词的条件概率乘积,每个条件概率使用前馈神经网络生成。基于主题模型的图像分类工作大都基于这几个模型。主要分为两类方法:一类方法是分为两个阶段,先使用主题模型学习主题特征,再对其分类。另一类方法是采用一个阶段,将主题特征学习和分类器训练整合为一个模型,试图学习出适合分类的主题特征。
近年来,这两种方式都有人进行了深入的研究,但是基于主题模型的图像分类工作大都使用词袋特征,未引入其它取值连续、辨识度又高的特征。另外,大多基于主题模型的图像分类或同时做图像分类和标注的任务都假设单一分类规则。面对类内相似度低、类间相似度高的真实图像,单一分类规则往往不能很好地拟合图像和类别间的关系。直观上建立多个分类规则更为合理,应为不同类型的图像建立不同的分类规则。然而,当含有潜变量的主题模型引入多个分类规则后,势必要增加参数求解的困难,甚至还会增加模型的时间复杂度。可见,主题模型中多分类规则的引入也是具有一定挑战性的。
发明内容
(一)要解决的技术问题
鉴于上述技术问题,本公开提供了一种基于神经主题模型的图像集成分类方法及装置,解决了基于神经主题模型DocNADE的图像集成分类的问题,改善了图像分类效果。
(二)技术方案
根据本公开的一个方面,提供了一种基于神经主题模型的图像集成分类方法,包括以下步骤:S1,对图像进行预处理,提取图像的词袋特征v和深度卷积神经网络特征vCNN,其中,所述图像包括训练集和测试集;S2,在神经主题模型中引入所述深度卷积神经网络特征vCNN,并结合集成分类方法softmax混合模型,构建图像集成分类的神经主题模型;S3,基于训练集优化所述图像集成分类的神经主题模型的目标函数,并求解模型参数;S4,利用优化后的图像集成分类的神经主题模型对测试集图像进行分类。
在一些实施例中,所述步骤S1包括以下子步骤:S11,输入图像和类标信息;S12,对图像进行特征检测,提取SIFT特征向量特征,即词袋特征v;S13,利用训练后的卷积神经网络,提取深度卷积神经网络特征vCNN
在一些实施例中,在所述步骤S12中,采用规则网格(Regular Grid)方法对图像进行特征检测,对每个图像区块提取128维SIFT特征向量特征。
在一些实施例中,在所述步骤S12中,提取SIFT特征向量特征后使用K-means聚类形成码书,并将图像用码词词频表示。
在一些实施例中,在所述步骤S13中,在ImageNet数据集上训练卷积神经网络VGG19,利用训练后的卷积神经网络VGG19,提取实验数据集上VGG19网络的倒数第二个全连接层特征,即深度卷积神经网络特征vCNN
在一些实施例中,在所述步骤S2中,将提取的SIFT词袋特征v=[v1,v2,…,vD]和Deep-CNN特征vCNN作为网络的输入层,词袋特征v和类标y为网络输出层,结合集成分类方法softmax混合模型,将训练集图像和类标的联合概率建模为:
Figure BDA0001490144540000031
其中,
Figure BDA0001490144540000032
p(yl|v,vCNN)=softmax(d+Ulh(vCNN,v));
Figure BDA0001490144540000033
Figure BDA0001490144540000034
p(vi=t|vCNN,v<i)使用前馈神经网络结构建模,
Figure BDA0001490144540000035
Figure BDA0001490144540000036
式中,v表示词袋特征,y表示类标,L表示分类器的总数,xl表示第l个Softmax的权重,yl表示图像在第l个分类器的预测值,D表示图像的词袋特征所包括的词的个数,vi表示图像中的第i个词v<i表示图像中在第i个词之前的词,即第1个到i-1个词;d、U表示参数,h()表示函数,v表示图像中任意一个词;g()表示sigmoid函数,c、T表示参数,
Figure BDA0001490144540000041
Figure BDA0001490144540000042
表示参数矩阵;a表示softmax函数的输入,j表示任意一类别,C表示j的最大值;b、V表示参数,t、t’表示字典中词的序号;i、k表示图像中词的序号。
在一些实施例中,在步骤S3中,所述目标函数为
Figure BDA0001490144540000043
Vn表示训练集中第n幅图像的词袋特征,yn表示第n幅图像的类标,N为n的最大值所述模型参数的梯度为
Figure BDA0001490144540000044
Figure BDA0001490144540000045
在一些实施例中,通过随机梯度下降法求解模型参数。
在一些实施例中,所述步骤S4包括以下子步骤:S41,输入待分类图像的SIFT特征向量特征和Deep-CNN特征;S42,将数据输入训练后的图像集成分类的神经主题模型,通过比较多个分类规则结果,寻找最大的预测值来得到类标,公式如下:
Figure BDA0001490144540000046
其中,xl表示第l个softmax的权重,p(yl|vCNN,v)表示第l个softmax输出的概率;S43,输出该新图像的类标。
根据本公开的另一个方面,还提供了一种基于神经主题模型的图像集成分类装置,包括:预处理模块,用于对图像进行预处理,提取图像的词袋特征v和深度卷积神经网络特征vCNN,其中,所述图像包括训练集和测试集;处理模块,用于在神经主题模型中引入所述深度卷积神经网络特征vCNN,并结合集成分类方法softmax混合模型,构建图像集成分类的神经主题模型;计算模块,用于基于训练集优化所述图像集成分类的神经主题模型的目标函数求解模型参数;以及分类模块,用于利用优化后的图像集成分类的神经主题模型对测试集图像进行分类。
(三)有益效果
从上述技术方案可以看出,本公开基于神经主题模型的图像集成分类方法及装置至少具有以下有益效果:
神经主题模型DocNADE中引入Deep-CNN特征,并结合集成分类方法softmax混合模型,构建图像集成分类的神经主题模型,由此本公开基于神经主题模型的图像集成分类方法及装置具有高效性,具有很高的实用价值。
附图说明
通过附图所示,本公开的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分,并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本公开的主旨。
图1为依据本公开实施例基于神经主题模型的图像集成分类方法流程图。
图2为依据本公开实施例基于DocNADE的图像集成分类的神经主题模型网络结构。
图3为依据本公开实施例集成休息模块的流程图。
图4为依据本公开实施例基于神经主题模型的图像集成分类装置功能模块示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,在附图或说明书描述中,相似或相同的部分都使用相同的图号。附图中未绘示或描述的实现方式,为所属技术领域中普通技术人员所知的形式。另外,虽然本文可提供包含特定值的参数的示范,但应了解,参数无需确切等于相应的值,而是可在可接受的误差容限或设计约束内近似于相应的值。实施例中提到的方向用语,例如“上”、“下”、“前”、“后”、“左”、“右”等,仅是参考附图的方向。因此,使用的方向用语是用来说明并非用来限制本公开的保护范围。
本公开提供了一种基于神经主题模型的图像集成分类方法。图1为依据本公开实施例基于神经主题模型的图像集成分类方法流程图。如图1所示,基于神经主题模型的图像集成分类方法,包括以下步骤:
S1,图像预处理:对图像提取词袋和深度卷积神经网络特征。
S2,构建图像集成分类的神经主题模型:在神经主题模型DocNADE中引入深度卷积神经网络Deep-CNN特征,并结合集成分类方法softmax混合模型,构建图像集成分类的神经主题模型。
S3,优化模型参数:通过求解最小化目标函数,求解最优模型参数,其中,使用随机梯度下降法求解模型参数。
S4,确立分类规则:对于一个新图像,利用优化后的模型,综合多个分类规则的结果得到最终的类标。
下面将对每个步骤进行详细的说明:
S1,图像预处理:对图像提取词袋和深度卷积神经网络特征,请配合参照图2所示。步骤S1主要包括以下子步骤:
S11,输入:图像和类标信息。
S12,首先进行图像特征检测,为了不遗漏图像信息,采用规则网格(RegularGrid)方法对图像进行特征检测,网格大小依照图像大小而定,对每个图像区块提取128维SIFT特征向量特征(尺度不变特征变换),即SIFT词袋特征,然后使用K均值(K-means)聚类形成码书,最后将图像用码词词频表示。
S13,在大型图像数据集上训练用卷积神经网络来学习图像特征。具体选择ImageNet数据集和卷积神经网络VGG19(ImageNet用于训练Vgg19网络,Vgg19网络用于提取实验数据集的Deep-CNN特征)。ImageNet数据集包含7076580幅图像,1000个类标。VGG19网络共19层,前5个模块为卷积层,6、7、8模块为全连接层,最后一层为类标。这里使用VGG19网络的倒数第二个全连接层特征,共4096个单元。在ImageNet数据集上训练VGG19网络,然后使用训练好的VGG19网络,提取实验数据集(实验数据集实验数据集是包括训练和测试的图片)图像上的VGG19网络的倒数第二个全连接层卷积神经网络特征,即深度卷积神经网络特征vCNN
步骤S2以步骤S1所得的图像预处理数据为基础建立图像分类模型,其包括以下子步骤:
S21,输入:
a,输入由步骤S12得到的SIFT词袋特征向量特征v=[v1,v2,…,vD];
b,输入由步骤S13得到的Deep-CNN特征vCNN
S22,将步骤S12提取的SIFT词袋特征v=[v1,v2,…,vD]和步骤S13提取的Deep-CNN特征vCNN作为网络的输入层,词袋特征v和类标y为网络输出层。图像和类标的联合概率拟建模为:
Figure BDA0001490144540000071
其中,
Figure BDA0001490144540000072
p(yl|v,vCNN)=softmax(d+Ulh(vCNN,v));
Figure BDA0001490144540000073
Figure BDA0001490144540000074
p(vi=t|vCNN,v<i)使用前馈神经网络结构建模,
Figure BDA0001490144540000075
Figure BDA0001490144540000076
式中,v表示词袋特征,y表示类标,L表示分类器的总数,xl表示第l个Softmax的权重,yl表示图像在第l个分类器的预测值,D表示图像的词袋特征所包括的词的个数,vi表示图像中的第i个词v<i表示图像中在第i个词之前的词,即第1个到i-1个词;d、U表示参数,h()表示函数,v表示图像中任意一个词;g()表示sigmoid函数,c、T表示参数,
Figure BDA0001490144540000081
Figure BDA0001490144540000082
表示参数矩阵;a表示softmax函数的输入,j表示任意一类别,C表示j的最大值;b、V表示参数,t、t’表示字典中词的序号;i、k表示图像中词的序号。
步骤S3:在S2建立的神经网络模型中,计算p(vn,yn),以最小化
Figure BDA0001490144540000083
为优化目标函数(Vn表示训练集中第n幅图像的词袋特征),求解每个参数的梯度
Figure BDA0001490144540000084
Figure BDA0001490144540000085
(x是每个分类器的权重变量)。使用随机梯度下降法求解模型参数,该步骤可以使用Caffe、TensorFlow等框架来实现。
步骤S4,在前三步训练模型的基础上,对新图像进行分类,即对模型进行测试,具体过程如图3所示,其包括以下子步骤:
S41,输入:
a,输入新图像经过步骤S12得到的SIFT词袋特征向量特征v=[v1,v2,…,vD];
b,输入新图像经过步骤S13得到的Deep-CNN特征vCNN
S42,将数据v,vCNN输入步骤S3训练好的神经网络模型,通过比较分类规则结果,通过寻找最大的预测值xlp(yl|vCNN,v)(每个Softmax对应一分类器(分类规则),每个分类器对应1个分类结果(预测值),在所有分类器中寻找最大的预测值找到最终的分类结果。)来得到类标,具体公式为:
Figure BDA0001490144540000086
其中,xl表示第l个softmax的权重,p(yl|vCNN,v)表示第l个softmax输出的概率;
S43,输出该新图像的类标。
另外,本公开还提供了一种基于神经主题模型的图像集成分类装置。如图4所示,所述基于神经主题模型的图像集成分类装置包括:
预处理模块,用于对图像进行预处理,提取图像的词袋特征v和深度卷积神经网络特征vCNN,其中,所述图像包括训练集和测试集;
处理模块,用于在神经主题模型中引入所述深度卷积神经网络特征vCNN,并结合集成分类方法softmax混合模型,构建图像集成分类的神经主题模型;
计算模块,用于基于训练集优化所述图像集成分类的神经主题模型的目标函数求解模型参数;以及
分类模块,用于利用优化后的图像集成分类的神经主题模型对测试集图像进行分类。
以上结合附图对所提出的基于神经主题模型进行图像分类的方法及装置的具体实施方式进行了阐述。通过以上实施方式的描述,所属领域的技术人员可以清楚的了解该方法及装置的实施。
需要说明的是,在附图或说明书正文中,未绘示或描述的实现方式,均为所属技术领域中普通技术人员所知的形式,并未进行详细说明。此外,上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式,本领域普通技术人员可对其进行简单地更改或替换。
此外,除非特别描述或必须依序发生的步骤,上述步骤的顺序并无限制于以上所列,且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑,彼此混合搭配使用或与其他实施例混合搭配使用,即不同实施例中的技术特征可以自由组合形成更多的实施例。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的启示一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本公开也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本公开的内容,并且上面对特定语言所做的描述是为了披露本公开的最佳实施方式。
类似地,应当理解,为了精简本公开并帮助理解各个公开方面中的一个或多个,在上面对本公开的示例性实施例的描述中,本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,公开方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的单独实施例。
以上所述的具体实施例,对本公开的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本公开的具体实施例而已,并不用于限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (7)

1.一种基于神经主题模型的图像集成分类方法,包括以下步骤:
S1,对图像进行预处理,提取图像的词袋特征v和深度卷积神经网络特征vCNN,其中,所述图像包括训练集和测试集;
S11,输入图像和类标信息;
S12,对图像进行特征检测,提取SIFT特征向量特征,即词袋特征;
S13,利用训练后的卷积神经网络,提取深度卷积神经网络特征;
S2,在神经主题模型中引入所述深度卷积神经网络特征vCNN,并结合集成分类方法softmax混合模型,构建图像集成分类的神经主题模型;
其中,将提取的SIFT词袋特征v=[v1,v2,...,vD]和Deep-CNN特征vCNN作为网络的输入层,词袋特征v和类标y为网络输出层,结合集成分类方法softmax混合模型,将训练集图像和类标的联合概率建模为:
Figure FDA0003287955890000011
其中,
xl>0,
Figure FDA0003287955890000012
p(yl|v,vCNN)=softmax(d+Ulh(vCNN,v));
Figure FDA0003287955890000013
Figure FDA0003287955890000014
p(vi=t|vCNN,v<i)使用前馈神经网络结构建模,
Figure FDA0003287955890000015
Figure FDA0003287955890000021
式中,v表示词袋特征,y表示类标,L表示分类器的总数,xl表示第l个Softmax的权重,yl表示图像在第l个分类器的预测值,D表示图像的词袋特征所包括的词的个数,vi表示图像中的第i个词v<i表示图像中在第i个词之前的词,即第1个到i-1个词;d、U表示参数,h()表示函数,v表示图像中任意一个词;g()表示sigmoid函数,c、T表示参数,
Figure FDA0003287955890000022
Figure FDA0003287955890000023
表示参数矩阵;a表示softmax函数的输入,j表示任意一类别,C表示j的最大值;b、V表示参数,t、t’表示字典中词的序号;i、k表示图像中词的序号;
S3,基于训练集优化所述图像集成分类的神经主题模型的目标函数,并求解模型参数;
S4,利用优化后的图像集成分类的神经主题模型对测试集图像进行分类。
2.根据权利要求1所述的基于神经主题模型的图像集成分类方法,其中,在所述步骤S12中,提取SIFT特征向量特征后使用K-means聚类形成码书,并将图像用码词词频表示。
3.根据权利要求1所述的基于神经主题模型的图像集成分类方法,其中,在所述步骤S13中,在ImageNet数据集上训练卷积神经网络VGG19,利用训练后的卷积神经网络VGG19,提取实验数据集上VGG19网络的倒数第二个全连接层特征,即深度卷积神经网络特征vCNN
4.根据权利要求1所述的基于神经主题模型的图像集成分类方法,其中,在步骤S3中,所述目标函数为
Figure FDA0003287955890000024
vn表示训练集中第n幅图像的词袋特征,yn表示第n幅图像的类标,N为n的最大值。
5.根据权利要求4所述的基于神经主题模型的图像集成分类方法,其中,通过随机梯度下降法求解模型参数。
6.根据权利要求1所述的基于神经主题模型的图像集成分类方法,其中,所述步骤S4包括以下子步骤:
S41,输入待分类图像的SIFT特征向量特征和Deep-CNN特征;
S42,将数据输入训练后的图像集成分类的神经主题模型,通过比较多个分类规则结果,寻找最大的预测值来得到类标,公式如下:
Figure FDA0003287955890000031
其中,xl表示第l个softmax的权重,p(yl|vCNN,v)表示第l个softmax输出的概率;
S43,输出经分类后的图像的类标。
7.一种基于神经主题模型的图像集成分类装置,包括:
预处理模块,用于对图像进行预处理,提取图像的词袋特征v和深度卷积神经网络特征vCNN,其中,所述图像包括训练集和测试集;
处理模块,用于在神经主题模型中引入所述深度卷积神经网络特征vCNN,并结合集成分类方法softmax混合模型,构建图像集成分类的神经主题模型;
其中,将提取的SIFT词袋特征v=[v1,v2,...,vD]和Deep-CNN特征vCNN作为网络的输入层,词袋特征v和类标y为网络输出层,结合集成分类方法softmax混合模型,将训练集图像和类标的联合概率建模为:
Figure FDA0003287955890000032
其中,
xl>0,
Figure FDA0003287955890000033
p(yl|v,vCNN)=softmax(d+Ulh(vCNN,v));
Figure FDA0003287955890000034
Figure FDA0003287955890000041
p(vi=t|vCNN,v<i)使用前馈神经网络结构建模,
Figure FDA0003287955890000042
Figure FDA0003287955890000043
式中,v表示词袋特征,y表示类标,L表示分类器的总数,xl表示第l个Softmax的权重,yl表示图像在第l个分类器的预测值,D表示图像的词袋特征所包括的词的个数,vi表示图像中的第i个词v<i表示图像中在第i个词之前的词,即第1个到i-1个词;d、U表示参数,h()表示函数,v表示图像中任意一个词;g()表示sigmoid函数,c、T表示参数,
Figure FDA0003287955890000044
Figure FDA0003287955890000045
表示参数矩阵;a表示softmax函数的输入,j表示任意一类别,C表示j的最大值;b、V表示参数,t、t’表示字典中词的序号;i、k表示图像中词的序号;
计算模块,用于基于训练集优化所述图像集成分类的神经主题模型的目标函数求解模型参数;以及
分类模块,用于利用优化后的图像集成分类的神经主题模型对测试集图像进行分类。
CN201711242374.4A 2017-11-30 2017-11-30 基于神经主题模型的图像集成分类方法及装置 Active CN108154156B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711242374.4A CN108154156B (zh) 2017-11-30 2017-11-30 基于神经主题模型的图像集成分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711242374.4A CN108154156B (zh) 2017-11-30 2017-11-30 基于神经主题模型的图像集成分类方法及装置

Publications (2)

Publication Number Publication Date
CN108154156A CN108154156A (zh) 2018-06-12
CN108154156B true CN108154156B (zh) 2021-11-12

Family

ID=62465887

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711242374.4A Active CN108154156B (zh) 2017-11-30 2017-11-30 基于神经主题模型的图像集成分类方法及装置

Country Status (1)

Country Link
CN (1) CN108154156B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271401B (zh) * 2018-09-26 2021-11-12 杭州大拿科技股份有限公司 一种题目搜索、批改方法、装置、电子设备和存储介质
CN110457483B (zh) * 2019-06-21 2022-02-18 浙江大学 一种基于神经主题模型的长文本生成方法
CN110706200B (zh) * 2019-09-02 2022-08-05 杭州深睿博联科技有限公司 数据预测的方法及装置
CN112434212B (zh) * 2020-09-18 2021-11-23 昆明理工大学 基于神经自回归分布估计的涉案新闻主题模型构建方法及装置
CN114782752B (zh) * 2022-05-06 2023-09-05 兰州理工大学 基于自训练的小样本图像集成分类方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156793A (zh) * 2016-06-27 2016-11-23 西北工业大学 结合深层特征提取和浅层特征提取的医学图像分类方法
CN106445919A (zh) * 2016-09-28 2017-02-22 上海智臻智能网络科技股份有限公司 一种情感分类方法及装置
CN106446930A (zh) * 2016-06-28 2017-02-22 沈阳工业大学 基于深层卷积神经网络的机器人工作场景识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156793A (zh) * 2016-06-27 2016-11-23 西北工业大学 结合深层特征提取和浅层特征提取的医学图像分类方法
CN106446930A (zh) * 2016-06-28 2017-02-22 沈阳工业大学 基于深层卷积神经网络的机器人工作场景识别方法
CN106445919A (zh) * 2016-09-28 2017-02-22 上海智臻智能网络科技股份有限公司 一种情感分类方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Deep and Autoregressive Approach for Topic Modeling of Multimodal Data;Yin Zheng et al;《arXiv:1409.3970v3》;20151231;摘要、第1-7节 *
Mixture of softmax sLDA;Xiaoxu Li et al;《2011 11th IEEE International Conference on Data Mining》;20120123;全文 *
基于概率主题模型的图像分类和标注的研究;李晓旭;《中国博士学位论文全文数据库信息科技辑》;20130115;摘要、第2-3章 *

Also Published As

Publication number Publication date
CN108154156A (zh) 2018-06-12

Similar Documents

Publication Publication Date Title
Jiang et al. Skeleton aware multi-modal sign language recognition
Han et al. A survey on visual transformer
CN108154156B (zh) 基于神经主题模型的图像集成分类方法及装置
CN110021051B (zh) 一种基于生成对抗网络通过文本指导的人物图像生成方法
Arevalo et al. Gated multimodal units for information fusion
Hasani et al. Spatio-temporal facial expression recognition using convolutional neural networks and conditional random fields
CN108804530B (zh) 对图像的区域加字幕
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
Zheng et al. Topic modeling of multimodal data: an autoregressive approach
CN110046656B (zh) 基于深度学习的多模态场景识别方法
Akata et al. Good practice in large-scale learning for image classification
CN112347268A (zh) 一种文本增强的知识图谱联合表示学习方法及装置
CN107729513A (zh) 基于语义对齐的离散监督跨模态哈希检索方法
Sun et al. Facial expression recognition based on a hybrid model combining deep and shallow features
Diba et al. Deepcamp: Deep convolutional action & attribute mid-level patterns
CN109063719B (zh) 一种联合结构相似性和类信息的图像分类方法
CN108875076B (zh) 一种基于Attention机制和卷积神经网络的快速商标图像检索方法
CN103425996B (zh) 一种并行分布式的大规模图像识别方法
CN107683469A (zh) 一种基于深度学习的产品分类方法及装置
CN108427740B (zh) 一种基于深度度量学习的图像情感分类与检索算法
Zhao et al. Semantic parts based top-down pyramid for action recognition
Xie et al. Hierarchical coding of convolutional features for scene recognition
CN113688894B (zh) 一种融合多粒度特征的细粒度图像分类方法
Wang et al. Learning semantic text features for web text-aided image classification
Xie et al. Incorporating visual adjectives for image classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant