CN109784366A - 目标物体的细粒度分类方法、装置与电子设备 - Google Patents

目标物体的细粒度分类方法、装置与电子设备 Download PDF

Info

Publication number
CN109784366A
CN109784366A CN201811496818.1A CN201811496818A CN109784366A CN 109784366 A CN109784366 A CN 109784366A CN 201811496818 A CN201811496818 A CN 201811496818A CN 109784366 A CN109784366 A CN 109784366A
Authority
CN
China
Prior art keywords
convolutional neural
neural networks
target object
feature vector
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811496818.1A
Other languages
English (en)
Inventor
雷宇
董远
白洪亮
熊风烨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Faceall Co
Original Assignee
Beijing Faceall Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Faceall Co filed Critical Beijing Faceall Co
Priority to CN201811496818.1A priority Critical patent/CN109784366A/zh
Publication of CN109784366A publication Critical patent/CN109784366A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明实施例提供一种目标物体的细粒度分类方法、装置与电子设备,其中所述方法包括:基于目标物体的图像,利用卷积神经网络模型,提取表征目标物体特征的特征向量;基于所述特征向量,通过检索标准图像库对应的标准特征向量集,获取所述目标物体的细粒度分类结果;其中,所述卷积神经网络模型为预先基于交叉熵损失函数和三元组损失函数进行训练获取的。本发明实施例基于交叉熵损失函数和三元组损失函数对卷积神经网络进行训练,并采用训练好的卷积神经网络来实现图像特征的提取过程,能够在数据量较少的情况下,仍能保证分类算法的泛化能力,提高分类准确率。

Description

目标物体的细粒度分类方法、装置与电子设备
技术领域
本发明实施例涉及图像识别技术领域,更具体地,涉及一种目标物体的细粒度分类方法、装置与电子设备。
背景技术
图像识别技术是指利用计算机对图像进行处理、分析与理解,以识别各种不同模式的目标和对像的技术。细粒度图像分类(Fine-Grained Categorization),又称子类别图像分类(Sub-Category Recognition),是近年来计算机视觉、模式识别等领域一个热门的研究课题,其目标是对粗粒度的大类别进行更加细致的子类划分。由于子类别间细微的类间差异和较大的类内差异,传统的分类算法不得不依赖于大量的人工标注信息。近年来,随着深度学习的发展,深度卷积神经网络为细粒度图像分类带来了新的机遇。
当前针对细粒度图像分类,主要的深度学习方法就是确定一种输入图片尺寸,固定输出的类别数,然后在数据集上进行训练,判断最后输出概率值中最大的一个值的位置即为识别结果。但是,这种方法在数据量较少的情况下容易过拟合,只能在当前数据中有较好的效果,在实际应用场景中的效果往往不尽人意,泛化能力较差。
发明内容
为了克服上述问题或者至少部分地解决上述问题,本发明实施例提供一种目标物体的细粒度分类方法、装置与电子设备,用以在数据量较少的情况下,仍能保证分类算法的泛化能力,提高分类准确率。
第一方面,本发明实施例提供一种目标物体的细粒度分类方法,包括:
基于目标物体的图像,利用卷积神经网络模型,提取表征目标物体特征的特征向量;
基于所述特征向量,通过检索标准图像库对应的标准特征向量集,获取所述目标物体的细粒度分类结果;
其中,所述卷积神经网络模型为预先基于交叉熵损失函数和三元组损失函数进行训练获取的。
第二方面,本发明实施例提供一种目标物体的细粒度分类装置,包括:
特征提取模块,用于基于目标物体的图像,利用卷积神经网络模型,提取表征目标物体特征的特征向量;
分类输出模块,用于基于所述特征向量,通过检索标准图像库对应的标准特征向量集,获取所述目标物体的细粒度分类结果;
其中,所述卷积神经网络模型为预先基于交叉熵损失函数和三元组损失函数进行训练获取的。
第三方面,本发明实施例提供一种电子设备,包括:至少一个存储器、至少一个处理器、通信接口和总线;所述存储器、所述处理器和所述通信接口通过所述总线完成相互间的通信,所述通信接口用于所述电子设备与目标物体图像设备之间的信息传输;所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上第一方面所述的目标物体的细粒度分类方法。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如上第一方面所述的目标物体的细粒度分类方法。
本发明实施例提供的目标物体的细粒度分类方法、装置与电子设备,基于交叉熵损失函数和三元组损失函数对卷积神经网络进行训练,并采用训练好的卷积神经网络来实现图像特征的提取过程,能够在数据量较少的情况下,仍能保证分类算法的泛化能力,提高分类准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的目标物体的细粒度分类方法的流程示意图;
图2为根据本发明实施例提供的目标物体的细粒度分类方法中卷积神经网络的结构示意图;
图3为本发明实施例提供的目标物体的细粒度分类装置的结构示意图;
图4为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明实施例的一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明实施例保护的范围。
本发明实施例针对现有技术中在数据量较少的情况下容易过拟合,导致在实际应用场景中的分类效果不尽人意,泛化能力较差的问题,基于交叉熵损失函数和三元组损失函数对卷积神经网络进行训练,并采用训练好的卷积神经网络来实现图像特征的提取过程,能够在数据量较少的情况下,仍能保证分类算法的泛化能力,提高分类准确率。以下将具体通过多个实施例对本发明实施例进行展开说明和介绍。
图1为本发明实施例提供的目标物体的细粒度分类方法的流程示意图,如图1所示,该方法包括:
S101,基于目标物体的图像,利用卷积神经网络模型,提取表征目标物体特征的特征向量,其中,卷积神经网络模型为预先基于交叉熵损失函数和三元组损失函数进行训练获取的。
本发明实施例利用卷积神经网络模型,来对待进行细粒度分类的目标物体的图像进行分析处理。具体将目标物体的图像输入卷积神经网络模型,利用卷积神经网络模型的各个神经元层,来对目标物体的图像进行分析处理,输出相应的特征向量用来表征目标物体特征。可以理解的是,其中的卷积神经网络模型是事先利用一定量的训练样本图像训练而得到的、具有较优网络结构和网络参数的优化模型。
可以知道,卷积神经网络是一种特殊的深层的神经网络模型,它的特殊性体现在两个方面:其一它的神经元间的连接是非全连接的,其二同一层中某些神经元之间的连接的权重是共享的(即相同的)。它的非全连接和权值共享的网络结构使之更类似于生物神经网络,降低了网络模型的复杂度(对于很难学习的深层结构来说,这是非常重要的),减少了权值的数量。
卷积神经网络中通常包括卷积层、池化层、全连接层和激活函数等各网络结构和参数。卷积层是在卷积神经网络中由多个卷积核构成一种结构,主要进行卷积运算。池化层用于图像的降维。全连接层用于将前面一层的神经元与后面一层相连接。激活函数是神经网络中的一种非线性函数,用于给神经网络加入非线性因素,因为只有线性函数表达能力不够。
S102,基于特征向量,通过检索标准图像库对应的标准特征向量集,获取目标物体的细粒度分类结果。
本发明实施例将对目标物体的细粒度分类问题转化为对目标物体图像特征向量的识别问题,采用相同物体图像检索来实现分类。相同物体图像检索是指对查询图像中的某一物体,从图像库中找出包含有该物体的图像。这里用户感兴趣的是图像中包含的特定物体或目标,并且检索到的图片应该是包含有该物体的那些图片。
具体而言,在根据上述处理得到目标物体图像的特征向量的基础上,以该特征向量为目标,在标准图像库对应的标准特征向量集中进行检索,以寻求与目标物体图像的特征向量最接近的标准特征向量,而该标准特征向量所对应的标准图像中的物体所属的细粒度类别,即作为目标物体的细粒度类别。例如,可以通过计算目标物体图像的特征向量与各标准特征向量的相似度,来检索最接近的标准特征向量。
可以理解的是,其中的标准图像表示包含已知细粒度类别的物体的图像,将大量的标准图像进行收集,放入同一个图像库中,该图像库即构成标准图像库。另外,可以利用上述步骤的卷积神经网络模型,来对标准图像库中各标准图像的特征向量进行提取,并根据提取的所有特征向量构成标准特征向量集。该标准特征向量集中的每个元素与标准图像图中对应标准图像存在一一对应关系。
本发明实施例提供的目标物体的细粒度分类方法,基于交叉熵损失函数和三元组损失函数对卷积神经网络进行训练,并采用训练好的卷积神经网络来实现图像特征的提取过程,能够在数据量较少的情况下,仍能保证分类算法的泛化能力,提高分类准确率。
其中,根据上述各实施例可选的,基于交叉熵损失函数和三元组损失函数,训练获取卷积神经网络模型的步骤具体包括:采用循环迭代训练法,在每轮迭代中:将训练样本图像和训练样本图像对应的标签输入建立的基础卷积神经网络模型,并利用交叉熵损失函数计算第一损失,利用三元组损失函数计算第二损失;基于第一损失和第二损失,计算综合损失,并基于综合损失,优化更新基础卷积神经网络模型的网络参数,并转入下一轮迭代计算,直至综合损失满足设定条件,获取卷积神经网络模型。
本发明实施例会在神经网络最后一层用两种损失函数来进行训练:一种是用交叉熵损失函数Cross Entropy loss来训练分类,另一个是用三元组损失函数triplet loss来训练回归。具体而言,将对基础卷积神经网络模型的训练过程设计成一个端到端的训练过程,向基础卷积神经网络模型的输入端输入训练样本图像,经过两个损失函数分别计算出两个loss值,即第一损失和第二损失。然后根据这两个loss值进行计算得到一个综合结果,即得到综合损失。然后通过判断该综合损失来确定是否继续进行训练,以及需要继续进行训练时,如何对基础卷积神经网络模型的模型参数进行优化调整。
其中可选的,基于第一损失和第二损失,计算综合损失的步骤具体包括:对第一损失和第二损失进行算术求平均运算,获取运算结果作为综合损失。即根据上述实施例,通过将这两个loss值做一个数值平均即可得到最后的loss值,通过训练不断对这个loss进行优化即可得到最后的结果。
其中可选的,对模型的训练过程具体采用Pytorch来实现。具体而言,整个训练过程可以采用Pytorch来实现,由于它所有的过程都能用python语言来描述,并且能够自动后馈,方便在实验中对相关结构和计算过程进行调整。首先需要将所有标签数据转换成Pytorch能够识别的数据格式,初始学习率可以设为0.1,之后根据loss的变化对学习率进行调整,例如在loss一直在一个值上下浮动时会将学习率降至原来的1/10。损失函数选择的是Pytorch自带的CrossEntropy Loss以及自己实现的Triplet Loss。之后,根据这两个损失函数,按照上述各实施例的训练流程来对基础卷积神经网络模型进行训练。
其中,根据上述各实施例可选的,基于交叉熵损失函数和三元组损失函数,训练获取卷积神经网络模型的步骤具体包括:基于训练样本图像和训练样本图像对应的标签,采用交叉熵损失函数,对建立的基础卷积神经网络模型进行初步迭代训练和优化;基于新的训练样本图像和新的训练样本图像对应的标签,采用交叉熵损失函数和三元组损失函数,对初步训练完成的基础卷积神经网络模型进行进一步优化训练,获取卷积神经网络模型。
在对基础卷积神经网络模型进行训练的过程中,为了让模型更好的收敛,本发明实施例设计先单独进行分类训练。即,先仅在基础卷积神经网络最后一层设置交叉熵损失函数,单独根据该损失函数对模型进行训练,得到一个较好的网络参数。具体可以加载resnet50在ImageNet上的预训练模型的参数,通过SGD优化算法,来训练基础卷积神经网络模型并优化其中的参数。
之后,加入三元组损失函数,将两个损失函数加在一起进行训练。也即是说,在基础卷积神经网络模型中输入一组训练样本图像后,分别利用上述两个损失函数计算两个损失值loss,再对这两个loss进行算数平均,通过SGD优化器来优化整个网络结构的参数,最终得到精度满足设定条件的卷积神经网络模型。
可以理解,与上述各实施例类似,本发明实施例对基础卷积神经网络模型的训练过程具体可以采用Pytorch来实现。
其中可选的,在通过检索标准图像库对应的标准特征向量集,获取目标物体的细粒度分类结果的步骤之前,本发明实施例的方法还包括:利用卷积神经网络模型,分别提取标准图像库中各标准图像的特征向量,并基于各标准图像的特征向量,构成标准特征向量集。
本发明实施例利用上述各实施例训练完成的卷积神经网络模型,来对标准图像库中各标准图像的特征向量进行提取,并根据提取的所有特征向量构成标准特征向量集。该标准特征向量集中的每个元素与标准图像图中对应标准图像存在一一对应关系。
其中,根据上述各实施例可选的,基于各标准图像的特征向量,构成标准特征向量集的步骤具体包括:对于同一类别的标准图像,对该类别的多个标准图像分别对应的特征向量进行算术求平均运算,并将平均运算的结果作为该类别标准图像的综合特征向量;集合所有类别的标准图像分别对应的综合特征向量,构成标准特征向量集。
本发明实施例采用卷积神经网络来实现提取特征的过程,然后通过融合同一类型物体不同图片的特征向量来得到一个更具鲁棒性的、表征能力更强的特征,将这个特征放到标准图像库作为被检索的对象。在生成了整个标准图像库之后,通过比对要识别图片的特征和库中的特征来找到图像库中和改图片特征最相似的一个即为最后识别的结果。具体而言,在根据上述各实施例优化好卷积神经网络的网络参数后,对整个数据集中所有标准图像库的图像进行提特征的过程,对同一类别的图像的特征向量做算数平均,最后得到一个综合表征能力更强的特征向量,将该特征向量放入标准图像库中对应的标准特征向量集。
为进一步说明本发明实施例的技术方案,本发明实施例根据上述各实施例提供如下具体实施例的处理流程,但不对本发明实施例的保护范围进行限制。
本发明实施例利用卷积神经网络以及图像检索,来进行车型细粒度分类。分类目标是准确识别出一张图片中车辆的具体类型(例如宝马X5等),该方法能够广泛应用到目前的视频监控场景中,能够提供准确的车型信息从而提高刑侦的效率,减轻人工成本。具体而言:
首先,进行数据集的选择。对于车型细粒度识别,使用比较广泛的数据集有CompCars数据集,这是由香港中文大学多媒体实验室创建的网络图像数据集。
其次,进行卷积神经网络的设计。图2为根据本发明实施例提供的目标物体的细粒度分类方法中卷积神经网络的结构示意图。如图2所示,本发明实施例采用的基网络是resnet50,主干网络不变,会在神经网络最后一层用两种损失函数来进行训练:一种是用交叉熵损失函数Cross Entropy loss来训练分类,另一个是用triplet loss来训练回归。
该训练过程主要分两部分:分类学习和回归学习。分类任务使用的是常规的交叉熵损失函数Cross Entropy loss进行训练,回归任务使用了重识别任务中常使用的三元组损失函数triplet loss,该损失函数需要选取三组样本,一对正样本以及一对负样本,尽量使正样本间的距离尽可能靠近,使负样本间的距离尽可能远离。
选择这两种损失函数一起训练的原因有如下:
(1)只是只靠分类任务会由于数据量的缺失让最后得到的特征不具有鲁棒性,泛化能力不足。
(2)只训回归任务的话,由于三元组损失函数的训练难度较大,不太容易收敛,用交叉熵损失函数来辅助训练能够加快收敛的速度,二者之间也能相辅相。
再次,进行模型迭代训练。通过上述的网络结构将实验设计成一个端到端的训练过程,输入训练图片,经过两个损失函数分别计算出两个loss值,然后通过将这两个loss值做一个数值平均即可得到最后的loss值,通过训练不断对这个loss进行优化即可得到最后的结果。
整个过程可以采用Pytorch来实现,由于它所有的过程都能用python语言来描述,并且能够自动后馈,方便在实验中对相关结构和计算过程进行调整,具体过程如下:
1)将所有标签数据转换成Pytorch能够识别的数据格式,初始学习率设为0.1,之后根据loss的变化对学习率进行调整,例如在loss一直在一个值上下浮动时会将学习率降至原来的1/10。损失函数选择的是Pytorch自带的CrossEntropy Loss以及自己实现的Triplet Loss;
2)为了让模型更好的收敛,先单独训练分类loss来得到一个较好的网络参数。具体加载resnet50在ImageNet上的预训练模型的参数,通过SGD优化算法来训练其中的参数;
3)最后将两个损失函数加在一起进行训练,两个loss进行算数平均,通过SGD优化器来优化整个网络结构的参数。
之后,进行标准图像库的构建。在训练好上述网络参数后,对整个数据集中所有训练集的图片进行提特征的过程,对同一类别的图像特征做算数平均,最后得到一个综合表征能力更强的特征,将该特征放入图像库中。
最后,对训练好的模型进行测试。在初始处理中,将数据集分为训练集和验证集,比例可以为10:1,分布相同。通过对比本发明的分类器和正常训练过程得到的分类器在验证集上的准确率(top1、top5)来判断该方法最终的效果。
细粒度分类本是一个很难的问题,再加上车型本身的相似性导致一般的物体分类的方法在缺乏数据的情况下无法达到理想的效果。本发明实施例在数据量较少的情况下,采用图像检索的方法来实现车型细粒度分类,能得到比传统分类更好的结果。
作为本发明实施例的另一个方面,本发明实施例根据上述各实施例提供一种目标物体的细粒度分类装置,该装置用于在上述各实施例中实现目标物体的细粒度分类。因此,在上述各实施例的目标物体的细粒度分类方法中的描述和定义,可以用于本发明实施例中各个执行模块的理解,具体可参考上述实施例,此处不在赘述。
根据本发明实施例的一个实施例,目标物体的细粒度分类装置的结构如图3所示,为本发明实施例提供的目标物体的细粒度分类装置的结构示意图,该装置可以用于实现上述各方法实施例中目标物体的细粒度分类,该装置包括:特征提取模块301和分类输出模块302。其中:
特征提取模块301用于基于目标物体的图像,利用卷积神经网络模型,提取表征目标物体特征的特征向量,其中,卷积神经网络模型为预先基于交叉熵损失函数和三元组损失函数进行训练获取的;分类输出模块302用于基于特征向量,通过检索标准图像库对应的标准特征向量集,获取目标物体的细粒度分类结果。
具体而言,特征提取模块301利用卷积神经网络模型,来对待进行细粒度分类的目标物体的图像进行分析处理。具体特征提取模块301可以将目标物体的图像输入卷积神经网络模型,利用卷积神经网络模型的各个神经元层,来对目标物体的图像进行分析处理,输出相应的特征向量用来表征目标物体特征。可以理解的是,其中的卷积神经网络模型是事先利用一定量的训练样本图像训练而得到的、具有较优网络结构和网络参数的优化模型。
本发明实施例将对目标物体的细粒度分类问题转化为对目标物体图像特征向量的识别问题,采用相同物体图像检索来实现分类。分类输出模块302以上述提取的特征向量为目标,在标准图像库对应的标准特征向量集中进行检索,以寻求与目标物体图像的特征向量最接近的标准特征向量,而该标准特征向量所对应的标准图像中的物体所属的细粒度类别,即作为目标物体的细粒度类别。
本发明实施例提供的目标物体的细粒度分类装置,通过设置相应的执行模块,基于交叉熵损失函数和三元组损失函数对卷积神经网络进行训练,并采用训练好的卷积神经网络来实现图像特征的提取过程,能够在数据量较少的情况下,仍能保证分类算法的泛化能力,提高分类准确率。
可以理解的是,本发明实施例中可以通过硬件处理器(hardware processor)来实现上述各实施例的装置中的各相关程序模块。并且,本发明实施例的目标物体的细粒度分类装置利用上述各程序模块,能够实现上述各方法实施例的目标物体的细粒度分类流程,在用于实现上述各方法实施例中目标物体的细粒度分类时,本发明实施例的装置产生的有益效果与对应的上述各方法实施例相同,可以参考上述各方法实施例,此处不再赘述。
作为本发明实施例的又一个方面,本实施例根据上述各实施例提供一种电子设备,参考图4,为本发明实施例提供的电子设备的实体结构示意图,包括:至少一个存储器401、至少一个处理器402、通信接口403和总线404。
其中,存储器401、处理器402和通信接口403通过总线404完成相互间的通信,通信接口403用于该电子设备与目标物体图像设备之间的信息传输;存储器401中存储有可在处理器402上运行的计算机程序,处理器402执行该计算机程序时,实现如上述各实施例所述的目标物体的细粒度分类方法。
可以理解为,该电子设备中至少包含存储器401、处理器402、通信接口403和总线404,且存储器401、处理器402和通信接口403通过总线404形成相互间的通信连接,并可完成相互间的通信,如处理器402从存储器401中读取目标物体的细粒度分类方法的程序指令等。另外,通信接口403还可以实现该电子设备与目标物体图像设备之间的通信连接,并可完成相互间信息传输,如通过通信接口403实现对目标物体的细粒度分类等。
电子设备运行时,处理器402调用存储器401中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:基于目标物体的图像,利用卷积神经网络模型,提取表征目标物体特征的特征向量,其中,卷积神经网络模型为预先基于交叉熵损失函数和三元组损失函数进行训练获取的;基于特征向量,通过检索标准图像库对应的标准特征向量集,获取目标物体的细粒度分类结果等。
上述的存储器401中的程序指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。或者,实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还根据上述各实施例提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令使计算机执行如上述各实施例所述的目标物体的细粒度分类方法,例如包括:基于目标物体的图像,利用卷积神经网络模型,提取表征目标物体特征的特征向量,其中,卷积神经网络模型为预先基于交叉熵损失函数和三元组损失函数进行训练获取的;基于特征向量,通过检索标准图像库对应的标准特征向量集,获取目标物体的细粒度分类结果等。
本发明实施例提供的电子设备和非暂态计算机可读存储介质,通过执行上述各实施例所述的目标物体的细粒度分类方法,基于交叉熵损失函数和三元组损失函数对卷积神经网络进行训练,并采用训练好的卷积神经网络来实现图像特征的提取过程,能够在数据量较少的情况下,仍能保证分类算法的泛化能力,提高分类准确率。
可以理解的是,以上所描述的装置、电子设备及存储介质的实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,既可以位于一个地方,或者也可以分布到不同网络单元上。可以根据实际需要选择其中的部分或全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上实施方式的描述,本领域的技术人员可以清楚地了解,各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令,用以使得一台计算机设备(如个人计算机,服务器,或者网络设备等)执行上述各方法实施例或者方法实施例的某些部分所述的方法。
另外,本领域内的技术人员应当理解的是,在本发明实施例的申请文件中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明实施例的说明书中,说明了大量具体细节。然而应当理解的是,本发明实施例的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本发明实施例公开并帮助理解各个发明方面中的一个或多个,在上面对本发明实施例的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。
然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明实施例的单独实施例。
最后应说明的是:以上实施例仅用以说明本发明实施例的技术方案,而非对其限制;尽管参照前述实施例对本发明实施例进行了详细的说明,本领域的技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的精神和范围。

Claims (10)

1.一种目标物体的细粒度分类方法,其特征在于,包括:
基于目标物体的图像,利用卷积神经网络模型,提取表征目标物体特征的特征向量;
基于所述特征向量,通过检索标准图像库对应的标准特征向量集,获取所述目标物体的细粒度分类结果;
其中,所述卷积神经网络模型为预先基于交叉熵损失函数和三元组损失函数进行训练获取的。
2.根据权利要求1所述的方法,其特征在于,基于交叉熵损失函数和三元组损失函数,训练获取所述卷积神经网络模型的步骤具体包括:
采用循环迭代训练法,在每轮迭代中:
将训练样本图像和所述训练样本图像对应的标签输入建立的基础卷积神经网络模型,并利用交叉熵损失函数计算第一损失,利用三元组损失函数计算第二损失;
基于所述第一损失和所述第二损失,计算综合损失,并基于所述综合损失,优化更新所述基础卷积神经网络模型的网络参数,并转入下一轮迭代计算,直至所述综合损失满足设定条件,获取所述卷积神经网络模型。
3.根据权利要求1所述的方法,其特征在于,基于交叉熵损失函数和三元组损失函数,训练获取所述卷积神经网络模型的步骤具体包括:
基于训练样本图像和所述训练样本图像对应的标签,采用交叉熵损失函数,对建立的基础卷积神经网络模型进行初步迭代训练和优化;
基于新的训练样本图像和所述新的训练样本图像对应的标签,采用交叉熵损失函数和三元组损失函数,对初步训练完成的基础卷积神经网络模型进行进一步优化训练,获取所述卷积神经网络模型。
4.根据权利要求1-3中任一项所述的方法,其特征在于,在所述通过检索标准图像库对应的标准特征向量集,获取所述目标物体的细粒度分类结果的步骤之前,还包括:
利用所述卷积神经网络模型,分别提取所述标准图像库中各标准图像的特征向量,并基于各所述标准图像的特征向量,构成所述标准特征向量集。
5.根据权利要求4所述的方法,其特征在于,所述基于各所述标准图像的特征向量,构成所述标准特征向量集的步骤具体包括:
对于同一类别的标准图像,对该类别的多个标准图像分别对应的特征向量进行算术求平均运算,并将平均运算的结果作为该类别标准图像的综合特征向量;
集合所有类别的标准图像分别对应的综合特征向量,构成所述标准特征向量集。
6.根据权利要求2所述的方法,其特征在于,所述基于所述第一损失和所述第二损失,计算综合损失的步骤具体包括:
对所述第一损失和所述第二损失进行算术求平均运算,获取运算结果作为所述综合损失。
7.根据权利要求2或3所述的方法,其特征在于,模型训练过程具体采用Pytorch来实现。
8.一种目标物体的细粒度分类装置,其特征在于,包括:
特征提取模块,用于基于目标物体的图像,利用卷积神经网络模型,提取表征目标物体特征的特征向量;
分类输出模块,用于基于所述特征向量,通过检索标准图像库对应的标准特征向量集,获取所述目标物体的细粒度分类结果;
其中,所述卷积神经网络模型为预先基于交叉熵损失函数和三元组损失函数进行训练获取的。
9.一种电子设备,其特征在于,包括:至少一个存储器、至少一个处理器、通信接口和总线;
所述存储器、所述处理器和所述通信接口通过所述总线完成相互间的通信,所述通信接口还用于所述电子设备与目标物体图像设备之间的信息传输;
所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1至7中任一所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至7中任一所述的方法。
CN201811496818.1A 2018-12-07 2018-12-07 目标物体的细粒度分类方法、装置与电子设备 Pending CN109784366A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811496818.1A CN109784366A (zh) 2018-12-07 2018-12-07 目标物体的细粒度分类方法、装置与电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811496818.1A CN109784366A (zh) 2018-12-07 2018-12-07 目标物体的细粒度分类方法、装置与电子设备

Publications (1)

Publication Number Publication Date
CN109784366A true CN109784366A (zh) 2019-05-21

Family

ID=66496816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811496818.1A Pending CN109784366A (zh) 2018-12-07 2018-12-07 目标物体的细粒度分类方法、装置与电子设备

Country Status (1)

Country Link
CN (1) CN109784366A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263207A (zh) * 2019-06-20 2019-09-20 杭州时趣信息技术有限公司 图像搜索方法、装置、设备及计算机可读存储介质
CN110363224A (zh) * 2019-06-19 2019-10-22 创新奇智(北京)科技有限公司 一种基于图像的物体分类方法、系统及电子设备
CN110490239A (zh) * 2019-08-06 2019-11-22 腾讯医疗健康(深圳)有限公司 图像质控网络的训练方法、质量分类方法、装置及设备
CN110738233A (zh) * 2019-08-28 2020-01-31 北京奇艺世纪科技有限公司 模型训练、数据分类方法、装置、电子设备及存储介质
CN110929099A (zh) * 2019-11-28 2020-03-27 杭州趣维科技有限公司 一种基于多任务学习的短视频帧语义提取方法及系统
CN110929802A (zh) * 2019-12-03 2020-03-27 北京迈格威科技有限公司 基于信息熵的细分类识别模型训练、图像识别方法及装置
CN111091835A (zh) * 2019-12-10 2020-05-01 携程计算机技术(上海)有限公司 模型训练的方法、声纹识别的方法、系统、设备及介质
CN111209428A (zh) * 2020-01-03 2020-05-29 深圳前海微众银行股份有限公司 图像检索方法、装置、设备及计算机可读存储介质
CN111325242A (zh) * 2020-02-03 2020-06-23 Oppo广东移动通信有限公司 一种图像的分类方法、终端及计算机存储介质
CN111553428A (zh) * 2020-04-30 2020-08-18 北京百度网讯科技有限公司 用于训练判别模型的方法、装置、设备及可读存储介质
CN111860620A (zh) * 2020-07-02 2020-10-30 苏州富鑫林光电科技有限公司 一种用于深度学习的多层递阶式神经网络架构系统
CN111985554A (zh) * 2020-08-18 2020-11-24 创新奇智(西安)科技有限公司 一种模型训练方法、手镯识别方法及对应装置
CN112054967A (zh) * 2020-08-07 2020-12-08 北京邮电大学 网络流量分类方法、装置、电子设备及存储介质
CN112906810A (zh) * 2021-03-08 2021-06-04 共达地创新技术(深圳)有限公司 目标检测方法、电子设备和存储介质
CN112966724A (zh) * 2021-02-07 2021-06-15 惠州市博实结科技有限公司 一种图像单类别分类的方法及装置
CN113033282A (zh) * 2020-12-15 2021-06-25 广州云从鼎望科技有限公司 基于小物体检测的图像识别方法、装置以及介质
CN113076840A (zh) * 2021-03-25 2021-07-06 高新兴科技集团股份有限公司 一种车辆后拍图像品牌训练方法
WO2021136027A1 (zh) * 2019-12-30 2021-07-08 Oppo广东移动通信有限公司 相似图像检测方法、装置、设备及存储介质
CN113723448A (zh) * 2021-07-16 2021-11-30 北京工业大学 图像中对象分类和计数方法、装置、电子设备及介质
CN115294350A (zh) * 2022-06-28 2022-11-04 中国科学院自动化研究所 基于粗标签辅助的半监督细粒度图像识别方法和设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016168235A1 (en) * 2015-04-17 2016-10-20 Nec Laboratories America, Inc. Fine-grained image classification by exploring bipartite-graph labels
CN106682233A (zh) * 2017-01-16 2017-05-17 华侨大学 一种基于深度学习与局部特征融合的哈希图像检索方法
US9665802B2 (en) * 2014-11-13 2017-05-30 Nec Corporation Object-centric fine-grained image classification
CN106960219A (zh) * 2017-03-10 2017-07-18 百度在线网络技术(北京)有限公司 图片识别方法及装置、计算机设备及计算机可读介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9665802B2 (en) * 2014-11-13 2017-05-30 Nec Corporation Object-centric fine-grained image classification
WO2016168235A1 (en) * 2015-04-17 2016-10-20 Nec Laboratories America, Inc. Fine-grained image classification by exploring bipartite-graph labels
CN106682233A (zh) * 2017-01-16 2017-05-17 华侨大学 一种基于深度学习与局部特征融合的哈希图像检索方法
CN106960219A (zh) * 2017-03-10 2017-07-18 百度在线网络技术(北京)有限公司 图片识别方法及装置、计算机设备及计算机可读介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CAPTAINEVEN: "FaceRecognition", 《HTTPS://GITHUB.COM/CAPTAINEVEN/FACERECOGNITION》 *
FLORIAN SCHROFF 等: "FaceNet: A unified embedding for face recognition and clustering", 《2015 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
JIANLONG FU 等: "Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110363224A (zh) * 2019-06-19 2019-10-22 创新奇智(北京)科技有限公司 一种基于图像的物体分类方法、系统及电子设备
CN110363224B (zh) * 2019-06-19 2021-07-06 创新奇智(北京)科技有限公司 一种基于图像的物体分类方法、系统及电子设备
CN110263207A (zh) * 2019-06-20 2019-09-20 杭州时趣信息技术有限公司 图像搜索方法、装置、设备及计算机可读存储介质
CN110490239B (zh) * 2019-08-06 2024-02-27 腾讯医疗健康(深圳)有限公司 图像质控网络的训练方法、质量分类方法、装置及设备
CN110490239A (zh) * 2019-08-06 2019-11-22 腾讯医疗健康(深圳)有限公司 图像质控网络的训练方法、质量分类方法、装置及设备
CN110738233A (zh) * 2019-08-28 2020-01-31 北京奇艺世纪科技有限公司 模型训练、数据分类方法、装置、电子设备及存储介质
CN110738233B (zh) * 2019-08-28 2022-07-12 北京奇艺世纪科技有限公司 模型训练、数据分类方法、装置、电子设备及存储介质
CN110929099A (zh) * 2019-11-28 2020-03-27 杭州趣维科技有限公司 一种基于多任务学习的短视频帧语义提取方法及系统
CN110929802A (zh) * 2019-12-03 2020-03-27 北京迈格威科技有限公司 基于信息熵的细分类识别模型训练、图像识别方法及装置
CN111091835A (zh) * 2019-12-10 2020-05-01 携程计算机技术(上海)有限公司 模型训练的方法、声纹识别的方法、系统、设备及介质
CN111091835B (zh) * 2019-12-10 2022-11-29 携程计算机技术(上海)有限公司 模型训练的方法、声纹识别的方法、系统、设备及介质
WO2021136027A1 (zh) * 2019-12-30 2021-07-08 Oppo广东移动通信有限公司 相似图像检测方法、装置、设备及存储介质
CN111209428A (zh) * 2020-01-03 2020-05-29 深圳前海微众银行股份有限公司 图像检索方法、装置、设备及计算机可读存储介质
CN111325242A (zh) * 2020-02-03 2020-06-23 Oppo广东移动通信有限公司 一种图像的分类方法、终端及计算机存储介质
CN111553428B (zh) * 2020-04-30 2024-01-12 北京百度网讯科技有限公司 用于训练判别模型的方法、装置、设备及可读存储介质
CN111553428A (zh) * 2020-04-30 2020-08-18 北京百度网讯科技有限公司 用于训练判别模型的方法、装置、设备及可读存储介质
CN111860620A (zh) * 2020-07-02 2020-10-30 苏州富鑫林光电科技有限公司 一种用于深度学习的多层递阶式神经网络架构系统
CN112054967A (zh) * 2020-08-07 2020-12-08 北京邮电大学 网络流量分类方法、装置、电子设备及存储介质
CN111985554A (zh) * 2020-08-18 2020-11-24 创新奇智(西安)科技有限公司 一种模型训练方法、手镯识别方法及对应装置
CN113033282A (zh) * 2020-12-15 2021-06-25 广州云从鼎望科技有限公司 基于小物体检测的图像识别方法、装置以及介质
CN113033282B (zh) * 2020-12-15 2024-05-28 广州云从鼎望科技有限公司 基于小物体检测的图像识别方法、装置以及介质
CN112966724A (zh) * 2021-02-07 2021-06-15 惠州市博实结科技有限公司 一种图像单类别分类的方法及装置
CN112966724B (zh) * 2021-02-07 2024-04-09 惠州市博实结科技有限公司 一种图像单类别分类的方法及装置
CN112906810B (zh) * 2021-03-08 2024-04-16 共达地创新技术(深圳)有限公司 目标检测方法、电子设备和存储介质
CN112906810A (zh) * 2021-03-08 2021-06-04 共达地创新技术(深圳)有限公司 目标检测方法、电子设备和存储介质
CN113076840A (zh) * 2021-03-25 2021-07-06 高新兴科技集团股份有限公司 一种车辆后拍图像品牌训练方法
CN113723448A (zh) * 2021-07-16 2021-11-30 北京工业大学 图像中对象分类和计数方法、装置、电子设备及介质
CN115294350A (zh) * 2022-06-28 2022-11-04 中国科学院自动化研究所 基于粗标签辅助的半监督细粒度图像识别方法和设备
CN115294350B (zh) * 2022-06-28 2023-08-04 中国科学院自动化研究所 基于粗标签辅助的半监督细粒度图像识别方法和设备

Similar Documents

Publication Publication Date Title
CN109784366A (zh) 目标物体的细粒度分类方法、装置与电子设备
CN112784798B (zh) 一种基于特征-时间注意力机制的多模态情感识别方法
CN109344736B (zh) 一种基于联合学习的静态图像人群计数方法
CN107122375B (zh) 基于图像特征的图像主体的识别方法
CN110083700A (zh) 一种基于卷积神经网络的企业舆情情感分类方法及系统
CN109522556A (zh) 一种意图识别方法及装置
CN109117777A (zh) 生成信息的方法和装置
CN104866810A (zh) 一种深度卷积神经网络的人脸识别方法
CN109919252B (zh) 利用少数标注图像生成分类器的方法
CN107832835A (zh) 一种卷积神经网络的轻量化方法及装置
CN110503076A (zh) 基于人工智能的视频分类方法、装置、设备和介质
CN111339935B (zh) 一种基于可解释cnn图像分类模型的光学遥感图片分类方法
CN107807914A (zh) 情感倾向的识别方法、对象分类方法及数据处理系统
Termritthikun et al. NU-InNet: Thai food image recognition using convolutional neural networks on smartphone
CN110096948B (zh) 基于特征聚合卷积网络的遥感影像识别方法
CN110399895A (zh) 图像识别的方法和装置
CN107291825A (zh) 一种视频中同款商品的检索方法和系统
CN110689523A (zh) 基于元学习个性化图像信息评价方法、信息数据处理终端
CN114220458B (zh) 基于阵列水听器的声音识别方法和装置
CN109685713A (zh) 化妆模拟控制方法、装置、计算机设备及存储介质
CN110210550A (zh) 基于集成学习策略的图像细粒度识别方法
CN109615614A (zh) 基于多特征融合的眼底图像中血管的提取方法与电子设备
CN110096991A (zh) 一种基于卷积神经网络的手语识别方法
CN115713715A (zh) 一种基于深度学习的人体行为识别方法及识别系统
CN109359198A (zh) 一种文本分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190521