CN112101476A - 一种图片分类方法、装置、电子设备及存储介质 - Google Patents
一种图片分类方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112101476A CN112101476A CN202011012051.8A CN202011012051A CN112101476A CN 112101476 A CN112101476 A CN 112101476A CN 202011012051 A CN202011012051 A CN 202011012051A CN 112101476 A CN112101476 A CN 112101476A
- Authority
- CN
- China
- Prior art keywords
- picture
- classified
- features
- image
- pictures
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000012549 training Methods 0.000 claims description 91
- 238000013507 mapping Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 17
- 238000007635 classification algorithm Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 description 27
- 239000013598 vector Substances 0.000 description 17
- 238000009826 distribution Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 14
- 238000010801 machine learning Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 235000014443 Pyrus communis Nutrition 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- AZFKQCNGMSSWDS-UHFFFAOYSA-N MCPA-thioethyl Chemical compound CCSC(=O)COC1=CC=C(Cl)C=C1C AZFKQCNGMSSWDS-UHFFFAOYSA-N 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种图片分类方法、装置、电子设备及存储介质,该方法包括:获得待分类图片;使用预先训练的特征提取器提取待分类图片的图片特征;根据图片特征与多个类原型特征之间的距离对待分类图片进行分类,获得待分类图片的类别。在上述的实现过程中,使用特征提取器提取待分类图片的图片特征,然后根据图片特征与提取获得的多个类原型特征之间的距离,对待分类图片进行分类;也就是说,通过将待分类图片的图片特征与已知类别的样本图片的类原型特征比较,根据图片特征与类原型特征之间的距离来分类,从而将待分类图片分类到已知类别中,有效地改善了对新类别的图片识别失败的问题。
Description
技术领域
本申请涉及深度学习和图片分类的技术领域,具体而言,涉及一种图片分类方法、装置、电子设备及存储介质。
背景技术
深度学习(Deep Learning),是机器学习中一种基于对数据进行表征学习的算法,深度学习是机器学习的分支,也是一种以人工神经网络为架构,对数据进行表征学习的算法。
目前的深度学习分类技术依赖于大量已经被标注的训练数据,如果要让模型识别一种新类别的图片,就需要使用该新类别大量的图片对模型进行训练,该模型在训练之后才能够较为准确地识别该新类别的图片。如果没有使用该新类别的图片对模型进行训练,那么该模型就无法很好地提取图片特征,从而导致模型对新类别的图片识别失败。
针对模型对新类别的图片识别失败的问题,目前通常的解决方案为,先尽量地获取少样本类别的训练图片和图片标签,然后对已经存在的训练图片进行图像增强,并使用获得的更多训练图像对模型再次训练;常用的图像增强方式包括:旋转、平移和图像缩放等等方式。在实际过程中发现,使用上述方式来解决对新类别的图片识别失败的问题时,需要耗费大量的人力和时间来收集和处理数据;也就是说,使用重新采集或增强的训练数据对模型进行训练的方式,在对新类别的图片识别失败时需要费时费力的重新训练模型。
发明内容
本申请实施例的目的在于提供一种图片分类方法、装置、电子设备及存储介质,用于改善对新类别的图片识别失败时需要费时费力的重新训练模型的问题。
本申请实施例提供了一种图片分类方法,包括:获得待分类图片;使用预先训练的特征提取器提取待分类图片的图片特征;根据图片特征与多个类原型特征之间的距离对待分类图片进行分类,获得待分类图片的类别,类原型特征是使用特征提取器对已知类别的样本图片进行提取获得的。在上述的实现过程中,使用特征提取器提取待分类图片的图片特征,然后根据图片特征与提取获得的多个类原型特征之间的距离,对待分类图片进行分类;也就是说,通过将待分类图片的图片特征与已知类别的样本图片的类原型特征比较,根据图片特征与类原型特征之间的距离来分类,从而将待分类图片分类到已知类别中,有效地改善了对新类别的图片识别失败的问题,避免了重新采集或增强训练数据时需要费时费力的重新训练模型的情况。
可选地,在本申请实施例中,特征提取器包括:第一全连接层和第二全连接层;使用预先训练的特征提取器提取待分类图片的图片特征,包括:提取待分类图片的线性特征;使用第一全连接层将线性特征映射为方差;使用第二全连接层将线性特征映射为均值;对方差和均值进行重参数化计算,获得待分类图片的图片特征。在上述的实现过程中,通过使用第一全连接层将待分类图片提取的线性特征映射为方差;使用第二全连接层将待分类图片提取的线性特征映射为均值;并对方差和均值进行重参数化计算,获得待分类图片的图片特征;从而尽量减少提取的特征和原始图片之间的互信息,以保证特征提取器所能提取的特征是能够体现可判别性的信息。
可选地,在本申请实施例中,根据图片特征与多个类原型特征之间的距离对待分类图片进行分类,获得待分类图片的类别,包括:计算图片特征与多个类原型特征之间的余弦距离,获得多个余弦距离;将多个余弦距离中的最小余弦距离对应的图片类别确定为待分类图片的类别。在上述的实现过程中,先计算图片特征与多个类原型特征之间的余弦距离获得多个余弦距离;然后将多个余弦距离中的最小余弦距离对应的图片类别确定为待分类图片的类别。在上述的分类过程中,使用最小余弦距离来对图片进行分类,以使得仅使用极少数的被标注图片就能够对新类别的待分类图片进行分类,从而将待分类图片分类到已知类别中,有效地改善了对新类别的图片识别失败的问题。
可选地,在本申请实施例中,将多个余弦距离中的最小余弦距离对应的图片类别确定为待分类图片的类别,包括:使用最近邻分类算法预测多个余弦距离中的最小余弦距离对应的图片类别,并将最小余弦距离对应的图片类别确定为待分类图片的类别。在上述的实现过程中,使用最近邻分类算法预测多个余弦距离中的最小余弦距离,并根据最小余弦距离来对图片进行分类,以使得仅使用极少数的被标注图片就能够对新类别的待分类图片进行分类,从而将待分类图片分类到已知类别中,有效地改善了对新类别的图片识别失败的问题。
可选地,在本申请实施例中,在使用预先训练的特征提取器提取待分类图片的图片特征之前,还包括:获得训练图像和训练标签;使用特征提取器提取训练图像的图像特征;使用最近邻分类算法对图像特征进行预测,获得预测标签,预测标签为训练图像的类别标签;根据预测标签和训练标签之间的损失值对特征提取器进行训练。在上述的实现过程中,首先使用特征提取器提取训练图像的图像特征;然后使用最近邻分类算法对图像特征进行预测,获得预测标签,最后根据预测标签和训练标签之间的损失值对特征提取器进行训练;从而保证特征提取器在训练的过程中提取的特征是最具有可判别性的特征,使得特征提取器不会在被训练数据集训练的过程中产生过拟合现象,同时也能够在未知样本数据上取得很好的效果。
可选地,在本申请实施例中,获得待分类图片,包括:接收终端设备发送的待分类图片;在获得待分类图片的类别之后,还包括:向终端设备发送待分类图片的类别信息。在上述的实现过程中,通过接收终端设备发送的待分类图片;在获得待分类图片的类别之后,向终端设备发送待分类图片的类别信息,从而有效地为终端设备提供了图片分类服务。
本申请实施例还提供了一种图片分类装置,包括:分类图片获得模块,用于获得待分类图片;图片特征提取模块,用于使用预先训练的特征提取器提取待分类图片的图片特征;图片类别获得模块,用于根据图片特征与多个类原型特征之间的距离对待分类图片进行分类,获得待分类图片的类别,类原型特征是使用特征提取器对已知类别的样本图片进行提取获得的。
可选地,在本申请实施例中,特征提取器包括:第一全连接层和第二全连接层;图片特征提取模块,包括:线性特征提取模块,用于提取待分类图片的线性特征;特征映射方差模块,用于使用第一全连接层将线性特征映射为方差;特征映射均值模块,用于使用第二全连接层将线性特征映射为均值;图片特征获得模块,用于对方差和均值进行重参数化计算,获得待分类图片的图片特征。
可选地,在本申请实施例中,图片类别获得模块,包括:余弦距离计算模块,用于计算图片特征与多个类原型特征之间的余弦距离,获得多个余弦距离;图片类别确定模块,用于将多个余弦距离中的最小余弦距离对应的图片类别确定为待分类图片的类别。
可选地,在本申请实施例中,图片类别确定模块,包括:最近类别确定模块,用于使用最近邻分类算法预测多个余弦距离中的最小余弦距离对应的图片类别,并将最小余弦距离对应的图片类别确定为待分类图片的类别。
可选地,在本申请实施例中,图片分类装置还包括:图像标签获得模块,用于获得训练图像和训练标签;图像特征提取模块,用于使用特征提取器提取训练图像的图像特征;预测标签获得模块,用于使用最近邻分类算法对图像特征进行预测,获得预测标签,预测标签为训练图像的类别标签;特征模型训练模块,用于根据预测标签和训练标签之间的损失值对特征提取器进行训练。
可选地,在本申请实施例中,图片分类装置还包括:分类图片接收模块,用于接收终端设备发送的待分类图片;类别信息发送模块,用于向终端设备发送待分类图片的类别信息。
本申请实施例还提供了一种电子设备,包括:处理器和存储器,存储器存储有处理器可执行的机器可读指令,机器可读指令被处理器执行时执行如上面描述的方法。
本申请实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上面描述的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出的本申请实施例提供的图片分类方法的流程示意图;
图2示出的本申请实施例提供的提取图片特征过程的示意图;
图3示出的本申请实施例提供的重参数化获得隐向量的示意图;
图4示出的本申请实施例提供的对特征提取器进行训练的流程示意图;
图5示出的本申请实施例提供的为终端设备提供图片分类服务的流程示意图;
图6示出的本申请实施例提供的图片分类装置的结构示意图;
图7示出的本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。
在介绍本申请实施例提供的图片分类方法之前,先介绍本申请实施例中所涉及的一些概念:
少样本学习(Few-Shot Learning),是指机器学习模型在学习了一定类别的大量数据后,对于新的类别,只需要少量的样本就能快速学习的方法;也可以理解为,在源域有足够多样本,而在目标域样本不足的情况下,使用少量的目标域样本尽量提高机器学习模型的正确率。
类原型(Class Prototype),是模型训练中一个通用的概念,类原型可以理解为在分类任务的过程中模型将样本分类为该类的基本依据特征;具体例如:若苹果是一个类别,而梨是另一个类别,将苹果和梨的各种图片放入到一个模型中,让模型学习到每个类的类原型,通常来说一个类别只有一个类原型,苹果的各种图片是与苹果的类原型更相似的,而与梨的类原型不相似,类原型可以理解为这个类别抽象的代表。
最近邻分类算法(k-Nearest Neighbor,kNN),是指数据挖掘分类技术中的一种方法;这里的kNN就是k个最近的邻居的意思,说的是每个样本都可以用该样本最接近的k个邻居来代表。
交叉熵(cross entropy,CE),是指描述两个近似概率分布的差异程度;在自然语言处理研究中,交叉熵常被用来评价和对比统计语言模型,用来衡量统计语言模型是否反映了语言数据的真实分布。
度量学习(Metric Learning),又被称为距离度量学习(Distance MetricLearning,DML)或者相似度学习,是人脸识别中使用的传统机器学习方法;度量学习可以分为两种,一种是基于监督学习的,另外一种是基于非监督学习的。度量学习的主要思想是,根据不同的任务来自主学习出针对某个特定任务的度量距离函数,通过计算两张图片之间的相似度,使得输入图片被归入到相似度大的图片类别中去。
KL散度(Kullback-Leibler divergence,KLD),在信息系统中称为相对熵(relative entropy),在连续时间序列中称为随机性(randomness),在统计模型推断中称为信息增益(information gain),也称信息散度(information divergence);KL散度是两个概率分布P和Q差别的非对称性的度量;KL散度是用来度量使用基于Q的分布来编码服从P的分布的样本所需的额外的平均比特数;典型情况下,P表示数据的真实分布,Q表示数据的理论分布、估计的模型分布或P的近似分布。
JS散度(Jensen Shannon divergence,JSD),是指度量两个概率分布的相似度,基于KL散度的变体,解决了KL散度非对称的问题;一般情况下,JS散度是对称的,其取值是0到1之间。
损失函数(loss function),又被称为成本函数,是指一种将一个事件(即在一个样本空间中的一个元素)映射到一个表达与其事件相关的经济成本或机会成本的实数上的一种函数,借此直观表示的一些“成本”与事件的关联;损失函数可以决定训练过程如何来“惩罚”网络的预测结果和真实结果之间的差异,各种不同的损失函数适用于不同类型的任务。
需要说明的是,本申请实施例提供的图片分类方法可以被电子设备执行,这里的电子设备是指具有执行计算机程序功能的设备终端或者服务器,设备终端例如:智能手机、个人电脑(personal computer,PC)、平板电脑、个人数字助理(personal digitalassistant,PDA)、移动上网设备(mobile Internet device,MID)、网络交换机或网络路由器等。
在介绍本申请实施例提供的图片分类方法之前,先介绍图片分类方法适用的应用场景,这里的应用场景包括但不限于:机器学习的模型训练和模型应用中,当出现一种新类别的图片需要被已经训练的模型识别时,可以使用该图片分类方法可以直接对该新类别的图片进行识别,无需重新采集或增强的训练数据,并使用该训练数据重新训练模型的等情况。在更为具体的商超零售领域中,需要识别的图片数据多为密集陈列的商品,已经被模型训练过的商品类别很容易被模型识别出来,但是若是刚刚上市的新类别的商品图像则很难识别出来,通常会出现对新类别的商品图像识别失败的情况;在具体实践过程中,若无法获取到更多新类别的商品图像时,难以通过少样本类别的图像数据对机器学习模型进行训练,使得模型能够成功识别新类别的商品图像。
请参见图1示出的本申请实施例提供的图片分类方法的流程示意图;该图片分类方法的主要思路是,通过将待分类图片的图片特征与已知类别的样本图片的类原型特征比较,根据图片特征与类原型特征之间的距离来分类,从而将待分类图片分类到已知类别中,有效地改善了对新类别的图片识别失败的问题,避免了重新采集或增强训练数据时的费时费力的情况,上述的图片分类方法可以包括:
步骤S110:获得待分类图片。
上述步骤S110中的待分类图片的获得方式包括:第一种方式,使用摄像机、录像机或彩色照相机等终端设备对目标对象进行拍摄,获得待分类图片;然后该终端设备向电子设备发送待分类图片,然后电子设备接收终端设备发送的待分类图片,电子设备可以将待分类图片存储至文件系统、数据库或移动存储设备中;第二种方式,获取预先存储的待分类图片,具体例如:从文件系统中获取待分类图片,或者从数据库中获取待分类图片,或者从移动存储设备中获取待分类图片;第三种方式,使用浏览器等软件获取互联网上的待分类图片,或者使用其它应用程序访问互联网获得待分类图片。
在步骤S110之后,执行步骤S120:使用预先训练的特征提取器提取待分类图片的图片特征。
征提取器,是指用于提取样本数据中的特征的神经网络;其中,特征提取器具体可以采用很多种神经网络来实现,具体例如:特征提取器可以包括第一全连接层和第二全连接层。
上述步骤S120的实施方式可以根据特征提取器的网络结构的不同而不同,该实施方式可以包括:
第一种实施方式,请参见图2示出的本申请实施例提供的提取图片特征过程的示意图;特征提取器可以使用包括第一全连接(firstfull connection)层和第二全连接(second full connection)层的网络结构,那么步骤S120的实施方式可以包括:提取待分类图片的线性特征;使用第一全连接层将线性特征映射为方差,并使用第二全连接层将线性特征映射为均值;对方差和均值进行重参数化(reparameterization trick)计算,获得重参数化后的隐向量(Hidden Vector),将重参数化后的隐向量确定为待分类图片的图片特征;其中,此处的重参数化是指根据计算的均值和方差从一个高斯分布中采样出新的隐向量;由于隐向量是从均值和方差所决定的分布种采样得到的,因此,使用获得的隐向量作为图片特征,该图片特征和图片互信息的相关度较小。
请参见图3示出的本申请实施例提供的重参数化获得隐向量的示意图;其中,图中的随机生成器(Random Generator)是指从标准高斯分布中随机采样的过程,即可以从标准高斯分布中采样出随机向量(Random Vector)。需要说明的是,上述的重参数化获得隐向量的具体过程例如:使用随机生成器从标准高斯分布中采样出随机向量;然后将方差的对数进行指数(Exp)运算获得的方差,与随机向量进行矩阵相乘,获得中间向量;最后,将中间向量与均值(mean)相加,获得图像特征(即隐向量);也就是说,对方差和均值进行重参数化计算可以获得重参数化后的隐向量。
在上述的实现过程中,通过使用第一全连接层将待分类图片提取的线性特征映射为方差;使用第二全连接层将待分类图片提取的线性特征映射为均值;并对方差和均值进行重参数化计算,获得待分类图片的图片特征;从而尽量减少提取的特征和原始图片之间的互信息,以保证特征提取器所能提取的特征是最具有可判别性的信息。
第二种实施方式,特征提取器可以采用卷积神经网络(Convolutional NeuralNetworks,CNN),卷积神经网络可以包括:特征提取层和特征映射层,步骤S120的实施方式可以包括:特征提取层中的每个神经元的输入与前一层神经网络的局部接受域相连,因此,可以使用特征提取层提取待分类图片的局部特征,再使用特征映射层将获得的局部特征映射为图片特征,其中,特征映射层的每个计算层由多个特征映射组成,每个特征映射是一个特征矩阵图,特征矩阵图上所有神经元的权值相等。上述卷积神经网络的具体结构例如可以包括:第一卷积(conv1)层、第一池化(pool1)层、第二卷积(conv2)层、第二池化(pool2)层、第一全连接层和第二全连接层。
第三种实施方式,特征提取器可以采用卷积循环神经网络(ConvolutionalRecurrent Neural Networks,CRNN),CRNN是指包括CNN和循环神经网络(RecurrentNeural Network,RNN)的神经网络模型,步骤S120的实施方式可以包括:使用包括CNN和RNN的CRNN提取待分类图片的图片特征,其中,CNN可以包括第一全连接层和第二全连接层。当然在另一些实施方式中,上述的特征提取器还可以采用传统的特征提取算法提取待分类图片的图片特征,特征提取算法具体包括但不限于:局部二值模式(Local binary patterns,LBP)、方向梯度直方图(Histogram of Oriented Gradient,HOG)和Haar特征提取算子等算法。
在步骤S120之后,执行步骤S130:根据图片特征与多个类原型特征之间的距离对待分类图片进行分类,获得待分类图片的类别。
其中,类原型特征又可以被简称为类原型,类原型特征可以理解为在分类任务的过程中模型将样本分类为该类的基本依据特征,类原型特征可以是使用特征提取器对已知类别的样本图片进行提取获得的。
上述步骤S130有很多种实施方式,包括但不限于:根据实时提取的类原型特征和获取预先提取的类原型特征,下面描述这两种实施方式:
第一种实施方式,实时提取多个类原型特征,也就是说,每次分类时都需要提取一次多个类原型特征,再根据图片特征与多个类原型特征之间的余弦距离来分类,这种实施方式可以包括:
步骤S131:使用特征提取器对已知类别的样本图片进行提取,获得多个类原型特征。
其中,该步骤S131的实施原理和实施方式与步骤S120的实施原理和实施方式是类似的,区别仅在于提取的图片不同,以及本步骤提取的是作为该类的基本依据特征,即本步骤提取的类原型特征,而步骤S120提取的是图片特征,因此,这里不再对该步骤的实施方式和实施原理进行说明,如有不清楚的地方,可以参考对步骤S120的描述。
步骤S132:计算图片特征与多个类原型特征之间的余弦距离,获得多个余弦距离。
步骤S133:将多个余弦距离中的最小余弦距离对应的图片类别确定为待分类图片的类别。
上述步骤S132至步骤S133的实施方式包括:使用最近邻分类算法来确定待分类图片的类别,这里最近邻分类算法的原理是,预测多个余弦距离中的最小余弦距离对应的图片类别,并将最小余弦距离对应的图片类别确定为待分类图片的类别;简单地描述上述最近邻分类算法的原理例如:若图片可以分为两种类别:第一类别和第二类别;第一类别和第二类别的样本类原型特征分别为1和99;计算待分类图片的图片特征与第一类别的样本类原型特征的第一余弦距离为82,此处待分类图片的图片特征与第二类别的样本类原型特征的第二余弦距离为16,可以看出,第一余弦距离大于第二余弦距离表明待分类图片更接近第二类别,因此,可以将待分类图片的图片类别确定为第二类别。
在上述的实现过程中,先计算图片特征与多个类原型特征之间的余弦距离获得多个余弦距离;然后将多个余弦距离中的最小余弦距离对应的图片类别确定为待分类图片的类别。在上述的分类过程中,使用最小余弦距离来对图片进行分类,以使得仅使用极少数的被标注图片就能够对新类别的待分类图片进行分类,从而将待分类图片分类到已知类别中,有效地改善了对新类别的图片识别失败的问题。
第二种实施方式,获取事先提取的多个类原型特征,再根据图片特征与多个类原型特征之间的余弦距离来分类,这种实施方式可以包括:
步骤S134:获取预先提取的多个类原型特征。
上述步骤S134的实施方式例如:从文件系统、数据库、存储介质或者移动存储设备中获取预先提取的多个类原型特征;其中,数据库但不限于包括:内存数据库、关系型数据库和非关系型数据库;具体地,可以使用的内存数据库例如Memcached和Redis等,可以使用的关系型数据库例如:Mysql、PostgreSQL、Oracle和SQLSever等,可以使用的非关系型数据库包括:grakn数据库、Neo4j图数据库、Hadoop子系统HBase、MongoDB和CouchDB等。
步骤S135:计算图片特征与多个类原型特征之间的余弦距离,获得多个余弦距离。
步骤S136:将多个余弦距离中的最小余弦距离对应的图片类别确定为待分类图片的类别。
其中,该步骤S135至步骤S136的实施原理和实施方式与步骤S132至步骤S133的实施原理和实施方式是类似的,因此,这里不再对该步骤的实施方式和实施原理进行说明,如有不清楚的地方,可以参考对步骤S132至步骤S133的描述。
在机器学习和深度学习领域中的信息瓶颈理论指出,随着模型学习或者训练的进行,网络模型所提取的特征与输入数据之间的互信息的相关度减小;基于信息瓶颈理论,让少样本学习任务中的特征提取器尽量减少图片特征和原始图片之间的互信息,以保证特征提取器所能提取的特征是最具有可判别性(discriminable)的信息,从而使得特征提取器不会在被训练数据集训练的过程中产生过拟合现象,同时也能够在未知样本数据上取得很好的效果。进一步地,在分类过程中,结合度量学习理论使用最小余弦距离(即余弦相似度)来对图片进行分类,以使得仅使用极少数的被标注图片就能够对新类别的待分类图片进行分类。
在上述的实现过程中,使用特征提取器提取待分类图片的图片特征,然后根据图片特征与提取获得的多个类原型特征之间的距离,对待分类图片进行分类;也就是说,基于信息瓶颈理论,让少样本学习任务中的特征提取器尽量减少图片特征和原始图片之间的互信息,以保证特征提取器所能提取的特征是最具有可判别性(discriminable)的信息,通过将待分类图片的图片特征与已知类别的样本图片的类原型特征比较,根据图片特征与类原型特征之间的距离来分类,从而将待分类图片分类到已知类别中,有效地改善了对新类别的图片识别失败的问题,避免了重新采集或增强训练数据时需要费时费力的重新训练模型的情况。
请参见图4示出的本申请实施例提供的对特征提取器进行训练的流程示意图;可选地,在使用特征提取器提取图片特征之前,还需要对特征提取器进行训练,对特征提取器进行训练的过程可以包括:
步骤S210:获得训练图像和训练标签。
上述的步骤S210的实施方式包括:训练图像和训练标签可以分开获取,具体例如:人工的搜集训练图像,并人工地识别训练图像的训练标签;当然,也可以将训练图像和训练标签打包为训练数据集一起获取,这里以训练数据集一起获取为例进行说明:第一种方式,使用摄像机、录像机或彩色照相机等终端设备对目标对象进行拍摄,获得训练图像,并手动地为训练图像标注上分类类别的训练标签,将训练图像和训练标签打包为训练数据集;第二种方式,接收其它终端设备发送的训练数据集,将训练数据集存储至文件系统、数据库或移动存储设备中;第三种方式,获取预先存储的训练数据集,具体例如:从文件系统中获取训练数据集,或者从数据库中获取训练数据集,或者从移动存储设备中获取训练数据集;第四种方式,使用浏览器等软件获取互联网上的训练数据集,或者使用其它应用程序访问互联网获得训练数据集。
在步骤S210之后,执行步骤S220:使用特征提取器提取训练图像的图像特征。
其中,该步骤S220的实施原理和实施方式与步骤S120的实施原理和实施方式是类似的,因此,这里不再对该步骤的实施方式和实施原理进行说明,如有不清楚的地方,可以参考对步骤S120的描述。
在步骤S220之后,执行步骤S230:使用最近邻分类算法对图像特征进行预测,获得预测标签,预测标签为训练图像的类别标签。
其中,该步骤S230的实施原理和实施方式与步骤S130的实施原理和实施方式是类似的,区别仅在于,本步骤将获得的类别标签作为预测标签使用,而步骤S130中仅仅获得了图片的类别,因此,这里不再对该步骤的实施方式和实施原理进行说明,如有不清楚的地方,可以参考对步骤S130的描述。
在步骤S230之后,执行步骤S240:根据预测标签和训练标签之间的损失值对特征提取器进行训练。
上述的步骤S240的实施方式一些实施方式包括:根据图像特征的预测标签和训练标签构建损失函数,将预测标签和训练标签的具体值代入损失函数计算获得损失值,再根据损失值对未经训练的特征提取器进行训练,其中,这里的损失值表征图像特征的预测标签对应类别和训练标签对应类别之间的差异,这里的损失函数例如:交叉熵损失函数、平方损失函数、指数损失函数(exponential loss)、0-1损失函数(zero-one loss)和绝对值损失函数等。
上述的步骤S240的实施方式另一些实施方式包括:基于反向传播的方式对特征提取器进行训练,具体例如:通过分类器得到训练标签和真实的预测值(即预测标签)计算交叉熵损失,得到分类的损失函数;再通过均值(Mean)和方差(Std)计算和标准高斯分布之间的KL散度或者JS散度,得到约束互信息的损失函数,将分类的损失函数和约束互信息的损失函数相加,得到最终的损失函数,并根据最终的损失函数对特征提取器进行反向传播训练。
在上述的实现过程中,首先使用特征提取器提取训练图像的图像特征;然后使用最近邻分类算法对图像特征进行预测,获得预测标签,最后根据预测标签和训练标签之间的损失值对特征提取器进行训练;从而保证特征提取器在训练的过程中提取的特征是最具有可判别性的特征,使得特征提取器不会在被训练数据集训练的过程中产生过拟合现象,同时也能够在未知样本数据上取得很好的效果。
请参见图5示出的本申请实施例提供的为终端设备提供图片分类服务的流程示意图;可选地,执行上述图片分类方法的电子设备还可以与终端设备进行交互,为终端设备提供图片分类服务,可以包括:
步骤S310:电子设备接收终端设备发送的待分类图片。
上述的步骤S310的实施方式包括:电子设备通过传输控制协议(TransmissionControl Protocol,TCP)或者用户数据报协议(User Datagram Protocol,UDP)接收终端设备发送的待分类图片。
步骤S320:电子设备使用预先训练的特征提取器提取待分类图片的图片特征。
其中,该步骤S320的实施原理和实施方式与步骤S120的实施原理和实施方式是类似的,因此,这里不再对该步骤的实施方式和实施原理进行说明,如有不清楚的地方,可以参考对步骤S120的描述。
步骤S330:电子设备根据图片特征与多个类原型特征之间的距离对待分类图片进行分类,获得待分类图片的类别。
其中,该步骤S330的实施原理和实施方式与步骤S130的实施原理和实施方式是类似的,因此,这里不再对该步骤的实施方式和实施原理进行说明,如有不清楚的地方,可以参考对步骤S130的描述。
步骤S340:电子设备向终端设备发送待分类图片的类别信息。
上述的步骤S310的实施方式包括:电子设备通过超文本传输协议(Hyper TextTransfer Protocol,HTTP)和超文本传输安全协议(Hyper Text Transfer ProtocolSecure,HTTPS)向终端设备发送待分类图片的类别信息。
在上述的实现过程中,通过接收终端设备发送的待分类图片;在获得待分类图片的类别之后,向终端设备发送待分类图片的类别信息,从而有效地为终端设备提供了图片分类服务。
请参见图6示出的本申请实施例提供的图片分类装置的结构示意图;本申请实施例提供了一种图片分类装置400,包括:
分类图片获得模块410,用于获得待分类图片。
图片特征提取模块420,用于使用预先训练的特征提取器提取待分类图片的图片特征。
图片类别获得模块430,用于根据图片特征与多个类原型特征之间的距离对待分类图片进行分类,获得待分类图片的类别,类原型特征是使用特征提取器对已知类别的样本图片进行提取获得的。
可选地,在本申请实施例中,特征提取器包括:第一全连接层和第二全连接层;图片特征提取模块,包括:
线性特征提取模块,用于提取待分类图片的线性特征。
特征映射方差模块,用于使用第一全连接层将线性特征映射为方差。
特征映射均值模块,用于使用第二全连接层将线性特征映射为均值。
图片特征获得模块,用于对方差和均值进行重参数化计算,获得待分类图片的图片特征。
可选地,在本申请实施例中,图片类别获得模块,包括:
余弦距离计算模块,用于计算图片特征与多个类原型特征之间的余弦距离,获得多个余弦距离。
图片类别确定模块,用于将多个余弦距离中的最小余弦距离对应的图片类别确定为待分类图片的类别。
可选地,在本申请实施例中,图片类别确定模块,包括:
最近类别确定模块,用于使用最近邻分类算法预测多个余弦距离中的最小余弦距离对应的图片类别,并将最小余弦距离对应的图片类别确定为待分类图片的类别。
可选地,在本申请实施例中,上述的图片分类装置,还包括:
图像标签获得模块,用于获得训练图像和训练标签。
图像特征提取模块,用于使用特征提取器提取训练图像的图像特征。
预测标签获得模块,用于使用最近邻分类算法对图像特征进行预测,获得预测标签,预测标签为训练图像的类别标签。
特征模型训练模块,用于根据预测标签和训练标签之间的损失值对特征提取器进行训练。
可选地,在本申请实施例中,上述的图片分类装置,还可以包括:
分类图片接收模块,用于接收终端设备发送的待分类图片。
类别信息发送模块,用于向终端设备发送待分类图片的类别信息。
应理解的是,该装置与上述的图片分类方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system,OS)中的软件功能模块。
请参见图7示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备500,包括:处理器510和存储器520,存储器520存储有处理器510可执行的机器可读指令,机器可读指令被处理器510执行时执行如上的方法。
本申请实施例还提供了一种存储介质530,该存储介质530上存储有计算机程序,该计算机程序被处理器510运行时执行如上的方法。
本申请实施例提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施例仅是示意性的,例如,附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以和附图中所标注的发生顺序不同。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这主要根据所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以使用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请实施例中的各个实施例的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上的描述,仅为本申请实施例的可选实施方式,但本申请实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请实施例的保护范围之内。
Claims (10)
1.一种图片分类方法,其特征在于,包括:
获得待分类图片;
使用预先训练的特征提取器提取所述待分类图片的图片特征;
根据所述图片特征与多个类原型特征之间的距离对所述待分类图片进行分类,获得所述待分类图片的类别,所述类原型特征是使用所述特征提取器对已知类别的样本图片进行提取获得的。
2.根据权利要求1所述的方法,其特征在于,所述特征提取器包括:第一全连接层和第二全连接层;所述使用预先训练的特征提取器提取所述待分类图片的图片特征,包括:
提取所述待分类图片的线性特征;
使用所述第一全连接层将所述线性特征映射为方差;
使用所述第二全连接层将所述线性特征映射为均值;
对所述方差和所述均值进行重参数化计算,获得所述待分类图片的图片特征。
3.根据权利要求1所述的方法,其特征在于,所述根据所述图片特征与多个类原型特征之间的距离对所述待分类图片进行分类,获得所述待分类图片的类别,包括:
计算所述图片特征与所述多个类原型特征之间的余弦距离,获得多个余弦距离;
将所述多个余弦距离中的最小余弦距离对应的图片类别确定为所述待分类图片的类别。
4.根据权利要求3所述的方法,其特征在于,所述将所述多个余弦距离中的最小余弦距离对应的图片类别确定为所述待分类图片的类别,包括:
使用最近邻分类算法预测所述多个余弦距离中的最小余弦距离对应的图片类别,并将所述最小余弦距离对应的图片类别确定为所述待分类图片的类别。
5.根据权利要求1所述的方法,其特征在于,在所述使用预先训练的特征提取器提取所述待分类图片的图片特征之前,还包括:
获得训练图像和训练标签;
使用所述特征提取器提取所述训练图像的图像特征;
使用最近邻分类算法对所述图像特征进行预测,获得预测标签,所述预测标签为所述训练图像的类别标签;
根据所述预测标签和所述训练标签之间的损失值对所述特征提取器进行训练。
6.根据权利要求1所述的方法,其特征在于,所述获得待分类图片,包括:
接收终端设备发送的所述待分类图片;
在所述获得所述待分类图片的类别之后,还包括:
向所述终端设备发送所述待分类图片的类别信息。
7.一种图片分类装置,其特征在于,包括:
分类图片获得模块,用于获得待分类图片;
图片特征提取模块,用于使用预先训练的特征提取器提取所述待分类图片的图片特征;
图片类别获得模块,用于根据所述图片特征与多个类原型特征之间的距离对所述待分类图片进行分类,获得所述待分类图片的类别,所述类原型特征是使用所述特征提取器对已知类别的样本图片进行提取获得的。
8.根据权利要求7所述的装置,其特征在于,所述特征提取器包括:第一全连接层和第二全连接层;所述图片特征提取模块,包括:
线性特征提取模块,用于提取所述待分类图片的线性特征;
特征映射方差模块,用于使用所述第一全连接层将所述线性特征映射为方差;
特征映射均值模块,用于使用所述第二全连接层将所述线性特征映射为均值;
图片特征获得模块,用于对所述方差和所述均值进行重参数化计算,获得所述待分类图片的图片特征。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如权利要求1至6任一所述的方法。
10.一种存储介质,其特征在于,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至6任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011012051.8A CN112101476A (zh) | 2020-09-23 | 2020-09-23 | 一种图片分类方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011012051.8A CN112101476A (zh) | 2020-09-23 | 2020-09-23 | 一种图片分类方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112101476A true CN112101476A (zh) | 2020-12-18 |
Family
ID=73755984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011012051.8A Pending CN112101476A (zh) | 2020-09-23 | 2020-09-23 | 一种图片分类方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112101476A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113283514A (zh) * | 2021-05-31 | 2021-08-20 | 高新兴科技集团股份有限公司 | 一种基于深度学习的未知类别分类方法、装置及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909643A (zh) * | 2019-11-14 | 2020-03-24 | 北京航空航天大学 | 基于最近邻原型表示的遥感舰船图像小样本分类方法 |
CN111242199A (zh) * | 2020-01-07 | 2020-06-05 | 中国科学院苏州纳米技术与纳米仿生研究所 | 图像分类模型的训练方法及分类方法 |
CN111368893A (zh) * | 2020-02-27 | 2020-07-03 | Oppo广东移动通信有限公司 | 图像识别方法、装置、电子设备及存储介质 |
CN111582372A (zh) * | 2020-05-09 | 2020-08-25 | 西交利物浦大学 | 图像分类方法、模型、存储介质及电子设备 |
-
2020
- 2020-09-23 CN CN202011012051.8A patent/CN112101476A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909643A (zh) * | 2019-11-14 | 2020-03-24 | 北京航空航天大学 | 基于最近邻原型表示的遥感舰船图像小样本分类方法 |
CN111242199A (zh) * | 2020-01-07 | 2020-06-05 | 中国科学院苏州纳米技术与纳米仿生研究所 | 图像分类模型的训练方法及分类方法 |
CN111368893A (zh) * | 2020-02-27 | 2020-07-03 | Oppo广东移动通信有限公司 | 图像识别方法、装置、电子设备及存储介质 |
CN111582372A (zh) * | 2020-05-09 | 2020-08-25 | 西交利物浦大学 | 图像分类方法、模型、存储介质及电子设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113283514A (zh) * | 2021-05-31 | 2021-08-20 | 高新兴科技集团股份有限公司 | 一种基于深度学习的未知类别分类方法、装置及介质 |
CN113283514B (zh) * | 2021-05-31 | 2024-05-21 | 高新兴科技集团股份有限公司 | 一种基于深度学习的未知类别分类方法、装置及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10891524B2 (en) | Method and an apparatus for evaluating generative machine learning model | |
CN110070067B (zh) | 视频分类方法及其模型的训练方法、装置和电子设备 | |
US11068722B2 (en) | Method for analysing media content to generate reconstructed media content | |
Agbo-Ajala et al. | Deeply learned classifiers for age and gender predictions of unfiltered faces | |
CN109086873B (zh) | 递归神经网络的训练方法、识别方法、装置及处理设备 | |
US11270124B1 (en) | Temporal bottleneck attention architecture for video action recognition | |
CN110929622A (zh) | 视频分类方法、模型训练方法、装置、设备及存储介质 | |
CN111523621A (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN108229522B (zh) | 神经网络的训练方法、属性检测方法、装置及电子设备 | |
AU2021379758A9 (en) | A temporal bottleneck attention architecture for video action recognition | |
CN111931713B (zh) | 一种异常行为检测方法、装置、电子设备及存储介质 | |
CN113283368B (zh) | 一种模型训练方法、人脸属性分析方法、装置及介质 | |
CN114898266B (zh) | 训练方法、图像处理方法、装置、电子设备以及存储介质 | |
Viet‐Uyen Ha et al. | High variation removal for background subtraction in traffic surveillance systems | |
Kopčan et al. | Anomaly detection using autoencoders and deep convolution generative adversarial networks | |
Suratkar et al. | Deep-fake video detection approaches using convolutional–recurrent neural networks | |
Behnaz et al. | DEEPPBM: Deep probabilistic background model estimation from video sequences | |
CN112101476A (zh) | 一种图片分类方法、装置、电子设备及存储介质 | |
CN111652320A (zh) | 一种样本分类方法、装置、电子设备及存储介质 | |
CN116113952A (zh) | 用于图像的属于分布内度量的分布之间的距离 | |
CN117095460A (zh) | 基于长短时关系预测编码的自监督群体行为识别方法及其识别系统 | |
US20230419170A1 (en) | System and method for efficient machine learning | |
KR20190134380A (ko) | 합성곱 신경망에 대한 도메인 불변 사람 분류기를 위한 연관성 학습 시스템 및 방법 | |
Uddin | A robust daily human activity recognition and prediction system | |
Qin et al. | Hybrid NSS features for no‐reference image quality assessment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |