CN103164713B - 图像分类方法和装置 - Google Patents

图像分类方法和装置 Download PDF

Info

Publication number
CN103164713B
CN103164713B CN201110412537.5A CN201110412537A CN103164713B CN 103164713 B CN103164713 B CN 103164713B CN 201110412537 A CN201110412537 A CN 201110412537A CN 103164713 B CN103164713 B CN 103164713B
Authority
CN
China
Prior art keywords
visual word
image
visual
image features
classifying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110412537.5A
Other languages
English (en)
Other versions
CN103164713A (zh
Inventor
薛晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201110412537.5A priority Critical patent/CN103164713B/zh
Priority to TW101107362A priority patent/TW201324378A/zh
Priority to PCT/US2012/069006 priority patent/WO2013090288A1/en
Priority to EP12808614.7A priority patent/EP2791869A1/en
Priority to US13/711,500 priority patent/US9342758B2/en
Priority to JP2014546187A priority patent/JP2015506026A/ja
Publication of CN103164713A publication Critical patent/CN103164713A/zh
Priority to HK13109684.7A priority patent/HK1182505A1/zh
Application granted granted Critical
Publication of CN103164713B publication Critical patent/CN103164713B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Abstract

本申请提供了一种图像分类方法和装置,所述方法包括:提取一待分类图像的分类图像特征;依据每一分类图像特征与预先生成的视觉词典中各视觉词的相似关系,将每一分类图像特征量化为所述视觉词典中的多个视觉词,并确定每一分类图像特征分别与其量化后的视觉词的相似系数;依据视觉词典中每一视觉词对应不同分类图像特征的相似系数,确定视觉词的权重以建立该待分类图像的分类视觉词直方图;将所述分类视觉词直方图输入预先根据大量样本图像所建立的样本视觉词直方图进行训练生成的图像分类器中,根据输出结果确定所述待分类图像的类别。通过本申请实施例可以提高图像分类的准确性,减小分类误差。

Description

图像分类方法和装置
技术领域
本申请涉及图像处理技术领域,特别涉及一种图像分类方法和装置。
背景技术
图像分类是根据不同图像所反映的特征判定类别,将图像进行归类的图像处理技术。随着互联网上图像数量急剧膨胀,特别是在电子商务领域,尤其涉及大量的图像信息,而通过图像分类,可以实现违禁物品检测,同类产品推荐等,因此图像分类技术日渐成为研究的重点。
现有的图像分类方法,通常是根据预先生成的视觉词典,将待分类图像表示为待分类视觉词直方图,然后由预先训练生成的图像分类器确定待分类图像的类别。其中,视觉词典包括不同的视觉词,每一视觉词可代表一个类别,其是根据大量的训练图像所提取的训练图像特征,进行聚类所得到的。待分类视觉词直方图是由多个数据形成的数据集,用向量形式表示,每一数据与每一视觉词为一一映射关系,数据值等于与其对应的视觉词的权重,权重表示该待分类图像与视觉词所代表的那一类别的接近程度。预先训练的图像分类器是根据每一训练图像所对应的视觉词直方图,利用机器学习算法进行训练而生成的,每一训练图像所对应的视觉词直方图也是按照所述将待分类图像表示为待分类视觉词直方图的方式来构造的。
将待分类图像表示为待分类视觉词直方图具体是:根据提取的待分类图像的图像特征,确定出图像特征与视觉词典中哪一个视觉词最接近,则将其量化为该视觉词。视觉词典中视觉词每被量化一次,则其对应的权重即加1,当所有图像特征均量化为视觉词后,每一视觉词的权重也即确定,即可建立待分类视觉词直方图。例如所训练的视觉词典B={b1,b2,b3},提取出的图像特征包括X1和X2,对应该视觉词典的分类视觉词直方图C={c1,c2,c3},c1,c2,c3的初始值均为0,当确定出X1与视觉词b1最接近,则对应的c1加1,X2也是与视觉词b1最接近,则将c1再加1,从而最终建立的该待分类图像的待分类视觉词直方图即为{2,0,0}。
由上述过程可以看出,待分类视觉词直方图的建立过程,是将每一分类图像特征量化为一个视觉词。而在实际应用中,所量化的一个视觉词其并不能准确表达该待分类图像的特征,且在图像出现畸变时容易导致量化错误,例如图像特征X1实际是与视觉词b2最相似,而采用现有的方法,图像特征X1仍会量化为视觉词b1。因此导致建立的分类视觉词直方图并不准确,出现误差,最终导致图像分类不准确。
发明内容
本申请所要解决的技术问题是提供一种图像分类方法,用以解决现有技术中图像分类不准确的技术问题。
本申请还提供了一种图像分类装置,用以保证上述方法在实际中的实现及应用。
为了解决上述问题,本申请公开了一种图像分类方法,包括:
提取一待分类图像的分类图像特征;
依据每一分类图像特征与预先生成的视觉词典中视觉词的相似关系,将每一分类图像特征量化为所述视觉词典中的多个视觉词,并确定每一分类图像特征分别与其量化后的视觉词的相似系数;
依据视觉词典中每一视觉词对应不同分类图像特征的相似系数,确定视觉词的权重以建立该待分类图像的分类视觉词直方图;
将所述分类视觉词直方图输入预先根据大量样本图像所建立的样本视觉词直方图进行训练生成的图像分类器中,根据输出结果确定所述待分类图像的类别。
优选地,所述依据每一分类图像特征与预先生成的视觉词典中视觉词的相似关系,将每一分类图像特征量化为所述视觉词典中的多个视觉词,并确定每一分类图像特征分别与其量化后的视觉词的相似系数包括:
依据每一分类图像特征与预先生成的视觉词典中视觉词的相似关系,按照稀疏编码方式,构建所述分类图像特征与所述预先生成的视觉词典的稀疏编码模型;
通过求解所述稀疏编码模型,将每一分类图像特征量化为所述视觉词典中多个视觉词,并得出每一分类图像特征与其量化后视觉词的相似系数;
所述稀疏编码模型具体为:
arg C min Σ i = 1 N | | X i - BC i | | + λ | | C i | | l 1 ;
其中,B代表视觉词典,Xi代表分类图像特征,Ci代表每一分类图像特征与每一视觉词的相似系数所组合的数据集,N表示分类图像特征个数,i=1,2,...,N,λ为约束系数,表示Ci中元素相加的和值;该稀疏编码模型用于求解该模型取最小值时Ci的值。
优选地,所述依据每一分类图像特征与预先生成的视觉词典中视觉词的相似关系,将每一分类图像特征量化为所述视觉词典中的多个视觉词,并确定每一分类图像特征分别与其量化后的视觉词的相似系数包括:
依据每一分类图像特征与预先生成的视觉词典中视觉词的相似关系,计算每一分类图像特征与所述视觉词典中的各视觉词的欧式距离;
针对每一分类图像特征,确定与其最小欧式距离所对应的,以及与所述最小欧式距离相差预设倍数范围的欧式距离所对应的视觉词,作为每一分类图像特征量化后的视觉词;
依据每一分类图像特征与其量化后的视觉词的欧式距离大小,计算每一分类图像特征与其量化后的视觉词的相似系数。
优选地,所述依据所述每一视觉词对应不同分类图像特征的相似系数,确定视觉词权重以建立该分类图像的分类视觉词直方图具体为:
将所述每一视觉词对应不同分类图像特征的相似系数累加,计算得到每一视觉词的权重,以建立该分类图像分类视觉词直方图。
优选地,所述依据所述每一视觉词对应不同分类图像特征的相似系数,确定视觉词的权重以建立分类视觉词直方图包括:
将所述待分类图像,按照图像金字塔算法划分为多个子图像;
确定每一子图像包含的分类图像特征;
将每一视觉词对应每一子图像中所包括的不同分类图像特征的相似系数进行累加,计算得出对应每一子图像的视觉词的权重,建立各子图像的子分类视觉词直方图;
组合所述每一子分类视觉词直方图,形成该待分类图像的分类视觉词直方图。
优选地,所述按照图像金字塔算法划分为多个子图像具体为:
按照图像金字塔算法将所述待分类图像划分为多层空间图像;
分别针对每层空间图像进行子图像划分,形成多个子图像。
优选地,所述预先生成的视觉词典是根据所述大量样本图像提取的样本图像特征进行聚类得到的。
本申请公开了一种图像分类装置,包括:
特征提取模块,用于提取一待分类图像的分类图像特征;
量化确定模块,用于依据每一分类图像特征与预先生成的视觉词典中视觉词的相似关系,将每一分类图像特征量化为所述视觉词典中的多个视觉词,并确定每一分类图像特征分别与其量化后的视觉词的相似系数;
建立模块,用于依据每一视觉词对应不同分类图像特征的相似系数,确定视觉词权重以建立分类视觉词直方图;
分类模块,用于将所述分类视觉词直方图输入预先根据大量样本图像所建立的样本视觉词直方图进行训练生成的图像分类器中,根据输出结果确定所述待分类图像的类别。
优选地,所述量化计算模块包括:
模型构建模块,用于依据每一分类图像特征与预先生成的视觉词典中视觉词的相似关系,按照稀疏编码方式,构建所述分类图像特征与所述预先生成的视觉词典的稀疏编码模型;
量化计算模块,用于通过求解所述稀疏编码模型,将每一分类图像特征量化为所述视觉词典的多个视觉词,并得出每一分类图像特征与其量化后的视觉词的相似系数;
所述稀疏编码模型具体为:
arg C min Σ i = 1 N | | X i - BC i | | + λ | | C i | | l 1 ;
其中,B代表视觉词典,Xi代表分类图像特征,Ci代表每一分类图像特征与每一视觉词的相似系数所组合的数据集,N表示分类图像特征个数,i=1,2,...,N,λ为约束系数,表示Ci中元素相加的和值;该稀疏编码模型用于求解该模型取最小值时Ci的值。
优选地,所述量化计算模块包括:
第一计算模块,用于依据每一分类图像特征与预先生成的视觉词典中视觉词的相似关系,计算每一分类图像特征分别与所述视觉词典中的视觉词的欧式距离;
量化模块,用于针对每一分类图像特征中,确定与其最小欧式距离所对应的,以及与所述最小欧式距离相差预设倍数范围的欧式距离所对应的视觉词,作为每一分类图像特征量化后的视觉词;
第二计算模块,用于根据每一分类图像特征与其所量化的视觉词的欧式距离的大小,计算分类图像特征与其量化后的视觉词的相似系数。
优选地,所述建立模块具体用于将每一视觉词对应不同分类图像特征的相似系数累加,计算得出每一视觉词的权重,根据所述视觉词权重建立分类视觉词直方图。
优选地,所述建立模块包括:
划分模块,用于将所述待分类图像,按照图像金字塔算法划分为多个子图像;
第一建立模块,用于确定每一子图像包含的分类图像特征,并将每一视觉词对应每一子图像中所包括的不同分类图像特征的相似系数进行累加,计算得出每一子图像的视觉词的权重,建立各子图像的子分类视觉词直方图;
第二建立模块,用于组合所述每一子分类视觉词直方图,形成分类视觉词直方图。
优选地,所述划分模块包括:
图像层划分模块,用于按照图像金字塔算法将所述待分类图像划分为多层图像;
子图像划分模块,用于分别针对每层图像进行子图像划分,形成多个子图像。
与现有技术相比,本申请包括以下优点:
在本申请中,将提取的待分类图像的分类图像特征量化为多个视觉词,并确定待分类图像特征与其量化后的视觉词的相似系数,依据该相似系数建立分类视觉词直方图。由于分类图像特征量化为多个视觉词,并通过相似系数表示分类图像特征与量化后视觉词的相似度,一方面使得建立的视觉词直方图能够更准确表示该待分类图像,另一方面即便图像出现畸变,由于图像特征不只量化为一个视觉词,而是多个视觉词,因此可以减少由于量化错误导致的分类误差,从而提高了图像分类的准确性。
当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请的一种图像分类方法实施例1的流程图;
图2是本申请中一种图像分类方法实施例2的流程图;
图3是本申请中一种图像分类方法实施例3的流程图;
图4是本申请的一种图像分类方法实施例4的流程图;
图5是本申请的一种图像分类装置实施例1的结构框图;
图6是本申请的一种图像分类装置实施例2的结构框图;
图7是本申请的一种图像分类装置实施例3的结构框图;
图8是本申请的一种图像分类装置实施例4的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本申请的主要思想之一可以包括,针对待分类图像,首先提取该待分类图像的分类图像特征,并将每一分类图像特征量化为预先生成的视觉词典中的多个视觉词,并确定分类图像特征与其量化后的视觉词的相似系数,然后依据每一视觉词对应不同分类图像特征的相似系数,确定视觉词的权重以建立分类视觉词直方图;将该分类视觉词直方图输入预先根据大量样本图像所建立的样本视觉词直方图进行训练生成的图像分类器中,根据输出结果即可确定图像的类别,从而实现了图像分类。每一分类图像特征量化为多个视觉词,可以由多个视觉词表示,提高了视觉词表示分类图像特征的准确性,因此所建立的分类视觉词直方图更能准确表达该待分类图像,从而使得图像分类的准确性提高,而且由多个视觉词表示分类图像特征,可以减少由于量化错误带来的分类误差,进一步提高了图像分类的准确性。
参考图1,示出了本申请一种图像分类方法实施例1的流程图,可以包括以下步骤:
步骤101:提取一待分类图像的分类图像特征。
在需要进行图像分类时,首先输入待分类的图像,针对每一待分类图像提取其分类图像特征。
其中,所述的分类图像特征具体为图像局部特征,可以是通过SIFT(Scale-invariantfeaturetransform,尺度不变特征转换)算法提取的SIFT特征,SIFT特征具有尺度、旋转不变性,对视角变化、仿射变换、噪声也保持一定程度的稳定性。
当然,本申请实施例还可以选用其他算法,提取具有不同特点的局部特征,例如haar特征、hog特征等,本申请实施例并不对此作出限制。
在实际应用中,图像特征通常以向量形式表示,例如,一幅图像可以提取5个图像特征,每一图像特征表示为一3维的向量,例如分别为(1,1,1),(2,2,2),(1,1,2),(3,3,3),(2,1,3)。当然提取的图像特征个数以及每一特征的向量维度与具体的特征提取算法和图片的尺寸有关,例如以提取SIFT特征为例,SIFT特征的向量维度通常为128维,一幅尺寸为800*600大小的图像可能会提取5000~10000个128维的图像特征。
步骤102:依据每一分类图像特征与预先生成的视觉词典中视觉词的相似关系,将每一分类图像特征量化为所述视觉词典中的多个视觉词,并确定每一分类图像特征与其量化后的视觉词的相似系数。
本申请实施例所述的图像分类方法是基于视觉词典的图像分类方法,通过视觉词典,可以将待分类图像近似表示为视觉词直方图。
其中,视觉词典包括不同的视觉词,每一视觉词可代表一类特征,其是根据大量的样本图像所提取的样本图像特征,进行聚类所得到的,具体过程可以如下所述:
首先提取所有样本图像的样本图像特征,所述样本图像是已标注好类别的样本图像。其中,特征提取的过程需要与步骤101的操作相同。
根据预先设置的视觉词典包含的视觉词个数,采用聚类方式对提取的图像特征进行聚类,聚类中心的值即为视觉词。
例如已确定类别的样本图像有10幅,所述的样本图像可以包括多种类别,例如车辆、风景等,每幅图像可提取100个特征,则将会提取1000个样本图像特征。假设所设置的视觉词典的视觉词个数为10,则采用聚类算法将提取的1000个图像特征进行聚类,可以形成包含10个视觉词的视觉词典,该10个视觉词可以代表具体的类别,例如车胎、树叶等。聚类是指将物理或抽象对象的集合分成由类似的对象组成的多个类的过程,聚类中心即为视觉词典的视觉词,其是由若干特征通过聚类算法计算得出,聚类算法可以选用K-means算法等。由此可以看出每一视觉词也是多维向量,其维度与图像特征维度相同。
由于图像特征、以及视觉词都是以向量形式表式,每一分类图像特征与视觉词典中视觉词的存在以下相似关系,可以以线性表达式表示为:Xi≈B*Ci,Xi即代表图像特征,B为视觉词典,Ci即是每一分类图像特征分别与每一视觉词的相似系数所组成的数据集。其中Ci中的组成的数据集,可以向量形式表示,与视觉词典为一一映射的关系。例如,视觉词典B={b1、b2、b3、b4},则相应的Ci={Ci1、Ci2、Ci3、Ci4}。则Xi≈b1*Ci1+b2*Ci2+b3*Ci3+b4*Ci4
假设X1量化后的视觉词为b1、b3和b4,并确定与量化后的视觉词的相似系数C11、C13和C14分别为0.6、0.3、0.1,则该分类图像特征与每一视觉词的相似系数组合即为{0.6、0、0.3、0.1}。
其中,所述的相似系数代表每一分类图像特征分别与每一视觉词的相似程度。
将每一分类图像特征量化为多个视觉词,以及确定与其量化后的视觉词的相似系数,具体可以采用多种方式,在下面实施例中会详细介绍。
步骤103:依据所述每一视觉词对应不同分类图像特征的相似系数,确定视觉词权重以建立分类视觉词直方图。
由步骤102可知,对每一分类图像特征均可以计算出其与量化后的视觉词的相似系数,也即每一视觉词与不同的分类图像特征,分别对应有相似系数。
依据视觉词对应的不同的分类图像特征的相似系数,确定视觉词权重,即可建立该待分类图像的分类视觉词直方图。
确定视觉词权重以建立分类视觉词直方图,一种实施方式是:将每一视觉词对应的不同分类图像特征的全部相似系数进行累加,和值作为视觉词的权重。由各视觉词分别对应的权重组成数据集,形成多维向量,即为该待分类图像对应的分类视觉词直方图。
举例说明,假设待分类图像提取出三个分类图像特征,分别为X1、X2和X3,视觉词典B包括四个视觉词分别为b1、b2、b3和b4。特征X1与每一视觉词的相似系数为{0.6、0、0.3、0.1},特征X2与每一视觉词的相似系数为{0.2、0.4、0.3、0.1},特征X3与每一视觉词的相似系数为{0.2、0.2、0.3、0.3},也即视觉词b1其对应的全部相似系数为0.6、0.2、0.2,累加得到b1的权重为1。以此类推,所述视觉词b2的权重为0.6,所述视觉词b3的权重为0.9,所述视觉词b4的权重为0.5。由于分类视觉词直方图是由各视觉词对应的权重形成数据集,因此最终建立的分类视觉词直方图即为{1、0.6、0.9、0.5}。
另一种实施方式:将待分类图像划分为多个子图像,首先计算视觉词对应每一子图像的权重,建立子图像的子分类视觉词直方图,然后再将各子分类视觉词直方图组合形成分类视觉词直方图,具体过程中在下面实施例中会详细介绍。
需要说明的是,所述的相似系数中各个数值可以用于表示分类图像特征与各视觉词的相似程度,相似系数还可以是其他数值,需要满足各相似系数之间的比例不变即可。
步骤104:将所述分类视觉词直方图输入预先根据大量样本图像所建立的样本视觉词直方图进行训练生成的图像分类器中,根据输出结果确定所述待分类图像的类别。
分类器是通过机器学习后,能够自动确定图像类别的一种机器模型,常见的分类器有支持向量机模型、决策树模型等。所述预先训练生成的图像分类器即是根据大量的样本图像,利用机器学习算法,生成相应的分类模型,以能够实现图像的分类。
需要说明的是,所述预先生成的图像分类器是根据大量样本图的所建立的样本视觉词直方图进行训练生成的,本领域技术人员可知的是,所述样本视觉词直方图建立过程与待分类图像的视觉词直方图的建立过程必须是按照相同的操作来实现的,以能够实现图像分类。
因此,下面简述所述图像分类器的生成过程:
A11:依据每一样本图像特征与预先生成的视觉词典中视觉词的相似关系,将每一样本图像特征量化为所述视觉词典中的多个视觉词,并确定每一样本图像特征分别与其量化后的视觉词的样本相似系数。
由步骤102可知,所述视觉词典是根据大量的样本图像所提取的样本图像特征,进行聚类所生成的。图像分类器也是基于所述的样本图像进行训练生成的。
根据选取的样本图像的类别,可以将图像分类器训练为不同种类的分类器,例如样本图像包括车辆、风景以及人物,最终生成的图像分类器即是一个三类分类器,可以实现车辆类、风景类以及人物类的图像的分类。
将每一样本图像特征量化为多个视觉词,并计算每一样本图像特征与其量化后的视觉词的样本相似系数。该过程与分类图像特征与视觉词的相似系数的计算操作相同。
A12:根据每一视觉词对应每一样本图像所包含的不同样本训练特征的样本相似系数,确定视觉词的样本权重以建立每一样本图像的样本视觉词直方图。
A13:根据每一样本视觉词直方图,利用机器学习算法,训练生成图像分类器。
建立好每一样本图像的样本视觉词直方图,即可以通过机器学习,训练生成图像分类器。
将所述分类视觉词直方图输入按照上述步骤预先生成的图像分类器中,根据图像分类器的输出结果即可确定该图像的分类,例如所训练的图像分类器为一个三类分类器时,输出结果包括A、B、C,A代表车辆类、B代表树木类、C代表人物类。若输出结果为A,则表明该图像属于车辆类别的图像。
需要说明的,由于待分类图像有很多,针对每一待分类图像均可以按照上述操作执行分类过程,最终即可实现大量待分类图像的分类。
在本实施例中,将每一分类图像特征量化为多个视觉词,并确定出每一分类图像特征与其量化后的视觉词的相似系数,然后根据视觉词对应的不同相似系数建立视觉词直方图,由于每一分类图像特征可量化多个视觉词,即可以由多个视觉词表示一分类图像特征,提高了视觉词表示分类图像特征的准确性,因此所建立的分类视觉词直方图更能准确表达该待分类图像,从而使得图像分类的准确性提高,而且由多个视觉词表示分类图像特征,可以减少由于量化错误带来的分类误差,进一步提高了图像分类的准确性。
参见图2,示出了本申请一种图像分类方法实施例2的流程图,所述方法可以包括:
步骤201:提取一待分类图像的分类图像特征。
步骤202:依据每一分类图像特征与预先生成的视觉词典中的视觉词的相似关系,将每一分类图像特征量化为所述视觉词典中的多个视觉词,并确定每一分类图像特征分别与其量化后的视觉词的相似系数。
步骤203:将所述待分类图像,按照图像金字塔算法划分为多个子图像。
为了使得视觉词直方图能够表示待分类图像的空间信息,本实施例中,将待分类图像进行空间划分,划分为多层空间子区域,每一层空间子区域即是一个空间图像,针对每一空间图像,再进行子图像划分,划分为多个子图像。
在本实施例中,具体的是采用图像金字塔算法进行划分,例如利用M层图像金字塔进行划分,可以将一幅原始图像划分为M层的空间图像,每一层空间图像再按照4N进行子图像划分,N取值为0、1、2...M-1。也即第一层空间图像按照40进行划分,形成1个子图像,第二层空间图像按照41进行划分,形成4个子图像,第三层空间图像划分为16个子图像,第M层空间图像则划分为4M-1个子图像。所述的M和N值可以根据实际情况具体选定。
将待分类图像划分为多层空间图像后,每一层空间图像均包含所提取的分类图像特征,进行子图像划分后,分类图像特征也相应进行了划分。例如提取的分类图像特征包括X1、X2、X3、X4、X5,第一层空间图像其即为一个子图像,包括所述五个分类图像特征。第二层空间图像假设划分为4个子图像,特征X1、X2可能位于该第二层空间图像的第一个子图像中,X3、X4、X5可能位于该第二层空间图像的第二个子图像中,第三个以及第三个子图像不包含分类图像特征。第三层空间图像划分为16个子图像,则每一个分类图像特征可能位于不同的该第三层空间图像的不同子图像中。
步骤204:确定每一子图像包含的分类图像特征,并将每一视觉词对应每一子图像中所包括的不同分类图像特征的相似系数进行累加,计算得出对应每一子图像的视觉词的权重,建立每一子图像的子分类视觉词直方图。
由步骤203中可知,进行图像划分后,不同层的不同子图像所包含的分类图像特征也不同,因此首先确定每一子图像中都包含哪些提取出的分类图像特征,然后建立每一子图像的子分类视觉词直方图。首先计算每一子图像所对应的视觉词的子权重,将各视觉词的子权重作为视觉词直方图的数据,从而建立子分类视觉词直方图。
步骤205:组合所述每一子分类视觉词直方图,形成该分类图像的分类视觉词直方图。
由于分类子视觉词直方图是由多个数据形成的数据值,以向量形式表示,所述组合所述每一子分类视觉词直方图,也即将每一子分类视觉词直方图的数据集合在一起,形成一个高维的向量。
下面举例来说明该分类视觉词直方图的建立过程:
假设从待分类图像中提取出3个分类图像特征,以X1、X2、X3表示,视觉词典包括4个视觉词分别为b1、b2、b3和b4,经过步骤202之后,可以计算出特征X1、X2、X3分别与视觉词b1、b2、b3、b4的第一相关系数,因此得到X1对应的第一相关系数组合为{0.6、0、0.3、0.1},X2对应的第一相关系数组合为{0.2、0.4、0.3、0.1},X3对应的第一相关系数组合为{0、0、0.3、0.7}。
假设采用2层图像金字塔进行图像划分,且第二层空间图像被划分为4个子图像。
因此针对第一层空间图像,所建立的第一子视觉词直方图为{0.8、0.4、0.9、0.9};
针对第二成层空间图像,假设分类图像特征X1、X2位于该第二层空间图像的所划分的第一个子图像中,X3位于该第二层空间图像的所划分的第二个子图像中,则每一个子图像所生成的第一子视觉词直方图分别为{0.8、0.4、0.6、0.2},{0、0、0.3、0.7},{0、0、0、0},{0、0、0、0}。
每一第一子视觉词直方图均为一个4维的向量。组合所述每一第一子视觉词直方图后,形成的最终的分类视觉词直方图为{0.8、0.4、0.9、0.9,0.8、0.4、0.6、0.2,0、0、0.3、0.7,0、0、0、0}是一个20维的向量。
需要说明的是,在本申请实施例中,为了描述清楚而举的例子中包括的数值并不是实际应用中具体的数据,在实际应用,视觉词典将包含大量的视觉词,每一待分类图像所提取的分类图像特征也是大量的,每一图像特征通常都是一高维的向量。限于篇幅限制,本申请实施例只是示范性的举例说明。
进行图像分层和子图像的划分,增加了图像特征的空间信息,也即各特征点的位置关系,且每一子图像均可以表示为子分类视觉词直方图,最终形成的分类视觉词直方图增加了分类图像的空间信息,从而可以使得该分类视觉词直方图能够更准确表达待分类图像,因此进一步提高了图像分类的准确性。
步骤206:将所述分类视觉词直方图输入预先根据所述大量样本图像所建立的样本视觉词直方图进行训练生成的图像分类器中,根据输出结果确定所述待分类图像的类别。
本实施例中,该预先训练生成的图像分类器也即通过将样本图像按照上述的分类视觉词直方图建立方式构建样本视觉词直方图,并根据每一样本视觉词直方图,利用机器学习算法来生成的。
该图像分类器预先训练生成的方式简单描述如下:
B21:依据每一样本图像特征与预先生成的视觉词典中视觉词的相似度,将每一样本图像特征量化为所述视觉词典中的多个视觉词,并计算每一样本图像特征分别与其量化后的视觉词的样本相似系数
B22:针对每一样本图像,执行下述操作:
将一样本图像,按照图像金字塔算法划分为多个子样本图像。
确定每一子样本图像包含的样本图像特征,并根据每一视觉词对应每一子样本图像所包含的不同样本图像特征的样本相似系数,计算每一子样本图像所对应的视觉词的子样本权重,建立子样本视觉词直方图。
组合所述每一子样本视觉词直方图,形成样本视觉词直方图。
B23:根据每一样本视觉词直方图,通过机器学习,训练生成图像分类器。
在本实例中,通过将待分类图像按照图像金字塔算法进行了划分,划分为多个子图像,建立子图像的子视觉词直方图,然后由子视觉词直方图组合成分类视觉词直方图,由于每一分类图像特征可量化为多个视觉词,而子图像的划分又增加了图像特征的空间信息,因此使得最终建立的分类视觉词直方图能够准确表示待分类图像,进一步提高了图像分类的准确性。
参见图3,示出了本申请一种图像分类方法实施例3的流程图,所述方法可以包括:
步骤301:提取一待分类图像的分类图像特征。
步骤302:依据每一分类图像特征与预先生成的视觉词典中的视觉词的相似关系,按照稀疏编码方式,构建所述分类图像特征与所述预先生成的视觉词典的稀疏编码模型。
稀疏编码是是一种多维数据描述方法,其是根据仿真人脑皮层视觉神经元的工作原理来进行的数据描述,因此其数据描述方式更准确。
分类图像特征与视觉词典的视觉词之间存在如下相似关系:Xi≈B*Ci。因此为了准确求解Ci的值,本实施例按照稀疏编码方式,首先构建的稀疏编码模型,具体为:
arg C min Σ i = 1 N | | X i - BC i | | + λ | | C i | | l 1 ;
其中,B代表视觉词典,其是由不同视觉词形成的空间数据集,以向量形式表示;Xi代表分类图像特征,以向量形式表示;Ci代表每一分类图像特征与每一视觉词的相似系数的数据集合,其是以向量形式表示;N表示分类图像特征个数,i=1,2,...,N,λ为约束系数,在一种实际应用中,其值可以取为500。表示Ci中元素相加的和值;
该稀疏编码模型所表达的意义是该模型的值为最小时,求解Ci的值。
步骤303:通过求解所述稀疏编码模型,将每一分类图像特征量化为所述视觉词典中的多个视觉词,并得出每一分类图像特征与其量化后的视觉词的相似系数。
该稀疏编码模型的求解可以采用数学优化方式求解,例如最小二乘法,以最小二乘法为例,该稀疏编码模型等价于:
M = Σ i = 1 N | | X i - BC i | | + λ | | C i | | l 1 ;
利用最小二乘法,求解M为最小值时,Ci的取值,Ci中的数据即为分类图像特征Xi与视觉词典中各个视觉词的相似系数。
假设视觉词典B包括四个视觉词分别为b1、b2、b3和b4,对于分类图像特征X1,其求解出的C1为{0、0、0.4、06};则表示该分类图像特征可以量化为视觉词b3和b4,与视觉词b3和视觉词b4的相似系数分别为0.4和0.6,与其他未作为量化的视觉词的视觉词b1和b2的相似系数即为0。
通过稀疏编码模型,可以确定每一分类图像特征与视觉词的相似系数,可以将每一分类图像特征表示为多个视觉词的线性组合,。通过所述稀疏编码模型可以实现每一分类图像特征可以量化为多个视觉词,并能够求解出的相似系数,从而能够更准确的表示分类图像特征。
步骤304:将所述待分类图像,按照图像金字塔算法划分为多个子图像。
步骤305:确定每一子图像包含的分类图像特征,并将每一视觉词对应每一子图像中所包括的不同分类图像特征的相似系数进行累加,计算得出对应每一子图像的视觉词的权重,建立每一子图像的子视觉词直方图。
步骤306:组合所述每一子分类视觉词直方图,形成分类视觉词直方图。
步骤307:将所述分类视觉词直方图输入预先根据所述大量样本图像所建立的样本视觉词直方图进行训练生成的图像分类器中,根据输出结果确定所述待分类图像的类别。
本实施例中,该预先训练生成的图像分类器也即通过将样本图像按照上述的分类视觉词直方图建立方式构建样本视觉词直方图,并根据每一样本视觉词直方图,利用机器学习算法来生成的。
该图像分类器预先训练生成的方式简单描述如下:
C31:依据每一样本图像特征与预先生成的视觉词典中的视觉词的相似关系,按照稀疏编码方式,构建每一样本图像特征与所述预先生成的视觉词典的稀疏编码模型。
C32:通过求解所述稀疏编码模型,将每一样本图像特征量化为所述视觉词典中多个视觉词,并得出每一样本图像特征与其量化后的视觉词的样本相似系数。
C33:针对每一样本图像,执行下述操作:
将一样本图像,按照图像金字塔算法划分为多个子样本图像。
确定每一子样本图像包含的样本图像特征,并根据每一视觉词对应每一子样本图像所包含的不同样本图像特征的样本相似系数,计算每一子样本图像所对应的视觉词的子样本权重,建立子样本视觉词直方图。
组合所述每一子样本视觉词直方图,形成样本视觉词直方图。
C34:根据每一样本视觉词直方图,通过机器学习,训练生成图像分类器。
在本实例中,通过稀疏编码模型,可以将每一分类图像特征量化为多个视觉词,并可以求解与其量化的视觉词的相关系数,增加了相关系数计算的精确度,使其能准确表示视觉词与图像特征之间的相似关系,同时将待分类图像按照图像金字塔算法进行了划分,增加了特征的空间信息,因此使得最终建立的分类视觉词直方图能够更准确表达待分类图像,进一步提高了图像分类的准确性。
参见图4,示出了本申请一种图像分类方法实施例4的流程图,所述方法可以包括:
步骤401:提取一待分类图像的分类图像特征。
步骤402:依据每一分类图像特征与预先生成的视觉词典中的视觉词的相似关系,计算每一分类图像特征与预先生成的视觉词典中每一视觉词的欧式距离。
分类图像特征与每一视觉词的相似系数可以通过计算每一分类图像特征与每一视觉词的欧式距离来确定,因此依据分类图像特征与视觉词的相似关系式:Xi≈B*Ci,首先计算Xi与B中每一视觉词的欧式距离,以确定Ci中的值。
图像特征是以向量形式表示的,例如SIFT特征是一个128维的向量。视觉词是由图像特征进行聚类得到,因此其也是以与图像特征相同维数的向量表示的。其中,欧式距离是指多维空间中两点之间的距离,本实例中,将分类图像特征和视觉词作为向量空间中的两个点,欧式距离可以表示分类图像特征与视觉词的相似度,欧式距离越小,表示视觉词与分类图像特征越相似。
例如,假设图像特征和视觉词均为三维向量,分别为(1,1,3)、(2,0,5),则欧式距离即是指 ( 2 - 1 ) 2 + ( 0 - 1 ) 2 + ( 5 - 3 ) 2 = 6 .
步骤403:针对每一分类图像特征中,确定与其最小欧式距离所对应的,以及与所述最小欧式距离相差预设倍数范围的其他欧式距离所对应的视觉词,作为每一分类图像特征量化后的视觉词。
具体的,针对每一个分类图像特征,执行以下操作:
确定根据分类图像特征所计算出的欧式距离中的最小欧式距离,将该最小欧氏距离对应的视觉词作为该分类图像特征的一量化视觉词。
将根据该分类图像特征所计算出的其他欧式距离,与该最小欧氏距离进行比较,确定与所述最小欧式距离相差预设倍数范围的欧式距离所对应的视觉词,作为该分类图像特征的其他量化视觉词。
该预设倍数范围根据实际情况具体限定,例如视觉词典包括b1、b2、b3、b4和b5五个视觉词,针对一个分类图像特征,计算得出其与每一视觉词,即与b1、b2、b3、b4和b5的欧式距离分别为6、4、8、2、10,最小欧式距离为2,其他欧式距离与该最小欧式距离进行比较后,相差的倍数分别为2、1、3、4,若所述预设倍数范围为1~3倍,则可最终确定欧式距离6、4、8、2分别对应的视觉词b1、b2、b3、b4为分类图像特征量化的视觉词。
步骤404:根据每一分类图像特征与其所量化的视觉词的欧式距离的大小,计算分类图像特征与其量化后的视觉词的相似系数。
分类图像特征与视觉词典中的未作为其量化后的视觉词的视觉词的相似系数即为0,因此只需计算分类图像特征与其量化后的视觉词的相似系数即可。
欧式距离越小,其相应对应的相似系数即越大。根据欧式距离大小计算相似系数可以采用多种方式,下面介绍一种实现方式:仍以步骤302所举例子为例:所确定的该分类图像特征与其量化的视觉词的欧式距离分别为6、4、8、2,欧式距离之间的比例关系为0.3∶0.2∶0.4∶0.1。根据欧式距离越小,分类图像特征与视觉词的越相似,因此确定该分类图像特征与视觉词b1的相似系数为0.2,与视觉词b2的相似系数为0.3,与视觉词b3的相似系数为0.4,与视觉词b4的相似系数为0.4。因此可确定该分类图像特征所对应每一视觉词的相似系数即为:0.3、0.2、0.4、0.1、0。0为该分类图像特征与视觉词b5的相似系数。
欧式距离越小,表明分类图像特征与该欧式距离所对应的视觉词越接近,因此其相似系数值也较大。
需要说明的是,采用不同方式计算得出的相似系数具体数值可能会不同,由于均能够体现出视觉词与分类图像特征的接近程度,因此并不会影响分类的准确性。
步骤405:将所述待分类图像,按照图像金字塔算法划分为多个子图像。
步骤406:确定每一子图像包含的分类图像特征,将每一视觉词对应每一子图像所包括的不同分类图像特征的相似系数进行累加,计算得出对应每一子图像的视觉词的权重,建立各子图像的子分类视觉词直方图。
步骤407:组合所述每一子分类视觉词直方图,形成分类视觉词直方图。
步骤408:将所述分类视觉词直方图输入预先训练生成的图像分类器中,根据输出结果确定所述待分类图像的类别。
本实施例中,预先训练生成的图像分类器也即是通过将样本图像按照上述的分类视觉词直方图建立方式构建样本视觉词直方图,并根据大量样本视觉词直方图,利用机器学习算法来生成的。
该图像分类器训练生成的方式简单描述如下:
D41:依据每一样本图像特征与预先生成的视觉词典中的视觉词的相似关系,计算每一训练图像特征与预先生成的视觉词典中每一视觉词的欧式距离。
D42:确定每一训练图像特征中,最小欧式距离所对应的,以及与所述最小欧式距离相差预设倍数范围的其他欧式距离所对应的量化视觉词。
D43:根据每一训练图像特征与其所量化的视觉词的欧式距离大小,计算每一训练图像特征与其量化后的视觉词的样本相似系数。
D44:针对每一样本图像,执行下述操作:
将一样本图像,按照图像金字塔算法划分为多个子样本图像。
确定每一子样本图像包含的样本图像特征,并根据每一视觉词对应每一子样本图像所包含的不同样本图像特征的样本相似系数,计算对应每一子样本图像的视觉词的子样本权重,建立子样本视觉词直方图。
组合所述每一子样本视觉词直方图,形成样本视觉词直方图。
D45:根据每一样本视觉词直方图,通过机器学习,训练生成图像分类器。
在本实施中,通过计算欧式距离的大小确定分类图像特征与视觉词的相似度,并根据该欧式距离可将分类图像特征量化为多个视觉词,并可以确定其相似系数,由于量化为多个视觉词,使得所建立的分类视觉词直方图更能够准确表达分类图像,因此提高了图像分类的准确性,且将待分类图像进行子图像划分,增加了图像特征之间空间信息,增加了分类视觉词直方图的准确性,进一步提高了图像分类的准确性。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
与上述本申请一种图像分类方法实施例1所提供的方法相对应,参见图5,示出了本申请一种图像分类装置实施例1的结构示意图,该装置可以包括:
特征提取模块501,用于提取一待分类图像的分类图像特征。
其中,所述的分类图像特征具体为图像局部特征,可以是通过SIFT(Scale-invariantfeaturetransform,尺度不变特征转换)算法提取的SIFT特征,SIFT特征具有尺度、旋转不变性,对视角变化、仿射变换、噪声也保持一定程度的稳定性。
量化确定模块502,用于依据每一分类图像特征与预先生成的视觉词典中各视觉词的相似关系,将每一分类图像特征量化为所述视觉词典中的多个视觉词,并确定每一分类图像特征分别与其量化后视觉词的相似系数。
所述的视觉词词典是预先根据大量样本图像提取的样本图像特征进行聚类而生成的。
由于图像特征、以及视觉词都是以向量形式表式,每一分类图像特征与视觉词典中视觉词的存在以下相似关系,可以以线性表达式表示为:Xi≈B*Ci,Xi即代表图像特征,B为视觉词典,Ci即是每一分类图像特征分别与每一视觉词的相似系数所组成的数据集。
建立模块503,用于根据每一视觉词对应的不同分类图像特征的相似系数,确定视觉词权重以建立分类视觉词直方图。
其中所述的建立模块可以具体将每一视觉词对应的不同分类图像特征的相似系数累加,计算得出对应该待分类图像的各视觉词的权重,根据所述权重值建立分类视觉词直方图。
也即将每一视觉词的权重组合成数据集,形成向量,即为分类视觉词直方图。
分类模块504,用于将所述分类视觉词直方图输入预先根据大量样本图像所建立的样本视觉词直方图进行训练生成的图像分类器中,根据输出结果确定所述待分类图像的类别。
分类器是通过机器学习后,能够自动确定图像类别的一种机器模型,常见的分类器有支持向量机模型、决策树模型等。所述预先训练生成的图像分类器即是根据大量的样本图像,利用机器学习算法,生成相应的分类模型,以能够实现图像的分类。
需要说明的是,所述预先生成的图像分类器是根据大量样本图的所建立的样本视觉词直方图进行训练生成的,本领域技术人员可知的是,所述样本视觉词直方图建立过程与待分类图像的视觉词直方图的建立过程必须是按照相同的操作来实现的,以能够实现图像分类。
本实施所述的图像分类器的生成过程可具体参见方法实施例1所述,在此不再赘述。
在本实施例中,将每一分类图像特征量化为多个视觉词,并确定出每一分类图像特征与其量化后的视觉词的相似系数,然后根据视觉词对应的不同相似系数建立视觉词直方图,由于每一分类图像特征可量化多个视觉词,即可以由多个视觉词表示一分类图像特征,提高了视觉词表示分类图像特征的准确性,因此所建立的分类视觉词直方图更能准确表达该待分类图像,从而使得图像分类的准确性提高,而且由多个视觉词表示分类图像特征,可以减少由于量化错误带来的分类误差,进一步提高了图像分类的准确性。
与上述本申请一种图像分类方法实施例2所提供的方法相对应,参见图6,本申请还提供了一种图像分类装置实施例1,该装置可以包括:
特征提取模块601,用于提取一待分类图像的分类图像特征。
量化确定模块602,用于依据每一分类图像特征与预先生成的视觉词典中视觉词的相似关系,将每一分类图像特征量化为所述视觉词典中的多个视觉词,并确定每一分类图像特征分别与其量化后视觉词的相似系数。
划分模块603,用于将所述待分类图像,按照图像金字塔算法划分为多个子图像。
为了使得视觉词直方图能够表示待分类图像的空间信息,本实施例中,将待分类图像进行空间划分,划分为多层空间子区域,每一层空间子区域即是一个空间图像,针对每一空间图像,再进行子图像划分,划分为多个子图像,具体的是采用图像金字塔算法进行划分。
其中,所述的划分模块具体包括:
图像层划分模块,用于按照图像金字塔算法将所述待分类图像划分为多层图像。
子图像划分模块,用于分别针对每层图像进行子图像划分,形成多个子图像。
第一建立模块604,用于确定每一子图像包含的分类图像特征,并将每一视觉词对应每一子图像中所包括的不同分类图像特征的相似系数进行累加,计算得出对应每一子图像的视觉词的子权重,建立每一子图像的子分类视觉词直方图;
进行图像划分后,不同层的不同子图像所包含的分类图像特征也不同,因此首先确定每一子图像中都包含哪些提取出的分类图像特征,然后建立每一子图像的子分类视觉词直方图。其建立过程也是按照分类视觉词直方图的建立方式构建,即首先计算每一子图像所对应的视觉词的子权重,根据该子权重建立子分类视觉词直方图。
第二建立模块605,用于组合所述每一子分类视觉词直方图,形成分类视觉词直方图。
由于分类子视觉词直方图是由多个数据形成的数据值,以向量形式表示,所述组合所述每一子分类视觉词直方图,也即将每一子分类视觉词直方图的数据集合在一起,形成一个高维的向量。
进行图像分层和子图像的划分,增加了图像特征的空间信息,也即各特征点的位置关系,且每一子图像均可以表示为子分类视觉词直方图,最终形成的分类视觉词直方图增加了分类图像的空间信息,从而可以使得该分类视觉词直方图能够更准确表达待分类图像,因此进一步提高了图像分类的准确性。
分类模块606,用于将所述分类视觉词直方图输入预先根据大量样本图像所建立的样本视觉词直方图进行训练生成的图像分类器中,根据输出结果确定所述待分类图像的类别。
本实施例中,该预先训练生成的图像分类器也即通过将样本图像按照上述的分类视觉词直方图建立方式构建样本视觉词直方图,并根据每一样本视觉词直方图,利用机器学习算法来生成的,具体生成过程参见方法实施例2所述,在此不再赘述。
在本实例中,通过将待分类图像按照图像金字塔算法进行了划分,划分为多个子图像,建立子图像的子视觉词直方图,然后由子视觉词直方图组合成分类视觉词直方图,由于每一分类图像特征可量化为多个视觉词,而子图像的划分又增加了图像特征的空间信息,因此使得最终建立的分类视觉词直方图能够准确表示待分类图像,进一步提高了图像分类的准确性。
与上述本申请一种图像分类方法实施例3所提供的方法相对应,参见图7,本申请还提供了一种图像分类装置实施例3,该装置可以包括:
特征提取模块701,用于提取一待分类图像的分类图像特征;
模型构建模块702,用于依据每一分类图像特征与预先生成的视觉词典中视觉词的相似关系,按照稀疏编码方式,构建所述分类图像特征与所述预先生成的视觉词典的稀疏编码模型。
其中,所述稀疏编码模型具体为:
arg C min Σ i = 1 N | | X i - BC i | | + λ | | C i | | l 1 ;
B代表视觉词典,X代表分类图像特征,C为视觉词直方图,Xi代表每一分类图像特征,Ci代表每一分类图像特征与每一视觉词的相似系数组合,N表示分类图像特征个数,i=1,2,...,N,λ为经验系数,该稀疏编码模型用于求解该模型取最小值时的Ci的值。
量化计算模块703,用于通过求解所述稀疏编码模型,将每一分类图像特征量化为所述视觉词典的多个视觉词,并得出每一分类图像特征与其量化后的视觉词的相似系数。
求解该模型具体可以采用数学优化的方法,例如最小二乘法,通过根据Xi与BCi的偏差平方和最小时,求解得出Ci的值。
划分模块704,用于将所述待分类图像,按照图像金字塔算法划分为多个子图像。
所述的划分模块具体包括:
图像层划分模块,用于按照图像金字塔算法将所述待分类图像划分为多层图像。
子图像划分模块,用于分别针对每层图像进行子图像划分,形成多个子图像。
第一建立模块705,用于确定每一子图像包含的分类图像特征,并将每一视觉词对应每一子图像中所包括的不同分类图像特征的相似系数进行累加,计算得出每一子图像的视觉词的子权重,建立每一子图像的子分类视觉词直方图。
第二建立模块706,用于组合所述每一子分类视觉词直方图,形成分类视觉词直方图。
分类模块707,用于将所述分类视觉词直方图输入预先训练生成的图像分类器中,根据输出结果确定所述待分类图像的类别。
在本实例中,通过稀疏编码模型,可以将每一分类图像特征量化为多个视觉词,并可以求解与其量化的视觉词的相关系数,增加了数据表达的准确性,同时将待分类图像按照图像金字塔算法进行了划分,增加了特征的空间信息,因此使得最终建立的分类视觉词直方图能够更准确表达待分类图像,进一步提高了图像分类的准确性。
与上述本申请一种图像分类方法实施例3所提供的方法相对应,参见图8,本申请还提供了一种图像分类装置实施例4,该装置可以包括:
特征提取模块801,用于提取一待分类图像的分类图像特征;
第一计算模块802,用于依据每一分类图像特征与预先生成的视觉词典中视觉词的相似关系,计算每一分类图像特征分别与所述视觉词典中的视觉词的欧式距离。
图像特征是以向量形式表示的,例如SIFT特征是一个128维的向量。视觉词是由图像特征进行聚类得到,其也是以与图像特征相同维数的向量表示的。其中,欧式距离是指多维空间中两点之间的距离,本实例中,将分类图像特征和视觉词作为向量空间中的两个点,欧式距离可以表示分类图像特征与视觉词的相似度。
量化模块803,用于针对每一分类图像特征中,确定与其最小欧式距离所对应的,以及与所述最小欧式距离相差预设倍数范围的欧式距离所对应的视觉词,作为每一分类图像特征量化后的视觉词。
第二计算模块804,用于根据每一分类图像特征与其所量化的视觉词的欧式距离的大小,计算分类图像特征与其量化后的视觉词的相似系数。
其中,欧式距离越小,其相应对应的相似系数即越大。
划分模块805,用于将所述待分类图像,按照图像金字塔算法划分为多个子图像。
所述的划分模块具体包括:
图像层划分模块,用于按照图像金字塔算法将所述待分类图像划分为多层图像。
子图像划分模块,用于分别针对每层图像进行子图像划分,形成多个子图像。
第一建立模块806,用于确定每一子图像包含的分类图像特征,并将每一视觉词对应每一子图像中所包括的不同分类图像特征的相似系数进行累加,计算得出对应每一子图像的视觉词的子权重,建立每一子图像的子分类视觉词直方图。
第二建立模块807,用于组合所述每一子分类视觉词直方图,形成分类视觉词直方图。
分类模块808,用于将所述分类视觉词直方图输入预先根据大量样本图像所建立的样本视觉词直方图进行训练生成的图像分类器中,根据输出结果确定所述待分类图像的类别。
在本实施中,通过计算欧式距离的大小确定分类图像特征与视觉词的相似度,并根据该欧式距离可将分类图像特征量化为多个视觉词,并可以确定其相似系数,由于量化为多个视觉词,使得所建立的分类视觉词直方图更能够准确表达分类图像,因此增加了图像分类的准确性,且将待分类图像进行子图像划分,增加了图像特征之间空间信息,增加了分类视觉词直方图的准确性,进一步提高了图像分类的准确性。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
以上对本申请所提供的一种检索方法、装置及系统进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (13)

1.一种图像分类方法,其特征在于,该方法包括:
提取一待分类图像的分类图像特征;
依据每一分类图像特征与预先生成的视觉词典中视觉词的相似关系,将每一分类图像特征量化为所述视觉词典中的多个视觉词,并确定每一分类图像特征分别与其量化后的视觉词的相似系数;
依据视觉词典中每一视觉词对应不同分类图像特征的相似系数,确定视觉词的权重以建立该待分类图像的分类视觉词直方图;
将所述分类视觉词直方图输入预先根据大量样本图像所建立的样本视觉词直方图进行训练生成的图像分类器中,根据输出结果确定所述待分类图像的类别。
2.根据权利要求1所述的方法,其特征在于,所述依据每一分类图像特征与预先生成的视觉词典中视觉词的相似关系,将每一分类图像特征量化为所述视觉词典中的多个视觉词,并确定每一分类图像特征分别与其量化后的视觉词的相似系数包括:
依据每一分类图像特征与预先生成的视觉词典中视觉词的相似关系,按照稀疏编码方式,构建所述分类图像特征与所述预先生成的视觉词典的稀疏编码模型;
通过求解所述稀疏编码模型,将每一分类图像特征量化为所述视觉词典中多个视觉词,并得出每一分类图像特征与其量化后视觉词的相似系数;
所述稀疏编码模型具体为:
arg C min Σ i = 1 N | | X i - BC i | | + λ | | C i | | l 1 ;
其中,B代表视觉词典,Xi代表分类图像特征,Ci代表每一分类图像特征与每一视觉词的相似系数所组合的数据集,N表示分类图像特征个数,i=1,2,…,N,λ为约束系数,表示Ci中元素相加的和值;该稀疏编码模型用于求解该模型取最小值时Ci的值。
3.根据权利要求1所述的方法,其特征在于,所述依据每一分类图像特征与预先生成的视觉词典中视觉词的相似关系,将每一分类图像特征量化为所述视觉词典中的多个视觉词,并确定每一分类图像特征分别与其量化后的视觉词的相似系数包括:
依据每一分类图像特征与预先生成的视觉词典中视觉词的相似关系,计算每一分类图像特征与所述视觉词典中的各视觉词的欧式距离;
针对每一分类图像特征,确定与其最小欧式距离所对应的,以及与所述最小欧式距离相差预设倍数范围的欧式距离所对应的视觉词,作为每一分类图像特征量化后的视觉词;
依据每一分类图像特征与其量化后的视觉词的欧式距离大小,计算每一分类图像特征与其量化后的视觉词的相似系数。
4.根据权利要求1~3任一项所述的方法,其特征在于,所述依据所述每一视觉词对应不同分类图像特征的相似系数,确定视觉词权重以建立该分类图像的分类视觉词直方图具体为:
将所述每一视觉词对应不同分类图像特征的相似系数累加,计算得到每一视觉词的权重,以建立该分类图像分类视觉词直方图。
5.根据权利要求1~3任一项所述的方法,其特征在于,所述依据所述每一视觉词对应不同分类图像特征的相似系数,确定视觉词的权重以建立分类视觉词直方图包括:
将所述待分类图像,按照图像金字塔算法划分为多个子图像;
确定每一子图像包含的分类图像特征;
将每一视觉词对应每一子图像中所包括的不同分类图像特征的相似系数进行累加,计算得出对应每一子图像的视觉词的权重,建立各子图像的子分类视觉词直方图;
组合所述每一子分类视觉词直方图,形成该待分类图像的分类视觉词直方图。
6.根据权利要求5所述的方法,其特征在于,所述按照图像金字塔算法划分为多个子图像具体为:
按照图像金字塔算法将所述待分类图像划分为多层空间图像;
分别针对每层空间图像进行子图像划分,形成多个子图像。
7.根据权利要求1所述的方法,其特征在于,所述预先生成的视觉词典是根据所述大量样本图像提取的样本图像特征进行聚类得到的。
8.一种图像分类装置,其特征在于,所述装置包括:
特征提取模块,用于提取一待分类图像的分类图像特征;
量化确定模块,用于依据每一分类图像特征与预先生成的视觉词典中视觉词的相似关系,将每一分类图像特征量化为所述视觉词典中的多个视觉词,并确定每一分类图像特征分别与其量化后的视觉词的相似系数;
建立模块,用于依据每一视觉词对应不同分类图像特征的相似系数,确定视觉词权重以建立分类视觉词直方图;
分类模块,用于将所述分类视觉词直方图输入预先根据大量样本图像所建立的样本视觉词直方图进行训练生成的图像分类器中,根据输出结果确定所述待分类图像的类别。
9.根据权利要求8所述的装置,其特征在于,所述量化计算模块包括:
模型构建模块,用于依据每一分类图像特征与预先生成的视觉词典中视觉词的相似关系,按照稀疏编码方式,构建所述分类图像特征与所述预先生成的视觉词典的稀疏编码模型;
量化计算模块,用于通过求解所述稀疏编码模型,将每一分类图像特征量化为所述视觉词典的多个视觉词,并得出每一分类图像特征与其量化后的视觉词的相似系数;
所述稀疏编码模型具体为:
arg C min Σ i = 1 N | | X i - BC i | | + λ | | C i | | l 1 ;
其中,B代表视觉词典,Xi代表分类图像特征,Ci代表每一分类图像特征与每一视觉词的相似系数所组合的数据集,N表示分类图像特征个数,i=1,2,…,N,λ为约束系数,表示Ci中元素相加的和值;该稀疏编码模型用于求解该模型取最小值时Ci的值。
10.根据权利要求8所述的装置,其特征在于,所述量化计算模块包括:
第一计算模块,用于依据每一分类图像特征与预先生成的视觉词典中视觉词的相似关系,计算每一分类图像特征分别与所述视觉词典中的视觉词的欧式距离;
量化模块,用于针对每一分类图像特征中,确定与其最小欧式距离所对应的,以及与所述最小欧式距离相差预设倍数范围的欧式距离所对应的视觉词,作为每一分类图像特征量化后的视觉词;
第二计算模块,用于根据每一分类图像特征与其所量化的视觉词的欧式距离的大小,计算分类图像特征与其量化后的视觉词的相似系数。
11.根据权利要求8~10任一项所述的装置,其特征在于,所述建立模块具体用于将每一视觉词对应不同分类图像特征的相似系数累加,计算得出每一视觉词的权重,根据所述视觉词权重建立分类视觉词直方图。
12.根据权利要求8~10任一项所述的装置,其特征在于,所述建立模块包括:
划分模块,用于将所述待分类图像,按照图像金字塔算法划分为多个子图像;
第一建立模块,用于确定每一子图像包含的分类图像特征,并将每一视觉词对应每一子图像中所包括的不同分类图像特征的相似系数进行累加,计算得出每一子图像的视觉词的权重,建立各子图像的子分类视觉词直方图;
第二建立模块,用于组合所述每一子分类视觉词直方图,形成分类视觉词直方图。
13.根据权利要求12所述的装置,其特征在于,所述划分模块包括:
图像层划分模块,用于按照图像金字塔算法将所述待分类图像划分为多层图像;
子图像划分模块,用于分别针对每层图像进行子图像划分,形成多个子图像。
CN201110412537.5A 2011-12-12 2011-12-12 图像分类方法和装置 Active CN103164713B (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN201110412537.5A CN103164713B (zh) 2011-12-12 2011-12-12 图像分类方法和装置
TW101107362A TW201324378A (zh) 2011-12-12 2012-03-05 圖像分類方法和裝置
EP12808614.7A EP2791869A1 (en) 2011-12-12 2012-12-11 Image classification
US13/711,500 US9342758B2 (en) 2011-12-12 2012-12-11 Image classification based on visual words
PCT/US2012/069006 WO2013090288A1 (en) 2011-12-12 2012-12-11 Image classification
JP2014546187A JP2015506026A (ja) 2011-12-12 2012-12-11 画像分類
HK13109684.7A HK1182505A1 (zh) 2011-12-12 2013-08-20 圖像分類方法和裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110412537.5A CN103164713B (zh) 2011-12-12 2011-12-12 图像分类方法和装置

Publications (2)

Publication Number Publication Date
CN103164713A CN103164713A (zh) 2013-06-19
CN103164713B true CN103164713B (zh) 2016-04-06

Family

ID=47459159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110412537.5A Active CN103164713B (zh) 2011-12-12 2011-12-12 图像分类方法和装置

Country Status (7)

Country Link
US (1) US9342758B2 (zh)
EP (1) EP2791869A1 (zh)
JP (1) JP2015506026A (zh)
CN (1) CN103164713B (zh)
HK (1) HK1182505A1 (zh)
TW (1) TW201324378A (zh)
WO (1) WO2013090288A1 (zh)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970748B (zh) * 2013-01-25 2019-01-29 腾讯科技(深圳)有限公司 一种相关关键词推荐方法和装置
JP5794255B2 (ja) * 2013-05-21 2015-10-14 株式会社デンソー 物体検出装置
CN103327337B (zh) * 2013-06-28 2015-12-23 武汉大学 一种基于双正交重叠变换的分类量化编码方法
CN103514456B (zh) * 2013-06-30 2017-04-12 安科智慧城市技术(中国)有限公司 基于压缩感知多核学习的图像分类方法及其装置
US10068154B2 (en) * 2013-08-13 2018-09-04 Logograb Limited Recognition process of an object in a query image
WO2015059836A1 (ja) * 2013-10-25 2015-04-30 楽天株式会社 検索システム、検索条件設定装置、検索条件設定装置の制御方法、プログラム、及び情報記憶媒体
CN103839075B (zh) * 2014-02-24 2017-04-12 西安电子科技大学 一种基于联合稀疏表示的sar图像分类方法
US9424484B2 (en) * 2014-07-18 2016-08-23 Adobe Systems Incorporated Feature interpolation
US9471828B2 (en) 2014-07-28 2016-10-18 Adobe Systems Incorporated Accelerating object detection
KR20160015838A (ko) * 2014-07-31 2016-02-15 삼성전자주식회사 컨텐츠 분류 방법 및 이를 위한 디바이스
CN104361354B (zh) * 2014-11-28 2018-01-12 电子科技大学 一种基于稀疏编码k最近邻直方图的海量图像分类方法
CN106649296B (zh) * 2015-07-20 2020-07-14 阿里巴巴集团控股有限公司 提供拍照提示信息、业务对象搜索方法及装置
CN105046256B (zh) * 2015-07-22 2018-10-16 福建新大陆自动识别技术有限公司 基于畸变图像校正的qr码解码方法和系统
TWI582626B (zh) * 2015-10-20 2017-05-11 數位左右有限公司 餐飲環境圖像自動分類系統與其方法
CN105320964B (zh) * 2015-10-26 2019-06-04 中国矿业大学(北京) 基于稀疏表示的煤岩识别方法
US9842280B2 (en) * 2015-11-04 2017-12-12 Omnivision Technologies, Inc. System and method for evaluating a classifier implemented within an image signal processor
CN105447517A (zh) * 2015-11-20 2016-03-30 中国矿业大学(北京) 基于稀疏编码的空域金字塔匹配识别煤岩的方法
CN108496185B (zh) * 2016-01-18 2022-09-16 北京市商汤科技开发有限公司 用于对象检测的系统和方法
US11423651B2 (en) 2016-02-09 2022-08-23 Hrl Laboratories, Llc System and method for the fusion of bottom-up whole-image features and top-down enttiy classification for accurate image/video scene classification
EP3500978A4 (en) * 2016-08-16 2020-01-22 Nokia Technologies Oy METHOD AND DEVICE FOR ZERO SHOT LEARNING
CN106354850A (zh) * 2016-08-31 2017-01-25 广州精点计算机科技有限公司 一种基于k‑近邻分类的图像识别方法
CN106503728A (zh) * 2016-09-30 2017-03-15 深圳云天励飞技术有限公司 一种图像识别方法和装置
CN107066980B (zh) * 2017-04-18 2020-04-24 腾讯科技(深圳)有限公司 一种图像变形检测方法及装置
CN108205684B (zh) * 2017-04-25 2022-02-11 北京市商汤科技开发有限公司 图像消歧方法、装置、存储介质和电子设备
CN109284826A (zh) * 2017-07-19 2019-01-29 阿里巴巴集团控股有限公司 神经网络处理方法、装置、设备及计算机可读存储介质
US20190095787A1 (en) * 2017-09-27 2019-03-28 Hsiang Tsung Kung Sparse coding based classification
TWI649659B (zh) * 2017-10-27 2019-02-01 財團法人工業技術研究院 自動光學檢測影像分類方法、系統及含有該方法之電腦可讀取媒體
US11264135B2 (en) 2017-11-10 2022-03-01 Siemens Medical Solutions Usa, Inc. Machine-aided workflow in ultrasound imaging
EP3711826A4 (en) * 2017-11-15 2021-09-22 Angel Playing Cards Co., Ltd. DETECTION SYSTEM
CN108764258B (zh) * 2018-05-24 2022-03-04 西安电子科技大学 一种用于群体图像插入的最优图像集选取方法
WO2020009877A1 (en) 2018-07-02 2020-01-09 Stowers Institute For Medical Research Facial image recognition using pseudo-images
CN109472307A (zh) * 2018-11-07 2019-03-15 郑州云海信息技术有限公司 一种训练图像分类模型的方法和装置
CN109522967A (zh) * 2018-11-28 2019-03-26 广州逗号智能零售有限公司 一种商品定位识别方法、装置、设备以及存储介质
CN110046634B (zh) * 2018-12-04 2021-04-27 创新先进技术有限公司 聚类结果的解释方法和装置
US10896018B2 (en) 2019-05-08 2021-01-19 Sap Se Identifying solutions from images
CN110175546B (zh) * 2019-05-15 2022-02-25 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN112037844B (zh) * 2019-06-04 2022-12-06 长鑫存储技术有限公司 可变保持时间模式分析方法、装置、设备及可读存储介质
CN111414958B (zh) * 2020-03-18 2022-02-08 燕山大学 一种视觉词袋金字塔的多特征图像分类方法及系统
WO2022041222A1 (en) * 2020-08-31 2022-03-03 Top Team Technology Development Limited Process and system for image classification
CN112329798B (zh) * 2020-11-27 2023-07-25 重庆理工大学 一种基于优化视觉词袋模型的图像场景分类方法
CN112784893B (zh) * 2020-12-29 2024-03-01 杭州海康威视数字技术股份有限公司 图像数据的聚类方法、装置、电子设备及存储介质
CN113902930B (zh) * 2021-09-16 2023-10-27 燕山大学 一种优化词袋模型的图像分类方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763514A (zh) * 2010-01-15 2010-06-30 西安电子科技大学 基于特征重要度排序谱聚类的图像分割方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09319876A (ja) * 1996-05-30 1997-12-12 Tenryu Technic:Kk マッチング認識方法
JPH1021389A (ja) * 1996-07-03 1998-01-23 Mitsubishi Electric Corp テンプレートマッチング方法およびその装置
JP4161659B2 (ja) 2002-02-27 2008-10-08 日本電気株式会社 画像認識システム及びその認識方法並びにプログラム
US7394947B2 (en) 2003-04-08 2008-07-01 The Penn State Research Foundation System and method for automatic linguistic indexing of images by a statistical modeling approach
US7756341B2 (en) 2005-06-30 2010-07-13 Xerox Corporation Generic visual categorization method and system
US7680341B2 (en) 2006-05-05 2010-03-16 Xerox Corporation Generic visual classification with gradient components-based dimensionality enhancement
US7885466B2 (en) 2006-09-19 2011-02-08 Xerox Corporation Bags of visual context-dependent words for generic visual categorization
US8126274B2 (en) 2007-08-30 2012-02-28 Microsoft Corporation Visual language modeling for image classification
US8374442B2 (en) * 2008-11-19 2013-02-12 Nec Laboratories America, Inc. Linear spatial pyramid matching using sparse coding
US8233711B2 (en) * 2009-11-18 2012-07-31 Nec Laboratories America, Inc. Locality-constrained linear coding systems and methods for image classification
US8429168B1 (en) * 2009-12-15 2013-04-23 Google Inc. Learning semantic image similarity
US8447119B2 (en) * 2010-03-16 2013-05-21 Nec Laboratories America, Inc. Method and system for image classification
US8682086B2 (en) * 2010-06-02 2014-03-25 Nec Laboratories America, Inc. Systems and methods for determining image representations at a pixel level
NL2004829C2 (en) 2010-06-07 2011-12-08 Univ Amsterdam Method for automated categorization of human face images based on facial traits.
US9122955B2 (en) 2010-06-28 2015-09-01 Ramot At Tel-Aviv University Ltd. Method and system of classifying medical images
JP5782037B2 (ja) 2010-09-10 2015-09-24 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 排他的分類器による一般物体の画像認識装置及び方法
US8731317B2 (en) * 2010-09-27 2014-05-20 Xerox Corporation Image classification employing image vectors compressed using vector quantization
JP2012124725A (ja) 2010-12-09 2012-06-28 Sanyo Electric Co Ltd 画像処理装置
US8699852B2 (en) 2011-10-10 2014-04-15 Intellectual Ventures Fund 83 Llc Video concept classification using video similarity scores
US20130114900A1 (en) 2011-11-07 2013-05-09 Stanford University Methods and apparatuses for mobile visual search
US8768048B1 (en) * 2011-11-18 2014-07-01 Google Inc. System and method for exploiting segment co-occurrence relationships to identify object location in images

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763514A (zh) * 2010-01-15 2010-06-30 西安电子科技大学 基于特征重要度排序谱聚类的图像分割方法

Also Published As

Publication number Publication date
EP2791869A1 (en) 2014-10-22
US9342758B2 (en) 2016-05-17
WO2013090288A1 (en) 2013-06-20
HK1182505A1 (zh) 2013-11-29
US20130148881A1 (en) 2013-06-13
JP2015506026A (ja) 2015-02-26
TW201324378A (zh) 2013-06-16
CN103164713A (zh) 2013-06-19

Similar Documents

Publication Publication Date Title
CN103164713B (zh) 图像分类方法和装置
CN105469096B (zh) 一种基于哈希二值编码的特征袋图像检索方法
Iandola et al. SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and< 0.5 MB model size
CN108920720B (zh) 基于深度哈希和gpu加速的大规模图像检索方法
Gao et al. Multi-layer group sparse coding—For concurrent image classification and annotation
CN105894046A (zh) 卷积神经网络训练及图像处理的方法和系统、计算机设备
EP3029606A2 (en) Method and apparatus for image classification with joint feature adaptation and classifier learning
CN104680173B (zh) 一种遥感图像场景分类方法
CN110059807A (zh) 图像处理方法、装置和存储介质
CN104392250A (zh) 一种基于MapReduce的图像分类方法
CN104537647A (zh) 一种目标检测方法及装置
CN103810299A (zh) 基于多特征融合的图像检索方法
CN112561027A (zh) 神经网络架构搜索方法、图像处理方法、装置和存储介质
Nedumaran et al. Machine level classification using support vector machine
CN106570015A (zh) 图像搜索方法和装置
CN103093247B (zh) 一种植物图片的自动分类方法
CN113569895A (zh) 图像处理模型训练方法、处理方法、装置、设备及介质
CN110263644A (zh) 基于三胞胎网络的遥感图像分类方法、系统、设备及介质
CN108920647A (zh) 基于谱聚类的低秩矩阵填充top-n推荐方法
CN115712780A (zh) 一种基于云计算和大数据的信息推送方法及装置
CN114398485B (zh) 基于多视角融合的专家画像构建方法及装置
CN110334628B (zh) 一种基于结构化随机森林的室外单目图像深度估计方法
CN110490234A (zh) 基于聚类分类联合机制的分类器的构建方法以及分类方法
CN113657504A (zh) 图像检索方法、装置、计算机设备和存储介质
CN108647719A (zh) 用于大数据量光谱遥感图像分类的非监督聚类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1182505

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1182505

Country of ref document: HK