CN112966715B - 一种基于多尺度视觉词包模型的商品图像特征描述方法 - Google Patents

一种基于多尺度视觉词包模型的商品图像特征描述方法 Download PDF

Info

Publication number
CN112966715B
CN112966715B CN202110144794.9A CN202110144794A CN112966715B CN 112966715 B CN112966715 B CN 112966715B CN 202110144794 A CN202110144794 A CN 202110144794A CN 112966715 B CN112966715 B CN 112966715B
Authority
CN
China
Prior art keywords
feature
image
scale
word
local area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110144794.9A
Other languages
English (en)
Other versions
CN112966715A (zh
Inventor
孙华东
张旭
韩小为
刘良
赵志杰
金雪松
邱泽国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Thunder Mouse Technology Co.,Ltd.
Original Assignee
Harbin University of Commerce
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Commerce filed Critical Harbin University of Commerce
Priority to CN202110954649.7A priority Critical patent/CN113657511B/zh
Priority to CN202110144794.9A priority patent/CN112966715B/zh
Publication of CN112966715A publication Critical patent/CN112966715A/zh
Application granted granted Critical
Publication of CN112966715B publication Critical patent/CN112966715B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

一种基于多尺度视觉词包模型的商品图像特征描述方法,解决了采用现有视觉词包特征描述方法的商品图像分类效果不佳的问题,属于图像分类领域。本发明包括:对2倍升采样的商品图像进行小波多尺度分解,提取多尺度特征点,进行边缘填充,在边缘填充后的图像上划定图像的局部区域,利用SURF局部特征与量化归一的颜色矢量角特征对划定的局部区域进行描述,并通过串行融合得到最终的局部区域特征的描述子;对局部区域特征进行聚类,形成词包;对每个局部区域特征与词包中的词特征向量进行距离度量,给局部区域特征编码,使用对角同心矩空间模型进行特征汇聚形成图像描述子,并进行降维,获得视觉词包特征向量;将获得的视觉词包特征向量用分类器分类。

Description

一种基于多尺度视觉词包模型的商品图像特征描述方法
技术领域
本发明涉及一种基于多尺度视觉词包模型的商品图像特征描述方法,属于图像分类领域。
背景技术
我国电子商务的规模不断增长,已成为影响居民生活的重要行业。随着互联网的不断进步促进了淘宝、京东和唯品会等各大电子商务平台的快速发展,网上购物已经成为了大众购买商品的主要方式,越来越被人们所认可。根据中国互联网络信息中心统计,截至2020年3月,我国网民规模为9.04亿,互联网普及率达64.5%,我国网络购物用户规模达7.10亿,2019年交易规模达10.63万亿元,同比增长16.5%。为给用户对商品的快速浏览、搜索定位等提供更加优良的购物体验,一个良好的商品图像特征描述及分类系统也越来越凸显其重要性。而以往基于人工标注的图像分类方法已经不符合现实需求。如何利用图像处理、计算机视觉、模式识别以及机器学习等技术,实现商品图像的特征描述并进行分类具有很大的研究和商业价值。
对图像特征描述及分类的研究,从技术层面大致可划分成三类,第一类是使用颜色、纹理、形状的底层特征作为图片的描述通过分类器进行训练进而使该分类器具有对图像在所选特征上的分类效果;第二类是使用视觉词典这种中层语义特征来对图像进行分类,视觉词典通过整合底层特征的关系对图像的局部区域有很强的描述能力,在某些分类任务上具有较好的效果;第三类是使用深度学习的方法对图像进行分类,通过合适深度的网络可以设计出分类效果较好的分类模型。上述三种处理方式,其中底层特征主要针对像素来进行处理,会大大减轻距离较远像素间的关系,且不能很好的对图像内商品目标进行描述,往往会侧重于商品的某些特征,而忽略其他的特征;深度学习在图像分类上有不错的效果,但是深度学习存在着不可解释性和需要大量计算机算力的缺点,即便有不少方法能够在一定程度上减少运算量(例如迁移学习),依然远远超出正常电脑运算的上限;词包特征在商品图像分类上有不错的效果,但对于词包模型的进一步研究有所匮乏,并且对于商品图像的自身特点没有很好地挖掘(例如忽视了商品图像的颜色信息,忽略了商品图像中的目标分布特点),所以视觉词典在商品图像的特征描述与分类研究仍具有价值和意义。
在视觉词包特征中关于局部区域的提取方式具有两种方式,分别为稀疏类和稠密类,其中稀疏类指的是提取图像中一些稳定的像素点并围绕该特征点根据确定的尺度大小划分成对应的图像块,而稠密类指的是在图像坐标中按一定抽样比例抽取像素点并围绕该点划定图像块。两种方式各有优缺点,稀疏类往往对前景突出的图像表现更好,而稠密类对背景明显的图像更有优势。对于商品图像是属于前景突出的类型,但同时商品图像有着比其他图像更光滑的特点,稀疏类的特征点提取较其他类型更加困难,过少的特征点导致不足以支撑对整个图像的描述。除了图像区域的划分之外,对于区域特征描述也存在特征描述单一的问题,传统的描述方式是SIFT(Scale-invariant feature transform)与SURF(Speeded-up robust features),这两种方式都只包含了纹理信息。但对于商品而言,颜色信息也是一个值得参考的方面。对于传统的词包模型得到的特征是一个无序的统计特征,并没有包含词的位置信息,而常用的金字塔空间模型有着维数数十倍增长的特点,对于正常的词包特征维数会设定在一个较大的数值,将使得最终特征的维数爆炸,寻求一种表示商品图像更合适更简单的词包空间模型是一个研究的要点。
发明内容
针对采用现有视觉词包特征描述方法的商品图像分类效果不佳的问题,本发明提供一种基于多尺度视觉词包模型的商品图像特征描述方法。
本发明的一种基于多尺度视觉词包模型的商品图像特征描述方法,所述方法包括:
S1:对2倍升采样的商品图像进行小波多尺度分解,在不同分解尺度进行多尺度特征点提取;
S2:对提取的多尺度特征点进行边缘填充,在边缘填充后的图像上划定图像的局部区域,利用SURF局部特征与量化归一的颜色矢量角特征对划定的局部区域进行描述,并通过串行融合得到最终的局部区域特征的描述子;
S3:对S2得到的局部区域特征进行聚类,形成词包;
S4:对每个局部区域特征与词包中的词特征向量进行距离度量,给局部区域特征编码,并使用对角同心矩空间模型进行特征汇聚形成图像描述子,将该图像描述子使用主成分分析对特征进行降维,获得降维的视觉词包特征向量;
S5:将S4获得的视觉词包特征向量用分类器分类。
作为优选,所述S1包括:
S11:将商品图像灰度值化并进行二倍升采样处理,然后对升采样图像进行多层小波分解,对每层分解得到的三个方向的高频小波响应矩阵提取相同坐标上的归一化系数;
S12:根据归一化系数的大小筛选出侯选点;
S13:对所有候选点进行非极大值抑制,以候选点为中心划定5*5大小的矩阵块,矩阵块每个位置的值为坐标相同的三个小波高频通道响应值之和,若候选点的值为该区域的最大值则保留,反之去除,得到对应尺度下的特征点;
S14:计算出特征点映射到原图的坐标位置。
作为优选,所述S11中,对每层分解得到的三个方向的高频小波响应矩阵提取相同坐标上的归一化系数为:
Figure BDA0002929800140000031
Figure BDA0002929800140000032
Figure BDA0002929800140000033
其中ch、cv、cd分别为小波分解的竖直方向、水平方向和对角方向的高频小波响应矩阵,max表示分量内取最大值,cH、cV、cD分别为竖直方向、水平方向和对角方向对应的归一化系数。
作为优选,所述S14中,映射到原图的坐标位置为:
Figure BDA0002929800140000034
其中,L为小波分解层数,x和y是在尺度上检测的特征点位置坐标,X和Y为原图所对应的坐标位置。
作为优选,所述S1中,尺度大小为:
σ=1.6*2L-1
其中,L为小波分解层数。
作为优选,所述S2包括:
S21:对图像进行边缘填充,根据特征点位置与尺度划定图像的局部区域;
S22:对局部区域的SURF描述子VSURF
围绕以某一像素点为中心半径大小为6σ的圆形区域计算haar响应值,将响应值最大的方向视为主方向;
将局部区域旋转至主方向位置,划分出以围绕特征点为中心,大小为20σ*20σ的局部区域,并将20σ*20σ的局部区域划分4*4的子区域,统计每个子区域内x、y方向的haar响应得到4维向量[∑x,∑y,∑|x|,∑|y|],最终16个子区域特征串联得到4*4*4的64维SURF描述子VSURF,σ表示尺度;
S23:在所述20σ*20σ的局部区域内统计每一级量化尺度对应颜色矢量角的出现次数,得到未归一化的颜色矢量角特征,对未归一化的颜色矢量角特征进行归一化处理得到颜色矢量角特征VCVA
S24:将VSURF与VCVA进行串行融合得到最终的局部区域特征的描述子V:
V=[VSURF,VCVA]。
作为优选,所述S23中,尺度大小是每0.5度为一级量化尺度;
颜色矢量角表示的是将彩色图像像素点的3颜色通道的值视为三维空间的坐标值,计算两相邻像素点三通道坐标值与原点之间的夹角大小,颜色矢量角为:
Figure BDA0002929800140000041
Figure BDA0002929800140000042
其中r1、g1、b1为某像素点的三通道颜色值,r2、g2、b2为相邻像素点的三通道颜色值,arccos表示反余弦函数,angle为两像素点的颜色矢量角;
对得到的颜色矢量角量化过程为:
Figure BDA0002929800140000043
其中,angle表示颜色矢量角的大小,i为对应的量化值;
归一化过程表示:
Figure BDA0002929800140000044
其中V=[v1,v2,…,v180],vi表示量化值i出现的统计次数。
作为优选,所述S3包括:
随机选取K个局部区域特征作为初始类型,再用Kmeans算法进行迭代修正,直到误差小于阈值,得到最终K个聚类类心,即K个词包。
作为优选,所述S4包括:
S41:对每个局部区域特征分别与词包内所有的词特征向量进行欧氏距离的计算,将每个局部区域特征编码为距离最小的词特征向量,得到编码好的局部区域特征;
S42:按照对角同心矩空间模型,给图像划定空间子区域,统计整张图像内每类词的出现次数以及在划定空间子区域每类词出现次数,进行归一化处理,得到空间词频特征向量F,作为图像描述子:
F=[f0,f1,...,fM]
若图像划分为n部分则得到的空间词频特征向量F是K*(n+1)维的;其中,f0表示在整个图像范围而不考虑子空间范围得到的词频统计特征,它是K维的向量;f1,...,fn表示在划定的不同子空间内得到的词频统计特征,它们也是K维的向量;
S43:对图像描述子使用主成分分析方法进行降维,获得降维的视觉词包特征向量。
作为优选,所述S5使用SVM多分类算法对降维的视觉词包特征向量进行商品图像分类。
本发明的有益效果,本发明丰富了分布合理的特征点数量,在纹理特征的基础上增加了颜色信息使局部区域可区分性更强,比SPM(Spatial Pyramid Matching)空间模型降低了特征维度,可使用计算机程序对商品图像进行分类,提高图像分类的精度,减轻工作量。
附图说明
图1为本发明的方法流程图;
图2为本实施方式中涉及的多尺度特征点提取方法(Wavelet MultiscaleFeature Points,WDFP)流程示意图;其中,候选点的颜色表示该位置的归一化响应值大于阈值;
图3为本实施方式中涉及的多尺度特征区域划分的部分示意图;
图4为本实施方式中涉及的多尺度特征点与SURF(Speeded-up robust features)特征点位置分布示意图;
图5为本实施方式中涉及的SURF(Speeded-up robust features)描述子与颜色矢量角的角度形成过程,其中,(a)为SURF描述子生成过程,(b)表示颜色矢量角的角度计算过程;
图6为本实施方式中涉及的Kmeans聚类算法在聚类数量为3时聚类过程的示意图;
图7为本实施方式中涉及的对角同心矩空间模型(Diagonal ConcetricRectangular Model,DCRM)划定范围的示意图;
图8(a)为本实施方式中中特征点提取方法(Wavelet Multiscale FeaturePoints,WDFP)结合SURF(Speeded-up robust features)局部区域特征提取算法、主流基于原始SIFT(Scale-invariant feature transform)算法和原始SURF(Speeded-up robustfeatures)算法的三种算法在商品图像分类效果的比较;
图8(b)为本实施方式中中以本发明的特征点提取方法(WDFP)加上颜色矢量角特征(Color vector angle,CVA)与SURF(Speeded-up robust features)局部区域特征融合提取算法、主流基于原始SURT算法加上颜色矢量角(Color vector angle,CVA)和原始SURF(Speeded-up robust features)算法的分类效果的比较;图8(c)为本实施方式中的对角同心矩空间表示方法(Diagonal Concetric Rectangular Model,DCRM)、SPM(SpatialPyramid Matching)空间表示方法与不进行空间划分的统计方法,在本发明特征提取方法与主流算法于商品图像分类效果的对比;
图8(d)为本实施方式中三种改进方案的算法、与其它主流算法在不同空间模型表示的结合对分类效果的影响;
图9为本发明涉及的一种基于多尺度视觉词包模型的商品图像特征描述方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
如图1所示,本实施方式的一种基于多尺度视觉词包模型的商品图像特征描述方法,包括以下步骤:
步骤一:对2倍升采样的商品图像进行小波多尺度分解,在不同分解尺度进行多尺度特征点提取及尺度大小的设定。
步骤二:对提取的多尺度特征点进行边缘填充,在边缘填充后的图像上划定图像的局部区域,利用SURF(Speeded-up robust features)局部特征与量化归一的颜色矢量角特征对划定的局部区域进行描述,并通过串行融合得到最终的局部区域特征的描述子;
步骤三:对步骤二得到的局部区域特征进行聚类,形成词包。
步骤四:对每个局部区域特征与词包中的词特征向量进行距离度量,给局部区域特征编码,并使用对角同心矩空间模型进行特征汇聚形成图像描述子,将该图像描述子使用主成分分析(Principal Compeonent Analysis,PCA)对特征进行降维,获得降维的视觉词包特征向量;
步骤五:将步骤四提取的视觉词包特征向量用SVM分类器分类,并通过与其它视觉词包算法进行比较得出分类效果。
本实施方式增加了视觉词包特征在商品图像上的信息量,降低了传统视觉词包的特征维度,提高了准确率。能有效的对商品图像进行分类,提高分类效率,减轻人工分类的工作量。
优选实施例中,如图2所示,本实施方式的步骤一包括:
将商品图像灰度值化并进行2倍升采样处理,然后对升采样图像进行多层小波分解,对每层分解得到的三个方向的高频小波响应矩阵提取相同坐标上的归一化系数,根据系数大小筛选出侯选点,要求是三个高频通道相同坐标下的系数值都大于0.1。之后对所有候选点进行非极大值抑制,过程是以候选点为中心划定5*5大小的矩阵块,矩阵块每个位置的值为坐标相同的三个小波高频通道响应值之和,若候选点的值为该区域的最大值则保留,反之去除,得到对应尺度下的特征点,最后计算出映射到原图的大致粗略坐标位置。
高频分量归一化过程表示为:
Figure BDA0002929800140000071
Figure BDA0002929800140000072
Figure BDA0002929800140000073
其中ch、cv、cd分别为小波分解的竖直方向、水平方向和对角方向的高频分量矩阵,max表示分量内取最大值,cH、cV、cD表示为归一化后的高频分量矩阵。
坐标映射过程表示为:
Figure BDA0002929800140000074
其中L为小波分解层数,x和y是在尺度上检测的特征点位置坐标,X和Y为原图所对应的坐标位置。值得注意的是该计算方法非理论验证得来,而是以视觉感官效果与尺度缩放位置变化的共同结果。
关于尺度大小的确定按照如下公式变化:
σ=1.6*2L-1
其中L为小波分解层数,1.6为设定的最初始尺度。
优选实施例中,如图3、图4和图5本实施方式的步骤二包括:
步骤二一:对图像进行边缘填充,根据特征点位置与尺度划定图像的局部区域。
步骤二二:提取SURF(Speeded-up robust features)局部区域描述子,该过程包括围绕以某一像素点为中心半径大小为6σ的圆形区域计算haar响应值,将响应值最大的方向视为主方向;将局部区域旋转至主方向位置,划分出以围绕特征点为中心,大小为20σ*20σ的局部区域,并将20σ*20σ的局部区域划分4*4的子区域,统计每个子区域内x、y方向的haar响应得到4维向量[∑x,∑y,∑|x|,∑|y|],最终16个子区域特征串联得到4*4*4的64维SURF(Speeded-up robust features)局部区域描述子VSURF
步骤二三:提取颜色矢量角特征,颜色矢量角表示的是将彩色图像像素点的3颜色通道的值视为三维空间的坐标值,然后计算两相邻像素点三通道坐标值与原点(0,0,0)之间的夹角大小,并通过量化统计归一得到颜色矢量角特征;本发明关于颜色矢量角的量化的尺度大小是每0.5度量化1级,在与步骤二一相同的20σ*20σ的区域内统计每一级颜色矢量角的出现次数得到未归一化的颜色矢量角特征,最后对这180维特征进行归一化处理得到颜色矢量角特征VCVA
颜色矢量角的计算公式为:
Figure BDA0002929800140000081
Figure BDA0002929800140000082
其中r1,g1,b1为某像素点的三通道颜色值,r2,g2,b2为相邻像素点的三通道颜色值,arccos表示反余弦函数,angle为两像素点的颜色矢量夹角。
在得到颜色矢量夹角后对其量化过程为:
Figure BDA0002929800140000083
其中angle表示颜色矢量角的大小,i为对应的量化值。
归一化过程表示:
Figure BDA0002929800140000091
其中V=[v1,v2,…,v180],vi表示量化值i出现的统计次数。
步骤二四:将64维的SURF(Speeded-up robust features)局部区域描述子VSURF与180维的颜色矢量角特征向量VCVA进行串行融合。具体可表示为:
V=[VSURF,VCVA]
优选实施例中,如图6所示,本实施方式的步骤三,具体为:
将训练集里所有提取的局部区域特征,随机选取K个局部区域特征作为初始类型,再用Kmeans算法进行迭代修正,直到误差小于阈值,得到最终K个聚类类心,即K个词向量。
优选实施例中,本实施方式中,步骤四包括:
步骤四一:对每个局部区域特征分别与词包内所有的词特征向量进行欧氏距离的计算,距离越小表明与对应词越相似,视该局部区域特征为距离最小的词,将每个局部区域特征编码为距离最小的词,得到编码好的局部区域特征。
步骤四二:按照对角同心矩空间模型,如图7所示,给图像划定空间区域,给图像划定空间区域,统计整张图像内每类词的出现次数以及在给定子区域每类词出现次数,其中词的位置指的是特征点的位置,对得到的统计向量进行归一化处理。假设给图像划分为n部分则得到K*(n+1)维的空间词频特征向量F=[f0,f1,...,fn]。其中,f0表示在整个图像范围而不考虑子空间范围得到的词频统计特征,它是K维的向量;f1,...,fn表示在划定的不同子空间内得到的词频统计特征,它们也是K维的向量。
步骤四三:对最后的特征使用主成分分析(Principal Compeonent Analysis,PCA)方法进行降维,用以降低空间表示的词包特征维数过大的缺点,减少计算算力和计算时间。
优选实施例中,本实施方式的步骤五中,将统计得到的特征词出现概率作为特征向量和SVM(Support Vector Machine)分类算法来对商品图像分类,并利用在不同数量的类心之下分析词的数量对分类的影响、不采用颜色矢量角特征的情况下的分类效果和不进行对图像划分空间下的分类精度进行比较,得出分类结果是否正确的步骤为:
步骤五一、使用SVM(Support Vector Machine)多分类算法对归一化并降维的特征向量进行商品图像分类;
步骤五二:再利用平均准确率(MAP)结果进行评价,其中:
Figure BDA0002929800140000101
需说明的是,本实施方式基于多尺度视觉词包模型的系统框架,针对商品图像的特点对以往的视觉词包特征的提取过程进行四个部分的修改,四个部分分别为:特征点提取及尺度设定、原SURF(Speeded-up robust features)区域特征与颜色矢量角特征串行融合、对角同心矩空间模型和基于主成分分析(Principal Compeonent Analysis,PCA)的特征降维。本实施方式的方法过程是用设置好的计算机执行程序对商品图像进行分类,目的是提高商品图像分类的工作效率节省人力资源。
在只改变特征点提取及区域选择方式且不采用空间模型表示方式上,随着词典里词数量的增加分类效果也有成正比的效果,词数趋于1000时接近分类极限,此时分类效果本文修改方法的分类效果为87.12%,比基于原始SURF和原始SIFT的视觉词包算法分别提高1%和15.1%。
由于基于SIFT算法的视觉词包算法效果不具有可比性,这里去掉该了基于SIFT的视觉词典算法。在只加上颜色矢量角统计特征(CVA)之后,随着词典里词数量的增加分类效果也有成正比的效果,词数趋于1000时接近分类极限,分类效果达到了86.8%,比原始SURF的视觉词包算法提高0.67%,在这基础上加上更改特征点提取及区域选择方式,两种方案改进下分类效果达到了88.23%,比原始SURF提高2.1%。
在改变特征点提取及区域选择方式和加上颜色矢量角量化统计特征且采用空间模型表示方式上,随着词典里词数量的增加分类效果也有成正比的效果,词数趋于1000时接近分类极限,此时本发明的三种修改方案共同作用下得到效果最佳分类效果为89.77%,比基于原始SURF和SPM模型的视觉词包算法提高2.33%。
除此之外,还对比了使用其他分类器下的分类效果,结果表明在这三种下SVM多分类器下该特征表现最优。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (9)

1.一种基于多尺度视觉词包模型的商品图像特征描述方法,其特征在于,所述方法包括:
S1:对2倍升采样的商品图像进行小波多尺度分解,在不同分解尺度进行多尺度特征点提取;
S2:对提取的多尺度特征点进行边缘填充,在边缘填充后的图像上划定图像的局部区域,利用SURF局部特征与量化归一的颜色矢量角特征对划定的局部区域进行描述,并通过串行融合得到最终的局部区域特征的描述子;
S3:对S2得到的局部区域特征进行聚类,形成词包;
S4:对每个局部区域特征与词包中的词特征向量进行距离度量,给局部区域特征编码,并使用对角同心矩空间模型进行特征汇聚形成图像描述子,将该图像描述子使用主成分分析对特征进行降维,获得降维的视觉词包特征向量;
S5:将S4获得的视觉词包特征向量用分类器分类;
所述S4包括:
S41:对每个局部区域特征分别与词包内所有的词特征向量进行欧氏距离的计算,将每个局部区域特征编码为距离最小的词特征向量,得到编码好的局部区域特征;
S42:按照对角同心矩空间模型,给图像划定空间子区域,统计整张图像内每类词的出现次数以及在划定空间子区域每类词出现次数,进行归一化处理,得到空间词频特征向量F,作为图像描述子:
F=[f0,f1,...,fM]
若图像划分为n部分则得到的空间词频特征向量F是K*(n+1)维的;其中,f0表示在整个图像范围而不考虑子空间范围得到的词频统计特征,它是K维的向量;f1,...,fn表示在划定的不同子空间内得到的词频统计特征,它们也是K维的向量;
S43:对图像描述子使用主成分分析方法进行降维,获得降维的视觉词包特征向量。
2.根据权利要求1所述的一种基于多尺度视觉词包模型的商品图像特征描述方法,其特征在于,所述S1包括:
S11:将商品图像灰度值化并进行二倍升采样处理,然后对升采样图像进行多层小波分解,对每层分解得到的三个方向的高频小波响应矩阵提取相同坐标上的归一化系数;
S12:根据归一化系数的大小筛选出侯选点;
S13:对所有候选点进行非极大值抑制,以候选点为中心划定5*5大小的矩阵块,矩阵块每个位置的值为坐标相同的三个小波高频通道响应值之和,若候选点的值为该区域的最大值则保留,反之去除,得到对应尺度下的特征点;
S14:计算出特征点映射到原图的坐标位置。
3.根据权利要求2所述的一种基于多尺度视觉词包模型的商品图像特征描述方法,其特征在于,所述S11中,对每层分解得到的三个方向的高频小波响应矩阵提取相同坐标上的归一化系数为:
Figure FDA0003165901530000021
Figure FDA0003165901530000022
Figure FDA0003165901530000023
其中ch、cv、cd分别为小波分解的竖直方向、水平方向和对角方向的高频小波响应矩阵,max表示分量内取最大值,cH、cV、cD分别为竖直方向、水平方向和对角方向对应的归一化系数。
4.根据权利要求2所述的一种基于多尺度视觉词包模型的商品图像特征描述方法,其特征在于,所述S14中,映射到原图的坐标位置为:
Figure FDA0003165901530000024
其中,L为小波分解层数,x和y是在尺度上检测的特征点位置坐标,X和Y为原图所对应的坐标位置。
5.根据权利要求1所述的一种基于多尺度视觉词包模型的商品图像特征描述方法,其特征在于,所述S1中,尺度大小为:
σ=1.6*2L-1
其中,L为小波分解层数。
6.根据权利要求1所述的一种基于多尺度视觉词包模型的商品图像特征描述方法,其特征在于,所述S2包括:
S21:对图像进行边缘填充,根据特征点位置与尺度划定图像的局部区域;
S22:构建局部区域的SURF描述子VSURF
围绕以某一像素点为中心半径大小为6σ的圆形区域计算haar响应值,将响应值最大的方向视为主方向;
将局部区域旋转至主方向位置,划分出以围绕特征点为中心,大小为20σ*20σ的局部区域,并将20σ*20σ的局部区域划分4*4的子区域,统计每个子区域内x、y方向的haar响应得到4维向量[Σx,Σy,Σ|x|,Σ|y|],最终16个子区域特征串联得到4*4*4的64维SURF描述子VSURF,σ表示尺度;
S23:在所述20σ*20σ的局部区域内统计每一级量化尺度对应颜色矢量角的出现次数,得到未归一化的颜色矢量角特征,对未归一化的颜色矢量角特征进行归一化处理得到颜色矢量角特征VCVA
S24:将VSURF与VCVA进行串行融合得到最终的局部区域特征的描述子V:
V=[VSURF,VCVA]。
7.根据权利要求6所述的一种基于多尺度视觉词包模型的商品图像特征描述方法,其特征在于,所述S23中,尺度大小是每0.5度为一级量化尺度;
颜色矢量角表示的是将彩色图像像素点的3颜色通道的值视为三维空间的坐标值,计算两相邻像素点三通道坐标值与原点之间的夹角大小,颜色矢量角为:
Figure FDA0003165901530000031
Figure FDA0003165901530000032
其中r1、g1、b1为某像素点的三通道颜色值,r2、g2、b2为相邻像素点的三通道颜色值,arccos表示反余弦函数,angle为两像素点的颜色矢量角;
对得到的颜色矢量角量化过程为:
Figure FDA0003165901530000033
其中,angle表示颜色矢量角的大小,i为对应的量化值;
归一化过程表示:
Figure FDA0003165901530000034
其中V=[v1,v2,…,v180],vi表示量化值i出现的统计次数。
8.根据权利要求1所述的一种基于多尺度视觉词包模型的商品图像特征描述方法,其特征在于,所述S3包括:
随机选取K个局部区域特征作为初始类型,再用Kmeans算法进行迭代修正,直到误差小于阈值,得到最终K个聚类类心,即K个词包。
9.根据权利要求1所述的一种基于多尺度视觉词包模型的商品图像特征描述方法,其特征在于,所述S5使用SVM多分类算法对降维的视觉词包特征向量进行商品图像分类。
CN202110144794.9A 2021-02-02 2021-02-02 一种基于多尺度视觉词包模型的商品图像特征描述方法 Active CN112966715B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110954649.7A CN113657511B (zh) 2021-02-02 2021-02-02 一种商品图像特征描述方法
CN202110144794.9A CN112966715B (zh) 2021-02-02 2021-02-02 一种基于多尺度视觉词包模型的商品图像特征描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110144794.9A CN112966715B (zh) 2021-02-02 2021-02-02 一种基于多尺度视觉词包模型的商品图像特征描述方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202110954649.7A Division CN113657511B (zh) 2021-02-02 2021-02-02 一种商品图像特征描述方法

Publications (2)

Publication Number Publication Date
CN112966715A CN112966715A (zh) 2021-06-15
CN112966715B true CN112966715B (zh) 2021-09-07

Family

ID=76273418

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202110144794.9A Active CN112966715B (zh) 2021-02-02 2021-02-02 一种基于多尺度视觉词包模型的商品图像特征描述方法
CN202110954649.7A Active CN113657511B (zh) 2021-02-02 2021-02-02 一种商品图像特征描述方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202110954649.7A Active CN113657511B (zh) 2021-02-02 2021-02-02 一种商品图像特征描述方法

Country Status (1)

Country Link
CN (2) CN112966715B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198333A (zh) * 2013-04-15 2013-07-10 中国科学院电子学研究所 一种高分辨率遥感图像自动语义标记方法
CN104850859A (zh) * 2015-05-25 2015-08-19 电子科技大学 一种基于多尺度分析的图像特征包构建方法
CN107870992A (zh) * 2017-10-27 2018-04-03 上海交通大学 基于多通道主题模型的可编辑服装图像搜索方法
CN108319964A (zh) * 2018-02-07 2018-07-24 嘉兴学院 一种基于混合特征和流形学习的火灾图像识别方法
CN108764302A (zh) * 2018-05-08 2018-11-06 中山大学 一种基于颜色特征和词袋特征的票据图像分类方法
KR101988555B1 (ko) * 2017-12-05 2019-06-12 충북대학교 산학협력단 조명 불변 영상을 사용한 slam 시스템 및 점구름 지도 생성 방법
CN110322466A (zh) * 2018-03-28 2019-10-11 河南工业大学 一种基于多层区域限制的有监督图像分割方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9443011B2 (en) * 2011-05-18 2016-09-13 Microsoft Technology Licensing, Llc Searching for images by video
US8781255B2 (en) * 2011-09-17 2014-07-15 Adobe Systems Incorporated Methods and apparatus for visual search
US20170243084A1 (en) * 2015-11-06 2017-08-24 The Regents Of The University Of California Dsp-sift: domain-size pooling for image descriptors for image matching and other applications
CN105389593B (zh) * 2015-11-16 2019-01-11 上海交通大学 基于surf特征的图像物体识别方法
CN105550708B (zh) * 2015-12-14 2018-12-07 北京工业大学 基于改进surf特征的视觉词袋模型构建方法
US10664722B1 (en) * 2016-10-05 2020-05-26 Digimarc Corporation Image processing arrangements
CN108255858A (zh) * 2016-12-29 2018-07-06 北京优朋普乐科技有限公司 一种图像检索方法和系统
CN107368807B (zh) * 2017-07-20 2020-06-30 东南大学 一种基于视觉词袋模型的监控视频车型分类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198333A (zh) * 2013-04-15 2013-07-10 中国科学院电子学研究所 一种高分辨率遥感图像自动语义标记方法
CN104850859A (zh) * 2015-05-25 2015-08-19 电子科技大学 一种基于多尺度分析的图像特征包构建方法
CN107870992A (zh) * 2017-10-27 2018-04-03 上海交通大学 基于多通道主题模型的可编辑服装图像搜索方法
KR101988555B1 (ko) * 2017-12-05 2019-06-12 충북대학교 산학협력단 조명 불변 영상을 사용한 slam 시스템 및 점구름 지도 생성 방법
CN108319964A (zh) * 2018-02-07 2018-07-24 嘉兴学院 一种基于混合特征和流形学习的火灾图像识别方法
CN110322466A (zh) * 2018-03-28 2019-10-11 河南工业大学 一种基于多层区域限制的有监督图像分割方法
CN108764302A (zh) * 2018-05-08 2018-11-06 中山大学 一种基于颜色特征和词袋特征的票据图像分类方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A 2-D wavelet decom position-based bag-of-visual-words model for land-use scene classification;Lijun Zhao 等;《International Journal of Remote Sensing》;20141207;第35卷(第6期);2296-2310 *
RGB颜色空间的矢量-角度距离色差公式;杨振亚 等;《计算机工程与应用》;20100221;第46卷(第6期);154-156 *
基于低尺度词袋模型的图像快速分类方法;肖哲 等;《电子科技大学学报》;20161130;第45卷(第6期);997-1001 *
基于傅里叶描述子的图像检索技术研究;高泽 等;《哈尔滨商业大学学报(自然科学版)》;20190228;第35卷(第1期);77-80 *
基于改进视觉词袋模型的图像标注方法;霍华 等;《计算机工程》;20121130;第38卷(第22期);276-278,282 *

Also Published As

Publication number Publication date
CN113657511A (zh) 2021-11-16
CN112966715A (zh) 2021-06-15
CN113657511B (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
Liu et al. Fusion of deep learning and compressed domain features for content-based image retrieval
CN108470354B (zh) 视频目标跟踪方法、装置和实现装置
CN106529447B (zh) 一种小样本人脸识别方法
Zeng et al. Image retrieval using spatiograms of colors quantized by gaussian mixture models
Hu et al. Surface defect classification in large-scale strip steel image collection via hybrid chromosome genetic algorithm
CN110427895A (zh) 一种基于计算机视觉的视频内容相似度判别方法及系统
CN110334762B (zh) 一种基于四叉树结合orb和sift的特征匹配方法
Prasad et al. An efficient classification of flower images with convolutional neural networks
CN108062543A (zh) 一种面部识别方法及装置
CN111046900A (zh) 基于局部流形正则化的半监督生成对抗网络图像分类方法
CN106971158B (zh) 一种基于CoLBP共生特征与GSS特征的行人检测方法
CN111178312B (zh) 基于多任务特征学习网络的人脸表情识别方法
CN110717423B (zh) 一种老人面部表情的情感识别模型的训练方法及装置
CN113221956B (zh) 基于改进的多尺度深度模型的目标识别方法及装置
Wang et al. A novel method for image classification based on bag of visual words
CN108564111A (zh) 一种基于邻域粗糙集特征选择的图像分类方法
Varish A modified similarity measurement for image retrieval scheme using fusion of color, texture and shape moments
CN103310208B (zh) 基于局部几何视觉短语描述的鉴别性人脸姿态识别方法
CN110400370B (zh) 一种构建三维cad模型的语义级部件模板的方法
CN108491883B (zh) 一种基于条件随机场的显著性检测优化方法
CN112966715B (zh) 一种基于多尺度视觉词包模型的商品图像特征描述方法
CN112434731A (zh) 图像识别方法、装置及可读存储介质
CN115512207A (zh) 一种基于多路特征融合及高阶损失感知采样的单阶段目标检测方法
CN112818779B (zh) 一种基于特征优选与多种特征融合的人体行为识别方法
Li et al. Multi-level Fisher vector aggregated completed local fractional order derivative feature vector for face recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221019

Address after: 230000 B-1015, wo Yuan Garden, 81 Ganquan Road, Shushan District, Hefei, Anhui.

Patentee after: HEFEI MINGLONG ELECTRONIC TECHNOLOGY Co.,Ltd.

Address before: 150076, Tongda street, Daoli District, Heilongjiang, Harbin, 138

Patentee before: HARBIN University OF COMMERCE

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221221

Address after: Room 201, Light Industry Workshop, No. 4358, Zhigu Second Street, Harbin, 150000 Heilongjiang

Patentee after: Harbin Thunder Mouse Technology Co.,Ltd.

Address before: 230000 B-1015, wo Yuan Garden, 81 Ganquan Road, Shushan District, Hefei, Anhui.

Patentee before: HEFEI MINGLONG ELECTRONIC TECHNOLOGY Co.,Ltd.