CN112966715B

CN112966715B - 一种基于多尺度视觉词包模型的商品图像特征描述方法

Info

Publication number: CN112966715B
Application number: CN202110144794.9A
Authority: CN
Inventors: 孙华东; 张旭; 韩小为; 刘良; 赵志杰; 金雪松; 邱泽国
Original assignee: Harbin University of Commerce
Current assignee: Harbin Thunder Mouse Technology Co.,Ltd.
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2021-09-07
Anticipated expiration: 2041-02-02
Also published as: CN113657511A; CN112966715A; CN113657511B

Abstract

一种基于多尺度视觉词包模型的商品图像特征描述方法，解决了采用现有视觉词包特征描述方法的商品图像分类效果不佳的问题，属于图像分类领域。本发明包括：对2倍升采样的商品图像进行小波多尺度分解，提取多尺度特征点，进行边缘填充，在边缘填充后的图像上划定图像的局部区域，利用SURF局部特征与量化归一的颜色矢量角特征对划定的局部区域进行描述，并通过串行融合得到最终的局部区域特征的描述子；对局部区域特征进行聚类，形成词包；对每个局部区域特征与词包中的词特征向量进行距离度量，给局部区域特征编码，使用对角同心矩空间模型进行特征汇聚形成图像描述子，并进行降维，获得视觉词包特征向量；将获得的视觉词包特征向量用分类器分类。

Description

一种基于多尺度视觉词包模型的商品图像特征描述方法

技术领域

本发明涉及一种基于多尺度视觉词包模型的商品图像特征描述方法，属于图像分类领域。

背景技术

我国电子商务的规模不断增长，已成为影响居民生活的重要行业。随着互联网的不断进步促进了淘宝、京东和唯品会等各大电子商务平台的快速发展，网上购物已经成为了大众购买商品的主要方式，越来越被人们所认可。根据中国互联网络信息中心统计，截至2020年3月，我国网民规模为9.04亿，互联网普及率达64.5％，我国网络购物用户规模达7.10亿，2019年交易规模达10.63万亿元，同比增长16.5％。为给用户对商品的快速浏览、搜索定位等提供更加优良的购物体验，一个良好的商品图像特征描述及分类系统也越来越凸显其重要性。而以往基于人工标注的图像分类方法已经不符合现实需求。如何利用图像处理、计算机视觉、模式识别以及机器学习等技术，实现商品图像的特征描述并进行分类具有很大的研究和商业价值。

对图像特征描述及分类的研究，从技术层面大致可划分成三类，第一类是使用颜色、纹理、形状的底层特征作为图片的描述通过分类器进行训练进而使该分类器具有对图像在所选特征上的分类效果；第二类是使用视觉词典这种中层语义特征来对图像进行分类，视觉词典通过整合底层特征的关系对图像的局部区域有很强的描述能力，在某些分类任务上具有较好的效果；第三类是使用深度学习的方法对图像进行分类，通过合适深度的网络可以设计出分类效果较好的分类模型。上述三种处理方式，其中底层特征主要针对像素来进行处理，会大大减轻距离较远像素间的关系，且不能很好的对图像内商品目标进行描述，往往会侧重于商品的某些特征，而忽略其他的特征；深度学习在图像分类上有不错的效果，但是深度学习存在着不可解释性和需要大量计算机算力的缺点，即便有不少方法能够在一定程度上减少运算量(例如迁移学习)，依然远远超出正常电脑运算的上限；词包特征在商品图像分类上有不错的效果，但对于词包模型的进一步研究有所匮乏，并且对于商品图像的自身特点没有很好地挖掘(例如忽视了商品图像的颜色信息，忽略了商品图像中的目标分布特点),所以视觉词典在商品图像的特征描述与分类研究仍具有价值和意义。

在视觉词包特征中关于局部区域的提取方式具有两种方式，分别为稀疏类和稠密类，其中稀疏类指的是提取图像中一些稳定的像素点并围绕该特征点根据确定的尺度大小划分成对应的图像块，而稠密类指的是在图像坐标中按一定抽样比例抽取像素点并围绕该点划定图像块。两种方式各有优缺点，稀疏类往往对前景突出的图像表现更好，而稠密类对背景明显的图像更有优势。对于商品图像是属于前景突出的类型，但同时商品图像有着比其他图像更光滑的特点，稀疏类的特征点提取较其他类型更加困难，过少的特征点导致不足以支撑对整个图像的描述。除了图像区域的划分之外，对于区域特征描述也存在特征描述单一的问题，传统的描述方式是SIFT(Scale-invariant feature transform)与SURF(Speeded-up robust features)，这两种方式都只包含了纹理信息。但对于商品而言，颜色信息也是一个值得参考的方面。对于传统的词包模型得到的特征是一个无序的统计特征，并没有包含词的位置信息，而常用的金字塔空间模型有着维数数十倍增长的特点，对于正常的词包特征维数会设定在一个较大的数值，将使得最终特征的维数爆炸，寻求一种表示商品图像更合适更简单的词包空间模型是一个研究的要点。

发明内容

针对采用现有视觉词包特征描述方法的商品图像分类效果不佳的问题，本发明提供一种基于多尺度视觉词包模型的商品图像特征描述方法。

本发明的一种基于多尺度视觉词包模型的商品图像特征描述方法，所述方法包括：

S1：对2倍升采样的商品图像进行小波多尺度分解，在不同分解尺度进行多尺度特征点提取；

S2：对提取的多尺度特征点进行边缘填充，在边缘填充后的图像上划定图像的局部区域，利用SURF局部特征与量化归一的颜色矢量角特征对划定的局部区域进行描述，并通过串行融合得到最终的局部区域特征的描述子；

S3：对S2得到的局部区域特征进行聚类，形成词包；

S4：对每个局部区域特征与词包中的词特征向量进行距离度量，给局部区域特征编码，并使用对角同心矩空间模型进行特征汇聚形成图像描述子，将该图像描述子使用主成分分析对特征进行降维，获得降维的视觉词包特征向量；

S5：将S4获得的视觉词包特征向量用分类器分类。

作为优选，所述S1包括：

S11：将商品图像灰度值化并进行二倍升采样处理，然后对升采样图像进行多层小波分解，对每层分解得到的三个方向的高频小波响应矩阵提取相同坐标上的归一化系数；

S12：根据归一化系数的大小筛选出侯选点；

S13：对所有候选点进行非极大值抑制，以候选点为中心划定5*5大小的矩阵块，矩阵块每个位置的值为坐标相同的三个小波高频通道响应值之和，若候选点的值为该区域的最大值则保留，反之去除，得到对应尺度下的特征点；

S14：计算出特征点映射到原图的坐标位置。

作为优选，所述S11中，对每层分解得到的三个方向的高频小波响应矩阵提取相同坐标上的归一化系数为：

其中ch、cv、cd分别为小波分解的竖直方向、水平方向和对角方向的高频小波响应矩阵，max表示分量内取最大值，cH、cV、cD分别为竖直方向、水平方向和对角方向对应的归一化系数。

作为优选，所述S14中，映射到原图的坐标位置为：

其中，L为小波分解层数，x和y是在尺度上检测的特征点位置坐标，X和Y为原图所对应的坐标位置。

作为优选，所述S1中，尺度大小为：

σ＝1.6*2^L-1

其中，L为小波分解层数。

作为优选，所述S2包括：

S21：对图像进行边缘填充，根据特征点位置与尺度划定图像的局部区域；

S22：对局部区域的SURF描述子V_SURF：

围绕以某一像素点为中心半径大小为6σ的圆形区域计算haar响应值，将响应值最大的方向视为主方向；

将局部区域旋转至主方向位置，划分出以围绕特征点为中心，大小为20σ*20σ的局部区域，并将20σ*20σ的局部区域划分4*4的子区域，统计每个子区域内x、y方向的haar响应得到4维向量[∑x,∑y,∑|x|,∑|y|]，最终16个子区域特征串联得到4*4*4的64维SURF描述子V_SURF，σ表示尺度；

S23：在所述20σ*20σ的局部区域内统计每一级量化尺度对应颜色矢量角的出现次数，得到未归一化的颜色矢量角特征，对未归一化的颜色矢量角特征进行归一化处理得到颜色矢量角特征V_CVA

S24：将V_SURF与V_CVA进行串行融合得到最终的局部区域特征的描述子V：

V＝[V_SURF,V_CVA]。

作为优选，所述S23中，尺度大小是每0.5度为一级量化尺度；

颜色矢量角表示的是将彩色图像像素点的3颜色通道的值视为三维空间的坐标值，计算两相邻像素点三通道坐标值与原点之间的夹角大小，颜色矢量角为：

其中r₁、g₁、b₁为某像素点的三通道颜色值，r₂、g₂、b₂为相邻像素点的三通道颜色值，arccos表示反余弦函数，angle为两像素点的颜色矢量角；

对得到的颜色矢量角量化过程为：

其中，angle表示颜色矢量角的大小，i为对应的量化值；

归一化过程表示：

其中V＝[v₁,v₂,…,v₁₈₀]，v_i表示量化值i出现的统计次数。

作为优选，所述S3包括：

随机选取K个局部区域特征作为初始类型，再用Kmeans算法进行迭代修正，直到误差小于阈值，得到最终K个聚类类心，即K个词包。

作为优选，所述S4包括：

S41：对每个局部区域特征分别与词包内所有的词特征向量进行欧氏距离的计算，将每个局部区域特征编码为距离最小的词特征向量，得到编码好的局部区域特征；

S42：按照对角同心矩空间模型，给图像划定空间子区域，统计整张图像内每类词的出现次数以及在划定空间子区域每类词出现次数，进行归一化处理，得到空间词频特征向量F，作为图像描述子：

F＝[f₀,f₁,...,f_M]

若图像划分为n部分则得到的空间词频特征向量F是K*(n+1)维的；其中，f0表示在整个图像范围而不考虑子空间范围得到的词频统计特征，它是K维的向量；f1,...,fn表示在划定的不同子空间内得到的词频统计特征，它们也是K维的向量；

S43：对图像描述子使用主成分分析方法进行降维，获得降维的视觉词包特征向量。

作为优选，所述S5使用SVM多分类算法对降维的视觉词包特征向量进行商品图像分类。

本发明的有益效果，本发明丰富了分布合理的特征点数量，在纹理特征的基础上增加了颜色信息使局部区域可区分性更强，比SPM(Spatial Pyramid Matching)空间模型降低了特征维度，可使用计算机程序对商品图像进行分类，提高图像分类的精度，减轻工作量。

附图说明

图1为本发明的方法流程图；

图2为本实施方式中涉及的多尺度特征点提取方法(Wavelet MultiscaleFeature Points,WDFP)流程示意图；其中，候选点的颜色表示该位置的归一化响应值大于阈值；

图3为本实施方式中涉及的多尺度特征区域划分的部分示意图；

图4为本实施方式中涉及的多尺度特征点与SURF(Speeded-up robust features)特征点位置分布示意图；

图5为本实施方式中涉及的SURF(Speeded-up robust features)描述子与颜色矢量角的角度形成过程，其中，(a)为SURF描述子生成过程，(b)表示颜色矢量角的角度计算过程；

图6为本实施方式中涉及的Kmeans聚类算法在聚类数量为3时聚类过程的示意图；

图7为本实施方式中涉及的对角同心矩空间模型(Diagonal ConcetricRectangular Model,DCRM)划定范围的示意图；

图8(a)为本实施方式中中特征点提取方法(Wavelet Multiscale FeaturePoints,WDFP)结合SURF(Speeded-up robust features)局部区域特征提取算法、主流基于原始SIFT(Scale-invariant feature transform)算法和原始SURF(Speeded-up robustfeatures)算法的三种算法在商品图像分类效果的比较；

图8(b)为本实施方式中中以本发明的特征点提取方法(WDFP)加上颜色矢量角特征(Color vector angle,CVA)与SURF(Speeded-up robust features)局部区域特征融合提取算法、主流基于原始SURT算法加上颜色矢量角(Color vector angle,CVA)和原始SURF(Speeded-up robust features)算法的分类效果的比较；图8(c)为本实施方式中的对角同心矩空间表示方法(Diagonal Concetric Rectangular Model,DCRM)、SPM(SpatialPyramid Matching)空间表示方法与不进行空间划分的统计方法，在本发明特征提取方法与主流算法于商品图像分类效果的对比；

图8(d)为本实施方式中三种改进方案的算法、与其它主流算法在不同空间模型表示的结合对分类效果的影响；

图9为本发明涉及的一种基于多尺度视觉词包模型的商品图像特征描述方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

如图1所示，本实施方式的一种基于多尺度视觉词包模型的商品图像特征描述方法，包括以下步骤：

步骤一：对2倍升采样的商品图像进行小波多尺度分解，在不同分解尺度进行多尺度特征点提取及尺度大小的设定。

步骤二：对提取的多尺度特征点进行边缘填充，在边缘填充后的图像上划定图像的局部区域，利用SURF(Speeded-up robust features)局部特征与量化归一的颜色矢量角特征对划定的局部区域进行描述，并通过串行融合得到最终的局部区域特征的描述子；

步骤三：对步骤二得到的局部区域特征进行聚类，形成词包。

步骤四：对每个局部区域特征与词包中的词特征向量进行距离度量，给局部区域特征编码，并使用对角同心矩空间模型进行特征汇聚形成图像描述子，将该图像描述子使用主成分分析(Principal Compeonent Analysis,PCA)对特征进行降维，获得降维的视觉词包特征向量；

步骤五：将步骤四提取的视觉词包特征向量用SVM分类器分类，并通过与其它视觉词包算法进行比较得出分类效果。

本实施方式增加了视觉词包特征在商品图像上的信息量，降低了传统视觉词包的特征维度，提高了准确率。能有效的对商品图像进行分类，提高分类效率，减轻人工分类的工作量。

优选实施例中，如图2所示，本实施方式的步骤一包括：

将商品图像灰度值化并进行2倍升采样处理，然后对升采样图像进行多层小波分解，对每层分解得到的三个方向的高频小波响应矩阵提取相同坐标上的归一化系数，根据系数大小筛选出侯选点，要求是三个高频通道相同坐标下的系数值都大于0.1。之后对所有候选点进行非极大值抑制，过程是以候选点为中心划定5*5大小的矩阵块，矩阵块每个位置的值为坐标相同的三个小波高频通道响应值之和，若候选点的值为该区域的最大值则保留，反之去除，得到对应尺度下的特征点，最后计算出映射到原图的大致粗略坐标位置。

高频分量归一化过程表示为：

其中ch、cv、cd分别为小波分解的竖直方向、水平方向和对角方向的高频分量矩阵，max表示分量内取最大值，cH、cV、cD表示为归一化后的高频分量矩阵。

坐标映射过程表示为：

其中L为小波分解层数，x和y是在尺度上检测的特征点位置坐标，X和Y为原图所对应的坐标位置。值得注意的是该计算方法非理论验证得来，而是以视觉感官效果与尺度缩放位置变化的共同结果。

关于尺度大小的确定按照如下公式变化：

σ＝1.6*2^L-1

其中L为小波分解层数，1.6为设定的最初始尺度。

优选实施例中，如图3、图4和图5本实施方式的步骤二包括：

步骤二一：对图像进行边缘填充，根据特征点位置与尺度划定图像的局部区域。

步骤二二：提取SURF(Speeded-up robust features)局部区域描述子，该过程包括围绕以某一像素点为中心半径大小为6σ的圆形区域计算haar响应值，将响应值最大的方向视为主方向；将局部区域旋转至主方向位置，划分出以围绕特征点为中心，大小为20σ*20σ的局部区域，并将20σ*20σ的局部区域划分4*4的子区域，统计每个子区域内x、y方向的haar响应得到4维向量[∑x,∑y,∑|x|,∑|y|]，最终16个子区域特征串联得到4*4*4的64维SURF(Speeded-up robust features)局部区域描述子V_SURF。

步骤二三：提取颜色矢量角特征，颜色矢量角表示的是将彩色图像像素点的3颜色通道的值视为三维空间的坐标值，然后计算两相邻像素点三通道坐标值与原点(0,0,0)之间的夹角大小，并通过量化统计归一得到颜色矢量角特征；本发明关于颜色矢量角的量化的尺度大小是每0.5度量化1级，在与步骤二一相同的20σ*20σ的区域内统计每一级颜色矢量角的出现次数得到未归一化的颜色矢量角特征，最后对这180维特征进行归一化处理得到颜色矢量角特征V_CVA。

颜色矢量角的计算公式为：

其中r1,g1,b1为某像素点的三通道颜色值，r2,g2,b2为相邻像素点的三通道颜色值，arccos表示反余弦函数，angle为两像素点的颜色矢量夹角。

在得到颜色矢量夹角后对其量化过程为：

其中angle表示颜色矢量角的大小，i为对应的量化值。

归一化过程表示：

步骤二四：将64维的SURF(Speeded-up robust features)局部区域描述子V_SURF与180维的颜色矢量角特征向量V_CVA进行串行融合。具体可表示为：

V＝[V_SURF,V_CVA]

优选实施例中，如图6所示，本实施方式的步骤三，具体为：

将训练集里所有提取的局部区域特征，随机选取K个局部区域特征作为初始类型，再用Kmeans算法进行迭代修正，直到误差小于阈值，得到最终K个聚类类心，即K个词向量。

优选实施例中，本实施方式中，步骤四包括：

步骤四一：对每个局部区域特征分别与词包内所有的词特征向量进行欧氏距离的计算，距离越小表明与对应词越相似，视该局部区域特征为距离最小的词，将每个局部区域特征编码为距离最小的词，得到编码好的局部区域特征。

步骤四二：按照对角同心矩空间模型，如图7所示，给图像划定空间区域，给图像划定空间区域，统计整张图像内每类词的出现次数以及在给定子区域每类词出现次数，其中词的位置指的是特征点的位置，对得到的统计向量进行归一化处理。假设给图像划分为n部分则得到K*(n+1)维的空间词频特征向量F＝[f0,f1,...,fn]。其中，f0表示在整个图像范围而不考虑子空间范围得到的词频统计特征，它是K维的向量；f1,...,fn表示在划定的不同子空间内得到的词频统计特征，它们也是K维的向量。

步骤四三：对最后的特征使用主成分分析(Principal Compeonent Analysis,PCA)方法进行降维，用以降低空间表示的词包特征维数过大的缺点，减少计算算力和计算时间。

优选实施例中，本实施方式的步骤五中，将统计得到的特征词出现概率作为特征向量和SVM(Support Vector Machine)分类算法来对商品图像分类，并利用在不同数量的类心之下分析词的数量对分类的影响、不采用颜色矢量角特征的情况下的分类效果和不进行对图像划分空间下的分类精度进行比较，得出分类结果是否正确的步骤为：

步骤五一、使用SVM(Support Vector Machine)多分类算法对归一化并降维的特征向量进行商品图像分类；

步骤五二：再利用平均准确率(MAP)结果进行评价，其中：

需说明的是，本实施方式基于多尺度视觉词包模型的系统框架，针对商品图像的特点对以往的视觉词包特征的提取过程进行四个部分的修改，四个部分分别为：特征点提取及尺度设定、原SURF(Speeded-up robust features)区域特征与颜色矢量角特征串行融合、对角同心矩空间模型和基于主成分分析(Principal Compeonent Analysis,PCA)的特征降维。本实施方式的方法过程是用设置好的计算机执行程序对商品图像进行分类，目的是提高商品图像分类的工作效率节省人力资源。

在只改变特征点提取及区域选择方式且不采用空间模型表示方式上，随着词典里词数量的增加分类效果也有成正比的效果，词数趋于1000时接近分类极限，此时分类效果本文修改方法的分类效果为87.12％，比基于原始SURF和原始SIFT的视觉词包算法分别提高1％和15.1％。

由于基于SIFT算法的视觉词包算法效果不具有可比性，这里去掉该了基于SIFT的视觉词典算法。在只加上颜色矢量角统计特征(CVA)之后，随着词典里词数量的增加分类效果也有成正比的效果，词数趋于1000时接近分类极限，分类效果达到了86.8％，比原始SURF的视觉词包算法提高0.67％，在这基础上加上更改特征点提取及区域选择方式，两种方案改进下分类效果达到了88.23％，比原始SURF提高2.1％。

在改变特征点提取及区域选择方式和加上颜色矢量角量化统计特征且采用空间模型表示方式上，随着词典里词数量的增加分类效果也有成正比的效果，词数趋于1000时接近分类极限，此时本发明的三种修改方案共同作用下得到效果最佳分类效果为89.77％，比基于原始SURF和SPM模型的视觉词包算法提高2.33％。

除此之外，还对比了使用其他分类器下的分类效果，结果表明在这三种下SVM多分类器下该特征表现最优。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于多尺度视觉词包模型的商品图像特征描述方法，其特征在于，所述方法包括：

S3：对S2得到的局部区域特征进行聚类，形成词包；

S5：将S4获得的视觉词包特征向量用分类器分类；

所述S4包括：

F＝[f₀,f₁,...,f_M]

2.根据权利要求1所述的一种基于多尺度视觉词包模型的商品图像特征描述方法，其特征在于，所述S1包括：

S12：根据归一化系数的大小筛选出侯选点；

S14：计算出特征点映射到原图的坐标位置。

3.根据权利要求2所述的一种基于多尺度视觉词包模型的商品图像特征描述方法，其特征在于，所述S11中，对每层分解得到的三个方向的高频小波响应矩阵提取相同坐标上的归一化系数为：

4.根据权利要求2所述的一种基于多尺度视觉词包模型的商品图像特征描述方法，其特征在于，所述S14中，映射到原图的坐标位置为：

5.根据权利要求1所述的一种基于多尺度视觉词包模型的商品图像特征描述方法，其特征在于，所述S1中，尺度大小为：

σ＝1.6*2^L-1

其中，L为小波分解层数。

6.根据权利要求1所述的一种基于多尺度视觉词包模型的商品图像特征描述方法，其特征在于，所述S2包括：

S22：构建局部区域的SURF描述子V_SURF：

将局部区域旋转至主方向位置，划分出以围绕特征点为中心，大小为20σ*20σ的局部区域，并将20σ*20σ的局部区域划分4*4的子区域，统计每个子区域内x、y方向的haar响应得到4维向量[Σx,Σy,Σ|x|,Σ|y|]，最终16个子区域特征串联得到4*4*4的64维SURF描述子V_SURF，σ表示尺度；

V＝[V_SURF,V_CVA]。

7.根据权利要求6所述的一种基于多尺度视觉词包模型的商品图像特征描述方法，其特征在于，所述S23中，尺度大小是每0.5度为一级量化尺度；

对得到的颜色矢量角量化过程为：

其中，angle表示颜色矢量角的大小，i为对应的量化值；

归一化过程表示：

8.根据权利要求1所述的一种基于多尺度视觉词包模型的商品图像特征描述方法，其特征在于，所述S3包括：

9.根据权利要求1所述的一种基于多尺度视觉词包模型的商品图像特征描述方法，其特征在于，所述S5使用SVM多分类算法对降维的视觉词包特征向量进行商品图像分类。