CN104361354B

CN104361354B - 一种基于稀疏编码k最近邻直方图的海量图像分类方法

Info

Publication number: CN104361354B
Application number: CN201410709032.9A
Authority: CN
Inventors: 董乐; 张宁; 贺玲
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2014-11-28
Filing date: 2014-11-28
Publication date: 2018-01-12
Anticipated expiration: 2034-11-28
Also published as: CN104361354A

Abstract

本发明提出一种基于稀疏编码K最近邻直方图的海量图像分类方法，属于模式识别与信息处理技术领域。本发明方法提出的图像特征表达是在不同尺度上统计直方图，在很大程度上捕捉到了图像各个域的特征信息，使得获得的图像特征具有平移不变性，能够有效地辨别各种变形后的图片。本发明用尽量简洁的图像表达来提高海量图像分类任务的准确率，本发明提供的方法在图像处理过程中图像表达极其简洁，计算复杂度低，同时对图像的变形具有很强的鲁棒性。

Description

一种基于稀疏编码K最近邻直方图的海量图像分类方法

技术领域

本发明属于模式识别与信息处理技术领域，涉及计算机视觉方面的海量图像处理，尤其涉及一种基于统计稀疏编码K最近邻直方图的海量图像分类方法。

背景技术

近年来，随着互联网图像大数据规模的与日俱增，无论是图像数据库的规模，还是图像的多样性，都达到了前所未有的高峰。如何准确地将海量图像正确地进行分类成为当今相关领域的研究热点。传统的图像分类方法主要基于两种思路：1)图像空间；2)特征空间。基于图像空间的方法主要是利用图像的灰度直方图和纹理特征；而基于特征空间的方法思路是将原图像经过如小波变换这样的变换操作映射到特征空间，然后在特征空间提取图像的更高层次更抽象的特征。其中，基于图像空间的方法虽然准确率比较高，但往往伴随着计算复杂度高的问题，而基于特征空间的方法虽能降低数据计算量，但分类效果与特征提取的方法有很强的相关性。在海量图像分类任务中，不仅是要追求较高的分类准确率，还要考虑如何以尽量简洁的方式来表达原图片，使该图像表达既具有很强的区分力又能大幅减少计算复杂度。从这方面来看，考虑到图像空间和特征空间这两种方法固有的内在缺陷与优势，单一地使用基于图像空间或是特征空间的方法均难以胜任海量图像的分类任务。

发明内容

本发明旨在用尽量简洁的图像表达来提高海量图像分类任务的准确率，提出了一种结合图像空间与特征空间两种思路来得到适于进行海量图像分类的方法；在本发明提出的分类方法中图像表达极其简洁，计算复杂度低，同时对图像的变形具有很强的鲁棒性。

本发明解决其技术问题所采用的技术方案是：

步骤一：对训练图像集提取N个大小为s×h的图像块，s、h均为像素单位，所述图像块个数N不少于10万，得到整个训练图像集的图像块集合Patches；

步骤二：对图像块集合Patches进行预处理；对图像块集合Patches进行归一化用于保证每个数据的维度相同，；对归一化后的图像块集合进行白化操作用于消除数据冗余性，由此得到经归一化和白化操作后的图像块集合：

步骤三：对经归一化和白化操作后的图像块集合进行稀疏编码，得到基字典B；

步骤四：得到基字典B以后，对每张训练图片每隔1个像素距离提取大小为s×h的图像块，将每张训练图片提取出的图像块集合表示为im_patch，对图像块集合im_patch经过上述归一化和白化操作后得到找图像块集合中每个图像块与基字典B中的欧式距离最近的K个基(basis)；每个图像块imp_j的特征是一个W维的列向量，定义所述特征列向量中对应为上述K个基(basis)序号的位置处设为1，其余位置均为0；

步骤五：得到训练图片每个图像块的特征后，将图片从三个尺度上划分域：Level＝0时，保留整个图片为一个域；Level＝1时，将图片分为2×2＝4个域；Level＝2时，将图片分为2²×2²＝16个域；在这三个尺度上的每个域中分别计算每个图像块imp_j的特征向量中每个元素的0-1直方图，将所有域的直方图连接在一起即得到训练图片最终的特征表达；

步骤六：将训练图片集的特征表达输入支持向量机SVM中，训练分类器SVM；

步骤七：对测试样本集依次进行步骤一、步骤二、步骤四、步骤五的操作后，将得到的测试样本集的特征表达输入步骤六中训练好的分类器SVM中进行分类计算，最终实现测试图像的准确分类。

本发明的有益效果是：

本发明结合了传统的基于图像空间的图像分类与基于特征空间的图像分类的优势，提出了一种用简洁的图像表达来提高海量图像分类准确率的处理模型；本发明具有以下优点：

1、本发明提出的用以进行图像分类的图像特征表达总体上是基于特征空间的，得到的图像特征非常简洁，但同时融入了基于图像空间的直方图的计算，就保证了在简洁的特征表达上，进一步提高特征的区分力，进而提高图像分类准确率。在海量图像分类任务中，该发明提出的简洁的图像表达能够大幅度降低计算复杂性，同时，基于图像空间的直方图的计算又能保证图像分类准确率；

2、本发明提出的图像特征表达具有很强的鲁棒性。由于光照、旋转、聚焦等影响，海量图像数据库中普遍存在扭曲与变形的问题，传统的图像分类方法，无论是基于图像空间的，还是基于特征空间的，都难以辨认变形前与变形后的图像。本发明提出的图像特征表达是在不同尺度上统计直方图，在很大程度上捕捉到了图像各个域的特征信息，使得获得的图像特征具有平移不变性，能够有效地辨别各种变形后的图片，从而在一定程度上提高海量图像分类的任务。

附图说明

图1为本发明提供的基于稀疏编码K最近邻直方图的海量图像分类方法流程图。

具体实施方式

本发明提出的基于稀疏编码K最近邻直方图的海量图像分类方法具体步骤如下：

步骤一：对训练图像集提取N个大小为s×h的图像块，s、h均为像素单位，每个图像块是一个D＝s×h×d维的向量，当图片为RGB图像时，d＝3；当图片为灰度图像时，d＝1；整个训练图像集的图像块集合Patches表示为：

其中，p_i是图像块集合Patches中第i个图像块的像素构成的列向量，i＝1,…,N，N为图像块集合Patches的图像块总数，表示D维列向量；

步骤二：对图像块集合Patches进行预处理；对图像块集合Patches进行归一化用于保证每个数据的维度相同，每一个图像块p_i的归一化公式为：

其中，mean(p_i)是每个图像块p_i中各个元素的平均值，var(p_i)是每个图像块p_i中元素的方差，由此得到归一化后的图像块集合对归一化后的图像块集合进行白化操作用于消除数据冗余性，白化操作的公式为：

其中，是归一化图像块集合的协方差矩阵，eig(·)是求协方差矩阵的特征值和特征向量，V是所求特征值组成的向量，U是对应特征向量组成的矩阵，U矩阵的每一列是一个特征向量，是特征向量矩阵的转置U^T与归一化图像块集合中第i个图像块相乘后的列向量，λ_i是向量V中第i个特征值，是图像块集合中第i个图像块经白化操作后的列向量；由此得到经归一化和白化操作后的图像块集合：

步骤三：对经归一化和白化操作后的图像块集合进行稀疏编码，得到基字典B；稀疏编码的公式为：

其中，基字典B＝[b₁,…,b_w,…,b_W]，b_w是基字典B中的基(basis)，基字典B共有W个基；α为稀疏性约束系数，0<α<1；q_i为图像块集合中第i个图像块映射到字典B的码向量；s.t.表示“受约束于”，‖b_w‖是向量b_w的二范数；可利用最大期望算法(EM算法)求解公式(4)得到基字典B；

步骤四：得到基字典B以后，对于每张训练图片，从图片中每隔1个像素距离提取一个大小为s×h的图像块，每张训练图片共计提取Z个所述大小为s×h的图像块，所述图像块的表示为im_patch；对图像块集合im_patch经过上述归一化和白化操作后得到图像块集合计算图像块集合中每个图像块imp_j与字典B中每一个基的欧式距离，j＝1…Z，Z为图像块集合的图像块总数；针对图像块集合中每个图像块imp_j，找到字典B中与相应图像块imp_j的欧式距离最近的K个基(basis)，这些基记作集合KNN(imp_j)；每个图像块imp_j的特征向量是W维且其所有元素记为：每个图像块impj的特征向量中每个元素的计算公式为：

其中，B(w)是基字典B中的第w个基，w＝1,…,W，表示图像块imp_j的特征向量中第w个元素的位置；由此可得到训练图片集所有图片的每个图像块的特征向量；

步骤五：得到训练图片每个图像块的特征向量后，将图片从三个尺度上划分域：Level＝0时，保留整个图片为一个域；Level＝1时，将图片分为2×2＝4个域；Level＝2时，将图片分为2²×2²＝16个域；在这三个尺度上的每个域中分别计算每个图像块imp_j的特征向量中每个元素的0-1直方图，将所有域的直方图连接在一起即得到训练图片最终的特征表达；

步骤七：对测试样本集依次进行步骤一、步骤二、步骤四、步骤五中与训练图片集相同的操作后，将得到的测试样本集的特征表达输入至步骤六中训练好的分类器SVM中进行分类计算，最终实现测试图像的准确分类。

Claims

1.一种基于稀疏编码K最近邻直方图的海量图像分类方法，具体包括以下步骤：

步骤二：对图像块集合Patches进行预处理；对图像块集合Patches进行归一化，得到归一化后的图像块集合对归一化后的图像块集合进行白化操作，得到经归一化和白化操作后的图像块集合：

<mrow> <msub> <mover> <mrow> <mi>P</mi> <mi>a</mi> <mi>t</mi> <mi>c</mi> <mi>h</mi> <mi>e</mi> <mi>s</mi> </mrow> <mo>&OverBar;</mo> </mover> <mrow> <mi>w</mi> <mi>h</mi> <mi>i</mi> <mi>t</mi> <mi>e</mi> <mi>n</mi> </mrow> </msub> <mo>=</mo> <mo>&lsqb;</mo> <msub> <mover> <mi>p</mi> <mo>&OverBar;</mo> </mover> <mrow> <mi>w</mi> <mi>h</mi> <mi>i</mi> <mi>t</mi> <mi>e</mi> <mi>n</mi> <mo>,</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mover> <mi>p</mi> <mo>&OverBar;</mo> </mover> <mrow> <mi>w</mi> <mi>h</mi> <mi>i</mi> <mi>t</mi> <mi>e</mi> <mi>n</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mover> <mi>p</mi> <mo>&OverBar;</mo> </mover> <mrow> <mi>w</mi> <mi>h</mi> <mi>i</mi> <mi>t</mi> <mi>e</mi> <mi>n</mi> <mo>,</mo> <mi>N</mi> </mrow> </msub> <mo>&rsqb;</mo> </mrow>

其中，是图像块集合中第i个图像块经白化操作后的列向量；

步骤三：对归一化和白化操作后的图像块集合进行稀疏编码，得到基字典B；

步骤四：对于每张训练图片，从图片中每隔1个像素距离提取一个大小为s×h的图像块，每张训练图片共计提取Z个所述大小为s×h的图像块，所述图像块的集合表示为im_patch，对图像块集合im_patch经过所述归一化和白化操作后得到集合计算图像块集合中每个图像块imp_j与字典B中每一个基的欧式距离，j＝1,…,Z；针对图像块集合中每个图像块imp_j，找到字典B中与相应图像块imp_j欧式距离最近的K个基(basis)，将这些基记作KNN(imp_j)；每个图像块imp_j的特征向量是W维且其所有元素记为：每个图像块imp_j的特征向量中每个元素的计算公式为：

<mrow> <mi>F</mi> <mrow> <mo>(</mo> <msubsup> <mi>imp</mi> <mi>j</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>1</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> <mi> </mi> <mi>B</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <mo>&Element;</mo> <mi>K</mi> <mi>N</mi> <mi>N</mi> <mrow> <mo>(</mo> <msub> <mi>imp</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>e</mi> <mi>l</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

其中，B(w)是基字典B中的第w个基，w＝1,…,W，表示图像块imp_j的特征向量中的第w个元素位置；由此可得到训练图片集所有图片的每个图像块的特征向量；

步骤五：在得到训练图片每个图像块的特征向量后，将图片从三个尺度上划分域：Level＝0时，保留整个图片为一个域；Level＝1时，将图片分为2×2＝4个域；Level＝2时，将图片分为2²×2²＝16个域；在这三个尺度上的每个域中分别计算每个图像块imp_j的特征向量中每个元素的0-1直方图，将所有域的直方图连接在一起即得到训练图片最终的特征表达；

2.根据权利要求1所述的基于稀疏编码K最近邻直方图的海量图像分类方法，其特征在于，所述的归一化由以下公式实现：

<mrow> <mover> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>=</mo> <mo>&lsqb;</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>-</mo> <mi>m</mi> <mi>e</mi> <mi>a</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>/</mo> <mi>var</mi> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>N</mi> </mrow>

其中，mean(p_i)是每个图像块p_i中各个元素的平均值，var(p_i)是每个图像块p_i中元素的方差，由此得到归一化后的图像块集合

所述的对归一化后的图像块集合进行白化操作的具体方法如下：

<mrow> <mo>&lsqb;</mo> <mi>V</mi> <mo>,</mo> <mi>U</mi> <mo>&rsqb;</mo> <mo>=</mo> <mi>e</mi> <mi>i</mi> <mi>g</mi> <mrow> <mo>(</mo> <mi>cov</mi> <mo>(</mo> <mover> <mrow> <mi>P</mi> <mi>a</mi> <mi>t</mi> <mi>c</mi> <mi>h</mi> <mi>e</mi> <mi>s</mi> </mrow> <mo>&OverBar;</mo> </mover> <mo>)</mo> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mover> <mi>p</mi> <mo>&OverBar;</mo> </mover> <mrow> <mi>r</mi> <mi>o</mi> <mi>t</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>=</mo> <msup> <mi>U</mi> <mi>T</mi> </msup> <mo>&times;</mo> <msub> <mover> <mi>p</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> </msub> </mrow>

<mrow> <msub> <mover> <mi>p</mi> <mo>&OverBar;</mo> </mover> <mrow> <mi>w</mi> <mi>h</mi> <mi>i</mi> <mi>t</mi> <mi>e</mi> <mi>n</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>=</mo> <mfrac> <msub> <mover> <mi>p</mi> <mo>&OverBar;</mo> </mover> <mrow> <mi>r</mi> <mi>o</mi> <mi>t</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <msqrt> <msub> <mi>&lambda;</mi> <mi>i</mi> </msub> </msqrt> </mfrac> </mrow>

其中，是归一化图像块集合的协方差矩阵，eig(·)是求协方差矩阵的特征值和特征向量，V是所求特征值组成的向量，U是对应特征向量组成的矩阵，U矩阵的每一列是一个特征向量，是特征向量矩阵的转置U^T与归一化图像块集合中第i个图像块相乘后的列向量，λ_i是向量V中第i个特征值，是图像块集合中第i个图像块经白化操作后的列向量。

3.根据权利要求1所述的基于稀疏编码K最近邻直方图的海量图像分类方法，其特征在于，所述稀疏编码由以下公式实现公式为：

<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>U</mi> <mo>,</mo> <mi>B</mi> </mrow> </munder> <mstyle> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> </mstyle> <mo>(</mo> <mo>|</mo> <mo>|</mo> <msub> <mover> <mi>p</mi> <mo>&OverBar;</mo> </mover> <mrow> <mi>w</mi> <mi>h</mi> <mi>i</mi> <mi>t</mi> <mi>e</mi> <mi>n</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>q</mi> <mi>i</mi> </msub> <mi>B</mi> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>+</mo> <mi>&alpha;</mi> <mo>|</mo> <msub> <mi>q</mi> <mi>i</mi> </msub> <mo>|</mo> <mo>)</mo> </mtd> </mtr> <mtr> <mtd> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>b</mi> <mi>w</mi> </msub> <mo>|</mo> <mo>|</mo> <mo>&le;</mo> <mn>1</mn> <mo>,</mo> <mo>&ForAll;</mo> <mi>w</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>W</mi> </mtd> </mtr> </mtable> </mfenced>

其中，基字典B＝[b₁,…,b_w,…,b_W]，b_w是基字典B中的基，共有W个基；为图像块集合中第i个图像块，α为稀疏性约束系数，0<α<1；q_i为图像块集合中第i个图像块映射到字典B的码向量；s.t.表示“受约束于”，||b_w||是向量b_w的二范数。

4.根据权利要求3所述的基于稀疏编码K最近邻直方图的海量图像分类方法，其特征在于，利用最大期望算法求解稀疏编码公式得到基字典B。