CN104299010B

CN104299010B - 一种基于词袋模型的图像描述方法及系统

Info

Publication number: CN104299010B
Application number: CN201410491596.XA
Authority: CN
Inventors: 李岩山; 谢维信; 黄庆华; 李晓棠; 高志坚
Original assignee: Shenzhen University
Current assignee: Chongqing Yifang Technology Co ltd
Priority date: 2014-09-23
Filing date: 2014-09-23
Publication date: 2017-11-10
Anticipated expiration: 2034-09-23
Also published as: CN104299010A

Abstract

本发明属于图像处理领域，提供了一种基于词袋模型的图像描述方法及系统。该方法及系统是在现有技术基础上应用模糊理论，在得到距离集合后，利用高斯隶属度函数为每一视觉单词分配不同的隶属度，以将距离集合转换为模糊集合，之后用具有不同隶属度的视觉单词对特征点进行编码，从而有效降低传统方法引起的信息丢失问题，进而提高图像描述的准确度。

Description

一种基于词袋模型的图像描述方法及系统

技术领域

本发明属于图像处理领域，尤其涉及一种基于词袋模型的图像描述方法及系统。

背景技术

在图像处理领域，图像描述作为图像标注、检索、分类等的关键技术，已吸引了越来越多研究者的关注。随着多媒体、互联网技术及可移动设备的发展，需要处理识别的图像数量呈爆炸式增长，从而对图像处理能力提出了更高要求。基于词袋模型的图像描述方法作为图像描述的有效方法，通过对图像的底层特征进行编码形成直方图矢量以对图像进行描述，具有处理效率高、分析准确度高的特点，特别适用于对大规模图像信息的处理。

现有技术提供的基于词袋模型的图像描述方法主要包括以下步骤：首先，从训练图像中提取特征点，对特征点进行聚类，获得码书；之后，从待描述图像中提取特征点，利用码书将特征点映射为视觉单词；之后，统计每一视觉单词在待描述图像中出现的频率，得到用以描述待描述图像的直方图矢量。

现有技术提供的前述基于词袋模型的图像描述方法在将特征点映射为视觉单词的步骤中，是选取码书中、与特征点之间的距离最近的视觉单词作为最佳方案。这样，当码书中有多个单词与特征点之间的距离相似时，有可能与特征点之间的距离稍大的视觉单词在语义上更接近该特征点，从而使得图像描述不准确。

发明内容

本发明的目的在于提供一种基于词袋模型的图像描述方法，旨在解决现有技术提供的基于词袋模型的图像描述方法在将特征点映射为视觉单词时，选取与特征点之间距离最近的视觉单词作为最佳方案，会使得图像描述不准确的问题。

本发明是这样实现的，一种基于词袋模型的图像描述方法，所述方法包括以下步骤：

从待描述图像中提取特征点；

计算所述特征点与码书中视觉单词之间的距离集合，并通过高斯隶属度函数、利用所述距离集合获得所述特征点与所述视觉单词之间的隶属度集合；

利用所述隶属度集合，统计用于描述每一特征点的所述视觉单词的隶属度，形成直方图矢量，所述直方图矢量用以描述所述待描述图像。

本发明的另一目的在于提供一种基于词袋模型的图像描述系统，所述系统包括：

提取模块，用于从待描述图像中提取特征点；

隶属度集合生成模块，用于计算所述提取模块提取出的所述特征点与码书中视觉单词之间的距离集合，并通过高斯隶属度函数、利用所述距离集合获得所述特征点与所述视觉单词之间的隶属度集合；

图像描述生成模块，用于利用所述隶属度集合生成模块获得的所述隶属度集合，统计用于描述每一特征点的所述视觉单词的隶属度，形成直方图矢量，所述直方图矢量用以描述所述待描述图像。

本发明提供的基于词袋模型的图像描述方法及系统是在现有技术基础上应用模糊理论，在得到距离集合后，利用高斯隶属度函数为每一视觉单词分配不同的隶属度，以将距离集合转换为模糊集合，之后用具有不同隶属度的视觉单词对特征点进行编码，从而有效降低传统方法引起的信息丢失问题，进而提高图像描述的准确度。

附图说明

图1是本发明提供的基于词袋模型的图像描述方法的流程图；

图2是本发明中，从待描述图像中提取特征点的步骤的详细流程图；

图3是本发明中，获得隶属度集合的步骤的详细流程图；

图4是本发明提供的基于词袋模型的图像描述系统的结构图；

图5是图4中提取模块的结构图；

图6是图4中隶属度集合生成模块的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提出一种基于词袋模型的图像描述方法及系统。该方法及系统是在现有技术基础上应用模糊理论，在得到距离集合后，利用高斯隶属度函数，将距离集合转换为模糊集合。

图1示出了本发明提供的基于词袋模型的图像描述方法的流程，包括以下步骤：

S1：从待描述图像中提取特征点。

本发明中，可采用尺度不变特征转换(Scale-Invariant Feature Transform，SIFT)算法或任一种SIFT改进算法实现特征点的提取。如图2所示，若采用SIFT算法实现特征点的提取，则可包括以下步骤：

S11：利用高斯核对待描述图像进行尺度变换，获得待描述图像在多尺度下的尺度空间表示序列，对尺度空间表示序列进行特征提取，以确定待描述图像中特征点的位置和所在尺度。

S12：通过拟合三维二次函数精确确定特征点的位置和尺寸。

S13：利用特征点邻域像素的梯度方向分布特性，为每一特征点指定一主方向和多个辅方向。

S14：统计特征点所处尺度和区域的图像梯度，并通过转换得到特征点的特征向量。

S2：计算特征点与码书中视觉单词之间的距离集合，并通过高斯隶属度函数、利用距离集合获得特征点与视觉单词之间的隶属度集合。如图3所示，步骤S2又可包括以下步骤：

S21：计算特征点与码书中视觉单词之间的距离集合。

若假设d_i,j是特征点q_i和码书中视觉单词w_j之间的欧式距离，D为用以表示距离集合的矩阵，则步骤S21可表示为：

其中，n为特征点的数量，m为码书中视觉单词的个数。

S22：通过高斯隶属度函数、利用距离集合获得每一特征点与各视觉单词之间的隶属度，得到第一模糊集合，该第一模糊集合记为，其表征了特征点与视觉单词之间的相似度，该第一模糊集合可作为隶属度集合。

若假设μ(d_i,j)为欧式距离d_i,j对应的隶属度，则通过高斯隶属度函数、利用距离集合获得每一特征点与各视觉单词之间的隶属度的步骤可表示为：

其中，θ_j是视觉单词w_j的高斯模型的期望值，σ_j是视觉单词的高斯模型的方差。

现有技术中，在将特征点映射为视觉单词的过程中，当所有的视觉单词都距离一特征点较远时，这个特征点在语义上与码书中的视觉单词不具有相似性，此时，该特征点不应用码书中的视觉单词进行描述，然而，现有的基于词袋模型的图像描述方法是选取与特征点之间的距离最近的视觉单词作为最佳方案，这样会增加错误信息到最终的图像描述中，降低图像描述的准确性。为进一步解决该问题，本发明中，在步骤S22之后，还可包括以下步骤：

S23：去除第一模糊集合中、与特征点之间的距离超过相应阈值时的隶属度，得到第二模糊集合，以实现对第一模糊集合的增强。该第二模糊集合记为A'，该第二模糊集合可作为隶属度集合。

若假设λ为一阈值，则步骤S23可表示为：

其中，χ_A'(d_i,j)∈A'，且0≤χ_A'(d_i,j)≤1。上式表示当特征点q_i和码书中视觉单词w_j之间的欧式距离d_i,j满足d_i,j≤θ_j-λσ_j时，则相应的视觉单词w_j将被分配给相应的特征点q_i进行编码，反之则不分配，从而决定了哪些视觉单词用于对一个特征码进行编码。

另外，本发明中，在步骤S1之前，还可包括码书生成的步骤，具体为：

S0：从训练图像中提取特征点，并对提取的特征点进行K-means聚类，得到码书。

本发明中，从训练图像中提取特征点的步骤与前述步骤S1类似，不赘述。

本发明中，通过K-means聚类算法获得码书。设置初始单词数为m，距离度量为欧式距离，聚类后生成的m个聚类中心作为码书中的m个视觉单词，则码书W可表示为：W＝{w₁,w₂,...,w_m}，其中，w_i(i＝1,2,…,m)是第i个视觉单词，m是码书W的尺寸。

S3：利用隶属度集合，统计用于描述每一特征点的视觉单词的隶属度，形成直方图矢量，该直方图矢量用以描述待描述图像。

假设h为直方图矢量，记为h＝{ψ₁,ψ₂,…,ψ_j,…,ψ_m}，其中ψ_j∈R，1≤j≤m，ψ_j可由下式获得：

图4示出了本发明提供的基于词袋模型的图像描述系统的结构，包括：提取模块1，用于从待描述图像中提取特征点；隶属度集合生成模块2，用于计算提取模块1提取出的特征点与码书中视觉单词之间的距离集合，并通过高斯隶属度函数、利用距离集合获得特征点与视觉单词之间的隶属度集合；图像描述生成模块3，用于利用隶属度集合生成模块2获得的隶属度集合，统计用于描述每一特征点的视觉单词的隶属度，形成直方图矢量，该直方图矢量用以描述待描述图像。

图5示出了图4中提取模块1的结构，可包括：特征点初步确定子模块11，用于利用高斯核对待描述图像进行尺度变换，获得待描述图像在多尺度下的尺度空间表示序列，对尺度空间表示序列进行特征提取，以确定待描述图像中特征点的位置和所在尺度；特征点精确确定子模块12，用于通过拟合三维二次函数精确确定特征点的位置和尺寸；特征点方向确定子模块13，用于利用特征点邻域像素的梯度方向分布特性，为每一特征点指定一主方向和多个辅方向；特征向量生成子模块14，用于统计特征点所处尺度和区域的图像梯度，并通过转换得到特征点的特征向量。

图6示出了图4中隶属度集合生成模块2的结构，可包括：距离计算子模块21，用于计算特征点与码书中视觉单词之间的距离集合；第一隶属度集合生成子模块22，用于通过高斯隶属度函数、利用距离集合获得每一特征点与各视觉单词之间的隶属度，得到第一模糊集合，其表征了特征点与视觉单词之间的相似度，该第一模糊集合可作为隶属度集合。其中，每一子模块的详细表述如前所述，不赘述。

进一步地，为了提高图像描述的准确性，本发明中，隶属度集合生成模块2还可包括：第二隶属度集合生成子模块23，用于去除第一模糊集合中、与特征点之间的距离超过相应阈值时的隶属度，得到第二模糊集合，以实现对第一模糊集合的增强，该第二模糊集合可作为隶属度集合，该子模块的详细表述如前所述，不赘述。

另外，本发明提供的基于词袋模型的图像描述系统还可包括：码书生成模块(图中未示出)，用于从训练图像中提取特征点，并对提取的特征点进行 K-means聚类，得到码书。

综上所述，本发明提供的基于词袋模型的图像描述方法及系统主要应用在图像分类、图像检索、目标识别等领域，是在现有技术基础上应用模糊理论，在得到距离集合后，利用高斯隶属度函数为每一视觉单词分配不同的隶属度，以将距离集合转换为模糊集合，之后用具有不同隶属度的视觉单词对特征点进行编码，从而有效降低传统方法引起的信息丢失问题，进而提高图像描述的准确度。另外，在得到第一模糊集合之后，还可进一步对第一模糊集合进行增强，去除第一模糊集合中、与特征点之间的距离超过相应阈值时的隶属度，从而减少了错误信息进入图像描述中，进一步提高了图像描述的准确性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来控制相关的硬件完成，所述的程序可以在存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于词袋模型的图像描述方法，其特征在于，所述方法包括以下步骤：

从待描述图像中提取特征点；

利用所述隶属度集合，统计用于描述每一特征点的所述视觉单词的隶属度，形成直方图矢量，所述直方图矢量用以描述所述待描述图像；

其中，所述计算所述特征点与码书中视觉单词之间的距离集合，并通过高斯隶属度函数、利用所述距离集合获得所述特征点与所述视觉单词之间的隶属度集合的步骤包括以下步骤：

计算所述特征点与所述视觉单词之间的距离集合；

通过高斯隶属度函数、利用所述距离集合获得每一特征点与各视觉单词之间的隶属度，得到第一模糊集合；

其中，所述第一模糊集合作为所述隶属度集合，所述计算所述特征点与所述视觉单词之间的距离集合的步骤表示为：

其中，所述d_i,j是所述特征点和相应的所述视觉单词之间的欧式距离，所述D为用以表示所述距离集合的矩阵，所述n为所述特征点的数量，所述m为所述视觉单词的个数；

所述通过高斯隶属度函数、利用所述距离集合获得每一特征点与各视觉单词之间的隶属度，得到第一模糊集合的步骤表示为：

<mrow> <mi>&mu;</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mn>1</mn> <mrow> <msqrt> <mrow> <mn>2</mn> <mi>&pi;</mi> </mrow> </msqrt> <msub> <mi>&sigma;</mi> <mi>j</mi> </msub> </mrow> </mfrac> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <mfrac> <msup> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>&theta;</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mrow> <mn>2</mn> <msup> <msub> <mi>&sigma;</mi> <mi>j</mi> </msub> <mn>2</mn> </msup> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow>

其中，所述θ_j是所述视觉单词的高斯模型的期望值，所述σ_j是所述视觉单词的高斯模型的方差。

2.如权利要求1所述的基于词袋模型的图像描述方法，其特征在于，所述从待描述图像中提取特征点的步骤包括：

利用高斯核对待描述图像进行尺度变换，获得所述待描述图像在多尺度下的尺度空间表示序列，对所述尺度空间表示序列进行特征提取，以确定所述待描述图像中特征点的位置和所在尺度；

通过拟合三维二次函数精确确定所述特征点的位置和尺寸；

利用所述特征点邻域像素的梯度方向分布特性，为每一特征点指定一主方向和多个辅方向；

统计所述特征点所处尺度和区域的图像梯度，并通过转换得到所述特征点的特征向量。

3.如权利要求1所述的基于词袋模型的图像描述方法，其特征在于，在所述得到第一模糊集合的步骤之后，所述方法还包括以下步骤：

去除所述第一模糊集合中、与所述特征点之间的距离超过相应阈值时的隶属度，得到第二模糊集合，所述第二模糊集合作为所述隶属度集合。

4.如权利要求3所述的基于词袋模型的图像描述方法，其特征在于，所述去除所述第一模糊集合中、与所述特征点之间的距离超过相应阈值时的隶属度，得到第二模糊集合的步骤表示为：

<mrow> <msub> <mi>&chi;</mi> <msup> <mi>A</mi> <mo>&prime;</mo> </msup> </msub> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>&mu;</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>&le;</mo> <msub> <mi>&theta;</mi> <mi>j</mi> </msub> <mo>-</mo> <msub> <mi>&lambda;&sigma;</mi> <mi>j</mi> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>&mu;</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>></mo> <msub> <mi>&theta;</mi> <mi>j</mi> </msub> <mo>-</mo> <msub> <mi>&lambda;&sigma;</mi> <mi>j</mi> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

其中，所述λ为一阈值，所述χ_A'(d_i,j)∈A'，且0≤χ_A'(d_i,j)≤1，所述A'为所述第二模糊集合。

5.如权利要求4所述的基于词袋模型的图像描述方法，其特征在于，所述利用所述隶属度集合，统计用于描述每一特征点的所述视觉单词的隶属度，形成直方图矢量的步骤表示为：

h＝{ψ₁,ψ₂,…,ψ_j,…,ψ_m}

所述h为所述直方图矢量，所述ψ_j∈R，1≤j≤m，所述ψ_j由下式获得：

<mrow> <msub> <mi>&psi;</mi> <mi>j</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>&chi;</mi> <msup> <mi>A</mi> <mo>&prime;</mo> </msup> </msub> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>.</mo> </mrow>

6.如权利要求1所述的基于词袋模型的图像描述方法，其特征在于，在所述从待描述图像中提取特征点的步骤之前，所述方法还包括以下步骤：

从训练图像中提取特征点，并对提取的特征点进行K-means聚类，得到所述码书。

7.一种基于词袋模型的图像描述系统，其特征在于，所述系统包括：

提取模块，用于从待描述图像中提取特征点；

图像描述生成模块，用于利用所述隶属度集合生成模块获得的所述隶属度集合，统计用于描述每一特征点的所述视觉单词的隶属度，形成直方图矢量，所述直方图矢量用以描述所述待描述图像；

其中，所述隶属度集合生成模块包括：

距离计算子模块，用于计算所述特征点与所述视觉单词之间的距离集合；

第一隶属度集合生成子模块，用于通过高斯隶属度函数、利用所述距离集合获得每一特征点与各视觉单词之间的隶属度，得到第一模糊集合；

第二隶属度集合生成子模块，用于去除所述第一模糊集合中、与所述特征点之间的距离超过相应阈值时的隶属度，得到第二模糊集合，所述第二模糊集合作为所述隶属度集合。