CN104850859A

CN104850859A - 一种基于多尺度分析的图像特征包构建方法

Info

Publication number: CN104850859A
Application number: CN201510268127.6A
Authority: CN
Inventors: 秦志光; 王伟; 秦臻; 丁熠; 肖哲; 黄若菡; 张聪; 陈浩; 陈圆; 徐路路
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2015-05-25
Filing date: 2015-05-25
Publication date: 2015-08-19

Abstract

本发明通过在特征包模型中引入图像的多尺度分析理念，构建了一种基于多尺度分析的图像特征包构建方法。该方法首先利用小波变换对图像进行分解，接着分别提取其高频和低频子带的局部区域特征，并分别构建高频视觉词典与低频视觉词典，然后利用视觉词典对图像加以描述，生成图像特征包。本发明聚焦于图像的多尺度特征提取和图像的语义描述层面，可以更好的捕获图像中的细节信息从而生成视觉特征词汇，新的特征包模型可具体应用于医学图像、遥感图像、网络图像等数字图像数据的分类、检索等。

Description

一种基于多尺度分析的图像特征包构建方法

技术领域

本发明属于计算机视觉领域，更为具体地讲，涉及一种基于多尺度分析的特征包构建方法。

背景技术

随着信息化时代进程，数字图像作为信息的重要载体，其数量呈现出爆炸式增长。海量的数字图像数据在为人们的信息采集、传递、获取带来极大便利的同时，也使信息的归类、存储和检索面临很多新的困难。如何从浩如烟海的图像数据中更加快速和准确的分析、识别并获取有用的信息是目前计算机视觉领域最至关重要的研究课题之一。

早期的图像分类标识主要由人工手动完成，利用图像附加的文本信息进行分类和检索，然而随着图像数量的几何级增长，以及人工分类不可避免的主观理解差异，传统分类模式已无法适应信息化时代的需求。有鉴于此，上世纪九十年代出现了基于内容的图像分类(Content-basedimage retrieval，CBIR)，该方法利用图像颜色、纹理、形状等底层特征作为分类依据，有效的实现了数字图像的自动化分类。但是，基于内容的图像分类中所采用的底层特征与人类所能够理解的图像语义特征存在明显差异，这种“语义鸿沟”造成计算机很难如人类一样对复杂图像进行描述并加以理解。进入21世纪以来，许多计算机视觉领域的研究者致力于建立一种更为直观准确的图像描述方式。2003年，Sivic等提出了视觉词袋模型，该模型主要借鉴文本分析领域的词袋模型(Bag of Words,BoW)，把每幅图像视为若干局部特征的无序集合，并通过对局部特征进行聚类获取特征聚类中心作为视觉单词，因此也称为特征包模型(Bag of Features(BOF)，该模型一经提出即获得极大成功，随着众多研究者的不断改进和拓展，目前已成为计算机视觉领域最主要的图像描述和图像分类方法之一。

局部特征提取和视觉词典建立是特征包模型中最为关键的两个步骤，目前最常使用的局部特征包括基于图像块(Patches)的特征和基于关键点(Key Points)两大类，其中以SIFT为代表的基于关键点的局部特征更为流行，但是近来随着计算机性能的提升，新的研究认为基于图像块的特征可以具有与SIFT同样的分类效果，以及更多进一步改进的余地。基于图像块的特征存在的问题主要是对图像细节和纹理的表述不足。小波变换作为一种多尺度分析方法被称作数字图像处理中的显微镜，许多在某种分辨率下难以发现的特征可以通过小波变换分解之后从另一种分辨率下轻易发现，将多尺度分析理念和小波变换引入特征包模型可以有效的捕获一些容易被忽视的细节信息。

发明内容

本发明的目的在于设计一种能够从不同尺度下对图像内容加以描述的视觉特征包模型，该模型聚焦于图像的多尺度特征提取和图像的语义描述层面，并可具体应用于图像的分类、检索等高层处理。

为实现上述目的，本发明一种基于多尺度分析的图像特征包构建方法，主要包括以下内容：在特征包模型中引入图像的多尺度分析理念，利用小波变换对图像进行分解，分别提取其高频和低频子带的局部区域特征，并分别构建高频视觉词典与低频视觉词典，然后利用视觉词典对图像加以描述，此后可根据图像所包含视觉单词的分布情况进行分类和检索。

技术原理如图1所示，具体技术流程如下：

步骤一：首先利用小波变换对训练图像进行多尺度分解，分别生成高频子带与低频子带；

步骤二：对多尺度分解之后的高频子带与低频子带分别进行局部特征提取，生成高频子带特征集合与低频子带特征集合；

步骤三：对训练集中所有的高频子带特征和低频子带特征分别进行聚类，将聚类中心作为视觉单词，构建视觉词典；

步骤四：根据上述步骤生成的视觉词典对图像特征进行编码，将图像转换为视觉特征包；

步骤五：在获得视觉特征包模型之后，可以通过SVM分类器对图像进行分类。

附图说明

图1是本发明一种基于多尺度分析的图像特征包构建方法的原理框图；

图2是本发明一种基于多尺度分析的图像特征包构建方法的技术方案图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，可能淡化本发明主要内容的已知功能和设计的详细描述将被忽略。

在本实施方案中，本发明一种基于多尺度分析的特征包构建方法主要包括以下环节：1.多尺度分解、2.特征提取、3.生成视觉词典、4.生成图像特征包、5.图像分类测试。

多尺度分解环节主要通过对原图像进行小波变换加以实现，小波变换分解公式如下：

其中g(n)＝(-1)^ah(1-n)，h(n)和g(n)是滤波器。

小波分解之后可以获得LL，HL，LH，HH四个子带，其中LL为图像的低频子带，代表图像的背景；HL为图像水平方向的高频子带，代表图像水平方向上的细节特征；LH为垂直方向的高频子带，代表图像垂直方向上的细节特征；HH则是水平和垂直两个方向上的高频子带，代表图像水平和垂直方向的细节特征；

特征提取环节主要是通过将高频和低频子图像划分出不同的Patches，然后采集每个Patch的特征。。

视觉词典的生成通过对上述环节提取的特征进行K-Means聚类，该算法以欧式距离作为相似度测度，其具体算法过程如下：(1)从N个特征中任意选取K个特征作为初始聚类中心，(2)测量每个特征与各初始聚类中心的距离，并将其划入距离最近的一类，(3)重新计算每个聚类的均值，获得新的聚类中心，(4)迭代2-3步直至每个聚类不再发生变化或变化程度小于阈值。

生成图像特征包主要是依据上述步骤获得的视觉词典对图像所包含的特征进行编码，从而获得一个对于样本图像的特征描述，具体做法是利用步骤1-2提取出样本图像的多尺度视觉特征，然后计算每个特征与词典中视觉单词的映射关系，对特征进行编码，依据每个视觉单词在图像中出现的频率对图像进行描述。

最后通过SVM训练特征包特征得到分类模型，进行分类测试。

本发明一种基于多尺度分析的特征包构建方法具有以下特点：

本发明提出一种新的特征包构建方法，可以更好的捕获图像中的细节信息生成视觉特征词汇，新的特征包模型可应用于医学图像、遥感图像、网络图像等数字图像数据的分类、检索等。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.本发明一种基于多尺度分析的图像特征包构建方法，主要包括以下内容：在特征包模型中引入图像的多尺度分析理念，利用小波变换对图像进行分解，分别提取其高频和低频子带的局部区域特征，并分别构建高频视觉词典与低频视觉词典，然后依据视觉词典对图像加以描述，此后可根据图像所包含视觉单词的分布情况进行分类和检索。

技术方案如下：

步骤五：在获得视觉特征包模型之后，再通过SVM分类器对图像进行分类。

2.根据权利要求1所述的一种基于多尺度分析的图像特征包构建方法，其特征在于在图像特征包模型中引入多尺度分析理念，利用小波变换对图像进行多尺度分解，之后分别构建出高频和低频的视觉词典，再依据视觉词典对图像进行编码，从而获得一个多尺度视觉特征下的图像描述。

本发明中主要的特色是在图像特征包模型中引入多尺度分析理念，利用多尺度词典对图像内容进行描述。主要包括：(1)利用小波变换对原始图像进行多尺度分解，获得高频和低频四个子带。(2)对训练集中所有的高频、低频子带特征分别进行聚类计算获取不同的视觉词典。(3)利用多个视觉词典来描述一幅图像，从而获得更准确的特征包模型。

其中g(n)＝(-1)ⁿh(1-n)，h(n)和g(n)是滤波器。