CN105260982B

CN105260982B - 基于稀疏和稠密重构的图像解析方法

Info

Publication number: CN105260982B
Application number: CN201510751686.2A
Authority: CN
Inventors: 赵沁平; 安心怡; 李帅; 郝爱民; 秦洪
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2015-11-06
Filing date: 2015-11-06
Publication date: 2018-08-07
Anticipated expiration: 2035-11-06
Also published as: CN105260982A

Abstract

本发明提供一种基于稀疏和稠密重构的图像解析方法，包括了五个步骤：基于超像素双调和距离概率分布的图像描述，通过计算超像素间双调和距离的概率密度分布，得到图像的半局部结构信息；基于全局特征的相似图像检索，通过计算图像的全局特征，在图像库中找出在语义上可能相似的图像，并构成类别词典；基于稀疏和稠密重构的误差分析，通过分析未知图像特征与相应类别字典的重构误差，判断未知图像块所属类别；基于图割区域的层次化投票，通过在可能的语义区域进行类别投票，决定区域的类别。本发明通过将数据的低秩分析和主成分分析误差重构相结合，融合物体信息和图像全局信息，解析图像内每一部分所属类别，具有区分能力好，灵活性强的特点。

Description

基于稀疏和稠密重构的图像解析方法

技术领域

本发明通过将数据的稀疏分析和主成分分析误差重构相结合，研究并实现一种融合物体信息和图像全局信息的图像描述方法，并将该图像描述方法应用到图像解析的应用中，提高图像解析的准确率。

背景技术

图像在人类的生活中不可或缺，是人类获取信息的重要来源之一，虽然图像的种类和内容包罗万象、种类繁多，但是人们一般可以本能地在短时间内分析出图像的内容结构并对其加以利用。与此同时，在生活各个领域，人们已经在潜移默化地利用蕴含在图像集间的内容相关性，来辅助图像分割、病灶匹配、视频监控、对象跟踪识别和图像检索等“读图”分析工作。

图像解析的重要目标是根据图像，分辨其中物体的类别，并做出相应的判断。图像解析的飞速发展归根结底是由于它重要的应用价值。图像解析包含诸如自然图像解析、医学图像解析等方面，是人类视觉认知的延伸。随着图像的广泛应用，利用计算机对图像提取特征并进行处理，提取有价值的信息，以便帮助人们快速达到预期的效果，已经成为现在的发展趋势。

在此背景下，结合课题组已有的相关技术基础，以设计融合物体信息和图像全局信息的图像描述方法为目标，结合数据的稀疏分析和主成分分析误差重构，通过算法集成来设计并实现一个图像解析工具，能够识别出图像中的指定物体及位置。本发明的研究与实现，对以更加智能化的方式，辅助人们实现对图像信息的感知、分析、探索和洞悉具有重要的实际意义。

发明内容

本发明要解决的技术问题是：克服了现有的局部描述子特征描述半局部结构能力的不足，并通过结合使用稀疏分析和主成分分析的方法，设计一种判断特征与字典相关性方法，并提供了一种基于空间填充曲线的图像语义比较方法，选择出概率最大的解析结果。整个发明满足了对图像解析的需要。

本发明采用的技术方案为：一种基于稀疏和稠密重构的图像解析方法，包括以下五个步骤：

步骤(1)、基于超像素双调和距离概率分布的图像描述：将图像分割为超像素，除对超像素提取基本特征外，计算超像素之间的双调和距离，并通过计算双调和距离的概率密度分布，得到超像素的半局部特征结构；

步骤(2)、基于全局特征的相似图像检索：计算图像的全局特征，并与图像库中图像的全局特征进行比较，选出最相似的图像，将这些图像超像素的局部结构特征作为相应的解析类别字典；

步骤(3)、基于稀疏和稠密重构的误差分析：使用之前构造的类别字典，对于每一类，用字典中的词使用两种方法重构未知图像超像素的特征，一种使用稀疏表示来重构，一种使用主成分分析来重构，得到每一个超像素对于每一类的重构误差，并且将误差在相似区域进行扩散，综合最后的误差结果判断超像素所属类别；

步骤(4)、基于图割区域的层次化投票：计算图像的图割区域并作为图像可能的语义分割区域，并在每一个图割区域，利用不同大小的超像素解析结果投票得到图割区域的类别结果；

步骤(5)、基于空间填充曲线的图像语义比较：利用空间填充曲线遍历图像，得到表示图像语义的字符串。利用字符串之间的相似度衡量图像的相似度，选择出概率最大的图像解析结果。

本发明的原理在于：

(1)为了充分提取图像超像素的特征结构，本发明通过计算超像素间双调和距离的概率密度分布，描述图像的半局部结构特征，在局部特征的基础之上增加了周围超像素的特征信息，增强了特征的描述能力。

(2)为了解析超像素的类别，本发明通过使用类别相关字典对未知特征进行稀疏和稠密的重构，通过重构误差判断特征与类别字典的相关性，重构误差越小说明字典能够表示未知特征的能力越强。

(3)为了比较图像之间语义相似度，本发明通过使用空间填充曲线，将二维的图像语义信息转换为一维字符串，通过比较字符串之间的相似度来衡量图像之间的相似度。

本发明与现有技术相比的优点在于：

1、本发明提出的基于超像素双调和距离概率分布的图像描述，通过定义超像素之间的双调和距离，并计算概率密度分布，描述了超像素的半局部结构信息，增加了超像素特征的区分能力。

2、本发明提出的基于稀疏和稠密重构的误差分析，通过用类别相关字典来重构未知特征判断特征所属类别。从稀疏和稠密两个角度综合考虑并在相似区域进行误差扩散，一方面增强了局部相似区域的连续性，另一方面易于找到图像与字典之间的内部相关性。

3、本发明提出的基于空间填充曲线的图像语义比较，通过空间填充曲线将图像语义描述转化为一维字串。不仅保留了图像语义的相邻结构关系，而且降低了图像相似度比较的复杂性。

附图说明

图1为基于稀疏和稠密重构的图像解析方法的处理流程图；

图2为基于稀疏和稠密重构的图像解析方法的效果流程图；

图3为双调和距离的效果示意图；

图4为误差重构和扩散后误差示意图；

图5为空间填充曲线构成字符串示意图；

图6为图像解析效果示意图。

具体实施方式

图1给出了基于稀疏和稠密重构的图像解析方法的总体处理流程，下面结合其他附图及具体实施方式进一步说明本发明。

本发明提供一种基于稀疏和稠密重构的图像解析方法，主要步骤介绍如下：

1、基于超像素双调和距离概率分布的图像描述

我们对图像的分析主要基于对图像超像素块的识别，因此首先分割得到图像的超像素。对每一幅图像，我们采用线性迭代聚类的方法分割超像素，通过五维空间的欧拉距离来度量像素点之间的距离。距离D_s可以通过如下公式得到：

D_s为被网格间隔S归一化的Lab距离和xy平面距离之和。平均设定初始的中心点，将每一个像素聚类到距离最近的中心点，并根据聚类结果调整中心点。不断迭代得到最后超像素分割结果。

为了度量图像中超像素各部分之间的关系，我们使用双调和距离来描述超像素之间的距离。首先，使用超像素的中心点作为顶点，构造Delaunay三角形。在Delaunay三角形的基础上，我们定义双调和距离。双调和距离的描述子类似于扩散距离和通勤时间距离，但是建立在双调和差分公式的格林函数基础上。双调和距离d_B(x，y)使用截断总和来近似为：

d_B(x,y)为x,y之间的双调和距离，为x处第k个特征向量，为y处第k个特征向量，λ_k为第k个特征值。双调和距离的拉普拉斯矩阵根据超像素的颜色和空间距离的相似性来建立。

由于双调和距离度量超像素之间颜色和位置的差异性，我们通过计算双调和距离的概率密度分布来获取每一个超像素的半局部几何结构

2、基于全局特征的相似图像检索

给定一个未知的图像，为了能够从标注好的图像库中找到对解析未知图像有帮助的图像，我们假定与未知图像全局特征相似的图像可能与未知图像具有相似的语义，这些图像的特征很有可能与未知图像特征在同一个子空间中。因此，我们根据全局特征选择中这些图像，我们选定的全局特征包括：空间金字塔，gist特征和颜色直方图。然后我们使用特征欧氏距离作为特征之间相似度的衡量标准。多种不同全局特征相结合有助于我们从不同角度找到对待解析图像有帮助的图像。

接下来，我们选择M个和待解析图像相似的图像。我们从这些图像中构造类别相关词典D＝{D₁，D₂，…，D_N}，其中D_i为第i个类别相关的字典，N为我们提前设定好的类别的数目。图像中相关类别的特征组合起来，构成每一个类别相关字典，可以表示为其中为从第j个图像中选择出来的有关于第i个类别的特征。

由于在解析的图像时，只选择可能对解析图像有帮助的特征。因此通过全局特征的相似图像检索来选择图像构成字典的方法不仅效率高，而且在加入新类别的时候不需要重新训练新模型。

3、基于稀疏和稠密重构的误差分析

首先是稀疏重构误差计算，对任一种类相关词典待解析图像的特征为F＝[f₁，f₂，…，f_K]，对于第j个超像素，稀疏重构的系数可以表示为：

其中f_i为第j个超像素特征，于是相应的稀疏重构误差可以表示为：

为了进一步弥补稀疏重构误差对噪声敏感的不足，我们进一步计算稠密重构误差：对任一种类相关词典我们使用主成分分析的方法计算稠密重构误差。首先计算X的归一化协方差矩阵的特征向量对应最大的L个特征向量。使用主成分分析的基重构系数可以表示为：

其中f_j为第j个超像素特征，为特征的平均值。于是第j个超像素特征的稠密重构误差可以表示为：

综合稀疏和稠密两种重构误差，我们得到图像中每一个超像素与每一个类别的相似度关系。由于相邻且相似的超像素之间会存在连续的语义关系，因此我们采用各向异性的重构误差传播来更新重构误差，用相邻的超像素增加准确度。根据之前计算的双调和距离，对于距离小于一定阈值并且相邻的的超像素，合并为一个整体，并且每一个超像素的重构误差在整体区域进行扩散，新的重构误差r′_ij可以通过如下公式得到：

根据调整后的重构误差，我们选择重构误差最小对应的字典的类别为当前超像素的类别。

4、基于图割区域的层次化投票

由于超像素为图像的过分割，不具有潜在的语义含义，而图割方法分割的图像能够将相似的局部图像块聚为一个区域，相似的图像块一般会在语义上具有相关性，因此我们使用图割的方法对图像进行潜在语义区域的分割。

与此同时，不同大小的超像素可以在不同尺度上识别图像局部区域。因此，为了增加图像识别的准确性，我们使用不同平均大小的超像素进行识别。结合之前图割方法得到的分割区域，我们让不同平均大小的超像素识别结果在区域中进行投票，得到每一个区域的识别结果。

综合不同尺寸的超像素解析结果和图割区域的投票结果，待解析图像中每一个像素所属类别的概率为：

其中L表示超像素的层次，x,y表示图像的位置，而p_ik(x，y)表示第k层的超像素属于第i类的概率。综合概率较大的几种结果，我们得到可能的图像解析结果。

5、基于空间填充曲线的图像语义比较

空间填充曲线是用一维曲线遍历二维空间的一种方式，图像是一个二维的结构，而字符串是一维结构，我们通过空间填充曲线将二维的图像信息转化为一维的字符串。其中图像每一部分经上一步计算获取应属于的类别，每一个类别有一个唯一的字符标识，这样遍历图像类别的同时形成字符串，构成图像整体描述。

由于之前的解析结果可能存在语义不合理的地方，因此我们在获取图像整体描述后进行调整。经过稀疏和稠密重构步骤后我们得到每一个区域属于每一个类别的可能性。因此，我们筛选出可能性较大的描述，用字符串描述，并与之前筛选出相似图像的字符串描述进行相似度比较。

由于图像可能形成长短不一的字符串，并且相似字符之间可能掺杂其它字符，最长字符串匹配的算法并不能够满足我们寻找字符串之间最大相似度的需求。因此我们使用动态规划的算法比较字符串，给定字符串A₁和A₂，且A₁的长度n小于A₂的长度m。建立一个(n+1)×(m+1)的动态规划矩阵D，初始化为：

动态规划矩阵可以根据初始化矩阵更新为：

最后D_n，m为A₁和A₂之间的距离，用来表示A₁和A₂之间的相似程度，从而表示对应两幅图像之间的相似程度。我们选出与相似图像最接近的字符串描述作为最终的图像解析结果。

本发明未详细阐述的技术内容属于本领域技术人员的公知技术。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于稀疏和稠密重构的图像解析方法，其特征在于：包括以下五个步骤：

步骤(1)、基于超像素双调和距离概率分布的图像描述：将图像分割为超像素，除对超像素提取基本特征外，计算超像素之间的双调和距离，双调和距离可通过下面公式进行计算：

其中d_B(x，y)为x,y之间的双调和距离，为x处第k个特征向量，为y处第k个特征向量，λ_k为第k个特征值,通过计算双调和距离的概率密度分布，得到超像素的半局部特征结构；

步骤(3)中所述的基于稀疏和稠密重构的误差分析，从稀疏表示和主成分分析两个角度衡量类别字典与未知特征的相关性，判断超像素所属的类别；

步骤(4)中所述的基于图割区域的层次化投票，通过统计不同尺度超像素的识别结果，将各个层次的解析结果综合起来，提高识别的准确度；

步骤(5)、基于空间填充曲线的图像语义比较：利用空间填充曲线遍历图像，得到表示图像语义的字符串，利用字符串之间的相似度衡量图像的相似度，选择出概率最大的图像解析结果。

2.根据权利要求1所述的基于稀疏和稠密重构的图像解析方法，其特征在于：步骤(1)中所述的超像素双调和距离概率分布，使用能够表示出局部的拓扑结构和获取全局形状感知的双调和距离，通过计算概率分布距离能够描述超像素的半局部结构特征。

3.根据权利要求1所述的基于稀疏和稠密重构的图像解析方法，其特征在于：步骤(2)中所述的全局特征的相似图像检索，从图像特征相似推测图像语义相似，从图像库中筛选出有用的特征构成词典，避免其它类别特征的干扰，增加图像解析的准确度。

4.根据权利要求1所述的基于稀疏和稠密重构的图像解析方法，其特征在于：步骤(5)中所述的基于空间填充曲线的图像语义比较，将二维的图像转化为一维字符串的同时，降低复杂度的同时保留了图像各部分的相邻结构，并通过动态规划算法比较字符串的相似度来衡量图像的相似度。