CN105260982B - 基于稀疏和稠密重构的图像解析方法 - Google Patents

基于稀疏和稠密重构的图像解析方法 Download PDF

Info

Publication number
CN105260982B
CN105260982B CN201510751686.2A CN201510751686A CN105260982B CN 105260982 B CN105260982 B CN 105260982B CN 201510751686 A CN201510751686 A CN 201510751686A CN 105260982 B CN105260982 B CN 105260982B
Authority
CN
China
Prior art keywords
image
pixel
super
reconstruct
sparse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510751686.2A
Other languages
English (en)
Other versions
CN105260982A (zh
Inventor
赵沁平
安心怡
李帅
郝爱民
秦洪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201510751686.2A priority Critical patent/CN105260982B/zh
Publication of CN105260982A publication Critical patent/CN105260982A/zh
Application granted granted Critical
Publication of CN105260982B publication Critical patent/CN105260982B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提供一种基于稀疏和稠密重构的图像解析方法,包括了五个步骤:基于超像素双调和距离概率分布的图像描述,通过计算超像素间双调和距离的概率密度分布,得到图像的半局部结构信息;基于全局特征的相似图像检索,通过计算图像的全局特征,在图像库中找出在语义上可能相似的图像,并构成类别词典;基于稀疏和稠密重构的误差分析,通过分析未知图像特征与相应类别字典的重构误差,判断未知图像块所属类别;基于图割区域的层次化投票,通过在可能的语义区域进行类别投票,决定区域的类别。本发明通过将数据的低秩分析和主成分分析误差重构相结合,融合物体信息和图像全局信息,解析图像内每一部分所属类别,具有区分能力好,灵活性强的特点。

Description

基于稀疏和稠密重构的图像解析方法
技术领域
本发明通过将数据的稀疏分析和主成分分析误差重构相结合,研究并实现一种融合物体信息和图像全局信息的图像描述方法,并将该图像描述方法应用到图像解析的应用中,提高图像解析的准确率。
背景技术
图像在人类的生活中不可或缺,是人类获取信息的重要来源之一,虽然图像的种类和内容包罗万象、种类繁多,但是人们一般可以本能地在短时间内分析出图像的内容结构并对其加以利用。与此同时,在生活各个领域,人们已经在潜移默化地利用蕴含在图像集间的内容相关性,来辅助图像分割、病灶匹配、视频监控、对象跟踪识别和图像检索等“读图”分析工作。
图像解析的重要目标是根据图像,分辨其中物体的类别,并做出相应的判断。图像解析的飞速发展归根结底是由于它重要的应用价值。图像解析包含诸如自然图像解析、医学图像解析等方面,是人类视觉认知的延伸。随着图像的广泛应用,利用计算机对图像提取特征并进行处理,提取有价值的信息,以便帮助人们快速达到预期的效果,已经成为现在的发展趋势。
在此背景下,结合课题组已有的相关技术基础,以设计融合物体信息和图像全局信息的图像描述方法为目标,结合数据的稀疏分析和主成分分析误差重构,通过算法集成来设计并实现一个图像解析工具,能够识别出图像中的指定物体及位置。本发明的研究与实现,对以更加智能化的方式,辅助人们实现对图像信息的感知、分析、探索和洞悉具有重要的实际意义。
发明内容
本发明要解决的技术问题是:克服了现有的局部描述子特征描述半局部结构能力的不足,并通过结合使用稀疏分析和主成分分析的方法,设计一种判断特征与字典相关性方法,并提供了一种基于空间填充曲线的图像语义比较方法,选择出概率最大的解析结果。整个发明满足了对图像解析的需要。
本发明采用的技术方案为:一种基于稀疏和稠密重构的图像解析方法,包括以下五个步骤:
步骤(1)、基于超像素双调和距离概率分布的图像描述:将图像分割为超像素,除对超像素提取基本特征外,计算超像素之间的双调和距离,并通过计算双调和距离的概率密度分布,得到超像素的半局部特征结构;
步骤(2)、基于全局特征的相似图像检索:计算图像的全局特征,并与图像库中图像的全局特征进行比较,选出最相似的图像,将这些图像超像素的局部结构特征作为相应的解析类别字典;
步骤(3)、基于稀疏和稠密重构的误差分析:使用之前构造的类别字典,对于每一类,用字典中的词使用两种方法重构未知图像超像素的特征,一种使用稀疏表示来重构,一种使用主成分分析来重构,得到每一个超像素对于每一类的重构误差,并且将误差在相似区域进行扩散,综合最后的误差结果判断超像素所属类别;
步骤(4)、基于图割区域的层次化投票:计算图像的图割区域并作为图像可能的语义分割区域,并在每一个图割区域,利用不同大小的超像素解析结果投票得到图割区域的类别结果;
步骤(5)、基于空间填充曲线的图像语义比较:利用空间填充曲线遍历图像,得到表示图像语义的字符串。利用字符串之间的相似度衡量图像的相似度,选择出概率最大的图像解析结果。
本发明的原理在于:
(1)为了充分提取图像超像素的特征结构,本发明通过计算超像素间双调和距离的概率密度分布,描述图像的半局部结构特征,在局部特征的基础之上增加了周围超像素的特征信息,增强了特征的描述能力。
(2)为了解析超像素的类别,本发明通过使用类别相关字典对未知特征进行稀疏和稠密的重构,通过重构误差判断特征与类别字典的相关性,重构误差越小说明字典能够表示未知特征的能力越强。
(3)为了比较图像之间语义相似度,本发明通过使用空间填充曲线,将二维的图像语义信息转换为一维字符串,通过比较字符串之间的相似度来衡量图像之间的相似度。
本发明与现有技术相比的优点在于:
1、本发明提出的基于超像素双调和距离概率分布的图像描述,通过定义超像素之间的双调和距离,并计算概率密度分布,描述了超像素的半局部结构信息,增加了超像素特征的区分能力。
2、本发明提出的基于稀疏和稠密重构的误差分析,通过用类别相关字典来重构未知特征判断特征所属类别。从稀疏和稠密两个角度综合考虑并在相似区域进行误差扩散,一方面增强了局部相似区域的连续性,另一方面易于找到图像与字典之间的内部相关性。
3、本发明提出的基于空间填充曲线的图像语义比较,通过空间填充曲线将图像语义描述转化为一维字串。不仅保留了图像语义的相邻结构关系,而且降低了图像相似度比较的复杂性。
附图说明
图1为基于稀疏和稠密重构的图像解析方法的处理流程图;
图2为基于稀疏和稠密重构的图像解析方法的效果流程图;
图3为双调和距离的效果示意图;
图4为误差重构和扩散后误差示意图;
图5为空间填充曲线构成字符串示意图;
图6为图像解析效果示意图。
具体实施方式
图1给出了基于稀疏和稠密重构的图像解析方法的总体处理流程,下面结合其他附图及具体实施方式进一步说明本发明。
本发明提供一种基于稀疏和稠密重构的图像解析方法,主要步骤介绍如下:
1、基于超像素双调和距离概率分布的图像描述
我们对图像的分析主要基于对图像超像素块的识别,因此首先分割得到图像的超像素。对每一幅图像,我们采用线性迭代聚类的方法分割超像素,通过五维空间的欧拉距离来度量像素点之间的距离。距离Ds可以通过如下公式得到:
Ds为被网格间隔S归一化的Lab距离和xy平面距离之和。平均设定初始的中心点,将每一个像素聚类到距离最近的中心点,并根据聚类结果调整中心点。不断迭代得到最后超像素分割结果。
为了度量图像中超像素各部分之间的关系,我们使用双调和距离来描述超像素之间的距离。首先,使用超像素的中心点作为顶点,构造Delaunay三角形。在Delaunay三角形的基础上,我们定义双调和距离。双调和距离的描述子类似于扩散距离和通勤时间距离,但是建立在双调和差分公式的格林函数基础上。双调和距离dB(x,y)使用截断总和来近似为:
dB(x,y)为x,y之间的双调和距离,为x处第k个特征向量,为y处第k个特征向量,λk为第k个特征值。双调和距离的拉普拉斯矩阵根据超像素的颜色和空间距离的相似性来建立。
由于双调和距离度量超像素之间颜色和位置的差异性,我们通过计算双调和距离的概率密度分布来获取每一个超像素的半局部几何结构
2、基于全局特征的相似图像检索
给定一个未知的图像,为了能够从标注好的图像库中找到对解析未知图像有帮助的图像,我们假定与未知图像全局特征相似的图像可能与未知图像具有相似的语义,这些图像的特征很有可能与未知图像特征在同一个子空间中。因此,我们根据全局特征选择中这些图像,我们选定的全局特征包括:空间金字塔,gist特征和颜色直方图。然后我们使用特征欧氏距离作为特征之间相似度的衡量标准。多种不同全局特征相结合有助于我们从不同角度找到对待解析图像有帮助的图像。
接下来,我们选择M个和待解析图像相似的图像。我们从这些图像中构造类别相关词典D={D1,D2,…,DN},其中Di为第i个类别相关的字典,N为我们提前设定好的类别的数目。图像中相关类别的特征组合起来,构成每一个类别相关字典,可以表示为其中为从第j个图像中选择出来的有关于第i个类别的特征。
由于在解析的图像时,只选择可能对解析图像有帮助的特征。因此通过全局特征的相似图像检索来选择图像构成字典的方法不仅效率高,而且在加入新类别的时候不需要重新训练新模型。
3、基于稀疏和稠密重构的误差分析
首先是稀疏重构误差计算,对任一种类相关词典待解析图像的特征为F=[f1,f2,…,fK],对于第j个超像素,稀疏重构的系数可以表示为:
其中fi为第j个超像素特征,于是相应的稀疏重构误差可以表示为:
为了进一步弥补稀疏重构误差对噪声敏感的不足,我们进一步计算稠密重构误差:对任一种类相关词典我们使用主成分分析的方法计算稠密重构误差。首先计算X的归一化协方差矩阵的特征向量对应最大的L个特征向量。使用主成分分析的基重构系数可以表示为:
其中fj为第j个超像素特征,为特征的平均值。于是第j个超像素特征的稠密重构误差可以表示为:
综合稀疏和稠密两种重构误差,我们得到图像中每一个超像素与每一个类别的相似度关系。由于相邻且相似的超像素之间会存在连续的语义关系,因此我们采用各向异性的重构误差传播来更新重构误差,用相邻的超像素增加准确度。根据之前计算的双调和距离,对于距离小于一定阈值并且相邻的的超像素,合并为一个整体,并且每一个超像素的重构误差在整体区域进行扩散,新的重构误差r′ij可以通过如下公式得到:
根据调整后的重构误差,我们选择重构误差最小对应的字典的类别为当前超像素的类别。
4、基于图割区域的层次化投票
由于超像素为图像的过分割,不具有潜在的语义含义,而图割方法分割的图像能够将相似的局部图像块聚为一个区域,相似的图像块一般会在语义上具有相关性,因此我们使用图割的方法对图像进行潜在语义区域的分割。
与此同时,不同大小的超像素可以在不同尺度上识别图像局部区域。因此,为了增加图像识别的准确性,我们使用不同平均大小的超像素进行识别。结合之前图割方法得到的分割区域,我们让不同平均大小的超像素识别结果在区域中进行投票,得到每一个区域的识别结果。
综合不同尺寸的超像素解析结果和图割区域的投票结果,待解析图像中每一个像素所属类别的概率为:
其中L表示超像素的层次,x,y表示图像的位置,而pik(x,y)表示第k层的超像素属于第i类的概率。综合概率较大的几种结果,我们得到可能的图像解析结果。
5、基于空间填充曲线的图像语义比较
空间填充曲线是用一维曲线遍历二维空间的一种方式,图像是一个二维的结构,而字符串是一维结构,我们通过空间填充曲线将二维的图像信息转化为一维的字符串。其中图像每一部分经上一步计算获取应属于的类别,每一个类别有一个唯一的字符标识,这样遍历图像类别的同时形成字符串,构成图像整体描述。
由于之前的解析结果可能存在语义不合理的地方,因此我们在获取图像整体描述后进行调整。经过稀疏和稠密重构步骤后我们得到每一个区域属于每一个类别的可能性。因此,我们筛选出可能性较大的描述,用字符串描述,并与之前筛选出相似图像的字符串描述进行相似度比较。
由于图像可能形成长短不一的字符串,并且相似字符之间可能掺杂其它字符,最长字符串匹配的算法并不能够满足我们寻找字符串之间最大相似度的需求。因此我们使用动态规划的算法比较字符串,给定字符串A1和A2,且A1的长度n小于A2的长度m。建立一个(n+1)×(m+1)的动态规划矩阵D,初始化为:
动态规划矩阵可以根据初始化矩阵更新为:
最后Dn,m为A1和A2之间的距离,用来表示A1和A2之间的相似程度,从而表示对应两幅图像之间的相似程度。我们选出与相似图像最接近的字符串描述作为最终的图像解析结果。
本发明未详细阐述的技术内容属于本领域技术人员的公知技术。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (4)

1.一种基于稀疏和稠密重构的图像解析方法,其特征在于:包括以下五个步骤:
步骤(1)、基于超像素双调和距离概率分布的图像描述:将图像分割为超像素,除对超像素提取基本特征外,计算超像素之间的双调和距离,双调和距离可通过下面公式进行计算:
其中dB(x,y)为x,y之间的双调和距离,为x处第k个特征向量,为y处第k个特征向量,λk为第k个特征值,通过计算双调和距离的概率密度分布,得到超像素的半局部特征结构;
步骤(2)、基于全局特征的相似图像检索:计算图像的全局特征,并与图像库中图像的全局特征进行比较,选出最相似的图像,将这些图像超像素的局部结构特征作为相应的解析类别字典;
步骤(3)、基于稀疏和稠密重构的误差分析:使用之前构造的类别字典,对于每一类,用字典中的词使用两种方法重构未知图像超像素的特征,一种使用稀疏表示来重构,一种使用主成分分析来重构,得到每一个超像素对于每一类的重构误差,并且将误差在相似区域进行扩散,综合最后的误差结果判断超像素所属类别;
步骤(3)中所述的基于稀疏和稠密重构的误差分析,从稀疏表示和主成分分析两个角度衡量类别字典与未知特征的相关性,判断超像素所属的类别;
步骤(4)、基于图割区域的层次化投票:计算图像的图割区域并作为图像可能的语义分割区域,并在每一个图割区域,利用不同大小的超像素解析结果投票得到图割区域的类别结果;
步骤(4)中所述的基于图割区域的层次化投票,通过统计不同尺度超像素的识别结果,将各个层次的解析结果综合起来,提高识别的准确度;
步骤(5)、基于空间填充曲线的图像语义比较:利用空间填充曲线遍历图像,得到表示图像语义的字符串,利用字符串之间的相似度衡量图像的相似度,选择出概率最大的图像解析结果。
2.根据权利要求1所述的基于稀疏和稠密重构的图像解析方法,其特征在于:步骤(1)中所述的超像素双调和距离概率分布,使用能够表示出局部的拓扑结构和获取全局形状感知的双调和距离,通过计算概率分布距离能够描述超像素的半局部结构特征。
3.根据权利要求1所述的基于稀疏和稠密重构的图像解析方法,其特征在于:步骤(2)中所述的全局特征的相似图像检索,从图像特征相似推测图像语义相似,从图像库中筛选出有用的特征构成词典,避免其它类别特征的干扰,增加图像解析的准确度。
4.根据权利要求1所述的基于稀疏和稠密重构的图像解析方法,其特征在于:步骤(5)中所述的基于空间填充曲线的图像语义比较,将二维的图像转化为一维字符串的同时,降低复杂度的同时保留了图像各部分的相邻结构,并通过动态规划算法比较字符串的相似度来衡量图像的相似度。
CN201510751686.2A 2015-11-06 2015-11-06 基于稀疏和稠密重构的图像解析方法 Active CN105260982B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510751686.2A CN105260982B (zh) 2015-11-06 2015-11-06 基于稀疏和稠密重构的图像解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510751686.2A CN105260982B (zh) 2015-11-06 2015-11-06 基于稀疏和稠密重构的图像解析方法

Publications (2)

Publication Number Publication Date
CN105260982A CN105260982A (zh) 2016-01-20
CN105260982B true CN105260982B (zh) 2018-08-07

Family

ID=55100657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510751686.2A Active CN105260982B (zh) 2015-11-06 2015-11-06 基于稀疏和稠密重构的图像解析方法

Country Status (1)

Country Link
CN (1) CN105260982B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489062B (zh) * 2020-12-10 2024-01-30 中国科学院苏州生物医学工程技术研究所 基于边界及邻域引导的医学图像分割方法及系统
CN118658013A (zh) * 2024-08-20 2024-09-17 苏州大学 一种用于彩画的数据解析构建方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345744A (zh) * 2013-06-19 2013-10-09 北京航空航天大学 一种基于多图像的人体目标部件自动解析方法
CN103593853A (zh) * 2013-11-29 2014-02-19 武汉大学 基于联合稀疏表达的遥感影像多尺度面向对象分类方法
CN103699578A (zh) * 2013-12-01 2014-04-02 北京航空航天大学 一种基于谱图分析的图像检索方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012027259A2 (en) * 2010-08-25 2012-03-01 Siemens Corporation System and method for interactive segmentation on mobile devices in a cloud computing environment
KR102009292B1 (ko) * 2012-05-11 2019-08-12 한국전자통신연구원 다중 카메라 기반 삼차원 얼굴 복원 장치 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345744A (zh) * 2013-06-19 2013-10-09 北京航空航天大学 一种基于多图像的人体目标部件自动解析方法
CN103593853A (zh) * 2013-11-29 2014-02-19 武汉大学 基于联合稀疏表达的遥感影像多尺度面向对象分类方法
CN103699578A (zh) * 2013-12-01 2014-04-02 北京航空航天大学 一种基于谱图分析的图像检索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《基于匹配扩散的多视稠密深度图估计》;王伟等;《自动化学报》;20140918;第40卷(第12期);2782-2796 *
《基于多尺度上下文的图像标注算法》;周全等;《自动化学报》;20141215;第40卷(第12期);2944-2949 *
《融合上下文信息的场景结构恢复》;武晖等;《中国图象图形学报》;20120716;第17卷(第7期);839-845 *

Also Published As

Publication number Publication date
CN105260982A (zh) 2016-01-20

Similar Documents

Publication Publication Date Title
Unnikrishnan et al. Toward objective evaluation of image segmentation algorithms
CN107368807B (zh) 一种基于视觉词袋模型的监控视频车型分类方法
CN102073748B (zh) 一种基于视觉关键词的遥感影像语义检索方法
CN110659665B (zh) 一种异维特征的模型构建方法及图像识别方法、装置
CN104200240B (zh) 一种基于内容自适应哈希编码的草图检索方法
CN103699578B (zh) 一种基于谱图分析的图像检索方法
Zhang et al. Semantic classification of high-resolution remote-sensing images based on mid-level features
Krinidis et al. Color texture segmentation based on the modal energy of deformable surfaces
JP5567448B2 (ja) 画像領域分割装置、画像領域分割方法および画像領域分割プログラム
CN103345744B (zh) 一种基于多图像的人体目标部件自动解析方法
CN107067037B (zh) 一种使用llc准则定位图像前景的方法
CN106157330A (zh) 一种基于目标联合外观模型的视觉跟踪方法
Alnihoud Content-based image retrieval system based on self organizing map, fuzzy color histogram and subtractive fuzzy clustering.
CN114821299A (zh) 一种遥感图像变化检测方法
CN105260982B (zh) 基于稀疏和稠密重构的图像解析方法
Huangfu et al. A method of 3D CAD model retrieval based on spatial bag of words
CN108280158B (zh) 基于梯度方向累加热核特征的非刚性三维模型检索方法
CN112966629A (zh) 基于图像变换和BoF模型的遥感图像场景分类方法
Jiang et al. Toward perception-based shape decomposition
CN108510080A (zh) 一种基于dwh模型对多关系型数据的多角度度量学习方法
CN105930459B (zh) 一种有效的基于内容的人体皮肤图像分类检索方法
Rathore et al. CBISC: a novel approach for colon biopsy image segmentation and classification
CN108256569B (zh) 一种复杂背景下的对象识别方法及使用的计算机技术
Rahman et al. A feature level fusion in similarity matching to content-based image retrieval
CN109829377A (zh) 一种基于深度余弦度量学习的行人重识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant