CN105844292A - 一种基于条件随机场和二次字典学习的图像场景标注方法 - Google Patents

一种基于条件随机场和二次字典学习的图像场景标注方法 Download PDF

Info

Publication number
CN105844292A
CN105844292A CN201610158608.6A CN201610158608A CN105844292A CN 105844292 A CN105844292 A CN 105844292A CN 201610158608 A CN201610158608 A CN 201610158608A CN 105844292 A CN105844292 A CN 105844292A
Authority
CN
China
Prior art keywords
pixel
image
super
dictionary
potential energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610158608.6A
Other languages
English (en)
Other versions
CN105844292B (zh
Inventor
刘天亮
徐高帮
戴修斌
罗杰波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201610158608.6A priority Critical patent/CN105844292B/zh
Publication of CN105844292A publication Critical patent/CN105844292A/zh
Application granted granted Critical
Publication of CN105844292B publication Critical patent/CN105844292B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2136Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on sparsity criteria, e.g. with an overcomplete basis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Abstract

本发明公开了一种基于条件随机场和二次字典学习的图像场景标注方法,针对训练集图像进行超像素区域过分割,获取每幅图像的超像素过分割区域;提取各个超像素过分割区域的特征,并结合基准标注图像构建超像素标签池,利用超像素标签池训练出支持向量机分类器,计算超像素一元势能;计算相邻超像素成对项势能;借助训练集中全局性的过分割超像素区域的类别统计,以构建应用于类别统计直方图的分类器作为分类成本,基于每一类超像素区域内关键点特征的稀疏表示的稀疏编码子之和的直方图统计作为该CRF模型的高阶势能,分别以类字典、共享字典两种判别字典经过二次稀疏表示优化稀疏编码子,更新字典和CRF参数与分类器参数;本发明提高了标注精度。

Description

一种基于条件随机场和二次字典学习的图像场景标注方法
技术领域
本发明涉及图像场景标注技术领域,特别是一种基于条件随机场和二次字典学习的图像场景标注方法。
背景技术
视觉场景理解基本问题简单来说是提取图像中的语义信息。对于提供的一个场景,不仅要通过其视觉上的颜色信息,还要根据先验知识推理出语义场景中存在的目标,及其空间位置关系与依赖关系以及场景布局的应用和场景中的各种复杂活动。对于人类来说,识别这些目标,并与场景中的信息联系在一起并不困难。场景理解的目标在于让机器能够有效的模拟人类特有的先天功能,通过训练样本的先验语义内容知识,提取相关的图像语义信息实现有效图像表示。利用这些图像表示实现诸如基于内容的图像检索,自动导航,机器探险,以及规避视觉模糊的广泛应用。
为了提高场景理解能力,为图像场景中的目标进行语义标注无疑是一种很好的解决方案。场景标注基本目标是为给定的查询图像每一个像素或者区域提供一个预定义的语义类别标签。考虑到图像语义的模糊性、复杂性和抽象性,一般建立的图像语义模型都是分层次的。其中,“目标语义”处于语义层次的中层,在很多高层次语义推理中起到了承上启下的作用。语义标注相对于简单的图像分类要复杂得多,其在于不仅要为图像区域分配合理的标签,还要考虑图像相邻区域的结构,同时还要捕获长范围区域的交叉关系和高层的目标类别的先验知识。条件随机场或者马尔可夫随机场模型(MRF)在语义建模和标签推断方面取得突出成就。
随机场模型广泛应用依据的事实:对应于同样标签的图像区域拥有相同的特征;同理,如果图像区域之间具有相似的位置或者特征空间,那么很有可能属于同一对象标签。文献[Koppula Hema S,Anand Abhishek and Joachims Thorsten.Semantic labeling of3d point clouds for indoor scenes.Advances in neural information processingsystems,2011:244-252]中采用Kinect融合产生三维点云,然后利用MRF进行建模;文献[Russell Chris,Kohli Pushmeet,Torr Philip HS.Associative hierarchical crfsfor object class image segmentation.2009 IEEE12thInternational Conference onComputer Vision,2009:739-746.]中采用了分层MRF模型对像素级和超像素级进行联合推断;利用标准二阶条件随机场,结合SIFT特征,HOG特征,textboost特征,共生关系构建势能项也是早期研究中经常采用的方式;[Philipp,Koltun Vladlen.EfficientInference in Fully Connected CRFs with Gaussian Edge Potentials.Advances inNeural Information Processing Systems,2011:109-117.]一文提出了一种成对项势能由高斯核的线性组合而成的稠密全连通CRF模型,该模型在像素级上表示,解决了由于某些超像素分割方法分割精度不高从而影响后续上下文推断的问题。然而这些二阶CRF中,图像特征表示皆基于局部超像素之间的关系,忽略了长范围的区域交叉关系和目标对象层的信息。为了解决这个问题,文献[L’ubor,Sturgess Paul,Alahari Karteek,etal.What,where and how many?combining object detectors and crfs.ComputerVision–ECCV 2010.Springer,2010:424-437.]结合目标检测结果和基于像素的CRF模型,文献[Yao Jian,Fidler Sanja,Urtasun Raquel.Describing the scene as a whole:Joint object detection,scene classification and semanticsegmentation.Computer Vision and Pattern Recognition(CVPR),2012 IEEEConference on,2012:702-709.]通过检测结果和形状先验知识和场景类别信息进一步提高算法精确度;文献[Russell Chris,Kohli Pushmeet,Torr Philip HS.Associativehierarchical crfs for object class image segmentation.2009 IEEE 12thInternational Conference on Computer Vision,2009:739-746.]提出基于分段和像素级的分层CRF模型,并引入高阶鲁棒性PN势能,然而这些方法的主要缺陷是CRF高阶团需要预先定义,因此,在未知图像分割情况下,无法得到全局信息。
为了解决上述问题,现有文献提出了结合二阶CRF能量函数与全局、基于BoF表示的自顶向下分类势能实现图像分类,由于稀疏表示能够提高基本的BoF模型的分类能力,并且能够从不同类别特征中捕获判别力的特征表示,文献中提出了结合字典学习的语义分割算法,利用稀疏表示理论对每一类的特征稀疏表达。通过每一次的分割,联合更新字典和CRF分类器参数。然而文献[Tao Lingling,Porikli Fatih,Vidal René.Sparsedictionaries for semantic segmentation.Computer Vision–ECCV 2014.Springer,2014:549-564.]字典是通过所有类别训练得到,无法区分字典基元属于哪一类别,从而影响目标分类的正确性。
发明内容
本发明所要解决的技术问题是克服现有技术的不足而提供一种基于条件随机场和二次字典学习的图像场景标注方法,基于条件随机场和二次字典学习的图像语义标注框架,提取自底向上区域级信息构建该条件随机场的一元势能和二元势能和自顶向下的类别级信息构建该条件随机场的高阶势能,对自顶向下类别信息引入类字典和共享字典两种字典优化分类类别信息,借助训练集中全局性的过分割超像素区域的类别统计,以构建应用于类别统计直方图的分类器作为分类成本,基于每一类超像素区域内关键点特征的稀疏表示的稀疏编码子之和的直方图统计作为该CRF模型的高阶势能,并联合推断条件随机场CRF参数与分类器参数和字典。
本发明为解决上述技术问题采用以下技术方案:
根据本发明提出的一种基于条件随机场和二次字典学习的图像场景标注方法,包括以下步骤:
步骤A、针对训练集图像进行超像素区域过分割,获取每幅图像的超像素过分割区域;
步骤B、根据超像素过分割区域,提取各个超像素过分割区域的特征,并结合基准标注图像,构建超像素标签池,利用超像素标签池训练出支持向量机分类器,计算超像素一元势能;采用邻近区域对比颜色均值特征计算相邻超像素成对项势能;
步骤C、针对训练集图像,提取自顶向下特征,然后根据每一类的关键点训练初始化的每一类字典;针对每一个超像素过分割区域,以过分割区域的类别相对应的字典稀疏表示关键点的特征,并统计区域关键点稀疏系数得到类直方图作为高阶势能项,累加步骤B中的一元势能和成对项势能,并结合CRF参数、分类器参数得到CRF能量函数;对字典、CRF参数与分类器参数进行联合更新;最后用查询图像测试。
作为本发明所述的一种基于条件随机场和二次字典学习的图像场景标注方法进一步优化方案,所述步骤A具体如下:针对训练集图像,采用全局像素边缘方式检测待标注图像的目标区域边缘轮廓,根据目标边缘轮廓,划分超像素过分割区域,获取每幅图像的超像素过分割区域。
作为本发明所述的一种基于条件随机场和二次字典学习的图像场景标注方法进一步优化方案,所述步骤B中,计算一元项势能和成对势能的具体包括如下步骤:
步骤B1、根据每幅图像中的各个超像素过分割区域做如下操作:求取某个超像素过分割区域各个特征单元,然后对该超像素过分割区域各个特征单元分别进行归一化处理,获得该超像素过分割的各个归一化区域特征单元,最后将该超像素过分割区域的各个归一化特征单元进行拼接,构成对应于该超像素过分割区域的多模态特征向量;
步骤B2、根据训练训练集图像的基准真实标签,得到每幅图像中各个超像素过分割区域对应的类别真实标签;
步骤B3、整合每幅图像获得的超像素真实标签与多模态特征向量,构成对应于各个超像素条目,并整合所有训练图像某个标签对应的超像素所有的条目,构成训练集图像的超像素集对应的语义标签池;
步骤B4、将获得的超像素集对应的语义标签池作为训练样本,训练支持向量机分类器;
步骤B5、根据通过训支持向量机分类器,获得每幅图像每个超像素对应于每个类别的得分,并将其作为一元势能;
步骤B6、根据每幅图像中相邻超像素之间的关系,计算出成对势能。
作为本发明所述的一种基于条件随机场和二次字典学习的图像场景标注方法进一步优化方案,所述步骤B1中的特征单元包括梯度核描述子、颜色核描述子和局部二值化核描述子。
作为本发明所述的一种基于条件随机场和二次字典学习的图像场景标注方法进一步优化方案,所述步骤C,具体包括如下子步骤:
步骤C1、针对训练集图像,计算每幅图像中关键点的128维sift自顶向下特征单元,并记录这些关键点图像中所在的位置;
步骤C2、根据训练集图像的基准真实标签,得到每幅图像中每个关键点对应的类别,将同一类别的所有关键点特征单元整合作为字典初始的特征样本,并利用该样本空间通过稀疏字典学习获得每个类别初始字典;
步骤C3、通过稀疏表示方法,根据图像超像素过分割区内的的特征点对应类别分别采用相应类字典计算得到稀疏编码子,然后计算每一类区域的稀疏编码子绝对值之和构成类直方图,将类直方图作为CRF概率图模型的高阶项;
步骤C4、累加CRF一元势能项、成对势能和高阶势能项,采用以SSVM驱动的BCFW学习算法得到CRF参数与分类器参数,按照梯度下降法迭代更新类字典;
步骤C5、将学习到的每个类字典整合拼接成一个共享字典,保证类字典之间的正交性,并将共享字典正交化,用共享字典计算关键点的稀疏编码子,重新按照步骤C3~C4的方法,进行字典的二次更新和分类器参数与CRF参数的二次学习,得到一个共享字典、分类器参数与CRF参数;
步骤C6、针对查询图像进行超像素过分割,获取该查询图像中的超像素过分割区域,然后提取超像素区域特征,构建该查询图像的超像素对应的语义标签池;采用已经训练的支持向量机分类器,针对该查询图像的超像素进行语义推断,获得该查询图像的一元势能项和该查询图像的成对势能项;然后综合考虑字典的判别性和一致性,以类字典和共享字典整合后的字典作为测试样本的稀疏表示判别字典计算稀疏编码子;将步骤C4~步骤C5学习到的CRF参数求平均,分类器参数整合,作为整个测试过程中的CRF参数和分类器参数,预测最后的标注图像。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
(1)本发明结合条件随机场和判别的稀疏字典学习成本的语义标注框架,相比于传统的基于K-Means字典学习的BoF模型,其更能捕获判别力的类别信息;
(2)本发明同时引入类别字典和共享字典的方式,将每一类的字典学习建立在特定类的样本特征空间,并考虑特定类字典之间的共性,使每一类的分割更加具有判别力,同时为了能更好的区别类别之间的影响,引入共享字典,使得所有类别之间的一致性得以保留,提高准确性。
附图说明
图1是基于条件随机场和二次字典学习的场景语义标注方法的流程示意图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
如图1所示,本发明设计基于条件随机场和二次字典学习的场景语义标注框架,在实际应用过程当中,利用基本二阶CRF的语义标注框架,并基于字典学习得到的稀疏编码子构成的直方图作为CRF扩展的高阶项进行场景图像的语义标注。该语义标注框架是由自底向上区域级组成的二阶势能和由自顶向下类别级信息组成的高阶势能构成,包括如下步骤:
步骤A.针对训练集图像进行超像素过分割,获取每幅图像的超像素过分割区域;
步骤A1.对于每一个像素,以其所在位置(x,y)为圆心画圆,并以倾斜角θ的直径分成两个半圆,并将两个半圆区域中的亮度值分别做直方图统计,最终以由两个亮度直方图g和h计算到的χ2距离表示像素的梯度:
G ( x , y , θ ) = χ 2 ( g , h ) = 1 2 Σ k ( g θ ( k ) - h θ ( k ) ) g θ ( k ) + h θ ( k ) - - - ( 1 )
其中,G(x,y,θ)为坐标(x,y)以角度θ切割半圆得到的方向梯度,gθ(k)表示其中一个半圆中亮度值为k的直方图统计,hθ(k)为另一半圆中亮度值为k的直方图统计,χ2(g,h)表示直方图g和h的χ2距离。
步骤A2.将每一副图像分解为4个不同的通道,分别为CIE Lab空间中的亮度通道、颜色a通道、颜色b通道和纹理通道,并且结合多个尺度的直径σ,获得多尺度像素梯度幅度:
g P b ( x , y , θ ) = m P b ( x , y , θ ) = Σ s Σ i α i , s G i , σ ( i , s ) ( x , y , θ ) - - - ( 2 )
其中,i表示每一个通道,s表示每一个尺度,系数α表示每一个不同直径条件下的每一个特征通道的权重,是针对F-measure梯度下降得到。最后对于该gPb进行sigmoid函数转换,使其值处在0-1之间,作为该像素是否为边缘的概率。
步骤A3.对于每一个像素,E(x,y)=maxθgPb(x,y,θ),计算8个设定的角度θ∈[0,pi]对应的边缘概率取其最大值;接着使用分水岭转换技术,将输入转换成一系列区域和边界。
步骤A4.通过检测到的边缘生成的区域几何组合成超度量边界图(UltrametricContour Map,UCM),然后通过阈值k调节输出不同细节的图像轮廓,同时可以得到不同数量的目标超像素过分割区域。
步骤B.根据超像素分割后的区域,提取各个超像素过分割区域的特征单元,并结合基准标注图像,构建超像素标签池,采用支持向量机计算超像素一元势能;采用邻近区域对比颜色均值特征计算相邻超像素成对项势能,以约束相邻区域之间的平滑关系;
步骤B1.根据训练集图像每幅图像中的各个超像素过分割区域做如下操作:求取某个超像素过分割区域各个特征单元,然后对该超像素过分割区域各个特征单元分别进行归一化处理,获得该超像素过分割的各个归一化区域特征单元,最后将该超像素过分割区域的各个归一化特征单元进行拼接,构成对应于该超像素过分割区域的多模态特征向量。
传统的直方图特征如HOG和SIFT特征在图像分类或者图像分割中得到广泛应用。HOG特征是将单个像素属性值离散成bin然后计算某个图像块中的离散直方图,两个块之间的相似性就通过直方图计算得到。SIFT特征计算关键点的像素特征,然后通过Bag ofWords方式将匹配到直方图中。然而两种特征都存在量化误差,不能准确的衡量局部特征的相似性。目前有学者提出的采用高效匹配核(EMK)的方式将局部特征匹配到相应的低维空间并均值化形成区域级特征,能够有效提高识别精度;同时从核视觉角度重新定义了SIFT、HOG特征,核描述子避免了直方图特征提取过程中像素的离散化,并且能够生成不同类型丰富的基于块层面的像素属性特征,两个块之间的相似性基于一个匹配核,其优点在于两个快之间的像素属性的连续性。本发明首先对图像分割以2个像素差,大小为16*16的块,然后在块基础上提取梯度核描述子,颜色核描述子,局部二值化核描述子,然后通过EMK匹配方式分别将块描述子映射到200个words中,共计600维的特征。以梯度核描述子为例,基于核的特征提取如下:
首先将图像转换成灰度图,然后计算每个像素点的梯度,梯度核描述子Fgrad通过每个像素梯度相似性函数ko组成:
F g r a d t ( Z ) = Σ i = 1 d o Σ j = 1 d s α i j t { Σ z ∈ Z m ~ z k o ( θ ~ z , p i ) k s ( z , q j ) } - - - ( 3 )
其中,Z表示图像块,z∈Z表示图像块中的像素之间的2维相互关系(归一化到[0,1])是归一化的像素梯度的幅度和方向值。方向核计算梯度方向的相似性,位置高斯核ks(z,x)=exp(-γs||z-x||2)衡量两个像素空间的相近关系。为从其支撑区域一致采样结果,do和ds是采样基准向量的数量。是通过核主成分分析计算得到的投影系数,其余的核描述子也是通过类似的形式从像素级相似性函数计算得到。
步骤B2.根据训练集图像的基准真实标签,得到每幅图像中每个超像素对应的类别真实标签;
针对该训练集图像的超像素集中的各个超像素过分割,根据训练集图像集合中包含的基准标注信息,获取各个超像素分别对应的类别标签。
本发明中采用的数据集是图像标注中经典的数据集GRAZ,其都包含人工稠密地标注的基准标注信息,为了后续构造语义标签池,即获取训练SVM分类器的训练样本,需要将基准标注信息的类别标签映射至训练集图像的超像素中。本发明采用的映射原则是确保每个超像素标签的唯一性和准确性,然而由于前期的超像素过分割结果不能保证完全按照目标边缘进行精确分割,导致所生成的超像素区域中可能包含多个标签类别,违背映射原则,为了最大化标签分配正确性,因此本发明采用折中方案:对于某一个超像素,若其中包含的某一类别像素最大,则认定该超像素为此类别标签。具体步骤如下:
步骤01.对基准标注图像按照像素RGB值的不同,分配一个不同的标签(如1,2,3,…,n,无效类为0);
步骤02.将过分割图像与步骤01得到的图像像素一一对应;
步骤03.将每一个超像素过分割区域的标签按照类别统计像素个数,像素个数最多的类别即为该超像素过分割区域的类别标签。
步骤B3.整合每幅图像获得的超像素过分割区域真实标签与多模态特征向量,构成对应于各个超像素条目,并整合所有训练图像某个标签对应的超像素所有的条目,构成训练集图像的超像素过分割区域集对应的语义标签池;
步骤B4.将获得的超像素过分割区域集语义标签池作为训练样本,训练支持向量机分类器;
支持向量机方法通过核函数的方式,不需要非线性映射的显示表达方式将样本空间映射到一个高维乃至无穷维的特征空间中,使得在原来样本空间中非线性可分的问题转换为特征空间中的线性可分问题。本发明中,实验采用的是LIBSVM模式识别软件包,主要参数设置为:采用自定义核函数,实现方法由vl_feat工具包中的vl_alldist函数提供,惩罚系数c设置为1。
步骤B5.根据通过训练得到的支持向量机分类器,利用libsvm中的预测函数,计算得到获得每幅训练图像每个超像素对应于属于每一类的概率和超像素类别,然后通过每一类的概率的对数似然得到属于每一类的得分,将得分作为每一类别的势能值。
步骤B6所述成对项的势能用于度量相邻超像素过分割区域之间的平滑关系,具体势能计算公式:
ψ i , j P ( x i , x j ; I ) = L ( i , j ) 1 + || f ( i ) - f ( j ) || δ ( x i ≠ x j ) - - - ( 4 )
其中,f(i)是超像素过分割区域LUV空间的颜色平均值,L(i,j)是超像素i和j公共边界的长度。
步骤C.针对训练图像,提取自顶向下特征,将同一类别的所有关键点特征单元整合作为每一类初始字典的特征样本,并通过稀疏表示方式学习得到初始化的每一类字典;针对每一个超像素过分割区域,以过分割区域的类别相对应的字典稀疏表示关键点的特征,并统计区域关键点稀疏系数得到类直方图作为高阶势能项,以超像素过分割区域为CRF概率图模型节点,以相邻超像素过分割区域的边缘作为CRF模型的边,结合CRF参数、分类器参数和各势能得到能量函数,使其能量最小化得到预测标签。为了学习CRF能量函数中的字典和参数,针对经典结构化SVM(SSVM)的不适用参数和字典的都未知的问题,分别采用梯度下降法、以结构化支持向量机(SSVM)驱动的BCFW学习算法联合更新字典和CRF参数与分类器参数。为了提取到类字典中的相关性,以类字典正交化构成初始化共享字典,按照上述方式,重新训练参数和迭代计算共享字典,最后以类字典、共享字典结合方式作为测试数据集编码子计算的字典。包括如下子步骤:
步骤C1.针对训练集图像,计算每幅图像中关键点的128维sift自顶向下特征单元,并记录这些关键点图像中所在的位置;
步骤C2.根据训练集图像的基准真实标签,得到每幅图像中每个关键点对应的类别,将同一类别的所有关键点特征单元整合作为字典初始的特征样本,并利用该样本空间通过稀疏字典学习获得每个类别初始字典;
步骤C3.通过稀疏表示方法,根据图像超像素过分割区内的的特征点对应类别分别采用相应类字典计算得到稀疏编码子,然后计算每一类区域的稀疏编码子绝对值之和构成类直方图,将类直方图作为CRF概率图模型的高阶项,具体做法如下:
步骤1,假设是稀疏字典学习得到的由Kl个视觉单词组成的类别l的类字典,每个视觉单词已经归一化。对应于每个属于l类的特征描述子都采用类别l的类字典进行稀疏编码,也即求如下问题:
α j ( D l ) = arg min α { 1 2 || f j - D l α || + λ || α || 1 } - - - ( 5 )
式中,fj表示关键点j的特征描述子,Dl表示关键点j所属类别对应的类字典,α表示稀疏编码子。l的取值为1至L类,L为训练集图像总的类别数。
步骤2.对所有的特征描述子都经过步骤1的稀疏编码,然后构建每一类别稀疏编码子直方图:
h l ( X , D l ) = Σ j ∈ S α j ( D l ) δ ( x j = = l ) = Σ i ∈ V Σ j ∈ S i α j ( D l ) δ ( x i = l ) - - - ( 6 )
式中,Si是超像素i中特征关键点集合。由于每一类直方图跟分割图像X和每一类字典都相关,假设线性分类器每一类的参数最终CRF能量函数由一元势能项,二元势能项和高阶势能项及对应参数组成:
E ( X , I ) = λ 1 Σ i ∈ V φ i U ( x i , I ) + λ 2 Σ ( i , j ) ∈ E φ i j P ( x i , x j , I ) + Σ l = 1 L w l T h l ( X , D l ) - - - ( 7 )
步骤C4.累加CRF各个势能项,由于能量函数中,参数和字典都是未知,经典的SSVM算法并不适用此问题,为了学习参数和字典,采用以SSVM驱动的BCFW算法学习得到CRF参数与分类器参数,按照梯度下降法迭代更新类字典,具体做法如下:
步骤1.给定图像I,CRF参数λ12,分类器参数类字典Dl,我们的目标是计算标签X*,使得能够最大化条件概率,即,
X * = argmax X P ( X | I ) = argmax X E ( X , I )
由于每个超像素过分割区域内各个类别稀疏编码子累加与每个类别各个超像素过分割区域中的稀疏编码子累加先后顺序的调整对结果没有影响,由L种类别组成的图像由每一个类别直方图组成,可以表示成:
Σ l = 1 L w l T h l ( X , D l ) = Σ l = 1 L w l T Σ i ∈ V Σ j ∈ S i α j ( D l ) δ ( x i = l ) = Σ i ∈ V Σ l = 1 L w l T α j ( D l ) δ ( x i = l ) - - - ( 8 )
因此能量函数可以合并成只有一元项和二元项的形式:
E ( X , I ) = Σ i ∈ V ( λ 1 φ i U ( x i , I ) + Σ l = 1 L w l T α i ( D l ) ) + λ 2 Σ ( i , j ) ∈ E φ i j P ( x i , x j , I ) - - - ( 9 )
因此可以通过近似推断算法如α-expansion算法最小化能量函数。
步骤2.给定训练集图像集和ground truth分割图当能量函数中的类字典已知固定,只有CRF参数变化时,可以采用SSVM框架学习得到CRF参数λ12,分类器参数首先重写能量函数:
E(X,I)=WTφ(X,I,Dl)
其中
W = λ 1 λ 2 w 1 . . . w L φ ( X , I , D l ) = Σ i ∈ V φ U ( x i , I ) Σ ( i , j ) ∈ E φ i j P ( x i , x j , I ) Σ i ∈ V Σ j ∈ S i α j δ ( x i = 1 ) . . . Σ i ∈ V Σ j ∈ S i α j δ ( x i = L )
然后,可以寻找一组范数较小的参数W使得基准标注图像与任何推断出的分割相差也就是解决下述问题:
这里{ξn}是松弛变量以约束意外变化
上式是一个二次规划问题,如果当字典是固定已知的,可以用经典的SSVM方法分两步解决上述问题:
步骤1.给定W求得最意外的分割
步骤2.给定约束的更新W值。
然而实际情况中,我们的模型问题是字典和W都是未知,更重要的是能量函数与字典之间的关系并非线性,并且能量函数与字典的关系是非显性的。因此传统的SSVM方法不适用于我们的问题。因此我们分开更新W和类字典,重写上述问题:
当固定W的时候,采用梯度下降法计算类字典,关键是要求出J对Dl的导数,由于J和字典是隐性关系,可以通过链式关系,求出得到
∂ J n ∂ D l = Σ i ∈ V Σ j ∈ S i ( ∂ J n ∂ α i ) ∂ α i ∂ D l
针对满足式子,需要满足梯度为0的条件,因此得到
D l T ( D l α - f i ) = - λ s i g n ( α )
展开得到
D l T D l α - D l T f j = - λ s i g n ( α )
两边对Dl求导
其中∧表示编码子不为0的列,表示编码子为0的列,化简求得
为了简化计算,引入辅助向量,令,
同时表示Z=[z1,z2,...,zm],m为超像素的个数,最后Jn相对于类字典的导数为
∂ J n ∂ D l = - D l ZA T + ( F - D l A ) Z T - - - ( 10 )
然后更新字典,其中τ取值1e-6。其他类别字典也如同上式所示,每次迭代更新完类字典后,固定每一个类字典,同时采用BCFW算法更新W参数,最后求得每一类字典和W参数。
步骤C5.实际过程中,通过学习得到每一类字典,能够有效表示每一类信息,但是每个类字典的相关约束并没有考虑,使得每个类字典之间的相关性丢失,为了提取类字典之间的相关性,将学习到的的每个类字典整合拼接成一个共享字典,并保证类字典之间的正交性,即式子(5)中的Dl=D=[D1,D2,...,DL],并将D正交化,用共享字典计算关键点的稀疏编码子,重新并按照步骤C3~C4方法,进行字典的二次更新和分类器参数与CRF参数的二次学习,得到一个共享字典D和分类器参数与CRF参数;
步骤C6.针对查询图像进行超像素过分割,获取该查询图像中的超像素过分割区域,然后按照步骤B方法提取超像素区域特征,构建该查询图像的超像素对应的语义标签池;采用已经训练的支持向量机分类器,针对该查询图像的超像素进行语义推断,获得该查询图像的一元势能项和该查询图像的成对势能项;然后综合考虑字典的判别性和一致性,以类字典和共享字典整合后的字典Dc=[Dl,D]作为测试样本的稀疏表示判别字典计算稀疏编码子。测试过程中,字典整合后的维度与模型中应有的字典维度不一致,使得学习到分类器系数与稀疏编码子的实际维度不一致,实际实验过程中,我们将两次学习到的CRF参数求平均,分类器参数整合,作为整个测试过程中的CRF参数和分类器参数,预测最后的标注图像。

Claims (5)

1.一种基于条件随机场和二次字典学习的图像场景标注方法,其特征在于,包括以下步骤:
步骤A、针对训练集图像进行超像素区域过分割,获取每幅图像的超像素过分割区域;
步骤B、根据超像素过分割区域,提取各个超像素过分割区域的特征,并结合基准标注图像,构建超像素标签池,利用超像素标签池训练出支持向量机分类器,计算超像素一元势能;采用邻近区域对比颜色均值特征计算相邻超像素成对项势能;
步骤C、针对训练集图像,提取自顶向下特征,然后根据每一类的关键点训练初始化的每一类字典;针对每一个超像素过分割区域,以过分割区域的类别相对应的字典稀疏表示关键点的特征,并统计区域关键点稀疏系数得到类直方图作为高阶势能项,累加步骤B中的一元势能和成对项势能,并结合CRF参数、分类器参数得到CRF能量函数;对字典、CRF参数与分类器参数进行联合更新;最后用查询图像测试。
2.根据权利要求1所述的一种基于条件随机场和二次字典学习的图像场景标注方法,其特征在于,所述步骤A具体如下:针对训练集图像,采用全局像素边缘方式检测待标注图像的目标区域边缘轮廓,根据目标边缘轮廓,划分超像素过分割区域,获取每幅图像的超像素过分割区域。
3.根据权利要求1所述的一种基于条件随机场和二次字典学习的图像场景标注方法,其特征在于,所述步骤B中,计算一元项势能和成对势能的具体包括如下步骤:
步骤B1、根据每幅图像中的各个超像素过分割区域做如下操作:求取某个超像素过分割区域各个特征单元,然后对该超像素过分割区域各个特征单元分别进行归一化处理,获得该超像素过分割的各个归一化区域特征单元,最后将该超像素过分割区域的各个归一化特征单元进行拼接,构成对应于该超像素过分割区域的多模态特征向量;
步骤B2、根据训练训练集图像的基准真实标签,得到每幅图像中各个超像素过分割区域对应的类别真实标签;
步骤B3、整合每幅图像获得的超像素真实标签与多模态特征向量,构成对应于各个超像素条目,并整合所有训练图像某个标签对应的超像素所有的条目,构成训练集图像的超像素集对应的语义标签池;
步骤B4、将获得的超像素集对应的语义标签池作为训练样本,训练支持向量机分类器;
步骤B5、根据通过训支持向量机分类器,获得每幅图像每个超像素对应于每个类别的得分,并将其作为一元势能;
步骤B6、根据每幅图像中相邻超像素之间的关系,计算出成对势能。
4.根据权利要求3所述的一种基于条件随机场和二次字典学习的图像场景标注方法,其特征在于,所述步骤B1中的特征单元包括梯度核描述子、颜色核描述子和局部二值化核描述子。
5.根据权利要求1所述的一种基于条件随机场和二次字典学习的图像场景标注方法,其特征在于,所述步骤C,具体包括如下子步骤:
步骤C1、针对训练集图像,计算每幅图像中关键点的128维sift自顶向下特征单元,并记录这些关键点图像中所在的位置;
步骤C2、根据训练集图像的基准真实标签,得到每幅图像中每个关键点对应的类别,将同一类别的所有关键点特征单元整合作为字典初始的特征样本,并利用该样本空间通过稀疏字典学习获得每个类别初始字典;
步骤C3、通过稀疏表示方法,根据图像超像素过分割区内的的特征点对应类别分别采用相应类字典计算得到稀疏编码子,然后计算每一类区域的稀疏编码子绝对值之和构成类直方图,将类直方图作为CRF概率图模型的高阶项;
步骤C4、累加CRF一元势能项、成对势能和高阶势能项,采用以SSVM驱动的BCFW学习算法得到CRF参数与分类器参数,按照梯度下降法迭代更新类字典;
步骤C5、将学习到的每个类字典整合拼接成一个共享字典,保证类字典之间的正交性,并将共享字典正交化,用共享字典计算关键点的稀疏编码子,重新按照步骤C3~C4的方法,进行字典的二次更新和分类器参数与CRF参数的二次学习,得到一个共享字典、分类器参数与CRF参数;
步骤C6、针对查询图像进行超像素过分割,获取该查询图像中的超像素过分割区域,然后提取超像素区域特征,构建该查询图像的超像素对应的语义标签池;采用已经训练的支持向量机分类器,针对该查询图像的超像素进行语义推断,获得该查询图像的一元势能项和该查询图像的成对势能项;然后综合考虑字典的判别性和一致性,以类字典和共享字典整合后的字典作为测试样本的稀疏表示判别字典计算稀疏编码子;将步骤C4~步骤C5学习到的CRF参数求平均,分类器参数整合,作为整个测试过程中的CRF参数和分类器参数,预测最后的标注图像。
CN201610158608.6A 2016-03-18 2016-03-18 一种基于条件随机场和二次字典学习的图像场景标注方法 Active CN105844292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610158608.6A CN105844292B (zh) 2016-03-18 2016-03-18 一种基于条件随机场和二次字典学习的图像场景标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610158608.6A CN105844292B (zh) 2016-03-18 2016-03-18 一种基于条件随机场和二次字典学习的图像场景标注方法

Publications (2)

Publication Number Publication Date
CN105844292A true CN105844292A (zh) 2016-08-10
CN105844292B CN105844292B (zh) 2018-11-30

Family

ID=56588347

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610158608.6A Active CN105844292B (zh) 2016-03-18 2016-03-18 一种基于条件随机场和二次字典学习的图像场景标注方法

Country Status (1)

Country Link
CN (1) CN105844292B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446965A (zh) * 2016-10-21 2017-02-22 西北工业大学 一种航天器可见光图像分类方法
CN107657276A (zh) * 2017-09-15 2018-02-02 赤峰学院 一种基于寻找语义类簇的弱监督语义分割方法
CN108053420A (zh) * 2018-01-05 2018-05-18 昆明理工大学 一种基于有限时空分辨率类无关属性动态场景的分割方法
CN108229515A (zh) * 2016-12-29 2018-06-29 北京市商汤科技开发有限公司 高光谱图像的对象分类方法和装置、电子设备
CN108280469A (zh) * 2018-01-16 2018-07-13 佛山市顺德区中山大学研究院 一种基于稀疏表示的超市商品图像识别方法
CN108399620A (zh) * 2018-03-19 2018-08-14 嘉兴学院 一种基于低秩稀疏矩阵分解的图像质量评价方法
CN108537102A (zh) * 2018-01-25 2018-09-14 西安电子科技大学 基于稀疏特征与条件随机场的高分辨sar图像分类方法
CN109657704A (zh) * 2018-11-27 2019-04-19 福建亿榕信息技术有限公司 一种基于稀疏融合的核化场景特征提取方法
CN109903274A (zh) * 2019-01-31 2019-06-18 兰州交通大学 一种高分辨率遥感影像变化检测方法及系统
CN110008785A (zh) * 2018-01-04 2019-07-12 清华大学 一种目标识别方法和装置
CN110012349A (zh) * 2019-06-04 2019-07-12 成都索贝数码科技股份有限公司 一种端到端的新闻节目结构化方法及其结构化框架体系
CN110084136A (zh) * 2019-04-04 2019-08-02 北京工业大学 基于超像素crf模型的上下文优化室内场景语义标注方法
CN110163239A (zh) * 2019-01-25 2019-08-23 太原理工大学 一种基于超像素和条件随机场的弱监督图像语义分割方法
CN111046783A (zh) * 2019-12-09 2020-04-21 山西能源学院 一种改进分水岭算法的斜坡地质灾害边界提取方法
CN111222395A (zh) * 2019-10-21 2020-06-02 杭州飞步科技有限公司 目标检测方法、装置与电子设备
CN111369688A (zh) * 2020-03-11 2020-07-03 暗物智能科技(广州)有限公司 一种结构化场景表达的认知导航方法及系统
CN111611919A (zh) * 2020-05-20 2020-09-01 西安交通大学苏州研究院 一种基于结构化学习的道路场景布局分析方法
CN116258697A (zh) * 2023-02-22 2023-06-13 浙江大学 基于粗标注的儿童皮肤病图像自动分类装置和方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102486827A (zh) * 2010-12-03 2012-06-06 中兴通讯股份有限公司 复杂背景环境下的前景目标的提取方法和装置
US20130173258A1 (en) * 2011-05-27 2013-07-04 Robert Bosch Gmbh Broad-Coverage Normalization System For Social Media Language
EP2820567A2 (en) * 2012-02-27 2015-01-07 Robert Bosch GmbH Broad-coverage normalization system for social media language
CN104599275A (zh) * 2015-01-27 2015-05-06 浙江大学 基于概率图模型的非参数化的rgb-d场景理解方法
CN104637045A (zh) * 2013-11-14 2015-05-20 重庆理工大学 一种基于超级像素层次特征的图像像素标号方法
CN104809187A (zh) * 2015-04-20 2015-07-29 南京邮电大学 一种基于rgb-d数据的室内场景语义标注方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102486827A (zh) * 2010-12-03 2012-06-06 中兴通讯股份有限公司 复杂背景环境下的前景目标的提取方法和装置
US20130173258A1 (en) * 2011-05-27 2013-07-04 Robert Bosch Gmbh Broad-Coverage Normalization System For Social Media Language
EP2820567A2 (en) * 2012-02-27 2015-01-07 Robert Bosch GmbH Broad-coverage normalization system for social media language
CN104637045A (zh) * 2013-11-14 2015-05-20 重庆理工大学 一种基于超级像素层次特征的图像像素标号方法
CN104599275A (zh) * 2015-01-27 2015-05-06 浙江大学 基于概率图模型的非参数化的rgb-d场景理解方法
CN104809187A (zh) * 2015-04-20 2015-07-29 南京邮电大学 一种基于rgb-d数据的室内场景语义标注方法

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446965A (zh) * 2016-10-21 2017-02-22 西北工业大学 一种航天器可见光图像分类方法
CN108229515A (zh) * 2016-12-29 2018-06-29 北京市商汤科技开发有限公司 高光谱图像的对象分类方法和装置、电子设备
CN107657276A (zh) * 2017-09-15 2018-02-02 赤峰学院 一种基于寻找语义类簇的弱监督语义分割方法
CN110008785A (zh) * 2018-01-04 2019-07-12 清华大学 一种目标识别方法和装置
CN110008785B (zh) * 2018-01-04 2022-09-02 清华大学 一种目标识别方法和装置
CN108053420A (zh) * 2018-01-05 2018-05-18 昆明理工大学 一种基于有限时空分辨率类无关属性动态场景的分割方法
CN108053420B (zh) * 2018-01-05 2021-11-02 昆明理工大学 一种基于有限时空分辨率类无关属性动态场景的分割方法
CN108280469A (zh) * 2018-01-16 2018-07-13 佛山市顺德区中山大学研究院 一种基于稀疏表示的超市商品图像识别方法
CN108537102B (zh) * 2018-01-25 2021-01-05 西安电子科技大学 基于稀疏特征与条件随机场的高分辨sar图像分类方法
CN108537102A (zh) * 2018-01-25 2018-09-14 西安电子科技大学 基于稀疏特征与条件随机场的高分辨sar图像分类方法
CN108399620A (zh) * 2018-03-19 2018-08-14 嘉兴学院 一种基于低秩稀疏矩阵分解的图像质量评价方法
CN108399620B (zh) * 2018-03-19 2022-04-19 嘉兴学院 一种基于低秩稀疏矩阵分解的图像质量评价方法
CN109657704A (zh) * 2018-11-27 2019-04-19 福建亿榕信息技术有限公司 一种基于稀疏融合的核化场景特征提取方法
CN109657704B (zh) * 2018-11-27 2022-11-29 福建亿榕信息技术有限公司 一种基于稀疏融合的核化场景特征提取方法
CN110163239A (zh) * 2019-01-25 2019-08-23 太原理工大学 一种基于超像素和条件随机场的弱监督图像语义分割方法
CN109903274A (zh) * 2019-01-31 2019-06-18 兰州交通大学 一种高分辨率遥感影像变化检测方法及系统
CN110084136A (zh) * 2019-04-04 2019-08-02 北京工业大学 基于超像素crf模型的上下文优化室内场景语义标注方法
CN110012349B (zh) * 2019-06-04 2019-09-20 成都索贝数码科技股份有限公司 一种端到端的新闻节目结构化方法
CN110012349A (zh) * 2019-06-04 2019-07-12 成都索贝数码科技股份有限公司 一种端到端的新闻节目结构化方法及其结构化框架体系
CN111222395A (zh) * 2019-10-21 2020-06-02 杭州飞步科技有限公司 目标检测方法、装置与电子设备
CN111222395B (zh) * 2019-10-21 2023-05-23 杭州飞步科技有限公司 目标检测方法、装置与电子设备
CN111046783A (zh) * 2019-12-09 2020-04-21 山西能源学院 一种改进分水岭算法的斜坡地质灾害边界提取方法
CN111369688A (zh) * 2020-03-11 2020-07-03 暗物智能科技(广州)有限公司 一种结构化场景表达的认知导航方法及系统
CN111611919A (zh) * 2020-05-20 2020-09-01 西安交通大学苏州研究院 一种基于结构化学习的道路场景布局分析方法
CN111611919B (zh) * 2020-05-20 2022-08-16 西安交通大学苏州研究院 一种基于结构化学习的道路场景布局分析方法
CN116258697A (zh) * 2023-02-22 2023-06-13 浙江大学 基于粗标注的儿童皮肤病图像自动分类装置和方法
CN116258697B (zh) * 2023-02-22 2023-11-24 浙江大学 基于粗标注的儿童皮肤病图像自动分类装置和方法

Also Published As

Publication number Publication date
CN105844292B (zh) 2018-11-30

Similar Documents

Publication Publication Date Title
CN105844292B (zh) 一种基于条件随机场和二次字典学习的图像场景标注方法
Tasar et al. ColorMapGAN: Unsupervised domain adaptation for semantic segmentation using color mapping generative adversarial networks
Mou et al. RiFCN: Recurrent network in fully convolutional network for semantic segmentation of high resolution remote sensing images
Liu et al. Multi-objective convolutional learning for face labeling
KR102130162B1 (ko) 인공 신경망들에 대한 관련성 스코어 할당
CN105701502B (zh) 一种基于蒙特卡罗数据均衡的图像自动标注方法
US9558268B2 (en) Method for semantically labeling an image of a scene using recursive context propagation
Rouhani et al. Semantic segmentation of 3D textured meshes for urban scene analysis
Alidoost et al. A CNN-based approach for automatic building detection and recognition of roof types using a single aerial image
WO2021147325A1 (zh) 一种物体检测方法、装置以及存储介质
CN112308115B (zh) 一种多标签图像深度学习分类方法及设备
Luo et al. Cross-spatiotemporal land-cover classification from VHR remote sensing images with deep learning based domain adaptation
Yee et al. DeepScene: Scene classification via convolutional neural network with spatial pyramid pooling
Lam et al. HC-Search for structured prediction in computer vision
CN109919112B (zh) 一种复杂场景中流动人群的分布与计数检测的方法
CN108985298B (zh) 一种基于语义一致性的人体衣物分割方法
Yang et al. Local label descriptor for example based semantic image labeling
Tian et al. Object localization via evaluation multi-task learning
Wang et al. A novel sparse boosting method for crater detection in the high resolution planetary image
Li et al. An aerial image segmentation approach based on enhanced multi-scale convolutional neural network
Saqib et al. Intelligent dynamic gesture recognition using CNN empowered by edit distance
Wang et al. Semantic annotation for complex video street views based on 2D–3D multi-feature fusion and aggregated boosting decision forests
Wang et al. Context-sensitive zero-shot semantic segmentation model based on meta-learning
CN103440651A (zh) 一种基于秩最小化的多标签图像标注结果融合方法
JP2020123329A (ja) 人工ニューラルネットワークの関連性スコア割当て

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20160810

Assignee: Nanjing Nanyou Information Industry Technology Research Institute Co. Ltd.

Assignor: Nanjing Post & Telecommunication Univ.

Contract record no.: X2019980001257

Denomination of invention: Image scene labeling method based on conditional random field and secondary dictionary study

Granted publication date: 20181130

License type: Common License

Record date: 20191224

EC01 Cancellation of recordation of patent licensing contract
EC01 Cancellation of recordation of patent licensing contract

Assignee: NANJING NANYOU INSTITUTE OF INFORMATION TECHNOVATION Co.,Ltd.

Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS

Contract record no.: X2019980001257

Date of cancellation: 20220304