CN104077352B - 基于能量模型的图像语义标注方法 - Google Patents

基于能量模型的图像语义标注方法 Download PDF

Info

Publication number
CN104077352B
CN104077352B CN201410231435.7A CN201410231435A CN104077352B CN 104077352 B CN104077352 B CN 104077352B CN 201410231435 A CN201410231435 A CN 201410231435A CN 104077352 B CN104077352 B CN 104077352B
Authority
CN
China
Prior art keywords
image
area image
semantic label
membership
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410231435.7A
Other languages
English (en)
Other versions
CN104077352A (zh
Inventor
姚敏
赖盛章
李昌英
吴朝晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201410231435.7A priority Critical patent/CN104077352B/zh
Publication of CN104077352A publication Critical patent/CN104077352A/zh
Application granted granted Critical
Publication of CN104077352B publication Critical patent/CN104077352B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于能量模型的图像语义标注方法,该图像语义标注方法中以区域图像‑语义标签的对应势,以及语义标签之间的相互作用势构建原始图像在不同区域图像‑语义标签对应关系下的全能量函数,通过利用全能量函数来进行图像上下文信息和外观信息的融合。与现有技术中只利用对象之间共生信息,或仅利用固定的空间关系和简单的频率计数方法的上下文对象分类模型相比,本发明的图像语义标注方法中提出的全能量函数通过模糊空间关系更充分地利用对象之间空间结构信息,有效避免了产生语义混乱的问题,提高了语义标注的精度。

Description

基于能量模型的图像语义标注方法
技术领域
本发明涉及图像检索和自动图像标注技术领域,具体涉及一种基于能量模型的图像语义标注方法。
背景技术
为了图像场景语义分类,图像分割后需要对分割区域的对象标注。图像分割区域的对象标注直接影响到场景语义理解及分类的准确性。许多研究者们进行了图像中的对象标注工作,基本上都是利用图像区域的底层视觉特征来进行对象分类。近几年来,研究者们进行融合上下文信息的对象识别工作,但其准确性没有满足实际的需求,还需要改进。
为了解决结合上下文信息到一个对象分类框架的问题,一般都借用机器学习技术,融合对象外观视觉信息和关于该对象的上下文约束,以提供有效的概率算法。一般分为两种模型研究:分类器和图模型。
分类器能够实现对象的上下文特征和外观视觉特征的结合,例如,Naive Bayes分类器,Logistic Regression等。他们将局部视觉特征检测器的输出结合到从局部或全局统计得出来的上下文特征。Wolf等利用boosting分类器来实现局部外观视觉特征和上下文特征的结合。图模型能够实现视觉特征和上下文特征的结合。
图模型可以将所有随机变量的联合分布分解为有关变量子集的因素的乘积。因此,图模型提供一个强大而灵活的框架,以用相对局部约束来描述及处理全局概率分布。基于图模型的上下文融合有两种:一是有向图模型,有向图模型是一种在有向图上用局部转换概率来定义的全局概率分布,是很有用于表达随机变量之间的因果关系;二是无向图模型,它利用局部团的势的乘积来定义在图上的全局概率分布,更适合表达随机变量之间的软约束。
条件随机场模型(conditional random fields,CRF模型)是由Lafferty等人于2001年提出的,是一个无向图模型或马尔可夫随机场。该模型在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率,而不是在给定当前状态条件下,定义下一个状态的分布。标记序列的条件概率依赖于观察序列中非独立的、相互作用的特征,并通过赋予特征以不同权值来表示特征的重要程度。
CRF模型能够将不同类型的信息合并在同一个模型当中,而根据上下文关系能够提高对象标注一致性。在CRF模型中,势函数是进行标注图像像素/区域的标签之间的特定约束。因此仅考虑到语义(即标签)之间的约束关系,并没有考虑各个语义之间的空间约束关系,因此容易产生语义混乱,导致标注精度下降。
发明内容
针对现有技术的不足,本发明提供了一种基于能量模型的图像语义标注方法。
一种基于能量模型的图像语义标注方法,包括:
(1)将原始图像分割为若干个区域图像,并提取各个区域图像的视觉特征向量;
(2)根据各个区域的视觉特征向量,利用训练好的SVM分类器确定各个区域图像的候选语义标签,以及各个候选语义标签对该区域图像的信任度;
(3)根据各个区域图像与候选语义标签的对应关系构建原始图像的全能量函数E(A):
其中,k为区域图像的个数,α、β、δ均为调整因子,
cl为图像区域si对应的语义标签,cm为图像区域sj对应的语义标签,
p(cl|si)为语义标签cl对区域图像si的信任度,
p(cl)为区域图像si对应的语义标签cl出现的概率,
P(cl,cm)为语义标签cl与语义标签cm同时出现的概率,
ψ(cl,cm)为语义标签cl与语义标签cm之间的空间隶属度,所述的空间隶属度根据两个语义标签之间的模糊空间关系计算得到;
(4)采用迭代条件模式对所述的全能量函数进行迭代,直至满足迭代条件后停止迭代,并根据最后一次迭代时各个区域图像与候选语义标签的对应关系对原始图像进行语义标注。
本发明的图像语义标注方法前需要利用训练图像集训练分类器,在训练后会得到训练好的分类器,进一步根据训练结果可以求出各个语义标签出现的概率,以及任意两个语义标签同时出现的概率与原始图像无关。
语义标签对该区域图像的信任度表示区域图像属于相应的语义标签的程度。训练分类器实际上是确定各个分类之间的超平面(最佳分类面),训练好的分类器根据输入的样本的特征向量,确定该样本相应超平面的距离。本发明中将各个区域图像的视觉特征向量作为训练好的分类器的输入,根据分类器的输出确定各个语义标签对各个区域图像的信任度。以语义标签cl对区域图像si的信任度p(cl|si)为例,将区域图像si对应的特征向量输入,其关于语义标签cl的输出值为Dil,则根据以下方法确定信任度p(cl|si):
信任度为零,则表示该区域图像si一定不属于语义标签cl。因此根据信任度确定各个区域图像对应的候选应语义标签,对于每个区域图像,将所有对该区域图像的信任度大于零的语义标签作为该区域图像对应的候选语义标签。
全能量函数与原始图像中各个图像区域与语义标签的对应关系有关,不同的对应关系下全能量函数不同,采用迭代条件模式全能量函数进行迭代,计算不同对应关系下的全能函数的函数值,在迭代过程中迭代条件模式确定不同的对应关系,每次迭代时各个区域图像对应的语义标签只能在对应候选语义标签中选择。直至满足迭代条件后停止迭代,并以最后一次迭代各个所有区域图像与候选语义标签的对应关系作为原始图像的最佳配置,以各个区域图像对应的候选语义标签作为相应区域图像的最佳语义标签,并用最佳语义标签对各个区域图像进行标注,从而完成对原始图像的语义标注。
本发明中以区域图像-语义标签的对应势,以及语义标签之间的相互作用势构建原始图像在不同区域图像-语义标签对应关系下的全能量函数,通过利用全能量函数(即能量模型,Energy-Based Model)来进行图像上下文信息和外观信息的融合。与现有技术中只利用对象之间共生信息,或仅利用固定的空间关系和简单的频率计数方法的上下文对象分类模型相比,本发明提出的全能量函数通过模糊空间关系更充分地利用对象之间空间结构信息,有效避免了产生语义混乱的问题,提高了语义标注的精度(平均标注准确度)。
所述步骤(1)中利用视觉特征对原始图像进行分割。
原始图像的视觉特征可以为颜色特征、纹理特征等,根据实际情况设定。分割方法直接决定了分割后得到的区域图像的个数。
所述步骤(2)中SVM分类器为基于视觉特征的SVM分类器。
基于视觉特征能够充分利用原始图像的视觉信息。训练时,首先从已标注好的训练图像的区域图像中提取适当的底层特征(视觉特征),然后进行SVM训练,得到训练好的SVM分类器。作为优选,所述的SVM分类器为模糊SVM分类器,模糊SVM分类器是将模糊理论引入到SVM的一种改进与完善。为了避免在间接构造多类分类器方法中不可分数据的产生,引入区域图像属于某个语义标签的信任度的概率,从而构建得到模糊SVM分类器。
语义标签cl与语义标签cm之间的空间隶属度根据以下公式计算:
为训练图像集中各个训练图像中语义标签cl与语义标签cm对应的区域图像的空间关系向量的平均向量,
rij为原始图像中区域图像si和图像区域sj的空间关系向量;
每个图像中任意两个区域图像之间的空间关系向量为:
rxy=(μ123),
其中,μ1为区域图像sx和区域图像sy在方向关系上的隶属度,μ2为区域图像sx和区域图像sy在距离关系上的隶属度,μ3为区域图像sx和区域图像sy在拓扑关系上的隶属度。
通过以下步骤计算空间关系向量rxy
(1)采用边界像素与矩的区域表示方法描述区域图像sx和区域图像sy,获得区域图像sx和区域图像sy之间的空间关系描述符F(sx,sy):
F(sx,sy)=(θxy,dxy,ρxy),x,y=1,...,k,x≠y,
θxy为区域图像sx和区域图像sy的中心点的连线与距离最近的两个边界像素点的连线的夹角,dxy为距离最近的两个边界像素点之间的距离,ρxy为区域图像sx和区域图像sy的共同边界长度与区域图像sx的边界长度的比;
(2)所述的方向关系包括上方、下方、左方和右方,根据θxy计算区域图像sx和区域图像sy在各个方向关系上的隶属度,并以方向关系上最大的隶属度作为区域图像sx和区域图像sy在方向关系上的隶属度;
所述的距离关系包括靠近和远离,根据dxy和ρxy计算区域图像sx和区域图像sy在各个距离关系上的隶属度,并以距离关系上最大的隶属度作为区域图像sx和区域图像sy在距离关系上的隶属度;
所述的拓扑关系包括分离、邻近、入侵和包含,根据ρxy计算区域图像sx和区域图像sy在各个拓扑关系上的隶属度,并以拓扑关系上最大的隶属度作为区域图像sx和区域图像sy在拓扑关系上的隶属度。
各种空间关系类还可根据需要分为更细的子类,因为一个区域对可以用多种关系的重叠来描述,例如左边入侵,右边靠近等。
对于方向关系,在如下约束条件:
μABOVEBELOWLEFTRIGHT=1
的作用下各个方向关系上的隶属度:
其中μABOVE、μBELOW、μLEFT和μRIGHT分别表示方向关系为上方、下方、左边和右边时对应的隶属度。
对于距离关系,在如下约束条件在约束条件:
μNEARFAR=1
的作用下计算各个距离关系上的隶属度:
其中μNEAR和μFAR分别表示距离关系为靠近和远离时对应的隶属度。
对于拓扑关系,各个拓扑关系上的隶属度:
其中μDIS、μBOR、μINV和μRSUR分别表示拓扑关系为分离、邻近、入侵和包含时对应的隶属度。
则有:
进一步,两个图像区域之间的空间关系向量为:
rxy=(μ123)。
所述的迭代条件为相邻两次迭代得到的全能量函数值的差小于设定的阈值或迭代次数达到设定的最大次数。
所述的阈值为0.01~0.05。
所述的最大次数为100~150。
由于实际应用根据排列组合,整个原始图像的对应关系种类庞大,若全部计算再去最小,导致计算量庞大,效率下降,因此设定的迭代条件,满足条件即可。迭代条件中的阈值和最大迭代次数直接关系到最终标注的精度,通常阈值越小、迭代次数越大标注精度越高,但是这样会导致计算量增大,进而导致标注效率下降,因此设定迭代条件时,需要综合考虑标注精度和标注效率,具体可根据实际应用情况调整。作为优选,所述的阈值为0.02,所述的最大次数为100。
所述的α为1.2~1.5,所述的β为0.1~0.5,所述的δ为0.5~0.8。
调整因子α、β、δ用于调整全能量函数中各个部分所占的比例,其取值影响到全能量函数的准确性,需要通过大量实获取,也可根据实际应用情况进行微调。作为优选,所述的α为1.4,所述的β为0.3,所述的δ为0.8。
本发明的基于能量模型的图像语义标注方法中以区域图像-语义标签的对应势,以及语义标签之间的相互作用势构建原始图像在不同区域图像-语义标签对应关系下的全能量函数,通过利用全能量函数来进行图像上下文信息和外观信息的融合。与现有技术中只利用对象之间共生信息,或仅利用固定的空间关系和简单的频率计数方法的上下文对象分类模型相比,本发明提出的全能量函数通过模糊空间关系更充分地利用对象之间空间结构信息,有效避免了产生语义混乱的问题,提高了语义标注的精度。
具体实施方式
下面将结合具体实施例对本发明进行详细描述。
一种基于能量模型的图像语义标注方法,包括:
(1)将原始图像分割为若干个区域图像,并提取各个区域图像的视觉特征向量。
本实施例中利用视觉特征模糊C-均值(fuzzy c-means,FCM)聚类算法对原始图像进行分割并提取各个区域图像的视觉特征向量。该视觉特征向量可以为基于动态图像专家组标准7特征(Moving Picture Experts Group-7,MPEG-7)的特征向量,也可以为基于尺度不变特征变换算法(Scale-invariant feature transform,SIFT)的特征向量,本实施例中为基于SIFT特征的特征向量。
(2)根据各个区域的视觉特征向量,利用训练好的SVM分类器确定各个区域图像的候选语义标签,以及各个候选语义标签对该区域图像的信任度。该SVM分类器为基于视觉特征的SVM分类器。
每个区域图像对应的候选标签的个数不确定,根据实际情况获取。
(3)根据各个区域图像与候选语义标签的对应关系构建原始图像的全能量函数E(A):
其中,k为区域图像的个数,α、β、δ均为调整因子(本实施例中α为1.4,所述的β为0.3,所述的δ为0.8),
cl为图像区域si对应的语义标签,cm为图像区域sj对应的语义标签,
p(cl|si)为语义标签cl对区域图像si的信任度,
p(cl)为区域图像si对应的语义标签cl出现的概率,
P(cl,cm)为语义标签cl与语义标签cm同时出现的概率,
ψ(cl,cm)为语义标签cl与语义标签cm之间的空间隶属度,根据语义标签cl与语义标签cm之间的模糊空间关系计算得到。具体根据以下公式计算:
为训练图像集中各个训练图像中语义标签cl与语义标签cm对应的区域图像的空间关系向量的平均向量,
rij为原始图像中区域图像si和图像区域sj的空间关系向量;
每个图像中任意两个区域图像之间的空间关系向量为:
rxy=(μ123),
其中,μ1为区域图像sx和区域图像sy在方向关系上的隶属度,μ2为区域图像sx和区域图像sy在距离关系上的隶属度,μ3为区域图像sx和区域图像sy在拓扑关系上的隶属度。
通过以下步骤计算空间关系向量rxy
(1)采用边界像素与矩的区域表示方法描述区域图像sx和区域图像sy,获得区域图像sx和区域图像sy之间的空间关系描述符:
F(sx,sy)=(θxy,dxy,ρxy),x,y=1,...,k,x≠y,
θxy为区域图像sx和区域图像sy的中心点的连线与距离最近的两个边界像素点的连线之间的夹角,dxy为距离最近的两个边界像素点之间的距离,ρxy为区域图像sx和区域图像sy的共同边界长度与区域图像sx的边界长度的比;
(2)本实施例中方向关系包括上方、下方、左方和右方,根据θxy计算区域图像sx和区域图像sy在各个方向关系上的隶属度,并以最大的隶属度作为区域图像sx和区域图像sy在方向关系上的隶属度;
本实施例中距离关系包括靠近和远离,根据dxy和ρxy计算区域图像sx和区域图像sy在各个距离关系上的隶属度,并以最大的隶属度作为区域图像sx和区域图像sy在距离关系上的隶属度;
本实施例中拓扑关系包括分离、邻近、入侵和包含,根据ρxy计算区域图像sx和区域图像sy在各个拓扑关系上的隶属度,并以最大的隶属度作为区域图像sx和区域图像sy在拓扑关系上的隶属度。
(4)采用迭代条件模式对所述的全能量函数进行迭代,直至相邻两次迭代得到的全能量函数的值的差小于设定的阈值或迭代次数达到设定的最大次数时停止迭代,并根据最后一次迭代时各个区域图像与候选语义标签的对应关系对原始图像进行语义标注。
本实施例中迭代条件的阈值为0.02,最大次数为100。
将本实施例的图像语义标注方法分别应用于SCEF、MSRC v2和PASCAL VOC2010图像数据集,对于以上三中图像数据集,其本实施例的平均标注准确度分别为65.9%,68.81%,37.45%,与现有技术中的基于CRF模型的标注方法对应的65.57%、44.31%和30.57%比较,平均标注准确度得到了大幅度提升。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于能量模型的图像语义标注方法,其特征在于,包括:
(1)将原始图像分割为若干个区域图像,并提取各个区域图像的视觉特征向量;
(2)根据各个区域的视觉特征向量,利用训练好的SVM分类器确定各个区域图像的候选语义标签,以及各个候选语义标签对该区域图像的信任度;
(3)根据各个区域图像与候选语义标签的对应关系构建原始图像的全能量函数E(A):
E ( A ) = - ( Σ i = 1 k α · p ( c l | s i ) + β · p ( c l ) + Σ i , j = 1 ( i ≠ j ) k δ · ψ ( c l , c m ) + p ( c l , c m ) · p ( c l | s i ) ) ,
其中,k为区域图像的个数,α、β、δ均为调整因子,
cl为图像区域si对应的语义标签,cm为图像区域sj对应的语义标签,
p(cl|si)为语义标签cl对区域图像si的信任度,
p(cl)为区域图像si对应的语义标签cl出现的概率,
P(cl,cm)为语义标签cl与语义标签cm同时出现的概率,
ψ(cl,cm)为语义标签cl与语义标签cm之间的空间隶属度,所述的空间隶属度根据两个语义标签之间的模糊空间关系计算得到;
(4)采用迭代条件模式对所述的全能量函数进行迭代,直至满足迭代条件后停止迭代,并根据最后一次迭代时各个区域图像与候选语义标签的对应关系对原始图像进行语义标注;
语义标签cl与语义标签cm之间的空间隶属度根据以下公式计算:
ψ ( c l , c m ) = 1 - | r ‾ l m - r i j | ,
为训练图像集中各个训练图像中语义标签cl与语义标签cm对应的区域图像的空间关系向量的平均向量,
rij为原始图像中区域图像si和图像区域sj的空间关系向量;
每个图像中任意两个区域图像之间的空间关系向量为:
rxy=(μ123),
其中,μ1为区域图像sx和区域图像sy在方向关系上的隶属度,μ2为区域图像sx和区域图像sy在距离关系上的隶属度,μ3为区域图像sx和区域图像sy在拓扑关系上的隶属度。
2.如权利要求1所述的基于能量模型的图像语义标注方法,其特征在于,所述步骤(1)中利用视觉特征对原始图像进行分割。
3.如权利要求2所述的基于能量模型的图像语义标注方法,其特征在于,所述步骤(2)中SVM分类器为基于视觉特征的SVM分类器。
4.如权利要求1所述的基于能量模型的图像语义标注方法,其特征在于,通过以下步骤计算空间关系向量rxy
(1)采用边界像素与矩的区域表示方法描述区域图像sx和区域图像sy,获得区域图像sx和区域图像sy之间的空间关系描述符F(sx,sy):
F(sx,sy)=(θxy,dxy,ρxy),x,y=1,...,k,x≠y,
θxy为区域图像sx和区域图像sy的中心点的连线与距离最近的两个边界像素点的连线的夹角,dxy为距离最近的两个边界像素点之间的距离,ρxy为区域图像sx和区域图像sy的共同边界长度与区域图像sx的边界长度的比;
(2)所述的方向关系包括上方、下方、左方和右方,根据θxy计算区域图像sx和区域图像sy在各个方向关系上的隶属度,并以方向关系上最大的隶属度作为区域图像sx和区域图像sy在方向关系上的隶属度;
所述的距离关系包括靠近和远离,根据dxy和ρxy计算区域图像sx和区域图像sy在各个距离关系上的隶属度,并以最大距离关系上的隶属度作为区域图像sx和区域图像sy在距离关系上的隶属度;
所述的拓扑关系包括分离、邻近、入侵和包含,根据ρxy计算区域图像sx和区域图像sy在各个拓扑关系上的隶属度,并以拓扑关系上最大的隶属度作为区域图像sx和区域图像sy在拓扑关系上的隶属度。
5.如权利要求4所述的基于能量模型的图像语义标注方法,其特征在于,所述的迭代条件为相邻两次迭代得到的全能量函数值的差小于设定的阈值或迭代次数达到设定的最大次数。
6.如权利要求5所述的基于能量模型的图像语义标注方法,其特征在于,所述的阈值为0.01~0.05。
7.如权利要求6所述的基于能量模型的图像语义标注方法,其特征在于,所述的最大次数为100~150。
8.如权利要求7所述的基于能量模型的图像语义标注方法,其特征在于,所述的α为1.2~1.5,所述的β为0.1~0.5,所述的δ为0.5~0.8。
CN201410231435.7A 2014-05-27 2014-05-27 基于能量模型的图像语义标注方法 Expired - Fee Related CN104077352B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410231435.7A CN104077352B (zh) 2014-05-27 2014-05-27 基于能量模型的图像语义标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410231435.7A CN104077352B (zh) 2014-05-27 2014-05-27 基于能量模型的图像语义标注方法

Publications (2)

Publication Number Publication Date
CN104077352A CN104077352A (zh) 2014-10-01
CN104077352B true CN104077352B (zh) 2017-07-21

Family

ID=51598606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410231435.7A Expired - Fee Related CN104077352B (zh) 2014-05-27 2014-05-27 基于能量模型的图像语义标注方法

Country Status (1)

Country Link
CN (1) CN104077352B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573711B (zh) * 2014-12-22 2017-12-15 上海交通大学 基于文本‑物体‑场景关系的物体和场景的图像理解方法
US9792560B2 (en) * 2015-02-17 2017-10-17 Microsoft Technology Licensing, Llc Training systems and methods for sequence taggers
CN104732506B (zh) * 2015-03-27 2018-04-10 浙江大学 一种基于人脸语义分析的人物照片颜色风格转换方法
CN104809187B (zh) * 2015-04-20 2017-11-21 南京邮电大学 一种基于rgb‑d数据的室内场景语义标注方法
CN105809671B (zh) * 2016-03-02 2018-10-16 无锡北邮感知技术产业研究院有限公司 前景区域标注与深度次序推理的联合学习方法
CN105930841B (zh) 2016-05-13 2018-01-26 百度在线网络技术(北京)有限公司 对图像进行自动语义标注的方法、装置与计算机设备
CN106886781B (zh) * 2016-10-24 2020-03-10 阿里巴巴集团控股有限公司 物体识别方法及装置
CN108647264B (zh) * 2018-04-28 2020-10-13 北京邮电大学 一种基于支持向量机的图像自动标注方法及装置
CN108898166A (zh) * 2018-06-13 2018-11-27 北京信息科技大学 一种图像标注方法
CN109446897B (zh) * 2018-09-19 2020-10-27 清华大学 基于图像上下文信息的场景识别方法及装置
CN109657691B (zh) * 2019-01-25 2020-08-18 宝鸡文理学院 一种基于能量模型的图像语义标注方法
CN110147801B (zh) * 2019-05-30 2023-05-12 福建农林大学 一种基于向量的sift点集平滑匹配方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7814040B1 (en) * 2006-01-31 2010-10-12 The Research Foundation Of State University Of New York System and method for image annotation and multi-modal image retrieval using probabilistic semantic models
CN103198333A (zh) * 2013-04-15 2013-07-10 中国科学院电子学研究所 一种高分辨率遥感图像自动语义标记方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7814040B1 (en) * 2006-01-31 2010-10-12 The Research Foundation Of State University Of New York System and method for image annotation and multi-modal image retrieval using probabilistic semantic models
CN103198333A (zh) * 2013-04-15 2013-07-10 中国科学院电子学研究所 一种高分辨率遥感图像自动语义标记方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Comparative Study of Object-level Spatial Context Techniques for Semantic Image Analysis;G. Th. Papadopoulos 等;《Computer Vision and Image Understanding》;20111231;第1-13页 *
An energy-based model for region-labeling;Hugo Jair Escalante 等;《Computer Vision and Image Understanding》;20111231;全文 *
Semantic Image Segmentation Based on Spatial Context Relations;Chang-Yong RI 等;《2012 Fourth International Symposium on Information Science and Engineering》;20121231;全文 *

Also Published As

Publication number Publication date
CN104077352A (zh) 2014-10-01

Similar Documents

Publication Publication Date Title
CN104077352B (zh) 基于能量模型的图像语义标注方法
CN103984959B (zh) 一种基于数据与任务驱动的图像分类方法
CN107644235A (zh) 基于半监督学习的图像自动标注方法
CN106055573B (zh) 一种多示例学习框架下的鞋印图像检索方法及系统
CN108985380B (zh) 一种基于聚类集成的转辙机故障识别方法
CN108376267A (zh) 一种基于类别转移的零样本分类方法
US10387774B1 (en) Method for neuromorphic implementation of convolutional neural networks
CN107943856A (zh) 一种基于扩充标记样本的文本分类方法及系统
CN104217225A (zh) 一种视觉目标检测与标注方法
CN102855486B (zh) 一种广义图像目标检测方法
CN103810500A (zh) 一种基于有监督学习概率主题模型的地点图像识别方法
CN103745233B (zh) 基于空间信息迁移的高光谱图像分类方法
CN104408479A (zh) 一种基于深度局部特征描述符的海量图像分类方法
CN110084136A (zh) 基于超像素crf模型的上下文优化室内场景语义标注方法
CN104376051A (zh) 随机结构保形哈希信息检索方法
CN107590262A (zh) 大数据分析的半监督学习方法
CN105550227A (zh) 一种命名实体识别方法及装置
CN115482387A (zh) 基于多尺度类别原型的弱监督图像语义分割方法及系统
CN106056627A (zh) 一种基于局部鉴别性稀疏表示的鲁棒目标跟踪方法
Jian et al. Vision-based parking slot detection based on end-to-end semantic segmentation training
Chen et al. Real-time traffic sign classification using combined convolutional neural networks
CN107330363A (zh) 一种快速的互联网广告牌检测方法
CN106650814A (zh) 一种基于车载单目视觉室外道路自适应分类器生成方法
CN111401122A (zh) 一种基于知识分类的复杂目标渐近识别方法及装置
Deng et al. MVU-Net: a multi-view U-Net architecture for weakly supervised vortex detection

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170721

CF01 Termination of patent right due to non-payment of annual fee