CN103310221B - 图像处理装置、图像处理方法以及设备 - Google Patents

图像处理装置、图像处理方法以及设备 Download PDF

Info

Publication number
CN103310221B
CN103310221B CN201210071428.6A CN201210071428A CN103310221B CN 103310221 B CN103310221 B CN 103310221B CN 201210071428 A CN201210071428 A CN 201210071428A CN 103310221 B CN103310221 B CN 103310221B
Authority
CN
China
Prior art keywords
image
region
soft label
image processing
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210071428.6A
Other languages
English (en)
Other versions
CN103310221A (zh
Inventor
李斐
刘汝杰
马场孝之
上原祐介
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201210071428.6A priority Critical patent/CN103310221B/zh
Priority to JP2013053511A priority patent/JP6160143B2/ja
Publication of CN103310221A publication Critical patent/CN103310221A/zh
Application granted granted Critical
Publication of CN103310221B publication Critical patent/CN103310221B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提供了图像处理装置、图像处理方法以及设备,以至少克服现有的监督式及半监督式图像处理技术存在的图像处理效果差的问题。图像处理装置包括:进行图像分割的图像分割单元;提取图像级和区域级视觉特征的特征提取单元;构建图像级和区域级加权图的加权图建立单元;构造代价函数的函数构造单元;通过求解代价函数的最优问题获得图像的软标签和区域的软标签的计算单元;以及根据上述软标签来进行图像处理的图像处理单元。图像处理方法用于执行能够实现上述图像处理装置的功能的处理。上述设备包括上述图像处理装置。应用本发明的上述技术,能够获得较好的图像处理效果,可以应用于图像处理领域。

Description

图像处理装置、图像处理方法以及设备
技术领域
本发明涉及图像处理领域,尤其涉及一种图像处理装置、图像处理方法以及设备。
背景技术
随着数字图像数目的急剧增长,需要研究开发有效的图像处理技术。通常,在现有的一些图像处理技术中,需要用户提供一些训练图像,然后根据这些训练图像来进行相应的图像处理。其中,训练图像可能包括带标签的图像和不带标签的图像,而带标签的图像通常包括正例图像(即,带正标签的图像)和负例图像(即,带负标签的图像)。根据训练图像的类型,可以将这些图像处理技术分为两类,即监督式的图像处理技术和半监督式的图像处理技术。
对于监督式的图像处理技术来说,其所采用的训练图像全部为带标签的图像。然而,带标签的图像的数目通常很有限,因此利用这种技术所进行的处理通常效果较差,而且不能够有效地利用不带标签的图像中的信息。
对于半监督式的图像处理技术来说,其所采用的训练图像既包括带标签的图像,又包括不带标签的图像。相对于监督式的图像处理技术而言,半监督式的图像处理技术能够相对有效地利用不带标签的图像中所包含的信息。然而,在现有的半监督式的图像处理技术中,通常又分为两类,其中一类是仅利用图像级加权图的处理技术,而另一类则是仅利用区域级加权图的处理技术。无论是哪一类,其均只能在一个层面(即,仅能在图像层或区域层)反映图像的特征和图像之间的关系,因此导致现有的半监督式的图像处理技术的处理效果较差。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于现有技术的上述缺陷,本发明的目的之一是提供一种图像处理装置、图像处理方法以及设备,以至少克服现有的监督式的图像处理技术以及半监督式的图像处理技术所存在的图像处理效果差的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种图像处理装置,该图像处理装置包括:图像分割单元,其被配置用于分别将图像集中的每个图像分割为多个区域,其中,上述图像集中的至少部分图像是带标签的图像;特征提取单元,其被配置用于提取上述图像集中的每个图像的图像级视觉特征和区域级视觉特征;加权图建立单元,其被配置用于根据上述图像级视觉特征构建图像级加权图,以及根据上述区域级视觉特征构建区域级加权图;函数构造单元,其被配置用于以上述图像集中的每个图像的软标签以及上述图像集中的每个图像的每个区域的软标签为未知量,根据上述图像级加权图和上述区域级加权图的结构信息、以及上述图像集中的每个图像的软标签与该图像中的区域的软标签之间的关系,构造代价函数;计算单元,其被配置用于通过求解上述代价函数的最优问题,获得上述未知量的计算值;以及图像处理单元,其被配置用于根据计算单元所获得的计算值进行图像处理。
根据本发明的另一个方面,还提供了一种图像处理方法,该图像处理方法包括:分别将图像集中的每个图像分割为多个区域,其中,上述图像集中的至少部分图像是带标签的图像;提取上述图像集中的每个图像的图像级视觉特征和区域级视觉特征;根据上述图像级视觉特征构建图像级加权图,以及根据上述区域级视觉特征构建区域级加权图;以上述图像集中的每个图像的软标签以及上述图像集中的每个图像的每个区域的软标签为未知量,根据上述图像级加权图和上述区域级加权图的结构信息、以及上述图像集中的每个图像的软标签与该图像中的区域的软标签之间的关系,构造代价函数;通过求解上述代价函数的最优问题,获得上述未知量的计算值;以及根据上述未知量的计算值进行图像处理。
根据本发明的另一个方面,还提供了一种设备,该设备包括如上所述的图像处理装置。
依据本发明的其它方面,还提供了相应的计算机可读存储介质,该计算机可读存储介质上存储有能够由计算设备执行的计算机程序,所述程序在执行时能够使所述计算设备执行上述图像处理方法。
上述根据本发明实施例的图像处理装置和图像处理方法以及包括该图像处理装置的设备,能够实现至少以下益处之一:通过利用两种加权图来充分地利用图像的特征信息,并充分挖掘两种加权图之间的联系,能够获得较好的图像处理效果;可以在利用带标签的图像的基础上,进一步利用不带标签的图像,来实现图像处理,进而可以提高图像处理的处理效果;能够得到更准确的检索结果;以及能够得到更准确的概念检测结果。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
图1是示意性地示出根据本发明的实施例的图像处理装置的一种示例结构的框图。
图2是示意性地示出图1中的加权图建立单元的一种可能的示例结构的框图。
图3是示意性地示出图1中的函数构造单元的一种可能的示例结构的框图。
图4是示意性地示出图1中的计算单元的一种可能的示例结构的框图。
图5是示意性地示出图1中的图像处理单元的一种可能的示例结构的框图。
图6是示意性地示出根据本发明的实施例的图像处理方法的一种示例性处理的流程图。
图7是示意性地示出在图像处理是图像概念检测的示例情况下,如图6所示的步骤S670的一种可能的示例性处理的流程图。
图8是示出了可用来实现根据本发明实施例的图像处理装置和图像处理方法的一种可能的信息处理设备的硬件配置的结构简图。
本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的,而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其他元件放大了,以便有助于提高对本发明实施例的理解。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
如上文所述,现有技术中的监督式或半监督式的图像处理技术,其在对图像进行处理时,由于上文中所描述的原因导致了处理的效果较差。为了改善图像处理效果,本发明提出了一种图像处理装置,其能够同时利用图像的图像级视觉特征和区域级视觉特征,充分地利用了图像中的信息,能够更好地反映图像的特征和图像之间的关系。
该图像处理装置包括:图像分割单元,其被配置用于分别将图像集中的每个图像分割为多个区域,其中,上述图像集中的至少部分图像是带标签的图像;特征提取单元,其被配置用于提取上述图像集中的每个图像的图像级视觉特征和区域级视觉特征;加权图建立单元,其被配置用于根据上述图像级视觉特征构建图像级加权图,以及根据上述区域级视觉特征构建区域级加权图;函数构造单元,其被配置用于以上述图像集中的每个图像的软标签以及上述图像集中的每个图像的每个区域的软标签为未知量,根据上述图像级加权图和上述区域级加权图的结构信息、以及上述图像集中的每个图像的软标签与该图像中的区域的软标签之间的关系,构造代价函数;计算单元,其被配置用于通过求解上述代价函数的最优问题,获得上述未知量的计算值;以及图像处理单元,其被配置用于根据计算单元所获得的计算值进行图像处理。
下面结合图1-图5来详细描述根据本发明的实施例的图像处理装置。
图1是示意性地示出根据本发明的实施例的图像处理装置100的一种示例结构的框图。如图1所示,根据本发明的实施例的图像处理装置100包括图像分割单元110、特征提取单元120、加权图建立单元130、函数构造单元140、计算单元150和图像处理单元160。
如图1所示,图像处理装置100中的图像分割单元110用于对图像集中的每一个图像进行图像分割,也即,将图像集中的每一个图像分割为若干个区域。其中,这里所说的图像分割可以采用现有技术中的任一种图像分割方法来实现,这里不再详述。此外,图像集可以包括多个图像,而且该多个图像中的至少部分图像是带标签的图像。也就是说,该图像集中的图像可以全部是带标签的图像,也可以部分是带标签的图像、其余部分是不带标签的图像。其中,上述带标签的图像可以是带正标签的图像(以下简称“正例图像”),也可以是带负标签的图像(以下简称“负例图像”)。需要注意的是,这里所说的图像所带的“标签”(也称为硬标签,hardlabel)是一种标注信息,通常是例如由用户预先标注在对象(例如图像)上的一种表征该对象类别的信息。其中,带正标签的图像(也即,带正的硬标签的图像)通常是符合特定类别的图像,而带负标签的图像(也即,带负的硬标签的图像)通常是不符合特定类别的图像。例如,正标签可以是“A”的形式,对应地负标签可以是“非A”的形式。其中,一个简单的例子是“A”为“老虎”,也即,带正标签的图像是标签为“老虎”的图像(这些图像符合类别“老虎”),而带负标签的图像则是标签为“非老虎”的图像(这些图像不符合类别“老虎”)。
此外,需要说明的是,通过图像分割,该图像集中的每一个图像被分割成多个区域,但每个图像被分割后得到的区域的数目可以是不同的,也可以是相同的。
然后,通过特征提取单元120来提取上述图像集中的每个图像的图像级视觉特征和区域级视觉特征。其中,每个图像的图像级视觉特征是指在图像层面上提取的该图像的视觉特征;而每个图像的区域级视觉特征是指在区域层面上提取的该图像的视觉特征。其中,这里所说的“视觉特征”是能够在一定程度上反映图像的内容的信息,例如可以是颜色特征、纹理特征以及形状特征等视觉特征中的任意一种特征,也可以是以上多种视觉特征中的任意几种的组合。此外,现有技术中存在的各种用于提取视觉特征的方法都可以为本发明所用,这里不再详述。
根据特征提取单元120所提取的上述图像集中的每个图像的图像级视觉特征和区域级视觉特征,加权图建立单元130可以建立两种类型的加权图(或称带权图)。具体地,加权图建立单元130可以根据特征提取单元120所提取的每个图像的图像级视觉特征建立图像级加权图,还可以根据特征提取单元120所提取的每个图像的区域级视觉特征(也即,每个区域的视觉特征)建立区域级加权图。
在根据本发明的实施例的图像处理装置的一种实现方式中,如图1所示的加权图建立单元130可以采用如图2所示的结构来实现。图2是示意性地示出图1中的加权图建立单元的一种可能的示例结构的框图。
如图2所示,加权图建立单元130可以包括第一建立子单元210和第二建立子单元220。
其中,第一建立子单元210可以用于构建上述图像级加权图,例如以上述图像集中的每个图像作为节点,以每两个节点之间在图像级视觉特征上的相似度作为该两个节点之间的加权边的权值,来构建该图像级加权图。换句话说,在第一建立子单元210所构建的图像级加权图中,每个节点分别代表上述图像集中的其中一个图像,而连接两个节点的加权边的权值则表示这两个节点所对应的两个图像之间基于图像级视觉特征的相似度。其中,该图像级加权图中的节点与图像集中的图像是一一对应的。
类似地,第二建立子单元220可以用于构建上述区域级加权图,例如以上述图像集中的每个图像的每个区域作为节点,以每两个节点之间在区域级视觉特征上的相似度作为该两个节点之间的加权边的权值,来构建该区域级加权图。换句话说,在第二建立子单元220所构建的区域级加权图中,每个节点分别代表上述图像集中的其中一个图像的其中一个区域,而连接两个节点的加权边的权值则表示这两个节点所对应的两个区域之间基于区域级视觉特征的相似度。其中,该区域级加权图中的节点与图像集中的图像中所包含的区域是一一对应的。
转至图1,通过加权图建立单元130构建得到图像级加权图和区域级加权图之后,可以通过函数构造单元140来构造代价函数。其中,在该代价函数中,未知量为上述图像集中的每个图像的软标签以及上述图像集中的每个图像的每个区域的软标签。然后,根据加权图建立单元130所构建的图像级加权图和所述区域级加权图的结构信息,以及根据上述图像集中的每个图像的软标签与该图像中的区域的软标签之间的关系,可以构造得到代价函数。
需要注意的是,软标签(softlabel)是相对硬标签的概念而定义的一个概念。硬标签往往是一种真实的标注信息,它通常是预先标注在预定样本(例如图像)上的一种反映样本类别的信息;而软标签则是一种虚拟的标注信息,它通常反映了该软标签所属对象(例如图像或区域)符合预定样本中的硬标签所表征的类别信息的程度。一般地,可以令软标签为-1到1之间的任意实数(包括-1和1),在这种情况下,软标签的值越接近1(也即越大),表明该软标签所对应的对象(例如图像或区域)和预定样本中带正标签的对象的类别越符合;而相反地,软标签的值越接近-1(也即越小),表明该软标签所对应的对象(例如图像或区域)和预定样本中带正标签的对象的类别越不符合。换句话说,软标签的值越大,表明该软标签所对应的对象符合上述带正标签的对象的类别的可能性就越大,软标签的值越小,表明该软标签所对应的对象符合上述带正标签的对象的类别的可能性就越小。此外,需要说明的是,软标签也可以设置成其他的实数,例如也可以设成大于1或小于-1的实数,在这种情况下,同样地也是越大的软标签表示其对应的对象与预定样本中带正标签的对象的类别越符合。
例如,在预定样本包含带正标签的图像和带负标签的图像、并且上述带正标签的图像是标签为“老虎”的图像以及上述带负标签的图像是标签为“非老虎”的图像的情况下,如果某一图像的软标签为0.1,另一图像的软标签为0.8,则软标签为0.8的图像中包含老虎的可能性要大大高于软标签为0.1的图像。
具体地,可以采用如图3所示的结构来实现函数构造单元140的功能和操作。图3是示意性地示出图1中的函数构造单元140的一种可能的示例结构的框图。
如图3所示,函数构造单元140可以包括第一设定子单元310、第二设定子单元320和函数构造子单元330。其中,第一设定子单元310用于根据加权图建立单元130所构建的图像级加权图和区域级加权图的结构信息来设定第一约束条件,第二设定子单元320用于根据上述图像集中的带标签的图像的软标签与该图像集中带标签的图像中的区域的软标签之间的关系来设定第二约束条件,然后函数构造子单元330用于根据以上两种约束条件来构造得到代价函数。如上所述,该代价函数中的未知量为上述图像集中的每个图像的软标签和该图像集中的每个图像的每个区域的软标签。
具体地,考虑到两类加权图的结构信息,可以通过第一设定子单元310设定这样的第一约束条件:令图像级视觉特征越相似的两幅图像的软标签之间的差异越小,以及令区域级视觉特征越相似的两个区域的软标签之间的差异越小。
此外,对于上述图像集中的那些带标签的图像,可以令带负标签的图像的软标签尽量接近-1,而令带正标签的图像的软标签尽量接近1。这是因为,带负标签的图像是用户所不想要的图像,而带正标签的图像才是用户想要的图像,因此在令软标签为-1到1之间的任意实数的情况下,软标签越接近1的图像是用户想要的图像的可能性越大,而软标签越接近-1的图像是用户想要的图像的可能性就越小。例如对于标签为“非老虎”(也即负标签)的图像,可以令该图像的软标签尽量接近-1;相反地,对于标签为“老虎”(也即正标签)的图像,则可令该图像的软标签尽量接近1。
另外,对于上述带标签的图像中的区域来说,情况较复杂一些。其中,对于带负标签的图像中的区域来说,若某个图像带负标签,则表示该图像不是用户所需的图像,也即表示该图像中的任何区域都不包含用户所需的信息,因此,可以令带负标签的图像中的每个区域的软标签尽量接近-1。此外,对于带正标签的图像中的区域来说,若某个图像带正标签,则表示该图像是用户所需的图像,也即表示该图像中的至少一个区域包含了用户所需的信息,但无法确定究竟是其中哪些区域包含了该信息。因此,若某图像带正标签,则可以仅考虑该图像中的具有最大软标签的区域,使该区域的软标签尽量地接近该图像的软标签。这样,便将图像级加权图与区域级加权图相互关联起来。
由此,可以通过第二设定子单元320设定这样的第二约束条件:令带负标签的图像及该图像中的所有区域的软标签尽量接近-1,令带正标签的图像的软标签尽量接近1,以及令带正标签的图像中的具有最大软标签的区域的软标签尽量接近该区域所属图像的软标签。
根据以上两种约束条件,则可以通过函数构造子单元330来构造上述代价函数。例如,函数构造子单元330根据以上两种约束条件可以构造得到如下的代价函数:
表达式一:
Q ( f I , f R )
= 1 2 Σ i , j W ij I ( f i I / d i I - f j I / d j I ) 2 + μ G R 2 Σ k , l W kl R ( f k R / d k R - f l R / d l R ) 2
+ μ + I Σ I i ∈ I + H 1 ( f i I , 1 ) + μ - I Σ I i ∈ I - H 2 ( f i I , - 1 )
+ μ + R Σ I i ∈ I + H 1 ( max R k ∈ I i f k R , f i I ) + μ - R Σ R k ∈ R - H 2 ( f k R , - 1 )
其中,分别表示图像集中的第i个和第j个图像的软标签,其中,i=1,2,...,M,j=1,2,...,M,M为图像集中包括的图像的数量,分别表示上述图像集中的所有图像所包括的区域中的第k个和第l个区域的软标签,其中,k=1,2,...,N,l=1,2,...,N,N为上述图像集中的所有图像所包括的区域的数量。此外,fI表示由上述图像集中的所有图像的软标签所组成的向量,fR表示由上述图像集中的所有图像的所有区域的软标签所组成的向量。表示图像集中的第i个图像和第j个图像分别在图像级加权图中对应的节点之间的加权边的权值,WI表示由图像级加权图中的所有加权边的权值所组成的矩阵,也即,是WI的第i行、第j列元素,此外,分别表示WI的第i行所有元素之和以及第j行所有元素之和。类似地,表示上述图像集中的所有图像所包括的区域中的第k个区域和第l个区域分别在区域级加权图中对应的节点之间的加权边的权值,WR表示由区域级加权图中的所有加权边的权值所组成的矩阵,也即,是WR的第k行、第l列元素,此外,分别表示WR的第k行所有元素之和以及第l行所有元素之和。
此外,在上述表达式一中,Ii表示图像集中的第i个图像,I+和I-分别表示用户提供的正例图像和负例图像集合,Rk表示图像集中的第i个图像的第k个区域,R-表示图像集中的带负标签的图像中的区域,H1(x,y)和H2(x,y)均为度量两个量之间的不一致性(也即x和y之间的不一致性)的函数,可以采用的一种形式为H1(x,y)=(max(y-x,0))2和H2(x,y)=(max(x-y,0))2。此外,分别为式中各对应代价项的加权系数,其值可分别根据经验值或通过试验的方式而预先设定。
其中,在上述表达式一中,前两项是第一约束条件在该代价函数中所对应的代价项,后四项则是第二约束条件在该代价函数中所对应的代价项。此外,公式中所出现的上角标“I”代表图像,上角标“R”代表区域。
需要说明的是,以上所给出的代价函数的具体公式只是代价函数的一个示例性表达式,而不作为对本发明的范围的限制。例如,上文中所给出的代价函数的表达式也可以是:
表达式二:
Q ( f I , f R )
= 1 2 Σ i , j W ij I ( f i I - f j I ) 2 + μ G R 2 Σ k , l W kl R ( f k R - f l R ) 2
+ μ + I Σ I i ∈ I + H 1 ( f i I , 1 ) + μ - I Σ I i ∈ I - H 2 ( f i I , - 1 )
+ μ + R Σ I i ∈ I + H 1 ( max R k ∈ I i f k R , f i I ) + μ - R Σ R k ∈ R - H 2 ( f k R , - 1 )
其中,与表达式一相比,表达式二去掉了表达式一中的第一项中的以及去掉了表达式一中的第二项中的
此外,代价函数的表达式还可以具有其他的变形,例如,在上述表达式一和表达式二中,其中的H1(x,y)和H2(x,y)的具体表达形式也可以是:H1(x,y)=(x-y)2和H2(x,y)=(x-y)2,等等。此外,本领域的技术人员根据以上公开内容以及/或结合公知常识所得到的上述公式的变形、改进或其他表达形式都应包含在本发明的范围内。
接下来,为了根据所构造的代价函数来计算获得其中的未知量,也即为了获得上述图像集中的每个图像的软标签的值和上述图像集中的每个图像的每个区域的软标签的值,可以通过计算单元150来求解该代价函数的最优问题。具体地,可以通过如图4所示的结构来实现计算单元150的功能和操作。
图4是示意性地示出图1中的计算单元150的一种可能的示例结构的框图。如图4所示,计算单元150可以包括第三计算子单元410和第四计算子单元420。第三计算子单元410可以通过引入松弛因子,将代价函数转化为带约束的最小化问题,进而可以通过第四计算子单元420使用带约束的凹凸过程(constrainedconcaveconvexprocedure,CCCP)来求解该最小化问题,以获得上述图像集中的每个图像的软标签的计算值以及该图像集中的每个图像的每个区域的软标签的计算值。关于CCCP的详细说明,可以参见文献A.J.Smola,S.V.N.Vishwanathan,andT.Hofmann,“KernelMethodsforMissingVariables,”inProc.Int.WorkshoponArtificialIntelligenceandStatistics,2005。
由此,通过图像分割单元110、特征提取单元120、加权图建立单元130、函数构造单元140以及计算单元150的处理,可以获得上述图像集中的每个图像的软标签的计算值以及上述图像集中的每个图像的每个区域的软标签的计算值,进而图像处理单元160可以根据所获得上述计算值来进行图像处理。
其中,图像处理单元160所执行的图像处理可以是各种能够利用上述软标签来执行操作的处理。
例如,在根据本发明的实施例的图像处理装置的一个应用示例中,上述的“图像处理”可以是图像检索,也即,上述图像处理装置可以是图像检索装置。
一般而言,为了检索到所需的图像,用户向检索系统提供一些带标签的训练图像来作为查询图像。这项技术可以应用于人们日常生活的许多方面,例如图像图书馆、个人照片管理、在线购物等等。
在该示例中,用户所提供的查询图像的数量可以是一个,也可以是多个。当查询图像的数量是一个时,该查询图像是带正标签的图像。当查询图像的数量是多个时,这些查询图像可以全部是带正标签的图像,也可以是带正标签的图像和带负标签的图像的组合。
如上所述,通过图像分割单元110、特征提取单元120、加权图建立单元130、函数构造单元140以及计算单元150的一系列处理操作,可以获得图像集中的每个图像的软标签的计算值以及该图像集中的每个图像的每个区域的软标签的计算值,由此,利用这些软标签的计算值,图像处理单元160可以确定图像集中的图像(除了查询图像之外)和查询图像之间的相似度,进而可以将其中那些相似度在预定范围内的图像判定为图像检索的结果(也即,检索结果)。
例如,在一个例子中,图像处理单元160可以将这样的图像判定为图像检索的结果:软标签高于第一预设阈值、并且其中的具有最大软标签的区域的软标签高于第二预设阈值的那些图像。其中,第一预设阈值和第二预设阈值的取值可以相同,也可以不同。例如,图像处理单元160可以将最后计算结果中的图像的软标签高于0.8、并且其中的具有最大软标签的区域的软标签高于0.7的那部分图像确定为检索结果。
在另一个例子中,图像处理单元160可以将这样的图像判定为图像检索的结果:其软标签与其中的具有最大软标签的区域的软标签的加权和最大的前N个图像,其中,N为正整数。例如,该加权和的表达式可以是:其中,α是线性组合系数,且0<α<1。
此外,图像处理单元160可以按照以下任一种顺序将检索结果输出给用户:按照检索结果所对应的图像的软标签的大小顺序;或者按照检索结果所对应的图像中的具有最大软标签的区域的软标签的大小顺序;或者按照检索结果所对应的图像的软标签和图像中的最大软标签的区域的软标签的加权和的大小顺序。
在该示例中,图像处理装置根据用户所提供的查询图像及其标签信息,利用图像级加权图和区域级加权图两种加权图的结构特征以及二者之间的联系,获得了图像集中每个图像以及每个图像的每个区域的软标签,进而根据这些软标签来确定该图像集中除了查询图像之外的那些图像中的每一个与查询图像之间的相关性(或相似度),从而将其中与查询图像最相关(或最相似)的哪些图形确定为检索的结果。现有的图像检索技术通常有两类,第一类是仅利用图像级加权图进行的图像检索技术,第二类是要么仅利用区域级加权图进行的图像检索技术。其中,第一类图像检索技术的计算复杂度较低,但是由于一幅图像中通常包含复杂的背景区域并可能存在多个前景对象,只使用一个权值很难有效地描述两幅图像之间的关系。而第二类图像检索技术虽然使用了更加有效的区域之间的关系,但是由于用户的查询图像中一般只包含了图像级的类别信息且并没有明确指出其感兴趣的区域,只使用区域级的信息进行检索往往是不够的。与现有的图像检索技术相比,利用根据本发明的实施例的图像处理装置的上述示例所实现的图像检索则是同时利用了以上两种加权图,更加充分地利用了图像的特征信息,并充分挖掘了两种加权图之间的联系,因此能够获得更好的图像处理效果,也即,能够得到更准确的检索结果。
此外,在根据本发明的实施例的图像处理装置的另一个应用示例中,上述的“图像处理”也可以是图像概念检测,也即,上述图像处理装置可以是图像概念检测装置。
一般而言,图像概念检测的目的是为了确定待测图像中是否包含(或者在多大的程度上包含)某些给定的语义概念。这项技术可以应用于人们日常生活的许多方面,例如图像图书馆、家庭图像管理等等。
在该示例中,待测图像为不带标签的图像,其可以包含在上述的图像集中,也可以不包含在该图像集中。其中,待测图像的数量可以是一个,也可以是多个。此外,如上所述,该示例中的图像集中的至少部分图像是带标签的图像,这是为了确定待测图像是否包含与图像集中的带标签的图像相关的语义概念。
与前述示例相类似地,通过图像分割单元110、特征提取单元120、加权图建立单元130、函数构造单元140以及计算单元150的一系列处理操作,可以获得图像集中的每个图像的软标签的计算值以及该图像集中的每个图像的每个区域的软标签的计算值,由此,利用这些软标签的计算值,图像处理单元160可以确定待测图像是否包含有上述语义概念,也即,是否包含与图像集中的带标签的图像相关的语义概念。例如,在上述图像集包含带正标签的图像和带负标签的图像、并且带正标签的图像是标签为“老虎”的图像以及带负标签的图像是标签为“非老虎”的图像的情况下,则容易知道,“与图像集中的带标签的图像相关的语义概念”即“老虎”,也即,图像处理单元160需要判断待测图像是否包含老虎。具体地,图像处理单元160的功能和处理可以通过如图5所示的结构来实现。
图5是示意性地示出该应用示例中、如图1所示的图像处理单元160的一种可能的示例结构的框图。如图5所示,图像处理单元160可以包括第一判定子单元510、第一计算子单元520、第二计算子单元530和第二判定子单元540。
为了判断待测图像是否包含“与图像集中的带标签的图像相关的语义概念”,首先可以通过第一判定子单元510来判断待测图像是否包括在上述图像集中,然后可以分两种情况来描述接下来的计算处理。
在第一种情况下、也即在待测图像未包括在上述图像集中的情况下,则可以通过第一计算子单元520将待测图像分割为多个区域,并根据计算单元150所获得的图像集中的每个图像的软标签的计算值以及图像集中的每个图像的每个区域的软标签的计算值,来获得待测图像的软标签的计算值和待测图像中的每个区域的软标签的计算值(具体计算过程将在下文中描述)。然后,可以根据待测图像的软标签的计算值和待测图像中的每个区域的软标签的计算值,通过第二计算子单元530来计算待测图像包含与上述图像集中的带标签的图像有关的语义概念的程度值。
其中,在这种情况下,可以根据如下的表达式三和表达式四来计算待测图像的软标签以及其中各区域的软标签:
表达式三:
f I ( I t ) = Σ i [ f i I W I ( I t , I i ) / d i I [ Σ i W I ( I t , I i ) / d t I = d t I Σ i [ f i I W I ( I t , I i ) / d i I ] Σ i W I ( I t , I i )
表达式四:
f R ( R t ) = Σ k [ f k R W R ( R t , R k ) / d k R ] Σ k W R ( R t , R k ) / d t R = d t R Σ k [ f k R W R ( R t , R k ) / d k R ] Σ k W R ( R t , R k )
其中,It表示待测图像,Rt表示待测图像中的某个区域,fI(It)表示待测图像It的软标签,fR(Rt)表示待测图像It的某个区域Rt的软标签,Ii及Rk与上文中所描述的含义相同,WI(It,Ii)为待测图像It与图像集中的第i个图像Ii之间的基于图像级视觉特征的相似度,为图像集中的第i个图像Ii与图像级加权图中所有节点所对应的图像的相似度之和,为待测图像与图像级加权图中所有节点所对应的图像的相似度之和,WR(Rt,Rk)为待测图像It的某个区域Rt与图像集中所有图像的所有区域中的第k个区域Rk之间的基于区域级视觉特征的相似度,为上述第k个区域Rk与区域级加权图中所有节点所对应的区域的相似度之和,为待测图像It的某个区域Rt与区域级加权图中所有节点所对应的区域的相似度之和。
此外,在另一种实现方式中,也可以根据如下的表达式五和表达式六来计算待测图像的软标签以及其中各区域的软标签:
表达式五:
f I ( I t ) = Σ i f i I W I ( I t , I i ) Σ i W I ( I t , I i )
表达式六:
f R ( R t ) = Σ k f k R W R ( R t , R k ) Σ k W R ( R t , R k )
需要说明的是,当利用上文中所描述的表达式一来构造代价函数时,可以利用表达式三和四来计算待测图像以及其中各区域的软标签;类似地,当利用上文中所描述的表达式二来构造代价函数时,则可以利用表达式五和六来计算待测图像以及其中各区域的软标签。
在第二种情况下、也即在待测图像包括在上述图像集中的情况下,则通过计算单元150的计算可以获得待测图像的软标签的计算值以及图像集中的每个图像的每个区域的软标签的计算值,因此可以直接通过第二计算子单元530以上文中所描述的方式来计算待测图像包含与上述图像集中的带标签的图像有关的语义概念的程度值。
其中,上述两种情况下可以利用下式来计算待测图像包含与上述图像集中的带标签的图像有关的语义概念的程度值:其中,β是线性组合系数,且0<β<1。
由此,在该示例中,通过第一判定子单元510、第一计算子单元520以及第二计算子单元530可以获得待测图像包含与上述图像集中的带标签的图像有关的语义概念的程度值。例如,在正标签为“老虎”的情况下,通过这三个子单元510-530,可以确定待测图像中包含老虎的程度有多大。
然后,若上述程度值大于或等于第三预设阈值(例如0.75),则第二判定子单元540可以判定该待测图像包含“与上述图像集中的带标签的图像有关的语义概念”。若上述程度值小于第三预设阈值,则第二判定子单元540可以判定该待测图像不包含“与上述图像集中的带标签的图像有关的语义概念”。
根据上述判定结果,在第二判定子单元540判定待测图像包含“与上述图像集中的带标签的图像有关的语义概念”的情况下,第二判定子单元540还可以进一步地利用该语义概念来标注上述待测图像,也即,可以利用上述图像集中的带正标签的图像的标签信息来标注待测图像。例如,当第二判定子单元540判定待测图像包含“老虎”时,则可以为待测图像贴上“老虎”的标签。
在该示例中,图像处理装置利用图像级加权图和区域级加权图两种加权图的结构特征以及二者之间的联系,获得了图像集中每个图像以及每个图像的每个区域的软标签,进而根据这些软标签来确定待测图像是否包含与上述图像集中的带标签的图像有关的语义概念。而对于现有的图像概念检测技术而言,一方面,现有技术通常仅利用一种加权图的信息,导致检测效果差(与上文所述原理类似)。另一方面,现有的图像概念检测技术一般采用的都是监督式的学习算法,也即一般仅利用了带标签的图像来进行概念检测,而带标签的图像的数目通常很有限,因此也会导致概念检测的效果较差。与现有的这些图像概念检测技术相比,利用根据本发明的实施例的图像处理装置的上述示例所实现的图像概念检测则是同时利用了以上两种加权图,更加充分地利用了图像的特征信息,并充分挖掘了两种加权图之间的联系,还可以在利用带标签的图像的基础上同时利用上不带标签的图像,从而能够获得更好的图像处理效果,也即,能够得到更准确的概念检测结果。
通过以上描述可知,应用根据本发明的实施例的图像处理装置,可以利用图像级加权图和区域级加权图两种类型的加权图,更加充分地利用图像的特征信息,并充分挖掘了两种加权图之间的联系,从而能够获得较好的图像处理效果。
此外,本发明的实施例还提供了一种图像处理方法。下面结合图6和图7来描述该方法的一种示例性处理。
图6是示意性地示出根据本发明的实施例的图像处理方法的一种示例性处理的流程图。
如图6所示,根据本发明的实施例的图像处理方法的处理流程600开始于步骤S610,然后执行步骤S620。
在步骤S620中,分别对图像集中的每个图像进行图像分割,以将每个图像分割为多个区域,其中,该图像集中的至少部分图像是带标签的图像。然后执行步骤S630。其中,步骤S620中所涉及的图像分割可以采用上文所述的方法。
在步骤S630中,提取上述图像集中的每个图像的图像级视觉特征和区域级视觉特征。然后执行步骤S640。其中,上述两种视觉特征的特性、选择以及提取方法等均可参考上文所述的相应内容,这里省略其具体描述。
在步骤S640中,根据上述图像级视觉特征构建图像级加权图,以及根据上述区域级视觉特征构建区域级加权图。然后执行步骤S650。
其中,在一种实现方式中,可以这样来构建上述图像级加权图和区域级加权图:以图像集中的每个图像作为节点,以每两个节点之间在图像级视觉特征上的相似度作为这两个节点之间的加权边的权值,来构建上述图像级加权图;以及以图像集中的每个图像的每个区域作为节点,以每两个节点之间在区域级视觉特征上的相似度作为这两个节点之间的加权边的权值,来构建上述区域级加权图。
在步骤S650中,以上述图像集中的每个图像的软标签以及该图像集中的每个图像的每个区域的软标签为未知量,根据上述图像级加权图和区域级加权图的结构信息、以及上述图像集中的每个图像的软标签与该图像中的区域的软标签之间的关系,构造代价函数。然后执行步骤S660。
具体地,可以利用如下将要描述的方法来构建上述代价函数。
例如,可以根据上述图像级加权图和区域级加权图的结构信息,设定这样的第一约束条件:令图像级视觉特征越相似的两幅图像的软标签之间的差异越小,以及令区域级视觉特征越相似的两个区域的软标签之间的差异越小。
此外,还可以根据上述图像集中的带标签的图像的软标签与该图像集中带标签的图像中的区域的软标签之间的关系来设定这样的第二约束条件:令带负标签的图像及及该图像中的所有区域的软标签尽量接近-1,令带正标签的查询图像的软标签尽量接近1,以及令带正标签的查询图像中的具有最大软标签的区域的软标签尽量接近该区域所属图像的软标签。
然后,可以根据上述第一约束条件和第二约束条件来构造代价函数。其中,这里的代价函数可以采用上文中所描述的任意一种形式,这里不再赘述。
然后,在步骤S660中,通过求解上述代价函数的最优问题,以获得上述未知量的计算值。然后执行步骤S670。
其中,步骤S660的过程可以通过如下方式来实现:通过引入松弛因子,将代价函数转化为带约束的最小化问题;以及利用带约束的凹凸过程来求解该最小化问题,获得图像集中的每个图像的软标签的计算值以及图像集中的每个图像的每个区域的软标签的计算值。
在步骤S670中,根据上述未知量的计算值,进行图像处理。然后执行步骤S680。
其中,在根据本发明的实施例的图像处理方法的一个示例中,该图像处理方法中所涉及的图像处理可以是图像检索,在这种情况下,上述图像集包括带标签的查询图像。此外,在这种情况下,在步骤S670中,可以根据所获得的计算值,将上述图像集中除该查询图像之外的、与该查询图像的相似度在预定范围内的图像判定为检索结果。
上述检索结果可以是以下图像中的任意一种:软标签高于第一预设阈值的图像,并且该图像中具有最大软标签的区域的软标签高于第二预设阈值;或者图像的软标签与图像中具有最大软标签的区域的软标签的加权和最大的前N个图像,其中,N为正整数。
此外,上述检索结果还可以按照以下任一种顺序被输出。例如,可以按照检索结果所对应的图像的软标签的大小顺序来输出上述检索结果。或者,也可以按照检索结果所对应的图像中的具有最大软标签的区域的软标签的大小顺序来输出上述检索结果。此外,也可以按照检索结果所对应的图像的软标签和图像中的最大软标签的区域的软标签的加权和的大小顺序来输出上述检索结果。
此外,在根据本发明的实施例的图像处理方法的另一个示例中,该图像处理方法中所涉及的图像处理也可以是图像概念检测。在这种情况下,在步骤S670中,可以根据步骤S660中所获得的软标签的计算值,来判定不带标签的待测图像是否包含与图像集中的带标签的图像有关的语义概念。其中,在这种情况下,步骤S670的处理可以通过如图7所示的步骤S710-S760来实现,下面将描述该具体处理过程。
图7是示意性地示出在图像处理是图像概念检测的示例情况下,如图6所示的步骤S670的一种可能的示例性处理的流程图。如图7所示,在步骤S710中,判定待测图像是否包括在上述图像集中:若是,则由于待测图像的软标签以及其中各区域的软标签均已获得,因此可以直接执行步骤S730来进行下一步计算;若不是,则由于待测图像的软标签以及其中各区域的软标签均未知,因此可以执行步骤S720来获得这些软标签。
在步骤S720中,可以首先将待测图像分割为多个区域,然后根据所获得的图像集中的每个图像的软标签的计算值以及该图像集中的每个图像的每个区域的软标签的计算值,来获得所述待测图像的软标签和待测图像中的每个区域的软标签的计算值。具体计算方法可以参考上文中所描述的计算待测图像的软标签和待测图像中的每个区域的软标签的方法,在此不再赘述。执行完步骤S720之后,执行步骤S730。
在步骤S730中,根据待测图像的软标签的计算值以及待测图像中的区域的软标签的计算值,可以进一步计算获得待测图像包含与上述图像集中的带标签的图像有关的语义概念的程度值。其中,该计算过程也可以参考上文中相应部分所描述的关于程度值的计算方法,不再赘述。然后执行步骤S740。
在步骤S740中,判断该程度值是否大于或等于第三预设阈值:若是,则执行步骤S750,也即,在步骤S750中判定待测图像包含“与上述图像集中的带标签的图像有关的语义概念”;否则,执行步骤S760,也即,在步骤S760中判定待测图像不包含“与上述图像集中的带标签的图像有关的语义概念”,然后执行后续步骤(例如如图6所示的步骤S680)。
需要说明的是,根据本发明的实施例的上述图像处理方法中的各步骤的处理或子处理,可以具有能够实现上文中所描述的图像处理装置的单元、子单元、模块或子模块的操作或功能的处理过程,并且能够达到类似的技术效果,在此省略其描述。
通过以上描述可知,应用根据本发明的实施例的图像处理方法,可以利用图像级加权图和区域级加权图两种类型的加权图,更加充分地利用图像的特征信息,并充分挖掘了两种加权图之间的联系,从而能够获得较好的图像处理效果。
此外,本发明的实施例还提供了一种设备,该设备包括如上所述的图像处理装置。其中,该设备例如可以是照相机、摄像机、计算机(例如,台式机或笔记本电脑)、手机(例如智能手机)、个人数字助理以及多媒体处理设备(例如,具有图片播放功能的MP3、MP4等),等等。
根据本发明实施例的上述设备,通过集成上述图像处理装置,因此可以利用图像级加权图和区域级加权图两种类型的加权图,更加充分地利用图像的特征信息,并充分挖掘了两种加权图之间的联系,从而能够获得较好的图像处理效果。
上述根据本发明的实施例的图像处理装置中的各个组成单元、子单元等可以通过软件、固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下,可从存储介质或网络向具有专用硬件结构的机器(例如图8所示的通用机器800)安装构成该软件或固件的程序,该机器在安装有各种程序时,能够执行上述各组成单元、子单元的各种功能。
图8是示出了可用来实现根据本发明的实施例的图像处理装置和图像处理方法的一种可能的信息处理设备的硬件配置的结构简图。
在图8中,中央处理单元(CPU)801根据只读存储器(ROM)802中存储的程序或从存储部分808加载到随机存取存储器(RAM)803的程序执行各种处理。在RAM803中,还根据需要存储当CPU801执行各种处理等等时所需的数据。CPU801、ROM802和RAM803经由总线804彼此连接。输入/输出接口805也连接到总线804。
下述部件也连接到输入/输出接口805:输入部分806(包括键盘、鼠标等等)、输出部分807(包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分808(包括硬盘等)、通信部分809(包括网络接口卡例如LAN卡、调制解调器等)。通信部分809经由网络例如因特网执行通信处理。根据需要,驱动器810也可连接到输入/输出接口805。可拆卸介质811例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器810上,使得从中读出的计算机程序可根据需要被安装到存储部分808中。
在通过软件实现上述系列处理的情况下,可以从网络例如因特网或从存储介质例如可拆卸介质811安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图8所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质811。可拆卸介质811的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM802、存储部分808中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
此外,本发明还提出了一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明的实施例的图像处理方法。相应地,用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本发明的公开中。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。涉及序数的术语“第一”,“第二”等并不表示这些术语所限定的特征、要素、步骤或组件的实施顺序或者重要性程度,而仅仅是为了描述清楚起见而被配置用于在这些特征、要素、步骤或组件之间进行标识。
此外,本发明的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行,也可以按照其他的时间顺序、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
此外,显然,根据本发明的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。
而且,本发明的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。
此时,只要该系统或者设备具有执行程序的功能,则本发明的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。
上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。
另外,客户计算机通过连接到因特网上的相应网站,并且将依据本发明的计算机程序代码下载和安装到计算机中然后执行该程序,也可以实现本发明。
最后,还需要说明的是,在本文中,诸如左和右、第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
综上,在根据本发明的实施例中,本发明提供了如下方案:
附记1.一种图像处理装置,包括:图像分割单元,其被配置用于分别将图像集中的每个图像分割为多个区域,其中,所述图像集中的至少部分图像是带标签的图像;特征提取单元,其被配置用于提取所述图像集中的每个图像的图像级视觉特征和区域级视觉特征;加权图建立单元,其被配置用于根据所述图像级视觉特征构建图像级加权图,以及根据所述区域级视觉特征构建区域级加权图;函数构造单元,其被配置用于以所述图像集中的每个图像的软标签以及所述图像集中的每个图像的每个区域的软标签为未知量,根据所述图像级加权图和所述区域级加权图的结构信息、以及所述图像集中的每个图像的软标签与该图像中的区域的软标签之间的关系,构造代价函数;计算单元,其被配置用于通过求解所述代价函数的最优问题,获得所述未知量的计算值;以及图像处理单元,其被配置用于根据所述计算单元所获得的计算值进行图像处理。
附记2.根据附记1所述的图像处理装置,所述图像处理装置是图像检索装置,其中,所述图像集包括带标签的查询图像,以及所述图像处理单元被配置用于根据所述计算单元所获得的计算值,将所述图像集中除所述查询图像之外的、与所述查询图像的相似度在预定范围内的图像判定为检索结果。
附记3.根据附记2所述的图像处理装置,其中,所述图像集中除所述查询图像之外的、与所述查询图像的相似度在预定范围内的图像包括以下图像中的一种:
软标签高于第一预设阈值的图像,并且该图像中具有最大软标签的区域的软标签高于第二预设阈值;以及
图像的软标签与图像中具有最大软标签的区域的软标签的加权和最大的前N个图像,其中,N为正整数。
附记4.根据附记2或3所述的图像处理装置,其中,所述图像处理单元还被配置用于按照以下任一种顺序输出检索结果:
按照所述检索结果所对应的图像的软标签的大小顺序;或
按照所述检索结果所对应的图像中的具有最大软标签的区域的软标签的大小顺序;或
按照所述检索结果所对应的图像的软标签和图像中的最大软标签的区域的软标签的加权和的大小顺序。
附记5.根据附记1所述的图像处理装置,所述图像处理装置是图像概念检测装置,其中,所述图像处理单元被配置用于根据所述计算单元所获得的计算值,判定不带标签的待测图像是否包含与所述图像集中的带标签的图像有关的语义概念。
附记6.根据附记5所述的图像处理装置,其中,所述图像处理单元包括:第一判定子单元,其被配置用于判定所述待测图像是否包括在所述图像集中;第一计算子单元,其被配置用于在所述待测图像未包括在所述图像集中的情况下,将所述待测图像分割为多个区域,并根据所述计算单元所获得的所述图像集中的每个图像的软标签的计算值以及所述图像集中的每个图像的每个区域的软标签的计算值,来获得所述待测图像的软标签和所述待测图像中的每个区域的软标签的计算值;第二计算子单元,其被配置用于根据所述待测图像的软标签的计算值以及所述待测图像中的区域的软标签的计算值,计算所述待测图像包含与所述图像集中的带标签的图像有关的语义概念的程度值;以及第二判定子单元,其被配置用于在所述第二计算子单元所计算的所述程度值大于或等于第三预设阈值的情况下判定所述待测图像包含与所述图像集中的带标签的图像有关的语义概念,以及在所述程度值小于所述第三预设阈值的情况下判定所述待测图像不包含与所述图像集中的带标签的图像有关的语义概念。
附记7.根据附记5或6所述的图像处理装置,其中,所述图像处理单元还被配置用于在待测图像被判定为包含与所述图像集中的带标签的图像有关的语义概念的情况下,使用所述图像集中的带正标签的图像的标签来标注所述待测图像。
附记8.根据附记1-7中任一所述的图像处理装置,其中,所述加权图建立单元包括:第一建立子单元,其被配置用于以所述图像集中的每个图像作为节点,以每两个节点之间在图像级视觉特征上的相似度作为所述两个节点之间的加权边的权值,构建所述图像级加权图;以及第二建立子单元,其被配置用于以所述图像集中的每个图像的每个区域作为节点,以每两个节点之间在区域级视觉特征上的相似度作为所述两个节点之间的加权边的权值,构建所述区域级加权图。
附记9.根据附记1-8中任一所述的图像处理装置,其中,所述函数构造单元包括:第一设定子单元,其被配置用于根据所述图像级加权图和所述区域级加权图的结构信息,设定这样的第一约束条件:令图像级视觉特征越相似的两幅图像的软标签之间的差异越小,以及令区域级视觉特征越相似的两个区域的软标签之间的差异越小;第二设定子单元,其被配置用于根据所述图像集中的带标签的图像的软标签与所述图像集中带标签的图像中的区域的软标签之间的关系设定这样的第二约束条件:令带负标签的图像及该图像中的所有区域的软标签尽量接近-1,令带正标签的图像的软标签尽量接近1,以及令带正标签的图像中的具有最大软标签的区域的软标签尽量接近该区域所属图像的软标签;以及第一函数构造子单元,其被配置用于以所述图像集中的每个图像的软标签以及所述图像集中的每个图像的每个区域的软标签为未知量,根据所述第一约束条件和第二约束条件,构造代价函数。
附记10.根据附记1-9中任一所述的图像处理装置,其中,所述计算单元包括:第三计算子单元,被配置用于通过引入松弛因子,将代价函数转化为带约束的最小化问题;以及第四计算子单元,被配置用于利用带约束的凹凸过程来求解该最小化问题,获得所述图像集中的每个图像的软标签的计算值以及所述图像集中的每个图像的每个区域的软标签的计算值。
附记11.一种图像处理方法,包括:分别将图像集中的每个图像分割为多个区域,其中,所述图像集中的至少部分图像是带标签的图像;提取所述图像集中的每个图像的图像级视觉特征和区域级视觉特征;根据所述图像级视觉特征构建图像级加权图,以及根据所述区域级视觉特征构建区域级加权图;以所述图像集中的每个图像的软标签以及所述图像集中的每个图像的每个区域的软标签为未知量,根据所述图像级加权图和所述区域级加权图的结构信息、以及所述图像集中的每个图像的软标签与该图像中的区域的软标签之间的关系,构造代价函数;通过求解所述代价函数的最优问题,获得所述未知量的计算值;以及根据所述未知量的计算值进行图像处理。
附记12.根据附记11所述的图像处理方法,所述图像处理方法是图像检索方法,其中,所述图像集包括带标签的查询图像,以及所述的根据所述未知量的计算值进行图像处理包括:根据所获得的计算值,将所述图像集中除所述查询图像之外的、与所述查询图像的相似度在预定范围内的图像判定为检索结果。
附记13.根据附记11所述的图像处理方法,其中,所述图像集中除所述查询图像之外的、与所述查询图像的相似度在预定范围内的图像包括以下图像中的一种:
软标签高于第一预设阈值的图像,并且该图像中具有最大软标签的区域的软标签高于第二预设阈值;以及
图像的软标签与图像中具有最大软标签的区域的软标签的加权和最大的前N个图像,其中,N为正整数。
附记14.根据附记12或13所述的图像处理方法,其中,所述检索结果是按照以下任一种顺序被输出的:
按照所述检索结果所对应的图像的软标签的大小顺序;或
按照所述检索结果所对应的图像中的具有最大软标签的区域的软标签的大小顺序;或
按照所述检索结果所对应的图像的软标签和图像中的最大软标签的区域的软标签的加权和的大小顺序。
附记15.根据附记11所述的图像处理方法,所述图像处理方法是图像概念检测方法,其中,所述的根据所述未知量的计算值进行图像处理处理包括:根据所获得的计算值,判定不带标签的待测图像是否包含与所述图像集中的带标签的图像有关的语义概念。
附记16.根据附记15所述的图像处理方法,其中,所述的根据所获得的计算值判定不带标签的待测图像是否包含与所述图像集中的带标签的图像有关的语义概念包括:判定所述待测图像是否包括在所述图像集中;在所述待测图像未包括在所述图像集中的情况下,将所述待测图像分割为多个区域,并根据所获得的所述图像集中的每个图像的软标签的计算值以及所述图像集中的每个图像的每个区域的软标签的计算值,来获得所述待测图像的软标签和所述待测图像中的每个区域的软标签的计算值;根据所述待测图像的软标签的计算值以及所述待测图像中的区域的软标签的计算值,计算所述待测图像包含与所述图像集中的带标签的图像有关的语义概念的程度值;以及在所计算的所述程度值大于或等于第三预设阈值的情况下判定所述待测图像包含与所述图像集中的带标签的图像有关的语义概念,以及在所述程度值小于所述第三预设阈值的情况下判定所述待测图像不包含与所述图像集中的带标签的图像有关的语义概念。
附记17.根据附记15或16所述的图像处理方法,还包括:在待测图像被判定为包含与所述图像集中的带标签的图像有关的语义概念的情况下,使用所述图像集中的带正标签的图像的标签来标注所述待测图像。
附记18.根据附记11-17所述的图像处理方法,其中,所述的根据所述图像级视觉特征构建图像级加权图、以及根据所述区域级视觉特征构建区域级加权图包括:以所述图像集中的每个图像作为节点,以每两个节点之间在图像级视觉特征上的相似度作为所述两个节点之间的加权边的权值,构建所述图像级加权图;以及以所述图像集中的每个图像的每个区域作为节点,以每两个节点之间在区域级视觉特征上的相似度作为所述两个节点之间的加权边的权值,构建所述区域级加权图。
附记19.根据附记11-18中任一所述的图像处理方法,其中,所述的根据所述图像级加权图和所述区域级加权图的结构信息、以及所述图像集中的每个图像的软标签与该图像中的区域的软标签之间的关系构造代价函数包括:根据所述图像级加权图和所述区域级加权图的结构信息,设定这样的第一约束条件:令图像级视觉特征越相似的两幅图像的软标签之间的差异越小,以及令区域级视觉特征越相似的两个区域的软标签之间的差异越小;根据所述图像集中的带标签的图像的软标签与所述图像集中带标签的图像中的区域的软标签之间的关系设定这样的第二约束条件:令带负标签的图像及及该图像中的所有区域的软标签尽量接近-1,令带正标签的查询图像的软标签尽量接近1,以及令带正标签的查询图像中的具有最大软标签的区域的软标签尽量接近该区域所属图像的软标签;以及根据所述第一约束条件和第二约束条件,构造代价函数。
附记20.根据附记11-19中任一所述的图像处理方法,其中,所述的通过求解所述代价函数的最优问题获得所述未知量的计算值包括:通过引入松弛因子,将代价函数转化为带约束的最小化问题;以及利用带约束的凹凸过程来求解该最小化问题,获得所述图像集中的每个图像的软标签的计算值以及所述图像集中的每个图像的每个区域的软标签的计算值。
附记21.一种设备,其包括如附记1-10中任一所述的图像处理装置。
附记22.根据附记21所述的设备,其中,所述设备是以下设备中的任意一种:照相机、摄像机、计算机、手机、个人数字助理以及多媒体处理设备。
附记23.一种计算机可读存储介质,其上存储有能够由计算设备执行的计算机程序,所述程序在执行时能够使所述计算设备执行根据附记11-20中任意一项所述的图像处理方法。

Claims (10)

1.一种图像处理装置,包括:
图像分割单元,其被配置用于分别将图像集中的每个图像分割为多个区域,其中,所述图像集中的至少部分图像是带标签的图像;
特征提取单元,其被配置用于提取所述图像集中的每个图像的图像级视觉特征和区域级视觉特征;
加权图建立单元,其被配置用于根据所述图像级视觉特征构建图像级加权图,以及根据所述区域级视觉特征构建区域级加权图;
函数构造单元,其被配置用于以所述图像集中的每个图像的软标签以及所述图像集中的每个图像的每个区域的软标签为未知量,根据所述图像级加权图和所述区域级加权图的结构信息、以及所述图像集中的每个图像的软标签与该图像中的区域的软标签之间的关系,构造代价函数;
计算单元,其被配置用于通过求解所述代价函数的最优问题,获得所述未知量的计算值;以及
图像处理单元,其被配置用于根据所述计算单元所获得的计算值进行图像处理。
2.根据权利要求1所述的图像处理装置,所述图像处理装置是图像检索装置,其中,
所述图像集包括带标签的查询图像,以及
所述图像处理单元被配置用于根据所述计算单元所获得的计算值,将所述图像集中除所述查询图像之外的、与所述查询图像的相似度在预定范围内的图像判定为检索结果。
3.根据权利要求2所述的图像处理装置,其中,所述图像集中除所述查询图像之外的、与所述查询图像的相似度在预定范围内的图像包括以下图像中的一种:
软标签高于第一预设阈值的图像,并且该图像中具有最大软标签的区域的软标签高于第二预设阈值;以及
图像的软标签与图像中具有最大软标签的区域的软标签的加权和最大的前N个图像,其中,N为正整数。
4.根据权利要求1所述的图像处理装置,所述图像处理装置是图像概念检测装置,其中,
所述图像处理单元被配置用于根据所述计算单元所获得的计算值,判定不带标签的待测图像是否包含与所述图像集中的带标签的图像有关的语义概念。
5.根据权利要求4所述的图像处理装置,其中,所述图像处理单元包括:
第一判定子单元,其被配置用于判定所述待测图像是否包括在所述图像集中;
第一计算子单元,其被配置用于在所述待测图像未包括在所述图像集中的情况下,将所述待测图像分割为多个区域,并根据所述计算单元所获得的所述图像集中的每个图像的软标签的计算值以及所述图像集中的每个图像的每个区域的软标签的计算值,来获得所述待测图像的软标签和所述待测图像中的每个区域的软标签的计算值;
第二计算子单元,其被配置用于根据所述待测图像的软标签的计算值以及所述待测图像中的区域的软标签的计算值,计算所述待测图像包含与所述图像集中的带标签的图像有关的语义概念的程度值;以及
第二判定子单元,其被配置用于在所述第二计算子单元所计算的所述程度值大于或等于第三预设阈值的情况下判定所述待测图像包含与所述图像集中的带标签的图像有关的语义概念,以及在所述程度值小于所述第三预设阈值的情况下判定所述待测图像不包含与所述图像集中的带标签的图像有关的语义概念。
6.根据权利要求1-5中任一所述的图像处理装置,其中,所述加权图建立单元包括:
第一建立子单元,其被配置用于以所述图像集中的每个图像作为节点,以每两个节点之间在图像级视觉特征上的相似度作为所述两个节点之间的加权边的权值,构建所述图像级加权图;以及
第二建立子单元,其被配置用于以所述图像集中的每个图像的每个区域作为节点,以每两个节点之间在区域级视觉特征上的相似度作为所述两个节点之间的加权边的权值,构建所述区域级加权图。
7.根据权利要求1-5中任一所述的图像处理装置,其中,所述函数构造单元包括:
第一设定子单元,其被配置用于根据所述图像级加权图和所述区域级加权图的结构信息,设定这样的第一约束条件:令图像级视觉特征越相似的两幅图像的软标签之间的差异越小,以及令区域级视觉特征越相似的两个区域的软标签之间的差异越小;
第二设定子单元,其被配置用于根据所述图像集中的带标签的图像的软标签与所述图像集中带标签的图像中的区域的软标签之间的关系设定这样的第二约束条件:令带负标签的图像及该图像中的所有区域的软标签尽量接近-1,令带正标签的图像的软标签尽量接近1,以及令带正标签的图像中的具有最大软标签的区域的软标签尽量接近该区域所属图像的软标签;以及
函数构造子单元,其被配置用于以所述图像集中的每个图像的软标签以及所述图像集中的每个图像的每个区域的软标签为未知量,根据所述第一约束条件和第二约束条件,构造代价函数。
8.根据权利要求1-5中任一所述的图像处理装置,其中,所述计算单元包括:
第三计算子单元,被配置用于通过引入松弛因子,将代价函数转化为带约束的最小化问题;以及
第四计算子单元,被配置用于利用带约束的凹凸过程来求解该最小化问题,获得所述图像集中的每个图像的软标签的计算值以及所述图像集中的每个图像的每个区域的软标签的计算值。
9.一种图像处理方法,包括:
分别将图像集中的每个图像分割为多个区域,其中,所述图像集中的至少部分图像是带标签的图像;
提取所述图像集中的每个图像的图像级视觉特征和区域级视觉特征;
根据所述图像级视觉特征构建图像级加权图,以及根据所述区域级视觉特征构建区域级加权图;
以所述图像集中的每个图像的软标签以及所述图像集中的每个图像的每个区域的软标签为未知量,根据所述图像级加权图和所述区域级加权图的结构信息、以及所述图像集中的每个图像的软标签与该图像中的区域的软标签之间的关系,构造代价函数;
通过求解所述代价函数的最优问题,获得所述未知量的计算值;以及
根据所述未知量的计算值进行图像处理。
10.一种图像处理设备,其包括如权利要求1-8中任一所述的图像处理装置,所述图像处理设备是照相机、摄像机、计算机、手机、个人数字助理以及多媒体处理设备中的一种。
CN201210071428.6A 2012-03-16 2012-03-16 图像处理装置、图像处理方法以及设备 Active CN103310221B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201210071428.6A CN103310221B (zh) 2012-03-16 2012-03-16 图像处理装置、图像处理方法以及设备
JP2013053511A JP6160143B2 (ja) 2012-03-16 2013-03-15 画像処理装置、画像処理方法及び設備

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210071428.6A CN103310221B (zh) 2012-03-16 2012-03-16 图像处理装置、图像处理方法以及设备

Publications (2)

Publication Number Publication Date
CN103310221A CN103310221A (zh) 2013-09-18
CN103310221B true CN103310221B (zh) 2016-04-13

Family

ID=49135416

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210071428.6A Active CN103310221B (zh) 2012-03-16 2012-03-16 图像处理装置、图像处理方法以及设备

Country Status (2)

Country Link
JP (1) JP6160143B2 (zh)
CN (1) CN103310221B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104717753B (zh) * 2013-12-17 2019-09-13 北京三星通信技术研究有限公司 一种非正交通信方法、基站及终端
CN104657742A (zh) * 2015-01-23 2015-05-27 华东师范大学 一种基于汉明嵌入核的图像概念检测方法及其汉明嵌入核
CN104657427A (zh) * 2015-01-23 2015-05-27 华东师范大学 一种基于优化视觉词袋信息量权重的图像概念检测方法
US20200272906A1 (en) * 2017-11-07 2020-08-27 Nec Corporation Discriminant model generation device, discriminant model generation method, and discriminant model generation program
CN112784691B (zh) * 2020-12-31 2023-06-02 杭州海康威视数字技术股份有限公司 一种目标检测模型训练方法、目标检测方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101493892A (zh) * 2009-02-27 2009-07-29 中国农业大学 图像特征提取方法及装置
CN101540061A (zh) * 2009-04-10 2009-09-23 西北工业大学 基于模拟退火的无序图像拓扑有序化匹配方法
US7715640B2 (en) * 2002-11-05 2010-05-11 Konica Minolta Business Technologies, Inc. Image processing device, image processing method, image processing program and computer-readable recording medium on which the program is recorded
CN102014251A (zh) * 2009-09-04 2011-04-13 卡西欧计算机株式会社 图像处理装置和图像处理方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004047026A1 (ja) * 2002-11-20 2004-06-03 Fujitsu Limited 画像検索プログラム
JP5505164B2 (ja) * 2010-07-23 2014-05-28 ソニー株式会社 画像処理装置および方法、並びにプログラム
JP5531865B2 (ja) * 2010-09-03 2014-06-25 カシオ計算機株式会社 画像処理装置、画像処理方法及びプログラム
CN103312938B (zh) * 2012-03-16 2016-07-06 富士通株式会社 视频处理装置、视频处理方法以及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7715640B2 (en) * 2002-11-05 2010-05-11 Konica Minolta Business Technologies, Inc. Image processing device, image processing method, image processing program and computer-readable recording medium on which the program is recorded
CN101493892A (zh) * 2009-02-27 2009-07-29 中国农业大学 图像特征提取方法及装置
CN101540061A (zh) * 2009-04-10 2009-09-23 西北工业大学 基于模拟退火的无序图像拓扑有序化匹配方法
CN102014251A (zh) * 2009-09-04 2011-04-13 卡西欧计算机株式会社 图像处理装置和图像处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于代价函数和模糊熵的图像分割方法;王保平 等;《光子学报》;20031225;第32卷(第12期);1502-1505 *
基于高斯超像素的快速 Graph Cuts 图像分割方法;韩守东 等;《自动化学报》;20110115;第37卷(第1期);11-20 *

Also Published As

Publication number Publication date
JP2013196701A (ja) 2013-09-30
JP6160143B2 (ja) 2017-07-12
CN103310221A (zh) 2013-09-18

Similar Documents

Publication Publication Date Title
CN111860573B (zh) 模型训练方法、图像类别检测方法、装置和电子设备
CN109117848B (zh) 一种文本行字符识别方法、装置、介质和电子设备
JP5351958B2 (ja) デジタルコンテンツ記録のための意味論的イベント検出
CN103310221B (zh) 图像处理装置、图像处理方法以及设备
JP5861539B2 (ja) 複数の画像の記述的情報を取得する方法及び装置、並びに画像マッチング方法
CN109918513B (zh) 图像处理方法、装置、服务器及存储介质
CN114037876A (zh) 一种模型优化方法和装置
CN113987119B (zh) 一种数据检索方法、跨模态数据匹配模型处理方法和装置
CN112069319A (zh) 文本抽取方法、装置、计算机设备和可读存储介质
WO2023000764A1 (zh) 目标检索方法、装置、设备及存储介质
CN116089648B (zh) 基于人工智能的档案管理系统及方法
CN111325200A (zh) 图像标注方法、装置、设备及计算机可读存储介质
CN110363206B (zh) 数据对象的聚类、数据处理及数据识别方法
CN104077765B (zh) 图像分割装置、图像分割方法
US8467607B1 (en) Segmentation-based feature pooling for object models
CN103312938B (zh) 视频处理装置、视频处理方法以及设备
CN111738009A (zh) 实体词标签生成方法、装置、计算机设备和可读存储介质
Dong et al. A supervised dictionary learning and discriminative weighting model for action recognition
CN112464966A (zh) 鲁棒性估计方法、数据处理方法和信息处理设备
Zegeye et al. A novel active learning technique for multi-label remote sensing image scene classification
CN113610106B (zh) 模型间的特征兼容学习方法、装置、电子设备及介质
Fu et al. UM-CAM: Uncertainty-weighted Multi-resolution Class Activation Maps for Weakly-supervised Fetal Brain Segmentation
CN112785601B (zh) 一种图像分割方法、系统、介质及电子终端
Nag et al. CNN based approach for post disaster damage assessment
CN112463844B (zh) 一种数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant