CN104915926B - 图像处理设备和图像处理方法 - Google Patents
图像处理设备和图像处理方法 Download PDFInfo
- Publication number
- CN104915926B CN104915926B CN201410084612.3A CN201410084612A CN104915926B CN 104915926 B CN104915926 B CN 104915926B CN 201410084612 A CN201410084612 A CN 201410084612A CN 104915926 B CN104915926 B CN 104915926B
- Authority
- CN
- China
- Prior art keywords
- classification
- region
- confidence
- fuzzy region
- fuzzy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/768—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了图像处理设备和图像处理方法。对图像中的每个区域进行分类的图像处理设备包括:置信度生成装置,被配置为针对图像中的每个区域生成分类置信度,分类置信度代表一个区域属于预定类别的可能性;和分类装置,被配置为基于计算出的置信度,将图像中易于根据分类置信度分类的清楚区域分类到相应的类别。该图像处理设备还包括:模糊区域提取装置,被配置为从图像中提取一个或多个区域不易根据分类置信度分类的不清楚区域,作为模糊区域;和置信度更新装置,被配置为基于模糊区域的近邻区域的分类置信度来更新每个模糊区域的分类置信度,其中分类装置还被配置为基于更新的分类置信度将模糊区域分类到相应的类别。
Description
技术领域
本发明一般涉及图像处理、计算机视觉和图形识别领域,具体地涉及多类别分割领域,更具体地涉及对图像中的每个区域进行分类的设备和方法。
背景技术
多类别分割是一种将图像分割为不同区域的方法。图像的每个区域被分类到预定类别,诸如天空、绿色、人体和其他。该方法有助于解析图像的场景。图1是多类别分割的示意图。如图1所示,每个分割区域属于预定类别。
Richard Socher(可以参考Richard Socher,Cliff Chiung-Yu Lin,AndrewY.Ng.Pars Natural Scenes and Natural Language with Recursive NeuralNetworks.Proceed of the28th Internal Conference on Machine Learn,Bellevue,WA,USA,2011)提出了一种称为递归神经网络(RNN)的多类别分割方法。图2示例性示出RNN分割方法的流程图。
如图2所示,首先,该方法在步骤210将图像分割为多个区域。然后,在步骤220,该方法基于提取的特征和训练的模型针对每个区域计算每个类别的分类置信度。分类置信度代表一个区域属于预定类别的可能性,也称为分数。最后,在步骤230,每个区域被分类到具有最高分数的类别.
因为根据提取的特征和训练的模型计算分数,所以如果某个区域的最高分数不是远大于该区域的次最高分数,则意味者一个类别的特征不明显区别于其他的类别。于是,当两个类别的分数接近时,可能无法将一个类别与另一个类别区分开。如上所述,该方法选择具有最高置信度分数的类别作为分类结果,而如果针对某一区域一个类别的最高分数没有明显高于其他的类别的分数,则分类结果将很有可能是错误的。例如,在图3中示出了RNN分割的例示。
从左图可以看出,对于区域B,绿色的分数远高于其他的类别。于是,区域B被毫无疑义地分类为绿色。类似地,区域C被分类为天空。B和C这些区域是容易分类到某一类别的清楚区域。
然而,可以看出,对于区域A,其他的分数仅比绿色的分数高一点。根据RNN分割,如右图所示,区域A被分类为其他。然而,从原始图像(即,左图)可以看出该区域应该属于绿色。在这一点上,相差不明显的分数导致了错误的分类结果,这样的分类结果在图像内也不是自适应的。
鉴于上述,期望提供一种能够将所有区域(尤其是不容易分类的不清楚区域)准确分类到预定类别的新的图像处理设备和图像处理方法。
发明内容
鉴于至少一个上述问题提出本发明。
本发明更多地关注在分类方面模糊的不清楚区域(也称为模糊区域)。通常,模糊区域的误分类比率远高于其他的区域。本发明旨在找到模糊区域并利用近邻信息对模糊区域进行循环重分类,以便尽可能地更正模糊结果。
本发明也基于多个区域。实验已经证明本发明可以改善分类的精度而不需要额外的外部检测结果。改善不仅针对某些特定类别,而是同等地适用于图像的各个类别。此外,本发明在图像内可以自适应周围情况。
本发明的一个目的是提供一种能够对模糊区域精确分类的新的图像处理设备和新的图像处理方法。
根据本发明的第一方面,提供一种对图像中的每个区域进行分类的图像处理方法,包括:置信度生成步骤,针对图像中的每个区域生成分类置信度,分类置信度代表一个区域属于预定类别的可能性;和分类步骤,基于计算出的置信度,将图像中的易于根据分类置信度分类的清楚区域分类到相应的类别。该方法还包括:模糊区域提取步骤,从图像中提取一个或多个不易根据分类置信度分类的不清楚区域,作为模糊区域;和置信度更新步骤,基于每个模糊区域的近邻区域的分类置信度来更新每个模糊区域的分类置信度。分类步骤还基于更新的分类置信度将各模糊区域分类到相应的类别。
根据本发明的第二方面,提供如上所述的图像处理方法在图像构图或图像搜索领域中的应用。
根据本发明的第三方面,提供一种对图像中的每个区域进行分类的图像处理设备,包括:置信度生成装置,被配置为针对图像中的每个区域生成分类置信度,分类置信度代表一个区域属于预定类别的可能性;和分类装置,被配置为基于计算出的置信度,将图像中的易于根据分类置信度分类的清楚区域分类到相应的类别。该图像处理设备还包括:模糊区域提取装置,被配置为从图像中提取不易根据分类置信度进行分类的一个或多个不清楚区域,作为模糊区域;和置信度更新装置,被配置为基于每个模糊区域的近邻区域的分类置信度来更新每个模糊区域的分类置信度。分类装置还基于更新的分类置信度将各模糊区域分类到相应的类别。
根据本发明的第四方面,提供如上所述的图像处理设备在图像构图或图像搜索领域中的应用。
借助于上述特征,模糊区域被提取并且置信度被更新以改善模糊区域的分类结果的精度,而不影响清楚区域的分类结果,并且可以实现图像的自适应分类结果。
从以下参照附图的描述,本发明的其他目的、特征和优点将变得清晰。
附图说明
并入到说明书中并且构成说明书一部分的附图示出了本发明的实施例,并且与描述一起用于说明本发明的原理。
图1是多类别分割的示意图;
图2示例性示出RNN分割方法的流程图;
图3是RNN分割的例示;
图4示例性示出根据本发明的实施例的图像处理方法的一般流程图;
图5是示出根据本发明的实施例的置信度生成步骤的示例处理的示意性流程图;
图6是根据本发明的实施例基于模糊区域的分类的例示;
图7是示出根据本发明的实施例的模糊区域提取步骤的示例处理的示意性流程图;
图8是示出根据本发明的另一实施例的模糊区域提取步骤的示例处理的示意性流程图;
图9是利用Graph-cut方法进行模糊区域提取的例示;
图10示例性示出根据本发明的实施例的置信度更新步骤的流程图;
图11示例性示出根据本发明的实施例的加权累加的构造;
图12示例性示出根据本发明的实施例的加权累加的一个例子;
图13示例性示出根据本发明的实施例的加权累加的另一个例子;
图14示例性示出根据本发明的实施例的基于合并模糊区域的置信度更新方法的例示;和
图15是根据本发明的示例实施例对图像中的每个区域进行分类的图像处理设备的示意性功能框图。
具体实施方式
下面将参照附图详细描述本发明的示例性实施例。应注意,以下的描述在本质上仅是解释性和示例性的,决不意在限制本发明及其应用或使用。除非另外特别说明,否则,在实施例中阐述的组件和步骤的相对布置、数字表达式以及数值并不限制本发明的范围。另外,本领域技术人员已知的技术、方法和设备可能不被详细讨论,但在合适的情况下意在成为说明书的一部分。
图4示例性示出根据本发明的实施例的对图像中的每个区域(尤其是基于模糊区域)进行分类的图像处理方法的一般流程图。
如图4所示,该方法可以包括置信度生成步骤410、模糊区域提取步骤420、置信度更新步骤430和分类步骤440。
在置信度生成步骤410,针对图像中的每个区域生成分类置信度。
在该步骤,针对每个预定类别计算所有图像区域的置信度。有很多种方法可以取得置信度。图5是示出根据本发明的实施例的置信度生成步骤410的示例处理的示意性流程图。
如图5所示,该处理可以包括:区域分割步骤5110,将图像分割为多个不重叠的区域;特征提取步骤5120,提取每个区域的特征;和置信度计算步骤5130,针对每个预定类别基于训练模型计算每个区域的分类置信度。
图像可以指输入的原始图像或经过处理的图像。区域分割步骤5110中的分割方法不被特别限制,只要将图像分割成多个不重叠的区域且所述多个不重叠的区域整体上构成该图像即可。例如,可以采用过分割方法以将图像分割成多个区域。采用的过分割方法可以是Felzenszwalb方法(可以参见Pedro F.Felzenszwalb,Daniel P.Huttenlocher,“Efficient Graph-based Image Segmentation”,International Journal of ComputerVision,Vol.59,No.2,September2004)、SLIC方法(可以参见Radhakrishna Achanta,AppuShaji,Kevin Smith et al.,“SLIC Superpixels”,EPFL Technical Report,No.149300,June2010)等。
不同的过分割方法可能导致不同的分割区域。然而,这对分类结果将不会有根本影响。作为替代,也可以采用任何其它的适当方法,以将图像分割成多个区域。
此外,步骤5120中的特征提取处理不被特别限制,并且对于必须包括哪些特征也没有任何限制。在该步骤中可以使用很多特征,诸如SVL(STAIR Vision Library)(可以参考Stephen Gould,Olga Russakovsky,The STAIR Vision Library.Http://ai.stanford.edu/~sgould/svl,2009)、LBP(Local Binary Patterns)(可以参考TimoOjala,Matti Pietikanen,Multiresolution Gray-Scale and Rotation InvariantTexture Classification with Local Binary Patterns.IEEE transactions onpattern analysis and machine intelligence,vol.24,No.7,July2002)等。不同的特征可在随后的处理中导致某种不同。但是这对分类结果将不会有根本影响。替代地,可以采用任何其他合适的方法来提取特征。
在步骤5130中针对每个类别计算的置信度取决于提取的特征和训练的模型之间的相似度。计算单位可以是来自步骤5110的区域。在本实施例中,类别的类型预定为例如天空、绿色、人体和其他。对于不同类别每个区域的置信度分数的例子可以如图3所示。
现在,回到图4,在模糊区域提取步骤420,不易根据分类置信度分类的一个或多个不清楚区域被提取为模糊区域。
在该步骤中,将找到图像的模糊区域。有很多种方法取得模糊区域。也提出了两种找到模糊区域的方案:一种基于置信度阈值,另一种基于Graph-cut(可以参考Boykov,Y.,Jolly,M.Interactive Graph Cuts for Optimal Boundary and Region Segmentationof Objects in N-D images.In Proc.IEEE Int.Conf.on Computer Vision,2001)。
图7是示出根据本发明的实施例的模糊区域提取步骤420的示例处理的示意性流程图。
例如,如图7所示,模糊区域提取的阈值方法可以包括:置信度归一化步骤7210,对图像中的每个区域的分类置信度进行归一化;置信度差值计算步骤7220,计算每个区域的最大分类置信度和次最大分类置信度之间的差值;和模糊区域判定步骤7230,将计算出的置信度差值低于预定阈值的区域判定为模糊区域。
也就是说,阈值方法针对图像中的每个区域检查最大类别分数(或置信度)(Scoremax)是否远高于次最大类别分数(Score2ndmax)。如果差值低于阈值,则该区域将被标记为模糊区域。阈值方法可以被描述为函数(1)。经验上,阈值可以被设定为0.2。然而,阈值可以根据实际需要被设定为其他值。
图8是示出根据本发明的另一实施例的模糊区域提取步骤的示例处理的示意性流程图。
如图8所示,模糊区域提取步骤可以包括:显著区域图生成步骤8210,基于每个区域的分类置信度产生针对每个类别的显著前景和显著背景图;区域分割步骤8220,基于图像相似度将每个置信度图分割为每个类别的前景区域和背景区域;和模糊区域判定步骤8230,将不是被分割为仅仅一个类别的前景区域的区域判定为模糊区域。
在该方法中,利用差异较大的阈值,诸如前景大于0.7和背景小于0.3,各区域被标记为每个类别的显著的(salient)前景、显著的背景或未知区域,获得置信度图。然后,每个置信度图基于图像相似度被分割为每个类别的前景区域和背景区域。特别地,Graph-cut算法可以是针对每个类别进行。其将一个类别的清楚区域视为Graph-cut的前景,而将其他类别的清楚区域视为背景。因此,Graph-cut算法将计算基本的不清楚区域是否属于每个类别的前景。然后,每个区域的所有类别的分割结果将被累加。如果有且仅有一个类别将某一区域视为前景,则该区域将被视为清楚区域。否则,该区域可以被视为模糊区域。
例如,在步骤8210中,该方法将针对每个类别取得基本的清楚图像区域,其中图9(a)的三幅图像中白色区域被标记为每个类别的基本前景,黑色区域被标记为背景,灰色区域被标记为未知。
在步骤8220中,该方法可以基于例如Graph-cut将模糊区域分割为每个类别的前景和背景。图9(b)中的三幅图像示出每个类别的Graph-cut的结果。
在步骤8230中,该方法将利用每个类别的Graph-cut结果取得模糊区域。图9(c)中的三幅图像示出模糊区域判定的结果,其中没有任何一个类别将区域R1分割为前景,而绿色和其他都将区域R2分割为前景,因此区域R1和R2都被判定为模糊区域。
如图4的流程图所示,模糊提取步骤的下一步骤是置信度更新步骤430,其中基于每个模糊区域的近邻区域的分类置信度来更新每个模糊区域的分类置信度。
存在很多种更新置信度的方法。例如,图10示出基于加权累加更新置信度的示意性流程图。
如图10所示,置信度更新步骤可以包括:近邻图建立步骤1310,取得每个模糊区域的近邻信息;加权置信度计算步骤1320,基于近邻信息,对每个模糊区域的分类置信度和该模糊区域的近邻区域的分类置信度进行加权累加,得到各个模糊区域的相应累加分类置信度;和置信度归一化步骤1330,对各个模糊区域的相应累加分类置信度进行归一化作为更新的分类置信度。
在步骤1310中,该方法取得模糊区域的近邻图。该方法可以扫描图像以找到模糊区域周围的区域。
在步骤1320中,该方法针对模糊区域及其所有的近邻区域加权累加每个类别的置信度。针对加权累加,可以选择很多种近邻权重和近邻矢量。
例如,图11示例性示出根据本发明的实施例的加权累加的构造。根据图11的加权累加的构造,近邻权重可以被设定为常数、边界长度等,近邻矢量可以被设定为分类置信度、二进制值(binary)等。
具体地,如果模糊区域具有N个近邻区域,Const1可以被设定为1/N。如果Const2被设定为0,置信度更新将不使用模糊区域自身的信息。不过,近邻权重和近邻矢量不限于图11中的例子,它们可以根据实际需要被设定为其他值。
图12示例性示出根据本发明的实施例的加权累加的一个例子。在图12的例子中,模糊区域R具有5个近邻区域,Const1被设定为1/5,Const2被设定为0,近邻权重被设定为1,近邻矢量被设定为二进制值。可以看出,近邻区域是5个清楚区域,其中3个区域是绿色,1个区域是天空,1个区域是其他。根据加权累加方法,在归一化后获得模糊区域的置信度R(3,1,1,0)。
图13示例性示出根据本发明的实施例的加权累加的另一个例子,其中近邻区域的边界长度被选为近邻权重,每个近邻的分类置信度被选为近邻矢量。Const1被设定为1,Const2被设定为模糊区域的边界长度。如图13所示,累加可以被视为对边界取平均。该例子将沿着模糊区域的边界的内外两侧每个像素的置信度累加。
根据上述两种更新方法,模糊区域的分类结果或多或少取决于近邻的清楚区域。即使模糊区域不与某一类别的大多数区域类似,如果该模糊区域与当前图像中的该类别的清楚区域非常类似,则该模糊区域也可以被分类到该类别。因此,这种更新可以与周围区域自适应。
回到图10,在步骤1330中,累加的置信度被归一化以便使得模糊区域的置信度与其他清楚区域的置信度相适应。各模糊区域的置信度可以独立地更新。
现在回到图4,在分类步骤440,基于更新的分类置信度,模糊区域被分类到相应类别。
从图4也可以看出,可以包括另外的步骤450用于确定是否需要重复模糊区域提取步骤420和置信度更新步骤430,以便尽可能地改善分类结果。例如,如果根据模糊区域提取步骤420还存在模糊区域,置信度更新步骤430将再次更新置信度。此外,可以设定一个标准(例如,重复次数)以限制循环的进行,以便防止过度循环或无穷循环。
步骤450对于该方法不是必需的步骤。更恰当地,该步骤用于进一步改善分类结果。没有该步骤的方法也可以改善模糊区域的分类结果的精度。
根据本发明的实施例,首先,该方法将图像分割为不同区域并针对每个区域计算每个类别的置信度分数。然后,该方法提取模糊区域。其次,该方法计算模糊区域的近邻信息以便更新模糊区域的所有类别的分数。最后,如果还存在满足模糊区域的标准的区域,该方法将进行循环以更新置信度分数。如果不存在,该方法将输出每个区域的更新的分类结果。
已知的是,现有技术不关注模糊区域,而本发明更多地关注模糊区域。本发明提供了模糊区域提取和置信度更新的额外的步骤以克服现有技术对模糊区域的分类的弱点。现有技术和本发明之间的性能比较可以在图3和图6之间做出。可以看出,本发明的结果远优于现有技术。值得注意的是,本发明的循环部分仅对模糊区域起作用。清楚区域的分类结果在循环中将不会被改变。
本发明的一系列评估被做出以证明本发明的有益效果。不同阈值导致不同的模糊区域的比例。评估所使用的数据集是包含162幅图像的评估数据集。在该评估中,阈值方法被用于模糊区域提取步骤,边界累加方法被用于置信度更新步骤。
因为本发明不影响清楚区域的分类结果,所以评估结果仅示出针对模糊区域的不同。
表1示出在不同阈值的情况下模糊区域的分类精度(%)比较。如表1所示,阈值列是在模糊区域提取步骤中的评估阈值;模糊比例列是模糊区域占所有评估数据集的比例;模糊精度是提取的模糊区域的分类精度;原始精度列是现有技术方法对不清楚区域(模糊区域)的分类精度。
可以从表1看出,利用本发明的模糊区域的分类精度相对于现有技术有很大改善。
表1:在不同阈值的情况下模糊区域的分类精度(%)比较
阈值 | 模糊比例 | 模糊精度 | 原始精度 | 改善 |
0.05 | 2.21 | 60.3 | 43.5 | 16.8 |
0.10 | 4.62 | 62.6 | 52.1 | 10.5 |
0.15 | 6.61 | 61.0 | 51.3 | 9.7 |
0.20 | 8.94 | 60.1 | 53.1 | 7.0 |
0.25 | 11.21 | 61.7 | 54.1 | 7.6 |
0.30 | 13.44 | 62.3 | 56.5 | 5.8 |
表2还示出评估对于每个类别的不同。从表2可以看出,相对于现有技术,利用本发明的模糊精度对天空、绿色和人体每个类别都有显著改善。
表2:每个类别的模糊区域的分类精度(%)比较
如上所述,每个提取的模糊区域的分类置信度被独立更新。替代地,相邻的模糊区域可以被合并。也就是说,模糊区域提取步骤420还可以包括合并相邻的模糊区域的模糊区域合并步骤。近邻图建立步骤1310取得所获得的合并模糊区域的近邻信息而不是单独的模糊区域的近邻信息。此外,加权置信度计算步骤1320基于近邻信息,对在每个合并模糊区域中的各模糊区域的分类置信度和该合并模糊区域的近邻区域的分类置信度进行加权累加,得到各个模糊区域的相应累加分类置信度。
图14示例性示出根据本发明的实施例的基于合并模糊区域的置信度更新方法的例示。
如图14所示,模糊区域A、B、C和D被合并为合并模糊区域X。模糊区域A、B、C和D中的每个利用同一组近邻的信息进行计算,
但是基于其自身的置信度来更新置信度。因此,在归一化后对于同一合并模糊区域中的不同模糊区域取得不同的更新结果。
例如,对于绿色,模糊区域A、B、C和D的置信度分别为0.31、0.26、0.23和0.38;对于其他,模糊区域A、B、C和D的置信度分别为0.33、0.22、0.35和0.33。对于每个类别,模糊区域的置信度更新都根据加权累加方法进行。对于绿色和其他,对所有近邻的加权累加得到的值分别为0.40和0.29。如果Const1=1,Const2=1,对于绿色,模糊区域A、B、C和D的置信度将分别改变为0.71、0.66、0.63和0.78;对于其他,模糊区域A、B、C和D的置信度分别是0.62、0.51、0.64和0.62。
于是,在归一化后,模糊区域A对于绿色更新的置信度远大于其他。因此,模糊区域A可以具有较高置信度地被分类为绿色。类似地,模糊区域B和D可以具有较高置信度地被分类为绿色。然而,模糊区域C对于这两种类别更新的置信度仍然彼此接近。也就是说,区域C由于其对于不同类别的置信度没有明显差别仍将被视为模糊区域。
类似于单独的模糊区域,基于合并模糊区域的方法也可以改善图像分类的精度。
图15是根据本发明的示例实施例对图像中的每个区域进行分类的图像处理设备的示意性功能框图。
如图15所示,对图像中的每个区域进行分类的图像处理设备1可以包括被配置为分别实现图4中的置信度生成步骤410、模糊区域提取步骤420、置信度更新步骤430和分类步骤440的置信度生成装置10、模糊区域提取装置20、置信度更新装置30和分类装置40。
优选地,置信度生成装置10还包括被配置为分别实现图5中的区域分割步骤510、特征提取步骤520和置信度计算步骤530的区域分割单元110、特征提取单元120和置信度计算单元130。
优选地,模糊区域提取装置20还包括被配置为分别实现图7中的置信度归一化步骤7210、置信度差值计算步骤7220和模糊区域判定步骤7230的置信度归一化单元210、置信度差值计算单元220和模糊区域判定单元230。
替代地,模糊区域提取装置还20可以包括被配置为分别实现图8中的置信度图生成步骤8210、区域分割步骤8220和模糊区域判定步骤8230的置信度图生成单元210’、区域分割单元220’和模糊区域判定单元230’。
替代地,模糊区域提取装置20还可以包括被配置为将相邻模糊区域合并为合并模糊区域的模糊区域合并单元(未示出)。
优选地,置信度更新装置30还包括被配置为分别实现图10中的近邻图建立步骤1310、加权置信度计算步骤1320和置信度归一化步骤1330的近邻图建立单元310、加权置信度计算单元320和置信度归一化单元330。
到目前为止,已示意性地描述了根据本发明的对图像中的每个区域进行分类的图像处理方法和图像处理设备。应注意,以上的所有设备、装置和单元都是用于实施本发明的图像处理方法和图像处理设备的示例性和/或优选模块。
在上面并未穷尽地描述用于实施各种步骤的模块。通常,当存在执行某一处理的步骤时,则存在用于实施该相同处理的对应的功能模块或装置。
能够以许多方式来实施本发明的方法和设备。例如,可以通过软件(诸如计算机可读程序)、硬件(诸如处理器、专用集成电路等)、固件或其任何组合来实现本发明的方法和设备。另外,所述方法的上述步骤顺序仅仅意在是说明性的,本发明的方法的步骤并不必限于上面具体描述的顺序,除非另外特别说明。另外,在一些实施例中,本发明也可以被实现为记录在记录介质中的程序,其包括用于实施根据本发明的方法的机器可读指令。从而,本发明也涵盖了存储用于实施根据本发明的方法的程序的记录介质。
通过以上描述的步骤以及与这些步骤对应的装置的所有组合限定的技术方案都包括在本说明书的公开内容中,只要它们构成的技术方案是完整并且可应用的。换句话说,可以将两个或更多个装置合并为一个装置,只要可以实现它们的功能即可;另一方面,也可以将任何一个装置划分为多个装置,只要可以实现类似的功能即可。具体地,参考图1-15描述的方法和设备可以单独应用或彼此结合应用到对图像中的每个区域进行分类的方法和设备。
虽然已参照示例性实施例描述了本发明,但要理解,本发明不限于所公开的示例性实施例。对于本领域技术人员显然的是,可以在不背离本发明的范围和精神的情况下修改以上的示例性实施例。所附的权利要求的范围要被赋予最宽的解释,以包含所有这样的修改以及等同的结构和功能。
Claims (18)
1.一种对图像中的每个区域进行分类的图像处理方法,包括:
置信度生成步骤,针对图像中的每个区域生成分类置信度,分类置信度代表一个区域属于预定类别的可能性;和
分类步骤,基于计算出的置信度,将图像中易于根据分类置信度分类的清楚区域分类到相应的类别,
该方法还包括:
模糊区域提取步骤,从图像中提取一个或多个不易根据分类置信度分类的不清楚区域,作为模糊区域;和
置信度更新步骤,基于每个模糊区域的近邻区域的分类置信度来更新每个模糊区域的分类置信度,
其中分类步骤还基于更新的分类置信度将各模糊区域分类到相应的类别。
2.根据权利要求1所述的图像处理方法,其中模糊区域提取步骤和置信度更新步骤被重复一次或多次。
3.根据权利要求1所述的图像处理方法,其中模糊区域提取步骤包括:
置信度归一化步骤,对图像中的每个区域的分类置信度进行归一化;
置信度差值计算步骤,计算每个区域的最大分类置信度和次最大分类置信度之间的差值;和
模糊区域判定步骤,将计算出的置信度差值低于预定阈值的区域判定为模糊区域。
4.根据权利要求1所述的图像处理方法,其中模糊区域提取步骤包括:
置信度图生成步骤,基于每个区域的分类置信度产生针对每个类别的置信度图;
区域分割步骤,基于预定阈值将每个置信度图分割为每个类别的前景区域和背景区域;和
模糊区域判定步骤,将不是被分割为仅仅一个类别的前景区域的区域判定为模糊区域。
5.根据权利要求3或4所述的图像处理方法,其中
模糊区域提取步骤还包括合并相邻模糊区域的模糊区域合并步骤。
6.根据权利要求4所述的图像处理方法,其中在区域分割步骤中,每个置信度图基于Graph-cut方法被分割为每个类别的前景区域和背景区域。
7.根据权利要求1所述的图像处理方法,其中置信度更新步骤包括:
近邻图建立步骤,取得每个模糊区域的近邻信息;
加权置信度计算步骤,基于近邻信息,对每个模糊区域的分类置信度和该模糊区域的近邻区域的分类置信度进行加权累加,得到各个模糊区域的相应累加分类置信度;和
置信度归一化步骤,对各个模糊区域的相应累加分类置信度进行归一化作为更新的分类置信度。
8.根据权利要求5所述的图像处理方法,其中置信度更新步骤包括:
近邻图建立步骤,取得在模糊区域提取步骤中获得的每个合并模糊区域的近邻信息;
加权置信度计算步骤,基于近邻信息,对在每个合并模糊区域中的各模糊区域的分类置信度和该合并模糊区域的近邻区域的分类置信度进行加权累加,得到各个模糊区域的相应累加分类置信度;和
置信度归一化步骤,对各个模糊区域的相应累加分类置信度进行归一化作为更新的分类置信度。
9.根据权利要求1所述的图像处理方法,其中置信度生成步骤包括:
区域分割步骤,将图像分割为多个不重叠的区域;
特征提取步骤,提取每个区域的特征;和
置信度计算步骤,针对每个预定类别基于训练模型计算每个区域的分类置信度。
10.根据权利要求1-9中的任一项所述的图像处理方法在图像构图或图像搜索领域中的应用。
11.一种对图像中的每个区域进行分类的图像处理设备,包括:
置信度生成装置,被配置为针对图像中的每个区域生成分类置信度,分类置信度代表一个区域属于预定类别的可能性;和
分类装置,被配置为基于计算出的置信度,将图像中易于根据分类置信度分类的清楚区域分类到相应的类别,
该图像处理设备还包括:
模糊区域提取装置,被配置为从图像中提取一个或多个不易根据分类置信度分类的不清楚区域,作为模糊区域;和
置信度更新装置,被配置为基于每个模糊区域的近邻区域的分类置信度来更新每个模糊区域的分类置信度,
其中分类装置还被配置为基于更新的分类置信度将各模糊区域分类到相应的类别。
12.根据权利要求11所述的图像处理设备,其中模糊区域提取装置包括:
置信度归一化单元,被配置为对图像中的每个区域的分类置信度进行归一化;
置信度差值计算单元,被配置为计算每个区域的最大分类置信度和次最大分类置信度之间的差值;和
模糊区域判定单元,被配置为将计算出的置信度差值低于预定阈值的区域判定为模糊区域。
13.根据权利要求11所述的图像处理设备,其中模糊区域提取装置包括:
置信度图生成单元,被配置为基于每个区域的分类置信度产生针对每个类别的置信度图;
区域分割单元,被配置为基于预定阈值将每个置信度图分割为每个类别的前景区域和背景区域;和
模糊区域判定单元,被配置为将不是被分割为仅仅一个类别的前景区域的区域判定为模糊区域。
14.根据权利要求12或13所述的图像处理设备,其中
模糊区域提取装置还包括被配置为合并相邻模糊区域的模糊区域合并单元。
15.根据权利要求11所述的图像处理设备,其中置信度更新装置包括:
近邻图建立单元,被配置为取得每个模糊区域的近邻信息;
加权置信度计算单元,被配置为基于近邻信息,对每个模糊区域的分类置信度和该模糊区域的近邻区域的分类置信度进行加权累加,得到各个模糊区域的相应累加分类置信度;和
置信度归一化单元,被配置为对各个模糊区域的相应累加分类置信度进行归一化作为更新的分类置信度。
16.根据权利要求14所述的图像处理设备,其中置信度更新装置包括:
近邻图建立单元,被配置为取得在模糊区域提取装置中获得的每个合并模糊区域的近邻信息;
加权置信度计算单元,被配置为基于近邻信息,对在每个合并模糊区域中的各模糊区域的分类置信度和该合并模糊区域的近邻区域的分类置信度进行加权累加,得到各个模糊区域的相应累加分类置信度;和
置信度归一化单元,被配置为对各个模糊区域的相应累加分类置信度进行归一化作为更新的分类置信度。
17.根据权利要求11所述的图像处理设备,其中置信度生成装置包括:
区域分割单元,被配置为将图像分割为多个不重叠的区域;
特征提取单元,被配置为提取每个区域的特征;和
置信度计算单元,被配置为针对每个预定类别基于训练模型计算每个区域的分类置信度。
18.根据权利要求11-17中的任一项所述的图像处理设备在图像构图或图像搜索领域中的应用。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410084612.3A CN104915926B (zh) | 2014-03-10 | 2014-03-10 | 图像处理设备和图像处理方法 |
US14/642,321 US9704069B2 (en) | 2014-03-10 | 2015-03-09 | Image processing apparatus and image processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410084612.3A CN104915926B (zh) | 2014-03-10 | 2014-03-10 | 图像处理设备和图像处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104915926A CN104915926A (zh) | 2015-09-16 |
CN104915926B true CN104915926B (zh) | 2017-12-29 |
Family
ID=54017668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410084612.3A Active CN104915926B (zh) | 2014-03-10 | 2014-03-10 | 图像处理设备和图像处理方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9704069B2 (zh) |
CN (1) | CN104915926B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104346801B (zh) * | 2013-08-02 | 2018-07-20 | 佳能株式会社 | 图像构图评估装置、信息处理装置及其方法 |
CN106446950B (zh) * | 2016-09-27 | 2020-04-10 | 腾讯科技(深圳)有限公司 | 一种图像处理方法及装置 |
CN106557766B (zh) * | 2016-11-22 | 2020-05-19 | 宇龙计算机通信科技(深圳)有限公司 | 模糊字符处理方法、系统及电子设备 |
CN106874845B (zh) * | 2016-12-30 | 2021-03-26 | 东软集团股份有限公司 | 图像识别的方法和装置 |
US20180293735A1 (en) * | 2017-04-11 | 2018-10-11 | Sony Corporation | Optical flow and sensor input based background subtraction in video content |
CN108932273B (zh) * | 2017-05-27 | 2022-03-04 | 腾讯科技(深圳)有限公司 | 图片筛选方法及装置 |
US10019654B1 (en) * | 2017-06-28 | 2018-07-10 | Accenture Global Solutions Limited | Image object recognition |
KR102472767B1 (ko) | 2017-09-14 | 2022-12-01 | 삼성전자주식회사 | 신뢰도에 기초하여 깊이 맵을 산출하는 방법 및 장치 |
WO2020100540A1 (ja) * | 2018-11-15 | 2020-05-22 | ソニー株式会社 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
CN111539456B (zh) * | 2020-04-02 | 2024-03-01 | 浙江华睿科技股份有限公司 | 一种目标识别方法及设备 |
CN113748430B (zh) * | 2021-06-28 | 2024-05-24 | 商汤国际私人有限公司 | 对象检测网络的训练与检测方法、装置、设备和存储介质 |
WO2023275603A1 (en) * | 2021-06-28 | 2023-01-05 | Sensetime International Pte. Ltd. | Methods, apparatuses, devices and storage media for training object detection network and for detecting object |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6983068B2 (en) * | 2001-09-28 | 2006-01-03 | Xerox Corporation | Picture/graphics classification system and method |
CN101814149A (zh) * | 2010-05-10 | 2010-08-25 | 华中科技大学 | 一种基于在线学习的自适应级联分类器训练方法 |
US8600108B2 (en) * | 2010-01-25 | 2013-12-03 | Hewlett-Packard Development Compant, L.P. | Data processing system and method |
CN103455823A (zh) * | 2013-08-27 | 2013-12-18 | 电子科技大学 | 一种基于分类模糊及图像分割的英文字符识别方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7006881B1 (en) * | 1991-12-23 | 2006-02-28 | Steven Hoffberg | Media recording device with remote graphic user interface |
US7242988B1 (en) * | 1991-12-23 | 2007-07-10 | Linda Irene Hoffberg | Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore |
US8352400B2 (en) * | 1991-12-23 | 2013-01-08 | Hoffberg Steven M | Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore |
US8032477B1 (en) * | 1991-12-23 | 2011-10-04 | Linda Irene Hoffberg | Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore |
US7466848B2 (en) * | 2002-12-13 | 2008-12-16 | Rutgers, The State University Of New Jersey | Method and apparatus for automatically detecting breast lesions and tumors in images |
US8488863B2 (en) * | 2008-11-06 | 2013-07-16 | Los Alamos National Security, Llc | Combinational pixel-by-pixel and object-level classifying, segmenting, and agglomerating in performing quantitative image analysis that distinguishes between healthy non-cancerous and cancerous cell nuclei and delineates nuclear, cytoplasm, and stromal material objects from stained biological tissue materials |
US8352094B2 (en) * | 2009-03-17 | 2013-01-08 | Palo Alto Research Center Incorporated | Technique for aggregating loads with time-varying operating cycles |
-
2014
- 2014-03-10 CN CN201410084612.3A patent/CN104915926B/zh active Active
-
2015
- 2015-03-09 US US14/642,321 patent/US9704069B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6983068B2 (en) * | 2001-09-28 | 2006-01-03 | Xerox Corporation | Picture/graphics classification system and method |
US8600108B2 (en) * | 2010-01-25 | 2013-12-03 | Hewlett-Packard Development Compant, L.P. | Data processing system and method |
CN101814149A (zh) * | 2010-05-10 | 2010-08-25 | 华中科技大学 | 一种基于在线学习的自适应级联分类器训练方法 |
CN103455823A (zh) * | 2013-08-27 | 2013-12-18 | 电子科技大学 | 一种基于分类模糊及图像分割的英文字符识别方法 |
Also Published As
Publication number | Publication date |
---|---|
US9704069B2 (en) | 2017-07-11 |
CN104915926A (zh) | 2015-09-16 |
US20150254529A1 (en) | 2015-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104915926B (zh) | 图像处理设备和图像处理方法 | |
Tang et al. | Saliency detection via combining region-level and pixel-level predictions with CNNs | |
Tong et al. | Salient object detection via bootstrap learning | |
Scharfenberger et al. | Statistical textural distinctiveness for salient region detection in natural images | |
Chaki et al. | Exploring image binarization techniques | |
Yang et al. | Graph-regularized saliency detection with convex-hull-based center prior | |
Jiang et al. | Multilayer spectral–spatial graphs for label noisy robust hyperspectral image classification | |
Zeng et al. | A local metric for defocus blur detection based on CNN feature learning | |
Wang et al. | Learning deep conditional neural network for image segmentation | |
Qi et al. | SaliencyRank: Two-stage manifold ranking for salient object detection | |
US20220180624A1 (en) | Method and device for automatic identification of labels of an image | |
Lee et al. | Learning to combine mid-level cues for object proposal generation | |
Lin et al. | Saliency detection via multi-scale global cues | |
Chen et al. | Cell nuclei detection and segmentation for computational pathology using deep learning | |
Wang et al. | Interactive multilabel image segmentation via robust multilayer graph constraints | |
Feild et al. | Scene text recognition with bilateral regression | |
Kim et al. | A shape preserving approach for salient object detection using convolutional neural networks | |
Pham et al. | Biseg: Simultaneous instance segmentation and semantic segmentation with fully convolutional networks | |
Lee et al. | Tracking-by-segmentation using superpixel-wise neural network | |
Lad et al. | Boundary preserved salient object detection using guided filter based hybridization approach of transformation and spatial domain analysis | |
Ye et al. | Stedge: Self-training edge detection with multilayer teaching and regularization | |
Rotem et al. | Combining region and edge cues for image segmentation in a probabilistic gaussian mixture framework | |
Shuhan et al. | Semantic image segmentation using region-based object detector | |
Wang et al. | Weakly-supervised salient object detection through object segmentation guided by scribble annotations | |
Wang et al. | MSGC: A new bottom-up model for salient object detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |