CN104346620B - 对输入图像中的像素分类的方法和装置及图像处理系统 - Google Patents

对输入图像中的像素分类的方法和装置及图像处理系统 Download PDF

Info

Publication number
CN104346620B
CN104346620B CN201310316961.9A CN201310316961A CN104346620B CN 104346620 B CN104346620 B CN 104346620B CN 201310316961 A CN201310316961 A CN 201310316961A CN 104346620 B CN104346620 B CN 104346620B
Authority
CN
China
Prior art keywords
pixel
super
confidence level
input picture
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310316961.9A
Other languages
English (en)
Other versions
CN104346620A (zh
Inventor
吴波
姜涌
吕尤
徐兴伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to CN201310316961.9A priority Critical patent/CN104346620B/zh
Priority to US14/338,127 priority patent/US9576201B2/en
Publication of CN104346620A publication Critical patent/CN104346620A/zh
Application granted granted Critical
Publication of CN104346620B publication Critical patent/CN104346620B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本公开内容涉及对输入图像中的像素分类的方法和装置及图像处理系统。该装置包括:第一置信度确定单元,被配置为确定输入图像中的像素中的每一个属于多个预定类别中的每一个的第一置信度;检测单元,被配置为通过使用用于检测所述多个预定类别中的特定类别的检测器,获取用于指示属于所述特定类别的像素的检测结果;更新单元,被配置为根据所述检测结果对第一置信度进行更新;以及类别确定单元,被配置为根据更新后的第一置信度,在所述多个预定类别中确定所述输入图像中的像素中的每一个属于的类别。从而,可以对像素进行更好的分类以防止不合适的多类别分割,并能够提高分类性能。

Description

对输入图像中的像素分类的方法和装置及图像处理系统
技术领域
本发明涉及图像处理领域,并且更具体地,涉及用于对输入图像中的像素进行分类的方法和装置以及图像处理系统。
背景技术
将整个图像分割为不同的可识别区域是计算机视觉中的核心挑战,其在最近几年受到了不断增加的关注。与可以找到特定对象的对象识别方法不同,多类别图像分割方法可以对图像中的所有像素进行分类,然后基于分类来同时识别多类别对象。如果试图准确地对图像进行分割以使得每个像素属于它真实所属的类别,那么图像中的每个像素需要被正确地分类到多个预定类别之一中。
通常,多类别分割方法基于像素或者“超像素(super-pixel)”。对于基于像素的方法,提取每个像素的邻域内的局部特征,并主要根据所提取的特征对该像素进行分类。对于基于超像素的方法,处理过程与基于像素的方法相似,其中将通过对输入图像执行过分割得到的每个超像素视为在基于像素的方法中使用的像素。也就是说,在基于超像素的方法中,首先将输入图像过分割为一些超像素,然后提取超像素内的局部特征以用于对相应的超像素进行分类。
以基于超像素的方法为例。在这样的方法中,可以使用多类别分类器根据所提取的超像素的特征将每个超像素分类到不同的预定类别中。对于每个超像素,多类别分类器计算超像素属于每个预定类别的置信度。然后,将超像素分类到所有预定类别中与超像素的置信度之中的最大值对应的类别。
例如,当对由草、人、树、天空和山构成的图像进行分割以识别多类别对象时,期望的输出是该图像中的每个像素被分类到其真正的类别中,这些类别由“草”类别、“人”类别、“树”类别、“天空”类别和“山”类别组成。也就是说,在理想的得到的图像中,真实的类别标签将被分配给每个像素。
在上述图像中,可以将所有对象划分为两组。一组是包括“人”类别的“东西(thing)”,另一组是包括“草”类别、“树”类别、“天空”类别和“山”类别的“物质(stuff)”。“东西”通常具有明显的大小和形状,其还可以包括诸如汽车、行人、自行车和房屋之类的其他显著对象。“物质”是精细尺度性质(fine-scale property)的同类图案或重复出现图案,但是不具有特定的空间度或形状,其还可以包括诸如道路之类的其他对象。两组之间的区别还可以在局部化方面得到解释。具体而言,“东西”能够容易地通过可限制“东西”出现的区域的约束框(bounding box)而被局部化,但是“物质”不能。
由于“物质”对象具有精细尺度下的图案,因此它的图案通常可以通过它的局部特征来捕获,并且它可以被正确地识别。然而,对于“东西”对象,需要较大尺度的信息来正确地识别它。有限视野内的局部特征不能正确地对它进行识别。例如,在上述图像中,如果通过过分割方法得到的超像素中的一个超像素(用超像素1表示)是属于人对象的、应该被分类到“人”类别中的裙子区域(裙子区域可能具有相同的颜色并呈现出纹理性质),另一个超像素(用超像素2表示)出现在草地内并应该被分类到“草”类别中,那么,当每个超像素中提取的局部特征被多类别分类器使用时,多类别分类器可能难以将超像素1与超像素2区分开,因为这两个超像素可能具有相似的局部特征。
因此,使用常规的多类别分割方法,通常难以将一些“东西”对象与“物质”对象区分开,并表现出差的分类性能。图像中的一些像素可能被错误地分类到不准确的类别中,从而使多类别分割劣化。
发明内容
本发明的实施例提供了用于对输入图像中的像素进行分类的方法和装置以及图像处理系统,其能够对像素进行更好的分类以防止不合适的多类别分割,从而提高分类性能。
在本发明的一方面中,提供了一种用于对输入图像中的像素进行分类的装置。该装置包括:第一置信度确定单元,被配置为确定输入图像中的像素中的每一个属于多个预定类别中的每一个的第一置信度;检测单元,被配置为通过使用用于检测所述多个预定类别中的特定类别的检测器,获取用于指示属于所述特定类别的像素的检测结果;更新单元,被配置为根据所述检测结果对第一置信度进行更新;以及类别确定单元,被配置为根据更新后的第一置信度,在所述多个预定类别中确定所述输入图像中的像素中的每一个属于的类别。
在本发明的另一方面中,提供了一种图像处理系统。该图像处理系统包括上述的装置。
在本发明的再一方面中,提供了一种用于对输入图像中的像素进行分类的方法。该方法包括:确定输入图像中的像素中的每一个属于多个预定类别中的每一个的第一置信度;通过使用用于检测所述多个预定类别中的特定类别的检测器,获取用于指示属于所述特定类别的像素的检测结果;根据所述检测结果对第一置信度进行更新;以及根据更新后的第一置信度,在所述多个预定类别中确定所述输入图像中的像素中的每一个属于的类别。
根据上述技术方案,通过根据由针对特定类别的检测器获取的检测结果来更新第一置信度,像素的第一置信度可以进一步受到检测器的检测结果影响并被其修改。通过考虑基于检测结果的更多信息来计算像素的置信度,能够更好地将像素分类到它们各自的真实类别中。从而,能够对像素进行更好的分类以防止不合适的多类别分割,并且能够提高分类性能。
从参照附图的以下描述中,本发明的其它特性特征和优点将变得清晰。
附图说明
并入说明书并且构成说明书的一部分的附图图示了本发明的实施例,并且与描述一起用于说明本发明的原理。
图1是示出可以实施本发明的实施例的计算机系统的示例性硬件配置的框图。
图2是示出根据本发明的实施例的用于对输入图像中的像素进行分类的方法的流程图。
图3是示出根据本发明的实施例的用于执行图2中的更新步骤的方法的流程图。
图4A和4B分别是示出从检测器获取的约束框和根据该约束框需要更新其第一置信度的像素的例子的示意图。
图5是示出根据本发明的实施例的用于执行图2中的更新步骤的另一方法的流程图。
图6A至6C分别是示出约束框、背景和前景初始化、以及提取的前景区域的例子的示意图。
图7是示出根据本发明的实施例的用于训练多类别分类器的方法的流程图。
图8A至8D分别是示出训练图像、基准真实(ground truth)图像、过分割之后的原始超像素、以及将由人体覆盖的超像素进行聚合之后的新的超像素的例子的示意图。
图9A是示出位置特征的确定的例子的示意图。
图9B是示出LBP码的确定的例子的示意图。
图10是示出由多类别分类器使用的神经网络模型的结构的示意图。
图11是示出用于执行反向传播(backpropagation)算法的示例性方法的流程图。
图12是示出根据本发明的实施例的用于使用图7中的方法训练的分类器来更新第一置信度的方法的流程图。
图13A和13B分别是示出前景区域以及通过对由该前景区域覆盖的子超像素进行聚合得到的聚合超像素的例子的示意图。
图14是示出根据本发明的实施例的用于对分类器进行训练并然后使用该分类器对输入图像中的像素进行分类的方法的概览。
图15是示出根据本发明的实施例的用于对输入图像中的像素进行分类的方法的流程图。
图16是示出现有的分类方法和根据本发明的实施例的提出的分类方法之间的比较结果的一些例子的示意图。
图17是示出根据本发明的实施例的用于对输入图像中的像素进行分类的装置的框图。
图18是示出根据本发明的实施例的用于对输入图像中的像素进行分类的另一装置的框图。
图19是示出根据本发明的实施例的图像处理系统的框图。
具体实施方式
以下将参照附图详细描述本发明的实施例。
请注意,类似的参考数字和字母指的是图中的类似的项目,因而一旦在一幅图中定义了一个项目,就不需要在之后的图中讨论了。
在本公开中,术语“第一”和“第二”等仅用于区分要素或步骤,但是不意图表示时间次序、优选性或重要性。
图1是示出能够实施本发明的实施例的计算机系统1000的硬件配置的框图。
如图1中所示,计算机系统包括计算机1110。计算机1110包括经由系统总线1121连接的处理单元1120、系统存储器1130、固定非易失性存储器接口1140、可移动非易失性存储器接口1150、用户输入接口1160、网络接口1170、视频接口1190和输出外围接口1195。
系统存储器1130包括ROM(只读存储器)1131和RAM(随机存取存储器)1132。BIOS(基本输入输出系统)1133驻留在ROM1131中。操作系统1134、应用程序1135、其它程序模块1136和某些程序数据1137驻留在RAM1132中。
诸如硬盘之类的固定非易失性存储器1141连接到固定非易失性存储器接口1140。固定非易失性存储器1141例如可以存储操作系统1144、应用程序1145、其它程序模块1146和某些程序数据1147。
诸如软盘驱动器1151和CD-ROM驱动器1155之类的可移动非易失性存储器连接到可移动非易失性存储器接口1150。例如,软盘1152可以被插入到软盘驱动器1151中,以及CD(光盘)1156可以被插入到CD-ROM驱动器1155中。
诸如鼠标1161和键盘1162之类的输入设备被连接到用户输入接口1160。
计算机1110可以通过网络接口1170连接到远程计算机1180。例如,网络接口1170可以经由局域网1171连接到远程计算机1180。或者,网络接口1170可以连接到调制解调器(调制器-解调器)1172,以及调制解调器1172经由广域网1173连接到远程计算机1180。
远程计算机1180可以包括诸如硬盘之类的存储器1181,其存储远程应用程序1185。
视频接口1190连接到监视器1191。
输出外围接口1195连接到打印机1196和扬声器1197。
图1所示的计算机系统仅仅是说明性的并且决不意图对本发明、其应用或用途进行任何限制。
图1所示的计算机系统可以被实施于任何实施例,可作为独立计算机,或者也可作为装置中的处理系统,可以移除一个或更多个不必要的组件,也可以向其添加一个或更多个附加的组件。
接下来,将参考图2描述用于对输入图像中的像素进行分类的方法200。
如图2所示,方法200可以包括第一置信度确定步骤S210、检测步骤S220、更新步骤S230和类别确定步骤S240。在第一置信度确定步骤S210中,可以确定输入图像中的像素中的每一个属于多个预定类别中的每一个的第一置信度。在检测步骤S220中,通过使用用于检测所述多个预定类别中的特定类别的检测器,可以获取用于指示属于所述特定类别的像素的检测结果。在更新步骤S230中,根据所述检测结果,可以对第一置信度进行更新。在类别确定步骤S240中,根据更新后的第一置信度,可以在所述多个预定类别中确定所述输入图像中的像素中的每一个属于的类别。
更具体地,可以提前预定义多个预定类别,以基本上识别可能出现在某些类型的图像中的对象。例如,对于通过拍摄人的图片而生成的任何输入图像,这些输入图像可能包括一些对象,这些对象中的每一个可以被确定为属于“人”类别、“建筑物”类别、“天空”类别、“水”类别、“树”类别和“自然”类别中的一个。因此,上述输入图像中的每个像素可以被分类到上述六个类别中的一个中,并且这些类别可以被视为能够基本上识别可能出现在这种类型的输入图像中的对象的预定类别。
机器或电子设备并不能知道每个像素实际属于的真实类别,而仅仅能够计算像素属于每个预定类别的概率。像素的置信度可以指示该像素属于每个预定类别的概率,并可以通过包括N个分量(N是大于1的整数)的向量来表示,其中每个分量对应于像素属于N个预定类别中的一个类别的概率。有多种方式计算步骤S210中的每个像素的第一置信度,包括上述的基于像素的方法和基于超像素的方法。例如,使用常规的多类别分类器,可以确定每个像素的第一置信度。继续上述例子,仅仅能够识别上述六个类别的多类别分类器可以确定某个像素属于“人”类别的概率是0.5,该像素属于“建筑物”类别的概率是0.1,该像素属于“天空”类别的概率是0.15,该像素属于“水”类别的概率是0.08,该像素属于“树”类别的概率是0.02,以及该像素属于“自然”类别的概率是0.15。上述六个概率的全部构成步骤S210中确定的像素的第一置信度。
此外,根据本发明的实施例,可以通过将在下面详细描述的改进分类器来确定每个像素的第一置信度。
在步骤S220中使用的检测器可以检测预定类别中的特定类别。通常,所述特定类别与“东西”有关。在这里可以使用任何现有的对象检测器,比如人检测器、动物检测器等。通过对象检测器,可以检测目标对象位于输入图像中的什么地方。检测器的输出可以是约束框,约束框指向属于检测器可以检测的特定类别的目标对象,或者检测器的输出还可以是一些其他形式以指示属于特定类别的像素位于什么地方。根据检测器,可以识别属于特定类别的像素。
根据本发明的实施例,检测步骤S220可以包括第一检测子步骤和第一确定子步骤。在第一检测子步骤中,可以通过使用检测器来检测输入图像中的包含有属于特定类别的像素的多个图像区域。在第一确定子单元中,可以将对所述多个图像区域进行聚合产生的区域确定为检测结果。
更具体地,输入图像可以被划分为具有不同位置和尺寸的一组图像区域。然后,使用特定对象检测器,可以检测所有图像区域中的每一个以确定该图像区域是否具有所述特定对象。在这之后,具有所述特定对象并占据类似位置的图像区域可以被聚合为一个唯一的区域,作为约束区域(或约束框)。
根据本发明的实施例,检测步骤S220可以包括第二检测子步骤和第二确定子步骤。在第二检测子单元中,在特定类别是人类别的情况下,可以通过使用作为人脸检测器的检测器来检测输入图像中的人脸区域。在第二确定子单元中,可以将对人脸区域进行放大生成的区域确定为检测结果。
例如,如果输入图像包含人,任意现存的人脸检测器可以被用于检测人脸位于什么地方,并且人脸框可以被放置在输入图像上以指示人脸的位置。然后,通过利用经验值对人脸框进行放大,可以确定用于定义可能出现人的区域的约束框。例如,对于人,如果他/她的人脸框被检测具有w*w的大小,那么可以通过将该大小向上延伸0.5w、向下延伸5w、向左延伸1.5w并向右延伸1.5w来对人脸框进行放大,从而可以获取具有4w*6.5w的约束框。由约束框限制的区域可以被用作检测结果。
另外,如果输入图像在其中具有多个人,那么使用人脸检测器,可以检测输入图像中的每个人脸。接着,通过对每个人脸框进行放大,可以得到多个约束框,从而可以识别人体位于的位置。
使用来自检测器的检测结果,可以在步骤S230中对第一置信度进行更新。
有多种方式对第一置信度进行更新。例如,可以通过使用将被更新的像素属于输入图像的前景的概率来对第一置信度进行更新。也可以通过使用之后描述的改进分类器来再次计算置信度而对第一置信度进行更新。还可以通过使用上述概率和改进分类器这两者来对第一置信度进行更新。接下来,将对关于如何更新第一置信度进行具体描述。
根据本发明的实施例,如图3的方法300所示,更新步骤S230可以包括更新像素确定子步骤S310和第一更新子步骤S320。
在更新像素确定子步骤S310中,可以根据检测结果确定其第一置信度需要被更新的多个像素。
在该步骤中,可以将由属于特定类别的像素构成的区域所覆盖的超像素中包含的像素确定为其第一置信度需要被更新的像素。
如众所周知的那样,可以根据像素位于的超像素的置信度来确定该像素的置信度。例如,像素的置信度等于该像素位于的超像素的置信度。
在对输入图像执行过分割之后可以得到超像素,其中每个超像素包含多个像素。使用多种已知的过分割方法,可以将图像分割为多个超像素。例如,可以使用以下方法来将图像分割为许多超像素:在文献1(文献1:D.Comaniciu和P.Meer的“Mean shift:a robustapproach toward feature space analysis”,IEEE PAMI,24(5):603-619,2002年5月)中描述的平均移位(mean-shift)方法、在文献2(文献2:P.Felzenszwalb和D.Huttenlocher的“Efficient Graph-Based Image Segmentation”,IJCV,Vol.59,No.2,2004年9月)中描述的Felzenszwalb方法、在文献3(文献3:R.Achanta、A.Shaji、K.Smith、A.Lucchi、P.Fua和S.Susstrunk的“SLIC Superpixels”,EPFL Technical Report no.149300,2010年6月)中描述的SLIC方法等等。
根据本发明的实施例,由属于特定类别的像素构成的区域所覆盖的超像素可以包括具有比第一预定阈值大的比例的超像素,其中所述比例等于该超像素与由属于特定类别的像素构成的区域重合的像素的个数除以该超像素的像素总数。例如,第一预定阈值可以是50%、60%或其他百分比,从而,如果超像素的大部分被基于检测结果的区域覆盖,那么该超像素中的像素的第一置信度将经受更新。
例如,如图4A所示,它示出了检测器输出的约束框,该约束框可以指示属于检测器可检测的特定类别的像素。如图4B所示,由通过约束框限制的约束区域所覆盖的超像素用黑色突出显示,这些超像素中的像素的第一置信度将在第一更新子步骤S320中被更新。
在第一更新子步骤S320中,针对多个像素中的每一个,可以根据该像素属于输入图像的前景的概率来更新该像素的第一置信度。
例如,多种二值(binary)分割算法可以提供每个像素属于输入图像的前景的概率或置信度。例如,Grab Cut算法可以将前景颜色分布建模为高斯混合模型(Gaussianmixture model)(GMM)p(x),其中x是像素RGB颜色。该p(x)可以被视为像素属于前景的置信度。由于前景通常可能包含针对特定类别的检测器可以检测的特定对象,所以前景可以对应于特定类别。接着,可以认为像素属于除了特定类别之外的其他预定类别中的每一个的置信度彼此相等,并且,像素属于所有类别的置信度之和等于1。
更具体地,对于一个像素,该像素属于前景的特定类别的置信度为p(x)。该像素属于其他预定类别中的每一个的置信度可以被表示如下:
Ck=(1-p(x))/(K-1)
其中,k是不指向预定类别中的特定类别的标签,K是预定类别的数量。
根据本发明的实施例,在像素的置信度是基于该像素所在的超像素的置信度而得到的情况下,第一更新子步骤可以包括第二置信度确定子步骤和更新子步骤。在第二置信度确定子步骤中,针对由属于特定类别的像素构成的区域所覆盖的超像素中的每一个,可以根据该超像素中包含的像素属于输入图像的前景的概率,确定该超像素属于多个预定类别中的每一个的第二置信度。在更新子步骤中,针对由属于特定类别的像素构成的区域所覆盖的超像素中的每一个,可以根据该超像素的第二置信度,对该超像素中包含的像素的第一置信度进行更新。
例如,对于由属于特定类别的像素构成的区域所覆盖的每个超像素,该超像素属于特定类别的第二置信度等于该超像素中包含的各像素属于输入图像的前景的概率的平均值。该超像素属于其他预定类别中的每一个的第二置信度等于该超像素中包含的各像素属于其他预定类别中的相应一个的概率的平均值,其中,像素属于其他预定类别中的每一个的概率等于[1-(该像素属于输入图像的前景的概率)]/(多个预定类别的个数-1)。
更具体地,当由属于特定类别的像素构成的区域所覆盖的超像素中的每个像素的置信度或概率被如上所述那样计算时,该超像素内的像素的置信度可以被平均,以如下那样得到该超像素的第二置信度:
其中|S|是超像素S的像素个数,C(i)是超像素S中的每个像素i的置信度(向量)。
根据本发明的实施例,对于包括在超像素中的每个像素,可以通过对该超像素的第二置信度和该像素的第一置信度进行线性组合来对该像素的第一置信度进行更新。
这两种类型的置信度的线性组合可以被表示如下:
C=λ*Cs+(1-λ)*Cm
其中,Cs是由基于检测结果的区域(例如图4B中的约束框内的区域)所覆盖的超像素的第二置信度(其在这里也可以被称为分割置信度),Cm是超像素中的像素的第一置信度(其在从分类器得到时也可以被称为模型置信度),C是该像素的更新后的第一置信度。要注意的是,Cs和Cm中的每一个是包含K个元素的向量,每个元素对应于K个预定类别中的一个。λ是0到1范围内的组合比例或权重。设置该比例的大致规则是如果对象检测结果是可靠的,那么选择较高的值。例如,在使用人脸检测算法得到人体的约束区域的情况下,由于人脸检测是可靠的,因此λ可被设置为相对较高的常数,例如0.9。
根据本发明的实施例,可以通过用分类器将基于检测结果的更新区域作为一个整体进行分类来执行更新步骤S230。如图5的方法500所示,更新步骤S230可以包括更新区域获取子步骤S510和第二更新子步骤S520。
在更新区域获取子步骤S510中,可以根据检测结果在由属于特定类别的像素构成的区域内确定更新区域。
例如,更新区域可以是通过使用二值前景/背景分割算法,从由检测器检测的约束框提取的前景区域。有多种能够确定输入图像中的前景区域的二值前景/背景分割算法。例如,Grab Cut算法可以被用于确定前景区域,该算法在C.Rother、V.Kolmogorov和A.Blake的、2004年出版于SIGGRAPH中的第309–314页的、标题为“GrabCut”的文献中被描述。由于Grab Cut算法仅仅需要输入初始矩形(该初始矩形可以通过可在检测步骤S220中生成的约束框而被自然地提供),该算法可以被认为是用于在本发明的实施例中确定前景区域的理想算法。然而,本领域技术人员能够容易地想到其他算法来确定前景区域,比如现存的Snake分割方法。要注意的是,通过Grab Cut算法和Snake分割方法,不仅可以提取前景区域,而且可以确定像素属于前景的概率。
如图6A所示,例如通过使用现存的人体检测器可以在输入图像上提供约束框。接着,如图6B所示,约束框内的图像区块可以被初始化为前景区域,并且它周围的5像素宽度的条带可以被选择为初始背景区域。在这之后,如图6C所示,通过使用Grab Cut算法,可以提取进一步的前景区域。图6C所示的进一步的前景区域可以被确定为更新区域,该更新区域需要被聚合为一个整体以被分类器分类。
在第二更新子步骤S520中,可以将更新区域作为一个整体利用分类器进行分类,并可以根据分类器的输出来更新更新区域内的各像素的第一置信度。
例如,分类器可以是基于超像素的多类别分类器。当分类器确定超像素的置信度时,还可以确定该超像素中包含的像素的置信度,例如,这两者彼此相等。
又例如,分类器可以是改进分类器,该改进分类器基于通过提前聚合训练图像被分割为的多个超像素中属于同一类别的超像素得到的聚合超像素以及未被聚合的超像素而被训练。
该步骤可以使用改进分类器来确定更新区域中的像素的更新后的第一置信度。该分类器的操作基本上与常规的分类器的操作相同,除了在该步骤中使用的分类器是以不同的方式被训练从而具有它相应的参数之外。当分类器被训练时,首先,将属于同一类别的一些超像素聚合为聚合超像素。接着,聚合超像素和剩余的未被聚合的超像素被用于计算分类器的参数,而不是如现有的分类器中那样在训练过程期间直接使用过分割之后的超像素。利用分类器的参数和每个超像素(在一些超像素被聚合在一起之后,这些超像素作为一个整体被视为一个超像素)的特征,分类器可以计算每个超像素的第一置信度。
由分类器使用的每个超像素的特征可以具有多种形式以包括不同的分量。当分类器通过一定形式的特征被训练时,这样的形式也被分类器用于计算置信度。例如,改进分类器可以使用特定形式的特征以执行更好的分类并简化特征的分量。该特定形式将结合分类器的训练被描述。
根据本发明的实施例,在步骤S520中使用的分类器可以通过图7所示的方法700被训练,方法700包括过分割步骤S710、聚合步骤S720和生成步骤S730,其中提前对属于特定类别的一些区域进行了聚合。例如,通过方法700训练的改进分类器可以具有更大的视野以识别属于“东西”的对象,比如属于“人”类别的对象。
在过分割步骤S710中,可以将训练图像过分割为一组区域。
更具体地,可以提前准备大量的训练图像。接着,将每个训练图像划分为用作训练样本的多个区域(例如,超像素)。诸如在文献1至3中描述的方法之类的多种流行的过分割方法可以被用于对训练图像进行过分割以得到超像素。当选择合适的过分割方法时需要被考虑的方面主要包括边界连续性、每个训练图像的超像素的平均个数以及实现速度。基于上述方面,可以选择在文献2中描述的Felzenszwalb方法来执行过分割。在使用的Felzenszwalb方法中,参数“k”影响超像素的数量,参数“min_size”控制超像素的最小尺寸。参数“k”和“min_size”可以被分别设置为150和100。
图8A示出了训练图像的例子,图8C示出了当在参数“count”等于150的情况下执行SLIC方法时得到的原始超像素。
在聚合步骤S720中,可以将属于特定类别的区域进行聚合,以得到聚合区域。
在该步骤中,对于每个训练图像,可以手动地提供具有基准真实标签的对应图像,因为在训练阶段中训练图像的基准真实情况是已知的。通过基准真实标签,可以识别属于同一类别的标记区域,比如能够识别类似人体、动物等的“东西”对象的标记区域。
图8B示出了与图8A所示的训练图像对应的具有基准真实标签的图像,该图像是手动获得的。在图8B中,属于诸如“人”类别之类的同一特定类别的标记区域可以被清楚地识别。
在将图8B所示的具有属于“人”类别的标记区域的图像与图8C所示的具有许多超像素的图像相比较之后,可以识别被“人”类别标记区域覆盖的超像素。例如,被标记区域覆盖的超像素可以包括其与标记区域重合的像素的个数占其总像素个数的比例超过某一预定阈值(例如80%)的超像素。接着,所识别的这些超像素被聚合在一起以生成聚合超像素。
如图8D所示,所有相连的属于同一预定类别(这里,“人”类别)的超像素被聚合在一起以形成新的大的超像素,从而得到在将由“人”类别标记区域覆盖的原始超像素进行聚合之后的新的超像素。这样,与“人”类别超像素(或样本)相关联的特征包括用于识别人的足够的信息。通过使用可以描述整个人体的显著性(discriminative)特征以送入分类器训练算法(例如,现有的分类器训练算法),可以生成改进分类器,该改进分类器能够更有效地对“东西”对象(这里,人体)进行分类。
本领域技术人员可以理解,可能存在多于一个的标记区域(标记区域通常是“东西”对象),于是可以得到多于一个的聚合超像素。每个聚合超像素可以被分配与它里面相连的原始超像素的类别标签相同的类别标签。例如,如果通过将属于“人”类别的超像素进行聚合而生成聚合超像素,那么,该聚合超像素也属于“人”类别。
虽然图8B到图8D使用超像素作为步骤S710中的区域,但是步骤S710中的区域可以是其他形式的像素集合,这可以取决于不同的过分割算法。
在生成步骤S730中,可以根据聚合区域的特征和其它未被聚合的区域的特征来生成改进分类器。
在该步骤中,可以提取在聚合步骤S720之后的、包括聚合区域和其他未被聚合的区域的每个区域(例如超像素)的局部特征。诸如强度、颜色和滤波器响应之类的简单特征是可用的。也可以涉及诸如局部二值模式(LBP)以及简单特征的直方图和统计数据之类的其他复杂特征。可以在上述的C.Rother、V.Kolmogorov和A.Blake的、2004年出版于SIGGRAPH中的第309–314页的、标题为“GrabCut”的文献中找到LBP的介绍。
在由发明人进行的实验中,对于每个区域(这里,超像素)构建了69维的特征向量。要注意的是,聚合区域被视为单个区域。
表1示出了对于每个超像素提取的特征,特征中包含的每个元素具有它自己的定义以表示某分量或分量的一部分。
表1
具体地,平均RGB是超像素上的平均RGB颜色。
面积(Area)是超像素的像素个数相对于图像的像素个数的比例,其可以被表示如下:
其中,m是超像素的像素个数,w和h分别是图像的宽度和高度。
X坐标的第二力矩是超像素中包含的像素的X坐标的方差,其可以被表示如下:
其中,m是超像素中包含的像素的数量,Xi是超像素中包含的第i个像素的X坐标,以及是超像素包含的所有像素的平均X坐标。
Y坐标的第二力矩是超像素中包含的像素的Y坐标的方差,其可以被表示如下:
其中,m是超像素中包含的像素的数量,Yi是超像素中包含的第i个像素的Y坐标,以及是超像素包含的所有像素的平均Y坐标。
X和Y坐标的第二混合力矩是X坐标和Y坐标的协方差,其可以被表示如下,其中每个元素具有与上述含义相同的含义:
为了计算“位置”特征,构建如图9A所示的坐标系。在该坐标系中,原点(0,0)是图像中心,X坐标和Y坐标都被归一化为处于[-1,1]的范围内。对于用黑色表示的超像素,该超像素的区域中心的x位置是在这样的坐标系下该超像素中的所有像素的平均X坐标。该超像素的区域中心的y位置是在这样的坐标系下该超像素中的所有像素的平均Y坐标。从该超像素的区域中心到图像中心的距离是从区域中心到图像中心的长度。
均一LBP可以以如下方式被计算。首先,可以在大小为3像素*3像素的窗口中观察超像素中的任一像素,该像素处于该窗口的中心。在该窗口中,中心像素的灰度值与它的8个邻域像素的灰度值相比较。如果邻域像素的灰度值大于中间像素的灰度值,那么中心像素对应于该邻域像素被标记为1;反之,中心像素对应于该邻域像素被标记为0。
例如,如图9B所示,当试图确定像素A的LBP码时,大小为3像素*3像素的窗口被放置在像素A上,A像素是中心像素。在图9B的左侧部分中,像素A具有灰度值6的强度,它的邻域像素分别具有灰度值6、5、2、1、7、8、9和7的强度。如果像素A不具有8个邻域像素(例如,像素A位于图像的右上角),那么缺少的邻域像素可以被设置为与像素A的灰度值相等的灰度值的强度,或者可以被设置为灰度值0的强度,或者可以被设置为使得像素A具有完整的8个邻域像素的其他灰度值的强度。
接着,它的8个邻域像素的灰度值与和像素A的灰度值6相等的阈值进行比较。如果邻域像素的灰度值大于阈值6,那么该邻域像素在像素A的LBP码中的对应位置处可以被编码为1;反之,该邻域像素在LBP码中的对应位置处可以被编码为0。
如图9B的右侧部分所示,像素A的每个邻域像素被编码为0或1,然后可以通过依次读取邻域像素的编码来得到与像素A对应的LBP码。在该例子中,像素A可以被编码为10001111。通过上述编码方法,每个像素可以被编码为LBP码。
某些局部二值模式(LBP码)是基本结构(texture)特性,使得所有3*3模式的绝大部分(有时超过90%)出现在所观察的结构中。这些基本模式可以被称为“均一”模式。对于某一长度的LBP码,通过均一模式,可以包括所有可能的LBP码的大部分,而其他LBP码可以被认为属于另一模式。可以基于一个LBP码中的空间转换次数对均一模式进行分类。例如,如果LBP码中的比特是0并且它在LBP码中的下一比特(如果比特是LBP码中的最后一个比特,那么它的下一比特是LBP码中的第一个比特)是1,那么存在一次空间转换。如果LBP码中的比特是1并且它在LBP码中的下一比特是0,那么存在一次空间转换。可以设计通过不大于2次的空间转换次数来形成均一模式。
更具体地,在上述8比特LBP码中,总共有59个模式,其中58个均一模式以及包括不能被分类到均一模式中的剩余LBP码的1个模式。在58个均一模式中,2个均一模式(2个LBP码:00000000和11111111)具有0次空间转换次数,56个均一模式(56个LBP码:10000000、10000001、10000011……)具有2次空间转换次数。
利用58个均一模式和包括剩余LBP码的1个模式,可以将超像素中的所有LBP码分类到总共59个模式中的一个模式中。因此,对于超像素可以获取其中模式是横轴而LBP码的数量是纵轴的直方图。通过使用直方图的高度值,可以得到超像素的59比特的均一LBP码。
在得到所有超像素的特征之后,可以训练分类器模型以生成多类别分类器。存在许多可用的用于构建分类器模型的方法,例如神经网络、支持向量机(Support VectorMachine,SVM)和树等等。在本发明的实施例中,可以通过任何现有的分类器训练方法来训练分类器,除了用于训练分类器的特征可能不同之外,其中用于训练分类器的特征可以包括聚合超像素的特征。这里,例如,选择具有隐藏层的前向(forward)神经网络来构建分类器,输出层的节点数量与分类器可以识别的预定类别的数量相同。
在图10中示出了神经网络模型的结构。每个超像素的特征Xi被输入到输入层中。例如,如果特征具有表1中所示的形式,那么在输入层中存在59个节点,每个节点接收特征的一个元素,并且p等于59。
在隐藏层中推导的特征Zm可以通过输入特征Xi的线性组合而创建,并可以被表示如下:
其中,X=(X1,X2,...,Xp)、α0m和αm是由可以产生Zm的函数f()使用的参数,M是隐藏层中的节点的数量。函数f()可以是如下这样的Sigmoid激活函数:
接着,输出Tk被建模为Zm的线性组合的函数,并可以被表示如下:
其中,Z=(Z1,Z2,...,ZM)、β0k和βk是用于产生Tk的参数,K是输出层中的节点的数量,其与分类器可以执行分类的预定类别的数量相等。
令α={α000011...α0MM}和β={β000011...β0KK}。θ={α,β}是将在训练阶段中学习的模型参数。
下面的Softmax函数被应用于将输出Tk转换为区间[0,1]内的置信度值。
其中,Ck表示超像素属于预定类别k的置信度。显然,每个超像素的总置信度等于1,这意味着:
假设存在N个训练样本(N个超像素,包括标记的聚合超像素和其他未被聚合的超像素)。提取的特征分别是xi,i=1,...,N。基准真实类别标签(预定类别)是gi∈{1,2,...,K}。那么,交叉熵误差(CEE)损失被定义如下:
其中,cgi(xi,θ)是神经网络模型通过模型参数θ计算出的样本xi属于类别gi的置信度。
训练进程(course)是找到使损失L(θ)最小化的最优θ*
该优化问题通常通过如图11的方法1100所示那样迭代执行的反向传播(BP)算法而解决。在Y.LeCun、L.Bottou、G.B.Orr和K.Muller的、于1998年出版于Springer的、标题为“Efficient backprop”的文献中描述了BP算法。并且,存在许多可用于训练神经网络模型的软件工具,比如R和
如图11所示,在步骤S1110中,在训练神经网络之前,将所有训练样本(超像素)的特征归一化。例如,首先,计算训练集上的特征向量的均值x和标准差σx。接着,对于每个样本特征xi,i=1,...,N,归一化包括如下步骤:
1.通过3*标准差σx进行标准化并将它截尾到[-1,1]
2.转换到区间[0.1,0.9]
xi''=xi'*0.4+0.5
其中,xi''是训练样本的归一化特征。
在步骤S1120中,通过从[-0.15,0.15]之间的均匀分布中进行采样来随机生成初始模型参数θ。
在步骤S1130中,BP算法被用于使损失L(θ)最小化,并且计算当前的θ。
在步骤S1140中,确定模型参数θ是否收敛,即,当前的θ和前一θ之间的差是否小于足够小的预定阈值。
如果当前的θ和前一θ之间的差不小于预定阈值,则方法1100返回到步骤S1130;反之,方法1100前进到步骤S1150。
在步骤S1150中,最优的θ*被计算出来,并且神经网络模型被确定。从而,分类器被生成。
当步骤S520涉及上述训练的分类器时,步骤S520可以包括聚合子步骤S1210和更新子步骤S1220,如图12的方法1200所示。
在聚合子步骤S1210中,可以将输入图像被分割为的多个超像素中被更新区域覆盖的超像素进行聚合,以得到聚合超像素。
例如,被更新区域覆盖的超像素可以包括其与更新区域重合的像素的个数占其总像素个数的比例超过第二预定阈值的超像素。第二预定阈值可以是50%、60%或其他百分比,从而,如果超像素的大部分被更新区域覆盖,那么该超像素将经受被聚合。被更新区域(例如,图6C中所示的提取的前景区域)覆盖的每个超像素可以被称为子超像素,并且所有子超像素将被聚合为被称为聚合超像素的单个超像素。
如图13A和图13B所示,它们分别示出了在输入图像中确定的更新区域(这里,前景区域)、以及通过将由前景区域覆盖的所有子超像素进行聚合得到的聚合超像素。对被前景区域覆盖的所有子超像素进行聚合的操作等价于根据超像素边界对前景区域进行整形。
接着,聚合超像素被视为单个超像素,并被输入到改变分类器以被分类。
在更新子步骤S1220中,根据利用分类器确定的聚合超像素的置信度,可以对构成聚合超像素的各超像素中包含的像素的第一置信度进行更新。
更具体地,通过使用方法700中训练的分类器,可以根据聚合超像素的特征来确定聚合超像素的置信度。接着,可以将聚合超像素中的每个像素的第一置信度更新为聚合超像素的置信度。其他未被聚合的超像素中的像素的第一置信度保持不变。
例如,如图13B所示,可以以表1所示的形式提取聚合超像素的特征和其他未被聚合的超像素的特征。要注意的是,其他未被聚合的超像素的特征可能是没有必要的。接着,用方法700训练的神经网络分类器通过使用所提取的特征来计算超像素的第一置信度。那些子超像素中的每一个的第一置信度与对应于它们的聚合超像素的第一置信度相同。不属于任何前景超像素的其他超像素的第一置信度保持不变。
根据本发明的实施例,步骤S210中的第一置信度不仅可以通过步骤S310-S320更新,还可以通过步骤S510-S520更新。步骤S310-320与步骤S510-S520的顺序不受限制。
返回到图2,在类别确定步骤S240中,可以根据更新后的第一置信度来确定每个像素的类别。更具体地,更新后的第一置信度可以包括在步骤S230中更新的第一置信度以及在步骤S210中确定而未在步骤S230中更新的其他第一置信度。
对于每个像素,步骤S230之后的最大第一置信度可以被选择,并被用于将该最大第一置信度对应的预定类别确定为该像素的类别,其可以被表示为:
其中,L是步骤S230之后的像素的最大第一置信度,Ck是步骤S230之后超像素属于预定类别k,k=1,...,K的第一置信度。识别预定类别中的对应类别的、具有最大第一置信度的类别标签(例如,“人”、“树”等)可以被分类给每个像素,从而输入图像中的每个像素可以被分类。本领域技术人员可以理解,当类别标签被分配给超像素时,该像素中的像素也被分配了该标签。
在每个像素的类别被确定之后,进一步的后处理方法(例如,移除被隔离的区域)是可选的,以使类别标签结果更加平滑。
要注意的是,对于步骤S210和S220的顺序没有限制,只要步骤S210和S220在步骤S230之前执行即可。
根据上述技术方案,通过根据检测结果来更新像素的第一置信度,第一置信度可以进一步受到影响并被修改,从而更好地反映对应像素属于的真实类别。通过考虑基于检测结果的更多信息来计算像素的置信度,能够更好地将像素分类到它们各自的真实类别中。从而,能够对像素进行更好的分类以防止不合适的多类别分割,并且能够提高分类性能。此外,通过使用提前对属于特定类别的一些区域进行聚合而训练的改进分类器,诸如人体之类的特定对象可以被视为一个整体,以使其全局特征被分类器利用而不是不同部分的局部特征,从而能够得到更好的分类结果。
上面具体描述了用于对输入图像中的每个像素进行分类的方法的细节。接下来,将参考图14和图15说明根据本发明的实施例的从构建改进分类器到对每个像素进行分类的总过程的流程。在图14和图15中,基于超像素的置信度来确定像素的置信度。
如图14所示,通过使用训练图像来训练多类别分类器。接着,多类别分类器被应用来执行输入图像的多类别分割。总过程1400包含两个主要部分:模型训练步骤S1410和多类别分割步骤S1420。
在模型训练步骤S1410中,使用作为例如通过过分割从训练图像得到的图像区块的样本来训练多类别分类器。分类器提取每个样本(超像素)的特征,并计算样本属于预定类别中的每一个的置信度。接着,分类器根据每个样本的置信度来预测该样本的类别标签。通常,所预测的类别是具有最大置信度的类别。损失函数被定义来评估由与所预测的类别对应的预测标签和与手动标记的类别对应的基准真实标签之间的差异所导致的损失。分类器训练进程是使整个训练集的总损失最小化。分类器训练方法可以参考方法700和相关的描述,为了避免重复将不在这里进行详细描述。
在多类别分割步骤S1420中,将把一个类别标签分类给输入图像中的每个像素/超像素的多类别分割被执行,以对每个像素进行分类。可以检测属于特定类别的对象的检测器需要在该步骤中被使用以更新从多类别分类器得到的置信度,从而提高分类的准确性。
可以在步骤S1420中使用图15所示的以下流程1500来确定每个像素的类别,具体细节可以参考结合方法200、300、500和1200描述的相应内容,为了避免重复将不在这里进行详细描述。
在步骤S1510中,使用在步骤S1510中训练的多类别分类器来确定每个像素属于预定类别中的每一个的置信度。首先,以与模型训练阶段中的方式相同的方式,对输入图像进行过分割,并对于每个超像素提取表1所示的特征。超像素特征如步骤S1110中那样被归一化,并被前向传播通过所训练的具有图10所示的结构的神经网络分类器。通过Softmax函数进一步转换每个类别的输出值,以生成该超像素的置信度(第一置信度)。像素置信度与它所属于的超像素的置信度相同。这里生成的置信度被称为原始置信度。
在步骤S1520中,特定对象通过使用相应的对象检测算法被检测。例如,如果在输入图像中存在多于一个的作为人体的特定对象,那么可以使用现有的人体检测算法来找到限制人体区域的约束框。这里,可以使用现有的人脸检测算法来找到人脸约束框,然后,将人脸约束框放大来猜测人体的位置。更具体地,人脸框(矩形)对人脸的位置进行标记,接着,约束框根据人脸框中的人脸信息对人体的可能位置进行标记。放大并计算人体区域的方法是经验性的并且是可变的,例如通过使用长度-宽度比例。利用该步骤,可以在输入图像中生成特定对象的约束框。
在步骤S1530中,主要被每个约束框覆盖的那些超像素的置信度被修改(更新)。对于那些超像素中的每一个,通过步骤S1532-S1539执行置信度更新步骤。
在步骤S1532中,提取每个约束框内的前景对象区域。约束框内的图像区块被初始化为前景区域,例如图6B所示的约束区域。然后,使用Grab Cut算法来执行二值前景/背景分割,以得到例如图6C所示的进一步的前景区域。
在步骤S1534中,生成每个约束框内的前景超像素。属于每个前景区域的那些子超像素被聚合为新的前景超像素。这里,如果超像素的大部分被区域覆盖,那么该超像素属于该区域。如图13A和图13B所示,该步骤等价于根据超像素边界对前景区域进行整形。
在步骤S1536中,在上述步骤S1534中得到的每个前景超像素被分类。提取每个前景超像素的特征,然后以与步骤S1510中的方式相同的方式通过步骤S1410中得到的神经网络分类器来计算每个前景超像素的模型置信度。那些子超像素的模型置信度与和它们对应的前景超像素的模型置信度相同。不属于任何前景超像素的其他超像素的模型置信度保持不变。
本领域技术人员可以理解,如果在步骤S1510之前生成前景超像素,并由此步骤S1510对前景超像素和其他未被聚合的超像素进行处理,那么步骤S1534是不必要的。
在步骤S1538中,根据二值分割结果来计算主要被约束框覆盖的那些超像素的分割置信度(第二置信度)。通过该步骤,被约束区域覆盖的每个超像素属于特定类别的第二置信度等于该超像素中的每个像素属于输入图像的前景的概率的平均值,并且被约束区域覆盖的每个超像素属于其他预定类别中的每一个的第二置信度等于包括在该超像素中的每个像素属于其他预定类别中的每一个的概率的平均值,其中像素属于其他预定类别中的每一个的概率等于[1-(像素属于输入图像的前景的概率)]/(多个预定类别的数量-1)。
在步骤S1539中,对于主要被约束框覆盖的每个超像素,将模型置信度和分割置信度线性组合在一起,以更新模型置信度。从而,对于主要被约束框覆盖的每个超像素生成新的置信度,未被约束框覆盖的其他超像素的置信度保持不变而等于原始置信度。
在步骤S1540中,可以根据每个像素位于的超像素的模型置信度来确定该像素的类别标签。对于在步骤S1510中获取的每个超像素,它的每个像素可以被分配与在该超像素的模型置信度的所有分量中的最大分量对应的类别标签。从而,可以确定输入图像中的每个像素的类别。
在上述方法中,与用于对像素进行分类的现有方法相比较,可以使用通过根据检测器的特定对象检测结果将模型置信度和分割置信度进行组合来更新置信度的处理,并且可以得到利用在“东西”对象的整个区域中提取的显著性特征的改进多类别分类器。从而,主要通过上述两方面,可以以简单并且有效的方式来执行利用对象检测结果的增强的多类别分割。
通过上述方法,至少可以得到以下技术优点。首先,计算成本被降低。第二,对于诸如人体像素的分类,改进的多类别分类器由于提取整个人体区域中的特征而减小人体误报率。由于在整个人体中提取人体特征,因此在非人体超像素中找到这样的人体特征的概率变低。第三,基于分割的置信度修改或更新适应于“东西”对象变型。诸如人体或动物之类的“东西”对象总是具有多种多样的善于表达的姿态。通过二值分割算法得到的分割置信度相比于可能提前学习的单个置信度模板(template)而言更加可实行和准确。
当将上述方法应用到一些图像数据集时,可以得到更好的性能。例如,发明人对包括650个训练图像和162个测试图像(162个输入图像)的数据集测试了所提出的方法。在实验中,每个像素被分类到以下四个类别之一中:天空、植物(例如树和草)、人和其他。在这四个类别中,人属于“东西”类别。现有的人脸和人体检测器被用于检测人体区域并生成新的置信度。
表2和表3中的每一个示出了相对于像素分类的准确度而言现有方法和所提出的方法之间的比较。现有方法使用常规的多类别分类器,并且不涉及置信度更新。所提出的方法使用所提出的改进多类别分类器,并且涉及置信度更新,例如通过分割置信度和模型置信度两者进行更新。关于表2,使用Felzenszwalb过分割方法,并且所提取的特征包括表1所示的69个元素。关于表3,使用SLIC过分割方法,并且所提取的特征包括225个元素,这225个元素不仅包括上述69个元素,而且还包括与颜色信息以及Gabor和LOG滤波器响应特征有关的更多元素。
根据表2和表3所示的数量结果,可以清楚地看到,总的像素准确度特别是“人”类别的准确度被提高了。总的准确度仅仅提高了1.4%,这是因为在162个测试图像中“人”像素的数量仅为总像素的4.78%。
表2
天空 植物 其他 总共
现有方法 4.7% 73.8% 42.8% 91.8% 85.7%
所提出的方法 5.9% 74.4% 65.2% 91.7% 87.1%
表3
天空 植物 其他 总共
现有方法 1.1% 73.4% 33.0% 93.2% 84.8%
所提出的方法 4.4% 77.3% 80.1% 91.5% 88.1%
上述两个表清楚地表明,所提出的方法在不同的分割方法和特征下能够提高类别(特别是“人”类别)的分类准确度。
图16进一步给出了现有方法和所提出的方法之间的比较的一些例子,每个例子被示出在同一行中。如图16所示,(a)列示出了输入图像。(b)列示出了当应用使用现有多类别分类器而没有置信度更新的现有方法时的分类结果。(c)列示出了当应用使用改进多类别分类器并具有置信度更新的所提出的方法时的分类结果。在这些图中,“1”表示被分类为属于“天空”类别的像素,“2”表示被分类为属于“植物”类别的像素,“3”表示被分类为属于“人”类别的像素,“4”表示被分类为属于“其他”类别的像素。可以清楚地看到,输入图像中基本上所有的像素能够被正确地分类。
用于多类别分割或分类的上述方法通常在图像理解中起到重要作用。它可以被用在许多应用中,比如图像检索、自适应图像增强、机器人技术和自动驱动。关于自动驱动,通过照相机捕获输入图像。然后,可以将多类别分割应用来对图像中的周围场景进行分割和识别以确定场景构成,比如获得道路、建筑物和行人的位置。接着,这样的信息能够被用于自动生成正确的驾驶指令。
接下来,将参照图17和18描述根据本发明的实施例的用于对输入图像中的像素进行分类的装置。这些装置中的每个单元可以执行与上述方法中的相应步骤基本上相同的操作,并将省略它们的详细描述。
图17示出了根据本发明的实施例的用于对输入图像中的像素进行分类的装置1700。装置1700可以包括第一置信度确定单元1710、检测单元1720、更新单元1730和类别确定单元1740。第一置信度确定单元1710可被配置为确定输入图像中的像素中的每一个属于多个预定类别中的每一个的第一置信度。检测单元1720可被配置为通过使用用于检测所述多个预定类别中的特定类别的检测器,获取用于指示属于所述特定类别的像素的检测结果。更新单元1730可被配置为根据所述检测结果对第一置信度进行更新。类别确定单元1740可被配置为根据更新后的第一置信度,在所述多个预定类别中确定所述输入图像中的像素中的每一个属于的类别。
对于这些单元1710-1740的上述和其他操作和/或功能,可以参考关于方法200的相应描述,从而为了避免重复,这里将不对这些单元进行详细描述。
利用上述装置,可以根据由针对特定类别的检测器获取的检测结果来更新第一置信度,从而像素的第一置信度可以进一步受到检测器的检测结果影响并被其修改。通过考虑基于检测结果的更多信息来计算像素的置信度,能够更好地将像素分类到它们各自的真实类别中。从而,能够对像素进行更好的分类以防止不合适的多类别分割,并且能够提高分类性能。
图18示出了根据本发明的实施例的用于对输入图像中的每个像素进行分类的另一装置1800。装置1800中的第一置信度确定单元1810、检测单元1820、更新单元1830和类别确定单元1840可以与装置1700中的第一置信度确定单元1710、检测单元1720、更新单元1730和类别确定单元1740基本相同。
根据本发明的实施例,更新单元1830可以包括更新像素确定子单元1832和第一更新子单元1834。更新像素确定子单元1832可被配置为根据所述检测结果确定其第一置信度需要被更新的多个像素。第一更新子单元1834可被配置为针对所述多个像素中的每一个,根据该像素属于输入图像的前景的概率来更新该像素的第一置信度。
根据本发明的实施例,像素的置信度可以是根据该像素所在的超像素的置信度来确定的,并且超像素可以是通过对所述输入图像进行分割而得到的。在这样的情况下,更新像素确定子单元1832可以进一步被配置为将由属于所述特定类别的像素构成的区域所覆盖的超像素中包含的像素确定为其第一置信度需要被更新的像素,以及第一更新子单元1834可以包括第二置信度确定子单元1834-2和更新子单元1834-4。第二置信度确定子单元1834-2可被配置为针对由属于所述特定类别的像素构成的区域所覆盖的超像素中的每一个,根据该超像素中包含的像素属于输入图像的前景的概率,确定该超像素属于所述多个预定类别中的每一个的第二置信度。更新子单元1834-4可被配置为针对由属于所述特定类别的像素构成的区域所覆盖的超像素中的每一个,根据该超像素的第二置信度,对该超像素中包含的像素的第一置信度进行更新。
例如,针对由属于所述特定类别的像素构成的区域所覆盖的超像素中的每一个,该超像素的第二置信度可以被确定如下。该超像素属于所述特定类别的第二置信度等于该超像素中包含的各像素属于所述输入图像的前景的概率的平均值,以及该超像素属于其他预定类别中的每一个的第二置信度等于该超像素中包含的各像素属于其他预定类别中的相应一个的概率的平均值,其中,像素属于其他预定类别中的每一个的概率等于[1-(该像素属于所述输入图像的前景的概率)]/(所述多个预定类别的个数-1)。
根据本发明的实施例,更新子单元1834-4可以进一步被配置为针对该超像素中包含的像素中的每一个,通过对该超像素的第二置信度和该像素的第一置信度进行线性组合,对该像素的第一置信度进行更新。关于线性组合,例如,分配给第二置信度的加权系数可以大于分配给第一置信度的加权系数。
根据本发明的实施例,由属于所述特定类别的像素构成的区域所覆盖的超像素可以包括具有比第一预定阈值大的比例的超像素,其中所述比例等于该超像素与由属于所述特定类别的像素构成的区域重合的像素的个数除以该超像素的像素总数。
根据本发明的实施例,更新单元1830可以包括更新区域获取子单元1836和第二更新子单元1838。更新区域获取子单元1836可被配置为根据所述检测结果在由属于所述特定类别的像素构成的区域内确定更新区域。第二更新子单元1838可被配置为将所述更新区域作为一个整体利用分类器进行分类,并根据分类器的输出更新所述更新区域内的各像素的第一置信度。在一些实施例中,子单元1832-1838可以同时被包括在装置1800中。
根据本发明的实施例,由第二更新子单元1838使用的分类器可以通过训练单元被训练。该训练单元可以包括过分割子单元、聚合子单元和生成子单元。过分割子单元可被配置为将训练图像过分割为一组区域。聚合子单元可被配置为将属于所述特定类别的区域进行聚合,以得到聚合区域。生成子单元可被配置为根据聚合区域的特征和其它未被聚合的区域的特征,生成所述分类器。要注意的是,训练单元可以被包括在装置1800中,或者可以不被包括在装置1800中,或者可以部分地被包括在装置1800中。
根据本发明的实施例,在像素的置信度是根据该像素所在的超像素的置信度来确定的情况下,第二更新子单元1838可以包括聚合子单元1838-2和更新子单元1838-4。聚合子单元1838-2可被配置为将输入图像被分割为的多个超像素中被所述更新区域覆盖的超像素进行聚合,以得到聚合超像素。更新子单元1838-4可被配置为根据利用所述分类器确定的所述聚合超像素的置信度,对构成所述聚合超像素的各超像素中包含的像素的第一置信度进行更新。
根据本发明的实施例,被所述更新区域覆盖的超像素可以包括其与所述更新区域重合的像素的个数占其总像素个数的比例超过第二预定阈值的超像素。
根据本发明的实施例,检测单元1820可以包括第一检测子单元1822和第一确定子单元1824。第一检测子单元1822可被配置为通过使用所述检测器,检测所述输入图像中的包含有属于所述特定类别的像素的多个图像区域。第一确定子单元1824可被配置为将对所述多个图像区域进行聚合产生的区域确定为所述检测结果。
根据本发明的实施例,检测单元1820可以包括第二检测子单元1826和第二确定子单元1828。第二检测子单元1826可被配置为在所述特定类别是人类别的情况下,通过使用作为人脸检测器的所述检测器来检测所述输入图像中的人脸区域。第二确定子单元1828可被配置为将对所述人脸区域进行放大生成的区域确定为所述检测结果。
对于这些子单元1822到1838-4的上述和其他操作和/或功能,可以参照关于方法200、300、500、700和1200的相应描述,从而为了避免重复将不在这里对这些子单元进行详细描述。
通过更新单元的使用,可以根据从检测单元获取的检测结果来更新像素的第一置信度,从而第一置信度可以进一步受到影响并被修改,使得相应像素属于的真实类别能够被更好地反映。通过考虑更多信息来计算像素的置信度,能够更好地将像素分类到它们各自的真实类别中。从而,能够对像素进行更好的分类以防止不合适的多类别分割,并且能够提高分类性能。此外,在第二更新子单元使用通过提前对属于特定类别的一些区域进行聚合而训练的改进分类器的情况下,诸如人体之类的特定对象可以被视为一个整体,以使其全局特征被分类器利用而不是不同部分的局部特征,从而能够得到更好的分类结果。
图19示出了根据本发明的实施例的图像处理系统1900。图像处理系统1900可以包括用于对输入图像中的每个像素进行分类的装置1910。分类装置1910可以是装置1700,或者可以是装置1800。图像处理系统1900可以是需要对输入图像进行处理以确定每个像素的类别的任何设备,比如照相机、视频照相机、个人计算机、GPS(全球定位系统)导航设备和其他电子设备。装置1910可以通过软件、硬件或者它们的组合来实现。利用图像处理系统,可以得到更好的分类结果。
可以通过许多方式来实施本发明的方法和设备。例如,可以通过软件、硬件、固件、或其任何组合来实施本发明的方法和设备。上述的方法步骤的次序仅是说明性的,本发明的方法步骤不限于以上具体描述的次序,除非以其他方式明确说明。此外,在一些实施例中,本发明还可以被实施为记录在记录介质中的程序,其包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于实现根据本发明的方法的程序的记录介质。
虽然已通过示例详细展示了本发明的一些具体实施例,但是本领域技术人员应当理解,上述示例仅意图是说明性的而不限制本发明的范围。本领域技术人员应该理解,上述实施例可以被修改而不脱离本发明的范围和实质。本发明的范围是通过所附的权利要求限定的。

Claims (15)

1.一种用于对输入图像中的像素进行分类的装置,包括:
第一置信度确定单元,被配置为确定输入图像中的像素中的每一个属于多个预定类别中的每一个的第一置信度;
检测单元,被配置为通过使用用于检测所述多个预定类别中的特定类别的检测器,获取用于指示属于所述特定类别的像素的检测结果;
更新单元,被配置为根据所述检测结果对第一置信度进行更新;
类别确定单元,被配置为根据更新后的第一置信度,在所述多个预定类别中确定所述输入图像中的像素中的每一个属于的类别;
其中,所述更新单元包括:
更新像素确定子单元,被配置为根据所述检测结果确定其第一置信度需要被更新的多个像素;以及
第一更新子单元,被配置为针对所述多个像素中的每一个,根据该像素属于输入图像的前景的概率来更新该像素的第一置信度;
其中,像素的置信度是根据该像素所在的超像素的置信度来确定的,超像素是通过对所述输入图像进行分割而得到的,
其中,所述更新像素确定子单元进一步被配置为将由属于所述特定类别的像素构成的区域所覆盖的超像素中包含的像素确定为其第一置信度需要被更新的像素,
其中,所述第一更新子单元包括:
第二置信度确定子单元,被配置为针对由属于所述特定类别的像素构成的区域所覆盖的超像素中的每一个,根据该超像素中包含的像素属于输入图像的前景的概率,确定该超像素属于所述多个预定类别中的每一个的第二置信度;以及
更新子单元,被配置为针对由属于所述特定类别的像素构成的区域所覆盖的超像素中的每一个,根据该超像素的第二置信度,对该超像素中包含的像素的第一置信度进行更新。
2.根据权利要求1所述的装置,其中,针对由属于所述特定类别的像素构成的区域所覆盖的超像素中的每一个,
该超像素属于所述特定类别的第二置信度等于该超像素中包含的各像素属于所述输入图像的前景的概率的平均值;以及
该超像素属于其他预定类别中的每一个的第二置信度等于该超像素中包含的各像素属于其他预定类别中的相应一个的概率的平均值,其中,像素属于其他预定类别中的每一个的概率等于[1-(该像素属于所述输入图像的前景的概率)]/(所述多个预定类别的个数-1)。
3.根据权利要求1所述的装置,其中,所述更新子单元进一步被配置为针对该超像素中包含的像素中的每一个,通过对该超像素的第二置信度和该像素的第一置信度进行线性组合,对该像素的第一置信度进行更新。
4.根据权利要求3所述的装置,其中,分配给第二置信度的加权系数大于分配给第一置信度的加权系数。
5.根据权利要求1所述的装置,其中,所述由属于所述特定类别的像素构成的区域所覆盖的超像素包括具有比第一预定阈值大的比例的超像素,其中所述比例等于该超像素与由属于所述特定类别的像素构成的区域重合的像素的个数除以该超像素的像素总数。
6.根据权利要求1所述的装置,其中,所述更新单元包括:
更新区域获取子单元,被配置为根据所述检测结果在由属于所述特定类别的像素构成的区域内确定更新区域;以及
第二更新子单元,被配置为将所述更新区域作为一个整体利用分类器进行分类,并根据分类器的输出更新所述更新区域内的各像素的第一置信度。
7.根据权利要求6所述的装置,其中,所述分类器通过训练单元被训练,所述训练单元包括:
过分割子单元,被配置为将训练图像过分割为一组区域;
聚合子单元,被配置为将属于所述特定类别的区域进行聚合,以得到聚合区域;以及
生成子单元,被配置为根据聚合区域的特征和其它未被聚合的区域的特征,生成所述分类器。
8.根据权利要求7所述的装置,其中,像素的置信度是根据该像素所在的超像素的置信度来确定的,超像素是通过对所述输入图像进行分割而得到的,
其中,所述第二更新子单元包括:
聚合子单元,被配置为将输入图像被分割为的多个超像素中被所述更新区域覆盖的超像素进行聚合,以得到聚合超像素;以及
更新子单元,被配置为根据利用所述分类器确定的所述聚合超像素的置信度,对构成所述聚合超像素的各超像素中包含的像素的第一置信度进行更新。
9.根据权利要求8所述的装置,其中,所述被所述更新区域覆盖的超像素包括其与所述更新区域重合的像素的个数占其像素总数的比例超过第二预定阈值的超像素。
10.根据权利要求1所述的装置,其中,所述检测单元包括:
第一检测子单元,被配置为通过使用所述检测器,检测所述输入图像中的包含有属于所述特定类别的像素的多个图像区域;以及
第一确定子单元,被配置为将对所述多个图像区域进行聚合产生的区域确定为所述检测结果。
11.根据权利要求1所述的装置,其中,所述检测单元包括:
第二检测子单元,被配置为在所述特定类别是人类别的情况下,通过使用作为人脸检测器的所述检测器来检测所述输入图像中的人脸区域;以及
第二确定子单元,被配置为将对所述人脸区域进行放大生成的区域确定为所述检测结果。
12.一种图像处理系统,包括:
根据权利要求1至11中任一项所述的装置。
13.一种用于对输入图像中的像素进行分类的方法,包括:
确定输入图像中的像素中的每一个属于多个预定类别中的每一个的第一置信度;
通过使用用于检测所述多个预定类别中的特定类别的检测器,获取用于指示属于所述特定类别的像素的检测结果;
根据所述检测结果对第一置信度进行更新;以及
根据更新后的第一置信度,在所述多个预定类别中确定所述输入图像中的像素中的每一个属于的类别,
其中,进行更新的步骤包括:
根据所述检测结果确定其第一置信度需要被更新的多个像素;以及
针对所述多个像素中的每一个,根据该像素属于输入图像的前景的概率来更新该像素的第一置信度,
其中,像素的置信度是根据该像素所在的超像素的置信度来确定的,超像素是通过对所述输入图像进行分割而得到的;
其中,根据所述检测结果确定其第一置信度需要被更新的多个像素的步骤包括:将由属于所述特定类别的像素构成的区域所覆盖的超像素中包含的像素确定为其第一置信度需要被更新的像素;
其中,针对所述多个像素中的每一个,根据该像素属于输入图像的前景的概率来更新该像素的第一置信度的步骤包括:
针对由属于所述特定类别的像素构成的区域所覆盖的超像素中的每一个,根据该超像素中包含的像素属于输入图像的前景的概率,确定该超像素属于所述多个预定类别中的每一个的第二置信度;以及
针对由属于所述特定类别的像素构成的区域所覆盖的超像素中的每一个,根据该超像素的第二置信度,对该超像素中包含的像素的第一置信度进行更新。
14.一种用于对输入图像中的像素进行分类的装置,包括:
第一置信度确定单元,被配置为确定输入图像中的像素中的每一个属于多个预定类别中的每一个的第一置信度;
检测单元,被配置为通过使用用于检测所述多个预定类别中的特定类别的检测器,获取用于指示属于所述特定类别的像素的检测结果;
更新单元,被配置为根据所述检测结果对第一置信度进行更新;
类别确定单元,被配置为根据更新后的第一置信度,在所述多个预定类别中确定所述输入图像中的像素中的每一个属于的类别;
其中,所述更新单元包括:
更新区域获取子单元,被配置为根据所述检测结果在由属于所述特定类别的像素构成的区域内确定更新区域;以及
第二更新子单元,被配置为将所述更新区域作为一个整体利用分类器进行分类,并根据分类器的输出来更新所述更新区域内的各像素的第一置信度。
15.一种用于对输入图像中的像素进行分类的方法,包括:
确定输入图像中的像素中的每一个属于多个预定类别中的每一个的第一置信度;
通过使用用于检测所述多个预定类别中的特定类别的检测器,获取用于指示属于所述特定类别的像素的检测结果;
根据所述检测结果对第一置信度进行更新;
根据更新后的第一置信度,在所述多个预定类别中确定所述输入图像中的像素中的每一个属于的类别;
其中,进行更新的步骤包括:
根据所述检测结果在由属于所述特定类别的像素构成的区域内确定更新区域;以及
将所述更新区域作为一个整体利用分类器进行分类,并根据分类器的输出来更新所述更新区域内的各像素的第一置信度。
CN201310316961.9A 2013-07-25 2013-07-25 对输入图像中的像素分类的方法和装置及图像处理系统 Active CN104346620B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310316961.9A CN104346620B (zh) 2013-07-25 2013-07-25 对输入图像中的像素分类的方法和装置及图像处理系统
US14/338,127 US9576201B2 (en) 2013-07-25 2014-07-22 Method and apparatus for classifying pixels in an input image and image processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310316961.9A CN104346620B (zh) 2013-07-25 2013-07-25 对输入图像中的像素分类的方法和装置及图像处理系统

Publications (2)

Publication Number Publication Date
CN104346620A CN104346620A (zh) 2015-02-11
CN104346620B true CN104346620B (zh) 2017-12-29

Family

ID=52390595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310316961.9A Active CN104346620B (zh) 2013-07-25 2013-07-25 对输入图像中的像素分类的方法和装置及图像处理系统

Country Status (2)

Country Link
US (1) US9576201B2 (zh)
CN (1) CN104346620B (zh)

Families Citing this family (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6588444B2 (ja) * 2014-01-28 2019-10-09 ベンタナ メディカル システムズ, インコーポレイテッド 全スライド組織セグメント化のための適応分類
US9916508B2 (en) * 2015-03-12 2018-03-13 Toyota Jidosha Kabushiki Kaisha Detecting roadway objects in real-time images
CN106156785B (zh) * 2015-04-07 2019-10-08 佳能株式会社 对象检测方法及对象检测设备
WO2016179830A1 (en) * 2015-05-14 2016-11-17 Intel Corporation Fast mrf energy optimization for solving scene labeling problems
US9842282B2 (en) 2015-05-22 2017-12-12 Here Global B.V. Method and apparatus for classifying objects and clutter removal of some three-dimensional images of the objects in a presentation
US10311302B2 (en) 2015-08-31 2019-06-04 Cape Analytics, Inc. Systems and methods for analyzing remote sensing imagery
CA3004657A1 (en) * 2015-11-10 2017-05-18 Exact Imaging, Inc. A system comprising indicator features in high-resolution micro-ultrasound images
WO2017088340A1 (zh) * 2015-11-25 2017-06-01 腾讯科技(深圳)有限公司 图像信息处理方法、装置和计算机存储介质
US9965703B2 (en) * 2016-06-08 2018-05-08 Gopro, Inc. Combining independent solutions to an image or video processing task
CN106845352B (zh) * 2016-12-23 2020-09-18 北京旷视科技有限公司 行人检测方法和装置
US10242503B2 (en) 2017-01-09 2019-03-26 Snap Inc. Surface aware lens
CN108230346B (zh) * 2017-03-30 2020-09-11 北京市商汤科技开发有限公司 用于分割图像语义特征的方法和装置、电子设备
US10410353B2 (en) 2017-05-18 2019-09-10 Mitsubishi Electric Research Laboratories, Inc. Multi-label semantic boundary detection system
US10699163B1 (en) * 2017-08-18 2020-06-30 Massachusetts Institute Of Technology Methods and apparatus for classification
GB2565775A (en) * 2017-08-21 2019-02-27 Nokia Technologies Oy A Method, an apparatus and a computer program product for object detection
CN107527054B (zh) * 2017-09-19 2019-12-24 西安电子科技大学 基于多视角融合的前景自动提取方法
EP3474189A1 (en) * 2017-10-18 2019-04-24 Aptiv Technologies Limited A device and a method for assigning labels of a plurality of predetermined classes to pixels of an image
CN110008792B (zh) * 2018-01-05 2021-10-22 比亚迪股份有限公司 图像检测方法、装置、计算机设备及存储介质
WO2019144287A1 (en) * 2018-01-23 2019-08-01 SZ DJI Technology Co., Ltd. Systems and methods for automatic water surface and sky detection
CN108875540B (zh) * 2018-03-12 2021-11-05 北京旷视科技有限公司 图像处理方法、装置和系统及存储介质
CN108648233B (zh) * 2018-03-24 2022-04-12 北京工业大学 一种基于深度学习的目标识别与抓取定位方法
CN110414541B (zh) * 2018-04-26 2022-09-09 京东方科技集团股份有限公司 用于识别物体的方法、设备和计算机可读存储介质
CN110580487A (zh) 2018-06-08 2019-12-17 Oppo广东移动通信有限公司 神经网络的训练方法、构建方法、图像处理方法和装置
CN108805198B (zh) * 2018-06-08 2021-08-31 Oppo广东移动通信有限公司 图像处理方法、装置、计算机可读存储介质和电子设备
CN109272016B (zh) * 2018-08-08 2021-03-23 广州视源电子科技股份有限公司 目标检测方法、装置、终端设备和计算机可读存储介质
CN110569693B (zh) * 2018-08-16 2023-05-12 创新先进技术有限公司 车体颜色识别方法及装置
US10775174B2 (en) * 2018-08-30 2020-09-15 Mapbox, Inc. Map feature extraction system for computer map visualizations
US11030813B2 (en) 2018-08-30 2021-06-08 Snap Inc. Video clip object tracking
CN109344752B (zh) * 2018-09-20 2019-12-10 北京字节跳动网络技术有限公司 用于处理嘴部图像的方法和装置
US10495476B1 (en) * 2018-09-27 2019-12-03 Phiar Technologies, Inc. Augmented reality navigation systems and methods
US11448518B2 (en) * 2018-09-27 2022-09-20 Phiar Technologies, Inc. Augmented reality navigational overlay
CN110969641A (zh) * 2018-09-30 2020-04-07 北京京东尚科信息技术有限公司 图像处理方法和装置
CN109284735B (zh) * 2018-10-17 2019-11-29 思百达物联网科技(北京)有限公司 鼠情监控方法、装置及存储介质
EP3881161A1 (en) 2018-11-14 2021-09-22 Cape Analytics, Inc. Systems, methods, and computer readable media for predictive analytics and change detection from remotely sensed imagery
US11176737B2 (en) 2018-11-27 2021-11-16 Snap Inc. Textured mesh building
US11501499B2 (en) * 2018-12-20 2022-11-15 Snap Inc. Virtual surface modification
CN109766934B (zh) * 2018-12-26 2020-12-11 北京航空航天大学 一种基于深度Gabor网络的图像目标识别方法
US10460210B1 (en) * 2019-01-22 2019-10-29 StradVision, Inc. Method and device of neural network operations using a grid generator for converting modes according to classes of areas to satisfy level 4 of autonomous vehicles
US10311336B1 (en) * 2019-01-22 2019-06-04 StradVision, Inc. Method and device of neural network operations using a grid generator for converting modes according to classes of areas to satisfy level 4 of autonomous vehicles
US10909700B2 (en) * 2019-04-02 2021-02-02 Samsung Electronics Co., Ltd. Display apparatus and image processing method thereof
US11354546B2 (en) 2019-05-03 2022-06-07 Verily Life Sciences Llc Insect singulation and classification
WO2020226934A1 (en) * 2019-05-03 2020-11-12 Verily Life Sciences Llc Predictive classification of insects
US11189098B2 (en) 2019-06-28 2021-11-30 Snap Inc. 3D object camera customization system
CN110349161B (zh) * 2019-07-10 2021-11-23 北京字节跳动网络技术有限公司 图像分割方法、装置、电子设备、及存储介质
US11232646B2 (en) 2019-09-06 2022-01-25 Snap Inc. Context-based virtual object rendering
CN110751153B (zh) * 2019-09-19 2023-08-01 北京工业大学 一种室内场景rgb-d图像的语义标注方法
CN110598705B (zh) * 2019-09-27 2022-02-22 腾讯科技(深圳)有限公司 图像的语义标注方法及装置
CN110796038B (zh) * 2019-10-15 2023-04-18 南京理工大学 结合快速区域生长超像素分割的高光谱遥感图像分类方法
US11580333B2 (en) * 2019-11-12 2023-02-14 Objectvideo Labs, Llc Training image classifiers
CN110991296B (zh) * 2019-11-26 2023-04-07 腾讯科技(深圳)有限公司 视频标注方法、装置、电子设备及计算机可读存储介质
US11227442B1 (en) 2019-12-19 2022-01-18 Snap Inc. 3D captions with semantic graphical elements
US11263817B1 (en) 2019-12-19 2022-03-01 Snap Inc. 3D captions with face tracking
US11481584B2 (en) * 2020-01-15 2022-10-25 Vmware, Inc. Efficient machine learning (ML) model for classification
CN111539456B (zh) * 2020-04-02 2024-03-01 浙江华睿科技股份有限公司 一种目标识别方法及设备
CN111583274A (zh) * 2020-04-30 2020-08-25 贝壳技术有限公司 图像分割方法、装置、计算机可读存储介质及电子设备
US11526785B2 (en) 2020-06-22 2022-12-13 Vmware, Inc. Predictability-driven compression of training data sets
CN111523621B (zh) * 2020-07-03 2020-10-20 腾讯科技(深圳)有限公司 图像识别方法、装置、计算机设备和存储介质
CN111695567B (zh) * 2020-07-10 2021-03-05 中国水利水电科学研究院 一种改进的倾斜矩形范围框标注方式
WO2022082007A1 (en) * 2020-10-15 2022-04-21 Cape Analytics, Inc. Method and system for automated debris detection
US11461993B2 (en) * 2021-01-05 2022-10-04 Applied Research Associates, Inc. System and method for determining the geographic location in an image
EP4036792A1 (en) * 2021-01-29 2022-08-03 Aptiv Technologies Limited Method and device for classifying pixels of an image
US11798288B2 (en) * 2021-03-16 2023-10-24 Toyota Research Institute, Inc. System and method for generating a training set for improving monocular object detection
CN113326773A (zh) * 2021-05-28 2021-08-31 北京百度网讯科技有限公司 识别模型训练方法、识别方法、装置、设备及存储介质
WO2023283231A1 (en) 2021-07-06 2023-01-12 Cape Analytics, Inc. System and method for property condition analysis
US11676298B1 (en) 2021-12-16 2023-06-13 Cape Analytics, Inc. System and method for change analysis
US11861843B2 (en) 2022-01-19 2024-01-02 Cape Analytics, Inc. System and method for object analysis

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101299238A (zh) * 2008-07-01 2008-11-05 山东大学 一种基于协同训练的快速指纹图像分割方法
WO2013083972A1 (en) * 2011-12-05 2013-06-13 University Of Lincoln Method and apparatus for automatic detection of features in an image and method for training the apparatus

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4482796B2 (ja) * 2004-03-26 2010-06-16 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
US8280164B2 (en) * 2009-03-04 2012-10-02 Eastman Kodak Company Producing object cutouts in topically related images
US9158995B2 (en) * 2013-03-14 2015-10-13 Xerox Corporation Data driven localization using task-dependent representations

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101299238A (zh) * 2008-07-01 2008-11-05 山东大学 一种基于协同训练的快速指纹图像分割方法
WO2013083972A1 (en) * 2011-12-05 2013-06-13 University Of Lincoln Method and apparatus for automatic detection of features in an image and method for training the apparatus

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
样本驱动的半自动图像集前背景分割;汪粼波等;《中国期刊全文数据库 计算机辅助设计与图形学学报》;20130630;第25卷(第6期);全文 *

Also Published As

Publication number Publication date
US9576201B2 (en) 2017-02-21
US20150030255A1 (en) 2015-01-29
CN104346620A (zh) 2015-02-11

Similar Documents

Publication Publication Date Title
CN104346620B (zh) 对输入图像中的像素分类的方法和装置及图像处理系统
Xu et al. Multiple-entity based classification of airborne laser scanning data in urban areas
Secord et al. Tree detection in urban regions using aerial lidar and image data
Guo et al. Fuzzy superpixels for polarimetric SAR images classification
He et al. Learning and incorporating top-down cues in image segmentation
Lim et al. Sketch tokens: A learned mid-level representation for contour and object detection
CN110889318B (zh) 利用cnn的车道检测方法和装置
CN103049763B (zh) 一种基于上下文约束的目标识别方法
CN106503727B (zh) 一种高光谱图像分类的方法及装置
JP5567448B2 (ja) 画像領域分割装置、画像領域分割方法および画像領域分割プログラム
Dehvari et al. Comparison of object-based and pixel based infrared airborne image classification methods using DEM thematic layer
Chi Self‐organizing map‐based color image segmentation with k‐means clustering and saliency map
Vargas et al. Superpixel-based interactive classification of very high resolution images
Ince Unsupervised classification of polarimetric SAR image with dynamic clustering: An image processing approach
CN108734200A (zh) 基于bing特征的人体目标视觉检测方法和装置
Zhang et al. Incorporating spectral similarity into Markov chain geostatistical cosimulation for reducing smoothing effect in land cover postclassification
Shi et al. An active relearning framework for remote sensing image classification
Rajyalakshmi et al. Taxonomy of satellite image and validation using statistical inference
Ayazi et al. Comparison of traditional and machine learning base methods for ground point cloud labeling
CN107798286B (zh) 基于标记样本位置的高光谱图像进化分类方法
Hwang et al. The study of high resolution satellite image classification based on Support Vector Machine
Wu et al. Remote sensing object detection via an improved Yolo network
Nithya et al. Study of Salem city resource management using k-means clustering
Jensch et al. A comparative evaluation of three skin color detection approaches
Mylonas et al. A GA-based sequential fuzzy segmentation approach for classification of remote sensing images

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant