CN109117835B

CN109117835B - 图像处理装置和方法

Info

Publication number: CN109117835B
Application number: CN201710493268.7A
Authority: CN
Inventors: 张正; 黄耀海; 赵旭东
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-06-26
Filing date: 2017-06-26
Publication date: 2022-10-14
Anticipated expiration: 2037-06-26
Also published as: CN109117835A

Abstract

本发明公开了一种图像处理装置和方法。所述图像处理装置包括：被配置为获得待处理层叠物体的预确定信息的单元，其中所述预确定信息包括区域结构模板、区域分布信息及层结构信息；被配置为根据所述区域分布信息从输入图像中至少包含所述层叠物体中的一部分的区域中确定子区域的单元；被配置为根据所述层结构信息对所述子区域进行分类的单元；以及被配置为基于所述分类的子区域及所述区域结构模板确定所述层叠物体的信息的单元。根据本发明，对于所述层叠物体，可准确地确定这些层叠物体的ROI。因此，可提高属性识别的精确度。

Description

图像处理装置和方法

技术领域

本发明涉及图像处理，尤其涉及确定物体的样式(style of an object)或物体的可视区域。

背景技术

由于外套(wearing outer clothes,WOC)的属性通常在各个观察方向下均不变，所以WOC的属性(例如，WOC的类型(type of WOC)、WOC的款式(pattern of WOC))可稳定地用来描述人。因此，WOC的属性被广泛用于视频/图像分析和识别过程，诸如人物图像检索(human image retrieval)及人体身份识别(person re-identification)。其中，WOC是人们穿在最外层的衣服。由于WOC属性的精确度直接影响视频/图像分析和识别的精确度，而WOC属性的精确度直接取决于WOC中一些区域的精确度，这些区域是从中提取用于识别WOC属性的特征的区域，因此关键操作是如何从WOC确定准确的区域。其中，在下文中将该类区域描述为感兴趣区域(region of interest,ROI)。

一般而言，从衣服确定的ROI是否准确主要取决于对应的图像分割技术。“HumanParsing with Contextualized Convolutional Neural Network”(X.Liang.C.Xu,X.Shen,J.Yang,S.Liu,J.Tang,L.Lin,and S.Yan.,The IEEE International Conferenceon Computer Vision(ICCV),2015,pp.1386-1394.)中公开了一种示例性技术。该示例性技术主要公开了以下过程：将包含人的输入图像分成若干超像素，其中一个超像素表示一组具有相似属性(例如，相似纹理、相似颜色、相似亮度等)的像素；通过比较相邻超像素的特征之间的相似性度量，将超像素分成不同类别；然后，基于所述类别提取此人的对应物体(例如，头发、包、夹克、裤子、鞋等)的ROI。也就是说，根据该技术，具有相似特征(例如，相似纹理、相似颜色等)的相邻超像素将被分成同一类别。

但是，对于输入图像中的层叠物体(诸如，包、WOC及内衣)，彼此相邻的超像素可能属于不同的层叠物体但同时可能具有相似的特征。在该情形下，上述技术会将这些超像素分成同一类别，从而将导致获得的对应层叠物体的ROI不准确。因此，基于这些不准确的ROI，对应层叠物体的属性(诸如，WOC的属性)的精确度将受到影响。也就是说，根据上述技术，属性识别的精确度将受到影响。

发明内容

因此，鉴于上面的背景技术中的记载，本公开旨在解决上述问题中的至少一点。

根据本发明的一个方面，提供一种图像处理装置，所述图像处理装置包括：信息获得单元，被配置为获得待处理层叠物体的预确定信息，其中所述预确定信息包括所述层叠物体的区域结构模板、所述区域结构模板的区域分布信息及所述区域结构模板的层结构信息；子区域确定单元，被配置为根据所述区域结构模板的所述区域分布信息，从输入图像中至少包含所述层叠物体中的一部分的区域中确定子区域；分类单元，被配置为根据所述区域结构模板的所述层结构信息对所述子区域进行分类；及信息确定单元，被配置为基于所述分类的子区域及所述层叠物体的所述区域结构模板，确定所述层叠物体的信息。

其中，所述层叠物体的信息包括至少一项以下内容：所述层叠物体的样式、所述层叠物体的层数、所述层叠物体的可视区域。一个待处理层叠物体包括至少一项以下内容：外套、内衣、包、头巾、帽子、头发或皮肤。并且，一个待处理层叠物体的样式包括至少一项以下内容：所述外套的样式、所述内衣的样式、所述包的样式、所述头巾的样式、所述头发的样式或所述帽子的样式。

利用本发明，在识别层叠物体的属性的过程中，对于彼此相邻且同时具有相似特征的不同层叠物体，仍可准确地确定每一个层叠物体的对应ROI。因此，可提高对应层叠物体的属性的精确度。从而，可提高属性识别的精确度。

根据以下参照附图的描述，本发明的其他特性特征和优点将显而易见。

附图说明

包含在说明书中并构成本说明书的一部分的附图例示本发明的实施例，并与文字描述一起用于解释本发明的原理。

图1A至图1B示意性地示出对应区域中的示例性层叠物体。

图2A、图2B、图2C和图2D示意性地示出对应区域中的层叠物体的示例性样式。

图3示意性地示出根据本发明的WOC的示例性样本及WOC的示例性区域结构模板。

图4示意性地示出根据本发明的层叠物体(诸如，WOC、内衣及包)的示例性样本及层叠物体的示例性区域结构模板。

图5是示意性地示出可实现根据本发明实施例的技术的硬件配置的框图。

图6是例示根据本发明第一实施例的图像处理装置的配置的框图。

图7示意性地示出根据本发明第一实施例的图像处理的流程图。

图8示意性地示出根据本发明实施例的输入图像中的层叠物体的示例性中间处理结果。

图9示意性地示出超像素与对应于区域结构模板的区域中的子区域之间的示例性关系。

图10是例示根据本发明第二实施例的图像处理装置的配置的框图。

图11例示根据本发明的示例性属性识别装置的布置。

图12例示根据本发明的示例性特征点检测装置的布置。

图13A至图13B示意性地示出根据现有技术检测到的WOC的示例性特征点和根据本发明检测到的WOC的示例性特征点。

具体实施方式

下面将参照附图详细地描述本发明的示例性实施例。应注意，下面的描述实质上仅为说明性和示例性的，并且决不意图限制本发明及其应用或用途。除非另有具体说明，否则实施例中阐述的组件和步骤的相对布置、数值表达式和数值并不限制本发明的范围。另外，本领域技术人员已知的技术、方法和设备可能不会被详细地讨论，但在适当的情形中其应当是本说明书的一部分。

请注意，相似的附图标记和字母指代附图中相似的项目，因此，一旦一个项目在一个附图中被定义，则不必在下面的附图中对其进行讨论。

在本发明中，根据实际应用，以下物体可被视为待处理层叠物体，例如：

1)至少一个以下物体：WOC、内衣及遮挡物(例如，包)；

2)至少一个以下物体：遮挡物(例如，头巾或帽子)、头发及皮肤。(区域结构模板)

根据现实生活中人们的习惯，可以看出层叠物体的样式/结构是有限的。一方面，一个区域(例如，躯干区域或头部区域)中的层叠物体的数量不超过三。例如，如图1A中所示，在躯干区域中的层叠物体的数量为三的情况下，对应的层叠物体通常为WOC、内衣及包，并且包通常不会覆盖全部的WOC。如图1B中所示，在头部区域中的层叠物体的数量为三的情况下，对应的层叠物体通常为头巾/帽子、头发及皮肤。另一方面，一个区域(例如，躯干区域或头部区域)中的层叠物体的样式也是有限的。例如，WOC的穿着样式通常为扣住(如图2A中所示)、敞开(如图2B中所示)或被遮挡(如图2C中所示)。包的携带样式通常为竖背(如图2C中所示)或斜背(如图2D中所示)。帽子的穿戴样式通常为正戴或斜戴。头发的样式通常为刘海、偏分或中分。

根据层叠物体的有限样式/结构，本发明认为，对于每一个层叠物体，可通过统计方法或学习方法，基于标记有每一个层叠物体的分布的样本，确定该层叠物体在某一区域的对应部分中出现的概率(即，该层叠物体在某一区域中的分布概率)。因此，根据层叠物体在某一区域(例如，躯干区域或头部区域)中的分布，可为层叠物体确定区域结构模板，以辅助确定层叠物体的对应信息。其中，层叠物体的对应信息例如为层叠物体的样式、层叠物体的层数和/或层叠物体的可视区域。

其中，任何一个区域结构模板表示层叠物体在对应于该区域结构模板的区域中的分布概率。对于任何一个区域结构模板，对应于该区域结构模板的区域由多个子区域组成，并且任何一个子区域的值表示一个层叠物体在该子区域中出现的概率。其中，子区域可以是像素、超像素或矩形区域。在本发明中，子区域例如为矩形区域。

另外，根据对应于区域结构模板的区域中的子区域，还可以确定该区域结构模板的区域分布信息。其中，区域结构模板的区域分布信息表示在对应于该区域结构模板的区域中的子区域的数量和布局。例如，子区域的数量为16，子区域的布局为子区域的行数为4且子区域的列数为4。进一步地，根据层叠物体在对应于该区域结构模板的区域中的分布概率，还可以确定该区域结构模板的层结构信息。其中，区域结构模板的层结构信息表示层叠物体在对应于该区域结构模板的区域中的层数。例如，在层叠物体为WOC、内衣及包的情况下，这些层叠物体的层数为三。在本发明中，层叠物体的区域结构模板、区域结构模板的区域分布信息及区域结构模板的层结构信息例如被视为层叠物体的预确定信息。

因此，在本发明中，首先将预确定层叠物体的信息(即，区域结构模板、区域结构模板的区域分布信息及区域结构模板的层结构信息)。然后，对于输入图像中的层叠物体，将通过参考层叠物体的预确定信息(例如，区域结构模板)来确定对应层叠物体的ROI(即，对应层叠物体的可视区域)。由于区域结构模板表示层叠物体在对应区域中的分布概率，所以可从输入图像准确地获得对应层叠物体的可视区域。因此，在WOC被遮挡物(例如，包)分成多个区域或受其他具有相似特征的层叠物体干扰的情况下，仍可根据本发明准确地确定WOC的可视区域(即，WOC的ROI)。因此，基于准确的可视区域，可提高对应层叠物体的属性的精确度。从而，可提高属性识别的精确度。另外，如上所述，在本发明中，还可以通过参考层叠物体的预确定信息，确定层叠物体的样式和/或层叠物体的层数。

在一种实现方式中，通过以下操作预确定区域结构模板。一方面，对于每一个层叠物体，将分析该层叠物体的可能层叠位置及可能样式。然后，将基于所有层叠物体的可能层叠位置及可能样式的排列与组合，计算所有层叠物体的区域结构模板的数量。以躯干区域中的WOC为例，在躯干区域中有三个层叠物体(例如，WOC、内衣及包)的情况下，WOC的可能层叠位置如下：

1)在WOC未被包遮挡的情况下(诸如，图3中所示的WOC 310-320)，WOC的层叠位置为外层；

2)在WOC被包遮挡的情况下(诸如，图3中所示的WOC 330-340)，WOC的层叠位置为中层；

此外，由于WOC的可能穿着样式为扣住(诸如，图3中所示的WOC 310及WOC 330)或敞开(诸如，图3中所示的WOC 320及WOC 340)，且如上所述，包的可能携带样式为竖背或斜背，因此可为WOC预确定至少四个区域结构模板。图3中所示的模板350-380为WOC的四个示例性区域结构模板。其中，模板350为WOC 310的区域结构模板，模板360为WOC 320的区域结构模板，模板370为WOC 330的区域结构模板，以及模板380为WOC 340的区域结构模板。

另一方面，对于每一个区域结构模板，将收集对应的样本来确定该区域结构模板。以图3中所示的模板350为例，首先将收集对应于扣住且未被遮挡的WOC的多个样本。接着，将从每一个样本确定候选区域(诸如，图3中所示的WOC 310上的虚线标示的矩形)。然后，将候选区域分成多个子区域，例如，将候选区域分成四行四列。并且，每一个子区域将被标记属于哪个层叠物体，诸如属于WOC、属于内衣或属于包。然后，对于候选区域之中处于同一位置的一个子区域，将通过统计方法或学习方法来确定WOC 310在该子区域中出现的对应概率，所述对应概率将被视为该子区域的值。其中，如图3中所示，将使用不同格式来表示具有不同值的子区域。例如，具有格式

的子区域表示WOC 310在这些子区域中出现的概率最高。具有格式

的子区域表示WOC 310在这些子区域中出现的概率最低。其中，格式

例如表示WOC 310在对应子区域中出现的概率依次降低。最后，基于每一个子区域的对应值，为对应的WOC(例如，WOC 310)确定区域结构模板(即，模板350)。可以看出，模板350可表示对应的WOC在对应于该模板的区域中的分布概率。

图4示意性地示出根据本发明的层叠物体(诸如，WOC、内衣及包)的示例性样本及层叠物体的示例性区域结构模板。另外，在实际应用中，图像可能在不同的观察方向下被捕获，因而将导致所捕获的图像具有不同的图像大小。从而，包含层叠物体的区域的大小将因图像大小的不同而不同。因此，为了确保本发明的高性能，对于每一个区域结构模板，将同时确定不同尺度的对应模板。例如，如图3中所示，模板351-352为对应于区域结构模板350的不同尺度的区域结构模板。模板361-362、模板371-372及模板381-382为分别对应于区域结构模板360、区域结构模板370及区域结构模板380的不同尺度的区域结构模板。

(硬件配置)

首先将参照图5描述可实现下文中描述的技术的硬件配置。

硬件配置500例如包括中央处理单元(CPU)510、随机存取存储器(RAM)520、只读存储器(ROM)530、硬盘540、输入设备550、输出设备560、网络接口570和系统总线580。进一步地，硬件配置500可通过诸如相机、个人数字助理(PDA)、移动电话、平板电脑、笔记本电脑、台式电脑或其他合适的电子设备来实现。

在第一实现方式中，根据本发明的图像处理由硬件或固件配置并且用作硬件配置500的模块或组件。例如，将在下文参照图6详细描述的图像处理装置600或将在下文参照图10详细描述的图像处理装置1000用作硬件配置500的模块或组件。在第二实现方式中，根据本发明的图像处理由存储在ROM 530或硬盘540中且由CPU 510执行的软件配置。例如，将在下文参照图7详细描述的过程700用作存储在ROM 530或硬盘540中的程序。

CPU 510是任意合适的可编程控制设备(诸如，处理器)，并且可通过执行存储在ROM 530或硬盘540(诸如，存储器)中的各种应用程序来执行下文中要描述的各种功能。RAM520用于临时存储从ROM 530或硬盘540加载的程序或数据，并且也被用作CPU 510在其中执行各种过程(诸如，实施将在下文中参照图7详细描述的技术)以及其他可用功能的空间。硬盘540存储诸如操作系统(OS)、各种应用、控制程序、如上所述的层叠物体的预确定信息和/或预定义数据(例如，阈值(TH))等多种信息。

在一种实现方式中，输入设备550用于允许用户与硬件配置500交互。在一个实例中，用户可通过输入设备550输入图像/视频/数据。在另一实例中，用户可通过输入设备550触发本发明的对应处理。此外，输入设备550可采用多种形式，诸如按钮、键盘或触摸屏。在另一种实现方式中，输入设备550用于接收从诸如数码相机、摄像机和/或网络相机等专门电子设备输出的图像/视频。

在一种实现方式中，输出设备560用于向用户显示图像处理结果(诸如，层叠物体的样式、层叠物体的层数、层叠物体的可视区域等)。而且，输出设备560可采用诸如阴极射线管(CRT)或液晶显示器等各种形式。在另一种实现方式中，输出设备560用于向视频/图像分析和识别的后续处理(诸如人像检索处理、人体再识别处理等)输出图像处理结果。

网络接口570提供用于将硬件配置500连接到网络的接口。例如，硬件配置500可经由网络接口570与经由网络连接的其他电子设备进行数据通信。可选地，可以为硬件配置500提供无线接口，以进行无线数据通信。系统总线580可以提供用于在CPU 510、RAM 520、ROM 530、硬盘540、输入设备550、输出设备560和网络接口570等之间相互传输数据的数据传输路径。虽然被称为总线，但是系统总线580并不限于任何特定的数据传输技术。

上述硬件配置500仅是说明性的，并且决不意图限制本发明、其应用或用途。而且，为了简明起见，在图5中只示出一个硬件配置。但是，根据需要也可以使用多个硬件配置。

(图像处理)

接下来,将参照图6至图10描述根据本发明确定层叠物体的信息(诸如，层叠物体的样式、层叠物体的层数和/或层叠物体的可视区域)的处理。

图6是例示根据本发明第一实施例的图像处理装置600的配置的框图。其中，图6中所示的一些或全部模块可由专用硬件实现。如图6中所示，图像处理装置600包括信息获得单元610、子区域确定单元620、分类单元630和信息确定单元640。

另外，图6中所示的存储设备650存储上述层叠物体的预确定信息，诸如层叠物体的区域结构模板、区域结构模板的区域分布信息及区域结构模板的层结构信息。在一种实现方式中，存储设备650为图5中所示的ROM 530或硬盘540。可选地，存储设备650是经由网络(未示出)与图像处理装置600连接的服务器或外部存储设备。

首先，图5中所示的输入设备550接收从专门电子设备(例如，相机)输出或由用户输入的图像。接着，输入设备550经由系统总线580将所接收图像传输到图像处理装置600。

然后，如图6中所示，对于所接收图像(即，输入图像)中的待处理层叠物体，信息获得单元610从存储设备650获得对应层叠物体的预确定信息。也就是说，基于待处理层叠物体，信息获得单元610为后续操作从存储设备650选择对应的区域结构模板并获得所选区域结构模板的区域分布信息及所选区域结构模板的层结构信息。

子区域确定单元620根据区域结构模板的区域分布信息，从输入图像中至少包含层叠物体中的一部分的区域中确定子区域。换言之，通过参考信息获得单元610获得的区域结构模板的区域分布信息，子区域确定单元620将至少包含层叠物体中的一部分的区域分成多个子区域。

分类单元630根据区域结构模板的层结构信息对子区域进行分类。换言之，通过参考信息获得单元610获得的区域结构模板的层结构信息，分类单元630将子区域分成多个类别。

然后，信息确定单元640基于分类的子区域及层叠物体的区域结构模板，确定层叠物体的信息。换言之，通过参考信息获得单元610获得的层叠物体的区域结构模板，信息确定单元640基于分类单元630确定的类别，确定层叠物体的样式、层叠物体的层数和/或层叠物体的可视区域。

最后，在信息确定单元640确定了输入图像中的层叠物体的信息后,信息确定单元640经由图5所示的系统总线580将层叠物体的信息传输到输出设备560，以用于向用户显示层叠物体的信息或用于视频/图像分析和识别的后续处理(诸如人像检索处理、人体再识别处理等)。

图7中所示的流程图700是图6中所示的图像处理装置600的对应过程。

如图7中所示，对于输入图像中的待处理层叠物体，在信息获得步骤S710中，信息获得单元610从存储设备650获得层叠物体的预确定信息。

在一种实现方式中，在输入图像包含躯干区域和/或头部区域且不存在操作者输入的任何额外信息(诸如，应该处理哪个层叠物体或待处理层叠物体的层数是多少)的情况下，信息获得单元610从存储设备650获得与躯干区域和/或头部区域中出现的所有层叠物体相关的预确定信息。例如，在输入图像包含躯干区域且躯干区域中出现WOC、内衣和包的情况下，将从存储设备650获得与WOC、内衣、包及WOC、内衣和包之间的随机组合相关的所有区域结构模板。并且，区域结构模板的层结构信息还包括一层、两层和三层。

在实际应用中，为了减少例如不需要的区域结构模板所产生的影响，从而使得图像处理装置600可更加精确并快速地执行对应操作，操作者将提前输入/设置待处理层叠物体的层数(诸如，层数为三)和/或实际需要处理的层叠物体(诸如，WOC)。因此，在另一种实现方式中，信息获得单元610基于输入层数和/或需要处理的输入层叠物体获得预确定的信息。例如，在输入层数为三且需要处理的输入层叠物体为WOC的情况下，将仅从存储设备650获得为WOC预确定的且层结构信息为三的区域结构模板。如图3中所示，例如将获得模板370及模板380。

另外，如上所述，为了确保本发明的高性能，对于每一个区域结构模板，将同时确定不同尺度的对应模板。在该情形下，在信息获得单元610获得一个区域结构模板的情况下，信息获得单元610还将获得对应于该区域结构模板的不同尺度的其他模板。如图3中所示，在信息获得单元610获得模板370及模板380的情况下，还将获得对应模板371-372及对应模板381-382。另外，在本发明中，无论是否考虑不同尺度的区域结构模板，每一个区域结构模板都将在后续操作中以相同的方式作为单独的模板使用。作为可选解决方案，在考虑不同尺度的区域结构模板的情况下，可使用卷积神经网络(Convolutional NeuralNetwork，CNN)来布局这些区域结构模板，以执行后续操作。

返回至图7，在子区域确定步骤S720中，子区域确定单元620根据区域结构模板的区域分布信息，从输入图像中至少包含层叠物体中的一部分的区域中确定子区域。

一方面，将从输入图像检测至少包含层叠物体中的一部分的区域。例如，基于使用脸部位置检测技术从输入图像确定的脸部位置、使用脸部特征点检测技术从输入图像确定的脸部特征点的位置或使用关节特征点检测技术从输入图像确定的关节特征点的位置，检测对应区域。如图8中所示，图像810为输入图像，虚线标示的区域820为检测到的区域。

如上所述，区域结构模板的区域分布信息表示对应于该区域结构模板的区域中的子区域的数量和布局。因此,另一方面,根据区域结构模板的区域分布信息，检测到的区域将被分成满足对应于该区域结构模板的区域中的子区域的数量和布局的对应子区域。例如，如图8中所示，假设对应于区域结构模板的区域中的子区域的布局为行数为4且列数为4，则区域820将被分为区域830。

另外，子区域确定单元620确定的子区域可以是像素、超像素或矩形区域。

返回至图7，在分类步骤S730中，根据区域结构模板的层结构信息，分类单元630例如使用分类器基于层叠物体的CNN特征或层叠物体的表观特征，将子区域分成多个类别。其中，表观特征为例如颜色特征、纹理特征或边缘特征。其中，分类器为例如k近邻(k-NearestNeighbor)分类器、支持向量机器(Support Vector Machine，SVM)分类器或Adaboost分类器。

其中，类别的数量大于或等于层数，并且经由该分类操作还将获得每一个子区域的表示该子区域属于哪个类别的置信度。例如，在输入层数或区域结构模板的层结构信息为层数是三的情况下，类别的数量为不小于三。例如，如图8中所示，区域830中的子区域被分成三个类别，并且区域840示意性地示出示例性类别。如图8中所示，例如使用不同格式表示具有不同置信度的子区域。另外，在类别数量大于层数(例如，类别的数量为四)的情况下，分类单元630将基于区域结构模板及这些类别的特征，进一步判断这些类别是否可以合并成三个类别。

返回至图7，在信息确定步骤S740中，信息确定单元640基于分类的子区域(即，多个类别)及层叠物体的区域结构模板，确定层叠物体的信息(例如，层叠物体的样式、层叠物体的层数和/或层叠物体的可视区域)。在一种实现方式中，信息确定单元640根据区域结构模板与多个类别之间的匹配度，通过选择至少一个区域结构模板来确定层叠物体的信息。

在一个实例中，选择与多个类别之间的匹配度最高的一个区域结构模板。在该情形下，对于每一个层叠物体，通过将对应于该所选区域结构模板的区域中的属于该层叠物体的子区域进行合并来确定该层叠物体的可视区域。另外，可基于层叠物体在对应于该所选区域结构模板的区域中的分布概率来确定层叠物体的样式。可基于层叠物体在对应于该所选区域结构模板的区域中的层数来确定层叠物体的层数。在另一实例中，选择与多个类别之间的匹配度大于或等于预定义阈值(例如，TH1)的区域结构模板。在该情形下，对于每一个层叠物体，使用诸如交集方法(intersection method)、并集方法(union method)或加权方法等数学方法，通过将对应于这些所选区域结构模板的区域中的属于该层叠物体的子区域进行合并来确定该层叠物体的可视区域。另外，可使用例如投票方法(votingmethod)，基于层叠物体在对应于这些所选区域结构模板的区域中的分布概率来确定层叠物体的样式。可使用例如投票方法，基于层叠物体在对应于这些所选区域结构模板的区域中的层数来确定层叠物体的层数。另外，可以看出，在操作者提前输入/设置层叠物体的层数的情况下，不需要参考所选区域结构模板来确定层叠物体的层数。

如图8中所示，在操作者未提前输入/设置需要处理的层叠物体的情况下，图8中所示的图像850示意性地示出层叠物体的示例性可视区域。例如，表示格式类似于区域851的表示格式的区域为WOC的可视区域，表示格式类似于区域852的表示格式的区域为内衣的可视区域，而表示格式类似于区域853的表示格式的区域为包的可视区域。另外，从图像850还可看出，例如，层叠物体的层数为三，WOC的穿着样式为敞开，包的携带样式为竖背。在操作者提前输入/设置实际需要处理的层叠物体为WOC的情况下，图8中所示的图像860示意性地示出WOC的示例性可视区域。例如，表示格式类似于区域861的表示格式的区域为WOC的可视区域。

其中，对于一个区域结构模板，基于对应于该区域结构模板的区域中的子区域的值及多个类别中的子区域的置信度，确定该区域结构模板与多个类别之间的对应匹配度。

如上所述，在本发明中，假设对应于区域结构模板的区域中的子区域为矩形区域，并且假设将对应于一个区域结构模板的区域中的每一个子区域的值标记为p_mn，其中m＝{1,2,...,M}并且M为信息获得单元610在信息获得步骤S710中获得的区域结构模板的总数，n＝{1,2,...,N}并且N为对应于一个区域结构模板的区域中的子区域的总数。

因此，在一个实现方式中，在子区域确定单元620在子区域确定步骤S720中确定的子区域为矩形区域的情况下，假设将多个类别中每一个子区域的置信度标记为c_n，其中n＝{1,2,...,N}且N也为多个类别中子区域的总数，对于每一个区域结构模板(例如，第m个模板)，第m个模板与多个类别之间的匹配度(例如，MEASURE_m)为多个类别中的每一个子区域(例如，第n个子区域)与对应于第m个模板的区域中的对应子区域(例如，第n个子区域)之间的匹配度(例如，measure_mn)的和。例如，对于第m个模板，通过以下公式(1)计算对应的匹配度(即，MEASURE_m)。对于多个类别中的第n个子区域，通过以下公式(2)计算对应的匹配度(即，measure_mn)。

measure_mn＝c_n·p_mn…(2)

在另一种实现方式中，在子区域确定单元620在子区域确定步骤S720中确定的子区域为像素的情况下，假设将多个类别中每一个像素的置信度标记为c_k(其中，k＝{1,2,...,K})且K为多个类别中的像素的总数，并且假设对应于一个区域结构模板的区域中的每一个子区域中的像素数为I且N×I＝K，对于每一个区域结构模板(例如，第m个模板)，第m个模板与多个类别之间的匹配度(例如，MEASURE_m)为对应于第m个模板的区域中的每一个子区域(例如，第n个子区域)与该子区域中的像素之间的匹配度(例如，measure_mn)的和。例如，对于第m个模板，通过以下公式(3)计算对应的匹配度(即，MEASURE_m)。对于第n个子区域中的像素，通过以下公式(4)计算对应的匹配度(即，measure_mn)。

在另一种实现方式中，在子区域确定单元620在子区域确定步骤S720中确定的子区域为超像素的情况下，假设将多个类别中每一个超像素的置信度标记为c_l，其中l＝{1,2,...,L}且L为多个类别中的超像素的总数，对于每一个区域结构模板(例如，第m个模板)，第m个模板与多个类别之间的匹配度(例如，MEASURE_m)为多个类别中的每一个超像素(例如，第l个超像素)与对应于第m个模板的区域中的对应子区域之间的匹配度(例如，measure_lm)的和。其中，对于多个类别中的第l个超像素，对应匹配度(例如，measure_lm)为第l个超像素的置信度与如下值的乘积，其中该值为对应于第m个模板的区域中与所述第l个超像素有重叠的子区域的值在所述第l个超像素中所占的权重系数。例如，对于第m个模板，通过以下公式(5)计算对应的匹配度(即，MEASURE_m)。对于多个类别中的第l个超像素，例如，假设第l个超像素(例如，图9中所示的虚线标示的区域)与对应于第m个模板的区域中的四个子区域(例如，图9中所示的四个矩形区域)重叠，其中图9中所示的p_am至p_dm分别表示四个子区域的对应值，图9中所示的T_a至T_d分别表示对应重叠部分中的像素数，则通过以下公式(6)计算对应的匹配度(即，measure_lm)。

如上所述，在该实施例中，由于区域结构模板可表示层叠物体在对应区域中的分布概率，区域结构模板的区域分布信息可表示对应区域中子区域的数量和布局，并且区域结构模板的层结构信息可表示层叠物体在对应区域中的层数，因此通过参考层叠物体的该预确定信息可准确地确定层叠物体的对应信息(例如，层叠物体的样式、层叠物体的可视区域、层叠物体的层数)。

如上所述，图6中所示的图像处理装置600处理一个图像中的层叠物体。然而，在视频中的层叠物体的样式及层叠物体的层数不改变的情况下，诸如视频中WOC的样式一直为扣住且视频中的层叠物体的层数一直为三，也可使用本发明来处理视频中的层叠物体。图10是例示根据本发明第二实施例的图像处理装置1000的配置的框图。其中，图10中所示的一些或全部模块可由专用硬件实现。如图10中所示，图像处理装置1000包括图像获得单元1010、确定单元1020、信息获得单元610、子区域确定单元620、分类单元630及信息确定单元640。另外，由于信息获得单元610、子区域确定单元620、分类单元630、信息确定单元640及存储设备650与图6中所示的对应单元相同，因此此处将不再重复对应的详细描述。

首先，图5中所示的输入设备550接收从专门电子设备(例如，相机)输出或由用户输入的视频。接着，输入设备550经由系统总线580将所接收视频传输到图像处理装置1000。

然后，如图10中所示，对于所接收视频(即，输入视频)中的待处理层叠物体，一方面，图像获得单元1010从输入视频获得视频帧。另一方面，信息获得单元610从存储设备650获得对应层叠物体的预确定信息。

然后，对于每一个获得的视频帧，子区域确定单元620、分类单元630及信息确定单元640执行如第一实施例中所述的对应操作，以确定该视频帧中的层叠物体的信息(尤其是层叠物体的可视区域)。

确定所有获得视频帧中的层叠物体的信息之后，确定单元1020基于所有获得视频帧中的层叠物体的信息，确定输入视频中的层叠物体的信息。在一种实现方式中，确定单元1020进行以下操作确定输入视频中的层叠物体的信息：首先，对每一个获得视频帧中的层叠物体的信息进行投票；然后，选择具有最高投票得分的层叠物体的信息作为输入视频中的层叠物体的最终信息。

最后，在确定单元1020确定了输入视频中的层叠物体的信息后,确定单元1020经由图5所示的系统总线580将层叠物体的信息传输到输出设备560，以用于向用户显示层叠物体的信息或用于视频/图像分析和识别的后续处理(诸如人像检索处理、人体再识别处理等)。

在该实施例中，由于可以准确地确定每一个视频帧中的层叠物体的信息并且由于将可从大多数视频帧确定的层叠物体的信息视为整个视频中的层叠物体的最终信息，因此也可准确地确定视频中的层叠物体的信息。

如上所述，待处理物体(诸如，WOC)的属性的精确度直接取决于物体的一些ROI(诸如，WOC的可视区域)的精确度，这些ROI是从中提取用于识别物体属性的特征的区域。作为参照图3至图10的上述处理的示例性应用，接下来将参照图11描述示例性属性识别装置。如图11中所示，根据本发明的属性识别装置1100包括识别单元1110和上述图6中所示的图像处理装置600或上述图10中所示的图像处理装置1000。在下文中，例如将WOC视为待处理层叠物体。然而，显然不必局限于此。

一方面，在一个图像被输入到属性识别装置1100中的情况下，图像处理装置600接收输入图像并参照图3至图9确定输入图像中WOC的可视区域。另一方面，在一个视频被输入到属性识别装置1100中的情况下，图像处理装置1000接收输入视频并参照图10确定输入视频中WOC的可视区域。

然后，从输入图像/视频确定WOC的可视区域之后，识别单元1110从WOC的可视区域提取对应特征，并且使用现有属性识别方法，基于提取的特征识别WOC的属性。其中，在需要识别的WOC的属性为WOC的颜色的情况下，提取的特征例如为颜色特征。在需要识别的WOC的属性为WOC的款式或WOC的类型的情况下，提取的特征例如为纹理特征或边缘特征。

如上所述，可以根据本发明准确地确定层叠物体的可视区域。因此，基于准确的可视区域，可提高层叠物体的属性的精确度。从而，可提高属性识别的精确度。

另外，“Fashion Landmark Detection in the Wild”(Ziwei Liu,Sijie Yan,Ping Luo,Xianggang Wang and Xianou Tang,ECCV,2016)公开了一种用于检测衣服的特征点以判断衣服风格(clothes’fashion)的示例性技术，其中所述衣服的特征点为位于衣服领口、衣服底边及衣服袖口的标志点，诸如图13A中所示的圆圈形状的点。也就是说，该示例性技术仅可检测位于衣服外沿区域的标志点。因此，在衣服是WOC且WOC的穿着样式为敞开的情况下，根据示例性技术检测到的WOC的标志点将影响对WOC风格(WOC’s fashion)判断的精确度。因此，作为参照图3至图9的上述处理的另一示例性应用，接下来将参照图12描述一个示例性特征点检测装置。如图12中所示，根据本发明的特征点检测装置1200包括检测单元1210、更新单元1220及上述图6中所示的图像处理装置600。在该应用中，待处理层叠物体为WOC。

对于输入到特征点检测装置1200中的图像，一方面，检测单元1210接收输入图像，并且根据上述示例性技术从WOC的区域检测WOC的标志点。另一方面，图像处理装置600接收输入的图像，并且参照图3至图9确定输入图像中WOC的可视区域。

然后，更新单元1220使用例如边缘检测算法(例如，Canny检测器)及曲线拟合算法(例如，Hough变换)，基于图像处理装置600确定的WOC的可视区域来更新检测单元1210检测到的标志点。例如，图13B中所示的三角形状的点为根据本发明新检测到的WOC的标志点。

上述的所有单元都是用于实现本公开中所述处理的示例性和/或优选模块。这些单元可以是硬件单元(诸如，现场可编程门阵列(FPGA)、数字信号处理器、专用集成电路等)和/或软件模块(诸如，计算机可读程序)。上面没有详尽地描述用于实现各步骤的单元。然而，当存在执行特定过程的步骤的情况下，可以存在用于实现该同一过程的对应功能模块或单元(通过硬件和/或软件实现)。通过描述的步骤和对应于这些步骤的单元的所有组合的技术方案包括在本申请的公开内容中，只要它们所构成的技术方案是完整的、适用的即可。

可以以多种方式来实施本发明的方法和装置。例如，可以通过软件、硬件、固件或其任何组合来实施本发明的方法和装置。除非另有具体说明，否则本方法的步骤的上述顺序仅旨在是说明性的，并且本发明的方法的步骤不局限于上述具体描述的顺序。此外，在一些实施例中，本发明还可以被实施为在记录介质中记录的程序，其包括用于实现根据本发明的方法的机器可读指令。因此，本发明也覆盖存储用于实现根据本发明的方法的程序的记录介质。

虽然已经通过示例详细地展示了本发明的一些具体实施例，但是本领域的技术人员应该理解，上述示例仅旨在是说明性的，并不限制本发明的范围。本领域的技术人员应该理解，上述实施例可以在不脱离本发明的范围和精神的情况下被修改。本发明的范围由所附权利要求约束。

Claims

1.一种图像处理装置，所述图像处理装置包括：

信息获得单元，被配置为获得待处理层叠物体的预确定信息，其中，所述预确定信息包括所述层叠物体的区域结构模板、所述区域结构模板的区域分布信息及所述区域结构模板的层结构信息，其中，任何一个所述区域结构模板表示所述层叠物体在对应于该区域结构模板的区域中的分布概率，所述分布概率表示所述层叠物体在对应于该区域结构模板的区域中出现的概率；

子区域确定单元，被配置为根据所述区域结构模板的所述区域分布信息，从输入图像中至少包含所述层叠物体中的一部分的区域中确定子区域；

分类单元，被配置为根据所述区域结构模板的所述层结构信息对所述子区域进行分类；以及

信息确定单元，被配置为基于所述分类的子区域及所述层叠物体的所述区域结构模板，确定所述层叠物体的信息，

其中，所述层叠物体的区域结构模板的所述区域分布信息表示在对应于所述层叠物体的区域结构模板的所述区域中的所述子区域的数量和布局，其中，所述区域结构模板的所述层结构信息表示所述层叠物体在对应于所述区域结构模板的所述区域中的层数。

2.根据权利要求1所述的图像处理装置，其中，由所述信息确定单元确定的所述层叠物体的所述信息包括至少一项以下内容：

所述层叠物体的样式、所述层叠物体的层数及所述层叠物体的可视区域。

3.根据权利要求2所述的图像处理装置，其中对应于所述区域结构模板的所述区域中的任何一个子区域的值表示所述层叠物体中的一个在该子区域中出现的概率。

4.根据权利要求3所述的图像处理装置，其中，任何一个所述区域结构模板具有至少两个不同尺度。

5.根据权利要求2所述的图像处理装置，其中，所述信息获得单元基于一个输入层数和/或一个需要处理的输入层叠物体获得所述层叠物体的所述预确定信息。

6.根据权利要求1或权利要求5所述的图像处理装置，其中，所述分类单元根据所述区域结构模板的所述层结构信息将所述子区域进行分类以得到至少一类子区域，所述分类单元进一步基于所述层叠物体的卷积神经网络特征或所述层叠物体的表观特征将得到的每一类子区域进行分类，以得到多个类别；

其中，所述多个类别的数量大于或等于所述层数。

7.根据权利要求6所述的图像处理装置，其中，所述信息确定单元根据所述区域结构模板与所述多个类别之间的匹配度，通过选择至少一个所述区域结构模板来确定所述层叠物体的所述信息。

8.根据权利要求7所述的图像处理装置，其中，对于任何一个所述层叠物体，所述信息确定单元基于对应于所选择的区域结构模板的所述区域中的属于该层叠物体的所述子区域，确定该层叠物体的可视区域。

9.根据权利要求2所述的图像处理装置，其中，任何一个所述待处理层叠物体包括至少一项以下内容：外套、内衣、包、头巾、帽子、头发或皮肤；

其中，任何一个所述待处理层叠物体的样式包括至少一项以下内容：所述外套的样式、所述内衣的样式、所述包的样式、所述头巾的样式、所述头发的样式或所述帽子的样式。

10.根据权利要求2所述的图像处理装置，所述图像处理装置还包括：

识别单元，被配置为对于所述输入图像中的任何一个所述层叠物体，基于从所述信息确定单元确定的该层叠物体的所述可视区域提取的特征，识别该层叠物体的属性。

11.根据权利要求5所述的图像处理装置，其中，在需要处理的所述输入层叠物体为外套的情况下，所述图像处理装置还包括：

检测单元，被配置为从所述外套的一个区域检测所述外套的特征点；

更新单元，被配置为基于所述信息确定单元确定的所述外套的所述可视区域，更新所述检测到的特征点。

12.根据权利要求2所述的图像处理装置，所述图像处理装置还包括：

图像获得单元，被配置为从输入视频获得视频帧；

确定单元，被配置为基于所述获得的视频帧中的所述层叠物体的信息，确定所述输入视频中的所述层叠物体的信息；其中，每一个所述获得的视频帧中的所述层叠物体的所述信息由所述子区域确定单元、所述分类单元及所述信息确定单元确定。

13.根据权利要求12所述的图像处理装置，所述图像处理装置还包括：

识别单元，被配置为对于所述输入视频中的任何一个所述层叠物体，基于从所述确定单元确定的该层叠物体的所述可视区域提取的特征，识别该层叠物体的属性。

14.一种图像处理方法，所述图像处理方法包括：

信息获得步骤，用于获得待处理层叠物体的预确定信息，其中，所述预确定信息包括所述层叠物体的区域结构模板、所述区域结构模板的区域分布信息及所述区域结构模板的层结构信息，其中，任何一个所述区域结构模板表示所述层叠物体在对应于该区域结构模板的区域中的分布概率，所述分布概率表示所述层叠物体在对应于该区域结构模板的区域中出现的概率；

子区域确定步骤，用于根据所述区域结构模板的所述区域分布信息，从输入图像中至少包含所述层叠物体中的一部分的区域中确定子区域；

分类步骤，用于根据所述区域结构模板的所述层结构信息对所述子区域进行分类；以及

信息确定步骤，用于基于所述分类的子区域及所述层叠物体的所述区域结构模板，确定所述层叠物体的信息，

15.根据权利要求14所述的图像处理方法，其中，所述信息确定步骤确定的所述层叠物体的所述信息包括至少一项以下内容：

16.根据权利要求15所述的图像处理方法，其中，任何一个所述待处理层叠物体包括至少一项以下内容：外套、内衣、包、头巾、帽子、头发或皮肤；