CN110633723B

CN110633723B - 图像处理装置和方法及存储介质

Info

Publication number: CN110633723B
Application number: CN201810658747.4A
Authority: CN
Inventors: 黄耀海; 彭健腾
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2018-06-22
Filing date: 2018-06-22
Publication date: 2023-10-17
Anticipated expiration: 2038-06-22
Also published as: CN110633723A

Abstract

本发明公开了一种图像处理装置和方法及存储介质。所述图像处理装置包括：用于从图像中提取特征的单元；用于基于所提取的特征确定第一形状的单元，其中所述第一形状由在所述图像中的分布于目标物体周围的区域构成，其中所述区域为包含人体部件的区域；及用于基于所提取的特征和所述第一形状将所述目标物体分类为被使用的物体和未被使用的物体的单元。根据本发明，能够大大地提高对目标物体是否被使用的判断的准确度。

Description

图像处理装置和方法及存储介质

技术领域

本发明涉及图像处理装置和图像处理方法。

背景技术

在监控系统中，通常涉及通过统计分析图像/视频中人们所穿戴或所使用的物体来预测人们的喜好，以便例如为人们提供更好的服务。例如，在某一商场中，可以通过统计图像/视频中出现的衣服的属性(例如，衣服的种类、衣服的样式、衣服的颜色、衣服的品牌等)来分析顾客的穿衣风格、消费水平等信息，以便该商场能向顾客提供更能满足他们需求的商品。然而，在实际场景中，通常也会同时出现实际并未被人们所穿着的衣服(例如，衣服展示品)，因此，通常需要先从图像/视频中确定出实际正被人们所穿着的衣服，再来统计这类衣服的属性才能更加准确地分析出顾客的穿衣风格等信息。此外，从图像/视频中确定实际正被人们所穿着的衣服，也可有助于确定图像/视频中人体的位置、统计图像/视频中所包含的人数等信息。

在现有的方法中，如果需要判断图像/视频中出现的衣服是否被人们所穿着，通常会更加地依赖于人脸/头肩识别方法或人体识别方法。具体地，先通过这些方法从图像/视频中检测人体的区域，之后根据衣服的区域与人体的区域之间的相对位置来间接地判断衣服是否被人体所穿着；其中，衣服的区域可通过物体检测方法从图像/视频中检测出来。例如，在某一人体的区域包含某一衣服的区域的情况下，则判断该衣服被该人体所穿着。又如，在某一衣服的区域在某一人体的区域的相邻位置的情况下，则判断该衣服未被该人体所穿着。

然而，在图像/视频的画质较差的情况下(例如，由低分辨率或光照不理想所导致的)，或者，在图像/视频中的人体被遮挡的情况下(尤其是人体的关键部位被遮挡，例如，人脸、关节点、头肩等部位)，人脸/头肩或人体的检测精度通常会变差，从而会导致错误地判断衣服是否被人体所穿着。也就是说，在图像/视频的画质较差或图像/视频中的人体被遮挡的情况下，判断图像/视频中出现的衣服是否被人体所穿着的准确度会受影响。

发明内容

鉴于上面的背景技术中的记载，本发明旨在解决上述问题中的至少一点。

根据本发明的一个方面，提供一种图像处理装置，所述图像处理装置包括：特征提取单元，从图像中提取特征；第一形状确定单元，基于所提取的特征确定第一形状，其中所述第一形状由在所述图像中的分布于目标物体周围的区域构成，其中所述区域为包含人体部件的区域；及分类单元，基于所提取的特征和所述第一形状将所述目标物体分类为被使用的物体和未被使用的物体。进一步地，所述特征提取单元，利用第一神经网络，从图像中提取特征；所述第一形状确定单元，利用第二神经网络，基于所提取的特征确定所述第一形状；所述分类单元，利用第三神经网络，基于所提取的特征和所述第一形状将所述目标物体分类为被使用的物体和未被使用的物体。

根据本发明的另一个方面，提供一种图像处理方法，所述图像处理方法包括：特征提取步骤，利用第一神经网络，从图像中提取特征；第一形状确定步骤，利用第二神经网络，基于所提取的特征确定第一形状，其中所述第一形状由在所述图像中的分布于目标物体周围的区域构成，其中所述区域为包含人体部件的区域；及分类步骤，利用第三神经网络，基于所提取的特征和所述第一形状将所述目标物体分类为被使用的物体和未被使用的物体。进一步地，在所述特征提取步骤中，利用第一神经网络，从图像中提取特征；在所述第一形状确定步骤中，利用第二神经网络，基于所提取的特征确定所述第一形状；在所述分类步骤中，利用第三神经网络，基于所提取的特征和所述第一形状将所述目标物体分类为被使用的物体和未被使用的物体。

其中，所述目标物体例如为衣物，所述分类单元将衣物分类为被穿着的衣物和未被穿着的衣物。其中，所述衣服例如为衣服、裤子、裙子、帽子、鞋子等。

根据本发明的又一方面，提供一种存储指令的存储介质，该指令在由处理器执行时能使得执行如上所述的图像处理方法。

由于本发明利用分布在目标物体周围的可能包含人体部件的区域来判断目标物体是否被使用，因此本发明无需依赖于人脸/头肩或人体的检测。从而，即使在图像/视频的画质较差的情况下或者在图像/视频中的人体被遮挡的情况下，根据本发明，也能够大大地提高对目标物体是否被使用的判断的准确度。

通过以下参考附图对典型实施例的说明，本发明的其它特征和优点将变得明显。

附图说明

并入说明书中并构成说明书的一部分的附图例示本发明的实施例，并且与实施例的描述一起用于解释本发明的原理。

图1A～1E示意性地示出人体部件与人们所穿戴或所使用的物体在空间上存在的某些特定关系。

图2是示意性地示出可实现根据本发明实施例的技术的硬件构造的框图。

图3是例示根据本发明的第一实施例的图像处理装置的构造的框图。

图4示意性地示出根据本发明的第一实施例的图像处理的流程图。

图5是例示根据本发明的第二实施例的图像处理装置的构造的框图。

图6示意性地示出根据本发明的第二实施例的图像处理的流程图。

图7A～7C分别示意性地示出了接收到的图像，根据本发明所确定的“嵌套的人体形状”及所确定的“衣服的形状”。

图8是例示根据本发明的第三实施例的图像处理装置的构造的框图。

图9示意性地示出根据本发明的第三实施例的图像处理的流程图。

图10示意性地示出一种用于生成可用于本发明的第一实施例的神经网络的生成方法的流程图。

图11示意性地示出一种用于生成可用于本发明的第二实施例及第三实施例的神经网络的生成方法的流程图。

具体实施方式

下面将参照附图详细地描述本发明的示例性实施例。应注意，下面的描述实质上仅为说明性和示例性的，并且决不意图限制本发明及其应用或用途。除非另有具体说明，否则实施例中阐述的组件和步骤的相对布置、数值表达式和数值并不限制本发明的范围。另外，本领域技术人员已知的技术、方法和设备可能不会被详细地讨论，但在适当的情形中其应当是本说明书的一部分。

请注意，相似的附图标记和字母指代附图中相似的项目，因此，一旦一个项目在一个附图中被定义，则不必在下面的附图中对其进行讨论。

一方面，发明人发现，从图像/视频中检测人们所穿戴或所使用的物体比从图像/视频中检测人体更简单，且受图像/视频的画质的好坏的影响或图像/视频中的物体间是否存在遮挡的影响较小。另一方面，发明人发现，在实际场景中，人体部件与人们所穿戴或所使用的物体在空间上存在着某些特定关系(例如，特定的方向、特定的位置等)。例如，如图1A所示，在某人穿着形状如衣服110所示的那样的衣服的情况下，衣服110的周围可能存在有人体部件的区域只能在衣服110的上方位置和下方位置，也即区域111～114所在位置处，其中区域111～114的形状和大小仅是示例性的并不用于限定本发明。又如，如图1B所示，在某人穿着形状如鞋子120所示的那样的鞋子的情况下，鞋子120的周围可能存在有人体部件的区域只能在鞋子120的上方位置，也即区域121所在位置处，其中区域121的形状和大小也仅是示例性的。再如，如图1C所示，在某人戴着形状如帽子130所示的那样的帽子的情况下，帽子130的周围可能存在有人体部件的区域只能在帽子130的下方位置，也即区域131所在位置处，其中区域131的形状和大小也仅是示例性的。又如，如图1D所示，在某人拿着形状如杯子140所示的那样的杯子的情况下，杯子140的周围可能存在有人体部件的区域只能在杯子140的右侧位置，也即区域141所在位置处，其中区域141的形状和大小也仅是示例性的。再如，如图1E所示，在某人撑着形状如雨伞150所示的那样的雨伞的情况下，雨伞150的周围可能存在有人体部件的区域只能在雨伞150的下方位置，也即区域151所在位置处，其中区域151的形状和大小也仅是示例性的。

基于上述两个方面，发明人认为，对于图像/视频中的某一目标物体(例如，衣服)，通过对该目标物体的检测并结合人体部件与该目标物体在空间上所存在的特定关系(例如，如图1A所示的特定关系)，则可大致预测出分布在该目标物体周围的可能包含有人体部件的区域，其中，在本发明中由这些区域所构成的形状可被称为“第一形状”。从而，可以通过判断这些区域中是否包含有人体的特性来判断该目标物体是否被穿戴/使用(例如，是否被穿着)，其中，上述人体的特性例如包含皮肤信息、发色信息、纹理信息等。

换句话说，本发明可通过预测目标物体周围可能包含人体部件的区域来判断该目标物体是否被穿戴/使用，从而本发明无需依赖于人脸/头肩或人体的检测，因此本发明可以有效地避免图像/视频的画质较差所带来的影响或图像/视频中的物体间存在遮挡所带来的影响。从而，根据本发明，能够大大地提高对目标物体是否被使用/穿戴的判断的准确度。下面将参照附图详细描述本发明。

其中，在本发明中，人们所穿戴或所使用的物体例如包含人们所穿戴的衣服/帽子/鞋子、人们所撑着的雨伞、人们所拿着的杯子、人们所拉着的行李箱等。

(硬件构造)

首先将参照图2描述可实现下文中描述的技术的硬件构造。

硬件构造200例如包括中央处理单元(CPU)210、随机存取存储器(RAM)220、只读存储器(ROM)230、硬盘240、输入设备250、输出设备260、网络接口270和系统总线280。进一步地，硬件结构200可通过诸如相机、摄像机、个人数字助理(PDA)、平板电脑、笔记本电脑、台式电脑或其他合适的电子设备来实现。

在一种实现方式中，根据本发明的图像处理由硬件或固件构造并且用作硬件构造200的模块或组件。例如，将在下文参照图3详细描述的图像处理装置300、将在下文参照图5详细描述的图像处理装置500和将在下文参照图8详细描述的图像处理装置800用作硬件构造200的模块或组件。在另一种实现方式中，根据本发明的图像处理由存储在ROM 230或硬盘240中且由CPU 210执行的软件构造。例如，将在下文参照图4详细描述的过程400、将在下文参照图6详细描述的过程600和将在下文图9至图11详细描述的过程900至1100用作存储在ROM 230或硬盘240中的程序。

CPU 210是任意合适的可编程控制设备(诸如，处理器)，并且可通过执行存储在ROM 230或硬盘240(诸如，存储器)中的各种应用程序来执行下文中要描述的各种功能。RAM220用于临时存储从ROM 230或硬盘240加载的程序或数据，并且也被用作CPU 210在其中执行各种过程(诸如，实施将在下文参照图4、图6、图9至图11详细描述的技术)以及其他可用功能的空间。硬盘240存储诸如操作系统(OS)、各种应用、控制程序、视频、图像、预先生成的网络(例如，神经网络)、预先定义的数据(例如，阈值(THs))等多种信息。

在一种实现方式中，输入设备250用于允许用户与硬件构造200交互。在一个实例中，用户可通过输入设备250输入图像/视频/数据。在另一实例中，用户可通过输入设备250触发本发明的对应处理。此外，输入设备250可采用多种形式，诸如按钮、键盘或触摸屏。在另一种实现方式中，输入设备250用于接收从诸如数码相机、摄像机和/或网络摄像机等专门电子设备输出的图像/视频。

在一种实现方式中，输出设备260用于向用户显示处理结果(诸如，标示出图像/视频中被使用的物体)。而且，输出设备260可采用诸如阴极射线管(CRT)或液晶显示器等各种形式。在另一种实现方式中，输出设备260用于向诸如人数统计、属性分布等的后续处理输出处理结果。

网络接口270提供用于将硬件构造200连接到网络的接口。例如，硬件构造200可经由网络接口270与经由网络连接的其他电子设备进行数据通信。可选地，可以为硬件构造200提供无线接口以进行无线数据通信。系统总线280可以提供用于在CPU 210、RAM 220、ROM 230、硬盘240、输入设备250、输出设备260和网络接口270等之间相互传输数据的数据传输路径。虽然被称为总线，但是系统总线280并不限于任何特定的数据传输技术。

上述硬件构造200仅仅是说明性的，并且决不意图限制本发明、其应用或用途。而且，为了简明起见，图2中只示出一个硬件构造。但是，根据需要也可以使用多个硬件构造。

(图像处理)

接下来将参照图3至图9描述根据本发明的图像处理。

图3是例示根据本发明的第一实施例的图像处理装置300的构造的框图。其中，图3中所示的一些或全部模块可由专用硬件实现。如图3中所示，图像处理装置300包括特征提取单元310、第一形状确定单元320和分类单元330。

首先，图2中所示的输入设备250接收从专门电子设备(例如，摄像机等)输出或由用户输入的图像。接着，输入设备250经由系统总线280将所接收图像传输到图像处理装置300。

然后，如图3中所示，特征提取单元310从接收到的图像中提取特征。在一种实现中，特征提取单元310利用各种特征提取算子从接收到的图像中提取特征，例如方向梯度直方图(Histogram of Oriented Gradient，HOG)、局部二值模式(Local Binary Pattern，LBP)等算子。

第一形状确定单元320基于特征提取单元310所提取的特征确定第一形状。其中，所述第一形状由在接收到的图像中的分布于目标物体周围的包含有人体部件的区域构成。下文中，所述第一形状例如被称为“嵌套的人体形状”。在本发明中，目标物体例如为接收到的图像中的衣物(例如衣服、裙子、裤子、鞋子、帽子等)、雨伞、杯子、行李箱等。在一种实现中，第一形状确定单元320利用预先生成的“嵌套的人体形状”模型，基于特征提取单元310所提取的特征来确定“嵌套的人体形状”。例如，可基于在其中具有标注的“嵌套的人体形状”的训练样本来统计/训练得到所述“嵌套的人体形状”模型，其中标注的“嵌套的人体形状”由在训练样本中的分布于目标物体周围的包含人体部件的区域构成。

分类单元330基于特征提取单元310所提取的特征和第一形状确定单元320所确定的“嵌套的人体形状”将所述目标物体分类为被使用的物体和未被使用的物体。在一种实现中，分类单元330利用预先生成的分类器，基于特征提取单元310所提取的特征和第一形状确定单元320所确定的“嵌套的人体形状”将所述目标物体分类为被使用的物体和未被使用的物体。例如，可基于在其中标注有目标物体是否被使用的训练样本来预先生成所述分类器。

最后，分类单元330经由图2中所示的系统总线280将分类为被使用的物体传输至输出设备260用于在接收到的图像中标示出被使用的物体并向用户显示标示出的物体，或用于向诸如人数统计、属性分布等的后续处理输出被使用的物体的有关信息。

优选地，为了能得到精确度更高的处理结果(也即，判断目标物体是否被使用)，在一种实现方式中，特征提取单元310、第一形状确定单元320和分类单元330可分别利用相应的预生成的神经网络来执行相应的操作，其中各预生成的神经网络可存储在存储设备中。例如，图3中所示的存储设备340可存储将由特征提取单元310使用的预生成神经网络(也即，第一神经网络)、将由第一形状确定单元320使用的预生成神经网络(也即，第二神经网络)和将由分类单元330使用的预生成神经网络(也即，第三神经网络)。其中，在下文中，将参照图10详细地描述生成可用于本发明的第一实施例的各神经网络的方法。在一种实现中，存储设备340为图2中所示的ROM 230或硬盘240。在另一种实现方式中，存储设备340为经由网络(未示出)与图像处理装置300连接的服务器或外部存储设备。此外，可选地，这些预生成的神经网络也可存储在不同的存储设备中。

具体地，特征提取单元310从存储单元340中获取相应的预生成神经网络(也即，第一神经网络)，并利用第一神经网络从接收到的图像中提取特征。第一形状确定单元320从存储单元340中获取相应的预生成神经网络(也即，第二神经网络)，并利用第二神经网络，基于特征提取单元310所提取的特征确定第一形状。分类单元330从存储单元340中获取相应的预生成神经网络(也即，第三神经网络)，并利用第三神经网络，基于特征提取单元310所提取的特征和第一形状确定单元320所确定的“嵌套的人体形状”将所述目标物体分类为被使用的物体和未被使用的物体。

图4中所示的流程图400是图3中所示的图像处理装置300的对应过程。在图4中，将以接收到的图像中的衣服作为目标物体为例进行说明，从而需要判断的是接收到的图像中的衣服是否被人穿着。然而，显然不必局限于此。

如图4中所示，在特征提取步骤S410中，特征提取单元310从接收到的图像中提取特征。优选地，特征提取单元310从存储单元340中获取第一神经网络，并利用第一神经网络从接收到的图像中提取特征。其中，所提取的特征例如为接收到的图像中的全图特征，例如包括图像中的人体特征、衣服特征、背景特征等。其中，特征提取单元310用到的神经网络例如为VGG16结构、ResNet结构、SENet结构等。

在第一形状确定步骤S420中，第一形状确定单元320基于从特征提取步骤S410中所提取的特征确定“嵌套的人体形状”。优选地，第一形状确定单元320从存储单元340中获取第二神经网络，并利用第二神经网络，基于从特征提取步骤S410中所提取的特征确定“嵌套的人体形状”。其中，第一形状确定单元320用到的神经网络例如为反卷积网络结构。在本发明中，所确定的“嵌套的人体形状”是一张大小与接收到的图像相同的掩码图，其中，该掩码图例如是具有像素值为0或1的0/1掩码图或像素值为0～1的热力图。其中，所确定的“嵌套的人体形状”体现了接收到的图像中的衣服周围更有可能是人体的区域。

在分类步骤S430中，分类单元330基于从特征提取步骤S410中所提取的特征和和从第一形状确定步骤S420中所确定的“嵌套的人体形状”将接收到的图像中的衣服(也即，目标物体)分类为被人穿着的衣服和未被人穿着的衣服。优选地，分类单元330从存储单元340中获取第三神经网络，并利用第三神经网络，基于从特征提取步骤S410中所提取的特征和和从第一形状确定步骤S420中所确定的“嵌套的人体形状”将接收到的图像中的衣服(也即，目标物体)分类为被人穿着的衣服和未被人穿着的衣服。其中，分类单元330用到的神经网络的损失函数例如为Softmax函数或Focal loss函数。例如，对于接收到的图像中的一件衣服，在分类单元330获得的属性值例如为1的情况下，表示该件衣服被人穿着；在分类单元330获得的属性值例如为0的情况下，表示该件衣服未被人穿着。

最后，对于在分类步骤S430中得到的被人穿着的衣服，分类单元330经由图2中所示的系统总线280将分类为被人穿着的衣服传输至输出设备260用于在接收到的图像中标示出被人穿着的衣服并向用户显示标示出的衣服，或用于向诸如人数统计、属性分布等的后续处理输出被人穿着的衣服的有关信息。

进一步地，为了能在目标物体周围确定出更加有可能包含人体部件的区域，也就是说，为了能确定出更加精确的“嵌套的人体形状”，以便能更加准确地判断目标物体是否被使用，除了使用从接收的图像中提取的特征，图3中所示的第一形状确定单元320还可进一步地使用目标物体的其它信息来确定“嵌套的人体形状”。

在一种实现中，由于在知道目标物体的形状的情况下，可更加准确地判断出人体部件与目标物体之间的位置关系，从而根据该位置关系可以更加准确地确定出“嵌套的人体形状”。图5是例示根据本发明的第二实施例的图像处理装置500的构造的框图。其中，图5中所示的一些或全部模块可由专用硬件实现。其中，图5中所示的图像处理装置500与图3中所示的图像处理装置300相比，进一步地包括第二形状确定单元510。

另外，图5中所示的存储设备520存储将由第二形状确定单元510使用的预生成神经网络(也即，第四神经网络)及在上述第一实施例中用到的第一神经网络、第二神经网络和第三神经网络。其中，在下文中，将参照图11详细地描述生成可用于本发明的第二实施例的各神经网络的方法。其中，存储设备520可与图3中所示的存储设备340为同一设备，也可为不同的设备。此外，在一种实现中，存储设备520为图2中所示的ROM 230或硬盘240。在另一种实现方式中，存储设备520为经由网络(未示出)与图像处理装置500连接的服务器或外部存储设备。可选地，这些预生成的神经网络也可存储在不同的存储设备中。

如图5中所示，在特征提取单元310利用第一神经网络从接收到的图像中提取特征后，第二形状确定单元510从存储单元520中获取相应的预生成神经网络(也即，第四神经网络)，并利用第四神经网络，基于特征提取单元310所提取的特征确定第二形状，其中所述第二形状表示目标物体的形状(例如，衣服的形状)。

然后，第一形状确定单元320利用第二神经网络，基于特征提取单元310所提取的特征和第二形状确定单元510所确定的目标物体的形状来确定更加准确的“嵌套的人体形状”。

此外，由于图5中所示的特征提取单元310及分类单元330与图3中所示的对应单元相同，因此此处将不再重复详细的描述。

图6中所示的流程图600是图5中所示的图像处理装置500的对应过程。其中，图6中所示的流程图600与图4中所示的流程图400相比，进一步地包括第二形状确定步骤S610。在图6中，同样以接收到的图像中的衣服作为目标物体为例进行说明，从而需要判断的是接收到的图像中的衣服是否被人穿着。然而，显然不必局限于此。

如图6中所示，在特征提取单元310在特征提取步骤S410中利用第一神经网络从接收到的图像中提取特征后，在第二形状确定步骤S610中，第二形状确定单元510从存储单元520中获取第四神经网络，并利用第四神经网络，基于从特征提取步骤S410中所提取的特征来确定“衣服的形状”。其中，第二形状确定单元510用到的神经网络例如为反卷积网络结构，例如为用于图像分割的卷积神经网络Mask R-CNN或全卷积网络(FCN)。在本发明中，所确定的“衣服的形状”也是一张大小与接收到的图像相同的掩码图，其中，所确定的“衣服的形状”体现了接收到的图像中的衣服所在的区域。例如，如图7A～7C所示，假设所接收到的图像如图7A所示，图7B示例性地示出了所确定的“嵌套的人体形状”，图7C示例性地示出了所确定的“衣服的形状”。

然后，在第一形状确定步骤S420中，第一形状确定单元320利用第二神经网络，基于从特征提取步骤S410中所提取的特征和从第二形状确定步骤S610中所确定的“衣服的形状”来确定更加准确的“嵌套的人体形状”。

此外，由于图6中所示的特征提取步骤S410及分类步骤S430与图4中所示的对应步骤相同，因此此处将不再重复详细的描述。

进一步地，除了可以使用目标物体的形状信息，在可以进一步地使用目标物体的属性信息(尤其是种类信息)的情况下，还可进一步更加准确地判断出人体部件与目标物体之间的位置关系，从而可更加准确地判断人体部件在目标物体周围更有可能出现的区域，并且进一步更加准确地确定出“嵌套的人体形状”。图8是例示根据本发明的第三实施例的图像处理装置800的构造的框图。其中，图8中所示的一些或全部模块可由专用硬件实现。其中，图8中所示的图像处理装置800与图5中所示的图像处理装置500相比，进一步地包括属性识别单元810。另外，图8中所示的存储设备520(也即，图5中所示的存储设备520)中存储的第四神经网络也可被属性识别单元810使用。

如图8中所示，在第二形状确定单元510利用第四神经网络基于特征提取单元310所提取的特征确定目标物体的形状后，属性识别单元810继续利用第四神经网络，基于特征提取单元310所提取的特征和第二形状确定单元510所确定的目标物体的形状识别目标物体的属性(例如，衣服的种类/样式，如裤子、裙子、T恤等)。

然后，第一形状确定单元320利用第二神经网络，基于特征提取单元310所提取的特征、第二形状确定单元510所确定的目标物体的形状和属性识别单元810所识别的目标物体的属性来确定更加准确的“嵌套的人体形状”。

此外，由于图8中所示的特征提取单元310、分类单元330及第二形状确定单元510与图5中所示的对应单元相同，因此此处将不再重复详细的描述。

图9中所示的流程图900是图8中所示的图像处理装置800的对应过程。其中，图9中所示的流程图900与图6中所示的流程图600相比，进一步地包括属性识别步骤S910。在图9中，同样以接收到的图像中的衣服作为目标物体为例进行说明，从而需要判断的是接收到的图像中的衣服是否被人穿着。然而，显然不必局限于此。

如图9中所示，在第二形状确定单元510在第二形状确定步骤S610中利用第四神经网络确定“衣服的形状”后，在属性识别步骤S910中，属性识别单元810继续利用第四神经网络，基于从特征提取步骤S410中所提取的特征和从第二形状确定步骤S610中所确定的“衣服的形状”来识别“衣服的属性”(例如，该衣服的种类为T恤)。

然后，在第一形状确定步骤S420中，第一形状确定单元320利用第二神经网络，基于从特征提取步骤S410中所提取的特征、从第二形状确定步骤S610所确定的“衣服的形状”和从属性识别步骤S910中所识别的“衣服的属性”来确定更加准确的“嵌套的人体形状”。具体地，例如，首先，第一形状确定单元320利用第二神经网络，基于从特征提取步骤S410中所提取的特征、从第二形状确定步骤S610所确定的“衣服的形状”和从属性识别步骤S910中所识别的“衣服的属性”重新提取特征，其中该重新提取的特征能够描述在具有该种形状及属性的衣服周围更有可能出现人体部件的区域。然后，第一形状确定单元320利用第二神经网络基于该重新提取的特征确定“嵌套的人体形状”。

此外，由于图9中所示的特征提取步骤S410、分类步骤S430及第二形状确定步骤S610与图6中所示的对应步骤相同，因此此处将不再重复详细的描述。

如上所述，本发明利用分布在目标物体周围的可能包含人体部件的区域来判断目标物体是否被使用，因此本发明无需依赖于人脸/头肩或人体的检测。从而，即使在图像/视频的画质较差的情况下或者在图像/视频中的人体被遮挡的情况下，根据本发明，也能够大大地提高对目标物体是否被使用的判断的准确度。

此外，如上所述，作为本发明的一种应用，可以根据经本发明分类为被使用的物体的有关信息来进行相应的人数统计或属性分布等后续处理。例如，对于人数统计处理而言，对于本发明的第一实施例至第三实施例中的任何一个，换句话说，图3中所示的图像处理装置300或图5中所示的图像处理装置500或图8中所示的图像处理装置800可进一步地包括人数确定单元(未示出)。具体地，先通过图像处理装置300/500/800从一图像中确定出(也即，分类出)被使用的物体。然后，人数确定单元基于确定出的被使用的物体的数量确定所述图像中所包含的人数。例如，在目标物体为衣服的情况下，则可直接将被人穿着的衣服的数量视为图像中所包含的人的数量。例如，在目标物体为衣服、裤子的情况下，则可基于被人穿着的衣服的数量和被人穿着的裤子的数量来确定图像中所包含人的数量。具体地，可将通过如下数学运算得到的数量视为图像中所包含的人的数量，其中，该数学运算例如如下：

人的数量＝被人穿着的衣服的数量+被人穿着的裤子的数量-M

其中，M为裤子的宽度被其上方的衣服遮盖超过例如50％的裤子的数量，其中此处的裤子和衣服均为被人穿着。

例如，对于属性分布处理而言，图像处理装置300/500/800可进一步地包括属性分布确定单元(未示出)。具体地，先通过图像处理装置300/500/800从一图像中确定出(也即，分类出)被使用的物体(尤其是，被人穿着的衣服)。然后，属性分布确定单元基于确定出的被使用的物体的属性确定这些被使用的物体的属性分布。例如，在利用图像处理装置800来执行相应的操作的情况下，可直接将经由属性识别单元810识别出的这些被使用的物体的属性进行统计而得到相应的属性分布。例如，在利用图像处理装置300/500来执行相应的操作的情况下，可先对这些被使用的物体的属性进行识别，之后再对识别出的属性进行统计而得到相应的属性分布。

(神经网络的生成)

为了生成可用于本发明的第一实施例的神经网络，可以预先通过使用参照图10的生成方法基于预先设置好的初始神经网络和训练样本来生成相应的神经网络。参照图10的生成方法也可以通过图2所示的硬件结构200来执行。

在一种实现方式中，为了提高神经网络的参数的收敛性，图10示意性地示出一种用于生成可用于本发明的第一实施例的神经网络的生成方法的流程图1000。

如图10所示，首先，如图2中所示的CPU 210通过输入设备250获取被预先设置好的初始神经网络和训练样本，其中包括两部分的训练样本。一部分训练样本为标注有第一形状的正样本，其中所述标注的第一形状由在训练样本中的分布于目标物体周围的包含人体部件的区域构成，也即，所述标注的第一形状为“内嵌的人体形状”。另一部分训练样本为标注有目标物体被使用(例如，衣服被穿着)的正样本和目标物体未被使用(例如，衣服未被穿着)的负样本。

然后，在步骤S1010中，CPU 210利用标注有“内嵌的人体形状”的训练样本来更新神经网络中的第一神经网络和第二神经网络。具体地，首先，CPU 210将相应的训练样本经由当前第一神经网络(例如，初始第一神经网络)和当前第二神经网络(例如，初始第二神经网络)以获得预测的“内嵌的人体形状”。其次，CPU 210利用损失函数(例如，L1Loss函数或L2Loss函数)来确定预测的“内嵌的人体形状”与真实的“内嵌的人体形状”之间的损失(也即，误差)，例如，可表示为Loss1。其中，真实的“内嵌的人体形状”可根据训练样本中所标注的“内嵌的人体形状”获得。再次，CPU 210通过反向传递方式基于损失Loss1更新当前第一神经网络和当前第二神经网络中各层的参数，其中此处各层的参数例如是当前第一神经网络和当前第二神经网络中各卷积层中的权重值。在一种实例中，例如利用随机梯度下降方法基于损失Lossl来更新各层的参数。

在步骤S1020中，CPU 210判断当前第一神经网络和当前第二神经网络是否满足预定条件。例如，在对当前第一神经网络和当前第二神经网络的更新次数达到一个预定的次数(例如，M次)后，则认为当前第一神经网络和当前第二神经网络已满足预定条件，则生成过程将进入步骤S1030，否则生成过程将重新进入步骤S1010。然而，显然不必局限于此。

作为步骤S1010及步骤S1020的一种替换，例如，在确定出损失Loss1后，CPU 210将其与一阈值(例如，TH1)进行比较，在Loss1小于或等于TH1的情况下，当前第一神经网络和当前第二神经网络将被判断为已满足预定条件，则生成过程将进入其它更新操作(例如，步骤S1030)，否则，CPU 210将基于损失Loss1更新当前第一神经网络和当前第二神经网络中各层的参数，之后生成过程再重新进入更新第一神经网络和第二神经网络的操作(例如，步骤S1010)。

返回图10，在步骤S1030中，CPU 210利用标注有目标物体被使用的正样本和标注有目标物体未被使用的负样本来更新神经网络中的第一神经网络、第二神经网络和第三神经网络。具体地，首先，CPU 210将相应的训练样本经由当前第一神经网络、当前第二神经网络和当前第三神经网络(例如，初始第三神经网络)以获得目标物体是否被使用的预测结果，其中当前第一神经网络和当前第二神经网络为经步骤S1010更新后的神经网络。其次，CPU 210利用损失函数(例如，Softmax Loss函数或Focal Loss函数)来确定目标物体是否被使用的预测结果及其真实结果之间的损失(例如，可表示为Loss2)。其中，目标物体是否被使用的真实结果可根据正样本和负样本中的标注来获得。再次，CPU 210通过反向传递方式基于损失Loss2更新当前第一神经网络、当前第二神经网络和当前第三神经网络中各层的参数，其中此处各层的参数例如是当前第一神经网络、当前第二神经网络和当前第三神经网络中各卷积层中的权重值。在一种实例中，例如利用随机梯度下降方法基于损失Loss2来更新各层的参数。

在步骤S1040中，CPU 210判断当前第一神经网络、当前第二神经网络和当前第三神经网络是否满足预定条件。例如，在对当前第一神经网络至当前第三神经网络的更新次数达到一个预定的次数(例如，N次)后，则认为当前第一神经网络至当前第三神经网络已满足预定条件，从而将它们作为最终的神经网络输出，其中该最终的神经网络例如被输出到图3中所示的存储设备340中以用于本发明的第一实施例中。否则，生成过程将重新进入步骤S1030。然而，显然不必局限于此。也可如上面对步骤S1010及步骤S1020所述的替换方案那样，可基于损失Loss2与一预定阈值(例如，TH2)来判断当前第一神经网络至当前第三神经网络是否满足预定条件。由于相应的判断操作类似，因此此处将不再重复详细的描述。

为了生成可用于本发明的第二实施例及第三实施例的神经网络，可以预先通过使用参照图11的生成方法基于预先设置好的初始神经网络和训练样本来生成相应的神经网络。参照图11的生成方法也可以通过图2所示的硬件结构200来执行。

在一种实现方式中，为了提高神经网络的收敛性，图11示意性地示出一种用于生成可用于本发明的第二实施例及第三实施例的神经网络的生成方法的流程图1100。下面，将以生成可用于本发明的第三实施例的神经网络为例进行说明。

如图11所示，首先，如图2中所示的CPU 210通过输入设备250获取被预先设置好的初始神经网络和训练样本，其中包括三部分的训练样本。一部分训练样本为标注有目标物体的形状(例如，衣服的形状)和目标物体的属性(例如，衣服的种类)的正样本。另一部分训练样本为标注有第一形状的正样本，其中所述标注的第一形状由在训练样本中的分布于目标物体周围的包含人体部件的区域构成，也即，所述标注的第一形状为“内嵌的人体形状”。再一部分训练样本为标注有目标物体被使用(例如，衣服被穿着)的正样本和目标物体未被使用(例如，衣服未被穿着)的负样本。

然后，在步骤S1110中，CPU 210利用标注有目标物体的形状和目标物体的属性的训练样本来更新神经网络中的第一神经网络和第四神经网络。具体地，首先，CPU 210将相应的训练样本经由当前第一神经网络(例如，初始第一神经网络)和当前第四神经网络(例如，初始第四神经网络)以获得预测的目标物体的形状和预测的目标物体的属性。其次，CPU210利用损失函数(例如，L2Loss函数)来确定预测的目标物体的形状与真实的目标物体的形状之间的损失(例如，可表示为Loss3)，并利用损失函数(例如，Softmax Loss函数)来确定预测的目标物体的属性与真实的目标物体的属性之间的损失(例如，可表示为Loss4)。其中，真实的目标物体的形状和真实的目标物体的属性可根据训练样本中所标注的目标物体的形状和目标物体的属性获得。再次，CPU 210确定当前第一神经网络和当前第四神经网络的整体损失，例如对Loss3和Loss4求和以作为整体损失。然后，CPU 210通过反向传递方式基于确定的整体损失更新当前第一神经网络和当前第四神经网络中各层的参数，其中此处各层的参数例如是当前第一神经网络和当前第四神经网络中各卷积层中的权重值。在一种实例中，例如利用随机梯度下降方法基于确定的整体损失来更新各层的参数。

在步骤S1120中，CPU 210判断当前第一神经网络和当前第四神经网络是否满足预定条件。例如，在对当前第一神经网络和当前第四神经网络的更新次数达到一个预定的次数(例如，L次)后，则认为当前第一神经网络和当前第四神经网络已满足预定条件，则生成过程将进入步骤S1130，否则生成过程将重新进入步骤S1110。然而，如图10中所述，判断当前的各神经网络是否满足预定条件显然不必局限于此。

在步骤S1130中，CPU 210利用标注有“内嵌的人体形状”的训练样本来更新神经网络中的第二神经网络。具体地，首先，CPU 210将相应的训练样本经由当前第一神经网络、当前第二神经网络(例如，初始第二神经网络)和当前第四神经网络以获得预测的“内嵌的人体形状”，其中，当前第一神经网络和当前第四神经网络为经步骤S1110更新后的神经网络。其次，与图10中所述的步骤S1010类似的，CPU 210确定预测的“内嵌的人体形状”与真实的“内嵌的人体形状”之间的损失(例如，可表示为Loss5)，并通过反向传递方式基于损失Loss5更新当前第二神经网络中各层的参数。此外，作为一种替换，也可基于Loss5来同时更新当前第一神经网络、当前第二神经网络和当前第四神经网络。

在步骤S1140中，CPU 210判断当前第二神经网络是否满足预定条件。例如，在对当前第二神经网络的更新次数达到一个预定的次数(例如，T次)后，则认为当前第二神经网络已满足预定条件，则生成过程将进入步骤S1150，否则生成过程将重新进入步骤S1130。然而，如图10中所述，判断当前的各神经网络是否满足预定条件显然不必局限于此。

在步骤S1150中，CPU 210利用标注有目标物体被使用的正样本和标注有目标物体未被使用的负样本来更新神经网络中的第一神经网络、第二神经网络、第三神经网络和第四神经网络。具体地，首先，CPU 210将相应的训练样本经由当前第一神经网络、当前第二神经网络、当前第三神经网络(例如，初始第三神经网络)和当前第四神经网络以获得目标物体是否被使用的预测结果，其中当前第一神经网络和当前第四神经网络为经步骤S1110更新后的神经网络，其中当前第二神经网络为经步骤S1130更新后的神经网络。其次，与图10中所述的步骤S1030类似的，CPU 210确定目标物体是否被使用的预测结果及其真实结果之间的损失(例如，可表示为Loss6)，并通过反向传递方式基于损失Loss6更新当前第一神经网络、当前第二神经网络、当前第三神经网络和当前第四神经网络中各层的参数。

在步骤S1160中，CPU 210判断当前第一神经网络、当前第二神经网络、当前第三神经网络和当前第四神经网络是否满足预定条件。例如，在对当前第一神经网络至当前第四神经网络的更新次数达到一个预定的次数(例如，P次)后，则认为当前第一神经网络至当前第四神经网络已满足预定条件，从而将它们作为最终的神经网络输出，其中该最终的神经网络例如被输出到图5或图8中所示的存储设备520中以用于本发明的第二实施例或第三实施例中。否则，生成过程将重新进入步骤S1150。然而，如图10中所述，判断当前的各神经网络是否满足预定条件显然不必局限于此。

此外，用于本发明的第二实施例的神经网络与用于本发明的第三实施例的神经网络的区别是，本发明的第二实施例用到的第四神经网络无需识别目标物体的属性。因此，生成用于本发明的第二实施例的神经网络时，在图11中所示的步骤S1110中，一方面，可以仅确定预测的目标物体的形状与真实的目标物体的形状之间的损失(也即，Loss3)，并用其来更新当前第一神经网络和当前第四神经网络。另一方面，在相应的训练样本中仅标注目标物体的形状而无需标注目标物体的属性。

上述的所有单元都是用于实现本公开中所述处理的示例性和/或优选模块。这些单元可以是硬件单元(诸如，现场可编程门阵列(FPGA)、数字信号处理器、专用集成电路等)和/或软件模块(诸如，计算机可读程序)。上面没有详尽地描述用于实现各步骤的单元。然而，当存在执行特定过程的步骤的情况下，可以存在用于实现该同一过程的对应功能模块或单元(通过硬件和/或软件实现)。通过描述的步骤和对应于这些步骤的单元的所有组合的技术方案包括在本申请的公开内容中，只要它们所构成的技术方案是完整的、适用的即可。

可以以多种方式来实施本发明的方法和装置。例如，可以通过软件、硬件、固件或其任何组合来实施本发明的方法和装置。除非另有具体说明，否则本方法的步骤的上述顺序仅旨在是说明性的，并且本发明的方法的步骤不局限于上述具体描述的顺序。此外，在一些实施例中，本发明还可以被实施为在记录介质中记录的程序，其包括用于实现根据本发明的方法的机器可读指令。因此，本发明也覆盖存储用于实现根据本发明的方法的程序的记录介质。

虽然已经通过示例详细地展示了本发明的一些具体实施例，但是本领域的技术人员应该理解，上述示例仅旨在是说明性的，并不限制本发明的范围。本领域的技术人员应该理解，上述实施例可以在不脱离本发明的范围和精神的情况下被修改。本发明的范围由所附权利要求约束。

Claims

1.一种图像处理装置，所述图像处理装置包括：

特征提取单元，利用第一神经网络，从图像中提取特征；

第一形状确定单元，利用第二神经网络，基于所提取的特征确定第一形状，其中所述第一形状由在所述图像中的分布于目标物体周围的区域构成，其中所述区域为包含人体部件的区域；及

分类单元，利用第三神经网络，基于所提取的特征和所述第一形状将所述目标物体分类为被使用的物体和未被使用的物体。

2.根据权利要求1所述的图像处理装置，所述图像处理装置进一步包括：

第二形状确定单元，利用第四神经网络，基于所提取的特征确定第二形状，其中所述第二形状表示所述目标物体的形状；

其中，所述第一形状确定单元，利用所述第二神经网络，基于所提取的特征和所述第二形状确定所述第一形状。

3.根据权利要求2所述的图像处理装置，所述图像处理装置进一步包括：

属性识别单元，利用所述第四神经网络，基于所提取的特征和所述第二形状识别所述目标物体的属性；

其中，所述第一形状确定单元，利用所述第二神经网络，基于所提取的特征、所述第二形状和所识别的属性确定所述第一形状。

4.根据权利要求1所述的图像处理装置，其中，基于其中具有标注的第一形状的训练样本来生成所述第一神经网络和所述第二神经网络；

其中，所述标注的第一形状由在训练样本中的分布于目标物体周围的包含人体部件的区域构成。

5.根据权利要求3所述的图像处理装置，其中，基于在其中标注有目标物体的形状和目标物体的属性的训练样本来生成所述第一神经网络和所述第四神经网络。

6.根据权利要求5所述的图像处理装置，其中，利用所述第一神经网络和所述第四神经网络，基于其中具有标注的第一形状的训练样本来生成所述第二神经网络；

7.根据权利要求4或权利要求6所述的图像处理装置，其中，至少利用所述第一神经网络和所述第二神经网络，基于在其中标注有目标物体是否被使用的训练样本来生成所述第三神经网络。

8.根据权利要求1-3中任一项权利要求所述的图像处理装置，所述图像处理装置进一步包括：

人数确定单元，基于被分类为被使用的物体的数量确定所述图像中所包含的人数；和/或

属性分布确定单元，基于被分类为被使用的物体的属性确定这些被使用的物体的属性分布。

9.根据权利要求1-3中任一项权利要求所述的图像处理装置，其中，所述目标物体为衣物；其中，所述分类单元将衣物分类为被穿着的衣物和未被穿着的衣物。

10.一种图像处理方法，所述图像处理方法包括：

特征提取步骤，利用第一神经网络，从图像中提取特征；

第一形状确定步骤，利用第二神经网络，基于所提取的特征确定第一形状，其中所述第一形状由在所述图像中的分布于目标物体周围的区域构成，其中所述区域为包含人体部件的区域；及

分类步骤，利用第三神经网络，基于所提取的特征和所述第一形状将所述目标物体分类为被使用的物体和未被使用的物体。

11.根据权利要求10所述的图像处理方法，所述图像处理方法进一步包括：

第二形状确定步骤，利用第四神经网络，基于所提取的特征确定第二形状，其中所述第二形状表示所述目标物体的形状；

其中，在所述第一形状确定步骤中，利用所述第二神经网络，基于所提取的特征和所述第二形状确定所述第一形状。

12.根据权利要求11所述的图像处理方法，所述图像处理方法进一步包括：

属性识别步骤，利用所述第四神经网络，基于所提取的特征和所述第二形状识别所述目标物体的属性；

其中，在所述第一形状确定步骤中，利用所述第二神经网络，基于所提取的特征、所述第二形状和所识别的属性确定所述第一形状。

13.根据权利要求10-12中任一项权利要求所述的图像处理方法，其中，所述目标物体为衣物；其中，在所述分类步骤中，将衣物分类为被穿着的衣物和未被穿着的衣物。

14.一种存储指令的存储介质，该指令在由处理器执行时能使得执行根据权利要求10-12中任一项所述的图像处理方法。