CN111814513A

CN111814513A - 行人物品检测装置及方法、电子设备

Info

Publication number: CN111814513A
Application number: CN201910287813.6A
Authority: CN
Inventors: 丁蓝; 谭志明
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2020-10-23
Anticipated expiration: 2039-04-11
Also published as: CN111814513B; JP7434914B2; US11488410B2; JP2020173780A; US20200327314A1

Abstract

本发明实施例提供一种行人物品检测装置及方法、电子设备。由于在检测出的行人区域中直接使用深度学习模型进行目标检测，因此能够准确的检测属于行人的各种物品，并且，由于不需要进行衣服区域的确定，因此检测的鲁棒性较好；另外，由于不需要根据行人的轮廓进行行人的各个区域的分割，因此检测速度较快且不易受到噪声的影响从而保证了检测结果的准确性。

Description

行人物品检测装置及方法、电子设备

技术领域

本发明涉及信息技术领域，尤其涉及一种行人物品检测装置及方法、电子设备。

背景技术

随着信息技术的不断发展，智能监控不仅用于社会安全方面，并且在商业应用方面也存在巨大的潜力。得益于深度学习模型，行人检测已经达到了应用级别的性能。如果对检测到的行人进行描述将是下一步的工作。

脸部通常被认为是识别或描述人类的关键特征。但是，在监控环境下，由于体积小、遮挡或背对姿势等因素，脸部常常不能被使用。近来，出现了利用检测衣服，随身携带的物品和饰品等属于行人的物品来描述检测到的行人的方法。

在现有方法中，可以通过先前的人体比例知识来划分行人所在的区域，例如，将行人所在的区域中确定上衣区域和下衣区域，并在确定的上衣区域和下衣区域中使用分类模型进行上衣和下衣的识别。另外，还可以根据人体的轮廓进行区域的分割，并在分割后的区域中使用分类模型进行检测。

应该注意，上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本发明的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

发明人发现，由于监控的环境比较复杂，可能出现行人没有被完全检测到的情况，例如，行人被部分遮挡的情况，在这些情况下，将无法按照人体比例知识进行上衣区域和下衣区域的准确划分，导致无法准确的对衣服进行检测，另外，该方法无法检测衣服之外的其他物品；另外，当根据人体的轮廓进行人体各个区域的分割时，其处理过程较为复杂且容易受到噪声的影响而导致检测结果不准确。

本发明实施例提供一种行人物品检测装置及方法、电子设备，通过在检测出的行人区域中直接使用深度学习模型进行目标检测，能够直接输出该行人区域内的属于该行人的物品的检测框以及该物品的类别，因此能够准确且迅速的检测出属于该行人的各种物品，且鲁棒性较好。

根据本发明实施例的第一方面，提供一种行人物品检测装置，所述装置包括：第一检测单元，其用于在输入图像中检测行人所在的行人区域；以及第二检测单元，其用于在检测出的所述行人区域中直接使用深度学习模型进行目标检测，输出所述行人区域内的属于所述行人的物品的检测框以及所述物品的类别。

根据本发明实施例的第二方面，提供一种电子设备，所述电子设备包括根据本发明实施例的第一方面所述的装置。

根据本发明实施例的第三方面，提供一种行人物品检测方法，所述方法包括：在输入图像中检测行人所在的行人区域；以及在检测出的所述行人区域中直接使用深度学习模型进行目标检测，输出所述行人区域内的属于所述行人的物品的检测框以及所述物品的类别。

本发明的有益效果在于：由于在检测出的行人区域中直接使用深度学习模型进行目标检测，因此能够准确的检测属于行人的各种物品，并且，由于不需要进行衣服区域的确定，因此检测的鲁棒性较好；另外，由于不需要根据行人的轮廓进行行人的各个区域的分割，因此检测速度较快且不易受到噪声的影响从而保证了检测结果的准确性。

参照后文的说明和附图，详细公开了本发明的特定实施方式，指明了本发明的原理可以被采用的方式。应该理解，本发明的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内，本发明的实施方式包括许多改变、修改和等同。

针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在，但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。

附图说明

所包括的附图用来提供对本发明实施例的进一步的理解，其构成了说明书的一部分，用于例示本发明的实施方式，并与文字描述一起来阐释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本发明实施例1的行人物品检测装置的一示意图；

图2是本发明实施例1的行人区域的一示意图；

图3是本发明实施例1的第二检测单元输出的检测结果的一示意图；

图4是本发明实施例1的第二检测单元的一示意图；

图5是本发明实施例2的电子设备的一示意图；

图6是本发明实施例2的电子设备的系统构成的一示意框图；

图7是本发明实施例3的行人物品检测方法的一示意图。

具体实施方式

参照附图，通过下面的说明书，本发明的前述以及其它特征将变得明显。在说明书和附图中，具体公开了本发明的特定实施方式，其表明了其中可以采用本发明的原则的部分实施方式，应了解的是，本发明不限于所描述的实施方式，相反，本发明包括落入所附权利要求的范围内的全部修改、变型以及等同物。

实施例1

本发明实施例提供一种行人物品检测装置。图1是本发明实施例1的行人物品检测装置的一示意图。如图1所示，行人物品检测装置100包括：

第一检测单元101，其用于在输入图像中检测行人所在的行人区域；以及

第二检测单元102，其用于在检测出的该行人区域中直接使用深度学习模型进行目标检测，输出该行人区域内的属于该行人的物品的检测框以及该物品的类别。

由上述实施例可知，由于在检测出的行人区域中直接使用深度学习模型进行目标检测，因此能够准确的检测属于行人的各种物品，并且，由于不需要进行衣服区域的确定，因此检测的鲁棒性较好；另外，由于不需要根据行人的轮廓进行行人的各个区域的分割，因此检测速度较快且不易受到噪声的影响从而保证了检测结果的准确性。

在本实施例中，该输入图像可以是包含行人的各种图像，例如，监控视频中的图像。

在本实施例中，第一检测单元101在输入图像中检测行人所在的区域可以使用现有方法，例如，使用特征金字塔网络(FPN，Feature Pyramid Networks)进行检测，得到输入图像中的所有行人所在的区域，即各个行人的检测框表示的区域。

在第一检测单元101检测出输入图像中所有行人所在的行人区域之后，当检测出的行人区域有多个时，第二检测单元102针对各个行人区域分别使用深度学习模型进行目标检测，输出该行人区域内的属于该行人的物品的检测框以及该物品的类别。

在本实施例中，该深度学习模型可以是各种类型的深度学习模型，例如，该深度学习模型是类型为YoloV3的深度卷积神经网络，YoloV3深度卷积神经网络一次读取全图就能够检测出所有的目标，在保持较高处理速度的同时具有良好的物体检测的性能，因此能够进一步提高检测速度和精度。

在本实施例中，以YoloV3深度卷积神经网络为例进行说明。

在本实施例中，该物品可以包括各种类型的服装、随身携带的物品以及饰品。

在对该YoloV3深度卷积神经网络进行训练时，可以预先创建一个包含各个类别的训练图像的数据集以用于训练。

在本实施例中，对该YoloV3深度卷积神经网络进行训练的具体方法可以使用现有方法，此处不再赘述。

图2是本发明实施例1的行人区域的一示意图，图3是本发明实施例1的第二检测单元输出的检测结果的一示意图。

如图2和图3所示，对于图中所示的行人，第二检测单元102输出的检测结果包括属于该行人的物品的检测框以及各个物品的类别，分别为“短袖”、“挎包”以及“裙子”。

另外，第二检测单元102输出的检测结果还可以包括各个物品的类别的置信度，例如，“短袖：0.96”、“挎包：0.88”以及“裙子：0.90”。

另外，第二检测单元102输出的检测结果还可以包括各个物品的位置，例如，各个物品的检测框的中心点的坐标，以及检测框的宽和高。

以下，对第二检测单元102的结构以及检测方法进行示例性的说明。

图4是本发明实施例1的第二检测单元102的一示意图。如图4所示，第二检测单元102包括：

第三检测单元401，其用于在检测出的该行人区域内直接使用深度学习模型检测该行人区域内的所有候选物品的检测框、该候选物品的类别以及置信度；以及

筛选单元402，其用于对该行人区域内的所有候选物品进行筛选，将经过筛选的候选物品作为属于该行人的物品而输出。

例如，第三检测单元401在行人区域内使用YoloV3深度卷积神经网络检测出作为候选物品的所有物品的检测框，并同时输出各个物品的类别以及该类别的置信度。

在本实施例中，筛选单元402对该行人区域内的所有候选物品进行筛选，例如，该筛选单元402可以根据以下的至少一个对该候选物品进行筛选：该候选物品的类别；该候选物品的类别的置信度；至少两个候选物品的检测框的重合程度；以及该候选物品的检测框面积与该候选物品所在的行人区域的面积之比。

例如，该筛选单元402根据候选物品的类别以及该候选物品的检测框面积与该候选物品所在的行人区域的面积之比进行筛选，例如，对于某种候选物品，其具有合理的尺寸范围，因此其检测框面积与行人区域的面积比也应在一预设的范围内，当该面积比没有位于该预设的范围内时，则去除该候选物品。

例如，该筛选单元402根据至少两个候选物品的检测框的重合程度以及置信度进行筛选，例如，在至少两个候选物品的检测框的重合程度满足预设条件且该至少两个候选物品的类别相同或相近的情况下，仅保留置信度最高的候选物品。例如，类别均为“背包”的两个候选物品的检测框的重合程度满足预设条件，两个候选物品的置信度分别为0.95和0.80，则保留置信度为0.95的背包。

例如，该筛选单元402根据候选物品的类别以及置信度进行筛选。例如，在该行人区域内存在类别互斥的至少两个物品时，仅保留置信度最高的候选物品。

在本实施例中，类别互斥是指在正常情况下不应同时出现的至少两类物品，例如，长裤和短裤，连衣裙和裙子，长袖和短袖等。

在本实施例中，该装置100还可以包括：

标记单元103，其用于根据检测出的该物品的类别，对该行人的属性进行标记。

例如，当检测出行人区域内的物品包括“裙子”或“连衣裙”时，则可以将该行人的属性标记为“女性”，当检测出该行人区域内的物品包括“领带”时，则可以将该行人的属性标记为“男性”。这样，能够根据检测出的物品对行人进行准确的描述。

在本实施例中，标记单元103为可选部件，在图1中用虚线框表示。

实施例2

本发明实施例还提供了一种电子设备，图5是本发明实施例2的电子设备的一示意图。如图5所示，电子设备500包括行人物品检测装置501，该行人物品检测装置501的结构和功能与实施例1中的记载相同，此处不再赘述。

图6是本发明实施例2的电子设备的系统构成的一示意框图。如图6所示，电子设备600可以包括中央处理器601和存储器602；该存储器602耦合到该中央处理器601。该图是示例性的；还可以使用其它类型的结构，来补充或代替该结构，以实现电信功能或其它功能。

如图6所示，该电子设备600还可以包括：输入单元603、显示器604、电源605。

在一个实施方式中，实施例1所述的行人物品检测装置的功能可以被集成到该中央处理器601中。其中，该中央处理器601可以被配置为：在输入图像中检测行人所在的行人区域；以及在检测出的该行人区域中直接使用深度学习模型进行目标检测，输出该行人区域内的属于该行人的物品的检测框以及该物品的类别。

例如，该在检测出的该行人区域中直接使用深度学习模型进行目标检测，包括：在检测出的该行人区域内直接使用深度学习模型检测该行人区域内的所有候选物品的检测框、该候选物品的类别以及置信度；以及对该行人区域内的所有候选物品进行筛选，将经过筛选的候选物品作为属于该行人的物品而输出。

例如，该对该行人区域内的所有候选物品进行筛选，包括：根据以下的至少一个对该候选物品进行筛选：该候选物品的类别；该候选物品的类别的置信度；至少两个候选物品的检测框的重合程度；以及该候选物品的检测框面积与该候选物品所在的行人区域的面积之比。

例如，在至少两个候选物品的检测框的重合程度满足预设条件且该至少两个候选物品的类别相同或相近的情况下，仅保留置信度最高的候选物品，和/或，在所述行人区域内存在类别互斥的至少两个物品时，仅保留置信度最高的候选物品。

例如，该物品包括各种类型的服装、随身携带的物品以及饰品。

例如，在检测出的该行人区域中直接使用深度学习模型进行目标检测时，还输出该行人区域内的属于该行人的物品的位置。

例如，该中央处理器601还可以被配置为：根据检测出的该物品的类别，对该行人的属性进行标记。

在另一个实施方式中，实施例1所述的行人物品检测装置可以与该中央处理器601分开配置，例如可以将该行人物品检测装置配置为与该中央处理器601连接的芯片，通过该中央处理器601的控制来实现该行人物品检测装置的功能。

在本实施例中该电子设备600也并不是必须要包括图6中所示的所有部件。

如图6所示，该中央处理器601有时也称为控制器或操作控件，可以包括微处理器或其它处理器装置和/或逻辑装置，该中央处理器601接收输入并控制该电子设备600的各个部件的操作。

该存储器602，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。并且该中央处理器601可执行该存储器602存储的该程序，以实现信息存储或处理等。其它部件的功能与现有类似，此处不再赘述。该电子设备600的各部件可以通过专用硬件、固件、软件或其结合来实现，而不偏离本发明的范围。

实施例3

本发明实施例还提供一种行人物品检测方法，该方法对应于实施例1的行人物品检测装置。图7是本发明实施例3的行人物品检测方法的一示意图。如图7所示，该方法包括：

步骤701：在输入图像中检测行人所在的行人区域；以及

步骤702：在检测出的该行人区域中直接使用深度学习模型进行目标检测，输出该行人区域内的属于该行人的物品的检测框以及该物品的类别。

在本实施例中，上述各个步骤的具体实现方法可以参照实施例1中的记载，此处不再重复说明。

本发明实施例还提供一种计算机可读程序，其中当在行人物品检测装置或电子设备中执行所述程序时，所述程序使得计算机在所述行人物品检测装置或电子设备中执行实施例3所述的行人物品检测方法。

本发明实施例还提供一种存储有计算机可读程序的存储介质，其中所述计算机可读程序使得计算机在行人物品检测装置或电子设备中执行实施例3所述的行人物品检测方法。

结合本发明实施例描述的在所述行人物品检测装置或电子设备中执行行人物品检测方法可直接体现为硬件、由处理器执行的软件模块或二者组合。例如，图1中所示的功能框图中的一个或多个和/或功能框图的一个或多个组合，既可以对应于计算机程序流程的各个软件模块，亦可以对应于各个硬件模块。这些软件模块，可以分别对应于图7所示的各个步骤。这些硬件模块例如可利用现场可编程门阵列(FPGA)将这些软件模块固化而实现。

软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域已知的任何其它形式的存储介质。可以将一种存储介质耦接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息；或者该存储介质可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该软件模块可以存储在移动终端的存储器中，也可以存储在可插入移动终端的存储卡中。例如，如果电子设备采用的是较大容量的MEGA-SIM卡或者大容量的闪存装置，则该软件模块可存储在该MEGA-SIM卡或者大容量的闪存装置中。

针对图1描述的功能框图中的一个或多个和/或功能框图的一个或多个组合，可以实现为用于执行本申请所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件、或者其任意适当组合。针对图1描述的功能框图中的一个或多个和/或功能框图的一个或多个组合，还可以实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、与DSP通信结合的一个或多个微处理器或者任何其它这种配置。

以上结合具体的实施方式对本发明进行了描述，但本领域技术人员应该清楚，这些描述都是示例性的，并不是对本发明保护范围的限制。本领域技术人员可以根据本发明的精神和原理对本发明做出各种变型和修改，这些变型和修改也在本发明的范围内。

关于包括以上实施例的实施方式，还公开下述的附记：

1.一种行人物品检测方法，所述方法包括：

在输入图像中检测行人所在的行人区域；以及

在检测出的所述行人区域中直接使用深度学习模型进行目标检测，输出所述行人区域内的属于所述行人的物品的检测框以及所述物品的类别。

2.根据附记1所述的方法，其中，所述在检测出的所述行人区域中直接使用深度学习模型进行目标检测，包括：

在检测出的所述行人区域内直接使用深度学习模型检测所述行人区域内的所有候选物品的检测框、所述候选物品的类别以及置信度；以及

对所述行人区域内的所有候选物品进行筛选，将经过筛选的候选物品作为属于所述行人的物品而输出。

3.根据附记1所述的方法，其中，所述对所述行人区域内的所有候选物品进行筛选，包括：

根据以下的至少一个对所述候选物品进行筛选：

所述候选物品的类别；

所述候选物品的类别的置信度；

至少两个候选物品的检测框的重合程度；以及

所述候选物品的检测框面积与所述候选物品所在的行人区域的面积之比。

4.根据附记3所述的方法，其中，

在至少两个候选物品的检测框的重合程度满足预设条件且所述至少两个候选物品的类别相同或相近的情况下，仅保留置信度最高的候选物品，和/或，

在所述行人区域内存在类别互斥的至少两个物品时，仅保留置信度最高的候选物品。

5.根据附记1所述的方法，其中，

所述物品包括各种类型的服装、随身携带的物品以及饰品。

6.根据附记1所述的方法，其中，

在检测出的所述行人区域中直接使用深度学习模型进行目标检测时，还输出所述行人区域内的属于所述行人的物品的位置。

7.根据附记1所述的方法，其中，所述方法还包括：

根据检测出的所述物品的类别，对所述行人的属性进行标记。

8.根据附记1所述的方法，其中，

所述深度学习模型是YoloV3深度卷积神经网络。

Claims

1.一种行人物品检测装置，所述装置包括：

第一检测单元，其用于在输入图像中检测行人所在的行人区域；以及

第二检测单元，其用于在检测出的所述行人区域中直接使用深度学习模型进行目标检测，输出所述行人区域内的属于所述行人的物品的检测框以及所述物品的类别。

2.根据权利要求1所述的装置，其中，所述第二检测单元包括：

第三检测单元，其用于在检测出的所述行人区域内直接使用深度学习模型检测所述行人区域内的所有候选物品的检测框、所述候选物品的类别以及置信度；以及

筛选单元，其用于对所述行人区域内的所有候选物品进行筛选，将经过筛选的候选物品作为属于所述行人的物品而输出。

3.根据权利要求2所述的装置，其中，

所述筛选单元根据以下的至少一个对所述候选物品进行筛选：

所述候选物品的类别；

所述候选物品的类别的置信度；

至少两个候选物品的检测框的重合程度；以及

4.根据权利要求3所述的装置，其中，

所述筛选单元在至少两个候选物品的检测框的重合程度满足预设条件且所述至少两个候选物品的类别相同或相近的情况下，仅保留置信度最高的候选物品，和/或，

所述筛选单元在所述行人区域内存在类别互斥的至少两个物品时，仅保留置信度最高的候选物品。

5.根据权利要求1所述的装置，其中，

所述物品包括各种类型的服装、随身携带的物品以及饰品。

6.根据权利要求1所述的装置，其中，

所述第二检测单元还输出所述行人区域内的属于所述行人的物品的位置。

7.根据权利要求1所述的装置，其中，所述装置还包括：

标记单元，其用于根据检测出的所述物品的类别，对所述行人的属性进行标记。

8.根据权利要求1所述的装置，其中，

所述深度学习模型是YoloV3深度卷积神经网络。

9.一种电子设备，所述电子设备包括根据权利要求1所述的装置。

10.一种行人物品检测方法，所述方法包括：

在输入图像中检测行人所在的行人区域；以及