CN115131826A

CN115131826A - 物品检测识别方法、网络模型的训练方法和装置

Info

Publication number: CN115131826A
Application number: CN202211014462.XA
Authority: CN
Inventors: 郑冬; 唐邦杰; 潘华东
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2022-09-30
Anticipated expiration: 2042-08-23
Also published as: CN115131826B

Abstract

本申请公开了一种物品检测识别方法、网络模型的训练方法和装置，用以解决相关技术中对行人图片的整体特征进行识别导致识别结果不够准确的问题。本申请通过采用第一网络模型对目标图像进行特征提取处理得到第一特征图像，对第一特征图像进行人体目标检测识别得到人体检测识别结果，并基于人体检测识别结果，将目标图像分割为多个人体图像，再采用第二网络模型对各人体图像进行特征提取处理得到对应人体图像的第二特征图像，对第二特征图像进行物品目标检测识别得到各人体图像的物品检测识别结果，最终，基于各人体图像的物品检测识别结果得到检测识别结果。本申请采用两个网络模型对行人进行物品检测识别，实现了公共场景下危险行人的精准识别。

Description

物品检测识别方法、网络模型的训练方法和装置

技术领域

本申请涉及图像处理技术领域，特别涉及一种物品检测识别方法、网络模型的训练方法和装置。

背景技术

随着安防领域中视频监控应用的快速发展，每时每刻都会产生海量的视频图像数据。在海量的数据中，快速检索特定的行人是安防场景应用中最重要的任务之一。行人检索基于视频结构化描述构建的行人数据库，结合图像优选、属性识别、目标跟踪等计算机视觉算法，行人检索在公安行业，检索犯罪人员的任务，起到至关重要的作用。

目前，大多数公共场景下危险行人检测技术的主要流程如下：检测场景人体图像—>卷积神经网络提取特征—>识别人体特征属性—>输出是否为危险行人。

然而，目前大多数行人识别方法是对行人图片的整体特征进行识别，这就会导致识别结果不够准确。

发明内容

本申请的目的是提供一种物品检测识别方法、网络模型的训练方法和装置，用以解决相关技术中对行人图片的整体特征进行识别导致识别结果不够准确的问题。

第一方面，本申请提供一种物品检测识别方法，所述方法包括：

采用第一网络模型对目标图像进行特征提取处理，得到第一特征图像，对所述第一特征图像进行人体目标检测识别，得到人体检测识别结果；

基于所述人体检测识别结果，将所述目标图像分割为多个人体图像；

采用第二网络模型对所述各人体图像进行特征提取处理，得到所述各人体图像的第二特征图像，对各第二特征图像进行物品检测识别，得到所述各人体图像的物品检测识别结果；

基于所述各人体图像的物品检测识别结果，得到所述目标图像的物品检测识别结果。

在一种可能的实施方式中，所述第一网络模型包括第一特征提取层和第一检测层，所述采用第一网络模型对目标图像进行特征提取处理，得到第一特征图像之前，还包括：

将所述目标图像划分为多个网格；

所述采用第一网络模型对目标图像进行特征提取处理，得到第一特征图像，对所述第一特征图像进行人体目标检测识别，得到人体检测识别结果，包括：

利用所述第一特征提取层对所述目标图像进行特征提取处理，得到第一特征图像；

利用所述第一检测层对所述第一特征图像进行人体目标检测识别，输出人体所在的网格的坐标。

在一种可能的实施方式中，所述第二网络模型包括第二特征提取层和第二检测层，采用第二网络模型对所述各人体图像进行特征提取处理，得到所述各人体图像的第二特征图像之前，还包括：

将所述各人体图像划分为多个网格；

所述采用第二网络模型对所述各人体图像进行特征提取处理，得到所述各人体图像的第二特征图像，对各第二特征图像进行物品检测识别，得到所述各人体图像的物品检测识别结果，包括：

利用所述第二特征提取层对所述各人体图像进行特征提取处理，得到所述各人体图像的第二特征图像；

利用所述第二检测层对各第二特征图像进行物品目标检测识别，输出物品所在的网格的坐标。

在一种可能的实施方式中，所述基于所述各人体图像的物品检测识别结果，得到所述目标图像的物品检测识别结果，包括：

累计连续N帧目标图像对应的人体图像的物品检测识别结果，确定对应各人体的物品检测率，N为8；

若确定任一人体的物品检测率大于预设百分比，则输出对应人体的危险报警。

在一种可能的实施方式中，所述第一特征提取层为特征提取层ResNet-34，所述第二特征提取层为特征提取层ResNet-18。

在一种可能的实施方式中，所述目标图像是针对目标场景采集的，所述物品包括所述目标场景禁止携带的物品。

第二方面，本申请提供一种网络模型的训练方法，所述方法包括：

获取训练样本，所述训练样本包括样本图像及标注的样本图像中的目标对象；

将所述训练样本图像输入网络模型进行特征提取处理，得到特征图像，对所述特征图像进行目标对象检测识别处理，得到目标对象识别结果；

将得到的目标对象识别结果和标注的目标对象进行对比，确定损失函数值，基于所述损失函数值，更新所述网络模型的网络参数；

其中，所述训练样本包括样本图像采用目标图像，标注的目标对象为人体的第一训练样本，及样本图像采用对目标图像中的人体分割得到的人体图像，标注的目标对象为人体图像中相关物品的第二训练样本，利用所述第一训练样本得到第一网络模型，利用第二训练样本得到第二网络模型。

在一种可能的实施方式中，所述将所述训练样本图像输入网络模型之前，还包括：

将所述样本图像划分为多个网格，确定标注的样本图像中的目标对象所在的网格的坐标；

所述对所述特征图像进行目标对象检测识别处理，得到目标对象识别结果，包括：

对所述特征图像进行目标对象检测识别处理，得到目标对象所在的网格的坐标。

在一种可能的实施方式中，所述网络模型的损失函数为：

其中，Loss(FL)表示所述网络模型的损失函数，N表示训练样本的数量，p_i表示预测目标对象所在的网格的坐标，y_i表示标注目标对象所占的网格的坐标，α、γ表示可调节的超参数。

第三方面，本申请提供一种物品检测识别装置，所述装置包括：

人体检测识别模块，被配置为采用第一网络模型对目标图像进行特征提取处理，得到第一特征图像，对所述第一特征图像进行人体目标检测识别，得到人体检测识别结果；

图像分割模块，被配置为基于所述人体检测识别结果，将所述目标图像分割为多个人体图像；

物品检测识别模块，被配置为采用第二网络模型对所述各人体图像进行特征提取处理，得到所述各人体图像的第二特征图像，对各第二特征图像进行物品目标检测识别，得到各人体图像的物品检测识别结果；

逻辑处理模块，被配置为基于所述各人体图像的物品检测识别结果，得到所述目标图像的物品检测识别结果。

在一种可能的实施方式中，所述第一网络模型包括第一特征提取层和第一检测层，所述采用第一网络模型对目标图像进行特征提取处理，得到第一特征图像之前，所述人体检测识别模块还被配置为：

将所述目标图像划分为多个网格；

执行所述采用第一网络模型对目标图像进行特征提取处理，得到第一特征图像，对所述第一特征图像进行人体目标检测识别，得到人体检测识别结果，所述人体检测识别模块被配置为：

在一种可能的实施方式中，所述第二网络模型包括第二特征提取层和第二检测层，采用第二网络模型对所述各人体图像进行特征提取处理，得到所述各人体图像的第二特征图像之前，所述物品检测识别模块还被配置为：

将所述各人体图像划分为多个网格；

执行所述采用第二网络模型对所述各人体图像进行特征提取处理，得到所述各人体图像的第二特征图像，对各第二特征图像进行物品检测识别，得到所述各人体图像的物品检测识别结果，所述物品检测识别模块被配置为：

在一种可能的实施方式中，执行所述基于所述各人体图像的物品检测识别结果，得到所述目标图像的物品检测识别结果，所述逻辑处理模块被配置为：

第四方面，本申请提供一种电子设备，包括：

显示器，用于显示图像；

存储器，用于存储处理器的可执行指令；

处理器，用于执行所述可执行指令，以实现如上述第一方面和第二方面中任一项所述的物品检测识别方法和网络模型的训练方法。

第五方面，本申请提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如上述第一方面和第二方面中任一项所述的物品检测识别方法和网络模型的训练方法。

第六方面，本申请提供一种计算机程序产品，包括计算机程序：

所述计算机程序被处理器执行时实现如上述第一方面和第二方面中任一项所述的物品检测识别方法和网络模型的训练方法。

本申请的实施例提供的技术方案至少带来以下有益效果：

本申请实施例中，通过采用第一网络模型对目标图像进行特征提取处理，得到第一特征图像，对第一特征图像进行人体目标检测识别，得到人体检测识别结果，然后，基于人体检测识别结果，将目标图像分割为多个人体图像，再采用第二网络模型对各人体图像进行特征提取处理，得到对应人体图像的第二特征图像，对第二特征图像进行物品目标检测识别，得到各人体图像的物品检测识别结果，最终，基于各人体图像的物品检测识别结果，得到检测识别结果。本申请针对公共场景下多人体图像，采用两个网络模型分别识别行人的人体以及行人是否携带危险物品，实现了公共场景下危险行人的精准识别，提高了网络模型算法推进速度。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的应用场景示意图；

图2为本申请实施例提供的物品检测识别方法的整体流程示意图；

图3为本申请实施例提供的相关技术中检测层得到的检测识别结果的示意图；

图4为本申请实施例提供的在相关技术中标注目标物体的示意图；

图5为本申请实施例提供的本申请实施例中标注目标物体的示意图；

图6为本申请实施例提供的步骤204的流程示意图；

图7为本申请实施例提供的网络模型的训练方法的流程示意图；

图8为本申请实施例提供的第一网络模型训练过程的示意图；

图9为本申请实施例提供的第二网络模型训练过程的示意图；

图10为本申请实施例提供的目标图像的示意图；

图11为本申请实施例提供的物品检测识别方法的流程示意图；

图12为本申请实施例提供的人体检测识别结果的示意图；

图13为本申请实施例提供的分割后的人体图像的示意图；

图14为本申请实施例提供的物品检测识别结果的示意图；

图15为本申请实施例提供的电子设备的结构示意图；

图16为本申请实施例提供的物品检测识别装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。其中，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

并且，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；文本中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

相关技术中，公共场景下危险行人检测技术的主要流程如下：检测场景人体图像—>卷积神经网络提取特征—>识别人体特征属性—>输出是否为危险行人。

有鉴于此，本申请提供了一种物品检测识别方法、网络模型的训练方法和装置，用以解决相关技术中行人图片的整体特征进行识别导致识别结果不够准确的问题。

本申请的发明构思可概括为：通过采用第一网络模型对目标图像进行特征提取处理，得到第一特征图像，对第一特征图像进行人体目标检测识别，得到人体检测识别结果，然后，基于人体检测识别结果，将目标图像分割为多个人体图像，再采用第二网络模型对各人体图像进行特征提取处理，得到对应人体图像的第二特征图像，对第二特征图像进行物品目标检测识别，得到各人体图像的物品检测识别结果，最终，基于各人体图像的物品检测识别结果，得到检测识别结果。本申请针对公共场景下多人体图像，采用两个网络模型分别识别行人的人体以及行人是否携带危险物品，实现了公共场景下危险行人的精准识别，提高了网络模型算法推进速度。

在介绍完本申请实施例的主要发明思想之后，下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

参见图1所示，为本申请实施例提供的一种物品检测识别方法的应用场景的示意图。

图中包括：网络10、服务器20、存储器30、摄像头。服务器20通过网络连接多个摄像头。通过本申请实施例提供的方法，可利用这多个摄像头对公共场景下的行人进行图像采集，该公共场景包括车站、地铁站、学校等，物品包括刀具、枪支、炸弹等。

本申请中的描述中仅就单个服务器或摄像头加以详述，但是本领域技术人员应当理解的是，示出的摄像头、网络10、服务器20和存储器30旨在表示本申请的技术方案涉及的电子设备、服务器以及存储器的操作。对单个服务器和存储器加以详述至少为了说明方便，而非暗示对摄像头和服务器的数量、类型或是位置等具有限制。应当注意，如果向图示环境中添加附加模块或从其中去除个别模块，不会改变本申请的示例实施例的底层概念。另外，虽然为了方便说明而在图1中示出了从存储器30到服务器20的双向箭头，但本领域技术人员可以理解的是，上述数据的收发也是需要通过网络10实现的。

需要说明的是，本申请实施例中的存储器例如可以是缓存系统、也可以是硬盘存储、内存存储等等。此外，本申请提出的物品检测识别方法不仅适用于图1所示的应用场景，还可以用于其它可能的应用场景，本申请实施例并不进行限制。

为了便于理解本申请实施例提供的物品检测识别方法，下面结合附图对此进行进一步说明。

在一种可能的实施方式中，本申请提供一种物品检测识别方法，其整体流程图如图2所示，包括以下内容：

在步骤201中，采用第一网络模型对目标图像进行特征提取处理，得到第一特征图像，对第一特征图像进行人体目标检测识别，得到人体检测识别结果。

在步骤202中，基于人体检测识别结果，将目标图像分割为多个人体图像。

在步骤203中，采用第二网络模型对各人体图像进行特征提取处理，得到各人体图像的第二特征图像，对各第二特征图像进行物品目标检测识别，得到各人体图像的物品检测识别结果。

在步骤204中，基于各人体图像的物品检测识别结果，得到目标图像的物品检测识别结果。

在一种可能的实施方式中，步骤201中的第一网络模型主要用于进行人体目标的检测识别，该模型包括第一特征提取层和第一检测层，在采用第一网络模型对目标图像进行特征提取处理，得到第一特征图像之前，本申请实施例还将目标图像划分为多个网格。

其中，步骤201中，采用第一网络模型对目标图像进行特征提取处理，得到第一特征图像，对第一特征图像进行人体目标检测识别，得到人体检测识别结果，包括：

利用第一特征提取层对目标图像进行特征提取处理，得到第一特征图像，利用第一检测层对第一特征图像进行人体目标检测识别，输出人体所在的网格的坐标。

在另一种可能的实施方式中，第二网络模型主要用于进行物品目标的检测识别，该模型包括第二特征提取层和第二检测层，在采用第二网络模型对各人体图像进行特征提取处理，得到各人体图像的第二特征图像之前，本申请实施例还将各人体图像划分为多个网格。

其中，在步骤203中，采用第二网络模型对各人体图像进行特征提取处理，得到各人体图像的第二特征图像，对各第二特征图像进行物品目标检测识别，得到各人体图像的物品检测识别结果，包括：

利用第二特征提取层对各人体图像进行特征提取处理，得到对应人体图像的第二特征图像，利用第二检测层对第二特征图像进行物品目标检测识别，输出物品所在的网格的坐标。

需要补充的是，相关技术中，Yolov3算法采用Darknet-53作为特征提取层对目标图像进行特征提取，检测层采用三层多尺度方案，每层生成3个共9个锚框用于目标检测或神经网络的训练，得到检测识别结果如图3所示，对于Darknet_53提取到的特征图像，检测层经过一系列的卷积变换，第一层输出13*13的预测结果，第二层输出26*26的预测结果，第三层输出52*52的预测结果，其中，13*13、26*26、52*52对应不同层的不同尺度下的原始网格的数量，如图3中动物图像背景中的黑色网格，9个锚框如图3中三个动物图像中标注出动物的浅色网格。检测层进行目标检测过程中，包括人体目标检测识别和物品目标检测识别，锚框（即人体所在的区域或物品所在的区域）的尺度和大小很大程度上取决于训练数据集中目标的大小和形状，例如目标为人体或物品，需要比较多的先验知识才能够设定效果较好的锚框参数，而且，由于相关技术中YOLOv3训练过程中每个目标仅会取最匹配的单个锚框作为正样本进行训练，锚框数量越多，训练过程中负样本占比越高，因此在小样本数据集下，YOLOv3极难训练。

本申请实施例中，在Yolov3算法对目标图像进行特征提取时，采用ResNet-34替换Darknet-53进行对目标图像进行特征提取处理，在对各人体图像进行特征提取时，采用ResNet-18替换Darkent-53对各人体图像进行特征提取，ResNet-34以及ResNet-18相比Darknet-53更加轻量，能够在性能不变的前提下提高第一网络模型以及第二网络模型的算法推理速度。

需要说明的是，第一特征提取层可以使用ResNet-34，也可以使用其他模型，第二特征提取层同样可以使用ResNet-18，也可以使用其他模型，均可根据实际需求进行选择。

在第一YOLOv3检测层或第二YOLOv3检测层分别进行对应的目标检测识别时，本申请实施例去除了YOLOv3的锚框设定，采用原始网格将目标图像或各人体图像预先划分为多个网格，即上述在得到目标图像或各人体图像之后将该目标图像或各人体图像划分为多个网格，如图3中黑色网格所示，如此处理可以极大的减少网络模型推理时间，优化网络模型运行速度。

例如，如图4所示，相关技术中，标注目标物体的锚框为加粗矩形，利用检测层完成目标检测之后，将输出该加粗矩形的坐标。本申请实施例中，如图5所示，标注目标物体的锚框，即物品或人体所在的区域由10个网格组成，利用检测层完成目标检测之后，将输出该10个网格的坐标，比如利用第二检测层对第二特征图像进行物品目标检测识别，输出物品所在的网格的坐标。

在一种可能的实施方式中，步骤204中，基于各人体图像的物品检测识别结果，得到目标图像的物品检测识别结果，其流程示意图如图6所示，包括以下内容：

在步骤601中，累计连续N帧目标图像对应的人体图像的物品检测识别结果，确定对应各人体的物品检测率，N为8。

在步骤602中，若确定任一人体的物品检测率大于预设百分比，则输出对应人体的危险报警。

例如，一个人体图像的物品检测识别结果累计8帧，8帧之后统计该人体的物品检测率，预设百分比为75%，即累积8帧图像，若有6帧图像检测到物品，则确定检测率大于75%，则输出该人体的危险报警。

具体地，目标场景为：车站、地铁站、学校，则危险物品为：刀具、枪支、炸弹等，若确定检测率大于75%，则输出该人体的危险报警。

在一种可能的实施方式中，本申请提供一种网络模型的训练方法，其整体流程图如图7所示，包括以下内容：

在步骤701中，获取训练样本，训练样本包括样本图像及标注的样本图像中的目标对象。

在步骤702中，将训练样本图像输入网络模型进行特征提取处理，得到特征图像，对特征图像进行目标对象检测识别处理，得到目标对象识别结果。

需要说明的是，将训练样本图像输入网络模型之前，本申请实施例将样本图像划分为多个网格，确定标注的样本图像中的目标对象所在的网格的坐标；

对特征图像进行目标对象检测识别处理，得到目标对象识别结果，具体可实施为：

对特征图像进行目标对象检测识别处理，得到目标对象所在的网格的坐标。

在步骤703中，将得到的目标对象识别结果和标注的目标对象进行对比，确定损失函数值，基于损失函数值，更新网络模型的网络参数；

其中，训练样本包括样本图像采用目标图像，标注的目标对象为人体的第一训练样本，及样本图像采用对目标图像中的人体分割得到的人体图像，标注的目标对象为人体图像中相关物品的第二训练样本，利用所述第一训练样本得到第一网络模型，利用第二训练样本得到第二网络模型。

在一种可能的实施方式中，若训练样本为第一训练样本，则第一网络模型采用如下方式训练得到，训练过程如图8所示，包括以下内容：

在步骤801中，获取第一训练样本，该第一训练样本包括被划分多个网格的目标样本图像及标注的目标图像中人体所占的目标网格。

在步骤802中，将目标样本图像输入第一网络模型，对目标样本图像进行特征提取处理，得到第一特征图像，对第一特征图像进行人体目标检测识别处理，预测人体所在的目标网格。

在步骤803中，将预测的人体所在的目标网格和标注的目标网格的坐标进行对比，确定第一网络模型的损失函数值。

在步骤804中，基于第一网络模型的损失函数值，更新第一网络模型的网络参数。

在另一种可能的实施方式中，基于相同的原理，若训练样本为第二训练样本，第二网络模型采用如下方式训练得到，训练过程如图9所示，包括以下内容：

在步骤901中，获取第二训练样本，第二训练样本包括被划分为多个网格的人体样本图像及标注的人体图像中物品所占的目标网格；

在步骤902中，将人体样本图像输入第二网络模型，对人体样本图像进行特征提取处理，得到对应人体图像的第二特征图像，对第二特征图像进行物品目标检测识别处理，预测物品所在的目标网格。

在步骤903中，将预测的物品所在的目标网格和标注的目标网格的坐标进行对比，确定第二网络模型的损失函数。

在步骤904中，基于第二网络模型的损失函数，更新第二网络模型的网络参数。

需要补充的是，相关技术中，所有类别的训练样本匹配均在同一个通道的特征图上进行，对于重合度较高的不同类别，网络模型在训练时会忽视掉其中一种，导致某一种类别的检出率大大降低。例如，为了分别检测识别人体的肩膀和头，由于人体的肩膀和头属于重合度较高的两个类别，因此，网络模型在训练时会忽视掉其中一种，比如忽视了肩膀，则导致肩膀的检出率大大降低。

为了解决上述问题，本申请实施例对每个类别的训练样本都单独分配一个通道的特征图进行样本匹配，这样就可以避免在训练过程中某个类别没有被充分训练从而导致检出率下降的问题。

在一种可能的实施方式中，相关技术中，训练网络模型的损失函数为二元交叉熵损失函数，公式（1）如下：

（1）

其中，Loss(obj)表示网络模型的损失函数，N表示训练样本的数量，p_i表示预测目标对象所在的网格的坐标，y_i表示标注的目标对象所占的网格的坐标。本申请实施例中，第一网络模型或第二网络模型的损失函数，公式（2）如下所示：

（2）

其中，Loss(FL)表示网络模型的损失函数，N表示训练样本的数量，p_i表示预测目标对象所在的网格的坐标，y_i表示标注目标对象所占的网格的坐标，α、γ表示可调节的超参数。

本申请优化之后损失函数可通过超参数的设定优化第一网络模型/第二网络模型训练过程中正样本的权重，以提升第一网络模型/第二网络模型在小样本数据集下的识别效果。

在一种可能的实施方式中，以图10作为目标图像为例，本申请提供的物品检测识别方法，其流程示意图如图11所示，包括以下内容：

在步骤1101中，获取目标图像。该目标图像如图10所示。需要说明的是，图10中5个人体A、B、C、D和E处于同一张图像中，且不同人体的持枪姿势以及枪支大小均不相同。

在步骤1102中，采用第一网络模型对目标图像进行特征提取处理，得到第一特征图像，对第一特征图像进行人体目标检测识别，得到人体检测识别结果。如图12所示，本申请利用5个黑色矩形框将图中5个人体A、B、C、D和E分别进行标注，得到人体检测识别结果，即图12中5个黑色矩形框的坐标。

在步骤1103中，基于人体检测识别结果，将目标图像分割为多个人体图像。获取如图12中黑色矩形框的坐标之后，根据该坐标将图10中包括5个人体的目标图像分割为5个人体图像，如图13所示，5个虚线矩形框分别表示5个不同的人体图像，包括人体A图像、人体B图像、人体C图像、人体D图像和人体E图像。

在步骤1104中，采用第二网络模型对各人体图像进行特征提取处理，得到对应人体图像的第二特征图像，对第二特征图像进行物品目标检测识别，得到各人体图像的物品检测识别结果。如图14所示，本申请利用黑色矩形框将图13中5个人体图像的物品分别进行标注，得到物品检测识别结果，即图14中黑色矩形框的坐标。图中物品即为枪支，从而得到枪支检测识别结果。

在步骤1105中，基于各人体图像的物品检测识别结果，得到检测识别结果。

针对图14中5个人的任一个人体图像的枪支检测识别结果，累积8帧图像，即对于同一个人体的8帧图像，例如人体A的8帧图像，若有6帧图像检测到枪支，则确定检测率大于75% ，确定该人体A持枪，则输出该人体A的危险报警。通过上述本申请实施例提供的方法，实现了对不同大小的枪支以及持枪姿势的准确识别，并发出报警，保证了公共场景下行人的安全。

综上所述，本申请通过采用第一网络模型对目标图像进行特征提取处理，得到第一特征图像，对第一特征图像进行人体目标检测识别，得到人体检测识别结果，然后，基于人体检测识别结果，将目标图像分割为多个人体图像，再采用第二网络模型对各人体图像进行特征提取处理，得到对应人体图像的第二特征图像，对第二特征图像进行物品目标检测识别，得到各人体图像的物品检测识别结果，最终，基于各人体图像的物品检测识别结果，得到检测识别结果。本申请针对公共场景下多人体图像，采用两个网络模型分别识别行人的人体以及行人是否携带危险物品，针对不同物品的尺寸以及人体携带物品的姿势，能够对物品进行准确识别，实现了公共场景下危险行人的精准识别，且本申请提供的网络模型的训练过程较简单，提高了网络模型算法推进速度以及物品识别效率。

基于相同的发明构思，本申请实施例还提供一种物品检测识别装置，如图15所示，所述装置1500包括：

人体检测识别模块1501，被配置为采用第一网络模型对目标图像进行特征提取处理，得到第一特征图像，对所述第一特征图像进行人体目标检测识别，得到人体检测识别结果；

图像分割模块1502，被配置为基于所述人体检测识别结果，将所述目标图像分割为多个人体图像；

物品检测识别模块1503，被配置为采用第二网络模型对所述各人体图像进行特征提取处理，得到所述各人体图像的第二特征图像，对各第二特征图像进行物品目标检测识别，得到各人体图像的物品检测识别结果；

逻辑处理模块1504，被配置为基于所述各人体图像的物品检测识别结果，得到所述目标图像的物品检测识别结果。

将所述目标图像划分为多个网格；

将所述各人体图像划分为多个网格；

下面参照图16来描述根据本申请的这种实施方式的电子设备130。图16显示的电子设备130仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图16所示，电子设备130以通用电子设备的形式表现。电子设备130的组件可以包括但不限于：上述至少一个处理器131、上述至少一个存储器132、连接不同系统组件（包括存储器132和处理器131）的总线133。

总线133表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器132可以包括易失性存储器形式的可读介质，例如随机存取存储器（RAM）1321和/或高速缓存存储器1322，还可以进一步包括只读存储器（ROM）1323。

存储器132还可以包括具有一组（至少一个）程序模块1324的程序/实用工具1325，这样的程序模块1324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备130也可以与一个或多个外部设备134（例如键盘、指向设备等）通信，还可与一个或者多个使得用户能与电子设备130交互的设备通信，和/或与使得该电子设备130能与一个或多个其它电子设备进行通信的任何设备（例如路由器、调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口135进行。并且，电子设备130还可以通过网络适配器136与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器136通过总线133与用于电子设备130的其它模块通信。应当理解，尽管图中未示出，可以结合电子设备130使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在示例性实施例中，本申请还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器132，上述指令可由电子设备130的处理器131执行以完成上述物品检测识别方法和网络模型的训练方法。可选地，计算机可读存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器131执行时实现如本申请提供的物品检测识别方法和网络模型的训练方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种物品检测识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第一网络模型包括第一特征提取层和第一检测层，所述采用第一网络模型对目标图像进行特征提取处理，得到第一特征图像之前，还包括：

将所述目标图像划分为多个网格；

3.根据权利要求1所述的方法，其特征在于，所述第二网络模型包括第二特征提取层和第二检测层，采用第二网络模型对所述各人体图像进行特征提取处理，得到所述各人体图像的第二特征图像之前，还包括：

将所述各人体图像划分为多个网格；

4.根据权利要求1所述的方法，其特征在于，所述基于所述各人体图像的物品检测识别结果，得到所述目标图像的物品检测识别结果，包括：

5.根据权利要求2或3所述的方法，其特征在于，所述第一特征提取层为特征提取层ResNet-34，所述第二特征提取层为特征提取层ResNet-18。

6.根据权利要求1-4中任一项所述的方法，其特征在于，所述目标图像是针对目标场景采集的，所述物品包括所述目标场景禁止携带的物品。

7.一种网络模型的训练方法，其特征在于，所述方法包括：

8.根据权利要求7所述的方法，其特征在于，所述将所述训练样本图像输入网络模型之前，还包括：

9.根据权利要求8所述的方法，其特征在于，所述网络模型的损失函数为：

10.一种物品检测识别装置，其特征在于，所述装置包括：

物品检测识别模块，被配置为采用第二网络模型对所述各人体图像进行特征提取处理，得到所述各人体图像的第二特征图像，对所述各第二特征图像进行物品目标检测识别，得到各人体图像的物品检测识别结果；