CN112990153A

CN112990153A - 一种多目标行为识别方法、装置、存储介质以及电子设备

Info

Publication number: CN112990153A
Application number: CN202110509157.7A
Authority: CN
Inventors: 汤寅航; 赵迪
Original assignee: Innovation Qizhi Chengdu Technology Co ltd
Current assignee: Innovation Qizhi Chengdu Technology Co ltd
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2021-06-18

Abstract

本申请实施例提供一种多目标行为识别方法、装置、存储介质以及电子设备，所述方法包括：采用多目标跟踪算法确定目标场景中至少一个对象所在的人体区域和所述至少一个对象的手部所在的手部区域，得到与各对象分别对应的人体序列和手部序列；根据目标对象的人体序列和手部序列识别所述目标对象的行为，其中，所述目标对象属于所述至少一个对象中的包括的任意一个或多个对象，所述行为的类型包括是否抽烟。本申请的一些实施例通过多目标跟踪和行为识别实现了多目标对象的行为识别。

Description

一种多目标行为识别方法、装置、存储介质以及电子设备

技术领域

本申请涉及行为识别领域，具体而言本申请实施例涉及一种多目标行为识别方法、装置、存储介质以及电子设备。

背景技术

随着监控摄像头在各个场景中的广泛应用，针对视频的分析与理解任务获得了极大的关注。

例如，在加油站等很多场景中，抽烟打电话等行为会严重影响其安全，严重时可能引发火灾甚至爆炸。因此对这些违规行为进行实时的监测和判定是非常有必要的。

发明内容

本申请实施例的目的在于提供一种多目标行为识别方法、装置、存储介质以及电子设备，本申请的一些实施例通过引入针对人体区域和手部区域的细粒度区域的分类方法，可对这些违规行为进行实时的监测和判定，对实际视频的分析与理解实现违规行为的准确判定，有效地减少误报。

第一方面，本申请的一些实施例提供一种多目标行为识别方法，所述方法包括：采用多目标跟踪算法确定目标场景中至少一个对象所在的人体区域和所述至少一个对象的手部所在的手部区域，得到与各对象分别对应的人体序列和手部序列；根据目标对象的人体序列和手部序列识别所述目标对象的行为，其中，所述目标对象属于所述至少一个对象中的包括的任意一个或多个对象，所述行为包括目标场景的违规行为。

本申请的一些实施例通过多目标跟踪和行为识别实现了多目标对象的行为识别，提升了对加油站等场景中的违规行为进行实时的监测和判定的效果。

在一些实施例中，所述多目标跟踪算法包括简单在线实时跟踪算法SORT算法。

本申请的一些实施例采用这种算法可以实现实时的多目标跟踪。

在一些实施例中，所述采用多目标跟踪算法确定目标场景中至少一个对象所在的人体区域和所述至少一个对象的手部所在的手部区域，得到与各对象分别对应的人体序列和手部序列，包括：对每一帧图像中的行人和手部区域均进行检测，得到检测结果；当获取到第一帧图像时，利用所述检测结果对每个对象进行初始化并创建与所述每个对象对应的跟踪器，标注每个跟踪器的标识号；在后续帧进行处理时，首先获得前面帧的检测框产生的状态预测和协方差预测，从而获取跟踪器中所有目标状态预测和当前帧检测框的感兴趣区域；其次，获得所述感兴趣区域的最大的匹配，用本帧中匹配到的检测框对滤波器进行更新，计算增益、状态更新和协方差更新，并将状态更新值输出，作为所述本帧的跟踪框，得到所述本帧上的所有对象的人体区域和手部区域。

本申请的一些实施例采用多个跟踪器获取多目标中各目标的跟踪框，最终实现目标的实时跟踪。

在一些实施例中，所述根据目标对象的人体序列和手部序列识别所述目标对象的行为包括：根据由卷积神经网络和变种长短时记忆网络组成的行为识别网络获取所述目标对象的行为。

本申请的一些实施例采用特征提取网络和长短时记忆网络可以结合前后帧之间的关系获取更加准确识别行为的具体类型。

在一些实施例中，所述根据由卷积神经网络和变种长短时记忆网络组成的行为识别神经网络获取所述目标对象的行为，包括：根据所述行为识别网络获取所述目标对象的人体序列的第一行为分类结果；根据所述行为识别网络获取所述目标对象的手部序列的第二行为分类结果；融合所述第一行为分类结果和所述第二行为分类结果得到所述目标对象的行为。

本申请的一些实施例通过融合不同关注区域的行为分类结果得到最终的行为分类结果，提升了行为分类结果的准确性。

在一些实施例中，所述根据所述行为识别网络获取所述目标对象的人体序列的第一行为分类结果，包括：根据所述卷积神经网络提取所述目标对象对应的人体序列中的特征，得到所有帧的特征序列；将所述所有帧的特征序列送入变种长短时记忆网络，获得一个长度等于帧数的序列，将所述序列的结果进行平均输出作为所述第一行为分类结果。

本申请的一些实施例通过历史帧数确定最终的行为分类结果，提升了分类结果的准确性。

在一些实施例中，所述根据所述行为识别网络获取所述目标对象的手部序列的第二行为分类结果，包括：根据所述卷积神经网络提取所述目标对象对应的手部序列中的特征，得到所有帧的特征序列；将所述所有帧的特征序列送入变种长短时记忆网络，获得一个长度等于帧数的序列，将所述序列的结果进行平均输出作为所述第二行为分类结果。

本申请的一些实施例：通过历史帧数确定最终的行为分类结果，提升了分类结果的准确性。

第二方面，本申请的一些实施例提供一种多目标行为识别装置，所述装置包括：特征序列获取模块，被配置为采用多目标跟踪算法确定目标场景中至少一个对象所在的人体区域和所述至少一个对象的手部所在的手部区域，得到与各对象分别对应的人体序列和手部序列；行为识别模块，被配置为根据目标对象的人体序列和手部序列识别所述目标对象的行为。

第三方面，本申请的一些实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时可实现上述第一方面所述的方法。

第四方面，本申请的一些实施例提供一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述程序时可实现上述第一方面所述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的多目标行为识别方法流程图之一；

图2为本申请实施例提供的多目标行为识别方法流程图之二；

图3为本申请实施例提供的多目标行为识别装置的组成框图；

图4为本申请实施例提供的电子设备的组成框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

本申请的一些实施例提供了一种基于细粒度分类的抽烟打电话行为判定方法，本申请的实施例主要通过监控场景下对每个人和其手部区域进行追踪实现对其行为的监测和判定。

请参看图1，图1为本申请的一些实施例提供一种多目标行为识别方法，所述方法包括：S101，采用多目标跟踪算法确定目标场景中至少一个对象所在的人体区域和所述至少一个对象的手部所在的手部区域，得到与各对象分别对应的人体序列和手部序列；S102，根据目标对象的人体序列和手部序列识别所述目标对象的行为，其中，所述目标对象属于所述至少一个对象中的包括的任意一个或多个对象，所述行为包括目标场景的违规行为。

为了实现实施例的多目标跟踪，在本申请的一些实施例中，S101涉及的多目标跟踪算法包括简单在线实时跟踪算法即SORT算法。

为了得到各跟踪对象的跟踪框，在本申请的一些实施例中，S101包括：对每一帧图像中的行人和手部区域均进行检测，得到检测结果；当获取到第一帧图像时，利用所述检测结果对每个对象进行初始化并创建与所述每个对象对应的跟踪器，标注每个跟踪器的标识号；在后续帧进行处理时，首先获得前面帧的检测框产生的状态预测和协方差预测，从而获取跟踪器中所有目标状态预测和当前帧检测框的感兴趣区域；其次，获得所述感兴趣区域的最大的匹配，用本帧中匹配到的检测框对滤波器进行更新，计算增益、状态更新和协方差更新，并将状态更新值输出，作为所述本帧的跟踪框，得到所述本帧上的所有对象的人体区域和手部区域。

为了提升得到行为判别结果的准确性，在本申请的一些实施例中，S102包括：根据由卷积神经网络和变种长短时记忆网络组成的行为识别网络获取所述目标对象的行为。

为了进一步提升行为判别结果的准确性，在本申请的一些实施例中，S102包括：根据所述行为识别网络获取所述目标对象的人体序列的第一行为分类结果；根据所述行为识别网络获取所述目标对象的手部序列的第二行为分类结果；融合所述第一行为分类结果和所述第二行为分类结果得到所述目标对象的行为。

在一些实施例中，S102包括：根据所述卷积神经网络提取所述目标对象对应的人体序列中的特征，得到所有帧的特征序列；将所述所有帧的特征序列送入变种长短时记忆网络，获得一个长度等于帧数的序列，将所述序列的结果进行平均输出作为所述第一行为分类结果。

在一些实施例中，S102包括：根据所述卷积神经网络提取所述目标对象对应的手部序列中的特征，得到所有帧的特征序列；将所述所有帧的特征序列送入变种长短时记忆网络，获得一个长度等于帧数的序列，将所述序列的结果进行平均输出作为所述第二行为分类结果。

下面结合图2进一步示例性阐述本申请的多目标行为识别方法。

如图2所示，该图提供本申请一些实施例的多目标行为识别方法，与现有技术根据图片进行行为识别的诸多缺陷，本申请的实施例基于视频流进行行为识别。

S201，输入视频流。

例如，将采集的加油站等场所的视频流作为输入帧，以确认相应场景中的对象是否存在抽烟行为。

由于输入视频流因此可以根据视频流中前后帧之间的连续性，提升行为识别的准确性。

S202，行人和手部区域检测。

S203，多目标跟踪。

例如，基于SORT的多目标追踪技术跟踪视频流中的一个或多个目标。

SORT（SIMPLE ONLINE AND REALTIME TRACKING）是一种在线实时的多目标跟踪算法，其性能主要依赖于目标检测模型，该方法利用基于faster-rcnn的检测技术、卡尔曼滤波和匈牙利算法实现。

首先，根据实际场景中采集到的数据，在基于公开数据集的经过预训练的faster-rcnn检测模型上进行行人和手部区域检测的fine-tune。在进行跟踪之前，对每一帧图像中的行人和手部区域均进行检测；当获取到第一帧图像时，利用检测到的结果对每个目标进行初始化并创建其对应的跟踪器，标注ID；在后续帧进行处理时，首先从卡尔曼滤波器中获得前面帧的检测框产生的状态预测和协方差预测，从而获取跟踪器中所有目标状态预测和当前帧检测框的IOU，即把IOU作为前后帧目标之间关系的度量指标。然后通过匈牙利算法获得IOU最大的匹配。之后用本帧中匹配到的检测框对卡尔曼滤波器进行更新，计算卡尔曼增益、状态更新和协方差更新，并将状态更新值输出，作为本帧的跟踪框。对于本帧中没有匹配到的目标重新初始化跟踪器。

S204，序列抽取。

S205，人体和手部区域融合序列分类。

通过多目标跟踪技术，抽取每个人连续帧组成固定的序列（也就是说，每个人的这个序列是由多目标跟踪技术中每一帧图像检测出来的检测框组成的一个序列），输入“CNN+LSTM”网络中进行分析和类别的判定。CNN为视频帧的特征提取器，之后将其提取的所有帧的特征序列送入LSTM网络，获得一个长度等于帧数的序列，将这个序列的结果进行平均输出最终的行为类别。

由于抽烟打电话等违规行为和正常行为的差异点多发生在手部动作，因此结合该任务需求，在视频分类中引入有区分性区域的手部区域进行标注，在多目标追踪中，同时预测人体区域和手部区域，然后将两个序列的分类结果进行融合从而得到最终的类别推断结果。该方法类似于在视频分类中引入注意力机制，通过人为标注的方式让神经网络在推理的过程中更多地关注到关键部位。

也就是说，本申请的一些实施例采用多目标跟踪算法实现各种场景中对每个人和手部区域的追踪，通过生成每个人和手部序列的方式对其行为进行分析和识别，通过引入细粒度分类方法有效提升抽烟打电话判定的准确性。

如图3所示，图3示出了本申请实施例提供的目标行为识别装置，应理解，该装置与上述图1或图2方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置的具体功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。装置包括至少一个能以软件或固件的形式存储于存储器中或固化在装置的操作系统中的软件功能模块，该目标行为识别装置包括：特征序列获取模块101，被配置为采用多目标跟踪算法确定目标场景中至少一个对象所在的人体区域和所述至少一个对象的手部所在的手部区域，得到与各对象分别对应的人体序列和手部序列；行为识别模块102，被配置为根据目标对象的人体序列和手部序列识别所述目标对象的行为。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述图1或图2中的对应过程，在此不再过多赘述。

本申请的一些实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时可实现上述第一方面所述的方法。

如图4所示，本申请的一些实施例提供一种电子设备400，包括存储器410、处理器420以及存储在所述存储器410上并可在所述处理器420上运行的计算机程序，其中，所述处理器420通过总线430从存储器410读取程序并执行所述程序时可实现上述图1或图2所述的方法。

处理器420可以处理数字信号，可以包括各种计算结构。例如复杂指令集计算机结构、结构精简指令集计算机结构或者一种实行多种指令集组合的结构。在一些示例中，处理器420可以是微处理器。

存储器410可以用于存储由处理器420执行的指令或指令执行过程中相关的数据。这些指令和/或数据可以包括代码，用于实现本申请实施例描述的一个或多个模块的一些功能或者全部功能。本公开实施例的处理器420可以用于执行存储器410中的指令以实现图1中所示的方法。存储器410包括动态随机存取存储器、静态随机存取存储器、闪存、光存储器或其它本领域技术人员所熟知的存储器。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种多目标行为识别方法，其特征在于，所述方法包括：

采用多目标跟踪算法确定目标场景中至少一个对象所在的人体区域和所述至少一个对象的手部所在的手部区域，得到与各对象分别对应的人体序列和手部序列；

根据目标对象的人体序列和手部序列识别所述目标对象的行为，其中，所述目标对象属于所述至少一个对象中的包括的任意一个或多个对象，所述行为包括目标场景的违规行为。

2.如权利要求1所述的方法，其特征在于，所述多目标跟踪算法包括SORT算法。

3.如权利要求1所述的方法，其特征在于，所述采用多目标跟踪算法确定目标场景中至少一个对象所在的人体区域和所述至少一个对象的手部所在的手部区域，得到与各对象分别对应的人体序列和手部序列，包括：

对每一帧图像中的行人和手部区域均进行检测，得到检测结果；

当获取到第一帧图像时，利用所述检测结果对每个对象进行初始化并创建与所述每个对象对应的跟踪器，标注每个跟踪器的标识号；

在后续帧进行处理时，首先获得前面帧的检测框产生的状态预测和协方差预测，从而获取跟踪器中所有目标状态预测和当前帧检测框的感兴趣区域；其次，获得所述感兴趣区域的最大的匹配，用本帧中匹配到的检测框对滤波器进行更新，计算增益、状态更新和协方差更新，并将状态更新值输出，作为所述本帧的跟踪框，得到所述本帧上的所有对象的人体区域和手部区域。

4.如权利要求1所述的方法，其特征在于，所述根据目标对象的人体序列和手部序列识别所述目标对象的行为包括：根据由卷积神经网络和变种长短时记忆网络组成的行为识别网络获取所述目标对象的行为。

5.如权利要求4所述的方法，其特征在于，所述根据由卷积神经网络和变种长短时记忆网络组成的行为识别神经网络获取所述目标对象的行为，包括：

根据所述行为识别网络获取所述目标对象的人体序列的第一行为分类结果；

根据所述行为识别网络获取所述目标对象的手部序列的第二行为分类结果；

融合所述第一行为分类结果和所述第二行为分类结果得到所述目标对象的行为。

6.如权利要求5所述的方法，其特征在于，

所述根据所述行为识别网络获取所述目标对象的人体序列的第一行为分类结果，包括：

根据所述卷积神经网络提取所述目标对象对应的人体序列中的特征，得到所有帧的特征序列；

将所述所有帧的特征序列送入变种长短时记忆网络，获得一个长度等于帧数的序列，将所述序列的结果进行平均输出作为所述第一行为分类结果。

7.如权利要求5所述的方法，其特征在于，

所述根据所述行为识别网络获取所述目标对象的手部序列的第二行为分类结果，包括：

根据所述卷积神经网络提取所述目标对象对应的手部序列中的特征，得到所有帧的特征序列；

将所述所有帧的特征序列送入变种长短时记忆网络，获得一个长度等于帧数的序列，将所述序列的结果进行平均输出作为所述第二行为分类结果。

8.一种多目标行为识别装置，其特征在于，所述装置包括：

特征序列获取模块，被配置为采用多目标跟踪算法确定目标场景中至少一个对象所在的人体区域和所述至少一个对象的手部所在的手部区域，得到与各对象分别对应的人体序列和手部序列；

行为识别模块，被配置为根据目标对象的人体序列和手部序列识别所述目标对象的行为。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时可实现权利要求1-7中任意一项权利要求所述的方法。

10.一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述程序时可实现权利要求1-7中任意一项权利要求所述的方法。