CN115346143A

CN115346143A - 行为检测方法、电子设备、计算机可读介质

Info

Publication number: CN115346143A
Application number: CN202110459730.8A
Authority: CN
Inventors: 徐茜; 贾霞; 刘明; 张羽丰; 林巍峣
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2022-11-15
Also published as: WO2022228325A1; JP2024516642A; EP4332910A1

Abstract

本公开提供一种行为检测方法，包括：从视频流中获取多帧视频图像帧数据；根据多帧所述视频图像帧数据对所述视频流中的行人行为进行检测；其中，根据多帧所述视频图像帧数据对所述视频流中的行人行为进行检测至少包括：将多帧所述视频图像帧数据输入二维卷积神经网络，根据多帧所述视频图像帧数据的时序关联关系和多帧所述视频图像帧数据对所述视频流中的行人行为进行识别。本公开还提供一种电子设备、一种计算机可读介质。

Description

行为检测方法、电子设备、计算机可读介质

技术领域

本公开涉及图像识别领域，特别涉及一种行为检测方法、一种电子设备、一种计算机可读介质。

背景技术

智能视频监控基于计算机视觉技术，能够对视频数据进行智能分析，目前已广泛应用于安防、智能交通等领域，极大的提升了安防反应速率、节约了人力资源。其中，行人是智能视频监控的重点关注对象，实现对行人的异常行为等各种行为进行检测及识别是安防领域的重要需求之一。

在一些相关技术中，智能视频监控能够利用智能视频分析技术从海量的监控视频中检测并识别行人的各种行为，从而为公共安全应急管理提供重要参考，有利于降低公共安全突发事件的危害。但是，相关检测及识别行人行为的技术还无法满足实际场景中的部署需求。

发明内容

本公开实施例提供一种行为检测方法、一种电子设备、一种计算机可读介质。

第一方面，本公开实施例提供一种行为检测方法，包括：

从视频流中获取多帧视频图像帧数据；

根据多帧所述视频图像帧数据对所述视频流中的行人行为进行检测；

其中，根据多帧所述视频图像帧数据对所述视频流中的行人行为进行检测至少包括：

将多帧所述视频图像帧数据输入二维卷积神经网络，根据多帧所述视频图像帧数据的时序关联关系和多帧所述视频图像帧数据对所述视频流中的行人行为进行识别。在一些实施例中，所述二维卷积神经网络包括至少一个卷积层和至少一个全连接层；将多帧所述视频图像帧数据输入二维卷积神经网络，根据多帧所述视频图像帧数据的时序关联关系和多帧所述视频图像帧数据对所述视频流中的行人行为进行识别的步骤包括：

通过所述至少一个卷积层对多帧所述视频图像帧数据进行特征提取，得到特征数据，所述特征数据融合多帧所述视频图像帧数据的时序信息，所述时序信息表征多帧所述视频图像帧数据的时序关联关系；

通过所述至少一个全连接层，根据所述特征数据对所述视频流中的行人行为进行识别。

在一些实施例中，所述二维卷积神经网络包括多个串行连接的所述卷积层；通过所述至少一个卷积层对多帧所述视频图像帧数据进行特征提取，得到特征数据的步骤包括：

对于每一个所述卷积层，将所述卷积层的输入数据输入所述卷积层进行特征提取，得到多个特征图，多个所述特征图与多帧所述视频图像帧数据一一对应，每一个所述特征图包括多个特征通道；

交换多个所述特征图的部分特征通道，得到第一数据；

其中，当所述卷积层为第一个卷积层时，所述卷积层的输入数据为多帧所述视频图像帧数据；

其中，当所述卷积层非最后一个卷积层时，将所述第一数据作为下一个卷积层的输入数据；

其中，当所述卷积层是最后一个卷积层时，将所述第一数据作为所述特征数据。

在一些实施例中，多帧所述视频图像帧数据包括N帧顺序排列的视频图像帧数据；多个所述特征图包括N个顺序排列的特征图；交换多个所述特征图的部分特征通道，得到第一数据的步骤包括：

将每一个所述特征图中的多个特征通道划分为顺序排列的N组特征通道；

对于N个顺序排列的特征图中的第i个特征图，确定与第i个特征图对应的第j个特征图，第i个特征图为N个特征图中的任意一者，第j个特征图为N个特征图中的任意一者；

将第i个特征图中的第i组特征通道与第j个特征图中的任意一组特征通道交换，得到所述第一数据；

其中，N、i、j为正整数。

在一些实施例中，通过所述至少一个全连接层，根据所述特征数据对所述视频流中的行人行为进行识别的步骤包括：

通过所述至少一个全连接层，根据所述特征数据得到分类特征向量，所述分类特征向量的每一个元素对应一种行为类型；

根据所述分类特征向量确定各种行为类型的分类概率；

根据各种行为类型的分类概率对所述视频流中的行人行为进行识别。

在一些实施例中，根据各种行为类型的分类概率对所述视频流中的行人行为进行识别的步骤包括：

判断各种行为类型的分类概率是否大于过滤阈值；

当至少一种行为类型的分类概率大于所述过滤阈值时，判定识别到目标行为；

将分类概率大于所述过滤阈值的行为类型确定为所述目标行为的类型；

当各种行为类型的分类概率均不大于所述过滤阈值时，判定未识别到目标行为。

在一些实施例中，将多帧所述视频图像帧数据输入二维卷积神经网络，根据多帧所述视频图像帧数据的时序关联关系和多帧所述视频图像帧数据对所述视频流中的行人行为进行识别的步骤之后，根据多帧所述视频图像帧数据对所述视频流中的行人行为进行检测的步骤还包括：

根据所述二维卷积神经网络的输出数据对所述视频流中的行人行为的空间位置进行检测。

在一些实施例中，所述二维卷积神经网络包括至少一个卷积层和至少一个全连接层；所述二维卷积神经网络的输出数据包括通过所述至少一个全连接层得到的分类特征向量、目标卷积层输出的多个特征图；所述目标卷积层为所述至少一个卷积层中的一者，所述分类特征向量的每一个元素对应一种行为类型；根据所述二维卷积神经网络的输出数据对所述视频流中的行人行为的空间位置进行检测包括：

根据所述目标卷积层输出的多个特征图和所述分类特征向量，确定目标行为的空间位置。

在一些实施例中，根据所述目标卷积层输出的多个特征图和所述特征向量，确定目标行为的空间位置的步骤包括：

根据所述目标卷积层输出的多个特征图和所述分类特征向量，确定所述目标行为的边缘轮廓；

根据所述边缘轮廓确定所述目标行为的空间位置。

在一些实施例中，多帧所述视频图像帧数据采集自预定时长的多帧视频图像帧；根据目标卷积层输出的多个特征图和所述分类特征向量，确定所述目标行为的边缘轮廓的步骤包括：

计算所述分类特征向量对所述目标卷积层输出的多个特征图的导数，得到权重图；

将所述权重图与所述目标卷积层输出的多个特征图相乘，得到对应多种行为类型的第一空间预测图；

根据所述空间预测图提取分类置信度最高的行为类型对应的第一空间预测图，作为第二空间预测图；

根据所述第二空间预测图生成第三空间预测图，所述第三空间预测图的尺寸与所述视频图像帧的尺寸相同；

对所述第三空间预测图进行边缘提取，以确定所述目标行为的边缘轮廓。

在一些实施例中，根据所述边缘轮廓确定所述目标行为的空间位置的步骤包括：

将所述边缘轮廓绘制在多帧所述视频图像帧上。

在一些实施例中，在将所述边缘轮廓绘制在多帧所述视频图像帧上的步骤之后，根据所述边缘轮廓确定所述目标行为的空间位置的步骤还包括：

将绘制有所述边缘轮廓的多帧所述视频图像帧存入视频生成缓存区。

在一些实施例中，将多帧所述视频图像帧数据输入二维卷积神经网络，根据多帧所述视频图像帧数据的时序关联关系和多帧所述视频图像帧数据对所述视频流中的行人行为进行识别的结果包括识别到目标行为或未识别到目标行为；当未识别到目标行为时，所述行为检测方法还包括：

判断视频生成缓存区中是否存储有绘制有边缘轮廓的视频图像帧；

当所述视频缓存区中存储有绘制有边缘轮廓的视频图像帧时，根据所述视频缓存区中存储的绘制有边缘轮廓的视频图像帧生成视频片段；

从视频生成缓存区中导出所述视频片段。

在一些实施例中，从视频流中获取多帧视频图像帧数据的步骤包括：

确定所述视频流中的当前视频图像帧中前景图像区域的面积；

当所述前景图像区域的面积大于面积阈值时，确定相邻两个视频图像帧的运动动量；

当相邻两个视频图像帧的运动动量大于动量阈值时，将当前视频图像帧确定为采样起点；

从预定时长的连续的多个所述视频图像帧中，均匀采样预定数量的所述视频图像帧并进行预处理，得到多帧视频图像帧数据。

第二方面，本公开实施例提供一种电子设备，包括：

一个或多个处理器；

存储器，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本公开实施例第一方面所述的任意一种行为检测方法；

一个或多个I/O接口，连接在所述处理器与存储器之间，配置为实现所述处理器与存储器的信息交互。

第三方面，本公开实施例提供一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开实施例第一方面所述的任意一种行为检测方法。

本公开实施例提供一种行为检测方法、一种能够执行该行为检测方法的电子设备、一种存储有能够实现该行为检测方法的计算机程序的计算机可读介质。在该行为检测方法中，基于二维卷积神经网络对视频流中的行人行为进行识别，采用的二维卷积神经网络既能够学习每一帧视频图像帧数据的特征，还能够学习多帧视频图像帧数据之间时序关联关系，从而能够根据多帧视频图像帧数据的时序关联关系和多帧视频图像帧数据进行行为检测。相比于采用三维卷积、双流网络进行行为检测，本公开实施例中采用二维卷积神经网络计算量小、运行速率快、资源消耗少，能够满足实际部署中的实时性要求；相比于直接使用单帧图像帧或将多帧图像的特征堆叠后进行行为检测，本公开实施例中的二维卷积神经网络学习了行人行为的时序特征，从而能够有效避免误检漏检，提高检测精度。此外，在本公开实施例中能够直接识别行人行为的类型或先识别行人行为的类型、再确定行为的空间位置，能够避免先对行人行为的区域进行粗定位、再确定行为的类型导致的应用场景的局限，极大地提升了行为检测的场景适应性。

附图说明

图1是本公开实施例中一种行为检测方法的流程图；

图2是本公开实施例中另一种行为检测方法中部分步骤的流程图；

图3是本公开实施例中又一种行为检测方法中部分步骤的流程图；

图4是本公开实施例中再一种行为检测方法中部分步骤的流程图；

图5是本公开实施例中再一种行为检测方法中部分步骤的流程图；

图6是本公开实施例中再一种行为检测方法中部分步骤的流程图；

图7是本公开实施例中再一种行为检测方法中部分步骤的流程图；

图8是本公开实施例中再一种行为检测方法中部分步骤的流程图；

图9是本公开实施例中再一种行为检测方法中部分步骤的流程图；

图10是本公开实施例中再一种行为检测方法中部分步骤的流程图；

图11是本公开实施例中一种电子设备的组成框图；

图12是本公开实施例中一种计算机可读介质的组成框图；

图13是行为检测装置及系统架构的示意图。

具体实施方式

为使本领域的技术人员更好地理解本公开的技术方案，下面结合附图对本公开提供的行为检测方法、电子设备、计算机可读介质进行详细描述。

在下文中将参考附图更充分地描述示例实施例，但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之，提供这些实施例的目的在于使本公开透彻和完整，并将使本领域技术人员充分理解本公开的范围。

在不冲突的情况下，本公开各实施例及实施例中的各特征可相互组合。

如本文所使用的，术语“和/或”包括一个或多个相关列举条目的任何和所有组合。

本文所使用的术语仅用于描述特定实施例，且不意欲限制本公开。如本文所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。还将理解的是，当本说明书中使用术语“包括”和/或“由……制成”时，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。

除非另外限定，否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。

在一些相关技术中，主要利用帧差法对行人的行为进行检测。即，通过分析视频中连续图像帧的帧差变化进行异常行为区域粗定位，然后对粗定位区域进行行为识别，确定是否存在异常行为或异常行为的类型。本公开的发明人研究发现，基于帧差法的行人异常行为检测及识别技术对光照变化敏感，且连续图像帧的帧差变化不都是行人的异常行为引起，很多非异常行为也可能导致图像帧出现剧烈变化，而有的异常行为则不引起图像帧的剧烈变化。此外，由于帧差法需要使用连续图像帧对异常行为进行定位，故对粗定位区域进行行为识别时也是基于连续图像帧，但是，若使用的连续图像帧的帧数较少，则会浪费时域信息；若使用的连续图像帧的帧数较多，则会增加异常行为检测及识别的时间开销和资源消耗。该类方法只适用于行人数量少、背景单一的场景。

在另一些相关技术中，通过分析每个行为的行为确定是否存在异常行为，例如采用行人检测或骨骼点分析确定并跟踪每个行人的空间位置，得到每个行人在时间维度的轨迹，然后汇总行人个体的运动图像序列或骨骼点运动序列进行行为识别，以确定异常行为类型。本公开的发明人研究发现，在实现行人检测或骨骼点分析时对监控设备的视角有着严格的要求，监控设备若为顶视角则难以确定行人的骨骼点，若为平视角则会由于行人之间的相互遮挡而无法确定行人的空间位置，从而导致出现误检和漏检。此外，行人检测和骨骼点检测都需要消耗大量的计算资源，处理速度也比较慢，故无法满足异常行为检测识别的实时分析要求。

在具体实现时，一些相关技术中采用三维卷积、双流网络在学习异常行为的时序信息的基础上实现异常行为检测和识别，但是三维卷积、双流网络都只能学习短时间的时序信息，例如3x5x5的三维卷积单次运算只能关联3帧图像，双流网络中光流计算则是通过相邻帧计算得到；三维卷积、双流网络在运行时均会消耗大量资源。一些相关技术中采用二维卷积提取并堆叠特征，然后用三维卷积融合时序信息实现异常行为检测和识别，但由于使用了三维卷积，运行速率的提升有限。一些相关技术中，直接使用单帧图像帧或将多帧图像的特征堆叠后对异常行为进行分类，但忽略了帧与帧之间的关联关系，浪费了时序信息，会降低检测识别的精度。

综上，相关的异常行为检测和识别技术难以满足实际场景中的部署需求。

有鉴于此，第一方面，参照图1，本公开实施例提供一种行为检测方法，包括：

在步骤S100中，从视频流中获取多帧视频图像帧数据；

在步骤S200中，根据多帧所述视频图像帧数据对所述视频流中的行人行为进行检测；

在步骤S300中，将多帧所述视频图像帧数据输入二维卷积神经网络，根据多帧所述视频图像帧数据的时序关联关系和多帧所述视频图像帧数据对所述视频流中的行人行为进行识别。

在一些实施例中，步骤S100中的视频流是通过监控设备获取的。在本公开实施例中，视频流可以由监控设备实时获取，也可以由监控设备获取后存储在存储介质中。本公开实施例对此不做特殊限定。需要说明的是，在本公开实施例中，每次检测对应一定时长的视频流，即多帧视频图像帧数据从一定时长的视频流中获取。

在一些实施例中，步骤S100中的多帧视频图像帧数据是能够被本公开实施例中的二维卷积神经网络处理的数据。在本公开实施例中，视频流解码后能够得到多帧视频图像帧，每一帧视频图像帧数据都对应一帧视频图像帧。

行人的行为存在时间连续性，相应地，视频流解码得到的多帧视频图像帧之间在时序上存在关联关系，分别对应于视频图像帧的多帧视频图像帧数据之间在时序上也存在关联关系。本公开实施例中采用的二维卷积神经网络既能够学习每一帧视频图像帧数据的特征，还能够学习多帧视频图像帧数据之间时序关联关系，从而能够根据多帧视频图像帧数据的时序关联关系和多帧视频图像帧数据进行行为检测。

在一些实施例中，根据多帧视频图像帧对视频流中的行人行为进行检测时，可以只对视频流中的行人行为进行识别，对行人行为进行识别包括但不限于确定是否存在行人行为、确定行人行为的类型等。在一些实施例中，根据多帧视频图像帧对视频流中的行人行为进行检测时，可以对先对视频流中的行人行为进行识别，再对行人行为的空间位置进行检测。本公开实施例对行人行为的类型不做特殊限定。在一些实施例中，行人行为可以包括异常行为，例如摔倒、斗殴等；还可以包括正常行为，例如跑动、跳跃等。

本公开实施例提供的行为检测方法中，基于二维卷积神经网络对行人行为进行检测，采用的二维卷积神经网络既能够学习每一帧视频图像帧数据的特征，还能够学习多帧视频图像帧数据之间时序关联关系，从而能够根据多帧视频图像帧数据的时序关联关系和多帧视频图像帧数据对视频流中的行人行为进行识别。相比于采用三维卷积、双流网络进行行为检测，本公开实施例中采用二维卷积神经网络计算量小、运行速率快、资源消耗少，能够满足实际部署中的实时性要求；相比于直接使用单帧图像帧或将多帧图像的特征堆叠后进行行为检测，本公开实施例中的二维卷积神经网络学习了行人行为的时序特征，从而能够有效避免误检漏检，提高检测精度。此外，在本公开实施例中能够直接识别行人行为的类型或先识别行人行为的类型、再确定行人行为的空间位置，能够避免先对行人行为的区域进行粗定位、再确定行为的类型导致的应用场景的局限，极大地提升了行为检测的场景适应性。

本公开实施例对二维卷积神经网络的结构不做特殊限定。在一些实施例中，二维卷积神经网络包括至少一个卷积层和至少一个全连接层。在一些实施例中，多帧视频图像帧数据以批处理的方式输入二维卷积神经网络，其中，卷积层能够对输入数据进行特征提取，全连接层能够根据通过卷积层得到的特征数据确定本次检测对应的视频流中的行人行为。

相应地，在一些实施例中，所述二维卷积神经网络包括至少一个卷积层和至少一个全连接层；参照图2，步骤S300包括：

在步骤S310中，通过所述至少一个卷积层对多帧所述视频图像帧数据进行特征提取，得到特征数据，所述特征数据融合多帧所述视频图像帧数据的时序信息，所述时序信息表征多帧所述视频图像帧数据的时序关联关系；

在步骤S320中，通过所述至少一个全连接层，根据所述特征数据对所述视频流中的行人行为进行识别。

需要说明的是，在一些实施例中，特征数据融合多帧视频图像帧数据的时序信息是指，特征数据既能够表征每一帧视频图像帧数据的特征，也能够表征多帧视频图像帧数据之间的时序关联关系。

在一些实施例中，二维卷积神经网络还包括池化层。

在一些实施例中，二维卷积神经网络中的多个卷积层串行连接，每个卷积层对输入数据进行特征提取，得到与输入数据对应的特征图。多帧视频图像帧数据以批处理的方式输入二维卷积神经网络时，每个卷积层对输入数据进行特征提取都能够得到多个特征图。在本公开实施例中，以批处理的方式输入二维卷积神经网络的多帧视频图像帧数据按照时序排列，每个卷积层得到的多个特征图也按时序排列。在一些实施例中，在每个卷积层后，通过交换多个特征图的部分特征通道，实现不同时序信息的融合交互，最终实现在特征数据中融合多帧所述视频图像帧数据的时序信息。

相应地，在一些实施例中，所述二维卷积神经网络包括多个串行连接的所述卷积层；参照图3，步骤S310包括：

在步骤S311中，对于每一个所述卷积层，将所述卷积层的输入数据输入所述卷积层进行特征提取，得到多个特征图，多个所述特征图与多帧所述视频图像帧数据一一对应，每一个所述特征图包括多个特征通道；

在步骤S312中，交换多个所述特征图的部分特征通道，得到第一数据；

其中，当所述卷积层为第一个卷积层时，所述卷积层的输入数据为多帧所述视频图像帧数据

需要说明的是，在一些实施例中，交换多个特征图的部分特征通道只进行了数据移动，没有加乘操作，故在进行时序信息交互时不会增加计算量，且数据移动的速率较快，不会影响行为检测的运行效率。

相应地，在一些实施例中，多帧所述视频图像帧数据包括N帧顺序排列的视频图像帧数据；多个所述特征图包括N个顺序排列的特征图；参照图4，步骤S312包括：

在步骤S3121中，将每一个所述特征图中的多个特征通道划分为顺序排列的N组特征通道；

在步骤S3122中，对于N个顺序排列的特征图中的第i个特征图，确定与第i个特征图对应的第j个特征图，第i个特征图为N个特征图中的任意一者，第j个特征图为N个特征图中的任意一者；

在步骤S3123中，将第i个特征图中的第i组特征通道与第j个特征图中的任意一组特征通道交换，得到所述第一数据；

其中，N、i、j为正整数。

本公开实施例对于如何执行步骤S3122确定与第i个特征图对应的第j个特征图不做特殊限定。在一些实施例中，根据i和j的代数关系，确定与第i个特征图对应的第j个特征图；在一些实施例中，根据i和j的相邻关系，确定与第i个特征图对应的第j个特征图；在一些实施例中，在N各特征图中随机指定一个，作为与第i个特征图对应的第j个特征图。

在一些实施例中，通过二维卷积神经网络的全连接层得到分类特征向量，分类特征向量中的每一个元素表征一种行为类型的分类概率。根据各种行为类型的分类概率能够确定本次检测对应的视频流中行人的行为。确定本次检测对应的视频流中行人的行为包括但不限于判断本次检测对应的视频流中是否存在要检测的目标行为，存在的目标行为的类型。

相应地，在一些实施例中，参照图5，步骤S320包括：

在步骤S321中，通过所述至少一个全连接层，根据所述特征数据得到分类特征向量，所述分类特征向量的每一个元素对应一种行为类型；

在步骤S322中，根据所述分类特征向量确定各种行为类型的分类概率；

在步骤S323中，根据各种行为类型的分类概率对所述视频流中的行人行为进行识别。

在一些实施例中，在步骤S322中，将步骤S321得到的分量特征向量输入分类器，得到各种行为类型的分类概率。

相应地，在一些实施例中，参照图6，步骤S323包括：

在步骤S3231中，判断各种行为类型的分类概率是否大于过滤阈值；

在步骤S3232中，当至少一种行为类型的分类概率大于所述过滤阈值时，判定识别到目标行为；

在步骤S3233中，将分类概率大于所述过滤阈值的行为类型确定为所述目标行为的类型；

在步骤S3234中，当各种行为类型的分类概率均不大于所述过滤阈值时，判定未识别到目标行为。

二维卷积神经网络的卷积层具有空间不变性，即经过卷积层得到的特征图与原始图像之间存在空间对应关系；经过训练得到的二维卷积神经网络的卷积层能够使特征图中与分类相关的区域特征值变大，使与分类无关的区域特征值变小。在一些实施例中，当识别到目标行为时，通过对二维卷积神经网络的卷积层输出的特征图进行轮廓分析，确定与目标行为相关的区域的边缘轮廓，从而确定识别到的目标行为的空间位置。在一些实施例中，在二维卷积神经网络的至少一个卷积层中指定一个卷积层作为目标卷积层，根据目标卷积层输出的特征图和二维卷积神经网络的全连接层得到的分类特征向量进行轮廓分析。

在一些实施例中，参照图7，在步骤S300之后，步骤S200还包括：

在步骤S400中，根据所述二维卷积神经网络的输出数据对所述视频流中的行人行为的空间位置进行检测。

在一些实施例中，步骤S400可以在通过步骤S300识别到行人行为的情况下执行。在一些实施例中，每次执行步骤S300之后都执行步骤S400，即无论是否识别到行人行为都执行步骤S400。在一些实施例中，针对不同场景，步骤S400可以开启或关闭。

相应地，在一些实施例中，所述二维卷积神经网络包括至少一个卷积层和至少一个全连接层；所述二维卷积神经网络的输出数据包括通过所述至少一个全连接层得到的分类特征向量、目标卷积层输出的多个特征图；所述目标卷积层为所述至少一个卷积层中的一者，所述分类特征向量的每一个元素对应一种行为类型；参照图8，步骤S400包括：

在步骤S410中，根据所述目标卷积层输出的多个特征图和所述分类特征向量，确定目标行为的空间位置。

相应地，在一些实施例中，参照图9，步骤S410包括：

在步骤S411中，根据所述目标卷积层输出的多个特征图和所述分类特征向量，确定所述目标行为的边缘轮廓；

在步骤S412中，根据所述边缘轮廓确定所述目标行为的空间位置。

相应地，在一些实施例中，计算所述分类特征向量对所述目标卷积层输出的多个特征图的导数，得到权重图；将所述权重图与所述目标卷积层输出的多个特征图相乘，得到对应多种行为类型的第一空间预测图；根据所述空间预测图提取分类置信度最高的行为类型对应的第一空间预测图，作为第二空间预测图；根据所述第二空间预测图生成第三空间预测图，所述第三空间预测图的尺寸与所述视频图像帧的尺寸相同；对所述第三空间预测图进行边缘提取，以确定所述目标行为的边缘轮廓。

相应地，在一些实施例中，多帧所述视频图像帧数据采集自预定时长的多帧视频图像帧；根据所述目标卷积层输出的多个特征图和所述分类特征向量，确定所述目标行为的边缘轮廓的步骤包括：计算所述分类特征向量对所述目标卷积层输出的多个特征图的导数，并将小于零的导数值置为零，得到权重图；将所述权重图与所述目标卷积层输出的多个特征图相乘，并将小于零的乘积置为零，得到对应多种行为类型的第一空间预测图；根据所述空间预测图提取分类置信度最高的行为类型对应的第一空间预测图，作为第二空间预测图；对所述第二空间预测图进行归一化处理；将归一化处理后的第二空间预测图的尺寸缩放为所述视频图像帧的尺寸并进行二值化处理，得到第三空间预测图；对所述第三空间预测图进行边缘提取，以确定所述目标行为的边缘轮廓。

在一些实施例中，根据所述边缘轮廓确定所述目标行为的空间位置的步骤包括：将所述边缘轮廓绘制在多帧所述视频图像帧上。

在一些实施例中，当识别到目标行为并确定目标行为的空间位置后，将绘制有目标行为的轮廓的视频图像帧写入视频生成缓存区，进而生成视频文件并存储到文件系统中。

相应地，在一些实施例中，根据所述边缘轮廓确定所述目标行为的空间位置的步骤还包括：将绘制有所述边缘轮廓的多帧所述视频图像帧存入视频生成缓存区。

在一些实施例中，每次检测对应一定时长的视频流，通过步骤S100在一定时长的视频流中获取多帧视频图像帧数据。本公开实施例对该一定时长不做特殊限定。在一些实施例中，根据需要检测的行人的行为一般发生时长确定该一定时长。例如，斗殴设置为2秒，摔倒设置为1秒等。

在一些实施例中，行人的行为持续的时长可能大于上述的一定时长。在一些实施例中，每次检测若识别到目标行为，则将绘制有目标行为的轮廓的视频图像帧写入视频生成缓存区，直到某一次检测未识别到目标行为，表示目标行为已结束，在这种情况下，将视频生成缓存区中的视频图像帧转换为视频片段，则可以得到记录有目标行为从起始到结束的完整过程的视频片段，根据该视频片段还可以确定目标行为的起始时间、结束时间、持续时长等信息。相应地，参照图10，在一些实施例中，将多帧所述视频图像帧数据输入二维卷积神经网络，根据多帧所述视频图像帧数据的时序关联关系和多帧所述视频图像帧数据对所述视频流中的行人行为进行识别的结果包括识别到目标行为或未识别到目标行为；当未识别到目标行为时，所述行为检测方法还包括：

在步骤S501中，判断视频生成缓存区中是否存储有绘制有边缘轮廓的视频图像帧；

在步骤S502中，当所述视频缓存区中存储有绘制有边缘轮廓的视频图像帧时，根据所述视频缓存区中存储的绘制有边缘轮廓的视频图像帧生成视频片段；

在步骤S503中，从视频生成缓存区中导出所述视频片段。

在一些实施例中，从视频生成缓存区中导出所述视频片段包括将视频生成缓存区中的视频片段存储到文件系统；清空视频生成缓存区。

在一些实施例中，从视频流中获取多帧视频图像帧数据的步骤包括：获取所述视频流；对所述视频流进行解码，得到连续的多个视频图像帧；对连续的多个视频图像帧进行采样，得到多个待检测视频图像帧；对多个所述待检测视频图像帧进行预处理，得到多帧所述视频图像帧数据。

需要说明的是，本公开实施例对于如何对视频流进行解码不做特殊限定。在一些实施例中，使用图形处理器(GPU，Graphics Processing Unit)对视频流进行解码。

需要说明的是，本公开实施例对于如何对连续的多个视频图像帧进行采样不做特殊限定。在一些实施例中，在多个视频图像帧中随机进行采样。在一些实施例中，按照预定间隔在多个视频图像帧中进行采样。在一些实施例中，在多个视频图像帧中连续进行采样。

需要说明的是，按照预定间隔在多个视频图像帧中进行采样，相比连续采样能够获取更多的时序信息，从而提升检测精度。

本公开实施例对如何对多个待检测视频图像帧进行预处理不做特殊限定。在一些实施例中，对多个待检测视频图像帧进行预处理包括：将各个待检测视频图像帧的尺寸调整为预定尺寸；对调整为预定尺寸的待检测视频图像帧进行颜色空间转换处理、像素值归一化处理、减均值除以标准差处理，得到多帧视频图像帧数据。

在一些实施例中，每次检测对应一定时长的视频流，按照均匀采样的方式在一定时长的视频图像帧中获取预定帧数的视频图像帧数据。

相应地，在一些实施例中，从视频流中获取多帧视频图像帧数据的步骤包括：确定当前视频图像帧中前景图像区域的面积；所述前景图像区域的面积大于面积阈值时，确定相邻两个视频图像帧的运动动量；当相邻两个视频图像帧的运动动量大于动量阈值时，将当前视频图像帧确定为采样起点；从预定时长的连续的多个所述视频图像帧中，均匀采样预定数量的所述视频图像帧并进行预处理，得到多帧视频图像帧数据。

本公开实施例对如何确定当前视频图像帧中前景图像区域的面积不做特殊限定。在一些实施例中，采用帧差法提取当前视频图像帧的前景图像。

本公开实施例对如何确定相邻两个视频图像帧的运动动量不做特殊限定。在一些实施例中，使用稀疏光流计算相邻两个视频图像帧的运动动量。

在一些实施例中，在通过步骤S100至步骤S200进行行为检测之前，还包括训练二维卷积神经网络的步骤：获取视频流；解码视频流生成视频图像帧；执行数据清洗，获取样本视频片段；标注样本视频片段中行人行为的类型，没有需要检测的行人行为的样本视频片段标注为背景；用标注后的样本视频片段训练二维卷积神经网络；对训练好的二维卷积神经网络进行量化操作，转换格式。

第二方面，参照图11，本公开实施例提供一种电子设备，其包括：

一个或多个处理器101；

存储器102，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现本公开实施例第一方面所述的任意一种行为检测方法；

一个或多个I/O接口103，连接在处理器与存储器之间，配置为实现处理器与存储器的信息交互。

其中，处理器101为具有数据处理能力的器件，其包括但不限于中央处理器(CPU)等；存储器102为具有数据存储能力的器件，其包括但不限于随机存取存储器(RAM，更具体如SDRAM、DDR等)、只读存储器(ROM)、带电可擦可编程只读存储器(EEPROM)、闪存(FLASH)；I/O接口(读写接口)103连接在处理器101与存储器102间，能实现处理器101与存储器102的信息交互，其包括但不限于数据总线(Bus)等。

在一些实施例中，处理器101、存储器102和I/O接口103通过总线104相互连接，进而与计算设备的其它组件连接。

第三方面，参照图12，本公开实施例提供一种计算机可读介质，其上存储有计算机程序，程序被处理器执行时实现本公开实施例第一方面所述的任意一种行为检测方法。

为了使本领域技术人员能够更清楚地理解本公开实施例提供的技术方案，下面通过具体的实施例，对本公开实施例提供的技术方案进行详细说明：

实施例一

图13为本实施例一中，行为检测装置及系统架构的示意图。

如图13所示，行为检测装置包括行为识别模块、行为位置检测模块、视频自动存储模块。在本实施例一中，行为检测装置部署在服务器上，服务器中还包括GPU、CPU、网络接口、显存、内存，并通过内部总线相互连接。

实施例二

本实施例二中进行行为检测的流程如下：

将二维卷积神经网络加载到显存或内存中，并进行初始化，配置输入图像尺寸限制、批处理大小、过滤阈值、面积阈值、行为一般发生时长、帧率等参数；

从摄像机获取视频流，并将其送入系统服务器的GPU进行硬解码，产生多帧视频图像帧；

从多帧视频图像帧中提取行为一般发生时长对应的视频帧集合，从中均匀采样N帧，N由训练模型时决定；

对均匀采样得到的N帧视频图像帧进行预处理，将其长边固定为二维卷积神经网络指定尺寸，进行等比例缩放，短边填充像素值为0，然后转换到RGB颜色空间，最后将像素值归一化到0～1之间，并减均值除标准差，得到预处理后的N帧视频图像帧数据；

将经过预处理得到的N帧视频图像帧作为批处理为N的二维数据集合送入二维卷积神经网络中，二维卷积神经网络的每个卷积层都可以得到尺寸为NCHW的特征，表征N帧尺寸为CHW的特征图，C表示特征通道数，H和W分别表示特征图的宽和高；

将每个卷积层输出的N帧特征图的特征通道分为N组，对于第i帧图像，从其他图像中随机选取一个图像，记为第j帧，在第j帧图像特征图中随机选取一组特征通道，将其与第i帧图像特征图的第i组特征通道交换，从而在不额外增加计算量的情况下进行时序信息交互；

将经过特征通道交换后的特征图送入下一个卷积层进行计算，在最后一个卷积层之后得到特征数据，通过全连接层生成分类特征向量；

将分类特征向量送入行为分类器，得到各种类型的行为的分类概率；

当至少一种行为类型的分类概率大于过滤阈值时，判定识别到目标行为；

将分类概率大于过滤阈值的行为类型确定为目标行为的类型；

当各种行为类型的分类概率均不大于过滤阈值时，判定未识别到目标行为。

当识别到目标行为时，确定目标行为的空间位置的步骤包括：

提取二维卷积神经网络中目标卷积层的特征图和全连接层输出的分类特征向量，计算分类特征向量对目标卷积层的特征图的导数，将其中小于0的导数值置0，得到与目标卷积特征图空间大小一致的权重图；

将权重图与目标卷积层的特征图相乘，并将其中小于0的值置0，得到第一空间预测图；

将第一空间预测图转换成N*Class*H*W的存储形式，Class表示类型数，然后在类型维度对其进行softmax操作，提取分类结果置信度最高的类型对应的维度，得到N*H*W的空间预测图，计算特征图中所有元素在批处理数N所在维度的最大值，得到H*W第二空间预测图；

将第二空间预测图中所有元素减所有元素的最小值，再除以所有元素的最大值，从而将第二空间预测图归一化到0～1之间；

将归一化后的第二空间预测图缩放为视频图像帧的尺寸并进行二值化处理，若元素值大于0.5则设置为1，否则设置为0，得到二值空间预测图；

对二值空间预测图进行边缘轮廓提取，所得边缘轮廓即为目标行为所在的空间位置；

将轮廓边界作为检测结果绘制在视频图像帧上，并视频图像帧存入视频生成缓存区，开始下一次检测。

存储视频片段的步骤包括：

当未识别到目标行为时，判断视频生成缓存区中是否存在视频图像帧(即，判断上一次检测是否识别到目标行为)；

当视频缓存区中存在视频图像帧(即，上一次检测识别到目标行为)时，根据视频缓存区中的视频图像帧生成视频片段；

存储视频片段；

清空视频生成缓存区，并开始下一次检测；

当视频缓存区中不存在视频图像帧(即，上一次检测未识别到目标行为)时，开始下一次检测。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其它数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其它的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其它传输机制之类的调制数据信号中的其它数据，并且可包括任何信息递送介质。

本文已经公开了示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施例相结合描述的特征、特性和/或元素，或可与其它实施例相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本公开的范围的情况下，可进行各种形式和细节上的改变。

Claims

1.一种行为检测方法，包括：

从视频流中获取多帧视频图像帧数据；

将多帧所述视频图像帧数据输入二维卷积神经网络，根据多帧所述视频图像帧数据的时序关联关系和多帧所述视频图像帧数据对所述视频流中的行人行为进行识别。

2.根据权利要求1所述的行为检测方法，其中，所述二维卷积神经网络包括至少一个卷积层和至少一个全连接层；将多帧所述视频图像帧数据输入二维卷积神经网络，根据多帧所述视频图像帧数据的时序关联关系和多帧所述视频图像帧数据对所述视频流中的行人行为进行识别的步骤包括：

3.根据权利要求2所述的行为检测方法，其中，所述二维卷积神经网络包括多个串行连接的所述卷积层；通过所述至少一个卷积层对多帧所述视频图像帧数据进行特征提取，得到特征数据的步骤包括：

交换多个所述特征图的部分特征通道，得到第一数据；

4.根据权利要求3所述的行为检测方法，其中，多帧所述视频图像帧数据包括N帧顺序排列的视频图像帧数据；多个所述特征图包括N个顺序排列的特征图；交换多个所述特征图的部分特征通道，得到第一数据的步骤包括：

其中，N、i、j为正整数。

5.根据权利要求2所述的行为检测方法，其中，通过所述至少一个全连接层，根据所述特征数据对所述视频流中的行人行为进行识别的步骤包括：

根据所述分类特征向量确定各种行为类型的分类概率；

6.根据权利要求5所述的行为检测方法，其中，根据各种行为类型的分类概率对所述视频流中的行人行为进行识别的步骤包括：

判断各种行为类型的分类概率是否大于过滤阈值；

7.根据权利要求1至6中任意一项所述的行为检测方法，其中，将多帧所述视频图像帧数据输入二维卷积神经网络，根据多帧所述视频图像帧数据的时序关联关系和多帧所述视频图像帧数据对所述视频流中的行人行为进行识别的步骤之后，根据多帧所述视频图像帧数据对所述视频流中的行人行为进行检测的步骤还包括：

8.根据权利要求7所述的行为检测方法，其中，所述二维卷积神经网络包括至少一个卷积层和至少一个全连接层；所述二维卷积神经网络的输出数据包括通过所述至少一个全连接层得到的分类特征向量、目标卷积层输出的多个特征图；所述目标卷积层为所述至少一个卷积层中的一者，所述分类特征向量的每一个元素对应一种行为类型；根据所述二维卷积神经网络的输出数据对所述视频流中的行人行为的空间位置进行检测包括：

9.根据权利要求8所述的行为检测方法，其中，根据所述目标卷积层输出的多个特征图和所述特征向量，确定目标行为的空间位置的步骤包括：

根据所述边缘轮廓确定所述目标行为的空间位置。

10.根据权利要求9所述的行为检测方法，其中，多帧所述视频图像帧数据采集自预定时长的多帧视频图像帧；根据目标卷积层输出的多个特征图和所述分类特征向量，确定所述目标行为的边缘轮廓的步骤包括：

11.根据权利要求10所述的行为检测方法，其中，根据所述边缘轮廓确定所述目标行为的空间位置的步骤包括：

将所述边缘轮廓绘制在多帧所述视频图像帧上。

12.根据权利要求11所述的行为检测方法，其中，在将所述边缘轮廓绘制在多帧所述视频图像帧上的步骤之后，根据所述边缘轮廓确定所述目标行为的空间位置的步骤还包括：

13.根据权利要求1至6中任意一项所述的行为检测方法，其中，将多帧所述视频图像帧数据输入二维卷积神经网络，根据多帧所述视频图像帧数据的时序关联关系和多帧所述视频图像帧数据对所述视频流中的行人行为进行识别的结果包括识别到目标行为或未识别到目标行为；当未识别到目标行为时，所述行为检测方法还包括：

从视频生成缓存区中导出所述视频片段。

14.根据权利要求1至6中任意一项所述的行为检测方法，其中，从视频流中获取多帧视频图像帧数据的步骤包括：

15.一种电子设备，包括：

一个或多个处理器；

存储器，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据权利要求1至14中任意一项所述的行为检测方法；

16.一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求1至14中任意一项所述的行为检测方法。