CN113963438A

CN113963438A - 行为识别方法及装置、设备和存储介质

Info

Publication number: CN113963438A
Application number: CN202111220961.XA
Authority: CN
Inventors: 苏海昇
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2022-01-21

Abstract

本申请实施例公开了一种行为识别方法、装置、设备及存储介质，所述方法包括：基于获取的待识别视频序列，生成至少一个轨迹序列；其中，每一所述轨迹序列包括同一目标对象；基于每一所述轨迹序列中所述目标对象的检测框的高度变化情况，确定相应所述轨迹序列的第一识别结果；在每一所述轨迹序列的所述第一识别结果满足第一条件的情况下，对每一所述轨迹序列进行行为识别，得到相应所述轨迹序列的第三识别结果；至少基于所述至少一个轨迹序列的第一识别结果或所述至少一个轨迹序列的第三识别结果，确定所述待识别视频序列的行为识别结果。

Description

行为识别方法及装置、设备和存储介质

技术领域

本申请涉及计算机视觉领域，涉及但不限定于行为识别方法及装置、设备和存储介质。

背景技术

相关技术中的行为识别方法首先对输入的视频序列进行全图的数据增强或其他预处理，然后直接送入到分类模型中进行预测。这种方式依赖于执行主体占比画面很大的前提假设，只适用于以执行主体为中心的视频行为识别，该类数据常见于公开的视频学术数据集中。

然而在大规模视频数据下，行为发生的执行主体的数量不可预知，且视频中的每一帧图像往往包含更多的信息，覆盖的视野也更大，造成识别效果较低、计算量大。此外，一些完全基于启发式逻辑规则判断或者完全基于深度学习的方法均无法同时具有较好的鲁棒性和准确性。

发明内容

本申请实施例提供一种行为识别方法及装置、设备和存储介质。

本申请实施例的技术方案是这样实现的：

第一方面，本申请实施例提供一种行为识别方法，所述方法包括：基于获取的待识别视频序列，生成至少一个轨迹序列；其中，每一所述轨迹序列包括同一目标对象；

基于每一所述轨迹序列中所述目标对象的检测框的高度变化情况，确定相应所述轨迹序列的第一识别结果；

在每一所述轨迹序列的所述第一识别结果满足第一条件的情况下，对每一所述轨迹序列进行行为识别，得到相应所述轨迹序列的第三识别结果；

至少基于所述至少一个轨迹序列的第一识别结果或所述至少一个轨迹序列的第三识别结果，确定所述待识别视频序列的行为识别结果。

在一些可能的实施方式中，所述至少基于所述至少一个轨迹序列的第一识别结果或所述至少一个轨迹序列的第三识别结果，确定所述待识别视频序列的行为识别结果，包括：在所述至少一个轨迹序列的第一识别结果均表征相应所述轨迹序列未发生异常行为的情况下，确定所述待识别视频序列的行为识别结果为未发生所述异常行为；或者，在所述至少一个轨迹序列的第一识别结果表征相应所述轨迹序列发生异常行为的情况下，基于所述至少一个轨迹序列的第三识别结果，确定所述待识别视频序列的行为识别结果。

这样，结合启发式逻辑判断方法得到的至少一个第一识别结果和深度学习方法得到的至少一个第三识别结果，确定待识别视频序列的行为识别结果，提升异常行为识别的准确性和效率。

在一些可能的实施方式中，所述在每一所述轨迹序列的所述第一识别结果满足第一条件的情况下，对每一所述轨迹序列进行行为识别，得到相应所述轨迹序列的第三识别结果，包括：

在每一所述轨迹序列的所述第一识别结果表征相应所述轨迹序列中发生异常行为的情况下，确定相应所述轨迹序列中相邻帧之间的像素变化信息；基于每一所述轨迹序列中相邻帧之间的像素变化信息，确定相应所述轨迹序列的第二识别结果；在所述第二识别结果表征相应所述轨迹序列中未发生异常行为的情况下，对每一所述轨迹序列进行行为识别，得到相应所述轨迹序列的第三识别结果。

这样，通过对比每一轨迹序列中目标对象的高度变化和相邻帧之间的像素变化，初步检测出明显存在异常行为的轨迹序列，提升行为识别的鲁棒性和准确性；同时在两阶段逻辑规则判定相应轨迹序列未发生异常行为时，借助神经网络做进一步的确认和判断，增强了整体识别过程的泛化性。

在一些可能的实施方式中，所述基于每一所述轨迹序列中相邻帧之间的像素变化信息，确定相应所述轨迹序列的第二识别结果，包括：响应于每一所述轨迹序列中相邻帧之间的像素差值满足第二阈值的情况下，确定相应所述轨迹序列的第二识别结果为发生所述异常行为；响应于每一所述轨迹序列中所述像素差值不满足所述第二阈值的情况下，确定相应所述轨迹序列的第二识别结果为未发生所述异常行为。

这样，针对每一轨迹序列每相邻两帧确定像素差值是否满足第二阈值，确定相应轨迹序列中是否发生异常行为。从而能够通过逻辑预判确定出明显发生异常行为的轨迹序列，提升整体识别过程的准确性和加快识别流程。

在一些可能的实施方式中，所述方法还包括：在所述第二识别结果表征相应所述轨迹序列中发生所述异常行为的情况下，确定所述待识别视频序列的行为识别结果为发生所述异常行为。

这样，在轨迹序列中每相邻两帧确定像素差值满足第二阈值，确定相应轨迹序列的第二识别结果为发生异常行为的情况下，将该轨迹序列的第二识别结果作为待识别视频序列的行为识别结果，结束判断流程，提升行为识别的效率。

在一些可能的实施方式中，所述基于每一所述轨迹序列内的所述目标对象的检测框的高度变化情况，确定每一所述轨迹序列的第一识别结果，包括：响应于每一所述轨迹序列内所述目标对象的检测框在相邻帧之间的高度差，不满足第一阈值的情况下，确定相应所述轨迹序列的第一识别结果为未发生所述异常行为；或者，响应于每一所述轨迹序列内所述目标对象的检测框在相邻帧之间的高度差，满足所述第一阈值的情况下，确定相应所述轨迹序列的第一识别结果为发生所述异常行为。

这样，针对每一轨迹序列通过判断相邻帧之间目标对象的检测框的高度差是否满足第一阈值，初步检测出明显不存在异常行为的轨迹序列，从而避免输入行为识别模型中继续检测，提升待识别视频序列的识别效率。

在一些可能的实施方式中，所述基于获取的待识别视频序列，生成至少一个轨迹序列，包括：确定所述待识别视频序列内每一帧图像中每一对象的检测框；从所述每一帧图像中每一对象的检测框中，选择所述每一帧图像中在空间位置上独立的所述检测框作为所述目标对象的检测框；基于所述每一帧图像中所述目标对象的检测框，生成至少一个所述轨迹序列。

这样，从获取的每一帧图像中所有对象的检测框中，筛选出每一个独立的目标对象的检测框，再根据每个目标对象在待识别视频序列中所有检测框生成相应目标对象的轨迹序列。从而只对容易发生异常行为的独立目标对象进行识别，能够减小行为识别模型的识别难度，减少模型计算量。

在一些可能的实施方式中，所述基于所述每一帧图像中所述目标对象的检测框，生成至少一个所述轨迹序列，包括：基于所述待识别视频序列内每一帧图像中与每一所述目标对象关联的所述检测框的坐标范围，确定相应所述目标对象对应的最小包围框；基于每一所述目标对象对应的所述最小包围框，确定所述每一帧图像中与所述最小包围框对应的区域图像；基于所述每一帧图像的时间戳和所述每一帧图像中的区域图像，得到每一所述目标对象的轨迹序列。

这样，通过计算每一目标对象的最小包围框，以最小包围框截取每一帧图像中的区域图像，能够避免行为主体(即行为发生的执行主体)的相对位置丢失，对于空间相似但运动节奏不同的行为识别有较好的性能提升。

在一些可能的实施方式中，所述确定所述每一帧图像中与所述最小包围框对应的区域图像之后，还包括：确定所述区域图像中除去所述目标对象的检测框之外的噪声区域；利用纯色背景填充所述噪声区域，得到目标区域图像；所述基于所述每一帧图像的时间戳和所述每一帧图像中的区域图像，得到每一所述目标对象的轨迹序列，包括：基于所述每一帧图像的时间戳和所述每一帧图像中的区域图像，生成每一所述目标对象对应的轨迹序列。

这样，对于基于最小包围框截取的目标区域图像中的噪声区域进行背景填充处理，再根据处理后的目标区域图像生成轨迹序列，能够解决因为检测框裁剪丢失相对运动信息的问题，同时利用背景填充保证了帧间差值计算的客观性和结果的可靠性，能够有效减少行为识别模型的计算量，对于空间相似但运动节奏不同的行为识别有较好的性能提升。

在一些可能的实施方式中，所述方法还包括：确定所述待识别视频序列内每一帧图像中除去所述目标对象的检测框之外的背景区域；依次利用纯色背景填充所述待识别视频序列内每一帧图像中的背景区域，得到新的待识别视频序列；所述基于获取的待识别视频序列，生成至少一个轨迹序列，包括：基于所述新的待识别视频序列，生成所述至少一个轨迹序列。

这样，通过背景填充每一帧图像中除去目标对象的检测框之外的背景区域，得到新的待识别视频序列，能够在逻辑判断或模型识别时剔除背景的干扰，消除噪声，提升行为识别的效率。

第二方面，本申请实施例提供一种行为识别装置，包括生成模块、第一确定模块、识别模块和第二确定模块，其中：所述生成模块，用于基于获取的待识别视频序列，生成至少一个轨迹序列；其中，每一所述轨迹序列包括同一目标对象；所述第一确定模块，用于基于每一所述轨迹序列中所述目标对象的检测框的高度变化情况，确定相应所述轨迹序列的第一识别结果；所述识别模块，用于在每一所述轨迹序列的所述第一识别结果满足第一条件的情况下，对每一所述轨迹序列进行行为识别，得到相应所述轨迹序列的第三识别结果；所述第二确定模块，用于至少基于所述至少一个轨迹序列的第一识别结果或所述至少一个轨迹序列的第三识别结果，确定所述待识别视频序列的行为识别结果。

第三方面，本申请实施例提供一种行为识别设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述行为识别方法中的步骤。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述行为识别方法中的步骤。

本申请实施例提供的技术方案带来的有益效果至少包括：

在本申请实施例中，首先确定目标对象在待识别视频序列中准确的轨迹序列，然后基于每一目标对象的轨迹序列中检测框的高度变化情况进行逻辑规则判定，再对于经初步判定存在异常行为的轨迹序列进行行为识别，最后结合逻辑规则判断的第一识别结果和网络识别的第三识别结果，确定待识别视频序列的行为识别结果。这样基于逻辑规则和深度学习算法实现了两阶段的异常行为识别方法，增强了整体识别过程的鲁棒性和准确性。同时通过将视频分类问题转换成轨迹序列的识别问题，能够减小行为识别模型的识别难度，并提升有效信息的获取。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：

图1A为本申请实施例提供的行为识别的一种网络架构示意图；

图1B为本申请实施例提供的一种行为识别方法的流程示意图；

图2为本申请实施例提供的一种行为识别方法的流程示意图；

图3为本申请实施例提供的一种行为识别方法的流程示意图；

图4为本申请实施例提供的一种行为识别方法的流程示意图；

图5A为本申请实施例提供的预处理后的输入轨迹序列样例示意图；

图5B为本申请实施例提供的空间运动掩膜裁剪的效果示意图；

图6A为本申请实施例提供的单人行为识别算法的系统框图；

图6B为本申请实施例提供的单人行为识别算法的逻辑流程图；

图7为本申请实施例提供的一种行为识别装置的组成结构示意图；

图8为本申请实施例提供的一种行为识别设备的硬件实体示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。以下实施例用于说明本申请，但不用来限制本申请的范围。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

需要指出，本申请实施例所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请实施例所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

视频中的行为识别是计算机视觉领域的一个重要应用，在智慧城市领域有着广泛的应用。随着现代通信能力的增强，在智慧城市的建设进程中，视频源越来越丰富。但是对这些视频源的利用仅仅停留在看或查的能力上，大部分决策能力还是需要大量的人力完成。随着云计算带来的算力提升，深度学习带来的智力的提升，可以充分利用深度学习的优势使得采集视频源的设备有一定的自动化决策能力。本申请实施例可应用于危险地带及时检测不安全事故如是否有人摔倒或者有小动物落水等目标对象的异常行为，以便及时采取保护措施。

图1A为本申请实施例提供的行为识别的一种网络架构示意图，如图1A所示，该网络架构中包括：摄像头101、对象检测模块102、预处理模块103、逻辑识别模块104和模型识别模块105：其中，对象检测模块102、预处理模块103、逻辑识别模块104和模型识别模块105可以设置于服务器100中，为实现支撑一个示例性应用，摄像头101通过网络和服务器100建立通信连接。通过摄像头101采集特定场景下的视频，然后采样得到待识别视频序列11即包含目标对象的多帧图像，将待识别视频序列11输入到对象检测模块102中；对象检测模块102可以充分利用相关检测算法如帧间差分法、背景减除法、光流法等等实现对待识别视频序列11中目标对象的定位和分析，得到带检测结果(标注目标对象的检测框和对象标识)的多帧图像12；然后通过预处理模块103对带检测结果的多帧图像12进行处理，基于每一帧图像中每一对象的检测框和对象标识，生成至少一个轨迹序列13，该轨迹序列为目标对象的轨迹序列；再将至少一个轨迹序列13输入到逻辑识别模块104中，通过预设的逻辑规则来初步检测出明显的异常行为，例如从一些表观层面的几何信息来过滤一些不太可能的情况，提高视频序列的识别效率，同时提升行为识别的准确性；最后，对于不符合逻辑检出规则的轨迹序列，则分别输入到模型识别模块105进行行为识别，最后输出视频层面的识别结果。从而对于不符合逻辑检出规则的轨迹序列，借助神经网络做进一步的确认和判断，增强了整套方案的鲁棒性。基于该网络架构，可以设计一种基于逻辑规则和深度学习的行为识别方法框架。

本申请实施例提供一种行为识别方法，应用于服务器、终端设备或其他设备。其中，所述终端设备包括但不限于手机、笔记本电脑、平板电脑和掌上上网设备、多媒体设备、流媒体设备、移动互联网设备、可穿戴设备或其他类型的设备。

图1B为本申请实施例提供的一种行为识别方法的流程示意图，如图1B所示，所述方法至少包括以下步骤：

步骤S110，基于获取的待识别视频序列，生成至少一个轨迹序列；

这里，每一所述轨迹序列包括同一目标对象，不同的目标对象生成不同的轨迹序列。其中针对每一目标对象的轨迹序列，即单个行为主体在待识别视频序列所持续的时间段内的位置序列。

在实施中，通过利用相关检测算法进行行为主体的定位，可以获得准确的行为发生区间即检测框所在的位置区间，从而进一步生成每一个目标对象的轨迹序列。例如，基于所述待识别视频序列中帧图像所包含对象的检测框，筛选出属于每一目标对象的检测框，然后将每一目标对象的检测框按时间顺序连接即生成该目标对象的轨迹序列。

所述待识别视频序列为对视频源进行采样得到的。视频源中的每一帧图像，往往覆盖的视野比较广阔，包含较多的信息，如行人、车辆、动物、建筑物以及其他复杂的背景信息。

待识别视频序列为由多帧图像构成的帧序列，其中每一帧图像中可以能包含至少一个对象或者未包含对象，不同的帧图像包含的对象也不一定相同。这里的对象可以是行人，也可以是移动车辆、动物等，在实施中根据实际场景确定，本申请实施例对此不作限定。

可以通过相关图像或视频处理技术实现对视频图像中对象的检测和定位分析，例如对象检测算法对该待识别视频序列进行预处理，得到多帧带检测框的图像，然后提取每一帧图像中所述对象的检测框。其中，检测算法比如模板匹配，对于视频中运动目标检测，可以通过帧间差分法、背景减除法、光流法等等实现，本申请实施例对此不作限定。

对于待识别视频序列中出现的不同对象，通过对象检测后会得到每一对象的检测结果和与检测框关联的唯一对象标识。即不同对象的检测框通过相应的对象标识区分，以便后续自动识别发生行为的主体并及时处理。

步骤S120，基于每一所述轨迹序列中所述目标对象的检测框的高度变化情况，确定相应所述轨迹序列的第一识别结果；

可以理解的，图像中的目标对象可以是符合一定条件的对象，在实施的过程中，目标对象满足一定的条件可以是：目标对象所在的图像区域在图像画面中所占的比例大于一定的比例阈值，或者，目标对象的类型属于某一预设类型等的，例如目标对象所在的图像区域在图像画面中所占的比例大于10％，目标对象的类型属于移动对象，例如动物、可自由移动的机器设备如扫地机等。

这里，图像中的目标对象可以认为是潜在的行为发生的执行主体。从而可以基于目标对象的检测框的高度变化情况，初步判断是否有跌倒、躺卧、坠落等异常行为发生，得到相应轨迹序列的第一识别结果。

步骤S130，在每一所述轨迹序列的所述第一识别结果满足第一条件的情况下，对每一所述轨迹序列进行行为识别，得到相应所述轨迹序列的第三识别结果；

这里，将通过步骤S120判定第一识别结果为可能发生异常行为的一个或多个轨迹序列一起输入到行为识别模型中，获取不同行为的判别分数。也就是说，对待识别视频序列中的多个目标对象的轨迹序列进行独立行为识别，确认每一轨迹序列经过网络模型后的判别分数，如果存在至少一个判别分数高于某个给定的阈值，则输出该轨迹序列对应的目标对象的行为，例如一个老人跌倒、一个小孩躺卧、一只小狗落水等行为；如果不存在任一个判别分数高于某个给定的阈值，则确定该待识别视频序列中不存在目标对象的异常行为。

在其他实施例中，在每一所述轨迹序列的所述第一识别结果表征未发生异常行为的情况下，直接将第一识别结果作为相应待识别视频序列的行为识别结果，缩短识别流程。

需要说明的是，步骤S110中可以灵活的使用相关检测算法进行行为主体的准确定位和分析，步骤S120中则通过轨迹序列中目标对象的检测框的高度变化情况初步识别出轨迹序列是否发生异常行为，步骤S130中的行为识别过程中可以充分利用现有视频理解模型，从而构建了基于逻辑规则和深度学习的行为识别算法框架，提升行为识别的准确性和鲁棒性。通过将整图的待识别视频序列转换为目标对象的轨迹序列，即准确的行为发生区域，缩小了输入模型的图像范围，使得模型仅针对每帧图像中的目标对象所在区域进行识别，能够提升行为识别的效率和精度。从而本申请实施例可以适应于更多覆盖视野大、包含更多信息的视频信息，如室外的城市街道场景以及室内的轨道交通等场景下获取的视频源。

步骤S140，至少基于所述至少一个轨迹序列的第一识别结果或所述至少一个轨迹序列的第三识别结果，确定所述待识别视频序列的行为识别结果。

这里，所述第一识别结果为基于逻辑规则判断的单个轨迹序列中是否发生异常行为的结果，所述第三识别结果为经逻辑规则判断某轨迹序列可能发生异常行为时，进一步通过神经网络识别的结果。

在一些实施方式中，在所述至少一个轨迹序列的第一识别结果均表征相应估计序列未发生异常行为的情况下，确定所述待识别视频序列的行为识别结果为未发生所述异常行为；在另一些实施方式中，在所述至少一个轨迹序列的第一识别结果表征相应所述轨迹序列发生异常行为的情况下，基于所述至少一个轨迹序列的第三识别结果，确定所述待识别视频序列的行为识别结果。

这里，在通过逻辑判断出待识别视频序列中的所有轨迹序列均无异常行为发生的情况下，直接得到待识别视频序列未发生异常行为的行为识别结果；在通过逻辑判断出待识别视频序列中存在轨迹序列有异常行为发生的情况下，以神经网络识别的第三识别结果为待识别视频序列的行为识别结果。

这样，结合启发式逻辑判断方法得到的至少一个第一识别结果和/或深度学习方法得到的至少一个第三识别结果，确定待识别视频序列的行为识别结果，提升异常行为识别的准确性和效率。

在本申请实施例中，首先，基于获取的待识别视频序列，生成至少一个轨迹序列；然后基于每一所述轨迹序列中所述目标对象的检测框的高度变化情况，确定相应所述轨迹序列的第一识别结果；再在每一所述轨迹序列的所述第一识别结果满足第一条件的情况下，对每一所述轨迹序列进行行为识别，得到相应所述轨迹序列的第三识别结果；最后，至少基于所述至少一个轨迹序列的第一识别结果或所述至少一个轨迹序列的第三识别结果，确定所述待识别视频序列的行为识别结果；如此，通过确定目标对象在待识别视频序列中准确的轨迹序列，并基于每一目标对象的轨迹序列中检测框的高度变化情况初步判断是否有异常行为发生，增强了识别过程的准确性和鲁棒性，同时结合已训练的行为识别模型提升行为识别的泛化性。

在一些实施例中，在获取待识别识别序列之后还包括：确定所述待识别视频序列内每一帧图像中除去所述目标对象的检测框之外的背景区域；依次利用纯色背景填充所述待识别视频序列内每一帧图像中的背景区域，得到新的待识别视频序列；所述基于获取的待识别视频序列，生成至少一个轨迹序列，包括：基于所述新的待识别视频序列，生成所述至少一个轨迹序列。

图2为本申请实施例提供的一种行为识别方法的流程示意图，如图2所示，所述方法包括以下步骤：

步骤S210，基于获取的待识别视频序列，生成至少一个轨迹序列；

这里，每一所述轨迹序列包括同一目标对象。

步骤S220，响应于每一所述轨迹序列内所述目标对象的检测框在相邻帧之间的高度差，不满足第一阈值的情况下，确定相应所述轨迹序列的第一识别结果为未发生异常行为；

这里，随着目标对象的移动，目标对象在轨迹序列内每一帧图像中的检测框也会随之变化。若目标对象发生异常行为事件，则会引起检测框的高度发生剧烈变化。因此，通过分析轨迹序列中相邻帧的高度差不满足第一阈值的情况下，确定相应所述轨迹序列的第一识别结果为未发生所述异常行为。

在实施中，针对每一轨迹序列内的每一帧图像，每相邻两帧计算一次检测框的高度差，例如第1帧与第2帧之间计算一次，第2帧再与第3帧之间计算一次，直到第n-1帧与第n帧之间的高度差超过第一阈值时不再判断后续帧。

这里，所述第一阈值为针对对象类型预设的高度变化阈值，一般为经验值。

若目标对象的检测框在轨迹序列内相邻帧之间的高度差不满足第一阈值，则表明该目标对象的检测框高度在各帧中持平，可以初步判定相应轨迹序列的第一识别结果为未发生跌倒、落水、卧倒等导致检测框高度变化较大的异常行为。

步骤S230，响应于每一所述轨迹序列内所述目标对象的检测框在相邻帧之间的高度差，满足所述第一阈值的情况下，确定相应所述轨迹序列的第一识别结果为发生异常行为；

这里，若目标对象的检测框在轨迹序列内相邻帧之间的高度差满足第一阈值，则表明该目标对象的检测框高度发生剧烈变化，可以初步判定相应轨迹序列的第一识别结果为可能发生异常行为。

步骤S240，在每一所述轨迹序列的所述第一识别结果表征相应所述轨迹序列中发生异常行为的情况下，对每一所述轨迹序列进行行为识别，得到相应所述轨迹序列的第三识别结果；

这里，对于基于目标对象的检测框在相邻帧之间的高度差情况确定为相应轨迹序列可能发生异常行为的情况，需要进一步利用神经网络识别具体的行为类型，从而得到相应估计序列的第三识别结果。

步骤S250，至少基于所述至少一个轨迹序列的第一识别结果或所述至少一个轨迹序列的第三识别结果，确定所述待识别视频序列的行为识别结果。

在本申请实施例中，针对每一轨迹序列通过判断相邻帧之间目标对象的检测框的高度差是否满足第一阈值，初步检测出明显不存在异常行为的轨迹序列，从而避免输入行为识别模型中继续检测，提升待识别视频序列的识别效率。

图3为本申请实施例提供的一种行为识别方法的流程示意图，如图3所示，所述方法包括以下步骤：

步骤S310，基于获取的待识别视频序列，生成至少一个轨迹序列；

这里，每一所述轨迹序列包括同一目标对象。

步骤S320，基于每一所述轨迹序列中所述目标对象的检测框的高度变化情况，确定相应所述轨迹序列的第一识别结果；

步骤S330，在每一所述轨迹序列的所述第一识别结果表征相应所述轨迹序列中发生异常行为的情况下，确定相应所述轨迹序列中相邻帧之间的像素变化信息；

这里，在通过目标对象的检测框的高度变化情况初步判定轨迹序列存在异常行为的情况下，进一步对比轨迹序列中相邻帧之间的像素是否发生变化，以便通过逻辑规则判定轨迹序列中是否发生异常行为。

在实施中，可以通过相关技术中的图像处理算法确定轨迹序列中相邻帧之间的像素差。通常设定相邻帧图像的大小和尺寸相同，对于灰度图像，因为只有单通道，所以直接进行相应位置的像素减法即可，对于彩色图像，则应该将对应的颜色的分量分别进行相减。

步骤S340，基于每一所述轨迹序列中相邻帧之间的像素变化信息，确定相应所述轨迹序列的第二识别结果；

这里，可以通过对比相邻帧之间的像素变化值是否满足特定阈值，判定轨迹序列中是否有异常行为发生。

在一些实施方式中，响应于每一所述轨迹序列中相邻帧之间的像素差值满足第二阈值的情况下，确定相应所述轨迹序列的第二识别结果为发生所述异常行为；响应于每一所述轨迹序列中所述像素差值不满足所述第二阈值的情况下，确定相应所述轨迹序列的第二识别结果为未发生所述异常行为。

在一些实施方式中，响应于每一所述轨迹序列中相邻帧之间的像素差值的累加和满足第三阈值的情况下，确定相应所述轨迹序列的第二识别结果为发生所述异常行为；响应于每一所述轨迹序列中所述像素差值的累加和不满足所述第三阈值的情况下，确定相应所述轨迹序列的第二识别结果为未发生所述异常行为。

这样，针对每一轨迹序列每相邻两帧确定像素差值是否满足第二阈值，或者像素差值的累加和是否满足第三阈值，确定相应轨迹序列中是否发生异常行为。从而能够通过逻辑预判确定出明显发生异常行为的轨迹序列，提升整体识别过程的准确性和加快识别流程。

步骤S350，在所述第二识别结果表征相应所述轨迹序列中未发生异常行为的情况下，对每一所述轨迹序列进行行为识别，得到相应所述轨迹序列的第三识别结果；

步骤S360，在所述第二识别结果表征相应所述轨迹序列中发生所述异常行为的情况下，确定所述待识别视频序列的行为识别结果为发生所述异常行为。

在本申请实施例中，通过对比每一轨迹序列中目标对象的高度变化和相邻帧之间的像素变化，初步检测出明显存在异常行为的轨迹序列以及排除明显无异常行为的轨迹序列，提升行为识别的鲁棒性和准确性；同时在两阶段逻辑规则判定相应轨迹序列未发生异常行为时，借助神经网络做进一步的确认和判断，增强了整体识别过程的泛化性。

在一些实施例中，可以通过以下过程实现“基于获取的待识别视频序列，生成至少一个轨迹序列”：调用上游结构化检测组件提取待识别视频序列中所述目标对象的跟踪结果；其中，所述跟踪结果至少包括所述目标对象的检测框；根据所述目标对象的检测框，生成所述目标对象的轨迹序列。

在一些实施例中，所述目标对象为容易发生异常行为的单个执行主体，所述目标对象的检测框为在每一帧图像中空间位置上独立的检测框。

基于图1B，图4为本申请实施例提供的一种行为识别方法的流程示意图，如图4所示，上述步骤S110“根据获取的待识别视频序列，生成至少一个轨迹序列”可以通过以下步骤实现：

步骤S410，确定所述待识别视频序列内每一对象的检测框；

步骤S420，从所述每一帧图像中每一对象的检测框中，选择所述每一帧图像中在空间位置上独立的所述检测框作为目标对象的检测框；

这里，所述在空间位置上独立的检测框可以为每一帧图像中稀疏区域的检测框，或者与其他检测框之间无重叠部分的检测框。

通常认为独立的对象容易发生单个对象行为，因此从每一帧图像包含的所有对象的检测框中，筛选出独立的检测框即为目标对象的检测框。例如目标对象为行人时，对与其他行人检测框之间无重叠的行人检测框进行分析处理，能够提高单人行为识别的效率。

可以通过以下方式实现“从所述每一帧图像中每一对象的检测框中，选择所述每一帧图像中在空间位置上独立的所述检测框作为所述目标对象的检测框”的过程：

方式一：在所述每一帧图像中包括一个检测框的情况下，将所述每一帧对象中的一个检测框作为所述目标对象的检测框。

这里，每一帧图像中包括一个检测框说明该检测框对应的对象为容易发生异常行为的目标对象。

方式二：在所述每一帧图像中包括至少两个检测框的情况下，确定所述每一帧图像中的至少两个检测框之间的交并比；根据所述交并比，生成所述每一帧图像对应的邻接矩阵；将所述邻接矩阵中匹配次数为零的检测框作为所述目标对象的检测框。

这里，每一帧图像中包括至少两个检测框说明该待识别视频序列中包含多个对象，这多个对象在每一帧图像中的空间位置可以聚集在同一位置附近，也可以相对分散的分布在不同位置，也可以一部分聚集、另一部分分散分布。本申请实施例期望找出其中分散的目标对象的检测框进行后续处理。

每两个检测框之间的交并比(Intersection over Union，IoU)是两个区域重叠的部分除以两个区域的集合部分得出的结果。邻接矩阵中(i，j)的值代表帧图像中检测框i和检测框j的交并比。将第i行中数值大于0的个数(除了自身)作为检测框i的匹配次数。

需要说明的是，如果邻接矩阵中不存在与检测框i之间的交并比大于0的其他检测框，那么检测框i的匹配次数为0，说明该检测框i与所在帧图像中其他检测框之间没有重叠区域，可以作为目标对象的检测框。

步骤S430，基于所述每一帧图像中所述目标对象的检测框，生成至少一个所述轨迹序列。

这里，某个目标对象的检测框可以在待识别视频序列中的每一帧图像中出现，也可以只在一部分帧中出现。对上一步确定的目标对象的检测框进行帧间检测框的对象标识(Identity document，ID)匹配，根据不同的ID，可以得到不同目标对象的轨迹序列。

将所有待识别视频序列中出现的与相应目标对象关联的检测框按照时间戳连接起来，即可生成该目标对象的轨迹序列。在实施中，可以通过以下步骤确定每一目标对象对应的轨迹序列：

步骤S4301，基于所述待识别视频序列内每一帧图像中与每一所述目标对象关联的所述检测框的坐标范围，确定相应所述目标对象对应的最小包围框；

这里，对于某个目标对象的检测框，由于目标对象的移动，其检测框在不同帧图像上的空间位置可能是变化的，通过取并集合并成一个较大的区域作为最小包围框。例如，将视频序列中属于同一个ID的行人检测框在空间位置上取并集，同时考虑各行人检测框的横、纵坐标的最大值，得到这个行人在视频序列中的最小包围框。

步骤S4302，基于每一所述目标对象对应的所述最小包围框，确定所述每一帧图像中与所述最小包围框对应的区域图像；

这样，以最小包围框截取每一帧图像中对应的区域图像作为区域图像，能够避免行为主体的相对位置丢失，对于空间相似但运动节奏不同的行为识别有较好的性能提升。

示例地，图5A为本申请实施例提供的预处理后的输入轨迹序列样例示意图。如图5A所示，为以小孩为执行主体的轨迹序列，可以看出，该轨迹序列是基于采集的8帧图像，然后利用包含小孩识别结果的最小包围框，分别截取8帧图像得到的区域图像连接起来形成的。

步骤S4303，确定所述区域图像中除去所述目标对象的检测框之外的噪声区域；

这里，截取的区域图像中除去目标对象的检测框之外的区域，对行为识别的识别结果意义不大，可以作为噪声区域。

步骤S4304，利用纯色背景填充所述噪声区域，得到目标区域图像；

这里，由于在检测定位阶段只将单个对象的检测框提取出来，丢失了相对运动信息，例如对于跑步、走路这类单人行为动作，由于其动作形式和动作幅度相似，很难见其区分。本申请实施例对提取的检测框保持空间位置的同时，将周围的噪声区域用纯色背景填充，即利用空间运动掩膜(mask)保持行为主体的空间相对位置信息。

示例地，图5B为本申请实施例提供的空间运动掩膜裁剪的效果示意图。如图5B所示，对于每帧用最小包围框裁剪的区域图像，该区域图像中除行人检测框外的部分都用纯色背景填充。由于最小包围框是根据多帧图像里的行人检测框取并集得到的，因此，最小包围框和行人检测框的相对位置已知，从而保持了行人的相对运动信息。

步骤S4305，基于所述每一帧图像的时间戳和所述每一帧图像中的目标区域图像，生成每一所述目标对象对应的轨迹序列。

这里，将属于同一目标对象的目标区域图像按照所述每一帧图像的时间戳连接起来，即得到每一所述目标对象对应的轨迹序列。

本申请实施例通过对筛选的目标对象的检测框在空间位置上取并集，得到每个目标对象的最小包围框，从而基于最小包围框截取每一帧图像的区域图像，并对区域图像的噪声背景进行填充，最终连接处理后的目标区域图像得到每一轨迹序列。借助待识别视频序列的检测结果，将待识别视频序列拆分成若干个对象人的轨迹序列，将视频分类问题转换成轨迹序列的识别问题，能够减小模型的识别难度，并提升有效信息的获取。

在本申请实施例中，通过行为识别模型分别对每一轨迹序列进行识别得到各自的判别分数，然后确定相应待识别视频序列的行为识别结果，能够将视频分类问题转换成轨迹序列的识别问题，在减小行为识别模型的识别难度的同时提升有效信息的获取。在室外的城市街道场景以及室内的轨道交通等场景下发生危害生命安全的行为后，系统就会自动识别出行为主体并告警，给相关需求的人员提供了一个高效而便捷的检测能力。

下面结合一个具体实施例对上述行为识别方法进行说明，然而值得注意的是，该具体实施例仅是为了更好地说明本申请，并不构成对本申请的不当限定。

本申请实施例以目标对象为行人为例进行说明。对于单人行为识别的主要任务是首先对出现在视频源中的单个行人进行检测，锁定行为主体，然后对该行为主体进行持续检测，识别出具体行为。当行为主体执行危害生命安全的行为如跌倒时需要及时预警。这样的流程使得采集视频源的设备具有自主化和智能化的判别能力，可以给日常城市管理带来极大的效率提升。

传统的行为识别方法通常对输入的视频序列进行全图的数据增强或其他预处理后送入到分类模型中进行预测，然而这种方式只适用于以人为中心的视频行为识别，该类数据常见于公开的视频学术数据集中。对于其他视频源中的图像来说，每帧图像中往往包含更多的信息，覆盖的视野也更大。为此，本申请实施例利用行人检测算法来进行行为主体的定位，并获得准确的行为发生区间，以此构建单人行为识别算法。

基于单人行为识别问题，本申请实施例通过调用上游结构化检测组件获取原始视频序列中的行人检测框，基于获取的行人检测框来生成每个行人的轨迹序列，进而对每个行人的轨迹序列进行行为识别。图6A为本申请实施例提供的单人行为识别算法的系统框图，如图6A所示，将标有行人检测框的视频序列61经过预处理，得到三个单人各自的轨迹序列即轨迹序列611、轨迹序列612和轨迹序列613，再经过已训练的行为识别网络62分别对每个轨迹序列进行行为识别，得到轨迹序列611对应的判别分数621、轨迹序列612对应的判别分数622和轨迹序列613对应的判别分数623，最后，再将视频序列61中所有的轨迹序列的判别分数进行合并，得到该视频序列61的识别结果63。

上述完全基于深度学习方法的单人行为识别算法的鲁棒性和准确性不足，本申请实施例提出一种融合逻辑规则和深度学习的单人行为识别方法。本申请实施例充分利用现有行人检测算法并设计了一套多阶段基于逻辑规则和深度学习的跌倒异常行为检测算法框架，增强了整套识别方案的鲁棒性和准确性。

以异常行为为跌倒为例，图6B为本申请实施例提供的单人行为识别算法的逻辑流程图，如图6B所示，该流程包括以下步骤：

步骤S601，分别提取待识别视频序列中每一行人的检测框，得到检测结果；

这里，首先获取视频源中的待识别视频序列，然后调用上游结构化检测组件提取视频中行人的检测框。

步骤S602，根据检测结果确定每一行人的轨迹序列；

步骤S603，判断相邻帧之间的检测框高度是否剧烈变化；

这里，计算轨迹序列中同一行人的检测框高度的变化程度，如果同一行人在相邻帧间的检测框高度没有发生剧烈变化如高度差小于第一阈值，则执行步骤S605，输出无跌倒事件发生，结束判断。否则继续执行步骤S604。

步骤S604，基于每一行人的最小包围框，确定轨迹序列内每帧图像中对应的区域图像；

这里，如果同一行人在相邻帧间的检测框高度发生剧烈变化，则进一步对每一行人计算最小包围框，并扣取每帧图像中对应的区域图像。

此外，为了剔除背景的干扰，在行人检测框提取阶段，将行人的检测框检测出来并计算最小包围框，对最小包围框内行人的检测框以外的区域涂黑处理，在保持行人裁剪的同时又不丢失相对运动信息。这样以最小包围框为基准对每一帧图像进行裁剪，同时对区域图像内的无关背景区域进行填充，保证了帧间差值计算的客观性和结果的可靠性，也利于最终行为识别网络的准确判断。

步骤S605，确定无跌倒发生；

即确定相应轨迹序列的第一识别结果为未发生异常行为。

步骤S606，确定每一轨迹序列的相邻帧之间的像素差值并求和；

步骤S607，判断像素差值的累加和是否大于第二阈值；

这里，如果像素差值的累加和大于等于第二阈值，则执行步骤S608输出有跌倒发生，结束判断。否则继续执行步骤S609。

步骤S608，确定有跌倒发生。

即确定相应轨迹序列的第一识别结果为发生异常行为。

步骤S609，输入已训练的行为识别网络进一步识别。

这里，如果像素差值的累加和小于第二阈值，单独将各个轨迹序列分别送入动作识别神经网络中进行最后的识别判断。

将上一步确定的多个行人的轨迹序列送入行为识别模型中获取不同行为的判别分数。观察每个行人的轨迹序列经过行为识别模型后的输出分数，如果高于某个给定的阈值，则输出对应的异常行为，否则表示当前视频序列不存在异常行为。

本申请实施例首先基于两阶段的逻辑规则判断，来初步检测出明显的跌倒事件，提升准确性。对于不符合逻辑检出规则的情况，则借助神经网络做进一步的确认和判断，增强了整套方案的鲁棒性。

本申请实施例提供的行为识别方法可以广泛应用于智能视频分析中的行为识别中。例如，在室外的城市街道场景以及室内的轨道交通等场景下发生危害生命安全的行为后，系统就会自动识别出行为主体并报警，给相关需求的人员提供了一个高效而便捷的检测能力。

基于前述的实施例，本申请实施例再提供一种行为识别装置，所述识别装置包括所包括的各模块、以及各模块所包括的各单元，可以通过行为识别设备中的处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为中央处理器(CentralProcessing Unit，CPU)、微处理器(Micro Processing Unit，MPU)、数字信号处理器(Digital Signal Processor，DSP)或现场可编程门阵列(Field Programmable GateArray，FPGA)等。

图7为本申请实施例提供的一种行为识别装置的组成结构示意图，如图7所示，所述识别装置700包括生成模块710、第一确定模块720、识别模块730和第二确定模块740，其中：

所述生成模块710，用于于获取的待识别视频序列，生成至少一个轨迹序列；其中，每一所述轨迹序列包括同一目标对象；

所述第一确定模块720，用于基于每一所述轨迹序列中所述目标对象的检测框的高度变化情况，确定相应所述轨迹序列的第一识别结果；

所述识别模块730，用于在每一所述轨迹序列的所述第一识别结果满足第一条件的情况下，对每一所述轨迹序列进行行为识别，得到相应所述轨迹序列的第三识别结果；

所述第二确定模块740，用于至少基于所述至少一个轨迹序列的第一识别结果或所述至少一个轨迹序列的第三识别结果，确定所述待识别视频序列的行为识别结果。

在一些可能的实施例中，所述第二确定模块740还用于在所述至少一个轨迹序列的第一识别结果均表征相应所述轨迹序列未发生异常行为的情况下，确定所述待识别视频序列的行为识别结果为未发生异常行为；或者，在所述至少一个轨迹序列的第一识别结果表征相应所述轨迹序列发生异常行为的情况下，基于所述至少一个轨迹序列的第三识别结果，确定所述待识别视频序列的行为识别结果。

在一些可能的实施例中，所述识别模块730包括：第一确定子模块，用于在每一所述轨迹序列的所述第一识别结果表征相应所述轨迹序列中发生异常行为的情况下，确定相应所述轨迹序列中相邻帧之间的像素变化信息；第二确定子模块，用于基于每一所述轨迹序列中相邻帧之间的像素变化信息，确定相应所述轨迹序列的第二识别结果；识别子模块，用于在所述第二识别结果表征相应所述轨迹序列中未发生异常行为的情况下，对每一所述轨迹序列进行行为识别，得到相应所述轨迹序列的第三识别结果。

在一些可能的实施例中，所述第二确定子模块包括：第一确定单元，用于响应于每一所述轨迹序列中相邻帧之间的像素差值满足第二阈值的情况下，确定相应所述轨迹序列的第二识别结果为发生所述异常行为；第二确定单元，用于响应于每一所述轨迹序列中所述像素差值不满足所述第二阈值的情况下，确定相应所述轨迹序列的第二识别结果为未发生所述异常行为。

在一些可能的实施例中，所述识别模块还包括第三确定子模块，用于在所述第二识别结果表征相应所述轨迹序列中发生所述异常行为的情况下，确定所述待识别视频序列的行为识别结果为发生所述异常行为。

在一些可能的实施例中，所述第一确定模块720包括第四确定子模块，用于响应于每一所述轨迹序列内所述目标对象的检测框在相邻帧之间的高度差，不满足第一阈值的情况下，确定相应所述轨迹序列的第一识别结果为未发生所述异常行为；第五确定子模块，用于响应于每一所述轨迹序列内所述目标对象的检测框在相邻帧之间的高度差，满足所述第一阈值的情况下，确定相应所述轨迹序列的第一识别结果为发生所述异常行为。

在一些可能的实施例中，所述生成模块710包括：第六确定子模块，用于确定所述待识别视频序列内每一帧图像中每一对象的检测框；筛选子模块，用于从所述每一帧图像中每一对象的检测框中，选择所述每一帧图像中在空间位置上独立的所述检测框作为所述目标对象的检测框；生成子模块，用于基于所述每一帧图像中所述目标对象的检测框，生成至少一个所述轨迹序列。

在一些可能的实施例中，所述生成子模块包括：第四确定单元，用于基于所述待识别视频序列内每一帧图像中与每一所述目标对象关联的所述检测框的坐标范围，确定相应所述目标对象对应的最小包围框；第五确定单元，用于基于每一所述目标对象对应的所述最小包围框，确定所述每一帧图像中与所述最小包围框对应的区域图像；第六确定单元，用于基于所述每一帧图像的时间戳和所述每一帧图像中的区域图像，得到每一所述目标对象的轨迹序列。

在一些可能的实施例中，所述生成子模块还包括第七确定单元，用于确定所述区域图像中除去所述目标对象的检测框之外的噪声区域；所述填充单元，用于利用纯色背景填充所述噪声区域，得到目标区域图像；所述第六确定单元，还用于基于所述每一帧图像的时间戳和所述每一帧图像中的区域图像，生成每一所述目标对象对应的轨迹序列。

在一些可能的实施例中，所述装置还包括第三确定模块，用于确定所述待识别视频序列内每一帧图像中除去所述目标对象的检测框之外的背景区域；填充模块，用于依次利用纯色背景填充所述待识别视频序列内每一帧图像中的背景区域，得到新的待识别视频序列；所述生成模块710，还用于基于所述新的待识别视频序列，生成所述至少一个轨迹序列。

这里需要指出的是：以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述行为识别方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得行为识别设备(可以是具有摄像头的智能手机、平板电脑等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read OnlyMemory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

对应地，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中任一所述行为识别方法中的步骤。

对应地，本申请实施例中，还提供了一种芯片，所述芯片包括可编程逻辑电路和/或程序指令，当所述芯片运行时，用于实现上述实施例中任一所述行为识别方法中的步骤。

对应地，本申请实施例中，还提供了一种计算机程序产品，当该计算机程序产品被行为识别设备的处理器执行时，其用于实现上述实施例中任一所述行为识别方法中的步骤。

基于同一技术构思，本申请实施例提供一种行为识别设备，用于实施上述方法实施例记载的行为识别方法。图8为本申请实施例提供的一种行为识别设备的硬件实体示意图，如图8所示，所述识别设备800包括存储器810和处理器820，所述存储器810存储有可在处理器820上运行的计算机程序，所述处理器820执行所述程序时实现本申请实施例任一所述行为识别方法中的步骤。

存储器810配置为存储由处理器820可执行的指令和应用，还可以缓存待处理器820以及识别设备800中各模块待处理或已经处理的数据(例如，图像数据、音频数据、语音通信数据和视频通信数据)，可以通过闪存(FLASH)或随机访问存储器(Random AccessMemory，RAM)实现。

处理器820执行程序时实现上述任一项的行为识别方法的步骤。处理器820通常控制识别设备800的总体操作。

上述处理器可以为特定用途集成电路(Application Specific IntegratedCircuit，ASIC)、数字信号处理器(Digital Signal Processor，DSP)、数字信号处理装置(Digital Signal Processing Device，DSPD)、可编程逻辑装置(Programmable LogicDevice，PLD)、现场可编程门阵列(Field Programmable Gate Array，FPGA)、中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地，实现上述处理器功能的电子器件还可以为其它，本申请实施例不作具体限定。

上述计算机存储介质/存储器可以是只读存储器(Read Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory，FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory，CD-ROM)等存储器；也可以是包括上述存储器之一或任意组合的各种行为识别设备，如移动电话、计算机、平板设备、个人数字助理等。

这里需要指出的是：以上存储介质和设备实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请存储介质和设备实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本申请实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得设备自动测试线执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本申请的实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种行为识别方法，其特征在于，所述方法包括：

基于获取的待识别视频序列，生成至少一个轨迹序列；其中，每一所述轨迹序列包括同一目标对象；

2.如权利要求1所述的方法，其特征在于，所述至少基于所述至少一个轨迹序列的第一识别结果或所述至少一个轨迹序列的第三识别结果，确定所述待识别视频序列的行为识别结果，包括：

在所述至少一个轨迹序列的第一识别结果均表征相应所述轨迹序列未发生异常行为的情况下，确定所述待识别视频序列的行为识别结果为未发生异常行为；或者，

在所述至少一个轨迹序列的第一识别结果表征相应所述轨迹序列发生异常行为的情况下，基于所述至少一个轨迹序列的第三识别结果，确定所述待识别视频序列的行为识别结果。

3.如权利要求1或2所述的方法，其特征在于，所述在每一所述轨迹序列的所述第一识别结果满足第一条件的情况下，对每一所述轨迹序列进行行为识别，得到相应所述轨迹序列的第三识别结果，包括：

在每一所述轨迹序列的所述第一识别结果表征相应所述轨迹序列中发生异常行为的情况下，确定相应所述轨迹序列中相邻帧之间的像素变化信息；

基于每一所述轨迹序列中相邻帧之间的像素变化信息，确定相应所述轨迹序列的第二识别结果；

在所述第二识别结果表征相应所述轨迹序列中未发生异常行为的情况下，对相应所述轨迹序列进行行为识别，得到相应所述轨迹序列的第三识别结果。

4.如权利要求3所述的方法，其特征在于，所述基于每一所述轨迹序列中相邻帧之间的像素变化信息，确定相应所述轨迹序列的第二识别结果，包括：

响应于每一所述轨迹序列中相邻帧之间的像素差值满足第二阈值的情况下，确定相应所述轨迹序列的第二识别结果为发生异常行为；或者，

响应于每一所述轨迹序列中所述像素差值不满足所述第二阈值的情况下，确定相应所述轨迹序列的第二识别结果为未发生异常行为。

5.如权利要求3或4所述的方法，其特征在于，所述方法还包括：

在所述第二识别结果表征相应所述轨迹序列中发生异常行为的情况下，确定所述待识别视频序列的行为识别结果为发生异常行为。

6.如权利要求1至5任一项所述的方法，其特征在于，所述基于每一所述轨迹序列内的所述目标对象的检测框的高度变化情况，确定每一所述轨迹序列的第一识别结果，包括：

响应于每一所述轨迹序列内所述目标对象的检测框在相邻帧之间的高度差，不满足第一阈值的情况下，确定相应所述轨迹序列的第一识别结果为未发生异常行为；或者，

响应于每一所述轨迹序列内所述目标对象的检测框在相邻帧之间的高度差，满足所述第一阈值的情况下，确定相应所述轨迹序列的第一识别结果为发生异常行为。

7.如权利要求1至6任一项所述的方法，其特征在于，所述基于获取的待识别视频序列，生成至少一个轨迹序列，包括：

确定所述待识别视频序列内每一帧图像中每一对象的检测框；

从所述每一帧图像中每一对象的检测框中，选择所述每一帧图像中在空间位置上独立的所述检测框作为所述目标对象的检测框；

基于所述每一帧图像中所述目标对象的检测框，生成至少一个所述轨迹序列。

8.如权利要求7所述的方法，其特征在于，所述基于所述每一帧图像中所述目标对象的检测框，生成至少一个所述轨迹序列，包括：

基于所述待识别视频序列内每一帧图像中与每一所述目标对象关联的所述检测框的坐标范围，确定相应所述目标对象对应的最小包围框；

基于每一所述目标对象对应的所述最小包围框，确定所述每一帧图像中与所述最小包围框对应的区域图像；

基于所述每一帧图像的时间戳和所述每一帧图像中的区域图像，得到每一所述目标对象的轨迹序列。

9.如权利要求8所述的方法，其特征在于，所述确定所述每一帧图像中与所述最小包围框对应的区域图像之后，所述方法还包括：

确定所述区域图像中除去所述目标对象的检测框之外的噪声区域；

利用纯色背景填充所述噪声区域，得到目标区域图像；

所述基于所述每一帧图像的时间戳和所述每一帧图像中的区域图像，得到每一所述目标对象的轨迹序列，包括：

基于所述每一帧图像的时间戳和所述每一帧图像中的目标区域图像，生成每一所述目标对象对应的轨迹序列。

10.如权利要求1至9任一项所述的方法，其特征在于，所述方法还包括：

确定所述待识别视频序列内每一帧图像中除去所述目标对象的检测框之外的背景区域；

依次利用纯色背景填充所述待识别视频序列内每一帧图像中的背景区域，得到新的待识别视频序列；

所述基于获取的待识别视频序列，生成至少一个轨迹序列，包括：基于所述新的待识别视频序列，生成所述至少一个轨迹序列。

11.一种行为识别装置，其特征在于，所述装置包括生成模块、第一确定模块、识别模块和第二确定模块，其中：

所述生成模块，用于基于获取的待识别视频序列，生成至少一个轨迹序列；其中，每一所述轨迹序列包括同一目标对象；

所述第一确定模块，用于基于每一所述轨迹序列中所述目标对象的检测框的高度变化情况，确定相应所述轨迹序列的第一识别结果；

所述识别模块，用于在每一所述轨迹序列的所述第一识别结果满足第一条件的情况下，对每一所述轨迹序列进行行为识别，得到相应所述轨迹序列的第三识别结果；

所述第二确定模块，用于至少基于所述至少一个轨迹序列的第一识别结果或所述至少一个轨迹序列的第三识别结果，确定所述待识别视频序列的行为识别结果。

12.一种行为识别设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至10任一项所述方法中的步骤。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至10任一项所述方法中的步骤。