CN112668364B

CN112668364B - 一种基于视频的行为预测方法及装置

Info

Publication number: CN112668364B
Application number: CN201910979630.0A
Authority: CN
Inventors: 赵飞
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2019-10-15
Filing date: 2019-10-15
Publication date: 2023-08-08
Anticipated expiration: 2039-10-15
Also published as: CN112668364A

Abstract

本申请提供了一种基于视频的行为预测方法及装置，属于计算机技术领域，所述方法包括：通过目标检测算法和包含监控目标的视频帧序列，确定包含监控目标的图像区域；如果包含监控目标的图像区域满足预设行为判定条件，确定监控目标实施第一行为，获取第一行为对应的第一时间戳、第一空间位置；在基于视频帧序列确定出的第一行为中，根据第一行为对应的第一时间戳、时间间隔阈值，确定发生时间间隔小于时间间隔阈值的第二行为；生成包含第二行为对应的第二时间戳、第二空间位置的行为列表；通过行为识别预测算法、行为列表、视频帧序列，确定第二行为所属的行为类别，预测行为所属的行为类别。采用本申请，能够提高行为预测结果的多样性。

Description

一种基于视频的行为预测方法及装置

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于视频的行为预测方法及装置。

背景技术

视频监控中，可以基于视频对视频画面中监控目标的行为进行行为预测。监控目标可以是人、动物、无人机等物体，当监控目标为人时，监控目标的行为可以是奔跑、攀爬建筑物。

相关技术中，基于视频进行行为预测的具体处理过程包括：在视频监控的过程中，电子设备将实时获取的监控视频转换为连续多个视频帧组成的视频帧序列，再针对视频帧序列包含的每个视频帧，识别该视频帧中是否包含监控目标，得到包含监控目标的连续视频帧。然后，电子设备可以通过预设的目标识别算法和包含监控目标的连续视频帧，确定监控目标当前行为所属的行为类别。之后，电子设备可以根据当前行为的预设持续时间、已持续时间，确定当前行为的结束时间，再将结束时间之前监控目标的行为确定为当前行为，由此，得到行为类别和结束时间之前监控目标的行为，从而实现行为预测。

然而，电子设备仅能基于视频，预测得到结束时间之前监控目标的行为是当前行为，无法对当前行为之后，监控目标的下一步行为进行预测。

发明内容

本申请实施例的目的在于提供一种基于视频的行为预测方法及装置，以实现提高行为预测结果的多样性。具体技术方案如下：

第一方面，提供了一种基于视频的行为预测方法，所述方法包括：

针对包含监控目标的视频帧序列中的每个视频帧，确定包含所述监控目标的图像区域；

如果包含所述监控目标的图像区域满足预设行为判定条件，则确定所述监控目标实施第一行为，并获取该图像区域所属目标视频帧的第一时间戳、所述目标视频帧中所述监控目标的第一空间位置，得到所述第一行为对应的第一时间戳、所述第一行为对应的第一空间位置；

在基于所述视频帧序列确定出的第一行为中，根据所述第一行为对应的第一时间戳、预设的时间间隔阈值，确定发生时间间隔小于所述时间间隔阈值的第二行为；

生成包含所述第二行为对应的第二时间戳、所述第二行为对应的第二空间位置的行为列表；

通过预设的行为识别预测算法、所述行为列表、所述视频帧序列，确定所述第二行为所属的行为类别，以及所述第二行为后发生的预测行为所属的行为类别。

可选的，所述获取该图像区域所属目标视频帧的第一时间戳、所述目标视频帧中所述监控目标的第一空间位置，得到所述第一行为对应的第一时间戳、所述第一行为对应的第一空间位置包括：

确定该图像区域所属目标视频帧的第一时间戳；

针对每个目标视频帧，确定所述监控目标在该目标视频帧中的初始空间位置；

根据各目标视频帧对应的初始空间位置，确定所述监控目标的第一空间位置；

所述通过预设的行为识别预测算法、所述行为列表、所述视频帧序列，确定所述第二行为所属的行为类别，以及所述第二行为后发生的预测行为所属的行为类别包括：

在所述视频帧序列中，获取与所述第二时间戳、所述第二空间位置对应的视频数据，得到行为时空立体图像序列；

通过预设的行为预测算法、所述行为列表、所述行为时空立体图像序列，确定所述第二行为所属的行为类别，以及所述第二行为后发生的预测行为所属的行为类别。

可选的，所述生成包含所述第二行为对应的第二时间戳、所述第二行为对应的第二空间位置的行为列表之后，还包括：

在目标数据模态的视频帧序列中，获取与所述第二时间戳、所述第二空间位置对应的视频数据，得到目标数据模态的行为时空立体图像序列，其中，所述目标数据模态包括红绿蓝RGB模态、光流模态、深度信息模态、稀疏关键点模态、稠密关键点模态、红外图像模态中的至少一种；

通过预设的行为识别预测算法、所述目标数据模态的行为时空立体图像序列，确定所述目标数据模态对应的所述第二行为所属的行为类别、以及所述第二行为后发生的预测行为所属的行为类别。

可选的，所述确定所述第二行为所属的行为类别，以及所述第二行为后发生的预测行为所属的行为类别之后，还包括：

根据所述第二行为的预设持续时间、所述第二行为对应的第二时间戳，确定所述预测行为的发生时间；

根据所述第二行为的第二空间位置与预设的空间位置变化规则，确定所述预测行为的预测空间位置；

提示所述预测行为所属的行为类别、所述预测行为的发生时间、所述预测空间位置。

可选的，所述方法还包括：

如果所述第二行为为预设的感兴趣行为，则针对所述行为列表包含的各第二行为，获取该第二行为对应的展示视频帧，所述展示视频帧为突出显示有所述监控目标的目标视频帧；

所述提示所述预测行为所属的行为类别、所述预测行为的发生时间、所述预测空间位置包括：

根据所述预测空间位置、所述第二行为对应的目标视频帧，生成所述预测行为的展示视频帧；

在预设的显示页面中，按照所述第二行为的发生时间的先后顺序，依次显示各第二行为对应的展示视频帧，在所述各第二行为对应的展示视频帧后，显示所述预测行为的展示视频帧及所述预测行为的发生时间。

第二方面，提供了一种基于视频的行为预测装置，所述装置包括：

第一确定模块，用于针对包含监控目标的视频帧序列中的每个视频帧，确定包含所述监控目标的图像区域；

第一获取模块，用于当包含所述监控目标的图像区域满足预设行为判定条件时，确定所述监控目标实施第一行为，并获取该图像区域所属目标视频帧的第一时间戳、所述目标视频帧中所述监控目标的第一空间位置，得到所述第一行为对应的第一时间戳、所述第一行为对应的第一空间位置；

第二确定模块，用于在基于所述视频帧序列确定出的第一行为中，根据所述第一行为对应的第一时间戳、预设的时间间隔阈值，确定发生时间间隔小于所述时间间隔阈值的第二行为；

生成模块，用于生成包含所述第二行为对应的第二时间戳、所述第二行为对应的第二空间位置的行为列表；

行为识别与预测模块，用于通过预设的行为识别预测算法、所述行为列表、所述视频帧序列，确定所述第二行为所属的行为类别，以及所述第二行为后发生的预测行为所属的行为类别。

可选的，所述获取模块包括：

第一确定子模块，用于确定该图像区域所属目标视频帧的第一时间戳；

第二确定子模块，用于针对每个目标视频帧，确定所述监控目标在该目标视频帧中的初始空间位置；

第三确定子模块，用于根据各目标视频帧对应的初始空间位置，确定所述监控目标的第一空间位置；

所述行为识别与预测模块包括：

获取子模块，用于在所述视频帧序列中，获取与所述第二时间戳、所述第二空间位置对应的视频数据，得到行为时空立体图像序列；

第一行为识别与预测子模块，用于通过预设的行为预测算法、所述行为列表、所述行为时空立体图像序列，确定所述第二行为所属的行为类别，以及所述第二行为后发生的预测行为所属的行为类别。

可选的，所述装置还包括：

第二获取模块，用于在目标数据模态的视频帧序列中，获取与所述第二时间戳、所述第二空间位置对应的视频数据，得到目标数据模态的行为时空立体图像序列，其中，所述目标数据模态包括红绿蓝RGB模态、光流模态、深度信息模态、稀疏关键点模态、稠密关键点模态、红外图像模态中的至少一种；

所述行为识别与预测模块包括：

第二行为识别与预测子模块，用于通过预设的行为识别预测算法、所述目标数据模态的行为时空立体图像序列，确定所述目标数据模态对应的所述第二行为所属的行为类别、以及所述第二行为后发生的预测行为所属的行为类别。

可选的，所述装置还包括：

第三确定模块，用于根据所述第二行为的预设持续时间、所述第二行为对应的第二时间戳，确定所述预测行为的发生时间；

第四确定模块，用于根据所述第二行为的第二空间位置与预设的空间位置变化规则，确定所述预测行为的预测空间位置；

提示模块，用于提示所述预测行为所属的行为类别、所述预测行为的发生时间、所述预测空间位置。

可选的，所述装置还包括：

第三获取模块，用于当所述第二行为为预设的感兴趣行为时，针对所述行为列表包含的各第二行为，获取该第二行为对应的展示视频帧，所述展示视频帧为突出显示有所述监控目标的目标视频帧；

所述提示模块包括：

生成子模块，用于根据所述预测空间位置、所述第二行为对应的目标视频帧，生成所述预测行为的展示视频帧；

显示子模块，用于在预设的显示页面中，按照所述第二行为的发生时间的先后顺序，依次显示各第二行为对应的展示视频帧，在所述各第二行为对应的展示视频帧后，显示所述预测行为的展示视频帧及所述预测行为的发生时间。

第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面所述的方法步骤。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的方法步骤。

第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

本申请实施例提供的一种基于视频的行为预测方法及装置，可以通过预设的目标检测算法和包含监控目标的视频帧序列，确定包含监控目标的图像区域；如果包含监控目标的图像区域满足预设行为判定条件，则确定监控目标实施第一行为，并获取包含该图像区域的目标视频帧的第一时间戳、目标视频帧中监控目标的第一空间位置，得到第一行为对应的第一时间戳、第一行为对应的第一空间位置；在基于视频帧序列确定出的第一行为中，根据第一行为对应的第一时间戳、预设的时间间隔阈值，确定发生时间间隔小于时间间隔阈值的第二行为；生成包含第二行为对应的第二时间戳、第二行为对应的第二空间位置的行为列表；通过预设的行为识别预测算法、行为列表、视频帧序列，确定第二行为所属的行为类别，以及第二行为后发生的预测行为所属的行为类别。

由于基于视频帧序列中监控目标的第一行为，建立行为列表，并根据行为识别预测算法和行为列表确定第二行为所属的行为类别以及第二行为后发生的预测行为所属的行为类别，因此，不仅能够识别监控目标的当前行为，还能预测当前行为后的下一步行为，提高行为预测结果的多样性。

当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于视频的行为预测方法的流程图；

图2为本申请实施例提供的一种基于视频的行为预测方法的流程图；

图3为本申请实施例提供的一种基于视频的行为预测方法的流程图；

图4a为本申请实施例提供的一种显示页面的示意图；

图4b为本申请实施例提供的另一种显示页面的示意图；

图5为本申请实施例提供的一种基于视频的行为预测方法的流程图；

图6为本申请实施例提供的另一种显示页面的示意图；

图7为本申请实施例提供的一种基于视频的行为预测装置的结构示意图；

图8为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种基于视频的行为预测方法，该方法应用于电子设备，电子设备可以是视频监控系统的服务器，电子设备也可以是用于基于视频进行行为预测的电子计算机，本申请实施例不作具体限定。基于包含监控目标的视频，电子设备可以对监控目标进行行为预测。其中，监控目标可以是人、动物、无人机中的一种或多种，本申请实施例以电子设备基于视频，对人进行行为预测为例进行说明，对其他监控目标进行行为预测的方式与之类似，此处不再赘述。

为了便于对监控目标进行行为预测，电子设备中可以预先设置有不同的算法，例如，用于识别视频帧中是否包含监控目标的目标检测算法、用于基于视频数据，识别并预测监控目标的行为的行为识别预测算法。其中，目标检测算法例如HOG(Histogram ofOriented Gradient，方向梯度直方图)、DPM(Deformable Parts Model，可变形部件模型)、Faster-R-CNN(Faster Recurrent-Convolutional Neural Networks，更快循环卷积神经网络)、YOLO(You Only Look Once，实时目标检测系统)、SSD(Single Shot MultiboxDetector，单点多箱探测)。行为识别预测算法可以是基于图像序列行为识别框架搭建的用于分类的神经网络，图像序列行为识别框架例如LSTM(Long Short-Term Memory，长短期记忆)，双流网络、C3D(Converse3Dimension，虚拟现实引擎)、P3D(Pseudo3Dimension，伪三维残差网络)、PointSIFT(Point Scale-Invariant-Feature-Transform，点云特征提取模块)；用于分类的神经网络例如resnet18(18层残差网络)，resnet50(50层残差网络)，resnet101(101层残差网络)，resnet152(152层残差网络)，inception-v1(v1版本开端网络)，VGG(Visual Geometry Group Network，视觉几何组卷积网络模型)。相关技术中，任一具有目标检测与跟踪功能的算法、以及任一具有识别并预测监控目标的行为功能的算法均可以应用于本申请实施例中。

本申请实施例中，在通过行为识别预测算法进行行为的识别与预测之前，还需要基于预设的训练样本，对行为识别预测算法进行训练。训练样本为视频帧序列，视频帧序列中的每一视频帧中均标识有监控目标的空间位置、监控目标的行为。对行为识别预测算法进行训练的具体过程为现有技术，此处不再赘述。

如图1所示，本申请实施例提供的一种基于视频的行为预测方法的具体处理过程包括：

步骤101，针对包含监控目标的视频帧序列中的每个视频帧，确定包含监控目标的图像区域。

在实施中，电子设备可以实时接收监控视频，然后，将监控视频转换为视频帧序列。然后，电子设备可以针对视频帧序列中的每一个视频帧，通过预设的目标检测算法和该视频帧，确定该视频帧是否包含监控目标。

如果该视频帧包含监控目标，则电子设备可以在该视频帧中确定包含监控目标的图像区域。如果该视频帧不包含监控目标，则电子设备可以不作后续处理。

例如，如果某一视频帧包含行人，则电子设备可以确定该行人在该视频帧中的位置，然后，电子设备可以将该位置对应的图像区域，作为包含该行人的图像区域。

在一种可行的实现方式中，当某一视频帧中包含多个监控目标时，电子设备可以在识别出各监控目标的同时，为每个监控目标设置相应的编号。

步骤102，如果包含监控目标的图像区域满足预设行为判定条件，则确定监控目标实施第一行为，并获取该图像区域所属目标视频帧的第一时间戳、目标视频帧中监控目标的第一空间位置，得到第一行为对应的第一时间戳、第一行为对应的第一空间位置。

其中，电子设备中可以预先设置有预设行为判定条件，预设行为判定条件可以是基于连续多个视频帧确定出的监控目标的移动速度大于预设移动速度阈值、相邻视频帧中监控目标的尺寸变化比大于预设变化比阈值、某一视频帧中监控目标的宽高比大于预设宽高比阈值、以及相邻视频帧中监控目标的图块直方图变化率大于预设变化率中的至少一种。

在实施中，电子设备可以针对各包含监控目标的图像区域，判断该图像区域是否满足预设行为判定条件，如果该图像区域不满足预设行为判定规则，则电子设备可以不作后续处理。

如果该图像区域满足预设行为判定条件，则电子设备可以确定该图像区域所属的视频帧中，监控目标正在实施第一行为。然后，电子设备可以将该图像区域所属的视频帧作为目标视频帧，获取目标视频帧的第一时间戳作为第一行为对应的第一时间戳，并获取目标视频帧中监控目标的第一空间位置，作为第一行为对应的第一空间位置。电子设备获取目标视频帧中监控目标的第一空间位置的具体处理过程后续会进行详细说明。

例如，电子设备可以基于连续多个视频帧中监控目标的位置，确定监控目标的移动速度，然后，电子设备可以将该移动速度阈预设移动速度阈值比较，如果该移动速度大于预设移动速度阈值，则电子设备可以确定包含监控目标的图像区域满足预设行为判定条件，进一步的，确定监控目标在实施第一行为。

步骤103，在基于视频帧序列确定出的第一行为中，根据第一行为对应的第一时间戳、预设的时间间隔阈值，确定发生时间间隔小于时间间隔阈值的第二行为。

在实施中，基于视频帧序列确定出的第一行为，电子设备可以根据各第一行为的对应的第一时间戳，计算发生时间相邻的两个第一行为之间的发生时间间隔。然后，电子设备可以比较该发生时间间隔与时间间隔阈值，如果该发生时间间隔小于时间间隔阈值，则电子设备可以将这两个第一行为确定为具有关联性的行为，即第二行为。如果该发生时间间隔大于时间间隔阈值，则电子设备可以不作后续处理。

例如，第N个视频帧中第一行为所属的行为类别是行人打开背包、第N+t1个视频帧中第一行为所属的行为类别是行人手持矿泉水瓶。行人打开背包与行人手持矿泉水瓶的发生时间间隔为t1，t1小于预设的时间间隔阈值t，则电子设备可以确定行人打开背包与行人手持矿泉水瓶为第二行为。

步骤104，生成包含第二行为对应的第二时间戳、第二行为对应的第二空间位置的行为列表。

在实施中，针对发生时间间隔小于时间间隔阈值的至少两个第二行为，电子设备可以在同一行为列表中，对应存储每个第二行为的行为标识、每个第二行为对应的第二时间戳、对应的第二空间位置，由此，得到包含具有关联性的第二行为的行为列表。

例如，针对发生时间间隔小于时间间隔阈值的两个第二行为，其所属的行为类别分别是行人打开背包、行人手持矿泉水瓶，电子设备可以在同一行为列表中，对应存储每个第二行为的行为标识、每个第二行为对应的第二时间戳、对应的第二空间位置。

在一种可行的实现方式中，当某一行为列表中存储有多个第二行为时，电子设备可以根据各第二行为对应的第二时间戳，确定各第二行为发生时间的先后顺序，然后，电子设备可以按照该先后顺序，对应存储每个第二行为的行为标识、对应的第二时间戳、对应的第二空间位置。

在另一种可行的实现方式中，电子设备可以在视频帧序列中，确定与第二时间戳、第二空间位置对应的视频数据，并对应第二行为存储确定出的视频数据。

如表1所示，为本申请实施例提供的一种行为列表，其中，对应存储有第二行为的行为标识A1和A2，第二行为A1对应的第二时间戳3s-5s，对应的第二空间位置为以[5,10]和[10,5]为对角顶点构成的矩形区域；第二行为A2对应的第二时间戳15s-16s，对应的第二空间位置为以[7,16]和[12,11]为对角顶点构成的矩形区域。

表1

行为标识	第二时间戳	第二空间位置
			A1	3s-5s	[5,10]，[10,5]
A2	15s-16s	[7,16]，[12,11]

步骤105，通过预设的行为识别预测算法、行为列表、视频帧序列，确定第二行为所属的行为类别，以及第二行为后发生的预测行为所属的行为类别。

在实施中，电子设备可以针对行为列表包含的至少两个第二行为，在视频帧序列中确定至少两个第二行为对应的视频数据，然后，电子设备可以通过预设的行为识别预测算法和至少两个第二行为对应的视频数据，识别第二行为所属的行为类别，同时输出第二行为后发生的预测行为所属的行为类别。

例如，电子设备可以针对行为列表包含的两个第二行为A1、A2，在视频帧序列中分别确定第二行为A1、A2对应的视频数据，即在时间戳为3s-5s的视频帧中，确定以[5,10]和[10,5]为对角顶点构成的矩形区域对应的图像区域，以及在时间戳为15s-16s的视频帧中，确定以[7,16]和[12,11]为对角顶点构成的矩形区域对应的图像区域。然后，电子设备可以通过行为识别预测算法和两个第二行为对应的视频数据，识别第二行为所属的行为类别分别为行人打开背包、行人手持矿泉水瓶，同时输出第二行为后发生的预测行为所属的行为类别是行人喝水。

在一种可行的实现方式中，电子设备中可以预先设置有关联行为的排列顺序，电子设备可以在该排列顺序中查找第二行为，并将该排列顺序中排列在第二行为后的行为作为预测行为，从而确定预测行为所属的行为类别。关联行为的排列顺序例如助跑-撑杆-起跳，打开背包-拿出水瓶-喝水。

本申请实施例中，电子设备可以通过预设的目标检测算法和包含监控目标的视频帧序列，确定包含监控目标的图像区域。如果包含监控目标的图像区域满足预设行为判定条件，则确定监控目标实施第一行为，并获取第一行为对应的第一时间戳、第一行为对应的第一空间位置。然后，在基于视频帧序列确定出的第一行为中，根据第一行为对应的第一时间戳、预设的时间间隔阈值，确定发生时间间隔小于时间间隔阈值的第二行为。生成包含第二行为对应的第二时间戳、第二行为对应的第二空间位置的行为列表。之后，通过预设的行为识别预测算法、行为列表、视频帧序列，确定第二行为所属的行为类别，以及第二行为后发生的预测行为所属的行为类别。由于基于视频帧序列中监控目标的第一行为，建立行为列表，并根据行为列表确定第二行为所属的行为类别以及第二行为后发生的预测行为的所属的行为类别，因此，不仅能够识别监控目标的当前行为，还能预测当前行为后的下一步行为，提高行为预测结果的多样性。

本申请实施例中，电子设备通过行为识别预测算法识别第二行为所属的行为类别的同时，还会输出该识别结果的置信度。当电子设备针对同一监控目标的第二行为确定出不同的行为类别时，电子设备可以对不同行为类别的置信度进行排序，将置信度最高的行为类别作为第二行为所属的行为类别。类似的，针对同一监控目标的预测行为确定出不同的行为类别时，电子设备可以将置信度最高的行为类别作为预测行为所属的行为类别。

可选的，本申请实施例提供了一种确定获取包含该图像区域的目标视频帧的第一时间戳、目标视频帧中监控目标的第一空间位置的实现方式，如图2所示，可以包括：

步骤201，确定该图像区域所属目标视频帧的第一时间戳。

在实施中，电子设备可以将该图像区域所属的视频帧作为目标视频帧，然后，获取目标视频帧的第一时间戳。

例如，电子设备可以获取该图像区域所属的目标视频帧的第一时间戳，得到3s、4s和5s。

步骤202，针对每个目标视频帧，确定监控目标在该目标视频帧中的初始空间位置。

在实施中，电子设备可以针对每个目标视频帧，确定监控目标在该目标视频帧中的初始空间位置，得到各目标视频帧对应的初始空间位置。

例如，电子设备可以针对3s的目标视频帧，确定监控目标在该目标视频帧中的初始空间位置为以[5,10]和[10,5]为对角顶点构成的矩形区域；针对4s的目标视频帧，确定监控目标在该目标视频帧中的初始空间位置为以[6,11]和[11,6]为对角顶点构成的矩形区域；针对5s的目标视频帧，确定监控目标在该目标视频帧中的初始空间位置为以[7,12]和[12,7]为对角顶点构成的矩形区域。

步骤203，根据各目标视频帧对应的初始空间位置，确定监控目标的第一空间位置。

在实施中，电子设备可以根据各目标视频帧对应的初始空间位置，确定最大空间范围，并将该最大空间范围作为监控目标的第一空间位置。

例如，电子设备可以根据3s的目标视频帧、4s的目标视频帧、5s的目标视频帧对应的矩形区域，确定最大空间范围为以[5,12]和[12,5]为对角顶点构成的矩形区域，然后，电子设备可以将该矩形区域作为监控目标的第一空间位置。

本申请实施例中，最大空间范围的形状可以是矩形框、圆形框、多边形框，或其他几何形状，本申请实施例不作具体限定。

在一种可行的实现方式中，电子设备可以将监控目标在任一目标视频帧中的空间位置，作为第一空间位置。

基于确定出的第一空间位置和第一时间戳，电子设备可以在确定第二行为后，根据第二行为对应的第二空间位置和第二时间戳，生成行为时空立体图像序列，并基于该行为时空立体图像序列进行行为识别与预测，具体过程包括：

步骤204，在视频帧序列中，获取与第二时间戳、第二空间位置对应的视频数据，得到行为时空立体图像序列。

在实施中，电子设备可以在视频帧序列中，确定第二时间戳对应的目标视频帧，然后，电子设备可以针对每个目标视频帧，在该目标视频帧中获取第二空间位置对应的图像数据，由此，得到按照第二时间戳的时间先后顺序排列的、多个目标视频帧中第二空间位置对应的图像数据组成的行为时空立体图像序列。

本申请实施例中，电子设备可以通过时间滑窗的方式确定行为时空立体图像序列，电子设备可以在视频帧序列中按照时间窗口进行滑窗分片，得到行为时空立体图像序列。其中，时间窗口对应的帧数可以是固定、也可以是变化的。滑窗分片的方式包括无重叠滑窗、有重叠滑窗、连续帧滑窗、变化帧间隔滑窗中的至少一种。

步骤205，通过预设的行为识别预测算法、行为列表、行为时空立体图像序列，确定第二行为所属的行为类别，以及第二行为后发生的预测行为所属的行为类别。

在实施中，电子设备可以通过行为识别预测算法、行为列表中各第二行为对应的行为时空立体图像序列，识别第二行为所属的行为类别，同时输出第二行为后发生的预测行为所属的行为类别。

本申请实施例中，电子设备可以针对每个目标视频帧，确定监控目标在该目标视频帧中的初始空间位置，再根据各目标视频帧对应的初始空间位置，确定监控目标的第一空间位置。然后，根据视频帧序列、第二时间戳、第二空间位置，确定行为时空立体图像序列。之后，通过行为识别预测算法、行为列表、行为时空立体图像序列，确定第二行为所属的行为类别，以及第二行为后发生的预测行为所属的行为类别。由于基于监控目标在各目标视频帧中的初始空间位置，确定监控目标的第一空间位置，可以在保留监控目标相关图像信息的情况下，大幅减少背景环境的图像信息，因此，能够便于后续行为识别预测算法基于该行为时空立体图像序列对第二行为的识别与预测行为的预测，提高行为预测的准确性。

可选的，电子设备可以针对行为列表中的第二行为，生成不同目标数据模态的行为时空立体图像序列，并通过行为识别预测算法和不同目标数据模态的行为时空立体图像序列进行行为预测，具体处理过程包括：

在目标数据模态的视频帧序列中，获取与第二时间戳、第二空间位置对应的视频数据，得到目标数据模态的行为时空立体图像序列。

其中，目标数据模态包括RGB(Red Green Blue，红绿蓝)模态、光流模态、深度信息模态、稀疏关键点模态、稠密关键点模态、红外图像模态中的至少一种。

在实施中，电子设备可以获取目标数据模态的视频帧序列，然后，电子设备可以在目标数据模态的视频帧序列中，确定第二时间戳对应的视频帧。之后，电子设备可以针对每个第二时间戳对应的视频帧，在该视频帧中获取第二空间位置对应的图像数据，由此，得到按照第二时间戳的时间先后顺序排列的、多个视频帧中第二空间位置对应的图像数据组成的目标数据模态的行为时空立体图像序列。

电子设备可以基于确定出的目标数据模态的行为时空立体图像序列进行行为识别与预测，具体过程包括：通过预设的行为识别预测算法、行为列表、目标数据模态的行为时空立体图像序列，确定目标数据模态对应的第二行为所属的行为类别、以及第二行为后发生的预测行为所属的行为类别。

在实施中，电子设备可以通过行为识别预测算法、行为列表中各第二行为对应的目标数据模态的行为时空立体图像序列，识别第二行为所属的行为类别，同时输出第二行为后发生的预测行为所属的行为类别。

本申请实施例中，电子设备针对目标数据模态，生成相应的行为时空立体图像序列，然后，通过行为识别预测算法、行为列表、目标数据模态的行为时空立体图像序列，确定目标数据模态对应的第二行为所属的行为类别、以及第二行为后发生的预测行为所属的行为类别。由于采用目标数据模态对应的行为时空立体图像序列，丰富了行为识别预测算法的输入数据的形式。另一方面，将不同目标数据模态的行为时空立体图像序列作为行为识别预测算法的输入数据，可以明显提高行为识别预测算法进行行为特征的提取与建模的稳定性，提高进行行为识别与预测的准确率。

可选的，电子设备可以在确定预测行为所属的行为类别之后，对预测行为进行提示，如图3所示，可以包括以下步骤：

步骤301，根据第二行为的预设持续时间、第二行为对应的第二时间戳，确定预测行为的发生时间。

其中，电子设备中可以预先存储有各行为的预设持续时间，例如，行人手持矿泉水瓶的预设持续时间为3s。

在实施中，电子设备可以获取第二行为的预设持续时间，并根据第二行为对应的第二时间戳，确定第二行为的已持续时间。然后，电子设备可以计算预设持续时间与已持续时间的时间差，再将第二行为的当前时间延时该时间差后的时间，作为预测行为的发生时间。

例如，电子设备可以获取行人手持矿泉水瓶的预设持续时间3s，并根据行人手持矿泉水瓶对应的第二时间戳15s-16s，确定行人手持矿泉水瓶的已持续时间为1s。然后，电子设备可以计算预设持续时间3s与已持续时间1s的时间差2s，再将行人手持矿泉水瓶的当前时间16s延时该时间差后的时间18s，作为预测行为的发生时间。

步骤302，根据第二行为的第二空间位置与预设的空间位置变化规则，确定预测行为的预测空间位置。

在实施中，电子设备可以根据行为列表中各第二行为对应的第二空间位置，确定空间位置变化规则。然后，电子设备可以根据第二行为对应的第二空间位置和该空间位置变化规则，确定预测行为的预测空间位置。

例如，电子设备可以根据行为列表中各第二行为对应的第二空间位置，确定监控目标的运动速度为1m/s，然后，电子设备可以确定出空间位置变化规则为每过1s，视频帧中监控目标的空间位置向右平移1m。之后，第二行为的第二空间位置为交通信号灯左侧3m，电子设备可以根据空间位置变化规则该第二空间位置，确定预测行为的预测空间位置为交通信号灯左侧2m。

步骤303，提示预测行为所属的行为类别、预测行为的发生时间、预测空间位置。

在实施中，电子设备提示预测行为的发生时间、预测空间位置的方式是多种多样的，在一种可行的实现方式中，电子设备可以在预设的显示页面中，显示包含预测行为的发生时间、预测空间位置的字符。如图4a所示，为本申请实施例提供的一种显示页面，其中，在显示有视频显示区域、包含监控目标已经实施行为的现有行为列表显示区域外，还显示有预测结果显示区域，预测结果显示区域中显示有预测行为的行为类别为发生喝水行为，即行人喝水、预测行为的发生时间为18s之后，预测行为的预测空间位置为在路灯右侧。

在另一种可行的实现方式中，电子设备可以根据第二行为对应的目标视频帧、预测行为所属的行为类别、预测行为的预测空间位置，生成示意视频帧，示意视频帧中监控目标在预测空间位置处实施预测行为。然后，电子设备可以在预设的显示页面中，显示该示意视频帧。如图4b所示，为本申请实施例提供的一种显示页面，其中，视频显示区域中可以播放实时采集到的视频，现有行为列表显示区域显示有监控目标已经实施的行为，预测结果显示区域中可以显示有示意视频帧，时间戳为发生时间之后18s的示意视频帧中，路灯右侧，即预测空间位置处显示有实施喝水的行人。为了更好展示预测行为的展示效果，可以以多种方式显示实施预测行为的监控目标，例如，电子设备可以在示意视频帧中以闪烁显示正在喝水的动画人物的形式，显示喝水的行人。

本申请实施例中，电子设备可以根据第二行为的预设持续时间、第二行为对应的第二时间戳，确定预测行为的发生时间；并根据第二行为的第二空间位置与预设的空间位置变化规则，确定预测行为的预测空间位置。由此，能够实现预测出未来何时何地会发生何种行为，提高了行为预测结果的多样性。

可选的，电子设备中可以预先存储有感兴趣行为的行为标识，视频监控的用户可以根据自身需求设置电子设备中存储的感兴趣行为的行为标识。电子设备可以在确定第二行为所属的行为类别后，判断第二行为是否为感兴趣行为，如果第二行为是感兴趣行为，电子设备还可以对行为列表中的第二行为和预测行为进行连续显示，以便用户理解各行为之间的关联性，如图5所示，具体处理过程包括：

步骤501，如果第二行为为预设的感兴趣行为，则针对行为列表包含的各第二行为，获取该第二行为对应的展示视频帧，展示视频帧为突出显示有监控目标的目标视频帧。

在实施中，电子设备可以在确定第二行为所属的行为类别后，判断第二行为是否为预设的感兴趣行为。如果第二行为是感兴趣行为，则电子设备可以选取任一第二行为对应的目标视频帧，在该目标视频帧中突出显示监控目标，得到第二行为对应的展示视频帧。

如果第二行为不是感兴趣行为，则电子设备可以不作后续处理。

步骤502，根据预测空间位置、第二行为对应的目标视频帧，生成预测行为的展示视频帧。

在实施中，电子设备可以在第二行为对应的目标视频帧中标识预测空间位置，得到预测行为的展示视频帧。

电子设备在第二行为对应的目标视频帧中标识预测空间位置的方式是多种多样的，在一种可行的实现方式中，电子设备可以在第二行为对应的目标视频中预测空间位置处，显示覆盖预测空间位置的矩形框。在一种可行的实现方式中，电子设备可以在第二行为对应的目标视频帧中扣取监控目标的图像区域，将该图像区域放置在预测空间位置处，然后，生成标识监控目标的图像区域的箭头。

步骤503，在预设的显示页面中，按照第二行为的发生时间的先后顺序，依次显示各第二行为对应的展示视频帧，并在各第二行为对应的展示视频帧后，显示预测行为的展示视频帧及预测行为的发生时间。

在实施中，电子设备可以根据第二行为对应的第二时间戳，确定第二行为的发生时间的先后顺序，然后，电子设备可以在预设的显示页面中，按照该先后顺序，依次显示各第二行为对应的展示视频帧。之后，电子设备可以在各第二行为对应的展示视频帧后显示预测行为的展示视频帧、以及预测行为的发生时间。

如图6所示，为本申请实施例提供的另一种显示页面的示意图，其中，按照发生时间的先后顺序，从左到右依次显示有第二行为和预测行为对应的展示视频帧。610为第二行为对应的展示视频帧，620为预测行为对应的展示视频帧。

本申请实施例中，如果第二行为是感兴趣行为，则电子设备可以针对行为列表包含的各第二行为，获取该第二行为对应的展示视频帧，并根据预测空间位置、第二行为对应的目标视频帧，生成预测行为的展示视频帧。之后，电子设备可以按照发生时间的先后顺序，依次显示各第二行为、预测行为对应的展示视频帧。由于对行为列表中的第二行为以及预测出的预测行为进行了可视化显示，便于用户理解哪些行为存在关联，并预测出最终行为。因此，能够提高行为预测结果的多样性。

本申请实施例还提供了一种基于视频的行为预测装置，如图7所示，所述装置包括：

第一确定模块710，用于通过预设的目标检测算法和包含监控目标的视频帧序列，确定包含所述监控目标的图像区域；

第一获取模块720，用于当包含所述监控目标的图像区域满足预设行为判定条件时，确定所述监控目标实施第一行为，并获取该图像区域所属目标视频帧的第一时间戳、所述目标视频帧中所述监控目标的第一空间位置，得到所述第一行为对应的第一时间戳、所述第一行为对应的第一空间位置；

第二确定模块730，用于在基于所述视频帧序列确定出的第一行为中，根据所述第一行为对应的第一时间戳、预设的时间间隔阈值，确定发生时间间隔小于所述时间间隔阈值的第二行为；

生成模块740，用于生成包含所述第二行为对应的第二时间戳、所述第二行为对应的第二空间位置的行为列表；

行为识别与预测模块750，用于通过预设的行为识别预测算法、所述行为列表、所述视频帧序列，确定所述第二行为所属的行为类别，以及所述第二行为后发生的预测行为所属的行为类别。

本申请实施例提供的一种基于视频的行为预测装置，可以通过预设的目标检测算法和包含监控目标的视频帧序列，确定包含监控目标的图像区域；如果包含监控目标的图像区域满足预设行为判定条件，则确定监控目标实施第一行为，并获取包含该图像区域的目标视频帧的第一时间戳、目标视频帧中监控目标的第一空间位置，得到第一行为对应的第一时间戳、第一行为对应的第一空间位置；在基于视频帧序列确定出的第一行为中，根据第一行为对应的第一时间戳、预设的时间间隔阈值，确定发生时间间隔小于时间间隔阈值的第二行为；生成包含第二行为对应的第二时间戳、第二行为对应的第二空间位置的行为列表；通过预设的行为识别预测算法、行为列表、视频帧序列，确定第二行为所属的行为类别，以及第二行为后发生的预测行为所属的行为类别。

本申请实施例还提供了一种电子设备，如图8所示，包括处理器801、通信接口802、存储器803和通信总线804，其中，处理器801，通信接口802，存储器803通过通信总线804完成相互间的通信，

存储器803，用于存放计算机程序；

处理器801，用于执行存储器803上所存放的程序时，实现如下步骤：

确定该图像区域所属目标视频帧的第一时间戳；

可选的，所述方法还包括：

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一基于视频的行为预测方法的步骤。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一基于视频的行为预测方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种基于视频的行为预测方法，其特征在于，所述方法包括：

通过预设的行为识别预测算法、所述行为列表、所述视频帧序列，确定所述第二行为所属的行为类别，以及所述第二行为后发生的预测行为所属的行为类别，所述第二行为后发生的预测行为所属的行为类别通过如下方式确定得到：在预先设置的关联行为的排列顺序中查找第二行为，将所述排列顺序中排列在第二行为后的行为作为预测行为，确定所述预测行为所属的行为类别。

2.根据权利要求1所述的方法，其特征在于，所述获取该图像区域所属目标视频帧的第一时间戳、所述目标视频帧中所述监控目标的第一空间位置，得到所述第一行为对应的第一时间戳、所述第一行为对应的第一空间位置包括：

确定该图像区域所属目标视频帧的第一时间戳；

3.根据权利要求2所述的方法，其特征在于，所述生成包含所述第二行为对应的第二时间戳、所述第二行为对应的第二空间位置的行为列表之后，还包括：

4.根据权利要求1所述的方法，其特征在于，所述确定所述第二行为所属的行为类别，以及所述第二行为后发生的预测行为所属的行为类别之后，还包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.一种基于视频的行为预测装置，其特征在于，所述装置包括：

行为识别与预测模块，用于通过预设的行为识别预测算法、所述行为列表、所述视频帧序列，确定所述第二行为所属的行为类别，以及所述第二行为后发生的预测行为所属的行为类别，具体用于：在预先设置的关联行为的排列顺序中查找第二行为，将所述排列顺序中排列在第二行为后的行为作为预测行为，确定所述预测行为所属的行为类别。

7.根据权利要求6所述的装置，其特征在于，所述获取模块包括：

所述行为识别与预测模块包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

所述行为识别与预测模块包括：

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

所述提示模块包括：

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。