CN110378259A

CN110378259A - 一种面向监控视频的多目标行为识别方法及系统

Info

Publication number: CN110378259A
Application number: CN201910602588.0A
Authority: CN
Inventors: 徐增敏; 蒙儒省; 罗劲锋; 李翔宇; 严鑫毅; 丁勇
Original assignee: Guilin Anne Technology Co Ltd; Guilin University of Electronic Technology
Current assignee: Guilin Anne Technology Co Ltd; Guilin University of Electronic Technology
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2019-10-25

Abstract

本发明提出一种面向监控视频的多目标行为识别方法，包括：分别训练目标检测模型和行为识别模型；预测视频当前帧中行人的位置信息，并将位置信息作为当前帧的目标检测框；根据当前帧目标检测框，通过上一帧信息预测到当前帧的目标跟踪框，计算两者之间的目标框匹配度；将当前帧的目标检测框与当前帧的目标跟踪框进行匹配，得到匹配信息；估计当前帧的行人目标框坐标，并预测行人目标在下一帧的目标跟踪框坐标；裁剪出行人图片并保存行人编号；根据行人编号，将连续多帧中编号相同的行人图片进行匹配，组合成列表并保存行人编号；若列表长度达到指定帧数阈值，则将列表中保存的行人图片输入到所述行为识别模型，计算该列表的行为类别概率。

Description

一种面向监控视频的多目标行为识别方法及系统

技术领域

本发明属于视频分析领域，涉及一种面向监控视频的多目标行为识别方法及系统。

背景技术

随着人们安防意识的提高，许多地方使用高清摄像头以代替巡逻人员。但是仍然需要工作人员对拍摄到的内容进行监控分析，从另一个角度来看依旧耗费人力。近年来，计算机视觉领域几个热点研究方向如目标检测、目标跟踪以及行为识别在学术界上都有了不错的突破。如何将计算机视觉领域上的成果运用到实际生活成为了工程师们新的问题。主要原因在于实际生活中安防摄像头安置的场景多样复杂，行为识别在实际应用中识别率受到器件噪声、监控视角、光线变化和目标遮挡等限制，无法适应各种监控场景中人群活动的姿势形变。因此将视频中的目标人物从复杂背景中剥离出来可以有效提高行为识别精度。

目标检测目的是让计算机自动去检测视频或者图片中对象的位置和类别，基于深度学习的目标检测现在主要分为两种方法：一种是分两阶段得出检测结果，第一阶段首先生成一组候选框，然后再预测准确的目标对象区域与其对应的分类，这种方法性能好，但是速度较慢消耗资源较大。另一种是直接一阶段得出检测结果，同时得出目标的位置以及相应的分类，精度虽然有所损耗，但是效率高速度较快。应用于实时分析摄像头拍摄视频的目标检测选择精度既有保障且速度快的一阶段方法。

与目标检测搭配的目标跟踪算法分为单目标跟踪和多目标跟踪，单目标跟踪是指在开始时给目标标定一个目标框，之后的每一帧都会生成一个目标框跟随着目标。而多目标跟踪是多个目标框同时进行跟踪。利用跟踪算法可以保证识别动作的目标是同一个对象。

而人体行为识别的方法是利用计算机自动的提取视频或者图像中的人体行为特征，以此识别出该对象的动作类别。目前基于深度学习的人体行为识别的算法主要为两种，第一种是直接从视频中随机抽取连续帧，并且将这连续帧压缩成一个新的矩阵，直接输入时空卷积神经网络中进行训练。另外一种是从视频中随机抽取连续帧并且提取出其中的光流信息和RGB信息，再将光流信息矩阵和RGB信息输入到卷积神经网络中进行训练。这种两种方法虽然有不错的效果，但也存在各自的缺陷，特别是利用了光流的方法。由于受限于光流提取的效率，运行速度十分缓慢，不能做实时的识别，难以用于实际生活之中。应用于实时分析摄像头拍摄视频的行为识别，时空卷积神经网络的速度优势较大。

随着GPU算力的提升，将目标检测、目标跟踪和行为识别三者结合在一起，可以形成一个利用现有摄像头拍摄内容自行识别出复杂环境下人体行为的分析系统。

与面向监控视频的多目标行为识别方法相关的专利列举如下：

目标检测领域：2018年北京旷视科技有限公司公开发明专利《目标检测方法、目标检测装置和计算机可读存储介质》，该发明目标检测方法包括：获取包含目标的待检测的连续帧图像；利用第一前馈神经网络,获取所述连续帧图像中的每一帧图像的第一特征信息；利用第二双向反馈神经网络,基于所述每一帧图像的第一特征信息,获取所述每一帧图像的第二特征信息；基于所述第二特征信息,确定所述连续帧图像的每一帧图像中包含目标的一个或多个区域,其中,所述每一帧图像的所述第二特征信息综合所述每一帧图像的预定数目的之前帧和之后帧的所述第二特征信息；2018年同济大学公开发明专利《一种融合目标检测和特征匹配的目标跟踪方法》该发明以卷积神经网络为基础进行目标跟踪,包括：目标检测步骤,获得已知类别的待跟踪目标,采用经训练的目标检测网络对当前视频帧进行检测,获得若干待定目标的边框位置；特征匹配步骤,采用经训练的特征匹配网络提取所述待定目标的局部特征描述符,基于局部特征描述符获得各待定目标与之前视频帧中待跟踪目标的相似性,以相似性最大的待定目标作为当前视频帧中待跟踪目标的位置；2018年南京农业大学公开发明专利《一种目标行为检测方法及服务器》该发明将目标行为检测简化为目标识别和目标关联两个问题，降低了算法复杂度，从而提高了计算速度，使该发明能够满足实时检测的需要；2018年浙江捷尚视觉科技股份有限公司公开发明专利《一种视频中目标检测跟踪方法》该发明对视频进行分段抽样,得到若干段视频图像帧序列。然后采用神经网络模型对每段视频图像帧序列进行目标检测和特征提取。再次计算视频序列中输出的所有检测结果对应的目标特征向量的相关矩阵,进而得到视频序列中所有检测到的目标在频序列内的跟踪结果。最后按时间轴对分段抽样的视频图像帧序列进行排序,将视频图像帧序列的目标检测跟踪轨迹和特征矩阵输入至神经网络模型,得到每个视频图像帧序列中每个目标的跟踪特征,利用此跟踪特征计算相邻两个视频图像帧序列之间所有目标的相关性,从而完成整个视频段中目标的跟踪。2018年北京科技大学公开发明专利《一种视频目标检测识别方法》该发明通过判断参考帧和待检测帧之间的差异程度是否小于等于预设的差异阈值，若小于等于，则将参考帧检测结果赋予待检测帧输出；否则，则对待检测帧进行图像增强和目标检测，检测完成后，将待检测帧替换为新的参考帧，对视频进行目标检测。

人体行为识别领域：2018年中国电子科技集团公司电子科学研究院公开专利《一种基于目标检测和骨点检测的异常行为识别方法及装置》该发明通过采用快速区域卷积深度神经网络对视频中的人员进行目标检测，再通过卷积姿势机深度神经网络对检测到的人员进行骨点检测，以及通过光流法对检测到的骨点进行跟踪，最后通过分类器对异常行为进行识别，从而实现快速且准确的对视频中的人员的异常行为进行识别和预警，有效解决了现有技术中异常行为识别方法准确率低、实时性差的问题。2018年华北电力大学(保定)公开发明专利《基于注意力机制和3D卷积神经网络的人体行为识别方法》，该发明公开了一种基于注意力机制和3D卷积神经网络的人体行为识别方法，该人体行为识别方法构建了一个3D卷积神经网络，该3D卷积神经网络的输入层包括原始灰度图和注意力矩阵两个通道；2018年东华大学公开发明专利《一种基于人身安全的红外视频人体行为识别方法》，该发明涉及一种基于人身安全的红外视频人体行为识别方法，首先需要从用于训练的夜视人体行为视频中，得到静态图像数据流和动态光流数据流，以及每一个视频对应的行为分类标签；其次分别将静态灰度图片，动态光流图片和对应标签输入空间卷积神经网络，以及将动态光流图片和对应标签输入时间卷积神经网络进行迭代学习，分别得到空间网络和时间网络的模型参数；然后分别将用于测试的灰度图片，光流图片输入空间网络模型得到结果一，再将光流图片输入时间网络模型得到结果二；最后将结果一和结果二进行加权求和，得到最终的视频分类结果。本发明能够准确识别红外视频中的人体行为动作；2018年南京航空航天大学公开发明专利《结合3D跃层连接和循环神经网络的人体行为识别方法》，该发明公开一种结合3D跃层连接和循环神经网络的人体行为识别方法，先将视频分成N份并提取L帧/份图片，利用训练好的3D卷积神经网络对视频进行时空特征提取，串联高维特征融合向量，分类得到视频对应的动作类别。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种面向监控视频的多目标行为识别方法及系统，以实现从人群中分割行人目标、跟踪每个行人目标，并准确识别其行为活动的目的。

为实现上述目的及其他相关目的，本发明提供一种面向监控视频的多目标行为识别方法，该方法包括以下步骤：

建立目标检测数据集和行为识别数据集，并通过深度神经网络分别训练目标检测模型和行为识别模型；

采集视频；

根据所述目标检测模型，预测视频当前帧中行人的位置信息，并将该位置信息作为当前帧的目标检测框；

根据所述当前帧目标检测框，及通过上一帧信息预测到当前帧的目标跟踪框，计算两者之间的目标框匹配度；

根据所述目标框匹配度，将当前帧的目标检测框与当前帧的目标跟踪框进行匹配，得到匹配信息；

根据所述匹配信息，估计当前帧的行人目标框坐标，并预测行人目标在下一帧的目标跟踪框坐标；

根据当前帧行人目标框的坐标，裁剪出行人图片并保存行人编号；

根据所述行人编号，将连续多帧中编号相同的行人图片进行匹配，组合成列表并保存行人编号；

若列表长度达到指定帧数阈值，则将列表中保存的行人图片输入到所述行为识别模型，计算该列表的行为类别概率。

上选地，所述目标检测模型通过以下方式获得：

在采集到的每张图片中以矩形框的形式标注出行人目标的位置以及目标的类别，获得目标检测数据集，所述行人目标的位置包括矩形框左上角坐标及矩形框的宽和高；

利用所述目标检测数据集对目标检测神经网络进行预训练；

对预训练的目标检测神经网络进行微调，最终获得目标检测模型。

可选地，采用多均方差损失函数对预训练的目标检测神经网络进行微调，其中多分类损失函数表示为：

其中，表示对象是否出现在单元格i中，表示单元格i中的第j个边界框预测器对该预测“负责”，(x_i，y_i)表示标注的左上角坐标，表示预测的左上角坐标，w_i、h_i表示标注的宽高，表示预测的宽和高，C_i表示标注的类别概率，表示预测的类别概率。

可选地，所述行为识别模型通过以下方式获得：

在采集到的图片中，依据视频中行人移动的轨迹将行人单独裁剪出来，并且标注行人的动作类别，以获得行为识别数据集；

采用交叉熵函数对行为识别神经网络进行训练，以获得行为识别模型，其中

其中，H(p,q)表示损失函数，q(x)为标注的类别分布，p(x)为网络预测的概率。

可选地，根据所述目标检测模型，预测视频当前帧中行人的位置信息，将该位置信息作为当前帧目标检测框，具体过程实现为：

将视频帧输入所述目标检测模型中，计算出多个位置信息以及对应的类别概率；

采用非极大值抑制法去除相近的位置信息，并且返回准确的位置信息以及概率；

目标为行人的概率大于设定阈值p(t)，则保留该行人的位置信息，以此作为该行人的目标检测框。

可选地，根据所述当前帧目标检测框及通过上一帧信息预测到当前帧的目标跟踪框，计算两者之间的目标框匹配度，具体过程实现为：

根据所述目标检测框，使用OpenCV裁出仅包含目标行人的图片，并且将图片放入Wide ResNet中，提取出行人的表层特征，并保存表层特征；

计算上一帧信息预测到的目标跟踪框与当前帧检测到目标检测框之间的马氏距离；

其中，d¹(i,j)表示第i个轨迹和第j个检测框之间的马氏距离，S_i是轨迹有卡尔曼滤波器预测得到的协方差矩阵，y_i是卡尔曼滤波对于当前轨迹的预测量，d_j是检测框行人的位置信息(u,v,r,h)，其中(u,v)表示目标检测框的中心坐标点，h和r分别表示目标检测框的高和宽；

计算上一帧保存的表层特征和当前帧的表层特征之间的最小余弦距离，最小余弦距离为公式：

其中，d⁽²⁾(i,j)表示第i个轨迹和第j个检测框的最小余弦距离，表示第j个检测目标框的表层特征信息，表示第i条轨迹的表层特征信息，R_i表示第i个轨迹中，该行人目标所有表层特征的集合；

将所述马氏距离和所述最小余弦距离加权求和，作为目标框匹配度保存为矩阵c_i,j，

c_i,j＝λd⁽¹⁾(i,j)+(1-λ)d⁽²⁾(i,j)

其中，λ表示权重。

可选地，根据所述目标框匹配度，采用匈牙利法对目标跟踪框和目标检测框进行匹配得到匹配信息。

可选地，根据所述匹配信息，估计当前帧的行人目标框的坐标，并预测行人目标在下一帧的目标跟踪框的坐标，具体过程实现为：

计算卡尔曼增益K_t，

其中,H为观察矩阵，H^T为置换矩阵H的转置，R为状态转移噪声，为目标跟踪框的协方差，为t-1时刻的位置信息；

根据计算得的卡尔曼增益K_t，计算出当前帧行人目标框坐标以及协方差矩阵Σ_t，行人目标框坐标公式如下：

y_t表示匹配信息，为t时刻的目标跟踪框的值，

本次预测的协方差矩阵Σ_t更新公式如下：

根据本次预测的协方差矩阵Σ_t和当前帧行人目标框坐标预测出下一秒的行人目标框坐标和协方差信息F为状态转移矩阵，F^T为状态转移矩阵F的转置，u_t+1为更新矩阵，Q为过程噪声，预测公式：

将预测信息保存入轨迹中替代之前的目标跟踪框位置信息和协方差，使用检测目标框的表层特征来更新轨迹的表层特征。

为实现上述目的及其他相关目的，本发明还提供一种面向监控视频的多目标行为识别系统，该系统包括：

训练模块，用于建立目标检测数据集和行为识别数据集，并通过深度神经网络分别训练目标检测模型和行为识别模型；

视频采集模块，用于采集视频；

目标检测模块，根据所述目标检测模型，预测视频当前帧中行人的位置信息，并将该位置信息作为当前帧的目标检测框；

第一匹配模块，用于根据所述当前帧目标检测框，及通过上一帧信息预测到当前帧的目标跟踪框，计算两者之间的目标框匹配度；

第二匹配模块，用于根据所述目标框匹配度，将当前帧的目标检测框与当前帧的目标跟踪框进行匹配，得到匹配信息；

预测模块，用于根据所述匹配信息，估计当前帧的行人目标框坐标，并预测行人目标在下一帧的目标跟踪框坐标；

裁剪模块，用于根据当前帧行人目标框的坐标，裁剪出行人图片并保存行人编号；

第三匹配模块，用于根据所述行人编号，将连续多帧中编号相同的行人图片进行匹配，组合成列表并保存行人编号；

行为识别模块，用于在列表长度达到指定帧数阈值时，则将列表中保存的行人图片输入到所述行为识别模型，计算该列表的行为类别概率。

如上所述，本发明的一种面向监控视频的多目标行为识别方法及系统，具有以下有益效果：

本发明以实现从人群中分割行人目标、跟踪每个行人目标，并准确识别其行为活动。

附图说明

为了进一步阐述本发明所描述的内容，下面结合附图对本发明的具体实施方式作进一步详细的说明。应当理解，这些附图仅作为典型示例，而不应看作是对本发明的范围的限定。

图1为本发明一实施例中一种面向监控视频的多目标行为识别方法的流程图；

图2为本发明一实施例中一种面向监控视频的多目标行为识别系统的框图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

如图1所示，一种面向监控视频的多目标行为识别方法，包括以下步骤：

步骤1：建立目标检测数据集和行为识别数据集，并通过深度神经网络分别训练目标检测模型和行为识别模型；

步骤2：采集视频；

步骤3：根据所述目标检测模型，预测视频当前帧中行人的位置信息，并将该位置信息作为当前帧的目标检测框；

步骤4：根据所述当前帧目标检测框，及通过上一帧信息预测到当前帧的目标跟踪框，计算两者之间的目标框匹配度；目标跟踪框是根据上一帧信息(即上一帧行人目标框的位置信息和协方差矩阵)更新当前帧的线性运动模型，利用卡尔曼滤波器预测得到。

步骤5：根据所述目标框匹配度，将当前帧的目标检测框与当前帧的目标跟踪框进行匹配，得到匹配信息；

步骤6：根据所述匹配信息，估计当前帧的行人目标框坐标，并预测行人目标在下一帧的目标跟踪框坐标；行人目标框是根据目标检测框和目标跟踪框，使用卡尔曼滤波器计算得到的。

步骤7：根据当前帧行人目标框的坐标，裁剪出行人图片并保存行人编号；

步骤8：根据所述行人编号，将连续多帧中编号相同的行人图片进行匹配，组合成列表并保存行人编号；

步骤9：若列表长度达到指定帧数阈值，则将列表中保存的行人图片输入到所述行为识别模型，计算该列表的行为类别概率。若列表长度没有达到指定帧数阈值，则返回步骤3。

上述步骤1中，利用目标检测数据集，训练目标检测模型。具体过程实现为：

采集实际使用环境建立图片，并且标注出每张图片目标对象的位置信息(左上角坐标和宽高)以及目标的类别，以获得目标检测数据集。

利用所述目标检测数据集对目标检测神经网络进行预训练；

采用多均方差损失函数对预训练的目标检测神经网络进行微调，其中多分类损失函数表示为：

在本实施例中，使用了多均方差损失函数，将定位问题和分类问题转换成回归问题，使得网络更近容易训练

根据目标检测网络结构要求，设置训练过程的相关参数。在此设置batch size为64，设置momentum为0.9，设置weight decay为0.0005。从高学习率开始，目标检测模型会因梯度不稳定而发散。所以对于学习率的设置如下：第一个epoch，先将学习率从10^-3逐渐提高到10^-2。然后继续以学习率10^-2训练75个epoch数据集。接着以学习率10^-3训练35个epoch数据集，最后以学习率10^-4训练30个epoch数据集。

为了拓展数据，这里采用反转图片和随机缩放(缩放的比例在20％以内)的方式。并在HSV颜色空间中随机调整(调整大小在1.5倍以内)图片的曝光和饱和度。

于一实施例中，所述步骤1中，利用行为识别数据集，训练行为识别模型。具体过程实现为：

根据实际使用环境建立行为识别数据集。依据视频中行人移动的轨迹将行人单独裁剪出来，并且标注行人的动作类别。使用交叉熵函数对行为识别神经网络进行微调，交叉熵公式(2)：

其中，q(x)为标注的类别分布，p(x)为网络预测的概率，H(p,q)表示损失函数。

对于数据处理，从行为识别数据集的单个视频中截取指定帧n(在此设n＝16)，并且将这n帧输入行为识别网络进行训练。

设置网络模型训练过程的相关参数mini-batch size为30。设置初始学习率为0.003，每迭代150个batch后学习率除以2，优化器选择随机梯度下降。

为了增加网络的拟合程度，先在公开数据集Kinetics对行为识别网络进行预训练。

其中，预训练是指先在别的大型数据集上，使用交叉熵函数进行训练后得到预训练模型。使用该预训练模型作为行为识别网络的初始权重，再根据实际数据集和交叉熵函数对网络进行重新训练。一般来说，深度卷积神经网络训练，都要用到交叉熵作为损失函数，以此优化训练效果。

于一实施例中，所述步骤3中，利用步骤1训练出的目标检测模型，预测视频当前帧中行人的位置信息，以此作为当前帧的目标检测框。具体过程实现为：

在需要进行监控的场景中布置摄像头，摄像机将拍到的图像以RGB图片的形式储存，并且传输给后端服务端。将摄像头传来的视频帧输入步骤1中训练完成的目标检测网络中，目标检测网络会计算出多个位置信息以及对应的类别概率。由于目标检测网络使用多个目标框检测相近的区域，可能会产生一个目标存在多个目标检测框的情况。为了去掉重复的目标检测框，在获取位置信息和概率类别后，采用非极大值抑制法去除相近的位置信息，并且返回准确的位置信息以及概率。如果目标为行人的概率大于设定阈值p(t)(在此设p(t)＝0.6)，则保留该行人的位置信息，以此作为该行人的目标检测框。

于一实施例中，所述步骤4中，对于步骤3获得的目标检测框，以及通过上一帧信息预测到的目标跟踪框，计算两者之间的目标框匹配度。具体过程实现为：

于一实施例中，根据步骤3得到的目标检测框，使用OpenCV裁出仅包含目标行人的图片，并且将图片放入Wide ResNet中，提取出行人的表层特征，并保存表层特征。使用了表层特征信息，使得行人在被物体遮挡后能再次被跟踪到。

如果是第一帧输入，直接进入步骤5。如果不是第一帧输入，则计算上一帧信息预测到的目标跟踪框与当前帧检测到目标检测框之间的马氏距离。计算公式如公式(3)下：

其中d¹(i,j)表示第i个轨迹和第j个检测框之间的马氏距离，其中，轨迹指的是一个人在一段时间内的线性预测模型，该模型包含行人的状态信息(中心坐标，目标框高度，宽高比)，以及状态信息的变化率(该变化率可以通过协方差矩阵计算)。S_i是轨迹有卡尔曼滤波器预测得到的协方差矩阵，y_i是卡尔曼滤波对于当前轨迹的预测量，d_j是检测框行人的位置信息(u,v,r,h)，其中(u,v)表示目标检测框的中心坐标点，h和r分别表示目标检测框的高和宽。

再计算上一帧保存的表层特征和当前帧的表层特征之间的最小余弦距离，最小余弦距离为公式(4)：

其中，d⁽²⁾(i,j)表示第i个轨迹和第j个检测框的最小余弦值，表示第j个检测目标框的表层特征信息，表示第i条轨迹的表层特征信息。

在将马氏距离和最小余弦距离加权求和，作为目标框匹配程度保存为矩阵c_i,j，加权公式如下：

c_i,j＝λd⁽¹⁾(i,j)+(1-λ)d⁽²⁾(i,j)(5)

其中，λ表示权重。

于一实施例中，所述步骤5中，使用步骤4得到的目标框匹配度，将当前帧的目标检测框与当前帧的目标跟踪框进行匹配，得到匹配信息。具体过程实现为：

根据步骤4中的匹配程度利用匈牙利法对预测目标框和检测目标框进行配对。如果配对结束后有多出的检测目标框，以此检测目标框信息创建新的轨迹，并且给予轨迹初始参数a_i＝0。如果下次此轨迹和检测目标框再次匹配成功，a_i加1，当a_i大于阈值a_t(在此设阈值a_t＝3)时，并且释放参数a_i，并且赋予轨迹进度参数A_i＝0，轨迹长度k_i＝0。当匹配结束后存在多出的预测目标框尚未得到匹配，令A_i加1，当A_i大于阈值A_t(在此设阈值A_t＝100)时，删除此轨迹，如果轨迹匹配成功令A_i＝0。

于一实施例中，所述步骤6中，根据步骤5获取的匹配信息，估计当前帧的行人目标框坐标，并预测目标在下一帧的目标跟踪框坐标。具体过程实现为：

利用步骤5获得的匹配信息y_t，计算卡尔曼增益K_t，公式(6)：

其中,H为观察矩阵，H^T为置换矩阵H的转置，R为状态转移噪声，为预测目标框的协方差，为t-1时刻的位置信息。再根据计算得的卡尔曼增益K_t，计算出当前帧行人目标框坐标以及协方差矩阵Σ_t，为t时刻的预测目标框的值，目标框坐标公式如下：

协方差Σ_t更新公式如下：

之后根据本次预测的协方差矩阵Σ_t和当前帧行人目标框坐标预测出下一秒的目标框坐标和协方差信息F为状态转移矩阵，F^T为状态转移矩阵F的转置，u_t+1为更新矩阵，Q为过程噪声，预测公式(9)：

将预测信息保存入轨迹中替代之前的目标框位置信息和协方差，并且使用检测目标框的表层特征来更新轨迹的表层特征。

于一实施例中，所述步骤7中，根据步骤6的当前帧行人目标框坐标，裁剪出行人图片并保存行人编号。具体过程实现为：

根据步骤6得到的当前帧行人目标框坐标(左上角坐标和宽高)，利用OpenCV裁剪本帧，并且保存到对应的轨迹中，令轨迹长度k_i加1。

于一实施例中，所述步骤8中，根据步骤7的行人编号，将连续多帧中编号相同的行人图片进行匹配，组合成列表并保存行人编号。具体过程实现为：

将同一轨迹中的图片信息，根据获得图片的时间顺序排序，组合成列表。并给列表编号，编号与轨迹编号相同，保存列表以及列表编号

于一实施例中，所述步骤9中，如果列表长度达到指定帧数阈值则进入下一步，否则返回步骤3，继续收集行人图片。具体过程实现为：

读取步骤8中保存的列表，判断列表是否包含了行人帧数阈值n(在此设n＝16)的图像信息，若包含长为帧数阈值的行人信息，将列表信息送入下一步，不包含帧数阈值信息则返回第3步。

于一实施例中，所述步骤9中：将列表中保存的行人图片输入到行为识别模型，计算该列表的行为类别概率。如果程序没有结束，则返回步骤3：

将列表中信息的图片全部进行裁剪(在此设长为224像素，宽为224像素)，将m帧(在此m＝16)信息重新拼接。将裁剪好的图片输入步骤2中训练完成的人体行为识别模型中，计算得到该行人的行为类别。根据轨迹的目标框坐标以及行为类别，在原视频帧中绘制出目标框，并且在目标框的右上角标出行为类别，将视频帧发送至客户端。如果视频监控没有结束，返回步骤3。

本发明使用了多目标跟踪算法，可以实时显示目标的位置，传统的行为识别只能对视频进行分析，即同一个视频只有一个行为结果，而本发明做到了能对同一个视频中的多个行人目标，进行行为识别和分析。

如图2所示，一种面向监控视频的多目标行为识别系统，其特征在于，该系统包括：

视频采集模块，用于采集视频；

在本实施例中，由于方法的技术方案与装置的技术方案相似，其方法功能的实现都可以通过装置技术方案来实现，此处不再赘述。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种面向监控视频的多目标行为识别方法，其特征在于，该方法包括以下步骤：

采集视频；

2.根据权利要求1所述的一种面向监控视频的多目标行为识别方法，其特征在于，所述目标检测模型通过以下方式获得：

利用所述目标检测数据集对目标检测神经网络进行预训练；

3.根据权利要求2所述的一种面向监控视频的多目标行为识别方法，其特征在于，采用多均方差损失函数对预训练的目标检测神经网络进行微调，其中多分类损失函数表示为：

4.根据权利要求1所述的一种面向监控视频的多目标行为识别方法，其特征在于，所述行为识别模型通过以下方式获得：

5.根据权利要求1所述的一种面向监控视频的多目标行为识别方法，其特征在于，根据所述目标检测模型，预测视频当前帧中行人的位置信息，并将该位置信息作为当前帧的目标检测框，具体过程实现为：

6.根据权利要求1所述的一种面向监控视频的多目标行为识别方法，其特征在于，根据所述当前帧目标检测框，及通过上一帧信息预测到当前帧的目标跟踪框，计算两者之间的目标框匹配度，具体过程实现为：

根据所述目标检测框，使用OpenCV裁出仅包含目标行人的图片，并且将图片放入WideResNet中，提取出行人的表层特征，并保存表层特征；

c_i,j＝λd⁽¹⁾(i,j)+(1-λ)d⁽²⁾(i,j)

其中，λ表示权重。

7.根据权利要求1所述的一种面向监控视频的多目标行为识别方法，其特征在于，根据所述目标框匹配度，采用匈牙利法对目标跟踪框和目标检测框进行匹配得到匹配信息。

8.根据权利要求6所述的一种面向监控视频的多目标行为识别方法，其特征在于，根据所述匹配信息，估计当前帧的行人目标框坐标，并预测行人目标在下一帧的目标跟踪框坐标，具体过程实现为：

计算卡尔曼增益K_t，

y_t表示匹配信息，为t时刻的目标跟踪框的值，

本次预测的协方差矩阵Σ_t更新公式如下：

9.一种面向监控视频的多目标行为识别系统，其特征在于，该系统包括：

视频采集模块，用于采集视频；