CN110399808A

CN110399808A - 一种基于多目标跟踪的人体行为识别方法及系统

Info

Publication number: CN110399808A
Application number: CN201910602596.5A
Authority: CN
Inventors: 徐增敏; 蒙儒省; 罗劲锋; 李翔宇; 严鑫毅; 丁勇
Original assignee: Guilin Anne Technology Co Ltd
Current assignee: Guilin Anne Technology Co Ltd
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2019-11-01

Abstract

本发明提出一种基于多目标跟踪的人体行为识别方法，包括：训练目标检测模型和行为识别模型；根据目标检测模型预测行人目标所在位置，作为目标检测框；估计目标检测框在下一帧所在位置，作为目标跟踪框；判断目标检测框与目标跟踪框是否表示同一行人目标；当目标跟踪队列长度达到设定帧数阈值时，将所有目标跟踪框串联形成目标跟踪区域，将目标跟踪区域加入行为识别缓冲区的任务队列；在行为识别缓冲区的任务队列中预测目标对象的行为得分，并将结果回给目标跟踪队列；在目标跟踪队列中间隔时间t帧，将新的目标跟踪区域添加到行为识别缓冲区的任务队列；将目标跟踪队列前n次行为得分进行融合，更新最新得分作为当前目标跟踪区域的识别结果。

Description

一种基于多目标跟踪的人体行为识别方法及系统

技术领域

本发明属于视频分析领域，涉及目标检测、多目标跟踪以及人体行为识别，具体涉及一种基于多目标跟踪的人体行为识别方法及系统。

背景技术

近年来许多活动场所都布置了高清摄像头监控异常事件的发生，但是仍然需要保安人员费时费力地对监控内容进行观察分析。随着人工智能技术的成熟，人们开始利用人工智能来实现安防智能监控。其中，安防智能监控需要运用到计算机视觉领域上的几个热点研究技术:目标检测技术，目标跟踪技术，行为识别技术。行人作为监控的主体，不仅具有一般目标的通性，还具有其类别的多样性，如性别，衣着等等，这都给目标检测以及目标跟踪制造了难度。同时由于实际生活中安防摄像头安置的场景多样复杂，行为识别在实际应用中识别率受到器件噪声、监控视角、光线变化和目标遮挡等限制，无法适应各种监控场景中人群活动的姿势形变。

基于深度学习的目标检测分为两个类别:一类是先预测出目标的位置再进行目标分类，这种方式预测位置与分类准确高但是速度慢。另一类为一次性预测目标位置与类别，这种方式有着较快的速度而且预测位置与分类相对准确。本发明的目标检测系统是采用了第二种方法。按照初始化方式，目标跟踪可以分为两个类别:一类是基于检测的跟踪，另一类是无需检测的跟踪。考虑到第一种方法可以利用检测自动发现目标，以及目标消失后可以自动终止跟踪。所以本发明的目标跟踪是基于目标检测的。而基于深度学习的行为识别目前主要分为两类:一类在神经网络中使用时空或者3D卷积来学习行为分类，这种方式速度相对较快而且其占用系统资源小。另一类中是基于光流和RGB的方式提取视频深度特征，在光流提取部分耗时长而消耗大，不易应用于现实应用中。所以本发明将使用第一种方式构建行为识别系统。利用目标检测与目标跟踪将视频中的目标人物从复杂背景中剥离出来，再进行行为识别以达到提升行为识别精度的效果。

与基于多目标跟踪的在线人体行为识别相关的专利列举如下：

多目标跟踪领域：2018年武汉大学公开发明专利《基于深度学习的跨摄像头行人检测跟踪方法》，该发明通过训练行人检测网络，对输入的监控视频序列进行行人检测；以行人检测得到的目标框初始化跟踪目标，提取行人检测网络中候选框所对应区域的浅层特征和深层特征，实现跟踪；有目标消失时行人重识别，包括得到目标消失信息之后，利用行人重识别算法，从行人检测网络得到的候选图像中找到与消失目标匹配度最高的图像，继续跟踪；跟踪结束时输出行人目标在多个摄像头下的运动轨迹。2018年同济大学公开发明专利《一种融合目标检测和特征匹配的目标跟踪方法》，该发明以卷积神经网络为基础进行目标跟踪，包括：目标检测步骤，获得已知类别的待跟踪目标，采用经训练的目标检测神经网络对当前视频帧进行检测，获得若干待定目标的边框位置；特征匹配步骤，采用经训练的特征匹配网络提取所述待定目标的局部特征描述符，基于局部特征描述符获得各待定目标与之前视频帧中待跟踪目标的相似性，以相似性最大的待定目标作为当前视频帧中待跟踪目标的位置。2018年南京理工大学公开发明专利《一种运动目标检测和跟踪方法》，该发明为：首先从视频序列中获取一帧图像，将图像转换为灰度图，进行滤波去噪；然后利用三帧差分法得到运动目标区域，采用形态学滤波闭运算，填补差值图像中存在的空洞，将形态学滤波闭运算后图像中灰度值不为零的像素点进行光流计算，提取出运动目标；接着使用Kalman滤波算法对当前帧图像中运动目标的质心位置进行预测，将得到的目标预测值与Camshift算法跟踪得到的质心位置进行对比，通过对比结果判定运动目标的质心坐标，并确定在搜索下一帧图像时搜索窗口的大小和位置；更新模型，获取下一帧图像，重复整个跟踪过程，最终实现目标跟踪。2018年湖北工业大学公开发明专利《基于模糊均值聚类与卡尔曼滤波跟踪相结合的运动目标检测方法》，该发明:先计算像素局部邻域的色差直方图(CDH)，然后采用模糊c均值聚类(FCM)来获得模糊色差直方图，紧接着进行背景建模，并使用相似性匹配检测前景，进一步采用基于块匹配的卡尔曼滤波器进行目标追踪。

人体行为识别领域：2018年东北电力大学公开发明《基于长短时记忆网络的人体行为识别方法》，该发明包括：将所述视频分割成若干视频片段，通过VGG 16Net模型和RNN神经网络进行视频片段预处理，获得时间序列数据，数据归一化处理后，将无量纲数据输入到LSTM网络中，所述LSTM网络输出人体特征向量，将所述人体特征向量输入到softmax分类器中进行分类，能够实现将所有所述视频片段中的人体行为动作进行分类，根据分类结果，能够识别视频中的所有的目标人体行为动作。2018年电子科技大学公开发明《一种基于时空融合特征和注意力机制的视频行为识别方法》，该发明通过卷积神经网络Inception V3提取输入视频的时空融合特征，然后在在时空融合特征的基础上结合人类视觉系统中的注意力机制，使得网络能够根据视频内容自动分配权重，提取出视频帧序列中的关键帧，从视频整体上对行为进行识别，这样排出冗余信息对识别的干扰。2018年高新兴科技集团股份有限公司公开发明专利《一种人体行为识别方法及系统》，该发明提供了一种人体行为识别方法及系统，可以区分背景视频与包含人体行为视频并识别出其种类的网络，通过运用多任务深度学习方法训练3D卷积神经网路，将多种人体行为属性以及背景视频的固定连续帧数的帧块作为网络的输入，经过3D卷积神经网络训练后完成识别任务。2018年南京航空航天大学公开发明专利《结合3D跃层连接和循环神经网络的人体行为识别方法》，该发明公开一种结合3D跃层连接和循环神经网络的人体行为识别方法，先将视频分成N份并提取L帧/份图片，利用训练好的3D卷积神经网络对视频进行时空特征提取，串联高维特征融合向量，分类得到视频对应的动作类别。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于多目标跟踪的人体行为识别方法及系统，以实现从人群中分割行人目标、跟踪每个行人目标，并准确识别其行为活动的目的。

为实现上述目的及其他相关目的，本发明提供一种基于多目标跟踪的人体行为识别方法，该方法包括以下步骤：

建立目标检测数据集和行为识别数据集，并通过深度神经网络分别训练目标检测模型和行为识别模型；

采集视频；

根据所述目标检测模型预测所述视频的视频帧中的行人目标的所在位置，并将行人目标的所在位置作为目标检测框；

通过目标跟踪算法估计目标检测框在下一帧所在位置，并将此时的目标检测框作为目标跟踪框；将所述目标检测框和目标跟踪框进行匹配，判断所述目标检测框与所述目标跟踪框是否表示同一行人目标，若是则将同一行人的连续帧组合成目标跟踪队列；

当所述目标跟踪队列长度达到设定帧数阈值时，将所有目标跟踪框串联形成一个目标跟踪区域，将目标跟踪区域加入行为识别缓冲区的任务队列；

利用所述行为识别模型，在所述行为识别缓冲区的任务队列中预测目标对象的行为得分，并将结果回给目标跟踪队列；

在目标跟踪队列中间隔时间t帧，将新的目标跟踪区域添加到行为识别缓冲区的任务队列；

将目标跟踪队列前n次的行为得分进行融合，更新其最新得分作为当前目标跟踪区域的识别结果。

可选地，所述目标检测模型通过以下方式得到：

对目标检测神经网络进行预训练；

对预训练的目标检测神经网络进行微调，最终获得目标检测模型。

根据权利要求2所述的一种基于多目标跟踪的人体行为识别方法，其特征在于，所述对目标检测神经网络进行预训练与对预训练的目标检测神经网络进行微调均使用多目标框损失函数来进行优化，多目标框损失函数定义如下：

其中，N为匹配的目标框数量，L_conf为类别置信度损失，L_loc为局部损失，c表示多类别置信度，l表示网络预测目标框，g表示人为标注真实目标框，a为权重项，x表示为当第i个默认目标框的类别与第j个真实目标框的类别p相互匹配时，令为1，反之令为0。

可选地，所述行为识别模型通过以下方式获得：

对行为识别神经网络进行预训练；

对预训练的行为识别神经网络进行微调，最终获得行为识别模型。

可选地，使用多分类问题的交叉熵损失函数对行为识别神经网络进行训练；

其中,H(p,q)表示损失函数，p_k表示行为识别神经网络预测出的该样本属于第k类动作的概率，q_k为样本的真实类别,N为样本标签。

可选地，所述通过目标跟踪算法估计目标检测框在下一帧所在位置，并将此时的目标检测框作为目标跟踪框，具体包括：

读取视频帧，并通过线性插值法对视频帧的大小进行调整；

将处理后的视频帧输入到目标检测模型，计算视频帧中出现的物体所在位置和对应类别的概率；

对物体类别进行筛选，保留类别为“人”的目标检测框。

可选地，所述通过目标跟踪算法估计行人目标在下一帧所在位置作为目标跟踪框，具体包括：

利用卡尔曼滤波器计算由上一帧目标检测框产生的目标跟踪框和协方差矩阵

其中,Σ_t-1为上一帧目标检测框的协方差矩阵，为上一帧目标检测框的坐标，F为状态转移矩阵，F^T为状态转移矩阵F的转置，u_t为状态更新矩阵，Q为过程噪声；

计算由上一帧产生的目标跟踪框与当前帧的目标检测框的交并比IOU，通过匈牙利算法得到交并比IOU最大的唯一匹配，再去掉匹配值中小于预设阈值IOU_t的匹配对；

用当前帧中匹配到的目标检测框去更新卡尔曼滤波器，计算卡尔曼增益K_t、状态更新和协方差更新，并将状态值更新值输出，作为当前帧的目标跟踪框；

其中,H为观察矩阵，H^T为观察矩阵H的转置，为当前帧目标跟踪框的协方差，为上一帧目标检测框坐标；

根据计算得的卡尔曼增益K_t，计算出当前帧目标检测框的坐标以及协方差矩阵Σ_t，为当前帧的目标跟踪框的值，目标跟踪框的坐标公式如下：

协方差矩阵Σ_t更新公式如下：

根据本次预测的协方差矩阵Σ_t和当前帧目标检测框的坐标预测出下一秒的目标检测框的坐标和协方差矩阵预测公式如下：

其中，u_t+1为更新矩阵。

为实现上述目的及其他相关目的，本发明还提供一种基于多目标跟踪的人体行为识别系统，该行为识别系统包括：

训练模块，用于建立目标检测数据集和行为识别数据集，并通过深度神经网络分别训练目标检测模型和行为识别模型；

视频采集模块，用于采集视频；

目标检测模块，用于根据所述目标检测模型预测所述视频的视频帧中的行人目标的所在位置，并将行人目标的所在位置作为目标检测框；

目标跟踪模块，用于通过目标跟踪算法估计目标检测框在下一帧所在位置，并将此时的目标检测框作为目标跟踪框；

合成模块，用于将所述目标检测框和目标跟踪框进行匹配，判断所述目标检测框与所述目标跟踪框是否表示同一行人目标，若是则将同一行人的连续帧组合成目标跟踪队列；

第一加入模块，用于当所述目标跟踪队列长度达到设定帧数阈值时，将所有目标跟踪框串联形成一个目标跟踪区域，将目标跟踪区域加入行为识别缓冲区的任务队列；

第一行为识别模块，利用所述行为识别模型，在所述行为识别缓冲区的任务队列中预测目标对象的行为得分，并将结果回给目标跟踪队列；

第二加入模块，在目标跟踪队列中间隔时间t帧，将新的目标跟踪区域添加到行为识别缓冲区的任务队列；

第二行为识别模块，用于将目标跟踪队列前n次的行为得分进行融合，更新其最新得分作为当前目标跟踪区域的识别结果。

可选地，所述训练模块包括第一训练模块和第二训练模块，

所述第一训练模块包括：

第一预训练模块，用于对目标检测神经网络进行预训练；

第一微调模块，对预训练的目标检测神经网络进行微调，最终获得目标检测模型；

所述第一训练模块包括：

第二预训练模块，用于对行为识别神经网络进行预训练；

第二微调模块，对预训练的行为识别神经网络进行微调，最终获得行为识别模型。

可选地，对目标检测神经网络进行预训练与对预训练的目标检测神经网络进行微调均使用多目标框损失函数来进行优化，多目标框损失函数定义如下：

其中，N为匹配的目标框数量，L_conf为类别置信度损失，L_loc为局部损失，c表示多类别置信度，l表示网络预测目标框，g表示人为标注真实目标框，a为权重项，x表示为当第i个默认目标框的类别与第j个真实目标框的类别p相互匹配时，令为1，反之令为0；

使用多分类问题的交叉熵损失函数对行为识别神经网络进行训练，

其中,p_k表示行为识别神经网络预测出的该样本属于第k类动作的概率，q_k为样本的真实类别,N为样本标签。

如上所述，本发明的一种基于多目标跟踪的人体行为识别方法及系统，具有以下有益效果：

本发明以实现从人群中分割行人目标、跟踪每个行人目标，并准确识别其行为活动。

传统的行为识别只能对视频进行分析，即同一个视频只有一个行为结果，而本发明做到了能对同一个视频中的多个行人目标，进行行为识别和分析。

附图说明

为了进一步阐述本发明所描述的内容，下面结合附图对本发明的具体实施方式作进一步详细的说明。应当理解，这些附图仅作为典型示例，而不应看作是对本发明的范围的限定。

图1为本发明实施例中一种基于多目标跟踪的人体行为识别方法的流程图；

图2为本发明实施例中一种基于多目标跟踪的人体行为识别系统的框图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

如图1所示，本实施例提供一种基于多目标跟踪的人体行为识别方法，该人体行为识别方法包括以下步骤：

步骤1：建立目标检测数据集和行为识别数据集，并通过深度神经网络分别训练目标检测模型和行为识别模型；

步骤2：利用摄像机采集视频并将该视频传输至服务器端；

步骤3：利用步骤1训练出的目标检测模型，预测服务器端视频帧中行人目标的所在位置，，以此作为目标检测框；

步骤4：根据步骤3获取的目标检测框，通过目标跟踪算法估计该目标检测框下一帧所在位置，并将此时的目标检测框作为目标跟踪框；将对目标检测框和目标跟踪框进行匹配，判断目标检测框和目标跟踪框是否表示同一行人目标，若是则将同一行人的连续帧组合成目标跟踪队列；

步骤5：当目标跟踪队列长度达到设定帧数阈值T后，将所有目标跟踪框串联形成一个目标跟踪区域，将目标跟踪区域加入行为识别缓冲区的任务队列；

步骤6：利用步骤1训练出的行为识别模型，在行为识别缓冲区的任务队列中在线预测目标对象的行为得分，并将结果回给目标跟踪队列；

步骤7：在目标跟踪队列中间隔时间t帧，再将新的目标跟踪区域添加到行为识别缓冲区的任务队列；

步骤8：将目标跟踪队列前n次的行为得分进行融合，更新其最新得分作为当前目标跟踪区域的识别结果，返回第7步直至目标跟踪结束。

本发明使用了多目标跟踪算法，可以实时显示行人目标的位置。

具体地，在所述步骤1中，训练目标检测模型，具体实现过程为：

根据实际需求环境创建目标检测数据集。创建目标检测数据集的方式为：在每张图片中以矩形框的形式将目标对象的范围框出，并在标注文件中记录目标对应的类别和框出的矩形框左上角坐标与右下角坐标，通过左上角坐标与右下角坐标确认行人在视频画面的具体位置。为了保证目标检测模型能在自建数据集上达到理想效果，首先在公开数据集MS COCO2014上对目标检测神经网络做了预训练，得到预训练模型，再使用预训练模型在自建数据集上对目标检测神经网络进行微调，得到最终的目标检测模型。对目标检测神经网络进行预训练与微调都是使用多目标框损失函数来优化，多目标框损失函数定义如公式(1):

其中，N为匹配的目标框数量，如果N为0，则将损失函数设为0。L_conf为类别置信度损失，L_loc为局部损失。c表示多类别置信度，l表示预测目标框，g表示人为标注的真实目标框，a为权重项。x可以被表示为当第i个默认目标框的类别与第j个真实目标框的类别p相互匹配时，令为1，反之令为0。

局部损失L_loc为预测目标框l与真实目标框g之间的Smooth L1损失，其公式如公式(2)：

其中，d为网络预测出的目标框离散化后的一组默认框，(cx,cy)为补偿后默认框d的中心，w,h为边框d的宽高。

类别置信度损失L_conf为多类别置信度c与x的交叉熵损失，计算如公式(3)所示：

在本实施例中，根据目标识别网络结构要求对数据集的图片进行预处理。重新调整图片尺寸(在此设宽为300像素，高为300个像素)再输入目标检测网络，同时减去一个RGB平均值(在此设RGB＝104，117，123)。

根据目标检测网络结构的要求，设置目标检测模型训练过程的相关参数。在此设置batch size为32，momentum为0.9，weight decay为0.0005，学习率初始值设置为10^-6。

利用在MS COCO训练好的模型，在自建数据集上对目标检测网络进行微调，最终得到目标检测模型。

在所述步骤1中，训练行为识别模型，具体实现过程为：

根据实际需求环境创建行为识别数据集。创建行为识别数据集的方式为：对长段的视频中人体行为进行裁剪成长度合适(大概10秒左右)的短视频，并且对该行为进行标注保存到文件中。为了保证行为识别神经网络能在行为识别数据集上达到理想效果，首先在公开数据集Kinetics上对行为识别网络做预训练，得到预训练模型。预训练是指先在别的大型数据集上，使用交叉熵函数进行训练后得到预训练模型。使用该预训练模型作为行为识别网络的初始权重，再根据实际数据集和交叉熵函数对网络进行重新训练。一般来说，深度卷积神经网络训练，都要用到交叉熵作为损失函数，以此优化训练效果。

再使用预训练模型在行为别数据集上对行为识别网络进行微调。使用多分类问题的交叉熵损失函数对行为识别网络进行训练，如公式(4)所示：

其中,p_k表示行为识别网络预测出的该样本属于第k类动作的概率，q_k为样本的真实类别。N为样本标签。

根据行为识别网络结构要求对数据集进行预处理。对图片重新调整尺寸(在此设宽为256像素，高为256像素)，再对图片进行随机裁剪(在此设宽为224像素，高为224像素)。

根据行为识别网络结构的要求，设置行为识别模型训练过程的相关参数。学习率初始化为0.01，batch size为32，使用SGD优化，weight decay为0.0001。

利用Kinetics训练好的模型，在行为认别数据集上对网络进行微调，最终得到为行识别模型。

在所述步骤3，利用步骤1训练出的目标检测模型，预测服务器端视频帧中行人目标的所在位置，以此作为目标检测框；具体实现过程为：

在需要进行监控的场景中布置摄像头，摄像头将拍到的图片以RGB图片的形式储存，并且传输给后端服务器进行处理。根据目标识别网络结构要求，利用OpenCV读取视频帧，并通过线性插值法将视频帧大小重新调整(在此设宽为300像素，高为300像素)，同时减去一个RGB平均值(在此设RGB＝104,117,123)。

将处理后的视频帧输入步骤1中训练完成的目标检测模型中，计算视频帧中出现的物体坐标和对应类别的概率。对物体类别进行筛选，只保留类别为“人”的目标框。由于目标检测模型使用了多个目标框检测相邻的区域，同一个目标会存在与其对应的多个检测框。为了准确的保留行人的所在位置，采用非极大抑制法与交并比IOU(Intersection overUnion)结合的形式，保留最大的概率的目标检测框去除掉重复的目标检测框。再对行人概率小于行人概率阈值P_t(在此设P_t＝0.6)的目标检测框进行舍弃，剩下的目标检测框以此作为该视频帧中行人目标位置。

在所述步骤4中，如果是第一帧图片输入，创建新的目标跟踪器并以步骤4获取的目标检测框初始化，对目标跟踪器进行编号。不是第一帧图片输入，则利用卡尔曼滤波器计算由上一帧目标检测框产生的目标跟踪框和协方差矩阵如公式(5):

其中,Σ_t-1为上一帧目标检测框的协方差矩阵，为上一帧目标检测框坐标，F为状态转移矩阵，F^T为状态转移矩阵F的转置，u_t为更新矩阵，Q为过程噪声。

计算由上一帧产生的目标跟踪框与当前帧的目标检测框的IOU，通过匈牙利算法得到IOU最大的唯一匹配，再去掉匹配值中小于预设阈值IOU_t(在此设IOU_t＝0.5)的匹配对。使用IOU匹配，计数量小，速度快。

用当前帧中匹配到的目标检测框去更新卡尔曼滤波器，计算卡尔曼增益、状态更新和协方差更新，并将状态值更新值输出，作为当前帧的目标跟踪框。计算卡尔曼增益K_t，公式(6)：

其中,H为观察矩阵，H^T为置换矩阵H的转置，R为状态转移噪声，为当前帧预测目标框的协方差，为t-1时刻的目标检测框坐标。再根据计算得的卡尔曼增益K_t，计算出当前帧目标检测框的坐标以及协方差矩阵Σ_t，为t时刻的目标跟踪框的值，目标跟踪框的坐标公式如下：

协方差Σ_t更新公式如下：

之后根据本次预测的协方差矩阵Σ_t和当前帧目标检测框的坐标预测出下一秒的目标检测框的坐标和协方差矩阵息F为状态转移矩阵，F^T为状态转移矩阵F的转置，u_t+1为更新矩阵，Q为过程噪声，预测公式如下：

对于当前帧中没有匹配到的目标重新初始化跟踪器。将编号相同的目标行人的连续帧组合成目标跟踪队列。在本发明中，跟踪仅使用卡尔曼滤波算法，所以速度快，适合于实时使用。

在所述步骤5中，当行人目标跟踪队列长度达到设定帧数阈值T后，将所有目标跟踪框串联形成一个目标跟踪区域，将目标跟踪区域加入行为识别缓冲区的任务队列；

在所述步骤6中，利用训练出的行为识别模型，在行为识别缓冲区的任务队列中在线预测目标对象的行为得分，并将结果回给目标跟踪队列；具体过程实现为：

对行为识别缓冲区任务队列中的视频帧做以下处理：利用OpenCV读取视频帧，并根据行为识别网络结构要求(在此设宽为300像素、高为300像素)，通过线性插值法重新调整视频帧大小。随后再对视频帧进行中心裁剪(在此设宽为224像素、高为224像素)。

将处理后的视频帧输入步骤1中训练完成的行为识别模型中，计算视频帧中行为类别概率得到属于这个对象的行为动作，将结果返回目标跟踪队列。

所述步骤7中，在目标跟踪队列中间隔时间t帧，再将新的目标跟踪区域添加到行为识别缓冲区的任务队列；具体过程实现为：

在目标跟踪队列中间隔时间t帧(在此设t＝4)，若仍有新的目标跟踪区域，则继续将目标跟踪区域添加入行为识别缓冲区的任务队列，等待对该目标跟踪队列的行为识别。

在所述步骤8中，将目标跟踪队列前n次的行为预测得分进行融合，更新其最新得分作为当前目标跟踪区域的识别结果，返回第7步直至目标跟踪结束。

在本发明中，使用了多队列同时处理多个部分的方案，使得系统的运行速度更快，并且使用得分融合解决了长视频中，难以判断人物行为起点的问题，并且提升了行为识别的准确率。具体过程实现为：

步骤6中已经计算了目标跟踪队列的行为识别，并得到其行为预测得分。利用前n次得分(在此设n＝3)，对目标跟踪队列的行为得分进行相加后再除以n，并更新其最新得分作为当前目标跟踪区域的识别结果。

其中，行为得分是根据行为识别网络模型得分层计算出的结果。需要注意的是，这个得分没有经过softmax层。

本实施例还提供一种基于多目标跟踪的人体行为识别系统，其特征在于，该行为识别系统包括：

视频采集模块，用于采集视频；

于一实施例中，所述训练模块包括第一训练模块和第二训练模块，

所述第一训练模块包括：

第一预训练模块，用于对目标检测神经网络进行预训练；

所述第一训练模块包括：

第二预训练模块，用于对行为识别神经网络进行预训练；

于一实施例中，对目标检测神经网络进行预训练与对预训练的目标检测神经网络进行微调均使用多目标框损失函数来进行优化，多目标框损失函数定义如下：

使用多分类问题的交叉熵损失函数对行为识别神经网络进行训练，：

在本施例中，由于方法的技术方案与装置的技术方案相似，其方法功能的实现都可以通过装置技术方案来实现，此处不再赘述。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于多目标跟踪的人体行为识别方法，其特征在于，该方法包括以下步骤：

采集视频；

2.根据权利要求1所述的一种基于多目标跟踪的人体行为识别方法，其特征在于，所述目标检测模型通过以下方式得到：

对目标检测神经网络进行预训练；

3.根据权利要求2所述的一种基于多目标跟踪的人体行为识别方法，其特征在于，所述对目标检测神经网络进行预训练与对预训练的目标检测神经网络进行微调均使用多目标框损失函数来进行优化，多目标框损失函数定义如下：

4.根据权利要求3所述的一种基于多目标跟踪的人体行为识别方法，其特征在于，所述行为识别模型通过以下方式获得：

对行为识别神经网络进行预训练；

5.根据权利要求4所述的一种基于多目标跟踪的人体行为识别方法，其特征在于，

使用多分类问题的交叉熵损失函数对行为识别神经网络进行训练；

6.根据权利要求5所述的一种基于多目标跟踪的人体行为识别方法，其特征在于，所述通过目标跟踪算法估计目标检测框在下一帧所在位置，并将此时的目标检测框作为目标跟踪框，具体包括：

读取视频帧，并通过线性插值法对视频帧的大小进行调整；

对物体类别进行筛选，保留类别为“人”的目标检测框。

7.根据权利要求6所述的一种基于多目标跟踪的人体行为识别方法，其特征在于，所述通过目标跟踪算法估计行人目标在下一帧所在位置作为目标跟踪框，具体包括：

协方差矩阵Σ_t更新公式如下：

其中，u_t+1为更新矩阵。

8.一种基于多目标跟踪的人体行为识别系统，其特征在于，该行为识别系统包括：

视频采集模块，用于采集视频；

9.根据权利要求8所述的一种基于多目标跟踪的人体行为识别系统，其特征在于，所述训练模块包括第一训练模块和第二训练模块，

所述第一训练模块包括：

第一预训练模块，用于对目标检测神经网络进行预训练；

所述第一训练模块包括：

第二预训练模块，用于对行为识别神经网络进行预训练；

10.根据权利要求9所述的一种基于多目标跟踪的人体行为识别系统，其特征在于，对目标检测神经网络进行预训练与对预训练的目标检测神经网络进行微调均使用多目标框损失函数来进行优化，多目标框损失函数定义如下：