CN113158909A

CN113158909A - 基于多目标跟踪的行为识别轻量化方法、系统、设备

Info

Publication number: CN113158909A
Application number: CN202110447553.1A
Authority: CN
Inventors: 张兆翔; 宋纯锋; 吴晗
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2021-07-23
Anticipated expiration: 2041-04-25
Also published as: CN113158909B

Abstract

本发明属于计算机视觉领域，具体涉及一种基于多目标跟踪的行为识别轻量化方法、系统、设备，旨在解决现有行为识别方法无法直接识别多目标视频数据中每个个体行为的问题。本发明方法包括：获取输入视频中t时刻的图像帧，作为输入图像；获取多个检测目标分别对应的检测框作为目标检测框；并提取各目标检测框的特征，作为第一特征；利用卡尔曼滤波算法预测t‑1时刻各追踪到的目标在t时刻图像帧中对应的检测框，并提取各检测框的特征，作为第二特征；将第一特征、第二特征进行匹配，获得视频中每个目标的跟踪序列；对各目标的跟踪序列，通过预构建的行为分类模型获取其对应的行为分类结果。本发明实现了多目标视频数据中每个个体行为的识别。

Description

基于多目标跟踪的行为识别轻量化方法、系统、设备

技术领域

本发明属于计算机视觉领域，具体涉及一种基于多目标跟踪的行为识别轻量化方法、系统、设备。

背景技术

行为识别因其在视频监控、虚拟现实、人机智能交互等领域的广泛应用而成为计算机视觉领域的研究热点，目前主流的行为识别都是基于单目标的视频数据，很少有基于多目标视频数据的行为识别。然而在实际生活中，视频数据中只包含单目标是极少数的情况，而且，涉及多个目标的行为识别，即在每一帧的视频数据中需要调用多次行为识别算法，这就对涉及模型的规模提出了更高的要求。基于此，本发明在多目标跟踪技术的基础上引入行为识别方法，提出了一种基于多目标跟踪的行为识别轻量化方法。

发明内容

为了解决现有技术中的上述问题，即为了解决现有行为识别方法无法直接识别多目标视频数据中每个个体行为的问题，本发明提出了一种基于多目标跟踪的行为识别轻量化方法，该方法包括：

S10，获取输入视频中t时刻的图像帧，作为输入图像；

S20，通过目标检测算法对所述输入图像中进行目标检测，获取多个检测目标分别对应的检测框作为目标检测框；并提取各目标检测框的特征，作为第一特征；

S30，利用卡尔曼滤波算法预测t-1时刻各追踪到的目标在时刻图像帧中对应的检测框，并提取各检测框的特征，作为第二特征；通过特征匹配算法对各第一特征、第二特征进行匹配，获得视频中每个目标的跟踪序列；

S40，对各目标的跟踪序列，通过预构建的行为分类模型获取其对应的行为分类结果；

其中，所述行为分类模型基于2D卷积神经网络构建，包括三个卷积池化层和两个全连接层。

在一些优选的实施方式中，所述行为分类模型，其训练方法为：

A10，按时序信息获取视频数据集中视频数据的各帧图像，构建帧图像序列；

A20，通过目标检测算法获取所述帧图像序列各帧图像中每个目标的检测框作为目标检测框；并提取各目标检测框的特征，作为第一特征；

A30，利用卡尔曼滤波算法预测上一帧中各追踪到的目标在当前帧中的检测框，并提取各检测框的特征，作为第二特征；通过特征匹配算法各第一特征、第二特征进行匹配，获得视频中每个目标的跟踪序列；

A40，对所述跟踪序列进行剪裁得到以各目标为中心的连续帧；

A50，对每个目标跟踪序列进行行为连续帧的挑选，按照行为类型对其进行分类，进而得到行为真值标签下不同目标的连续帧序列；

A60，对所述连续帧序列，随机获取连续N帧，并进行预处理，将预处理后的帧图像进行图像时序拼接操作；

A70，将拼接后的帧图像输入预构建的行为分类模型，获取行为分类结果；

A80，基于行为分类预测结果、行为分类真值标签，计算损失值，并更新行为分类模型的模型参数；

A90，循环执行步骤A10-A80，直至得到训练好的行为分类模型。

在一些优选的实施方式中，所述预处理，其方法为：对各帧图像进行像素调整、归一化以及中心剪裁处理。

在一些优选的实施方式中，所述行为分类模型，其损失函数L_Softmax为：

其中，y表示当前样本的行为分类真值标签，Z_i表示行为分类模型提取到的属于第i类的特征值，C表示分类的类别个数。

在一些优选的实施方式中，步骤S30中“通过特征匹配算法对各第一特征、第二特征进行匹配，获得视频中每个目标的跟踪序列”，其方法为：

通过特征匹配算法将各第一特征、第二特征进行匹配，匹配后，将匹配相似度最大的预测检测框作为目标在当前帧中的追踪位置，进而获得视频中每个目标的跟踪序列。

在一些优选的实施方式中，所述行为分类模型在训练过程中，采用反向传播算法和随机梯度下降法进行梯度优化。

本发明的第二方面，提出了一种基于多目标跟踪的行为识别轻量化系统，该系统包括：获取模块、检测提取模块、跟踪序列获取模块、识别模块；

所述获取模块，配置为获取输入视频中t时刻的图像帧，作为输入图像；

所述检测提取模块，配置为通过目标检测算法对所述输入图像中进行目标检测，获取多个检测目标分别对应的检测框作为目标检测框；并提取各目标检测框的特征，作为第一特征；

所述跟踪序列获取模块，配置为利用卡尔曼滤波算法预测t-1时刻各追踪到的目标在t时刻图像帧中对应的检测框，并提取各检测框的特征，作为第二特征；通过特征匹配算法对各第一特征、第二特征进行匹配，获得视频中每个目标的跟踪序列；

所述识别模块，配置为对各目标的跟踪序列，通过预构建的行为分类模型获取其对应的行为分类结果；

本发明的第三方面，提出了一种设备，至少一个处理器；以及与至少一个所述处理器通信连接的存储器；其中，所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现权利要求上述的基于多目标跟踪的行为识别轻量化方法。

本发明的第四方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现权利要求上述的基于多目标跟踪的行为识别轻量化方法。

本发明的有益效果：

本发明实现了多目标视频数据中每个个体行为的识别，并提高了行为识别的精度。

1)本发明设计的行为分类模型以2D卷积神经网络框架为基础，包含三层卷积池化层和两层全连接层，模型参数少，模型轻量化以达到多目标同时预测的要求，实现了多目标视频数据的行为识别，并提高了行为识别的实时性；

2)本发明为获取输入跟踪序列的时序信息，利用时序拼接(Concat)方法将图像通道按照时序顺序合并后再送入行为分类模型中，获得较高的模型精度。使得本发明方法在实际使用中能够兼顾轻量化与精确度的要求。

附图说明

通过阅读参照以下附图所做的对非限制性实施例所做的详细描述，本申请的其他特征、目的和优点将会变得更明显。

图1是本发明一种实施例的基于多目标跟踪的行为识别轻量化方法的流程示意图；

图2为本发明一种实施例的基于多目标跟踪的行为识别轻量化系统的框架示意图；

图3是本发明一种实施例的行为分类模型的训练流程示意图

图4是本发明一种实施例的基于多目标跟踪的行为识别轻量化方法的详细流程示意图；

图5是本发明一种实施例的基于多目标跟踪的行为识别轻量化方法的简略流程示例图；

图6是本发明一种实施例的行为分类模型的结构示意图；

图7是本发明一种实施例的适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明第一实施例的一种基于多目标跟踪的行为识别轻量化方法，如图1所示，该方法包括以下步骤：

S10，获取输入视频中t时刻的图像帧，作为输入图像；

为了更清晰地对本发明基于多目标跟踪的行为识别轻量化方法进行说明，下面对本发明方法一种实施例中各步骤进行展开详述。

在下述实施例中，先对行为分类模型的训练过程进行详述，在对基于多目标跟踪的行为识别轻量化方法获取行为分类结果的过程进行详述。

1、行为分类模型的训练过程，如图3和图4所示

在本实施例中，以某大型行为识别数据集为例，共13320个视频，包含101类动作，选取上述数据集中的M个视频数据进行处理，以第i个视频为例，首先将其转换为帧图像序列{1，......t-1，t，t+1，......，s}，共s帧，其中每帧的分辨率为320×240。

在本实施例中，以第t-1帧为例，调用Yolo-v3检测算法，检测到t-1帧中的所有目标共N个，得到帧中各个目标的检测框(Bounding-Box)，作为目标检测框，记帧中第x个目标的目标检测框为

提取各检测框中的目标特征

作为第一特征。

在本实施例中，若每间隔n帧重复一次步骤A20，则利用卡尔曼滤波预测t-1帧中的目标在t，t+1，......，t-1+n帧中的状态，即检测框，并提取各检测框的特征，作为第二特征。

使用多目标特征匹配算法将预测后的目标特征(第二特征)

分别与经过步骤A20得到的目标特征(第一特征)

进行特征匹配，获得视频中每个目标的跟踪序列。具体为：通过特征匹配算法将各第一特征、第二特征进行匹配，匹配后，将匹配相似度最大的预测检测框作为目标在当前帧中的追踪位置，进而获得视频中每个目标的跟踪序列。

在本实施例中，对获取的目标序列裁剪得到以目标j为中心的连续帧

A50，对每个目标跟踪序列进行连续帧挑选，并按照行为类型对其进行分类，进而得到行为真值标签下不同目标的连续帧序列；

在本实施例中，选取的M个视频数据经过上述步骤，得到多目标跟踪序列

对每个目标跟踪序列进行连续帧挑选，以投篮行为为例，从跟踪序列中明确目标投篮动作起始帧以及投篮动作结束帧，起始帧到结束帧即作为投篮行为的连续帧，按照行为类型将其分为两类：投篮(标签设置为1)、非投篮(标签设置为0)，进而得到行为真值标签(即预先给定的标签)下不同目标的连续帧序列，在具体实施过程中，我们得到标签为1的目标连续帧序列110个，标签为0的目标连续帧序列90个，其中包含的目标连续帧的分辨率均为该帧中该目标对应的检测框(Bounding-Box)大小。

在本实施例中，对得到的连续帧序列，随机获取连续N帧，本发明中优选为8。将每一帧都调整为171×128像素大小，然后对其进行归一化处理，即每一帧减掉其像素均值，利用中心裁剪策略将其裁剪为112×112像素大小，最后将其进行图像时序拼接(Concat)操作，由原本的RGB三通道输入转换为24通道输入。在保证分类模型轻量化的同时保留了输入序列的时序信息。

在本实施例中，如图6所示，经过Concat操作，连续8帧，即图中frame1,……,frame8，RGB通道合并得到模型的输入(input)。本发明设计的轻量化时序行为分类模型，包含三层2D卷积池化层(Conv、pool)和两层全连接层(Full)，相比于经典的2D行为识别网络，例如：TSN、TRN等，均包含几十层卷积层，即便对于目前较轻量级的行为识别网络，例如：ECO，也包含数十层卷积层，我们的模型更为轻量化，利用A50中获得的数据作为模型的训练数据，加载数据时，经过步骤A60处理后作为模型的输入，我们利用softmax作为最后的分类输出。

在本实施例中，优化交叉熵损失函数，其中y表示当前样本的行为分类真值标签，Z_i表示行为分类模型提取到的属于第i类的特征值，C(C＝2)表示分类的类别个数，通过损失函数可以测量真实分类结果与预测分类结果之间的误差大小，然后基于该误差对网络权值进行优化和修正。

其中，交叉熵损失函数如公式(1)所示：

另外，在训练过程中，采用反向传播算法和随机梯度下降法来减小误差L_Softmax以训练行为分类模型。

A90，循环执行步骤A10-A80，直至得到训练好的行为分类模型。

在本实施例中，循环对行为分类模型进行训练，直至达到的预设的精度或达到设定的训练次数，则结束训练，得到训练好的行为分类模型。

2、基于多目标跟踪的行为识别轻量化方法，如图5所示

S10，获取输入视频中t时刻的图像帧，作为输入图像；

在本实施例中，获取输入视频中t时刻的图像帧。

在本实施例中，对输入图像进行目标检测，获取多个检测目标分别对应的检测框作为目标检测框，并提取各目标检测框的特征，作为第一特征。

在本实施例中，利用卡尔曼滤波算法预测t-1时刻各追踪到的目标在t时刻图像帧中对应的检测框，并提取各检测框的特征，作为第二特征。

使用多目标特征匹配算法将第一特征、第二特征进行匹配，获得视频中每个目标的跟踪序列。

S40，对各目标的跟踪序列，通过预构建的行为分类模型获取其对应的行为分类结果。

在本实施例中，通过上述训练好的行为分类模型获取各目标的跟踪序列对应的行为分类结果。

本发明第二实施例的一种基于多目标跟踪的行为识别轻量化系统，如图2所示，包括：获取模块100、检测提取模块200、跟踪序列获取模块300、识别模块400；

所述获取模块100，配置为获取输入视频中t时刻的图像帧，作为输入图像；

所述检测提取模块200，配置为通过目标检测算法对所述输入图像中进行目标检测，获取多个检测目标分别对应的检测框作为目标检测框；并提取各目标检测框的特征，作为第一特征；

所述跟踪序列获取模块300，配置为利用卡尔曼滤波算法预测t-1时刻各追踪到的目标在t时刻图像帧中对应的检测框，并提取各检测框的特征，作为第二特征；通过特征匹配算法对各第一特征、第二特征进行匹配，获得视频中每个目标的跟踪序列；

所述识别模块400，配置为对各目标的跟踪序列，通过预构建的行为分类模型获取其对应的行为分类结果；

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的系统的具体的工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于多目标跟踪的行为识别轻量化系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种设备，至少一个处理器；以及与至少一个所述处理器通信连接的存储器；其中，所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现权利要求上述的基于多目标跟踪的行为识别轻量化方法。

本发明第四实施例的一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现权利要求上述的基于多目标跟踪的行为识别轻量化方法。

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实例中的对应过程，在此不再赘述。

下面参考图7，其示出了适于用来实现本申请方法、系统、装置实施例的服务器的计算机系统的结构示意图。图7示出的服务器仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示，计算机系统包括中央处理单元(CPU，Central Processing Unit)701，其可以根据存储在只读存储器(ROM，Read Only Memory)702中的程序或者从存储部分708加载到随机访问存储器(RAM，Random Access Memory)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有系统操作所需的各种程序和数据。CPU701、ROM 702以及RAM703通过总线704彼此相连。输入/输出(I/O，Input/Output)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT，Cathode Ray Tube)、液晶显示器(LCD，Liquid Crystal Display)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN(局域网，Local AreaNetwork)卡、调制解调器等的网络接口卡的通讯部分709。通讯部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通讯部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU701执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于多目标跟踪的行为识别轻量化方法，其特征在于，该方法包括：

S10，获取输入视频中t时刻的图像帧，作为输入图像；

S30，利用卡尔曼滤波算法预测t-1时刻各追踪到的目标在t时刻图像帧中对应的检测框，并提取各检测框的特征，作为第二特征；通过特征匹配算法对各第一特征、第二特征进行匹配，获取视频中每个目标的跟踪序列；

2.根据权利要求1所述的基于多目标跟踪的行为识别轻量化方法，其特征在于，所述行为分类模型，其训练方法为：

A30，利用卡尔曼滤波算法预测上一帧中各追踪到的目标在当前帧中的检测框，并提取各检测框的特征，作为第二特征；通过特征匹配算法各第一特征、第二特征进行匹配，得到视频中每个目标的跟踪序列；

A90，循环执行步骤A10-A80，直至得到训练好的行为分类模型。

3.根据权利要求2所述的基于多目标跟踪的行为识别轻量化方法，其特征在于，所述预处理，其方法为：对各帧图像进行像素调整、归一化以及中心剪裁处理。

4.根据权利要求1所述的基于多目标跟踪的行为识别轻量化方法，其特征在于，所述行为分类模型，其损失函数L_Softmax为：

5.根据权利要求1所述的基于多目标跟踪的行为识别轻量化方法，其特征在于，“通过特征匹配算法对各第一特征、第二特征进行匹配，获得视频中每个目标的跟踪序列”，其方法为：

6.根据权利要求2所述的基于多目标跟踪的行为识别轻量化方法，其特征在于，所述行为分类模型在训练过程中，采用反向传播算法和随机梯度下降法进行梯度优化。

7.一种基于多目标跟踪的行为识别轻量化系统，其特征在于，该系统包括：获取模块、检测提取模块、跟踪序列获取模块、识别模块；

所述跟踪序列获取模块，配置为利用卡尔曼滤波算法预测t-1时刻各追踪到的目标在t时刻图像帧中对应的检测框，并提取各检测框的特征，作为第二特征；通过特征匹配算法对各第一特征、第二特征进行匹配，获取视频中每个目标的跟踪序列；

8.一种设备，其特征在于，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现权利要求1-6任一项所述的基于多目标跟踪的行为识别轻量化方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现权利要求1-6任一项所述的基于多目标跟踪的行为识别轻量化方法。