CN113989933B

CN113989933B - 一种在线行为识别模型训练、检测方法及系统

Info

Publication number: CN113989933B
Application number: CN202111272498.3A
Authority: CN
Inventors: 崔隽峰; 张文彬; 张军民; 王东林; 席晓强; 李海冰; 刘晨; 张国梁; 吴鹏; 杜泽旭
Original assignee: Global Energy Interconnection Research Institute; Suzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Current assignee: Global Energy Interconnection Research Institute; Suzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2024-04-16
Anticipated expiration: 2041-10-29
Also published as: CN113989933A

Abstract

一种在线行为识别模型训练、检测方法及系统，方法包括以下步骤：步骤1，将输入视频流输入至在线行为识别模型的空间Transformer特征提取网络输出表征每一帧视觉特征的空间特征；步骤2，基于空间特征，构建令牌特征序列；步骤3，将步骤2获得的令牌特征序列输入至Transformer模型，使用Transformer模型的编码器来识别当前帧块f₀的行为，使用解码器来预测即将到来的未来的行为；步骤4，计算整个行为识别模型最后的训练Loss，实施离线训练过程，训练结束后即得到在线行为识别模型；步骤5，上述步骤结束后，当输入在线视频，在线行为识别模型就可以输出当前帧的行为类别。本发明创新性地采用基于Transformer的在线行为识别检测算法，在保证准确度的前期下，实现了在线行为实时检测任务。

Description

一种在线行为识别模型训练、检测方法及系统

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及在线行为识别模型训练、检测方法及系统。

背景技术

在线行为识别是一种从视频流中正确识别正在进行的人体动作的计算机视觉任务。在线行为识别技术不同于传统的计算机视觉任务，该技术强调实现该技术的算法必须在正确识别视频流中正在进行的人体动作的同时，具备一定的实时性。这就决定了在线行为识别具有两大技术难点：一是与基于图片的视觉任务不同，在线行为识别任务需要在视频帧到达时以不充分的观察来检测动作，这不仅需要学习每个视频帧的空间特征，更重要的是需要充分挖掘视频帧间的时间特征；二是在线行为识别任务处理大量视频帧会带来更大的计算量，在这个前提下保证算法的实时性也是一项不小的挑战。

最近，因为这项任务在现实生活中具有例如自动驾驶、视频监控、异常检测等多种应用前景而受到越来越多的关注。目前，国内外专家学者针对上述难点问题基于人工智能理论提出了一些卓有成效的实现方案。当前的方法倾向于应用循环神经网络(RecurrentNeural Network,RNN)来对时间依赖性进行建模，并取得了令人印象深刻的改进。

通常，信息判别网络(Information Discrimination Network,IDN)设计了一个类似RNN的架构来编码长期的历史信息，然后进行当前时刻的动作识别。然而，类似RNN的架构存在非并行性和梯度消失的问题。因此，很难优化架构，这可能会导致性能不理想。对于当前的方法来说，这是一个具有挑战性的问题。为了进一步提高性能，需要设计一个新的高效且易于优化的框架。

Transformer具有通过self-attention模块进行远程时间建模的强大能力，并且在自然语言处理和各种视觉任务中都取得了卓越的表现。现有工作已经证明，Transformer比RNN架构具有更好的收敛性，并且它们的计算效率也很高。

因此，本发明应用Transformer引入了一种端到端框架，提出了一种在线行为识别模型训练、检测方法及系统。

发明内容

为解决现有技术中存在的不足，本发明的目的在于，提供一种在线行为识别模型训练、检测方法及系统。

本发明采用如下的技术方案。本发明的第一方面提供了一种在线行为识别模型训练、检测方法，其特征在于，包括以下步骤：

步骤1，将输入视频流输入至在线行为识别模型的空间Transformer特征提取网络，输出表征每一帧视觉特征的空间特征；

步骤2，基于步骤1获得的每一帧的空间特征，构建令牌特征序列；

步骤3，将步骤2获得的令牌特征序列输入至Transformer模型，使用Transformer模型的编码器来识别当前帧块f₀的行为，使用解码器来预测即将到来的未来的行为；

步骤4，计算整个行为识别模型最后的训练Loss，实施离线训练过程，训练结束后即得到在线行为识别模型；

步骤5，上述步骤结束后，当输入在线视频，在线行为识别模型就可以输出当前帧的行为类别。

优选地，步骤1中，以如下公式表示输入视频流V，

式中：

f_t表示t时刻视频帧，

T表示t₀时刻前T个时刻，

空间Transformer需在大型图像数据集上完成预训练。

优选地，步骤2具体包括：

步骤2.1，将步骤1获得的每一帧的空间特征，通过一个线性投影层映射到D维的特征空间，得到第一嵌入特征序列F，以如下公式表示：

式中：

token_t表示基于步骤1获得的每一帧的空间特征构成的令牌特征序列，其中t∈{0,…,-T}，

表示实数域；

步骤2.2，在第一嵌入特征序列F输入Transformer模型的编码器前，将可学习的加入步骤2.1获得的第一嵌入特征序列F，得到第二嵌入特征序列/>以如下公式表示，

式中：

Concact(·)表示将两个张量按照某一维度进行拼接的操作，

token_class表示分类特征头，用于学习与在线行为识别任务相关的全局判别特征；

步骤2.3，在第二嵌入特征序列的基础上额外嵌入位置编码，得到令牌特征序列X₀。

优选地，步骤2.3中，将位置编码加入第二嵌入特征序列/>使其保持位置信息，得到令牌特征序列，以如下公式表示，

式中：

X₀表示令牌特征序列。

优选地，步骤3具体包括：

步骤3.1，将步骤2获得的令牌特征序列输入至Transformer模型的编码器中；

步骤3.2，解码器用于预测当前时刻到未来l_d时刻的行为，其中解码器输入为未来1时刻到l_d时刻的视频帧令牌特征序列解码器输出为/>

步骤3.3，将编码器中与任务相关的特征与解码器中的池化预测特征连接起来，得到的特征经过一个全连接层和一个softmax操作进行动作分类，以如下公式表示，

式中：

Avg-pool表示平均池化操作，

W_c表示分类全连接层参数，

C为类别数量；

步骤3.4，除了估计的当前动作外，还输出下一个l_d时间步长的预测特征，由于离线训练时有未来信息，为了保证学习到好的特征表达，还对未来预测特征进行了有监督的训练，以如下公式表示，

式中：

表示下一个l_d时间步长的预测特征。

优选地，步骤3中，编码器采用标准Transformer编码器结构，解码器采用标准Transformer解码器结构。

优选地，步骤4，计算整个行为识别模型最后的训练Loss，以如下公式表示，

式中：

p₀表示当前帧f₀的行为类别预测值，其中p₀∈{0,1,…,C}，C代表了总的行为类别数量，0代表背景分类，

y₀表示当前帧f₀的行为类别真值，

CE为交叉熵损失，

为未来帧i的真实行为分类，/>为解码器对未来帧i的行为分类预测。

λ是平衡因子。

本发明的第二方面提供了一种在线行为识别模型训练、检测系统，运行所述的在线行为识别模型训练、检测方法，包括：视频采集模块，模型训练与检测模块和输出模块，

视频采集模块，用于采集视频流，并将视频流输入至在线行为识别模型训练、检测模块；

模型训练与检测模块，设置有基于Transformer模型的行为识别模型，接收视频流，实施离线训练，得到在线行为识别模型；使用在线行为识别模型对在线视频实施在线行为识别；

输出模块，用于接收在线行为识别结果，输出当前帧的行为类别。

优选地，模型训练与检测模块包括模型训练单元和检测单元，其中，

模型训练单元，使用空间Transformer提取输入视频流中每一帧的图像特征。

优选地，模型训练单元，还用于当前时刻视频帧及过去T帧视频帧输入Transformer编码器，当前时刻至未来l_d时刻视频帧输入Transformer解码器，前向传播计算完成后通过损失函数得到损失，然后通过反向传播迭代更新网络权重，训练结束后即得到在线行为识别模型。

本发明的有益效果在于，与现有技术相比，(1)本发明创新性地采用基于Transformer的在线行为识别检测算法，在保证准确度的前期下，实现了在线行为实时检测任务；

(2)不同于前人仅使用2D卷积网络构建特征提取器的方法，本发明开创性的提出了一种基于Transformer的空间特征提取器，解决了2D卷积网络参数多，计算量大的问题；

(3)不同于前人采取视频稀疏采样的方法，即这种方法以人工经验来制定稀疏采样策略，在输入视频中按照相应的采样策略抽取视频帧。本发明提出的方法则在保证实时性的前提下对输入视频的每一帧都进行了处理，保证了视频帧间的长时信息得到了充分的应用。

(4)相比于传统网络，在减少网络参数和计算量的同时，能够有效提取视频的空间和时间特征，在解决传统网络并行性差、梯度消失等问题的基础上实现了在线实时完成行为识别任务。

附图说明

图1为本发明在线行为识别模型训练、检测方法及系统示意图。

图2为本发明在线行为识别模型训练、检测方法及系统流程图。

具体实施方式

下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本申请的保护范围。

如图1所示，本发明的实施例1提供了一种在线行为识别模型训练、检测方法，包括以下步骤：

步骤1，将输入视频流输入至在线行为识别模型的空间Transformer特征提取网络输出表征每一帧视觉特征的空间特征。具体包括：

以如下公式表示输入视频流V，

式中：

f_t表示t时刻视频帧，

T表示t₀时刻前T个时刻，

即，输入视频流V由f_-T,…,f_-2,f_-1,f₀这T+1帧视频帧组成，f₀表示当前帧。

值得注意的是，空间Transformer需在大型图像数据集上完成预训练。一个优选但非限制性的实施方式为，空间Transformer在ImageNet上完成预训练。

与现有技术相比，以往的在线行为识别算法为了实现算法实时性，往往会采取视频稀疏采样的方法，而这种方法是以人工经验来制定稀疏采样策略，该方法虽然在一定程度上加快了算法的识别速度，但是因人工经验的局限性以及稀疏采样的固有缺陷，这种方法不可避免的损失了视频中的一些重要信息。本专利提出的方法则在保证实时性的前提下对输入视频的每一帧都进行了处理，保证了视频帧间的长时信息得到了充分的应用。

除此之外，对于视频帧的空间特征提取，现有技术一般采用经过大规模图像数据集预训练的CNN网络作为特征提取器。但是CNN网络提取图像特征需要利用图像金字塔技术或者特征金字塔技术来实现浅层感受野与深层感受野的特征融合，这势必会使得特征提取网络变大，网络参数变多，且需要在大规模的图像样本中学习才能取得较好的效果。因自注意力机制可以天然地关注局部和全局特征，且具有网络参数少，计算复杂度低的特点，本专利应用自注意力机制，使用空间Transformer提取输入视频流中每一帧的图像特征。

进一步地，对于视频帧间的长时特征学习，由于类似RNN的架构存在梯度消失、并行性差以及不能很好的学习长时信息的问题。本实施例应用Transformer来提取视频帧间的长时特征。

步骤2，基于步骤1获得的每一帧的空间特征，构建令牌特征序列。

步骤2具体包括：

式中：

表示实数域。

式中：

Concact(·)表示将两个张量按照某一维度进行拼接的操作，

token_class表示分类特征头，用于学习与在线行为识别任务相关的全局判别特征。

步骤2.3，在第二嵌入特征序列的基础上额外嵌入位置编码，得到令牌特征序列X₀。一个优选但非限制性的实施方式为，位置编码可以采用两种形式：正弦输入和可训练嵌入。

进一步地，将位置编码加入第二嵌入特征序列/>使其保持位置信息，得到令牌特征序列，以如下公式表示，

式中：

X₀表示令牌特征序列。

步骤3，将步骤2获得的令牌特征序列输入至Transformer模型，使用Transformer模型的编码器来识别当前帧块f₀，使用解码器来预测即将到来的未来。步骤3具体包括：

步骤3.1，将步骤2获得的令牌特征序列输入至Transformer模型的编码器中，编码器采用标准Transformer编码器结构，编码器输出的最终特征表示记为为了方便表达，记/>为与任务对应的输出表示，其中N表示编码器的层数。

步骤3.2，解码器同样采用标准Transformer解码器结构，用于预测当前时刻到未来l_d时刻的行为，其中解码器输入为未来1时刻到l_d时刻的视频帧令牌特征序列解码器输出为/>

步骤3.3，在本专利中主要使用编码器来识别当前帧块f₀，使用解码器来预测即将到来的未来。同时，将预测结果作为辅助信息，更好地识别动作。对于当前帧块的分类任务，首先将编码器中与任务相关的特征与解码器中的池化预测特征连接起来。然后得到的特征经过一个全连接层和一个softmax操作进行动作分类：

式中：

Avg-pool表示平均池化操作，

W_c表示分类全连接层参数，

C为类别数量。

步骤3.4，除了估计的当前动作外，本专利还输出下一个l_d时间步长的预测特征。由于离线训练时有未来信息，为了保证学习到好的特征表达，还对未来预测特征进行了有监督的训练：

式中：

表示下一个l_d时间步长的预测特征。

值得注意的是，当一个动作发生时，预测该动作将来的趋势有助于整个动作的识别。本专利创新地引入解码器利用对过去信息的观察来预测在不久的将来发生的动作，从而更好地学习更多的判别特征。

步骤4，计算整个行为识别模型最后的训练Loss，以如下公式表示，

式中：

p₀表示当前帧f₀的行为类别预测值，其中p₀∈{0,1,…,C}，C代表了总的行为类别数量，0代表背景分类。

y₀表示当前帧f₀的行为类别真值，其中y₀∈{0，1，…，C}，C代表了总的行为类别数量，0代表背景分类。

CE为交叉熵损失，

λ是平衡因子，一个优选但非限制性的实施方式为，λ＝0.5。

本专利实施离线训练过程，训练数据当前时刻视频帧及过去T帧视频帧输入Transformer编码器，当前时刻至未来l_d时刻视频帧输入Transformer解码器。前向传播计算完成后通过损失函数得到损失，然后通过反向传播迭代更新网络权重，训练结束后即得到在线行为识别模型。

本发明的实施例2提供了一种在线行为识别模型训练、检测系统，运行所述的在线行为识别模型训练、检测方法，包括：

在一个优选但非限制性的实施方式中，模型训练与检测模块包括模型训练单元和检测单元，其中，

在一个优选但非限制性的实施方式中，模型训练单元，还用于当前时刻视频帧及过去T帧视频帧输入Transformer编码器，当前时刻至未来ld时刻视频帧输入Transformer解码器，前向传播计算完成后通过损失函数得到损失，然后通过反向传播迭代更新网络权重，训练结束后即得到在线行为识别模型。

本发明的有益效果在于，与现有技术相比，

(1)本发明创新性地采用基于Transformer的在线行为识别检测算法，在保证准确度的前期下，实现了在线行为实时检测任务；

本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述，但是本领域技术人员应该理解，以上实施示例仅为本发明的优选实施方案，详尽的说明只是为了帮助读者更好地理解本发明精神，而并非对本发明保护范围的限制，相反，任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims

1.一种在线行为识别模型训练、检测方法，其特征在于，包括以下步骤：

步骤1，将输入视频流输入至在线行为识别模型的空间Transformer特征提取网络，输出表征每一帧视觉特征的空间特征；步骤1中，以如下公式表示输入视频流V，

式中：

f_t表示t时刻视频帧，

T表示t₀时刻前T个时刻，

空间Transformer需在大型图像数据集上完成预训练；

步骤2，基于步骤1获得的每一帧的空间特征，构建令牌特征序列；包括：

式中：

toten_t表示基于步骤1获得的每一帧的空间特征构成的令牌特征序列，其中t∈{0,…,-T}，

表示实数域；

式中：

Concact(·)表示将两个张量按照某一维度进行拼接的操作，

步骤2.3，在第二嵌入特征序列的基础上额外嵌入位置编码，得到令牌特征序列X₀；将位置编码/>加入第二嵌入特征序列/>使其保持位置信息，得到令牌特征序列，以如下公式表示，

式中：

X₀表示令牌特征序列；

2.根据权利要求1所述的在线行为识别模型训练、检测方法，其特征在于：

步骤3具体包括：

步骤3.2，解码器用于预测当前时刻到未来时刻的行为，其中解码器输入为未来1时刻到/>时刻的视频帧令牌特征序列/>解码器输出为/>

式中：

Avg-pool表示平均池化操作，

W_c表示分类全连接层参数，

C为类别数量；

步骤3.4，除了估计的当前动作外，还输出下一个时间步长的预测特征，由于离线训练时有未来信息，为了保证学习到好的特征表达，还对未来预测特征进行了有监督的训练，以如下公式表示，

式中：

表示下一个/>时间步长的预测特征。

3.根据权利要求2所述的在线行为识别模型训练、检测方法，其特征在于：

步骤3中，编码器采用标准Transformer编码器结构，解码器采用标准Transformer解码器结构。

4.根据权利要求1至3中任一项所述的在线行为识别模型训练、检测方法，其特征在于：

式中：

y₀表示当前帧f₀的行为类别真值，

CE为交叉熵损失，

为未来帧i的真实行为分类，/>为解码器对未来帧i的行为分类预测，

λ是平衡因子。

5.一种在线行为识别模型训练、检测系统，运行如权利要求1至4中任一项所述的在线行为识别模型训练、检测方法，包括：视频采集模块，模型训练与检测模块和输出模块，其特征在于，

6.如权利要求5所述的在线行为识别模型训练、检测系统，其特征在于：

模型训练与检测模块包括模型训练单元和检测单元，其中，

7.如权利要求5或6所述的在线行为识别模型训练、检测系统，其特征在于：

模型训练单元，还用于当前时刻视频帧及过去T帧视频帧输入Transformer编码器，当前时刻至未来时刻视频帧输入Transformer解码器，前向传播计算完成后通过损失函数得到损失，然后通过反向传播迭代更新网络权重，训练结束后即得到在线行为识别模型。