CN116453025A

CN116453025A - 一种缺帧环境下融合时空信息的排球比赛群体行为识别方法

Info

Publication number: CN116453025A
Application number: CN202310528875.8A
Authority: CN
Inventors: 陈志�; 刘洁; 岳文静; 袁强健; 王俊; 王晓晓
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-05-11
Filing date: 2023-05-11
Publication date: 2023-07-18

Abstract

本发明属于计算机视觉、图像处理、群体行为识别等交叉技术领域，公开一种缺帧环境下融合时空信息的排球比赛群体行为识别方法，该方法使用VGG16网络处理输入的排球视频帧序列得到全局特征，然后把特征向量和个体边框输入到RoiAlign层，得到个体特征，将个体特征输入推理网络得到初始群体特征和个体时空交互特征，得到原始特征，将原始特征输入至时空Transformer模块进行时空交互信息的建模，通过推理网络模块处理有效改善不连续特征过渡的复杂性。本发明能够完成对时空依赖关系进行整体建模，降低缺少帧带来的影响，捕获个体的复杂交互关系，有效提高排球比赛群体行为识别能力。

Description

一种缺帧环境下融合时空信息的排球比赛群体行为识别方法

技术领域

本发明属于计算机视觉、图像处理、群体行为识别等交叉技术领域，具体的说是涉及一种缺帧环境下融合时空信息的排球比赛群体行为识别方法。

背景技术

群体行为识别通常是指对同一场景下的多人参与的整体活动进行识别，具有丰富的应用领域，包括体育赛事分析、社交场景理解和社会关系识别等。群体行为识别与动作识别方法不同，群体活动识别的关键在于对场景中个体交互关系进行时空建模，以此获得群体活动表示。由于受到不同环境干扰，视频容易出现帧丢失问题，增加了场景内空间和时间信息过渡的复杂性。在缺帧环境下，直接依靠个体之间的时空关系无法准确地判断群体行为，因为个体行为、位置和交互关系是不断变化的，并且是不连续的。

传统的方法都是手工提取特征，然后经过概率图模型处理来推断群体活动。近期一些研究人员利用长短时记忆神经网络从时序角度对群体行为进行处理的识别模型进行群体行为识别，以及使用循环神经网络(RNN)对个体特征进行建模，但是需要大量的计算成本；对于层次LSTM模型，只体现出时序关系而忽略了个体的空间关系。后来一些方法开始应用基于注意力机制的方法来建模个体关系，以推断群体活动，比如利用注意力机制分别捕获空间和时间上的自我注意；在一些新工作中又使用标准Transformer编码器来提取特征，在不考虑时间动态信息的情况下选择性地提取空间角色关系，但是上述方法要么将时空信息分解，要么只是简单融合时空信息，并没有结合时空交互关系。

目前并没有一个有效方法解决缺帧环境下的群体行为识别问题，因此，设计一个可以在缺帧环境下融合时空信息的方法尤为重要。

发明内容

为了解决上述技术问题，本发明提供了一种缺帧环境下融合时空信息的排球比赛群体行为识别方法，该方法首先从一段不连续的排球比赛视频序列中提取特征，将特征向量输入至推理网络推断初始单体交互特征以弥补丢失的特征信息，最终输入至基于自注意力机制的时空Transformer，实现对时空关系进行整体建模，以此来提高排球比赛群体行为识别能力。

为了达到上述目的，本发明是通过以下技术方案实现的：

本发明是一种缺帧环境下融合时空信息的排球比赛群体行为识别方法，包括如下步骤：

步骤1)输入一段不连续的排球比赛视频序列；

步骤2)对步骤1获取到的排球比赛视频序列使用VGG16网络提取特征，VGG16模型的最后一层的输出作为特征表示，可以作为全局特征；

步骤3)把个体边框信息和获取到的全局特征输入到RoiAlign网络模块，该模块会根据输入的边框信息得到每张图中全部的个体特征；

步骤4)将个体特征输入推理网络得到初始群体特征和细化后的个体时空交互特征，使用FC层进行特征映射，得到的结果称为原始特征；

步骤5)将提取的原始特征输入时空Transformer模块进行时空交互信息的建模，完成时空依赖关系的整体建模；

步骤6)对步骤5)和步骤4)采用了残差连接将最后的输出特征和原始特征进行融合，使用群体分类层得到最后的识别结果。

本发明的进一步改进在于：步骤3)提取图中个体特征具体包括以下步骤：

步骤31)输入图像和区域坐标，根据RoiAlign的大小和位置从卷积特征图中裁剪出相应的子区域；

步骤32)将步骤31)将RoiAlign子区域分成网格，并计算每个网格的位置，通过双线性插值在每个网格上计算出RoiAlign子区域内的像素值；

步骤33)将每个网格内的像素值作为RoiAlign子区域内相应位置的特征值，所有网格的特征值堆叠在一起，形成一个固定大小的特征映射；

步骤34)返回该特征映射并作为个体特征。

本发明的进一步改进在于：步骤4)获取初始群体特征和细化后的个体时空交互特征包括以下步骤：

步骤41)首先该网络会根据空间位置信息和时间步长初始化一个时空交互图，图中每个个体相邻的区域称为时空交互域；

步骤42)随着网络的推理运行会对于图中个体的交互域会预测出一个关系矩阵来代表交互关系，而且推理模块的输出特征包含了时空信息；在推理过程中，通过点积和归一化计算两个个体的关系，对于某个个体交互域中的全部个体关系进行更新，最后使用/>表示输出的特征。公式如下：

其中R_t,k表示个体关系，X_t表示时间特征，W_k表示权重参数矩阵，K是交互域的大小，σ表示ReLU激活函数，r_i,j表示成对的个体关系，w_i与w_j为权重参数矩阵，与/>为个体特征，R_i,j表示个体关系，N代表个体数；

步骤43)通过全局时空池化得到初始群体特征表示。

本发明的进一步改进在于：所述步骤5)包括以下步骤：

步骤51)输入原始特征之前进行位置编码，将位置信息嵌入到输入序列中，边界框的中心点位置表示每个参与者的空间位置信息，并用PE函数对空间位置进行编码，公式如下；

其中，PE为二维矩阵，pos表示参与者的位置，D表示参与者的特征维度，i为向量维度，然后直接将位置编码与原始特征拼接表示输入；

步骤52)将包含位置信息的特征输入空间Transformer网络模块对个体的空间和外观特征进行建模，空间Transformer网络中每层有一个多头注意层和一个前馈层，对于其中一个注意头的计算公式如下：

Y^s＝U^s+M^*s

其中维度均是R^D×D，在每个节点上应用一个共享三层前馈神经网络，改进基于学习节点特征的预测，等式M^*s＝X^*s+M^s是残差连接，/>是三层权重矩阵，最后融合特征得到Y^s，S^s表示动态空间依赖关系，U^s代表空间特征，Y^s表示最终的融合特征，Q^s、K^s和V^s表示查询、键和值三个矩阵；

步骤5-3、将包含位置信息的特征做最大池化处理获得时序特征，然后输入时序Transformer网络模块完成时空信息的建模，时序Transformer网络由多层组成，每层有两个子层，一个多头注意层和一个前馈层，对于其中一个注意头的计算公式为：

X^*t＝G_t([X^T,D^T])∈R^T×N×D

Y^T＝U^T+M^*T

其中：X^*t表示时序特征，G_t是一个1×1的卷积层，S^T表示动态时序依赖关系，U^T代表时序特征，Y^T表示最终的融合特征，Q^T、K^T和V^T表示查询、键和值三个矩阵，G_t卷积层在每个时间点生成D维向量，采用自注意力机制对时间依赖性进行建模；在时序Transformers的每一层中可以有效地获得长距离双向时间依赖性，在保持很高的计算效率的同时也很容易扩展到长序列；

步骤54)最后一层加入解码器增强群体行为表示，输入为推理网络输出的初始群体特征表示，融合输出结果实现对群体行为的预测，解码器遵循标准的Transformer解码器。

本发明的进一步改进在于：所述步骤6)包括：

将时空Transformer的输出与推理网络的输出做融合得到最终特征表示，个体损失和群体损失共同组成损失函数，其公式如下：

其中，L₁和L₂代表交叉熵损失函数，y_g和y_a代表群体行为和个体行为预测分数，和/>是代表不同的真实行为标签。

本发明的有益效果是：本发明首先获取一段不连续的排球比赛视频序列，对获取到的视频序列使用骨干网络VGG16进行特征提取，将提取的特征向量输入至推理网络推测初始单体交互特征以弥补丢失的特征信息，最终输入至基于自注意力机制的时空Transformer，实现对时空关系进行整体建模，使用该模型的群体行为识别能够联合提取参与者的时空信息，保证参与者时空信息的一致性，有效增强了排球比赛个体和群体表示，提高了缺帧环境下排球比赛中群体行为识别准确度。

具体来说：

(1)本发明对初始视频序列采用VGG网络完成特征提取，模型的最后一层的输出作为特征表示，并使用RoiAlign层根据输入的边框信息得到每张图中全部的个体特征。

(2)本发明运用推理网络模块对缺帧数据进行处理，推理网络将这些信息以及历史数据结合起来进行推理，对未来的群体行为进行预测。经过网络推理可以弥补丢失的特征信息，并且可以获得具有时空信息的个体交互特征和初始群体行为特征。

(3)本发明运用基于自注意力机制的时空Transformer实现对时空关系进行整体建模。把具有时空信息的特征作为空间Transformer与时序Transformer的输入，完成对时空依赖关系进行整体建模，以捕获个体的复杂交互关系。

附图说明

图1是本发明排球比赛群体行为识别方法流程图。

图2是本发明空间Transformer原理图。

具体实施方式

以下将以图式揭露本发明的实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本发明。也就是说，在本发明的部分实施方式中，这些实务上的细节是非必要的。

如图1-2所示，本发明是一种基于非局部步态特征的多目标跟踪与识别方法，包括以下步骤：

步骤一、输入一段不连续的排球比赛视频序列。

步骤二、对步骤一获取到的排球比赛视频序列使用VGG16网络提取特征，VGG16模型的最后一层的输出作为特征表示，可以作为全局特征。

步骤三、把个体边框信息和步骤二获取到的全局特征输入到RoiAlign网络模块，该模块会根据输入的边框信息得到每张图中全部的个体特征。

其中，RoiAlign网络模块提取图中个体特征具体包括以下步骤：

步骤31、输入图像和区域坐标，根据RoiAlign的大小和位置从卷积特征图中裁剪出相应的子区域；

步骤32、将RoiAlign子区域分成网格，并计算每个网格的位置，通过双线性插值在每个网格上计算出RoiAlign子区域内的像素值；

步骤33、将每个网格内的像素值作为RoiAlign子区域内相应位置的特征值，所有网格的特征值堆叠在一起，形成一个固定大小的特征映射；

步骤34、返回该特征映射并作为个体特征。

步骤四、将个体特征输入推理网络得到初始群体特征和细化后的个体时空交互特征，使用FC层进行特征映射，得到的结果称为原始特征。

其中，将个体特征输入推理网络得到初始群体特征和细化后的个体时空交互特征具体包括以下步骤：

步骤41、首先该网络会根据空间位置信息和时间步长初始化一个时空交互图，图中每个个体相邻的区域称为时空交互域；

步骤42、随着网络的推理运行会对于图中个体的交互域会预测出一个关系矩阵来代表交互关系，而且推理模块的输出特征包含了时空信息；在推理过程中，通过点积和归一化计算两个个体的关系，对于某个个体交互域中的全部个体关系进行更新，最后使用/>表示输出的特征。公式如下：

步骤43、通过全局时空池化得到初始群体特征表示。

步骤五、将提取的原始特征输入时空Transformer模块进行时空交互信息的建模，完成时空依赖关系的整体建模，具体包括以下步骤：

步骤51、输入原始特征之前进行位置编码，将位置信息嵌入到输入序列中，边界框的中心点位置表示每个参与者的空间位置信息，并用PE函数对空间位置进行编码，公式如下；

其中，PE为二维矩阵，pos表示参与者的位置，D表示参与者的特征维度，i为向量维度。然后直接将位置编码与原始特征拼接表示输入；

步骤52、将包含位置信息的特征输入空间Transformer网络模块对个体的空间和外观特征进行建模，空间Transformer网络中每层有一个多头注意层和一个前馈层，对于其中一个注意头的计算公式如下：

Y^s＝U^s+M^*s

X^*t＝G_t([X^T,D^T])∈R^T×N×D

Y^T＝U^T+M^*T

步骤54、最后一层加入解码器增强群体行为表示，输入为推理网络输出的初始群体特征表示，融合输出结果实现对群体行为的预测，解码器遵循标准的Transformer解码器。

步骤六、采用了残差连接将最后的输出特征和原始特征进行融合，使用群体分类层得到最后的识别结果，具体为：将时空Transformer的输出与推理网络的输出做融合得到最终特征表示，个体损失和群体损失共同组成损失函数，其公式如下：

本发明能够完成对时空依赖关系进行整体建模，降低缺少帧带来的影响，捕获个体的复杂交互关系，有效提高排球比赛群体行为识别能力。

以上所述仅为本发明的实施方式而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等，均应包括在本发明的权利要求范围之内。

Claims

1.一种缺帧环境下融合时空信息的排球比赛群体行为识别方法，其特征在于：所述识别方法包括以下步骤：

步骤1、输入一段不连续的排球比赛视频序列；

步骤2、对步骤1获取到的排球比赛视频序列使用VGG16模型提取特征，所述VGG16模型的最后一层的输出作为特征表示，作为全局特征；

步骤3、对步骤2把个体边框信息和获取到的全局特征输入到RoiAlign网络模块，所述RoiAlign网络模块根据输入的个体边框信息得到每张图中全部的个体特征；

步骤4、将步骤3得到的个体特征输入推理网络得到初始群体特征和细化后的个体时空交互特征，使用全连接层(FC)进行特征映射，得到原始特征；

步骤5、对步骤4将提取的原始特征输入时空Transformer模块进行时空交互信息的建模，完成时空依赖关系的整体建模，得到输出特征；

步骤6、采用了残差连接将步骤5得出的输出特征和步骤4得出的原始特征进行融合，使用群体分类层得到最后的识别结果。

2.根据权利要求1所述的一种缺帧环境下融合时空信息的排球比赛群体行为识别方法，其特征在于：步骤3提取图中全部的个体特征具体包括以下步骤：

步骤3-1、输入图像和区域坐标，根据所述RoiAlign网络模块的大小和位置从卷积特征图中裁剪出相应的子区域；

步骤3-2、将步骤3-1裁剪出的子区域分成网格，并计算每个网格的位置，通过双线性插值在每个网格上计算出RoiAlign子区域内的像素值；

步骤3-3、将步骤3-2得到的每个网格内的像素值作为RoiAlign子区域内相应位置的特征值，所有网格的特征值堆叠在一起，形成一个特征映射；

步骤3-4、返回所述步骤3-3的特征映射并作为个体特征。

3.根据权利要求1所述的一种缺帧环境下融合时空信息的排球比赛群体行为识别方法，其特征在于：步骤4获取初始群体特征和细化后的个体时空交互特征包括以下步骤：

步骤4-1、首先所述推理网络根据空间位置信息和时间步长初始化一个时空交互图，图中每个个体相邻的区域称为时空交互域；

步骤4-2、随着所述推理网络的推理运行会对于图中个体的交互域预测出一个关系矩阵来代表交互关系，推理模块的输出特征包含了时空信息，在推理过程中，通过点积和归一化计算两个个体的关系，对于某个个体交互域中的全部个体关系进行更新，最后使用/>表示输出的特征，公式如下：

步骤4-3、通过全局时空池化得到初始群体特征表示。

4.根据权利要求1所述的一种缺帧环境下融合时空信息的排球比赛群体行为识别方法，其特征在于：所述步骤5包括以下步骤：

步骤5-1、输入原始特征之前进行位置编码，将位置信息嵌入到输入序列中，边界框的中心点位置表示每个参与者的空间位置信息，并用PE函数对空间位置进行编码，公式如下：

步骤5-2、将步骤5-1中包含位置信息的特征输入空间Transformer网络模块对个体的空间和外观特征进行建模，空间Transformer网络中每层有一个多头注意层和一个前馈层，对于其中一个注意头的计算公式如下：

M^s＝S^sV^s

Y^s＝U^s+M^*s

X^*t＝G_t([X^T,D^T])∈R^T×N×D

M^T＝S^TV^T

Y^T＝U^T+M^*T

其中：X^*t表示时序特征，G_t是一个1×1的卷积层，S^T表示动态时序依赖关系，U^T代表时序特征，Y^T表示最终的融合特征，Q^T、K^T和V^T表示查询、键和值三个矩阵，G_t卷积层在每个时间点生成D维向量，采用自注意力机制对时间依赖性进行建模；

步骤5-4、最后一层加入解码器增强群体行为表示，输入为推理网络输出的初始群体特征表示，融合输出结果实现对群体行为的预测，解码器遵循标准的Transformer解码器。

5.根据权利要求1所述的一种缺帧环境下融合时空信息的排球比赛群体行为识别方法，其特征在于：步骤6采用了残差连接将输出特征和原始特征进行融合，使用群体分类层得到最后的识别结果具体为：