CN116189281B

CN116189281B - 基于时空自适应融合的端到端人体行为分类方法及系统

Info

Publication number: CN116189281B
Application number: CN202211595034.0A
Authority: CN
Inventors: 田卉; 金�一; 贾万豪; 王旭; 李浥东
Original assignee: Beijing Jiaotong University; China Mobile Xiongan ICT Co Ltd; China Mobile System Integration Co Ltd
Current assignee: Beijing Jiaotong University; China Mobile Xiongan ICT Co Ltd; China Mobile System Integration Co Ltd
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2024-04-02
Anticipated expiration: 2042-12-13
Also published as: CN116189281A

Abstract

本发明提供基于时空自适应融合的端到端人体行为分类方法及系统，属于计算机识别技术领域，获取待分类行为的多个图像；利用基于时空自适应融合的端到端人体行为分类模型对多个图像进行处理，得到行为特征图像，基于时空自适应融合的端到端人体行为分类模型根据基于时空自适应融合的端到端人体行为分类模型训练方法训练得到。本发明在网络结构上控制了计算复杂度和参数量，后期轻量化过程减少了特征在时间和空间维度上的关键信息丢失，保证模型在性能和效率之间的平衡；针对时间维度上的特征通道自适应剪枝，根据情况挑选保留、丢弃和复用的通道，减少了参数量；针对不同行为对象关系建模的自适应剪枝，减少模型在空间维度上的计算复杂度和参数量。

Description

基于时空自适应融合的端到端人体行为分类方法及系统

技术领域

本发明涉及计算机识别技术领域，具体涉及一种基于时空自适应融合的端到端人体行为分类方法及系统。

背景技术

针对解决复杂行为识别任务，现有方案中，绝大多数采用二维或三维卷积神经网络提取视频特征，再利用深度学习的方法训练网络模型，最终利用训练好的模型得到预测结果。

在采用了二维卷积神经网络的方案中，有基于双流模型结构的方案，通过使用卷积神经网络分别处理RGB图片帧数据和光流数据，再将得到的两组特征数据进行融合，进行模型训练或预测；另一种方案是先利用二维卷积神经网络提取每一帧的图片特征，再利用其它不同的聚合模块对这些图片数据进行时间因果建模，例如TSN网络。

在采用了三维卷积神经网络的方案中，如，SlowFast模型，它跟双流模型结构相似，不同点是利用三维卷积主干特征提取模块对视频帧中的高频数据和低频数据进行特征提取，再进行特征融合，以便区分行为主体和背景，从而提升识别效果；另一种方案，如Video Transformer，是引入区域建议网络(Region Proposal Network,RPN)先找出特征图中的行为主体,再利用其它方法对这些行为主体特征进行时空维度建模，目的是利用不同行为主体之间和环境背景之间的的联系，从而进一步提升行为识别效果。引入三维卷积网络的目的是为了在提取视频特征时，更好地对数据的时间和空间维度进行联合建模，但这样会增大模型的参数量，并且对于一些以行为主体为中心建模的网络，RPN的加入会使模型计算量和参数进一步增大，以上这些问题会损害模型的高效性。

综上，现有的方案要么通常将三维卷积分解为二维空间卷积和一维时间卷积来降低计算复杂度，要么使用通道分离后的卷积神经网络，或者选取包含显著特征的图片帧作为输入。这些方案针对模型的输入数据或特征结构加以改变来减小模型的计算复杂度和参数量，但它们忽略了视频数据特征在时空维度上的关联性，并且常常删除了一些可以复用的重要特征信息，导致行为识别模型的准确率有所损失。并且，采用关联行为主体的模型在对主体关系进行建模时，将所有不同主体的特征全部用于计算，这会大大增加模型的参数量，且现在鲜有方案解决这个问题。对于模型的网络结构，现如今大多数性能优越的行为分析框架都采用了三维卷积神经网络提取视频特征，并且以行为主体为中心建模，然而这种架构要么将行为检测任务分成目标定位和行为分类两个阶段，要么在单阶段里训练两个分离的模型，这会让模型的参数量大，计算复杂度高。对于特征数据结构，通过分离特征图通道或采用维度不同的卷积分别处理输入数据的时间和空间维度来降低模型参数量，或是设计负责对特征图在特定维度上的剪枝模块，伴随模型的训练和预测，例如AdaFuse模型，然而这些方法忽略了视频数据特征在时空维度上的关联性，并且常常在轻量化的过程中删除了一些可以复用的重要特征信息，会导致行为识别模型的准确率有所损失。

发明内容

本发明的目的在于提供一种在降低了计算复杂度和参数量的同时，保证了识别精度的基于时空自适应融合的端到端人体行为分类方法及系统，以解决上述背景技术中存在的至少一项技术问题。

为了实现上述目的，本发明采取了如下技术方案：

一方面，本发明提供一种基于时空自适应融合的端到端人体行为分类模型训练方法，包括：

获取训练数据；所述训练数据包括多张图像以及标注图像中行为分布特征；所述行为分布特征指示至少一个行为在所述标注图像中的位置分布；

基于训练数据对行为分类模型进行训练；其中，

所述行为分类模型包括主干特征提取网络、特征解耦融合网络和分类网络；其中，所述主干特征提取网络用于提取所述多个图像的行为类别特征和位置特征，得到三维特征图；所述特征解耦融合网络用于对所述三维特征图分别在时间维度和空间维度上进行全局平均池化后，分别编码空间属性和时间尺度属性，再进行融合得到融合特征图；所述分类网络用于对所述融合特征图进行分类，得到所述融合特征图中各个通道的行为分类，并根据各个通道的行为分类，进行归一化处理，得到标注图像在单通道的行为分布特征。

优选的，所述主干特征提取网络包括特征金字塔单元、目标定位单元和对齐操作单元；所述特征金字塔单元用于提取图像的关键帧特征；所述目标定位单元用于将特征金字塔层的输出作为输入，提取图像的锚框位置信息；所述对齐操作单元用于将目标定位层的输出作为输入，提取包含行为主体的建议框，再分别进行对齐操作，得到所述三维特征图。

优选的，所述特征解耦融合模块包括特征解耦单元、第一特征编码单元、第二特征编码单元以及特征融合单元；所述特征解耦单元用于对所述三维特征图分别在空间维度和时间维度上进行全局平均池化，分别得到时间维度特征图和空间维度特征图；所述第一特征编码单元用于对所述时间维度特征图编码时间尺度属性特征；所述第二特征编码单元用于对空间维度特征图编码空间属性特征；所述特征融合单元用于对编码后的时间维度特征图和空间维度特征图进行融合。

优选的，所述特征融合单元对编码后的空间维度特征图和时间维度特征图进行融合包括：分别将时间维度特征图和空间维度特征图进行卷积操作调整通道数后，进行拼接得到第一矩阵特征图，然后再次卷积提取特征得到第二矩阵特征图，第二矩阵特征图经过reshape操作后得到第三矩阵特征图，将第三矩阵特征图和其转置相乘得到格拉姆矩阵，使用softmax层生成通道注意图矩阵，将通道注意图矩阵与第三矩阵特征图相乘，与第二矩阵特征图结合得到第四矩阵特征图，再卷积提取特征输出最终融合特征图。

优选的，所述特征解耦单元还包括时间特征通道自适应剪枝网络层，用于对所述编码后的时间维度特征图进行挑选保留、删除和复用的时间维度通道，输出时间特征。

优选的，所述特征解耦单元还包括行为对象关系建模自适应剪枝网络层，用于对所述空间属性特征中关联性强的对象特征进行通道分组拼接，得到关系特征向量。

优选的，所述行为分布特征指示至少一个行为在所述标注图像中的像素分布，每个行为对应于连通的像素区域。

第二方面，本发明提供一种基于时空自适应融合的端到端人体行为分类模型训练系统，包括：

获取模块，用于获取训练数据；所述训练数据包括多张图像以及标注图像中行为分布特征；所述行为分布特征指示至少一个行为在所述标注图像中的位置分布；

训练模块，用于基于训练数据对行为分类模型进行训练；其中，

第三方面，本发明提供一种基于时空自适应融合的端到端人体行为分类方法，包括：

获取待分类行为的多个图像；

利用基于时空自适应融合的端到端人体行为分类模型对所述多个图像进行处理，得到行为特征图像，所述基于时空自适应融合的端到端人体行为分类模型根据第一方面所述的模型训练方法训练得到。

第四方面，本发明提供一种基于时空自适应融合的端到端人体行为分类方法，包括：

获取针对目标群体采集的视频帧序列，所述目标群体中包括多个主体；

利用基于时空自适应融合的端到端人体行为分类模型对所述视频帧序列进行处理，得到所述多个主体各自的行为与所述视频帧序列中多个视频帧对应的位置分布；

基于与所述多个视频帧对应的位置分布，确定所述多个主体的行为，其中，所述基于时空自适应融合的端到端人体行为分类模型根据第一方面所述的模型训练方法训练得到。

第五方面，本发明提供一种基于时空自适应融合的端到端人体行为分类系统，包括：

获取模块，用于获取待分类行为的多个图像；

分类模块，用于利用基于时空自适应融合的端到端人体行为分类模型对所述多个图像进行处理，得到行为特征图像，所述基于时空自适应融合的端到端人体行为分类模型根据第一方面所述的模型训练方法训练得到。

第六方面，本发明提供一种基于时空自适应融合的端到端人体行为分类系统，包括：

获取模块，用于获取针对目标群体采集的视频帧序列，所述目标群体中包括多个主体；

分类模块，用于利用基于时空自适应融合的端到端人体行为分类模型对所述视频帧序列进行处理，得到所述多个主体各自的行为与所述视频帧序列中多个视频帧对应的位置分布；基于与所述多个视频帧对应的位置分布，确定所述多个主体的行为，其中，所述基于时空自适应融合的端到端人体行为分类模型根据第一方面所述的模型训练方法训练得到。

第七方面，本发明提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现如第一方面所述的基于时空自适应融合的端到端人体行为分类模型训练方法。

第八方面，本发明提供一种计算机程序产品，包括计算机程序，所述计算机程序当在一个或多个处理器上运行时，用于实现如第一方面所述的基于时空自适应融合的端到端人体行为分类模型训练方法。

第九方面，本发明提供一种电子设备，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现如第一方面所述的基于时空自适应融合的端到端人体行为分类模型训练方法的指令。

第十方面，本发明提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现如第三方面或第四方面所述的基于时空自适应融合的端到端人体行为分类方法。

第十一方面，本发明提供一种计算机程序产品，包括计算机程序，所述计算机程序当在一个或多个处理器上运行时，用于实现第三方面或第四方面所述的基于时空自适应融合的端到端人体行为分类方法。

第十二方面，本发明提供一种电子设备，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现如第三方面或第四方面所述的基于时空自适应融合的端到端人体行为分类方法的指令。

本发明有益效果：对三维视频特征图进行解耦融合，更少的丢失特征在时间和空间维度上的关键信息，保证模型在性能和效率之间的平衡；针对时间维度上的特征通道进行自适应剪枝，使其在模型计算的过程中，根据情况挑选保留、丢弃和复用的通道，合理地减少了参数量；针对不同行为对象关系进行自适应剪枝模块，减少模型在空间维度上的计算复杂度和参数量。

本发明附加方面的优点，将在下述的描述部分中更加明显的给出，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所述的基于时空自适应融合的端到端人体行为分类方法流程示意图。

图2为本发明实施例所述的联合主干特征提取网络结构示意图。

图3为本发明实施例所述的特征解耦融合模块网络结构图。

图4为本发明实施例所述的特征编码模块网络结构图。

图5为本发明实施例所述的Gram特征聚合模块网络结构图。

图6为本发明实施例所述的时间特征通道自适应模块结构图。

图7为本发明实施例所述的行为对象关系建模轻量化模块结构图。

图8为本发明实施例所述的电子设备结构示意图。

具体实施方式

下面详细叙述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。

还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

为便于理解本发明，下面结合附图以具体实施例对本发明作进一步解释说明，且具体实施例并不构成对本发明实施例的限定。

本领域技术人员应该理解，附图只是实施例的示意图，附图中的部件并不一定是实施本发明所必须的。

实施例

本实施例的方案，可以适用于任意适当的具有数据处理能力的电子设备，包括但不限于：服务器、移动终端(如手机、PAD等)和PC机等。例如，在模型训练(training)阶段，可以利用配置有CPU(处理单元的示例)+GPU(加速单元的示例)架构的计算设备(例如，数据中心)基于训练样本对编码器解码器模型进行训练。诸如数据中心的计算设备可以部署在诸如专有云、私有云、或混合云的云服务器中。相应地，在推理(inference)阶段，也可以利用配置有CPU(处理单元的示例)+GPU(加速单元的示例)架构的计算设备进行推理运算。

如图1所示基于时空自适应融合的端到端人体行为分类模型训练方法，包括：

步骤1：获取训练数据；所述训练数据包括多张图像以及标注图像中行为分布特征；所述行为分布特征指示至少一个行为在所述标注图像中的位置分布。

在具体应用中，多个图像可以是基于至少一个行为关联的多个图像，例如，属于拍摄了至少一个行为的视频中的多个视频帧。多个视频帧可以为视频的全部视频帧中的随机抽取的多个视频帧，也可以为全部视频帧中间隔相同视频帧数目抽取的多个视频帧。优选地，作为训练数据的多个视频帧形成视频帧序列，视频帧序列的首帧和尾帧对应于动作的起始状态和结束状态。所述的位置分布可以为基于像素位置的分布，也可以为基于网格位置的分布，例如，每个网格可以包括多个像素。

标签图像可以为一个图像，也可以为多个图像。优选地，标签图像为一个图像，在一个示例中，标签图像的两个维度的像素数与多个图像的两个维度的像素数目相同；在另一示例中，标签图像的两个维度的网格数与多个图像的两个维度的像素数目相同。

例如，至少一个行为包括行为类型A、B和C，且行为类型A、B和C涵盖了一个像素或网格所有可能的行为类型，例如，行为类型A表示无动作，行为类型B表示慢速移动，行为类型C表示快速移动。这时，行为分布特征指示行为类型A、B和C在标签图像的各个像素和各个网格中的分布情况。换言之，行为分布特征反映了标签图像中的一位置与一行为类型之间的相关性。

步骤2：基于训练数据对行为分类模型进行训练；其中，

应理解，为了在网络结构上控制计算复杂度和参数量，本实施例采用了一种端到端的联合框架来同时提取用于训练和预测的行为类别和目标位置的特征，此框架不包括任何后处理，不引入任何额外模型实现特定功能。在一些先前的视频主干特征提取网络中，由于使用了对时间维度上的池化操作或三维卷积操作，关键帧特征通常会和邻近帧特征相互影响，这会给关键帧特征施加一些不期望得到的干扰，为了解决这个问题，本实施例方案的主干特征提取网络会在针对时间维度的操作之前，把关键帧孤立，之后在插入回原始位置。

还应理解，所述的行为分类模型可以构建为诸如卷积神经网络、前馈神经网络等深度神经网络。

如图2所示，展示了此主干特征提取网络的大致结构。所述主干特征提取网络包括特征金字塔单元、目标定位单元和对齐操作单元；所述特征金字塔单元用于提取图像的关键帧特征；所述目标定位单元用于将特征金字塔层的输出作为输入，提取图像的锚框位置信息；所述对齐操作单元用于将目标定位层的输出作为输入，提取包含行为主体的建议框，再分别进行对齐操作，得到所述三维特征图。

图2中，关键帧数据被标记，同时，为了在不引入额外模型的前提下提取行为主体的位置信息，此方案采用了特征金字塔结构对关键帧特征进行提取，如图2所示，特征金字塔结构采用了每层特征图中的关键帧作为输入，然后目标定位模块(目标定位单元)会利用金字塔结构的输出特征作为输入提取行为主体的建议框，行为分类模块会利用网络最后一层的输出特征图在经过视频特征解耦编码融合后做行为分类。采用特征金字塔结构有许多优点：第一，目标定位模块采用了来自不同层级的特征作为源特征，这一点已被证明是有利于目标检测任务的；第二，特征金字塔结构采用了被孤立后的关键帧特征作为输入，避免了随着模型结构层次加深，关键帧特征被相邻特征影响的问题；第三，与现存的双主干特征提取网络相比，特征金字塔结构没有给模型带来更多的参数量和计算量。

为了避免目标定位的复杂后处理，如非极大抑制(NMS)等，此目标定位模块采用了二部图匹配算法来监督模型。之后，主干网络中的对齐操作单元会利用目标定位模块输出的锚框位置信息在网络的最后一层特征图上截取包含行为主体的建议框，再将这些建议框特征分别进行RoI对齐操作得到最终用于分类的特征图。此外，通过对包括主干特征提取网络和分类网络的行为分类模型，学习到了各个图像与标注图像直接的内在联系，由于行为分布特征指示至少一个行为在标签图像中的位置分布，因此，训练后的行为分类模型能够对至少一个行为执行有效且可靠的行为分类。

由于端到端的行为分析模型融合了目标定位和分类两大任务，所以用于监督该模型的目标函数也应该由两部分组成，该目标函数可表示为：

L＝λ_cls·L_cls+λ_L1·L_L1+λ_giou·L_giou+λ_act·L_act； (1)

该目标函数的第一部分负责监督目标定位的相关损失，该部分会输出预测框和真实框之间的最佳二分匹配。其中，L_cls表示二分类的交叉熵损失，用于判别建议框是否包含目标，L_L1和L_giou表示用于监督预测框和真实框之间顶点坐标距离和交并比损失。目标函数的第二部分用于监督目标行为类别，L_act表示二元交叉熵损失。λ_cls、λ_L1、λ_giou、λ_act为用于平衡对应损失的权重标量。

在另一些实例中，所述特征解耦融合模块包括特征解耦单元，所述特征解耦单元用于对所述三维特征图分别在空间维度和时间维度上进行全局平均池化，分别得到时间维度特征图和空间维度特征图。

主干特征提取网络对输入数据进行处理后，会输出三维特征图和目标位置信息。经过实验验证，如果直接将三维特征图和目标位置信息应用到模型的训练和预测中，会导致模型更偏向于目标行为定位任务而忽视行为分类任务，从而导致定位效果好而分类效果差，解决这个问题的一个直接方法就是增强分类任务所需特征在时间和空间上的区分度，此外，由于三维特征数据的时间维度和空间维度彼此有很强的相关性，对其中任何一个维度的操作势必会影响另一个维度，因此，考虑到上述两个方面，本方案针对三维特征图设计了一种在时空维度上拆分、编码、融合的机制，如图3所示。

图3中，主干特征提取网络根据目标建议框区域裁剪并经过RoI Align操作后输出的三维特征图C，利用特征解耦单元将其对时间维度做全局平均池化后可以得到空间行为特征，同理，对空间维度做全局平均池化后可以得到时间行为特征。为了获取更有区分度的特征，需要将得到的空间和时间特征附加上编码信息，以便丰富特征的实例属性，对于空间维度，编码操作的意图是将特征中与空间有关的属性融合，如形态、姿势等；对于时间维度，编码操作会把行为的时间尺度等属性融合。

在另一些实例中，所述特征解耦融合模块还包括第一特征编码单元、第二特征编码单元，利用第一特征编码单元对所述时间维度特征图编码时间尺度属性特征；利用第二特征编码单元对空间维度特征图编码空间属性特征。

第一特征编码单元、第二特征编码单元的编码操作结构如图4所示。

如图4所示，特征编码单元利用随机初始化的向量输入到全连接层中，利用矩阵乘法后的输出向量再经过一次全连接，得到1×1维的目标数据，最后，将此数据与拆分好的空间或时间特征做卷积操作，就完成了编码操作。这里的编码数据也是模型中的可训练数据。

在另一些实例中，所述特征解耦融合模块还包括特征融合单元，所述特征融合单元用于对编码后的时间维度特征图和空间维度特征图进行融合。原始三维特征图在经过解耦拆分和编码操作后，需要再次融合才能被应用于模型的训练和预测。本方案采用了三种不同的融合策略：求和、拼接和基于格拉姆(Gram)矩阵的特征聚合模块。其中，求和操作就是把时间和空间特征在对应维度上做矩阵加法操作，拼接就是单纯地将两个特征存储在同一矩阵中，最后，融合好的特征需要输入到全连接层中得到最终用于训练或预测的特征向量，而基于格拉姆矩阵的特征聚合模块利用注意力机制来映射通道间的依赖关系，此方法虽然引入了额外参数量，但对提升模型识别准确率有很大的效果。

所述特征融合单元对编码后的空间维度特征图和时间维度特征图进行融合包括：分别将时间维度特征图和空间维度特征图进行卷积操作调整通道数后，进行拼接得到第一矩阵特征图，然后再次卷积提取特征得到第二矩阵特征图，第二矩阵特征图经过reshape操作后得到第三矩阵特征图，将第三矩阵特征图和其转置相乘得到格拉姆矩阵，使用softmax层生成通道注意图矩阵，将通道注意图矩阵与第三矩阵特征图相乘，与第二矩阵特征图结合得到第四矩阵特征图，再卷积提取特征输出最终融合特征图。

具体的，如图5所示，时间维度特征图和空间维度特征图在分别经过大小为1×1的卷积核的卷积操作调整通道数后，进行拼接得到矩阵A(即第一矩阵特征图)，接着使用2个2D卷积提取特征输出矩阵B(即第二矩阵特征图)，矩阵B经过reshape操作后得到矩阵F(即第三矩阵特征图)，将F和其转置相乘可以得到格拉姆矩阵，接着使用softmax层生成通道注意图矩阵M，为了实现注意力映射对原始特征的影响，进一步进行M与F的矩阵乘法，将结果重塑为与输入张量形状相同的三维空间，将此结果与原始输入特征图B结合得到矩阵C(即第四矩阵特征图)，最后使用2个2D卷积提取特征输出最终用于预测的特征矩阵D。Gram矩阵可以看做特征之间的偏心协方差矩阵，在特征图中，每个数字代表一个特征的强度，而Gram矩阵计算的实际上是两两特征之间的相关性，同时，Gram矩阵的对角线元素，还体现了每个特征在图像中出现的量，因此，Gram矩阵有助于把握整个图像的大体风格。有了表示风格的Gram矩阵，要度量两个图像风格的差异，只需比较他们Gram矩阵的差异即可。

值得一提的是，此三维特征解耦融合模块的一个重要意义是它拆分了时间和空间维度并附加对应编码，这为本方案后续对时空维度的轻量化操作提供了条件，使其不用直接对特征图处理，而是采用特征唯一的编码间接地计算，这大大抑制了参数量和计算复杂度的进一步增加。

对时间维度进行建模是轻量化行为分析模型的关键。模型对时间信息的有效利用可以使其提高识别动态行为的准确率，同时移除冗余的时间信息和复用先前特征可以大幅降低计算量。所以，在一些实例中，所述特征解耦单元还包括时间特征通道自适应剪枝网络层，用于对所述编码后的时间维度特征图进行挑选保留、删除和复用的时间维度通道，输出时间特征。时间特征通道自适应剪枝网络层采用了一种自适应时间维度轻量化方法，使其在模型计算生成的新旧特征图中，挑选保留、删除和复用的时间维度通道，减少模型的计算量和参数量，并且，为了在对时间维度特征处理的同时不影响空间维度特征，上述操作均在特征解耦融合模块拆分并编码后的时间特征上进行，时间特征通道自适应剪枝网络层的整体结构如图6所示。

图6中，当前第t层时间特征和t-1层的时间特征分别表示为X_t和X_t-1，且形状均为C×T×1×1，它们分别经过全局平均池化操作得到维度为C的特征向量V_t和V_t-1，经过拼接得到维度为2C的V′_t向量输入到含有两层使用ReLU的激活函数的全连接层输出维度为C的特征向量P_t，此向量中的分量共分为三类：保留、复用和丢弃，可表示为P_t∈{0,1,2}。若P_t ⁱ＝0，则当前特征X_t的第i个通道会被保留，若P_t ⁱ＝1，则X_t的第i个通道会被替换为X_t-1的第i个通道，若P_t ⁱ＝2，则X_t的第i个通道上的数据会被置为零，其中复用的特征通道将不会被模型重复计算，丢弃的特征通道对模型的训练和预测是无贡献的，筛选通道的过程通过P_t分别对X_t和X_t-1进行1×1卷积操作完成，最终此模块输出的是拼接后的时间特征X′_t，并且会为下一层时间特征提供复用通道。

为了在模型轻量化的同时保证行为分析的准确率，本方案用于监督特征通道自适应模块的目标函数由两部分组成，此函数可表示为：

L_t＝λ_act·L_act+λ_flops·L_flops； (2)

上式中的L_act和λ_act分别为式(1)中用于监督目标行为类别的交叉熵损失函数和其对应的权重标量，该部分可用于监督模型行为分析的准确率。上式的L_flops表示模型当前层总共的浮点运算数，λ_flops表示其权重标量，假设模型在第t层上未经过轻量化的原始的计算量为m_t，则L_flops为在经过此模块对时间维度通道的保留、丢弃和复用操作后的计算量为可表示为：

上式中C为特征通道数，当P_t ⁱ为0时表示保留当前特征第i通道的原始计算量，当P_t ⁱ为1时表示复用上一层特征第i通道的原始计算量，当P_t ⁱ为2时，表示丢弃第i通道的计算量，所以不参与计算。

现有的行为分析技术方案表明，对行为对象之间的关系进行建模能够有效提升行为识别的准确率，其中的建模方法大多数都是利用提取到的全部对象特征集，在模型的每一层中遍历计算，这必然会产生大量的冗余参数，并且无关的对象会相互干扰，影响识别效果，所以，在一些实例中，所述特征解耦单元还包括行为对象关系建模自适应剪枝网络层，用于对所述空间属性特征中关联性强的对象特征进行通道分组拼接，得到关系特征向量。本方案行为对象关系建模自适应剪枝网络层采用了一种自适应的行为对象关系建模轻量化方法，使模型在每一层的计算中，将关联性强的对象特征进行分组，避免无关对象特征参与计算，从而减少计算量和参数量。并且，为了提升计算效率，此模块的操作会在特征解耦融合模块中的空间特征编码上进行，行为对象关系建模轻量化模块的结构如图7所示。

图7中，第t层N个对象的1×d维空间特征编码，记作S_t；经过全局平均池化得到1×N维的v_t特征向量，之后输入到含有两层使用ReLU激活函数的全连接层输出维度为1×N的特征向量g_t，此向量中的分量记录了每个空间特征编码的分组下标，假设最终输出G组，则g_t∈{x|0≤x≤G-1,x∈Z}，将根据g_t记录的下标将S_t在对应通道上的向量进行拼接，得到N×G×d维的特征图，缺失的数据用0填充，然后利用指定的关系建模网络对每一组内的向量进行计算，最后对所有组中的向量进行拼接得到S′_t，此向量为最终关系特征向量。

为了有效地根据空间信息对不同行为对象进行分组，本方案设计了一种采用特征相似度、锚框L1距离和交并比三项指标的目标函数监督此轻量化模块，此函数可表示为：

L_s＝λ_L1·L_L1+λ_giou·L_giou-λ_sim·L_sim (4)

上式中的L_L1、L_giou、λ_L1、λ_giou为式(1)中用于监督目标行为类别损失函数的L1距离损失和交并比损失与其权重标量。L_sim表示目标相似度损失，λ_sim表示L_sim的权重标量，两个目标特征的相似度可表示为：

φ(x)＝wx,φ′(x)＝w′x (6)

其中，w为可训练的权重参数，L_sim则可表示为：

其中，τ为相似度阈值常量，若两个目标的相似度小于此阈值，则认定这两个目标不相似，若两个目标的相似度大于等于此阈值，则认定这两个目标属于一组。分组下标根据目标间的最大相似度更新。

下面将描述和说明训练后的行为分类模型的工作逻辑过程，即，行为分类过程。本实施例的方案可以适用于任意适当的具有数据处理能力的电子设备，包括但不限于：服务器、移动终端(如手机、PAD等)和PC机等。在推理(inference)阶段，也可以利用配置有CPU(处理单元的示例)+GPU(加速单元的示例)架构的计算设备进行推理运算。

行为分类过程，包括：

获取待分类行为的多个图像；

利用基于时空自适应融合的端到端人体行为分类模型对所述多个图像进行处理，得到行为特征图像，所述基于时空自适应融合的端到端人体行为分类模型根据上述的模型训练方法训练得到。由于行为分布特征指示至少一个行为在标签图像中的位置分布，因此，训练后的行为分类模型能够对至少一个行为执行有效且可靠的行为分类。

在另一些实例中，行为分类方法用于对群体目标进行行为分类。例如，用于在线视频教学场景中的行为分类识别，或者监测环境场景中的行为分类识别。

用于对群体目标进行行为分类的分类方法，包括：

利用基于时空自适应融合的端到端人体行为分类模型对所述视频帧序列进行处理，得到所述多个主体各自的行为与所述视频帧序列中多个视频帧对应的位置分布；基于与所述多个视频帧对应的位置分布，确定所述多个主体的行为，其中，所述基于时空自适应融合的端到端人体行为分类模型根据上述的模型训练方法训练得到。

应理解，可以采用诸如摄像头的图像采集设备采集视频帧序列，视频采集设备的采集区域限定了多个视频帧的边界。与多个视频帧对应的位置分布可以指示多个主体各自的行为与采集区域的位置分布。

还应理解，由于行为分类模型根据模型训练方法训练得到，因此从模型训练方法输出的特征图像指示多个主体各自的行为与多个视频帧对应的位置分布。

具体地，采集区域的像素或者基于多个像素的区域对应于一行为类型，相应地，基于各个像素或各个区域，可以得到行为的位置分布，即，各个像素或各个区域与行为类型对应的标识。

在一些示例中，行为的位置分布与主体无关，即，来自不同主体的相同的行为对应于相同的行为类型，各个像素或各个区域具有相同的行为类型标识，不包括主体的标识。

在另一些示例中，行为的位置分布可以与主体有关，来自不同主体的相同的行为对应于相同的行为类型，各个像素或各个区域除了具有相同的行为类型标识，还可以包括主体的标识。

更具体地，在线教学场景中的目标群体可以为诸如学生或被培训人员等多个主体，多个主体可以排布为阵列，或者，具有随机的位置排布。本实施例对主体的数量不作限定。

在一个具体的场景中，教师需要知道各个学生的当前行为，在学生的数目较多的情况下，难以注意到所有学生的状态。例如，教师针对问题进行提问，需要学生举手示意主动回答问题，或者，需要学生举手示意对问题的倾向性意见，利用本发明实施例的行为分类方法可以识别到举手学生的分布及位置，教师可以基于举手学生的分别及位置，选择特定学生回答问题，或者，统计倾向性意见的分布。

在另一个具体的场景中，教师对学生进行诸如舞蹈或体育等动作培训，在学生的数目较多的情况下，难以注意到所有学生的状态。例如，教师需要知道对于特定动作而言，学生的完成情况下，或者，学生是否注意力集中，是否按照自己的教学指令去执行动作。这时，利用本发明实施例的行为分类方法可以识别到执行特征动作的学生的分别及位置，以对培训过程进行高效地辅助。

下面将描述与上述模型训练方法和行为识别方法对应的系统。

本实施例的方案可以适用于任意适当的具有数据处理能力的电子设备，包括但不限于：服务器、移动终端(如手机、PAD等)和PC机等。例如，在模型训练(training)阶段，可以利用配置有CPU(处理单元的示例)+GPU(加速单元的示例)架构的计算设备(例如，数据中心)基于训练样本对编码器解码器模型进行训练。诸如数据中心的计算设备可以部署在诸如专有云、私有云、或混合云的云服务器中。相应地，在推理(inference)阶段，也可以利用配置有CPU(处理单元的示例)+GPU(加速单元的示例)架构的计算设备进行推理运算。模型训练系统包括：

在另一些实例中，所述主干特征提取网络包括特征金字塔单元、目标定位单元和对齐操作单元；所述特征金字塔单元用于提取图像的关键帧特征；所述目标定位单元用于将特征金字塔层的输出作为输入，提取图像的锚框位置信息；所述对齐操作单元用于将目标定位层的输出作为输入，提取包含行为主体的建议框，再分别进行对齐操作，得到所述三维特征图。

在另一些实例中，所述特征解耦融合模块包括特征解耦单元、第一特征编码单元、第二特征编码单元以及特征融合单元；所述特征解耦单元用于对所述三维特征图分别在空间维度和时间维度上进行全局平均池化，分别得到时间维度特征图和空间维度特征图；所述第一特征编码单元用于对所述时间维度特征图编码时间尺度属性特征；所述第二特征编码单元用于对空间维度特征图编码空间属性特征；所述特征融合单元用于对编码后的时间维度特征图和空间维度特征图进行融合。

在另一些实例中，所述特征融合单元对编码后的空间维度特征图和时间维度特征图进行融合包括：分别将时间维度特征图和空间维度特征图进行卷积操作调整通道数后，进行拼接得到第一矩阵特征图，然后再次卷积提取特征得到第二矩阵特征图，第二矩阵特征图经过reshape操作后得到第三矩阵特征图，将第三矩阵特征图和其转置相乘得到格拉姆矩阵，使用softmax层生成通道注意图矩阵，将通道注意图矩阵与第三矩阵特征图相乘，与第二矩阵特征图结合得到第四矩阵特征图，再卷积提取特征输出最终融合特征图。

在另一些实例中，所述特征解耦单元还包括时间特征通道自适应剪枝网络层，用于对所述编码后的时间维度特征图进行挑选保留、删除和复用的时间维度通道，输出时间特征。

在另一些实例中，所述特征解耦单元还包括行为对象关系建模自适应剪枝网络层，用于对所述空间属性特征中关联性强的对象特征进行通道分组拼接，得到关系特征向量。

本发明的另一实施例提供的行为分类系统，可以适用于任意适当的具有数据处理能力的电子设备，包括但不限于：服务器、移动终端(如手机、PAD等)和PC机等。在推理(inference)阶段，也可以利用配置有CPU(处理单元的示例)+GPU(加速单元的示例)架构的计算设备进行推理运算。行为分类系统装置包括：

获取模块，获取待识别行为的多个图像。

分类模块，将所述多个图像输入到行为分类模型中，得到行为特征图像，所述行为分类模型根据模型训练方法训练得到。

由于行为分布特征指示至少一个行为在标签图像中的位置分布，因此，训练后的行为识别模型能够对至少一个行为执行有效且可靠的行为识别。

在另一些实例中，提供行为分类系统，包括：

分类模块，用于利用基于时空自适应融合的端到端人体行为分类模型对所述视频帧序列进行处理，得到所述多个主体各自的行为与所述视频帧序列中多个视频帧对应的位置分布；基于与所述多个视频帧对应的位置分布，确定所述多个主体的行为，其中，所述基于时空自适应融合的端到端人体行为分类模型根据上述的模型训练方法训练得到。

本实施例的行为分类系统用于实现前述多个方法实施例中相应的方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。

参照图8，示出了根据本发明的另一实施例的电子设备的结构示意图，本发明具体实施例并不对电子设备的具体实现做限定。

如图8所示，该电子设备可以包括：处理器(p r o c e s s o r)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。其中：处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。

通信接口504，用于与其它电子设备或服务器进行通信。

处理器502，用于执行程序510，具体可以执行上述方法实施例中的相关步骤。

具体地，程序510可以包括程序代码，该程序代码包括计算机操作指令。

处理器502可能是处理器CPU，或者是特定集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器506，用于存放程序510。存储器506可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序510具体可以用于使得处理器502执行以下操作：获取训练数据；所述训练数据包括多张图像以及标注图像中行为分布特征；所述行为分布特征指示至少一个行为在所述标注图像中的位置分布；基于训练数据对行为分类模型进行训练；其中，所述行为分类模型包括主干特征提取网络、特征解耦融合网络和分类网络；其中，所述主干特征提取网络用于提取所述多个图像的行为类别特征和位置特征，得到三维特征图；所述特征解耦融合网络用于对所述三维特征图分别在时间维度和空间维度上进行全局平均池化后，分别编码空间属性和时间尺度属性，再进行融合得到融合特征图；所述分类网络用于对所述融合特征图进行分类，得到所述融合特征图中各个通道的行为分类，并根据各个通道的行为分类，进行归一化处理，得到标注图像在单通道的行为分布特征。

或者，程序510具体可以用于使得处理器502执行以下操作：获取待分类行为的多个图像；利用基于时空自适应融合的端到端人体行为分类模型对所述多个图像进行处理，得到行为特征图像，所述基于时空自适应融合的端到端人体行为分类模型根据模型训练方法训练得到。

或者，程序510具体可以用于使得处理器502执行以下操作：获取针对目标群体采集的视频帧序列，所述目标群体中包括多个主体；利用基于时空自适应融合的端到端人体行为分类模型对所述视频帧序列进行处理，得到所述多个主体各自的行为与所述视频帧序列中多个视频帧对应的位置分布；基于与所述多个视频帧对应的位置分布，确定所述多个主体的行为，其中，所述基于时空自适应融合的端到端人体行为分类模型根据模型训练方法训练得到。

此外，程序510中各步骤的具体实现可以参见上述方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明公开的技术方案的基础上，本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于时空自适应融合的端到端人体行为分类模型训练方法，其特征在于，包括：

基于训练数据对行为分类模型进行训练；其中，

所述行为分类模型包括主干特征提取网络、特征解耦融合网络和分类网络；其中，所述主干特征提取网络用于提取所述多张图像的行为类别特征和位置特征，得到三维特征图；所述特征解耦融合网络用于对所述三维特征图分别在时间维度和空间维度上进行全局平均池化后，分别编码空间属性和时间尺度属性，再进行融合得到融合特征图；所述分类网络用于对所述融合特征图进行分类，得到所述融合特征图中各个通道的行为分类，并根据各个通道的行为分类，进行归一化处理，得到标注图像在单通道的行为分布特征。

2.根据权利要求1所述的基于时空自适应融合的端到端人体行为分类模型训练方法，其特征在于，所述主干特征提取网络包括特征金字塔单元、目标定位单元和对齐操作单元；所述特征金字塔单元用于提取图像的关键帧特征；所述目标定位单元用于将特征金字塔层的输出作为输入，提取图像的锚框位置信息；所述对齐操作单元用于将目标定位层的输出作为输入，提取包含行为主体的建议框，再分别进行对齐操作，得到所述三维特征图。

3.根据权利要求1所述的基于时空自适应融合的端到端人体行为分类模型训练方法，其特征在于，所述特征解耦融合网络包括特征解耦单元、第一特征编码单元、第二特征编码单元以及特征融合单元；所述特征解耦单元用于对所述三维特征图分别在空间维度和时间维度上进行全局平均池化，分别得到时间维度特征图和空间维度特征图；所述第一特征编码单元用于对所述时间维度特征图编码时间尺度属性特征；所述第二特征编码单元用于对空间维度特征图编码空间属性特征；所述特征融合单元用于对编码后的时间维度特征图和空间维度特征图进行融合。

4.根据权利要求3所述的基于时空自适应融合的端到端人体行为分类模型训练方法，其特征在于，所述特征融合单元对编码后的空间维度特征图和时间维度特征图进行融合包括：分别将时间维度特征图和空间维度特征图进行卷积操作调整通道数后，进行拼接得到第一矩阵特征图，然后再次卷积提取特征得到第二矩阵特征图，第二矩阵特征图经过reshape操作后得到第三矩阵特征图，将第三矩阵特征图和其转置相乘得到格拉姆矩阵，使用softmax层生成通道注意图矩阵，将通道注意图矩阵与第三矩阵特征图相乘，与第二矩阵特征图结合得到第四矩阵特征图，再卷积提取特征输出最终融合特征图。

5.根据权利要求3所述的基于时空自适应融合的端到端人体行为分类模型训练方法，其特征在于，所述特征解耦单元还包括时间特征通道自适应剪枝网络层，用于对所述编码后的时间维度特征图进行挑选保留、删除和复用的时间维度通道，输出时间特征。

6.根据权利要求3所述的基于时空自适应融合的端到端人体行为分类模型训练方法，其特征在于，所述特征解耦单元还包括行为对象关系建模自适应剪枝网络层，用于对所述空间属性特征中关联性强的对象特征进行通道分组拼接，得到关系特征向量。

7.一种基于时空自适应融合的端到端人体行为分类方法，其特征在于，包括：

获取待分类行为的多个图像；

利用基于时空自适应融合的端到端人体行为分类模型对所述多个图像进行处理，得到行为特征图像，所述基于时空自适应融合的端到端人体行为分类模型根据权利要求1-6中任一项所述的模型训练方法训练得到。

8.一种基于时空自适应融合的端到端人体行为分类方法，其特征在于，包括：

基于与所述多个视频帧对应的位置分布，确定所述多个主体的行为，其中，所述基于时空自适应融合的端到端人体行为分类模型根据权利要求1-6中任一项所述的模型训练方法训练得到。

9.一种基于时空自适应融合的端到端人体行为分类系统，其特征在于，包括：

获取模块，用于获取待分类行为的多个图像；

分类模块，用于利用基于时空自适应融合的端到端人体行为分类模型对所述多个图像进行处理，得到行为特征图像，所述基于时空自适应融合的端到端人体行为分类模型根据权利要求1-6中任一项所述的模型训练方法训练得到。

10.一种基于时空自适应融合的端到端人体行为分类系统，其特征在于，包括：

分类模块，用于利用基于时空自适应融合的端到端人体行为分类模型对所述视频帧序列进行处理，得到所述多个主体各自的行为与所述视频帧序列中多个视频帧对应的位置分布；基于与所述多个视频帧对应的位置分布，确定所述多个主体的行为，其中，所述基于时空自适应融合的端到端人体行为分类模型根据权利要求1-6中任一项所述的模型训练方法训练得到。