CN117994852A

CN117994852A - 基于查询的人体行为感知方法、装置及程序产品

Info

Publication number: CN117994852A
Application number: CN202410229510.XA
Authority: CN
Inventors: 金磊; 杨丰; 淦子良; 王小娟; 何明枢
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2024-02-29
Filing date: 2024-02-29
Publication date: 2024-05-07

Abstract

本发明提供一种基于查询的人体行为感知方法、装置及程序产品，所述方法包括：获取预先训练的人体行为感知模型，人体行为感知模型包括视频编码器和动作解码器；视频编码器用于提取视频数据对应的视觉特征；动作解码器用于将视觉特征作为查询键值对，与至少一个预设查询进行关联，优化至少一个预设查询并输出查询任务对应的结果；将视频数据输入所述人体行为感知模型，得到人体行为感知结果。本发明能够实现跨任务联合优化，完成人体行为感知领域的多个任务，提高通用性和可拓展性。

Description

基于查询的人体行为感知方法、装置及程序产品

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于查询的人体行为感知方法、装置及程序产品。

背景技术

人体行为感知是计算机视觉中的一个重要课题。通常人体行为感知旨在定位、分割、分类和评估给定视频中的人类行为，以实现对人类行为的理解和识别，涉及动作识别，动作分割，动作定位和动作评估等。通过对视频数据中的人体姿势、动作和行为进行准确的分析和理解，可以应用于许多领域，如视频监控、人机交互、视频内容分析等，具有重要的应用前景。

现有的人体行为的感知方法，包括用于动作定位的双阶段方法或者单阶段方法，用于动作分割的基于时序卷积网络(Temporal Convolutional Network，TCN)的算法、基于图神经网络(Graph Neural Network，GNN)的算法和基于Transformer的算法等，对于不同的人体行为任务只能处理一种任务，对于不同的任务采用不同的处理方式，一个模型只能完成某项特定的人体行为感知，统一化和标准化程度比较一般，虽然在一定程度上能够应对多样化的任务需求，但是无法实现多任务之间的有效融合和协同工作。在实际应用中，针对每个任务单独设计和开发相应的模型和算法，不仅增加了研发成本，还限制了模型的通用性和可扩展性，存在算法的通用性和可拓展性较低的问题。

发明内容

鉴于此，本发明实施例提供了一种基于查询的人体行为感知方法、装置及程序产品，以消除或改善现有技术中存在的一个或更多个缺陷。能够实现跨任务联合优化，完成人体行为感知领域的多个任务，提高通用性和可拓展性。

本发明的一个方面提供了一种基于查询的人体行为感知方法，该方法包括以下步骤：

获取预先训练的人体行为感知模型，人体行为感知模型包括视频编码器和动作解码器；视频编码器用于提取视频数据对应的视觉特征；动作解码器用于将视觉特征作为查询键值对，与至少一个预设查询进行关联，优化至少一个预设查询并输出查询任务对应的结果；

将视频数据输入人体行为感知模型，得到人体行为感知结果。

可选地，视频编码器包括卷积网络层、变换器网络层和编码器层；视频数据包括视频序列或者视频序列的特征；在视频数据为视频序列的特征的情况下，基提取视频数据对应的视觉特征，包括：

通过卷积网络层将每个特征拓展成多个维度；

通过变换器网络层将卷积网络层处理后的特征映射到输出特征金字塔；

通过编码层对特征金字塔进行特征交互处理，得到视觉特征。

可选地，在视频数据为视频序列的情况下，通过卷积网络层将每个特征拓展成多个维度之前，还包括：通过卷积网络层提取视频序列对应的特征。

可选地，至少一个预设查询包括类别查询、边界查询和/或掩码查询；查询任务包括动作类别查询任务、动作定位查询任务、动作分割查询任务和/或动作评估查询任务；

动作类别查询任务是指类别查询与视觉特征在解码层中交互得到预测的动作类别；

动作定位查询任务是指类别查询、边界查询与视觉特征在解码层中交互得到预测的时间片段和对应的动作类别；

动作分割查询任务是指边界查询、掩码查询、类别查询与视觉特征在解码层中交互得到预测的动作分割片段；

动作评估查询任务是指类别查询与视觉特征在解码层中交互得到预测的动作表现分数。

可选地，动作解码器包括预设数量的解码器层，将视觉特征作为查询键值对，与预设查询进行关联，优化预设查询并输出人体行为感知结果，包括：

在每一层解码层中交叉关注视觉特征；

在类别查询、边界查询和掩码查询之间进行自我关注，在类别查询、边界查询和掩码查询之间建立的关联和交互，输出人体行为感知结果。

可选地，将视频序列对应的特征输入人体行为感知模型，得到人体行为感知结果之前，还包括：基于查询任务屏蔽类别查询、边界查询和/或掩码查询。

可选地，获取预先训练的人体行为感知模型，包括：

获取各个查询任务对应的训练数据；训练数据包括：样本视频数据和样本视频数据对应的各个查询任务的标准输出结果；

通过各个查询任务对应的主干网络提取样本视频数据的视觉特征，得到样本视觉特征；不同查询任务对应的主干网络提取的样本视觉特征具有相同的形状；

将样本视觉特征输入初始人体感知模型，对动作解码器和各个查询任务进行联合预训练，得到联合训练结果；初始人体感知模型与人体感知模型的模型结构相同；

将联合训练结果和标准输出结果输入各个查询任务对应的预设的损失函数，得到损失函数值；

使用损失函数值对初始人体感知模型进行迭代训练，得到人体感知模型。

本发明的另一方面提供了一种基于查询的人体行为感知装置，包括处理器、存储器及存储在存储器上的计算机程序/指令，其特征在于，处理器用于执行计算机程序/指令，当计算机程序/指令被执行时该装置实现上述基于查询的人体行为感知方法的步骤。

本发明的另一方面提供了一种计算机可读存储介质，其上存储有计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现上述基于查询的人体行为感知方法的步骤。

本发明的另一方面提供了一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现上述基于查询的人体行为感知方法的步骤。

本发明的基于查询的人体行为感知方法、装置及程序产品，能够通过获取预先训练的人体行为感知模型，将视频数据输入人体行为感知模型，得到人体行为感知结果，可以解决现有的人体行为感知算法的通用性和可拓展性较低的问题。通过将不同的任务目标抽象为不同类型的查询，通过统一的解码器根据任务目标得到相应的输出，动作解码器通过编解码器完成统一，即最大限度地共享不同任务的共同部分，同时保持单个任务的剩余部分不变，保证不同任务享有更准确的权重，又能针对特定任务输出不同结果，从而实现跨任务联合优化，最终能够完成人体行为感知领域的多个任务，因此，能够提高通用性和可拓展性。

本发明的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。

本领域技术人员将会理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。在附图中：

图1为本发明一实施例提供的基于查询的人体行为感知方法的流程图；

图2为本发明一实施例提供的基于查询的人体行为感知模型的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

在此，还需要说明的是，如果没有特殊说明，术语“连接”在本文不仅可以指直接连接，也可以表示存在中间物的间接连接。

在下文中，将参考附图描述本发明的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。

首先，对本申请实施例涉及的若干名词进行介绍。

视频序列(video sequence)：由一系列连续的视频帧组成的数据集合。

主干网络(backbone)：在深度学习中，backbone是指卷积神经网络(Convolutional Neural Network，CNN)或者其变种，用于提取输入数据中高层次的特征表示。Backbone通常是构建更复杂模型的基础，比如物体检测、语义分割、人体姿态估计等任务，这些任务需要对整个图像进行全局理解，并且需要对不同尺度、不同层次的特征进行融合。

行动形式解码器(Actionformer)：Actionformer是一个虚构的术语，结合了两个概念：Action(动作)和Transformer(变压器)。在这个虚构的概念中，Actionformer可能指代一种想象中的模型或架构，用于处理与动作相关的任务，例如动作识别、动作生成等。通常情况下，Actionformer可以被理解为一个基于Transformer架构的模型，专门设计用于处理动作类任务。它可能结合了Transformer的自注意力机制和多头注意力机制，以捕捉动作序列中的时序信息和依赖关系。

动作定位：动作定位旨在定位未修剪视频中动作的开始帧和结束帧，由于相邻帧的相似性和动作边界的模糊性，这是一项具有挑战性的任务。动作定位的算法一般有两类方法：双阶段方法一般第一阶段基于视频中的动作实例生成单个或多个提议。首先生成候选片段，并训练一个二进制分类器，该分类器将每个片段与置信度得分相关联，从而产生建议。第二阶段再去细化生成的提议，那些得分高的提议被馈送到多类分类器以对动作进行分类。

动作识别：动作识别旨在识别修剪过的视频中的动作类别，由于单个动作的复杂性及各个动作之间的相似性，这是一项具有挑战性的任务。动作识别的算法一般在指标上较为依靠骨干去提取视频片段的特征，在分类模块上比较简单，另一方面，关于如何设计有效的网络来从视频中提取时空特征，先前工作已经进行了许多尝试。这些尝试可以分为两类，即基于3D CNN和基于Transformer。

动作分割和动作评估：动作分割旨在对长时间未剪辑视频中的动作进行分割。根据所采用的网络类型，主流的分割方法可分为三类：基于TCN的方法、基于GNN的方法和基于Transformer的方法。动作评估旨在评估人体完成动作的表现情况，并为其打分。主流方法主要将动作评估公式化为回归问题，并直接预测动作得分。

人体行为感知：人体行为感知是计算机视觉领域中的重要部分，它涵盖了多个子任务，共同致力于深入理解和分析视频中的人体动作和行为。这些任务主要包括基础的定位与分类，还进一步扩展到对人体行为的详细评估。

下面对本申请提供的基于查询的人体行为感知方法进行详细介绍。

可选地，本申请提供的基于查询的人体行为感知方法的执行主体为电子设备，该电子设备可以为计算机、手机、平板电脑等终端，或者也可以为服务器，本实施例不对电子设备的实现方式作限定。

本实施例提供一种基于查询的人体行为感知方法，如图1所示，该方法至少包括步骤S101至步骤S102：

步骤S101，获取预先训练的人体行为感知模型，人体行为感知模型包括视频编码器和动作解码器；视频编码器用于提取视频数据对应的视觉特征；动作解码器用于将视觉特征作为查询键值对，与至少一个预设查询进行关联，优化至少一个预设查询并输出查询任务对应的结果。

参考图2所示的人体行为感知模型，视频编码器21的输入为视频数据，以供视频编码器基于视频数据提取视频数据对应的视觉特征。

本实施例中，视频数据包括视频序列或者视频序列的特征。其中，视频序列指的是由一系列连续的人体行为图像帧组成的序列，包括通过各种设备或者系统进行录制和生成的，比如摄像机、手机、计算机屏幕录制软件等，也可以是从互联网中获取得到的，本实施例不对视频序列的获取方式作限定。

本实施例中，视频编码器由使用卷积网络的投影函数组成，人体行为感知模型首先使用视频编码器将输入的视频数据编码为多尺度特征表示，视频编码器包括卷积网络层(Convolutional Neural Network，CNN)、变换器网络层(Transformer Network)和编码器层(Encoder)。其中，投影函数通过下式表示：

X＝{x₁，x₂，……,x_T}→Z＝{z¹，z²，……,z^L}

式中，X表示视频序列；x_T表示第T个特征；Z表示特征金字塔，z^L表示第L个有效的视觉特征。

在视频数据为视频序列的特征的情况下卷积网络层将每个特征扩展成多个维度，并映射到输出特征金字塔的变换器网络，之后输入Transformer架构的解码层进行特征交互，提取有效的视觉特征。

具体地，在视频数据为视频序列的特征的情况下，基提取视频数据对应的视觉特征，包括：通过卷积网络层将每个特征拓展成多个维度；通过变换器网络层将卷积网络层处理后的特征映射到输出特征金字塔；通过编码层对特征金字塔进行特征交互处理，得到视觉特征。

在视频数据为视频序列的情况下，卷积网络层还用于提取视频序列对应的特征。

具体地，在视频数据为视频序列的情况下，通过卷积网络层将每个特征拓展成多个维度之前，还包括：通过卷积网络层提取视频序列对应的特征。

本实施例中，动作解码器22的输入为视频编码器21提取的视觉特征，以供动作解码器22用于将视觉特征作为查询键值对，与至少一个预设查询进行关联，优化至少一个预设查询并输出查询任务对应的结果。

其中，至少一个预设查询包括类别查询、边界查询和/或掩码查询；查询任务包括动作类别查询任务、动作定位查询任务、动作分割查询任务和/或动作评估查询任务。不同的预设查询的输出组合结果即是不同查询任务的结果。具体地，通过下式表示：

<O^c，O^l，O^s，O^a>＝ActionDec(<Q^c，Q^b，O^m>；Z)

式中，O^c表示预测的动作类别；O^l表示预测的人体行为开始和结束时间；O^s表示预测的动作分割片段；O^a表示预测的动作表现分数；Q^c表示类别查询；Q^b表示边界查询；O^m表示掩码查询；Z表示特征金字塔。

其中，动作类别查询任务是指类别查询与视觉特征在解码层中交互得到预测的动作类别；动作定位查询任务是指类别查询、边界查询与视觉特征在解码层中交互得到预测的时间片段和对应的动作类别；动作分割查询任务是指边界查询、掩码查询、类别查询与视觉特征在解码层中交互得到预测的动作分割片段；动作评估查询任务是指类别查询与视觉特征在解码层中交互得到预测的动作表现分数。

对于不同的查询任务，根据查询任务的不同进行屏蔽交叉注意机制。通过设置掩码查询对视频数据不同的部分进行掩码和去掩码实现不同的查询任务。具体地，将视频序列对应的特征输入人体行为感知模型，得到人体行为感知结果之前，还包括：基于查询任务屏蔽类别查询、边界查询和/或掩码查询。

本实施例中，动作类别查询任务目标是预测出视频数据中的人体行为动作实例的类别，对于此任务，动作解码器不需要额外的文本查询作为输入，只需要类别查询。类别查询与视觉特征在动作解码器中交互得到预测的动作类别。具体地，动作类别查询任务可以通过下式表示：

<O^c>＝ActionDec(Q^c；Z)

式中，O^c表示预测的动作类别；Q^c表示类别查询；Z表示特征金字塔。

现有的动作类别算法包括双阶段算法和单阶段算法。其中，双阶段算法是指第一阶段基于视频中的人体动作动作实例生成单个或多个提议，首先生成候选片段，并训练一个二进制分类器，该分类器将每个片段与置信度得分相关联，从而产生建议。第二阶段再去细化生成的提议，那些得分高的提议被馈送到多类分类器以对动作进行分类。单阶段算法是指直接预测视频中时间边界和相应类别的人体行为动作实例。

然而，双阶段算法一般在流程上比较繁琐，算法速度相对较慢，灵活性上比较差。单阶段算法一般会有优化模块以细化预测的错误或不准确的边界及动作类别。

本实施例中，通过类别查询与视觉特征在动作解码器中交互即可得到预测的动作类别，简化了整个动作识别的流程，减少了繁琐的步骤，提高了算法速度，类别查询与视觉特征交互的方式还可以更好地适应不同的动作类别和场景变化，提高算法的灵活性和泛化能力，使得模型更具适应性；同时，通过类别查询与视觉特征的交互，能够提升动作识别的准确性和精度。

动作定位查询任务目标是测出视频数据中的人体行为动作实例的开始结束时间以及对应的动作实例的类别，对于此任务，动作解码器不需要额外的文本查询作为输入，需要类别查询和边界查询。类别查询、边界查询与视觉特征在动作解码器中交互得到预测的时间片段以及对应动作的类别，实现动作定位。具体地，动作定位查询任务可以通过下式表示：

<O^c，O^l>＝ActionDec(Q^c；Q^b；Z)

式中，O^c表示预测的动作类别；O^l表示预测的人体行为开始和结束时间；Q^c表示类别查询；Q^b表示边界查询；Z表示特征金字塔。

现有的动作定位算法包括双阶段算法和单阶段算法。其中，双阶段算法是指第一阶段基于视频中的人体动作动作实例生成单个或多个提议，首先生成候选片段，并训练一个二进制分类器，该分类器将每个片段与置信度得分相关联，从而产生建议。第二阶段再去细化生成的提议，那些得分高的提议被馈送到多类分类器以对动作进行分类。单阶段算法是指直接预测视频中时间边界和相应类别的动作实例。

本实施例中，通过类别查询、边界查询与视觉特征在动作解码器中交互得到预测的时间片段以及对应动作的类别，实现动作定位，简化了整个动作识别的流程，减少了繁琐的步骤，提高了算法速度，类别查询与视觉特征交互的方式还可以更好地适应不同的动作类别和场景变化，提高算法的灵活性和泛化能力，使得模型更具适应性；同时，通过类别查询、边界查询与视觉特征在动作解码器中交互实现动作定位，能够提升动作定位的准确性和精度。

动作分割查询任务的目标是对一段视频数据中的不同人体行为的动作实例及背景进行划分分割，对于此任务，动作解码器不需要额外的文本查询作为输入，需要边界查询及其掩码，其中，掩码是指通过掩码查询对不同的部位进行遮盖的掩码，在动作分割查询任务中，通过掩码判断任务中的每一帧背景和动作的判断，例如以掩码为“1001”为例，“1”和“0”分别表示动作、背景、背景以及动作。边界查询与视觉特征在动作解码器中交互得到预测的动作分割片段。具体地，动作分割查询任务可以通过下式表示：

<O^s>＝ActionDec(Q^b；Z)

式中，O^s表示预测的动作分割片段；Q^b表示边界查询；Z表示特征金字塔。

现有的动作分割算法包括基于时序卷积网络(Temporal ConvolutionalNetwork，TCN)的算法、基于图神经网络(Graph Neural Network，GNN)的算法和基于Transformer的算法。

动作评估查询任务目标是对一段视频数据中的某个人体行为动作实例进行评分以评价其表现，对于此任务，动作解码器不需要额外的文本查询作为输入，需要类别查询。类别查询与视觉特征在动作解码器中交互得到预测的动作表现分数。具体地，动作评估查询任务可以通过下式表示：

<O^a>＝ActionDec(Q^c；Z)

式中，O^a表示预测的动作表现分数；O^c表示预测的动作类别；Z表示特征金字塔。

现有的动作评估算法在特征提取方面制约较大，大多数传统方法将动作评估公式化为回归问题，并直接预测动作得分，但是表现受到动作得分标签潜在模糊性的限制。

本实施例中，通过类别查询与视觉特征在动作解码器中交互得到预测的动作表现分数，可以更好地考虑动作类别对于动作表现的影响，能够一定程度上减少动作得分标签潜在模糊性带来的影响，提高了预测的针对性和准确性。

本实施例中，使用行动形式(Actionformer)解码器来构建动作解码器架构。给定视觉特征，动作解码器使用Transformer多层架构来优化预设查询并呈现输出。

在一个示例中，Transformer多层架构包括预设数量的transformer架构中的解码器(decoder)。其中，预设数量包括但不限于4、5或者6，在实际实现时，可以根据实际情况对预设数量的取值进行调制，本实施例不对预设数量的取值作限定。

具体地，动作解码器包括预设数量的解码器层，将视觉特征作为查询键值对，与预设查询进行关联，优化预设查询并输出人体行为感知结果，包括：在每一层解码层中交叉关注视觉特征；在类别查询、边界查询和掩码查询之间进行自我关注，在类别查询、边界查询和掩码查询之间建立的关联和交互，输出人体行为感知结果。

在另一个示例中，Transformer多层架构还包括变形的Transformer多层架构，例如Video Transformer或者Temporal Shift Module(TSM)等。

在实际实现时，可以根据实际情况对Transformer多层架构进行优化调制，本实施例不对Transformer多层架构的实现方式作限定。

可选地，人体行为感知模型预存在电子设备中，或者是电子设备训练得到的。具体地，获取预先训练的人体行为感知模型，包括：获取各个查询任务对应的训练数据；训练数据包括：样本视频数据和样本视频数据对应的各个查询任务的标准输出结果；通过各个查询任务对应的主干网络提取样本视频数据的视觉特征，得到样本视觉特征；不同查询任务对应的主干网络提取的样本视觉特征具有相同的形状；将样本视觉特征输入初始人体感知模型，对动作解码器和各个查询任务进行联合预训练，得到联合训练结果；初始人体感知模型与人体感知模型的模型结构相同；将联合训练结果和标准输出结果输入各个查询任务对应的预设的损失函数，得到损失函数值；使用损失函数值对初始人体感知模型进行迭代训练，得到人体感知模型。

步骤S102，将视频数据对应的特征输入人体行为感知模型，得到人体行为感知结果。

具体地，在视频数据为视频序列对应的特征的情况下，通过卷积网络层将每个特征拓展成多个维度；通过变换器网络层将卷积网络层处理后的特征映射到输出特征金字塔；通过编码层对特征金字塔进行特征交互处理，得到视觉特征；基于当前的查询任务，在类别查询、边界查询和掩码查询中选择至少一个查询，并与视觉特征在动作解码器中交互，得到人体行为感知结果；在视频数据为视频序列的情况下，在通过卷积网络层将每个特征拓展成多个维度之前，还需要通过卷积网络层提取视频序列对应的特征。

综上所述，本实施例提供的基于查询的人体行为感知方法，通过获取预先训练的人体行为感知模型，将视频数据输入人体行为感知模型，得到人体行为感知结果，可以解决现有的人体行为感知算法的通用性和可拓展性较低的问题。通过将不同的任务目标抽象为不同类型的查询，通过统一的解码器根据任务目标得到相应的输出，动作解码器通过编解码器完成统一，即最大限度地共享不同任务的共同部分，同时保持单个任务的剩余部分不变，保证不同任务享有更准确的权重，又能针对特定任务输出不同结果，从而实现跨任务联合优化，最终能够完成人体行为感知领域的多个任务，因此，能够提高通用性和可拓展性。

另外，通过联合训练的方式训练人体行为感知模型，能够共享底层特征表示以及权重，并使得这些特征在不同的任务之间得到优化，减少了人体行为感知模型的参数数量，降低了过拟合的风险，同时，还有助于人体行为感知模型更加泛化，通过多任务之间的相互促进，使得人体行为感知模型能够在各个任务上都取得更好的性能。

与上述方法相应地，本发明还提供了一种基于查询的人体行为感知装置，该装置包括计算机设备，计算机设备包括处理器和存储器，存储器中存储有计算机指令，处理器用于执行存储器中存储的计算机指令，当计算机指令被处理器执行时该装置实现上述基于查询的人体行为感知方法的步骤。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现前述基于查询的人体行为感知方法的步骤。该计算机可读存储介质可以是有形存储介质，诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。

本发明实施例还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现前述基于查询的人体行为感知方法的步骤。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

本发明中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于查询的人体行为感知方法，其特征在于，该方法包括以下步骤：

获取预先训练的人体行为感知模型，所述人体行为感知模型包括视频编码器和动作解码器；所述视频编码器用于提取视频数据对应的视觉特征；所述动作解码器用于将所述视觉特征作为查询键值对，与至少一个预设查询进行关联，优化所述至少一个预设查询并输出查询任务对应的结果；

将所述视频数据输入所述人体行为感知模型，得到人体行为感知结果。

2.根据权利要求1所述的方法，其特征在于，所述视频编码器包括卷积网络层、变换器网络层和编码器层；所述视频数据包括视频序列或者视频序列的特征；在所述视频数据为所述视频序列的特征的情况下，所述基提取视频数据对应的视觉特征，包括：

通过所述卷积网络层将每个特征拓展成多个维度；

通过所述变换器网络层将所述卷积网络层处理后的特征映射到输出特征金字塔；

通过所述编码层对所述特征金字塔进行特征交互处理，得到所述视觉特征。

3.根据权利要求2所述的方法，其特征在于，在所述视频数据为所述视频序列的情况下，所述通过所述卷积网络层将每个特征拓展成多个维度之前，还包括：通过所述卷积网络层提取所述视频序列对应的特征。

4.根据权利要求1所述的方法，其特征在于，所述至少一个预设查询包括类别查询、边界查询和/或掩码查询；所述查询任务包括动作类别查询任务、动作定位查询任务、动作分割查询任务和/或动作评估查询任务；

所述动作类别查询任务是指所述类别查询与所述视觉特征在所述解码层中交互得到预测的动作类别；

所述动作定位查询任务是指所述类别查询、所述边界查询与所述视觉特征在所述解码层中交互得到预测的时间片段和对应的动作类别；

所述动作分割查询任务是指所述边界查询、所述掩码查询、所述类别查询与所述视觉特征在所述解码层中交互得到预测的动作分割片段；

所述动作评估查询任务是指所述类别查询与所述视觉特征在所述解码层中交互得到预测的动作表现分数。

5.根据权利要求4所述的方法，其特征在于，所述动作解码器包括预设数量的解码器层，所述将所述视觉特征作为查询键值对，与预设查询进行关联，优化预设查询并输出人体行为感知结果，包括：

在每一层解码层中交叉关注所述视觉特征；

在所述类别查询、所述边界查询和所述掩码查询之间进行自我关注，在所述类别查询、所述边界查询和所述掩码查询之间建立的关联和交互，输出所述人体行为感知结果。

6.根据权利要求1所述的方法，其特征在于，所述将所述视频序列对应的特征输入所述人体行为感知模型，得到所述人体行为感知结果之前，还包括：基于所述查询任务屏蔽所述类别查询、所述边界查询和/或所述掩码查询。

7.根据权利要求1所述的方法，其特征在于，所述获取预先训练的人体行为感知模型，包括：

获取各个查询任务对应的训练数据；所述训练数据包括：样本视频数据和所述样本视频数据对应的各个查询任务的标准输出结果；

通过所述各个查询任务对应的主干网络提取所述样本视频数据的视觉特征，得到样本视觉特征；不同查询任务对应的主干网络提取的样本视觉特征具有相同的形状；

将所述样本视觉特征输入初始人体感知模型，对所述动作解码器和所述各个查询任务进行联合预训练，得到联合训练结果；所述初始人体感知模型与所述人体感知模型的模型结构相同；

将所述联合训练结果和所述标准输出结果输入所述各个查询任务对应的预设的损失函数，得到损失函数值；

使用所述损失函数值对所述初始人体感知模型进行迭代训练，得到所述人体感知模型。

8.一种基于查询的人体行为感知装置，包括处理器、存储器及存储在存储器上的计算机程序/指令，其特征在于，所述处理器用于执行所述计算机程序/指令，当所述计算机程序/指令被执行时该装置实现如权利要求1至7中任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至7中任一项所述方法的步骤。