CN113255443B

CN113255443B - 一种基于金字塔结构的图注意力网络时序动作定位方法

Info

Publication number: CN113255443B
Application number: CN202110412867.8A
Authority: CN
Inventors: 俞俊; 杨津; 朱素果
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2024-02-09
Anticipated expiration: 2041-04-16
Also published as: CN113255443A

Abstract

本发明公开了一种基于金字塔结构的图注意力网络时序动作定位方法。本发明主要涉及利用图注意力网络搭建的多尺度金字塔模型融合预测多时间跨度的行为检测。本发明步骤：1、数据预处理，提取视频数据的初始时空特征，2、基于图注意力机制的金字塔网络模型，搭建带有时序注意力机制的多尺度模型，3、模型训练，利用反向传播算法训练神经网络参数。4、生成定位检测结果。本发明引入了金字塔结构来构造不同感受野的特征层，以解决行为在尺度上的预测问题。并引入了图注意力机制，在时序信息上加入了注意力模块，在特征中充分融合了时序上的内容；本发明在时序动作定位领域中的最好效果，相比于原始的单一特征图预测方法在性能上有了很大的提升。

Description

一种基于金字塔结构的图注意力网络时序动作定位方法

技术领域

本发明涉及一种针对时序动作行为检测(Temporal Action Localization，TAL)的金字塔结构(Feature Pyramid Networks，FPN)图注意力网络(Graph AttentionNetwork)模型。其中FPN起源于传统的目标检测方法，利用不同的特征模块来解决检测目标不同尺寸的问题。本发明在FPN结构加入图网络卷积形式来代替原有的普通卷积，利用注意力机制来自适应得学习目标之间的相互关系，融合对应特征，最后用来时序行为的预测。本发明完全采用端到端的形式，对于时序动作行为检测有不错的效果。

背景技术

不知不觉，5G时代即将悄无声息融入我们的生活。互联网技术每天都在急速的发展着，随之而来的是海量信息的爆发。图片、音频、视频等人们交流的基本内容呈现一个井喷式的状态，每天都有无数条数据被产出并传播。该如何处理好这些数据并从中提取出人们所需要的内同成了目前科研人员一个共同要解决的难题。相比图片以及音频等信息，视频内容分析更是一个具有研究意义的领域，视频更能表达视觉以及听觉的信息，并且研究成果可用于多个方面，例如一些安防监控，无人驾驶以及一些日常应用，强烈吸引着界内大量科研人员的广泛关注。

对于视频内容的分析，其中最重要的一项任务就是行为分析。早期的行为分析主要是行为识别任务。对于已有的视频，经过人工处理，将视频进行裁剪，把视频中的背景去除，只剩下含有动作的视频片段，再通过行为识别的算法来对包含动作的视频段行为动作识别。但可以看出，日常生活中所产出的视频段不可能只包含动作信息，裁剪视频是人力资源的大量浪费。因此，如何能在未裁剪的视频中进行动作识别并且定位成为了科研人员转而去研究的方向。

时序行为检测应运而生，在行为识别的任务基础上提高了任务的难度，它要求算法先在未裁剪的视频中定位到所包含动作的边界，也就是将动作的起始点确定出来，然后把取出来的动作进行识别，也就是确定该动作的类别。其中，对于得到的动作再进行类别预测并不是很艰巨的问题，但提前得到定位好的预选框并不是一个容易的任务，精确定位到动作的起始点要考虑到很多问题，包括视频的长短，人体的姿态，视频拍摄的角度等等。因此，若能良好解决时序行为检测(Temporal Action Localization，TAL)中所遇到的问题，对于研究界以及工业界都能带来不错的效益。

自近些年来深度学习在各个领域取得了不错的成就后，就被广泛用于目标检测，图像生成以及视频分析等领域。相较于传统的机器学习算法，深度神经网络通过搭建适应于不同任务的网络模型来对特征进行提取融合，再针对不同任务采用不同的策略来解决相应的问题。作为目前计算机视觉的主要方法，深度学习具有不少的优点：

1.根据网络层的自适应学习更好得表示特征；

2.通过大数据的学习，有不错的泛化能力；

3.对于特征能逐层进行表达，从低层原始数据到高层语义信息。

通过深度学习与时序行为检测的结合，目前时序行为检测方法主要分为两种：两阶段检测以及单阶段检测。

两阶段检测(two-stage)：即第一阶段先提取可能包含行为的时序提议框，第二阶段对时序提议框进行分类和回归。具体来说，首先从输入的视频序列中生成一组稀疏的与类别无关的候选片段，候选片段是输入视频中可能发生某个具体行为的片段，但是并不知道发生了什么类别的行为以及该行为发生的精确起止时间；然后对每个候选片段发生的行为类别进行分类，同时对行为发生区域的中心点以及持续长度偏移量进行回归。基于两阶段框架的时序行为检测方法的性能提升大部分集中在提升生成的时序提议框质量上，还有一些其他算法通过建立更精确的行为分类器来提升检测性能。

单阶段检测(one-stage)：目前时序行为检测领域中大多用的是两阶段的方法，能得到不错的效果。但是相比于单阶段而言，其复杂的模型以及缓慢的计算速度还是不能满足现在的科研需求。顾名思义，单阶段方法结合了两阶段检测的两个阶段，从未裁剪的视频中同时对动作做一个定位以及分类，从而节约计算时间，并且简化模型。

在行为检测中，由于每个动作的持续时间不同，若用相同的特征图来对所有动作进行预测，肯定会影响检测性能。金字塔结构在目标检测领域早已运用得十分成熟，根据不同目标的尺寸大小，用不同感受野的特征图去分别预测，能够得到意想不到的效果。FPN由自下而上以及自顶而下两部分构成，自下而上的就是传统的特征工程处理特征信息。接着，FPN加入了一条新的自上而下的特征融合路径，在语义丰富的低分辨率特征层构建更高的分辨率，这样构建出来的特征层既有丰富的语义，又能有不错的分辨率，同时横向连接相应的自下而上的特征图，更好地检测对应位置的行为。FPN中的卷积采用的都是传统的卷积形式，并不能很好地找到不同位置的特征信息对于当前位置的权重响应。近几年来，图卷积网络不断被应用在深度学习的各个领域中，让特征在卷积的过程中能够自适应的学习特征间的权重关系，相当于是一种资源分配的机制，对于有利于任务的特征信息，加大的影响程度，同时，减少不利于任务的特征信息的影响。

综上所述，基于FPN的图注意力网络时序动作定位任务是一个值得深入研究的方向，本课题拟从该任务中几个关键的难点问题切入，为现有方法提供新思路，并最终形成一套完整的时序动作定位系统。

相比于图像的静态信息处理，视频中的行为检测往往需要处理的内容需要融合时序上的信息，检测行为所需的定位任务是在时序节点上进行完成的。因此，有效的时序信息处理往往是行为检测任务中所需解决的难点，具体而言，主要存在如下三个方面的难点：

(1)动作时间跨度不一致。在时序行为检测任务中，通常包含多种不同类型的动作，每个类别的动作所持续的时间长短各不统一。例如像掷铁饼以及划船等动作往往所持续的时间比较长，而像扣篮或是踢足球等动作只需要较短的时间。这要求网络模型能够对不同长度的动作做出不同的节点预测，对行为的检测任务有不小的挑战。

(2)目前，很少有深度学习的行为检测算法考虑采用注意力机制这一特性，基本采用的都是传统的卷积形式，然而传统的卷积并不能有利得传达出特征的重要性。时序行为检测中，时序信息往往要比空间信息更为重要，如何在输入的时序信息中找到重要的节点信息，也是一个影响行为检测结果的重要因素。

(3)目前，大部分行为检测方法采用的都是基于预定锚框的算法，对于特征图上的每一个特征节点，预定义好若干数量的锚框，根据最后得到的特征图，预测结果就有若干倍特征图大小的预定义锚框。这样大大增加了算法的运行时间，多了不必要的冗余信息，结果精度可能有一定的提高，但算法的时间复杂度不可估量。

发明内容

本发明提出了一种基于金字塔结构的图注意力网络时序动作定位方法。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤(1)、数据预处理，提取视频数据的初始时空特征

对视频数据集V的预处理：对于视频数据集V中的每个输入视频v_n，首先以30FPS抽取图像帧，同时使用TVL-1算法抽取视频的光流。对于抽取好的的图像和光流，使用基于Kinetics数据集预训练的I3D模型分别提取图像的外观特征和光流的运动特征，然后将这两个特征在时序维度上进行堆叠，以整合输入视频的外观特征和运动特征，这样就能在保证空间信息的基础上同时兼顾时序信息，并获得最终的初始时空特征。由于每个视频的长度不一，为了方便特征能统一输入到网络模型中，采用滑动窗口的形式，在保证窗口大小能包含几乎全部实例的基础上以一定的重叠率滑动取出长度相同的视频片段，最后将相同大小的时空特征输入到网络模型中。

步骤(2)、基于图注意力(Graph Attention Network)机制的金字塔网络模型(Feature Pyramid Networks，FPN)

图注意力机制根据输入的时空特征，以时序节点作为图网络的节点，采用全连接的形式，节点之间相互连边。根据注意力机制，来自适应地学习节点之间的重要性。采用多头(Multi-head)的形式进行注意力权重的计算，最后再进行融合得到整个节点之间的重要性权重。本发明将这样的图卷积机制代替金字塔自下而上的传统卷积形式，即在每一层特征图嵌套使用。

金字塔模型由自下而上以及自上而下两部分构成，自下而上(Bottom-Up)的就是传统的卷积网络做特征提取，随着卷积的深入,空间分辨率减少,空间信息丢失，但是高级语义信息被更多地检测到。接着，FPN加入了一条新的自上而下(Top-Down)的特征融合路径，在语义丰富的低分辨率特征层构建更高的分辨率，这样构建出来的特征层既有丰富的语义，又能有不小的分辨率，由于经过了不断地上采样下采样,关键点的位置已经不准确了。所以在重新构建出来的层和自下而上相应的特征层之间构建横向连接,以使得检测器可以更好地预测关键节点。根据自上而下的路径，在不断融合上层信息以及横向原始特征后，每一层的特征图都已经获得了较好的定位信息以及语义信息，最后提取出所有的特征层用以多尺度地预测行为的关键点。

步骤(3)、模型训练

根据步骤(2)得到对应的多层特征图，每一层特征图分别放入到两个分支结构中，第一条分支为热力图的生成，各自产出对应的关键点信息，用以组成预选框；第二条分支用以生成每个节点的词嵌入，用来加以约束对应的预选框是否具有可信度。在第一条分支中，将生成的关键点信息与视频段中实际的标签做比较，利用反向传播算法(Back-Propagation，BP)对模型参数进行训练。第二条分支中，利用推拉损失(Pull-Push loss)，对每个节点的词嵌入在相互间做一个参数训练，直至整个网络模型收敛。

步骤(4)、生成定位检测结果

根据步骤(4)得到两条分支的预测结果，结合第一条分支热力图预测关键点的位置挑选出预选框，再通过第二条关键点的词嵌入，预测的关键点置信度以及同时挑选出的类别信息，来约束挑出更优的预选框。

步骤(1)所述的数据预处理，提取视频数据的初始时空特征，具体如下：

对抽取好的的图像和光流进行特征提取，使用基于Kinetics数据集预训练的I3D模型分别提取图像和光流对应的图像特征和光流特征/>其中N表示不同视频具有不同的时序长度，1024则代表每个视频片段经过预训练的I3D模型提取后输出的特征维度。为了整合输入视频的外观特征和运动特征，将图像特征F_rgb和光流特征F_flow在时序维度上进行堆叠，并获得初始时空特征/>再接着，用滑动窗口在时序长度N上以50％的重叠率进行滑动，最终得到窗口的时空特征/>其中T＝256。

步骤(2)所述的基于图注意力机制的金字塔网络模型具体如下：

2-1、图注意力机制其实本质是一个自注意力网络层，广义注意力的本质上是为序列中每个元素都分配一个权重系数，这也可以理解为软寻址。如果序列中每一个元素都以(K,V)形式存储，那么注意力则通过计算Q和K的相似度来完成寻址。Q和K计算出来的相似度反映了取出来的V值的重要程度，即权重，然后加权求和就得到了注意力值。自注意力机制在KQV模型中的特殊点在于K＝Q＝V，它们分别表示注意力机制过程中的query，key，value，这也是为什么取名自注意力机制，因为其是文本和文本自己求相似度再和文本本身相乘计算得来。可以被定义为：

其中d_k是Q(*)和K(*)输出的维度，则是一个比例因子。本发明中采用的是多头(Multi-Head)的自注意力机制，目的是为了让多个头各自自适应的去学习不同的注意力权重，提高整体结构的鲁棒性。首先将步骤(1)中得到的时空特征/>作为输入传入到图注意力结构中，将时空特征经过三个线性变换函数得到自注意力机制中的K、Q、V，公式如下：

即将时空特征分别输入到三个单层神经网络层，激活函数选择Relu，输出新的K、Q、V(时空特征经过线性变换时输出维度和输入维度相同)。然后将Q在最后一维上切分为均等的多个段，然后对切分完的矩阵在第一个维度上进行拼接起来，对V和K都进行和Q一样的操作，操作后的矩阵分别记为Q_、K_和V_。最后，对于每一个切分完的维度通过公式(1)分别做自注意力机制，最后将每一个维度的注意力权重与V_相乘得到相应的特征，再拼接得到完整的特征表达。

2-2、金字塔结构中传统的自下而上的路径实质为一个下采样卷积神经网络的前馈计算，本发明中用图注意力卷积(Graph Attention Network，GAT)加上步长为2的最大池化操作代替原有的简单一维卷积，具体公式为：

F_high＝Maxpooling(GAT(F_cur)) (3)

其中,F_high表示经过当前层图卷积的高层特征图输出，F_cur表示当前层的输入特征。

接着是自上向下的路径，实质上是为了增大带有高层语义信息的特征图分辨率。对顶部具有大感受野的特征图做上采样，步长与最大池化操作相同都为2，上采样时用线性插值的方式。上采样完后与自下向上卷积时具有相同尺寸的特征图进行横向连接，融合时采用对应元素相加的形式，具体公式可表示为：

F_low＝Intetpolate(conv(F_cur)) (4)

其中conv为一个1×3的卷积，用于减轻上采用的混叠效果。自上向下的路径传递了较好的语义信息，自下向上的路径传递了较好的定位信息，通过横向连接融合在一起既可以获取具有较好的定位信息又具有较好的语义信息的特征，不同层输出可以得到对不同尺度的敏感的特征，识别不同时间尺度的行为。

步骤(3)模型训练，具体如下：

3-1、首先根据输入视频的标签实例生成对应的训练标签。对于一个视频段，首先计算当前视频中所有实例与整个窗口的重叠率，若某个实例与窗口的重叠率大于阈值，就将该实例标记在窗口内。标记完后，留下含有实例的窗口，进行训练。接着根据设定好的金字塔结构，以实例的时间跨度为分割标准分别为不同感受野的特征图计算训练标签。分配时，时间跨度的大小与感受野的大小成正比。对于分配到该特征图的实例，先通过实例标签处对应的类别以及起始结束和中间位置，为了减少正负样本差异，这里根据实例长度前后扩充相应数量的节点当作训练正样本。针对对应的关键点位置以及类别，与窗口的每个节点计算重叠率。除了在对应类别的正确关键点位置以外，其余位置全为负样本。

3-2、根据第一条热力图分支的模型输出，可以得到特征：

F_heat＝3×T_n×(C+1) (5)

其中T_n表示不同特征图输入的不同时序维度，(C+1)表示类别数加上背景类。针对不同的关键点分别做focal loss，对于每一个T_n×(C+1)，正样本分布在前C类，其中正样本的选取条件为重叠率大于0.5。做loss时正负样本按照指定的比例在每一个特征层选取若干个点，若正样本不足，则用负样本填充。focal loss公式为：

FL(p_t)＝-α_t(1-p_t)^γlog(p_t) (6)

其中p_t表示预测为关键点的概率，α_t表示正负样本的对应权重，γ的作用是为了降低简单样本的loss，迫使模型去更在意难挑选的样本。

3-3、根据第二条词嵌入分支的模型输出，可以得到特征：

F_emb＝2×T_n×1 (7)

第二条词嵌入分支只针对关键点的精确位置，在不同动作实例间做推拉损失。其中公式为：

其中表示精确关键点的个数，/>表示第k个行为的起点词嵌入，

表示第k个行为的结束点词嵌入；/>用来表示第k个预选框。

最终，根据得到的focal loss以及pull and push loss按指定比例相加，即：

L＝L_fl+0.1L_pull+0.1L_push (10)

反向传播输入到网络，直至损失收敛。

步骤(4)所述的生成定位检测结果，具体如下：

首先根据起始关键点的热力图、结束关键点的热力图分别取出topK进行组合，得到K*K个预选框。

接着找到每个由起始结束点组成的框的中间点，由三个关键点(起始点、中间点、结束点)的预测得分取平均代表预选框的得分。

然后再通过四个限制筛选预选框:

a)起点在结束点之后的

b)节点间类别不同的

c)热力图得分低于阈值的

d)起点结束点词嵌入距离过大的

最后对筛选预选框进行非极大值抑制(Non-Maximum Suppression,NMS)后计算平均精度均值(mean average precision，mAP)。

本发明有益效果如下：

本发明提出了一种基于金字塔结构的图注意力网络时序动作定位方法。尽管目前很多网络模型在单一的特征图上进行行为检测也取得了不错的定位效果。但由于每个行为的时间跨度不同，仅仅在同一感受野下并不能对不同尺度的行为都进行较好的预测，因此本发明引入了金字塔结构来构造不同感受野的特征层，以解决行为在尺度上的预测问题。并引入了图注意力机制，在时序信息上加入了注意力模块，在特征中充分融合了时序上的内容。为了减少计算量，本发明抛弃目前常用的基于锚框的预测形式，采用预测行为关键点，接着再通过关键点之间相互组合的形式得到最后的预选框，不仅能在预测提取关键点时同时找到关键点的相应类别，还能大大减少计算的时间复杂度。为了使关键点组合更加具有可信度，本发明除了关键点的热力图预测外，还对关键点设置了相应的词嵌入，以帮助在选择预选框时加以一定的约束，以获得更高良好的效果。本发明的方法相比于传统的时序行为检测方法取得了较大的性能提升。

附图说明

图1为本发明完整流程图

具体实施方式

下面对本发明的详细参数做进一步具体说明

本发明已解决如下三个难点问题。

1.设计了一个金字塔结构模型，分别训练多个不同感受野的特征图，不同的特征图根据不同的感受野大小来对不同持续时间长度的动作进行预测。在感受野小的特征图中包含大量的局部信息，就用来预测短时序行为，在感受野大的特征图中包含丰富的语义信息，用来预测长时序行为。从而解决待识别动作时间跨度不一致的问题。

2.在金字塔结构的卷积中，本发明用图卷积的形式代替传统的普通卷积。根据图网络中的图的结构组织以进行关系推理，从而得到其他位置的时序信息对当前节点的任务贡献。基于这样的一个注意力机制，针对所有节点都能有其余节点的权重响应，从而更好地利用时序信息来进行特征表达，最终达到行为检测的目的。

3.本发明不同于目前广泛采用的基于锚框的预测方式，本发明采用预测关键点并在最后加以组合的形式来生成预选框。关键点包括起点、中间点以及结束点，其中起点以及结束点用来确定框的位置，中间点用来加以约束来增加预选框的置信度。利用关键点的预测来避免冗余的预选框，最终达到减少计算量，加快运行速度的目的。

本发明具体实现步骤如下：

步骤(1)、数据预处理，提取视频数据的初始时空特征

这里使用THUMOS’14数据集作为训练和测试数据。

对于THUMOS’14数据集中的每个输入视频v_n，首先以30FPS抽取图像帧，然后使用OpenCV库中的TVL-1算法抽取视频的光流。对于抽取好的的图像和光流，为统一图像大小，在保持纵横比的情况下将每张图像的最小边缩放到256像素大小，同时中心剪切到224×224像素大小，统一将每个视频采样成750个视频片段，然后使用基于Kinetics数据集预训练的I3D模型分别提取图像和光流对应的特征，然后将这两个特征在时序维度上进行堆叠，以整合输入视频的外观特征和运动特征，并获得最终的初始特征由于每个视频的时序长短不一，为了便于特征提取，用T＝256的窗口大小以stride＝128的步长进行滑动取统一大小的特征片段。得到初始特征大小/>

步骤(2)、基于图注意力机制的金字塔网络模型

由于GPU内存的限制，先通过一个普通卷积对原始2048维的特征进行降维，得到卷积后的特征维度为1536维。

2-1、对输入的特征先进行三个同维度的线性变换操作。得到Query、Key和Value，维度都是1536。将Query和Key进行点乘操作，得到128×128的相似度矩阵，再把相似度矩阵和Value做矩阵乘法，就得到了1536维的新的特征。在此，我们使用多头机制，头数为8。接着通过层归一化和Dropout操作(Dropout＝0.1)以及残差连接操作。最后使用一个前馈神经网络，即两层的线性层，第一层的维度为3072，第二层的维度为1536。就得到了目标自注意力网络后的特征。

2-2、金字塔结构总共采用5层，对于初始特征在时序上的长度为256，首先在自下而上时下采用得到不同的时序长度T_n，T_n＝128，64，32，16。接着在自下而上并且加入横向连接的方式从T_n＝16又回到T_n＝32，64，128，256，共得到5个尺度的特征块，最终输出给热力图分支以及词嵌入分支。

步骤(3)、模型训练

3-1、对于滑动窗口得到的视频段，与整个视频中的实例计算重叠率，大于0.9则标记属于当前视频段。接着按实例的持续时间为其分配特征层，在0-100帧长度的实例分配给第一层特征图来训练，75-175帧，150-250帧，225-325帧，300帧以上的实例分别给2，3，4，5层特征图来训练。接着根据实例的持续时间，在精确关键点前后扩充0.1*lenth，对于扩充好的关键点，与当前窗口的节点计算重叠率以用于正负样本选择，其中重叠率高于0.5的设置为正样本，背景类为负样本。最后在每一层总共挑取5个正样本以及10个负样本，若正样本不足用负样本填充。

3-2、根据focal loss公式：

FL(p_t)＝-α_t(1-p_t)^γlog(p_t)

其中，α_t在正样本处设置为0.75，负样本处为0.25，γ设置为2。在每一个视频段的每一层挑取5个正样本以及10个负样本用作训练，若正样本不足用负样本填充。

3-3、词嵌入模块只针对关键点的精确位置，在不同动作实例间做推拉损失。其中公式为：

其中表示精确关键点的个数，/>表示第k个行为的起点词嵌入，/>表示第k个行为的结束点词嵌入。/>用来表示第k个预选框。

最终，根据得到的focal loss以及pull and push loss按一定比例相加，即：

L＝L_fl+0.1L_pull+0.1L_push

反向传播输入到网络，直至损失收敛。

步骤(4)生成定位检测结果，具体如下：

首先根据起始、结束关键点的热力图分别取出得分高的100个节点进行组合，得到100*100个预选框。接着找到每个由起始结束点组成的框的中间点，由三个关键点的预测得分取平均代表预选框的得分。再通过四个限制进行筛选预选框:

a)起点在结束点之后的；

b)节点间类别不同的；

c)热力图得分低于阈值的，其中阈值设为0.05；

d)起点结束点词嵌入距离过大的，距离大于1就删除预选框；

最后对剩余的框进行阈值为0.4的非极大值抑制后计算平均精度均值。

Claims

1.一种基于金字塔结构的图注意力网络时序动作定位方法，其特征在于包括如下步骤：

步骤(1)、数据预处理，提取视频数据的初始时空特征；

对于视频数据集V中的每个输入视频，首先以30FPS抽取图像帧，同时使用TVL-1算法抽取视频的光流；对于抽取好的的图像和光流，使用基于Kinetics数据集预训练的I3D模型分别提取图像特征和光流特征，然后将这两个特征在时序维度上进行堆叠获得最终的初始时空特征；采用滑动窗口的形式，以指定的重叠率滑动取出长度相同的视频片段作为时空特征，最后将相同大小的时空特征输入到网络模型中；

步骤(2)、基于图注意力机制的金字塔网络模型

图注意力机制根据输入的时空特征，以时序节点作为图网络的节点，采用全连接的形式，节点之间相互连边；采用多头的形式进行注意力权重的计算，最后再进行融合得到整个节点之间的重要性权重；图卷积机制代替金字塔自下而上的传统卷积形式；

步骤(3)、模型训练

将基于图注意力机制的金字塔网络模型得到的多层特征图，每一层特征图分别放入到两个分支结构中，第一条分支为热力图的生成，各自产出对应的关键点信息，用以组成预选框；第二条分支用以生成每个节点的词嵌入，用来加以约束对应的预选框是否具有可信度；在第一条分支中，将生成的关键点信息与视频段中实际的标签做比较，利用反向传播算法对模型参数进行训练；第二条分支中，利用推拉损失对每个节点的词嵌入在相互间做一个参数训练，直至整个网络模型收敛；

步骤(4)、生成定位检测结果

根据步骤(4)得到两条分支的预测结果，结合第一条分支热力图预测关键点的位置挑选出预选框，再通过第二条关键点的词嵌入、预测的关键点置信度以及同时挑选出的类别信息进一步来约束挑出更优的预选框。

2.根据权利要求1所述的一种基于金字塔结构的图注意力网络时序动作定位方法，其特征在于步骤(1)具体如下：

对抽取好的的图像和光流进行特征提取，使用基于Kinetics数据集预训练的I3D模型分别提取图像和光流对应的图像特征和光流特征/>其中N表示不同视频具有不同的时序长度，1024则代表每个视频片段经过预训练的I3D模型提取后输出的特征维度；为了整合输入视频的外观特征和运动特征，将图像特征F_rgb和光流特征F_flow在时序维度上进行堆叠，并获得初始时空特征/>再接着，用滑动窗口在时序长度N上以50％的重叠率进行滑动，最终得到窗口的时空特征/>其中T＝256。

3.根据权利要求2所述的一种基于金字塔结构的图注意力网络时序动作定位方法，其特征在于步骤(2)所述的基于图注意力机制的金字塔网络模型具体如下：

2-1、图注意力机制定义如下：

其中d_k是Q(*)和K(*)输出的维度，则是一个比例因子；

首先将步骤(1)中得到的时空特征作为输入传入到图注意力结构中，将时空特征经过三个线性变换函数得到自注意力机制中的K、Q、V，公式如下：

即将时空特征分别输入到三个单层神经网络层，激活函数选择Relu，输出新的K、Q、V；

然后将Q在最后一维上切分为均等的多个段，再对切分完的矩阵在第一个维度上进行拼接起来，对V和K都进行和Q一样的操作，操作后的矩阵分别记为Q_、K_和V_；

最后，对于每一个切分完的维度通过公式(1)分别做自注意力机制，最后将每一个维度的注意力权重与V_相乘得到相应的特征，再拼接得到完整的特征表达；

2-2用图注意力卷积加上步长为2的最大池化操作代替原有的简单一维卷积，具体公式为：

F_high＝Maxpooling(GAT(F_cur)) (3)

其中,F_high表示经过当前层图卷积的高层特征图输出，F_cur表示当前层的输入特征；

接着是自上向下的路径，具体公式可表示为：

F_low＝Intetpolate(conv(F_cur)) (4)

其中conv为一个1×3的卷积。

4.根据权利要求3所述的一种基于金字塔结构的图注意力网络时序动作定位方法，其特征在于步骤(3)模型训练具体如下：

3-1、首先根据输入视频的标签实例生成对应的训练标签；

对于一个视频段，首先计算当前视频中所有实例与整个窗口的重叠率，若某个实例与窗口的重叠率大于阈值，就将该实例标记在窗口内；标记完后，留下含有实例的窗口进行训练；

接着根据设定好的金字塔结构，以实例的时间跨度为分割标准分别为不同感受野的特征图计算训练标签；分配时，时间跨度的大小与感受野的大小成正比；对于分配到该特征图的实例，先通过实例标签处对应的类别以及起始结束和中间位置，根据实例长度前后扩充相应数量的节点当作训练正样本；针对对应的关键点位置以及类别，与窗口的每个节点计算重叠率；除了在对应类别的正确关键点位置以外，其余位置全为负样本；

3-2、根据第一条热力图分支的模型输出，得到特征：

F_heat＝3×T_n×(C+1) (5)

其中T_n表示不同特征图输入的不同时序维度，C+1表示类别数加上背景类；针对不同的关键点分别做focal loss，对于每一个T_n×(C+1)，正样本分布在前C类，其中正样本的选取条件为重叠率大于0.5；做loss时正负样本按照指定的比例在每一个特征层选取若干个点，若正样本不足，则用负样本填充；focal loss公式为：

FL(p_t)＝-α_t(1-p_t)^γlog(p_t) (6)

其中p_t表示预测为关键点的概率，α_t表示正负样本的对应权重，γ的作用是为了降低简单样本的loss，迫使模型去更在意难挑选的样本；

3-3、根据第二条词嵌入分支的模型输出，得到特征：

F_emb＝2×T_n×1 (7)

第二条词嵌入分支只针对关键点的精确位置，在不同动作实例间做推拉损失；其中公式为：

其中表示精确关键点的个数，/>表示第k个行为的起点词嵌入，/>表示第k个行为的结束点词嵌入；/>用来表示第k个预选框；

L＝L_fl+0.1L_pull+0.1L_push (10)

反向传播输入到网络，直至损失收敛。

5.根据权利要求4所述的一种基于金字塔结构的图注意力网络时序动作定位方法，其特征在于步骤(4)所述的生成定位检测结果，具体如下：

首先根据起始关键点的热力图、结束关键点的热力图分别取出topK进行组合，得到K*K个预选框；

接着找到每个由起始结束点组成的框的中间点，由三个关键点的预测得分取平均代表预选框的得分；

然后再通过四个限制筛选预选框:

a)起点在结束点之后的；

b)节点间类别不同的；

c)热力图得分低于阈值的；

d)起点结束点词嵌入距离超过设定阈值的；

最后对筛选预选框进行非极大值抑制后计算平均精度均值。