CN109934845A

CN109934845A - 基于自注意力网络的时序行为捕捉框生成方法及装置

Info

Publication number: CN109934845A
Application number: CN201910197423.XA
Authority: CN
Inventors: 郭大山; 姜文浩; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2019-06-25
Anticipated expiration: 2039-03-15
Also published as: CN109934845B

Abstract

本发明公开了一种基于自注意力网络的时序行为捕捉框生成方法及装置，所述方法包括：获取目标视频；根据所述目标视频得到输入特征矩阵，并将所述输入特征矩阵输入第一自注意力模型以得到动作概率序列、起始点概率序列和结束点概率序列；所述第一自注意力模型由多个分组串联得到，每个分组中包括至少一个自注意力单元，各个分组对应的目标特征矩阵在时序上形成了特征偏移；根据所述动作概率序列、起始点概率序列和结束点概率序列生成候选捕捉框集；提取各个候选捕捉框之间的相对位置信息，并将所述相对位置信息输入第二自注意力模型以得到目标捕捉框集。本发明分设两个自注意力模型得到了目标捕捉框集，提升目标捕捉框集的生成精度。

Description

基于自注意力网络的时序行为捕捉框生成方法及装置

技术领域

本发明涉及机器学习领域，尤其涉及基于自注意力网络的时序行为捕捉框生成方法及装置。

背景技术

现实生活中的视频常常包含一系列连续复杂动作和相关事件，基于对视频中时序行为的研究需要，时序行为捕捉框生成任务也成为研究热点，但是如何对视频生成高质量的捕捉框，并且使得捕捉框能够以较高的召回率和较高的交并比覆盖该视频中真实存在的动作实例，却成为了研究难点。现有技术中为了得到时序行为捕捉框，可以构建时序行为学习任务，具体可以使用递归神经网络(recurrent neural network,RNN)和卷积神经神经网络(convolution neural network,CNN)来进行学习。其中递归神经网络通过递归操作对序列上下文信息建模，然而递归操作非常耗时，而卷积神经神经网络可以并行化实现加速，然而其通过叠加多个卷积层所抓取的上下文信息范围受限。

发明内容

本发明提供了一种基于自注意力网络的时序行为捕捉框生成方法及装置。

一方面，本发明提供了一种基于自注意力网络的时序行为捕捉框生成方法，所述方法包括：

获取目标视频；

根据所述目标视频得到输入特征矩阵，并将所述输入特征矩阵输入第一自注意力模型以得到动作概率序列、起始点概率序列和结束点概率序列；所述第一自注意力模型由多个分组串联得到，每个分组中包括至少一个自注意力单元，各个分组对应的目标特征矩阵在时序上形成了特征偏移；

根据所述动作概率序列、起始点概率序列和结束点概率序列生成候选捕捉框集，所述候选捕捉框集包括至少一个候选捕捉框；

提取各个候选捕捉框之间的相对位置信息，并将所述相对位置信息输入第二自注意力模型以得到目标捕捉框集，所述目标捕捉框集至少包括一个捕捉框。

另一方面提供了一种基于自注意力网络的时序行为捕捉框生成装置，所述装置包括：

目标视频获取模块，用于获取目标视频；

第一自注意力模块，用于根据所述目标视频得到输入特征矩阵，并将所述输入特征矩阵输入第一自注意力模型以得到动作概率序列、起始点概率序列和结束点概率序列；所述第一自注意力模型由多个分组串联得到，每个分组中包括至少一个自注意力单元，各个分组对应的目标特征矩阵在时序上形成了特征偏移；

候选捕捉框生成模块，用于根据所述动作概率序列、起始点概率序列和结束点概率序列生成候选捕捉框集，所述候选捕捉框集包括至少一个候选捕捉框；

第二自注意力模块，用于提取各个候选捕捉框之间的相对位置信息，并将所述相对位置信息输入第二自注意力模型以得到目标捕捉框集，所述目标捕捉框集至少包括一个捕捉框。

另一方面提供了一种计算机可读存储介质，用于存储程序，所述程序被执行时实现所述的一种一种基于自注意力网络的时序行为捕捉框生成方法。

另一方面提供了一种终端设备，所述终端设备包括上述的一种基于自注意力网络的时序行为捕捉框生成装置。

本发明提供的一种基于自注意力网络的时序行为捕捉框生成方法及装置，通过分设两个自注意力模型得到了目标捕捉框集，其中，第一自注意力模型能够在帧级维度上通过优化自注意力模型结构，充分考虑时序偏移信息而提升候选捕捉框的生成精度，第二自注意力模型能够在候选框维度上通过将各个候选框之间的相对位置信息纳入考量而提升目标捕捉框的生成精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明实施例提供的一种基于自注意力网络的时序行为捕捉框生成方法的实施环境示意图；

图2是本发明实施例提供的一种基于自注意力网络的时序行为捕捉框生成方法的流程图；

图3是本发明实施例提供的一种基于自注意力模型的时序行为捕捉框生成方法的逻辑示意图；

图4是本发明实施例提供的自注意力单元处理流程图；

图5是本发明实施例提供的第一自注意力模型的训练过程流程示意图；

图6是本发明实施例提供的四个分组中对第一特征矩阵的线性映射结果处理示意图；

图7是本发明实施例提供的第二自注意力模型的执行方法流程图；

图8是本发明实施例提供的一种基于自注意力网络的时序行为捕捉框生成装置框图；

图9是本发明实施例提供的二自注意力模块框图；

图10是本发明实施例提供的一种用于实现本发明实施例所提供的方法的设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了构建高质量的捕捉框，同时规避递归神经网络(recurrentneural network,RNN)和卷积神经神经网络(convolution neural network,CNN)在时序行为研究中的弊端，本发明实施例拟通过自注意力网络(self-attention network,SAN)及其优化方案来实现时序行为捕捉框的生成任务，与递归神经网络(recurrent neural network,RNN)和卷积神经神经网络(convolution neural network,CNN)相比，自注意力网络一方面可以通过非局部操作对远程上下文信息建模，另一方面也可以并行化运行加快处理速度。而为了进一步提升时序行为捕捉框的生成质量，本发明实施例对自注意力网络及基于自注意力网络进行时序行为捕捉的方法进行了优化，具体请参见本发明实施例中的具体内容。

请参考图1，其示出了本发明实施例公开的一种基于自注意力网络的时序行为捕捉框生成方法的实施环境示意图。所述实施环境至少包括一个视频捕捉设备01和一个时序行为捕捉框生成服务器02，所述视频捕捉设备01与所述时序行为捕捉框生成服务器02连接。所述视频捕捉设备01可以用于捕捉视频，并将捕捉到的视频传输至所述时序行为捕捉框生成服务器02。所述时序行为捕捉框生成服务器02获取到所述视频，为所述视频生成时序行为捕捉框，所述时序行为捕捉框覆盖的内容能够以较大的概率命中某些目标动作或某些目标事件，从而为后续的行为分析提供素材。

所述视频捕捉设备01可以为具备视频捕捉功能的各种设备，其可以为各种摄像头、智能手机、配置有摄像头的台式电脑、平板电脑、笔记本电脑、车载终端、数字助理、智能可穿戴设备等类型的实体设备，也可以包括运行于实体设备中的软体，例如应用程序等，也可以包括一个独立运行的服务器，或者分布式服务器，或者由多个服务器组成的服务器集群。

所述时序行为捕捉框生成服务器02可以包括一个独立运行的服务器，或者分布式服务器，或者由多个服务器组成的服务器集群。

基于上述实施环境，本发明实施例提出了一种基于自注意力网络的时序行为捕捉框生成方法，如图2所示，所述方法包括：

S101.获取目标视频。

具体地，所述目标视频可以为需要为其生成时序行为捕捉框(后文简称捕捉框)的任何视频。

S103.根据所述目标视频得到输入特征矩阵，并将所述输入特征矩阵输入第一自注意力模型以得到动作概率序列、起始点概率序列和结束点概率序列；所述第一自注意力模型由多个分组串联得到，每个分组中包括至少一个自注意力单元，各个分组对应的目标特征矩阵在时序上形成了特征偏移。

本发明实施例中输入特征矩阵可以通过对目标视频分帧提取图像，并对图像进行特征提取的方式得到，因此输入特征矩阵包含了目标视频中的时序信息。本发明实施例经过相关研究认为在自注意力模型中充分考虑时序偏移量的相关信息有助于抽象出时序数据中的边界信息，因此，本发明实施例中对于自注意力模型进行了改进，即通过组合多组自注意力单元的方式构建第一自注意力模型，而不同分组对应的目标特征矩阵在时序上形成了特征偏移，从而使得第一自注意力模型能够充分考虑输入特征矩阵中的时序偏移信息，达到提高候选捕捉框精度的目的。

具体地，所述动作概率序列表征所述目标视频中每帧图像发生目标动作的概率。所述目标动作可以指向发生某个或某种具体行为，或正在发生某个或某种事件。本发明实施例并不对目标动作的类型和特征进行限定，可以根据实际应用场景的不同设定不同的目标动作。

具体地，所述起始点概率序列表征目标视频中每帧图像发生时间为目标动作发生时间的概率；所述结束点概率序列表征目标视频中每帧图像发生时间为目标动作结束时间的概率。

S105.根据所述动作概率序列、起始点概率序列和结束点概率序列生成候选捕捉框集，所述候选捕捉框集包括至少一个候选捕捉框。

S107.提取各个候选捕捉框之间的相对位置信息，并将所述相对位置信息输入第二自注意力模型以得到目标捕捉框集，所述目标捕捉框集至少包括一个捕捉框。

请参考图3，其示出了本发明实施例公开的一种基于自注意力模型的时序行为捕捉框生成方法的逻辑示意图，所述方法通过分设两个自注意力模型得到了目标捕捉框集，其中，第一自注意力模型能够在帧级维度上通过优化自注意力模型结构，充分考虑时序偏移信息而提升候选捕捉框的生成精度，第二自注意力模型能够在候选框维度上通过将各个候选框之间的相对位置信息纳入考量而提升目标捕捉框的生成精度。

具体地，本发明实施例中自注意力单元可以包括归一化点乘单元，其可以是用于组成本发明实施例中第一自注意力模型的基本单元。自注意力单元主要执行下述方法，请参考图4，包括：

S1，将输入特征矩阵经过线性变换分别得到第一特征矩阵、第二特征矩阵和第三特征矩阵。

所述第一特征矩阵、第二特征矩阵和第三特征矩阵在本发明实施例中分别使用Q，K，V来表示。

Q，K，V，分别代表query以及key-value pair，即查询信息以及键值对。本发明实施例中将自注意力单元可以被抽象为对V中的独立信息进行加权，而加权的权重就是表征了注意程度。为了用V求出Q对应的结果,根据Q和K来决定注意力应该放在V的哪部分。

S3，根据所述第一特征矩阵和第二特征矩阵得到所述输入特征矩阵中不同元素之间的依赖关系。

具体地，所述不同元素的依赖关系可以标识为其中，e_ij表示不同元素x_i,x_j之间的依赖程度，W_q,W_k为第一特征矩阵和第二特征矩阵。显然的，本发明实施例中对依赖关系的得到结果进行了放缩，其原因在于，第一特征矩阵和第二特征矩阵参与点乘操作，点乘操作的结果如果值过大而不做放缩处理，可能会使得后续经由归一化指数函数得到的结果梯度很小，不利于反向传播的进行，所以要进行放缩，所述放缩使用的参数为表示尺度变换因子。

S5，根据所述依赖关系和第三特征矩阵得到输出矩阵。

具体地，本发明实施例中输出矩阵的元素其中，softmax函数是有限项离散概率分布的梯度对数归一化结果，e_ij为不同元素的依赖关系，W_v为第三特征矩阵，x_j为输入矩阵的元素。

基于上述归一化点乘单元，本发明实施例中可以设置多个自注意力单元。在一个可行的实施方式中，第一自注意力模型包括八个自注意力单元，共分为四组，则每组包括两个自注意力单元。基于上述结构，本发明实施例进一步公开了第一自注意力模型的训练过程，如图5所示，所述训练过程包括：

S1031.对各个分组中自注意力单元中的第一特征矩阵、第二特征矩阵和第三特征矩阵进行第一线性映射。

S1033.对各个分组中自注意力单元的第一特征矩阵进行处理以形成特征偏移。

请参考图6，其示出了四个分组中对第一特征矩阵的线性映射结果处理示意图。其中第一组中的第一特征矩阵通过q_t ¹表示，第二组中的第一特征矩阵通过q_t ²标识，显然相比于第一组，第二组不仅关注视频的当前图像本身，还关注视频的上一帧图像和下一帧图像。第三组中的第一特征矩阵通过q_t ³标识，显然相比于第一组，第三组不仅关注视频的当前图像本身，还关注视频当前图像的之前两帧图像。第四组中的第一特征矩阵通过q_t ⁴标识，显然相比于第一组，第三组不仅关注视频的当前图像本身，还关注视频当前图像的之后两帧图像。

S1035.对各个分组的输出结果进行合并，并对合并结果进行第二线性映射以得到输出结果。

第一线性映射的目的在于降维，将降维后得到的输出结果进行合并，并经过第二线性映射后得到的输出结果的维度与第一自注意力模型的输入维度一致。

S1037.根据所述输出结果得到预测目标，所述预测目标包括动作概率序列、起始点概率序列和结束点概率序列。

S1039.根据预设目标函数和所述预测目标训练所述第一自注意力模型。

具体地，所述目标函数由动作性概率序列、起始点概率序列和结束点概率序列的加权交叉熵损失函数组成，可以表示为L_frame＝L_action+λ_b(L_start+L_end)，其中λ_b表示加权系数。

基于第一自注意力模型得到的预测目标，可以生成候选捕捉框集，为了增强这些候选捕捉框的特征信息，本发明实施例提取候选捕捉框之间的相对位置信息，并参与到第二自注意力模型的输入中。具体地，本发明实施例所述相对位置信息可以被表征为任意两个候选捕捉框之间的相对时间位置。第i个候选捕捉框P_i＝[t_s,i,t_e,i]和第j个候选捕捉框P_j＝[t_s,j,t_e,j]之间的相对时间位置由向量表示，其定义如下：其中，d_j表示第j个候选推荐框的持续时间，而使用除法的目的在于使得两个开始(结束)时间点的差值对于持续时间具有尺度不变性。

请参考图7，所述第二自注意力模型的执行方法包括：

S10.计算输入的候选捕捉框集对应的高维向量集，所述高维向量集包含各个候选捕捉框的相对时间位置信息。

S30.根据所述相对时间位置信息得到第一参量和第二参量，所述第一参量和第二参量分别表示相对时间位置信息对于第二特征矩阵和第三特征矩阵的影响。

具体地，计算向量对应不同波长的sine和cosine函数值，并将其嵌入到高维向量ε_ij，然后利用全连接层将高维向量变换到合适的维度并加入到第二自注意力模型之中，得到：

a^k _ij＝Φ(W_ε ^kε_ij)；a^v _ij＝Φ(W_ε ^vε_ij)；

其中Φ为非线性激活函数，a^k _ij表示融入元素k_j的相对位置信息，a^v _ij表示融入元素v_j的相对位置信息，W_ε ^k,W_ε ^v均为线性变换权重，k_j，v_j分别表示第二特征矩阵和第三特征矩阵的元素。

S50.计算预测目标。

具体地，所述预测目标为以所述候选捕捉框集为输入而得到的结果，可以被表示为其中z_i,x_j分别表示输入和输出的元素，W_v为第三特征矩阵。

进一步地，W_ij＝softmax(e_ij)，其中

S70.根据所述预测目标得到第一目标捕捉框集。

在一个可行的实施方式中，所述第一目标捕捉框集即可作为目标捕捉框集进行输出，从而将所述第一目标捕捉框集命中的视频部分作为后续的行为分析素材。

进一步地，在一个优选的实施例中，还可以进一步对所述目标捕捉框集进行评估，并基于评估结果得到第二目标捕捉框集，并将第二目标捕捉框集作为目标捕捉框集输出。为了使得第二目标捕捉框集具有更加优异的性能，相较于现有技术，本发明实施例对于评估方案进行了改进。

在一个可行的实施方式中，可以通过下述方法获得第二目标捕捉框集：

预测各个第一目标捕捉框的置信得分。

评估每个第一目标捕捉框与真实标注的捕捉框的交并比值。在本发明实施例中交并比值是指预测得到的捕捉框与真实捕捉框的交叠率，即它们的交集与并集的比值，交并比值越高，则预测结果越好。

根据所述交并比值对第一目标捕捉框进行排序。

根据排序结果得到第二目标捕捉框集。

在一个优选的实施方式中，认为与交并比值的绝对值相比，相对值更为重要，于是，可以自定义排序损失函数，并根据所述排序损失函数对基于第一目标捕捉框的置信得分进行排序的排序结果进行评价，进而得到第二目标捕捉框。具体地，所述排序损失函数为其中τ表示铰链损失中的间隔值，p_o,i表示第i个推荐框真实交并比值，N_go,i＞go,j标识正确排序的有效对的数量，即第i个推荐框的交并比排名在第j个框之前。

本发明实施例还提供一种基于自注意力网络的时序行为捕捉框生成装置，如图8所示，所述装置包括：

目标视频获取模块201，用于获取目标视频；

第一自注意力模块202，用于根据所述目标视频得到输入特征矩阵，并将所述输入特征矩阵输入第一自注意力模型以得到动作概率序列、起始点概率序列和结束点概率序列；所述第一自注意力模型由多个分组串联得到，每个分组中包括至少一个自注意力单元，各个分组对应的目标特征矩阵在时序上形成了特征偏移；

候选捕捉框生成模块203，用于根据所述动作概率序列、起始点概率序列和结束点概率序列生成候选捕捉框集，所述候选捕捉框集包括至少一个候选捕捉框；

第二自注意力模块204，用于提取各个候选捕捉框之间的相对位置信息，并将所述相对位置信息输入第二自注意力模型以得到目标捕捉框集，所述目标捕捉框集至少包括一个捕捉框。

进一步地，所述第二自注意力模块204，如图9所示，包括：

位置信息计算单元2041，用于计算输入的候选捕捉框集对应的高维向量集，所述高维向量集包含各个候选捕捉框的相对时间位置信息；

参量获取单元2042，用于根据所述相对时间位置信息得到第一参量和第二参量，所述第一参量和第二参量分别表示相对时间位置信息对于第二特征矩阵和第三特征矩阵的影响；

预测目标计算单元2043，用于计算预测目标；

第一目标捕捉框集获取单元2044，用于根据所述预测目标得到第一目标捕捉框集。

在一个可行的实施方式中，所述第二自注意力模块204还用于将所述第一目标捕捉框集作为目标捕捉框集进行输出。

在另一个可行的实施方式中，所述第二自注意力模块204还用于预测各个第一目标捕捉框的置信得分；评估每个第一目标捕捉框与真实标注的捕捉框的交并比值；根据所述交并比值对第一目标捕捉框进行排序；根据排序结果得到第二目标捕捉框集；将所述第二目标捕捉框集作为目标捕捉框集输出。

在另一个可行的实施方式中，所述第二自注意力模块204还用于定义排序损失函数；根据所述排序损失函数对基于第一目标捕捉框的置信得分进行排序的排序结果进行评价；根据评价结果得到第二目标捕捉框集；将所述第二目标捕捉框集作为目标捕捉框集输出。

进一步地，所述第一自注意力模块202中各个自注意力单元用于将输入矩阵经过线性变换分别得到第一特征矩阵、第二特征矩阵和第三特征矩阵根据所述第一特征矩阵和第二特征矩阵得到所述输入特征矩阵中不同元素之间的依赖关系；根据所述依赖关系和第三特征矩阵得到输出矩阵。

本发明实施例提供的一种基于自注意力网络的时序行为捕捉框生成装置置与方法实施例基于相同的发明构思。

本发明实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行本发明实施例所述的一种基于自注意力网络的时序行为捕捉框生成方法的步骤。

具体地，所述指令的内容包括：

获取目标视频；

进一步地，所述指令的内容还包括：

将输入矩阵经过线性变换分别得到第一特征矩阵、第二特征矩阵和第三特征矩阵

根据所述第一特征矩阵和第二特征矩阵得到所述输入特征矩阵中不同元素之间的依赖关系；

根据所述依赖关系和第三特征矩阵得到输出矩阵。

进一步地，所述指令的内容还包括：

对各个自注意力单元中的第一特征矩阵、第二特征矩阵和第三特征矩阵进行第一线性映射；

对各个分组中自注意力单元的第一特征矩阵进行处理以形成特征偏移；

对各个分组的输出结果进行合并，并对合并结果进行第二线性映射以得到输出结果；

根据所述输出结果得到预测目标，所述预测目标包括动作概率序列、起始点概率序列和结束点概率序列；

根据预设目标函数和所述预测目标训练所述第一自注意力模型。

进一步地，所述指令的内容还包括：

计算输入的候选捕捉框集对应的高维向量集，所述高维向量集包含各个候选捕捉框的相对时间位置信息；

根据所述相对时间位置信息得到第一参量和第二参量，所述第一参量和第二参量分别表示相对时间位置信息对于第二特征矩阵和第三特征矩阵的影响；

计算预测目标；

根据所述预测目标得到第一目标捕捉框集。

进一步地，所述指令的内容还包括：

将所述第一目标捕捉框集作为目标捕捉框集进行输出。

进一步地，所述指令的内容还包括：

预测各个第一目标捕捉框的置信得分；

评估每个第一目标捕捉框与真实标注的捕捉框的交并比值；

根据所述交并比值对第一目标捕捉框进行排序；

根据排序结果得到第二目标捕捉框集；

将所述第二目标捕捉框集作为目标捕捉框集输出。

进一步地，所述指令的内容还包括：

定义排序损失函数；

根据所述排序损失函数对基于第一目标捕捉框的置信得分进行排序的排序结果进行评价；

根据评价结果得到第二目标捕捉框集；

将所述第二目标捕捉框集作为目标捕捉框集输出。

进一步地，图10示出了一种用于实现本发明实施例所提供的方法的设备的硬件结构示意图，所述设备可以为计算机终端、移动终端或服务器，所述设备还可以参与构成本发明实施例所提供的装置或系统。如图10所示，计算机终端10(或移动设备10或服务器10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图10所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图10中所示更多或者更少的组件，或者具有与图10所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中所述的方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的一种基于自注意力网络的时序行为捕捉框生成方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自注意力网络的时序行为捕捉框生成方法，其特征在于，所述方法包括：

获取目标视频；

2.根据权利要求1所述方法，其特征在于，自注意力单元主要执行下述方法：

将输入特征矩阵经过线性变换分别得到第一特征矩阵、第二特征矩阵和第三特征矩阵；

根据所述依赖关系和第三特征矩阵得到输出矩阵。

3.根据权利要求2所述的方法，其特征在于：

第一自注意力模型包括八个自注意力单元，共分为四组，每组包括两个自注意力单元。

4.根据权利要求1所述方法，其特征在于，所述第一自注意力模型通过下述方法进行训练，所述方法包括：

对各个分组中自注意力单元中的第一特征矩阵、第二特征矩阵和第三特征矩阵进行第一线性映射；

5.根据权利要求1所述的方法，其特征在于，所述将所述相对位置信息输入第二自注意力模型以得到目标捕捉框集，包括：

计算预测目标；

根据所述预测目标得到第一目标捕捉框集。

6.根据权利要求5所述的方法，其特征在于：

将所述第一目标捕捉框集作为目标捕捉框集进行输出。

7.根据权利要求5所述的方法，其特征在于：

预测各个第一目标捕捉框的置信得分；

评估每个第一目标捕捉框与真实标注的捕捉框的交并比值；

根据所述交并比值对第一目标捕捉框进行排序；

根据排序结果得到第二目标捕捉框集；

将所述第二目标捕捉框集作为目标捕捉框集输出。

8.根据权利要求5所述的方法，其特征在于：

定义排序损失函数；

根据评价结果得到第二目标捕捉框集；

将所述第二目标捕捉框集作为目标捕捉框集输出。

9.一种基于自注意力网络的时序行为捕捉框生成装置，其特征在于，所述装置包括：

目标视频获取模块，用于获取目标视频；

第一自注意力模块，用于根据所述目标视频得到第一特征矩阵，并将所述第一特征矩阵输入第一自注意力模型以得到动作概率序列、起始点概率序列和结束点概率序列；所述第一自注意力模型由多个分组串联得到，每个分组中包括至少一个自注意力单元，各个分组对应的目标特征矩阵在时序上形成了特征偏移；

10.根据权利要求9所述的装置，其特征在于，所述第二自注意力模块，包括：

位置信息计算单元，用于计算输入的候选捕捉框集对应的高维向量集，所述高维向量集包含各个候选捕捉框的相对时间位置信息；

参量获取单元，用于根据所述相对时间位置信息得到第一参量和第二参量，所述第一参量和第二参量分别表示相对时间位置信息对于第二特征矩阵和第三特征矩阵的影响；

预测目标计算单元，用于计算预测目标；

第一目标捕捉框集获取单元，用于根据所述预测目标得到第一目标捕捉框集。