CN113569755A - 基于对偶关系网络的时序动作定位方法、系统、设备及介质 - Google Patents

基于对偶关系网络的时序动作定位方法、系统、设备及介质 Download PDF

Info

Publication number
CN113569755A
CN113569755A CN202110866978.6A CN202110866978A CN113569755A CN 113569755 A CN113569755 A CN 113569755A CN 202110866978 A CN202110866978 A CN 202110866978A CN 113569755 A CN113569755 A CN 113569755A
Authority
CN
China
Prior art keywords
proposal
action
video
sequence
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110866978.6A
Other languages
English (en)
Other versions
CN113569755B (zh
Inventor
王乐
夏锟
周三平
陈仕韬
辛景民
郑南宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Shun'an Artificial Intelligence Research Institute
Xian Jiaotong University
Original Assignee
Ningbo Shun'an Artificial Intelligence Research Institute
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Shun'an Artificial Intelligence Research Institute, Xian Jiaotong University filed Critical Ningbo Shun'an Artificial Intelligence Research Institute
Priority to CN202110866978.6A priority Critical patent/CN113569755B/zh
Publication of CN113569755A publication Critical patent/CN113569755A/zh
Application granted granted Critical
Publication of CN113569755B publication Critical patent/CN113569755B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于对偶关系网络的时序动作定位方法、系统、设备及介质,所述方法包括以下步骤:将待时序动作定位的原始视频序列分解为若干个视频片段并编码,获得编码后的视频特征序列;基于编码后的视频特征序列,获得候选的动作提案集合;利用预训练好的对偶关系网络对所述候选的动作提案集合中的每个提案进行信息更新,获得提案信息更新后的动作提案集合;基于所述提案信息更新后的动作提案集合,获得时序动作定位结果。本发明中,首次提出建模并推理动作提案之间的关系以及动作提案与全局上下文之间的关系,以丰富和补充动作提案表征,进而准确地分类动作和精确地检测动作边界。

Description

基于对偶关系网络的时序动作定位方法、系统、设备及介质
技术领域
本发明属于计算机视觉与模式识别技术领域,涉及时序动作定位领域,特别涉及一种基于对偶关系网络的时序动作定位方法、系统、设备及介质。
背景技术
伴随着视频数据的快速增长,视频的自动处理技术的重要程度与日俱增;其中,视频动作检测问题具有越来越大的理论研究价值与实际应用价值。
目前,如何自动发现检测视频中包含的特定动作的开始时间和结束时间,以及识别该动作的类别,仍是当前视频处理领域的难点问题。在上述难点问题中,输入是未剪辑的视频序列,包含真实的动作实例以及背景等与动作无关的序列;其中,将非动作序列的视频信息称为上下文信息。在上述难点问题中,输出分为两部分,其一是动作发生的开始时间和结束时间;其二是动作的类别。
由于复杂的时空背景、模糊的时间边界,以及人物外观、镜头视角和动作持续时间的变化很大,上述难点问题是非常具有挑战性。
以往的大多数传统方法是首先生成一系列候选动作提案,独立地处理每个动作提案,同时忽略了动作提案和其上下文的关系的推理;由于动作提案与真实动作实例之间存在表征差异和时序偏移,因而在识别动作类别和定位边界上遇到性能瓶颈。
综上,亟需一种新的基于对偶关系网络的时序动作定位方法、系统、设备及介质。
发明内容
本发明的目的在于提供一种基于对偶关系网络的时序动作定位方法、系统、设备及介质,以解决上述存在的一个或多个技术问题。本发明中,首次提出建模并推理动作提案之间的关系以及动作提案与全局上下文之间的关系,以丰富和补充动作提案表征,进而准确地分类动作和精确地检测动作边界。
为达到上述目的,本发明采用以下技术方案:
本发明的一种基于对偶关系网络的时序动作定位方法,包括以下步骤:
将待时序动作定位的原始视频序列分解为若干个视频片段并编码,获得编码后的视频特征序列;
基于所述编码后的视频特征序列,获得候选的动作提案集合;
利用预训练好的对偶关系网络对所述候选的动作提案集合中的每个提案进行信息更新,获得提案信息更新后的动作提案集合;其中,所述信息更新包括推理提案之间的关系特征、提案与全局上下文的关系特征来丰富每个提案的特征;
基于所述提案信息更新后的动作提案集合,获得时序动作定位结果。
本发明的进一步改进在于,所述将待时序动作定位的原始视频序列分解为若干个视频片段并编码,获得编码后的视频特征序列的步骤具体包括:
将待时序动作定位的原始视频序列分解为若干个视频片段,每个视频片段包含原始视频序列固定长度的连续帧;
利用一个预训练好的特征提取器编码每个视频片段,获得编码后的视频特征序列;其中,所述编码后的视频特征序列包含每个视频片段的RGB信息和相邻片段之间的光流信息。
本发明的进一步改进在于,所述预训练好的对偶关系网络包括:
提案-提案关系推理模块,用于推理提案之间的关系特征来丰富每个提案的特征;
提案-上下文关系推理模块,用于推理提案与全局上下文的关系特征来丰富每个提案的特征;
其中,在训练时采用的损失函数包括分类损失、回归损失以及完整性损失;在推理阶段用于预测每个提案的类别、边界偏移以及置信度分数。
本发明的进一步改进在于,在训练时采用的损失函数的表达式为,
Figure BDA0003187651650000031
其中,L为对偶关系网络的总体损失,Lcls为分类损失、Lreg为回归损失、Lcom为完整性损失;
Figure BDA0003187651650000032
是第n个提案的类别标签;
Figure BDA0003187651650000033
分别是第n个提案的边界回归目标,即开始时间、结束时间;α和β分别是回归损失和完整性损失的权重超参数;
Figure BDA0003187651650000034
是第n个提案的完整性标签;
分类损失采用标准的交叉熵损失;
完整性损失采用在线硬实例挖掘铰链损失;
回归损失采用两个smooth L1损失。
本发明的进一步改进在于,所述提案-提案关系推理模块中,推理提案之间的关系特征来丰富每个提案的特征的步骤具体包括:
编码后的视频特征序列表示为
Figure BDA0003187651650000035
其中,xt表示第t个视频片段的特征向量,T表示视频片段的总数量;
候选的动作提案集合表示为
Figure BDA0003187651650000036
其中,ts,n和te,n为第n个动作提案的开始时间和结束时间,fn为第n个动作提案的特征向量,N表示动作提案的总数量;
第n个提案的更新特征表示为
Figure BDA0003187651650000037
计算表达式为,
Figure BDA0003187651650000038
式中,Sn,m是相似矩阵的一个元素,表示第n个提案和第m个提案之间的关系权重,WS是线性映射层的权重矩阵;fm为第m个动作提案的特征向量;
相似矩阵S的表达式为,
S=λSa+(1-λ)Sg
式中,λ是一个控制外观和几何图形相似性之间的相对重要性的超参数;Sa为外观相似度矩阵;Sg为几何相似度矩阵;
Figure BDA0003187651650000041
Figure BDA0003187651650000042
式中,
Figure BDA0003187651650000043
Figure BDA0003187651650000044
分别为外观相似度矩阵和几何相似度矩阵的第n行第m列的元素;||·||为L2正则化;
第n个提案的特征更新为,
Figure BDA0003187651650000045
式中,σ(·)为sigmoid激活函数,ReLU为线性整流函数;Wr、Wex和Wsq分别为三个线性映射层的权重矩阵。
本发明的进一步改进在于,所述提案-上下文关系推理模块中,推理提案与全局上下文的关系特征来丰富每个提案的特征的步骤具体包括:
计算每个提案与视频特征序列的每个时间位置的关联关系,利用关联关系生成上下文感知特征,使用上下文感知特征增强原始的提案特征;
其中,每个动作提案与视频每个时间位置的特征向量xt的关系用注意力权重at表示;
Figure BDA0003187651650000046
at的数值大小用于表示第t个时间位置的视频特征对动作提案的贡献大小;
利用注意力权重更新原始提案特征,表达式为,
Figure BDA0003187651650000051
式中,Wp,Wc和Wpc分别为三个不同的权重矩阵。
本发明的进一步改进在于,所述基于所述提案信息更新后的动作提案集合,获得时序动作定位结果的步骤包括:
对于所述提案信息更新后的动作提案集合中的每一个动作提案ψn,利用预训练好的全连接网络预测其动作类别分数yn,边界的偏移量{Δts,n,Δte,n}以及完整性分数cn
通过全连接网络输出每个动作提案的置信度分数sn=yn×cn,以及其最终的动作边界位置{ts,n+Δts,n,te,n+Δte,n};
利用Soft-NMS算法抑制冗余的重叠率高的动作提案,处理后的置信度分数高于预设值的动作提案为时序动作定位的最终结果。
本发明的一种基于对偶关系网络的时序动作定位系统,包括:
视频特征序列获取模块,用于将待时序动作定位的原始视频序列分解为若干个视频片段并编码,获得编码后的视频特征序列;
动作提案集合获取模块,用于基于所述编码后的视频特征序列,获得候选的动作提案集合;
信息更新模块,用于利用预训练好的对偶关系网络对所述候选的动作提案集合中的每个提案进行信息更新,获得提案信息更新后的动作提案集合;其中,所述信息更新包括推理提案之间的关系特征、提案与全局上下文的关系特征来丰富每个提案的特征;
结果获取模块,用于基于所述提案信息更新后的动作提案集合,获得时序动作定位结果。
本发明的一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序以实现如本发明任意一项上述的时序动作定位方法。
本发明的一种计算机可读存储介质,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现如本发明任意一项上述的时序动作定位方法。
与现有技术相比,本发明具有以下有益效果:
本发明通过建立动作提案之间的内在联系,来捕获用于有效分类的补充信息;同时通过建立动作提案与全局上下文之间的交互关系,捕获用于边界回归的补充信息,来完善不完美动作提案对动作演化过程的缺失信息,进而对边界的微妙变化更加敏感。具体的,本发明通过统一的模型即对偶关系网络的模型,同时地处理提案之间的关系和提案与上下文之间的关系,进而赋予模型区分相似动作实例和更精确地定位时间边界的能力。本发明利用动作提案之间的关系和提案与上下文之间的关系,获得的补充信息可以增强提案表示,能够提高时序动作定位的性能。
本发明的基于对偶关系网络的时序动作定位方法,是第一个统一提案之间关系推理和提案与上下文关系推理来提升时序动作定位性能的工作。本发明提出了一个提案-提案关系模块,它可以根据相关提案的外观和几何相似性,有效地执行相关提案之间的关系推理。本发明提出了一个提案-上下文关系模块,它可以自适应地聚合整个视频中的短期和长期上下文,以丰富提案的特征。这两个推理模块是互补的关系,可以很容易地合并到之前的时序动作定位方法中,并通过标准的分类和定位损失进行端到端训练。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图做简单的介绍;显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种基于对偶关系网络的时序动作定位方法的流程示意框图;
图2是本发明实施例中,提案上下文推理示意图;
图3是本发明实施例的一种基于对偶关系网络的时序动作定位系统的整体架构示意图;
图4是本发明实施例中,在THUMOS14数据集上不同类别动作的P-R曲线示意图。
具体实施方式
为使本发明实施例的目的、技术效果及技术方案更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例是本发明一部分实施例。基于本发明公开的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例,都应属于本发明保护的范围。
请参阅图1,本发明实施例的一种基于对偶关系网络的时序动作定位方法,包括以下步骤:
步骤1,已知一个未剪辑的视频序列,为降低计算量,将所述未剪辑的视频序列分解为若干个视频片段,每个视频片段包含视频固定长度的连续帧。本发明实施例中,利用一个预训练好的特征提取器编码每个片段,进而得到一个编码后的视频特征序列,表示为
Figure BDA0003187651650000071
其中xt表示视频的第t个片段的特征向量,T表示视频片段的数量。
步骤2,已知步骤1中得到的视频特征序列
Figure BDA0003187651650000072
其包含视频的每个视频片段的RGB信息和相邻片段之间的光流信息;利用动作提案生成器得到一个动作提案集合,表示为
Figure BDA0003187651650000073
其中ts,n和te,n为第n个动作提案的开始时间和结束时间,fn为第n个动作提案的特征向量,N表示动作提案的数量。
步骤3:已知步骤2获得的每个视频的动作提案集合,利用对偶关系网络,其包含一个提案-提案关系推理模块和一个提案-上下文关系推理模块,丰富每个提案的特征,进而提高候选动作提案边界回归的精确性和分类的准确性。
最终,本发明实施例利用关系推理的动作提案与真实动作构建损失函数,包括分类损失,回归损失以及完整性损失,在训练阶段实现对网络的迭代优化,在推理阶段分别用于预测每个提案的类别,边界偏移以及置信度分数。
步骤4:已知步骤3获得的提案信息更新后的动作提案集合,对于每一个新的动作提案ψn,利用全连接网络预测它的动作类别分数yn,它的边界的偏移量{Δts,n,Δte,n}以及完整性分数cn(即该动作提案与真实动作的重叠程度)。最终网络输出每个动作提案的置信度分数sn=yn×cn,以及其最终的动作边界位置{ts,n+Δts,n,te,n+Δte,n},即时序动作定位的结果。
本发明实施例中,步骤1中利用双流网络编码视频序列的具体步骤包括:
步骤1.1,已知一个未剪辑的视频序列,定义其包含的真实动作实例集合为
Figure BDA0003187651650000081
其中
Figure BDA0003187651650000082
Figure BDA0003187651650000083
分别表示第n个动作实例的开始时间、结束时间以及类别标签,Ng表示动作实例的数量;将视频序列分解为T个互不重叠的片段,作为双流网络I3D网络(现有技术方案都采用的特征提取网络)的输入;
步骤1.2,为了分别探索视频序列的外观和运动信息,对原始视频序列进行编码,以生成视频表示。具体地,本发明实施例利用I3D网络处理每个视频片段,并提取得到D维的RGB特征向量和光流特征向量。
本发明实施例在步骤2中,已知视频特征序列,采用BSN提案生成方法生成候选动作提案集合,其具体包括以下步骤:
步骤2.1,首先生成候选的边界位置,并组合每对边界位置生成动作提案。利用三个不同的二分类层评估每个视频特征序列的时序位置,以预测每个位置是动作开始,动作结束和是否为动作的概率。记录每个概率峰值所在的时序位置,组合每对开始位置和结束位置生成一个候选动作提案。
步骤2.2,评估每个动作提案的置信度分数。以候选动作提案与真实动作实例的时序重合程度为目标,训练回归器,用于生成每个提案的置信度分数。
本发明实施例在步骤3中,对偶关系网络作用于每个候选的动作提案,目的是通过推理提案之间的关系特征和提案与全局上下文的关系特征来丰富每个原始提案,具体包括以下步骤:
步骤3.1,首先利用提案的开始时间和结束时间在视频特征序列上截取特征向量,再通过时序最大池化操作得到第n个动作提案的语义特征向量,定义为原始的提案特征fn
步骤3.2,已知N个候选提案,计算每对提案之间的外观相似度和几何相似度,进而得到一个外观相似度矩阵Sa和一个几何相似度矩阵Sg
Figure BDA0003187651650000091
Figure BDA0003187651650000092
其中
Figure BDA0003187651650000093
Figure BDA0003187651650000094
分别为外观相似度矩阵和几何相似度矩阵的第n行第m列的元素。||·||为L2正则化。外观相似度矩阵Sa包含每对动作提案的特征向量之间的余弦相似度分数。几何相似矩阵Sg包含动作提案之间的持续时间的相似分数,这里基于假设相关的动作提案的时间尺度往往相似。然后,Sa和Sg的加权求和产生最终的相似矩阵S:
S=λSa+(1-λ)Sg
其中λ是一个控制外观和几何图形相似性之间的相对重要性的超参数。本发明通过整合剩余的N-1个动作提案来更新第n个提案的特征。第n个提案的更新特征,表示为
Figure BDA0003187651650000095
可以通过下式计算:
Figure BDA0003187651650000096
其中,Sn,m是相似矩阵的一个元素,表示第n个提案和第m个提案之间的关系权重,而WS是线性映射层的权重矩阵,fm为第m个动作提案的特征向量。
步骤3.3,步骤3.2明确地建模相关提案之间的微妙的相互作用。为了鼓励网络专注于鉴别性的语义特征,将更新的提案特征输入给通道注意力模块,以获取高阶的支持信息。因此,第n个动作提案的特征被更新为
Figure BDA0003187651650000097
其中σ(·)为sigmoid激活函数;ReLU为线性整流函数;Wr、Wex和Wsq分别为三个线性映射层的权重矩阵。因此,通过相似动作提案之间的交互,能够更好的识别提案的动作类别。
步骤3.4,并行于提案关系推理,引入了一个提案上下文关系推理,来建模提案和整个视频之间的关系。首先计算了任意提案与视频特征序列的每个时间位置的关联关系;然后利用这种关联关系生成上下文感知特征,并使用它们来增强原始的提案特性。
具体地,每个动作提案与全局上下文的关系用注意力权重at表示:
Figure BDA0003187651650000101
进而利用注意力权重更新原始提案特征:
Figure BDA0003187651650000102
式中,Wp,Wc和Wpc分别为三个不同的权重矩阵。因此,自适应地捕获来自全局上下文的支持信息,并嵌入到原始动作提案特征内部,能够更好补充提案的缺失信息。
通过上述两个模块,从时间和语义的两个维度构建了提案关系。因此可以探索和集成尽可能有利于动作定位的支持信息。最后,使用具有C+1输出通道数的全连接层对每个提案的特征向量
Figure BDA0003187651650000103
进行分类,并输出类别预测结果y,其中C+1表示动作类别的数量以及一个背景类。
本发明的基于对偶关系网络的时序动作定位方法,是第一个统一提案关系推理和提案上下文关系推理来提升时序动作定位性能的工作。本发明提出了一个提案-提案关系模块,它可以根据相关提案的外观和几何相似性,有效地执行相关提案之间的关系推理。本发明提出了一个提案-上下文关系模块,它可以自适应地聚合整个视频中的短期和长期上下文,以丰富提案的特征。这两个推理模块是互补的关系,可以很容易地合并到之前的时序动作定位方法中,并通过标准的分类和定位损失进行端到端训练。
综上所述,与其他方法相比较,本发明实施例公开的方法在时序动作定位任务的评价指标mAP@tIoU上取得显著的性能提升,表明本发明的方法能够精确定位和分类特定的动作。
请参阅图1,本发明实施例的一种基于对偶关系网络的时序动作定位方法,包括以下步骤:
步骤1,利用双流网络编码视频序列。具体建模步骤包括:
步骤1.1,已知一个未剪辑的视频序列,定义其包含的真实动作实例集合为
Figure BDA0003187651650000111
其中
Figure BDA0003187651650000112
Figure BDA0003187651650000113
分别表示第n个动作实例的开始时间,结束时间以及类别标签,Ng表示动作实例的数量。进而将视频序列分解为T个互不重叠的片段,作为双流网络的输入;
步骤1.2,为了分别探索视频序列的外观和运动信息,本发明对原始视频序列进行编码,以生成视频表示。具体地,本发明利用I3D网络处理每个视频片段,并提取得到D维的RGB特征向量和光流特征向量。
步骤2,已知视频特征序列,本发明采用BSN提案生成方法生成候选动作提案集合,其具体包括以下步骤:
步骤2.1,首先生成候选的边界位置,并组合每对边界位置生成动作提案。本发明利用三个不同的二分类层评估每个视频特征序列的时序位置,以预测每个位置是动作开始,动作结束和是否为动作的概率,记为ps,pe和pa。因此,每个时序位置得到三个概率值,每个视频得到三个概率序列PS,PE和PA。接下来,记录下每个满足以下条件的位置:
BS={t|ps(t)>max(ps(t+1),ps(t-1))}∪{t|ps(t)>0.5·maxτ(ps(τ))}
其中,ps(t)表示t位置的开始的概率值,BS为开始位置集合。相应地,本发明得到动作结束的位置集合BE。接下来,从两个位置集合中各取出一个位置,若满足ts<te,即开始位置所在时间点在结束位置时间点之前,则构成一个候选提案
Figure BDA0003187651650000114
其中
Figure BDA0003187651650000115
为提案的分数特征,取自PA的时序区域[ts-d/5,te+d/5]内均匀采样的32个分数,d=te-ts
步骤2.2,评估每个动作提案的置信度分数。构建一个三层的多层感知机MMLP,其使用
Figure BDA0003187651650000116
来评估每个提案的置信度分数,表示它与真实动作实例的重叠程度:
Figure BDA0003187651650000121
步骤3,本发明的对偶关系网络作用于每个候选的动作提案,目的是通过推理提案之间的关系特征和提案与全局上下文的关系特征来丰富每个原始提案,具体包括以下步骤:
步骤3.1,首先利用提案的开始时间和结束时间在视频特征序列上截取特征向量,再通过时序最大池化操作得到第n个动作提案的语义特征向量,定义为原始的提案特征fn
步骤3.2,已知N个候选提案,本发明计算每对提案之间的外观相似度和几何相似度,进而得到一个外观相似度矩阵Sa和一个几何相似度矩阵Sg
Figure BDA0003187651650000122
Figure BDA0003187651650000123
其中
Figure BDA0003187651650000124
Figure BDA0003187651650000125
分别为外观相似度矩阵和几何相似度矩阵的第n行第m列的元素。||·||为L2正则化。外观相似度矩阵Sa包含每对动作提案的特征向量之间的余弦相似度分数。几何相似矩阵Sg包含动作提案之间的持续时间的相似分数,这里基于假设相关的动作提案的时间尺度往往相似。然后,Sa和Sg的加权求和产生最终的相似矩阵S:
S=λSa+(1-λ)Sg
其中λ是一个控制外观和几何图形相似性之间的相对重要性的超参数。本发明通过整合剩余的N-1个动作提案来更新第n个提案的特征。第n个提案的更新特征,表示为
Figure BDA0003187651650000126
可以通过下式计算:
Figure BDA0003187651650000127
其中,Sn,m是相似矩阵的一个元素,表示第n个提案和第m个提案之间的关系权重,而WS是线性映射层的权重矩阵,fm为第m个动作提案的特征向量。
步骤3.3,步骤3.2明确地建模相关提案之间的微妙的相互作用。为了鼓励网络专注于鉴别性的语义特征,本发明将更新的提案特征输入给通道注意力模块,以获取高阶的支持信息。因此,第n个动作提案的特征被更新为
Figure BDA0003187651650000131
其中σ(·)为sigmoid激活函数;ReLU为线性整流函数;Wr、Wex和Wsq分别为三个线性映射层的权重矩阵。因此,通过相似动作提案之间的交互,能够更好的识别提案的动作类别。通过上述两个模块,本发明从时间和语义的角度构建了提案关系模块。因此,提案关系推理可以探索和集成尽可能有利于动作定位的支持信息。
步骤3.4,并行于提案关系推理,本发明引入了一个提案上下文关系推理,来建模提案和整个视频之间的关系。参见图2,上下文推理负责通过两个流中的提案特征与视频特征之间的交互作用,来推理提案与全局上下文之间的耦合关系。最后,为每个动作提案生成一个具有上下文感知的特征。具体地,每个动作提案与全局上下文的关系用注意力权重at表示:
Figure BDA0003187651650000132
进而利用注意力权重更新原始提案特征:
Figure BDA0003187651650000133
式中,Wp,Wc和Wpc分别为三个不同的权重矩阵。因此,自适应地捕获来自全局上下文的支持信息,并嵌入到原始动作提案特征内部,能够更好的感知提案的边界位置。
步骤4,在网络训练优化过程中,对上述两个关系推理模块进行端到端的联合训练。该对偶关系网络的总体损失L包括分类损失Lcls、回归损失Lreg和完整性损失Lcom
Figure BDA0003187651650000141
其中ts,n和te,n分别是第n个提案的开始和结束时间。而α和β分别是回归损失和完整性损失的权重超参数。
Figure BDA0003187651650000142
是第n个提案的完整性标签。分类损失采用了一个标准的交叉熵损失。完整性损失采用了在线硬实例挖掘铰链损失。回归损失采用了两个smooth L1损失,用于预测边界的偏移:
Figure BDA0003187651650000143
请参阅图3,本发明实施例的一种基于对偶关系网络的时序动作定位系统,包括:
视频特征序列获取模块,用于将待时序动作定位的原始视频序列分解为若干个视频片段并编码,获得编码后的视频特征序列;
动作提案集合获取模块,用于基于所述编码后的视频特征序列,获得候选的动作提案集合;
信息更新模块,用于利用预训练好的对偶关系网络对所述候选的动作提案集合中的每个提案进行信息更新,获得提案信息更新后的动作提案集合;其中,所述信息更新包括推理提案之间的关系特征、提案与全局上下文的关系特征来丰富每个提案的特征;
结果获取模块,用于基于所述提案信息更新后的动作提案集合,获得时序动作定位结果。
本发明实施例使用平均精度(mAP)对提出的方法进行了评价,采用ActivityNet提供的官方评估代码来评估本发明在这两个数据集上的性能。特别地,对于THUMOS14和ActivityNet v1.3,tIoU阈值分别来自{0.1、0.2、0.3、0.4、0.5、0.5、0.6、0.7}和{0.5、0.75、0.95、0.95}。在ActivityNet v1.3上,本发明报告了10个不同的tIoU阈值[0.5:0.05:0.95]的mAP。
表1是不同的方法在用于评价时序动作定位任务的公开数据集THUMOS14上的实验结果,由表1可以看出,本发明提出的基于对偶关系网络的时序动作定位方法具有明显优势。
表2为更大更复杂的ActivityNet v1.3数据集上对本发明进行评测的结果,实验结果表明本发明在复杂场景下的关系推理能力的有效性。
表1.在THUMOS14数据集上的不同方法对比的结果
Figure BDA0003187651650000151
表2.在ActivityNet v1.3数据集上的不同方法对比的结果
Figure BDA0003187651650000152
请参阅图4,图4为在THUMOS14数据集上每个类别的精确率-召回率曲线,即P-R曲线,其中本发明将整个框架对偶关系网络表示为DRN,提案-提案关系推理模块表示为PPRM,提案-上下文关系推理模块表示为PCRM。显然,PR曲线表明,本发明可以提高大多数类别(即y轴较高)的精度和召回率。此外,PPRM和PCRM在不同的动作类别中有各自的优势,并且对整体框架性能有自己的贡献。综上所述,与其他方法相比较,本发明实施例公开的方法在时序动作定位任务上获得了较大的提升。
本发明公开了一种基于对偶关系网络的时序动作定位方法,属于计算机视觉与模式识别领域,步骤包括:首先利用双流网络编码输入视频的特征序列,其包含视频内的外观特征信息和运动光流信息,并利用动作提案生成器产生一系列候选的动作提案。随后,将动作提案作为对偶关系网络的输入,该网络包含了一个提案关系模块和一个提案上下文关系模块。这两个关系推理模块可以通过自适应地将提案关系特征和上下文关系特征结合在一起,共同学习鉴别性的提案特征,从而提高动作定位的准确性。最后利用置信度传播的方式求解整体模型,获得具有最大后验概率的动作提案作为最终的检测结果。本发明可同时推理提案之间的关系和提案与上下文之间的关系,最终提高模型识别和定位动作实例的准确性。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。

Claims (10)

1.一种基于对偶关系网络的时序动作定位方法,其特征在于,包括以下步骤:
将待时序动作定位的原始视频序列分解为若干个视频片段并编码,获得编码后的视频特征序列;
基于所述编码后的视频特征序列,获得候选的动作提案集合;
利用预训练好的对偶关系网络对所述候选的动作提案集合中的每个提案进行信息更新,获得提案信息更新后的动作提案集合;其中,所述信息更新包括推理提案之间的关系特征、提案与全局上下文的关系特征来丰富每个提案的特征;
基于所述提案信息更新后的动作提案集合,获得时序动作定位结果。
2.根据权利要求1所述的一种基于对偶关系网络的时序动作定位方法,其特征在于,所述将待时序动作定位的原始视频序列分解为若干个视频片段并编码,获得编码后的视频特征序列的步骤具体包括:
将待时序动作定位的原始视频序列分解为若干个视频片段,每个视频片段包含原始视频序列固定长度的连续帧;
利用一个预训练好的特征提取器编码每个视频片段,获得编码后的视频特征序列;其中,所述编码后的视频特征序列包含每个视频片段的RGB信息和相邻片段之间的光流信息。
3.根据权利要求1所述的一种基于对偶关系网络的时序动作定位方法,其特征在于,所述预训练好的对偶关系网络包括:
提案-提案关系推理模块,用于推理提案之间的关系特征来丰富每个提案的特征;
提案-上下文关系推理模块,用于推理提案与全局上下文的关系特征来丰富每个提案的特征;
其中,在训练时采用的损失函数包括分类损失、回归损失以及完整性损失;在推理阶段用于预测每个提案的类别、边界偏移以及置信度分数。
4.根据权利要求3所述的一种基于对偶关系网络的时序动作定位方法,其特征在于,在训练时采用的损失函数的表达式为,
Figure FDA0003187651640000021
其中,L为对偶关系网络的总体损失,Lcls为分类损失、Lreg为回归损失、Lcom为完整性损失;
Figure FDA0003187651640000022
是第n个提案的类别标签;
Figure FDA0003187651640000023
分别是第n个提案的边界回归目标;α和β分别是回归损失和完整性损失的权重超参数;
Figure FDA0003187651640000024
是第n个提案的完整性标签;
分类损失采用标准的交叉熵损失;
完整性损失采用在线硬实例挖掘铰链损失;
回归损失采用两个smooth L1损失。
5.根据权利要求3所述的一种基于对偶关系网络的时序动作定位方法,其特征在于,所述提案-提案关系推理模块中,推理提案之间的关系特征来丰富每个提案的特征的步骤具体包括:
编码后的视频特征序列表示为
Figure FDA0003187651640000025
其中,xt表示第t个视频片段的特征向量,T表示视频片段的总数量;
候选的动作提案集合表示为
Figure FDA0003187651640000026
其中,ts,n和te,n为第n个动作提案的开始时间和结束时间,fn为第n个动作提案的特征向量,N表示动作提案的总数量;
第n个提案的更新特征表示为
Figure FDA0003187651640000027
计算表达式为,
Figure FDA0003187651640000028
式中,Sn,m是相似矩阵的一个元素,表示第n个提案和第m个提案之间的关系权重,WS是线性映射层的权重矩阵;fm为第m个动作提案的特征向量;
相似矩阵S的表达式为,
S=λSa+(1-λ)Sg
式中,λ是一个控制外观和几何图形相似性之间的相对重要性的超参数;Sa为外观相似度矩阵;Sg为几何相似度矩阵;
Figure FDA0003187651640000031
Figure FDA0003187651640000032
式中,
Figure FDA0003187651640000033
Figure FDA0003187651640000034
分别为外观相似度矩阵和几何相似度矩阵的第n行第m列的元素;||·||为L2正则化;
第n个提案的特征更新为,
Figure FDA0003187651640000035
式中,σ(·)为sigmoid激活函数,ReLU为线性整流函数;Wr、Wex和Wsq分别为三个线性映射层的权重矩阵。
6.根据权利要求5所述的一种基于对偶关系网络的时序动作定位方法,其特征在于,所述提案-上下文关系推理模块中,推理提案与全局上下文的关系特征来丰富每个提案的特征的步骤具体包括:
计算每个提案与视频特征序列的每个时间位置的关联关系,利用关联关系生成上下文感知特征,使用上下文感知特征增强原始的提案特征;
其中,每个动作提案与视频每个时间位置的特征向量xt的关系用注意力权重at表示;
Figure FDA0003187651640000036
at的数值大小用于表示第t个时间位置的视频特征对动作提案的贡献大小;
利用注意力权重更新原始提案特征,表达式为,
Figure FDA0003187651640000041
式中,Wp,Wc和Wpc分别为三个不同的权重矩阵。
7.根据权利要求6所述的一种基于对偶关系网络的时序动作定位方法,其特征在于,所述基于所述提案信息更新后的动作提案集合,获得时序动作定位结果的步骤包括:
对于所述提案信息更新后的动作提案集合中的每一个动作提案ψn,利用预训练好的全连接网络预测其动作类别分数yn,边界的偏移量{Δts,n,Δte,n}以及完整性分数cn
通过全连接网络输出每个动作提案的置信度分数sn=yn×cn,以及其最终的动作边界位置{ts,n+Δts,n,te,n+Δte,n};
利用Soft-NMS算法抑制冗余的重叠率高的动作提案,处理后的置信度分数高于预设值的动作提案为时序动作定位的最终结果。
8.一种基于对偶关系网络的时序动作定位系统,其特征在于,包括:
视频特征序列获取模块,用于将待时序动作定位的原始视频序列分解为若干个视频片段并编码,获得编码后的视频特征序列;
动作提案集合获取模块,用于基于所述编码后的视频特征序列,获得候选的动作提案集合;
信息更新模块,用于利用预训练好的对偶关系网络对所述候选的动作提案集合中的每个提案进行信息更新,获得提案信息更新后的动作提案集合;其中,所述信息更新包括推理提案之间的关系特征、提案与全局上下文的关系特征来丰富每个提案的特征;
结果获取模块,用于基于所述提案信息更新后的动作提案集合,获得时序动作定位结果。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1至7中任意一项所述的时序动作定位方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现如权利要求1至7中任意一项所述的时序动作定位方法。
CN202110866978.6A 2021-07-29 2021-07-29 基于对偶关系网络的时序动作定位方法、系统、设备及介质 Active CN113569755B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110866978.6A CN113569755B (zh) 2021-07-29 2021-07-29 基于对偶关系网络的时序动作定位方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110866978.6A CN113569755B (zh) 2021-07-29 2021-07-29 基于对偶关系网络的时序动作定位方法、系统、设备及介质

Publications (2)

Publication Number Publication Date
CN113569755A true CN113569755A (zh) 2021-10-29
CN113569755B CN113569755B (zh) 2023-08-22

Family

ID=78169187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110866978.6A Active CN113569755B (zh) 2021-07-29 2021-07-29 基于对偶关系网络的时序动作定位方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN113569755B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114429609A (zh) * 2022-01-27 2022-05-03 西安交通大学 基于动作与其共现特征重组的时序动作定位方法及系统
CN114445732A (zh) * 2021-12-22 2022-05-06 北京理工大学 一种面向视频的时间动作检测方法
CN114708523A (zh) * 2022-01-27 2022-07-05 西安交通大学 基于集合预测的时序动作定位方法、系统、设备及介质
CN116993873A (zh) * 2023-07-31 2023-11-03 支付宝(杭州)信息技术有限公司 一种数字人动作编排方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019099226A1 (en) * 2017-11-14 2019-05-23 Google Llc Weakly-supervised action localization by sparse temporal pooling network
WO2020177673A1 (zh) * 2019-03-05 2020-09-10 腾讯科技(深圳)有限公司 一种视频序列选择的方法、计算机设备及存储介质
CN111814844A (zh) * 2020-03-17 2020-10-23 同济大学 一种基于位置编码融合的密集型视频描述方法
CN111914644A (zh) * 2020-06-30 2020-11-10 西安交通大学 一种基于双模态协同的弱监督时序动作定位方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019099226A1 (en) * 2017-11-14 2019-05-23 Google Llc Weakly-supervised action localization by sparse temporal pooling network
WO2020177673A1 (zh) * 2019-03-05 2020-09-10 腾讯科技(深圳)有限公司 一种视频序列选择的方法、计算机设备及存储介质
CN111814844A (zh) * 2020-03-17 2020-10-23 同济大学 一种基于位置编码融合的密集型视频描述方法
CN111914644A (zh) * 2020-06-30 2020-11-10 西安交通大学 一种基于双模态协同的弱监督时序动作定位方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周凯烨;: "基于运动注意力模块的多分支动作识别网络", 工业控制计算机, no. 07 *
熊成鑫;郭丹;刘学亮;: "时域候选优化的时序动作检测", 中国图象图形学报, no. 07 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114445732A (zh) * 2021-12-22 2022-05-06 北京理工大学 一种面向视频的时间动作检测方法
CN114429609A (zh) * 2022-01-27 2022-05-03 西安交通大学 基于动作与其共现特征重组的时序动作定位方法及系统
CN114708523A (zh) * 2022-01-27 2022-07-05 西安交通大学 基于集合预测的时序动作定位方法、系统、设备及介质
CN116993873A (zh) * 2023-07-31 2023-11-03 支付宝(杭州)信息技术有限公司 一种数字人动作编排方法及装置
CN116993873B (zh) * 2023-07-31 2024-05-17 支付宝(杭州)信息技术有限公司 一种数字人动作编排方法及装置

Also Published As

Publication number Publication date
CN113569755B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN113569755B (zh) 基于对偶关系网络的时序动作定位方法、系统、设备及介质
Liu et al. Learning deep multi-level similarity for thermal infrared object tracking
CN109919031B (zh) 一种基于深度神经网络的人体行为识别方法
Ge et al. An attention mechanism based convolutional LSTM network for video action recognition
CN111079646A (zh) 基于深度学习的弱监督视频时序动作定位的方法及系统
CN105095862B (zh) 一种基于深度卷积条件随机场的人体动作识别方法
CN113569758B (zh) 基于动作三元组引导的时序动作定位方法、系统、设备及介质
Zhou et al. Object tracking via spatial-temporal memory network
CN110705490B (zh) 视觉情感识别方法
CN112801068B (zh) 一种视频多目标跟踪与分割系统和方法
CN111723667A (zh) 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置
CN109614896A (zh) 一种基于递归卷积神经网络的视频内容语义理解的方法
CN115471771A (zh) 一种基于语义级时序关联建模的视频时序动作定位方法
Jin et al. Cvt-assd: convolutional vision-transformer based attentive single shot multibox detector
CN115695950A (zh) 一种基于内容感知的视频摘要生成方法
CN116089874A (zh) 一种基于集成学习和迁移学习的情感识别方法及装置
CN117407772A (zh) 监督对比学习网络模型训练多元时序数据分类方法及系统
CN108153519A (zh) 一种目标智能跟踪方法通用设计框架
CN114708523B (zh) 基于集合预测的时序动作定位方法、系统、设备及介质
CN112200055B (zh) 联合对抗生成网络的行人属性识别方法、系统及装置
Wang et al. RETRACTED ARTICLE: Human behaviour recognition and monitoring based on deep convolutional neural networks
Ben Jemaa et al. Sfax-Miracl hand database for contactless hand biometrics applications
Wen et al. Streaming video temporal action segmentation in real time
Dave et al. Finepseudo: Improving pseudo-labelling through temporal-alignablity for semi-supervised fine-grained action recognition
CN114429609B (zh) 基于动作与其共现特征重组的时序动作定位方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant