CN115471771A - 一种基于语义级时序关联建模的视频时序动作定位方法 - Google Patents

一种基于语义级时序关联建模的视频时序动作定位方法 Download PDF

Info

Publication number
CN115471771A
CN115471771A CN202211056608.7A CN202211056608A CN115471771A CN 115471771 A CN115471771 A CN 115471771A CN 202211056608 A CN202211056608 A CN 202211056608A CN 115471771 A CN115471771 A CN 115471771A
Authority
CN
China
Prior art keywords
action
video
time sequence
boundary
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211056608.7A
Other languages
English (en)
Inventor
刘勇
杨煜
王蒙蒙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202211056608.7A priority Critical patent/CN115471771A/zh
Publication of CN115471771A publication Critical patent/CN115471771A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及计算机视觉领域,公开了一种基于语义级时序关联建模的视频时序动作定位方法,首先,设计了前景掩码生成模块,自适应性地生成前景掩码,前景掩码在后续中用于指引Transformer模块建模与动作帧的语义级关联,掩码引导的Transformer模块利用前景掩码来引导注意力机制学习语义层次的相似性,最后,在一个统一的框架中融合了两个模块,实现一个端到端的时序动作定位深度神经网络。本发明能够充分建模视频帧与动作片段之间的语义级时序关联,捕获动作的特征信息并抑制背景噪声干扰,使得时序动作定位结果具有更好的准确度,能够在复杂的视频中准确地定位动作区间。

Description

一种基于语义级时序关联建模的视频时序动作定位方法
技术领域
本发明涉及计算机视觉领域,具体是涉及一种基于语义级时序关联建模的视频时序动作定位方法。
背景技术
视频时序动作定位是计算机视觉领域的基本任务之一,其任务目的是在长视频中定位其中人为动作发生的起始时间、终止时间、及其相应类别。它在现实生活中具有重要的应用价值和意义,例如视频检索、视频推荐等。在深度学习的推动下,智能视频分析领域得以蓬勃发展,本发明主要面向的是基于深度学习的视频时序动作定位任务,基于深度学习算法自动检测视频中人为动作发生的时序区间。对视频进行时序动作定位,实现视频数据的自动化处理,在智能监控、虚拟现实、机器人控制等领域有着广阔的应用前景,对于推动智能视频分析技术的发展具有重大意义。
时序动作定位的关键任务是建模不同时间戳之间的时序关联。根据时序关系建模的尺度,目前的方法可以分为三种类型:局部级别、提议级别和全局级别方法。局部级方法包括基于锚框的回归方法和基于帧级的匹配方法。基于锚框的回归方法是在视频片段上均匀分布预定义的不同尺寸锚框,通过挖掘锚框内视频片段的上下文信息从而回归动作片段。此类方法由于受限于锚框的尺寸,无法生成时序更加灵活的提议片段。基于帧级匹配的方法首先评估视频每帧为动作起始和终止的概率,然后匹配起始——终止帧从而生成动作片段,因此此类方法可以预测更加时序尺度灵活的定位片段。但是局部级方法只挖掘了视频中相邻帧之间的联系,从而使动作边界概率对视频中的噪声场景非常敏感,导致错误的边界划分。提议级方法通过在每个提案中的不同时间戳上采样视频特征,构建提案的特征表示,以捕获更多的时间上下文。他们在提案特征图上利用二维卷积网络,或采用图卷积网络来建模提案之间的关系。全局级别方法采用“查询和检索”过程或利用视觉Transformer对全局时序相关性进行编码。
但是现实场景中,一段包含动作片段的视频通常还带有一些与动作不相关的背景帧,它们通常不能够为视频理解提供有效的信息,甚至会带来干扰。现有方法都不能很好的避免这些背景帧对动作片段定位的影响,无法避免背景帧的干扰。
发明内容
针对上述问题,本发明提出了一种基于语义级时序关联建模的视频时序动作定位方法,本发明从两个角度研究了视频中前景(动作片段)和背景(非动作帧)之间的语义级关联:1)语义内相似性:对于前景片段,从其他动作片段中学习语义内相似度可以提取更多支持性线索。2)语义间相似性:对于背景片段,捕捉它们与前景之间的语义间距离有助于区分它们与动作的相似外观或运动模式,从而抑制假阳性检测和背景的干扰。
为了实现上述目的,本发明提供一种基于语义级时序关联建模的视频时序动作定位方法,包括以下步骤:
S1、利用视频特征提取单元对输入的视频进行片段级特征提取与编码;
S2、利用前景掩码生成模块建模视频的全局时序关联,预测生成动作前景(动作主体和边界)的掩码;
S3、利用掩码引导Transformer模块中的自注意力机制计算语义级时序关联,提取动作的特征同时抑制背景干扰;
S4、利用时序动作定位预测输出模块预测动作完整性图和边界置信度图,用于时序动作提议和评估;
S5、对网络模型进行训练,通过降低网络损失函数优化网络参数,直至网络收敛,获得基于语义级关联建模的视频时序动作定位方法;
S6、利用所述基于语义级关联建模的视频时序动作定位方法在新的视频序列中定位动作目标。
优选的,所述步骤S1具体包括以下步骤:
S11、将原始未经剪辑的长视频视为一个帧集合
Figure BDA0003825191480000021
然后按规则的帧间隔δ将其分割为一个片段集合
Figure BDA0003825191480000022
其中ls=lv/δ;
S12、将每个片段输入到预训练的双流网络TSN中,提取每个片段的特征
Figure BDA0003825191480000023
通过这种方式,获得片段特征序列
Figure BDA0003825191480000024
S13、采用线性插值将每个视频统一到相同的时序长度,视频特征提取单元输出表示为
Figure BDA0003825191480000031
的视频特征,包含T个特征单元,由后续模块共享。
优选的,所述步骤S2具体包括以下步骤:
S21、利用全局感知注意力模块建模视频的全局时序关联;输入视频特征F,添加正弦位置编码,然后利用线性变换将视频特征投影到三个不同特征表达,即查询
Figure BDA0003825191480000032
Figure BDA0003825191480000033
和值
Figure BDA0003825191480000034
利用这三个特征进行自注意力计算,学习视频片段之间的时序交互,输出全局关联建模的
Figure BDA0003825191480000035
Figure BDA0003825191480000036
输入到具有ReLU激活函数、残差连接和层归一化的前馈神经网络中,最后输出由全局上下文建模的特征
Figure BDA0003825191480000037
S22、利用全局上下文建模的特征Fg预测动作主体前景掩码和动作边界前景掩码;首先利用堆叠的一维时序卷积和Sigmoid激活函数预测每一个视频片段动作主体、起始和结束的概率
Figure BDA0003825191480000038
其次,将概率序列设定阈值进行二值化操作,得到前景掩码序列
Figure BDA0003825191480000039
这些序列中的第i元素Si∈{0,1}表示第i个片段的前景二进制概率,然后,在时序维度上将前景掩码序列复制T次,得到二维前景掩码图;最后,为了引入前景周围的动作运动趋势信息,在二维掩码图上利用膨胀核对前景掩码图进行膨胀操作,得到膨胀后的前景掩码图
Figure BDA00038251914800000310
优选的,所述步骤S21具体为:对输入视频特征添加正弦位置编码,得到经过位置编码后视频特征F';利用该特征进行自注意力计算,计算过程具体为:
Q=WQF′,K=WKF′,V=WVF′
Figure BDA00038251914800000311
其中
Figure BDA00038251914800000312
为网络中可学习权值,d=C/M表示每个注意力头的维度,LN表示层归一化。自注意力机制输出全局关联建模的视频特征
Figure BDA00038251914800000313
然后与特征F'按元素相加,之后送入带有ReLU激活函数的前馈神经网络,增强特征的非线性表达能力,将结果与
Figure BDA00038251914800000314
按元素相加,从而获得全局上下文建模的特征
Figure BDA0003825191480000041
优选的,所述步骤S22前景掩码预测过程中动作主体的二值化阈值设置为0.4,边界掩码二值化阈值设置为0.5,膨胀核的大小设置为kernel=(3,3)。
优选的,所述步骤S3具体包括以下步骤:
S31、对输入视频特征序列F添加位置编码,进行线性映射将其映射到四个新的特征矩阵
Figure BDA0003825191480000042
分别表示视频的查询特征、值特征、动作开始键特征和动作结束键特征;然后,计算查询特征和两个键特征的余弦相似度,输出动作起始相似度
Figure BDA0003825191480000043
和动作结束相似度
Figure BDA0003825191480000044
S32、基于前景掩码图,构造掩码操作M(·),然后将掩码结果与动作起始相似度SMs、动作结束相似度SMe的Hadamard积,得到掩码引导映射
Figure BDA0003825191480000045
S33、使用Softmax函数将掩码引导映射进行归一化,然后与值矩阵
Figure BDA0003825191480000046
相乘,从视频的动作片段中捕获语义关联得到动作起始和动作结束增强特征
Figure BDA0003825191480000047
将所述动作起始和动作结束增强特征拼接起来并使用一个一维卷积层将特征的通道数从2C'降低到C;利用残差连接和前馈神经网络来增强非线性得到边界增强特征
Figure BDA0003825191480000048
利用动作主体前景掩码图得到动作主体增强特征
Figure BDA0003825191480000049
优选的,所述余弦相似度的计算过程为:
Figure BDA00038251914800000410
Figure BDA00038251914800000411
所述掩码引导的过程为:首先构造掩码操作,然后将掩码结果与动作相似度映射计算Hadamard积,公式表示为:
Figure BDA00038251914800000412
GMs=M(Ms)°SMs
GMe=M(Me)°SMe
其中M(·)表示掩码操作,°表示Hadamard乘积。
优选的,所述步骤S4具体包括以下步骤:
S41、在动作完整性回归模块中,输入动作主体增强特征Fa,首先利用一维卷积预测每帧的动作概率,得到动作概率特征
Figure BDA0003825191480000051
其次,在Pa上对所有候选提案的起始、中心和结束区域内的进行特征采样,构造动作完整性特征图
Figure BDA0003825191480000052
其中T×T×N表示所有任意起始和结束时间的所有候选提案,N是每个提案的采样点数;最后,将FMa输入堆叠的二维卷积神经网络中执行卷积操作,并使用Sigmoid激活函数预测动作完整性置信图
Figure BDA0003825191480000053
S42、在动作边界分类模块中,输入动作边界增强特征Fb,首先在Fbf上采样构造候选提案的边界特征图
Figure BDA0003825191480000054
包含T×T个候选提案的边界特征;然后利用一个三维卷积层将采样点的特征进行融合;最后利用堆叠的二维卷积层预测输出候选提案的动作边界置信度图
Figure BDA0003825191480000055
优选的,所述步骤S5具体包括以下步骤:
S51、利用服务器执行所述视频特征提取单元,得到视频的特征序列F;
S52、利用服务器执行所述前景掩码生成模块预测输出动作主体前景掩码图和动作边界前景掩码图Ma,Ms,Me
S53、利用服务器执行所述掩码引导Transformer模块基于前景掩码图,利用自注意力机制建模每一帧与动作片段的语义级时序关联,输出动作主体增强特征Fa和动作边界增强特征Fb
S54、利用服务器执行所述时序动作定位预测输出模块,将动作主体增强特征Fa输入给动作完整性回归模块,预测动作完整性置信度图Pc;同时将动作边界增强特征Fb送入边界分类模块,输出动作边界置信度图Ps,e
S55、利用服务器进行网络训练,采用端到端的方式训练模型的整体损失函数的数学表达式为:
L=Lmask1Lcomple2Lstart3Lend
其中,Lmask=Lbl(Ga,Sa)+Lbl(Gs,Ss)+Lbl(Ge,Se)为掩码生成模块的损失,其加权平衡参数设置为1;
Figure BDA0003825191480000061
为动作完整性模块的损失,其加权平衡参数设置为λ1=1;
Figure BDA0003825191480000062
是动作起始边界分类损失,
Figure BDA0003825191480000063
为动作结束边界分类损失,它们的加权平衡因子为λ2=λ3=1;
S56、利用服务器优化目标函数,获取局部最优网络参数;将步骤S55中的损失函数L作为目标函数,使用AdamW优化器迭代更新网络参数,使目标损失函数降低直至收敛到局部最优,至此训练结束,得到训练完成的基于语义级时序关联建模的视频时序动作定位网络的权重。
优选的,所述步骤S6具体包括以下步骤:
S61、将新的视频首先送入视频特征提取单元,提取视频特征;然后利用前景掩码生成模块,生成视频中动作的前景掩码图;之后将视频特征和前景掩码图输入掩码引导Transformer模块,建立视频的语义级时序关联,输出动作主体和动作边界增强的视频特征;最后将动作主体和动作边界增强的视频特征送入时序动作定位预测输出模块,输出动作完整性置信度图Pc和动作边界置信度图Ps,e
S62、在动作完整性置信度图Pc和动作边界置信度图Ps,e的右上角区域中,对Pc每一行、Ps,e每一列求平均值,得到动作起始分数序列
Figure BDA0003825191480000064
和动作结束分数序列
Figure BDA0003825191480000065
然后将每个候选动作提案(ti,tj)的动作起始分数
Figure BDA0003825191480000066
动作结束分数
Figure BDA0003825191480000067
动作完整性分数
Figure BDA0003825191480000068
进行融合,具体为:
Figure BDA0003825191480000069
S63、采用Soft-NMS算法,通过分数衰减函数消除冗余,得到稀疏的候选动作提案集合
Figure BDA0003825191480000071
其中Pi,j'是最终的置信度得分,N'是最终候选建议的个数;
S64、利用UntrimmedNet预测的新视频的排名前二的动作类别标签和相应的分数,与步骤S63输出的候选动作提案的置信度分数相乘,得到最终的针对该视频的时序动作定位结果
Figure BDA0003825191480000072
其中(ti,tj)代表预测的动作起始时间为ti、结束时间为tj的视频片段,它对应的动作类别为c,置信度分数为Si,j
与现有技术相比,本发明的有益效果是:
本发明提供的一种基于语义级时序关联建模的视频时序动作定位方法通过建模视频中每一帧与动作片段的语义级时序关联,学习提取更有效地视频特征,从而完成视频时序动作定位任务,利用前景掩码引导Transformer的注意机制计算每一帧与前景的语义级相似度,捕获语义关联。前景预测可以根据学习到的动作线索细化其动作边界;同时,背景预测可以根据学习到的语义鸿沟来抑制假阳性预测和背景干扰。在众多困难的实际场景中都可以准确地定位视频中的动作片段,在ActivityNet验证集上AUC值达到了68.85%,在THUMOS验证集上所有类别的平均检测精度mAP达到了48.4%,超越了现有的多数算法,具有非常好的效果。
附图说明
图1为本发明一种基于语义级时序关联建模的视频时序动作定位方法的算法框架图;
图2为本发明由前景概率序列预测前景掩码图的流程图;
图3为本发明的掩码引导Transformer模块单元图;
图4为本发明时序动作定位预测输出模块单元图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对现有技术中存在的问题与不足,本发明设计了一种全新的视频时序动作定位深度神经网络框架,它利用前景掩码作为先验知识来建模每一帧与动作片段之间的语义级关联,从而增强视频的特征表示,进一步提高动过定位的准确性。首先,我们设计了前景掩码生成模块,自适应性地生成前景掩码,表示视频中与动作相关帧的位置。该前景掩码在后续中用于指引Transformer模块建模与动作帧的语义级关联。然后,我们提出了一种掩码引导的Transformer模块,该模块利用前景掩码来引导注意力机制学习语义层次的相似性,为前景构建语义内相似度以从其他动作片段中挖掘支持性线索,同时对背景片段和动作帧之间的语义鸿沟进行建模,以更好地区分背景内容。最后,我们在一个统一的框架中融合了两个模块,实现一个端到端的时序动作定位深度神经网络。
本发明提出的一种基于语义级时序关联建模的视频时序动作定位方法,包括以下步骤:
S1、利用视频特征提取单元对输入的视频进行片段级特征提取与编码;
S2、利用前景掩码生成模块建模视频的全局时序关联,预测生成动作前景(动作主体和边界)的掩码;表示在整个视频中与动作相关帧的位置,后续用于掩码指导Transformer模块建模语义级关联;
S3、利用掩码引导Transformer模块中的自注意力机制计算语义级时序关联,即计算每一帧与动作片段的语义级相似度,提取动作的特征同时抑制背景干扰;
S4、利用时序动作定位预测输出模块预测动作完整性图和边界置信度图,用于时序动作提议和评估;
S5、对网络模型进行训练,通过降低网络损失函数优化网络参数,直至网络收敛,获得基于语义级关联建模的视频时序动作定位方法;
S6、利用所述基于语义级关联建模的视频时序动作定位方法在新的视频序列中定位动作目标。
下面对每一步骤进行详细的说明介绍。
步骤S1、利用视频特征提取单元对输入的视频进行片段级特征提取与编码。如图1中的I单元,它接受原始的长视频作为输入,将视频分割为一些小片段,对每个片段进行特征提取,从而获取视频的特征序列。主要步骤为:
S11、将原始未经剪辑的长视频视为一个帧集合
Figure BDA0003825191480000091
然后按规则的帧间隔δ将其分割为一个片段集合
Figure BDA0003825191480000092
其中ls=lv/δ;
S12、将每个片段输入到预训练的双流网络TSN中,提取每个片段的特征
Figure BDA0003825191480000093
通过这种方式,获得片段特征序列
Figure BDA0003825191480000094
S13、采用线性插值将每个视频统一到相同的时序长度,视频特征提取单元输出表示为
Figure BDA0003825191480000095
的视频特征,包含T个特征单元,由后续模块共享。
步骤S2、利用前景掩码生成模块建模视频的全局时序关联,预测生成动作前景(动作主体和边界)的掩码;表示在整个视频中与动作相关帧的位置,后续用于掩码指导Transformer模块建模语义级关联。如图1中的II模块所示为本发明所设计的前景掩码生成模块单元,主要步骤为:
S21、利用全局感知注意力模块建模视频的全局时序关联;输入视频特征F,添加正弦位置编码,然后利用线性变换将视频特征投影到三个不同特征表达,即查询
Figure BDA0003825191480000096
Figure BDA0003825191480000097
和值
Figure BDA0003825191480000098
利用这三个特征进行自注意力计算,学习视频片段之间的时序交互,建模全局的时序关联,具体为:
Figure BDA0003825191480000099
其中,d=C/M表示每个注意力头的维度,LN表示层归一化;
自注意力机制输出的视频特征
Figure BDA00038251914800000910
将其输入前馈神经网络,并经过残差链接,得到全局上下文建模的视频特征
Figure BDA00038251914800000911
具体为:
Figure BDA00038251914800000912
其中,MLP表示带有ReLu激活函数的前馈神经网络;
S22、利用全局上下文建模的特征Fg预测动作主体前景掩码和动作边界前景掩码;首先利用三个并联的一维时序卷积和Sigmoid激活函数预测每一个视频片段动作主体、起始和结束的概率
Figure BDA00038251914800000913
如图2所示为由前景概率序列预测前景掩码图的流程图,其次,基于概率序列生成动作前景掩码图,具体地,将概率序列设定阈值进行二值化操作,实现方法是判断每一个小片段是否大于某一阈值,如果大于则将该片段的概率二值化为1,否则为0,最后将前景掩码序列在时序维度复制得到前景掩码图,这些过程用公式表示为:
Figure BDA0003825191480000101
Figure BDA0003825191480000102
Ma,Ms,Me=Φ(rearrange(Sa,Ss,Se))
其中,Hm表示堆叠的一维时序卷积层;αm是前景的二进制概率阈值,动作主体的二值化阈值设置为0.4,动作边界的二值化阈值设置为0.5,rearrange表示对掩码序列进行复制操作;Φ为膨胀卷积核,核的大小设置为kernel=(3,3);
为了使用前景掩码指导后续Transformer的注意力机制建模语义级时序关联,由于注意力图是二维的,每一维度的大小都为视频的长度T,因此在时序维度上将前景掩码序列复制T次,得到二维前景掩码图,该前景掩码图代表与动作相关的帧所在的位置;最后,为了引入动作片段周围关于动作变化趋势的信息,利用3×3的膨胀核将对掩码图进行膨胀操作,得到膨胀后的前景掩码图
Figure BDA0003825191480000103
步骤S3、利用掩码引导Transformer模块中的自注意力机制计算语义级时序关联,即计算每一帧与动作片段的语义级相似度,提取动作的特征同时抑制背景干扰。如图3所示为本发明的所设计的掩码引导Transformer模块单元图,主要步骤为:
S31、对输入视频特征序列F添加位置编码,利用可学习的进行线性映射,将其映射到四个新的特征矩阵
Figure BDA0003825191480000104
中,分别表示视频的查询特征、值特征、动作开始键特征和动作结束键特征;然后,计算查询特征和两个键特征的余弦相似度,输出动作起始相似度
Figure BDA0003825191480000105
和动作结束相似度
Figure BDA0003825191480000106
S32、根据步骤S22生成的前景掩码图,构造掩码操作M(·),具体为:
Figure BDA0003825191480000107
然后计算掩码结果与动作起始相似度SMs、动作结束相似度SMe的Hadamard积,得到掩码引导映射
Figure BDA0003825191480000108
该过程实现了利用前景掩码来指导Transformer的注意力机制建模语义级别联系;
S33、使用Softmax函数将掩码引导映射进行归一化,然后与视频的值特征矩阵
Figure BDA0003825191480000111
相乘,得到动作起始和动作结束增强特征
Figure BDA0003825191480000112
捕获了视频的动作片段的语义关联;此过程,对于前景片段可以学习视频中其他动作片段的相关信息和支持线索,对于背景片段可以捕获它与动作帧的语义鸿沟;然后,将这两种类型的特征进行拼接后送入一维卷积层进行信息融合,并将通道数数从2C'降低到C;然后将此特征与添加位置编码的视频特征按元素相加,送入前馈神经网络来增强特征的非线性表达能力,输出得到边界增强特征
Figure BDA0003825191480000113
同理,动作掩码引导的Transformer模块通过建模视频每帧与动作主体的相关性输出动作主体增强特征
Figure BDA0003825191480000114
其中,步骤S31中余弦相似度的计算过程为:
Figure BDA0003825191480000115
Figure BDA0003825191480000116
所述掩码引导的过程为:首先构造掩码操作,然后将掩码结果与动作相似度映射计算Hadamard积,公式表示为:
Figure BDA0003825191480000117
GMs=M(Ms)°SMs
GMe=M(Me)°SMe
其中M(·)表示掩码操作,°表示Hadamard乘积。
具体地,所述步骤S33具体为:将掩码引导映射归一化,与值矩阵
Figure BDA0003825191480000118
相乘从视频的动作片段中捕获语义关联,输出动作起始和动作结束增强特征
Figure BDA0003825191480000119
将两者拼接送入一维卷积压缩通道维度,然后与原始视频特征按元素相加;将结果送入前馈神经网络,在经过残差链接输出边界增强特征,这些过程的公式化表示为:
Figure BDA00038251914800001110
Figure BDA00038251914800001111
Figure BDA00038251914800001112
Figure BDA0003825191480000121
其中[·]表示拼接操作,FFN表示前馈神经网络,
Figure BDA0003825191480000122
表示逐元素相加。
步骤S4、利用时序动作定位预测输出模块预测动作完整性图和边界置信度图,用于时序动作提议和评估。如图4所示位本发明所设计的时序动作定位预测输出模块单元图,主要步骤为:
S41、在动作完整性回归模块中,输入动作主体增强特征Fa,首先利用一维卷积预测每帧的动作概率,得到动作概率特征
Figure BDA0003825191480000123
其次,在Pa上对所有候选提案的起始、中心和结束区域内的进行特征采样,构造动作完整性特征图
Figure BDA0003825191480000124
其中T×T×N表示所有任意起始和结束时间的所有候选提案,N是每个提案的采样点数;设置为N=32,最后,将FMa输入堆叠的二维卷积神经网络中执行卷积操作,并使用Sigmoid激活函数预测动作完整性置信图
Figure BDA0003825191480000125
它表所有候选提案的动作完整性分数;该过程具体表示为:
Pa=F(Conv1D)(Faf)
FMa=Sample(Pa)
Pc=Sigmoid(F(Conv2D)(FMa))
其中,F(Conv1D)(·)是一维卷积操作,F(Conv2D)(·)为二维卷积操作,Sample(·)表示特征采样过程;
S42、在动作边界分类模块中,输入动作边界增强特征Fb,首先在Fbf上采样构造候选提案的边界特征图
Figure BDA0003825191480000126
包含T×T个候选提案的边界特征,同样采样点个数为N=32然后利用一个三维卷积层将32个采样点的特征进行融合压缩为N=1;最后利用堆叠的二维卷积层预测输出候选提案的动作边界置信度图
Figure BDA0003825191480000127
该过程具体表示为:
FMb=Sample(Fbf)
Ps,e=Sigmoid(FConv2D(FConv3D(FMb)))
其中,F(Conv3D)(·)表示三维卷积操作。
步骤S5、对网络模型进行训练,通过降低网络损失函数优化网络参数,直至网络收敛,获得基于语义级关联建模的视频时序动作定位方法。如图1所示为本发明一种基于语义级时序关联建模的视频时序动作定位方法的算法框架图,主要步骤为:
S51、将训练集的视频输入服务器,执行视频特征提取单元,得到视频的特征序列F;
S52、利用服务器执行前景掩码生成模块预测输出动作主体前景掩码图和动作边界前景掩码图Ma,Ms,Me
S53、利用服务器执行掩码引导Transformer模块,基于前景掩码图,利用自注意力机制建模每一帧与动作片段的语义级时序关联,输出动作主体增强特征Fa和动作边界增强特征Fb
S54、利用服务器执行时序动作定位预测输出模块,将动作主体增强特征Fa输入给动作完整性回归模块,预测动作完整性置信度图Pc;同时将动作边界增强特征Fb送入边界分类模块,输出动作边界置信度图Ps,e
S55、利用服务器进行网络训练,采用端到端的方式训练;前景掩码生成模块损失的数学表达为:
Lmask=Lbl(Ga,Sa)+Lbl(Gs,Ss)+Lbl(Ge,Se)
其中,
Figure BDA0003825191480000131
)为加权二元逻辑回归损失;Ga,Gs,Ge表示真实的动作前景掩码,α+=T/∑(gi)和α-=T/∑(1-gi)是权重平衡因子;
动作完整性回归损失的数学表达为:
Figure BDA0003825191480000132
其中,
Figure BDA0003825191480000133
表示真实的提案与动作实例的IoU的最大值,Pa是真实的动作概率序列;
动作完整性回归损失的数学表达为:
Figure BDA0003825191480000134
Figure BDA0003825191480000135
其中,
Figure BDA0003825191480000141
表示真实的动作边界概率置信度;
总体整个模型的损失函数的数学表达为:
L=Lmask1Lcomple2Lstart3Lend
其中λ123是用来平衡三个损失的超参数,设置为λ123=1;
S56、利用服务器优化目标函数,获取局部最优网络参数;将步骤S55中的损失函数L作为目标函数,使用AdamW优化器迭代更新网络参数,使目标损失函数降低直至收敛到局部最优,至此训练结束,得到训练完成的基于语义级时序关联建模的视频时序动作定位网络的权重。
步骤S6、利用所述基于语义级关联建模的视频时序动作定位方法在新的视频序列中定位动作目标。主要步骤为:
S61、将新的视频首先送入视频特征提取单元,提取视频特征;然后利用前景掩码生成模块,生成视频中动作的前景掩码图;之后将视频特征和前景掩码图输入掩码引导Transformer模块,建立视频的语义级时序关联,输出动作主体和动作边界增强的视频特征;最后将动作主体和动作边界增强的视频特征送入时序动作定位预测输出模块,输出动作完整性置信度图Pc和动作边界置信度图Ps,e
S62、在动作完整性置信度图Pc和动作边界置信度图Ps,e的右上角区域中,对Pc每一行、Ps,e每一列求平均值,得到动作起始分数序列
Figure BDA0003825191480000142
和动作结束分数序列
Figure BDA0003825191480000143
然后将每个候选动作提案(ti,tj)的动作起始分数
Figure BDA0003825191480000144
动作结束分数
Figure BDA0003825191480000145
动作完整性分数
Figure BDA0003825191480000146
进行融合,具体为:
Figure BDA0003825191480000147
S63、采用Soft-NMS算法,通过分数衰减函数消除冗余,得到稀疏的候选动作提案集合
Figure BDA0003825191480000148
其中Pi,j'是最终的置信度得分,N'是最终候选建议的个数;
S64、利用UntrimmedNet预测的新视频的排名前二的动作类别标签和相应的分数,与步骤S63输出的候选动作提案的置信度分数相乘,得到最终的针对该视频的时序动作定位结果
Figure BDA0003825191480000149
其中(ti,tj)代表预测的动作起始时间为ti、结束时间为tj的视频片段,它对应的动作类别为c,置信度分数为Si,j
虽然在本文中参照了特定的实施方式来描述本发明,但是应该理解的是,这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是,可以对示例性的实施例进行许多修改,并且可以设计出其他的布置,只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是,可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是,结合单独实施例所描述的特征可以使用在其他所述实施例中。

Claims (10)

1.一种基于语义级时序关联建模的视频时序动作定位方法,其特征在于,包括以下步骤:
S1、利用视频特征提取单元对输入的视频进行片段级特征提取与编码;
S2、利用前景掩码生成模块建模视频的全局时序关联,预测生成动作前景(动作主体和边界)的掩码;
S3、利用掩码引导Transformer模块中的自注意力机制计算语义级时序关联,提取动作的特征同时抑制背景干扰;
S4、利用时序动作定位预测输出模块预测动作完整性图和边界置信度图,用于时序动作提议和评估;
S5、对网络模型进行训练,通过降低网络损失函数优化网络参数,直至网络收敛,获得基于语义级关联建模的视频时序动作定位方法;
S6、利用所述基于语义级关联建模的视频时序动作定位方法在新的视频序列中定位动作目标。
2.根据权利要求1所述的一种基于语义级时序关联建模的视频时序动作定位方法,其特征在于,所述步骤S1具体包括以下步骤:
S11、将原始未经剪辑的长视频视为一个帧集合
Figure FDA0003825191470000011
然后按规则的帧间隔δ将其分割为一个片段集合
Figure FDA0003825191470000012
其中ls=lv/δ;
S12、将每个片段输入到预训练的双流网络TSN中,提取每个片段的特征
Figure FDA0003825191470000013
通过这种方式,获得片段特征序列
Figure FDA0003825191470000014
S13、采用线性插值将每个视频统一到相同的时序长度,视频特征提取单元输出表示为
Figure FDA0003825191470000015
的视频特征,包含T个特征单元,由后续模块共享。
3.根据权利要求1所述的一种基于语义级时序关联建模的视频时序动作定位方法,其特征在于,所述步骤S2具体包括以下步骤:
S21、利用全局感知注意力模块建模视频的全局时序关联;输入视频特征F,添加正弦位置编码,然后利用线性变换将视频特征投影到三个不同特征表达,即查询
Figure FDA0003825191470000016
Figure FDA0003825191470000017
和值
Figure FDA0003825191470000018
利用这三个特征进行自注意力计算,学习视频片段之间的时序交互,输出全局关联建模的
Figure FDA0003825191470000019
Figure FDA00038251914700000110
输入到具有ReLU激活函数、残差连接和层归一化的前馈神经网络中,最后输出由全局上下文建模的特征
Figure FDA0003825191470000021
S22、利用全局上下文建模的特征Fg预测动作主体前景掩码和动作边界前景掩码;首先利用堆叠的一维时序卷积和Sigmoid激活函数预测每一个视频片段动作主体、起始和结束的概率
Figure FDA0003825191470000022
其次,将概率序列设定阈值进行二值化操作,得到前景掩码序列
Figure FDA0003825191470000023
然后,在时序维度上将前景掩码序列复制T次,得到二维前景掩码图;最后,为了引入前景周围的动作运动趋势信息,在二维掩码图上利用膨胀核对前景掩码图进行膨胀操作,得到膨胀后的前景掩码图
Figure FDA0003825191470000024
4.根据权利要求3所述的一种基于语义级时序关联建模的视频时序动作定位方法,其特征在于,所述步骤S21具体为:对输入视频特征添加正弦位置编码,得到经过位置编码后视频特征F';利用该特征进行自注意力计算,计算过程具体为:
Q=WQF′,K=WKF′,V=WVF′
Figure FDA0003825191470000025
其中
Figure FDA0003825191470000026
为网络中可学习权值,d=C/M表示每个注意力头的维度,LN表示层归一化。自注意力机制输出全局关联建模的视频特征
Figure FDA0003825191470000027
然后与特征F'按元素相加,之后送入带有ReLU激活函数的前馈神经网络,增强特征的非线性表达能力,将结果与
Figure FDA0003825191470000029
按元素相加,从而获得全局上下文建模的特征
Figure FDA0003825191470000028
5.根据权利要求3所述的一种基于语义级时序关联建模的视频时序动作定位方法,其特征在于,所述步骤S22前景掩码预测过程中动作主体的二值化阈值设置为0.4,边界掩码二值化阈值设置为0.5,膨胀核的大小设置为kernel=(3,3)。
6.根据权利要求3所述的一种基于语义级时序关联建模的视频时序动作定位方法,其特征在于,所述步骤S3具体包括以下步骤:
S31、对输入视频特征序列F添加位置编码,进行线性映射将其映射到四个新的特征矩阵
Figure FDA0003825191470000031
分别表示视频的查询特征、值特征、动作开始键特征和动作结束键特征;然后,计算查询特征和两个键特征的余弦相似度,输出动作起始相似度
Figure FDA0003825191470000032
和动作结束相似度
Figure FDA0003825191470000033
S32、基于前景掩码图,构造掩码操作M(·),然后将掩码结果与动作起始相似度SMs、动作结束相似度SMe的Hadamard积,得到掩码引导映射
Figure FDA0003825191470000034
S33、使用Softmax函数将掩码引导映射进行归一化,然后与值矩阵
Figure FDA0003825191470000035
相乘,从视频的动作片段中捕获语义关联得到动作起始和动作结束增强特征
Figure FDA00038251914700000311
,将所述动作起始和动作结束增强特征拼接起来并使用一个一维卷积层将特征的通道数从2C'降低到C;利用残差连接和前馈神经网络来增强非线性得到边界增强特征
Figure FDA0003825191470000036
利用动作主体前景掩码图得到动作主体增强特征
Figure FDA0003825191470000037
7.根据权利要求6所述的一种基于语义级时序关联建模的视频时序动作定位方法,其特征在于,所述余弦相似度的计算过程为:
Figure FDA0003825191470000038
Figure FDA0003825191470000039
所述掩码引导的过程为:首先构造掩码操作,然后将掩码结果与动作相似度映射计算Hadamard积,公式表示为:
Figure FDA00038251914700000310
GMs=M(Ms)°SMs
GMe=M(Me)°SMe
其中M(·)表示掩码操作,°表示Hadamard乘积。
8.根据权利要求6所述的一种基于语义级时序关联建模的视频时序动作定位方法,其特征在于,所述步骤S4具体包括以下步骤:
S41、在动作完整性回归模块中,输入动作主体增强特征Fa,首先利用一维卷积预测每帧的动作概率,得到动作概率特征
Figure FDA0003825191470000041
其次,在Pa上对所有候选提案的起始、中心和结束区域内的进行特征采样,构造动作完整性特征图
Figure FDA0003825191470000042
其中T×T×N表示所有任意起始和结束时间的所有候选提案,N是每个提案的采样点数;最后,将FMa输入堆叠的二维卷积神经网络中执行卷积操作,并使用Sigmoid激活函数预测动作完整性置信图
Figure FDA0003825191470000043
S42、在动作边界分类模块中,输入动作边界增强特征Fb,首先在Fbf上采样构造候选提案的边界特征图
Figure FDA0003825191470000044
包含T×T个候选提案的边界特征;然后利用一个三维卷积层将采样点的特征进行融合;最后利用堆叠的二维卷积层预测输出候选提案的动作边界置信度图
Figure FDA0003825191470000045
9.根据权利要求8所述的一种基于语义级时序关联建模的视频时序动作定位方法,其特征在于,所述步骤S5具体包括以下步骤:
S51、利用服务器执行所述视频特征提取单元,得到视频的特征序列F;
S52、利用服务器执行所述前景掩码生成模块预测输出动作主体前景掩码图和动作边界前景掩码图Ma,Ms,Me
S53、利用服务器执行所述掩码引导Transformer模块基于前景掩码图,利用自注意力机制建模每一帧与动作片段的语义级时序关联,输出动作主体增强特征Fa和动作边界增强特征Fb
S54、利用服务器执行所述时序动作定位预测输出模块,将动作主体增强特征Fa输入给动作完整性回归模块,预测动作完整性置信度图Pc;同时将动作边界增强特征Fb送入边界分类模块,输出动作边界置信度图Ps,e
S55、利用服务器进行网络训练,采用端到端的方式训练模型的整体损失函数的数学表达式为:
L=Lmask1Lcomple2Lstart3Lend
其中,Lmask=Lbl(Ga,Sa)+Lbl(Gs,Ss)+Lbl(Ge,Se)为掩码生成模块的损失,其加权平衡参数设置为1;
Figure FDA0003825191470000051
为动作完整性模块的损失,其加权平衡参数设置为λ1=1;
Figure FDA0003825191470000052
是动作起始边界分类损失,
Figure FDA0003825191470000053
为动作结束边界分类损失,它们的加权平衡因子为λ2=λ3=1;
S56、利用服务器优化目标函数,获取局部最优网络参数;将步骤S55中的损失函数L作为目标函数,使用AdamW优化器迭代更新网络参数,使目标损失函数降低直至收敛到局部最优,至此训练结束,得到训练完成的基于语义级时序关联建模的视频时序动作定位网络的权重。
10.根据权利要求9所述的一种基于语义级时序关联建模的视频时序动作定位方法,其特征在于,所述步骤S6具体包括以下步骤:
S61、将新的视频首先送入视频特征提取单元,提取视频特征;然后利用前景掩码生成模块,生成视频中动作的前景掩码图;之后将视频特征和前景掩码图输入掩码引导Transformer模块,建立视频的语义级时序关联,输出动作主体和动作边界增强的视频特征;最后将动作主体和动作边界增强的视频特征送入时序动作定位预测输出模块,输出动作完整性置信度图Pc和动作边界置信度图Ps,e
S62、在动作完整性置信度图Pc和动作边界置信度图Ps,e的右上角区域中,对Pc每一行、Ps,e每一列求平均值,得到动作起始分数序列
Figure FDA0003825191470000054
和动作结束分数序列
Figure FDA0003825191470000055
然后将每个候选动作提案(ti,tj)的动作起始分数
Figure FDA0003825191470000056
动作结束分数
Figure FDA0003825191470000057
动作完整性分数
Figure FDA0003825191470000058
进行融合,具体为:
Figure FDA0003825191470000059
S63、采用Soft-NMS算法,通过分数衰减函数消除冗余,得到稀疏的候选动作提案集合
Figure FDA00038251914700000510
其中Pi,j'是最终的置信度得分,N'是最终候选建议的个数;
S64、利用UntrimmedNet预测的新视频的排名前二的动作类别标签和相应的分数,与步骤S63输出的候选动作提案的置信度分数相乘,得到最终的针对该视频的时序动作定位结果
Figure FDA0003825191470000061
其中(ti,tj)代表预测的动作起始时间为ti、结束时间为tj的视频片段,它对应的动作类别为c,置信度分数为Si,j
CN202211056608.7A 2022-08-31 2022-08-31 一种基于语义级时序关联建模的视频时序动作定位方法 Pending CN115471771A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211056608.7A CN115471771A (zh) 2022-08-31 2022-08-31 一种基于语义级时序关联建模的视频时序动作定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211056608.7A CN115471771A (zh) 2022-08-31 2022-08-31 一种基于语义级时序关联建模的视频时序动作定位方法

Publications (1)

Publication Number Publication Date
CN115471771A true CN115471771A (zh) 2022-12-13

Family

ID=84369546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211056608.7A Pending CN115471771A (zh) 2022-08-31 2022-08-31 一种基于语义级时序关联建模的视频时序动作定位方法

Country Status (1)

Country Link
CN (1) CN115471771A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115942041A (zh) * 2022-12-22 2023-04-07 南京理工大学 基于上下文感知的深度视频拆条方法及装置
CN116883886A (zh) * 2023-05-25 2023-10-13 中国科学院信息工程研究所 一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115942041A (zh) * 2022-12-22 2023-04-07 南京理工大学 基于上下文感知的深度视频拆条方法及装置
CN116883886A (zh) * 2023-05-25 2023-10-13 中国科学院信息工程研究所 一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法和装置
CN116883886B (zh) * 2023-05-25 2024-05-28 中国科学院信息工程研究所 一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法和装置

Similar Documents

Publication Publication Date Title
CN111341341B (zh) 音频分离网络的训练方法、音频分离方法、装置及介质
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
CN111079532B (zh) 一种基于文本自编码器的视频内容描述方法
CN110516536B (zh) 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN113792113A (zh) 视觉语言模型获得及任务处理方法、装置、设备及介质
CN115471771A (zh) 一种基于语义级时序关联建模的视频时序动作定位方法
CN116171473A (zh) 用于视听事件定位的双模态关系网络
CN111984820B (zh) 一种基于双自注意力胶囊网络的视频摘要方法
CN111814844A (zh) 一种基于位置编码融合的密集型视频描述方法
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN115695950B (zh) 一种基于内容感知的视频摘要生成方法
CN113963304A (zh) 基于时序-空间图的跨模态视频时序动作定位方法及系统
CN113920170A (zh) 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质
Wanyan et al. Active exploration of multimodal complementarity for few-shot action recognition
CN117132923A (zh) 视频分类方法、装置、电子设备及存储介质
CN113761282B (zh) 视频查重方法、装置、电子设备以及存储介质
Li et al. Spikemba: Multi-modal spiking saliency mamba for temporal video grounding
CN112560823B (zh) 基于分布学习的自适应方差和权重的人脸年龄估计方法
CN113705293A (zh) 图像场景的识别方法、装置、设备及可读存储介质
CN117152815A (zh) 一种学生活动伴随式数据分析方法、装置及设备
CN114528762A (zh) 一种模型训练方法、装置、设备和存储介质
Das et al. A comparative analysis and study of a fast parallel cnn based deepfake video detection model with feature selection (fpc-dfm)
Jayanthi et al. Sign Language Recognition using Deep CNN with Normalised Keyframe Extraction and Prediction using LSTM: CONTINUOUS SIGN LANGUAGE GESTURE RECOGNITION AND PREDICTION
CN112801076A (zh) 基于自注意力机制的电子商务视频高光检测方法及系统
CN113569867A (zh) 一种图像处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination