CN114821379A - 一种基于松弛变换解码器的直接时序动作检测方法 - Google Patents

一种基于松弛变换解码器的直接时序动作检测方法 Download PDF

Info

Publication number
CN114821379A
CN114821379A CN202110115997.5A CN202110115997A CN114821379A CN 114821379 A CN114821379 A CN 114821379A CN 202110115997 A CN202110115997 A CN 202110115997A CN 114821379 A CN114821379 A CN 114821379A
Authority
CN
China
Prior art keywords
nomination
layer
action
boundary
time sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110115997.5A
Other languages
English (en)
Other versions
CN114821379B (zh
Inventor
王利民
谈婧
唐嘉岐
武港山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202110115997.5A priority Critical patent/CN114821379B/zh
Publication of CN114821379A publication Critical patent/CN114821379A/zh
Application granted granted Critical
Publication of CN114821379B publication Critical patent/CN114821379B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

一种基于松弛变换解码器的直接时序动作检测方法,包括生成训练样例阶段、网络配置阶段、训练阶段以及测试阶段,结合动作起始点和结束点的概率以实现边界增强,并通过注意力机制自适应调整特征,实现时序动作检测。本发明通过边界增强的特征表示,有效利用全局上下文信息,显著提高生成提名的鲁棒性;利用松弛匹配的策略使网络快速稳定收敛;引入了时间交并比来指导动作提名排序,在有限的预测中,覆盖所有视频中的动作真值,灵活、高效、快速、准确的完成时序动作检测任务。

Description

一种基于松弛变换解码器的直接时序动作检测方法
技术领域
本发明属于计算机软件技术领域,涉及时序动作检测技术,具体为一种基于松弛变换解码器的直接时序动作检测方法。
背景技术
随着互联网上的视频数据爆炸式地增长,视频理解变得愈发重要。视频数据本身大多包含很多不重要的背景、无动作片段,无法直接用来识别,因此时序动作检测是一项刚需的技术。时序动作检测技术的目标是提取出一段未剪辑视频中的动作片段,并正确地预测其动作类别。一般地,时序动作检测任务由两个子任务组成:时序动作提名生成任务和动作分类任务,由于动作分类技术较为成熟,所以研究和发明重点集中在时序动作提名的生成,其主要的范式有两种。
第一种范式是基于锚点框的方法,其密集地生成多尺度的锚点框,来覆盖视频中的动作实例,例如TURN(Temporal Unit Regression Network)等。但由于视频中动作实例的长度可能由几秒到几十分钟不等,要想覆盖所有的动作实例,需要耗费极多的计算资源,因此无法有效地用于实际应用之中。
第二种范式是基于边界点检测的方法,其首先预测每一帧作为动作起始帧和动作终止帧的概率,之后应用自底向上的策略,完成边界帧的匹配,得到一系列的动作提名,例如BSN(Boundary Sensitive Network),BMN(Boundary Matching Network)等。但这种方法在预测边界概率的时候,只利用了本地的上下文,因此容易受到噪声的干扰,无法生成鲁棒的提名结果。
此外,这两种范式很大程度上依赖于精心设计的锚点放置或复杂的边界匹配机制,这些机制依赖于人类的先验知识,需要精细地调整参数。
发明内容
本发明要解决的问题是:现有的很多时序动作检测方法往往依赖于锚点框、密集匹配以及非极大值抑制等依赖于人类先验知识的手工模块,这些模块需要精细地调整参数,且耗费较长的运算时间。
本发明提出了一种直接生成时序动作提名的范式,能够基于全局上下文,时序自适应地调整特征表示,并直接、高效、快速、准确地生成时序上的动作提名。其中,时序自适应地调整特征表示指的是基于全局上下文,重新计算得到每一个时间点的特征权重。
本发明的技术方案为:一种基于松弛变换解码器的直接时序动作检测方法,对视频数据结合动作起始点和结束点的概率以实现边界增强,并通过注意力机制自适应调整特征,实现时序动作检测,所述时序动作检测步骤包括生成训练特征阶段、网络配置阶段、训练阶段以及测试阶段:
1)生成训练特征阶段:使用基于ResNet-50的I3D网络对训练样例视频进行特征提取,对于每个视频,将视频图像序列Lf分为若干个长度为Ls帧的视频段,每段为由Ls帧图像组成图像序列Sf,将图像序列Sf送入I3D网络,经过预训练参数的卷积层和池化层,输出得到LD帧的双流特征,将不同视频段的双流特征按照时间顺序拼接起来,再经过一个池化层,得到整个视频D维的高维特征
Figure BDA0002920667900000021
其中,视频段长度Ls的大小表示在全局上进行时间划分的细粒程度;
2)网络配置阶段:基于多层感知机编码器和变换解码器,建立时序动作检测模型RTD-Net,模型包括以下配置:
2.1)计算边界概率:首先使用时间分割网络TSN对步骤1)得到的图像序列Sf处理得到时序分割双流特征,再送入由三个卷积层组成的边界概率预测模块,计算得到每个时间节点作为动作起始点和动作结束点的概率,得到边界概率序列;
2.2)获得边界增强特征:对于1)中生成的高维特征
Figure BDA0002920667900000022
和2.1)中计算出的边界概率序列,进行点乘操作,获得边界增强特征Fb,再将边界增强特征Fb送入多层感知机编码器得到编码特征Fenc,实现通道上的交互;
2.3)解析边界增强特征:对于2.2)中获得的边界增强特征的编码特征Fenc,利用变换解码器进行解析,变换解码器包含ND个解码层,每个解码层包含一个自注意力层、一个编码器-解码器注意力层和两个线性映射层,输入的特征依次经过自注意力层、编码器-解码器注意力层和堆叠的线性映射层后输出,边界增强特征通过堆叠的ND个解码层后,实现特征的解析;
2.4)时序动作提名的生成与评分:变换解码器输出的解析特征,送入三个不同的前馈神经网络:边界FFN、完整度FFN和分类FFN,三个前馈神经网络分别用于输出:动作提名的起始时刻和结束时刻、完整度分数以及置信度分数;
2.5)分配训练标签:采用松弛的训练标签匹配策略:首先,根据定义的匹配代价,匹配器利用匈牙利算法得到一组最优的one-to-one匹配,每个获得正标签的预测提名都能被分配到一个相应的实际提名,作为训练标签,其次,计算预测提名和实际提名的overlap,选取overlap大于Ot的预测提名,为其分配相应的实际提名作为标签;
2.6)时序动作提名的分类:生成一系列的时序提名后,通过以下两类方法进行提名分类并比较结果:第一种是选取UntrimmedNet视频级别top1的分类得分,第二种是将提名送入P-GCN进行分类;
3)训练阶段:对配置的模型采用训练数据进行训练,使用交叉熵、L1距离、交并比作为损失函数,使用AdamW优化器,使用退火策略通过反向传播算法来更新网络参数,不断重复步骤1)和步骤2),直至达到迭代次数;
4)测试阶段:将待测试数据的视频特征序列输入到训练完成的RTD-Net模型中,生成动作提名,再利用2.6)中的两种方式,得到提名分类结果,实现时序动作检测。
本发明与现有技术相比有如下优点
本发明提出了一种直接生成动作提名的范式,无需锚点框、密集匹配以及非极大值抑制等依赖于人类先验知识的手工模块。直接生成动作提名的范式具有更少的超参数,易于调试,且在测试时具有更快的前向推理速度。
本发明使用了边界增强的特征表示,有效地利用了全局的上下文信息。边界增强的特征表示,有助于变换解码器在时序自适应地调整特征表示时,提升对于动作边界的辨别能力,而不会因为平滑的视频特征预测出全局相似的提名结果;利用全局上下文信息,有效地降低本地噪声的干扰,能够显著地提高生成提名的鲁棒性。
本发明提出了松弛匹配策略来帮助模型收敛。和图像中的物体边界相比,视频中动作边界存在着定义不清晰的情况。基于松弛匹配策略,本发明给部分质量较高的预测提名也分配训练标签,有助于网络快速、稳定的收敛。
本发明利用交并比IoU来指导动作提名的排序。只预测分类置信度,有时无法准确地表示预测提名的质量,而交并比很好地刻画了预测提名和真实提名的重叠、相似程度以及预测提名的完整程度,因此其能够准确地衡量预测提名的定位质量,以指导动作提名的排序,使得完整程度较高的提名获得更高的排名。由此,本发明可以利用数量较少且排名较高的预测提名,覆盖完所有的真实提名。
本发明在时序动作检测任务上具有灵活、高效、快速、准确等特点。和现有的方法相比,本发明在主流数据集和实际的应用中都具有更好的表现。
附图说明
图1是本发明所使用的系统框架图。
图2是本发明视频的抽帧处理示意图。
图3是本发明的特征提取模块示意图。
图4是本发明提出的边界特征增强过程示意图。
图5是本发明变换解码器示意图。
图6是本发明提出的松弛匹配器和三预测分支示意图。
图7展示本发明的提名数量与其他方法的比较。
图8展示本发明在THUMOS-14数据集样例上得到的结果。
图9为本发明的总体流程示意图。
具体实施方式
本发明一种基于松弛变换解码器的直接时序动作检测方法,构建了RTD-Net模型(Relaxed Transformer Decoders Network),结合动作起始点和结束点的概率以实现边界增强,并通过注意力机制自适应调整特征,实现时序动作检测任务。本发明方法包括生成训练样例阶段、网络配置阶段、训练阶段以及测试阶段,如图9所示,具体说明如下。
1)生成训练样例:使用基于ResNet-50的膨胀三维卷积网络(Inflated 3DNetwork),对训练样例视频进行特征提取,一般在标准数据集上进行。对于每个视频,将视频图像序列Lf分为若干个长度为Ls帧的视频段,每个视频段是由Ls帧图像组成的图像序列Sf。将图像序列Sf送入I3D网络,经过预训练参数的卷积层和池化层,输出得到LD帧的双流特征,将不同视频段的双流特征按照时间顺序拼接起来,再经过一个池化层,得到整个视频D维的高维特征
Figure BDA0002920667900000041
视频段长度Ls的大小表示在全局上进行时间划分的细粒程度,其取值较为灵活,取决于算力的大小,为减小时间复杂度的同时保留更多的局部信息,本发明实施例优选Ls取64,LD取8,D取2048。具体实施如下。
使用denseflow对原视频进行抽帧处理,抽取视频的RGB帧和光流帧,得到RGB和光流的双流数据,视频图像序列长度记为Lf。RGB和光流图像经过中心裁剪,得到尺度为224*224的对应图像。将视频帧序列分为等长的
Figure BDA0002920667900000042
个视频段,视频段长度记为Ls,视频段序列记为Vf。以64帧为滑动窗口、8帧为步长,遍历整个视频的图像序列,得到若干个视频段,每个视频段为连续的Ls=64帧,记作Sf,i,i为视频段的编号。将图像序列
Figure BDA0002920667900000043
送入I3D网络,经过预训练参数的卷积层,对时序和空间维度降采样得到中间特征的双流特征
Figure BDA0002920667900000044
将不同视频段的双流特征按照时间顺序拼接起来,再经过最大池化层降维度得到整个视频的高维特征
Figure BDA0002920667900000045
具体如下:
1.抽帧和预处理后得到的整体视频段序列如下:
Vf={Sf,1,Sf,2,…,Sf,i}
Sf,i={Img1,Img2,…,Img64},i=1,2,3,…,Lf/Ls
其中Vf代表视频段序列,其由Lf/Ls个图像序列段Sf,i组成,每个图像序列段中包含了Ls张图像。
2.I3D网络处理输入视频图像序列的过程如下:
Fi=I3D(Sf,i)
F=Concatenate(F1,F2,…,Fi)
Figure BDA0002920667900000051
其中Fi代表输入视频段经过I3D卷积处理得到的中间特征,F为不同视频段按照时间顺序拼接起来的结果,
Figure BDA0002920667900000052
为经过最大池化层后得到的整个视频的高维特征。
2)网络配置阶段,基于多层感知机编码器和变换解码器,建立时序动作检测模型,即本发明的RTD-Net模型,模型包括以下配置:
2.1)计算边界概率:首先使用时间分割网络TSN(Temporal Segment Network)对输入的图像序列Sf,i处理得到时序分割双流特征Ftsn,其中空间和时间特征在特征维度通过拼合操作结合起来得到双流特征。双流特征送入由三个卷积层(Conv1,Conv2,Conv3)组成的边界概率预测模块。第一层和第二层卷积使用的卷积核大小为3,激活函数为Relu;第三层卷积的核大小为1,激活函数为Sigmoid函数。卷积网络为每个时序位置预测其作为动作起始点和动作结束点的概率元组(ps,pe),ps为当前时序位置为起始点的概率,pe为结束点的概率,形成边界概率序列
Figure BDA0002920667900000053
Ftsn=TSN(Sf,i)
Figure BDA0002920667900000054
2.2)获得边界增强特征:对于1)中生成的高维特征
Figure BDA0002920667900000055
经过一层线性映射降维得到特征Ff,再和2.1)中计算出的边界概率序列
Figure BDA0002920667900000056
进行点乘操作,获得边界增强特征Fb。再将边界增强特征与位置编码Psin送入多层感知机编码器MLP(Linear1,Linear2,Linear3),实现通道上的交互,得到编码后的特征Fenc,其中位置编码
Figure BDA0002920667900000057
对输入视频段的每个时序位置编码,使用Sin函数,使不同位置拥有不同的编码Psin。由于变换器是位置无关的结构,引入位置编码可以强调视频时序上的先后顺序。多层感知机MLP将输入为512+512=1024维先上采样两倍再下采样两倍,其隐藏层维度为2048维。具体计算如下。
1.边界概率增强的边界增强特征:
Figure BDA0002920667900000061
Figure BDA0002920667900000062
Figure BDA0002920667900000063
Figure BDA0002920667900000064
上面的式子表示对动作起始点和动作结束点边界概率序列进行归一化操作,并乘上比例系数α,α取2,用于强化边界概率大于0.5的边界点特征,得到边界增强特征。其中,Fstart代表被动作开始概率增强的输入特征,Fend代表被动作结束概率增强的输入特征,将Fstart和Fend沿特征维度拼合,得到边界增强特征Fb
2.多层感知机编码后的最终编码特征Fenc
Figure BDA0002920667900000065
其中,(Linear1,Linear2,Linear3)组成的多层感知机对输入边界增强特征和位置编码的组合进行了先升维再降维的处理,完成了通道上的交互变换。
2.3)解析边界增强特征:对于2.2)中获得的边界增强编码特征Fenc,利用变换解码器进行解析。变换解码器包含ND个解码层,解码层记为Decodern,n表示解码层编号。每个解码层包含一个自注意力层(self-attention)SelfAttnn、一个编码器-解码器注意力层(encoder-decoder attention)Attnn和两个线性映射层,这里使用FFN完成线性映射。其中,自注意力层SelfAttnn将查询位置编码Qpos与查询量Query相加并进行自乘操作,计算得到每个时间节点的自注意力权重Mself,获得一个基于自注意力的特征表示,再利用一个残差结构增强并归一化原查询量;编码器-解码器注意力层将自注意力处理后的查询量和编码器输出的特征进行相乘操作,以获得每个时间节点的注意力权重Mcross,结合权重和编码特征获得新的查询特征表示Query″。查询特征Query″表示经过线性映射层后,在残差结构中与当前特征相加并归一化,即为编码层的输出。本发明优选ND取6,每个解码层由一个8输出分支的自注意力层、一个8输出分支的编码器-解码器注意力层和两个线性映射层串联组成,特征解析的输入通道数分别为512、512、512、2048,特征解析的输出通道数分别为512、512、2048、512;解码层中,输入特征首先经过自注意力层,通过自乘操作计算不同时间位置特征的权重,调整特征表示,然后将8个输出分支的结果拼接;自注意力层的输出经过编码器-解码器注意力层,通过和编码器特征相乘,计算不同时间位置特征的权重,调整特征表示,然后将8个输出分支的结果拼接;编码器-解码器注意力层的输出最后通过两个线性映射层,实现通道间的交互。边界增强特征Fenc通过变换解码器的6个解码层后,实现特征的解析,获得输出Fdec。具体计算如下:
1.变换器中某层解码层的具体解码过程:
Mself=(Qpos+Query)Wk·(Qpos+Query)Wq
Query′=Norm(Query+(QueryWv·Mself)Wo)
Mcross=(Fenc+Psin)Wk·(Query′+Qpos)Wq
Query″=Norm(Query′+(FencWv·Mcross)Wo)
Query″′=Norm(Query″+FFN(Query″))
其中,每层中自注意力机制和编码器-解码器注意力机制的关键字(key),查询量(query),值(value)输入都需要分别经过投影矩阵的变换,映射到高维空间进行注意力的变换。关键字(key),查询量(query)、值(value)及输出(output)的投影矩阵被分别记为Wk,Wq,Wv,Wo。自注意力机制和编码器-解码器注意力机制的投影矩阵不共享参数,不同层的投影矩阵也不共享参数。
输入动作查询量Query和由模型训练学习到的查询位置编码Qpos相加后经过投影自乘,得到自注意力权重Mself矩阵。Query被投影后通过和Mself权重矩阵相乘得到强化,再与乘之前相加并归一化得到Query′。在编码器-解码器注意力机制中,Query′和Qpos相加作为查询量,Fenc和位置编码Psin相加作为关键字,相乘得到注意力矩阵Mcross。Mcross对输入编码特征Fenc抽取Query′和Qpos感兴趣的部分,与Query′相加再归一化,为Query′加上了编码特征信息。Query′通过FFN和一个残差Add Norm,得到输出表示。
2.变换解码器对输入编码特征解码的表示为:
Fdec=Decoders(Fenc)
=Decoder6(Fenc,Decoder5(…Decoder2(Fenc,Decoder1(Fenc,Query,Qpos),Qpos)),Qpos)其中,Decodern代表第n层decoder层,一共6层decoder层叠加,得到解码器结构。
边界增强特征的编码特征从自注意力层、编码器-解码器注意力层和堆叠的线性映射层输出后,再和输入特征相加,最后进行层标准化Layer Normalization操作,得到时序自适应调整的特征表示,通过这样的6个变换解码层,最终实现特征的解析。
2.4)时序动作提名的生成与评分:变换解码器输出的解析特征Fdec,被送入三个不同的前馈神经网络。边界FFN输出预测提名的起始位置和结束位置,分类FFN输出该提名为实际提名的置信度(概率),如果概率较高,说明分类FFN认为该提名是预测正确的;如果概率较低,说明分类FFN认为该提名是预测错误的,这个时间段内没有动作发生。此外,鉴于完整度高的提名能够更好地覆盖真实的动作提名,本发明提出了一个完整度FFN,其基于交并比指标来预测提名的完整度,再基于完整度对于提名进行排序,使得完整度较高的提名获得更高的排名。由此,本发明可以利用数量较少且排名较高的预测提名,覆盖完所有的真实提名。
边界前馈神经网络输出动作提名的起始时刻和结束时刻,网络记为FFNloc;完整性前馈神经网络输出完整度分数,网络记为FFNiou;分类前馈神经网络输出分类置信度分数,网络记为FFNcls。具体计算如下:
1.动作提名的起始时刻ts和结束时刻te定位:
ts,te=sigmoid(FFNloc(Fdec))
2.分类置信度分数pbc的生成:
pbc=softmax(FFNcls(Fdec))
3.完整度分数pc的生成:
pc=sigmoid(FFNiou(Fdec))
2.5)分配训练标签:考虑到时序动作的分布较为稀疏、边界的定义模糊,本发明采用了松弛的训练标签匹配策略:首先,根据定义的匹配代价,匹配器利用匈牙利算法得到一组最优的one-to-one匹配,每个获得正标签的预测提名都能被分配到一个相应的实际提名,作为训练标签。其次,计算预测提名和实际提名的overlap,选取overlap大于Ot的预测提名,为其分配相应的实际提名作为标签,本发明中,Ot取0.75。具体计算如下:
1.匈牙利算法的优化指标:
C=∑(5·Lprop+Lcls+2·Liou)
优化指标C,由三个部分组成:时序候选框边界函数Lprop、分类函数Lcls和覆盖率函数Liou,这三个部分加权相加得到优化指标。匈牙利算法通过线性规划最小化目标C,选出one-to-one匹配的正样本候选框。
2.损失函数的定义:
Figure BDA0002920667900000081
Figure BDA0002920667900000082
Figure BDA0002920667900000091
在优化目标中,时序候选框边界函数由该时序候选框的开始和结束位置ts,te与对应动作真值的开始和结束位置
Figure BDA0002920667900000092
的L1距离衡量;分类函数由预测出的该时序候选框为对应动作真值的概率度量,prob()是预测起始结束时间为动作真值的概率,由于C为最小化目标,所以对概率取负;覆盖率函数由该时序候选框和对应动作真值的交并比值度量,tIoU()指时间交并比,在时间维度上计算交并比,由于C为最小化优化目标,所以对交并比值取负。
2.6)时序动作提名的分类:生成一系列的时序提名后,通过以下两类方法进行提名分类:第一种是选取UntrimmedNet视频级别top1的分类得分,第二种是将提名送入P-GCNProposal-Graph Convolution Network)进行分类。在两种方式下,本发明均能够取得state-of-the-art的性能表现。基于时序动作提名及其分类结果,本发明实现了时序动作检测任务。
Output=Classfier(proposals,features)
其中,分类器为UntrimmedNet或者P-GCN,输入为生成的提名和对应提取的提名特征,输出为提名和对应的动作类别的分数,通过softmax函数得到预测动作类别。
3)训练阶段:对配置的模型采用训练数据进行训练,使用交叉熵、L1距离、交并比(IoU,Intersection over Union)作为损失函数,使用AdamW优化器,使用退火策略通过反向传播算法来更新网络参数,不断重复步骤1)和步骤2),直至达到迭代次数。模型分为两个阶段训练,在第一阶段训练除了完整度分支外的所有参数,在第二阶段训练完整度分支。在分配正负样本阶段,模型采用了松弛匹配策略,维护正负样本比例,使模型能够稳定收敛。
4)测试阶段:将测试数据的视频特征序列输入到训练完成的RTD-Net(RelaxedTransformer Decoders Network)模型中,生成动作提名。再利用2.6)中的两种方式,得到提名分类结果,实现时序动作检测。
本发明提出了一种基于松弛变换解码器的直接时序动作检测方法。下面通过具体实施例进行进一步说明。经过在Thumos14数据集和ActivityNet1.3上的训练和测试达到了高准确性,优选使用Python3编程语言,Pytorch1.6.0深度学习框架实施。
图1显示了本发明所使用的系统框架图,具体实施步骤如下:
1)视频帧的准备阶段,如图2所示,训练数据和测试数据均使用同一方式进行处理。使用denseflow对视频进行RGB和光流帧的抽取,按照原帧率和分辨率处理,统计总的视频类别、每个视频的帧数、以及视频帧所在路径,构建出训练数据与验证数据集合,以方便程序对数据进行加载。程序通过训练文本读取了视频帧后,对视频帧进行中心裁剪为224*224,最后转化为张量Tensor形式。
2)视频特征的提取阶段,如图3所示,程序对输入视频帧进行64帧为单位的分割,得到视频段序列,分别使用I3D网络提取双流特征。双流特征在通道上进行拼合,同一个视频不同视频段的特征按照时间顺序拼合在一起,再通过一次均匀池化提取特征,得到最终每个视频的对应双流特征。程序最后以视频和对应特征为单位,按批处理数量加载并打乱次序。
3)模型的配置阶段,首先对视频进行边界概率增强,即前述步骤2.2),如图4所示,对于提取到的原始高维特征,程序对每个时序位置预测起始点概率序列和结束点概率序列,然后将两个概率序列按照时序位置分别和原始特征进行点乘操作,获得起始点概率增强特征和结束点概率增强特征。将起始点概率增强特征和结束点概率增强特征沿着通道拼合concat,得到最终的边界增强特征。一个三层感知机组成的MLP结构,对于得到的边界增强特征加入位置编码进行进一步通道上的融合与交互,得到编码后特征。
对编码后特征进行解码,得到最终结果表示的步骤,即前述步骤2.3),如图5所示。对于2.2)中获得的边界增强的编码特征,利用变换解码器进行解析。变换解码器包含6个解码层。每个解码层包含一个多头自注意力层和一个多头注意力层和线性映射层。输入的查询量经过随机初始化放入多头自注意力层进行注意力强化,多头自注意力层将查询位置编码与查询量相加并进行自乘操作,计算得到每个时间节点的自注意力权重,获得一个新的查询特征表示,再利用一个残差结构增强并归一化原查询量。查询特征表示接着被送入多头注意力层,和编码器输出的特征进行相乘操作,以获得每个时间节点的注意力权重,结合权重和编码特征获得新的查询特征表示。查询特征表示经过线性映射层后,在残差结构中与当前特征相加并归一化。查询量和编码后特征通过变换解码器的6个解码层后,实现特征的解析,获得输出。
时序动作提名的生成与评和正负例标签分配策略,如图6所示。变换解码器输出的解析特征,被送入三个不同的前馈神经网络。定位前馈神经网络输出动作提名的起始时刻和结束时刻,完整性前馈神经网络输出完整度分数,分类前馈神经网络输出分类置信度分数。分配正负例标签策略采用松弛匹配策略,如图6中流程所示,对于一个样本,松弛匹配器判断其是否在匈牙利算法和损失函数主导的二分匹配中被分配为正样本,如果是则被分配正样本标签;此外判断该样本在和真实提名的重叠度中,是否大于特定阈值,如果是则也被分配为正样本。
3)训练阶段,本实例使用交叉熵、L1距离、交并比作为损失函数,使用AdamW优化器,设置批大小BatchSize为32,即每次训练在训练集中取32个样本训练,总的训练轮数设置为70,初始学习率为0.0001,在50轮处学习率除以10,在完整度训练时学习率除以100.衰减率设置为1e-4,在两块RTX2080ti GPU上训练。模型分为两个阶段训练,在第一阶段训练出了完整度分支外的所有参数,在第二阶段训练完整度分支。在分配正负样本阶段,模型采用了松弛匹配策略,维护正负样本比例,使模型能够稳定收敛。
4)测试阶段
测试集输入数据的预处理,同训练数据一样,在抽帧后进行中心裁剪为224*224,使用I3D网络进行高维双流特征提取,所使用的测试指标有AR@AN。AR@AN是定位指标,指在平均样本数量下平均召回率,其中召回值指预测正确的样本数占总真值数的比例。在THUMOS14数据集上,单个视频的预测样本数远小于经典工作BSN(Boundary-sensitiveNetworks),如图7所示,体现出模型在小预测量中高正确率的优势,而非通过大量预测来覆盖真值。在预测精度上,同之前工作相比较,在全部指标上获得巨大提升,在AR@50上,比BMN(Bounday Matching Networks)高出1.72个百分点,在AR@100上高出1.31个百分点,在AR@200上高出1.37个百分点,在AR@500上高出0.86个百分点,在该数据集的效果样例如图8所示。
本发明着力于一种直接生成动作提名的范式,无需锚点框、密集匹配以及非极大值抑制等模块。针对视频中特征缓慢、平滑的现象,本发明使用了边界增强的特征表示,使得变换解码器在时序自适应地调整特征表示时,能够提升变换解码器对于动作边界的辨别能力;针对视频中动作边界定义不清晰的情况,本发明提出了松弛匹配策略来帮助模型收敛;针对提名置信度不准确的问题,本发明提出了完整度FFN,以交并比IoU作为指标来指导动作提名的排序。RTD-Net首次将变换器应用于视频中动作提名的直接生成,设计了一个简单、整齐的框架,移除了手工设计的模块;RTD-Net提出了边界增强的特征表示、松弛匹配策略、三分支检测头设计,以解决空间目标检测和时序动作检测的本质差异;RTD-Net在THUMOS14和ActivityNet-1.3两个主流benchmark上的召回率和准确率指标上,都取得了state-of-the-art的结果。

Claims (6)

1.一种基于松弛变换解码器的直接时序动作检测方法,其特征是对视频数据结合动作起始点和结束点的概率以实现边界增强,并通过注意力机制自适应调整特征,实现时序动作检测,所述时序动作检测步骤包括生成训练特征阶段、网络配置阶段、训练阶段以及测试阶段:
1)生成训练特征阶段:使用基于ResNet-50的I3D网络对训练样例视频进行特征提取,对于每个视频,将视频图像序列Lf分为若干个长度为Ls帧的视频段,每段为由Ls帧图像组成图像序列Sf,将图像序列Sf送入I3D网络,经过预训练参数的卷积层和池化层,输出得到LD帧的双流特征,将不同视频段的双流特征按照时间顺序拼接起来,再经过一个池化层,得到整个视频D维的高维特征
Figure FDA0002920667890000011
其中,视频段长度Ls的大小表示在全局上进行时间划分的细粒程度;
2)网络配置阶段:基于多层感知机编码器和变换解码器,建立时序动作检测模型RTD-Net,模型包括以下配置:
2.1)计算边界概率:首先使用时间分割网络TSN对步骤1)得到的图像序列Sf处理得到时序双流特征,再送入由三个卷积层组成的边界概率预测模块,计算得到每个时间节点作为动作起始点和动作结束点的概率,得到边界概率序列;
2.2)获得边界增强特征:对于1)中生成的高维特征
Figure FDA0002920667890000012
和2.1)中计算出的边界概率序列,进行点乘操作,获得边界增强特征Fb,再将边界增强特征Fb送入多层感知机编码器得到编码特征Fenc,实现通道上的交互;
2.3)解析边界增强特征:对于2.2)中获得的边界增强特征的编码特征Fenc,利用变换解码器进行解析,变换解码器包含ND个解码层,每个解码层包含一个自注意力层、一个编码器-解码器注意力层和两个线性映射层,输入的特征依次经过自注意力层、编码器-解码器注意力层和堆叠的线性映射层后输出,边界增强特征通过堆叠的ND个解码层后,实现特征的解析;
2.4)时序动作提名的生成与评分:变换解码器输出的解析特征,送入三个不同的前馈神经网络:边界FFN、完整度FFN和分类FFN,三个前馈神经网络分别用于输出:动作提名的起始时刻和结束时刻、完整度分数以及置信度分数;
2.5)分配训练标签:采用松弛的训练标签匹配策略:首先,根据定义的匹配代价,匹配器利用匈牙利算法得到一组最优的one-to-one匹配,每个获得正标签的预测提名都能被分配到一个相应的实际提名,作为训练标签,其次,计算预测提名和实际提名的overlap,选取overlap大于Ot的预测提名,为其分配相应的实际提名作为标签;
2.6)时序动作提名的分类:生成一系列的时序提名后,通过以下两类方法进行提名分类:第一种是选取UntrimmedNet视频级别top1的分类得分,第二种是将提名送入P-GCN进行分类;
3)训练阶段:对配置的模型采用训练数据进行训练,使用交叉熵、L1距离、交并比作为损失函数,使用AdamW优化器,使用退火策略通过反向传播算法来更新网络参数,不断重复步骤1)和步骤2),直至达到迭代次数;
4)测试阶段:将待测试数据的视频特征序列输入到训练完成的RTD-Net模型中,生成动作提名,再利用2.6)中的两种方式,得到提名分类结果,实现时序动作检测。
2.根据权利要求1所述的一种基于松弛变换解码器的直接时序动作检测方法,其特征是步骤1)中,先利用denseflow库对所有视频进行抽帧处理,得到RGB和光流的双流数据,然后分别对双流数据进行处理:对各个视频帧进行中心裁剪为224*224大小,转化为张量Tensor形式的视频图像序列Vf;其次,以64帧为滑动窗口、8帧为步长,遍历整个视频的图像序列,得到若干个视频段,再利用堆叠的卷积层和最大池化层,提取每个视频段的特征,按照时序顺序拼接,得到视频级别的特征;最后,将视频级别的RGB和光流特征在通道上拼接,得到整个视频的高维特征
Figure FDA0002920667890000021
3.根据权利要求1所述的一种基于松弛变换解码器的直接时序动作检测方法,其特征是步骤2)的网络配置中,卷积层由卷积操作、Batch Normalization操作和ReLU激活函数构成,编码器为多层感知机,解码器为变换解码器。
4.根据权利要求1所述的一种基于松弛变换解码器的直接时序动作检测方法,其特征是步骤2.2)对计算得到边界概率进行加权调整,将高维特征
Figure FDA0002920667890000022
经过一层线性映射降维得到特征Ff,再对2.1)中计算出的边界概率序列进行归一化操作,将其和特征Ff点乘,获得边界增强特征Fb;最后乘上比例系数α,α取2,用于强化边界概率大于0.5的边界点特征。
5.根据权利要求1所述的一种基于松弛变换解码器的直接时序动作检测方法,其特征是步骤2.3)中,ND取6,即变换解码器由6个解码层组成,每个解码层由一个8输出分支的自注意力层、一个8输出分支的编码器-解码器注意力层和两个线性映射层串联组成,特征解析的输入通道数分别为512、512、512、2048,特征解析的输出通道数分别为512、512、2048、512;解码层中,输入特征首先经过自注意力层,通过自乘操作计算不同时间位置特征的权重,调整特征表示,然后将8个输出分支的结果拼接;自注意力层的输出经过编码器-解码器注意力层,通过和编码器特征相乘,计算不同时间位置特征的权重,调整特征表示,然后将8个输出分支的结果拼接;编码器-解码器注意力层的输出最后通过两个线性映射层,实现通道间的交互;每一个解码层中,输入的特征从自注意力层、编码器-解码器注意力层和堆叠的线性映射层输出后,首先通过Dropout层,再和输入特征相加,最后进行层标准化操作,得到时序自适应调整的特征表示,通过6个变换解码层叠加,最终实现特征的解析。
6.根据权利要求1所述的一种基于松弛变换解码器的直接时序动作检测方法,其特征是结合2.4)的前馈神经网络FFN和2.5)的松弛匹配策略完成分类,边界FFN输出预测提名的起始位置和结束位置,分类FFN输出该提名为实际提名的置信度,即概率,如果概率较高,说明分类FFN认为该提名是预测正确的;如果概率较低,说明分类FFN认为该提名是预测错误的,这个时间段内没有动作发生;完整度FFN基于交并比指标来预测提名的完整度,再基于完整度对于提名进行排序,使得完整度较高的提名获得更高的排名。
CN202110115997.5A 2021-01-28 2021-01-28 一种基于松弛变换解码器的直接时序动作检测方法 Active CN114821379B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110115997.5A CN114821379B (zh) 2021-01-28 2021-01-28 一种基于松弛变换解码器的直接时序动作检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110115997.5A CN114821379B (zh) 2021-01-28 2021-01-28 一种基于松弛变换解码器的直接时序动作检测方法

Publications (2)

Publication Number Publication Date
CN114821379A true CN114821379A (zh) 2022-07-29
CN114821379B CN114821379B (zh) 2024-03-22

Family

ID=82524868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110115997.5A Active CN114821379B (zh) 2021-01-28 2021-01-28 一种基于松弛变换解码器的直接时序动作检测方法

Country Status (1)

Country Link
CN (1) CN114821379B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116206131A (zh) * 2023-03-16 2023-06-02 北京百度网讯科技有限公司 图像处理方法、深度学习模型的训练方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111209883A (zh) * 2020-01-13 2020-05-29 南京大学 一种基于多源运动特征融合的时序自适应视频分类方法
US20210005183A1 (en) * 2019-07-03 2021-01-07 Qualcomm Incorporated Orthogonally constrained multi-head attention for speech tasks

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210005183A1 (en) * 2019-07-03 2021-01-07 Qualcomm Incorporated Orthogonally constrained multi-head attention for speech tasks
CN111209883A (zh) * 2020-01-13 2020-05-29 南京大学 一种基于多源运动特征融合的时序自适应视频分类方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116206131A (zh) * 2023-03-16 2023-06-02 北京百度网讯科技有限公司 图像处理方法、深度学习模型的训练方法及装置
CN116206131B (zh) * 2023-03-16 2023-09-19 北京百度网讯科技有限公司 图像处理方法、深度学习模型的训练方法及装置

Also Published As

Publication number Publication date
CN114821379B (zh) 2024-03-22

Similar Documents

Publication Publication Date Title
CN111291183B (zh) 利用文本分类模型进行分类预测的方法及装置
US11043209B2 (en) System and method for neural network orchestration
JP2022525702A (ja) モデル公平性のためのシステムおよび方法
US11270124B1 (en) Temporal bottleneck attention architecture for video action recognition
KR102109369B1 (ko) 시계열 데이터의 변화를 예측하고 그 이유를 설명하는 인공지능 시스템
CN114757432A (zh) 基于流程日志和多任务学习的未来执行活动及时间预测方法及系统
US20230177384A1 (en) Attention Bottlenecks for Multimodal Fusion
CN114494314A (zh) 时序边界检测方法及时序感知器
Wadekar et al. Hybrid CAE-VAE for unsupervised anomaly detection in log file systems
CN116543351A (zh) 一种基于时空串并联关系编码的自监督群体行为识别方法
CN115994223A (zh) 序列化多标签分类方法、装置、设备和介质
CN114821379B (zh) 一种基于松弛变换解码器的直接时序动作检测方法
CN111027681A (zh) 时序数据处理模型训练方法、数据处理方法、装置及存储介质
CN116702835A (zh) 神经网络推理加速方法、目标检测方法、设备及存储介质
CN111553152B (zh) 问题生成方法和装置及问题-文本对的生成方法和装置
CN117115706A (zh) 基于多尺度时空注意力网络的视频场景图生成方法
CN117351392A (zh) 一种视频异常行为检测的方法
CN115761576A (zh) 视频动作识别方法、装置及存储介质
CN116029766A (zh) 用户交易决策识别方法、激励策略优化方法、装置和设备
CN115810351A (zh) 一种基于视听融合的管制员语音识别方法及装置
CN113781160B (zh) 一种基于人工智能的商品推荐的方法
CN115204295A (zh) 基于自引导机制的对比学习序列的训练、推荐方法及装置
CN114970882A (zh) 适于多场景多任务的模型预测方法及模型系统
CN114004992A (zh) 多标签分类模型的训练方法、图像的多标签分类方法
Gashnikov Use of neural networks and decision trees in compression of 2D and 3D digital signals

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant