CN114821379A - 一种基于松弛变换解码器的直接时序动作检测方法 - Google Patents
一种基于松弛变换解码器的直接时序动作检测方法 Download PDFInfo
- Publication number
- CN114821379A CN114821379A CN202110115997.5A CN202110115997A CN114821379A CN 114821379 A CN114821379 A CN 114821379A CN 202110115997 A CN202110115997 A CN 202110115997A CN 114821379 A CN114821379 A CN 114821379A
- Authority
- CN
- China
- Prior art keywords
- nomination
- layer
- action
- boundary
- time sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000009471 action Effects 0.000 title claims abstract description 96
- 238000001514 detection method Methods 0.000 title claims abstract description 37
- 230000009466 transformation Effects 0.000 title claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 49
- 238000012360 testing method Methods 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 18
- 238000013507 mapping Methods 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 230000003993 interaction Effects 0.000 claims description 6
- 230000003287 optical effect Effects 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 5
- 101100153581 Bacillus anthracis topX gene Proteins 0.000 claims description 3
- 101150041570 TOP1 gene Proteins 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000000137 annealing Methods 0.000 claims description 3
- 230000009977 dual effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 238000000638 solvent extraction Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims 1
- 238000005728 strengthening Methods 0.000 claims 1
- 238000012163 sequencing technique Methods 0.000 abstract description 3
- 230000000875 corresponding effect Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/44—Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
一种基于松弛变换解码器的直接时序动作检测方法,包括生成训练样例阶段、网络配置阶段、训练阶段以及测试阶段,结合动作起始点和结束点的概率以实现边界增强,并通过注意力机制自适应调整特征,实现时序动作检测。本发明通过边界增强的特征表示,有效利用全局上下文信息,显著提高生成提名的鲁棒性;利用松弛匹配的策略使网络快速稳定收敛;引入了时间交并比来指导动作提名排序,在有限的预测中,覆盖所有视频中的动作真值,灵活、高效、快速、准确的完成时序动作检测任务。
Description
技术领域
本发明属于计算机软件技术领域,涉及时序动作检测技术,具体为一种基于松弛变换解码器的直接时序动作检测方法。
背景技术
随着互联网上的视频数据爆炸式地增长,视频理解变得愈发重要。视频数据本身大多包含很多不重要的背景、无动作片段,无法直接用来识别,因此时序动作检测是一项刚需的技术。时序动作检测技术的目标是提取出一段未剪辑视频中的动作片段,并正确地预测其动作类别。一般地,时序动作检测任务由两个子任务组成:时序动作提名生成任务和动作分类任务,由于动作分类技术较为成熟,所以研究和发明重点集中在时序动作提名的生成,其主要的范式有两种。
第一种范式是基于锚点框的方法,其密集地生成多尺度的锚点框,来覆盖视频中的动作实例,例如TURN(Temporal Unit Regression Network)等。但由于视频中动作实例的长度可能由几秒到几十分钟不等,要想覆盖所有的动作实例,需要耗费极多的计算资源,因此无法有效地用于实际应用之中。
第二种范式是基于边界点检测的方法,其首先预测每一帧作为动作起始帧和动作终止帧的概率,之后应用自底向上的策略,完成边界帧的匹配,得到一系列的动作提名,例如BSN(Boundary Sensitive Network),BMN(Boundary Matching Network)等。但这种方法在预测边界概率的时候,只利用了本地的上下文,因此容易受到噪声的干扰,无法生成鲁棒的提名结果。
此外,这两种范式很大程度上依赖于精心设计的锚点放置或复杂的边界匹配机制,这些机制依赖于人类的先验知识,需要精细地调整参数。
发明内容
本发明要解决的问题是:现有的很多时序动作检测方法往往依赖于锚点框、密集匹配以及非极大值抑制等依赖于人类先验知识的手工模块,这些模块需要精细地调整参数,且耗费较长的运算时间。
本发明提出了一种直接生成时序动作提名的范式,能够基于全局上下文,时序自适应地调整特征表示,并直接、高效、快速、准确地生成时序上的动作提名。其中,时序自适应地调整特征表示指的是基于全局上下文,重新计算得到每一个时间点的特征权重。
本发明的技术方案为:一种基于松弛变换解码器的直接时序动作检测方法,对视频数据结合动作起始点和结束点的概率以实现边界增强,并通过注意力机制自适应调整特征,实现时序动作检测,所述时序动作检测步骤包括生成训练特征阶段、网络配置阶段、训练阶段以及测试阶段:
1)生成训练特征阶段:使用基于ResNet-50的I3D网络对训练样例视频进行特征提取,对于每个视频,将视频图像序列Lf分为若干个长度为Ls帧的视频段,每段为由Ls帧图像组成图像序列Sf,将图像序列Sf送入I3D网络,经过预训练参数的卷积层和池化层,输出得到LD帧的双流特征,将不同视频段的双流特征按照时间顺序拼接起来,再经过一个池化层,得到整个视频D维的高维特征其中,视频段长度Ls的大小表示在全局上进行时间划分的细粒程度;
2)网络配置阶段:基于多层感知机编码器和变换解码器,建立时序动作检测模型RTD-Net,模型包括以下配置:
2.1)计算边界概率:首先使用时间分割网络TSN对步骤1)得到的图像序列Sf处理得到时序分割双流特征,再送入由三个卷积层组成的边界概率预测模块,计算得到每个时间节点作为动作起始点和动作结束点的概率,得到边界概率序列;
2.2)获得边界增强特征:对于1)中生成的高维特征和2.1)中计算出的边界概率序列,进行点乘操作,获得边界增强特征Fb,再将边界增强特征Fb送入多层感知机编码器得到编码特征Fenc,实现通道上的交互;
2.3)解析边界增强特征:对于2.2)中获得的边界增强特征的编码特征Fenc,利用变换解码器进行解析,变换解码器包含ND个解码层,每个解码层包含一个自注意力层、一个编码器-解码器注意力层和两个线性映射层,输入的特征依次经过自注意力层、编码器-解码器注意力层和堆叠的线性映射层后输出,边界增强特征通过堆叠的ND个解码层后,实现特征的解析;
2.4)时序动作提名的生成与评分:变换解码器输出的解析特征,送入三个不同的前馈神经网络:边界FFN、完整度FFN和分类FFN,三个前馈神经网络分别用于输出:动作提名的起始时刻和结束时刻、完整度分数以及置信度分数;
2.5)分配训练标签:采用松弛的训练标签匹配策略:首先,根据定义的匹配代价,匹配器利用匈牙利算法得到一组最优的one-to-one匹配,每个获得正标签的预测提名都能被分配到一个相应的实际提名,作为训练标签,其次,计算预测提名和实际提名的overlap,选取overlap大于Ot的预测提名,为其分配相应的实际提名作为标签;
2.6)时序动作提名的分类:生成一系列的时序提名后,通过以下两类方法进行提名分类并比较结果:第一种是选取UntrimmedNet视频级别top1的分类得分,第二种是将提名送入P-GCN进行分类;
3)训练阶段:对配置的模型采用训练数据进行训练,使用交叉熵、L1距离、交并比作为损失函数,使用AdamW优化器,使用退火策略通过反向传播算法来更新网络参数,不断重复步骤1)和步骤2),直至达到迭代次数;
4)测试阶段:将待测试数据的视频特征序列输入到训练完成的RTD-Net模型中,生成动作提名,再利用2.6)中的两种方式,得到提名分类结果,实现时序动作检测。
本发明与现有技术相比有如下优点
本发明提出了一种直接生成动作提名的范式,无需锚点框、密集匹配以及非极大值抑制等依赖于人类先验知识的手工模块。直接生成动作提名的范式具有更少的超参数,易于调试,且在测试时具有更快的前向推理速度。
本发明使用了边界增强的特征表示,有效地利用了全局的上下文信息。边界增强的特征表示,有助于变换解码器在时序自适应地调整特征表示时,提升对于动作边界的辨别能力,而不会因为平滑的视频特征预测出全局相似的提名结果;利用全局上下文信息,有效地降低本地噪声的干扰,能够显著地提高生成提名的鲁棒性。
本发明提出了松弛匹配策略来帮助模型收敛。和图像中的物体边界相比,视频中动作边界存在着定义不清晰的情况。基于松弛匹配策略,本发明给部分质量较高的预测提名也分配训练标签,有助于网络快速、稳定的收敛。
本发明利用交并比IoU来指导动作提名的排序。只预测分类置信度,有时无法准确地表示预测提名的质量,而交并比很好地刻画了预测提名和真实提名的重叠、相似程度以及预测提名的完整程度,因此其能够准确地衡量预测提名的定位质量,以指导动作提名的排序,使得完整程度较高的提名获得更高的排名。由此,本发明可以利用数量较少且排名较高的预测提名,覆盖完所有的真实提名。
本发明在时序动作检测任务上具有灵活、高效、快速、准确等特点。和现有的方法相比,本发明在主流数据集和实际的应用中都具有更好的表现。
附图说明
图1是本发明所使用的系统框架图。
图2是本发明视频的抽帧处理示意图。
图3是本发明的特征提取模块示意图。
图4是本发明提出的边界特征增强过程示意图。
图5是本发明变换解码器示意图。
图6是本发明提出的松弛匹配器和三预测分支示意图。
图7展示本发明的提名数量与其他方法的比较。
图8展示本发明在THUMOS-14数据集样例上得到的结果。
图9为本发明的总体流程示意图。
具体实施方式
本发明一种基于松弛变换解码器的直接时序动作检测方法,构建了RTD-Net模型(Relaxed Transformer Decoders Network),结合动作起始点和结束点的概率以实现边界增强,并通过注意力机制自适应调整特征,实现时序动作检测任务。本发明方法包括生成训练样例阶段、网络配置阶段、训练阶段以及测试阶段,如图9所示,具体说明如下。
1)生成训练样例:使用基于ResNet-50的膨胀三维卷积网络(Inflated 3DNetwork),对训练样例视频进行特征提取,一般在标准数据集上进行。对于每个视频,将视频图像序列Lf分为若干个长度为Ls帧的视频段,每个视频段是由Ls帧图像组成的图像序列Sf。将图像序列Sf送入I3D网络,经过预训练参数的卷积层和池化层,输出得到LD帧的双流特征,将不同视频段的双流特征按照时间顺序拼接起来,再经过一个池化层,得到整个视频D维的高维特征视频段长度Ls的大小表示在全局上进行时间划分的细粒程度,其取值较为灵活,取决于算力的大小,为减小时间复杂度的同时保留更多的局部信息,本发明实施例优选Ls取64,LD取8,D取2048。具体实施如下。
使用denseflow对原视频进行抽帧处理,抽取视频的RGB帧和光流帧,得到RGB和光流的双流数据,视频图像序列长度记为Lf。RGB和光流图像经过中心裁剪,得到尺度为224*224的对应图像。将视频帧序列分为等长的个视频段,视频段长度记为Ls,视频段序列记为Vf。以64帧为滑动窗口、8帧为步长,遍历整个视频的图像序列,得到若干个视频段,每个视频段为连续的Ls=64帧,记作Sf,i,i为视频段的编号。将图像序列送入I3D网络,经过预训练参数的卷积层,对时序和空间维度降采样得到中间特征的双流特征将不同视频段的双流特征按照时间顺序拼接起来,再经过最大池化层降维度得到整个视频的高维特征具体如下:
1.抽帧和预处理后得到的整体视频段序列如下:
Vf={Sf,1,Sf,2,…,Sf,i}
Sf,i={Img1,Img2,…,Img64},i=1,2,3,…,Lf/Ls
其中Vf代表视频段序列,其由Lf/Ls个图像序列段Sf,i组成,每个图像序列段中包含了Ls张图像。
2.I3D网络处理输入视频图像序列的过程如下:
Fi=I3D(Sf,i)
F=Concatenate(F1,F2,…,Fi)
2)网络配置阶段,基于多层感知机编码器和变换解码器,建立时序动作检测模型,即本发明的RTD-Net模型,模型包括以下配置:
2.1)计算边界概率:首先使用时间分割网络TSN(Temporal Segment Network)对输入的图像序列Sf,i处理得到时序分割双流特征Ftsn,其中空间和时间特征在特征维度通过拼合操作结合起来得到双流特征。双流特征送入由三个卷积层(Conv1,Conv2,Conv3)组成的边界概率预测模块。第一层和第二层卷积使用的卷积核大小为3,激活函数为Relu;第三层卷积的核大小为1,激活函数为Sigmoid函数。卷积网络为每个时序位置预测其作为动作起始点和动作结束点的概率元组(ps,pe),ps为当前时序位置为起始点的概率,pe为结束点的概率,形成边界概率序列
Ftsn=TSN(Sf,i)
2.2)获得边界增强特征:对于1)中生成的高维特征经过一层线性映射降维得到特征Ff,再和2.1)中计算出的边界概率序列进行点乘操作,获得边界增强特征Fb。再将边界增强特征与位置编码Psin送入多层感知机编码器MLP(Linear1,Linear2,Linear3),实现通道上的交互,得到编码后的特征Fenc,其中位置编码对输入视频段的每个时序位置编码,使用Sin函数,使不同位置拥有不同的编码Psin。由于变换器是位置无关的结构,引入位置编码可以强调视频时序上的先后顺序。多层感知机MLP将输入为512+512=1024维先上采样两倍再下采样两倍,其隐藏层维度为2048维。具体计算如下。
1.边界概率增强的边界增强特征:
上面的式子表示对动作起始点和动作结束点边界概率序列进行归一化操作,并乘上比例系数α,α取2,用于强化边界概率大于0.5的边界点特征,得到边界增强特征。其中,Fstart代表被动作开始概率增强的输入特征,Fend代表被动作结束概率增强的输入特征,将Fstart和Fend沿特征维度拼合,得到边界增强特征Fb。
2.多层感知机编码后的最终编码特征Fenc:
其中,(Linear1,Linear2,Linear3)组成的多层感知机对输入边界增强特征和位置编码的组合进行了先升维再降维的处理,完成了通道上的交互变换。
2.3)解析边界增强特征:对于2.2)中获得的边界增强编码特征Fenc,利用变换解码器进行解析。变换解码器包含ND个解码层,解码层记为Decodern,n表示解码层编号。每个解码层包含一个自注意力层(self-attention)SelfAttnn、一个编码器-解码器注意力层(encoder-decoder attention)Attnn和两个线性映射层,这里使用FFN完成线性映射。其中,自注意力层SelfAttnn将查询位置编码Qpos与查询量Query相加并进行自乘操作,计算得到每个时间节点的自注意力权重Mself,获得一个基于自注意力的特征表示,再利用一个残差结构增强并归一化原查询量;编码器-解码器注意力层将自注意力处理后的查询量和编码器输出的特征进行相乘操作,以获得每个时间节点的注意力权重Mcross,结合权重和编码特征获得新的查询特征表示Query″。查询特征Query″表示经过线性映射层后,在残差结构中与当前特征相加并归一化,即为编码层的输出。本发明优选ND取6,每个解码层由一个8输出分支的自注意力层、一个8输出分支的编码器-解码器注意力层和两个线性映射层串联组成,特征解析的输入通道数分别为512、512、512、2048,特征解析的输出通道数分别为512、512、2048、512;解码层中,输入特征首先经过自注意力层,通过自乘操作计算不同时间位置特征的权重,调整特征表示,然后将8个输出分支的结果拼接;自注意力层的输出经过编码器-解码器注意力层,通过和编码器特征相乘,计算不同时间位置特征的权重,调整特征表示,然后将8个输出分支的结果拼接;编码器-解码器注意力层的输出最后通过两个线性映射层,实现通道间的交互。边界增强特征Fenc通过变换解码器的6个解码层后,实现特征的解析,获得输出Fdec。具体计算如下:
1.变换器中某层解码层的具体解码过程:
Mself=(Qpos+Query)Wk·(Qpos+Query)Wq
Query′=Norm(Query+(QueryWv·Mself)Wo)
Mcross=(Fenc+Psin)Wk·(Query′+Qpos)Wq
Query″=Norm(Query′+(FencWv·Mcross)Wo)
Query″′=Norm(Query″+FFN(Query″))
其中,每层中自注意力机制和编码器-解码器注意力机制的关键字(key),查询量(query),值(value)输入都需要分别经过投影矩阵的变换,映射到高维空间进行注意力的变换。关键字(key),查询量(query)、值(value)及输出(output)的投影矩阵被分别记为Wk,Wq,Wv,Wo。自注意力机制和编码器-解码器注意力机制的投影矩阵不共享参数,不同层的投影矩阵也不共享参数。
输入动作查询量Query和由模型训练学习到的查询位置编码Qpos相加后经过投影自乘,得到自注意力权重Mself矩阵。Query被投影后通过和Mself权重矩阵相乘得到强化,再与乘之前相加并归一化得到Query′。在编码器-解码器注意力机制中,Query′和Qpos相加作为查询量,Fenc和位置编码Psin相加作为关键字,相乘得到注意力矩阵Mcross。Mcross对输入编码特征Fenc抽取Query′和Qpos感兴趣的部分,与Query′相加再归一化,为Query′加上了编码特征信息。Query′通过FFN和一个残差Add Norm,得到输出表示。
2.变换解码器对输入编码特征解码的表示为:
Fdec=Decoders(Fenc)
=Decoder6(Fenc,Decoder5(…Decoder2(Fenc,Decoder1(Fenc,Query,Qpos),Qpos)),Qpos)其中,Decodern代表第n层decoder层,一共6层decoder层叠加,得到解码器结构。
边界增强特征的编码特征从自注意力层、编码器-解码器注意力层和堆叠的线性映射层输出后,再和输入特征相加,最后进行层标准化Layer Normalization操作,得到时序自适应调整的特征表示,通过这样的6个变换解码层,最终实现特征的解析。
2.4)时序动作提名的生成与评分:变换解码器输出的解析特征Fdec,被送入三个不同的前馈神经网络。边界FFN输出预测提名的起始位置和结束位置,分类FFN输出该提名为实际提名的置信度(概率),如果概率较高,说明分类FFN认为该提名是预测正确的;如果概率较低,说明分类FFN认为该提名是预测错误的,这个时间段内没有动作发生。此外,鉴于完整度高的提名能够更好地覆盖真实的动作提名,本发明提出了一个完整度FFN,其基于交并比指标来预测提名的完整度,再基于完整度对于提名进行排序,使得完整度较高的提名获得更高的排名。由此,本发明可以利用数量较少且排名较高的预测提名,覆盖完所有的真实提名。
边界前馈神经网络输出动作提名的起始时刻和结束时刻,网络记为FFNloc;完整性前馈神经网络输出完整度分数,网络记为FFNiou;分类前馈神经网络输出分类置信度分数,网络记为FFNcls。具体计算如下:
1.动作提名的起始时刻ts和结束时刻te定位:
ts,te=sigmoid(FFNloc(Fdec))
2.分类置信度分数pbc的生成:
pbc=softmax(FFNcls(Fdec))
3.完整度分数pc的生成:
pc=sigmoid(FFNiou(Fdec))
2.5)分配训练标签:考虑到时序动作的分布较为稀疏、边界的定义模糊,本发明采用了松弛的训练标签匹配策略:首先,根据定义的匹配代价,匹配器利用匈牙利算法得到一组最优的one-to-one匹配,每个获得正标签的预测提名都能被分配到一个相应的实际提名,作为训练标签。其次,计算预测提名和实际提名的overlap,选取overlap大于Ot的预测提名,为其分配相应的实际提名作为标签,本发明中,Ot取0.75。具体计算如下:
1.匈牙利算法的优化指标:
C=∑(5·Lprop+Lcls+2·Liou)
优化指标C,由三个部分组成:时序候选框边界函数Lprop、分类函数Lcls和覆盖率函数Liou,这三个部分加权相加得到优化指标。匈牙利算法通过线性规划最小化目标C,选出one-to-one匹配的正样本候选框。
2.损失函数的定义:
在优化目标中,时序候选框边界函数由该时序候选框的开始和结束位置ts,te与对应动作真值的开始和结束位置的L1距离衡量;分类函数由预测出的该时序候选框为对应动作真值的概率度量,prob()是预测起始结束时间为动作真值的概率,由于C为最小化目标,所以对概率取负;覆盖率函数由该时序候选框和对应动作真值的交并比值度量,tIoU()指时间交并比,在时间维度上计算交并比,由于C为最小化优化目标,所以对交并比值取负。
2.6)时序动作提名的分类:生成一系列的时序提名后,通过以下两类方法进行提名分类:第一种是选取UntrimmedNet视频级别top1的分类得分,第二种是将提名送入P-GCNProposal-Graph Convolution Network)进行分类。在两种方式下,本发明均能够取得state-of-the-art的性能表现。基于时序动作提名及其分类结果,本发明实现了时序动作检测任务。
Output=Classfier(proposals,features)
其中,分类器为UntrimmedNet或者P-GCN,输入为生成的提名和对应提取的提名特征,输出为提名和对应的动作类别的分数,通过softmax函数得到预测动作类别。
3)训练阶段:对配置的模型采用训练数据进行训练,使用交叉熵、L1距离、交并比(IoU,Intersection over Union)作为损失函数,使用AdamW优化器,使用退火策略通过反向传播算法来更新网络参数,不断重复步骤1)和步骤2),直至达到迭代次数。模型分为两个阶段训练,在第一阶段训练除了完整度分支外的所有参数,在第二阶段训练完整度分支。在分配正负样本阶段,模型采用了松弛匹配策略,维护正负样本比例,使模型能够稳定收敛。
4)测试阶段:将测试数据的视频特征序列输入到训练完成的RTD-Net(RelaxedTransformer Decoders Network)模型中,生成动作提名。再利用2.6)中的两种方式,得到提名分类结果,实现时序动作检测。
本发明提出了一种基于松弛变换解码器的直接时序动作检测方法。下面通过具体实施例进行进一步说明。经过在Thumos14数据集和ActivityNet1.3上的训练和测试达到了高准确性,优选使用Python3编程语言,Pytorch1.6.0深度学习框架实施。
图1显示了本发明所使用的系统框架图,具体实施步骤如下:
1)视频帧的准备阶段,如图2所示,训练数据和测试数据均使用同一方式进行处理。使用denseflow对视频进行RGB和光流帧的抽取,按照原帧率和分辨率处理,统计总的视频类别、每个视频的帧数、以及视频帧所在路径,构建出训练数据与验证数据集合,以方便程序对数据进行加载。程序通过训练文本读取了视频帧后,对视频帧进行中心裁剪为224*224,最后转化为张量Tensor形式。
2)视频特征的提取阶段,如图3所示,程序对输入视频帧进行64帧为单位的分割,得到视频段序列,分别使用I3D网络提取双流特征。双流特征在通道上进行拼合,同一个视频不同视频段的特征按照时间顺序拼合在一起,再通过一次均匀池化提取特征,得到最终每个视频的对应双流特征。程序最后以视频和对应特征为单位,按批处理数量加载并打乱次序。
3)模型的配置阶段,首先对视频进行边界概率增强,即前述步骤2.2),如图4所示,对于提取到的原始高维特征,程序对每个时序位置预测起始点概率序列和结束点概率序列,然后将两个概率序列按照时序位置分别和原始特征进行点乘操作,获得起始点概率增强特征和结束点概率增强特征。将起始点概率增强特征和结束点概率增强特征沿着通道拼合concat,得到最终的边界增强特征。一个三层感知机组成的MLP结构,对于得到的边界增强特征加入位置编码进行进一步通道上的融合与交互,得到编码后特征。
对编码后特征进行解码,得到最终结果表示的步骤,即前述步骤2.3),如图5所示。对于2.2)中获得的边界增强的编码特征,利用变换解码器进行解析。变换解码器包含6个解码层。每个解码层包含一个多头自注意力层和一个多头注意力层和线性映射层。输入的查询量经过随机初始化放入多头自注意力层进行注意力强化,多头自注意力层将查询位置编码与查询量相加并进行自乘操作,计算得到每个时间节点的自注意力权重,获得一个新的查询特征表示,再利用一个残差结构增强并归一化原查询量。查询特征表示接着被送入多头注意力层,和编码器输出的特征进行相乘操作,以获得每个时间节点的注意力权重,结合权重和编码特征获得新的查询特征表示。查询特征表示经过线性映射层后,在残差结构中与当前特征相加并归一化。查询量和编码后特征通过变换解码器的6个解码层后,实现特征的解析,获得输出。
时序动作提名的生成与评和正负例标签分配策略,如图6所示。变换解码器输出的解析特征,被送入三个不同的前馈神经网络。定位前馈神经网络输出动作提名的起始时刻和结束时刻,完整性前馈神经网络输出完整度分数,分类前馈神经网络输出分类置信度分数。分配正负例标签策略采用松弛匹配策略,如图6中流程所示,对于一个样本,松弛匹配器判断其是否在匈牙利算法和损失函数主导的二分匹配中被分配为正样本,如果是则被分配正样本标签;此外判断该样本在和真实提名的重叠度中,是否大于特定阈值,如果是则也被分配为正样本。
3)训练阶段,本实例使用交叉熵、L1距离、交并比作为损失函数,使用AdamW优化器,设置批大小BatchSize为32,即每次训练在训练集中取32个样本训练,总的训练轮数设置为70,初始学习率为0.0001,在50轮处学习率除以10,在完整度训练时学习率除以100.衰减率设置为1e-4,在两块RTX2080ti GPU上训练。模型分为两个阶段训练,在第一阶段训练出了完整度分支外的所有参数,在第二阶段训练完整度分支。在分配正负样本阶段,模型采用了松弛匹配策略,维护正负样本比例,使模型能够稳定收敛。
4)测试阶段
测试集输入数据的预处理,同训练数据一样,在抽帧后进行中心裁剪为224*224,使用I3D网络进行高维双流特征提取,所使用的测试指标有AR@AN。AR@AN是定位指标,指在平均样本数量下平均召回率,其中召回值指预测正确的样本数占总真值数的比例。在THUMOS14数据集上,单个视频的预测样本数远小于经典工作BSN(Boundary-sensitiveNetworks),如图7所示,体现出模型在小预测量中高正确率的优势,而非通过大量预测来覆盖真值。在预测精度上,同之前工作相比较,在全部指标上获得巨大提升,在AR@50上,比BMN(Bounday Matching Networks)高出1.72个百分点,在AR@100上高出1.31个百分点,在AR@200上高出1.37个百分点,在AR@500上高出0.86个百分点,在该数据集的效果样例如图8所示。
本发明着力于一种直接生成动作提名的范式,无需锚点框、密集匹配以及非极大值抑制等模块。针对视频中特征缓慢、平滑的现象,本发明使用了边界增强的特征表示,使得变换解码器在时序自适应地调整特征表示时,能够提升变换解码器对于动作边界的辨别能力;针对视频中动作边界定义不清晰的情况,本发明提出了松弛匹配策略来帮助模型收敛;针对提名置信度不准确的问题,本发明提出了完整度FFN,以交并比IoU作为指标来指导动作提名的排序。RTD-Net首次将变换器应用于视频中动作提名的直接生成,设计了一个简单、整齐的框架,移除了手工设计的模块;RTD-Net提出了边界增强的特征表示、松弛匹配策略、三分支检测头设计,以解决空间目标检测和时序动作检测的本质差异;RTD-Net在THUMOS14和ActivityNet-1.3两个主流benchmark上的召回率和准确率指标上,都取得了state-of-the-art的结果。
Claims (6)
1.一种基于松弛变换解码器的直接时序动作检测方法,其特征是对视频数据结合动作起始点和结束点的概率以实现边界增强,并通过注意力机制自适应调整特征,实现时序动作检测,所述时序动作检测步骤包括生成训练特征阶段、网络配置阶段、训练阶段以及测试阶段:
1)生成训练特征阶段:使用基于ResNet-50的I3D网络对训练样例视频进行特征提取,对于每个视频,将视频图像序列Lf分为若干个长度为Ls帧的视频段,每段为由Ls帧图像组成图像序列Sf,将图像序列Sf送入I3D网络,经过预训练参数的卷积层和池化层,输出得到LD帧的双流特征,将不同视频段的双流特征按照时间顺序拼接起来,再经过一个池化层,得到整个视频D维的高维特征其中,视频段长度Ls的大小表示在全局上进行时间划分的细粒程度;
2)网络配置阶段:基于多层感知机编码器和变换解码器,建立时序动作检测模型RTD-Net,模型包括以下配置:
2.1)计算边界概率:首先使用时间分割网络TSN对步骤1)得到的图像序列Sf处理得到时序双流特征,再送入由三个卷积层组成的边界概率预测模块,计算得到每个时间节点作为动作起始点和动作结束点的概率,得到边界概率序列;
2.2)获得边界增强特征:对于1)中生成的高维特征和2.1)中计算出的边界概率序列,进行点乘操作,获得边界增强特征Fb,再将边界增强特征Fb送入多层感知机编码器得到编码特征Fenc,实现通道上的交互;
2.3)解析边界增强特征:对于2.2)中获得的边界增强特征的编码特征Fenc,利用变换解码器进行解析,变换解码器包含ND个解码层,每个解码层包含一个自注意力层、一个编码器-解码器注意力层和两个线性映射层,输入的特征依次经过自注意力层、编码器-解码器注意力层和堆叠的线性映射层后输出,边界增强特征通过堆叠的ND个解码层后,实现特征的解析;
2.4)时序动作提名的生成与评分:变换解码器输出的解析特征,送入三个不同的前馈神经网络:边界FFN、完整度FFN和分类FFN,三个前馈神经网络分别用于输出:动作提名的起始时刻和结束时刻、完整度分数以及置信度分数;
2.5)分配训练标签:采用松弛的训练标签匹配策略:首先,根据定义的匹配代价,匹配器利用匈牙利算法得到一组最优的one-to-one匹配,每个获得正标签的预测提名都能被分配到一个相应的实际提名,作为训练标签,其次,计算预测提名和实际提名的overlap,选取overlap大于Ot的预测提名,为其分配相应的实际提名作为标签;
2.6)时序动作提名的分类:生成一系列的时序提名后,通过以下两类方法进行提名分类:第一种是选取UntrimmedNet视频级别top1的分类得分,第二种是将提名送入P-GCN进行分类;
3)训练阶段:对配置的模型采用训练数据进行训练,使用交叉熵、L1距离、交并比作为损失函数,使用AdamW优化器,使用退火策略通过反向传播算法来更新网络参数,不断重复步骤1)和步骤2),直至达到迭代次数;
4)测试阶段:将待测试数据的视频特征序列输入到训练完成的RTD-Net模型中,生成动作提名,再利用2.6)中的两种方式,得到提名分类结果,实现时序动作检测。
3.根据权利要求1所述的一种基于松弛变换解码器的直接时序动作检测方法,其特征是步骤2)的网络配置中,卷积层由卷积操作、Batch Normalization操作和ReLU激活函数构成,编码器为多层感知机,解码器为变换解码器。
5.根据权利要求1所述的一种基于松弛变换解码器的直接时序动作检测方法,其特征是步骤2.3)中,ND取6,即变换解码器由6个解码层组成,每个解码层由一个8输出分支的自注意力层、一个8输出分支的编码器-解码器注意力层和两个线性映射层串联组成,特征解析的输入通道数分别为512、512、512、2048,特征解析的输出通道数分别为512、512、2048、512;解码层中,输入特征首先经过自注意力层,通过自乘操作计算不同时间位置特征的权重,调整特征表示,然后将8个输出分支的结果拼接;自注意力层的输出经过编码器-解码器注意力层,通过和编码器特征相乘,计算不同时间位置特征的权重,调整特征表示,然后将8个输出分支的结果拼接;编码器-解码器注意力层的输出最后通过两个线性映射层,实现通道间的交互;每一个解码层中,输入的特征从自注意力层、编码器-解码器注意力层和堆叠的线性映射层输出后,首先通过Dropout层,再和输入特征相加,最后进行层标准化操作,得到时序自适应调整的特征表示,通过6个变换解码层叠加,最终实现特征的解析。
6.根据权利要求1所述的一种基于松弛变换解码器的直接时序动作检测方法,其特征是结合2.4)的前馈神经网络FFN和2.5)的松弛匹配策略完成分类,边界FFN输出预测提名的起始位置和结束位置,分类FFN输出该提名为实际提名的置信度,即概率,如果概率较高,说明分类FFN认为该提名是预测正确的;如果概率较低,说明分类FFN认为该提名是预测错误的,这个时间段内没有动作发生;完整度FFN基于交并比指标来预测提名的完整度,再基于完整度对于提名进行排序,使得完整度较高的提名获得更高的排名。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110115997.5A CN114821379B (zh) | 2021-01-28 | 2021-01-28 | 一种基于松弛变换解码器的直接时序动作检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110115997.5A CN114821379B (zh) | 2021-01-28 | 2021-01-28 | 一种基于松弛变换解码器的直接时序动作检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114821379A true CN114821379A (zh) | 2022-07-29 |
CN114821379B CN114821379B (zh) | 2024-03-22 |
Family
ID=82524868
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110115997.5A Active CN114821379B (zh) | 2021-01-28 | 2021-01-28 | 一种基于松弛变换解码器的直接时序动作检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114821379B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116206131A (zh) * | 2023-03-16 | 2023-06-02 | 北京百度网讯科技有限公司 | 图像处理方法、深度学习模型的训练方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111209883A (zh) * | 2020-01-13 | 2020-05-29 | 南京大学 | 一种基于多源运动特征融合的时序自适应视频分类方法 |
US20210005183A1 (en) * | 2019-07-03 | 2021-01-07 | Qualcomm Incorporated | Orthogonally constrained multi-head attention for speech tasks |
-
2021
- 2021-01-28 CN CN202110115997.5A patent/CN114821379B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210005183A1 (en) * | 2019-07-03 | 2021-01-07 | Qualcomm Incorporated | Orthogonally constrained multi-head attention for speech tasks |
CN111209883A (zh) * | 2020-01-13 | 2020-05-29 | 南京大学 | 一种基于多源运动特征融合的时序自适应视频分类方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116206131A (zh) * | 2023-03-16 | 2023-06-02 | 北京百度网讯科技有限公司 | 图像处理方法、深度学习模型的训练方法及装置 |
CN116206131B (zh) * | 2023-03-16 | 2023-09-19 | 北京百度网讯科技有限公司 | 图像处理方法、深度学习模型的训练方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114821379B (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291183B (zh) | 利用文本分类模型进行分类预测的方法及装置 | |
US11043209B2 (en) | System and method for neural network orchestration | |
JP2022525702A (ja) | モデル公平性のためのシステムおよび方法 | |
US11270124B1 (en) | Temporal bottleneck attention architecture for video action recognition | |
KR102109369B1 (ko) | 시계열 데이터의 변화를 예측하고 그 이유를 설명하는 인공지능 시스템 | |
CN114757432A (zh) | 基于流程日志和多任务学习的未来执行活动及时间预测方法及系统 | |
US20230177384A1 (en) | Attention Bottlenecks for Multimodal Fusion | |
CN114494314A (zh) | 时序边界检测方法及时序感知器 | |
Wadekar et al. | Hybrid CAE-VAE for unsupervised anomaly detection in log file systems | |
CN116543351A (zh) | 一种基于时空串并联关系编码的自监督群体行为识别方法 | |
CN115994223A (zh) | 序列化多标签分类方法、装置、设备和介质 | |
CN114821379B (zh) | 一种基于松弛变换解码器的直接时序动作检测方法 | |
CN111027681A (zh) | 时序数据处理模型训练方法、数据处理方法、装置及存储介质 | |
CN116702835A (zh) | 神经网络推理加速方法、目标检测方法、设备及存储介质 | |
CN111553152B (zh) | 问题生成方法和装置及问题-文本对的生成方法和装置 | |
CN117115706A (zh) | 基于多尺度时空注意力网络的视频场景图生成方法 | |
CN117351392A (zh) | 一种视频异常行为检测的方法 | |
CN115761576A (zh) | 视频动作识别方法、装置及存储介质 | |
CN116029766A (zh) | 用户交易决策识别方法、激励策略优化方法、装置和设备 | |
CN115810351A (zh) | 一种基于视听融合的管制员语音识别方法及装置 | |
CN113781160B (zh) | 一种基于人工智能的商品推荐的方法 | |
CN115204295A (zh) | 基于自引导机制的对比学习序列的训练、推荐方法及装置 | |
CN114970882A (zh) | 适于多场景多任务的模型预测方法及模型系统 | |
CN114004992A (zh) | 多标签分类模型的训练方法、图像的多标签分类方法 | |
Gashnikov | Use of neural networks and decision trees in compression of 2D and 3D digital signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |