CN114821420B - 基于多时间分辨率时态语义聚合网络的时序动作定位方法 - Google Patents
基于多时间分辨率时态语义聚合网络的时序动作定位方法 Download PDFInfo
- Publication number
- CN114821420B CN114821420B CN202210448080.1A CN202210448080A CN114821420B CN 114821420 B CN114821420 B CN 114821420B CN 202210448080 A CN202210448080 A CN 202210448080A CN 114821420 B CN114821420 B CN 114821420B
- Authority
- CN
- China
- Prior art keywords
- time
- feature extraction
- unit
- extraction unit
- temporal semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002123 temporal effect Effects 0.000 title claims abstract description 68
- 230000009471 action Effects 0.000 title claims abstract description 64
- 230000002776 aggregation Effects 0.000 title claims abstract description 45
- 238000004220 aggregation Methods 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000000605 extraction Methods 0.000 claims description 62
- 230000004927 fusion Effects 0.000 claims description 32
- 238000005070 sampling Methods 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 claims description 10
- 238000012805 post-processing Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012644 addition polymerization Methods 0.000 description 7
- 230000033001 locomotion Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000005096 rolling process Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 241001076939 Artines Species 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多时间分辨率时态语义聚合网络的时序动作定位方法,包括:获取原始视频并进行预处理,预处理为从原始视频中提取特征序列并注释标签;复制特征序列为N'份,并通过卷积层将复制后的各特征序列的时间分辨率调整为不同值;建立多时间分辨率时态语义聚合网络;将时间分辨率调整后的各特征序列一一对应输入子模块,采用分类损失和回归损失训练多时间分辨率时态语义聚合网络;利用训练好的多时间分辨率时态语义聚合网络预测待识别视频的动作开始时间、动作结束时间、动作种类和置信分数。该方法可获得更灵活更具鲁棒性的上下文关系表达,并大大提高计算能力和时序动作定位的准确性。
Description
技术领域
本发明属于计算机视觉领域,具体涉及一种基于多时间分辨率时态语义聚合网络的时序动作定位方法。
背景技术
近年来,互联网上的多媒体正在迅速发展,导致每分钟共享的视频数量越来越多。为了应对信息爆炸,理解和分析这些视频是必要的,以便于用于各种目的,如搜索,推荐,排名等。视频理解旨在通过智能分析技术,自动化地对视频中的内容进行识别和解析,涉及生活的多个方面,已经发展成一个十分广阔的学术研究和产业应用方向,主要有动作识别和时序动作定位等基础领域。
在时序动作定位领域,视频往往没有被剪辑,时长较长,且动作通常只发生在视频中的一小段时间内,视频可能包含多个动作,也可能不包含动作,即为背景类。时序动作定位不仅要预测视频中包含了什么动作,还要预测动作的起始和终止时刻。现有方法证明,使用视频上下文来检测动作是有效的。上下文指的是不属于目标动作但携带有价值指示性信息的框架。现有技术一般仅使用时态上下文,缺点是往往携带的信息比较单一,或将语义上下文和时态上下文结合为基于图卷积网络的子图定位问题,但仍不能适应时间跨度变化较大的时序行为片段,生成的代码特性包含信息不够丰富多样,使得预测的候选时序区间边界不够灵活,时序边界不够精确。因此,如何更好的处理时间与语义信息以及如何处理大跨度时序行为片段是提升时序动作定位准确率的关键之一。
发明内容
本发明的目的在于针对上述问题,提出一种基于多时间分辨率时态语义聚合网络的时序动作定位方法,通过将时间与语义上下文结合到视频特征中,同时对每个时序点进行局部与全局的联合建模,得到更灵活更具鲁棒性的上下文关系表达,提高了时序动作定位的准确性。
为实现上述目的,本发明所采取的技术方案为:
本发明提出的基于多时间分辨率时态语义聚合网络的时序动作定位方法,包括如下步骤:
S1、获取原始视频并进行预处理,预处理为从原始视频中提取特征序列特征序列X携带有注释标签/>其中,时间分辨率T=S/σ,S为原始视频的总帧数,σ为不同片段xi之间间隔的帧数,C为片段xi的特征维度,kn为第n个动作,ts,n、te,n和Cn依次为第n个动作的开始时间、结束时间和动作种类,N为特征序列X的动作数量;
S2、复制特征序列X为N'份,并通过卷积层将复制后的各特征序列X的时间分辨率调整为不同值;
S3、建立多时间分辨率时态语义聚合网络,多时间分辨率时态语义聚合网络包括依次连接的第一特征提取单元、第二特征提取单元、第三特征提取单元和后处理模块,第一特征提取单元包括N'个并行的子模块,子模块包括依次连接的第一时态语义上下文融合模块和第一注意力单元,第二特征提取单元用于将各第一注意力单元的输出特征图进行相加聚合,第三特征提取单元包括依次连接的第二注意力单元、第七特征提取单元和第二时态语义上下文融合模块,其中:
各时态语义上下文融合模块,包括第四特征提取单元、以及并行的第一分支单元、第二分支单元和第三分支单元,第一分支单元用于输出对应时态语义上下文融合模块的原始输入特征图,第二分支单元包括依次连接的自注意力模块、第五特征提取单元和第一分组卷积单元,第五特征提取单元还与自注意力模块的输入端连接,用于进行相加聚合,第三分支单元包括依次连接的动态图卷积网络、第一Involution卷积层、第二Involution卷积层、第六特征提取单元、第一MobileNet网络、第二分组卷积单元和第二MobileNet网络,第六特征提取单元还与动态图卷积网络的输出端连接,用于进行相加聚合,第四特征提取单元用于将第一分支单元、第二分支单元和第三分支单元的输出特征图进行相加聚合;
各注意力单元基于八头注意力机制进行局部特征和全局特征提取;
第七特征提取单元用于将第二注意力单元的输出特征图与超参数1/N′进行相乘操作;
后处理模块包括依次连接的上采样模块、concat层和全连接层,上采样模块还与第二时态语义上下文融合模块的动态图卷积网络的输出端连接;
S4、将时间分辨率调整后的各特征序列X一一对应输入子模块,采用分类损失和回归损失训练多时间分辨率时态语义聚合网络;
S5、利用训练好的多时间分辨率时态语义聚合网络预测待识别视频的动作开始时间、动作结束时间、动作种类和置信分数。
优选地,步骤S2中,N′=3,调整后的各特征序列X的时间分辨率分别为T、T/2、256。
优选地,各分组卷积单元采用32条路径。
优选地,第五特征提取单元、第二Involution卷积层、第四特征提取单元的输出端均连接有Relu激活函数。
优选地,第五特征提取单元将80%的原始输入特征图和20%的自注意力模块的输出特征图进行相加聚合。
优选地,注意力单元分别采用四头注意力机制进行局部特征和全局特征提取。
优选地,分类损失Lc和回归损失Ln,计算公式如下:
Lc=Lwce(ps,dss)+Lwce(pe,dse)
Ln=Lwce(pcls,1{ψc>0.5})+ω1·Lmse(preg,ψc)
其中,Lmse为均方误差损失,Lwce为加权交叉熵损失,ps为每个片段对应的预测开始概率,pe为每个片段对应的预测结束概率,dss为每个片段对应的ps的训练目标,dse为每个片段对应的pe的训练目标,pcls为分类损失对应的得分,preg为回归损失对应的得分,ω1为权衡系数,ψc为最大的IoU。
与现有技术相比,本发明的有益效果为:
本发明通过将不同时间分辨率的特征序列进行融合获得含有信息更丰富的特征图,通过时态语义上下文融合模块,将时间上下文分配不同的注意力权重并与多层次语义结合到视频特征中,并针对视频中不同动作之间时间跨度差异大的问题,通过注意力单元对每个时序点结合局部和全局时序依赖关系,以得到更灵活更具鲁棒性的上下文关系表达,通过使用Involution卷积和MobileNet网络减少卷积核的冗余表达,大大提高计算能力和时序动作定位的准确性。
附图说明
图1为本发明的时序动作定位方法流程图;
图2为本发明的多时间分辨率时态语义聚合网络的结构示意图;
图3为本发明的时态语义上下文融合模块结构示意图;
图4为本发明的注意力单元结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本申请。
如图1-4所示,基于多时间分辨率时态语义聚合网络的时序动作定位方法,包括如下步骤:
S1、获取原始视频并进行预处理,预处理为从原始视频中提取特征序列特征序列X携带有注释标签/>其中,时间分辨率T=S/σ,S为原始视频的总帧数,σ为不同片段xi之间间隔的帧数,C为片段xi的特征维度,kn为第n个动作,ts,n、te,n和Cn依次为第n个动作的开始时间、结束时间和动作种类,N为特征序列X的动作数量。
S2、复制特征序列X为N′份,并通过卷积层将复制后的各特征序列X的时间分辨率调整为不同值。
在一实施例中,步骤S2中,N′=3,调整后的各特征序列X的时间分辨率分别为T、T/2、256。需要说明的是,特征序列X还可根据实际需求复制为任意数量,并可对应调整时间分辨率。
S3、建立多时间分辨率时态语义聚合网络,多时间分辨率时态语义聚合网络包括依次连接的第一特征提取单元、第二特征提取单元、第三特征提取单元和后处理模块,第一特征提取单元包括N′个并行的子模块,子模块包括依次连接的第一时态语义上下文融合模块和第一注意力单元,第二特征提取单元用于将各第一注意力单元的输出特征图进行相加聚合,第三特征提取单元包括依次连接的第二注意力单元、第七特征提取单元和第二时态语义上下文融合模块,其中∶
各时态语义上下文融合模块,包括第四特征提取单元、以及并行的第一分支单元、第二分支单元和第三分支单元,第一分支单元用于输出对应时态语义上下文融合模块的原始输入特征图,第二分支单元包括依次连接的自注意力模块、第五特征提取单元和第一分组卷积单元,第五特征提取单元还与自注意力模块的输入端连接,用于进行相加聚合,第三分支单元包括依次连接的动态图卷积网络、第一Involution卷积层、第二Involution卷积层、第六特征提取单元、第一MobileNet网络、第二分组卷积单元和第二MobileNet网络,第六特征提取单元还与动态图卷积网络的输出端连接,用于进行相加聚合,第四特征提取单元用于将第一分支单元、第二分支单元和第三分支单元的输出特征图进行相加聚合;
各注意力单元基于八头注意力机制进行局部特征和全局特征提取;
第七特征提取单元用于将所述第二注意力单元的输出特征图与超参数1/N′进行相乘操作;
后处理模块包括依次连接的上采样模块、concat层和全连接层,上采样模块还与第二时态语义上下文融合模块的动态图卷积网络的输出端连接。
在一实施例中,各分组卷积单元采用32条路径。
在一实施例中,第五特征提取单元、第二Involution卷积层、第四特征提取单元的输出端均连接有Relu激活函数。
在一实施例中,第五特征提取单元将80%的原始输入特征图和20%的自注意力模块的输出特征图进行相加聚合。
在一实施例中,注意力单元分别采用四头注意力机制进行局部特征和全局特征提取。
其中,多时间分辨率时态语义聚合网络的结构如图2所示,第一特征提取单元包括3个并行的子模块,各子模块包括依次连接的第一时态语义上下文融合模块(TSCF1)和第一注意力单元(LGAM1),第三特征提取单元包括依次连接的第二注意力单元(LGAM2)和第二时态语义上下文融合模块(TSCF2),各时态语义上下文融合模块的结构相同,如图3所示,各注意力单元的结构相同,如图4所示,注意力单元用于将输入数据同时进行局部(LocalProcess)和全局(GlocalProcess)的时序依赖关系捕获。后处理模块即PostProcess。
时态语义上下文融合模块包含第四特征提取单元、以及并行的第一分支单元、第二分支单元和第三分支单元,如图3所示,其中:
1)第一分支单元用于输出对应时态语义上下文融合模块的原始输入特征图(即固定流不做任何处理)。
2)第二分支单元(TProcess),通过自注意力模块加入自注意力机制,学习不同时间尺度的注意力权重。将对应时态语义上下文融合模块的输入特征图分三步进行处理。首先,选取时间步长t∈[1,T]内围绕中心元素xit的元素将其提取出来形成一个代表向量x′it,这种特征表示基于内核大小ks和膨胀率D,中心元素xit可根据实际需求选取,将内核大小ks设置为3,即可提取膨胀率D为2的t,t+2,t-2的局部元素,作为代表向量x′it。引入自注意力机制,时间步长t的注意力操作的输出如下所示:
S(xit)=γ(x′it)[softmax(α(xit)β(x′it))]T
其中,α(xit)=wαxit,β(x′it)=wβx′it,γ(x′it)=wγx′it,wα∈Rc×c,wβ∈Rc×c,wγ∈Rc ×c,softmax为softmax函数,T为转置操作。
将对应特征序列X中所有时间步长的输出串联得到ith块的输出A(xi),公式如下:
A(xi)=[S(xi1)T,S(xi2)T,...,S(xiT)T]。
其次,将80%的基础信息xi和20%的复杂信息A(xi)通过第五特征提取单元进行相加聚合输出E′t,公式如下:
E′t=0.2×A(xi)+0.8×xi
其中,xi是对应时态语义上下文融合模块的输入特征图。
最后,将E′t经过Relu激活函数和第一分组卷积单元输出最终数据Et,公式如下:
Et=Γ[ReLU(E′t)]r=32
其中,Γ为分组卷积,ReLU为Relu激活函数,r=32表示分组卷积中采用32条路径来提高转换的多样性。
3)第三分支单元(SProcess),根据动态图卷积(dynamic edge conv)定义动态聚合语义相似的片段,将对应时态语义上下文融合模块的输入特征图分三步进行处理。首先,以ith块为例:在此特征空间内,对于每个元素xi,通过KNN算法找到L个距离最近的元素并将它们按升序排列,得到:计算出L个特征后加入全连接层更新,最后用最大池化操作(max pool)将L个特征整合为xi的新特征Xs。
其中,代表元素xi的第k个最近邻居节点。
其次,将Xs依次经过第一Involution卷积层、第二Involution卷积层和激活函数并通过第六特征提取单元实现与原数据Xs的融合,第一Involution卷积层的输入端还可设有依次连接的两个二维卷积层。将融合后的数据经过第一MobileNet网络和第二分组卷积单元输出得到E′s。
最后,将E′s经过第二MobileNet网络输出得到最终数据Es,分组卷积中选择r=32条路径,并且在分组卷积前后使用MobileNet网络。公式如下:
E′s=Γ{M[ReLU(I(I(Xs))+Xs]}r=32
Es=M(E′s)
其中,Γ为分组卷积,ReLU为Relu激活函数,I代表Involution卷积,M代表MobileNet网络。其中,动态图卷积、Involution卷积和MobileNet网络均为现有技术,在此不再赘述。通过Involution卷积和MobileNet网络减少卷积核的冗余表达,减少计算量。
第四特征提取单元用于将三个分支单元对应的TProcess流、SProcess流和固定流聚合,并通过激活函数获得Y(X,M,W),公式如下:
Y(X,M,W)=ReLU(τ(X,MTProcess,WTProcess)+τ(X,MSProcess,WSProcess)+X)
其中,τ(X,MTProcess,WTProcess)为第二分支单元的输出特征图,τ(X,MSProcess,WSProcess)为第三分支单元的输出特征图,M={MTProcess,MSProcess},MTProcess为对应于Et的邻接矩阵,MSProcess为对应于Es的邻接矩阵,W={WTProcess,WSProcess},WTProcess为对应于Et的可训练权重,WSProcess为对应于Es的可训练权重,ReLU为非线性激励函数。
注意力单元通过八头自注意力机制,将输入数据同时进行局部和全局的时序依赖关系捕获。如图4所示,八头注意力机制,各分一半采用不同的查询矩阵、键矩阵和值矩阵分别处理输入数据代表局部上下文信息与全局上下文信息,得到输入x′i对应的输出x″i。注意力单元为本领域技术人员熟知的现有技术,在此不再赘述。通过设置不同的掩码信息赋予新的权重,标识数据中的关键特征,可通过训练优化让网络学到局部与全局中各自需要关注的区域,提高了时序特征的鲁棒性和多样性。
将经过三个第一注意力单元处理的数据融合,再次进入第二注意力单元并乘以超参数Q后进入第二时态语义上下文融合模块再次进行特征融合,超参数Q为1/N’。
后处理模块包括依次连接的上采样模块、concat层和全连接层,上采样模块还与第二时态语义上下文融合模块的动态图卷积网络的输出端连接。
其中,上采样模块基于线性插值进行上采样,将第二时态语义上下文融合模块输出的Y(X,M,W)和第二时态语义上下文融合模块的动态图卷积网络输出的Xs作为输入,进入后处理模块。对于Y(X,M,W)采样θ1得到各片段对应的特征对于Xs采样θ2得到各片段对应的特征/>θ1、θ2为对齐量。基于线性插值采样J点,最终分别对应输出 和/>
concat层将Y1和Y2连接后输入全连接层,计算它和正确标注动作(即步骤S1中的注释标签K)的IoU,并将最大的IoU作为训练目标ψc。IoU是一种测量在特定数据集中检测相应物体准确度的一个标准,为本领域技术人员熟知技术,在此不再赘述。
S4、将时间分辨率调整后的各特征序列X一一对应输入子模块,采用分类损失和回归损失训练多时间分辨率时态语义聚合网络。
在一实施例中,分类损失Lc和回归损失Ln,计算公式如下:
Lc=Lwce(ps,dss)+Lwce(pe,dse)
Ln=Lwce(pcls,1{ψc>0.5})+ω1·Lmse(preg,ψc)
其中,Lmse为均方误差损失,Lwce为加权交叉熵损失,ps为每个片段对应的预测开始概率,pe为每个片段对应的预测结束概率,dss为每个片段对应的ps的训练目标,dse为每个片段对应的pe的训练目标,pcls为分类损失对应的得分,preg为回归损失对应的得分,ω1为权衡系数,ψc为最大的IoU。pcls和preg由全连接层输出,分别使用分类损失和回归损失对多时间分辨率时态语义聚合网络进行训练以匹配ψc。
具体地,将第二注意力单元处理的数据乘以超参数1/3,经过第二时态语义上下文融合模块处理得到开始/结束概率(ps,pe),并使用(dss,dse)来表示每个片段的相应训练目标。最后,使用加权交叉熵损失Lwce来计算预测和目标之间的差异。利用均方误差损失Lmse和加权交叉熵损失Lwce,计算得到回归损失Ln,计算权重来平衡正负样本的比率,权衡系数ω1设置为10。
S5、利用训练好的多时间分辨率时态语义聚合网络预测待识别视频的动作开始时间、动作结束时间、动作种类和置信分数。
其中,如从待识别视频中提取M个片段Uε,利用训练好的多时间分辨率时态语义聚合网络对M个片段Uε进行预测,构造 其中,代表预测的动作开始时间和结束时间,/>代表预测动作种类,Pm代表预测置信分数,/>α为模型训练中搜索得到的Pm最高时对应的最优值。在α为最优值时,Pm置信分数越高,/>预测动作种类准确度越高。
通过在两个公共数据集上对本申请的多时间分辨率时态语义聚合网络进行实验验证。具体地,在公共数据集ActivityNet-1.3上,平均mAP为34.94%。在公共数据集HACS上,平均mAP达到28.46%,优于现有技术中的方法,验证了本申请能够提升时序动作定位的准确率。如表1、2所示,表中0.5、0.75、0.95代表mAP(Mean Average Precision)即所有标签的平均精确率,Avg.为平均值。MTSCANet即本申请所述方法,SCC、CDC、BSN、BMN、SSN和G-TAD为现有技术所述方法。
表1
表2
本发明通过将不同时间分辨率的特征序列进行融合获得含有信息更丰富的特征图,通过时态语义上下文融合模块,将时间上下文分配不同的注意力权重并与多层次语义结合到视频特征中,并针对视频中不同动作之间时间跨度差异大的问题,通过注意力单元对每个时序点结合局部和全局时序依赖关系,以得到更灵活更具鲁棒性的上下文关系表达,通过使用Involution卷积和MobileNet网络减少卷积核的冗余表达,大大提高计算能力和时序动作定位的准确性。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请描述较为具体和详细的实施例,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (7)
1.一种基于多时间分辨率时态语义聚合网络的时序动作定位方法,其特征在于:所述基于多时间分辨率时态语义聚合网络的时序动作定位方法包括如下步骤:
S1、获取原始视频并进行预处理,所述预处理为从原始视频中提取特征序列所述特征序列X携带有注释标签/> 其中,时间分辨率T=S/σ,S为原始视频的总帧数,σ为不同片段xi之间间隔的帧数,C为片段xi的特征维度,kn为第n个动作,ts,n、te,n和Cn依次为第n个动作的开始时间、结束时间和动作种类,N为特征序列X的动作数量;
S2、复制特征序列X为N'份,并通过卷积层将复制后的各特征序列X的时间分辨率调整为不同值;
S3、建立多时间分辨率时态语义聚合网络,所述多时间分辨率时态语义聚合网络包括依次连接的第一特征提取单元、第二特征提取单元、第三特征提取单元和后处理模块,所述第一特征提取单元包括N'个并行的子模块,所述子模块包括依次连接的第一时态语义上下文融合模块和第一注意力单元,所述第二特征提取单元用于将各所述第一注意力单元的输出特征图进行相加聚合,所述第三特征提取单元包括依次连接的第二注意力单元、第七特征提取单元和第二时态语义上下文融合模块,其中:
各所述时态语义上下文融合模块,包括第四特征提取单元、以及并行的第一分支单元、第二分支单元和第三分支单元,所述第一分支单元用于输出对应时态语义上下文融合模块的原始输入特征图,所述第二分支单元包括依次连接的自注意力模块、第五特征提取单元和第一分组卷积单元,所述第五特征提取单元还与所述自注意力模块的输入端连接,用于进行相加聚合,所述第三分支单元包括依次连接的动态图卷积网络、第一Involution卷积层、第二Involution卷积层、第六特征提取单元、第一MobileNet网络、第二分组卷积单元和第二MobileNet网络,所述第六特征提取单元还与所述动态图卷积网络的输出端连接,用于进行相加聚合,所述第四特征提取单元用于将所述第一分支单元、第二分支单元和第三分支单元的输出特征图进行相加聚合;
各所述注意力单元基于八头注意力机制进行局部特征和全局特征提取;
所述第七特征提取单元用于将所述第二注意力单元的输出特征图与超参数1/N'进行相乘操作;
所述后处理模块包括依次连接的上采样模块、concat层和全连接层,所述上采样模块还与所述第二时态语义上下文融合模块的动态图卷积网络的输出端连接;
S4、将时间分辨率调整后的各特征序列X一一对应输入所述子模块,采用分类损失和回归损失训练多时间分辨率时态语义聚合网络;
S5、利用训练好的多时间分辨率时态语义聚合网络预测待识别视频的动作开始时间、动作结束时间、动作种类和置信分数。
2.如权利要求1所述的基于多时间分辨率时态语义聚合网络的时序动作定位方法,其特征在于:步骤S2中,N'=3,调整后的各特征序列X的时间分辨率分别为T、T/2、256。
3.如权利要求1所述的基于多时间分辨率时态语义聚合网络的时序动作定位方法,其特征在于:各所述分组卷积单元采用32条路径。
4.如权利要求1所述的基于多时间分辨率时态语义聚合网络的时序动作定位方法,其特征在于:所述第五特征提取单元、第二Involution卷积层、第四特征提取单元的输出端均连接有Relu激活函数。
5.如权利要求1所述的基于多时间分辨率时态语义聚合网络的时序动作定位方法,其特征在于:所述第五特征提取单元将80%的原始输入特征图和20%的自注意力模块的输出特征图进行相加聚合。
6.如权利要求1所述的基于多时间分辨率时态语义聚合网络的时序动作定位方法,其特征在于:所述注意力单元分别采用四头注意力机制进行局部特征和全局特征提取。
7.如权利要求1所述的基于多时间分辨率时态语义聚合网络的时序动作定位方法,其特征在于:所述分类损失Lc和回归损失Ln,计算公式如下:
Lc=Lwce(ps,dss)+Lwce(pe,dse)
Ln=Lwce(pcls,1{ψc>0.5})+ω1·Lmse(preg,ψc)
其中,Lmse为均方误差损失,Lwce为加权交叉熵损失,ps为每个片段对应的预测开始概率,pe为每个片段对应的预测结束概率,dss为每个片段对应的ps的训练目标,dse为每个片段对应的pe的训练目标,pcls为分类损失对应的得分,preg为回归损失对应的得分,ω1为权衡系数,ψc为最大的IoU。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210448080.1A CN114821420B (zh) | 2022-04-26 | 2022-04-26 | 基于多时间分辨率时态语义聚合网络的时序动作定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210448080.1A CN114821420B (zh) | 2022-04-26 | 2022-04-26 | 基于多时间分辨率时态语义聚合网络的时序动作定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114821420A CN114821420A (zh) | 2022-07-29 |
CN114821420B true CN114821420B (zh) | 2023-07-25 |
Family
ID=82507620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210448080.1A Active CN114821420B (zh) | 2022-04-26 | 2022-04-26 | 基于多时间分辨率时态语义聚合网络的时序动作定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114821420B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115952064B (zh) * | 2023-03-16 | 2023-08-18 | 华南理工大学 | 一种面向分布式系统的多组件故障解释方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657260A (zh) * | 2021-08-16 | 2021-11-16 | 淮北师范大学 | 一种弱监督时序行为定位方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111739078B (zh) * | 2020-06-15 | 2022-11-18 | 大连理工大学 | 一种基于上下文注意力机制的单目无监督深度估计方法 |
CN113920581B (zh) * | 2021-09-29 | 2024-04-02 | 江西理工大学 | 一种时空卷积注意力网络用于视频中动作识别的方法 |
-
2022
- 2022-04-26 CN CN202210448080.1A patent/CN114821420B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657260A (zh) * | 2021-08-16 | 2021-11-16 | 淮北师范大学 | 一种弱监督时序行为定位方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114821420A (zh) | 2022-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
Tang et al. | DFFNet: An IoT-perceptive dual feature fusion network for general real-time semantic segmentation | |
CN113516012A (zh) | 一种基于多层级特征融合的行人重识别方法及系统 | |
CN110909673A (zh) | 一种基于自然语言描述的行人再识别方法 | |
CN109993100A (zh) | 基于深层特征聚类的人脸表情识别的实现方法 | |
CN114821420B (zh) | 基于多时间分辨率时态语义聚合网络的时序动作定位方法 | |
CN111723667A (zh) | 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置 | |
CN113378938A (zh) | 一种基于边Transformer图神经网络的小样本图像分类方法及系统 | |
CN114782752B (zh) | 基于自训练的小样本图像集成分类方法及装置 | |
CN108537342A (zh) | 一种基于邻居信息的网络表示学习方法及系统 | |
CN114463340A (zh) | 一种边缘信息引导的敏捷型遥感图像语义分割方法 | |
CN111259176B (zh) | 融合有监督信息的基于矩阵分解的跨模态哈希检索方法 | |
CN114202739A (zh) | 视频行人重识别的方法 | |
Jiang et al. | Confidence-enhanced mutual knowledge for uncertain segmentation | |
CN116704196B (zh) | 一种训练图像语义分割模型的方法 | |
Guo et al. | Protein ensemble learning with atrous spatial pyramid networks for secondary structure prediction | |
CN112529057A (zh) | 一种基于图卷积网络的图相似性计算方法及装置 | |
CN111898756A (zh) | 一种多目标信息关联神经网络损失函数计算方法及装置 | |
Zhang et al. | Fast 3D-graph convolutional networks for skeleton-based action recognition | |
Hao et al. | Architecture self-attention mechanism: Nonlinear optimization for neural architecture search | |
CN110674265A (zh) | 面向非结构化信息的特征判别与信息推荐系统 | |
CN117612071B (zh) | 一种基于迁移学习的视频动作识别方法 | |
CN113111205B (zh) | 基于元滤波核的图像特征动态对齐方法及装置 | |
Yang et al. | Deeply Supervised Block-Wise Neural Architecture Search | |
CN115080705B (zh) | 基于双模型增强的垂直领域关系抽取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |