CN114764899A - 基于transformer第一视角下的下一个交互物体预测方法 - Google Patents
基于transformer第一视角下的下一个交互物体预测方法 Download PDFInfo
- Publication number
- CN114764899A CN114764899A CN202210379370.5A CN202210379370A CN114764899A CN 114764899 A CN114764899 A CN 114764899A CN 202210379370 A CN202210379370 A CN 202210379370A CN 114764899 A CN114764899 A CN 114764899A
- Authority
- CN
- China
- Prior art keywords
- video
- interactive object
- network
- predicted
- transform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 133
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000000007 visual effect Effects 0.000 title claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 37
- 238000011176 pooling Methods 0.000 claims abstract description 12
- 230000008569 process Effects 0.000 claims abstract description 4
- 238000000605 extraction Methods 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 6
- 238000009499 grossing Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 3
- 239000012634 fragment Substances 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 230000006399 behavior Effects 0.000 description 9
- 230000009471 action Effects 0.000 description 7
- 230000007613 environmental effect Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于transformer第一视角下的下一个交互物体预测方法,该方法的步骤包括:使用slowfast网络在第一视角视频上对当前视频片段的交互物体进行识别训练,提取已观察视频特征并进行标准化;将待预测视频特征初始化为可训练的参数;将已观察视频特征与待预测视频特征进行拼接;将拼接后特征作为transformer网络输入,分类已观察视频和待预测视频的所有交互物体,达到对下一个交互物体预测的粗分类;将通过transformer网络后的待预测视频特征进行时间最大值池化;池化后的待预测视频特征经过全连接层得到下一个交互物体的预测。本发明解决在预测下一个交互物体的时候忽视预测间隔特征的问题,使得下一个交互物体预测的性能得到提高。
Description
技术领域
本发明涉及视频处理与识别技术领域,具体涉及一种基于transformer第一视角下的下一个交互物体预测方法。
背景技术
第一视角视频是通过头戴式摄像机以人眼的视角捕捉的视频。交互物体是指人在发生动作时候,施加动作的对象物体,即人与物体交互。在第一视角视频下,对于交互物体的识别对于第一视角视频下的行为识别的性能具有显著影响。行为识别是指识别出当前的动作,行为预期指识别未来的动作。在第一视角视频下,行为预期任务相比起行为识别问题难度更大,也更有意义。因为第一视角下的视频的行为预期可以反应出人的意图,使得机器能够学习出人的意图,变得更加智能。与行为识别相同,下一个交互物体识别的性能也显著影响着行为预期任务。
在第一视角视频下下一个交互物体预测问题已经有相关的研究。Furnari等人2017年在JVCI期刊和Jiang等人2021年在Neurocomputing期刊提出了下一个交互物体预测的方法。但是他们的方法都需要额外的标注,比如物体检测框标注和手部框的标注,在实际应用场景中不一定能够获得这些额外的标注。在没有额外标注,只有交互物体类别作为标签的情况下,如何有效的预测下一个交互物体成为一个困难和挑战。而在第一视角的行为预期的研究上,研究主要是针对动作进行预测,并通过动作分解出动词和名词,使用名词来指代交互物体,这类方法忽视了对交互物体的预测。并且现有的研究方法只考虑已观察视频的特征并没有考虑到预测间隔的信息对下一个交互物体预测的影响。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供一种基于transformer第一视角下的下一个交互物体预测方法,本发明将需要预测视频的特征(包括预测间隔的特征和下一个交互物体的特征)初始化为可训练的参数并与已观察视频的特征拼接作为transformer网络的输入,识别视频下的所有交互物体,通过transformer网络来获取已观察视频的特征和需要预测视频的特征之间的关系,因此本发明不仅考虑到已观察视频的特征,也考虑到预测间隔视频的特征,为了进一步利用下一个交互物体发生动作前预测间隔的特征,本发明将通过transformer网络的需要预测视频的特征进行池化,并通过分类器细化对下一个交互物体的预测,在模型效果上取得进一步提升。
本发明的第二目的在于提供一种基于transformer第一视角下的下一个交互物体预测系统。
本发明的第三目的在于提供一种存储介质。
本发明的第四目的在于提供一种计算设备。
为了达到上述目的,本发明采用以下技术方案:
本发明提供一种基于transformer第一视角下的下一个交互物体预测方法,包括下述步骤:
采用slowfast网络作为特征提取网络,在第一视角视频上对当前视频片段的交互物体进行识别训练,以识别交互物体;
将训练后的slowfast网络用于已观察视频帧的特征提取;
将提取的已观察视频的特征进行标准化;
用可训练的参数初始化待预测视频的特征;
将已观察视频的特征和待预测视频的特征进行拼接;
预处理交互物体的标签;
将拼接后的特征作为transformer网络和全连接分类网络的输入,对已观察和待预测的视频上的所有交互物体进行识别,使用交叉熵损失函数进行训练;
提取出通过transformer网络之后、全连接分类网络之前待预测的视频的特征;
将提取出的全连接网络之前待预测视频的特征进行池化,通过另一个全连接分类网络对下一个交互物体进行预测。
作为优选的技术方案,所述采用slowfast网络作为特征提取网络,在第一视角视频上对当前视频片段的交互物体进行识别训练,以识别交互物体,具体步骤包括:
slowfast网络在Kinetics-400进行预训练,并使用预训练参数初始化slowfast网络;
在视频片段上随机选取视频帧作为slowfast网络的输入,在随机选取的视频帧上等间隔采样不同帧数的视频帧,分别作为fast通道和slow通道的输入;
对输入数据进行数据增强;
构建交叉熵损失函数,采用交叉熵损失函数对slowfast的预测结果交互物体的标签进行损失计算和梯度计算,并通过反向传播更新基准网络;
采用端到端的训练方式训练slowfast网络,设置初始学习率,在迭代训练过程中使用学习率下降策略,达到预设的迭代次数后,保存模型训练参数文件。
作为优选的技术方案,所述slowfast网络设有slow通道和fast通道,slow通道采用3D ResNet101作为基准网络,fast通道采用3D ResNet50作为基准网络。
作为优选的技术方案,所述将训练后的slowfast网络用于已观察视频帧的特征提取,具体步骤包括:
slowfast网络加载在第一视角视频上对当前视频片段的交互物体进行识别训练的参数,作为特征提取网络的初始化;
对于每一个交互物体的预测,从交互物体开始的时间的前σa到σa+σo秒提取特征,σa为预测间隔时间,σo为观察时间;
以观察时间为中心提取多帧视频片段作为slowfast网络的输入,以提取特征;
使用slowfast网络进行特征提取时,移除最后的全连层,对于每一个交互物体的预测,已观察视频最终提取出的特征大小为N×C,其中,N为片段数量,C为通道大小。
作为优选的技术方案,所述用可训练的参数初始化待预测视频的特征,具体步骤包括:
Fas=Concat(Fa,Fs)
其中,Fa表示预测间隔部分的特征,Fs表示为下一个交互物体的特征,Fas为拼接后的特征,Concat表示为特征拼接;
待预测视频的特征分为预测间隔部分和下一个交互物体交互部分,设为一组可训练参数。
作为优选的技术方案,所述预处理交互物体的标签,具体步骤包括:
伪标签的生成:在第一人称的视频片段中,如果有片段没有标注交互物体标签,如果此片段与某一有标注物体标签的片段重叠,则把此片段的标签设为与其有重叠且有标签的片段的标签;
如果没有任何一个有标签的片段与其重叠,则将此片段的交互物体标签设置为与其距离最近的有标签的视频片段的交互物体标签;
进行标签平滑处理,具体表示为:
其中,y为one-hot标签,α为平滑参数,K代表标签的数量。
作为优选的技术方案,所述将提取出的全连接网络之前待预测视频的特征进行池化,通过另一个全连接分类网络对下一个交互物体进行预测,具体计算公式为:
yp=MLP(Maxpool(Fas))
其中,yp表示预测的结果,MLP表示全连接层,Maxpool表示时间最大值池化,Fas表示通过transformer网络的需要预测视频的特征。
为了达到上述第二目的,本发明采用以下技术方案:
一种基于transformer第一视角下的下一个交互物体预测系统,包括:特征提取网络构建模块、已观察视频帧特征提取模块、待预测视频特征初始化模块、视频特征拼接模块、标签预处理模块、交互物体识别模块、待预测视频特征提取模块和下一个交互物体预测模块;
所述特征提取网络构建模块用于采用slowfast网络作为特征提取网络,在第一视角视频上对当前视频片段的交互物体进行识别训练,以识别交互物体;
所述已观察视频帧特征提取模块用于采用训练后的slowfast网络提取已观察视频帧的特征;
所述待预测视频特征初始化模块用于使用一组可训练的参数取表示待预测视频的特征;
所述视频特征拼接模块用于将可观察视频和待预测视频的特征在时间维度上进行拼接;
所述标签预处理模块用于预处理交互物体的标签;
所述交互物体识别模块用于将拼接后的特征作为transformer网络和全连接分类网络的输入,对已观察和待预测的视频上的所有交互物体进行识别,使用交叉熵损失函数进行训练;
所述待预测视频特征提取模块用于提取出通过transformer网络之后、全连接分类网络之前待预测的视频的特征;
所述下一个交互物体预测模块用于将提取出的全连接网络之前待预测视频的特征进行池化,通过另一个全连接分类网络对下一个交互物体进行预测。
为了达到上述第三目的,本发明采用以下技术方案:
一种计算机可读存储介质,存储有程序,所述程序被处理器执行时实现上述基于transformer第一视角下的下一个交互物体预测方法。
为了达到上述第四目的,本发明采用以下技术方案:
一种计算设备,包括处理器和用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述基于transformer第一视角下的下一个交互物体预测方法。
本发明与现有技术相比,具有如下优点和有益效果:
本发明不仅考虑到已观察视频的特征,还考虑到预测间隔的环境信息对下一个交互物体预测的影响,将需要预测视频的特征设为一组可训练的参数,并通过transformer学习它们和已观察视频特征的关系,最后通过最大值池化需要预测视频的特征来细化对下一个交互物体的预测,这种方案解决了当前技术中各支路仅仅考虑已观察视频的信息来预测下一个交互物体,而忽略预测间隔信息的问题,并且在Epic-kitchens公开数据集上提升3.2%的效果,验证了该解决方案的有效性,证明考虑到预测间隔视频的环境信息的重要性。
附图说明
图1为本发明基于transformer第一视角下的下一个交互物体预测方法的流程示意图;
图2为本发明基于transformer第一视角下的下一个交互物体预测方法的整体框架示意图;
图3为本发明基于transformer第一视角下的下一个交互物体预测方法的baseline的框架图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
如图1、图2所示本发明提供一种基于transformer第一视角下的下一个交互物体预测方法,包括下述步骤:
S1:采用在Kinetics-400预训练的slowfast网络作为特征提取网络,在第一视角视频上对当前视频片段的交互物体进行识别训练,以识别交互物体;
在本实施例中,slowfast网络结构包括slow通道和fast通道,slow通道采用3DResNet101作为基准网络,fast通道采用3D ResNet50作为基准网络。
具体步骤为:
由于第一视角的视频数据的大小远小于第三视角视频的数据的大小,从头开始学习模型是有难度的,因此借鉴迁移学习的方法,slowfast网络先在Kinetics-400进行预训练,并将训练得到的参数初始化slowfast网络,而slowfast的分类器采用随机初始化;
在60fps的视频片段上随机选取128帧作为slowfast网络的输入,其中fast通道的输入为在128帧的视频等间隔采样64帧,slow通道的输入在128帧的视频等间隔采样16帧;
对输入数据进行数据增强,包括在将图像随机缩放到224-288的大小;图像中随机剪裁224x224的部分图像作为网络的输入;以0.5的概率随机翻转,以0.5的概率随机丢弃神经元;
构建交叉熵损失函数,采用交叉熵损失函数对slowfast的预测结果交互物体的标签进行损失计算和梯度计算,并通过反向传播更新基准网络;
slowfast的训练方法采用端到端的训练方式,设置初始学习率,在迭代训练过程中使用学习率下降策略,迭代训练30轮后,保存模型训练参数文件。
S2:将训练过的slowfast用于已观察视频帧的特征提取;
在本实施例中,slowfast网络加载在第一视角视频上对当前视频片段的交互物体进行识别训练的参数,作为特征提取网络的初始化;
对于每一个交互物体的预测,从交互物体开始的时间的前σa到σa+σo秒提取特征,其中σa为预测间隔通常为1秒,σo为观察时间,在本发明中将σo固定为6秒;
可观察视频的输入片段为9个,分别从σo=1s,1.5s,2s,2.5s,3s,3.5s,4s,4.5,5s为中心提取128帧的视频片段作为slowfast网络的输入,以提取特征;
在进行特征提取的时候,直接输入整张图像,不进行任何裁剪;
使用slowfast网络进行特征提取时,移除最后的全连层,对于每一个交互物体的预测,已观察视频最终提取出的特征大小为N×C,其中N为片段数量,在本实施例优选为9,C为通道大小,本实施例优选为2304。
S3:将提取的已观察视频的特征进行标准化,将已观察的视频的特征减去均值,除以方差;
S4:用可训练的参数初始化需要预测视频(包括预测间隔和下一个交互物体的视频)的特征;
在本实施例中,可表示为:
Fas=Concat(Fa,Fs)
需要预测视频可以分为预测间隔部分和下一个交互物体交互部分,设为一组可训练参数。其中Fa表示预测间隔部分的特征,大小为Na×C,Fs表示为下一个交互物体的特征,大小为Ns×C,Fas为拼接后的特征,大小为(Na+Ns)×C,Concat表示为特征拼接。
S5:将已观察视频的特征和待预测视频的特征进行拼接;
在本实施例中,具体可表示为:
Foas=Concat(Fo,Fas)
其中Fo表示已观察视频的特征,大小为No×C,Fas表示为需要预测视频的特征,大小为Nas×C,Fo为拼接后的特征,大小为(No+Nas)×C,Concat表示为特征拼接。
S6:预处理交互物体的标签;
S61:伪标签的生成:在第一人称的视频片段中,如果有片段没有标注交互物体标签,如果此片段与某一有标注物体标签的片段重叠,则把此片段的标签设为与其有重叠且有标签的片段的标签。如果没有任何一个有标签的片段与其重叠,则将此片段的交互物体标签设置为与其距离最近的有标签的视频片段的交互物体标签;
S62:Label Smoothing(标签平滑),软化标签的分布,降低正确标签的置信度,并提高其余标签的置信度,具体可以表示为:
其中y为one-hot标签,α为平滑参数,范围在0-1之间,在本实施例设置为0.4。K代表标签的数量。
S7:将拼接后的特征作为transformer网络和全连接分类网络的输入,对已观察和需要预测的视频上的所有交互物体进行识别,使用交叉熵损失函数进行训练;
如图2所示,transformer网络由两个transformer模块串联,其中每一个transformer模块由layer norm、mulit-head attention、layer norm和mlp串联,并添加两个shortcut连接;
在本实施例中,采用交叉熵损失函数进行训练,可表示为:
S8:提取出通过transformer网络后,全连接分类网络前时需要预测的视频的特征;
S9:将提取出的全连接网络之前需要预测视频的特征进行时间最大值池化,通过另一个全连接分类网络对下一个交互物体进行预测;
如图2所示,具体可表示为:
yp=MLP(Maxpool(Fas))
其中yp代表预测的结果,MLP代表全连接层,Maxpool代表时间最大值池化,Fas为通过transformer网络的需要预测视频的特征。
在本实施例中,使用交叉熵损失,可表示为:
Lnext=-yTkogyp
网络采用总交叉熵损失函数进行损失计算和梯度计算,具体设置平衡参数,用于调节Lnext与Lcls的比重,具体表示为:
Ltotal=αLcls+βLnext
其中,α,β为超参数,在本实施例中α=β=0.5;
网络的具体的训练为:采用adamW优化器对网络进行参数更新,批尺寸固定为128,初始学习率设置为1e-4,总共训练20个epoch,采用余弦退火策略使得学习率下降到20epoch的时候学习率为零。
为了验证本发明的有效性,在第一视角下的视频Epic-kitchens数据集上进行了实验,标签为名词noun,即交互物体,采用class-mean recall@5的衡量标准,其计算方法为:首先得到所有样本每一类的confidence score,再对confidence score进行排序,针对标签中每一类计算出Top-5recall,最后对所有类的Top-5recall取平均得到class-meanrecall@5。
本发明对比实验结果如下表1所示,表1中,第一栏为基础transformer模型,即如图3所示;第二栏为使用本发明考虑预测间隔的环境信息之后的模型,结合图2所示,可以看到本发明的方法对比基础模型有明显提升。
表1性能对比表
Method | class-mean recall@5(noun) |
Baseline | 30.1 |
Baseline+本发明 | 33.3 |
如下表2所示,本发明与当前最好效果的已发表方法在Epic-kitchens上的结果进行对比,由此证明本发明的算法的有效性。
表2本发明与其它方法在Epic-kitchens上的对比数据表
实施例2
本实施例提供一种基于transformer第一视角下的下一个交互物体预测系统,包括:特征提取网络构建模块、已观察视频帧特征提取模块、待预测视频特征初始化模块、视频特征拼接模块、标签预处理模块、交互物体识别模块、待预测视频特征提取模块和下一个交互物体预测模块;
在本实施例中,特征提取网络构建模块用于采用slowfast网络作为特征提取网络,在第一视角视频上对当前视频片段的交互物体进行识别训练,以识别交互物体;
在本实施例中,已观察视频帧特征提取模块用于采用训练后的slowfast网络提取已观察视频帧的特征;
在本实施例中,待预测视频特征初始化模块用于使用一组可训练的参数取表示待预测视频的特征;
在本实施例中,视频特征拼接模块用于将可观察视频和待预测视频的特征在时间维度上进行拼接;
在本实施例中,标签预处理模块用于预处理交互物体的标签;
在本实施例中,交互物体识别模块用于将拼接后的特征作为transformer网络和全连接分类网络的输入,对已观察和待预测的视频上的所有交互物体进行识别,使用交叉熵损失函数进行训练;
在本实施例中,待预测视频特征提取模块用于提取出通过transformer网络之后、全连接分类网络之前待预测的视频的特征;
在本实施例中,下一个交互物体预测模块用于将提取出的全连接网络之前待预测视频的特征进行池化,通过另一个全连接分类网络对下一个交互物体进行预测。
实施例3
本实施例提供一种存储介质,存储介质可以是ROM、RAM、磁盘、光盘等储存介质,该存储介质存储有一个或多个程序,程序被处理器执行时,实现实施例1的基于transformer第一视角下的下一个交互物体预测方法。
实施例4
本实施例提供一种计算设备,该计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑或其他具有显示功能的终端设备,该计算设备包括处理器和存储器,存储器存储有一个或多个程序,处理器执行存储器存储的程序时,实现实施例1的基于transformer第一视角下的下一个交互物体预测方法。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一种基于transformer第一视角下的下一个交互物体预测方法,其特征在于,包括下述步骤:
采用slowfast网络作为特征提取网络,在第一视角视频上对当前视频片段的交互物体进行识别训练,以识别交互物体;
将训练后的slowfast网络用于已观察视频帧的特征提取;
将提取的已观察视频的特征进行标准化;
用可训练的参数初始化待预测视频的特征;
将已观察视频的特征和待预测视频的特征进行拼接;
预处理交互物体的标签;
将拼接后的特征作为transformer网络和全连接分类网络的输入,对已观察和待预测的视频上的所有交互物体进行识别,使用交叉熵损失函数进行训练;
提取出通过transformer网络之后、全连接分类网络之前待预测的视频的特征;
将提取出的全连接网络之前待预测视频的特征进行池化,通过另一个全连接分类网络对下一个交互物体进行预测。
2.根据权利要求1所述的基于transformer第一视角下的下一个交互物体预测方法,其特征在于,所述采用slowfast网络作为特征提取网络,在第一视角视频上对当前视频片段的交互物体进行识别训练,以识别交互物体,具体步骤包括:
slowfast网络在Kinetics-400进行预训练,并使用预训练参数初始化slowfast网络;
在视频片段上随机选取视频帧作为slowfast网络的输入,在随机选取的视频帧上等间隔采样不同帧数的视频帧,分别作为fast通道和slow通道的输入;
对输入数据进行数据增强;
构建交叉熵损失函数,采用交叉熵损失函数对slowfast的预测结果交互物体的标签进行损失计算和梯度计算,并通过反向传播更新基准网络;
采用端到端的训练方式训练slowfast网络,设置初始学习率,在迭代训练过程中使用学习率下降策略,达到预设的迭代次数后,保存模型训练参数文件。
3.根据权利要求1或2所述的基于transformer第一视角下的下一个交互物体预测方法,其特征在于,所述slowfast网络设有slow通道和fast通道,slow通道采用3D ResNet101作为基准网络,fast通道采用3D ResNet50作为基准网络。
4.根据权利要求1所述的基于transformer第一视角下的下一个交互物体预测方法,其特征在于,所述将训练后的slowfast网络用于已观察视频帧的特征提取,具体步骤包括:
slowfast网络加载在第一视角视频上对当前视频片段的交互物体进行识别训练的参数,作为特征提取网络的初始化;
对于每一个交互物体的预测,从交互物体开始的时间的前σa到σa+σo秒提取特征,σa为预测间隔时间,σo为观察时间;
以观察时间为中心提取多帧视频片段作为slowfast网络的输入,以提取特征;
使用slowfast网络进行特征提取时,移除最后的全连层,对于每一个交互物体的预测,已观察视频最终提取出的特征大小为N×C,其中,N为片段数量,C为通道大小。
5.根据权利要求1所述的基于transformer第一视角下的下一个交互物体预测方法,其特征在于,所述用可训练的参数初始化待预测视频的特征,具体步骤包括:
Fas=Concat(Fa,Fs)
其中,Fa表示预测间隔部分的特征,Fs表示为下一个交互物体的特征,Fas为拼接后的特征,Concat表示为特征拼接;
待预测视频的特征分为预测间隔部分和下一个交互物体交互部分,设为一组可训练参数。
7.根据权利要求1所述的基于transformer第一视角下的下一个交互物体预测方法,其特征在于,所述将提取出的全连接网络之前待预测视频的特征进行池化,通过另一个全连接分类网络对下一个交互物体进行预测,具体计算公式为:
YP=MLP(Maxpo01(Fas))
其中,yp表示预测的结果,MLP表示全连接层,Maxpool表示时间最大值池化,Fas表示通过transformer网络的需要预测视频的特征。
8.一种基于transformer第一视角下的下一个交互物体预测系统,其特征在于,包括:特征提取网络构建模块、已观察视频帧特征提取模块、待预测视频特征初始化模块、视频特征拼接模块、标签预处理模块、交互物体识别模块、待预测视频特征提取模块和下一个交互物体预测模块;
所述特征提取网络构建模块用于采用slowfast网络作为特征提取网络,在第一视角视频上对当前视频片段的交互物体进行识别训练,以识别交互物体;
所述已观察视频帧特征提取模块用于采用训练后的slowfast网络提取已观察视频帧的特征;
所述待预测视频特征初始化模块用于使用一组可训练的参数取表示待预测视频的特征;
所述视频特征拼接模块用于将可观察视频和待预测视频的特征在时间维度上进行拼接;
所述标签预处理模块用于预处理交互物体的标签;
所述交互物体识别模块用于将拼接后的特征作为transformer网络和全连接分类网络的输入,对已观察和待预测的视频上的所有交互物体进行识别,使用交叉熵损失函数进行训练;
所述待预测视频特征提取模块用于提取出通过transformer网络之后、全连接分类网络之前待预测的视频的特征;
所述下一个交互物体预测模块用于将提取出的全连接网络之前待预测视频的特征进行池化,通过另一个全连接分类网络对下一个交互物体进行预测。
9.一种计算机可读存储介质,存储有程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7任一项所述基于transformer第一视角下的下一个交互物体预测方法。
10.一种计算设备,包括处理器和用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现如权利要求1-7任一项所述基于transformer第一视角下的下一个交互物体预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210379370.5A CN114764899B (zh) | 2022-04-12 | 2022-04-12 | 基于transformer第一视角下的下一个交互物体预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210379370.5A CN114764899B (zh) | 2022-04-12 | 2022-04-12 | 基于transformer第一视角下的下一个交互物体预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114764899A true CN114764899A (zh) | 2022-07-19 |
CN114764899B CN114764899B (zh) | 2024-03-22 |
Family
ID=82364548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210379370.5A Active CN114764899B (zh) | 2022-04-12 | 2022-04-12 | 基于transformer第一视角下的下一个交互物体预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114764899B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018137357A1 (zh) * | 2017-01-24 | 2018-08-02 | 北京大学 | 一种目标检测性能优化的方法 |
CN111523421A (zh) * | 2020-04-14 | 2020-08-11 | 上海交通大学 | 基于深度学习融合各种交互信息的多人行为检测方法及系统 |
CN112668492A (zh) * | 2020-12-30 | 2021-04-16 | 中山大学 | 一种自监督学习与骨骼信息的行为识别方法 |
WO2021139309A1 (zh) * | 2020-07-31 | 2021-07-15 | 平安科技(深圳)有限公司 | 人脸识别模型的训练方法、装置、设备及存储介质 |
CN113837083A (zh) * | 2021-09-24 | 2021-12-24 | 焦点科技股份有限公司 | 一种基于Transformer的视频片段分割方法 |
-
2022
- 2022-04-12 CN CN202210379370.5A patent/CN114764899B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018137357A1 (zh) * | 2017-01-24 | 2018-08-02 | 北京大学 | 一种目标检测性能优化的方法 |
CN111523421A (zh) * | 2020-04-14 | 2020-08-11 | 上海交通大学 | 基于深度学习融合各种交互信息的多人行为检测方法及系统 |
WO2021139309A1 (zh) * | 2020-07-31 | 2021-07-15 | 平安科技(深圳)有限公司 | 人脸识别模型的训练方法、装置、设备及存储介质 |
CN112668492A (zh) * | 2020-12-30 | 2021-04-16 | 中山大学 | 一种自监督学习与骨骼信息的行为识别方法 |
CN113837083A (zh) * | 2021-09-24 | 2021-12-24 | 焦点科技股份有限公司 | 一种基于Transformer的视频片段分割方法 |
Non-Patent Citations (1)
Title |
---|
张勋;陈亮;胡诚;孙韶媛;: "一种基于深度学习的静态手势实时识别方法", 现代计算机(专业版), no. 34, 5 December 2017 (2017-12-05), pages 8 - 13 * |
Also Published As
Publication number | Publication date |
---|---|
CN114764899B (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Du et al. | Pp-ocr: A practical ultra lightweight ocr system | |
CN109858555B (zh) | 基于图像的数据处理方法、装置、设备及可读存储介质 | |
CN113158815B (zh) | 一种无监督行人重识别方法、系统及计算机可读介质 | |
CN116186317B (zh) | 一种基于跨模态交叉指导的图文检索方法及系统 | |
CN113344206A (zh) | 融合通道与关系特征学习的知识蒸馏方法、装置及设备 | |
Koumparoulis et al. | Exploring ROI size in deep learning based lipreading. | |
CN115147935B (zh) | 一种基于关节点的行为识别方法、电子设备及存储介质 | |
CN113255557A (zh) | 一种基于深度学习的视频人群情绪分析方法及系统 | |
CN114943937A (zh) | 行人重识别方法、装置、存储介质及电子设备 | |
CN113076905B (zh) | 一种基于上下文交互关系的情绪识别方法 | |
CN114333062A (zh) | 基于异构双网络和特征一致性的行人重识别模型训练方法 | |
Zhou et al. | A multi-view face recognition system based on cascade face detector and improved Dlib | |
CN111814653B (zh) | 一种视频中异常行为的检测方法、装置、设备及存储介质 | |
CN110135363B (zh) | 基于判别词典嵌入行人图像检索方法、系统、设备及介质 | |
CN114764899B (zh) | 基于transformer第一视角下的下一个交互物体预测方法 | |
CN114612961B (zh) | 一种多源跨域表情识别方法、装置及存储介质 | |
US20230409899A1 (en) | Computer vision neural networks with learned tokenization | |
CN115984699A (zh) | 基于深度学习的违规广告牌检测方法、装置、设备及介质 | |
CN115116117A (zh) | 一种基于多模态融合网络的学习投入度数据的获取方法 | |
CN115222047A (zh) | 一种模型训练方法、装置、设备及存储介质 | |
CN114663910A (zh) | 基于多模态学习状态分析系统 | |
Liao et al. | A bird species detection method based on YOLO-v5 | |
CN112070744A (zh) | 一种人脸识别的方法、系统、设备及可读存储介质 | |
Naqvi et al. | Advancements in Facial Expression-Based Automatic Emotion Identification Using Deep Learning | |
CN112580395A (zh) | 基于深度信息的3d人脸活体识别方法、系统、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |