CN113327268A - 一种自约束视频活动预测方法及系统 - Google Patents

一种自约束视频活动预测方法及系统 Download PDF

Info

Publication number
CN113327268A
CN113327268A CN202110577016.9A CN202110577016A CN113327268A CN 113327268 A CN113327268 A CN 113327268A CN 202110577016 A CN202110577016 A CN 202110577016A CN 113327268 A CN113327268 A CN 113327268A
Authority
CN
China
Prior art keywords
feature
video
prediction
representation
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110577016.9A
Other languages
English (en)
Inventor
王树徽
戚兆波
黄庆明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN202110577016.9A priority Critical patent/CN113327268A/zh
Publication of CN113327268A publication Critical patent/CN113327268A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/207Analysis of motion for motion estimation over a hierarchy of resolutions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种自约束视频活动预测方法和系统。包括:提取待预测视频中每帧的该视觉特征F={F1,F2,...,Fo},并通过第一特征聚合模型处理该视觉特征F,得到最后观测时刻o的特征表示ho;获取指定的预测帧数a,根据视觉特征F和ho迭代预测下一时刻的特征表示,直到预测第o+a帧的特征表示,保存第o+1帧到第o+a帧的特征表示作为该待预测视频的预测结果。本发明通过迭代预测提高了活动预测的准确性。

Description

一种自约束视频活动预测方法及系统
技术领域
本发明涉及计算机视觉的视频活动预测技术,特别涉及针对视频数据的高层语义表征学习技术。
背景技术
视频活动预测技术是计算机视觉领域的重要研究课题之一,具有广泛的应用前景。例如,在人机交互场景下,为保证机器与人的密切合作,机器需要预判人类接下来的行为;在自动驾驶场景中,为保证行车安全,自动驾驶系统需要预判是否有行人穿过马路并产生相应的系统控制命令。活动预测算法需要根据观测视频数据预测未来多个时刻发生的活动。因此,活动预测算法需要解决如何充分利用观测视频数据和已预测结果进行后续预测的问题。
目前,活动预测的经典模型是递归序列预测,即模型通过编码所有观测到的视频片段,来预测下一个时刻会发生的活动。重复这个过程,直到活动预测的目标时刻。Y.AbuFarha提出RU-LSTM模型,该算法利用两个LSTM(Long Short-Term Memory,长短期记忆网络)和一个模态注意力机制来处理基于视频帧、光流和物体的视觉特征,迭代预测未来发生的活动。从本质上讲,这些递归序列预测模型通过观测到的视频内容获取初始视觉表征,基于初始表征预测后续时刻的特征表示。但是,这些预测表征可能存在误差,无法准确表示对应时刻的真实视频内容,从而导致较差的活动预测结果。此外,如果将它们直接用于后续预测,持续累积的误差可能导致不准确的最终预测结果。因此为了解决这一问题,模型需要充分利用活动视频中包含的丰富信息,以获取准确的特征表示用于目标活动预测。具体讲,一方面,活动视频包含一系列语义和表观具有较大变化的活动。比如“做早餐”这个视频可能包含“放煎饼”,“拿刀”,“打开黄油”,“取黄油”、“涂抹黄油”和“关闭黄油”等一系列活动。这些活动具有明显不同的语义信息,且可以由不同外观表征的视频关键帧表示,即构成帧内活动的主体和客体是不同的。模型可以利用这些语义和表观变化来修正预测的特征表示。另一方面,活动视频中不同的活动间具有多样化的依赖关系。例如,“黄油”可以出现在“打开黄油”,“涂抹黄油”和“关闭黄油”等活动中,而“涂抹黄油”似乎与“拿刀”有着较强的上下文联系。模型可以利用这些依赖关系增强预测特征的表示能力。
发明内容
本发明的目的是针对视频活动预测中递归序列预测模型存在的预测误差累积问题,提出了一种自约束视频活动预测算法。
针对现有技术的不足,本发明提出一种自约束视频活动预测方法,其中包括:
步骤1、提取待预测视频中每帧的视觉特征3={F1,F2,...,Fo},并通过第一特征聚合模型处理该视觉特征F,得到最后观测时刻o的特征表示ho
步骤2、获取指定的预测帧数a,根据视觉特征F和ho迭代预测下一时刻的特征表示,直到预测第o+a帧的特征表示,保存第o+1帧到第o+a帧的特征表示作为该待预测视频的预测结果;
其中,该步骤2中根据视觉特征F和ho迭代预测下一时刻的特征表示的过程具体包括:
步骤21、根据特征表示ho和t-1时刻预测的特征表示
Figure BDA0003084776390000021
利用第二特征聚合模型得到t时刻的初始特征表示
Figure BDA0003084776390000022
其中当前预测时刻t属于{o+1,o+2,...,o+a}中的任意一个时刻;
步骤22、将该特征表示
Figure BDA0003084776390000023
作为正样本,提取多个与该待预测视频相关视频的特征作为负样本集,集合该正样本和该负样本集作为特征表示集合;
步骤23、根据该特征表示集合和该初始特征表示
Figure BDA0003084776390000024
构建损失函数,通过调整该第二特征聚合模型中的参数最小化该损失函数,将该损失函数最小时对应的该初始特征表示
Figure BDA0003084776390000025
作为修正后的特征表示
Figure BDA0003084776390000026
步骤24、计算修正后的特征表示
Figure BDA0003084776390000027
与视觉特征F中各特征的相似度,得到相似度向量
Figure BDA0003084776390000028
基于该相似度向量st,获取待预测视频中的有用信息
Figure BDA0003084776390000029
步骤25、使用第三特征聚合模型聚合有用信息
Figure BDA00030847763900000210
修正后的特征表示
Figure BDA00030847763900000211
和t-1时刻预测的特征表示
Figure BDA00030847763900000212
得到当前预测时刻t完整的特征表示
Figure BDA00030847763900000213
所述的自约束视频活动预测方法,其中步骤22中该相关视频包括与该待预测视频语义信息相似度大于阈值的画面内容。
所述的自约束视频活动预测方法,其中步骤21包括:根据该相关视频的活动标签,将每个相关视频分成多个片段,从具有不同活动标签的视频片段中随机抽取样本作为该负样本集。
所述的自约束视频活动预测方法,其中t时刻对应的该损失函数
Figure BDA0003084776390000031
Figure BDA0003084776390000032
其中,运算符*代表点积,特征表示集合X包含一个正样本和N-1个负样本
Figure BDA0003084776390000033
所述的自约束视频活动预测方法,其中该步骤24包括:
相似度向量
Figure BDA0003084776390000034
表示视觉特征F中每个观测时刻的特征表示与当前预测时刻的特征表示间的相关性,其中
Figure BDA0003084776390000035
表示在观察时刻j的特征表示Fj与当前时刻修正后的特征表示
Figure BDA0003084776390000036
之间的相关性,其可以通过以下公式获取:
Figure BDA0003084776390000037
其中运算符*表示点积,使用该相似度向量获取有用信息
Figure BDA0003084776390000038
本发明还提出了一种自约束视频活动预测系统,其中包括:
模块1,用于提取待预测视频中每帧的视觉特征F={F1,F2,...,Fo},并通过第一特征聚合模型处理该视觉特征F,得到最后观测时刻o的特征表示ho
模块2,用于获取指定的预测帧数a,根据视觉特征F和ho迭代预测下一时刻的特征表示,直到预测第o+a帧的特征表示,保存第o+1帧到第o+a帧的特征表示作为该待预测视频的预测结果;
其中,该模块2中根据视觉特征F和ho迭代预测下一时刻的特征表示的过程具体包括:
模块21,用于根据特征表示ho和t-1时刻预测的特征表示
Figure BDA0003084776390000039
利用第二特征聚合模型得到t时刻的初始特征表示
Figure BDA00030847763900000310
其中当前预测时刻t属于{o+1,o+2,...,o+a}中的任意一个时刻;
模块22、将该特征表示
Figure BDA00030847763900000311
作为正样本,提取多个与该待预测视频相关视频的特征作为负样本集,集合该正样本和该负样本集作为特征表示集合;
模块23,用于根据该特征表示集合和该初始特征表示
Figure BDA00030847763900000312
构建损失函数,通过调整该第二特征聚合模型中的参数最小化该损失函数,将该损失函数最小时对应的该初始特征表示
Figure BDA0003084776390000041
作为修正后的特征表示
Figure BDA0003084776390000042
模块24,用于计算修正后的特征表示
Figure BDA0003084776390000043
与视觉特征F中各特征的相似度,得到相似度向量
Figure BDA0003084776390000044
基于该相似度向量st,获取待预测视频中的有用信息
Figure BDA0003084776390000045
模块25、使用第三特征聚合模型聚合有用信息
Figure BDA0003084776390000046
修正后的特征表示
Figure BDA0003084776390000047
和t-1时刻预测的特征表示
Figure BDA0003084776390000048
得到当前预测时刻t完整的特征表示
Figure BDA0003084776390000049
所述的自约束视频活动预测系统,其中模块22中该相关视频包括与该待预测视频语义信息相似度大于阈值的画面内容。
所述的自约束视频活动预测系统,其中模块21包括:根据该相关视频的活动标签,将每个相关视频分成多个片段,从具有不同活动标签的视频片段中随机抽取样本作为该负样本集。
所述的自约束视频活动预测系统,其中t时刻对应的该损失函数
Figure BDA00030847763900000410
Figure BDA00030847763900000411
其中,运算符*代表点积,特征表示集合X包含一个正样本和N-1个负样本
Figure BDA00030847763900000412
所述的自约束视频活动预测系统,其中该模块24包括:
相似度向量
Figure BDA00030847763900000413
表示视觉特征F中每个观测时刻的特征表示与当前预测时刻的特征表示间的相关性,其中
Figure BDA00030847763900000414
表示在观察时刻j的特征表示Fj与当前时刻修正后的特征表示
Figure BDA00030847763900000415
之间的相关性,其可以通过以下公式获取:
Figure BDA00030847763900000416
其中运算符*表示点积,使用该相似度向量获取有用信息
Figure BDA00030847763900000417
由以上方案可知,本发明的优点在于:
经典的视频活动预测算法递归序列预测模型面临预测误差累积的问题,导致目标活动的预测准确性较差。该发明充分利用视频中丰富的时空语义结构信息,提出自约束视频活动预测算法。一方面,利用对比损失对递归序列预测模型的中间预测特征进行修正,使模型产生的预测特征能准确表达对应时刻的视频内容,提高了活动预测的性能。另一方面,利用动态加权机制增强了递归序列预测模型的中间预测特征的表征能力,提升了活动预测效果。此外,利用多任务学习框架增强递归序列预测模型对目标活动预测的预测能力,使模型在目标时刻既可以预测目标活动,又可以预测与目标活动相关的动作与物体,提升活动预测的准确性。
附图说明
图1为本发明流程图。
具体实施方式
为了实现上述技术效果本申请提出了以下关键技术点:
关键点1:利用对比损失对递归序列预测模型的中间预测特征进行修正;在技术效果上,使递归序列预测模型产生的中间特征能准确表达对应时刻视频包含的语义信息,提升活动预测准确性。
关键点2:利用动态加权机制增强递归序列预测模型产生的中间预测特征的表征能力;在技术效果上,使递归序列预测模型产生的中间特征具有更强的表示能力,提升活动预测效果。
关键点3:利用多任务学习框架增强递归序列预测模型的目标活动预测能力;在技术效果上,使递归序列预测模型在目标时刻既可以预测目标活动,又可以预测与目标活动相关的动作与物体,提升活动预测的准确性。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
视频活动预测任务的目标是通过观测长度为τo的视频片段来预测经过τa时刻后视频中发生的活动。为方便建模,对活动视频的观测部分和预测部分,本算法每隔δ秒提取一帧,最终获取视频观测部分o帧,并表示为I={I1,I2,...,Io},视频预测部分a帧,即对于递归序列预测模型而言,模型需要迭代预测a次,才会到达目标预测时刻ts。本发明提出了一种自约束视频活动预测算法,算法包含三个主要模块,分别是观测视频编码模块,迭代预测模块,目标活动预测模块。附图1为本发明的算法流程图。
首先是观测视频编码模块。给定视频观测部分的视频帧I={I1,I2,...,Io},本算法利用特征提取器φ(例如TSN,I3D等模型)提取每个视频帧的视觉特征,从而获取视频观测部分的特征表示F={F1,F2,...,Fo},然后利用特征聚合函数Φ(例如GRU)获取最后观测时刻o的特征表示ho
其次是迭代预测模块。给定F={F1,F2,...,Fo}和ho,迭代预测模块将迭代预测下一时刻的特征表示,直到目标预测时刻ts。为了更直观的表示模型的迭代预测过程,我们假设模型已经迭代预测了多个时刻的特征表示,当前到达了预测时刻t,这里的t可能是{o+1,o+2,...,o+a}中的任意一个时刻。给定最后观测时刻o的特征表示ho和模型在t-1时刻预测的特征表示
Figure BDA0003084776390000061
本算法首先利用一个GRU预测t时刻的初始特征表示
Figure BDA0003084776390000062
Figure BDA0003084776390000063
其中当t=o+1时,我们取
Figure BDA0003084776390000064
为Fo
Figure BDA0003084776390000065
为ho
但是这样获取的初始特征无法准确表示对应时刻的视频内容,如果将其直接应用于后续预测将导致错误的积累和不准确的最终预测结果。
为了得到准确的特征表示,我们利用对比损失函数修正预测的中间特征。具体讲,视频内容包含的高层语义信息具有时序一致性。活动视频包含的一系列活动间既有密切联系,又有各自特点,可以通过高层语义表示来准确识别。但是在训练阶段,我们无法获取视频预测部分的活动标签,从而没法直接优化预测的特征表示。而一种新的无监督学习范式对比损失已广泛应用于图像和语音识别任务中,它能够优化特征表示空间中样本对的相似性,用于高维数据的无监督表示学习。因此,本发明使用对比损失来加强不同活动间的特征差异,从而增强预测特征的表示能力。
本算法采用对比损失函数InfoNCE,其基本思想是构建一个能在一组样本中正确区分目标的二值分类任务。给定时刻t的初始特征表示
Figure BDA0003084776390000066
和特征表示集合
Figure BDA0003084776390000067
修正预测特征表示的损失函数可以表示为如下形式:
Figure BDA0003084776390000068
其中,运算符*代表点积。特征表示集合X包含一个正样本
Figure BDA0003084776390000069
和N-1个随机采样的负样本
Figure BDA00030847763900000610
正样本
Figure BDA00030847763900000611
通过将当前预测时刻的视频帧输入特征提取器φ获取,如附图1所示,在模型训练阶段训练GRU1和GRU2两个模型,而特征提取器φ不需要训练。该损失函数只在模型训练阶段使用,在模型测试阶段是不需要运行该函数的。对于负样本,为了能够对特征表示进行有效的修正,我们期望负样本集合中既包含与目标样本语义信息相似(但不同)的样本又包含与目标样本语义信息不同的样本。具体讲,本算法根据活动标签将每个视频分成多个片段,然后从具有不同活动标签的视频片段中随机抽取样本作为选定的负样本集合。从本质上讲,这些负样本可能来自与正样本具有相同或不同编号的视频。考虑到目前活动预测数据集的构建特点,这些正样本和负样本可能是由同一演员在同一厨房场景中记录的,也可能是不同演员在同一厨房场景中记录的。那么这种设置可以更好地保证负样本的多样性和相似性,从而保证修正特征表示操作的有效性。通过最小化这一损失函数,本算法可以获取修正后的预测特征表示
Figure BDA0003084776390000071
该损失函数主要用于优化提取该特征表示的模型,优化后通过模型可以得到更准确的表征。在测试阶段,直接利用该表征,并没有额外的操作,所以修正前后使用了同一个符号。
通过构建的损失函数,优化提取该初始预测特征
Figure BDA0003084776390000072
的GRU模型。损失函数利用该初始预测表征
Figure BDA0003084776390000073
和构建的特征表示集合计算损失值,然后优化GRU模型参数,通过当前批次的训练,GRU模型参数发生变化,后续再利用该GRU模型提取初始预测表征时,可以得到更准确的预测表征。实际是GRU模型的参数发生了变化,从而可以得到更准确的预测特征表示,后续再计算损失时,可以使损失函数变小。
接下来本算法将解决如何从视频观察部分获取与当前预测时刻视频内容相关的有用信息的问题,从而进一步增强预测特征的表示能力。对于包含一系列活动的视频,不同活动间有明显的语义相关性。例如,在预测时刻t出现的活动“涂黄油”与视频观测部分出现的物体“煎饼”、“刀”、“黄油”和动作“打开”等密切相关。因此,本算法提出了一个动态加权机制,能够根据观测视频帧表示与当前预测特征表示的相关性动态调整不同观测视频帧的重要性,从而加强那些真正相关的观测视频帧对增强预测特征表示能力的贡献。具体讲,算法定义了相似度向量
Figure BDA0003084776390000074
表示每个观测时刻的特征表示与当前预测时刻的特征表示之间的相关性。比如
Figure BDA0003084776390000075
表示在观察时刻j的特征表示与当前时刻的特征表示之间的相关性,其可以通过以下公式获取,
Figure BDA0003084776390000076
其中运算符*表示点积。然后算法使用该相似度向量获取观察视频中的有用信息
Figure BDA00030847763900000821
Figure BDA0003084776390000082
现在,
Figure BDA0003084776390000083
表示当前预测时刻的视频内容,
Figure BDA0003084776390000084
包含了观测视频中与当前预测时刻相关的视频内容,这两种表示可以有效互补,提高特征表示能力。为了充分利用它们,本算法使用另一个GRU层来获得更完整的特征表示
Figure BDA0003084776390000085
Figure BDA0003084776390000086
最后是目标活动预测模块。经过a次迭代预测后,我们得到了目标预测时刻ts的特征表示
Figure BDA0003084776390000087
此外,每个目标活动都包含有用的语义上下文信息。例如活动“关闭黄油”可以用中层语义动作“关闭”和物体“黄油”来表示,它们揭示了目标活动的主体和客体。因此,我们可以利用这些语义上下文信息进一步增强算法的活动预测能力。具体讲,本算法构造了两个辅助预测任务,使用两个单独的全连接层,并利用softmax激活函数来预测与目标活动相关的动作和物体的概率分布
Figure BDA0003084776390000088
Figure BDA0003084776390000089
Figure BDA00030847763900000810
Figure BDA00030847763900000811
其中Wv和Wn是可学习的参数,
Figure BDA00030847763900000812
是特征表示
Figure BDA00030847763900000813
Figure BDA00030847763900000814
的串联。本算法通过最小化动作分类和物体分类的交叉熵损失Lv和Ln来优化这两个辅助任务。
此外,本算法的最终目标是获取目标预期时刻的活动类别,通过带有softmax激活函数的线性层,可以计算出目标预测时刻的活动概率分布
Figure BDA00030847763900000815
Figure BDA00030847763900000816
其中Wa是可学习的参数,
Figure BDA00030847763900000817
是特征表示
Figure BDA00030847763900000818
Figure BDA00030847763900000819
的串联,本算法通过优化交叉熵损失La来优化活动预期模型。最终本算法的总体损失函数如下
Figure BDA00030847763900000820
其中α,β∈[0,1]。公式第三项是所有时刻的对比损失的总和。
多时刻活动预测。本算法可以预测未来多个时刻发生的活动,预测过程遵循递归序列预测模式。具体讲,给定一个观测视频片段,本算法首先获得该视频片段的特征表示,在每一个预测时刻t,本算法可以通过迭代预测模块得到最终的特征表示
Figure BDA0003084776390000091
一方面通过目标活动预测模块利用
Figure BDA0003084776390000092
获取当前时刻的活动类别。另一方面,
Figure BDA0003084776390000093
也可以通过迭代预测模块和目标活动预测模块预测下一个时刻发生的活动。通过迭代输入之前时刻预测的特征表示到迭代预测模块和目标活动模块,可以得到多个时刻的活动预测结果。
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还提出了一种自约束视频活动预测系统,其中包括:
模块1,用于提取待预测视频中每帧的视觉特征F={F1,F2,...,Fo},并通过第一特征聚合模型处理该视觉特征F,得到最后观测时刻o的特征表示ho
模块2,用于获取指定的预测帧数a,根据视觉特征F和ho迭代预测下一时刻的特征表示,直到预测第o+a帧的特征表示,保存第o+1帧到第o+a帧的特征表示作为该待预测视频的预测结果;
其中,该模块2中根据视觉特征F和ho迭代预测下一时刻的特征表示的过程具体包括:
模块21,用于根据特征表示ho和t-1时刻预测的特征表示
Figure BDA0003084776390000094
利用第二特征聚合模型得到t时刻的初始特征表示
Figure BDA0003084776390000095
其中当前预测时刻t属于{o+1,o+2,...,o+a}中的任意一个时刻;
模块22、将该特征表示
Figure BDA0003084776390000096
作为正样本,提取多个与该待预测视频相关视频的特征作为负样本集,集合该正样本和该负样本集作为特征表示集合;
模块23,用于根据该特征表示集合和该初始特征表示
Figure BDA0003084776390000097
构建损失函数,通过调整该第二特征聚合模型中的参数最小化该损失函数,将该损失函数最小时对应的该初始特征表示
Figure BDA0003084776390000098
作为修正后的特征表示
Figure BDA0003084776390000099
模块24,用于计算修正后的特征表示
Figure BDA00030847763900000910
与视觉特征F中各特征的相似度,得到相似度向量
Figure BDA00030847763900000911
基于该相似度向量st,获取待预测视频中的有用信息
Figure BDA00030847763900000912
模块25、使用第三特征聚合模型聚合有用信息
Figure BDA00030847763900000913
修正后的特征表示
Figure BDA00030847763900000914
和t-1时刻预测的特征表示
Figure BDA00030847763900000915
得到当前预测时刻t完整的特征表示
Figure BDA00030847763900000916
所述的自约束视频活动预测系统,其中模块22中该相关视频包括与该待预测视频语义信息相似度大于阈值的画面内容。
所述的自约束视频活动预测系统,其中模块21包括:根据该相关视频的活动标签,将每个相关视频分成多个片段,从具有不同活动标签的视频片段中随机抽取样本作为该负样本集。
所述的自约束视频活动预测系统,其中t时刻对应的该损失函数
Figure BDA0003084776390000101
Figure BDA0003084776390000102
其中,运算符*代表点积,特征表示集合X包含一个正样本和N-1个负样本
Figure BDA0003084776390000103
所述的自约束视频活动预测系统,其中该模块24包括:
相似度向量
Figure BDA0003084776390000104
表示视觉特征F中每个观测时刻的特征表示与当前预测时刻的特征表示间的相关性,其中
Figure BDA0003084776390000105
表示在观察时刻j的特征表示Fj与当前时刻修正后的特征表示
Figure BDA0003084776390000106
之间的相关性,其可以通过以下公式获取:
Figure BDA0003084776390000107
其中运算符*表示点积,使用该相似度向量获取有用信息
Figure BDA0003084776390000108

Claims (10)

1.一种自约束视频活动预测方法,其特征在于,包括:
步骤1、提取待预测视频中每帧的该视觉特征F={F1,F2,...,Fo},并通过第一特征聚合模型处理该视觉特征F,得到最后观测时刻o的特征表示ho
步骤2、获取指定的预测帧数a,根据视觉特征F和ho迭代预测下一时刻的特征表示,直到预测第o+a帧的特征表示,保存第o+1帧到第o+a帧的特征表示作为该待预测视频的预测结果;
其中,该步骤2中根据视觉特征F和ho迭代预测下一时刻的特征表示的过程具体包括:
步骤21、根据特征表示ho和t-1时刻预测的特征表示
Figure FDA0003084776380000011
利用第二特征聚合模型得到t时刻的初始特征表示
Figure FDA0003084776380000012
其中当前预测时刻t属于{o+1,o+2,...,o+a}中的任意一个时刻;
步骤22、将该特征表示
Figure FDA0003084776380000013
作为正样本,提取多个与该待预测视频相关视频的特征作为负样本集,集合该正样本和该负样本集作为特征表示集合;
步骤23、根据该特征表示集合和该初始特征表示
Figure FDA0003084776380000014
构建损失函数,通过调整该第二特征聚合模型中的参数最小化该损失函数,将该损失函数最小时对应的该初始特征表示
Figure FDA0003084776380000015
作为修正后的特征表示
Figure FDA0003084776380000016
步骤24、计算修正后的特征表示
Figure FDA0003084776380000017
与视觉特征F中各特征的相似度,得到相似度向量
Figure FDA0003084776380000018
基于该相似度向量st,获取待预测视频中的有用信息
Figure FDA0003084776380000019
步骤25、使用第三特征聚合模型聚合有用信息
Figure FDA00030847763800000110
修正后的特征表示
Figure FDA00030847763800000111
和t-1时刻预测的特征表示
Figure FDA00030847763800000112
得到当前预测时刻t完整的特征表示
Figure FDA00030847763800000113
2.如权利要求1所述的自约束视频活动预测方法,其特征在于,步骤22中该相关视频包括与该待预测视频语义信息相似度大于阈值的画面内容。
3.如权利要求1或2所述的自约束视频活动预测方法,其特征在于,步骤21包括:根据该相关视频的活动标签,将每个相关视频分成多个片段,从具有不同活动标签的视频片段中随机抽取样本作为该负样本集。
4.如权利要求1所述的自约束视频活动预测方法,其特征在于,t时刻对应的该损失函数
Figure FDA00030847763800000114
Figure FDA0003084776380000021
其中,运算符*代表点积,特征表示集合X包含一个正样本和N-1个负样本
Figure FDA0003084776380000022
5.如权利要求1所述的自约束视频活动预测方法,其特征在于,该步骤24包括:
相似度向量
Figure FDA0003084776380000023
表示视觉特征F中每个观测时刻的特征表示与当前预测时刻的特征表示间的相关性,其中
Figure FDA0003084776380000024
表示在观察时刻j的特征表示Fj与当前时刻修正后的特征表示
Figure FDA0003084776380000025
之间的相关性,其可以通过以下公式获取:
Figure FDA0003084776380000026
其中运算符*表示点积,使用该相似度向量获取有用信息
Figure FDA0003084776380000027
6.一种自约束视频活动预测系统,其特征在于,包括:
模块1,用于提取待预测视频中每帧的视觉特征F={F1,F2,...,Fo},并通过第一特征聚合模型处理该视觉特征F,得到最后观测时刻o的特征表示ho
模块2,用于获取指定的预测帧数a,根据视觉特征F和ho迭代预测下一时刻的特征表示,直到预测第o+a帧的特征表示,保存第o+1帧到第o+a帧的特征表示作为该待预测视频的预测结果;
其中,该模块2中根据视觉特征F和ho迭代预测下一时刻的特征表示的过程具体包括:
模块21,用于根据特征表示ho和t-1时刻预测的特征表示
Figure FDA0003084776380000028
利用第二特征聚合模型得到t时刻的初始特征表示
Figure FDA0003084776380000029
其中当前预测时刻t属于{o+1,o+2,...,o+a}中的任意一个时刻;
模块22、将该特征表示
Figure FDA00030847763800000214
作为正样本,提取多个与该待预测视频相关视频的特征作为负样本集,集合该正样本和该负样本集作为特征表示集合;
模块23,用于根据该特征表示集合和该初始特征表示
Figure FDA00030847763800000210
构建损失函数,通过调整该第二特征聚合模型中的参数最小化该损失函数,将该损失函数最小时对应的该初始特征表示
Figure FDA00030847763800000211
作为修正后的特征表示
Figure FDA00030847763800000212
模块24,用于计算修正后的特征表示
Figure FDA00030847763800000213
与视觉特征F中各特征的相似度,得到相似度向量
Figure FDA0003084776380000031
基于该相似度向量st,获取待预测视频中的有用信息
Figure FDA0003084776380000032
模块25、使用第三特征聚合模型聚合有用信息
Figure FDA0003084776380000033
修正后的特征表示
Figure FDA0003084776380000034
和t一1时刻预测的特征表示
Figure FDA0003084776380000035
得到当前预测时刻t完整的特征表示
Figure FDA0003084776380000036
7.如权利要求6所述的自约束视频活动预测系统,其特征在于,模块22中该相关视频包括与该待预测视频语义信息相似度大于阈值的画面内容。
8.如权利要求1或2所述的自约束视频活动预测系统,其特征在于,模块21包括:根据该相关视频的活动标签,将每个相关视频分成多个片段,从具有不同活动标签的视频片段中随机抽取样本作为该负样本集。
9.如权利要求6所述的自约束视频活动预测系统,其特征在于,t时刻对应的该损失函数
Figure FDA0003084776380000037
Figure FDA0003084776380000038
其中,运算符*代表点积,特征表示集合X包含一个正样本和N-1个负样本
Figure FDA0003084776380000039
10.如权利要求6所述的自约束视频活动预测系统,其特征在于,该模块24包括:
相似度向量
Figure FDA00030847763800000310
表示视觉特征F中每个观测时刻的特征表示与当前预测时刻的特征表示间的相关性,其中
Figure FDA00030847763800000311
表示在观察时刻j的特征表示Fj与当前时刻修正后的特征表示
Figure FDA00030847763800000312
之间的相关性,其可以通过以下公式获取:
Figure FDA00030847763800000313
其中运算符*表示点积,使用该相似度向量获取有用信息
Figure FDA00030847763800000314
CN202110577016.9A 2021-05-26 2021-05-26 一种自约束视频活动预测方法及系统 Pending CN113327268A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110577016.9A CN113327268A (zh) 2021-05-26 2021-05-26 一种自约束视频活动预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110577016.9A CN113327268A (zh) 2021-05-26 2021-05-26 一种自约束视频活动预测方法及系统

Publications (1)

Publication Number Publication Date
CN113327268A true CN113327268A (zh) 2021-08-31

Family

ID=77416946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110577016.9A Pending CN113327268A (zh) 2021-05-26 2021-05-26 一种自约束视频活动预测方法及系统

Country Status (1)

Country Link
CN (1) CN113327268A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522450A (zh) * 2018-11-29 2019-03-26 腾讯科技(深圳)有限公司 一种视频分类的方法以及服务器
CN112183391A (zh) * 2020-09-30 2021-01-05 中国科学院计算技术研究所 一种第一视角视频行为预测系统及方法
CN112560827A (zh) * 2021-02-24 2021-03-26 北京澎思科技有限公司 模型训练方法、装置、预测方法、电子设备及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522450A (zh) * 2018-11-29 2019-03-26 腾讯科技(深圳)有限公司 一种视频分类的方法以及服务器
CN112183391A (zh) * 2020-09-30 2021-01-05 中国科学院计算技术研究所 一种第一视角视频行为预测系统及方法
CN112560827A (zh) * 2021-02-24 2021-03-26 北京澎思科技有限公司 模型训练方法、装置、预测方法、电子设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHAOBO QI 等: "Self-Regulated Learning for Egocentric Video Activity Anticipation", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE (EARLY ACCESS)》 *

Similar Documents

Publication Publication Date Title
CN112507898B (zh) 一种基于轻量3d残差网络和tcn的多模态动态手势识别方法
Wang et al. Boundary-aware cascade networks for temporal action segmentation
CN109891897B (zh) 用于分析媒体内容的方法
JP6998440B2 (ja) 混合時間ドメイン適応による動画アクション・セグメンテーション
CN107423442B (zh) 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备
CN109522450B (zh) 一种视频分类的方法以及服务器
CN110929092B (zh) 一种基于动态注意力机制的多事件视频描述方法
US11270124B1 (en) Temporal bottleneck attention architecture for video action recognition
CN109829495B (zh) 基于lstm和dcgan的时序性图像预测方法
CN111783540B (zh) 一种视频中人体行为识别方法和系统
KR20190138238A (ko) 딥 블라인드 전의 학습
Chen et al. Uncertainty-Aware Representation Learning for Action Segmentation.
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
Desai et al. Next frame prediction using ConvLSTM
Davtyan et al. Efficient video prediction via sparsely conditioned flow matching
Seyedhosseini et al. Fast adaboost training using weighted novelty selection
CN115188022A (zh) 一种基于一致性半监督深度学习的人体行为识别方法
CN114663798A (zh) 一种基于强化学习的单步视频内容识别方法
CN113807176A (zh) 一种基于多知识融合的小样本视频行为识别方法
CN109933682A (zh) 一种基于语义与内容信息结合的图像哈希检索方法及系统
CN116089874A (zh) 一种基于集成学习和迁移学习的情感识别方法及装置
Zhang et al. Extdm: Distribution extrapolation diffusion model for video prediction
CN112131429A (zh) 一种基于深度预测编码网络的视频分类方法及系统
CN113327268A (zh) 一种自约束视频活动预测方法及系统
Namazi et al. Attention-based surgical phase boundaries detection in laparoscopic videos

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210831