CN113327268A - 一种自约束视频活动预测方法及系统 - Google Patents
一种自约束视频活动预测方法及系统 Download PDFInfo
- Publication number
- CN113327268A CN113327268A CN202110577016.9A CN202110577016A CN113327268A CN 113327268 A CN113327268 A CN 113327268A CN 202110577016 A CN202110577016 A CN 202110577016A CN 113327268 A CN113327268 A CN 113327268A
- Authority
- CN
- China
- Prior art keywords
- feature
- video
- prediction
- representation
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/207—Analysis of motion for motion estimation over a hierarchy of resolutions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种自约束视频活动预测方法和系统。包括:提取待预测视频中每帧的该视觉特征F={F1,F2,...,Fo},并通过第一特征聚合模型处理该视觉特征F,得到最后观测时刻o的特征表示ho;获取指定的预测帧数a,根据视觉特征F和ho迭代预测下一时刻的特征表示,直到预测第o+a帧的特征表示,保存第o+1帧到第o+a帧的特征表示作为该待预测视频的预测结果。本发明通过迭代预测提高了活动预测的准确性。
Description
技术领域
本发明涉及计算机视觉的视频活动预测技术,特别涉及针对视频数据的高层语义表征学习技术。
背景技术
视频活动预测技术是计算机视觉领域的重要研究课题之一,具有广泛的应用前景。例如,在人机交互场景下,为保证机器与人的密切合作,机器需要预判人类接下来的行为;在自动驾驶场景中,为保证行车安全,自动驾驶系统需要预判是否有行人穿过马路并产生相应的系统控制命令。活动预测算法需要根据观测视频数据预测未来多个时刻发生的活动。因此,活动预测算法需要解决如何充分利用观测视频数据和已预测结果进行后续预测的问题。
目前,活动预测的经典模型是递归序列预测,即模型通过编码所有观测到的视频片段,来预测下一个时刻会发生的活动。重复这个过程,直到活动预测的目标时刻。Y.AbuFarha提出RU-LSTM模型,该算法利用两个LSTM(Long Short-Term Memory,长短期记忆网络)和一个模态注意力机制来处理基于视频帧、光流和物体的视觉特征,迭代预测未来发生的活动。从本质上讲,这些递归序列预测模型通过观测到的视频内容获取初始视觉表征,基于初始表征预测后续时刻的特征表示。但是,这些预测表征可能存在误差,无法准确表示对应时刻的真实视频内容,从而导致较差的活动预测结果。此外,如果将它们直接用于后续预测,持续累积的误差可能导致不准确的最终预测结果。因此为了解决这一问题,模型需要充分利用活动视频中包含的丰富信息,以获取准确的特征表示用于目标活动预测。具体讲,一方面,活动视频包含一系列语义和表观具有较大变化的活动。比如“做早餐”这个视频可能包含“放煎饼”,“拿刀”,“打开黄油”,“取黄油”、“涂抹黄油”和“关闭黄油”等一系列活动。这些活动具有明显不同的语义信息,且可以由不同外观表征的视频关键帧表示,即构成帧内活动的主体和客体是不同的。模型可以利用这些语义和表观变化来修正预测的特征表示。另一方面,活动视频中不同的活动间具有多样化的依赖关系。例如,“黄油”可以出现在“打开黄油”,“涂抹黄油”和“关闭黄油”等活动中,而“涂抹黄油”似乎与“拿刀”有着较强的上下文联系。模型可以利用这些依赖关系增强预测特征的表示能力。
发明内容
本发明的目的是针对视频活动预测中递归序列预测模型存在的预测误差累积问题,提出了一种自约束视频活动预测算法。
针对现有技术的不足,本发明提出一种自约束视频活动预测方法,其中包括:
步骤1、提取待预测视频中每帧的视觉特征3={F1,F2,...,Fo},并通过第一特征聚合模型处理该视觉特征F,得到最后观测时刻o的特征表示ho;
步骤2、获取指定的预测帧数a,根据视觉特征F和ho迭代预测下一时刻的特征表示,直到预测第o+a帧的特征表示,保存第o+1帧到第o+a帧的特征表示作为该待预测视频的预测结果;
其中,该步骤2中根据视觉特征F和ho迭代预测下一时刻的特征表示的过程具体包括:
所述的自约束视频活动预测方法,其中步骤22中该相关视频包括与该待预测视频语义信息相似度大于阈值的画面内容。
所述的自约束视频活动预测方法,其中步骤21包括:根据该相关视频的活动标签,将每个相关视频分成多个片段,从具有不同活动标签的视频片段中随机抽取样本作为该负样本集。
所述的自约束视频活动预测方法,其中该步骤24包括:
本发明还提出了一种自约束视频活动预测系统,其中包括:
模块1,用于提取待预测视频中每帧的视觉特征F={F1,F2,...,Fo},并通过第一特征聚合模型处理该视觉特征F,得到最后观测时刻o的特征表示ho;
模块2,用于获取指定的预测帧数a,根据视觉特征F和ho迭代预测下一时刻的特征表示,直到预测第o+a帧的特征表示,保存第o+1帧到第o+a帧的特征表示作为该待预测视频的预测结果;
其中,该模块2中根据视觉特征F和ho迭代预测下一时刻的特征表示的过程具体包括:
所述的自约束视频活动预测系统,其中模块22中该相关视频包括与该待预测视频语义信息相似度大于阈值的画面内容。
所述的自约束视频活动预测系统,其中模块21包括:根据该相关视频的活动标签,将每个相关视频分成多个片段,从具有不同活动标签的视频片段中随机抽取样本作为该负样本集。
所述的自约束视频活动预测系统,其中该模块24包括:
由以上方案可知,本发明的优点在于:
经典的视频活动预测算法递归序列预测模型面临预测误差累积的问题,导致目标活动的预测准确性较差。该发明充分利用视频中丰富的时空语义结构信息,提出自约束视频活动预测算法。一方面,利用对比损失对递归序列预测模型的中间预测特征进行修正,使模型产生的预测特征能准确表达对应时刻的视频内容,提高了活动预测的性能。另一方面,利用动态加权机制增强了递归序列预测模型的中间预测特征的表征能力,提升了活动预测效果。此外,利用多任务学习框架增强递归序列预测模型对目标活动预测的预测能力,使模型在目标时刻既可以预测目标活动,又可以预测与目标活动相关的动作与物体,提升活动预测的准确性。
附图说明
图1为本发明流程图。
具体实施方式
为了实现上述技术效果本申请提出了以下关键技术点:
关键点1:利用对比损失对递归序列预测模型的中间预测特征进行修正;在技术效果上,使递归序列预测模型产生的中间特征能准确表达对应时刻视频包含的语义信息,提升活动预测准确性。
关键点2:利用动态加权机制增强递归序列预测模型产生的中间预测特征的表征能力;在技术效果上,使递归序列预测模型产生的中间特征具有更强的表示能力,提升活动预测效果。
关键点3:利用多任务学习框架增强递归序列预测模型的目标活动预测能力;在技术效果上,使递归序列预测模型在目标时刻既可以预测目标活动,又可以预测与目标活动相关的动作与物体,提升活动预测的准确性。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
视频活动预测任务的目标是通过观测长度为τo的视频片段来预测经过τa时刻后视频中发生的活动。为方便建模,对活动视频的观测部分和预测部分,本算法每隔δ秒提取一帧,最终获取视频观测部分o帧,并表示为I={I1,I2,...,Io},视频预测部分a帧,即对于递归序列预测模型而言,模型需要迭代预测a次,才会到达目标预测时刻ts。本发明提出了一种自约束视频活动预测算法,算法包含三个主要模块,分别是观测视频编码模块,迭代预测模块,目标活动预测模块。附图1为本发明的算法流程图。
首先是观测视频编码模块。给定视频观测部分的视频帧I={I1,I2,...,Io},本算法利用特征提取器φ(例如TSN,I3D等模型)提取每个视频帧的视觉特征,从而获取视频观测部分的特征表示F={F1,F2,...,Fo},然后利用特征聚合函数Φ(例如GRU)获取最后观测时刻o的特征表示ho。
其次是迭代预测模块。给定F={F1,F2,...,Fo}和ho,迭代预测模块将迭代预测下一时刻的特征表示,直到目标预测时刻ts。为了更直观的表示模型的迭代预测过程,我们假设模型已经迭代预测了多个时刻的特征表示,当前到达了预测时刻t,这里的t可能是{o+1,o+2,...,o+a}中的任意一个时刻。给定最后观测时刻o的特征表示ho和模型在t-1时刻预测的特征表示本算法首先利用一个GRU预测t时刻的初始特征表示
但是这样获取的初始特征无法准确表示对应时刻的视频内容,如果将其直接应用于后续预测将导致错误的积累和不准确的最终预测结果。
为了得到准确的特征表示,我们利用对比损失函数修正预测的中间特征。具体讲,视频内容包含的高层语义信息具有时序一致性。活动视频包含的一系列活动间既有密切联系,又有各自特点,可以通过高层语义表示来准确识别。但是在训练阶段,我们无法获取视频预测部分的活动标签,从而没法直接优化预测的特征表示。而一种新的无监督学习范式对比损失已广泛应用于图像和语音识别任务中,它能够优化特征表示空间中样本对的相似性,用于高维数据的无监督表示学习。因此,本发明使用对比损失来加强不同活动间的特征差异,从而增强预测特征的表示能力。
其中,运算符*代表点积。特征表示集合X包含一个正样本和N-1个随机采样的负样本正样本通过将当前预测时刻的视频帧输入特征提取器φ获取,如附图1所示,在模型训练阶段训练GRU1和GRU2两个模型,而特征提取器φ不需要训练。该损失函数只在模型训练阶段使用,在模型测试阶段是不需要运行该函数的。对于负样本,为了能够对特征表示进行有效的修正,我们期望负样本集合中既包含与目标样本语义信息相似(但不同)的样本又包含与目标样本语义信息不同的样本。具体讲,本算法根据活动标签将每个视频分成多个片段,然后从具有不同活动标签的视频片段中随机抽取样本作为选定的负样本集合。从本质上讲,这些负样本可能来自与正样本具有相同或不同编号的视频。考虑到目前活动预测数据集的构建特点,这些正样本和负样本可能是由同一演员在同一厨房场景中记录的,也可能是不同演员在同一厨房场景中记录的。那么这种设置可以更好地保证负样本的多样性和相似性,从而保证修正特征表示操作的有效性。通过最小化这一损失函数,本算法可以获取修正后的预测特征表示该损失函数主要用于优化提取该特征表示的模型,优化后通过模型可以得到更准确的表征。在测试阶段,直接利用该表征,并没有额外的操作,所以修正前后使用了同一个符号。
通过构建的损失函数,优化提取该初始预测特征的GRU模型。损失函数利用该初始预测表征和构建的特征表示集合计算损失值,然后优化GRU模型参数,通过当前批次的训练,GRU模型参数发生变化,后续再利用该GRU模型提取初始预测表征时,可以得到更准确的预测表征。实际是GRU模型的参数发生了变化,从而可以得到更准确的预测特征表示,后续再计算损失时,可以使损失函数变小。
接下来本算法将解决如何从视频观察部分获取与当前预测时刻视频内容相关的有用信息的问题,从而进一步增强预测特征的表示能力。对于包含一系列活动的视频,不同活动间有明显的语义相关性。例如,在预测时刻t出现的活动“涂黄油”与视频观测部分出现的物体“煎饼”、“刀”、“黄油”和动作“打开”等密切相关。因此,本算法提出了一个动态加权机制,能够根据观测视频帧表示与当前预测特征表示的相关性动态调整不同观测视频帧的重要性,从而加强那些真正相关的观测视频帧对增强预测特征表示能力的贡献。具体讲,算法定义了相似度向量表示每个观测时刻的特征表示与当前预测时刻的特征表示之间的相关性。比如表示在观察时刻j的特征表示与当前时刻的特征表示之间的相关性,其可以通过以下公式获取,
最后是目标活动预测模块。经过a次迭代预测后,我们得到了目标预测时刻ts的特征表示此外,每个目标活动都包含有用的语义上下文信息。例如活动“关闭黄油”可以用中层语义动作“关闭”和物体“黄油”来表示,它们揭示了目标活动的主体和客体。因此,我们可以利用这些语义上下文信息进一步增强算法的活动预测能力。具体讲,本算法构造了两个辅助预测任务,使用两个单独的全连接层,并利用softmax激活函数来预测与目标活动相关的动作和物体的概率分布和
其中α,β∈[0,1]。公式第三项是所有时刻的对比损失的总和。
多时刻活动预测。本算法可以预测未来多个时刻发生的活动,预测过程遵循递归序列预测模式。具体讲,给定一个观测视频片段,本算法首先获得该视频片段的特征表示,在每一个预测时刻t,本算法可以通过迭代预测模块得到最终的特征表示一方面通过目标活动预测模块利用获取当前时刻的活动类别。另一方面,也可以通过迭代预测模块和目标活动预测模块预测下一个时刻发生的活动。通过迭代输入之前时刻预测的特征表示到迭代预测模块和目标活动模块,可以得到多个时刻的活动预测结果。
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还提出了一种自约束视频活动预测系统,其中包括:
模块1,用于提取待预测视频中每帧的视觉特征F={F1,F2,...,Fo},并通过第一特征聚合模型处理该视觉特征F,得到最后观测时刻o的特征表示ho;
模块2,用于获取指定的预测帧数a,根据视觉特征F和ho迭代预测下一时刻的特征表示,直到预测第o+a帧的特征表示,保存第o+1帧到第o+a帧的特征表示作为该待预测视频的预测结果;
其中,该模块2中根据视觉特征F和ho迭代预测下一时刻的特征表示的过程具体包括:
所述的自约束视频活动预测系统,其中模块22中该相关视频包括与该待预测视频语义信息相似度大于阈值的画面内容。
所述的自约束视频活动预测系统,其中模块21包括:根据该相关视频的活动标签,将每个相关视频分成多个片段,从具有不同活动标签的视频片段中随机抽取样本作为该负样本集。
所述的自约束视频活动预测系统,其中该模块24包括:
Claims (10)
1.一种自约束视频活动预测方法,其特征在于,包括:
步骤1、提取待预测视频中每帧的该视觉特征F={F1,F2,...,Fo},并通过第一特征聚合模型处理该视觉特征F,得到最后观测时刻o的特征表示ho;
步骤2、获取指定的预测帧数a,根据视觉特征F和ho迭代预测下一时刻的特征表示,直到预测第o+a帧的特征表示,保存第o+1帧到第o+a帧的特征表示作为该待预测视频的预测结果;
其中,该步骤2中根据视觉特征F和ho迭代预测下一时刻的特征表示的过程具体包括:
2.如权利要求1所述的自约束视频活动预测方法,其特征在于,步骤22中该相关视频包括与该待预测视频语义信息相似度大于阈值的画面内容。
3.如权利要求1或2所述的自约束视频活动预测方法,其特征在于,步骤21包括:根据该相关视频的活动标签,将每个相关视频分成多个片段,从具有不同活动标签的视频片段中随机抽取样本作为该负样本集。
6.一种自约束视频活动预测系统,其特征在于,包括:
模块1,用于提取待预测视频中每帧的视觉特征F={F1,F2,...,Fo},并通过第一特征聚合模型处理该视觉特征F,得到最后观测时刻o的特征表示ho;
模块2,用于获取指定的预测帧数a,根据视觉特征F和ho迭代预测下一时刻的特征表示,直到预测第o+a帧的特征表示,保存第o+1帧到第o+a帧的特征表示作为该待预测视频的预测结果;
其中,该模块2中根据视觉特征F和ho迭代预测下一时刻的特征表示的过程具体包括:
7.如权利要求6所述的自约束视频活动预测系统,其特征在于,模块22中该相关视频包括与该待预测视频语义信息相似度大于阈值的画面内容。
8.如权利要求1或2所述的自约束视频活动预测系统,其特征在于,模块21包括:根据该相关视频的活动标签,将每个相关视频分成多个片段,从具有不同活动标签的视频片段中随机抽取样本作为该负样本集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110577016.9A CN113327268A (zh) | 2021-05-26 | 2021-05-26 | 一种自约束视频活动预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110577016.9A CN113327268A (zh) | 2021-05-26 | 2021-05-26 | 一种自约束视频活动预测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113327268A true CN113327268A (zh) | 2021-08-31 |
Family
ID=77416946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110577016.9A Pending CN113327268A (zh) | 2021-05-26 | 2021-05-26 | 一种自约束视频活动预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113327268A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522450A (zh) * | 2018-11-29 | 2019-03-26 | 腾讯科技(深圳)有限公司 | 一种视频分类的方法以及服务器 |
CN112183391A (zh) * | 2020-09-30 | 2021-01-05 | 中国科学院计算技术研究所 | 一种第一视角视频行为预测系统及方法 |
CN112560827A (zh) * | 2021-02-24 | 2021-03-26 | 北京澎思科技有限公司 | 模型训练方法、装置、预测方法、电子设备及介质 |
-
2021
- 2021-05-26 CN CN202110577016.9A patent/CN113327268A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522450A (zh) * | 2018-11-29 | 2019-03-26 | 腾讯科技(深圳)有限公司 | 一种视频分类的方法以及服务器 |
CN112183391A (zh) * | 2020-09-30 | 2021-01-05 | 中国科学院计算技术研究所 | 一种第一视角视频行为预测系统及方法 |
CN112560827A (zh) * | 2021-02-24 | 2021-03-26 | 北京澎思科技有限公司 | 模型训练方法、装置、预测方法、电子设备及介质 |
Non-Patent Citations (1)
Title |
---|
ZHAOBO QI 等: "Self-Regulated Learning for Egocentric Video Activity Anticipation", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE (EARLY ACCESS)》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112507898B (zh) | 一种基于轻量3d残差网络和tcn的多模态动态手势识别方法 | |
Wang et al. | Boundary-aware cascade networks for temporal action segmentation | |
CN109891897B (zh) | 用于分析媒体内容的方法 | |
JP6998440B2 (ja) | 混合時間ドメイン適応による動画アクション・セグメンテーション | |
CN107423442B (zh) | 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备 | |
CN109522450B (zh) | 一种视频分类的方法以及服务器 | |
CN110929092B (zh) | 一种基于动态注意力机制的多事件视频描述方法 | |
US11270124B1 (en) | Temporal bottleneck attention architecture for video action recognition | |
CN109829495B (zh) | 基于lstm和dcgan的时序性图像预测方法 | |
CN111783540B (zh) | 一种视频中人体行为识别方法和系统 | |
KR20190138238A (ko) | 딥 블라인드 전의 학습 | |
Chen et al. | Uncertainty-Aware Representation Learning for Action Segmentation. | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
Desai et al. | Next frame prediction using ConvLSTM | |
Davtyan et al. | Efficient video prediction via sparsely conditioned flow matching | |
Seyedhosseini et al. | Fast adaboost training using weighted novelty selection | |
CN115188022A (zh) | 一种基于一致性半监督深度学习的人体行为识别方法 | |
CN114663798A (zh) | 一种基于强化学习的单步视频内容识别方法 | |
CN113807176A (zh) | 一种基于多知识融合的小样本视频行为识别方法 | |
CN109933682A (zh) | 一种基于语义与内容信息结合的图像哈希检索方法及系统 | |
CN116089874A (zh) | 一种基于集成学习和迁移学习的情感识别方法及装置 | |
Zhang et al. | Extdm: Distribution extrapolation diffusion model for video prediction | |
CN112131429A (zh) | 一种基于深度预测编码网络的视频分类方法及系统 | |
CN113327268A (zh) | 一种自约束视频活动预测方法及系统 | |
Namazi et al. | Attention-based surgical phase boundaries detection in laparoscopic videos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210831 |