CN114998799A - 基于全局知识挖掘和前景注意力的交互视频动作检测方法 - Google Patents

基于全局知识挖掘和前景注意力的交互视频动作检测方法 Download PDF

Info

Publication number
CN114998799A
CN114998799A CN202210636564.9A CN202210636564A CN114998799A CN 114998799 A CN114998799 A CN 114998799A CN 202210636564 A CN202210636564 A CN 202210636564A CN 114998799 A CN114998799 A CN 114998799A
Authority
CN
China
Prior art keywords
time
video
coarse
boundary
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210636564.9A
Other languages
English (en)
Other versions
CN114998799B (zh
Inventor
高赞
崔兴磊
陶俊伟
宋健明
王水跟
朱文印
张蕊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Calmcar Vision Electronic Technology Co ltd
Qingdao Haier Smart Technology R&D Co Ltd
Iray Technology Co Ltd
Shandong Institute of Artificial Intelligence
Original Assignee
Suzhou Calmcar Vision Electronic Technology Co ltd
Qingdao Haier Smart Technology R&D Co Ltd
Iray Technology Co Ltd
Shandong Institute of Artificial Intelligence
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Calmcar Vision Electronic Technology Co ltd, Qingdao Haier Smart Technology R&D Co Ltd, Iray Technology Co Ltd, Shandong Institute of Artificial Intelligence filed Critical Suzhou Calmcar Vision Electronic Technology Co ltd
Priority to CN202210636564.9A priority Critical patent/CN114998799B/zh
Publication of CN114998799A publication Critical patent/CN114998799A/zh
Application granted granted Critical
Publication of CN114998799B publication Critical patent/CN114998799B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于全局知识挖掘和前景注意力的交互视频动作检测方法,准确地实现了对视频中动作实例的定位和分类;方法的具体步骤如下:对视频进行预处理,通过I3D网络将生成的视频帧获得时空特征序列
Figure 748011DEST_PATH_IMAGE001
,将特征序列
Figure 990904DEST_PATH_IMAGE001
输入到上下文信息提取模块提取不同层次的特征序列F,通过时间信息提取模块挖掘视频的全局信息,将特征序列F和特征序列
Figure 639054DEST_PATH_IMAGE002
连接起来,得到粗时间边界和粗分类,根据不同层次的特征结合损失函数利用前景信息增强模块得到精细化特征;本发明基于已知数据集对视频中的动作实例进行高效定位和分类,并且方法收敛速度快。

Description

基于全局知识挖掘和前景注意力的交互视频动作检测方法
技术领域
本发明属于计算机视觉和模式识别技术领域,涉及一种基于全局知识挖掘和前景注意力的交互视频动作检测方法,可以用少量的提案对视频中的动作实例进行定位和分类,在在两个常用的时序动作检测数据集上,验证了该模型的有效性;
背景技术
近几年来,随着互联网视频的大量涌现,对视频内容的理解与分析变得越来越重要。时序动作检测作为视频理解的一个重要的分支,已经引起了学术界和工业界的广泛关注。时序动作检测的任务是对一个未修建的视频中的人的动作的时间片段进行定位,并预测人的动作类别。时序动作检测与动作检测相比,在对视频中的每个动作实例分类的基础上,还要对该动作实例的开始和结束进行定位。有些方法是采用滑动窗口的方法生成不同时间尺度的视频片段,然后对这些视频片段进行分类和定位,以表示整个视频的分类和定位结果。但是这些方法想要得到更好的效果,就必须将窗口之间的重叠度变高,这样就会产生巨大的计算量,影响模型的计算的速度,并且滑动窗口的方法预测边界不够灵活。基于Anchor的方法会生成大量的候选提案,造成较多的冗余,浪费计算资源。并且,这些方法对于边界的预测不够灵活,动作实例的时间跨度相差很大,其中大部分较短,还有一部分很长,这样预定义的Anchor并不能够预测所有的动作实例。
然而,时序动作检测采用Anchor-free的方法开始涌现,它不像基于Anchor方法一样预先定义不同时间尺度的Anchor并且动作实例的长短对于动作的定位影响较小,只需要在每个时间位置生成一个提案,表示当前位置到开始位置和结束位置的距离的总和。由于这种方法不会有大量的提案,降低了计算量。
现有技术还存在以下弊端:一是无法有效地解决视频中的时间信息,二是在处理视频特征的过程中很少考虑前景信息,所以当前急需一种高效的基于全局信息挖掘和前景注意的时序动作检测方法。
发明内容
本发明提供了一种基于全局知识挖掘和前景注意力的交互视频动作检测方法,本发明弥补上下文信息捕获模型因为下采样丢失的时序信息,同时增强每个视频帧的前景特征,可用于精细化动作实例的分类和边界。
该方法具体包含以下步骤:
1)对视频进行预处理,将未修剪的视频抽取成帧,表示为
Figure BDA0003680529730000021
在训练集中包含T帧;
2)通过I3D网络将生成的视频帧获得时空特征序列,将获得的时空特征经过3D卷积变成1D特征序列F′,使特征包含整个视频的时间和空间信息,把特征序列F′作为整个视频的特征表示;
3)将特征序列F′输入到上下文信息提取模块提取不同层次的特征,采用线性插值将高层特征的信息递归加到低层特征中,获得具有充足的语义信息和局部细节的特征
Figure BDA0003680529730000022
Tn∈{2,4,8,…,64}代表不同的时间尺度,C代表的是特征的通道,同时该模块还会产生用于边界池化的帧级特征;
4)通过时间信息提取模块将视频帧作为输入,利用编码层从整个视频中获取时间信息,用于补偿不同层次的特征在下采样过程中丢失的时间信息;
5)将上文信息捕获模块获得的特征序列F和时间信息提取模块获得的特征序列Fl连接起来,获得具有丰富上下文信息的特征序列
Figure BDA0003680529730000023
Figure BDA0003680529730000024
6)基于以上特征,得到粗时间边界
Figure BDA0003680529730000025
和粗分类cC
Figure BDA0003680529730000026
代表位置i到开始时间的距离,
Figure BDA0003680529730000027
代表位置i到结束时间的距离,i∈{0,1,…,t-1},t代表的是金字塔特征的时间长度;
7)获取第i个位置开始时间和结束时间:
Figure BDA0003680529730000028
其中
Figure BDA0003680529730000029
表示特征中相应第i个位置的粗开始时间,
Figure BDA00036805297300000210
表示特征中相应第i个位置的粗结束时间;
8)根据不同层次的特征结合损失函数利用前景信息增强模块得到精细化特征,利用精细化特征,得到精细化边界偏移和精细化分类,并将边界偏移加到粗边界上得到精细化边界,所述损失函数具体如下:
Figure BDA00036805297300000211
其中
Figure BDA00036805297300000212
Figure BDA00036805297300000213
分别是粗分类和细分类的损失函数用来约束视频预测的分类结果,
Figure BDA00036805297300000214
Figure BDA00036805297300000215
分别是粗边界回归和细化边界回归的损失函数用来约束视频中动作实例的边界结果,Lbce是二元交叉熵的损失函数,α和β是超参数。
优选的,所述通过时间信息提取模块获取时间信息的具体步骤如下:
利用空间编码器对同一时间索引中提取的块之间建立关系,然后将所有的空间编码器输出的特征输入到对不同时间索引的帧建立联系的时间编码器中捕获全局信息,获取具有时间信息的多个时间尺度的特征
Figure BDA0003680529730000031
式中Tn代表不同的时间尺度,C为特征的通道,具体公式如下:
Figure BDA0003680529730000032
式中SpatialT代表的是空间编码器,TemporalT代表的是时间编码器,Linear代表的是全连接层,embeding是将时间加入空间特征并进行嵌入;
优选的,所述利用前景信息增强模块得到精细化特征,具体过程如下:
1)将粗边界和粗分类的结果输入到边界池化层,
2)将整个视频帧输入到前景信息增强模块,该模块将每个视频帧xi∈RH×W×C进行图像分块处理,将H×W×C的图片用P×P大小的块将每一个视频帧分成D=HW/P2个块;
将D个块向量拼接得到一个二维特征矩阵并对特征序列进行位置嵌入得到帧级特征,实现过程为:
Fframe=Linear(FSA(xi)) i=1,…,T, (5)
式中FSA是前景信息注意编码器,在自注意力的基础上增加了下采样操作,采用1D线性插值实现下采样;
3)将Fframe与上下文信息提取模块输出的帧级特征进行融合,得到特征F′frame作为边界池化的另一个输入,用于精细预测;
4)把粗预测过程中的特征
Figure BDA0003680529730000033
和F,以及精细预测过程中的帧级特征F′frame经过边界池化得到细粒度的特征
Figure BDA0003680529730000034
Figure BDA0003680529730000035
5)
Figure BDA0003680529730000036
Figure BDA0003680529730000037
分别经过两个不同的1D卷积进行精细化预测,其中一个卷积被用来预测边界回归的偏移量
Figure BDA0003680529730000038
Figure BDA0003680529730000039
Figure BDA00036805297300000310
分别表示开始时间和结束时间的偏移,另一个卷积用来预测精细化的分类cR,最后将得到的偏移量
Figure BDA00036805297300000311
加到粗边界获得精细化边界
Figure BDA00036805297300000312
Figure BDA00036805297300000313
Figure BDA00036805297300000314
分别表示精细化的开始和结束的时间;
优选的,所述粗分类中使用focal损失函数作为约束,调整正负样本的权重和控制困难和容易分类的样本,由于正负样本本身比例不均匀,并且负样本易分,因此我们引入一个参数γ,平衡比列并且调节为0.75,防止过拟合,具体公式如下:
Figure BDA0003680529730000041
其中NC是粗略过程中正样本的数量,
Figure BDA0003680529730000042
是粗粒度过程预测的粗分类结果,ci是真实标签。
所述精细化分类中使用focal损失函数作为约束条件,具体公式如下:
Figure BDA0003680529730000043
其中NR是当粗糙提议与真实样本的tIoU大于0.5时精化过程中正样本的数量,
Figure BDA0003680529730000044
是预测的精化分类结果通过细化过程,ci是基本事实标签,
优选的,所述二元交叉熵的损失函数定义如下:
Figure BDA0003680529730000045
其中
Figure BDA0003680529730000046
是带有超参数的二元交叉熵损失,由于原始的二元交叉熵损失函数收敛速度较慢,因此我们引入
Figure BDA0003680529730000047
来加快函数的收敛速度并且设置为0.3,
Figure BDA0003680529730000048
为细化的边界,ψi为真实样例,εi是从精细化过程生成的位置标签。
本发明的优点和有益效果:
1)通过对时间信息的挖掘和前景信息的注意,对特征增加了时间信息,并且增强了前景信息,对视频中动作实例的定位与分类起到了良好的作用,并且提升了效率;
2)样本经过模型训练,可以得到拟合效果良好的权重;并且这些权重作用于模型后,对视频中动作实例的定位和分类获得了较为显著的效果。
附图说明
图1为本发明的结构示意图;
图2为本发明的流程结构示意图;
图3为本发明与原始二分类交叉熵损失函数的收敛速度的比较示意图;
图4位本发明效果对比示意图。
具体实施方式
下面结合附图对本发明作进一步的描述;
实施例1:
如图1所示,为本发明的一种基于全局知识挖掘和前景注意力的交互视频动作检测方法的操作流程图,该方法的操作步骤包括:
1)对视频进行预处理,将未修剪的视频抽取成帧,表示为
Figure BDA0003680529730000049
在训练集中包含T帧;
2)通过I3D网络将生成的视频帧获得时空特征序列,对于一个视频V∈RC×T×H×W,C,T,H和W分别代表通道,时间,高度和宽度。本发明通过I3D网络获得时空特征。然后,获得的时空特征经过3D卷积变成1D特征序列F′.这样的特征包含整个视频的时间和空间信息,把这样的一维特征序列作为整个视频的特征表示。
3)利用上下文信息提取模块提取不同层次的特征,具体的,将特征序列F′输入到上下文信息提取模块提取不同层次的特征,采用线性插值将高层特征的信息递归加到低层特征中,获得具有充足的语义信息和局部细节的特征
Figure BDA0003680529730000051
Tn∈{2,4,8,…,64}代表不同的时间尺度,同时该模块还会产生用于边界池化的帧级特征。
4)通过时间信息提取模块挖掘视频的全局信息,将视频帧作为输入,利用编码层从整个视频中获取时间信息,用于补偿不同层次的特征在下采样过程中丢失的时间信息;所述通过时间信息提取模块获取时间信息的具体步骤如下:
利用空间编码器对同一时间索引中提取的块之间建立关系,然后将所有的空间编码器输出的特征输入到对不同时间索引的帧建立联系的时间编码器中捕获全局信息,获取具有时间信息的多个时间尺度的特征
Figure BDA0003680529730000052
式中Tn代表不同的时间尺度,C代表的是通道,具体公式如下:
Figure BDA0003680529730000053
式中SpatialT代表的是空间编码器,TemporalT代表的是时间编码器,Linear代表的是全连接层,embeding是将时间加入空间特征并进行嵌入;
5)将上文信息捕获模块获得的特征序列F和时间信息提取模块获得的特征序列Fl连接起来,获得具有丰富上下文信息的特征序列
Figure BDA0003680529730000054
Figure BDA0003680529730000055
6)基于以上特征,得到粗时间边界
Figure BDA0003680529730000056
和粗分类cC
Figure BDA0003680529730000057
代表位置i到开始时间的距离,
Figure BDA0003680529730000058
代表位置i到结束时间的距离,i∈{0,1,…,t-1},t代表的是金字塔特征的时间长度;
7)获取第i个位置开始时间和结束时间:
Figure BDA0003680529730000059
其中
Figure BDA00036805297300000510
表示特征中相应第i个位置的粗开始时间,
Figure BDA00036805297300000511
表示特征中相应第i个位置的粗结束时间;
8)根据不同层次的特征结合损失函数利用前景信息增强模块得到精细化特征,利用精细化特征,得到精细化边界偏移和精细化分类,并将边界偏移加到粗边界上得到精细化边界,所述利用前景信息增强模块得到精细化特征,具体过程如下:
8-1)将粗边界和粗分类的结果输入到边界池化层,
8-2)将整个视频帧输入到前景信息增强模块,该模块将每个视频帧xi∈RH×W×C进行图像分块处理,将H×W×C的图片用P×P大小的块将每一个视频帧分成D=HW/P2个块;
将D个块向量拼接得到一个二维特征矩阵并对特征序列进行位置嵌入得到帧级特征,实现过程为:
Fframe=Linear(FSA(xi)) i=1,…,T, (4)
式中FSA是前景信息注意编码器,在自注意力的基础上增加了下采样操作,采用1D线性插值实现下采样;
8-3)将Fframe与上下文信息提取模块输出的帧级特征进行融合,得到特征F′frame作为边界池化的另一个输入,用于精细预测;
8-4)把粗预测过程中的特征
Figure BDA0003680529730000061
和F,以及精细预测过程中的帧级特征F′frame经过边界池化得到细粒度的特征
Figure BDA0003680529730000062
Figure BDA0003680529730000063
8-5)
Figure BDA0003680529730000064
Figure BDA0003680529730000065
分别经过两个不同的1D卷积进行精细化预测,其中一个卷积被用来预测边界回归的偏移量
Figure BDA0003680529730000066
Figure BDA0003680529730000067
Figure BDA0003680529730000068
分别表示开始时间和结束时间的偏移,另一个卷积用来预测精细化的分类cR,最后将得到的偏移量
Figure BDA0003680529730000069
加到粗边界获得精细化边界
Figure BDA00036805297300000610
Figure BDA00036805297300000611
Figure BDA00036805297300000612
分别表示精细化的开始和结束的时间;
以上粗略预测和精细预测预测在其生成过程中都需要损失函数来进行约束,防止预测过拟合。本发明在粗略过程中对动作实例的粗略边界回归和分类使用不同的损失函数。并且在细化过程中,对动作实例的精细边界的回归和分类使用了不同的损失函数,同时对预测的概率也使用了二元交叉熵损失。总损失函数的计算可以定义为:
Figure BDA00036805297300000613
其中
Figure BDA00036805297300000614
Figure BDA00036805297300000615
分别是粗分类和细分类的损失函数用来约束视频预测的分类结果,
Figure BDA00036805297300000616
Figure BDA00036805297300000617
分别是粗边界回归和细化边界回归的损失函数用来约束视频中动作实例的边界结果,Lbce是二元交叉熵的损失函数,α和β是超参数。
所述粗分类中使用focal损失函数作为约束,调整正负样本的权重和控制困难和容易分类的样本,由于正负样本本身比例不均匀,并且负样本易分,因此我们引入一个参数γ,平衡比列并且调节为0.75,防止过拟合,具体公式如下:
Figure BDA0003680529730000071
其中NC是粗略过程中正样本的数量,
Figure BDA0003680529730000072
是粗粒度过程预测的粗分类结果,ci是真实标签。
采用IoU loss作为粗边界回归的约束。预测结果
Figure BDA0003680529730000073
是粗粒度过程预测的粗略边界,
Figure BDA0003680529730000074
是对应的真实边界并且拉近与预测的结果距离。
所述精细化分类中使用focal损失函数作为约束条件,具体公式如下:
Figure BDA0003680529730000075
其中NR是当粗糙提议与真实样本的tIoU大于0.5时精化过程中正样本的数量,认为它们是正样本,
Figure BDA0003680529730000076
是预测的精化分类结果通过细化过程,ci是基本事实标签。
Figure BDA0003680529730000077
采用GIoU loss作为粗边界回归的约束。在细化边界回归中,
Figure BDA0003680529730000078
使用SmoothL1作为损失函数,预测出
Figure BDA0003680529730000079
是粗边界和对应的真实边界之间的偏移量,通过
Figure BDA00036805297300000710
来细化回归的目标边界。
所述二元交叉熵的损失函数定义如下:
Figure BDA00036805297300000711
其中
Figure BDA00036805297300000712
是一个带有超参数的二元交叉熵损失。有了超参数的辅助,使得模型的收敛速度更快。其在正样本(上)和负样本(下)数据收敛情况如图3所示。
Figure BDA00036805297300000713
和ψi分别是细化的边界和相应的真实样例。εi是从精细化过程生成的位置标签。在推理中,使用粗边界
Figure BDA00036805297300000714
粗分类结果cC和来自细化过程的偏移
Figure BDA00036805297300000715
细化分类结果cR和置信度得分ε。最后,采用Soft-NMS来处理所有预测以抑制冗余提议;最后就实现了对视频中动作的检测;
为了验证本发明的有效性,在时序动作检测数据集THUMOS14和ActivityNet1.3上进行了评测。
THUMOS14数据集:包含101个视频类别,由四个部分组成:训练、验证、测试和背景集。每各部分包括13320,1010,1574和2500段未剪辑的视频。其中验证集中的200个视频用于训练,测试集中的213个视频用于测试;
ActivityNet1.3数据集:是一个大规模的动作数据集,包含200个活动类和大约20000个超过600小时的视频。数据集被分为三个子集:10024个用于训练的视频,4926个用于验证,5044个用于测试;
具体实验设置为:在数据集THUMOS14中,验证集中的200个视频用于训练,测试集中的213个视频用于测试;在数据集ActivityNet1.3中,以2:1:1的比例将数据集分为训练、测试和验证。本发明提出的基于全局知识挖掘和前景注意力的交互视频动作检测方法具有较好的检测性能。下表为经典动作识别算法与本发明在THUMOS14和ActivityNet1.3数据集上性能的比较;
Figure BDA0003680529730000081
Figure BDA0003680529730000082
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制;尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (5)

1.一种基于全局知识挖掘和前景注意力的交互视频动作检测方法,其特征在于,该方法具体包含以下步骤:
1)对视频进行预处理,将未修剪的视频抽取成帧,表示为
Figure FDA0003680529720000011
在训练集中包含T帧;
2)通过I3D网络将生成的视频帧获得时空特征序列,将获得的时空特征经过3D卷积变成1D特征序列F′,使特征包含整个视频的时间和空间信息,把特征序列F′作为整个视频的特征表示;
3)将特征序列F′输入到上下文信息提取模块提取不同层次的特征,采用线性插值将高层特征的信息递归加到低层特征中,获得具有充足的语义信息和局部细节的特征
Figure FDA0003680529720000012
Tn∈{2,4,8,…,64}代表不同的时间尺度,C代表的是特征的通道,同时该模块还会产生用于边界池化的帧级特征;
4)通过时间信息提取模块将视频帧作为输入,利用编码层从整个视频中获取时间信息,用于补偿不同层次的特征在下采样过程中丢失的时间信息;
5)将上文信息捕获模块获得的特征序列F和时间信息提取模块获得的特征序列Fl连接起来,获得具有丰富上下文信息的特征序列
Figure FDA0003680529720000013
Figure FDA0003680529720000014
6)基于以上特征,得到粗时间边界
Figure FDA0003680529720000015
和粗分类cC
Figure FDA0003680529720000016
代表位置i到开始时间的距离,
Figure FDA0003680529720000017
代表位置i到结束时间的距离,i∈{0,1,…,t-1},t代表的是金字塔特征的时间长度;
7)获取第i个位置开始时间和结束时间:
Figure FDA0003680529720000018
其中
Figure FDA0003680529720000019
表示特征中相应第i个位置的粗开始时间,
Figure FDA00036805297200000110
表示特征中相应第i个位置的粗结束时间;
8)根据不同层次的特征结合损失函数利用前景信息增强模块得到精细化特征,利用精细化特征,得到精细化边界偏移和精细化分类,并将边界偏移加到粗边界上得到精细化边界,所述损失函数具体如下:
Figure FDA00036805297200000111
其中
Figure FDA0003680529720000021
Figure FDA0003680529720000022
分别是粗分类和细分类的损失函数用来约束视频预测的分类结果,
Figure FDA0003680529720000023
Figure FDA0003680529720000024
分别是粗边界回归和细化边界回归的损失函数用来约束视频中动作实例的边界结果,Lbce是二元交叉熵的损失函数,α和β是超参数。
2.根据权利要求1所述的基于全局知识挖掘和前景注意力的交互视频动作检测方法,其特征在于,所述通过时间信息提取模块获取时间信息的具体步骤如下:
利用空间编码器对同一时间索引中提取的块之间建立关系,然后将所有的空间编码器输出的特征输入到对不同时间索引的帧建立联系的时间编码器中捕获全局信息,获取具有时间信息的多个时间尺度的特征
Figure FDA0003680529720000025
式中Tn代表不同的时间尺度,C为特征的通道,具体公式如下:
Figure FDA0003680529720000026
式中SpatialT代表的是空间编码器,TemporalT代表的是时间编码器,Linear代表的是全连接层,embeding是将时间加入空间特征并进行嵌入;
3.根据权利要求1所述的基于全局知识挖掘和前景注意力的交互视频动作检测方法,其特征在于,所述利用前景信息增强模块得到精细化特征,具体过程如下:
1)将粗边界和粗分类的结果输入到边界池化层,
2)将整个视频帧输入到前景信息增强模块,该模块将每个视频帧xi∈RH×W×C进行图像分块处理,将H×W×C的图片用P×P大小的块将每一个视频帧分成D=HW/P2个块;
将D个块向量拼接得到一个二维特征矩阵并对特征序列进行位置嵌入得到帧级特征,实现过程为:
Fframe=Linear(FSA(xi))i=1,…,T, (5)
式中FSA是前景信息注意编码器,在自注意力的基础上增加了下采样操作,采用1D线性插值实现下采样;
3)将Fframe与上下文信息提取模块输出的帧级特征进行融合,得到特征F′frame作为边界池化的另一个输入,用于精细预测;
4)把粗预测过程中的特征
Figure FDA0003680529720000027
和F,以及精细预测过程中的帧级特征F′frame经过边界池化得到细粒度的特征
Figure FDA0003680529720000028
Figure FDA0003680529720000029
5)
Figure FDA00036805297200000210
Figure FDA00036805297200000211
分别经过两个不同的1D卷积进行精细化预测,其中一个卷积被用来预测边界回归的偏移量
Figure FDA00036805297200000212
Figure FDA00036805297200000213
Figure FDA00036805297200000214
分别表示开始时间和结束时间的偏移,另一个卷积用来预测精细化的分类cR,最后将得到的偏移量
Figure FDA00036805297200000215
加到粗边界获得精细化边界
Figure FDA0003680529720000031
Figure FDA0003680529720000032
Figure FDA0003680529720000033
分别表示精细化的开始和结束的时间;
4.根据权利要求1所述的基于全局知识挖掘和前景注意力的交互视频动作检测方法,其特征在于,所述粗分类中使用focal损失函数作为约束,调整正负样本的权重和控制困难和容易分类的样本,由于正负样本本身比例不均匀,并且负样本易分,因此我们引入一个参数γ,平衡比列并且调节为0.75,防止过拟合,具体公式如下:
Figure FDA0003680529720000034
其中NC是粗略过程中正样本的数量,
Figure FDA0003680529720000035
是粗粒度过程预测的粗分类结果,ci是真实标签。
所述精细化分类中使用focal损失函数作为约束条件,具体公式如下:
Figure FDA0003680529720000036
其中NR是当粗糙提议与真实样本的tIoU大于0.5时精化过程中正样本的数量,
Figure FDA0003680529720000037
是预测的精化分类结果通过细化过程,ci是真实标签,
5.根据权利要求1所述的基于全局知识挖掘和前景注意力的交互视频动作检测方法,其特征在于,所述二元交叉熵的损失函数定义如下:
Figure FDA0003680529720000038
其中
Figure FDA0003680529720000039
是带有超参数的二元交叉熵损失,由于原始的二元交叉熵损失函数收敛速度较慢,因此我们引入
Figure FDA00036805297200000310
来加快函数的收敛速度并且设置为0.3,
Figure FDA00036805297200000311
为细化的边界,ψi为训练过程中真实标签,εi是从精细化过程生成的位置标签。
CN202210636564.9A 2022-06-07 2022-06-07 基于全局知识挖掘和前景注意力的交互视频动作检测方法 Active CN114998799B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210636564.9A CN114998799B (zh) 2022-06-07 2022-06-07 基于全局知识挖掘和前景注意力的交互视频动作检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210636564.9A CN114998799B (zh) 2022-06-07 2022-06-07 基于全局知识挖掘和前景注意力的交互视频动作检测方法

Publications (2)

Publication Number Publication Date
CN114998799A true CN114998799A (zh) 2022-09-02
CN114998799B CN114998799B (zh) 2023-01-13

Family

ID=83033737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210636564.9A Active CN114998799B (zh) 2022-06-07 2022-06-07 基于全局知识挖掘和前景注意力的交互视频动作检测方法

Country Status (1)

Country Link
CN (1) CN114998799B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115410138A (zh) * 2022-11-02 2022-11-29 山东省人工智能研究院 基于特征编码器分类和定位串行的视频动作检测方法
CN116307218A (zh) * 2023-03-27 2023-06-23 松原市邹佳网络科技有限公司 基于人工智能的元宇宙体验用户行为预测方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097568A (zh) * 2019-05-13 2019-08-06 中国石油大学(华东) 一种基于时空双分支网络的视频对象检测与分割方法
CN110287819A (zh) * 2019-06-05 2019-09-27 大连大学 动态背景下基于低秩及稀疏分解的动目标检测方法
CN111310676A (zh) * 2020-02-21 2020-06-19 重庆邮电大学 基于CNN-LSTM和attention的视频动作识别方法
CN112926396A (zh) * 2021-01-28 2021-06-08 杭州电子科技大学 一种基于双流卷积注意力的动作识别方法
CN113657260A (zh) * 2021-08-16 2021-11-16 淮北师范大学 一种弱监督时序行为定位方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097568A (zh) * 2019-05-13 2019-08-06 中国石油大学(华东) 一种基于时空双分支网络的视频对象检测与分割方法
CN110287819A (zh) * 2019-06-05 2019-09-27 大连大学 动态背景下基于低秩及稀疏分解的动目标检测方法
CN111310676A (zh) * 2020-02-21 2020-06-19 重庆邮电大学 基于CNN-LSTM和attention的视频动作识别方法
CN112926396A (zh) * 2021-01-28 2021-06-08 杭州电子科技大学 一种基于双流卷积注意力的动作识别方法
CN113657260A (zh) * 2021-08-16 2021-11-16 淮北师范大学 一种弱监督时序行为定位方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TONG WANG等: "Unsupervised Deep Cross-modal Hashing with Virtual Label Regression", 《NEUROCOMPUTING》 *
陈琳等: "基于双重属性信息的跨模态行人重识别算法", 《北京航空航天大学学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115410138A (zh) * 2022-11-02 2022-11-29 山东省人工智能研究院 基于特征编码器分类和定位串行的视频动作检测方法
CN116307218A (zh) * 2023-03-27 2023-06-23 松原市邹佳网络科技有限公司 基于人工智能的元宇宙体验用户行为预测方法及系统

Also Published As

Publication number Publication date
CN114998799B (zh) 2023-01-13

Similar Documents

Publication Publication Date Title
Himeur et al. Video surveillance using deep transfer learning and deep domain adaptation: Towards better generalization
CN114998799B (zh) 基于全局知识挖掘和前景注意力的交互视频动作检测方法
Huang et al. A visual–textual fused approach to automated tagging of flood-related tweets during a flood event
CN110598620B (zh) 基于深度神经网络模型的推荐方法和装置
CN113344206A (zh) 融合通道与关系特征学习的知识蒸馏方法、装置及设备
Passalis et al. Efficient adaptive inference for deep convolutional neural networks using hierarchical early exits
CN113239869B (zh) 基于关键帧序列和行为信息的两阶段行为识别方法及系统
Cho et al. Tackling background distraction in video object segmentation
Medel Anomaly detection using predictive convolutional long short-term memory units
CN116018621A (zh) 利用部分标记的训练数据训练多类别对象分类模型的系统和方法
CN113255625A (zh) 一种视频检测方法、装置、电子设备和存储介质
CN116863384A (zh) 一种基于CNN-Transfomer的自监督视频分割方法和系统
Zhu et al. Srdd: a lightweight end-to-end object detection with transformer
Almahadin et al. Enhancing video anomaly detection using spatio-temporal autoencoders and convolutional lstm networks
Nguyen et al. Video action recognition collaborative learning with dynamics via PSO-ConvNet Transformer
CN114998360A (zh) 一种基于SUnet算法的脂肪细胞祖细胞分割方法
CN113850012A (zh) 数据处理模型生成方法、装置、介质及电子设备
Liu et al. Research on vehicle detection based on improved YOLOX_S
CN115292439A (zh) 一种数据处理方法及相关设备
CN112131429A (zh) 一种基于深度预测编码网络的视频分类方法及系统
CN116994264A (zh) 一种文本识别方法、芯片及终端
Ganesh et al. A New Ontology Convolutional Neural Network for Extorting Essential Elements in Video Mining
CN116246147A (zh) 基于跨层特征融合和线性注意力优化的跨物种目标检测方法
Deng et al. Differentiable Resolution Compression and Alignment for Efficient Video Classification and Retrieval
CN115774817A (zh) 信息处理模型的训练方法、信息处理方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant