CN114419487A - 一种内容时间关系网络及生成时间动作提案的方法 - Google Patents
一种内容时间关系网络及生成时间动作提案的方法 Download PDFInfo
- Publication number
- CN114419487A CN114419487A CN202111607289.XA CN202111607289A CN114419487A CN 114419487 A CN114419487 A CN 114419487A CN 202111607289 A CN202111607289 A CN 202111607289A CN 114419487 A CN114419487 A CN 114419487A
- Authority
- CN
- China
- Prior art keywords
- proposal
- content
- time
- module
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009471 action Effects 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000010586 diagram Methods 0.000 claims abstract description 39
- 238000011156 evaluation Methods 0.000 claims abstract description 30
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 19
- 230000003044 adaptive effect Effects 0.000 claims description 54
- 238000004364 calculation method Methods 0.000 claims description 35
- 238000005070 sampling Methods 0.000 claims description 25
- 230000007246 mechanism Effects 0.000 claims description 20
- 230000004927 fusion Effects 0.000 claims description 19
- 230000002123 temporal effect Effects 0.000 claims description 18
- 239000000284 extract Substances 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 description 10
- 230000010339 dilation Effects 0.000 description 8
- 230000006978 adaptation Effects 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 210000003813 thumb Anatomy 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- OFMQLVRLOGHAJI-FGHAYEPSSA-N (4r,7s,10s,13r,16s,19r)-n-[(2s,3r)-1-amino-3-hydroxy-1-oxobutan-2-yl]-19-[[(2r)-2-amino-3-phenylpropanoyl]amino]-10-[3-(diaminomethylideneamino)propyl]-7-[(1r)-1-hydroxyethyl]-16-[(4-hydroxyphenyl)methyl]-13-(1h-indol-3-ylmethyl)-3,3-dimethyl-6,9,12,15,18 Chemical compound C([C@H]1C(=O)N[C@H](CC=2C3=CC=CC=C3NC=2)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@H](C(=O)N[C@@H](C(SSC[C@@H](C(=O)N1)NC(=O)[C@H](N)CC=1C=CC=CC=1)(C)C)C(=O)N[C@@H]([C@H](O)C)C(N)=O)[C@@H](C)O)C1=CC=C(O)C=C1 OFMQLVRLOGHAJI-FGHAYEPSSA-N 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种内容时间关系网络及生成时间动作提案的方法,能够解决在视频中难以生成高质量时序动作提案的问题。所述内容时间关系网络包括:特征编码模块、基础网络、提案评估网络、帧评估网络;所述特征编码模块得到视频特征序列;所述基础网络用于提取帧级别特征之间的双向语义关系,输出最终特征序列;所述提案评估网络包括提案特征图生成层和内容‑时间关系模块,所述提案特征图生成层将所述最终特征序列转化为二维时域提案特征图;所述内容‑时间关系模块基于所述二维时域提案特征图,获取提案之间的内容和时间语义关系,预测每个提案的置信度和完整性;所述帧评估网络输出每帧为动作帧、开始帧、以及结束帧的概率。
Description
技术领域
本发明涉及视频分析领域,具体涉及一种内容时间关系网络及生成时间动作提案(temporal action proposal)的方法。
背景技术
目前,动作识别普遍只关注人工裁剪的视频,无法处理现实场景中大量未裁剪的视频。这个问题引出了时间动作检测这一技术问题。时间动作检测同时确定未修剪视频中的时间边界和动作类别。尽管动作分类取得了显著的性能提升,但在许多主流基准测试中,时间动作检测性能仍不尽如人意,提案的质量限制了时间动作检测的性能。一个视频可以包含上千个提案,每个提案不能与所有其他提案有关联。现有技术PGCN只考虑每个提案的本地邻域,使用GCNs来建模它们之间的关系。然而,该方法在训练过程中需要为每批构建一个新的图,计算时间代价很高。
因此,为了提高动作提案的质量进而提高时间动作检测精度,本发明设计了一个内容时间关系网络(CTRNet)来生成时间动作提案。
发明内容
有鉴于此,本发明提供了一种内容时间关系网络及生成时间动作提案的方法,能够解决在视频中动作个数及出现位置不确定、动作长度变化范围大情况下难以生成高质量时序动作提案的技术问题。
针对时间动作检测和提案之间的关系,本发明采用一个内容时间关系网络(CTRNet)来生成时间动作提案,它同时对内容和时间语义关系进行特征采集,进而生成高质量的提案。本发明首先生成密集分布的提案,并将所有提案投射到一个特征子空间中,以捕获它们的关系。设计了提案特征图生成层,将提案之间的时间语义关系转换为空间关系。在提案特征映射的基础上,利用滑动窗口获取每个提案的关联提案,并根据滑动窗口的大小和扩展速率确定关联提案的数量和粒度。本发明采用一个应用于提案特征图的内容-时间关系模块,同时对提案之间的内容和时间语义关系进行建模。在该模块中,本发明创新性地使用自适应扩张卷积,它的扩张速率自适应于空间位置,以建模时间语义关系。自适应扩张卷积滤波器的权值只依赖于空间位置,通过训练可以对复杂的空间结构进行建模。本发明还采用注意机制设计了一个内容自适应卷积操作,其权重依赖于像素特征,以建模提案之间的内容语义关系。最后,使用多种融合机制来融合内容和时间的语义关系信息。
为了解决上述技术问题,本发明是这样实现的。
一种内容时间关系网络,所述内容时间关系网络包括:
特征编码模块、基础网络、提案评估网络、帧评估网络;
所述基础网络接收所述视频特征序列用于提取帧级别特征之间的双向语义关系,输出最终特征序列所述基础网络包括一个残差模块和一个双向LSTM模块,所述双向LSTM模块包括前向LSTM和反向LSTM,前向LSTM和反向LSTM各由一个两层LSTM组成;所述视频特征序列输入所述残差模块,所述残差模块的输出分别输入所述前向LSTM和反向LSTM,将所述前向LSTM和反向LSTM的输出沿特征维度拼接得到最终特征序列其中,为前向LSTM的输出序列,为反向LSTM的输出序列;
所述提案评估网络包括提案特征图生成层和内容-时间关系模块,所述提案特征图层接收所述最终特征序列将所述最终特征序列转化为特征维度相同、每行动作提案长度相等的二维时域提案特征图;所述内容-时间关系模块基于所述二维时域提案特征图,获取提案之间的内容和时间语义关系,预测每个提案的置信度和完整性;所述内容-时间关系模块包括时间关系模块、内容关系模块和融合模块;所述二维时域提案特征图同时分别输入时间关系模块、内容关系模块,所述时间关系模块从所述二维时域提案特征图中提取提案之间的时间语义关系,所述内容关系模块从所述二维时域提案特征图中提取提案之间的内容语义关系;所述融合模块将所述时间语义关系与所述内容语义关系进行融合,将融合后的提案特征输入分类器,得到置信度分数和完整性分数所述提案特征图生成层是在卷积层上叠加抽样和排列规则得到的;
Fu1=Conv1d(F)
Fu=Fu1+Conv1d(Fu1) (1)
其中,F为特征序列,Convld为一维卷积,Fu1为第一层一维卷积的输出,Fu为残差模块的最终输出;
优选地,双向LSTM模块的双向编码过程定义为:
其中,和分别为前向LSTM和后向LSTM的隐藏状态序列;为最终特征序列;为前向LSTM的第一次计算得到的隐藏层特征,为前向LSTM的第T次计算得到隐藏层特征,为反向LSTM的第1次计算得到隐藏层特征,为反向LSTM的第T次计算得到隐藏层特征,是和经过沿特征维度拼接处理得到的,为前向LSTM的第t次计算得到隐藏层特征,为反向LSTM的第t次计算得到隐藏层特征。
优选地,所述抽样和排列规则为:1)采穷举法列出所有可能的动作提案,其长度范围为[1,T];2)对于每一个动作提案,在其对应区间的最终特征序列H上采用线性差值法抽样出k个特征,将其拼接起来后用一个全连接层处理,得到动作提案特征;3)将所有的提案特征按照横轴为起始时间、纵轴为提案长度排列,得到二维时间特征图FM′;4)将FM′上的每个提案沿横轴移动个位置得到最终的二维时域提案特征图FM,其中d为每个提案的纵坐标。
优选地,所述时间关系模块通过改变卷积层的邻域选取规则得到基于自适应扩张的二维卷积计算,进而获得所述二维时域提案特征图中提案之间的时间语义关系;所述自适应扩张的二维卷积计算的机制为:每一个提案以其自身长度除以自适应率为采样步长选择其邻域的其他提案,所述自适应率是基于自适应扩张的二维卷积中定义的一个参数,通过设定自适应率的参数值能够决定不同位置提案邻域采样的步长;所述自适应扩张的二维卷积计算的计算方式为:
其中vm,n∈Rc为特征图(m,n)位置上的特征;r为自适应率,是一个常数变量;s是卷积核的核长,自适应扩张的二维卷积计算进行采样的卷积核两个维度的核长都相同,均为s;Wi,j是卷积核(i,j)位置上的参数,v'm,n是经过自适应扩张的二维卷积处理后的特征图(m,n)位置上的特征,b是偏置量。
优选地,所述内容关系模块通过基于注意力机制的自适应卷积计算,获得所述二维时域提案特征图中提案之间的内容语义关系;所述基于注意力机制的自适应卷积计算,其机制为每一个提案以其自身长度除以自适应率为采样步长选择其邻域的其他提案,并利用注意力机制计算提案与邻域内其他提案的注意力权重,将其加权求和后再用一个全连接层处理所述内容关系模块的自适应权重依赖于像素特征,对提案之间的内容语义关系进行建模;所述基于注意力机制的自适应卷积运算的运算方式为:
其中,vm,n∈Rc为特征图(m,n)位置上的特征,是内容自适应权重,它依赖于特征vm,n和表示对提案内容语义关系,r为自适应率,是一个常数变量;s是卷积核的核长,所述基于注意力机制的自适应卷积运算中采样的卷积核两个维度的核长都相同,均为s;
将内容自适应权重重写为:
函数S(·)以特征对为输入,输出标量,表示内容语义关系权重;W是一个参数矩阵,由1×1卷积实现,用于变换输入特征;则内容自适应卷积运算表示为:
优选地,所述融合模块将所述时间语义关系与所述内容语义关系进行融合,将融合后的提案特征输入分类器,得到提案置信度分数和完整性分数;将与真实动作的重合度大于阈值的提案看作正样本,其余为负样本,利用分类器预测每个提案为正样本的概率分数作为置信度分数,同时用一个分类器预测每个提案与真实动作的重合度作为完整性分数。
一种生成时间动作提案的方法,所述方法基于如前所述内容时间关系网络,所述方法包括以下步骤:
步骤S1:获取视频,从视频中采样出视频片段序列,利用双流网络进行特征提取,得到视频特征;
步骤S2:将所述视频帧特征输入所述内容时间关系网络;
步骤S3:将所述内容时间关系网络输出的置信度分数、完整性分数、提案开始时刻开始概率分数、提案结束时刻结束概率分数和提案中间时刻该动作概率分数进行乘积融合,得到最终分数。
有益效果:
(1)本发明提供的内容时间关系网络同时利用提案之间的内容语义关系和时序语义关系来生成时间动作提案,通过对提案间内容和时序语义关系的探索获取更多信息,提高了提案特征的质量,从而可以生成高质量的时间动作提案。
(2)本发明提供的方法设计了一个提案特征图生成层,将提案间的时序关系转换为空间关系,使得可以更加高效便捷的为每个提案获取存在关系的其他提案;设计一个自适应扩张的卷积,可以高效建模动作提案间的时序语义关系;基于注意力机制设计了内容自适应的卷积操作,可以有效建模动作提案间的内容语义关系
附图说明
图1为内容时间关系网络(CTRNet)框架结构示意图;
图2为视频中动作示例示意图;
图3为提案特征图生成层生成2D时间提案特征图示意图;
图4为内容自适应卷积示意图;
图5为本发明在THUMOS’14数据集的定性结果;
图6为生成时间动作提案的方法流程示意图。
具体实施方式
下面结合附图和实施例,对本发明进行详细描述。
如图1-2所示,本发明一种内容时间关系网络,包括:
特征编码模块、基础网络、提案评估网络、帧评估网络;
所述基础网络接收所述视频特征序列用于提取帧级别特征之间的双向语义关系,输出最终特征序列所述基础网络包括一个残差模块和一个双向LSTM模块,所述双向LSTM模块包括前向LSTM和反向LSTM,前向LSTM和反向LSTM各由一个两层LSTM组成;所述视频特征序列输入所述残差模块,所述残差模块的输出分别输入所述前向LSTM和反向LSTM,将所述前向LSTM和反向LSTM的输出沿特征维度拼接得到最终特征序列其中,为前向LSTM的输出序列,为反向LSTM的输出序列;
所述提案评估网络包括提案特征图生成层和内容-时间关系模块,所述提案特征图生成层接收所述最终特征序列将所述最终特征序列转化为特征维度相同、每行动作提案长度相等的二维时域提案特征图;所述内容-时间关系模块基于所述二维时域提案特征图,获取提案之间的内容和时间语义关系,预测每个提案的置信度和完整性;所述内容-时间关系模块包括时间关系模块、内容关系模块和融合模块;所述二维时域提案特征图同时分别输入时间关系模块、内容关系模块,所述时间关系模块从所述二维时域提案特征图中提取提案之间的时间语义关系,所述内容关系模块从所述二维时域提案特征图中提取提案之间的内容语义关系;所述融合模块将所述时间语义关系与所述内容语义关系进行融合,将融合后的提案特征输入分类器,得到置信度分数和完整性分数所述提案特征图生成层是在卷积层上叠加抽样和排列规则得到的;
本发明采用特征编码方法,利用双通道网络从原始视频数据中提取特征;基础网络利用帧特征之间的双向长程关系得到高质量的帧特征;提案评价网络通过建立提案内容和时间语义关系模型来预测提案的置信度和完整性;帧评价网络(Frame Evaluation Net,FENet)通过挖掘动作信息和局部边界信息来生成动作、开始和结束的概率序列。
本实施例中,所述特征编码模块是一个双流网络,所述双流网络包括一个用于处理RGB帧的空间网络和一个用于处理堆叠光流帧的时间网络,所述空间网络和时间网络均为全连接层。
将视频片段序列输入所述双流网络,由所述空间网络和所述时间网络各生成一个特征序列。将两个特征序列在特征维度进行连接,得到一个视频特征序列其中,所述片段序列是在时间间隔τ内将一个未修剪的视频V下采样,得到的片段序列,每个片段st包含若干个光流帧和一个RGB帧;T为视频的片段数,也即特征序列的长度,t为索引符号,ft为由第t个片段序列得到的帧级特征。
Fu1=Conv1d(F)
Fu=Fu1+Conv1d(Fu1) (1)
其中,F为特征序列,Convld为一维卷积,Fu1为第一层一维卷积的输出,Fu为残差模块的最终输出。
其中,和分别为前向LSTM和后向LSTM的隐藏状态序列;为最终特征序列;为前向LSTM的第一次计算得到的隐藏层特征,为前向LSTM的第T次计算得到隐藏层特征,为反向LSTM的第1次计算得到隐藏层特征,为反向LSTM的第T次计算得到隐藏层特征,是和经过沿特征维度拼接处理得到的,为前向LSTM的第t次计算得到隐藏层特征,为反向LSTM的第t次计算得到隐藏层特征。
如图3所示,所述提案特征图生成层接收到最终特征序列由于动作的长度变化范围大导致提案的长度也变化多样,因此,为了对不同长度的动作提案进行统一评估,将提案建模成维度相同的特征并按规则排列,输出特征维度相同、每行动作提案长度相等的二维时域提案特征图。构建所述提案特征图层,所述提案特征图层是在卷积层的基础上,叠加抽样和排列规则得到的,本实施例中,所述抽样和排列规则为1)采穷举法列出所有可能的动作提案,其长度范围为[1,T];2)对于每一个动作提案,在其对应区间的最终特征序列H上采用线性差值法抽样出k个特征,将其拼接起来后用一个全连接层处理,得到动作提案特征;3)将所有的提案特征按照横轴为起始时间、纵轴为提案长度排列,得到二维时间特征图FM′;4)将FM′上的每个提案沿横轴移动个位置得到最终的二维时域提案特征图FM,其中d为每个提案的纵坐标。
假设每个提案只与其他地方提案有联系,但地方范围是不确定的。给定输入特征序列F∈RT×C,生成稠密分布的候选提案集对于每一个提案,将其延长一半的时间,通过线性插值得到扩展的提案,并从扩展的提案中得到N个样本位置,然后将这些时间位置特征连接起来,生成提案的特征fi∈RNC,最后,按照一定的规则排列上下文提案特征,得到提案特征图。具体来说,本实施例中,首先按照上述规则将所述最终特征序列转成二维时间特征图FM'∈RT×T×NC,所述二维时间特征图的前两个维度分别表示提案的长度和起始时刻。提案的起始时刻和长度应该满足ts+d≤T。然后,将每个提案(d-1)/2步沿着起始边界维度移动,得到最终的二维时域提案特征图FM∈RT×T×NC。
所述时间关系模块是由改变卷积层的邻域选取规则得到的基于自适应扩张的二维卷积计算构成,获得所述二维时域提案特征图中提案之间的时间语义关系。所述时间关系模块基于所述二维时域提案特征图的空间分布特点,即同行提案长度相同,设计了自适应扩张的二维卷积计算,其扩张速率依赖于像素位置。所述自适应扩张的二维卷积计算,其机制为:每一个提案以其自身长度除以自适应率为采样步长选择其邻域的其他提案,所述自适应率是基于自适应扩张的二维卷积中定义的一个参数,通过设定自适应率的参数值能够决定不同位置提案邻域采样的步长。所述自适应扩张的二维卷积计算的计算方式为:
其中vm,n∈Rc为特征图(m,n)位置上的特征;r为自适应率,是一个常数变量;s是卷积核的核长,本方法中采样的卷积核两个维度的核长都相同,均为s;Wi,j是卷积核(i,j)位置上的参数,v'm,n是经过自适应扩张的二维卷积处理后的特征图(m,n)位置上的特征,b是偏置量。提案的长度取决于提案在时间提案特征映射上的位置,提案在位置(m,n)处的长度为m。因此,自适应扩张的二维卷积计算的膨胀率也取决于提案的长度。提案与其选择的左侧第一个提案之间的计算时间片段重叠度的指标时域交并比(temporal intersectionand union,tIoU),可以写成
其中r是常数,所以tIoU也是常数。对于其他选定的提案,其与原始提案的关系也取决于所述自适应率。在所述二维时域提案特征图上应用自适应扩张的二维卷积计算,使得不同长度的提案使用相同的时间粒度来选择关系提案,帮助生成时间动作提案。
如图4所示,所述内容关系模块是在基于自适应扩张的二维卷积(上文提到的时序关系模块中定义设计的新的模型,它是通过改变了卷积层的邻域选取规则而得到的,从而使特征图上不同特征根据其位置自适应的决定其领域的采样步长,而不再是传统卷积里所有位置的邻域采样步长是一样的)中加入注意力机制得到的,设计了基于注意力机制的自适应卷积计算,获得所述二维时域提案特征图中提案之间的内容语义关系。所述自适应卷积计算,其机制为每一个提案以其自身长度除以自适应率为采样步长选择其邻域的其他提案,并利用注意力机制计算提案与邻域内其他提案的注意力权重,将其加权求和后再用一个全连接层处理所述内容关系模块的自适应权重依赖于像素特征,对提案之间的内容语义关系进行建模。所述基于注意力机制的自适应卷积运算的运算方式为:
其中,vm,n∈Rc为特征图(m,n)位置上的特征,是内容自适应权重,它依赖于特征vm,n和表示对提案内容语义关系,r为自适应率,是一个常数变量;s是卷积核的核长,本方法中采样的卷积核两个维度的核长都相同,均为s。
将内容自适应权重重写为:
函数S(·)以特征对为输入,输出标量,表示内容语义关系权重。W是一个参数矩阵,由1×1卷积实现,用于变换输入特征。则内容自适应卷积运算可表示为:
采用特征相似度来表征内容语义关系。将函数S(·)定义为:
其中Wv为待学习的参数矩阵。
所述融合模块将所述时间语义关系与所述内容语义关系进行融合,将融合后的提案特征输入分类器,得到提案置信度分数和完整性分数。所述融合模块旨在将时间和内容关系特征的互补信息进行彻底融合。将与真实动作的重合度大于阈值的提案看作正样本,其余为负样本,利用分类器预测每个提案为正样本的概率分数作为置信度分数,同时用一个分类器预测每个提案与真实动作的重合度作为完整性分数。
所述帧评估网络与所述提案评估网络同时接收所述最终特征序列
利用Python在两个标准的时间动作检测数据集THUMOS’14和ActivityNet-1.3上对上述方法进行训练并通过其他最新成果比较来验证其有效性,具体以下述三例来说明。
例1:消融研究。消融研究中的所有实验都在THUMOS’14数据集上进行。
提案-提案关系的有效性。为了探究提案-提案关系如何帮助改进临时行动提案生成的性能,我们实现了一个基线和CTRNet的两个变体:1)基线,它包括基础网、提案特征图生成层和1×1卷积层,后面是一个s形层;2)时间关系网络(TRNet),去掉了内容时间关系网络中的内容关系模块;3)内容关系网络(CRNet),去掉了内容时间关系网络的时间关系模块。基线在二维临时提案特征图上应用1×1卷积来独立处理每个提案特征,忽略提案-提案关系。TRNet采用基于二维时间提案特征图的时间关系模块对提案进行评估,只考虑提案之间的时间语义关系。CRNet只包含一个内容关系模块;因此,它只利用提案之间的内容语义关系。实验结果如表1所示。
表1
将TRNet和CRNet与基线进行比较,发现TRNet在AR@50、AR@100和AR@200上的性能分别提高了1.69%、1.56%和0.72%,而CRNet在AR@50、AR@100和AR@200上的性能分别提高了1.64%、1.24%和1.1%。结果表明,提案-提案关系对于提高临时行动提案生成的性能至关重要。
对比TRNet、CRNet和CTRNet,发现CTRNet的性能优于其他模型,表明时间和内容语义关系对时间动作提案生成都很重要。
自适应扩张卷积的有效性。为了进一步证明我们提出的自适应膨胀卷积的有效性,我们采用标准的二维膨胀卷积构建内容时间关系网络,并尝试多个膨胀率进行实验。结果如表2所示。可见自适应扩张锥比不同扩张锥的标准二维扩张锥表现更好。这些实验结果证实了我们提出的自适应扩张卷积在时间动作提案生成中的作用。
表2
不同融合策略的有效性。为了更好地利用内容关系和时间关系信息,比较了表3中不同的融合策略,发现求和融合效果最好。这说明简单的特征图求和已经是一种很好的融合技术,而复杂的融合策略会导致较差的结果。
表3
CTRNet的网络架构设置。每个关系提案的数量和关系粒度是影响模型性能的重要超参数。因此,我们通过调整滑动窗口的大小来改变被选提案的数量,并通过调整自适应速率来确定关系粒度来探索时间动作提案生成的最佳模型。如表4所示,比较了在THUMOS’14数据集上AR@ANs的不同核大小和自适应速率的结果。当核大小固定为7时,增加自适应速率将改善结果。但当自适应速率超过7时,由于考虑到许多关系提案会引入背景信息,性能会下降。改变内核大小也会导致同样的现象。将自适应速率固定为7,并增加内核大小。当内核大小超过7时,性能将不再增加。
表4
例2:与THUMOS’14数据集上的最新结果进行比较。
时间动作提案生成。在时间动作提案生成任务中,我们将本方法与TURN[20]、CTAP[40]、BSN[10]、BMN[17]、MGG[22]、RapNet[34]、DBG[7]、TSA-Net[41]、BG-GNN[18]、CMSN[42]、Zhao等人[8]、Gao等人[19]等先进方法进行了比较。对比结果如表5所示。我们发现,我们的方法在AR@50上取得了46.31%的成绩,在AR@100上取得了55.10%的成绩,在AR@200上取得了61.33%的成绩。特别是在AR@100上,我们的模型比之前的最佳方法(即Gao etal.[19])提高了3.43%(从51.67%提高到55.1%)。进一步证明了本文方法的优越性。
表5
时间动作检测。为了进一步评估我们提出的方法的质量,我们将CTRNet生成的提案放在一个时间动作检测器中,并评估其检测性能。继BSN[10]之后,我们使用UntrimmedNet[43](UNet)作为动作检测器,并采用前2名的视频级分类结果生成提案的分类结果。表6给出了在THUMOS’14[13]数据集上,我们所提出的方法与以往最先进的方法的检测性能比较。我们可以观察到,Ours+UNet在大多数阈值上都有显著的mAP缺口,优于之前的最先进的方法。特别是,随着阈值的增加,我们的方法与以前的最先进的方法之间的mAP差距变得更大。与之前的最佳方法(Gao et al.[19])相比,我们的模型在tIoU=0.4时提高了0.6%,tIoU=0.5时提高了3.4%,tIoU=0.6时提高了5.2%,tIoU=0.7时提高了5.9%。它表明CTRNet产生的提案有更精确的时间界限。
表6
定性结果。如图5所示,我们可视化了THUMOS’14数据集上排名最高的提案的一些示例。每个案例由一个从测试视频中采样的帧序列组成。ground-truth操作实例用绿线标记,而CTRNet生成的提案用蓝线及其最终得分标记。通过对生成的提案进行比较,我们发现一些生成的提案有很高的重叠,但它们的最终得分有很大的差距,说明我们的方法非常注重边界定位,易于生成边界精确的提案。
例3:与ActivetyNet-1.3最新结果的比较。
我们总结了在ActivetyNet-1.3[14]数据集上,本文提出的方法与以往最先进的方法在时间动作提案生成和时间动作检测任务方面的对比结果,如表7和表8所示。从表7和表8可以看出,除了在tIoU=0.95时的mAP分数外,我们的方法在两个任务中都优于BMN[17]。在ActivetyNet-1.3数据集中,验证集的平均视频长度为3280帧,动作实例的长度不同,从视频长度的0.04%到100%不等。在我们的方法中,我们将视频缩放到100帧,以减少计算成本,这使得一些动作实例的边界模糊。因此,我们的方法在tIoU=0.95时的性能低于其他一些方法。但在实际应用中,地面真实动作实例大于0.95的预测动作实例tIoU是不需要的。
表7
表8
本发明还提供了一种生成时间动作提案的方法,如图6所示,该方法基于如前所述的内容时间关系网络,所述方法包括以下步骤:
步骤S1:获取视频,从视频中采样出视频片段序列,利用双流网络网络进行特征提取,得到视频特征;
步骤S2:将所述视频帧特征输入所述内容时间关系网络;
步骤S3:将所述内容时间关系网络输出的置信度分数、完整性分数、提案开始时刻开始概率分数、提案结束时刻结束概率分数和提案中间时刻该动作概率分数进行乘积融合,得到最终分数。
以上的具体实施例仅描述了本发明的设计原理,该描述中的部件形状,名称可以不同,不受限制。所以,本发明领域的技术人员可以对前述实施例记载的技术方案进行修改或等同替换;而这些修改和替换未脱离本发明创造宗旨和技术方案,均应属于本发明的保护范围。
Claims (9)
1.一种内容时间关系网络,其特征在于,所述内容时间关系网络包括:
特征编码模块、基础网络、提案评估网络、帧评估网络;
所述基础网络接收所述视频特征序列用于提取帧级别特征之间的双向语义关系,输出最终特征序列所述基础网络包括一个残差模块和一个双向LSTM模块,所述双向LSTM模块包括前向LSTM和反向LSTM,前向LSTM和反向LSTM各由一个两层LSTM组成;所述视频特征序列输入所述残差模块,所述残差模块的输出分别输入所述前向LSTM和反向LSTM,将所述前向LSTM和反向LSTM的输出沿特征维度拼接得到最终特征序列其中,为前向LSTM的输出序列,为反向LSTM的输出序列;
所述提案评估网络包括提案特征图生成层和内容-时间关系模块,所述提案特征图生成层接收所述最终特征序列将所述最终特征序列转化为特征维度相同、每行动作提案长度相等的二维时域提案特征图;所述内容-时间关系模块基于所述二维时域提案特征图,获取提案之间的内容和时间语义关系,预测每个提案的置信度和完整性;所述内容-时间关系模块包括时间关系模块、内容关系模块和融合模块;所述二维时域提案特征图同时分别输入时间关系模块、内容关系模块,所述时间关系模块从所述二维时域提案特征图中提取提案之间的时间语义关系,所述内容关系模块从所述二维时域提案特征图中提取提案之间的内容语义关系;所述融合模块将所述时间语义关系与所述内容语义关系进行融合,将融合后的提案特征输入分类器,得到置信度分数和完整性分数所述提案特征图生成层是在卷积层上叠加抽样和排列规则得到的;
5.如权利要求4所述的内容时间关系网络,其特征在于,所述时间关系模块通过改变卷积层的邻域选取规则得到基于自适应扩张的二维卷积计算,进而获得所述二维时域提案特征图中提案之间的时间语义关系;所述自适应扩张的二维卷积计算的机制为:每一个提案以其自身长度除以自适应率为采样步长选择其邻域的其他提案,所述自适应率是基于自适应扩张的二维卷积中定义的一个参数,通过设定自适应率的参数值能够决定不同位置提案邻域采样的步长;所述自适应扩张的二维卷积计算的计算方式为:
其中vm,n∈Rc为特征图(m,n)位置上的特征;r为自适应率,是一个常数变量;s是卷积核的核长,自适应扩张的二维卷积计算进行采样的卷积核两个维度的核长都相同,均为s;Wi,j是卷积核(i,j)位置上的参数,v'm,n是经过自适应扩张的二维卷积处理后的特征图(m,n)位置上的特征,b是偏置量。
6.如权利要求5所述的内容时间关系网络,其特征在于,所述内容关系模块通过基于注意力机制的自适应卷积计算,获得所述二维时域提案特征图中提案之间的内容语义关系;所述基于注意力机制的自适应卷积计算,其机制为每一个提案以其自身长度除以自适应率为采样步长选择其邻域的其他提案,并利用注意力机制计算提案与邻域内其他提案的注意力权重,将其加权求和后再用一个全连接层处理所述内容关系模块的自适应权重依赖于像素特征,对提案之间的内容语义关系进行建模;所述基于注意力机制的自适应卷积运算的运算方式为:
其中,vm,n∈Rc为特征图(m,n)位置上的特征,是内容自适应权重,它依赖于特征vm,n和表示对提案内容语义关系,r为自适应率,是一个常数变量;s是卷积核的核长,所述基于注意力机制的自适应卷积运算中采样的卷积核两个维度的核长都相同,均为s;
将内容自适应权重重写为:
函数S(·)以特征对为输入,输出标量,表示内容语义关系权重;W是一个参数矩阵,由1×1卷积实现,用于变换输入特征;则内容自适应卷积运算表示为:
7.如权利要求6所述的内容时间关系网络,其特征在于,所述融合模块将所述时间语义关系与所述内容语义关系进行融合,将融合后的提案特征输入分类器,得到提案置信度分数和完整性分数;将与真实动作的重合度大于阈值的提案看作正样本,其余为负样本,利用分类器预测每个提案为正样本的概率分数作为置信度分数,同时用一个分类器预测每个提案与真实动作的重合度作为完整性分数。
9.一种生成时间动作提案的方法,其特征在于,所述方法基于如权利要求1-8中任一项所述内容时间关系网络,所述方法包括以下步骤:
步骤S1:获取视频,从视频中采样出视频片段序列,利用双流网络进行特征提取,得到视频特征;
步骤S2:将所述视频帧特征输入所述内容时间关系网络;
步骤S3:将所述内容时间关系网络输出的置信度分数、完整性分数、提案开始时刻开始概率分数、提案结束时刻结束概率分数和提案中间时刻该动作概率分数进行乘积融合,得到最终分数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111607289.XA CN114419487A (zh) | 2021-12-24 | 2021-12-24 | 一种内容时间关系网络及生成时间动作提案的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111607289.XA CN114419487A (zh) | 2021-12-24 | 2021-12-24 | 一种内容时间关系网络及生成时间动作提案的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114419487A true CN114419487A (zh) | 2022-04-29 |
Family
ID=81269072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111607289.XA Pending CN114419487A (zh) | 2021-12-24 | 2021-12-24 | 一种内容时间关系网络及生成时间动作提案的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114419487A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543184A (zh) * | 2018-11-20 | 2019-03-29 | 中国石油大学(华东) | 一种基于深度学习的集装箱文本识别方法 |
CN109918671A (zh) * | 2019-03-12 | 2019-06-21 | 西南交通大学 | 基于卷积循环神经网络的电子病历实体关系抽取方法 |
KR102057395B1 (ko) * | 2018-07-13 | 2019-12-18 | 이화여자대학교 산학협력단 | 기계학습 기반 비디오 보외법을 이용한 영상 생성 방법 |
US20200026760A1 (en) * | 2018-07-23 | 2020-01-23 | Google Llc | Enhanced attention mechanisms |
EP3608844A1 (en) * | 2018-08-10 | 2020-02-12 | Naver Corporation | Methods for training a crnn and for semantic segmentation of an inputted video using said crnn |
WO2021139069A1 (zh) * | 2020-01-09 | 2021-07-15 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
-
2021
- 2021-12-24 CN CN202111607289.XA patent/CN114419487A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102057395B1 (ko) * | 2018-07-13 | 2019-12-18 | 이화여자대학교 산학협력단 | 기계학습 기반 비디오 보외법을 이용한 영상 생성 방법 |
US20200026760A1 (en) * | 2018-07-23 | 2020-01-23 | Google Llc | Enhanced attention mechanisms |
EP3608844A1 (en) * | 2018-08-10 | 2020-02-12 | Naver Corporation | Methods for training a crnn and for semantic segmentation of an inputted video using said crnn |
CN109543184A (zh) * | 2018-11-20 | 2019-03-29 | 中国石油大学(华东) | 一种基于深度学习的集装箱文本识别方法 |
CN109918671A (zh) * | 2019-03-12 | 2019-06-21 | 西南交通大学 | 基于卷积循环神经网络的电子病历实体关系抽取方法 |
WO2021139069A1 (zh) * | 2020-01-09 | 2021-07-15 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111050219B (zh) | 用于利用空间-时间记忆网络处理视频内容的方法和系统 | |
CN110210513B (zh) | 数据分类方法、装置及终端设备 | |
CN111161311A (zh) | 一种基于深度学习的视觉多目标跟踪方法及装置 | |
CN114943963B (zh) | 一种基于双分支融合网络的遥感图像云和云影分割方法 | |
CN110263215B (zh) | 一种视频情感定位方法及系统 | |
CN111968123B (zh) | 一种半监督视频目标分割方法 | |
CN111372123B (zh) | 基于从局部到全局的视频时序片段提取方法 | |
CN111259940A (zh) | 一种基于空间注意力地图的目标检测方法 | |
CN112183649A (zh) | 一种用于对金字塔特征图进行预测的算法 | |
CN111639230B (zh) | 一种相似视频的筛选方法、装置、设备和存储介质 | |
CN114821390A (zh) | 基于注意力和关系检测的孪生网络目标跟踪方法及系统 | |
Lin et al. | Joint learning of local and global context for temporal action proposal generation | |
CN110852224B (zh) | 一种表情识别方法及相关装置 | |
CN111008570B (zh) | 一种基于压缩-激励伪三维网络的视频理解方法 | |
CN114611625A (zh) | 语言模型训练、数据处理方法、装置、设备、介质及产品 | |
CN112364852B (zh) | 融合全局信息的动作视频段提取方法 | |
CN114240796A (zh) | 一种基于gan的遥感影像去云雾方法、设备、存储介质 | |
CN113177138A (zh) | 一种基于弹幕和标题分析的有监督视频分类方法 | |
CN116881520A (zh) | 基于偏序的内容检索模型训练方法、内容检索方法及装置 | |
CN114419487A (zh) | 一种内容时间关系网络及生成时间动作提案的方法 | |
CN114821174B (zh) | 一种基于内容感知的输电线路航拍图像数据清洗方法 | |
Rai et al. | Improved attribute manipulation in the latent space of stylegan for semantic face editing | |
CN113032612B (zh) | 一种多目标图像检索模型的构建方法及检索方法和装置 | |
CN114299128A (zh) | 多视角定位检测方法及装置 | |
JP2023063768A (ja) | グラフ構造を用いた画像記述子更新モデル及び方法、並びに画像マッチング装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |