CN115588230A - 基于高精度边界预测的时序动作检测方法及计算机设备 - Google Patents

基于高精度边界预测的时序动作检测方法及计算机设备 Download PDF

Info

Publication number
CN115588230A
CN115588230A CN202211051519.3A CN202211051519A CN115588230A CN 115588230 A CN115588230 A CN 115588230A CN 202211051519 A CN202211051519 A CN 202211051519A CN 115588230 A CN115588230 A CN 115588230A
Authority
CN
China
Prior art keywords
action
nomination
time sequence
confidence score
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211051519.3A
Other languages
English (en)
Inventor
殷蔚明
陈思微
黄罗琪
罗大鹏
陈应
程卓
李欣
王良波
柳旭辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Second Construction Engineering Co Ltd of China Construction Third Engineering Division
China Construction Third Bureau Intelligent Technology Co Ltd
Original Assignee
China University of Geosciences
Second Construction Engineering Co Ltd of China Construction Third Engineering Division
China Construction Third Bureau Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences, Second Construction Engineering Co Ltd of China Construction Third Engineering Division, China Construction Third Bureau Intelligent Technology Co Ltd filed Critical China University of Geosciences
Priority to CN202211051519.3A priority Critical patent/CN115588230A/zh
Publication of CN115588230A publication Critical patent/CN115588230A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一个基于高精度边界预测的时序动作检测方法及计算机设备。该方法的任务是对候选提名由粗到细的多阶段修正从而高质量、高效率地完成时序动作定位,主要包含以下步骤:针对起始、中间和结束三个过程进行高斯过程建模,输出每帧为某个动作起始、中间和结束的概率,用于提升边界预测和动作分类的质量;针对从视频中提取到的特征图进行帧级分类;生成高质量的时序候选动作提名和对应的置信度分数;对回归网络结果、帧级动作分类网络结果以及精细动作提名生成网络结果设计总损失函数对时序动作检测架构进行优化。本发明提高了时序动作检测的精度和效率。

Description

基于高精度边界预测的时序动作检测方法及计算机设备
技术领域
本发明涉及时序动作检测技术领域,具体地,涉及一种基于高精度边界预测的时序动作检测方法及计算机设备。
背景技术
随着互联网的时代来临,网络视频的数量呈现爆炸式增长,每天至少有上千万的视频上传网络并需要审核过滤。目前来看,仅靠人工已经无法满足海量视频数据审核的需求,从而促进了自动视频内容理解技术的发展。视频理解包括了时序动作检测、动作识别、视频描述、异常事件检测等,其中时序动作检测最为重要。摄像设备拍摄的视频通常较长,而我们感兴趣的动作只发生在视频的一小部分。因此,需要在时序上定位每个动作片段,同时精确的检测出动作开始和结束的时间点,为后续的动作分类、视频描述以及异常事件检测等提供更具判别力的视频特征表达。时序动作检测已经广泛应用于诸如:监控视频内容分析、精彩片段剪辑和选取以及视频推荐等真实应用场景中,同时对于视频处理技术的智能化具有重大的推动意义。
现有的时序动作检测一般可以分为时序动作提名生成和分类两个过程。虽然动作识别方法已经取得了令人印象深刻的分类精度,但在几个主流数据集例如HACS、ActivityNet-v1.3和THUMOS14的评估中,时序动作检测的性能仍然不能令人满意。因此,许多研究者的首要目标是提高时序动作提名的质量。因此,对生成的动作时序候选提名精度提高的算法是关键。
常用的时序动作检测方法包括基于预定义锚点的方法,以及基于边界的方法。预定义锚点的方法基于密集多尺度的锚点片段来生成时序动作检测结果。由于一个动作片段实例的持续时间从几秒到几分钟不等,基于预定义锚点的方法很难在合理的算力约束下检测出所有不同长度的动作片段。基于边界的方法首先预测起始点和终止点的边界置信度,然后采用自底向上的分组策略匹配起始和结束帧。该方法对边界信息变化敏感,从而能够生成较精确的边界。然而,基于边界的方法主要利用局部特征提取边界信息。因此,较容易受到局部噪声的影响,并且容易产生不完整的预测框。此外,这两类方法大都依赖冗余的多尺度锚点或者边界匹配模块来产生时序提名,需要大量的先验知识和手工调参。
近期,以基于时序上下文聚合的动作提名修正网络为主的方法利用边界信息和提名的内部信息分别进行帧级边界回归和片段级边界回归。具体来说,帧级边界回归优化对边界敏感候选提名的起始和结束位置,同时片段级边界回归通过候选提名的全局信息优化提名的中心位置和提名的持续时间,最后通过局部帧级边界回归和全局片段级边界回归的互补融合来逐步细化边界的精度,从而得到较高质量的提名。基于时序上下文聚合的动作提名修正网络既提高了提名边界的准确性也突破了锚点不灵活的限制。然而,尽管该网络在性能和效率上相比于前人的方法都取得了显著的领先,但仍存在一些弊端:(1)在进行时序动作生成任务时将起始和终止定义为单帧的点,忽视了起始或终止动作变化性,可以看作多帧的一个过程,导致生成的边界概率序列具有很多局部或者全局的噪声,从而使得动作提名边界质量不佳。(2)效率低下:基于时序上下文聚合的动作提名修正网络分别完成动作提名生成任务和动作分类任务,使得两阶段缺乏联合优化。
发明内容
为了解决现有技术的不足,本发明一种基于高精度边界预测的时序动作检测方法,针对动作检测任务中各类动作起始、结束时间点定位不精确的问题,采用高斯模型将动作起始和结束时间点描述为一个高斯变化的多帧过程,避免定义单一的起始帧和结束帧带来的过度自信对动作定位精度的影响。此外,使用单帧动作分类的时序动作检测方法,通过对包含动作的每帧视频进行分类,提升动作边界定位精度。最后,提出基于每帧图像动作分类和候选动作提名的融合策略进一步提升密集动作视频中不同类动作起始、结束时间点的定位精度。
为了实现上述目的,本发明提供一种基于高精度边界预测的时序动作检测方法,包括以下步骤:
S1:采用特征提取器对未剪辑的视频X进行特征提取,得到特征
Figure BDA0003823800860000021
Figure BDA0003823800860000022
其中T×D表示特征维度,T是视频的总片段个数,i表示片段序号,D是每个片段特征的维度,fi表示第i个片段的视觉特征;
S2:通过高斯过程建模每个时序动作实例的开始、中间和结束三个过程生成对应的置信度曲线,得到第t帧的第k类动作开始置信度分数
Figure BDA0003823800860000031
中间过程的置信度分数
Figure BDA0003823800860000032
和结束置信度分数
Figure BDA0003823800860000033
S3:通过动作回归模块预测视频第t帧的第k类动作置信度分数
Figure BDA0003823800860000034
Figure BDA0003823800860000035
其中C为数据集动作总类别数;
S4:将S1的特征F输入时序动作分割模型,输出每一帧的动作分类yo∈RT×k和每类动作的置信度分数Saction,其中k为动作类别;
S5:使用S3中得到的置信度分数修正由S4中得到的每一帧的动作分类,得到每一帧修正后的动作分类yn∈RT×k以及提名的动作类别Y,并根据帧级别的动作分类进一步获得帧级别的动作提名信息
Figure BDA0003823800860000036
NP为提名个数;
S6:将S1的特征F输入TCANet模型(基于时序上下文聚合的动作提名修正网络),得到视频X的片段级别的候选动作提名信息
Figure BDA0003823800860000037
和每个候选动作提名的置信度分数Sprops
S7:使用非极大抑制算法去除S6中冗余的时序提名;
S8:计算S5获得的帧级别的动作提名信息和S7获得的片段级别的候选动作提名信息的交叠率IoU值,当交叠率IoU值大于阈值时,进行融合得到时序动作提名信息
Figure BDA0003823800860000038
并计算对应的时序动作检测置信度分数Sdet
S9:根据整个时序动作检测任务S2-S8构建多任务学习模型,通过融合回归损失、分类损失、时序提名定位损失对多任务学习模型进行训练,训练完成后,通过训练好的多任务学习模型输出最终的时序动作检测结果,所述时序动作检测结果包括:融合得到时序动作提名信息
Figure BDA0003823800860000039
动作类别Y以及对应的时序动作检测置信度分数Sdet
优选地,步骤S3中,所述动作回归模块包括:L层的扩张卷积层,每个扩张卷积层包含一个一维空洞卷积层、一个激活函数层和一个1×1卷积将输出映射到动作置信度分数向量
Figure BDA00038238008600000310
优选地,步骤S3中,使用均方误差损失函数作为回归损失,回归损失计算公式如下:
Figure BDA0003823800860000041
其中,n为未剪辑的视频X的总帧数,
Figure BDA0003823800860000042
为动作置信度分数向量
Figure BDA0003823800860000043
yi为真实标签即S2生成的开始置信度
Figure BDA0003823800860000044
中间置信度
Figure BDA0003823800860000045
和结束置信度
Figure BDA0003823800860000046
优选地,步骤S4中,使用交叉熵损失和平滑损失构成分类损失,计算公式如下:
Figure BDA0003823800860000047
其中,
Figure BDA0003823800860000048
是t时动作为真实标签
Figure BDA0003823800860000049
的预测概率,yt,c是t时动作为c的预测概率,yt-1,c是t-1时动作为c的预测概率,∑tc是对每一帧每个动作进行求和,λ是一个平衡权重。
优选地,步骤S6中,使用IoU预测损失Liou和回归损失Lreg作为时序提名定位损失Lloc,计算公式如下:
Lloc=Liou+λLreg
Figure BDA00038238008600000410
Figure BDA00038238008600000411
其中,
Ntrain=Npos+Nincomp+Nneg
Figure BDA00038238008600000412
Figure BDA00038238008600000413
其中,pconf,i,giou,i分别为第i个正样本的置信度分数预测值和真实值,SmoothL1()用于计算预测值和真实值之间的损失误差,Ntrain、Npos、Nneg、Nincomp分别代表训练样本、正样本、负样本和不完整样本的个数,Δxi、Δwi、Δsi、Δei分别为时序提名生成模块预测的中心偏移量、持续时间偏移量、开始时间偏移量和结束时间偏移量,
Figure BDA0003823800860000051
分别为实际中心偏移量、持续时间偏移量、开始时间偏移量和结束时间偏移量。
优选地,所述S7具体包括:
S71:将S6的动作提名信息
Figure BDA0003823800860000052
按照置信度分数Sprops排名;
S72:计算置信度分数最高的提名
Figure BDA0003823800860000053
和其他提名
Figure BDA0003823800860000054
的交叠率IoU值,使用非极大抑制算法的高斯函数衰减高交叠率的提名分数:
Figure BDA0003823800860000055
其中,ε是高斯函数参数,θ是预先设置的阈值;
S73:重复S72,直到提名个数NP为预设的个数,经过非极大抑制得到新的提名信息和每个候选提名的置信度分数S′props
优选地,所述S8具体包括:
S81:当帧级别的动作提名信息
Figure BDA0003823800860000056
和片段级别的候选动作提名信息
Figure BDA0003823800860000057
的交叠率IoU值大于阈值δ时,进行融合得到时序动作提名信息
Figure BDA0003823800860000058
其计算公式如下:
Figure BDA0003823800860000059
Figure BDA00038238008600000510
其中,τ为这两个提名所占权重参数,
Figure BDA00038238008600000511
为帧级别的第j个提名的起始时间、
Figure BDA00038238008600000512
为帧级别的第j个提名的结束时间,
Figure BDA00038238008600000513
为片段级别的候选动作提名的第j个提名的起始时间、
Figure BDA00038238008600000514
为片段级别的候选动作提名的第j个提名的结束时间,Np是提名个数;
S82:计算对应的时序动作检测置信度分数Sdet,其计算公式为:
Sdet=S'props×Saction
其中,S′props为步骤S7得到的每个候选提名的置信度分数,Saction是S4得到的每类动作的置信度分数。
优选地,步骤S9中,多任务学习模型的总损失函数为:
L=αLcls+βLloc+γLreg
其中,Lreg为回归损失,Lcls为分类损失,Lloc为时序提名定位损失,α、β、γ为权重参数。
可选地,所述特征提取器包括SlowFast、I3D、TSN、CSN、Timesformer、ViViT中的任意一种;
可选地,所述时序动作分割模型包括:MS-TCN和ASFormer中的任意一种。
此外,为了实现上述目的,本发明还提供了一种计算机设备,包括处理器和存储器,存储在存储器上并可在处理器上运行的时序动作检测方法程序,该时序动作检测方法程序被处理器执行时执行所述的时序动作检测方法的步骤。
本发明基于其技术方案所具有的有益效果在于:
(1)加入基于高斯建模的动作回归模块,对边界定位进行研究,对边界单一起始点、结束点和中间过程进行高斯建模,将单个点延展为多个时间点,回归网络生成置信度曲线来评估每一帧属于某个动作的起始、中间和结束区间的概率,以便对候选提名进行修正。
(2)本发明提出提名生成与动作分类多任务的时序动作检测方法。视频帧的动作分类知识能辅助动作提名网络提升动作时序定位的准确程度。因此,根据整个时序动作检测任务构建多任务学习模型,同时进行时序动作提名的生成和动作分类,使两个任务能够互相监督、互相辅助,提升动作定位的准确率。
附图说明
下面将结合附图及实施例对本发明的具体效果作进一步说明,附图中:
图1是本发明基于高精度边界预测的时序动作检测方法的执行流程图;
图2是本发明在HACS数据集上的验证结果实例图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
实施例一:
请参阅图1,本发明提供了一种时序动作检测方法,本实施例中,主要包含特征提取模块、回归模块、帧动作分类模块、动作提名生成模块:
步骤S1:采用特征提取器对未剪辑的视频X进行特征提取,得到特征;其中表示特征维度,是视频的总片段个数,i表示片段序号,是每个片段特征的维度,表示第i个片段的视觉特征;
本实施例中,优选使用SlowFast(SlowFast Networks for Video Recognition,用于视频识别的快慢网络)作为特征提取器。
需要说明的是,在本发明的其他实施例中,还可以用I3D(Two-Stream Inflated3D ConvNet,双流膨胀三维卷积网络)、TSN(Temporal Segment Networks,时间段网络)、CSN(Video classification with channel-separated convolutional networks,基于信道分离卷积网络的视频分类方法)、Timesformer(Time-Space transformer,基于空间和时间上的自我注意的无卷积视频分类方法)、ViViT(A Video Vision Transformer,视频转换器)中的任意一种代替SlowFast模型,进行特征提取,也可以根据实际选择其他可作为特征提取器的模型。
步骤S2:通过高斯过程建模每个时序动作实例的开始、中间和结束三个过程生成对应的置信度曲线,得到第t帧的第k类动作开始置信度分数、中间过程的置信度分数和结束置信度分数;
其中,开始置信度分数的计算公式如下:
Figure BDA0003823800860000071
其中,σ是用于控制置信度曲线形状的参数,
Figure BDA0003823800860000072
是第t帧的第k类动作最接近开始的时间点,当
Figure BDA0003823800860000073
时,置信度为1。
同样的,结束置信度分数
Figure BDA0003823800860000074
使用类似的公式,其中开始点
Figure BDA0003823800860000075
被结束点
Figure BDA0003823800860000076
所取代。
对于中间过程的置信度分数
Figure BDA0003823800860000077
将动作实例过程中的每一帧的中间置信度设置为1来获得中间置信度分数。
步骤S2中的曲线描述对应的置信度分数,其中置信度分数由0到1,低的置信度分数表明当前帧和是某一个过程的可能性较小,相反,最高点表明当前帧是最接近某个动作实例。对于动作每个类都有开始,中间和结束,置信度大小为类别数k×3,即对每一帧预测其可能是开始、中间、结束的概率。
步骤S3:通过动作回归模块预测视频第t帧的第k类动作置信度分数
Figure BDA0003823800860000081
Figure BDA0003823800860000082
其中C为数据集动作总类别数;
步骤S3具体为:使用一系列的块,包含L层的扩张卷积层序列的块来预测第t帧的置信度分数
Figure BDA0003823800860000083
其中C为数据集动作总类别数。使用扩张卷积块D(l)作为输入,得到扩张卷积块D(l+1),其计算公式如下:
D(l+1)=confA(f(con vA(D(l))))+D(l)
其中con vA是具有卷积率的一维卷积层,卷积率增加了感受野,f(.)是激活函数。使用1×1卷积将最后一个扩张卷积块的输出映射到动作置信度分数向量
Figure BDA0003823800860000084
其中k是动作的种类。
步骤S4:将步骤S1的特征F输入时序动作分割模型,输出每一帧的动作分类yo∈RT ×k和每类动作的置信度分数Saction,其中T是视频的总片段个数,k为动作类别;
本实施例优选使用ASFormer(Transformer for Action Segmentation,用于动作分割的Transformer模型)作为时序动作分割模型,输入步骤S1的特征F,得到每一帧的动作分类yo∈RT×k和每类动作的概率分数Saction,ASFormer模型训练时,直接将训练样本的标签由粗粒度的一组动作实例的起止时间转换为细粒度的单帧级别标签,数据集的类别数量C增加一类为背景类;
需要说明的是,在本发明的其他实施例中,可以根据实际选择其他时序动作分割模型,比如MS-TCN(Multi-Stage Temporal Convolutional Network for ActionSegmentation,基于多阶段时间卷积网络的动作分割模型)。
步骤S5:使用步骤S3中得到的置信度分数修正由步骤S4中得到的每一帧的动作分类,得到每一帧更精确的动作分类yn∈RT×k以及提名的动作类别Y,并根据帧级别的动作分类进一步获得动作提名信息
Figure BDA0003823800860000085
包括对于未剪辑的视频X的第j个提名的起始时间
Figure BDA0003823800860000091
结束时间
Figure BDA0003823800860000092
和这段候选提名的动作类别k,其中Np是提名个数。
步骤S6:将步骤S1的特征F输入TCANet(基于时序上下文聚合的动作提名修正网络)模型,预测视频X的一系列可能存在动作实例的候选动作提名信息
Figure BDA0003823800860000093
和每个候选提名的置信度分数Sprops,包括动作的起始时间
Figure BDA0003823800860000094
和结束时间
Figure BDA0003823800860000095
步骤S7:使用Soft-NMS(非极大抑制算法)去除步骤S6中冗余的时序提名;
步骤S7具体为:首先将步骤S6提名
Figure BDA0003823800860000096
按照置信度分数Sprops排名,其次计算置信度分数最高的提名
Figure BDA0003823800860000097
和其他提名
Figure BDA0003823800860000098
的交叠率IoU值,使用Soft-NMS的高斯函数衰减高交叠率的提名分数:
Figure BDA0003823800860000099
其中,ε是高斯函数参数,θ是预先设置的阈值。经过非极大抑制得到新的提名信息
Figure BDA00038238008600000910
和每个候选提名的置信度分数S′props
步骤S8:计算步骤S5获得的帧级别的提名信息和步骤S7获得的片段级别的候选提名信息的交叠率IoU值,当当交叠率IoU值大于阈值时,融合这两个提名信息,得到更可靠的时序动作提名信息
Figure BDA00038238008600000911
并计算对应的时序动作检测置信度分数Sdet,其计算公式:
Sdet=S'props×Saction
Figure BDA00038238008600000912
Figure BDA00038238008600000913
其中τ为这两个提名所占权重参数。
步骤S9:根据整个时序动作检测任务S2-S8构建多任务学习模型,通过融合回归损失、分类损失、时序提名定位损失对多任务学习模型进行训练,训练完成后,通过训练好的多任务学习模型输出最终的时序动作检测结果,所述时序动作检测结果包括:融合得到时序动作提名信息
Figure BDA0003823800860000101
动作类别Y以及对应的时序动作检测置信度分数Sdet
本实施例中,需要对回归过程、帧动作分类、时序动作提名生成整个过程进行训练,整个时序动作定位检测任务可以作为多任务学习,通过融合回归损失(Lreg)、分类损失(Lcls)、时序提名定位损失(Lloc)对时序动作检测进行训练,其损失函数如下:
L=αLcls+βLloc+γLreg
其中,α、β、γ为权重参数。
在本发明的一种实施例中,帧动作分类模块使用交叉熵损失函数和平滑损失函数组成:
Figure BDA0003823800860000102
Figure BDA0003823800860000103
是时间t时动作为c的预测概率,λ是一个平衡权重。
在本发明的一种实施例中,使用IoU预测损失(Liou)和回归损失(Lreg)作为时序提名定位损失:
Lloc=Liou+λLreg
Figure BDA0003823800860000104
Figure BDA0003823800860000105
其中,
Ntrain=Npos+Nincomp+Nneg
Figure BDA0003823800860000106
Figure BDA0003823800860000107
Ntrain、Npos、Nneg、Nincomp分别代表训练样本、正样本、负样本和不完整样本个数,Δxi、Δwi、Δsi、Δei分别为时序提名生成模块预测的中心偏移量、持续时间偏移量、开始时间偏移量和结束时间偏移量,
Figure BDA0003823800860000111
分别为实际中心偏移量、持续时间偏移量、开始时间偏移量和结束时间偏移量。
在本发明的一种实施例中,回归模块使用均方误差损失函数训练直至收敛,损失函数计算公式如下:
Figure BDA0003823800860000112
其中,n为对未剪辑的视频X的总帧数,
Figure BDA0003823800860000113
为动作置信度分数向量
Figure BDA0003823800860000114
yi为真实标签即步骤2生成的开始置信度分数
Figure BDA0003823800860000115
中间过程的置信度分时
Figure BDA0003823800860000116
结束置信度分数
Figure BDA0003823800860000117
在本发明的一种实施例中,采用公开HACS数据集进行训练和测试。HACS是一个用于时序动作检测的大数据集,包含37.6k训练集,6k验证集和6k的测试集,共有200种动作类别,最后验证SSN(Temporal Action Detection with Structured Segment Networks,结构化分段网络的时序动作检测)、S-TAN(Learning sparse 2d temporal adjacentnetworks for temporal action localization学习稀疏二维时序相邻网络进行时序动作定位)、G-TAD(Sub-Graph Localization for Temporal Action Detection用于时序动作检测的子图定位)、SegTAD(Precise Temporal Action Detection via SemanticSegmentation通过语义分割的精确时序动作检测)、TadTR(End-to-end Temporal ActionDetection with Transformer基于Transformer进行端到端时序动作检测)、BMN(Boundary-Matching Network for Temporal Action Proposal Generation边界匹配网络的时序动作提名生成)这六个现有模型与本发明的时序动作检测方法在不同IoU阈值下的mAP值,如表1:
根据表1的结果可知,本发明所提供的时序动作检测方法的检测精度高于现有的六种模型方法。
表1在不同IoU阈值下的时序动作检测结果对比(HACS数据集)
Figure BDA0003823800860000118
Figure BDA0003823800860000121
请参阅图2,图2中第一行提名为真实标签,HACS数据集上第二行片段级别的候选提名输出和第三行帧级别的提名输出边界都不准确,将这两种输出融合,使得提名更接近实际情况。第三行显示了融合提名后可以生成高精度的提名。
实施例二:
本实施例提供了一种计算机设备,包括处理器和存储器,存储在存储器上并可在处理器上运行的时序动作检测方法程序,该时序动作检测方法程序被处理器执行时执行实施例一所述的时序动作检测方法的步骤,且能实现与实施例一相同的技术效果,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序,可将这些词语解释为标识。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于高精度边界预测的时序动作检测方法,其特征在于,包括以下步骤:
S1:采用特征提取器对未剪辑的视频X进行特征提取,得到特征
Figure FDA0003823800850000011
Figure FDA0003823800850000012
其中T×D表示特征维度,T是视频的总片段个数,i表示片段序号,D是每个片段特征的维度,fi表示第i个片段的视觉特征;
S2:通过高斯过程建模每个时序动作实例的开始、中间和结束三个过程生成对应的置信度曲线,得到第t帧的第k类动作开始置信度分数
Figure FDA0003823800850000013
中间过程的置信度分数
Figure FDA0003823800850000014
和结束置信度分数
Figure FDA0003823800850000015
S3:通过动作回归模块预测视频第t帧的第k类动作置信度分数
Figure FDA0003823800850000016
Figure FDA0003823800850000017
其中C为数据集动作总类别数;
S4:将S1的特征F输入时序动作分割模型,输出每一帧的动作分类yo∈RT×k和每类动作的置信度分数Saction,其中k为动作类别;
S5:使用S3中得到的置信度分数修正由S4中得到的每一帧的动作分类,得到每一帧修正后的动作分类yn∈RT×k以及提名的动作类别Y,并根据帧级别的动作分类进一步获得帧级别的动作提名信息
Figure FDA0003823800850000018
NP为提名个数;
S6:将S1的特征F输入TCANet模型,得到视频X的片段级别的候选动作提名信息
Figure FDA0003823800850000019
和每个候选动作提名的置信度分数Sprops
S7:使用非极大抑制算法去除S6中冗余的时序提名;
S8:计算S5获得的帧级别的动作提名信息和S7获得的片段级别的候选动作提名信息的交叠率IoU值,当交叠率IoU值大于阈值时,进行融合得到时序动作提名信息
Figure FDA00038238008500000110
并计算对应的时序动作检测置信度分数Sdet
S9:根据整个时序动作检测任务S2-S8构建多任务学习模型,通过融合回归损失、分类损失、时序提名定位损失对多任务学习模型进行训练,训练完成后,通过训练好的多任务学习模型输出最终的时序动作检测结果,所述时序动作检测结果包括:融合得到时序动作提名信息
Figure FDA00038238008500000111
动作类别Y以及对应的时序动作检测置信度分数Sdet
2.如权利要求1所述的基于高精度边界预测的时序动作检测方法,其特征在于,步骤S3中,所述动作回归模块包括:L层的扩张卷积层,每个扩张卷积层包含一个一维空洞卷积层、一个激活函数层和一个1×1卷积将输出映射到动作置信度分数向量
Figure FDA0003823800850000021
3.如权利要求1所述的基于高精度边界预测的时序动作检测方法,其特征在于,步骤S3中,使用均方误差损失函数作为回归损失,回归损失计算公式如下:
Figure FDA0003823800850000022
其中,n为未剪辑的视频X的总帧数,
Figure FDA0003823800850000023
为动作置信度分数向量
Figure FDA0003823800850000024
yi为真实标签即S2生成的开始置信度分数
Figure FDA0003823800850000025
中间过程的置信度分数
Figure FDA0003823800850000026
和结束置信度分数
Figure FDA0003823800850000027
4.如权利要求1所述的基于高精度边界预测的时序动作检测方法,其特征在于,步骤S4中,使用交叉熵损失和平滑损失构成分类损失,计算公式如下:
Figure FDA0003823800850000028
其中,
Figure FDA0003823800850000029
是t时动作为真实标签
Figure FDA00038238008500000210
的预测概率,yt,c是t时动作为c的预测概率,yt-1,c是t-1时动作为c的预测概率,∑tc是对每一帧每个动作进行求和,λ是一个平衡权重。
5.如权利要求1所述的基于高精度边界预测的时序动作检测方法,其特征在于,步骤S6中,使用IoU预测损失Liou和回归损失Lreg作为时序提名定位损失Lloc,计算公式如下:
Lloc=Liou+λLreg
Figure FDA00038238008500000211
Figure FDA00038238008500000212
其中,
Ntrain=Npos+Nincomp+Nneg
Figure FDA0003823800850000031
Figure FDA0003823800850000032
其中,pconf,i,giou,i分别为第i个正样本的置信度分数预测值和真实值,SmoothL1()用于计算预测值和真实值之间的差值,Ntrain、Npos、Nneg、Nincomp分别代表训练样本、正样本、负样本和不完整样本的个数,Δxi、Δwi、Δsi、Δei分别为时序提名生成模块预测的中心偏移量、持续时间偏移量、开始时间偏移量和结束时间偏移量,
Figure FDA0003823800850000033
分别为实际中心偏移量、持续时间偏移量、开始时间偏移量和结束时间偏移量。
6.如权利要求1所述的基于高精度边界预测的时序动作检测方法,其特征在于,所述S7具体包括:
S71:将S6的动作提名信息
Figure FDA0003823800850000034
按照置信度分数Sprops排名;
S72:计算置信度分数最高的提名
Figure FDA0003823800850000035
和其他提名
Figure FDA0003823800850000036
的交叠率IoU值,使用非极大抑制算法的高斯函数衰减高交叠率的提名分数:
Figure FDA0003823800850000037
其中,ε是高斯函数参数,θ是预先设置的阈值;
S73:重复S72直到提名个数NP为预设的个数,经过非极大抑制得到新的提名信息和每个候选提名的置信度分数S′props
7.如权利要求1所述的基于高精度边界预测的时序动作检测方法,其特征在于,所述S8具体包括:
S81:当帧级别的动作提名信息
Figure FDA0003823800850000038
和片段级别的候选动作提名信息
Figure FDA0003823800850000039
的交叠率IoU值大于阈值δ时,进行融合得到时序动作提名信息
Figure FDA00038238008500000310
其计算公式如下:
Figure FDA00038238008500000311
Figure FDA0003823800850000041
其中,τ为这两个提名所占权重参数,
Figure FDA0003823800850000042
为帧级别的第j个提名的起始时间、
Figure FDA0003823800850000043
为帧级别的第j个提名的结束时间,
Figure FDA0003823800850000044
为片段级别的候选动作提名的第j个提名的起始时间、
Figure FDA0003823800850000045
为片段级别的候选动作提名的第j个提名的结束时间,Np是提名个数;
S82:计算对应的时序动作检测置信度分数Sdet,其计算公式:
Sdet=S′props×Saction
其中,S′props为步骤S7得到的每个候选提名的置信度分数,Saction是S4得到的每类动作的置信度分数。
8.如权利要求1所述的基于高精度边界预测的时序动作检测方法,其特征在于,步骤S9中,多任务学习模型的总损失函数为:
L=αLcls+βLloc+γLreg
其中,Lreg为回归损失,Lcls为分类损失,Lloc为时序提名定位损失,α、β、γ为权重参数。
9.如权利要求1所述的基于高精度边界预测的时序动作检测方法,其特征在于,所述特征提取器包括SlowFast、I3D、TSN、CSN、Timesformer、ViViT中的任意一种;所述时序动作分割模型包括:MS-TCN和ASFormer中的任意一种。
10.一种计算机设备,其特征在于,包括处理器和存储器,存储在存储器上并可在处理器上运行的时序动作检测方法程序,该时序动作检测方法程序被处理器执行时执行如权利要求1-9中任一项所述的时序动作检测方法的步骤。
CN202211051519.3A 2022-08-31 2022-08-31 基于高精度边界预测的时序动作检测方法及计算机设备 Pending CN115588230A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211051519.3A CN115588230A (zh) 2022-08-31 2022-08-31 基于高精度边界预测的时序动作检测方法及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211051519.3A CN115588230A (zh) 2022-08-31 2022-08-31 基于高精度边界预测的时序动作检测方法及计算机设备

Publications (1)

Publication Number Publication Date
CN115588230A true CN115588230A (zh) 2023-01-10

Family

ID=84771503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211051519.3A Pending CN115588230A (zh) 2022-08-31 2022-08-31 基于高精度边界预测的时序动作检测方法及计算机设备

Country Status (1)

Country Link
CN (1) CN115588230A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117292307A (zh) * 2023-11-27 2023-12-26 江苏源驶科技有限公司 一种基于粗时间粒度的时序动作提名生成方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117292307A (zh) * 2023-11-27 2023-12-26 江苏源驶科技有限公司 一种基于粗时间粒度的时序动作提名生成方法及系统
CN117292307B (zh) * 2023-11-27 2024-01-30 江苏源驶科技有限公司 一种基于粗时间粒度的时序动作提名生成方法及系统

Similar Documents

Publication Publication Date Title
CN108985334B (zh) 基于自监督过程改进主动学习的通用物体检测系统及方法
CN112949828B (zh) 一种基于图学习的图卷积神经网络交通预测方法及系统
CN112541904B (zh) 一种无监督遥感图像变化检测方法、存储介质及计算设备
CN110096938B (zh) 一种视频中的动作行为的处理方法和装置
WO2018005413A1 (en) Method and system for cell annotation with adaptive incremental learning
CN111382686B (zh) 一种基于半监督生成对抗网络的车道线检测方法
CN110659742A (zh) 获取用户行为序列的序列表示向量的方法和装置
WO2019167784A1 (ja) 位置特定装置、位置特定方法及びコンピュータプログラム
WO2022199214A1 (zh) 样本扩展方法、训练方法和系统、及样本学习系统
CN112507778B (zh) 一种基于线特征的改进词袋模型的回环检测方法
CN110942090A (zh) 模型训练、图像处理方法、装置、电子设备及存储介质
CN114782997A (zh) 基于多损失注意力自适应网络的行人重识别方法及系统
CN115588230A (zh) 基于高精度边界预测的时序动作检测方法及计算机设备
CN111008570A (zh) 一种基于压缩-激励伪三维网络的视频理解方法
CN114820765A (zh) 图像识别方法、装置、电子设备及计算机可读存储介质
CN113378852A (zh) 关键点检测方法、装置、电子设备及存储介质
CN117765432A (zh) 一种基于动作边界预测的中学理化生实验动作检测方法
Liu et al. A novel method for temporal action localization and recognition in untrimmed video based on time series segmentation
CN116958057A (zh) 一种策略引导的视觉回环检测的方法
CN113870320B (zh) 一种基于深度神经网络的行人追踪监控方法及系统
CN114419343A (zh) 一种多目标识别跟踪方法及识别跟踪系统
CN102308307B (zh) 用于模式发现和识别的方法
CN109165586A (zh) 用于ai芯片的智能图像处理方法
CN115393388A (zh) 一种基于位置不确定性估计的单目标跟踪方法
Taghikhah et al. Quantile-based maximum likelihood training for outlier detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination