CN115588230A - 基于高精度边界预测的时序动作检测方法及计算机设备 - Google Patents
基于高精度边界预测的时序动作检测方法及计算机设备 Download PDFInfo
- Publication number
- CN115588230A CN115588230A CN202211051519.3A CN202211051519A CN115588230A CN 115588230 A CN115588230 A CN 115588230A CN 202211051519 A CN202211051519 A CN 202211051519A CN 115588230 A CN115588230 A CN 115588230A
- Authority
- CN
- China
- Prior art keywords
- action
- nomination
- time sequence
- confidence score
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一个基于高精度边界预测的时序动作检测方法及计算机设备。该方法的任务是对候选提名由粗到细的多阶段修正从而高质量、高效率地完成时序动作定位,主要包含以下步骤:针对起始、中间和结束三个过程进行高斯过程建模,输出每帧为某个动作起始、中间和结束的概率,用于提升边界预测和动作分类的质量;针对从视频中提取到的特征图进行帧级分类;生成高质量的时序候选动作提名和对应的置信度分数;对回归网络结果、帧级动作分类网络结果以及精细动作提名生成网络结果设计总损失函数对时序动作检测架构进行优化。本发明提高了时序动作检测的精度和效率。
Description
技术领域
本发明涉及时序动作检测技术领域,具体地,涉及一种基于高精度边界预测的时序动作检测方法及计算机设备。
背景技术
随着互联网的时代来临,网络视频的数量呈现爆炸式增长,每天至少有上千万的视频上传网络并需要审核过滤。目前来看,仅靠人工已经无法满足海量视频数据审核的需求,从而促进了自动视频内容理解技术的发展。视频理解包括了时序动作检测、动作识别、视频描述、异常事件检测等,其中时序动作检测最为重要。摄像设备拍摄的视频通常较长,而我们感兴趣的动作只发生在视频的一小部分。因此,需要在时序上定位每个动作片段,同时精确的检测出动作开始和结束的时间点,为后续的动作分类、视频描述以及异常事件检测等提供更具判别力的视频特征表达。时序动作检测已经广泛应用于诸如:监控视频内容分析、精彩片段剪辑和选取以及视频推荐等真实应用场景中,同时对于视频处理技术的智能化具有重大的推动意义。
现有的时序动作检测一般可以分为时序动作提名生成和分类两个过程。虽然动作识别方法已经取得了令人印象深刻的分类精度,但在几个主流数据集例如HACS、ActivityNet-v1.3和THUMOS14的评估中,时序动作检测的性能仍然不能令人满意。因此,许多研究者的首要目标是提高时序动作提名的质量。因此,对生成的动作时序候选提名精度提高的算法是关键。
常用的时序动作检测方法包括基于预定义锚点的方法,以及基于边界的方法。预定义锚点的方法基于密集多尺度的锚点片段来生成时序动作检测结果。由于一个动作片段实例的持续时间从几秒到几分钟不等,基于预定义锚点的方法很难在合理的算力约束下检测出所有不同长度的动作片段。基于边界的方法首先预测起始点和终止点的边界置信度,然后采用自底向上的分组策略匹配起始和结束帧。该方法对边界信息变化敏感,从而能够生成较精确的边界。然而,基于边界的方法主要利用局部特征提取边界信息。因此,较容易受到局部噪声的影响,并且容易产生不完整的预测框。此外,这两类方法大都依赖冗余的多尺度锚点或者边界匹配模块来产生时序提名,需要大量的先验知识和手工调参。
近期,以基于时序上下文聚合的动作提名修正网络为主的方法利用边界信息和提名的内部信息分别进行帧级边界回归和片段级边界回归。具体来说,帧级边界回归优化对边界敏感候选提名的起始和结束位置,同时片段级边界回归通过候选提名的全局信息优化提名的中心位置和提名的持续时间,最后通过局部帧级边界回归和全局片段级边界回归的互补融合来逐步细化边界的精度,从而得到较高质量的提名。基于时序上下文聚合的动作提名修正网络既提高了提名边界的准确性也突破了锚点不灵活的限制。然而,尽管该网络在性能和效率上相比于前人的方法都取得了显著的领先,但仍存在一些弊端:(1)在进行时序动作生成任务时将起始和终止定义为单帧的点,忽视了起始或终止动作变化性,可以看作多帧的一个过程,导致生成的边界概率序列具有很多局部或者全局的噪声,从而使得动作提名边界质量不佳。(2)效率低下:基于时序上下文聚合的动作提名修正网络分别完成动作提名生成任务和动作分类任务,使得两阶段缺乏联合优化。
发明内容
为了解决现有技术的不足,本发明一种基于高精度边界预测的时序动作检测方法,针对动作检测任务中各类动作起始、结束时间点定位不精确的问题,采用高斯模型将动作起始和结束时间点描述为一个高斯变化的多帧过程,避免定义单一的起始帧和结束帧带来的过度自信对动作定位精度的影响。此外,使用单帧动作分类的时序动作检测方法,通过对包含动作的每帧视频进行分类,提升动作边界定位精度。最后,提出基于每帧图像动作分类和候选动作提名的融合策略进一步提升密集动作视频中不同类动作起始、结束时间点的定位精度。
为了实现上述目的,本发明提供一种基于高精度边界预测的时序动作检测方法,包括以下步骤:
S4:将S1的特征F输入时序动作分割模型,输出每一帧的动作分类yo∈RT×k和每类动作的置信度分数Saction,其中k为动作类别;
S7:使用非极大抑制算法去除S6中冗余的时序提名;
S9:根据整个时序动作检测任务S2-S8构建多任务学习模型,通过融合回归损失、分类损失、时序提名定位损失对多任务学习模型进行训练,训练完成后,通过训练好的多任务学习模型输出最终的时序动作检测结果,所述时序动作检测结果包括:融合得到时序动作提名信息动作类别Y以及对应的时序动作检测置信度分数Sdet。
优选地,步骤S3中,使用均方误差损失函数作为回归损失,回归损失计算公式如下:
优选地,步骤S4中,使用交叉熵损失和平滑损失构成分类损失,计算公式如下:
优选地,步骤S6中,使用IoU预测损失Liou和回归损失Lreg作为时序提名定位损失Lloc,计算公式如下:
Lloc=Liou+λLreg
其中,
Ntrain=Npos+Nincomp+Nneg
其中,pconf,i,giou,i分别为第i个正样本的置信度分数预测值和真实值,SmoothL1()用于计算预测值和真实值之间的损失误差,Ntrain、Npos、Nneg、Nincomp分别代表训练样本、正样本、负样本和不完整样本的个数,Δxi、Δwi、Δsi、Δei分别为时序提名生成模块预测的中心偏移量、持续时间偏移量、开始时间偏移量和结束时间偏移量,分别为实际中心偏移量、持续时间偏移量、开始时间偏移量和结束时间偏移量。
优选地,所述S7具体包括:
其中,ε是高斯函数参数,θ是预先设置的阈值;
S73:重复S72,直到提名个数NP为预设的个数,经过非极大抑制得到新的提名信息和每个候选提名的置信度分数S′props。
优选地,所述S8具体包括:
其中,τ为这两个提名所占权重参数,为帧级别的第j个提名的起始时间、为帧级别的第j个提名的结束时间,为片段级别的候选动作提名的第j个提名的起始时间、为片段级别的候选动作提名的第j个提名的结束时间,Np是提名个数;
S82:计算对应的时序动作检测置信度分数Sdet,其计算公式为:
Sdet=S'props×Saction
其中,S′props为步骤S7得到的每个候选提名的置信度分数,Saction是S4得到的每类动作的置信度分数。
优选地,步骤S9中,多任务学习模型的总损失函数为:
L=αLcls+βLloc+γLreg
其中,Lreg为回归损失,Lcls为分类损失,Lloc为时序提名定位损失,α、β、γ为权重参数。
可选地,所述特征提取器包括SlowFast、I3D、TSN、CSN、Timesformer、ViViT中的任意一种;
可选地,所述时序动作分割模型包括:MS-TCN和ASFormer中的任意一种。
此外,为了实现上述目的,本发明还提供了一种计算机设备,包括处理器和存储器,存储在存储器上并可在处理器上运行的时序动作检测方法程序,该时序动作检测方法程序被处理器执行时执行所述的时序动作检测方法的步骤。
本发明基于其技术方案所具有的有益效果在于:
(1)加入基于高斯建模的动作回归模块,对边界定位进行研究,对边界单一起始点、结束点和中间过程进行高斯建模,将单个点延展为多个时间点,回归网络生成置信度曲线来评估每一帧属于某个动作的起始、中间和结束区间的概率,以便对候选提名进行修正。
(2)本发明提出提名生成与动作分类多任务的时序动作检测方法。视频帧的动作分类知识能辅助动作提名网络提升动作时序定位的准确程度。因此,根据整个时序动作检测任务构建多任务学习模型,同时进行时序动作提名的生成和动作分类,使两个任务能够互相监督、互相辅助,提升动作定位的准确率。
附图说明
下面将结合附图及实施例对本发明的具体效果作进一步说明,附图中:
图1是本发明基于高精度边界预测的时序动作检测方法的执行流程图;
图2是本发明在HACS数据集上的验证结果实例图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
实施例一:
请参阅图1,本发明提供了一种时序动作检测方法,本实施例中,主要包含特征提取模块、回归模块、帧动作分类模块、动作提名生成模块:
步骤S1:采用特征提取器对未剪辑的视频X进行特征提取,得到特征;其中表示特征维度,是视频的总片段个数,i表示片段序号,是每个片段特征的维度,表示第i个片段的视觉特征;
本实施例中,优选使用SlowFast(SlowFast Networks for Video Recognition,用于视频识别的快慢网络)作为特征提取器。
需要说明的是,在本发明的其他实施例中,还可以用I3D(Two-Stream Inflated3D ConvNet,双流膨胀三维卷积网络)、TSN(Temporal Segment Networks,时间段网络)、CSN(Video classification with channel-separated convolutional networks,基于信道分离卷积网络的视频分类方法)、Timesformer(Time-Space transformer,基于空间和时间上的自我注意的无卷积视频分类方法)、ViViT(A Video Vision Transformer,视频转换器)中的任意一种代替SlowFast模型,进行特征提取,也可以根据实际选择其他可作为特征提取器的模型。
步骤S2:通过高斯过程建模每个时序动作实例的开始、中间和结束三个过程生成对应的置信度曲线,得到第t帧的第k类动作开始置信度分数、中间过程的置信度分数和结束置信度分数;
其中,开始置信度分数的计算公式如下:
步骤S2中的曲线描述对应的置信度分数,其中置信度分数由0到1,低的置信度分数表明当前帧和是某一个过程的可能性较小,相反,最高点表明当前帧是最接近某个动作实例。对于动作每个类都有开始,中间和结束,置信度大小为类别数k×3,即对每一帧预测其可能是开始、中间、结束的概率。
D(l+1)=confA(f(con vA(D(l))))+D(l)
步骤S4:将步骤S1的特征F输入时序动作分割模型,输出每一帧的动作分类yo∈RT ×k和每类动作的置信度分数Saction,其中T是视频的总片段个数,k为动作类别;
本实施例优选使用ASFormer(Transformer for Action Segmentation,用于动作分割的Transformer模型)作为时序动作分割模型,输入步骤S1的特征F,得到每一帧的动作分类yo∈RT×k和每类动作的概率分数Saction,ASFormer模型训练时,直接将训练样本的标签由粗粒度的一组动作实例的起止时间转换为细粒度的单帧级别标签,数据集的类别数量C增加一类为背景类;
需要说明的是,在本发明的其他实施例中,可以根据实际选择其他时序动作分割模型,比如MS-TCN(Multi-Stage Temporal Convolutional Network for ActionSegmentation,基于多阶段时间卷积网络的动作分割模型)。
步骤S5:使用步骤S3中得到的置信度分数修正由步骤S4中得到的每一帧的动作分类,得到每一帧更精确的动作分类yn∈RT×k以及提名的动作类别Y,并根据帧级别的动作分类进一步获得动作提名信息包括对于未剪辑的视频X的第j个提名的起始时间结束时间和这段候选提名的动作类别k,其中Np是提名个数。
步骤S6:将步骤S1的特征F输入TCANet(基于时序上下文聚合的动作提名修正网络)模型,预测视频X的一系列可能存在动作实例的候选动作提名信息和每个候选提名的置信度分数Sprops,包括动作的起始时间和结束时间
步骤S7:使用Soft-NMS(非极大抑制算法)去除步骤S6中冗余的时序提名;
步骤S8:计算步骤S5获得的帧级别的提名信息和步骤S7获得的片段级别的候选提名信息的交叠率IoU值,当当交叠率IoU值大于阈值时,融合这两个提名信息,得到更可靠的时序动作提名信息并计算对应的时序动作检测置信度分数Sdet,其计算公式:
Sdet=S'props×Saction
其中τ为这两个提名所占权重参数。
步骤S9:根据整个时序动作检测任务S2-S8构建多任务学习模型,通过融合回归损失、分类损失、时序提名定位损失对多任务学习模型进行训练,训练完成后,通过训练好的多任务学习模型输出最终的时序动作检测结果,所述时序动作检测结果包括:融合得到时序动作提名信息动作类别Y以及对应的时序动作检测置信度分数Sdet。
本实施例中,需要对回归过程、帧动作分类、时序动作提名生成整个过程进行训练,整个时序动作定位检测任务可以作为多任务学习,通过融合回归损失(Lreg)、分类损失(Lcls)、时序提名定位损失(Lloc)对时序动作检测进行训练,其损失函数如下:
L=αLcls+βLloc+γLreg
其中,α、β、γ为权重参数。
在本发明的一种实施例中,帧动作分类模块使用交叉熵损失函数和平滑损失函数组成:
在本发明的一种实施例中,使用IoU预测损失(Liou)和回归损失(Lreg)作为时序提名定位损失:
Lloc=Liou+λLreg
其中,
Ntrain=Npos+Nincomp+Nneg
Ntrain、Npos、Nneg、Nincomp分别代表训练样本、正样本、负样本和不完整样本个数,Δxi、Δwi、Δsi、Δei分别为时序提名生成模块预测的中心偏移量、持续时间偏移量、开始时间偏移量和结束时间偏移量,分别为实际中心偏移量、持续时间偏移量、开始时间偏移量和结束时间偏移量。
在本发明的一种实施例中,回归模块使用均方误差损失函数训练直至收敛,损失函数计算公式如下:
在本发明的一种实施例中,采用公开HACS数据集进行训练和测试。HACS是一个用于时序动作检测的大数据集,包含37.6k训练集,6k验证集和6k的测试集,共有200种动作类别,最后验证SSN(Temporal Action Detection with Structured Segment Networks,结构化分段网络的时序动作检测)、S-TAN(Learning sparse 2d temporal adjacentnetworks for temporal action localization学习稀疏二维时序相邻网络进行时序动作定位)、G-TAD(Sub-Graph Localization for Temporal Action Detection用于时序动作检测的子图定位)、SegTAD(Precise Temporal Action Detection via SemanticSegmentation通过语义分割的精确时序动作检测)、TadTR(End-to-end Temporal ActionDetection with Transformer基于Transformer进行端到端时序动作检测)、BMN(Boundary-Matching Network for Temporal Action Proposal Generation边界匹配网络的时序动作提名生成)这六个现有模型与本发明的时序动作检测方法在不同IoU阈值下的mAP值,如表1:
根据表1的结果可知,本发明所提供的时序动作检测方法的检测精度高于现有的六种模型方法。
表1在不同IoU阈值下的时序动作检测结果对比(HACS数据集)
请参阅图2,图2中第一行提名为真实标签,HACS数据集上第二行片段级别的候选提名输出和第三行帧级别的提名输出边界都不准确,将这两种输出融合,使得提名更接近实际情况。第三行显示了融合提名后可以生成高精度的提名。
实施例二:
本实施例提供了一种计算机设备,包括处理器和存储器,存储在存储器上并可在处理器上运行的时序动作检测方法程序,该时序动作检测方法程序被处理器执行时执行实施例一所述的时序动作检测方法的步骤,且能实现与实施例一相同的技术效果,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序,可将这些词语解释为标识。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于高精度边界预测的时序动作检测方法,其特征在于,包括以下步骤:
S4:将S1的特征F输入时序动作分割模型,输出每一帧的动作分类yo∈RT×k和每类动作的置信度分数Saction,其中k为动作类别;
S7:使用非极大抑制算法去除S6中冗余的时序提名;
5.如权利要求1所述的基于高精度边界预测的时序动作检测方法,其特征在于,步骤S6中,使用IoU预测损失Liou和回归损失Lreg作为时序提名定位损失Lloc,计算公式如下:
Lloc=Liou+λLreg
其中,
Ntrain=Npos+Nincomp+Nneg
7.如权利要求1所述的基于高精度边界预测的时序动作检测方法,其特征在于,所述S8具体包括:
其中,τ为这两个提名所占权重参数,为帧级别的第j个提名的起始时间、为帧级别的第j个提名的结束时间,为片段级别的候选动作提名的第j个提名的起始时间、为片段级别的候选动作提名的第j个提名的结束时间,Np是提名个数;
S82:计算对应的时序动作检测置信度分数Sdet,其计算公式:
Sdet=S′props×Saction
其中,S′props为步骤S7得到的每个候选提名的置信度分数,Saction是S4得到的每类动作的置信度分数。
8.如权利要求1所述的基于高精度边界预测的时序动作检测方法,其特征在于,步骤S9中,多任务学习模型的总损失函数为:
L=αLcls+βLloc+γLreg
其中,Lreg为回归损失,Lcls为分类损失,Lloc为时序提名定位损失,α、β、γ为权重参数。
9.如权利要求1所述的基于高精度边界预测的时序动作检测方法,其特征在于,所述特征提取器包括SlowFast、I3D、TSN、CSN、Timesformer、ViViT中的任意一种;所述时序动作分割模型包括:MS-TCN和ASFormer中的任意一种。
10.一种计算机设备,其特征在于,包括处理器和存储器,存储在存储器上并可在处理器上运行的时序动作检测方法程序,该时序动作检测方法程序被处理器执行时执行如权利要求1-9中任一项所述的时序动作检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211051519.3A CN115588230A (zh) | 2022-08-31 | 2022-08-31 | 基于高精度边界预测的时序动作检测方法及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211051519.3A CN115588230A (zh) | 2022-08-31 | 2022-08-31 | 基于高精度边界预测的时序动作检测方法及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115588230A true CN115588230A (zh) | 2023-01-10 |
Family
ID=84771503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211051519.3A Pending CN115588230A (zh) | 2022-08-31 | 2022-08-31 | 基于高精度边界预测的时序动作检测方法及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115588230A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117292307A (zh) * | 2023-11-27 | 2023-12-26 | 江苏源驶科技有限公司 | 一种基于粗时间粒度的时序动作提名生成方法及系统 |
-
2022
- 2022-08-31 CN CN202211051519.3A patent/CN115588230A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117292307A (zh) * | 2023-11-27 | 2023-12-26 | 江苏源驶科技有限公司 | 一种基于粗时间粒度的时序动作提名生成方法及系统 |
CN117292307B (zh) * | 2023-11-27 | 2024-01-30 | 江苏源驶科技有限公司 | 一种基于粗时间粒度的时序动作提名生成方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108985334B (zh) | 基于自监督过程改进主动学习的通用物体检测系统及方法 | |
CN112949828B (zh) | 一种基于图学习的图卷积神经网络交通预测方法及系统 | |
CN112541904B (zh) | 一种无监督遥感图像变化检测方法、存储介质及计算设备 | |
CN110096938B (zh) | 一种视频中的动作行为的处理方法和装置 | |
WO2018005413A1 (en) | Method and system for cell annotation with adaptive incremental learning | |
CN111382686B (zh) | 一种基于半监督生成对抗网络的车道线检测方法 | |
CN110659742A (zh) | 获取用户行为序列的序列表示向量的方法和装置 | |
WO2019167784A1 (ja) | 位置特定装置、位置特定方法及びコンピュータプログラム | |
WO2022199214A1 (zh) | 样本扩展方法、训练方法和系统、及样本学习系统 | |
CN112507778B (zh) | 一种基于线特征的改进词袋模型的回环检测方法 | |
CN110942090A (zh) | 模型训练、图像处理方法、装置、电子设备及存储介质 | |
CN114782997A (zh) | 基于多损失注意力自适应网络的行人重识别方法及系统 | |
CN115588230A (zh) | 基于高精度边界预测的时序动作检测方法及计算机设备 | |
CN111008570A (zh) | 一种基于压缩-激励伪三维网络的视频理解方法 | |
CN114820765A (zh) | 图像识别方法、装置、电子设备及计算机可读存储介质 | |
CN113378852A (zh) | 关键点检测方法、装置、电子设备及存储介质 | |
CN117765432A (zh) | 一种基于动作边界预测的中学理化生实验动作检测方法 | |
Liu et al. | A novel method for temporal action localization and recognition in untrimmed video based on time series segmentation | |
CN116958057A (zh) | 一种策略引导的视觉回环检测的方法 | |
CN113870320B (zh) | 一种基于深度神经网络的行人追踪监控方法及系统 | |
CN114419343A (zh) | 一种多目标识别跟踪方法及识别跟踪系统 | |
CN102308307B (zh) | 用于模式发现和识别的方法 | |
CN109165586A (zh) | 用于ai芯片的智能图像处理方法 | |
CN115393388A (zh) | 一种基于位置不确定性估计的单目标跟踪方法 | |
Taghikhah et al. | Quantile-based maximum likelihood training for outlier detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |