CN113569757A - 一种时序动作定位方法、系统、终端设备及可读存储介质 - Google Patents
一种时序动作定位方法、系统、终端设备及可读存储介质 Download PDFInfo
- Publication number
- CN113569757A CN113569757A CN202110866992.6A CN202110866992A CN113569757A CN 113569757 A CN113569757 A CN 113569757A CN 202110866992 A CN202110866992 A CN 202110866992A CN 113569757 A CN113569757 A CN 113569757A
- Authority
- CN
- China
- Prior art keywords
- proposal
- action
- video
- time sequence
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000009471 action Effects 0.000 title claims abstract description 108
- 238000000034 method Methods 0.000 title claims abstract description 74
- 230000006870 function Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- UTTZHZDGHMJDPM-NXCSSKFKSA-N 7-[2-[[(1r,2s)-1-hydroxy-1-phenylpropan-2-yl]amino]ethyl]-1,3-dimethylpurine-2,6-dione;hydrochloride Chemical compound Cl.C1([C@@H](O)[C@@H](NCCN2C=3C(=O)N(C)C(=O)N(C)C=3N=C2)C)=CC=CC=C1 UTTZHZDGHMJDPM-NXCSSKFKSA-N 0.000 claims description 3
- 239000000725 suspension Substances 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 15
- 230000004807 localization Effects 0.000 description 8
- 230000002123 temporal effect Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 210000003813 thumb Anatomy 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000010419 fine particle Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种时序动作定位方法、系统、终端设备及可读存储介质,所述方法包括以下步骤:获取待时序动作定位的原始视频的候选动作提案集合;获取所述候选动作提案集合中每个提案的提案特征;更新所述候选动作提案集合中每个提案的提案特征,获得更新后的动作提案集合;基于所述更新后的动作提案集合,通过预训练好的全连接层网络获得待时序动作定位的原始视频的时序动作定位结果。本发明提供了利用局部和全局上下文处理时序动作定位的方法;其中,全局上下文能提供对分类有用的信息,让模型更加精准的识别动作类别;在此基础上,局部上下文能提供细腻的时序定位信息,让模型更加精准的定位动作的起止时刻。
Description
技术领域
本发明属于计算机视觉领域,特别涉及一种时序动作定位方法、系统、终端设备及可读存储介质。
背景技术
时序动作定位是视频理解中的基本任务,它要求对动作实例分类并且定位动作实例的时序边界。有效地处理时序动作定位任务需要追求两个目标:对于动作分类来说,需要追求足够的视觉不变性;对于定位来说,需要细粒地区分动作的起止时刻。最近,时序动作定位因为在动作检索、视频摘要、智能安防等广泛的应用而越来越受到研究界的关注。
目前,传统的时序动作定位技术并没有很完善的考虑到上面两个目标。其中一方面,没有考虑到全局上下文(整个视频)带来的对分类有用的信息,例如背景等;缺失了对分类有用的信息会导致分类的准确率偏低,让模型错误地识别动作(把调高识别成跳远)。另外一方面,现有方法仅仅通过最大池化视频片段的特征来进行定位,缺失了局部上下文(包含动作起止时间的视频片段)带来的细粒的定位信息,缺失了细腻的定位信息会导致模型无法精准地定位到动作的起止时刻。
发明内容
本发明的目的在于提供一种时序动作定位方法、系统、终端设备及可读存储介质,以解决上述存在的一个或多个技术问题。本发明提供了利用局部和全局上下文处理时序动作定位的方法;其中,全局上下文能提供对分类有用的信息,让模型更加精准的识别动作类别;在此基础上,局部上下文能提供细腻的时序定位信息,让模型更加精准的定位动作的起止时刻。
为达到上述目的,本发明采用以下技术方案:
本发明的一种时序动作定位方法,包括以下步骤:
将待时序动作定位的原始视频划分为视频片段并编码,获得视频片段特征序列;获取待时序动作定位的原始视频的候选动作提案集合;
基于视频片段特征序列,获取所述候选动作提案集合中每个提案的提案特征;
更新所述候选动作提案集合中每个提案的提案特征,获得更新后的动作提案集合;其中,所述更新所述候选动作提案集合中每个提案的提案特征的过程中,更新选中提案的提案特征的操作为,在所述选中提案的提案特征上拼接所述选中提案的局部上下文和全局上下文信息;
基于所述更新后的动作提案集合,通过预训练好的全连接层网络获得待时序动作定位的原始视频的时序动作定位结果。
本发明方法的进一步改进在于,所述获取所述候选动作提案集合中每个提案的提案特征的具体步骤包括:
对于所述候选动作提案集合中每个提案,最大池化提案内部的视频片段特征获得提案的提案特征。
本发明方法的进一步改进在于,所述获得视频片段特征序列之后,还包括:最大池化所有视频片段的特征,获得所述待时序动作定位的原始视频的视频特征。
本发明方法的进一步改进在于,所述在所述选中提案的提案特征上拼接所述选中提案的局部上下文和全局上下文信息的过程中,所述选中提案的局部上下文获取及拼接步骤具体包括:
(1)查询所述选中提案与其内部的视频片段的关系,表达式为:
式中,σ是ReLU激活函数;s是余弦相似度;S(i)是第i个提案内部的视频片段集合;i
是指第i个提案,j是指第i个提案内部的一个视频片段,k是提案内部的所有视频片段的索引;为第j个提案内部的视频片段与提案的关系,上标L表示这个关系属于L-Net;yi表示第i个提案的特征,xj,xk分别表示提案内部的第j,k个视频片段的特征;
(2)具有局部上下文的提案特征的表达式为:
本发明方法的进一步改进在于,所述在所述选中提案的提案特征上拼接所述选中提案的局部上下文和全局上下文信息的过程中,所述选中提案的全局上下文获取及拼接步骤具体包括:
1)计算所述选中提案的全局上下文的表达式为,
本发明方法的进一步改进在于,所述预训练好的全连接层网络的获取步骤包括:
本发明方法的进一步改进在于,所述获取待时序动作定位的原始视频的候选动作提案集合之后,还包括:
将原始提案扩展左右两侧的时间边界,扩展长度为原始提案的一半,获取扩充的提案的特征;
使用悬挂损失函数计算完整性分数的损失,使用1范数损失函数计算边界回归的损失,利用获得损失失分别优化两个全连接层;
本发明的一种时序动作定位系统,包括:
特征序列获取模块,用于将待时序动作定位的原始视频划分为视频片段并编码,获得视频片段特征序列;
候选动作提案集合获取模块,用于获取待时序动作定位的原始视频的候选动作提案集合;
提案特征获取模块,用于基于视频片段特征序列,获取所述候选动作提案集合中每个提案的提案特征;
更新模块,用于更新所述候选动作提案集合中每个提案的提案特征,获得更新后的动作提案集合;其中,所述更新所述候选动作提案集合中每个提案的提案特征的过程中,更新选中提案的提案特征的操作为,在所述选中提案的提案特征上拼接所述选中提案的局部上下文和全局上下文信息;
结果获取模块,用于基于所述更新后的动作提案集合,通过预训练好的全连接层网络获得待时序动作定位的原始视频的时序动作定位结果。
本发明的一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序以实现如本发明任意一项上述的时序动作定位方法。
本发明的一种计算机可读存储介质,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现如本发明任意一项上述的时序动作定位方法。
与现有技术相比,本发明具有以下有益效果:
本发明的方法中利用局部和全局上下文处理时序动作定位;其中,局部上下文用来追求对定位的细粒的区分,全局上下文用来追求足够的视觉不变性。具体的,由于本发明考虑了内部的细粒的定位信息(局部上下文),所以本发明的方法比现有传统方法能更好地定位动作的起始和截至时刻。由于本发明考虑到了外部的对分类有用的信息(全局上下文),并且全局上下文还能补足不完整的提案,所以本发明的方法比现有的方法能更好地分类动作实例。
本发明在建模时,将扩充的提案当作三个提案来处理,相比于现有方法能够有效地减少网络参数量和计算量并增加性能。
本发明原始的提案使用的网络是扩充提案的网络的一部分,这样考虑到了原始提案和扩充提案的关系,让原始提案和扩充提案的特征具有同一性,符合实际的物理意义,具有可解释性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图做简单的介绍;显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种时序动作定位方法的流程示意图;
图2是本发明实施例中,上下文示意图;其中,图2(a)为局部上下文示意图;图2(b)为全局上下文示意图;
图3是本发明实施例中,本发明方法处理扩充的提案与现有方法处理扩充的提案对比示意图;
图4是本发明实施例中,定位效果对比示意图;其中,图4(a)为本发明的方法与现有最好的方法在流行的两个数据集上(THUMOS14,ActivityNet v1.3)定位效果对比示意图;图4(b)为本发明的方法与现有最好的方法在流行的两个数据集上(THUMOS14,ActivityNet v1.3)分类效果对比示意图。
具体实施方式
为使本发明实施例的目的、技术效果及技术方案更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例是本发明一部分实施例。基于本发明公开的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例,都应属于本发明保护的范围。
实施例1
请参阅图1,本发明实施例的一种基于局部和全局上下文的时序动作定位方法,包括以下步骤:
步骤1:在提案(可能包含动作的视频片段)上保留局部上下文,包括:
获得提案内部的视频片段;
使用提案询问这些视频片段中哪些视频片段是对定位起着关键作用的;将起着关键作用的视频片段经过线性变换之后,合并到提案上。
步骤2:在提案上加入全局上下文,包括:
让全局上下文适应不同的提案;将提案与适应这个提案的全局上下文合并。
步骤3:对这些具有局部和全局上下文的原始提案进行动作类别的打分(假设有20类动作,那么一个提案就有20个分数);得分最高的动作类别为预测出的动作类别。
步骤4:将原始的提案在时序上向左右各扩充原本1/2的长度,并将左右扩充的部分视为新的两个提案。然后将这两个新的提案通过步骤1和步骤2(此网络与原始提案通过的网络是一样的),拼接原始的提案和这两个新的提案得到扩充的提案。
步骤5:获得最后分类和定位结果,包括:
通过扩充的提案得到补充的分类分数,并获得对应的原始提案的分类分数。将这两个分数相乘得到最后的分类结果;
通过扩充的提案得到动作的起始时刻和截止时刻。
本发明上述实施例的方法相比于现有技术具有的优点包括:
第一,由于本发明考虑了提案内部的细粒的定位信息(局部上下文),所以本发明的方法比现有方法能更好地定位动作的起始和截至时刻。
第二,本发明考虑到了提案外部的对分类有用的信息(全局上下文),并且全局上下文还能补足不完整的提案,所以本发明的方法比现有的方法能更好地分类动作实例。
第三,在建模的时候本发明将扩充的提案当作三个提案来处理,比现有的方法有效地减少了网络参数量和计算量并增加了性能。本发明原始的提案使用的网络是扩充提案的网络的一部分,这样考虑到了原始提案和扩充提案的关系,这是现有的方法所没有的。
实施例2
请参阅图2,如附图2(a)、图2(b)所示,局部上下文能给提案带来细粒的时序定位信息,全局上下文能补充提案并且给提案带来对分类有利的信息如背景信息,然后具有局部和全局上下文的提案可以更精准的进行分类和定位(边界回归)。
本发明实施例的一种基于局部和全局上下文的时序动作定位方法,包括以下步骤:
步骤1:获得多等级特征:
1)将视频分割为64帧的视频片段,然后通过I3D网络提取视频片段特征,标注为xj,其中j代表着第j个视频片段并且x是1024维度的特征向量;
2)利用已有的理论BSN(Boundary-Sensitive Network for Temporal ActionProposal Generation,用于时序动作提案生成的边界敏感网络方法)获得初始的提案,最大池化提案内部的视频片段特征获得提案特征,标注为yi,其中i代表着第i个提案并且y是1024维度的特征向量;
3)最大池化所有视频片段的特征得到整个视频的特征,标注为z,z也是1024维度的特征向量。
步骤2:在提案上保留局部上下文:
1)查询提案与它内部的视频片段的关系,计算公式为:
其中,σ是ReLU激活函数;s是余弦相似度;S(i)是第i个提案内部的视频片段集合。如果余弦相似度小于0,代表着提案与这个视频片段关系很弱,就用激活函数移除;
2)得出局部上下文并保留在提案上:
本发明将视频片段的特征通过线性变化得到局部上下文,并且保留与提案关系近的局部上下文在提案上,具体公式如下:
步骤3:在提案上保留全局上下文:
1)全局上下文拥有整个视频全部的信息,它在为提案提供对分类有用的信息的同时会带来大量噪声。因为,对于不同的提案,需要让它们获得各自需要的全局上下文。所以本发明对每个提案设计出与它对应的全局上下文,计算公式为:
请参阅图3,步骤4:处理扩充的提案如图3所示,其中L-Net代表步骤2,G-Net代表步骤3。特别地,P-Net为整合提案中的局部和全局上下文的网络,它可以是任意一种处理特征向量之间关系的网络,本发明实施例中使用P-GCN作为P-Net。本发明将扩充的提案当作三个提案分别处理,并且它们共享网络的权重,这样不仅减少了模型的复杂度和计算量,还反应了原始提案是扩充提案的一部分。而在之前的方法中,他们是把扩充的提案当作一个提案,原始提案当作一个提案分开来处理的,它们之间的关系被忽略了,忽略了会导致他们的特征的描述不对应(即不一定都是考虑的跟原始提案相关的部分),没有可解释性。
步骤5:将原始的提案特征通过全连接层得到预测出的分类分数so,将对应的扩充的提案特征通过两个全连接层得到预测出的分类分数se和定位结果(边界回归),最后提案分类的分数为两个分数相乘so×se。
请参阅图4,表1是本发明实施例的方法在THUMOS14数据集上同之前的方法的性能对比,表2是在ActivityNet v1.3数据集上性能对比的结果。特别地,评估性能的指标为不同tIoU阈值下的mAP(mean Average Precision)。评价指标mAP能综合的反应出动作分类的准确率和动作定位的精准性。从表1和表2可以看出,本发明的方法比现有的方法有了较大提升(在THUMOS数据集tIoU@0.5的情况下mAP比之前最高的方法高了5.2%),这表明我们的同时在动作分类和定位上都得到了很大的提升,这种好处是考虑了局部和全局上下文带来的。
表1.THUMOS14数据集上性能对比,tIoU阈值为0.3到0.7
表2.ActivityNet v1.3数据集上性能对比,tIoU阈值为0.5到0.95,均值是0.5到0.95步长为0.05的结果;(*)表明额外进行了视频等级的分类预测
综上所述,本发明实施例公开了一种基于局部和全局上下文的时序动作定位方法,属于计算机视觉领域。本发明针对时序动作定位中需要追求的两个目标:时间定位的细粒度识别和动作分类的足够的视觉不变性,使用局部和全局上下文处理时序动作定位任务。首先,通过问询机制在提案上保留局部上下文。其次本发明提供了一种新颖的全局上下文适应方法,使得每一个提案都获得与它适应的全局上下文。最后,本发明提供了一种全新的处理扩充提案的方式,在有效减少参数和计算量的基础上增加了性能。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。
Claims (10)
1.一种时序动作定位方法,其特征在于,包括以下步骤:
将待时序动作定位的原始视频划分为视频片段并编码,获得视频片段特征序列;获取待时序动作定位的原始视频的候选动作提案集合;
基于视频片段特征序列,获取所述候选动作提案集合中每个提案的提案特征;
更新所述候选动作提案集合中每个提案的提案特征,获得更新后的动作提案集合;其中,所述更新所述候选动作提案集合中每个提案的提案特征的过程中,更新选中提案的提案特征的操作为,在所述选中提案的提案特征上拼接所述选中提案的局部上下文和全局上下文信息;
基于所述更新后的动作提案集合,通过预训练好的全连接层网络获得待时序动作定位的原始视频的时序动作定位结果。
2.根据权利要求1所述的一种时序动作定位方法,其特征在于,所述获取所述候选动作提案集合中每个提案的提案特征的具体步骤包括:
对于所述候选动作提案集合中每个提案,最大池化提案内部的视频片段特征获得提案的提案特征。
3.根据权利要求1所述的一种时序动作定位方法,其特征在于,所述获得视频片段特征序列之后,还包括:
最大池化所有视频片段的特征,获得所述待时序动作定位的原始视频的视频特征。
4.根据权利要求3所述的一种时序动作定位方法,其特征在于,所述在所述选中提案的提案特征上拼接所述选中提案的局部上下文和全局上下文信息的过程中,所述选中提案的局部上下文获取及拼接步骤具体包括:
(1)查询所述选中提案与其内部的视频片段的关系,表达式为:
式中,σ是ReLU激活函数;s是余弦相似度;S(i)是第i个提案内部的视频片段集合;i是指第i个提案,j是指第i个提案内部的一个视频片段,k是提案内部的所有视频片段的索引;为第j个提案内部的视频片段与提案的关系,上标L表示这个关系属于L-Net;yi表示第i个提案的特征,xj,xk分别表示提案内部的第j,k个视频片段的特征;
(2)具有局部上下文的提案特征的表达式为:
7.根据权利要求6所述的一种时序动作定位方法,其特征在于,所述获取待时序动作定位的原始视频的候选动作提案集合之后,还包括:
将原始提案扩展左右两侧的时间边界,扩展长度为原始提案的一半,获取扩充的提案的特征;
使用悬挂损失函数计算完整性分数的损失,使用1范数损失函数计算边界回归的损失,利用获得损失失分别优化两个全连接层;
8.一种时序动作定位系统,其特征在于,包括:
特征序列获取模块,用于将待时序动作定位的原始视频划分为视频片段并编码,获得视频片段特征序列;
候选动作提案集合获取模块,用于获取待时序动作定位的原始视频的候选动作提案集合;
提案特征获取模块,用于基于视频片段特征序列,获取所述候选动作提案集合中每个提案的提案特征;
更新模块,用于更新所述候选动作提案集合中每个提案的提案特征,获得更新后的动作提案集合;其中,所述更新所述候选动作提案集合中每个提案的提案特征的过程中,更新选中提案的提案特征的操作为,在所述选中提案的提案特征上拼接所述选中提案的局部上下文和全局上下文信息;
结果获取模块,用于基于所述更新后的动作提案集合,通过预训练好的全连接层网络获得待时序动作定位的原始视频的时序动作定位结果。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1至7中任意一项所述的时序动作定位方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现如权利要求1至7中任意一项所述的时序动作定位方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110866992.6A CN113569757B (zh) | 2021-07-29 | 2021-07-29 | 一种时序动作定位方法、系统、终端设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110866992.6A CN113569757B (zh) | 2021-07-29 | 2021-07-29 | 一种时序动作定位方法、系统、终端设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113569757A true CN113569757A (zh) | 2021-10-29 |
CN113569757B CN113569757B (zh) | 2024-04-05 |
Family
ID=78169218
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110866992.6A Active CN113569757B (zh) | 2021-07-29 | 2021-07-29 | 一种时序动作定位方法、系统、终端设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113569757B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114511809A (zh) * | 2022-01-27 | 2022-05-17 | 西安交通大学 | 一种基于特征解耦的时序动作定位方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932304A (zh) * | 2018-06-12 | 2018-12-04 | 山东大学 | 基于跨模态的视频时刻定位方法、系统及存储介质 |
CN110147876A (zh) * | 2019-05-09 | 2019-08-20 | 中山大学 | 基于视觉特征相似度的神经网络及其动作提案生成方法 |
CN110688927A (zh) * | 2019-09-20 | 2020-01-14 | 湖南大学 | 一种基于时序卷积建模的视频动作检测方法 |
CN111914644A (zh) * | 2020-06-30 | 2020-11-10 | 西安交通大学 | 一种基于双模态协同的弱监督时序动作定位方法及系统 |
WO2021035807A1 (zh) * | 2019-08-23 | 2021-03-04 | 深圳大学 | 一种融合光流信息和Siamese框架的目标跟踪方法及装置 |
-
2021
- 2021-07-29 CN CN202110866992.6A patent/CN113569757B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932304A (zh) * | 2018-06-12 | 2018-12-04 | 山东大学 | 基于跨模态的视频时刻定位方法、系统及存储介质 |
CN110147876A (zh) * | 2019-05-09 | 2019-08-20 | 中山大学 | 基于视觉特征相似度的神经网络及其动作提案生成方法 |
WO2021035807A1 (zh) * | 2019-08-23 | 2021-03-04 | 深圳大学 | 一种融合光流信息和Siamese框架的目标跟踪方法及装置 |
CN110688927A (zh) * | 2019-09-20 | 2020-01-14 | 湖南大学 | 一种基于时序卷积建模的视频动作检测方法 |
CN111914644A (zh) * | 2020-06-30 | 2020-11-10 | 西安交通大学 | 一种基于双模态协同的弱监督时序动作定位方法及系统 |
Non-Patent Citations (1)
Title |
---|
熊成鑫;郭丹;刘学亮;: "时域候选优化的时序动作检测", 中国图象图形学报, no. 07 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114511809A (zh) * | 2022-01-27 | 2022-05-17 | 西安交通大学 | 一种基于特征解耦的时序动作定位方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113569757B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
He et al. | Softer-nms: Rethinking bounding box regression for accurate object detection | |
Leng et al. | A 3D model recognition mechanism based on deep Boltzmann machines | |
CN112288773A (zh) | 基于Soft-NMS的多尺度人体跟踪方法及装置 | |
CN111177438B (zh) | 图像特征值的搜索方法、装置、电子设备及存储介质 | |
Athitsos et al. | Efficient nearest neighbor classification using a cascade of approximate similarity measures | |
US11645328B2 (en) | 3D-aware image search | |
CN112200295A (zh) | 稀疏化卷积神经网络的排序方法、运算方法、装置及设备 | |
CN106530330B (zh) | 基于低秩稀疏的视频目标跟踪方法 | |
CN111931953A (zh) | 一种废旧手机多尺度特征深度森林识别方法 | |
CN113220865B (zh) | 一种文本相似词汇检索方法、系统、介质及电子设备 | |
CN113515656A (zh) | 一种基于增量学习的多视角目标识别与检索方法、及装置 | |
CN112258557A (zh) | 一种基于空间注意力特征聚合的视觉跟踪方法 | |
CN113569757A (zh) | 一种时序动作定位方法、系统、终端设备及可读存储介质 | |
CN117217277A (zh) | 语言模型的预训练方法、装置、设备、存储介质及产品 | |
CN116863250B (zh) | 一种涉及多模态未知类识别的开放场景目标检测方法 | |
CN111496784B (zh) | 一种用于机器人智能化服务的空间环境识别方法及系统 | |
CN112084353A (zh) | 一种快速陆标-卷积特征匹配的词袋模型方法 | |
CN117315770A (zh) | 一种基于骨骼点的人体行为识别方法、设备与存储介质 | |
CN116630943A (zh) | 一种驾驶员疲劳检测模型构建方法、装置、设备及介质 | |
CN114511809A (zh) | 一种基于特征解耦的时序动作定位方法及系统 | |
CN115795355A (zh) | 一种分类模型训练方法、装置及设备 | |
Joshi et al. | Meta-Learning, Fast Adaptation, and Latent Representation for Head Pose Estimation | |
CN115100694A (zh) | 一种基于自监督神经网络的指纹快速检索方法 | |
CN113936301A (zh) | 基于中心点预测损失函数的目标重识别方法 | |
CN112738724A (zh) | 一种区域目标人群的精准识别方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |