CN114339403A - 一种视频动作片段生成方法、系统、设备及可读存储介质 - Google Patents

一种视频动作片段生成方法、系统、设备及可读存储介质 Download PDF

Info

Publication number
CN114339403A
CN114339403A CN202111677648.9A CN202111677648A CN114339403A CN 114339403 A CN114339403 A CN 114339403A CN 202111677648 A CN202111677648 A CN 202111677648A CN 114339403 A CN114339403 A CN 114339403A
Authority
CN
China
Prior art keywords
video
scale
feature map
action
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111677648.9A
Other languages
English (en)
Other versions
CN114339403B (zh
Inventor
魏平
尚嘉慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202111677648.9A priority Critical patent/CN114339403B/zh
Publication of CN114339403A publication Critical patent/CN114339403A/zh
Application granted granted Critical
Publication of CN114339403B publication Critical patent/CN114339403B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种视频动作片段生成方法、系统、设备及可读存储介质,通过从视频片段中提取视频特征,对提取的视频特征进行处理构成视频的多尺度特征图,采用Transformer模型对多尺度特征图进行转换处理得到一组动作Queries的特征,采用前馈网络和线性投影对动作Queries的特征进行检测达到视频的起止时间位置和置信分数,完成视频动作片段生成,本发明基于Transformer模型,将动作片段生成视为直接集预测问题,不仅简化了检测流程,消除了后处理等手工设计组件,并行输出检测结果;而且利用多尺度特征图处理不同时间长度的动作实例,本发明在性能和运行时间方面有显著提高。

Description

一种视频动作片段生成方法、系统、设备及可读存储介质
技术领域
本发明涉及计算机视觉中的视频内容检测领域,具体运用了多尺度特征图和先进的Transformer模型的方法,涉及一种视频动作片段生成方法、系统、设备及可读存储介质。
背景技术
随着大量视频被捕捉并上传到网上(如YouTube、Instagram和TikTok),视频理解正成为计算机视觉中的一个重要问题。这些网络视频本质上是未修剪的,因此动作片段生成是一项要求很高的技术,它的目的是用动作的起止时间来定位长时间未修剪视频中的每个动作实例,促进应用如智能监测、突出提取,视频审核,视频摘要等等。视频时间动作检测方法的输入为未修剪视频(含一个或多个动作),输出为动作开始、结束时间。
目前主流的视频时间检测方法有两种主流方法:基于anchor的方法和基于边界的方法。这些方法有着对噪声敏感以及高度依赖于精心设计的复杂机制,需要特定的调优,检测效率低等缺点。
发明内容
本发明的目的在于提供一种视频动作片段生成方法、系统、设备及可读存储介质,以克服现有技术的不足。
一种视频动作片段生成方法,利用先进的Transformer结构,直接预测一组出现在视频中的动作实例,并且利用多尺度特征图分别对不同时间长度的动作实例进行检测,包括如下步骤:
步骤1:视频特征提取。使用Kinetics数据集上预先训练的I3D模型从片段中提取特征,来构成输入视频的紧凑表示
Figure BDA0003452649730000011
其中C为通道数;
步骤2:视频多尺度特征图构建。在步骤1对视频特征进行提取后,得到长度为T的一维特征图,利用步幅为2的一维卷积对特征图进行处理,分别得到长度为T,T/2,T/4的特征图,构成视频的多尺度特征图;
步骤3:Transformer模型对特征图的处理。将步骤2构建的多尺度特征图进行拼接后输入到Transformer模型中来实现对特征的进一步处理;
首先,将多尺度特征沿时间维度进行拼接,得到特征维度为(batch size,T+T/2+T/4,512),其中设置T=100。将拼接好的多尺度特征送入Transformer结构中。其中Transformer结构包括编码器和解码器。
将视频的多尺度特征图(拼接成一维)作为序列特征输入到编码器中,编码器中的多头多尺度自注意机制建模输入多尺度特征图之间的关系,输出与输入序列长度相同但语义信息更强的多尺度特征图。
Figure BDA0003452649730000021
其中
Figure BDA0003452649730000022
为提取的多尺度特征图,L为尺度数(文中设置L=3)。q∈Ωq索引一个query元素,其特征表示为
Figure BDA0003452649730000023
k∈Ωk索引一个key元素,其特征表示为
Figure BDA0003452649730000024
key元素
Figure BDA0003452649730000025
和query元素zq都是来自多尺度特征图的帧,M为head数量(文中设置M=8)。Amlqk为第l个特征层第m个注意头的注意权值,
Figure BDA0003452649730000026
Figure BDA0003452649730000027
为可学习权重,其中Cv=C/M。并且
Figure BDA0003452649730000028
和zq为元素内容和位置嵌入、尺度嵌入的总和,位置嵌入和尺度嵌入分别标记帧的所属位置和所属特征层次,均为可学习的位置编码。
对于Transformer中的解码器,输入来自编码器的输出特征映射,以及由可学习的位置嵌入表示的N个动作Queries(例如N=32)。解码器中包含两种注意模块:Cross-Attention和Self-Attention。在Cross-Attention中,动作Queries从来自编码器的特征图中提取特征,query元素是动作Queries,key元素是来自编码器的输出特征映射。在Self-Attention中,动作Queries互相交互,来捕获它们之间的关系,query和key元素都是动作Queries。其中的Cross-Attention和Self-Attention均为标准的多头注意机制,如下式所示:
Figure BDA0003452649730000031
其中q∈Ωq索引一个query元素,其特征表示为
Figure BDA0003452649730000032
k∈Ωk索引一个key元素,其特征表示为
Figure BDA0003452649730000033
zq和xk通常是元素内容和位置嵌入的总和。
通过Transformer的编码器和解码器结构后,输入多尺度特征图转换为一组动作Queries的特征。
前馈网络和线性投影得到检测结果(起止时间、置信分数)。
将Transformer结构输出的一组动作Queries的特征输入到一个三层前馈网络(FFN)和一个线性投影构成的检测头中,产生最终视频检测结果起止时间位置和置信分数。其中FFN作为回归分支预测开始和结束时间位置
Figure BDA0003452649730000034
线性投影产生置信分数s(i)
与现有技术相比,本发明具有以下有益的技术效果:
本发明一种视频动作片段生成方法,通过从视频片段中提取视频特征,对提取的视频特征进行处理构成视频的多尺度特征图,采用Transformer模型对多尺度特征图进行转换处理得到一组动作Queries的特征,采用前馈网络和线性投影对动作Queries的特征进行检测达到视频的起止时间位置和置信分数,完成视频动作片段生成,本发明基于Transformer模型,将动作片段生成视为直接集预测问题,不仅简化了检测流程,消除了后处理等手工设计组件,并行输出检测结果;而且利用多尺度特征图处理不同时间长度的动作实例,本发明在性能和运行时间方面有显著提高。
本发明基于Transformer的端到端可学习框架,省去了复杂的手工设计的组件,简化了检测流程,同时简化了训练过程;采用先进的Transformer结构,极大提高了视频动作片段生成的性能和精度。
附图说明
图1为本发明实施例中视频动作片段生成方法的流程图。
图2为本发明实施例中Transformer具体结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
如图1所示,本发明一种视频动作片段生成方法,该方法是一个端到端的可学习模型,利用先进的Transformer结构,直接预测一组出现在视频中的动作实例,并且利用多尺度特征图分别对不同时间长度的动作实例进行检测。具体步骤如下:
步骤1:视频特征提取:使用Kinetics数据集上预先训练的I3D模型从视频片段中提取特征,来构成输入视频的紧凑表示
Figure BDA0003452649730000051
其中C为通道数;
步骤2:视频多尺度特征图构建:在步骤1对视频特征进行提取后,得到长度为T的一维特征图,利用步幅为2的一维卷积对特征图进行处理,分别得到长度为T,T/2,T/4的特征图,构成视频的多尺度特征图;
步骤3:Transformer模型对特征图的处理:采用Transformer模型中编码器和解码器结构对特征图的处理;
将步骤2构建的多尺度特征图进行拼接后输入到Transformer模型中来实现对特征的进一步处理;
首先,将多尺度特征沿时间维度进行拼接,得到特征维度为(bs,T+T/2+T/4,512),其中设置T=100。将拼接好的多尺度特征送入Transformer结构中。其中Transformer结构如下图2所示,包括编码器和解码器:
编码器包括6个相同的编码器层组成,其中每个编码器层主要包含一个multi-head multi-scale self-attention和一个FFN(feed-forward network),这两个部分都有一个残差连接(residual connection),然后接着一个Layer Normalization。解码器和编码器类似,解码器包括6个相同的层组成,每个解码器层包都包含一个multi-head self-attention、multi-head cross-attention和一个FFN(feed-forward network),和编码器一样,这三个部分都有一个残差连接,后接一个Layer Normalization。
利用Transformer模块对多尺度特征图的处理的具体方法为:
将视频的多尺度特征图(拼接成一维)作为序列特征输入到编码器中,编码器中的多头多尺度自注意机制建模输入多尺度特征图之间的关系,输出与输入序列长度相同但语义信息更强的多尺度特征图。其中多头多尺度自注意机制如下式所示:
Figure BDA0003452649730000061
其中
Figure BDA0003452649730000062
为提取的多尺度特征图,L为尺度数(文中设置L=3)。q∈Ωq索引一个query元素,其特征表示为
Figure BDA0003452649730000063
k∈Ωk索引一个key元素,其特征表示为
Figure BDA0003452649730000064
key元素
Figure BDA0003452649730000065
和query元素zq都是来自多尺度特征图的帧,M为head数量(文中设置M=8)。Amlqk为第l个特征层第m个注意头的注意权值,
Figure BDA0003452649730000066
Figure BDA0003452649730000067
为可学习权重,其中Cv=C/M。并且
Figure BDA0003452649730000068
和zq为元素内容和位置嵌入、尺度嵌入的总和,位置嵌入和尺度嵌入分别标记帧的所属位置和所属特征层次,均为可学习的位置编码。
对于Transformer中的解码器,输入来自编码器的输出特征映射,以及由可学习的位置嵌入表示的N个动作Queries(例如N=32)。解码器中包含两种注意模块:Cross-Attention和Self-Attention。在Cross-Attention中,动作Queries从来自编码器的特征图中提取特征,query元素是动作Queries,key元素是来自编码器的输出特征映射。在Self-Attention中,动作Queries互相交互,来捕获它们之间的关系,query和key元素都是动作Queries。其中的Cross-Attention和Self-Attention均为标准的多头注意机制(与编码器中的多尺度注意机制不同),如下式所示:
Figure BDA0003452649730000069
其中q∈Ωq索引一个query元素,其特征表示为
Figure BDA00034526497300000610
k∈Ωk索引一个key元素,其特征表示为
Figure BDA00034526497300000611
zq和xk通常是元素内容和位置嵌入的总和。
通过Transformer的编码器和解码器结构后,输入多尺度特征图转换为一组动作Queries的特征。
步骤4:前馈网络和线性投影得到检测结果(起止时间、置信分数)。将步骤3中Transformer结构输出的一组动作Queries的特征输入到一个三层前馈网络(FFN)和一个线性投影构成的检测头中,产生最终视频检测结果起止时间位置和置信分数。其中FFN作为回归分支预测开始和结束时间位置
Figure BDA0003452649730000071
线性投影产生置信分数s(i)
将视频检测视为一个直接集预测问题,端到端的学习过程省去了不必要的后处理过程,简化了检测流程。运用二分匹配(bipartite matching),一次性检测所有视频频动作片段,使用匈牙利损失函数进行端到端的训练,该函数在预测的动作片段和ground truth动作片段进行二分匹配,具体方法为:
首先设置N个固定大小的预测集,N设置为显著大于视频中动作片段的数目(本方法中N=32)。设视频动作实例的ground truth集合为
Figure BDA0003452649730000072
其中
Figure BDA0003452649730000073
分别为第i个动作实例的开始、结束时间位置,将第i个动作实例表示为
Figure BDA0003452649730000074
N个预测的集合为
Figure BDA0003452649730000075
其中
Figure BDA0003452649730000076
为预测的动作片段,且N≥|A|,将预测的第φ(i)个动作片段表示为
Figure BDA0003452649730000077
接着找到这两个集合之间的二分匹配,这需要寻找N个元素对的代价最低的最优匹配:
Figure BDA0003452649730000078
其中
Figure BDA0003452649730000079
为第i个ground truth动作实例a(i)和第φ(i)个预测
Figure BDA00034526497300000710
之间的成对匹配代价。匹配代价同时考虑了动作前景预测和位置的相似度,对于和第φ(i)个预测,定义该位置的前景动作的概率为
Figure BDA00034526497300000711
由此定义匹配代价为:
Figure BDA00034526497300000712
其中
Figure BDA00034526497300000713
为片段损失:
Figure BDA00034526497300000714
最后在找到最优匹配
Figure BDA00034526497300000715
之后,计算所有匹配对的匈牙利Hungarian损失:
Figure BDA00034526497300000716
使用该匈牙利损失函数指导训练。
本申请引入多尺度注意机制,并由提取的视频特征构造多尺度特征图,短的视频片段从高分辨率的低层特征图中检测出来,长的视频片段从低分辨的高层特征图中检测出来。相对于之前的单尺度特征图来说,我们的多尺度特征图对不同时间长度的动作实例进行分开检测,得到的结果更加准确。
本发明一个实施例中,提供了一种终端设备,该终端设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器采用中央处理单元(CPU),或者采用其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可用于视频动作片段生成方法的操作。
一种视频动作片段生成系统,包括:
特征提取融合模块,用于从视频片段中提取视频特征,对提取的视频特征进行处理构成视频的多尺度特征图;
转换处理模块,用于采用Transformer模型对多尺度特征图进行转换处理得到一组动作Queries的特征,然后根据前馈网络和线性投影对动作Queries的特征进行检测达到视频的起止时间位置和置信分数。
本发明再一个实施例中,本发明还提供了一种存储介质,具体采用计算机可读存储介质(Memory),所述计算机可读存储介质是终端设备中的记忆设备,用于存放程序和数据。计算机可读存储介质包括终端设备中的内置存储介质,提供存储空间,存储了终端的操作系统,也可包括终端设备所支持的扩展存储介质。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(Non-volatile memory),例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中可用于视频动作片段生成方法的相应步骤。
采用平均数量AN=50时的平均召回率(AR)(AR@AN=50)作为评价监测性能的指标,本发明与其他一些先进方法的性能比较如下表1所示:
表1
Figure BDA0003452649730000091
本发明为基于Transformer的端到端可学习框架,省去了复杂的手工设计的组件,简化了检测流程,同时简化了训练过程;采用先进的Transformer结构,极大提高了视频动作片段生成的性能和精度。

Claims (10)

1.一种视频动作片段生成方法,其特征在于,包括以下步骤:
S1,从视频片段中提取视频特征;
S2,对提取的视频特征进行处理构成视频的多尺度特征图;
S3,采用Transformer模型对多尺度特征图进行转换处理得到一组动作Queries的特征;
S4,采用前馈网络和线性投影对动作Queries的特征进行检测达到视频的起止时间位置和置信分数,完成视频动作片段生成。
2.根据权利要求1所述的一种视频动作片段生成方法,其特征在于,采用Kinetics数据集预训练得到I3D模型,利用I3D模型从视频片段中提取特征,来构成输入视频的紧凑表示
Figure FDA0003452649720000011
其中C为通道数。
3.根据权利要求1所述的一种视频动作片段生成方法,其特征在于,利用步幅为2的一维卷积对特征图进行处理,分别得到长度为T,T/2,T/4的特征图,构成视频的多尺度特征图。
4.根据权利要求1所述的一种视频动作片段生成方法,其特征在于,将多尺度特征沿时间维度进行拼接,将拼接好的多尺度特征送入Transformer结构中进行转换处理。
5.根据权利要求4所述的一种视频动作片段生成方法,其特征在于,Transformer结构包括编码器和解码器,将多尺度特征图作为序列特征输入到编码器中,编码器中的多头多尺度自注意机制建模输入多尺度特征图之间的关系,输出与输入序列长度相同但语义信息更强的多尺度特征图。
6.根据权利要求5所述的一种视频动作片段生成方法,其特征在于,其中多头多尺度自注意机制如下式所示:
Figure FDA0003452649720000012
其中
Figure FDA0003452649720000013
为提取的多尺度特征图,L为尺度数,q∈Ωq索引一个query元素,其特征表示为
Figure FDA0003452649720000014
k∈Ωk索引一个key元素,其特征表示为
Figure FDA0003452649720000015
key元素
Figure FDA0003452649720000021
和query元素zq都是来自多尺度特征图的帧,M为head数量(文中设置M=8);Amlqk为第l个特征层第m个注意头的注意权值,
Figure FDA0003452649720000022
Figure FDA0003452649720000023
为可学习权重,其中Cv=C/M,并且
Figure FDA0003452649720000024
和zq为元素内容和位置嵌入、尺度嵌入的总和,位置嵌入和尺度嵌入分别标记帧的所属位置和所属特征层次,均为可学习的位置编码。
7.根据权利要求6所述的一种视频动作片段生成方法,其特征在于,三层前馈网络作为回归分支预测开始和结束时间位置
Figure FDA0003452649720000025
线性投影产生置信分数s(i)
8.一种视频动作片段生成系统,其特征在于,包括:
特征提取融合模块,用于从视频片段中提取视频特征,对提取的视频特征进行处理构成视频的多尺度特征图;
转换处理模块,用于采用Transformer模型对多尺度特征图进行转换处理得到一组动作Queries的特征,然后根据前馈网络和线性投影对动作Queries的特征进行检测达到视频的起止时间位置和置信分数。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
CN202111677648.9A 2021-12-31 2021-12-31 一种视频动作片段生成方法、系统、设备及可读存储介质 Active CN114339403B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111677648.9A CN114339403B (zh) 2021-12-31 2021-12-31 一种视频动作片段生成方法、系统、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111677648.9A CN114339403B (zh) 2021-12-31 2021-12-31 一种视频动作片段生成方法、系统、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN114339403A true CN114339403A (zh) 2022-04-12
CN114339403B CN114339403B (zh) 2023-03-28

Family

ID=81023586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111677648.9A Active CN114339403B (zh) 2021-12-31 2021-12-31 一种视频动作片段生成方法、系统、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN114339403B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022204493A1 (de) 2022-05-06 2023-11-09 Robert Bosch Gesellschaft mit beschränkter Haftung Segmentierung einer Sequenz von Videobildern mit einem Transformer-Netzwerk

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664931A (zh) * 2018-05-11 2018-10-16 中国科学技术大学 一种多阶段视频动作检测方法
CN108805083A (zh) * 2018-06-13 2018-11-13 中国科学技术大学 单阶段的视频行为检测方法
CN111259783A (zh) * 2020-01-14 2020-06-09 深圳市奥拓电子股份有限公司 视频行为检测方法与系统、精彩视频回播系统及存储介质
WO2020163422A1 (en) * 2019-02-08 2020-08-13 Lu Heng Enhancing hybrid self-attention structure with relative-position-aware bias for speech synthesis
CN113076809A (zh) * 2021-03-10 2021-07-06 青岛海纳云科技控股有限公司 一种基于视觉Transformer的高空坠物检测方法
WO2021180030A1 (zh) * 2020-03-09 2021-09-16 北京灵汐科技有限公司 行为识别方法及系统、电子设备和计算机可读存储介质
CN113536145A (zh) * 2021-07-05 2021-10-22 安徽大学 一种基于空间感知的transformer协同过滤方法
CN113673489A (zh) * 2021-10-21 2021-11-19 之江实验室 一种基于级联Transformer的视频群体行为识别方法
CN113807222A (zh) * 2021-09-07 2021-12-17 中山大学 基于稀疏采样进行端到端训练的视频问答方法与系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664931A (zh) * 2018-05-11 2018-10-16 中国科学技术大学 一种多阶段视频动作检测方法
CN108805083A (zh) * 2018-06-13 2018-11-13 中国科学技术大学 单阶段的视频行为检测方法
WO2020163422A1 (en) * 2019-02-08 2020-08-13 Lu Heng Enhancing hybrid self-attention structure with relative-position-aware bias for speech synthesis
CN111259783A (zh) * 2020-01-14 2020-06-09 深圳市奥拓电子股份有限公司 视频行为检测方法与系统、精彩视频回播系统及存储介质
WO2021180030A1 (zh) * 2020-03-09 2021-09-16 北京灵汐科技有限公司 行为识别方法及系统、电子设备和计算机可读存储介质
CN113076809A (zh) * 2021-03-10 2021-07-06 青岛海纳云科技控股有限公司 一种基于视觉Transformer的高空坠物检测方法
CN113536145A (zh) * 2021-07-05 2021-10-22 安徽大学 一种基于空间感知的transformer协同过滤方法
CN113807222A (zh) * 2021-09-07 2021-12-17 中山大学 基于稀疏采样进行端到端训练的视频问答方法与系统
CN113673489A (zh) * 2021-10-21 2021-11-19 之江实验室 一种基于级联Transformer的视频群体行为识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022204493A1 (de) 2022-05-06 2023-11-09 Robert Bosch Gesellschaft mit beschränkter Haftung Segmentierung einer Sequenz von Videobildern mit einem Transformer-Netzwerk

Also Published As

Publication number Publication date
CN114339403B (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
US10664504B2 (en) Interaction method and apparatus based on artificial intelligence
CN110298019B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN110347873B (zh) 视频分类方法、装置、电子设备及存储介质
CN114064967B (zh) 多粒度级联交互网络的跨模态时序行为定位方法及装置
CN109101481B (zh) 一种命名实体识别方法、装置及电子设备
US10108709B1 (en) Systems and methods for queryable graph representations of videos
US11625433B2 (en) Method and apparatus for searching video segment, device, and medium
WO2019169996A1 (zh) 视频处理、视频检索方法、装置、存储介质及服务器
CN112509555B (zh) 方言语音识别方法、装置、介质及电子设备
CN108681541B (zh) 图片搜索方法、装置及计算机设备
WO2023272530A1 (en) Method, device and storage medium for knowledge recommendation
CN113886571A (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
CN113539304B (zh) 视频拆条方法和装置
CN113806588B (zh) 搜索视频的方法和装置
CN113488028B (zh) 基于快速跳跃解码的语音转写识别训练解码方法及系统
CN114339403B (zh) 一种视频动作片段生成方法、系统、设备及可读存储介质
CN116385947A (zh) 一种视频目标分割方法、装置、计算机设备及存储介质
CN115312033A (zh) 基于人工智能的语音情感识别方法、装置、设备及介质
CN114663798A (zh) 一种基于强化学习的单步视频内容识别方法
CN111026910B (zh) 视频推荐方法、装置、电子设备及计算机可读存储介质
Lin et al. Ctc network with statistical language modeling for action sequence recognition in videos
US10910014B2 (en) Method and apparatus for generating video
CN115063710A (zh) 一种基于双分支注意力机制tcn的时序分析方法
CN106776654B (zh) 一种数据搜索方法及装置
CN115687701A (zh) 文本处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant