CN115065841A - 基于多层次内容感知边界检测的视频处理方法及存储介质 - Google Patents
基于多层次内容感知边界检测的视频处理方法及存储介质 Download PDFInfo
- Publication number
- CN115065841A CN115065841A CN202210731778.4A CN202210731778A CN115065841A CN 115065841 A CN115065841 A CN 115065841A CN 202210731778 A CN202210731778 A CN 202210731778A CN 115065841 A CN115065841 A CN 115065841A
- Authority
- CN
- China
- Prior art keywords
- local
- global
- features
- boundary detection
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 31
- 230000008447 perception Effects 0.000 title claims abstract description 16
- 238000003672 processing method Methods 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 58
- 230000009471 action Effects 0.000 claims abstract description 27
- 230000004927 fusion Effects 0.000 claims abstract description 23
- 238000000605 extraction Methods 0.000 claims abstract description 5
- 238000012805 post-processing Methods 0.000 claims abstract description 4
- 238000012545 processing Methods 0.000 claims description 20
- 238000005070 sampling Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 230000003287 optical effect Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 3
- 239000010410 layer Substances 0.000 description 22
- 230000004913 activation Effects 0.000 description 7
- 230000001629 suppression Effects 0.000 description 5
- 210000003813 thumb Anatomy 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- OFMQLVRLOGHAJI-FGHAYEPSSA-N (4r,7s,10s,13r,16s,19r)-n-[(2s,3r)-1-amino-3-hydroxy-1-oxobutan-2-yl]-19-[[(2r)-2-amino-3-phenylpropanoyl]amino]-10-[3-(diaminomethylideneamino)propyl]-7-[(1r)-1-hydroxyethyl]-16-[(4-hydroxyphenyl)methyl]-13-(1h-indol-3-ylmethyl)-3,3-dimethyl-6,9,12,15,18 Chemical compound C([C@H]1C(=O)N[C@H](CC=2C3=CC=CC=C3NC=2)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@H](C(=O)N[C@@H](C(SSC[C@@H](C(=O)N1)NC(=O)[C@H](N)CC=1C=CC=CC=1)(C)C)C(=O)N[C@@H]([C@H](O)C)C(N)=O)[C@@H](C)O)C1=CC=C(O)C=C1 OFMQLVRLOGHAJI-FGHAYEPSSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于多层次内容感知边界检测的视频处理方法及存储介质,包括以下步骤:获取输入视频;对所述输入视频进行特征提取,获得多个第一特征;以所述第一特征作为多层次内容感知边界检测模型的输入,所述多层次内容感知边界检测模型包括用于获取局部特征和局部概率的局部模块以及用于获取全局概率图的全局模块,所述全局模块以基于所述局部特征获取的全局特征为输入;对所述局部模块和全局模块进行后处理融合,生成最终的视频时序动作提议。与现有技术相比,本发明具有精确度高、通用性强等优点。
Description
技术领域
本发明涉及长视频处理技术领域,尤其是涉及一种基于多层次内容感知边界检测的视频处理方法及存储介质。
背景技术
时序动作提议任务的主要目的是在未剪辑的长视频中生成一组可能包含人类动作的候选时序段。现有针对视频的任务中,对长视频处理并不理想(如视频的动作识别与描述等),因此需要先将长视频分割成多个短视频,再进行处理。时序动作提议根据长视频的动作语义信息在时间维度来对其进行分割,保证每个片段包含一个动作/事件。这有助于视频分析,如动作识别和密集视频字幕生成等。一般说来,时序动作提议的生成方法可以分为基于锚点的方法和基于边界的方法。基于锚点的方法在不同尺度上为每个视频片段设计一组锚点,但通常不够精确或灵活,无法处理长而变化的持续时序。评估每个时序位置是否可以形成操作实例的开始或结束边界的其他解决方案被称为基于边界的方法。
尽管基于边界的方法近年来取得了很大进展,但仍有两个挑战有待解决。首先是边界和内容的不完整建模。基于边界的方法通常检测时序边界,然后根据检测到的边界内的帧计算候选方案的置信度分数。然而,这将边界检测和置信度得分分开计算会导致模型通常更关注明显的边界,并在这些边界之间生成聚集的提议,导致容易忽略边界模糊但与内容相关的动作会导致召回率低(如图2(b)所示)。此外,还存在着对多层次信息(即局部信息和全局信息)挖掘不足的问题。现有的时序边界定位方法都是利用单层的时序信息和上下文信息来定位时序边界。然而,单层信息的方法很难准确定位动作实例,且准确率较低。由于对多层次信息挖掘不足,现有的方法很难检测出持续时序可变的动作。因此,研究如何通过高效合理的事件提取方法来指导长视频描述的生成就具有很现实的意义。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种精确度高、通用性强的基于多层次内容感知边界检测的视频处理方法及存储介质。
本发明的目的可以通过以下技术方案来实现:
一种基于多层次内容感知边界检测的视频处理方法,包括以下步骤:
获取输入视频;
对所述输入视频进行特征提取,获得多个第一特征;
以所述第一特征作为多层次内容感知边界检测模型的输入,所述多层次内容感知边界检测模型包括用于获取局部特征和局部概率的局部模块以及用于获取全局概率图的全局模块,所述全局模块以基于所述局部特征获取的全局特征为输入;
对所述局部模块和全局模块进行后处理融合,生成最终的视频时序动作提议。
进一步地,所述第一特征包括RGB特征和光流特征。
进一步地,所述局部模块包括:
特征融合层,用于对分别各第一特征进行卷积处理后融合,获得局部特征;
局部分类器,用于根据所述局部特征分类获得所述局部概率。
进一步地,所述特征融合层中,融合为拼接融合或求和融合。
进一步地,所述特征融合层通过多个具有ReLU激活的一维卷积层进行所述卷积处理,所述局部分类器为一个具有Sigmoid激活层的一维卷积层。
进一步地,所述全局模块包括:
特征处理层,用于对全局特征进行卷积处理;
全局分类器,用于根据卷积处理后的全局特征,利用长程时序关系,生成所述全局概率图。
进一步地,所述特征处理层为多个具有ReLU激活函数的二维卷积层,所述全局分类器为一个具有Sigmoid激活的二维卷积层。
进一步地,所述局部概率包括开始概率序列、结束概率序列和内容概率序列,其特征在于,所述全局概率图包括开始概率图、结束概率图和内容概率图。
进一步地,基于所述局部特征获取全局特征具体为:
基于所述局部特征,获取带有开始边界和结束边界的动作实例,利用采样矩阵在两个边界之间进行均匀采样,构成采样矩阵,利用点积得到第二特征,对所述第二特征进行降维处理后获得所述全局特征。
进一步地,利用三维卷积对所述第二特征进行降维处理。
进一步地,对所述多层次内容感知边界检测模型进行训练时,训练样本构造有标签序列和标签图,利用生成的局部概率序列和全局概率图构造局部损失和全局损失,以局部损失和全局损失的和作为最终损失函数。
本发明提供一种计算机可读存储介质,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如上所述基于多层次内容感知边界检测的视频处理方法的指令。
与现有技术相比,本发明具有以下有益效果:
一、边界精确度高:与以往将边界和内容分开处理的方法不同,本发明可以利用边界和内容这两种互补信息生成更精确的边界。
二、提议置信度高:本发明提出的多层信息挖掘的设计考虑了局部线索和全局关系来处理持续时间上的变化,在动作的持续时间跨度相差很大的情况下,依然可以检测出尽可能多的动作片段,因此本方法所生成的候选提议置信度高、可靠性强。
三、通用性强:本发明在THUMOS14、ActivityNet V1.3和HACS数据集上均取得了较好效果,并且可以推广到其他基于边界的方法中,通过对多层次边界和动作内容的建模,本方法可以在一定程度上提高其他先进的基于边界方法的性能。
附图说明
图1为多层次内容感知边界检测模型的整体架构示意图;
图2为本发明方法与现有方法的对比示意图,其中,(a)为多层次概率示意图,(b)为基于边界的时序动作提议生成面临的挑战示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本实施例提供一种基于多层次内容感知边界检测的视频处理方法,如图1所示,包括以下步骤:获取输入视频;对所述输入视频进行特征提取,获得多个第一特征;以所述第一特征作为多层次内容感知边界检测模型的输入,所述多层次内容感知边界检测模型包括用于获取局部特征和局部概率的局部模块以及用于获取全局概率图的全局模块,所述全局模块以基于所述局部特征获取的全局特征为输入;对所述局部模块和全局模块进行后处理融合,生成最终的视频时序动作提议。
第一特征包括RGB特征和光流特征,第一特征的提取过程具体可包括:给定任意输入视频,输入视频被下采样成具有规则间隔σ的片断序列,每个片断由一个RGB帧和几个光流帧组成。利用双流网络提取D维特征FRGB和Fflow并将其重新缩放为T个片段,分别为和
本实施例中,训练所述多层次内容感知边界检测模型时,数据集的第一特征可预先提取,具体地:在THUMOS14数据集上,通过时间段网络来提取视频特征;对于ActivityNet1.3数据集,采用了带有时间段网络的基本管道的预训练双流网络;在数据集HACS上采用在Kinetics-400上预先训练的I3D模型的全局池层中预先提取的特征。
局部模块,局部模块旨在挖掘视频中丰富的局部信息。接收RGB和光流特征FRGB和Fflow作为输入,局部模块生成局部特征并评估每个时间位置的相应开始、结束和内容概率。具体地,局部模块包括:特征融合层,用于对分别各第一特征进行卷积处理后融合,获得局部特征;局部分类器,用于根据所述局部特征分类获得所述局部概率。
本实施例中,特征融合层采用具有ReLU激活的多个一维卷积层Conv1D(·)来研究RGB和光流特性,考虑到RGB和光流特征可以捕捉不同的运动方向,并将其进行融合得到局部特征。特征融合层可以采用拼接及求和两种融合策略,其中求和融合表示为:
Flocal=Conv1D(FRGB)+Conv1D(Fflow)
拼接融合表示为:
Flocal=Conv1D([FRGB,Fflow])
一个具有Sigmoid激活层的一维卷积层Conv1Dcls(·)作为所述局部分类器,确定某些位置是开始边界还是结束边界以及某些视频内容是否是动作的一部分。最后,开始概率序列结束概率序列和内容概率序列在分类器的不同通道生成表示为:
局部模块只利用每个时间位置的局部线索,未对时序关系进行建模,需要将局部特征转换为全局形式。本实施例在局部模块和全局模块间设置转换模块,该转换模块的转换为:
对于一个带有开始边界和结束边界的动作实例,利用采样矩阵在两个边界之间进行均匀采样,构成整个采样矩阵,然后利用点积得到全局特征,由于全局特征的尺寸太大,不能进行进一步的处理,因此会通过三维卷积将全局特征降维。
与局部特征相比,全局特征是的二维形式,其中其中DG是全局特征和的隐藏维度。对于一个带有开始边界i和结束边界j的动作实例采样矩阵Ai,j在i和j之间均匀采样N个点{P1,P2,…,PN}去构造F′i,j,表示为:
全局模块的目标是进一步利用长程时序关系来生成全局概率图。本实施例中,全局模块包括:特征处理层,用于对全局特征进行卷积处理;全局分类器,用于根据卷积处理后的全局特征,利用长程时序关系,生成所述全局概率图。
本实施例中,特征处理层采用多个具有ReLU激活函数的二维卷积层,表示为Conv2D(·)。然后,用一个具有Sigmoid激活的二维卷积层Conv2Dcls(·)作为所述全局分类器去生成开始概率图结束概率图和内容概率图可表示为:
对上述多层次内容感知边界检测模型进行训练时,训练样本构造有标签序列和标签图,利用生成的局部概率序列和全局概率图构造局部损失和全局损失,以局部损失和全局损失的和作为最终损失函数。
上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
如图2所示,采用上述方法可以有效应对背景技术中所面临的两个挑战。
为了验证上述方法的性能,本实施例设计了以下实验。
本实施例在THUMOS14、ActivityNet V1.3和HACS三个具有挑战性的基准数据集上对本发明方法的性能进行了评估。这三个数据集分别包含0.4K、20K和50K视频,类别分别为20、200和200个。在这三个数据集中,跨数据集的视频在域和长度上表现出很大的差异,在THUMOS14和ActivityNet V1.3和HACS中的动作持续时序从10秒到180秒不等。这对生成具有精确边界的提议以及覆盖所有实例的真实值提出了很大的挑战。
实验采用两个任务进行,包括时序动作提议生成和时序行为检测。时序动作提议生成的评价指标包括:(1)在不同平均数(AN)下的平均召回率(AR),表示为AR@AN;(2)AR和AN曲线下的平均召回面积,表示为AUC。在THUMOS14上采用[0.5:0.05:1.0]的IoU阈值,在ActivityNet V1.3和HACS上采用的IoU阈值为[0.5:0.05:0.95],ActivityNet v1.3和HACS采用的IoU阈值为[0.5:0.05:0.95]。另一方面,时序行为检测是评价提议质量的另一个重要表现形式,采用均值平均精度(mAP)和带IoU[0.5:0.05:0.95]的平均mAP作为评价指标。在THUMOS14上采用[0.3:0.1:0.7]的IoU阈值,ActivityNet V1.3和HACS上采用[0.5,0.75,0.95]。
整个实验结果如下:
本实施例将所提出的方法(包括MCBD和MCBD*,其中MCBD在局部模块使用求和融合,MCBD*在局部模块使用拼接融合)与最近最先进的方法进行了比较,这些方法包括:1)基于局部模块的方法,包括:CTAP,BSN,BMN,SSN;2)基于全局模块的方法,包括:DBG,BSN++;3)GCN方法:P-GCN,G-TAD;4)锚边界组合方法:MGG,A2Net,PCG-TAL。结果详见表1-4。
表1与最先进的提议生成方法在THUMOS14上进行比较
表2与最先进的行为检测方法在THUMOS14上的比较
表3与最先进的方法在ACTIVITYNET V1.3上进行比较
表4与最先进的方法在HACS上进行比较
(1)数据集THUMOS14结果:本方法与最先进的时序动作提议生成方法在数据集THUMOS14上的比较结果见表1。由于冗余抑制方法的不同会影响系统的性能,本文采用了原始非极大值抑制和软非极大值抑制。在原始非极大值抑制环境下,本方法与现有方法相比有明显的改进。对于软非极大值抑制设置,BSN++在AR@50处超过本方法。值得注意的是,当AN≥100时,本方法的性能优于最先进的BSN++,当AN=1000时,本方法的性能提高了3.19%。表2将本方法与在数据集THUMOS14上最先进的行为检测方法进行了比较。可以看出,PCG-TAL和本方法均取得了领先的性能,其中PCG-TAL在mAP@0.4上与本方法性能相似,而当IoU阈值≥0.5时,性能不如本方法。
(2)数据集ActivityNet v1.3结果:在ActivityNet v1.3上的比较结果列在表3中,可以观察到,与最先进的BSN++直接比较,本方法在AR@100上显著优于其0.68%,在AUC上显著优于其0.16%。比较结果表明,在ActivityNet1.3上,本方法更好地克服了持续时序可变的困难,并能获得更精确的边界。表4中还显示了行为检测结果。在所有的竞争方法中,BSN++在mAP@0.5,mAP@0.75和平均mAP上都处于领先地位。本方法在mAP@0.95上的性能优于其他方法。IoU阈值越高,对检测能力的要求越高,说明IoU阈值越高,行为检测越准确。
(3)数据集HACS结果:与现有方法在HACS上的性能比较见表4。可以看到BMN和DBG在HACS上具有相似的性能,对于G-TAD,它在所有竞争方法中的平均上占第二,值得注意的是,本方法在所有评价指标上都超过了G-TAD,这表明本方法在HACS上明显优于其他现有方法。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (10)
1.一种基于多层次内容感知边界检测的视频处理方法,其特征在于,包括以下步骤:
获取输入视频;
对所述输入视频进行特征提取,获得多个第一特征;
以所述第一特征作为多层次内容感知边界检测模型的输入,所述多层次内容感知边界检测模型包括用于获取局部特征和局部概率的局部模块以及用于获取全局概率图的全局模块,所述全局模块以基于所述局部特征获取的全局特征为输入;
对所述局部模块和全局模块进行后处理融合,生成最终的视频时序动作提议。
2.根据权利要求1所述的基于多层次内容感知边界检测的视频处理方法,其特征在于,所述第一特征包括RGB特征和光流特征。
3.根据权利要求1所述的基于多层次内容感知边界检测的视频处理方法,其特征在于,所述局部模块包括:
特征融合层,用于对分别各第一特征进行卷积处理后融合,获得局部特征;
局部分类器,用于根据所述局部特征分类获得所述局部概率。
4.根据权利要求3所述的基于多层次内容感知边界检测的视频处理方法,其特征在于,所述特征融合层中,融合为拼接融合或求和融合。
5.根据权利要求1所述的基于多层次内容感知边界检测的视频处理方法,其特征在于,所述全局模块包括:
特征处理层,用于对全局特征进行卷积处理;
全局分类器,用于根据卷积处理后的全局特征,利用长程时序关系,生成所述全局概率图。
6.根据权利要求1所述的基于多层次内容感知边界检测的视频处理方法,其特征在于,所述局部概率包括开始概率序列、结束概率序列和内容概率序列,其特征在于,所述全局概率图包括开始概率图、结束概率图和内容概率图。
7.根据权利要求1所述的基于多层次内容感知边界检测的视频处理方法,其特征在于,基于所述局部特征获取全局特征具体为:
基于所述局部特征,获取带有开始边界和结束边界的动作实例,利用采样矩阵在两个边界之间进行均匀采样,构成采样矩阵,利用点积得到第二特征,对所述第二特征进行降维处理后获得所述全局特征。
8.根据权利要求7所述的基于多层次内容感知边界检测的视频处理方法,其特征在于,利用三维卷积对所述第二特征进行降维处理。
9.根据权利要求1所述的基于多层次内容感知边界检测的视频处理方法,其特征在于,对所述多层次内容感知边界检测模型进行训练时,训练样本构造有标签序列和标签图,利用生成的局部概率序列和全局概率图构造局部损失和全局损失,以局部损失和全局损失的和作为最终损失函数。
10.一种计算机可读存储介质,其特征在于,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如权利要求1-9任一所述基于多层次内容感知边界检测的视频处理方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210731778.4A CN115065841B (zh) | 2022-06-25 | 2022-06-25 | 基于多层次内容感知边界检测的视频处理方法及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210731778.4A CN115065841B (zh) | 2022-06-25 | 2022-06-25 | 基于多层次内容感知边界检测的视频处理方法及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115065841A true CN115065841A (zh) | 2022-09-16 |
CN115065841B CN115065841B (zh) | 2023-07-04 |
Family
ID=83203292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210731778.4A Active CN115065841B (zh) | 2022-06-25 | 2022-06-25 | 基于多层次内容感知边界检测的视频处理方法及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115065841B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110533048A (zh) * | 2018-05-23 | 2019-12-03 | 上海交通大学 | 基于全景区域场景感知的组合语义层次连接模型的实现方法及系统 |
US20220066456A1 (en) * | 2016-02-29 | 2022-03-03 | AI Incorporated | Obstacle recognition method for autonomous robots |
CN114429641A (zh) * | 2021-12-21 | 2022-05-03 | 特斯联科技集团有限公司 | 一种时序动作检测方法、装置、存储介质及终端 |
CN114514535A (zh) * | 2019-10-11 | 2022-05-17 | 北京嘀嘀无限科技发展有限公司 | 基于语义分割的实例分割系统和方法 |
CN114549317A (zh) * | 2022-02-23 | 2022-05-27 | 同济大学 | 一种基于时空超分辨率的视频描述方法及电子设备 |
-
2022
- 2022-06-25 CN CN202210731778.4A patent/CN115065841B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220066456A1 (en) * | 2016-02-29 | 2022-03-03 | AI Incorporated | Obstacle recognition method for autonomous robots |
CN110533048A (zh) * | 2018-05-23 | 2019-12-03 | 上海交通大学 | 基于全景区域场景感知的组合语义层次连接模型的实现方法及系统 |
CN114514535A (zh) * | 2019-10-11 | 2022-05-17 | 北京嘀嘀无限科技发展有限公司 | 基于语义分割的实例分割系统和方法 |
CN114429641A (zh) * | 2021-12-21 | 2022-05-03 | 特斯联科技集团有限公司 | 一种时序动作检测方法、装置、存储介质及终端 |
CN114549317A (zh) * | 2022-02-23 | 2022-05-27 | 同济大学 | 一种基于时空超分辨率的视频描述方法及电子设备 |
Non-Patent Citations (2)
Title |
---|
CONGCONG LI等: "end-to-end compressed video representation learning for generic event boundary detection" * |
李承政: "基于多层次视觉感知的遥感图像目标检测研究" * |
Also Published As
Publication number | Publication date |
---|---|
CN115065841B (zh) | 2023-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110516536B (zh) | 一种基于时序类别激活图互补的弱监督视频行为检测方法 | |
US11093560B2 (en) | Stacked cross-modal matching | |
CN109815364B (zh) | 一种海量视频特征提取、存储和检索方法及系统 | |
Oneata et al. | Action and event recognition with fisher vectors on a compact feature set | |
Fayaz et al. | Underwater object detection: architectures and algorithms–a comprehensive review | |
CN110866140A (zh) | 图像特征提取模型训练方法、图像搜索方法及计算机设备 | |
Rahmon et al. | Motion U-Net: Multi-cue encoder-decoder network for motion segmentation | |
US20220277038A1 (en) | Image search based on combined local and global information | |
WO2017052791A1 (en) | Semantic multisensory embeddings for video search by text | |
CN111027576B (zh) | 基于协同显著性生成式对抗网络的协同显著性检测方法 | |
CN113836992B (zh) | 识别标签的方法、训练标签识别模型的方法、装置及设备 | |
CN107004115B (zh) | 用于人脸识别的方法和系统 | |
Natarajan et al. | BBN VISER TRECVID 2013 Multimedia Event Detection and Multimedia Event Recounting Systems. | |
CN113076905B (zh) | 一种基于上下文交互关系的情绪识别方法 | |
CN112085120A (zh) | 多媒体数据的处理方法、装置、电子设备及存储介质 | |
CN112188306A (zh) | 一种标签生成方法、装置、设备及存储介质 | |
CN112989120A (zh) | 一种视频片段查询系统和视频片段查询方法 | |
CN114821770B (zh) | 文本到图像的跨模态行人再识别方法、系统、介质和设备 | |
Wang et al. | Fast and accurate action detection in videos with motion-centric attention model | |
CN116452688A (zh) | 一种基于共同注意力机制的图像描述生成方法 | |
Kang et al. | Htnet: Anchor-free temporal action localization with hierarchical transformers | |
CN117540007B (zh) | 基于相似模态补全的多模态情感分析方法、系统和设备 | |
Setyono et al. | Recognizing word gesture in sign system for Indonesian language (SIBI) Sentences using DeepCNN and BiLSTM | |
Luo et al. | Infrared Road Object Detection Based on Improved YOLOv8. | |
CN115065841A (zh) | 基于多层次内容感知边界检测的视频处理方法及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |