CN112348102B - 一种基于查询的自底向上视频定位方法和系统 - Google Patents
一种基于查询的自底向上视频定位方法和系统 Download PDFInfo
- Publication number
- CN112348102B CN112348102B CN202011278817.7A CN202011278817A CN112348102B CN 112348102 B CN112348102 B CN 112348102B CN 202011278817 A CN202011278817 A CN 202011278817A CN 112348102 B CN112348102 B CN 112348102B
- Authority
- CN
- China
- Prior art keywords
- video
- query
- network
- characteristic
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 19
- 238000010586 diagram Methods 0.000 claims description 11
- 230000004807 localization Effects 0.000 claims description 11
- 238000005096 rolling process Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000010998 test method Methods 0.000 claims 1
- 239000012634 fragment Substances 0.000 abstract description 7
- 238000013135 deep learning Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Library & Information Science (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于查询的自底向上视频定位方法和系统。首先,获取查询内容Query和待定位视频Ref,其次将查询内容Query特征与待定位视频Ref的特征融合到一个全新的特征图中。最后特征图通过深度学习方法检测出查询内容Query所对应的真实视频片段GT‑v位于待定位视频Ref中的起始位置和终止位置。本发明方法根据查询内容Query可以准确而又高效的识别真实视频片段GT‑v在待定位视频Ref的起始位置和终止位置。
Description
技术领域
本发明涉及机器学习,自然语言处理和计算机视觉研究中的深度神经网络、视频定位这几个主要领域。具体涉及一种基于查询的自底向上视频定位方法和系统。
背景技术
视频比图像具有更复杂的特征与属性,使用计算机对视频内容的理解与分析,一直以来是计算机视觉的一个重要研究方向。在近些年来,得益于深度学习的发展和服务器算力的提升,视频定位的质量得到显著的提升。
视频定位一直是计算机视觉领域的一个基本课题。基于查询的视频定位方法是指在一个长且未修剪的视频中找出与查询内容相关的视频片段,并标记出该视频片段在长视频中的起始位置和终止位置。当前流行的基于查询的视频定位方法主要分为自顶向下方法和自底向上方法。
自顶向下方法是指将长视频切割为一组候选片段,然后对每个片段进行分类和回归。分类操作是预测其是正负样本的概率。回归操作是对正样本的起止位置进行回归计算,使其更接近于真实样本GT-v的起止位置。然而自顶向下方法的计算量非常大,需要巨大的算力。而且自顶向下的方法的模型对初始化参数比较敏感,初始化参数的好坏对模型性能有很大影响。
自底向上方法是指将整个查询内容注入到每个视频帧中,然后预测每个视频帧与真实视频片段GT-v的起止位置的偏移量。传统的自底向上方法有两个主要的问题:1)它们只取真实视频片段GT-v的左右边界帧作为前景,其余帧作为背景。这就导致模型在训练过程中,正负样本严重不平衡,从而影响了检测性能;2)它们的起始位置预测与终止位置预测都是相互独立的,这就忽略了两种预测在内容上的一致性。基于这两个主要问题,传统的自底向上方法的性能普遍落后于自顶向下方法的性能。
发明内容
针对传统自底向上方法中的两个问题,本发明提出一种基于查询的自底向上视频定位方法。首先,将查询内容Query的特征与待定位视频Ref的特征融合到一个新的特征图中,然后将该融合后的特征图分别输入到边界回归网络和置信度分类网络中,计算出每一视频帧的与真实视频片段GT-v的边界偏移量和置信度。最后根据临时池(TemporalPooling)方法计算出查询内容Query对应的预测视频片段在待定位视频Ref中的起始位置和终止位置,从而实现视频定位。
本发明的技术方案如下:
本发明提供了一种基于查询的自底向上视频定位方法,其包括如下步骤:
1)将查询内容Query的Glove特征和待定位视频Ref的C3D特征输入到图卷积网络中融合得到新的特征图其中/>T是待定位视频的长度,即视频帧数,D是单视频帧的特征向量的长度;
2)将特征图输入到边界回归网络中预测出每一视频帧与真实视频片段GT-v左右边界的偏移量(left-d,right-d);同时,将特征图/>输入到置信度分类网络中预测出每一视频帧的置信度s;
3)利用帧在待定位视频Ref上的位置和其预测的左右边界的偏移量(left-d,right-d),计算出每一视频帧的预测视频片段在Ref上的起始位置和终止位置(start,end);
4)获取置信度s大于最大置信度设定的百分比,且与最大置信度对应的帧预测的起止位置(start,end)有重叠交叉的帧,将这些帧所对应的起止位置(start,end)放入到临时池中;最终取临时池中最小的起始位置和最大的终止位置作为最终预测的起止位置;
5)在网络训练环节,网络结构损失函数L分为边界回归损失和置信度分类损失两部分;使用梯度下降算法对L进行优化,并更新网络权重,返回步骤1)迭代训练不断提升每一视频帧的分类准确率同时减少其预测的左右边界值和真实的左右边界值之间的差距;迭代训练结束后,得到最终的图卷积操作网络、边界回归网络和置信度分类网络的权重;保存训练好的网络。
在测试环节,对于待查询的任务,执行步骤1)-步骤4)实现基于查询的自底向上视频定位。
本发明还公开了一种基于查询的自底向上视频定位系统,其包括:
图卷积操作网络模块,用于将查询内容Query的Glove和待定位视频Ref的C3D特征融合得到一个新的特征图
边界回归网络模块,以特征图为输入,用于预测出每一视频帧与真实视频片段GT-v左右边界的偏移量(left-d,right-d);
置信度分类网络模块,以特征图为输入,用于预测出每一视频帧的置信度s;
训练模块,使用梯度下降算法对网络结构损失函数L进行优化,迭代训练提升每一视频帧的分类准确率同时减少其预测的左右边界值和真实的左右边界值之间的差距,迭代训练结束后得到最终的图卷积操作网络、边界回归网络和置信度分类网络的权重;并保存训练好的网络;
测试模块,调用训练好的网络,根据输入的查询内容的Glove特征和待定位视频的C3D特征,得到真实视频片段的起止位置。
与现有技术相比,本发明具有的有益效果是:
因为本发明方法采用的是预测每个视频帧与真实视频片段GT-v的起止位置的偏移量,避免了自顶向下的方法中将待定位视频Ref切割成多个小片段视频,然后计算每个小片段视频是真实视频片段的概率所需要非常大的计算量,所以本发明方法具有较小的计算复杂度和较好的性能稳定性。又因为本发明解决了正负样本不平衡的问题,使得方法可以高效而又准确的检测出视频片段的起止位置。同时,利用视频片段内容一致性的原理,一同预测起止位置。所以本方法与现有的自底向上的方法相比,大幅度提升了检测效果。
附图说明
图1为本发明的方法流程图;
图2ActivityNet Captions数据集中样本示例;
图3视频定位准确率随训练epoch变化曲线;
图4算法视频定位结果示例。
具体实施方式
下面结合具体实施方式对本发明做进一步阐述和说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下,均可进行相应组合。
如图1所示,为本发明的流程图,本发明的基于查询的自底向上视频定位方法,其包括如下步骤:
1)将查询内容Query的Glove特征和待定位视频Ref的C3D特征输入到图卷积网络中融合得到新的特征图其中/>T是待定位视频的长度,即视频帧数,D是单视频帧的特征向量的长度;
2)将特征图输入到边界回归网络中预测出每一视频帧与真实视频片段GT-v左右边界的偏移量(left-d,right-d);同时,将特征图/>输入到置信度分类网络中预测出每一视频帧的置信度s;
3)利用帧在待定位视频Ref上的位置和其预测的左右边界的偏移量(left-d,right-d),计算出每一视频帧的预测视频片段在Ref上的起始位置和终止位置(start,end);
4)获取置信度s大于最大置信度设定的百分比,且与最大置信度对应的帧预测的起止位置(start,end)有重叠交叉的帧,将这些帧所对应的起止位置(start,end)放入到临时池中;最终取临时池中最小的起始位置和最大的终止位置作为最终预测的起止位置;
5)在网络训练环节,网络结构损失函数L分为边界回归损失和置信度分类损失两部分;使用梯度下降算法对L进行优化,并更新网络权重,返回步骤1)迭代训练不断提升每一视频帧的分类准确率同时减少其预测的左右边界值和真实的左右边界值之间的差距;迭代训练结束后,得到最终的图卷积操作网络、边界回归网络和置信度分类网络的权重;保存训练好的网络。
在测试环节,对于待查询的任务,执行步骤1)-步骤4)实现基于查询的自底向上视频定位。
作为优选的方案,所述的步骤1)中,首先通过由多个卷积层、正则化层、自我注意层组成的编码器Encoder对Query的Glove特征和待定位视频Ref的C3D特征分别进行编码得到和/>接着进行如下矩阵运算将/>和/>融合为特征图H:其中S是/>和/>的相似矩阵,/>是S的行正则化矩阵,/>是S关于列正则化后的转置矩阵,⊙是点乘操作,i代表矩阵的行号;然后将H通过步长为2的卷积层下采样3个具有金字塔结构的特征集合/>其中Ti+1=Ti/2;接下来分别对Hi进行如下图卷积操作得到/>Xi=CiHi,Y=((I-Aadj)X)W,其中Ci是Hi通过一层卷积得到的矩阵,W是权重,I是单位矩阵,Aadj是邻接矩阵,是Ci转置矩阵,X=[X1;X2;X3],Y=[Y1;Y2;Y3];最后将H1,H2缩放为与H3相同的大小,并将它们拼接得到新的特征图/>
作为优选的方案,所述边界回归网络输入数据是输出数据是/>置信度分类网络输入数据是/>输出数据是/>
作为优选的方案,所述步骤5)中,边界回归网络中的每一帧的监督数据t*为(i-ts,te–i),其中i为该帧在待定位视频Ref的位置;ts,te分别为真实视频片段GT-v在Ref的起止位置;置信度分类网络中的每一帧的监督数据
作为优选的方案,采用Adam梯度下降算法对L进行优化。
在本发明的另一个实施例提供了一种基于查询的自底向上视频定位系统,其包括:
图卷积操作网络模块,用于将查询内容Query的Glove特征和待定位视频Ref的C3D特征融合得到一个新的特征图
边界回归网络模块,以特征图为输入,用于预测出每一视频帧与真实视频片段GT-v左右边界的偏移量(left-d,right-d);
置信度分类网络模块,以特征图为输入,用于预测出每一视频帧的置信度s;
训练模块,使用梯度下降算法对网络结构损失函数L进行优化,迭代训练提升每一视频帧的分类准确率同时减少其预测的左右边界值和真实的左右边界值之间的差距,迭代训练结束后得到最终的图卷积操作网络、边界回归网络和置信度分类网络的权重;并保存训练好的网络;
测试模块,调用训练好的网络,根据输入的查询内容Glove特征和待定位视频的C3D特征,得到真实视频片段的起止位置。
实例1
使用通用数据集ActivityNet Captions中的数据测试本方法基于查询(文本数据)的视频定位的能力。数据集包含平均时长为2分钟的19,209个视频,37,421对文本查询训练集,17505对测试集。图2显示了ActivityNet Captions数据集中样本示例。下面结合前面所述的具体技术方案说明该实例实施的步骤:
将查询内容Query的Glove特征和待定位视频Ref的C3D特征输入到图卷积网络中计算到一个新的特征图其中/>T是待定位视频的长度(视频帧数),D是单视频帧的特征向量的长度;
将特征图输入到边界回归网络中预测出每一视频帧与真实视频片段GT-v左右边界的偏移量(left-d,right-d)。同时,将特征图/>输入到置信度分类网络中预测出每一视频帧的置信度s。边界回归网络输入数据是/>输出数据是/>置信度分类网络输入数据是/>输出数据是/>
利用帧在待定位视频Ref上的位置和其预测的左右边界的偏移量(left-d,right-d),计算出每一视频帧的预测视频片段在Ref上的起始位置和终止位置(start,end);
将置信度s大于最大置信度的70%,且与最大置信度对应的帧预测的起止位置(start,end)有重叠交叉的帧,它们所对应的起止位置(start,end)放入到一个临时池(Temporal Pooling)中。最终取临时池中最小的起始位置和最大的终止位置作为最终预测的起止位置;
整个损失函数分为边界回归损失和置信度分类损失两部分。边界回归网络中的每一帧的监督数据t*为(i-ts,te–i),其中i为该帧在待定位视频Ref的位置;ts,te分别为真实视频片段GT-v在Ref的起止位置;置信度分类网络中的每一帧的监督数据
为了简化表示,整个损失函数记为L。使用Adam梯度下降算法对L进行优化,不断提升每一视频帧的分类准确率同时减少其预测的左右边界值和真实的左右边界值之间的差距,最终得到神经网络的权重W;保存训练好的网络,从而实现基于查询的自底向上视频定位。
图3为视频定位准确率随训练epoch变化曲线(IoU@0.3表示模型预测起止位置与真实样本起止位置的时间区间重叠度为30%以上为检测正确;IoU@0.5表示模型预测起止位置与真实样本起止位置的时间区间重叠度为50%以上为检测正确),由图看出IoU@0.3的检测正确率最大值为56.17%,IoU@0.5的检测正确率最大值为41.21%。图4为算法视频定位结果示例(GT:真实样本起止位置,GDP:模型预测起止位置),由图看出模型预测起止位置与真实样本起止位置重叠度为91.27%,表明模型预测结果准确。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (8)
1.一种基于查询的自底向上视频定位方法,其特征在于,包括如下步骤:
1)将查询内容Query的Glove特征和待定位视频Ref的C3D特征输入到图卷积网络中融合得到新的特征图其中/>T是待定位视频的长度,即视频帧数,D是单视频帧的特征向量的长度;
2)将特征图输入到边界回归网络中预测出每一视频帧与真实视频片段GT-v左右边界的偏移量(left-d,right-d);同时,将特征图/>输入到置信度分类网络中预测出每一视频帧的置信度s;
3)利用帧在待定位视频Ref上的位置和其预测的左右边界的偏移量(left-d,right-d),计算出每一视频帧的预测视频片段在Ref上的起始位置和终止位置(start,end);
4)获取置信度s大于最大置信度设定的百分比,且与最大置信度对应的帧预测的起止位置(start,end)有重叠交叉的帧,将这些帧所对应的起止位置(start,end)放入到临时池中;最终取临时池中最小的起始位置和最大的终止位置作为最终预测的起止位置;
5)在网络训练环节,网络结构损失函数L分为边界回归损失和置信度分类损失两部分;使用梯度下降算法对L进行优化,并更新网络权重,返回步骤1)迭代训练不断提升每一视频帧的分类准确率同时减少其预测的左右边界值和真实的左右边界值之间的差距;迭代训练结束后,得到最终的图卷积网络、边界回归网络和置信度分类网络的权重;保存训练好的网络。
2.根据权利要求1所述的基于查询的自底向上视频定位方法,其特征在于,所述的步骤1)为:
通过编码器对Query的Glove特征和待定位视频Ref的C3D特征进行编码,然后对两个编码后的特征通过矩阵运算得到特征图H;将特征图H经过图卷积操作得到新的特征图
3.根据权利要求1或2所述的基于查询的自底向上视频定位方法,其特征在于,所述的步骤1)具体为:
首先通过由多个卷积层、正则化层、自我注意层组成的编码器Encoder对Query的Glove特征和待定位视频Ref的C3D特征分别进行编码得到和/>
接着进行如下矩阵运算将和/>融合为特征图H:
H=Encoder([vi,ai,vi⊙ai,vi⊙bi])
其中S是和/>的相似矩阵,/>是S的行正则化矩阵,/>是S关于列正则化后的转置矩阵,⊙是点乘操作,i代表矩阵的行号;
然后将H通过步长为2的卷积层下采样3个具有金字塔结构的特征集合其中Ti+1=Ti/2;接下来分别对Hi进行如下图卷积操作得到/>
Xi=CiHi,Y=((I-Aadj)X)W,
其中Ci是Hi通过一层卷积得到的矩阵,W是权重,I是单位矩阵,Aadj是邻接矩阵,是Ci转置矩阵,X=[X1;X2;X3],Y=[Y1;Y2;Y3];最后将H1,H2缩放为与H3相同的大小,并将它们拼接得到新的特征图/>
4.根据权利要求1所述的基于查询的自底向上视频定位方法,其特征在于,所述边界回归网络输入数据是输出数据是/>置信度分类网络输入数据是/>输出数据是/>
5.根据权利要求1所述的基于查询的自底向上视频定位方法,其特征在于,所述步骤5)中,边界回归网络中的每一帧的监督数据t*为(i-ts,te-i),其中i为该帧在待定位视频Ref的位置;ts,te分别为真实视频片段GT-v在Ref的起止位置;置信度分类网络中的每一帧的监督数据
6.根据权利要求1所述的基于查询的自底向上视频定位方法,其特征在于,采用Adam梯度下降算法对L进行优化。
7.根据权利要求1所述的基于查询的自底向上视频定位方法,其特征在于,在测试环节,对于待查询的任务,执行步骤1)-步骤4)实现基于查询的自底向上视频定位。
8.一种基于查询的自底向上视频定位系统,其特征在于包括:
图卷积操作网络模块,用于将查询内容Query的Glove特征和待定位视频Ref的C3D特征融合得到一个新的特征图
边界回归网络模块,以特征图为输入,用于预测出每一视频帧与真实视频片段GT-v左右边界的偏移量(left-d,right-d);
置信度分类网络模块,以特征图为输入,用于预测出每一视频帧的置信度s;
训练模块,使用梯度下降算法对网络结构损失函数L进行优化,迭代训练提升每一视频帧的分类准确率同时减少其预测的左右边界值和真实的左右边界值之间的差距,迭代训练结束后得到最终的图卷积操作网络、边界回归网络和置信度分类网络的权重;并保存训练好的网络;
测试模块,调用训练好的网络,根据输入的查询内容的Glove特征和待定位视频的C3D特征,得到真实视频片段的起止位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011278817.7A CN112348102B (zh) | 2020-11-16 | 2020-11-16 | 一种基于查询的自底向上视频定位方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011278817.7A CN112348102B (zh) | 2020-11-16 | 2020-11-16 | 一种基于查询的自底向上视频定位方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112348102A CN112348102A (zh) | 2021-02-09 |
CN112348102B true CN112348102B (zh) | 2024-03-19 |
Family
ID=74362805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011278817.7A Active CN112348102B (zh) | 2020-11-16 | 2020-11-16 | 一种基于查询的自底向上视频定位方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112348102B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115187917B (zh) * | 2022-09-13 | 2022-11-25 | 山东建筑大学 | 基于视频片段检索的无人车历史场景检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875610A (zh) * | 2018-06-05 | 2018-11-23 | 北京大学深圳研究生院 | 一种基于边界查找的用于视频中动作时间轴定位的方法 |
CN110362715A (zh) * | 2019-06-28 | 2019-10-22 | 西安交通大学 | 一种基于图卷积网络的未剪辑视频动作时序定位方法 |
CN110378269A (zh) * | 2019-07-10 | 2019-10-25 | 浙江大学 | 通过影像查询定位视频中未预习的活动的方法 |
CN111930999A (zh) * | 2020-07-21 | 2020-11-13 | 山东省人工智能研究院 | 逐帧跨模态相似度关联实施文本查询定位视频片段方法 |
-
2020
- 2020-11-16 CN CN202011278817.7A patent/CN112348102B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875610A (zh) * | 2018-06-05 | 2018-11-23 | 北京大学深圳研究生院 | 一种基于边界查找的用于视频中动作时间轴定位的方法 |
CN110362715A (zh) * | 2019-06-28 | 2019-10-22 | 西安交通大学 | 一种基于图卷积网络的未剪辑视频动作时序定位方法 |
CN110378269A (zh) * | 2019-07-10 | 2019-10-25 | 浙江大学 | 通过影像查询定位视频中未预习的活动的方法 |
CN111930999A (zh) * | 2020-07-21 | 2020-11-13 | 山东省人工智能研究院 | 逐帧跨模态相似度关联实施文本查询定位视频片段方法 |
Non-Patent Citations (1)
Title |
---|
多媒体信号处理的数学理论前沿进展;熊红凯;戴文睿;林宙辰;吴飞;于俊清;申扬眉;徐明星;;中国图象图形学报;20200116(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112348102A (zh) | 2021-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111914644B (zh) | 一种基于双模态协同的弱监督时序动作定位方法及系统 | |
US20220189209A1 (en) | Weakly supervised video activity detection method and system based on iterative learning | |
CN110458084B (zh) | 一种基于倒置残差网络的人脸年龄估计方法 | |
CN109902202B (zh) | 一种视频分类方法及装置 | |
CN108804577B (zh) | 一种资讯标签兴趣度的预估方法 | |
CN115861462B (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
CN111199238A (zh) | 一种基于双流卷积神经网络的行为识别方法及设备 | |
CN112200031A (zh) | 一种用于生成图像对应文字说明的网络模型训练方法与设备 | |
CN112419268A (zh) | 一种输电线路图像缺陷检测方法、装置、设备及介质 | |
CN112348102B (zh) | 一种基于查询的自底向上视频定位方法和系统 | |
CN115312033A (zh) | 基于人工智能的语音情感识别方法、装置、设备及介质 | |
CN110674642A (zh) | 一种用于含噪稀疏文本的语义关系抽取方法 | |
CN112418269B (zh) | 社交媒体网络事件传播关键时间预测方法、系统、介质 | |
CN111984790B (zh) | 一种实体关系抽取方法 | |
CN116721291A (zh) | 基于改进YOLOv7模型的金属表面缺陷检测方法 | |
CN116680578A (zh) | 一种基于跨模态模型的深度语义理解方法 | |
Ni et al. | Enhanced knowledge distillation for face recognition | |
CN114120074B (zh) | 基于语义增强的图像识别模型的训练方法和训练装置 | |
CN116310293A (zh) | 一种基于弱监督学习的生成高质量候选框目标检测方法 | |
CN112800959B (zh) | 一种用于人脸识别中数据拟合估计的困难样本发掘方法 | |
CN115438658A (zh) | 一种实体识别方法、识别模型的训练方法和相关装置 | |
Sheng et al. | Weakly supervised coarse-to-fine learning for human action segmentation in HCI videos | |
CN114220086A (zh) | 一种成本高效的场景文字检测方法及系统 | |
Chen et al. | Brain tumor segmentation based on CBAM-TransUNet | |
CN113139464A (zh) | 一种电网故障检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |