CN114925232A - 一种文段问答框架下跨模态的时域视频定位方法 - Google Patents
一种文段问答框架下跨模态的时域视频定位方法 Download PDFInfo
- Publication number
- CN114925232A CN114925232A CN202210606624.2A CN202210606624A CN114925232A CN 114925232 A CN114925232 A CN 114925232A CN 202210606624 A CN202210606624 A CN 202210606624A CN 114925232 A CN114925232 A CN 114925232A
- Authority
- CN
- China
- Prior art keywords
- text
- features
- video
- question
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000000007 visual effect Effects 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 18
- 230000004927 fusion Effects 0.000 claims abstract description 14
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 27
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 14
- 230000003993 interaction Effects 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 9
- 230000004807 localization Effects 0.000 claims description 8
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 230000008034 disappearance Effects 0.000 claims description 3
- 101150040772 CALY gene Proteins 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract description 2
- 238000011156 evaluation Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 235000021538 Chard Nutrition 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/732—Query formulation
- G06F16/7343—Query language or query format
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/7867—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Informatics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文段问答框架下跨模态的时域视频定位方法。首先,把文本数据和视频数据的特征送入相同的编码器进行初步提取,并映射至相同维度。再对文本特征进行自动分割,将一些较长的句子分割为语义完整的短句,使之能与视觉特征进行更充分的融合。然后,将分割后的句子特征与视觉特征进行基于注意力机制的全局‑局部的跨模态融合,得到融合特征。其次,将融合特征视为文段问答框架中的文章,引入上下文‑查询注意力机制再次进行特征融合。最后,将最终的特征送入条件文段预测器中得到匹配的时间片段。本发明通过优化参数设置,利用适当的训练技巧,实现了更高准确率的时域视频定位方法。
Description
技术领域
本发明涉及时域视频定位领域,特别是涉及基于端到端是,非基于锚点的文本视频时序定位方法。
背景技术
时域视频定位是一种针对给定问题从未经剪辑的视频中定位一个目标片段的任务,近年来受到了研究界越来越多的关注。与时间动作定位任务不同,文本视频时序定位任务更灵活,因为它可以通过自然语言定位复杂的活动,而不受预定义动作类别的限制。同时,它更具挑战性,因为它需要对文本和视频两种模态进行语义对齐,准确理解文本和视觉特征。
根据现有方法的特点可以做出以下分类。早期的模型通常采用两阶段架构,即首先扫描整个视频,通过滑动窗口策略或备选策略生成网络预切的各种候选片段,然后根据跨模式匹配模块产生的排名分数对候选片段进行排序。然而由于重叠候选段的冗余计算太多,这样的扫描和定位非常耗时,且单个成对段查询匹配也可能忽略上下文视频信息。
考虑到上述问题,出现了以端到端的方式解决文本视频时序定位任务。这种端到端模型不需要预先切割候选矩作为模型的输入。相反,在每个时间步结束的多尺度候选框由LSTM顺序或卷积神经网络分层维护,这种端到端方法称为基于锚点的方法。一些其他的端到端方法预测每个视频最小单元作为目标片段的起点和终点的概率,或者根据提供的视频和句子查询的多模态特征直接回归目标片段的起点和终点坐标。这些方法不依赖于任何候选方案生成过程,称为非基于锚点的方法。
本发明是端到端和非基于锚点的方法。文段问答框架将视频中提取出的视觉特征视为一篇文章也即上下文,并类比使用自然语言处理(NLP)领域处理文段问答问题的方法—给出查询并从上下文中定位相关的文段,来解决时域视频定位问题。相比传统文段问答框架下的方法直接将对原始视频的编码的特征用于定位,本发明使用更充分融合后的特征作为上下文,这更接近自然语言意义上的文章。本方法在时域视频定位任务上实现了更高准确率。
发明内容
本发明针对现有技术的不足,提供了一种文段问答框架下跨模态的时域视频定位方法。该方法自动划分句子语义成分并通过全局-局部跨模态交互提取到原始图像和句子更为完整的交互特征,比起传统的直接提取视频特征作为文章信息送入文段问答框架的方法,经由上述步骤得到的融合特征更接近于真实的文章信息。实验结果表明,该方法能够的到更为准确的时域视频定位结果。
一种文段问答框架下跨模态的时域视频定位方法,其步骤如下:
步骤1.数据集获取;从现有的公开文本视频时序定位任务数据集中,选择ActivityNet及Charades数据集;
步骤2.数据处理;对于步骤1中获取的数据集,对文本数据使用300维的GloVe向量初始化每一个单词得到语义特征;对未剪辑的视频数据,对其中每一帧进行下采样并使用预训练好的3D卷积网络提取其RGB视觉特征;
步骤3.定义文段问答框架下跨模态的时域视频定位模型,该模型包括编码器、序列查询注意力、局部-全局/视频-文本交互、上下文-查询注意力以及条件文段预测器五个模块;以步骤2处理后的视频和文本训练数据作为输入;
步骤4.损失函数;损失函数的作用是用来校正模型定位的片段与真实视频片段之间的误差;此处采用查询可分注意力损失函数、定位损失函数两种损失函数;
步骤5.定义Adam优化器,给模型设定一个学习率,初始学习率设定为0.0001,同时采用学习率预热机制,使模型更加稳定,同时加快收敛速度;同时采用梯度裁剪来有效控制梯度消失问题;
步骤6.网络训练与测试,训练步骤3中的时域视频定位模型,训练的同时在各数据集提供的测试集上进行评估,评估采用的是mIoU,以及召回率为1时IoU为0.7时的准确率。
进一步的,时域视频定位模型具体:采用LGI作为基准模型,并引入文段问答框架,同时修改基准模型的编码器和定位,最后添加上下文-查询注意力模块和条件文段预测器模块。
进一步的,步骤3所述的编码器模块具体实现如下:
对于拥有L个词的文本词嵌入输入,首先使用全连接层统一文本词嵌入与初步视觉特征的维度;再使用两个bi-LSTM获取文本词嵌入的单词级语义特征和句子级语义特征,其中单词级语义特征第l个位置的特征由两LSTM对应位置的隐层状态值连接(Concatenate)得到,句子级语义特征由两个LSTM最后的隐层状态值连接得到;
对于由步骤2中CNN处理后得到的初步视觉特征和处理得到的语义特征统一到指定维度,再通过相同的bi-LSTM得到对应更细致的视觉特征和语义特征。
进一步的,步骤3所述的上下文-查询注意力模块具体实现如下:将编码器模块得到的语义特征和局部-全局/视频-文本交互模块得到的跨模态特征进行基于注意力机制的融合,融合后的特征为:
Vq=FFN([R;A;R⊙A;R⊙B])
其中:
其中,A、B分别是上下文对查询以及查询对上下文的注意力权重,E表示单词级语义特征;R表示局部-全局/视频-文本交互模块最终输出的特征;S表示上下文特征和语义特征之间的相似度得分Sr,Sc分别由相似度得分S通过softmax层对行及列作归一化后得,⊙代表矩阵元素间相乘,T表示转置。
进一步的,条件文段预测器模块具体实现如下:
该模块使用两个堆叠的Uni-LSTM处理上下文-查询注意力模块融合得到的特征Vq,后边界LSTM接收前边界LSTM的输出故受其限制,最终两个隐层状态被送入前馈层计算第t个特征,根据该特征计算起始处和结束处的置信度得分
Ps=softmax(Ss)
Pe=softmax(Se)。
进一步的,步骤4中的查询可分注意力损失函数如下式:
进一步的,所述的定位损失函数如下式:
其中fCE为交叉熵损失函数,Ys和Ye是起始边界和终止边界的真实值,Ps和Pe起始和终止边界的预测值。
进一步的,步骤6所述评估指标如下:
IoU(交并比)被广泛运用在文本视频时序定位任务方法中来测量真实值和预测值之间的相似性。mIoU(平均交并比)是计算所有样本的预测值与真实值的平均交并比来评估结果的指标;本方法还采用了召回率为1时IoU为0.7的准确率。综合这两个指标能够有效的评测模型定位的准确率。
本发明的有益效果如下:
本发明提供了一种文段问答框架下跨模态的时域视频定位方法,该方法自动划分句子语义成分使视觉和语义特征的融合更为细致,并通过全局-局部跨模态交互提取出更为完整的交互特征,比起传统的直接提取视频特征作为文章信息送入文段问答框架的方法,经由上述步骤得到的融合特征更合理,更接近于真实的文章信息,因此更适合原本属于NLP领域的方法。适当的采取一些训练技巧,选择理想的网络参数、优化算法以及学习率的设置,提高了最终时域视频定位结果的准确度。
附图说明
图1是本发明流程图。
图2是本发明的网络框架示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
本发明公开了一种文段问答框架下跨模态的时域视频定位方法。首先,把文本数据和视频数据的特征送入相同的编码器进行初步提取,并映射至相同维度。再对文本特征进行自动分割,将一些较长的句子分割为语义完整的短句,使之能与视觉特征进行更充分的融合。然后,将分割后的句子特征与视觉特征进行基于注意力机制的全局-局部的跨模态融合,得到融合后的特征。其次,将融合后的特征视为文段问答框架中的文章,这比直接对视频内容进行编码的到的特征更接近自然语言意义上的文章,引入上下文-查询注意力机制再次进行特征融合。最后,将最终的特征送入条件文段预测器中得到匹配的时间片段。同时,通过优化参数设置,利用适当的训练技巧,实现了更高准确率的时域视频定位方法。
如图1所示,一种文段问答框架下跨模态的时域视频定位方法,具体包括如下步骤:
步骤1.数据集获取,从现有的公开文本视频时序定位任务数据集中,选择ActivityNet及Charades数据集。
Charades-STA是建立在Charades的基础上的,它最初是为视频活动识别而收集的,由9848个描述人类日常室内活动的视频组成。基于Charades,Gao等人使用半自动管道构Charades-STA,该管道首先从视频描述中解析活动标签,并将描述与指示时间间隔的原始标签对齐。因此,生成的(描述、区间)对可以看作是时域视频定位的句子查询及目标片段对。
ActivityNet。ActivityNet字幕最初用于密集视频字幕,该数据集中的句子段对自然可用于时域视频定位任务。ActivityNet将视频与一系列临时注释的句子描述对齐。平均而言,20k个视频中的每个视频包含3.65个时间定位的句子,总共有100k个句子。每个句子的平均长度为13.48个单词。句子长度也是正态分布的。由于官方测试集被保留用于竞赛,大多数TSGV工作将两个可用的验证子集“val1”和“val2”合并为测试集。
步骤2.数据处理;对于步骤1中获取的数据集,对文本数据使用300维的GloVe向量初始化每一个单词得到语义特征;对未剪辑的视频数据,对其中每一帧进行下采样并使用预训练好的3D卷积网络提取其RGB初步视觉特征;
步骤3.如图2所示为文段问答框架下跨模态的时域视频定位网络框架图由五个部分组成,分别为编码器、序列查询注意力模块、局部-全局/视频-文本交互模块、上下文-查询注意力模块、条件文段预测器。以步骤2处理后的视觉特征以及语义特征作为输入,所有网络的隐层维度均为512,卷积核的大小为7。
本发明采用LGI作为基准模型,并引入文段问答框架,同时修改基准模型的编码器和定位,最后添加上下文-查询注意力模块和条件文段预测器模块。
进一步的,编码器模块具体实现如下:
对于拥有L个词的文本词嵌入(Word Embedding)输入,首先使用全连接层统一与视觉特征的维度。再使用两个bi-LSTM获取单词级和句子级的特征,其中单词级第l个位置的特征由两LSTM对应位置的隐层状态值连接(Concatenate)得到,句子级特征由两个LSTM最后的隐层状态值连接得到。
对于由步骤2中CNN处理后得到的初步视觉特征,同样使用全连接层统一与语义特征的维度,再通过相同的bi-LSTM得到对应更细致的视觉特征。
序列查询注意力模块:
对于长度为L的句子的单词级语义特征及句子级特征该模块通过n步最终提取出N个自动划分后的短句特征{e(1),...,e(N)}。对于其中每一步,引导向量通过嵌入连接了经线性变换后的句子级特征以及上一步的特征得出,具体公式如下:
局部-全局/视频-文本交互模块:
首先对使用由两个时序卷积层组成的残差模块(ResBlock)建模局部的上下文信息,并使对应元素相乘,这里使用了大小为15的卷积核以获得长程的理解,具体公式如下:
获取了N个短句局部语义特征{M(1),…,M(N)}后,再考虑短句语义间更全局的上下文时序关系。首先通过注意力池化(Attentive Pooling)聚合上阶段得到的所有短句局部语义特征。再使用非局部模块(NLBlock)获取全局上下文信息,具体的公式如下:
c=softmax(MLPsatt([e(1),…,e(N)]))
其中MLPsatt是含有维隐层的多层感知机,是所有短句语义特征的权重向量。是通过注意力池化得到的聚合特征。 是通过局部-全局/视频-文本交互模块得到的最终的特征。 是非局部模块中可学习得到的矩阵。通过上个模块得到的划分后的短句语义特征,本模块使这些特征被充分理解,并使两种模态的信息在全局和局部层面充分交互。
上下文-查询注意力模块:
本模块是自然语言处理领域中针对文段问答问题提出的模块。在经过上述模块的处理后得到充分融合的跨模态上下文特征,此时的特征比以往方法直接编码视频不进一步处理得到的特征更接近真实的文章,也更适用于文段问答框架。
其中Sr,Sc分别由相似度得分S通过softmax层对行及列作归一化后得到。最终上下文-查询的注意力由下面公式得出:
Vq=FFN([R;A;R⊙A;R⊙B])
条件文段预测器:
该预测器使用两个堆叠的Uni-LSTM处理之前融合后的特征,后边界LSTM接收前边界LSTM的输出故受其限制,最终两个隐层状态被送入前馈层计算第t个特征作为起始处和结束处的置信度得分,具体公式如下:
Ps=softmax(Ss)
Pe=softmax(Se)
步骤4.定义损失函数。本方法使用了两种损失函数,其中查询可分注意力损失函数如下式:
定位损失函数如下式:
其中fCE为交叉熵损失函数,Ys和Ye是起始和终止边界的真实值,Ps和Pe起始和终止边界的预测值。
步骤5.定义Adam优化器,给模型设定一个合理的学习率,初始学习率设定为0.0001,同时采用学习率预热机制,使模型更加稳定,同时加快收敛速度;同时采用梯度裁剪来有效控制梯度消失问题;步骤6.网络训练与测试,使用大小为16的批量大小进行训练,总共进行20个训练批次数。根据查询可分注意力函数和定位损失函数利用步骤5定义的Adam优化器进行梯度更新,其中学习率设置为0.0001,梯度裁剪参数为1.0,另外还使用了0.2的dropout防止模型过拟合。
网络训练与测试,训练步骤3中的模型,在训练的同时在各数据集提供的测试集上进行评估,评估采用的是平均IoU(交并比),以及召回率为1时IoU为0.7时的准确率。IoU被广泛运用在文本视频时序定位任务方法中来测量真实值和预测值之间的相似性。mIoU(平均交并比)是计算所有样本的预测值与真实值的平均交并比来评估结果的指标;本方法还采用了召回率为1时IoU为0.7的准确率。综合这两个指标能够有效的评测模型定位的准确率。
实验采用的对比模型是最近在ActivityNet和Charades数据集上表现优异的LGI模型。实验指标对比如下表1。
表1本发明与LGI模型指标对比图
Claims (7)
1.一种文段问答框架下跨模态的时域视频定位方法,其特征在于包括如下步骤:
步骤1.数据集获取;从现有的公开文本视频时序定位任务数据集中,选择ActivityNet及Charades数据集;
步骤2.数据处理;对于步骤1中获取的数据集,对文本数据使用300维的GloVe向量初始化每一个单词得到语义特征;对未剪辑的视频数据,对其中每一帧进行下采样并使用预训练好的3D卷积网络提取其RGB初步视觉特征;
步骤3.定义文段问答框架下跨模态的时域视频定位模型,该模型包括编码器、序列查询注意力、局部-全局/视频-文本交互、上下文-查询注意力以及条件文段预测器五个模块;以步骤2处理后的视频和文本训练数据作为输入;
步骤4.损失函数;损失函数的作用是用来校正模型定位的片段与真实视频片段之间的误差;此处采用查询可分注意力损失函数、定位损失函数两种损失函数;
步骤5.定义Adam优化器,给模型设定一个学习率,初始学习率设定为0.0001,同时采用学习率预热机制,使模型更加稳定,同时加快收敛速度;同时采用梯度裁剪来有效控制梯度消失问题;
步骤6.网络训练与测试,训练步骤3中的时域视频定位模型,训练的同时在各数据集提供的测试集上进行评估。
2.根据权利要求1所述的文段问答框架下跨模态的时域视频定位方法,其特征在于时域视频定位模型具体:采用LGI作为基准模型,并引入文段问答框架,同时修改基准模型的编码器和定位,最后添加上下文-查询注意力模块和条件文段预测器模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210606624.2A CN114925232B (zh) | 2022-05-31 | 2022-05-31 | 一种文段问答框架下跨模态的时域视频定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210606624.2A CN114925232B (zh) | 2022-05-31 | 2022-05-31 | 一种文段问答框架下跨模态的时域视频定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114925232A true CN114925232A (zh) | 2022-08-19 |
CN114925232B CN114925232B (zh) | 2023-04-07 |
Family
ID=82812853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210606624.2A Active CN114925232B (zh) | 2022-05-31 | 2022-05-31 | 一种文段问答框架下跨模态的时域视频定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114925232B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115223086A (zh) * | 2022-09-20 | 2022-10-21 | 之江实验室 | 基于交互注意力引导与修正的跨模态动作定位方法与系统 |
CN118170948A (zh) * | 2024-03-12 | 2024-06-11 | 天津大学 | 一种基于样本引导的时域目标定位方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932304A (zh) * | 2018-06-12 | 2018-12-04 | 山东大学 | 基于跨模态的视频时刻定位方法、系统及存储介质 |
CN114064967A (zh) * | 2022-01-18 | 2022-02-18 | 之江实验室 | 多粒度级联交互网络的跨模态时序行为定位方法及装置 |
-
2022
- 2022-05-31 CN CN202210606624.2A patent/CN114925232B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932304A (zh) * | 2018-06-12 | 2018-12-04 | 山东大学 | 基于跨模态的视频时刻定位方法、系统及存储介质 |
CN114064967A (zh) * | 2022-01-18 | 2022-02-18 | 之江实验室 | 多粒度级联交互网络的跨模态时序行为定位方法及装置 |
Non-Patent Citations (3)
Title |
---|
BINJIE ZHANG 等: "A Simple Yet Effective Method for Video Temporal Grounding with Cross-Modality Attention", 《ARXIV》 * |
SHAOXIANG CHEN 等: "Learning Modality Interaction for Temporal Sentence Localization and Event Captioning in Videos", 《ARXIV》 * |
陈卓 等: "基于视觉-文本关系对齐的跨模态视频片段检索", 《中国科学》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115223086A (zh) * | 2022-09-20 | 2022-10-21 | 之江实验室 | 基于交互注意力引导与修正的跨模态动作定位方法与系统 |
CN115223086B (zh) * | 2022-09-20 | 2022-12-06 | 之江实验室 | 基于交互注意力引导与修正的跨模态动作定位方法与系统 |
CN118170948A (zh) * | 2024-03-12 | 2024-06-11 | 天津大学 | 一种基于样本引导的时域目标定位方法 |
CN118170948B (zh) * | 2024-03-12 | 2024-09-20 | 天津大学 | 一种基于样本引导的时域目标定位方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114925232B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102458463B1 (ko) | 이미지 조건화 마스킹된 언어 모델링을 사용하여 이미지 인식을 위한 컨볼루션 신경망을 훈련하기 위한 방법 | |
CN110263912B (zh) | 一种基于多目标关联深度推理的图像问答方法 | |
CN114925232B (zh) | 一种文段问答框架下跨模态的时域视频定位方法 | |
CN110647612A (zh) | 一种基于双视觉注意力网络的视觉对话生成方法 | |
CN107562792A (zh) | 一种基于深度学习的问答匹配方法 | |
CN113297364B (zh) | 一种面向对话系统中的自然语言理解方法及装置 | |
CN110991290B (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN110321418A (zh) | 一种基于深度学习的领域、意图识别和槽填充方法 | |
CN113204633B (zh) | 一种语义匹配蒸馏方法及装置 | |
CN112015760B (zh) | 基于候选答案集重排序的自动问答方法、装置和存储介质 | |
CN114492441A (zh) | 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法 | |
CN114385803B (zh) | 一种基于外部知识和片段选择的抽取式阅读理解方法 | |
CN115331075A (zh) | 一种多模态场景图知识增强的对抗式多模态预训练方法 | |
CN113822125A (zh) | 唇语识别模型的处理方法、装置、计算机设备和存储介质 | |
CN111159345A (zh) | 一种中文知识库答案获取方法及其装置 | |
CN113641809A (zh) | 一种基于XLNet-BiGRU-CRF的智能问答方法 | |
CN114612748A (zh) | 一种基于特征解耦的跨模态视频片段检索方法 | |
CN114241191A (zh) | 一种基于跨模态自注意力的无候选框指代表达理解方法 | |
CN115238691A (zh) | 基于知识融合的嵌入的多意图识别与槽位填充模型 | |
CN116662591A (zh) | 一种基于对比学习的鲁棒视觉问答模型训练方法 | |
CN116187349A (zh) | 一种基于场景图关系信息增强的视觉问答方法 | |
CN116881457A (zh) | 一种基于知识对比增强提示的小样本文本分类方法 | |
CN115223021A (zh) | 一种基于视觉问答的果树全生长期农事作业决策方法 | |
CN115171870A (zh) | 一种基于m-BERT预训练模型的就诊引导提示方法及系统 | |
CN112668481A (zh) | 一种遥感图像语义抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |