CN114925232A - 一种文段问答框架下跨模态的时域视频定位方法 - Google Patents

一种文段问答框架下跨模态的时域视频定位方法 Download PDF

Info

Publication number
CN114925232A
CN114925232A CN202210606624.2A CN202210606624A CN114925232A CN 114925232 A CN114925232 A CN 114925232A CN 202210606624 A CN202210606624 A CN 202210606624A CN 114925232 A CN114925232 A CN 114925232A
Authority
CN
China
Prior art keywords
text
features
video
question
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210606624.2A
Other languages
English (en)
Other versions
CN114925232B (zh
Inventor
俞俊
郭宇轩
彭玺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Hangzhou Dianzi University
Original Assignee
Sichuan University
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University, Hangzhou Dianzi University filed Critical Sichuan University
Priority to CN202210606624.2A priority Critical patent/CN114925232B/zh
Publication of CN114925232A publication Critical patent/CN114925232A/zh
Application granted granted Critical
Publication of CN114925232B publication Critical patent/CN114925232B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7343Query language or query format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文段问答框架下跨模态的时域视频定位方法。首先,把文本数据和视频数据的特征送入相同的编码器进行初步提取,并映射至相同维度。再对文本特征进行自动分割,将一些较长的句子分割为语义完整的短句,使之能与视觉特征进行更充分的融合。然后,将分割后的句子特征与视觉特征进行基于注意力机制的全局‑局部的跨模态融合,得到融合特征。其次,将融合特征视为文段问答框架中的文章,引入上下文‑查询注意力机制再次进行特征融合。最后,将最终的特征送入条件文段预测器中得到匹配的时间片段。本发明通过优化参数设置,利用适当的训练技巧,实现了更高准确率的时域视频定位方法。

Description

一种文段问答框架下跨模态的时域视频定位方法
技术领域
本发明涉及时域视频定位领域,特别是涉及基于端到端是,非基于锚点的文本视频时序定位方法。
背景技术
时域视频定位是一种针对给定问题从未经剪辑的视频中定位一个目标片段的任务,近年来受到了研究界越来越多的关注。与时间动作定位任务不同,文本视频时序定位任务更灵活,因为它可以通过自然语言定位复杂的活动,而不受预定义动作类别的限制。同时,它更具挑战性,因为它需要对文本和视频两种模态进行语义对齐,准确理解文本和视觉特征。
根据现有方法的特点可以做出以下分类。早期的模型通常采用两阶段架构,即首先扫描整个视频,通过滑动窗口策略或备选策略生成网络预切的各种候选片段,然后根据跨模式匹配模块产生的排名分数对候选片段进行排序。然而由于重叠候选段的冗余计算太多,这样的扫描和定位非常耗时,且单个成对段查询匹配也可能忽略上下文视频信息。
考虑到上述问题,出现了以端到端的方式解决文本视频时序定位任务。这种端到端模型不需要预先切割候选矩作为模型的输入。相反,在每个时间步结束的多尺度候选框由LSTM顺序或卷积神经网络分层维护,这种端到端方法称为基于锚点的方法。一些其他的端到端方法预测每个视频最小单元作为目标片段的起点和终点的概率,或者根据提供的视频和句子查询的多模态特征直接回归目标片段的起点和终点坐标。这些方法不依赖于任何候选方案生成过程,称为非基于锚点的方法。
本发明是端到端和非基于锚点的方法。文段问答框架将视频中提取出的视觉特征视为一篇文章也即上下文,并类比使用自然语言处理(NLP)领域处理文段问答问题的方法—给出查询并从上下文中定位相关的文段,来解决时域视频定位问题。相比传统文段问答框架下的方法直接将对原始视频的编码的特征用于定位,本发明使用更充分融合后的特征作为上下文,这更接近自然语言意义上的文章。本方法在时域视频定位任务上实现了更高准确率。
发明内容
本发明针对现有技术的不足,提供了一种文段问答框架下跨模态的时域视频定位方法。该方法自动划分句子语义成分并通过全局-局部跨模态交互提取到原始图像和句子更为完整的交互特征,比起传统的直接提取视频特征作为文章信息送入文段问答框架的方法,经由上述步骤得到的融合特征更接近于真实的文章信息。实验结果表明,该方法能够的到更为准确的时域视频定位结果。
一种文段问答框架下跨模态的时域视频定位方法,其步骤如下:
步骤1.数据集获取;从现有的公开文本视频时序定位任务数据集中,选择ActivityNet及Charades数据集;
步骤2.数据处理;对于步骤1中获取的数据集,对文本数据使用300维的GloVe向量初始化每一个单词得到语义特征;对未剪辑的视频数据,对其中每一帧进行下采样并使用预训练好的3D卷积网络提取其RGB视觉特征;
步骤3.定义文段问答框架下跨模态的时域视频定位模型,该模型包括编码器、序列查询注意力、局部-全局/视频-文本交互、上下文-查询注意力以及条件文段预测器五个模块;以步骤2处理后的视频和文本训练数据作为输入;
步骤4.损失函数;损失函数的作用是用来校正模型定位的片段与真实视频片段之间的误差;此处采用查询可分注意力损失函数、定位损失函数两种损失函数;
步骤5.定义Adam优化器,给模型设定一个学习率,初始学习率设定为0.0001,同时采用学习率预热机制,使模型更加稳定,同时加快收敛速度;同时采用梯度裁剪来有效控制梯度消失问题;
步骤6.网络训练与测试,训练步骤3中的时域视频定位模型,训练的同时在各数据集提供的测试集上进行评估,评估采用的是mIoU,以及召回率为1时IoU为0.7时的准确率。
进一步的,时域视频定位模型具体:采用LGI作为基准模型,并引入文段问答框架,同时修改基准模型的编码器和定位,最后添加上下文-查询注意力模块和条件文段预测器模块。
进一步的,步骤3所述的编码器模块具体实现如下:
对于拥有L个词的文本词嵌入输入,首先使用全连接层统一文本词嵌入与初步视觉特征的维度;再使用两个bi-LSTM获取文本词嵌入的单词级语义特征和句子级语义特征,其中单词级语义特征第l个位置的特征
Figure BDA0003670661320000031
由两LSTM对应位置的隐层状态值连接(Concatenate)得到,句子级语义特征
Figure BDA0003670661320000032
由两个LSTM最后的隐层状态值连接得到;
对于由步骤2中CNN处理后得到的初步视觉特征和处理得到的语义特征统一到指定维度,再通过相同的bi-LSTM得到对应更细致的视觉特征和语义特征。
进一步的,步骤3所述的上下文-查询注意力模块具体实现如下:将编码器模块得到的语义特征和局部-全局/视频-文本交互模块得到的跨模态特征进行基于注意力机制的融合,融合后的特征为:
Vq=FFN([R;A;R⊙A;R⊙B])
其中:
Figure BDA0003670661320000033
Figure BDA0003670661320000034
其中,A、B分别是上下文对查询以及查询对上下文的注意力权重,E表示单词级语义特征;R表示局部-全局/视频-文本交互模块最终输出的特征;S表示上下文特征和语义特征之间的相似度得分
Figure BDA0003670661320000035
Sr,Sc分别由相似度得分S通过softmax层对行及列作归一化后得,⊙代表矩阵元素间相乘,T表示转置。
进一步的,条件文段预测器模块具体实现如下:
该模块使用两个堆叠的Uni-LSTM处理上下文-查询注意力模块融合得到的特征Vq,后边界LSTM接收前边界LSTM的输出故受其限制,最终两个隐层状态被送入前馈层计算第t个特征,根据该特征计算起始处和结束处的置信度得分
Figure BDA0003670661320000041
Figure BDA0003670661320000042
Figure BDA0003670661320000043
Figure BDA0003670661320000044
Figure BDA0003670661320000045
其中,
Figure BDA0003670661320000046
分别代表第t个特征作为起始和终止边界的得分,
Figure BDA0003670661320000047
为Vq中的第t个融合特征,h为LSTM的隐层,Ws/e、bs/e为前馈层的权重矩阵和偏置,起始和终止边界的计算公式如下:
Ps=softmax(Ss)
Pe=softmax(Se)。
进一步的,步骤4中的查询可分注意力损失函数如下式:
Figure BDA0003670661320000048
其中
Figure BDA0003670661320000049
是联合了n步最终的查询注意力权重矩阵,||·||F是矩阵的F范数,I表示单位矩阵;λ表示矩阵系数。
进一步的,所述的定位损失函数如下式:
Figure BDA00036706613200000410
其中fCE为交叉熵损失函数,Ys和Ye是起始边界和终止边界的真实值,Ps和Pe起始和终止边界的预测值。
进一步的,步骤6所述评估指标如下:
IoU(交并比)被广泛运用在文本视频时序定位任务方法中来测量真实值和预测值之间的相似性。mIoU(平均交并比)是计算所有样本的预测值与真实值的平均交并比来评估结果的指标;本方法还采用了召回率为1时IoU为0.7的准确率。综合这两个指标能够有效的评测模型定位的准确率。
本发明的有益效果如下:
本发明提供了一种文段问答框架下跨模态的时域视频定位方法,该方法自动划分句子语义成分使视觉和语义特征的融合更为细致,并通过全局-局部跨模态交互提取出更为完整的交互特征,比起传统的直接提取视频特征作为文章信息送入文段问答框架的方法,经由上述步骤得到的融合特征更合理,更接近于真实的文章信息,因此更适合原本属于NLP领域的方法。适当的采取一些训练技巧,选择理想的网络参数、优化算法以及学习率的设置,提高了最终时域视频定位结果的准确度。
附图说明
图1是本发明流程图。
图2是本发明的网络框架示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
本发明公开了一种文段问答框架下跨模态的时域视频定位方法。首先,把文本数据和视频数据的特征送入相同的编码器进行初步提取,并映射至相同维度。再对文本特征进行自动分割,将一些较长的句子分割为语义完整的短句,使之能与视觉特征进行更充分的融合。然后,将分割后的句子特征与视觉特征进行基于注意力机制的全局-局部的跨模态融合,得到融合后的特征。其次,将融合后的特征视为文段问答框架中的文章,这比直接对视频内容进行编码的到的特征更接近自然语言意义上的文章,引入上下文-查询注意力机制再次进行特征融合。最后,将最终的特征送入条件文段预测器中得到匹配的时间片段。同时,通过优化参数设置,利用适当的训练技巧,实现了更高准确率的时域视频定位方法。
如图1所示,一种文段问答框架下跨模态的时域视频定位方法,具体包括如下步骤:
步骤1.数据集获取,从现有的公开文本视频时序定位任务数据集中,选择ActivityNet及Charades数据集。
Charades-STA是建立在Charades的基础上的,它最初是为视频活动识别而收集的,由9848个描述人类日常室内活动的视频组成。基于Charades,Gao等人使用半自动管道构Charades-STA,该管道首先从视频描述中解析活动标签,并将描述与指示时间间隔的原始标签对齐。因此,生成的(描述、区间)对可以看作是时域视频定位的句子查询及目标片段对。
ActivityNet。ActivityNet字幕最初用于密集视频字幕,该数据集中的句子段对自然可用于时域视频定位任务。ActivityNet将视频与一系列临时注释的句子描述对齐。平均而言,20k个视频中的每个视频包含3.65个时间定位的句子,总共有100k个句子。每个句子的平均长度为13.48个单词。句子长度也是正态分布的。由于官方测试集被保留用于竞赛,大多数TSGV工作将两个可用的验证子集“val1”和“val2”合并为测试集。
步骤2.数据处理;对于步骤1中获取的数据集,对文本数据使用300维的GloVe向量初始化每一个单词得到语义特征;对未剪辑的视频数据,对其中每一帧进行下采样并使用预训练好的3D卷积网络提取其RGB初步视觉特征;
步骤3.如图2所示为文段问答框架下跨模态的时域视频定位网络框架图由五个部分组成,分别为编码器、序列查询注意力模块、局部-全局/视频-文本交互模块、上下文-查询注意力模块、条件文段预测器。以步骤2处理后的视觉特征以及语义特征作为输入,所有网络的隐层维度均为512,卷积核的大小为7。
本发明采用LGI作为基准模型,并引入文段问答框架,同时修改基准模型的编码器和定位,最后添加上下文-查询注意力模块和条件文段预测器模块。
进一步的,编码器模块具体实现如下:
对于拥有L个词的文本词嵌入(Word Embedding)输入,首先使用全连接层统一与视觉特征的维度。再使用两个bi-LSTM获取单词级和句子级的特征,其中单词级第l个位置的特征
Figure BDA0003670661320000071
由两LSTM对应位置的隐层状态值连接(Concatenate)得到,句子级特征
Figure BDA0003670661320000072
由两个LSTM最后的隐层状态值连接得到。
对于由步骤2中CNN处理后得到的初步视觉特征,同样使用全连接层统一与语义特征的维度,再通过相同的bi-LSTM得到对应更细致的视觉特征。
序列查询注意力模块:
对于长度为L的句子的单词级语义特征
Figure BDA0003670661320000073
及句子级特征
Figure BDA0003670661320000074
该模块通过n步最终提取出N个自动划分后的短句特征{e(1),...,e(N)}。对于其中每一步,引导向量
Figure BDA0003670661320000075
通过嵌入连接了经线性变换后的句子级特征以及上一步的特征
Figure BDA0003670661320000076
得出,具体公式如下:
Figure BDA0003670661320000077
其中
Figure BDA0003670661320000078
Figure BDA0003670661320000079
是可学习得到的嵌入矩阵(embeddingmatrices),ReLU为激活函数。当前的特征e(n)是令单词特征的注意力矩阵
Figure BDA00036706613200000710
通过softmax层得到。具体公式如下:
Figure BDA00036706613200000711
Figure BDA00036706613200000712
Figure BDA00036706613200000713
其中
Figure BDA00036706613200000714
是查询注意力层中的可学习得到的嵌入矩阵,
Figure BDA00036706613200000715
第l个单词在第n步的置信度。通过该模块的处理,可以将原句子划分为更细粒度的短句,使后续跨模态的特征融合更细致有效。
局部-全局/视频-文本交互模块:
首先对使用由两个时序卷积层组成的残差模块(ResBlock)建模局部的上下文信息,并使对应元素相乘,这里使用了大小为15的卷积核以获得长程的理解,具体公式如下:
Figure BDA0003670661320000081
Figure BDA0003670661320000082
其中
Figure BDA0003670661320000083
是可学习得到的短句级融合的嵌入矩阵,⊙是对应元素相乘。
Figure BDA0003670661320000084
代表了第i个融合后的跨模态特征,
Figure BDA0003670661320000085
代表第n个短句的语义特征。
获取了N个短句局部语义特征{M(1),…,M(N)}后,再考虑短句语义间更全局的上下文时序关系。首先通过注意力池化(Attentive Pooling)聚合上阶段得到的所有短句局部语义特征。再使用非局部模块(NLBlock)获取全局上下文信息,具体的公式如下:
c=softmax(MLPsatt([e(1),…,e(N)]))
Figure BDA0003670661320000086
Figure BDA0003670661320000087
其中MLPsatt是含有
Figure BDA0003670661320000088
维隐层的多层感知机,
Figure BDA0003670661320000089
是所有短句语义特征的权重向量。
Figure BDA00036706613200000810
是通过注意力池化得到的聚合特征。
Figure BDA00036706613200000811
Figure BDA00036706613200000812
是通过局部-全局/视频-文本交互模块得到的最终的特征。
Figure BDA00036706613200000813
Figure BDA00036706613200000814
是非局部模块中可学习得到的矩阵。通过上个模块得到的划分后的短句语义特征,本模块使这些特征被充分理解,并使两种模态的信息在全局和局部层面充分交互。
上下文-查询注意力模块:
本模块是自然语言处理领域中针对文段问答问题提出的模块。在经过上述模块的处理后得到充分融合的跨模态上下文特征,此时的特征比以往方法直接编码视频不进一步处理得到的特征更接近真实的文章,也更适用于文段问答框架。
首先计算上下文特征和语义特征之间的相似度得分
Figure BDA0003670661320000091
随后计算又上下文对查询A及查询对上下文的注意力权重B,具体公式如下:
Figure BDA0003670661320000092
Figure BDA0003670661320000093
其中Sr,Sc分别由相似度得分S通过softmax层对行及列作归一化后得到。最终上下文-查询的注意力由下面公式得出:
Vq=FFN([R;A;R⊙A;R⊙B])
条件文段预测器:
该预测器使用两个堆叠的Uni-LSTM处理之前融合后的特征,后边界LSTM接收前边界LSTM的输出故受其限制,最终两个隐层状态被送入前馈层计算第t个特征作为起始处和结束处的置信度得分,具体公式如下:
Figure BDA0003670661320000094
Figure BDA0003670661320000095
Figure BDA0003670661320000096
Figure BDA0003670661320000097
Figure BDA0003670661320000098
分别代表t时刻作为起始和终止边界的得分,
Figure BDA0003670661320000099
为Vq中的第t个融合特征,Ws/e、bs/e为前馈层的权重矩阵和偏置。最终边界的计算公式如下:
Ps=softmax(Ss)
Pe=softmax(Se)
步骤4.定义损失函数。本方法使用了两种损失函数,其中查询可分注意力损失函数如下式:
Figure BDA0003670661320000101
其中
Figure BDA0003670661320000102
是联合了n步最终的查询注意力权重矩阵,||·||F是矩阵的F范数。该损失函数帮助序列查询注意力模块将长句更精准地划分为合适的短句。
定位损失函数如下式:
Figure BDA0003670661320000103
其中fCE为交叉熵损失函数,Ys和Ye是起始和终止边界的真实值,Ps和Pe起始和终止边界的预测值。
步骤5.定义Adam优化器,给模型设定一个合理的学习率,初始学习率设定为0.0001,同时采用学习率预热机制,使模型更加稳定,同时加快收敛速度;同时采用梯度裁剪来有效控制梯度消失问题;步骤6.网络训练与测试,使用大小为16的批量大小进行训练,总共进行20个训练批次数。根据查询可分注意力函数和定位损失函数利用步骤5定义的Adam优化器进行梯度更新,其中学习率设置为0.0001,梯度裁剪参数为1.0,另外还使用了0.2的dropout防止模型过拟合。
网络训练与测试,训练步骤3中的模型,在训练的同时在各数据集提供的测试集上进行评估,评估采用的是平均IoU(交并比),以及召回率为1时IoU为0.7时的准确率。IoU被广泛运用在文本视频时序定位任务方法中来测量真实值和预测值之间的相似性。mIoU(平均交并比)是计算所有样本的预测值与真实值的平均交并比来评估结果的指标;本方法还采用了召回率为1时IoU为0.7的准确率。综合这两个指标能够有效的评测模型定位的准确率。
实验采用的对比模型是最近在ActivityNet和Charades数据集上表现优异的LGI模型。实验指标对比如下表1。
表1本发明与LGI模型指标对比图
Figure BDA0003670661320000111

Claims (7)

1.一种文段问答框架下跨模态的时域视频定位方法,其特征在于包括如下步骤:
步骤1.数据集获取;从现有的公开文本视频时序定位任务数据集中,选择ActivityNet及Charades数据集;
步骤2.数据处理;对于步骤1中获取的数据集,对文本数据使用300维的GloVe向量初始化每一个单词得到语义特征;对未剪辑的视频数据,对其中每一帧进行下采样并使用预训练好的3D卷积网络提取其RGB初步视觉特征;
步骤3.定义文段问答框架下跨模态的时域视频定位模型,该模型包括编码器、序列查询注意力、局部-全局/视频-文本交互、上下文-查询注意力以及条件文段预测器五个模块;以步骤2处理后的视频和文本训练数据作为输入;
步骤4.损失函数;损失函数的作用是用来校正模型定位的片段与真实视频片段之间的误差;此处采用查询可分注意力损失函数、定位损失函数两种损失函数;
步骤5.定义Adam优化器,给模型设定一个学习率,初始学习率设定为0.0001,同时采用学习率预热机制,使模型更加稳定,同时加快收敛速度;同时采用梯度裁剪来有效控制梯度消失问题;
步骤6.网络训练与测试,训练步骤3中的时域视频定位模型,训练的同时在各数据集提供的测试集上进行评估。
2.根据权利要求1所述的文段问答框架下跨模态的时域视频定位方法,其特征在于时域视频定位模型具体:采用LGI作为基准模型,并引入文段问答框架,同时修改基准模型的编码器和定位,最后添加上下文-查询注意力模块和条件文段预测器模块。
3.根据权利要求1所述的文段问答框架下跨模态的时域视频定位方法,其特征在于步骤3所述的编码器模块具体实现如下:
对于拥有L个词的文本词嵌入输入,首先使用全连接层统一文本词嵌入与初步视觉特征的维度;再使用两个bi-LSTM获取文本词嵌入的单词级语义特征和句子级语义特征,其中单词级语义特征第l个位置的特征
Figure FDA0003670661310000021
由两LSTM对应位置的隐层状态值连接得到,句子级语义特征
Figure FDA0003670661310000022
由两个LSTM最后的隐层状态值连接得到;
对于由步骤2中CNN处理后得到的初步视觉特征和处理得到的语义特征统一到指定维度,再通过相同的bi-LSTM得到对应更细致的视觉特征和语义特征。
4.根据权利要求1所述的文段问答框架下跨模态的时域视频定位方法,其特征在于步骤3所述的上下文-查询注意力模块具体实现如下:将编码器模块得到的语义特征和局部-全局/视频-文本交互模块得到的跨模态特征进行基于注意力机制的融合,融合后的特征为:
Vq=FFN([R;A;R⊙A;R⊙B])
其中:
Figure FDA0003670661310000023
Figure FDA0003670661310000024
其中,A、B分别是上下文对查询以及查询对上下文的注意力权重,E表示单词级语义特征;R表示局部-全局/视频-文本交互模块最终输出的特征;S表示上下文特征和语义特征之间的相似度得分
Figure FDA0003670661310000025
Sr,Sc分别由相似度得分S通过softmax层对行及列作归一化后得,⊙代表矩阵元素间相乘,T表示转置。
5.根据权利要求1所述的文段问答框架下跨模态的时域视频定位方法,其特征在于条件文段预测器模块具体实现如下:
该模块使用两个堆叠的Uni-LSTM处理上下文-查询注意力模块融合得到的特征Vq,后边界LSTM接收前边界LSTM的输出故受其限制,最终两个隐层状态被送入前馈层计算第t个特征,根据该特征计算起始处和结束处的置信度得分
Figure FDA0003670661310000026
Figure FDA0003670661310000027
Figure FDA0003670661310000028
Figure FDA0003670661310000031
Figure FDA0003670661310000032
其中,
Figure FDA0003670661310000033
分别代表第t个特征作为起始和终止边界的得分,
Figure FDA0003670661310000034
为Vq中的第t个融合特征,h为LSTM的隐层,Ws/e、bs/e为前馈层的权重矩阵和偏置,起始和终止边界的计算公式如下:
Ps=softmax(Ss)
Pe=softmax(Se)。
6.根据权利要求1所述的文段问答框架下跨模态的时域视频定位方法,其特征在于步骤4中的查询可分注意力损失函数如下式:
Figure FDA0003670661310000035
其中
Figure FDA0003670661310000036
是联合了n步最终的查询注意力权重矩阵,||·||F是矩阵的F范数,I表示单位矩阵;λ表示矩阵系数。
7.根据权利要求1所述的文段问答框架下跨模态的时域视频定位方法,其特征在于所述的定位损失函数如下式:
Figure FDA0003670661310000037
其中fCE为交叉熵损失函数,Ys和Ye是起始边界和终止边界的真实值,Ps和Pe起始和终止边界的预测值。
CN202210606624.2A 2022-05-31 2022-05-31 一种文段问答框架下跨模态的时域视频定位方法 Active CN114925232B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210606624.2A CN114925232B (zh) 2022-05-31 2022-05-31 一种文段问答框架下跨模态的时域视频定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210606624.2A CN114925232B (zh) 2022-05-31 2022-05-31 一种文段问答框架下跨模态的时域视频定位方法

Publications (2)

Publication Number Publication Date
CN114925232A true CN114925232A (zh) 2022-08-19
CN114925232B CN114925232B (zh) 2023-04-07

Family

ID=82812853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210606624.2A Active CN114925232B (zh) 2022-05-31 2022-05-31 一种文段问答框架下跨模态的时域视频定位方法

Country Status (1)

Country Link
CN (1) CN114925232B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115223086A (zh) * 2022-09-20 2022-10-21 之江实验室 基于交互注意力引导与修正的跨模态动作定位方法与系统
CN118170948A (zh) * 2024-03-12 2024-06-11 天津大学 一种基于样本引导的时域目标定位方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932304A (zh) * 2018-06-12 2018-12-04 山东大学 基于跨模态的视频时刻定位方法、系统及存储介质
CN114064967A (zh) * 2022-01-18 2022-02-18 之江实验室 多粒度级联交互网络的跨模态时序行为定位方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932304A (zh) * 2018-06-12 2018-12-04 山东大学 基于跨模态的视频时刻定位方法、系统及存储介质
CN114064967A (zh) * 2022-01-18 2022-02-18 之江实验室 多粒度级联交互网络的跨模态时序行为定位方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BINJIE ZHANG 等: "A Simple Yet Effective Method for Video Temporal Grounding with Cross-Modality Attention", 《ARXIV》 *
SHAOXIANG CHEN 等: "Learning Modality Interaction for Temporal Sentence Localization and Event Captioning in Videos", 《ARXIV》 *
陈卓 等: "基于视觉-文本关系对齐的跨模态视频片段检索", 《中国科学》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115223086A (zh) * 2022-09-20 2022-10-21 之江实验室 基于交互注意力引导与修正的跨模态动作定位方法与系统
CN115223086B (zh) * 2022-09-20 2022-12-06 之江实验室 基于交互注意力引导与修正的跨模态动作定位方法与系统
CN118170948A (zh) * 2024-03-12 2024-06-11 天津大学 一种基于样本引导的时域目标定位方法
CN118170948B (zh) * 2024-03-12 2024-09-20 天津大学 一种基于样本引导的时域目标定位方法

Also Published As

Publication number Publication date
CN114925232B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
KR102458463B1 (ko) 이미지 조건화 마스킹된 언어 모델링을 사용하여 이미지 인식을 위한 컨볼루션 신경망을 훈련하기 위한 방법
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
CN114925232B (zh) 一种文段问答框架下跨模态的时域视频定位方法
CN110647612A (zh) 一种基于双视觉注意力网络的视觉对话生成方法
CN107562792A (zh) 一种基于深度学习的问答匹配方法
CN113297364B (zh) 一种面向对话系统中的自然语言理解方法及装置
CN110991290B (zh) 基于语义指导与记忆机制的视频描述方法
CN110321418A (zh) 一种基于深度学习的领域、意图识别和槽填充方法
CN113204633B (zh) 一种语义匹配蒸馏方法及装置
CN112015760B (zh) 基于候选答案集重排序的自动问答方法、装置和存储介质
CN114492441A (zh) 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法
CN114385803B (zh) 一种基于外部知识和片段选择的抽取式阅读理解方法
CN115331075A (zh) 一种多模态场景图知识增强的对抗式多模态预训练方法
CN113822125A (zh) 唇语识别模型的处理方法、装置、计算机设备和存储介质
CN111159345A (zh) 一种中文知识库答案获取方法及其装置
CN113641809A (zh) 一种基于XLNet-BiGRU-CRF的智能问答方法
CN114612748A (zh) 一种基于特征解耦的跨模态视频片段检索方法
CN114241191A (zh) 一种基于跨模态自注意力的无候选框指代表达理解方法
CN115238691A (zh) 基于知识融合的嵌入的多意图识别与槽位填充模型
CN116662591A (zh) 一种基于对比学习的鲁棒视觉问答模型训练方法
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
CN116881457A (zh) 一种基于知识对比增强提示的小样本文本分类方法
CN115223021A (zh) 一种基于视觉问答的果树全生长期农事作业决策方法
CN115171870A (zh) 一种基于m-BERT预训练模型的就诊引导提示方法及系统
CN112668481A (zh) 一种遥感图像语义抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant