CN115223086A - 基于交互注意力引导与修正的跨模态动作定位方法与系统 - Google Patents
基于交互注意力引导与修正的跨模态动作定位方法与系统 Download PDFInfo
- Publication number
- CN115223086A CN115223086A CN202211145164.4A CN202211145164A CN115223086A CN 115223086 A CN115223086 A CN 115223086A CN 202211145164 A CN202211145164 A CN 202211145164A CN 115223086 A CN115223086 A CN 115223086A
- Authority
- CN
- China
- Prior art keywords
- video
- text
- vector
- modal
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 23
- 238000012937 correction Methods 0.000 title claims abstract description 19
- 230000009471 action Effects 0.000 title abstract description 18
- 239000013598 vector Substances 0.000 claims abstract description 65
- 230000004927 fusion Effects 0.000 claims abstract description 13
- 239000012634 fragment Substances 0.000 claims abstract description 12
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 8
- 230000015654 memory Effects 0.000 claims abstract description 7
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 6
- 230000002708 enhancing effect Effects 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 24
- 230000000007 visual effect Effects 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 11
- 230000003993 interaction Effects 0.000 claims description 11
- 230000004807 localization Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 238000012986 modification Methods 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 4
- 210000002569 neuron Anatomy 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 2
- 238000005065 mining Methods 0.000 claims description 2
- 230000007787 long-term memory Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/635—Overlay text, e.g. embedded captions in a TV program
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于交互注意力引导与修正的跨模态动作定位方法和系统,该方法使用三维卷积神经网络和词向量模型提取视频和文本描述的特征表示,并使用双向长短时间记忆网络学习视频和文本描述的上下文信息;再使用交互注意力引导模块进行视频和文本跨模态特征增强,进一步通过修正门控单元进行语义信息融合;最后将融合后的多模态特征送入到时序定位模块以获得时序片段的匹配度得分和时序边界偏移量。本发明通过增强视频和文本的特征融合能力,能有效提高视频动作定位的性能,满足现实生活中复杂场景的视频动作定位需求。
Description
技术领域
本发明属于视频片段定位技术领域,尤其涉及一种基于交互注意力引导与修正的跨模态动作定位方法与系统。
背景技术
随着多媒体技术的快速发展,网络平台涌现出大规模的视频资源。如何从海量的视频库中快速准确地检索出感兴趣的人体动作片段是目前视频理解领域的热点问题,引起学术界工业界的广泛关注。跨模态动作定位任务旨在根据给定的查询文本描述在长视频中定位出与该描述内容相匹配的动作片段,即确定该动作的开始与结束时间点。这个任务在精彩视频片段检索、智能视频监控、视频字幕生成等领域有着广泛的应用前景,是计算机视觉领域热点研究问题。
由于该任务涉及视觉和语言两种模态的信息,为了解决该问题,除了要对视频的时序信息以及文本描述的语义信息进行建模外,还需要对视频和文本模态的特征进行深度融合来挖掘细粒度的交互信息,以实现精准地视频片段定位。目前,已有的方法将注意力放在视频和文本模态的交互特征学习上,采用软注意力或自注意力模型来聚合文本单词与视频图像帧之间的特征,但普遍忽略了不同模态特征在交互过程中产生的误匹配以及文本描述对视频动作定位的关键作用。尽管基于文本描述的跨模态动作定位研究已经取得了一定的进展,但仍然存在以下几方面的问题亟需解决:(1)不同时序片段的持续时间长短往往不同,如何最大化的保留视频的全局上下文信息,以实现精准的时间定位;(2)如何挖掘文本描述的语义信息,进而对时间定位进行精准地指导;(3)如何进行有效的文本和视频特征融合是解决跨模态动作定位的关键。
发明内容
针对现有技术的不足,本发明提供了一种基于交互注意力引导与修正的跨模态动作定位方法和系统,该方法是首先利用三维卷积神经网络和词向量模型提取视频和文本描述的特征,并使用长短时间记忆网络学习视频和文本的上下文信息;然后,使用交互注意力引导模块增强跨模态特征间的双向表达,并使用修正门控单元进行跨模态语义信息融合;最后,通过时序定位模块计算匹配得分和时序边界偏移量得到调整后的视频动作片段。
本发明是通过以下技术方案来实现的:
一种基于交互注意力引导与修正的跨模态动作定位方法,该方法包括如下步骤:
S1:对于给定的未分割视频序列,按照固定帧率对视频进行等间隔采样得到视频图像帧序列,并将其分割成长度相等的视频片段单元,然后使用预训练的三维卷积神经网络提取视频片段的视觉特征集合;
S2:对于给定的文本描述语句,使用在Wikipedia上预训练的GloVe模型得到每个单词的特征嵌入向量,将所有单词特征拼接得到文本特征集合;
S3:在单词特征上使用不同窗口大小的一维卷积挖掘单词间潜在的语义特征;
S4:由于三维卷积神经网络和词向量模型无法捕捉视频和文本描述的上下文语义关联信息,进一步将视频每个帧特征和单词特征按时间和语序送入双向长短时间记忆网络,对视频和文本的序列化特征进行建模,得到视频和文本描述的上下文特征;
S5:利用交互注意力引导与修正模块构建跨模态特征交互与融合网络;所述网络包含视觉引导注意力模块、文本引导视觉注意力模块以及修正门控模块,用于增强视频和文本内容的特征表达;
S6:将步骤S5融合增强后的特征表示送入到时序定位模块,具体为,在每个时间点预定义一系列多尺度候选时序片段,通过一维时间卷积评估每个候选片段的匹配得分,并计算时序边界偏移量调整候选片段的时序边界,得到精准的片段定位结果;
S7:对于任意给定的视频和文本描述,评估候选得分最高的视频片段作为最终定位的输出结果。
进一步地,所述步骤S1中,所述视频的等间隔采样的帧率为25帧/秒,每个视频片
段单元的长度为16帧,由C3D网络对视频片段进行编码并采用线性变换得到维度为500维
的视频单元特征,将视频片段特征在时间维度进行拼接得到长度为200、维度为500的视频
特征。
进一步地,所述步骤S2中,词向量维度设置为300维,每个文本描述设置固定长度为20个单词。
进一步地,所述步骤S3具体过程为:
进一步地,所述步骤S4中,双向长短时间记忆网络包含两个方向相反的LSTM网络,每层神经元个数为256,最后将前向和反向网络的输出进行拼接得到相应特征的上下文表示。
进一步地,所述步骤S5具体过程为:
(1.1)文本引导视觉注意力模块:首先,将文本特征和视频特征通过线性变换得到
查询特征向量,键向量,值向量;在文本特征上使用时间平均池化操作,并
通过两个线性层和非线性激活函数得到文本引导的注意力权重,即:
其中,代表逐元素相乘;为增强后的视频查询向量输出;为增强后的视频键
向量输出;视频查询向量和键向量的通道特征将根据模态信息被上述条件门激活或关闭,
以此为视频特征添加文本描述的上下文语义作为指导信息;其次,计算视频模态内的特征
自注意力权重,在通道维度上使用函数生成注意力权重:
并以此更新文本特征:
(1.3)修正门控单元:首先,将步骤(1.2)中增强后的视频和文本特征与原模态特征在通道上拼接,并经过全连接层与非线性激活函数得到遗忘向量如下:
最后,使用矩阵加法运算得到修正后的视频和文本特征表示:
进一步地,所述步骤S6具体过程为:
(2.1)将修正后的视频和文本特征经过矩阵点乘运算进行融合,得到融合后的多
模态特征,在每个时间点预定义个不同尺度窗口的候选时序片段,通过Conv1d层计算每个候选片段的置信度得分,并使用Sigmoid函数将
得分映射到区间;第i个候选片段在时间点t的置信度得分表示为:
额外通过Conv1d层计算时序边界偏移量:
(2.2)本系统采用多任务联合损失训练和优化网络参数,具体包含匹配损失和回
归损失两部分,其中匹配损失采用预测片段和目标真值GT片段的重叠度交并
比来表征匹配程度,记作;如果大于预先设定的阈值,则将该候选片段视作正样本,
否则视为负样本,因此可以得到个正样本和个负样本,总计个样本片段;采用匹
配损失计算每个候选片段的匹配度得分,定义为:
回归损失优化时序边界;边界回归损失定义为:
联合损失函数表示为匹配损失和边界回归损失的加权和,计算公式为:
一种基于交互注意力引导与修正的跨模态动作定位系统,包括一个或多个处理器,用于实现上述任一项所述的基于交互注意力引导与修正的跨模态动作定位方法。
本发明的有益效果如下:
针对跨模态视频动作定位任务,一方面,以往的方法忽略文本句子描述在跨模态交互过程中更好地关联相关视频内容的重要作用,本发明提出利用句子描述的全局信息,并采用交互注意力机制引导视频和文本跨模态信息交流;另一方面,在多模态特征融合过程中,视频中的冗余帧及句子中的噪声单词会干扰模态间的有效交互,本发明提出修正门控单元抑制模态间的噪声信息,提高多模态特征融合的有效表达,进而提升跨模态视频动作定位的精度。
附图说明
图1为本发明的系统流程图;
图2为本发明的方法框架示意图。
具体实施方式
下面结合附图和具体实例对本发明作进一步的说明。
本发明提供一种基于交互注意力引导与修正的跨模态动作定位方法与系统,能基于给定的查询文本描述语句从长视频序列中定位出相应的目标片段,即给出目标片段的开始和结束时间点。如图1所示,该方法首先基于三维卷积神经网络和词向量模型提取视频和文本描述的特征,采用自注意力机制与多尺度时序模型捕捉视频显著化特征和文本上下文语义信息。进一步地,基于视频和文本特征构建交互注意力引导与修正模型,充分挖掘跨模态间的互补信息,使得跨模态特征可以进行有效地交互与融合。最后,基于融合特征在每个时间点生成多尺度的候选时序片段,并使用卷积网络评估候选视频片段的得分和时序边界偏移量,将得分最高的候选片段作为最终的定位结果。
下面将结合附图对本发明加以详细说明,图2是本发明提供的一种基于交互注意力引导与修正的跨模动作定位方法与系统。本发明的具体步骤为,
S1:对于给定的未分割视频序列,按照固定帧率对视频进行等间隔采样得到视频
图像帧序列,并将其分割成长度相等的视频片段单元,然后使用预训练的三维卷积神经网
络提取视频片段的视觉特征集合,其中表示视频中的帧数,表示视频
中第帧的帧特征,并添加位置编码捕捉视频的时序信息;所述视频采样的帧率FPS为25帧/
秒,每个视频片段单元的长度为16帧,由C3D网络对视频片段进行编码并采用线性变换得到
维度为500维的视频单元特征,将视频片段特征在时间维度进行拼接得到长度为200、维
度为的视频特征,对于视频长度不足200的使用0填充,对于长度超出200的进行裁剪。
S2:对于给定的文本描述语句,在本实施例中文本描述为“一个人在吃书包里的食
物”,使用在Wikipedia上预训练的GloVe模型得到每个单词的特征嵌入向量,将所有单词特
征拼接得到文本特征集合,其中为文本描述语句中的单词个数,为文
本描述语句中第个单词的语言特征;所述词向量维度设置为300维,每个文本描述设置固
定长度为20个单词。当文本单词个数小于20时,使用0填充,当单词个数超出20时,通过裁剪
满足固定长度的文本特征输入。
S3:为挖掘单词间潜在的语义特征,在单词特征上使用不同窗口大小的一维卷积;
具体为,在每个位置计算单词特征向量和三种不同尺度的卷积核的内积,以此捕捉单字母、
双字母以及三字母的单词特征。为保持单词总个数不变,当卷积窗口大于1时使用零填充。
第个单词位置的输出特征可表示为,
具体为,所述步骤S4中,Bi-LSTM包含两个方向相反的LSTM网络,每个网络包含1个隐藏层,每层神经元个数为256,最后将前向和反向网络的输出进行拼接得到相应特征的上下文表示。以文本特征为例,该过程表示为:
S4:由于三维卷积神经网络和词向量模型无法捕捉视频和文本描述的上下文语义关联信息,进一步将每个帧特征和单词特征按时间和语序送入双向长短时间记忆网络(Bi-LSTM),对视频和文本的序列化特征进行建模,得到视频和文本描述的整体特征;具体为,双向长短时间记忆网络包含两个方向相反的LSTM网络,每层神经元个数为256,最后将前向和反向网络的输出进行拼接,得到相应特征的上下文语义表示。
S5:构建基于交互注意力引导与修正的跨模态特征交互与融合网络,包括视觉引导文本注意力模块、文本引导视觉注意力模块以及修正门控单元,以增强视频和文本内容的特征表达;具体过程为:
其中,代表逐元素相乘。视频查询向量和键向量的通道特征将根据模态信息被上
述条件门激活或关闭,以此为视频特征添加文本描述的上下文语义作为指导信息。其次,计
算视频模态内的特征自注意力权重,在通道维度上使用函数生成注意力权重:
(1.2)视觉引导文本注意力模块:对于给定的视频和文本模态特征,首先计算视频查询向量和文本键向量之间的跨模态联合注意力权重,即视频和文本模态的相关系数:
并以此更新文本特征:
该过程可以增强与视频内容相关的文本描述单词之间的相关性,得到更好的文本特征表示。
(1.3)修正门控单元:首先,将增强后的视频和文本特征与原模态特征在通道上拼接,并经过全连接层与非线性激活函数得到遗忘向量如下:
最后,使用矩阵加法运算得到修正后的视频和文本特征表示:
S6:将步骤S5融合后的特征表示送入到时序定位模块,在每个时间点预定义个尺
度的候选时序片段,总计个候选片段。评估每个候选片段的匹配得分,并计算时序边界
偏移量调整候选片段的时序边界,以得到精准的片段定位结果。本实施例中,预定义的候选
片段时间尺度为:;当时间尺度为4时,候选片段开始和结束的索引值依次为
[0,3],[1,4],[2,5],[3,6]...,以此类推得到多尺度的候选片段集合。具体为:
(2.1)将修正后的视频和文本特征经过矩阵点乘运算进行融合,得到融合后的多
模态特征,在每个时间点预定义个不同尺度窗口的候选时序片段,这里总计为200个,为上述预定义的候选片段时间尺度,因此共计得到
1200个候选片段。
额外通过Conv1d层计算时序边界偏移量,
(2.2)本系统采用多任务联合损失训练和优化网络参数,具体包含匹配损失和回
归损失两部分,其中匹配损失采用预测片段和目标真值(GT, Ground Truth)片段的时序重叠度交并比(IoU, Intersection over Union)来表征匹配程度,记作。
如果大于预先设定的阈值,则将该候选片段视作正样本,否则视为负样本,因此可以得
到个正样本和个负样本,总计个样本片段。采用匹配损失计算每个候选片段
的
匹配度得分,定义为:
联合损失函数表示为匹配损失和边界回归损失的加权和,计算公式为:
(2.3)在ActivityNet-Captions数据集上利用训练集训练该网络模型,训练集由大量包含(视频,文本描述,视频片段的时序标注)信息的样本组成,并进一步在测试集上验证模型的有效性。ActivityNet-Captions数据集共包含20K个视频和100K个文本描述语句,视频的平均时长为120秒。为了进行公平的比较,本发明遵照该数据集的标准划分,并采用“R@n, IoU=m”作为评价标准,其中,n=1,m={0.3,0.5,0.7}。该评价标准表示在前n个预测结果中至少有(召回)一个片段和真实标注的时序交并比(IoU)大于m的片段所占的比例。本发明方法与其他现有方法的对比结果如表1所示(单位为:%)。
表1
由上表分析可得,本发明在不同IoU设置下的定位性能都高于所对比的方法,随着IoU的增大,即要求预测的片段和真实片段之间有较大的重叠度,因此模型的预测结果会变差。相比较于CMIN的方法,本发明在不同的测试指标下分别取得了5.02%、5.53% 以及3.7%的提升,显示出本发明能有效提升跨模态动作定位的性能。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (8)
1.一种基于交互注意力引导与修正的跨模态动作定位方法,其特征在于,该方法包括如下步骤:
S1:对于给定的未分割视频序列,按照固定帧率对视频进行等间隔采样得到视频图像帧序列,并将其分割成长度相等的视频片段单元,然后使用预训练的三维卷积神经网络提取视频片段的视觉特征集合;
S2:对于给定的文本描述语句,使用在Wikipedia上预训练的GloVe模型得到每个单词的特征嵌入向量,将所有单词特征拼接得到文本特征集合;
S3:在单词特征上使用不同窗口大小的一维卷积挖掘单词间潜在的语义特征;
S4:由于三维卷积神经网络和词向量模型无法捕捉视频和文本描述的上下文语义关联信息,进一步将视频每个帧特征和单词特征按时间和语序送入双向长短时间记忆网络,对视频和文本的序列化特征进行建模,得到视频和文本描述的上下文特征;
S5:利用交互注意力引导与修正模块构建跨模态特征交互与融合网络;所述网络包含视觉引导注意力模块、文本引导视觉注意力模块以及修正门控模块,用于增强视频和文本内容的特征表达;
S6:将步骤S5融合增强后的特征表示送入到时序定位模块,具体为,在每个时间点预定义一系列多尺度候选时序片段,通过一维时间卷积评估每个候选片段的匹配得分,并计算时序边界偏移量调整候选片段的时序边界,得到精准的片段定位结果;
S7:对于任意给定的视频和文本描述,评估候选得分最高的视频片段作为最终定位的输出结果。
3.根据权利要求1所述的一种基于交互注意力引导与修正的跨模态动作定位方法,其特征在于,所述步骤S2中,词向量维度设置为300维,每个文本描述设置固定长度为20个单词。
5.根据权利要求1所述的一种基于交互注意力引导与修正的跨模态动作定位方法,其特征在于,所述步骤S4中,双向长短时间记忆网络包含两个方向相反的LSTM网络,每层神经元个数为256,最后将前向和反向网络的输出进行拼接得到相应特征的上下文表示。
6.根据权利要求1所述的一种基于交互注意力引导与修正的跨模态动作定位方法,其特征在于,所述步骤S5具体过程为:
(1.1)文本引导视觉注意力模块:首先,将文本特征和视频特征通过线性变换得到查询
特征向量,键向量,值向量;在文本特征上使用时间平均池化操作,并通过
两个线性层和非线性激活函数得到文本引导的注意力权重,即:
其中,代表逐元素相乘;为增强后的视频查询向量输出;为增强后的视频键向量
输出;视频查询向量和键向量的通道特征将根据模态信息被上述条件门激活或关闭,以此
为视频特征添加文本描述的上下文语义作为指导信息;其次,计算视频模态内的特征自注
意力权重,在通道维度上使用函数生成注意力权重:
并以此更新文本特征:
(1.3)修正门控单元:首先,将步骤(1.2)中增强后的视频和文本特征与原模态特征在通道上拼接,并经过全连接层与非线性激活函数得到遗忘向量如下:
最后,使用矩阵加法运算得到修正后的视频和文本特征表示:
7.根据权利要求1所述的一种基于交互注意力引导与修正的跨模态动作定位方法,其特征在于,所述步骤S6具体过程为:
(2.1)将修正后的视频和文本特征经过矩阵点乘运算进行融合,得到融合后的多模态
特征,在每个时间点预定义个不同尺度窗口的候选时序片段,通过Conv1d层计算每个候选片段的置信度得分,并使用Sigmoid函数
将得分映射到区间;第i个候选片段在时间点t的置信度得分表示为:
额外通过Conv1d层计算时序边界偏移量:
(2.2)本系统采用多任务联合损失训练和优化网络参数,具体包含匹配损失和回归损
失两部分,其中匹配损失采用预测片段和目标真值GT片段的重叠度交并比
来表征匹配程度,记作;如果大于预先设定的阈值,则将该候选片段视作正样本,
否则视为负样本,因此可以得到个正样本和个负样本,总计个样本片段;采用
匹配损失计算每个候选片段的匹配度得分,定义为:
回归损失优化时序边界;边界回归损失定义为:
联合损失函数表示为匹配损失和边界回归损失的加权和,计算公式为:
8.一种基于交互注意力引导与修正的跨模态动作定位系统,其特征在于,包括一个或多个处理器,用于实现权利要求1-7任一项所述的基于交互注意力引导与修正的跨模态动作定位方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211145164.4A CN115223086B (zh) | 2022-09-20 | 2022-09-20 | 基于交互注意力引导与修正的跨模态动作定位方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211145164.4A CN115223086B (zh) | 2022-09-20 | 2022-09-20 | 基于交互注意力引导与修正的跨模态动作定位方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115223086A true CN115223086A (zh) | 2022-10-21 |
CN115223086B CN115223086B (zh) | 2022-12-06 |
Family
ID=83617205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211145164.4A Active CN115223086B (zh) | 2022-09-20 | 2022-09-20 | 基于交互注意力引导与修正的跨模态动作定位方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115223086B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116883886A (zh) * | 2023-05-25 | 2023-10-13 | 中国科学院信息工程研究所 | 一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法和装置 |
CN117609553A (zh) * | 2024-01-23 | 2024-02-27 | 江南大学 | 基于局部特征增强和模态交互的视频检索方法及系统 |
CN118170948A (zh) * | 2024-03-12 | 2024-06-11 | 天津大学 | 一种基于样本引导的时域目标定位方法 |
CN118397515A (zh) * | 2024-05-28 | 2024-07-26 | 西北工业大学 | 基于自进化扰动机制的长视频文本描述方法 |
CN118658106A (zh) * | 2024-08-19 | 2024-09-17 | 南京信息工程大学 | 一种基于特征解耦增强的文本生成视频方法 |
CN118711112A (zh) * | 2024-08-28 | 2024-09-27 | 四川日报网络传媒发展有限公司 | 基于跨模态语义层次图的细粒度视频文本定位方法及系统 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932304A (zh) * | 2018-06-12 | 2018-12-04 | 山东大学 | 基于跨模态的视频时刻定位方法、系统及存储介质 |
CN111368870A (zh) * | 2019-10-31 | 2020-07-03 | 杭州电子科技大学 | 一种基于模态内间协同多线性池化的视频时序定位方法 |
CN111897913A (zh) * | 2020-07-16 | 2020-11-06 | 浙江工商大学 | 基于语义树增强的复杂文本查询到视频的跨模态检索方法 |
CN111930999A (zh) * | 2020-07-21 | 2020-11-13 | 山东省人工智能研究院 | 逐帧跨模态相似度关联实施文本查询定位视频片段方法 |
US10839223B1 (en) * | 2019-11-14 | 2020-11-17 | Fudan University | System and method for localization of activities in videos |
CN112015947A (zh) * | 2020-08-28 | 2020-12-01 | 中山大学 | 一种语言描述引导的视频时序定位方法、系统 |
CN112241468A (zh) * | 2020-07-23 | 2021-01-19 | 哈尔滨工业大学(深圳) | 一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质 |
CN112650886A (zh) * | 2020-12-28 | 2021-04-13 | 电子科技大学 | 基于跨模态动态卷积网络的跨模态视频时刻检索方法 |
WO2021184026A1 (en) * | 2021-04-08 | 2021-09-16 | Innopeak Technology, Inc. | Audio-visual fusion with cross-modal attention for video action recognition |
EP3937072A1 (en) * | 2019-03-05 | 2022-01-12 | Tencent Technology (Shenzhen) Company Limited | Video sequence selection method, computer device and storage medium |
CN113971208A (zh) * | 2021-12-22 | 2022-01-25 | 山东建筑大学 | 基于混合注意力机制的视频对象定位方法及系统 |
WO2022022152A1 (zh) * | 2020-07-30 | 2022-02-03 | 腾讯科技(深圳)有限公司 | 视频片段定位方法、装置、计算机设备及存储介质 |
CN114064967A (zh) * | 2022-01-18 | 2022-02-18 | 之江实验室 | 多粒度级联交互网络的跨模态时序行为定位方法及装置 |
CN114925232A (zh) * | 2022-05-31 | 2022-08-19 | 杭州电子科技大学 | 一种文段问答框架下跨模态的时域视频定位方法 |
-
2022
- 2022-09-20 CN CN202211145164.4A patent/CN115223086B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932304A (zh) * | 2018-06-12 | 2018-12-04 | 山东大学 | 基于跨模态的视频时刻定位方法、系统及存储介质 |
EP3937072A1 (en) * | 2019-03-05 | 2022-01-12 | Tencent Technology (Shenzhen) Company Limited | Video sequence selection method, computer device and storage medium |
CN111368870A (zh) * | 2019-10-31 | 2020-07-03 | 杭州电子科技大学 | 一种基于模态内间协同多线性池化的视频时序定位方法 |
US10839223B1 (en) * | 2019-11-14 | 2020-11-17 | Fudan University | System and method for localization of activities in videos |
CN111897913A (zh) * | 2020-07-16 | 2020-11-06 | 浙江工商大学 | 基于语义树增强的复杂文本查询到视频的跨模态检索方法 |
CN111930999A (zh) * | 2020-07-21 | 2020-11-13 | 山东省人工智能研究院 | 逐帧跨模态相似度关联实施文本查询定位视频片段方法 |
CN112241468A (zh) * | 2020-07-23 | 2021-01-19 | 哈尔滨工业大学(深圳) | 一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质 |
WO2022022152A1 (zh) * | 2020-07-30 | 2022-02-03 | 腾讯科技(深圳)有限公司 | 视频片段定位方法、装置、计算机设备及存储介质 |
CN112015947A (zh) * | 2020-08-28 | 2020-12-01 | 中山大学 | 一种语言描述引导的视频时序定位方法、系统 |
CN112650886A (zh) * | 2020-12-28 | 2021-04-13 | 电子科技大学 | 基于跨模态动态卷积网络的跨模态视频时刻检索方法 |
WO2021184026A1 (en) * | 2021-04-08 | 2021-09-16 | Innopeak Technology, Inc. | Audio-visual fusion with cross-modal attention for video action recognition |
CN113971208A (zh) * | 2021-12-22 | 2022-01-25 | 山东建筑大学 | 基于混合注意力机制的视频对象定位方法及系统 |
CN114064967A (zh) * | 2022-01-18 | 2022-02-18 | 之江实验室 | 多粒度级联交互网络的跨模态时序行为定位方法及装置 |
CN114925232A (zh) * | 2022-05-31 | 2022-08-19 | 杭州电子科技大学 | 一种文段问答框架下跨模态的时域视频定位方法 |
Non-Patent Citations (7)
Title |
---|
LONG CHEN等: "Towards Robust Video Text Detection with Spatio-Temporal Attention Modeling and Text Cues Fusion", 《2022 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME)》 * |
吴倩等: "融合多标签和双注意力机制的图像语义理解模型", 《智能计算机与应用》 * |
徐文峰等: "融合实体上下文特征的深度文本语义匹配模型", 《武汉大学学报(理学版)》 * |
汪雯: "中国博士学位论文全文数据库信息科技辑", 《中国博士学位论文全文数据库信息科技辑》 * |
瞿晓晔: "针对基于自然语言的视频段检索的联合跨模态自模态图注意力网络", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
赵磊: "基于视觉语义理解的视觉对话技术研究", 《中国博士学位论文全文数据库信息科技辑》 * |
陈卓等: "基于视觉?文本关系对齐的跨模态视频片段检索", 《中国科学:信息科学》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116883886A (zh) * | 2023-05-25 | 2023-10-13 | 中国科学院信息工程研究所 | 一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法和装置 |
CN116883886B (zh) * | 2023-05-25 | 2024-05-28 | 中国科学院信息工程研究所 | 一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法和装置 |
CN117609553A (zh) * | 2024-01-23 | 2024-02-27 | 江南大学 | 基于局部特征增强和模态交互的视频检索方法及系统 |
CN117609553B (zh) * | 2024-01-23 | 2024-03-22 | 江南大学 | 基于局部特征增强和模态交互的视频检索方法及系统 |
CN118170948A (zh) * | 2024-03-12 | 2024-06-11 | 天津大学 | 一种基于样本引导的时域目标定位方法 |
CN118397515A (zh) * | 2024-05-28 | 2024-07-26 | 西北工业大学 | 基于自进化扰动机制的长视频文本描述方法 |
CN118658106A (zh) * | 2024-08-19 | 2024-09-17 | 南京信息工程大学 | 一种基于特征解耦增强的文本生成视频方法 |
CN118711112A (zh) * | 2024-08-28 | 2024-09-27 | 四川日报网络传媒发展有限公司 | 基于跨模态语义层次图的细粒度视频文本定位方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115223086B (zh) | 2022-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115223086B (zh) | 基于交互注意力引导与修正的跨模态动作定位方法与系统 | |
CN110737801B (zh) | 内容分类方法、装置、计算机设备和存储介质 | |
CN108733792B (zh) | 一种实体关系抽取方法 | |
CN114511906A (zh) | 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备 | |
Zhang et al. | Temporal sentence grounding in videos: A survey and future directions | |
CN111143563A (zh) | 基于bert与lstm及cnn融合的文本分类方法 | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
Xiao et al. | Hybrid attention-based transformer block model for distant supervision relation extraction | |
CN115131638B (zh) | 视觉文本预训练模型的训练方法、装置、介质和设备 | |
CN113128431B (zh) | 视频片段检索方法、装置、介质与电子设备 | |
CN116524593A (zh) | 一种动态手势识别方法、系统、设备及介质 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
CN114612748B (zh) | 一种基于特征解耦的跨模态视频片段检索方法 | |
CN113822125A (zh) | 唇语识别模型的处理方法、装置、计算机设备和存储介质 | |
CN114943921A (zh) | 一种融合多粒度视频语义信息的视频文本描述方法 | |
CN113887836B (zh) | 一种融合事件环境信息的叙述性事件预测方法 | |
CN114694255A (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN114925232A (zh) | 一种文段问答框架下跨模态的时域视频定位方法 | |
CN113254575B (zh) | 一种基于多步证据推理的机器阅读理解方法与系统 | |
CN116453514B (zh) | 一种基于多视角的语音关键词检测与定位方法及装置 | |
CN114661874B (zh) | 基于多角度语义理解与自适应双通道的视觉问答方法 | |
CN115422388B (zh) | 一种视觉对话方法及系统 | |
Xu et al. | Residual spatial graph convolution and temporal sequence attention network for sign language translation | |
CN115346132A (zh) | 多模态表示学习的遥感图像异常事件检测方法及装置 | |
CN115130461A (zh) | 一种文本匹配方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |