CN115223086A - 基于交互注意力引导与修正的跨模态动作定位方法与系统 - Google Patents

基于交互注意力引导与修正的跨模态动作定位方法与系统 Download PDF

Info

Publication number
CN115223086A
CN115223086A CN202211145164.4A CN202211145164A CN115223086A CN 115223086 A CN115223086 A CN 115223086A CN 202211145164 A CN202211145164 A CN 202211145164A CN 115223086 A CN115223086 A CN 115223086A
Authority
CN
China
Prior art keywords
video
text
vector
modal
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211145164.4A
Other languages
English (en)
Other versions
CN115223086B (zh
Inventor
汪雯
崔文辉
张骥
钟灵
宛敏红
顾建军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202211145164.4A priority Critical patent/CN115223086B/zh
Publication of CN115223086A publication Critical patent/CN115223086A/zh
Application granted granted Critical
Publication of CN115223086B publication Critical patent/CN115223086B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于交互注意力引导与修正的跨模态动作定位方法和系统,该方法使用三维卷积神经网络和词向量模型提取视频和文本描述的特征表示,并使用双向长短时间记忆网络学习视频和文本描述的上下文信息;再使用交互注意力引导模块进行视频和文本跨模态特征增强,进一步通过修正门控单元进行语义信息融合;最后将融合后的多模态特征送入到时序定位模块以获得时序片段的匹配度得分和时序边界偏移量。本发明通过增强视频和文本的特征融合能力,能有效提高视频动作定位的性能,满足现实生活中复杂场景的视频动作定位需求。

Description

基于交互注意力引导与修正的跨模态动作定位方法与系统
技术领域
本发明属于视频片段定位技术领域,尤其涉及一种基于交互注意力引导与修正的跨模态动作定位方法与系统。
背景技术
随着多媒体技术的快速发展,网络平台涌现出大规模的视频资源。如何从海量的视频库中快速准确地检索出感兴趣的人体动作片段是目前视频理解领域的热点问题,引起学术界工业界的广泛关注。跨模态动作定位任务旨在根据给定的查询文本描述在长视频中定位出与该描述内容相匹配的动作片段,即确定该动作的开始与结束时间点。这个任务在精彩视频片段检索、智能视频监控、视频字幕生成等领域有着广泛的应用前景,是计算机视觉领域热点研究问题。
由于该任务涉及视觉和语言两种模态的信息,为了解决该问题,除了要对视频的时序信息以及文本描述的语义信息进行建模外,还需要对视频和文本模态的特征进行深度融合来挖掘细粒度的交互信息,以实现精准地视频片段定位。目前,已有的方法将注意力放在视频和文本模态的交互特征学习上,采用软注意力或自注意力模型来聚合文本单词与视频图像帧之间的特征,但普遍忽略了不同模态特征在交互过程中产生的误匹配以及文本描述对视频动作定位的关键作用。尽管基于文本描述的跨模态动作定位研究已经取得了一定的进展,但仍然存在以下几方面的问题亟需解决:(1)不同时序片段的持续时间长短往往不同,如何最大化的保留视频的全局上下文信息,以实现精准的时间定位;(2)如何挖掘文本描述的语义信息,进而对时间定位进行精准地指导;(3)如何进行有效的文本和视频特征融合是解决跨模态动作定位的关键。
发明内容
针对现有技术的不足,本发明提供了一种基于交互注意力引导与修正的跨模态动作定位方法和系统,该方法是首先利用三维卷积神经网络和词向量模型提取视频和文本描述的特征,并使用长短时间记忆网络学习视频和文本的上下文信息;然后,使用交互注意力引导模块增强跨模态特征间的双向表达,并使用修正门控单元进行跨模态语义信息融合;最后,通过时序定位模块计算匹配得分和时序边界偏移量得到调整后的视频动作片段。
本发明是通过以下技术方案来实现的:
一种基于交互注意力引导与修正的跨模态动作定位方法,该方法包括如下步骤:
S1:对于给定的未分割视频序列,按照固定帧率对视频进行等间隔采样得到视频图像帧序列,并将其分割成长度相等的视频片段单元,然后使用预训练的三维卷积神经网络提取视频片段的视觉特征集合;
S2:对于给定的文本描述语句,使用在Wikipedia上预训练的GloVe模型得到每个单词的特征嵌入向量,将所有单词特征拼接得到文本特征集合;
S3:在单词特征上使用不同窗口大小的一维卷积挖掘单词间潜在的语义特征;
S4:由于三维卷积神经网络和词向量模型无法捕捉视频和文本描述的上下文语义关联信息,进一步将视频每个帧特征和单词特征按时间和语序送入双向长短时间记忆网络,对视频和文本的序列化特征进行建模,得到视频和文本描述的上下文特征;
S5:利用交互注意力引导与修正模块构建跨模态特征交互与融合网络;所述网络包含视觉引导注意力模块、文本引导视觉注意力模块以及修正门控模块,用于增强视频和文本内容的特征表达;
S6:将步骤S5融合增强后的特征表示送入到时序定位模块,具体为,在每个时间点预定义一系列多尺度候选时序片段,通过一维时间卷积评估每个候选片段的匹配得分,并计算时序边界偏移量调整候选片段的时序边界,得到精准的片段定位结果;
S7:对于任意给定的视频和文本描述,评估候选得分最高的视频片段作为最终定位的输出结果。
进一步地,所述步骤S1中,所述视频的等间隔采样的帧率为25帧/秒,每个视频片 段单元的长度为16帧,由C3D网络对视频片段进行编码并采用线性变换得到维度
Figure 47032DEST_PATH_IMAGE001
为500维 的视频单元特征,将视频片段特征在时间维度进行拼接得到长度为200、维度为500的视频 特征
Figure 384473DEST_PATH_IMAGE002
进一步地,所述步骤S2中,词向量维度设置为300维,每个文本描述设置固定长度为20个单词。
进一步地,所述步骤S3具体过程为:
在每个位置计算单词特征向量和三种不同尺度的卷积核的内积,以此捕捉单字 母、双字母以及三字母的单词特征;为保持单词总个数不变,当卷积窗口大于1时使用零填 充;第
Figure 293523DEST_PATH_IMAGE003
个单词位置的输出特征
Figure 425427DEST_PATH_IMAGE004
表示为,
Figure 419928DEST_PATH_IMAGE005
其中,
Figure 295480DEST_PATH_IMAGE006
为卷积窗口大小;
Figure 826081DEST_PATH_IMAGE007
为单词位置;tanh(.)为激活函数,…conv1d() 为1维卷积。
进一步地,所述步骤S4中,双向长短时间记忆网络包含两个方向相反的LSTM网络,每层神经元个数为256,最后将前向和反向网络的输出进行拼接得到相应特征的上下文表示。
进一步地,所述步骤S5具体过程为:
(1.1)文本引导视觉注意力模块:首先,将文本特征和视频特征通过线性变换得到 查询特征向量
Figure 863307DEST_PATH_IMAGE008
,键向量
Figure 610683DEST_PATH_IMAGE009
,值向量
Figure 24347DEST_PATH_IMAGE010
;在文本特征
Figure 907989DEST_PATH_IMAGE011
上使用时间平均池化操作,并 通过两个线性层和非线性激活函数得到文本引导的注意力权重
Figure 647275DEST_PATH_IMAGE012
,即:
Figure 350789DEST_PATH_IMAGE013
其中,
Figure 69608DEST_PATH_IMAGE014
为可学习的权重和偏置参数,
Figure 73337DEST_PATH_IMAGE015
代表
Figure 452365DEST_PATH_IMAGE016
函数,
Figure 908754DEST_PATH_IMAGE017
为平均池化操作;随后,分别将查询向量和键向量通过条件门与短路连接增强特征内容的 表达,即:
Figure 664221DEST_PATH_IMAGE018
其中,
Figure 522455DEST_PATH_IMAGE019
代表逐元素相乘;
Figure 337965DEST_PATH_IMAGE020
为增强后的视频查询向量输出;
Figure 281650DEST_PATH_IMAGE021
为增强后的视频键 向量输出;视频查询向量和键向量的通道特征将根据模态信息被上述条件门激活或关闭, 以此为视频特征添加文本描述的上下文语义作为指导信息;其次,计算视频模态内的特征 自注意力权重,在通道维度上使用
Figure 76693DEST_PATH_IMAGE022
函数生成注意力权重
Figure 55013DEST_PATH_IMAGE023
Figure 41424DEST_PATH_IMAGE024
其中,
Figure 472405DEST_PATH_IMAGE025
为视频经过线性变换后的特征维度,
Figure 569674DEST_PATH_IMAGE026
表示转置操作;最后,对原视频特 征进行更新:
Figure 136922DEST_PATH_IMAGE027
其中,
Figure 294233DEST_PATH_IMAGE028
为更新后的视频特征;
(1.2)视觉引导文本注意力模块:对于给定的视频和文本模态特征,首先计算视频 查询向量
Figure 212511DEST_PATH_IMAGE029
和文本键向量
Figure 349356DEST_PATH_IMAGE030
之间的跨模态联合注意力权重,即视频和文本模态的相关系 数:
Figure 36690DEST_PATH_IMAGE031
并以此更新文本特征:
Figure 630482DEST_PATH_IMAGE032
其中,
Figure 770476DEST_PATH_IMAGE033
表示转置操作;
Figure 475127DEST_PATH_IMAGE034
为更新后的文本特征;该过程可以增强与视频内容 相关的文本描述单词之间的相关性,得到更好的文本特征表示;
(1.3)修正门控单元:首先,将步骤(1.2)中增强后的视频和文本特征与原模态特征在通道上拼接,并经过全连接层与非线性激活函数得到遗忘向量如下:
Figure 16967DEST_PATH_IMAGE035
其中,
Figure 516081DEST_PATH_IMAGE036
为非线性激活函数;
Figure 644837DEST_PATH_IMAGE037
表示可学习的全连接层参数向量;
Figure 622020DEST_PATH_IMAGE038
表示偏置向量;
Figure 283946DEST_PATH_IMAGE039
为视频模态的遗忘向量;
Figure 219540DEST_PATH_IMAGE040
为文本模态的遗忘向量;该遗忘 门能有效抑制噪声,减少误匹配;随后,采用逐元素点乘操作更新相应的模态特征,
Figure 334127DEST_PATH_IMAGE041
其中,
Figure 115001DEST_PATH_IMAGE042
Figure 631433DEST_PATH_IMAGE043
为偏置向量;
Figure 472350DEST_PATH_IMAGE044
Figure 575698DEST_PATH_IMAGE045
为可学习的参数向量;
最后,使用矩阵加法运算得到修正后的视频和文本特征表示:
Figure 160263DEST_PATH_IMAGE046
其中,
Figure 62360DEST_PATH_IMAGE047
Figure 74178DEST_PATH_IMAGE048
为训练得到的权重矩阵,
Figure 897778DEST_PATH_IMAGE049
Figure 286034DEST_PATH_IMAGE050
为偏置参数。
进一步地,所述步骤S6具体过程为:
(2.1)将修正后的视频和文本特征经过矩阵点乘运算进行融合,得到融合后的多 模态特征
Figure 511479DEST_PATH_IMAGE051
,在每个时间点
Figure 207382DEST_PATH_IMAGE052
预定义
Figure 783857DEST_PATH_IMAGE053
个不同尺度窗口的候选时序片段
Figure 710224DEST_PATH_IMAGE054
,通过Conv1d层计算每个候选片段的置信度得分,并使用Sigmoid函数将 得分映射到
Figure 55755DEST_PATH_IMAGE055
区间;第i个候选片段在时间点t的置信度得分表示为:
Figure 674955DEST_PATH_IMAGE056
其中,
Figure 473147DEST_PATH_IMAGE057
为Sigmoid激活函数;
额外通过Conv1d层计算时序边界偏移量:
Figure 937626DEST_PATH_IMAGE058
其中,
Figure 639128DEST_PATH_IMAGE059
表示预测的
Figure 429230DEST_PATH_IMAGE060
时刻第
Figure 449138DEST_PATH_IMAGE061
个候选片段的开始时间点的偏移量,
Figure 982888DEST_PATH_IMAGE062
则表示相应 的结束时间点的偏移量,因此调整后的时序边界
Figure 37432DEST_PATH_IMAGE063
表示为:
Figure 998434DEST_PATH_IMAGE064
(2.2)本系统采用多任务联合损失训练和优化网络参数,具体包含匹配损失和回 归损失两部分,其中匹配损失采用预测片段
Figure 505639DEST_PATH_IMAGE065
和目标真值GT片段
Figure 843080DEST_PATH_IMAGE066
的重叠度交并 比来表征匹配程度,记作
Figure 253595DEST_PATH_IMAGE067
;如果
Figure 385499DEST_PATH_IMAGE068
大于预先设定的阈值,则将该候选片段视作正样本, 否则视为负样本,因此可以得到
Figure 379999DEST_PATH_IMAGE069
个正样本和
Figure 255552DEST_PATH_IMAGE070
个负样本,总计
Figure 284687DEST_PATH_IMAGE071
个样本片段;采用匹 配损失计算每个候选片段的匹配度得分,定义为:
Figure 587493DEST_PATH_IMAGE072
其中,
Figure 334869DEST_PATH_IMAGE073
Figure 249998DEST_PATH_IMAGE074
分别为正、负候选视频片段的个数;对于正样本,进一步采用边界
回归损失优化时序边界;边界回归损失定义为:
Figure 133640DEST_PATH_IMAGE075
其中,
Figure 341767DEST_PATH_IMAGE076
表示Smooth L1损失;
联合损失函数表示为匹配损失和边界回归损失的加权和,计算公式为:
Figure 310860DEST_PATH_IMAGE077
其中,
Figure 528215DEST_PATH_IMAGE078
为调节两项损失的超参数。
一种基于交互注意力引导与修正的跨模态动作定位系统,包括一个或多个处理器,用于实现上述任一项所述的基于交互注意力引导与修正的跨模态动作定位方法。
本发明的有益效果如下:
针对跨模态视频动作定位任务,一方面,以往的方法忽略文本句子描述在跨模态交互过程中更好地关联相关视频内容的重要作用,本发明提出利用句子描述的全局信息,并采用交互注意力机制引导视频和文本跨模态信息交流;另一方面,在多模态特征融合过程中,视频中的冗余帧及句子中的噪声单词会干扰模态间的有效交互,本发明提出修正门控单元抑制模态间的噪声信息,提高多模态特征融合的有效表达,进而提升跨模态视频动作定位的精度。
附图说明
图1为本发明的系统流程图;
图2为本发明的方法框架示意图。
具体实施方式
下面结合附图和具体实例对本发明作进一步的说明。
本发明提供一种基于交互注意力引导与修正的跨模态动作定位方法与系统,能基于给定的查询文本描述语句从长视频序列中定位出相应的目标片段,即给出目标片段的开始和结束时间点。如图1所示,该方法首先基于三维卷积神经网络和词向量模型提取视频和文本描述的特征,采用自注意力机制与多尺度时序模型捕捉视频显著化特征和文本上下文语义信息。进一步地,基于视频和文本特征构建交互注意力引导与修正模型,充分挖掘跨模态间的互补信息,使得跨模态特征可以进行有效地交互与融合。最后,基于融合特征在每个时间点生成多尺度的候选时序片段,并使用卷积网络评估候选视频片段的得分和时序边界偏移量,将得分最高的候选片段作为最终的定位结果。
下面将结合附图对本发明加以详细说明,图2是本发明提供的一种基于交互注意力引导与修正的跨模动作定位方法与系统。本发明的具体步骤为,
S1:对于给定的未分割视频序列,按照固定帧率对视频进行等间隔采样得到视频 图像帧序列,并将其分割成长度相等的视频片段单元,然后使用预训练的三维卷积神经网 络提取视频片段的视觉特征集合
Figure 266364DEST_PATH_IMAGE079
,其中
Figure 910972DEST_PATH_IMAGE080
表示视频中的帧数,
Figure 367361DEST_PATH_IMAGE081
表示视频 中第
Figure 889872DEST_PATH_IMAGE082
帧的帧特征,并添加位置编码捕捉视频的时序信息;所述视频采样的帧率FPS为25帧/ 秒,每个视频片段单元的长度为16帧,由C3D网络对视频片段进行编码并采用线性变换得到 维度
Figure 748106DEST_PATH_IMAGE083
为500维的视频单元特征,将视频片段特征在时间维度进行拼接得到长度
Figure 563615DEST_PATH_IMAGE084
为200、维 度为
Figure 241721DEST_PATH_IMAGE083
的视频特征
Figure 800879DEST_PATH_IMAGE085
,对于视频长度不足200的使用0填充,对于长度超出200的进行裁剪。
S2:对于给定的文本描述语句,在本实施例中文本描述为“一个人在吃书包里的食 物”,使用在Wikipedia上预训练的GloVe模型得到每个单词的特征嵌入向量,将所有单词特 征拼接得到文本特征集合
Figure 513620DEST_PATH_IMAGE086
,其中
Figure 500030DEST_PATH_IMAGE087
为文本描述语句中的单词个数,
Figure 931012DEST_PATH_IMAGE088
为文 本描述语句中第
Figure 529746DEST_PATH_IMAGE089
个单词的语言特征;所述词向量维度设置为300维,每个文本描述设置固 定长度为20个单词。当文本单词个数小于20时,使用0填充,当单词个数超出20时,通过裁剪 满足固定长度的文本特征输入。
S3:为挖掘单词间潜在的语义特征,在单词特征上使用不同窗口大小的一维卷积; 具体为,在每个位置计算单词特征向量和三种不同尺度的卷积核的内积,以此捕捉单字母、 双字母以及三字母的单词特征。为保持单词总个数不变,当卷积窗口大于1时使用零填充。 第
Figure 96993DEST_PATH_IMAGE090
个单词位置的输出特征可表示为,
Figure 519884DEST_PATH_IMAGE091
其中,
Figure 172582DEST_PATH_IMAGE092
为卷积窗口大小。
具体为,所述步骤S4中,Bi-LSTM包含两个方向相反的LSTM网络,每个网络包含1个隐藏层,每层神经元个数为256,最后将前向和反向网络的输出进行拼接得到相应特征的上下文表示。以文本特征为例,该过程表示为:
Figure 73542DEST_PATH_IMAGE093
其中,
Figure 760876DEST_PATH_IMAGE094
表示前向LSTM网络,
Figure 89089DEST_PATH_IMAGE095
表示反向LSTM网络,
Figure 730548DEST_PATH_IMAGE096
为拼接操作。
S4:由于三维卷积神经网络和词向量模型无法捕捉视频和文本描述的上下文语义关联信息,进一步将每个帧特征和单词特征按时间和语序送入双向长短时间记忆网络(Bi-LSTM),对视频和文本的序列化特征进行建模,得到视频和文本描述的整体特征;具体为,双向长短时间记忆网络包含两个方向相反的LSTM网络,每层神经元个数为256,最后将前向和反向网络的输出进行拼接,得到相应特征的上下文语义表示。
S5:构建基于交互注意力引导与修正的跨模态特征交互与融合网络,包括视觉引导文本注意力模块、文本引导视觉注意力模块以及修正门控单元,以增强视频和文本内容的特征表达;具体过程为:
(1.1)文本引导视觉注意力模块:首先,将文本特征和视频特征通过线性变换得到 查询特征向量
Figure 169620DEST_PATH_IMAGE097
,键向量
Figure 711459DEST_PATH_IMAGE098
、值向量
Figure 210574DEST_PATH_IMAGE099
Figure 837864DEST_PATH_IMAGE100
Figure 80627DEST_PATH_IMAGE101
为充分考虑全局信息,在文本特征
Figure 742552DEST_PATH_IMAGE102
上使用时间平均池化操作,并通过两个线性层 和非线性激活函数得到文本引导的注意力权重:
Figure 412568DEST_PATH_IMAGE103
其中,
Figure 763040DEST_PATH_IMAGE104
为可学习的权重和偏置参数,
Figure 809494DEST_PATH_IMAGE105
代表
Figure 325926DEST_PATH_IMAGE106
函数,
Figure 166843DEST_PATH_IMAGE107
为平均池化操作。随后,分别将两个模态的查询向量和键向量通过条件门与短路连接增强 特征内容的表达:
Figure 503146DEST_PATH_IMAGE108
其中,
Figure 87711DEST_PATH_IMAGE109
代表逐元素相乘。视频查询向量和键向量的通道特征将根据模态信息被上 述条件门激活或关闭,以此为视频特征添加文本描述的上下文语义作为指导信息。其次,计 算视频模态内的特征自注意力权重,在通道维度上使用
Figure 458650DEST_PATH_IMAGE110
函数生成注意力权重:
Figure 470468DEST_PATH_IMAGE111
其中,
Figure 314972DEST_PATH_IMAGE112
为视频经过线性变换后的特征维度,
Figure 437649DEST_PATH_IMAGE113
表示转置操作。最后,对原视频特 征进行更新:
Figure 928673DEST_PATH_IMAGE114
(1.2)视觉引导文本注意力模块:对于给定的视频和文本模态特征,首先计算视频查询向量和文本键向量之间的跨模态联合注意力权重,即视频和文本模态的相关系数:
Figure 111393DEST_PATH_IMAGE115
并以此更新文本特征:
Figure 422288DEST_PATH_IMAGE116
该过程可以增强与视频内容相关的文本描述单词之间的相关性,得到更好的文本特征表示。
(1.3)修正门控单元:首先,将增强后的视频和文本特征与原模态特征在通道上拼接,并经过全连接层与非线性激活函数得到遗忘向量如下:
Figure 348656DEST_PATH_IMAGE117
其中,
Figure 694187DEST_PATH_IMAGE036
为非线性激活函数;
Figure 47808DEST_PATH_IMAGE118
表示可学习的全连接层参数向量;
Figure 347464DEST_PATH_IMAGE119
表示偏置向量;
Figure 77523DEST_PATH_IMAGE120
为视频模态的遗忘向量;
Figure 543139DEST_PATH_IMAGE121
为文本模态的遗忘向量;该遗 忘门能有效抑制噪声,减少误匹配。随后,采用逐元素点乘操作更新相应的模态特征,
Figure 67661DEST_PATH_IMAGE122
最后,使用矩阵加法运算得到修正后的视频和文本特征表示:
Figure 353149DEST_PATH_IMAGE123
其中,
Figure 886899DEST_PATH_IMAGE124
为训练得到的权重矩阵,
Figure 941442DEST_PATH_IMAGE125
为偏置参数。
S6:将步骤S5融合后的特征表示送入到时序定位模块,在每个时间点预定义
Figure 138331DEST_PATH_IMAGE126
个尺 度的候选时序片段,总计
Figure 911115DEST_PATH_IMAGE127
个候选片段。评估每个候选片段的匹配得分,并计算时序边界 偏移量调整候选片段的时序边界,以得到精准的片段定位结果。本实施例中,预定义的候选 片段时间尺度为:
Figure 982976DEST_PATH_IMAGE128
;当时间尺度为4时,候选片段开始和结束的索引值依次为 [0,3],[1,4],[2,5],[3,6]...,以此类推得到多尺度的候选片段集合。具体为:
(2.1)将修正后的视频和文本特征经过矩阵点乘运算进行融合,得到融合后的多 模态特征
Figure 892026DEST_PATH_IMAGE129
,在每个时间点
Figure 23930DEST_PATH_IMAGE130
预定义
Figure 284010DEST_PATH_IMAGE131
个不同尺度窗口的候选时序片段
Figure 159562DEST_PATH_IMAGE132
,这里
Figure 923119DEST_PATH_IMAGE133
总计为200个,
Figure 727389DEST_PATH_IMAGE134
为上述预定义的候选片段时间尺度,因此共计得到 1200个候选片段。
通过Conv1d层计算每个候选片段的置信度得分,并使用Sigmoid函数将得分映射 到
Figure 209186DEST_PATH_IMAGE135
区间,
Figure 622850DEST_PATH_IMAGE136
额外通过Conv1d层计算时序边界偏移量,
Figure 506492DEST_PATH_IMAGE137
其中,
Figure 980199DEST_PATH_IMAGE138
表示预测的
Figure 949292DEST_PATH_IMAGE139
时刻第
Figure 166647DEST_PATH_IMAGE140
个候选片段的开始时间点的偏移量,
Figure 904796DEST_PATH_IMAGE141
则表示相应 的结束时间点的偏移量,因此调整后的时序边界
Figure 316448DEST_PATH_IMAGE142
表示为,
Figure 772837DEST_PATH_IMAGE143
(2.2)本系统采用多任务联合损失训练和优化网络参数,具体包含匹配损失和回 归损失两部分,其中匹配损失采用预测片段
Figure 528303DEST_PATH_IMAGE144
和目标真值(GT, Ground Truth)片段
Figure 386538DEST_PATH_IMAGE145
的时序重叠度交并比(IoU, Intersection over Union)来表征匹配程度,记作
Figure 936468DEST_PATH_IMAGE146
。 如果
Figure 880153DEST_PATH_IMAGE147
大于预先设定的阈值,则将该候选片段视作正样本,否则视为负样本,因此可以得 到
Figure 439310DEST_PATH_IMAGE148
个正样本和
Figure 653516DEST_PATH_IMAGE149
个负样本,总计
Figure 639927DEST_PATH_IMAGE150
个样本片段。采用匹配损失计算每个候选片段 的
匹配度得分,定义为:
Figure 805329DEST_PATH_IMAGE151
其中,
Figure 168177DEST_PATH_IMAGE152
分别为正、负候选视频片段的个数。对于正样本,进一步采用边 界回归损失优化时序边界。边界回归损失定义为:
Figure 1004DEST_PATH_IMAGE153
其中,
Figure 158316DEST_PATH_IMAGE154
表示Smooth L1损失。
联合损失函数表示为匹配损失和边界回归损失的加权和,计算公式为:
Figure 811014DEST_PATH_IMAGE155
其中,
Figure 711974DEST_PATH_IMAGE156
为调节两项损失的超参数。
(2.3)在ActivityNet-Captions数据集上利用训练集训练该网络模型,训练集由大量包含(视频,文本描述,视频片段的时序标注)信息的样本组成,并进一步在测试集上验证模型的有效性。ActivityNet-Captions数据集共包含20K个视频和100K个文本描述语句,视频的平均时长为120秒。为了进行公平的比较,本发明遵照该数据集的标准划分,并采用“R@n, IoU=m”作为评价标准,其中,n=1,m={0.3,0.5,0.7}。该评价标准表示在前n个预测结果中至少有(召回)一个片段和真实标注的时序交并比(IoU)大于m的片段所占的比例。本发明方法与其他现有方法的对比结果如表1所示(单位为:%)。
表1
Figure 900772DEST_PATH_IMAGE157
由上表分析可得,本发明在不同IoU设置下的定位性能都高于所对比的方法,随着IoU的增大,即要求预测的片段和真实片段之间有较大的重叠度,因此模型的预测结果会变差。相比较于CMIN的方法,本发明在不同的测试指标下分别取得了5.02%、5.53% 以及3.7%的提升,显示出本发明能有效提升跨模态动作定位的性能。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (8)

1.一种基于交互注意力引导与修正的跨模态动作定位方法,其特征在于,该方法包括如下步骤:
S1:对于给定的未分割视频序列,按照固定帧率对视频进行等间隔采样得到视频图像帧序列,并将其分割成长度相等的视频片段单元,然后使用预训练的三维卷积神经网络提取视频片段的视觉特征集合;
S2:对于给定的文本描述语句,使用在Wikipedia上预训练的GloVe模型得到每个单词的特征嵌入向量,将所有单词特征拼接得到文本特征集合;
S3:在单词特征上使用不同窗口大小的一维卷积挖掘单词间潜在的语义特征;
S4:由于三维卷积神经网络和词向量模型无法捕捉视频和文本描述的上下文语义关联信息,进一步将视频每个帧特征和单词特征按时间和语序送入双向长短时间记忆网络,对视频和文本的序列化特征进行建模,得到视频和文本描述的上下文特征;
S5:利用交互注意力引导与修正模块构建跨模态特征交互与融合网络;所述网络包含视觉引导注意力模块、文本引导视觉注意力模块以及修正门控模块,用于增强视频和文本内容的特征表达;
S6:将步骤S5融合增强后的特征表示送入到时序定位模块,具体为,在每个时间点预定义一系列多尺度候选时序片段,通过一维时间卷积评估每个候选片段的匹配得分,并计算时序边界偏移量调整候选片段的时序边界,得到精准的片段定位结果;
S7:对于任意给定的视频和文本描述,评估候选得分最高的视频片段作为最终定位的输出结果。
2.根据权利要求1所述的一种基于交互注意力引导与修正的跨模态动作定位方法,其 特征在于,所述步骤S1中,所述视频的等间隔采样的帧率为25帧/秒,每个视频片段单元的 长度为16帧,由C3D网络对视频片段进行编码并采用线性变换得到维度
Figure 962536DEST_PATH_IMAGE001
为500维的视频单 元特征,将视频片段特征在时间维度进行拼接得到长度为200、维度为500的视频特征
Figure 676414DEST_PATH_IMAGE002
3.根据权利要求1所述的一种基于交互注意力引导与修正的跨模态动作定位方法,其特征在于,所述步骤S2中,词向量维度设置为300维,每个文本描述设置固定长度为20个单词。
4.根据权利要求1所述的一种基于交互注意力引导与修正的跨模态动作定位方法,其特征在于,所述步骤S3具体过程为:
在每个位置计算单词特征向量和三种不同尺度的卷积核的内积,以此捕捉单字母、双 字母以及三字母的单词特征;为保持单词总个数不变,当卷积窗口大于1时使用零填充;第
Figure 987310DEST_PATH_IMAGE003
个单词位置的输出特征
Figure 179257DEST_PATH_IMAGE004
表示为,
Figure 524787DEST_PATH_IMAGE005
其中,
Figure 143988DEST_PATH_IMAGE006
为卷积窗口大小;
Figure 443644DEST_PATH_IMAGE003
为单词位置;tanh(.)为激活函数,…conv1d()为1 维卷积。
5.根据权利要求1所述的一种基于交互注意力引导与修正的跨模态动作定位方法,其特征在于,所述步骤S4中,双向长短时间记忆网络包含两个方向相反的LSTM网络,每层神经元个数为256,最后将前向和反向网络的输出进行拼接得到相应特征的上下文表示。
6.根据权利要求1所述的一种基于交互注意力引导与修正的跨模态动作定位方法,其特征在于,所述步骤S5具体过程为:
(1.1)文本引导视觉注意力模块:首先,将文本特征和视频特征通过线性变换得到查询 特征向量
Figure 704861DEST_PATH_IMAGE007
,键向量
Figure 967215DEST_PATH_IMAGE008
,值向量
Figure 309380DEST_PATH_IMAGE009
;在文本特征
Figure 126026DEST_PATH_IMAGE010
上使用时间平均池化操作,并通过 两个线性层和非线性激活函数得到文本引导的注意力权重
Figure 659775DEST_PATH_IMAGE011
,即:
Figure 714319DEST_PATH_IMAGE012
其中,
Figure 940901DEST_PATH_IMAGE013
为可学习的权重和偏置参数,
Figure 746308DEST_PATH_IMAGE014
代表
Figure 552590DEST_PATH_IMAGE015
函数,
Figure 727220DEST_PATH_IMAGE016
为平均 池化操作;随后,分别将查询向量和键向量通过条件门与短路连接增强特征内容的表达, 即:
Figure 593545DEST_PATH_IMAGE017
其中,
Figure 853625DEST_PATH_IMAGE018
代表逐元素相乘;
Figure 463598DEST_PATH_IMAGE019
为增强后的视频查询向量输出;
Figure 492733DEST_PATH_IMAGE020
为增强后的视频键向量 输出;视频查询向量和键向量的通道特征将根据模态信息被上述条件门激活或关闭,以此 为视频特征添加文本描述的上下文语义作为指导信息;其次,计算视频模态内的特征自注 意力权重,在通道维度上使用
Figure 297004DEST_PATH_IMAGE021
函数生成注意力权重
Figure 778801DEST_PATH_IMAGE022
Figure 192464DEST_PATH_IMAGE023
其中,
Figure 76107DEST_PATH_IMAGE024
为视频经过线性变换后的特征维度,
Figure 815393DEST_PATH_IMAGE025
表示转置操作;最后,对原视频特征进 行更新:
Figure 784486DEST_PATH_IMAGE026
其中,
Figure 736261DEST_PATH_IMAGE027
为更新后的视频特征;
(1.2)视觉引导文本注意力模块:对于给定的视频和文本模态特征,首先计算视频查询 向量
Figure 739989DEST_PATH_IMAGE028
和文本键向量
Figure 886062DEST_PATH_IMAGE029
之间的跨模态联合注意力权重,即视频和文本模态的相关系数:
Figure 342451DEST_PATH_IMAGE030
并以此更新文本特征:
Figure 363497DEST_PATH_IMAGE031
其中,
Figure 956152DEST_PATH_IMAGE032
表示转置操作;
Figure 771661DEST_PATH_IMAGE033
为更新后的文本特征;该过程可以增强与视频内容相关 的文本描述单词之间的相关性,得到更好的文本特征表示;
(1.3)修正门控单元:首先,将步骤(1.2)中增强后的视频和文本特征与原模态特征在通道上拼接,并经过全连接层与非线性激活函数得到遗忘向量如下:
Figure 715347DEST_PATH_IMAGE034
其中,
Figure 274504DEST_PATH_IMAGE035
()为非线性激活函数;
Figure 488710DEST_PATH_IMAGE036
表示可学习的全连接层参数向量;
Figure 209541DEST_PATH_IMAGE037
表示偏置向量;
Figure 640523DEST_PATH_IMAGE038
为视频模态的遗忘向量;
Figure 737792DEST_PATH_IMAGE039
为文本模态的遗忘向量;随后, 采用逐元素点乘操作更新相应的模态特征,
Figure 570618DEST_PATH_IMAGE040
其中,
Figure 462351DEST_PATH_IMAGE041
Figure 646208DEST_PATH_IMAGE042
为偏置向量;
Figure 547168DEST_PATH_IMAGE043
Figure 470386DEST_PATH_IMAGE044
为可学习的参数向量;
最后,使用矩阵加法运算得到修正后的视频和文本特征表示:
Figure 798600DEST_PATH_IMAGE045
其中,
Figure 938594DEST_PATH_IMAGE046
Figure 643245DEST_PATH_IMAGE047
为训练得到的权重矩阵,
Figure 185085DEST_PATH_IMAGE048
Figure 684199DEST_PATH_IMAGE049
为偏置参数。
7.根据权利要求1所述的一种基于交互注意力引导与修正的跨模态动作定位方法,其特征在于,所述步骤S6具体过程为:
(2.1)将修正后的视频和文本特征经过矩阵点乘运算进行融合,得到融合后的多模态 特征
Figure 311489DEST_PATH_IMAGE050
,在每个时间点
Figure 554252DEST_PATH_IMAGE051
预定义
Figure 452063DEST_PATH_IMAGE052
个不同尺度窗口的候选时序片段
Figure 122079DEST_PATH_IMAGE053
,通过Conv1d层计算每个候选片段的置信度得分,并使用Sigmoid函数 将得分映射到
Figure 502245DEST_PATH_IMAGE054
区间;第i个候选片段在时间点t的置信度得分表示为:
Figure 283119DEST_PATH_IMAGE055
其中,
Figure 799551DEST_PATH_IMAGE056
为Sigmoid激活函数;
额外通过Conv1d层计算时序边界偏移量:
Figure 640468DEST_PATH_IMAGE057
其中,
Figure 242350DEST_PATH_IMAGE058
表示预测的
Figure 328380DEST_PATH_IMAGE059
时刻第
Figure 699319DEST_PATH_IMAGE060
个候选片段的开始时间点的偏移量,
Figure 711137DEST_PATH_IMAGE061
则表示相应的结 束时间点的偏移量,因此调整后的时序边界
Figure 800316DEST_PATH_IMAGE062
表示为:
Figure 922993DEST_PATH_IMAGE063
(2.2)本系统采用多任务联合损失训练和优化网络参数,具体包含匹配损失和回归损 失两部分,其中匹配损失采用预测片段
Figure 414017DEST_PATH_IMAGE064
和目标真值GT片段
Figure 596737DEST_PATH_IMAGE065
的重叠度交并比 来表征匹配程度,记作
Figure 173211DEST_PATH_IMAGE066
;如果
Figure 612763DEST_PATH_IMAGE067
大于预先设定的阈值,则将该候选片段视作正样本, 否则视为负样本,因此可以得到
Figure 692714DEST_PATH_IMAGE068
个正样本和
Figure 311914DEST_PATH_IMAGE069
个负样本,总计
Figure 110106DEST_PATH_IMAGE070
个样本片段;采用 匹配损失计算每个候选片段的匹配度得分,定义为:
Figure 840165DEST_PATH_IMAGE071
其中,
Figure 774623DEST_PATH_IMAGE072
Figure 564724DEST_PATH_IMAGE073
分别为正、负候选视频片段的个数;对于正样本,进一步采用边界
回归损失优化时序边界;边界回归损失定义为:
Figure 850212DEST_PATH_IMAGE074
其中,
Figure 619847DEST_PATH_IMAGE075
表示Smooth L1损失;
联合损失函数表示为匹配损失和边界回归损失的加权和,计算公式为:
Figure 674391DEST_PATH_IMAGE076
其中,
Figure 900973DEST_PATH_IMAGE077
为调节两项损失的超参数。
8.一种基于交互注意力引导与修正的跨模态动作定位系统,其特征在于,包括一个或多个处理器,用于实现权利要求1-7任一项所述的基于交互注意力引导与修正的跨模态动作定位方法。
CN202211145164.4A 2022-09-20 2022-09-20 基于交互注意力引导与修正的跨模态动作定位方法与系统 Active CN115223086B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211145164.4A CN115223086B (zh) 2022-09-20 2022-09-20 基于交互注意力引导与修正的跨模态动作定位方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211145164.4A CN115223086B (zh) 2022-09-20 2022-09-20 基于交互注意力引导与修正的跨模态动作定位方法与系统

Publications (2)

Publication Number Publication Date
CN115223086A true CN115223086A (zh) 2022-10-21
CN115223086B CN115223086B (zh) 2022-12-06

Family

ID=83617205

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211145164.4A Active CN115223086B (zh) 2022-09-20 2022-09-20 基于交互注意力引导与修正的跨模态动作定位方法与系统

Country Status (1)

Country Link
CN (1) CN115223086B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116883886A (zh) * 2023-05-25 2023-10-13 中国科学院信息工程研究所 一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法和装置
CN117609553A (zh) * 2024-01-23 2024-02-27 江南大学 基于局部特征增强和模态交互的视频检索方法及系统
CN118170948A (zh) * 2024-03-12 2024-06-11 天津大学 一种基于样本引导的时域目标定位方法
CN118397515A (zh) * 2024-05-28 2024-07-26 西北工业大学 基于自进化扰动机制的长视频文本描述方法
CN118658106A (zh) * 2024-08-19 2024-09-17 南京信息工程大学 一种基于特征解耦增强的文本生成视频方法
CN118711112A (zh) * 2024-08-28 2024-09-27 四川日报网络传媒发展有限公司 基于跨模态语义层次图的细粒度视频文本定位方法及系统

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932304A (zh) * 2018-06-12 2018-12-04 山东大学 基于跨模态的视频时刻定位方法、系统及存储介质
CN111368870A (zh) * 2019-10-31 2020-07-03 杭州电子科技大学 一种基于模态内间协同多线性池化的视频时序定位方法
CN111897913A (zh) * 2020-07-16 2020-11-06 浙江工商大学 基于语义树增强的复杂文本查询到视频的跨模态检索方法
CN111930999A (zh) * 2020-07-21 2020-11-13 山东省人工智能研究院 逐帧跨模态相似度关联实施文本查询定位视频片段方法
US10839223B1 (en) * 2019-11-14 2020-11-17 Fudan University System and method for localization of activities in videos
CN112015947A (zh) * 2020-08-28 2020-12-01 中山大学 一种语言描述引导的视频时序定位方法、系统
CN112241468A (zh) * 2020-07-23 2021-01-19 哈尔滨工业大学(深圳) 一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质
CN112650886A (zh) * 2020-12-28 2021-04-13 电子科技大学 基于跨模态动态卷积网络的跨模态视频时刻检索方法
WO2021184026A1 (en) * 2021-04-08 2021-09-16 Innopeak Technology, Inc. Audio-visual fusion with cross-modal attention for video action recognition
EP3937072A1 (en) * 2019-03-05 2022-01-12 Tencent Technology (Shenzhen) Company Limited Video sequence selection method, computer device and storage medium
CN113971208A (zh) * 2021-12-22 2022-01-25 山东建筑大学 基于混合注意力机制的视频对象定位方法及系统
WO2022022152A1 (zh) * 2020-07-30 2022-02-03 腾讯科技(深圳)有限公司 视频片段定位方法、装置、计算机设备及存储介质
CN114064967A (zh) * 2022-01-18 2022-02-18 之江实验室 多粒度级联交互网络的跨模态时序行为定位方法及装置
CN114925232A (zh) * 2022-05-31 2022-08-19 杭州电子科技大学 一种文段问答框架下跨模态的时域视频定位方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932304A (zh) * 2018-06-12 2018-12-04 山东大学 基于跨模态的视频时刻定位方法、系统及存储介质
EP3937072A1 (en) * 2019-03-05 2022-01-12 Tencent Technology (Shenzhen) Company Limited Video sequence selection method, computer device and storage medium
CN111368870A (zh) * 2019-10-31 2020-07-03 杭州电子科技大学 一种基于模态内间协同多线性池化的视频时序定位方法
US10839223B1 (en) * 2019-11-14 2020-11-17 Fudan University System and method for localization of activities in videos
CN111897913A (zh) * 2020-07-16 2020-11-06 浙江工商大学 基于语义树增强的复杂文本查询到视频的跨模态检索方法
CN111930999A (zh) * 2020-07-21 2020-11-13 山东省人工智能研究院 逐帧跨模态相似度关联实施文本查询定位视频片段方法
CN112241468A (zh) * 2020-07-23 2021-01-19 哈尔滨工业大学(深圳) 一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质
WO2022022152A1 (zh) * 2020-07-30 2022-02-03 腾讯科技(深圳)有限公司 视频片段定位方法、装置、计算机设备及存储介质
CN112015947A (zh) * 2020-08-28 2020-12-01 中山大学 一种语言描述引导的视频时序定位方法、系统
CN112650886A (zh) * 2020-12-28 2021-04-13 电子科技大学 基于跨模态动态卷积网络的跨模态视频时刻检索方法
WO2021184026A1 (en) * 2021-04-08 2021-09-16 Innopeak Technology, Inc. Audio-visual fusion with cross-modal attention for video action recognition
CN113971208A (zh) * 2021-12-22 2022-01-25 山东建筑大学 基于混合注意力机制的视频对象定位方法及系统
CN114064967A (zh) * 2022-01-18 2022-02-18 之江实验室 多粒度级联交互网络的跨模态时序行为定位方法及装置
CN114925232A (zh) * 2022-05-31 2022-08-19 杭州电子科技大学 一种文段问答框架下跨模态的时域视频定位方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
LONG CHEN等: "Towards Robust Video Text Detection with Spatio-Temporal Attention Modeling and Text Cues Fusion", 《2022 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME)》 *
吴倩等: "融合多标签和双注意力机制的图像语义理解模型", 《智能计算机与应用》 *
徐文峰等: "融合实体上下文特征的深度文本语义匹配模型", 《武汉大学学报(理学版)》 *
汪雯: "中国博士学位论文全文数据库信息科技辑", 《中国博士学位论文全文数据库信息科技辑 *
瞿晓晔: "针对基于自然语言的视频段检索的联合跨模态自模态图注意力网络", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
赵磊: "基于视觉语义理解的视觉对话技术研究", 《中国博士学位论文全文数据库信息科技辑》 *
陈卓等: "基于视觉?文本关系对齐的跨模态视频片段检索", 《中国科学:信息科学》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116883886A (zh) * 2023-05-25 2023-10-13 中国科学院信息工程研究所 一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法和装置
CN116883886B (zh) * 2023-05-25 2024-05-28 中国科学院信息工程研究所 一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法和装置
CN117609553A (zh) * 2024-01-23 2024-02-27 江南大学 基于局部特征增强和模态交互的视频检索方法及系统
CN117609553B (zh) * 2024-01-23 2024-03-22 江南大学 基于局部特征增强和模态交互的视频检索方法及系统
CN118170948A (zh) * 2024-03-12 2024-06-11 天津大学 一种基于样本引导的时域目标定位方法
CN118397515A (zh) * 2024-05-28 2024-07-26 西北工业大学 基于自进化扰动机制的长视频文本描述方法
CN118658106A (zh) * 2024-08-19 2024-09-17 南京信息工程大学 一种基于特征解耦增强的文本生成视频方法
CN118711112A (zh) * 2024-08-28 2024-09-27 四川日报网络传媒发展有限公司 基于跨模态语义层次图的细粒度视频文本定位方法及系统

Also Published As

Publication number Publication date
CN115223086B (zh) 2022-12-06

Similar Documents

Publication Publication Date Title
CN115223086B (zh) 基于交互注意力引导与修正的跨模态动作定位方法与系统
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
CN108733792B (zh) 一种实体关系抽取方法
CN114511906A (zh) 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备
Zhang et al. Temporal sentence grounding in videos: A survey and future directions
CN111143563A (zh) 基于bert与lstm及cnn融合的文本分类方法
CN110991290A (zh) 基于语义指导与记忆机制的视频描述方法
Xiao et al. Hybrid attention-based transformer block model for distant supervision relation extraction
CN115131638B (zh) 视觉文本预训练模型的训练方法、装置、介质和设备
CN113128431B (zh) 视频片段检索方法、装置、介质与电子设备
CN116524593A (zh) 一种动态手势识别方法、系统、设备及介质
CN113392265A (zh) 多媒体处理方法、装置及设备
CN114612748B (zh) 一种基于特征解耦的跨模态视频片段检索方法
CN113822125A (zh) 唇语识别模型的处理方法、装置、计算机设备和存储介质
CN114943921A (zh) 一种融合多粒度视频语义信息的视频文本描述方法
CN113887836B (zh) 一种融合事件环境信息的叙述性事件预测方法
CN114694255A (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN114925232A (zh) 一种文段问答框架下跨模态的时域视频定位方法
CN113254575B (zh) 一种基于多步证据推理的机器阅读理解方法与系统
CN116453514B (zh) 一种基于多视角的语音关键词检测与定位方法及装置
CN114661874B (zh) 基于多角度语义理解与自适应双通道的视觉问答方法
CN115422388B (zh) 一种视觉对话方法及系统
Xu et al. Residual spatial graph convolution and temporal sequence attention network for sign language translation
CN115346132A (zh) 多模态表示学习的遥感图像异常事件检测方法及装置
CN115130461A (zh) 一种文本匹配方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant