CN117372936B - 基于多模态细粒度对齐网络的视频描述方法与系统 - Google Patents

基于多模态细粒度对齐网络的视频描述方法与系统 Download PDF

Info

Publication number
CN117372936B
CN117372936B CN202311668813.3A CN202311668813A CN117372936B CN 117372936 B CN117372936 B CN 117372936B CN 202311668813 A CN202311668813 A CN 202311668813A CN 117372936 B CN117372936 B CN 117372936B
Authority
CN
China
Prior art keywords
video
space
action
attention
fine granularity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311668813.3A
Other languages
English (en)
Other versions
CN117372936A (zh
Inventor
姜文晖
刘林鑫
程一波
徐天聪
方玉明
左一帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi University of Finance and Economics
Original Assignee
Jiangxi University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi University of Finance and Economics filed Critical Jiangxi University of Finance and Economics
Priority to CN202311668813.3A priority Critical patent/CN117372936B/zh
Publication of CN117372936A publication Critical patent/CN117372936A/zh
Application granted granted Critical
Publication of CN117372936B publication Critical patent/CN117372936B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于多模态细粒度对齐网络的视频描述方法与系统,该方法首先获取在视频中实体的时空细粒度标注和在视频中动作的时空细粒度标注,再获取时空特征、动作特征和文本特征,通过鼓励注意力机制将注意力集中在视频不同帧的不同空间细粒度区域,以促进实体的对齐,并动态地将动词与相关的主语和相应的上下文关联起来,以保留动作预测中的细粒度空间和时间细节,并且通过软对齐监督损失,可以使注意力机制学习在标注区域内分配更多的注意力权重,且高置信度的标注区域比低置信度标注区域的视觉权重更大。本发明通过显示地建立实体、动作与视频帧中的视觉线索的细粒度关联,以提高视频描述模型的准确性。

Description

基于多模态细粒度对齐网络的视频描述方法与系统
技术领域
本发明属于计算机视觉与视频处理技术领域,特别涉及一种基于多模态细粒度对齐网络的视频描述方法与系统。
背景技术
视频描述的目标是使用自然语言句子来描述视频中的视觉内容。这是一项具有挑战性的任务,因为它要求对对象及其相互作用有深刻的理解。现有的视频描述方法通常使用注意力机制,该机制旨在将正确的单词与正确的视觉区域相关联。尽管这些模型取得了显著的成绩,但之前的研究表明,注意力机制无法准确地将生成的单词与有意义的视觉区域联系起来,从而降低了模型的可解释性。
为了解决这一问题,最新的研究采用了“区域-短语”注释来训练模型,并设计了多种目标函数来引导注意力集中在适当的视觉区域。这种方法在静态图像中取得了显著的改进。然而,将这种对齐方法直接应用于视频描述则面临着巨大的挑战,原因如下:
(1)在视频中,与视频的描述中的实体相对应的相关视觉区域可以跨越多个帧,然而,现有的视频描述数据集仅存在视频数据及其对应的全局内容描述,缺少文本逐词与视频内容的细粒度标注,无法直接利用细粒度对齐来引导注意力集中在正确的视觉区域。
(2)与强调名词预测的图像描述不同,视频描述的特点是对象的复杂动作和交互。然而,由于缺乏明确的动词视觉区域注释,动作对齐仍然具有挑战性。一些方法将动词与全局运动特征联系起来,但这可能导致大量的空间细节缺失。
发明内容
鉴于上述状况,本发明的主要目的是为了提出一种基于多模态细粒度对齐网络的视频描述方法与系统,能够更好地生成通顺且易于理解的句子,以完整地描述视频内容。
一种基于多模态细粒度对齐网络的视频描述方法,所述方法包括如下步骤:
步骤1、通过面向开放词汇下的目标检测模型检测出视频稀疏帧中与文本描述对应的实体,形成实体在关键帧的空间标注;
步骤2、通过实体标签动态传播算法在空间标注帧的相邻帧中跟踪检测获取对应的实体在时间序列中的位置标注,得到在视频中实体的时空细粒度标注;
步骤3、根据在视频中实体的时空细粒度标注,采用动作标签生成算法生成在视频中动作的时空细粒度标注;
步骤4、通过预训练的视觉编码器提取视频的时空特征和动作特征,通过预训练的文本编码器提取文本特征;
步骤5、将文本特征分别与时空特征和动作特征进行跨模态注意力操作,得到对应的注意力权重矩阵,通过时空细粒度标注生成对应的注意力监督矩阵,以指导模型的注意力权重分配;
步骤6、利用注意力监督矩阵作为监督信息,采用软对齐监督损失引导模型将注意力聚焦在时空特征和动作特征中的实体和动作区域,细粒度对齐视觉信息与文本信息,得到重聚焦后的时空特征和动作特征;
步骤7、将重聚焦后的时空特征和动作特征提供给Transformer解码器以生成描述。
一种基于多模态细粒度对齐网络的视频描述系统,所述系统应用如上述的一种基于多模态细粒度对齐网络的视频描述方法,所述系统包括:
多模态细粒度标签生成模块,用于:
通过面向开放词汇下的目标检测模型检测出视频稀疏帧中与文本描述对应的实体,形成实体在关键帧的空间标注;
通过实体标签动态传播算法在实体标注(空间标注)的帧的相邻帧中跟踪检测获取对应的实体在时间序列中的位置标注,得到在视频中实体的时空细粒度标注;
根据在视频中实体的时空细粒度标注,采用动作标签生成算法生成在视频中动作的时空细粒度标注;
特征提取模块,用于:
通过预训练的视觉编码器提取视频的时空特征和动作特征,通过预训练的文本编码器提取文本特征;
视频对齐模块,用于:
将文本特征分别与时空特征和动作特征进行跨模态注意力操作,得到对应的注意力权重矩阵,通过时空细粒度标注生成对应的注意力监督矩阵,以指导模型的注意力权重分配;
利用注意力监督矩阵作为监督信息,采用软对齐监督损失引导模型将注意力聚焦在时空特征和动作特征中的实体和动作区域,细粒度对齐视觉信息与文本信息,得到重聚焦后的时空特征和动作特征;
将重聚焦后的时空特征和动作特征提供给Transformer解码器以生成描述。
相较于现有技术,本发明的有益效果如下:
1、本发明鼓励注意力机制将注意力集中在视频不同帧的不同空间细粒度区域,以促进实体的对齐。并且动态地将动词与相关的主语和相应的上下文关联起来,以保留动作预测中的细粒度空间和时间细节。
2、本发明将实体对齐和动作对齐作为一个统一的任务,通过软对齐监督的指导,简化了网络结构并提高了训练效率。
本发明的附加方面与优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明提出的一种基于多模态细粒度对齐网络的视频描述方法的流程图;
图2为本发明提出的一种基于多模态细粒度对齐网络的视频描述系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。
请参阅图1,本发明实施例提供了一种基于多模态细粒度对齐网络的视频描述方法,所述方法包括如下步骤:
步骤1、通过面向开放词汇下的目标检测模型检测出视频稀疏帧中与文本描述对应的实体,形成实体在关键帧的空间标注;
上述方案的具体步骤如下:
通过面向开放词汇下的目标检测模型,检测视频每一帧中出现的与文本描述对应的实体位置和置信度/>
设定置信度阈值,选取稀疏的部分关键帧中且置信度大于阈值/>的实体,并生成实体在关键帧的空间标注。
在本实施例中,目标检测模型采用GLIPv2模型,通过GLIPv2模型进行目标检测。
步骤2、通过实体标签动态传播算法在空间标注帧的相邻帧中跟踪检测获取对应的实体在时间序列中的位置标注,得到在视频中实体的时空细粒度标注;
由于实体标注缺少大量的实体动态信息,本发明采用目标跟踪器模型,并设计了实体标签动态传播算法,即通过目标跟踪器模型对已经检测出的实体在视频的相邻帧中进行跟踪生成对应的实体的伪边界框以实现实体标签动态传播,表达式如下:
其中,表示通过目标检测而检测出的文本描述中对应的实体位置,/>表示跟踪出的第f帧的伪边界框标注,/>表示通过目标跟踪器模型进行跟踪检测操作。通过实体标签动态传播建立实体与视频帧中的视觉线索的关联。
上述方案的具体步骤如下:
采用目标跟踪器模型对已经检测出的实体在视频的相邻帧中进行跟踪,以在相邻视频帧中生成伪边界框标注;每个伪边界框标注的置信度为/>,其中,/>
由于目标跟踪器可能会生成具有错误位置和误报的边界框,因此,基于置信度的阈值过滤潜在的错误边界框,最终在视频中形成实体的时空细粒度标注。
在本实施例中,目标跟踪器模型采用ToMP模型,通过ToMP模型进行目标跟踪。
步骤3、根据在视频中实体的时空细粒度标注,采用动作标签生成算法生成在视频中动作的时空细粒度标注;
为建立已生成的实体的时空细粒度标注与动词之间的关联,设计了一种动作标签生成算法,表达式如下:
其中,表示并集操作,/>表示外界矩形操作,/>表示第f帧的第i个实体边界框标注,/>表示第f帧的第i+1个实体边界框标注,/>和/>为第f帧与动词相关的实体的边界框标注。
通过计算与动词相关的实体区域在视频帧中的外接矩形框,自动生成与实体相关的动词在视频中的时空标注,建立已生成的实体细粒度标注与动词之间的关联;
上述方案的具体步骤如下:
针对视频帧中与动词相关的实体及其相应的边界框,生成覆盖这些框的最紧密的外接矩形,以外接矩形作为该动词的标注,记为外接矩形标注/>
通过聚合动词相关实体的置信度形成外接矩形标注的置信度得分,外接矩形标注的置信度得分计算过程存在如下关系式:
其中,表示第f帧的第i个边界框标注的置信度,/>表示外接矩形标注,/>表示外接矩形标注的置信度得分,/>表示每帧中实体以及对应边界框的数量;
视频中的动作和文本描述中的动词相对应,由外接矩形标注和其置信度得分组成该动作的时空细粒度标注。
经过以上步骤,对于文本描述中的每个名词和动词都在视频中生成了对应的时空细粒度标注,可用于后续指导视频和文本的细粒度对齐。
步骤4、通过预训练的视觉编码器提取视频的时空特征和动作特征,通过预训练的文本编码器提取文本特征;
上述方案的具体步骤如下:
从每个视频中均匀采样帧;
利用预训练的视觉编码器从每一帧产生具有/>个特征的视觉特征/>,其中,
为了获得视频的时空特征,本发明将所有帧的视觉特征连接起来,得到视频的时空特征/>,其中,/>,/>表示从整个视频中提取的时空特征总数,/>
利用预训练的视觉编码器依次从采样帧的每相邻两帧中提取具有个特征的动作特征/>,其中/>,将所有帧的动作特征/>连接起来,得到视频的动作特征/>,其中,/> 表示从整个视频中提取的动作特征总数,
利用预训练的文本编码器提取文本特征,其中,/>,/>表示文本长度,/>表示特征维度,/>表示实数域。
在本实施例中,视觉编码器采用Text4Vis模型,通过Text4Vis模型提取视频的时空特征,视觉编码器采用Unimatch模型,通过Unimatch模型提取视频的光流作为动作特征,文本编码器采用BERT模型,通过BERT模型提取文本描述的文本特征。
步骤5、将文本特征分别与时空特征和动作特征进行跨模态注意力操作,得到对应的注意力权重矩阵,通过时空细粒度标注生成对应的注意力监督矩阵,以指导模型的注意力权重分配;
上述方案的具体步骤如下:
以文本特征作为查询矩阵,时空特征/>作为键矩阵进行跨模态注意力操作,得到视觉注意力权重分布,视觉注意力权重分布的计算过程存在如下关系式:
其中,,/>表示关于视觉注意力的两个不同可学习的参数,/>表示键矩阵的维度,/>表示归一化操作,/>表示视觉注意力权重,/>表示转置操作,/>表示查询标识符,/>表示键标识符;
以文本特征作为查询矩阵,动作特征/>作为键矩阵进行跨模态注意力操作,得到动作注意力权重分布,动作注意力权重分布计算过程存如下关系式:
其中,,/>表示关于动作注意力的两个不同可学习的参数,/>表示动作注意力权重;
基于实体的时空细粒度标注,在视觉特征上构造视觉注意力监督矩阵,并将视觉注意力监督矩阵/>平铺为视觉向量/>,以显式指导模型的视觉注意力权重分配,其中,,/>,/>,/>,/>表示第f帧的第N个视觉注意力监督权重,/>表示平铺后的视觉向量/>的第F个视觉注意力监督权重,/>表示第f帧的视觉注意力监督矩阵。
通过上述可知的是,具有与视觉特征相同的空间分辨率,构造过程如下所示:
其中,表示第f帧的第i个视觉注意力监督权重。
基于动作的时空细粒度标注,在动作特征上构造动作注意力监督矩阵,并将动作注意力监督矩阵平铺成动作向量,以显式指导模型的动作注意力权重分配,其中,,/>表示动作向量/>中第/>个动作注意力监督权重。
步骤6、利用注意力监督矩阵作为监督信息,采用软对齐监督损失引导模型将注意力聚焦在时空特征和动作特征中的实体和动作区域,细粒度对齐视觉信息与文本信息,得到重聚焦后的时空特征和动作特征;
进一步的,软对齐监督损失存在如下关系式:
其中,表示软对齐监督损失,/>表示取对数,/>表示第j个视觉向量,/>表示第j个视觉注意力权重,/>表示第j个动作向量,/>表示第j个动作注意力权重。通过显式的注意力监督,以鼓励注意力机制将注意力聚焦在生成描述中名词和动词相应的特征区域上,为视频描述提供细粒度视觉信息;
并且通过软对齐监督损失,可以使注意力机制学习在标注区域内分配更多的注意力权重,且高置信度的标注区域比低置信度标注区域的视觉权重更大;
从上述关系式中可以看出,较大的和/>将引导分配更大的/>和/>,从而指导注意力权重分配在重要的时空区域上。软对齐监督损失使跨模态注意力机制选择性地关注于不同词性相关的视觉区域,实现视频内容与文本的细粒度对齐。
步骤7、将重聚焦后的时空特征和动作特征提供给Transformer解码器以生成描述。
请参阅图2,本发明还提供一种基于多模态细粒度对齐网络的视频描述系统,其特征在于,所述系统应用如上述的一种基于多模态细粒度对齐网络的视频描述方法,所述系统包括:
多模态细粒度标签生成模块,用于:
通过面向开放词汇下的目标检测模型检测出视频稀疏帧中与文本描述对应的实体,形成实体在关键帧的空间标注;
通过实体标签动态传播算法在实体标注(空间标注)的帧的相邻帧中跟踪检测获取对应的实体在时间序列中的位置标注,得到在视频中实体的时空细粒度标注;
根据在视频中实体的时空细粒度标注,采用动作标签生成算法生成在视频中动作的时空细粒度标注;
特征提取模块,用于:
通过预训练的视觉编码器提取视频的时空特征和动作特征,通过预训练的文本编码器提取文本特征;
视频对齐模块,用于:
将文本特征分别与时空特征和动作特征进行跨模态注意力操作,得到对应的注意力权重矩阵,通过时空细粒度标注生成对应的注意力监督矩阵,以指导模型的注意力权重分配;
利用注意力监督矩阵作为监督信息,采用软对齐监督损失引导模型将注意力聚焦在时空特征和动作特征中的实体和动作区域,细粒度对齐视觉信息与文本信息,得到重聚焦后的时空特征和动作特征;
将重聚焦后的时空特征和动作特征提供给Transformer解码器以生成描述。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (5)

1.一种基于多模态细粒度对齐网络的视频描述方法,其特征在于,所述方法包括如下步骤:
步骤1、通过面向开放词汇下的目标检测模型检测出视频稀疏帧中与文本描述对应的实体,形成实体在关键帧的空间标注;
步骤2、通过实体标签动态传播算法在空间标注帧的相邻帧中跟踪检测获取对应的实体在时间序列中的位置标注,得到在视频中实体的时空细粒度标注;
步骤3、根据在视频中实体的时空细粒度标注,采用动作标签生成算法生成在视频中动作的时空细粒度标注;
步骤4、通过预训练的视觉编码器提取视频的时空特征和动作特征,通过预训练的文本编码器提取文本特征;
步骤5、将文本特征分别与时空特征和动作特征进行跨模态注意力操作,得到对应的注意力权重矩阵,通过时空细粒度标注生成对应的注意力监督矩阵,以指导模型的注意力权重分配;
步骤6、利用注意力监督矩阵作为监督信息,采用软对齐监督损失引导模型将注意力聚焦在时空特征和动作特征中的实体和动作区域,细粒度对齐视觉信息与文本信息,得到重聚焦后的时空特征和动作特征;
步骤7、将重聚焦后的时空特征和动作特征提供给Transformer解码器以生成描述;
在所述步骤2中,通过实体标签动态传播算法在空间标注帧的相邻帧中跟踪检测获取对应的实体在时间序列中的位置标注,得到在视频中实体的时空细粒度标注的具体方法包括如下步骤:
采用目标跟踪器模型对已经检测出的实体在视频的相邻帧中进行跟踪,以在相邻视频帧中生成伪边界框标注;每个伪边界框标注的置信度为/>,其中,/>,伪边界框标注的生成过程存在如下关系式:
其中,表示通过目标检测而检测出的文本描述中对应的实体位置,/>表示跟踪出的第f帧的对应的伪边界框标注,/>表示通过目标跟踪器模型进行跟踪检测操作;
基于置信度的阈值过滤潜在的错误边界框,最终在视频中形成实体的时空细粒度标注;
在所述步骤3中,根据在视频中实体的时空细粒度标注,采用动作标签生成算法生成在视频中动作的时空细粒度标注的具体方法包括如下步骤:
针对视频帧中与动词相关的实体及其相应的边界框,生成覆盖这些框的最紧密的外接矩形,以外接矩形作为该动词的标注,记为外接矩形标注/>,外接矩形标注计算过程存在如下关系式:
其中,表示并集操作,/>表示外界矩形操作,/>表示第f帧的第i个实体边界框标注,/>表示第f帧的第i+1个实体边界框标注,/>和/>为第f帧与动词相关的实体的边界框标注;
通过聚合动词相关实体的置信度形成外接矩形标注的置信度得分,外接矩形标注的置信度得分计算过程存在如下关系式:
其中,表示第f帧的第i个实体边界框标注的置信度,/>表示外接矩形标注,/>表示外接矩形标注的置信度得分,/>表示每帧中实体以及对应边界框的数量;
视频中的动作和文本描述中的动词相对应,由外接矩形标注和其置信度得分组成该动作的时空细粒度标注;
在所述步骤6中,软对齐监督损失存在如下关系式:
其中,表示软对齐监督损失,/>表示取对数,/>表示第j个视觉向量,/>表示第j个视觉注意力权重,/>表示第j个动作向量,/>表示第j个动作注意力权重。
2.根据权利要求1所述的基于多模态细粒度对齐网络的视频描述方法,其特征在于,在所述步骤1中,通过面向开放词汇下的目标检测模型检测出视频稀疏帧中与文本描述对应的实体,形成实体在关键帧的空间标注的具体方法包括如下步骤:
通过面向开放词汇下的目标检测模型检测视频每一帧中出现的与文本描述对应的实体位置和置信度/>
设定置信度阈值,选取稀疏的部分关键帧中且置信度大于阈值/>的实体,并生成实体在关键帧的空间标注。
3.根据权利要求2所述的基于多模态细粒度对齐网络的视频描述方法,其特征在于,在所述步骤4中,通过预训练的视觉编码器提取视频的时空特征和动作特征,通过预训练的文本编码器提取文本特征的方法具体包括如下步骤:
从每个视频中均匀采样帧;
利用预训练的视觉编码器从每一帧产生具有/>个特征的视觉特征/>,其中,
将所有帧的视觉特征连接起来,得到视频的时空特征/>,其中,/>,/>表示从整个视频中提取的时空特征总数,/>
利用预训练的视觉编码器依次从采样帧的每相邻两帧中提取具有个特征的动作特征,其中/>,将所有帧的动作特征/>连接起来,得到视频的动作特征,其中,/>,/>表示从整个视频中提取的动作特征总数,/>
利用预训练的文本编码器提取文本特征,其中,/>,/>表示文本长度,/>表示特征维度,/>表示实数域。
4.根据权利要求3所述的基于多模态细粒度对齐网络的视频描述方法,其特征在于,在所述步骤5中,通过时空细粒度标注生成对应的注意力监督矩阵,为视频描述提供细粒度视觉信息,以显示引导注意力权重的学习的方法具体包括如下步骤:
以文本特征作为查询矩阵,时空特征/>作为键矩阵进行跨模态注意力操作,得到视觉注意力权重分布,视觉注意力权重分布的计算过程存在如下关系式:
其中,,/>表示关于视觉注意力的两个不同可学习的参数,/>为键矩阵的维度,表示归一化操作,/>表示视觉注意力权重,/>表示转置操作,/>表示查询标识符,/>表示键标识符;
以文本特征作为查询矩阵,动作特征/>作为键矩阵进行跨模态注意力操作,得到动作注意力权重分布,动作注意力权重分布计算过程存如下关系式:
其中,,/>表示关于动作注意力的两个不同可学习的参数,/>表示动作注意力权重;
基于视频数据的时空细粒度标注,在视觉特征上构造视觉注意力监督矩阵,并将视觉注意力监督矩阵平铺为视觉向量,以显式引导视觉注意力权重学习;
基于视频数据的时空细粒度标注,在动作特征上构造动作注意力监督矩阵,并将动作注意力监督矩阵平铺成动作向量,以显式引导动作注意力权重学习。
5.一种基于多模态细粒度对齐网络的视频描述系统,其特征在于,所述系统应用如权利要求1至4任意一项所述的一种基于多模态细粒度对齐网络的视频描述方法,所述系统包括:
多模态细粒度标签生成模块,用于:
通过面向开放词汇下的目标检测模型检测出视频稀疏帧中与文本描述对应的实体,形成实体在关键帧的空间标注;
通过实体标签动态传播算法在空间标注帧的相邻帧中跟踪检测获取对应的实体在时间序列中的位置标注,得到在视频中实体的时空细粒度标注;
根据在视频中实体的时空细粒度标注,采用动作标签生成算法生成在视频中动作的时空细粒度标注;
特征提取模块,用于:
通过预训练的视觉编码器提取视频的时空特征和动作特征,通过预训练的文本编码器提取文本特征;
视频对齐模块,用于:
将文本特征分别与时空特征和动作特征进行跨模态注意力操作,得到对应的注意力权重矩阵,通过时空细粒度标注生成对应的注意力监督矩阵,以指导模型的注意力权重分配;
利用注意力监督矩阵作为监督信息,采用软对齐监督损失引导模型将注意力聚焦在时空特征和动作特征中的实体和动作区域,细粒度对齐视觉信息与文本信息,得到重聚焦后的时空特征和动作特征;
将重聚焦后的时空特征和动作特征提供给Transformer解码器以生成描述。
CN202311668813.3A 2023-12-07 2023-12-07 基于多模态细粒度对齐网络的视频描述方法与系统 Active CN117372936B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311668813.3A CN117372936B (zh) 2023-12-07 2023-12-07 基于多模态细粒度对齐网络的视频描述方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311668813.3A CN117372936B (zh) 2023-12-07 2023-12-07 基于多模态细粒度对齐网络的视频描述方法与系统

Publications (2)

Publication Number Publication Date
CN117372936A CN117372936A (zh) 2024-01-09
CN117372936B true CN117372936B (zh) 2024-03-22

Family

ID=89393267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311668813.3A Active CN117372936B (zh) 2023-12-07 2023-12-07 基于多模态细粒度对齐网络的视频描述方法与系统

Country Status (1)

Country Link
CN (1) CN117372936B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114239612A (zh) * 2021-06-10 2022-03-25 天津大学 一种多模态神经机器翻译方法、计算机设备及存储介质
CN114359741A (zh) * 2022-03-19 2022-04-15 江西财经大学 基于区域特征的图像描述模型注意力机制评价方法与系统
CN114693790A (zh) * 2022-04-02 2022-07-01 江西财经大学 基于混合注意力机制的自动图像描述方法与系统
CN115309939A (zh) * 2022-07-22 2022-11-08 复旦大学 基于时空语义分解的视频片段定位系统
CN115964467A (zh) * 2023-01-02 2023-04-14 西北工业大学 一种融合视觉情境的富语义对话生成方法
CN116385937A (zh) * 2023-04-07 2023-07-04 哈尔滨理工大学 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统
CN116450883A (zh) * 2023-04-24 2023-07-18 西安电子科技大学 基于视频内容细粒度信息的视频时刻检索方法
WO2023217163A1 (zh) * 2022-05-11 2023-11-16 华能澜沧江水电股份有限公司 一种基于本地自注意力机制的大坝缺陷时序图像描述方法
CN117115706A (zh) * 2023-08-21 2023-11-24 杭州电子科技大学 基于多尺度时空注意力网络的视频场景图生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230262293A1 (en) * 2022-02-14 2023-08-17 Francesco Barbieri Video synthesis via multimodal conditioning

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114239612A (zh) * 2021-06-10 2022-03-25 天津大学 一种多模态神经机器翻译方法、计算机设备及存储介质
CN114359741A (zh) * 2022-03-19 2022-04-15 江西财经大学 基于区域特征的图像描述模型注意力机制评价方法与系统
CN114693790A (zh) * 2022-04-02 2022-07-01 江西财经大学 基于混合注意力机制的自动图像描述方法与系统
WO2023217163A1 (zh) * 2022-05-11 2023-11-16 华能澜沧江水电股份有限公司 一种基于本地自注意力机制的大坝缺陷时序图像描述方法
CN115309939A (zh) * 2022-07-22 2022-11-08 复旦大学 基于时空语义分解的视频片段定位系统
CN115964467A (zh) * 2023-01-02 2023-04-14 西北工业大学 一种融合视觉情境的富语义对话生成方法
CN116385937A (zh) * 2023-04-07 2023-07-04 哈尔滨理工大学 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统
CN116450883A (zh) * 2023-04-24 2023-07-18 西安电子科技大学 基于视频内容细粒度信息的视频时刻检索方法
CN117115706A (zh) * 2023-08-21 2023-11-24 杭州电子科技大学 基于多尺度时空注意力网络的视频场景图生成方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Anomaly Detection in Video Sequences: A Benchmark and Computational Model;Boyang Wan等;《IET Research Journals》;20210616;全文 *
Xiaoye Qu等.Fine-grained Iterative Attention Network for Temporal Language Localization in Videos.《MM'20》.2020,全文. *
基于多粒度视频信息和注意力机制的视频场景识别;袁韶祖;王雷全;吴春雷;;计算机系统应用;20200515(第05期);全文 *
基于差异化和空间约束的自动图像描述模型;姜文晖等;《北京航空航天大学学报》;20221012;全文 *

Also Published As

Publication number Publication date
CN117372936A (zh) 2024-01-09

Similar Documents

Publication Publication Date Title
Albanie et al. BSL-1K: Scaling up co-articulated sign language recognition using mouthing cues
CN110751208B (zh) 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法
Cheng et al. Fully convolutional networks for continuous sign language recognition
KR102266529B1 (ko) 이미지 기반의 데이터 처리 방법, 장치, 기기 및 판독 가능 저장 매체
Tian et al. Audio-visual event localization in unconstrained videos
Shi et al. American sign language fingerspelling recognition in the wild
Forster et al. Extensions of the Sign Language Recognition and Translation Corpus RWTH-PHOENIX-Weather.
CN112004111B (zh) 一种全域深度学习的新闻视频信息抽提方法
Wazalwar et al. Interpretation of sign language into English using NLP techniques
CN114511906A (zh) 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备
CN110851641A (zh) 跨模态检索方法、装置和可读存储介质
CN112541529A (zh) 表情与姿态融合的双模态教学评价方法、设备及存储介质
CN114186069B (zh) 基于多模态异构图注意力网络的深度视频理解知识图谱构建方法
Yuan et al. Large scale sign language interpretation
CN110991290A (zh) 基于语义指导与记忆机制的视频描述方法
CN111062277A (zh) 基于单目视觉的手语-唇语转化方法
Liu et al. A fine-grained spatial-temporal attention model for video captioning
Nandi et al. Implicit processing of LP residual for language identification
Shipman et al. Speed-accuracy tradeoffs for detecting sign language content in video sharing sites
CN114281948A (zh) 一种纪要确定方法及其相关设备
CN113393841B (zh) 语音识别模型的训练方法、装置、设备及存储介质
CN111460224B (zh) 评论数据的质量标注方法、装置、设备及存储介质
CN117372936B (zh) 基于多模态细粒度对齐网络的视频描述方法与系统
Yin et al. Spatial temporal enhanced network for continuous sign language recognition
Tamer et al. Cross-lingual keyword search for sign language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant