CN116778382A - 基于实例分割辅助信息的多模态海洋场景视频描述算法 - Google Patents

基于实例分割辅助信息的多模态海洋场景视频描述算法 Download PDF

Info

Publication number
CN116778382A
CN116778382A CN202310727600.7A CN202310727600A CN116778382A CN 116778382 A CN116778382 A CN 116778382A CN 202310727600 A CN202310727600 A CN 202310727600A CN 116778382 A CN116778382 A CN 116778382A
Authority
CN
China
Prior art keywords
video
feature
text
auxiliary information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310727600.7A
Other languages
English (en)
Inventor
赵萌
陈薪宇
张蒙恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University of Technology
Original Assignee
Tianjin University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University of Technology filed Critical Tianjin University of Technology
Priority to CN202310727600.7A priority Critical patent/CN116778382A/zh
Publication of CN116778382A publication Critical patent/CN116778382A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于实例分割辅助信息的多模态海洋场景视频描述算法,该方法首先使用特征提取器对视频文本两个模态数据进行特征提取,将两个模态的特征送入多模态交互编码器进行融合、交互、和对齐后得到多模态全局信息特征,同时使用实例分割网络将视频中的前景主体信息和背景信息分割,制作辅助信息字典,对其进行特征提取得到辅助信息特征,多模态全局信息特征和辅助信息特征对比学习后送入语言解码器进行解码,生成描述语句。通过提取海洋视频的多模态全局语义信息和辅助语义信息,加强网络对于视频的理解和认知,增强视频文本之间的关联,促使生成的描述语句涵盖海洋场景视频中的全部内容,并且描述具有高质量、高流畅度的特性。

Description

基于实例分割辅助信息的多模态海洋场景视频描述算法
技术领域
本发明涉及一种基于实例分割辅助信息的多模态海洋场景视频描述算法,属于计算机视觉和自然语言处理交叉领域,是多模态领域的下游任务。
背景技术
随着视频在日常生活中的普及和使用量的增加,自动生成视频描述的技术逐渐成为一个热门的研究方向。生成视频描述的任务可以看作是将视频中所展示的内容和情节转化为文本形式的描述,这样可以帮助用户更快速地理解视频内容,提高用户体验。
海洋场景视频描述是视频描述任务的细分下游任务,将海洋场景视频的内容和信息转化为自然语言描述的过程。海洋场景视频描述的研究旨在开发自动化的方法,帮助计算机理解和处理海洋场景视频的内容。海洋场景视频描述可以应用于多个领域,例如海洋生态保护、海洋资源勘探、海洋旅游、海洋科普等。通过对海洋场景视频进行自动化描述,可以方便地获取有关海洋生态、物种、地理信息等方面的知识,提高对海洋生态环境的认识和保护。对于海洋场景视频描述的研究,需要结合海洋科学、计算机视觉、自然语言处理等多个领域的知识和技术。
实现视频描述任务的模型中大多都是遵循encoder-decoder这种架构来进行的,早期是将Convolutional Neural Network(CNN)和Recurrent Neural Network(RNN)进行拼接来完成视频描述任务,CNN一般使用I3D,S3D这种3D网络对视频进行特征提取,提取到的视频特征送入RNN网络中生成对应的描述语句,RNN常使用LSTM网络。随着Transformer网络的出现和发展,该任务的网络模型渐渐以Transformer为主,提取视频特征依旧还是S3D网络,文本特征提取器换成了Bert,将两个模态特征进行融合后得到输出结果。使用3DCNN对视频进行特征提取,无法很好的捕捉到视频的语义信息,无法捕捉到视频中发生的变化和事件,同时因在时间维度上引入了更多的计算量,因此训练和推理的成本可能会更高,视频特征提取器和文本特征提取器采用不同的网络架构不能够很好的交互,影响两个模态之间的语义对齐,所以之前的工作在完成视频描述任务时具有较大的局限性。
发明内容
本发明目的在于提供了一种基于实例分割辅助信息的多模态海洋场景视频描述算法,该算法使用Video-Swin-Transformer作为视频特征提取器,降低了计算量太大的问题,增强了视频文本之间的关联性,同时还对海洋场景进行实例分割,制作辅助信息字典,来获取海洋场景视频中更丰富的语义信息,使海洋场景下的文字描述更加丰富和规范。
为了实现上述目的,本发明包括下列步骤:
1.设计并制作海洋场景视频描述数据集和图像数据集,分别包含1000个海洋视频和5000张海洋图像,视频数据集中每个视频对应5句文本标签,文本标签描述了视频中的内容,图像数据集是对视频数据集中每个视频采样5帧制作而成;
2.使用SegmentAnything网络分割海洋图像中的前景实例和背景信息,将前景信息和背景信息记录并写入辅助信息字典,将辅助信息字典的内容送入文本编码器,得到辅助信息特征;
3.分别使用Video-Swin-Transformer视频特征提取器和Bert文本特征提取器对视频数据和文本标签数据进行特征提取;
4.将视频特征和文本标签特征融合,送入到单流的多模态交互编码器中,在交互编码器中视频特征和文本特征完成语义对齐任务、文本掩码任务、视频帧掩码任务,并得到多模态全局信息特征;
5.实现基于对比学习的多模态全局信息特征和辅助信息特征双流联合视频描述算法,将多模态全局信息特征和辅助信息特征进行联合对比学习,交互融合双流特征,送入语言解码器;
6.语言解码器是一个自回归的解码器,用于将双流特征转换为人类理解的自然语言,语言解码器对融合后的双流特征进行解码,得到描述语句,得到的描述语句和标注的文本标签计算损失,并完成语言重建任务,不断优化文本描述能力和效果。
本发明的有益效果是:
1.视频特征提取效果好:本发明使用Video-Swin-Transformer作为视频特征提取器,采用多尺度滑动窗口方式增加局部感受野,并用局部注意力机制降低visiontransformer计算量太大的问题,并且和文本特征器采用同种网络架构,可以更好的将两个模态的语义信息进行对齐。
2.语义内容丰富:本发明还使用Segment Anything网络对海洋场景进行实例分割,提取视频中关键的前景主体信息和背景信息,为后续文本描述提供更丰富的信息,也是视频中的语义联系的更加紧密,加深了网络模型海洋场景内容的理解,并且关注海洋场景细节,对文字描述进行场景约束,使海洋场景下的文字描述更加规范。
3.优化目标丰富:本发明设置了五个优化目标(语义对齐任务、文本掩码任务、视频帧掩码任务、辅助信息对比学习任务、语言重建任务)可以更好的训练模型,语义对齐任务使视频特征和文本特征进行对齐,为二者更好的交互创造基础,文本掩码任务提高模型的语言理解能力和上下文理解能力,视频帧掩码任务提高模型的视频理解能力和上下文理解能力,使用分割网络提取视频中更丰富的语义信息,作为主体网络的辅助信息,使网络模型更加关注海洋场景视频的细节和内容,同时对文本描述加以约束,语言重建任务负责自回归的解码融合的特征,使模型生成的描述更加流畅并且符合我们平时的说话习惯。
附图说明
图1:是本发明基于实例分割辅助信息的多模态海洋场景视频描述算法流程图。
图2:是本发明基于实例分割辅助信息的多模态海洋场景视频描述算法网络模型结构图。
图3:Video-Swin-Transformer的网络模型图。
图4:多模态交互编码器的网络模型图。
图5:语言解码器的网络模型图。
具体实施方式
本发明的流程图如图1所示,总体网络模型结构图如图2所示,下面对本发明技术方案的具体实施过程加以说明。
1.制作海洋场景视频数据集,包含1000个视频左右,视频内容主要以海面场景为主,海中场景为辅。海面场景包括:舰船航行关系、舰船位置关系、海上交通、海面运动、岸边情况等;海中场景包括:海洋生物活动、海底地形情况、海洋垃圾情况等。将该数据集分为两部分,一部分为视频数据集,另一部分为图像数据集。视频数据集含有1000个mp4文件,将视频数据集按4:1的比例随机划分为训练集和测试集,同时视频名称以“video+序号”的方式进行命名,如:“video1”,“video2”,将训练视频名称和测试视频名称分别记录进训练csv文件和测试csv文件。每个视频对应5句文本描述,将视频名称和文本描述一一对应存入json文件。图像数据集是在视频数据集的基础上制作而来,对视频数据集的每个视频随机采样5帧保存为jpg文件,同时图像名称以“image+序号”的方式命名,如:“image1”,“image2”,将图像名称存入图像csv文件。
2.使用实例分割网络对图像数据集进行操作,提取视频的辅助语义信息,我们使用强大的SegmentAnything网络将我们的图像中的前景信息和背景信息分割出来,在分割前景时需要将前景中实例主体的数量和类别记录下来,做成辅助信息字典,将辅助信息字典写入视频数据集的json文件,这样json文件中一个视频对应5幅图像、5句文本描述和1个辅助信息字典,如:“video1+picture1+caption1:“two boats are sailing on the seaunder the sun”+dict1:{“boat1”,“boat2”,“sea”,“sun”}”。将辅助信息字典送入Bert中,输出为提取到的辅助信息特征S,辅助信息特征作为模型的海洋场景先验知识,用于辅助后面海洋场景视频描述工作。
3.对视频数据集进行特征提取,先将视频数据和文本数据嵌入成视频序列f,和文本序列t,然后我们使用Video-Swin-Transformer网络对视频序列f进行特征提取,Video-Swin-Transformer的网络模型如图3所示,使用Bert语言编码器对文本序列t提取特征,两个模态的特征提取公式为:
v=VideoSwinTransformer(f) (1)
w=Bert(t) (2)
其中v为视频特征,w为文本特征。
4.将视频特征v和文本特征w进行融合,送入多模态交互编码器,多模态交互编码器由6个Transformer encoder block组成,每个Transformer encoder block含有一层self-attention层和feed-forward层,其网络模型如图4所示,融合后的特征经过多模态交互编码器得到输出M,M为多模态全局信息特征,公式为:
M=Interact encoder(v:w) (3)
在交互编码器中视频特征和文本特征完成语义对齐任务,其损失函数为:
P=E(w,v)~Pexp(e(w,v)) (4)
N=E(w,v)~Nexp(e(w,v)) (5)
其中(w,v)为视频文本特征对,P为视频文本特征对齐的正样本,N为视频文本特征对齐的负样本,语义对齐的损失函数是采用Noise Contrastive Estimation(NCE)Loss对正负样本进行对比学习得到的结果。文本掩码任务:提供一个包含特殊标记[MASK](即掩码)的文本序列,该文本序列的单词以15%概率的被掩盖,然后让模型去预测掩码位置本来的词语。如提供“船在海上[MASK]”,预测[MASK]位置的词语,如“航行”、“转向”或“碰撞”等。这个任务会允许模型同时关注[MASK]左右的上下文信息。文本掩码任务的损失函数公式为:
其中w为输入文本特征,v为输入视频特征,wm为掩盖的文本特征,D为训练集全集,p为概率。同样我们以文本掩码任务为基础提出了视频帧掩码任务:输入的视频帧序列包含特殊标记[MASK],视频帧序列中的帧以15%概率被随机替换成[MASK],然后使用模型来预测被替换的视频帧。由于直接预测原始的RGB视频帧非常困难,我们使用对比学习的方法,来增强视频帧之间的关联性,通过对视频帧上下文信息的学习,提升模型的空间建模能力。视频帧掩码任务的损失函数公式为:
其中v是视频特征的实值向量,是v的线性输出,Mv是交互编码器输出结果的视频部分,/>属于Mv
5.多模态全局信息特征M和辅助信息特征S进行对比学习,若多模态全局信息特征中包含辅助信息中的前景信息和背景信息,并且前景信息中实例主体的数量和类别都可以匹配,我们就将该特征对设置为正样本,匹配不上就设置为负样本,采用NCE Loss对多模态全局信息特征和辅助信息特征进行对比学习,来规范海洋场景视频描述语句的结果,同时使网络获取更加丰富的语义信息,并增强海洋视频和文本描述对齐的能力,该对比学习的损失函数公式为:
LCMS=LM2S+LS2M (12)
其中B是batch size,σ是可学习的温度参数,Mi和Sj是第i个多模态全局信息特征和第j个辅助信息特征的归一化嵌入。
6.完成对比学习后,将多模态全局信息特征M和辅助信息特征S进行融合,送入语言解码器,得到海洋场景视频对应的文本描述O。该过程的公式:
O=Caption decoder(M:S) (13)
为了重建输入的文本描述,使模型具有生成能力,我们采用自回归解码器Captiondecoder,Caption decoder由3个Transformer decoder block组成,每个Transformerdecoder block含有一层self-attention层和feed-forward层,其网络模型如图5所示,Caption decoder对融合后的特征进行解码,完成语言重建任务,其损失函数为:
其中T为生成文本序列长度,t为第t个单词,S为辅助信息特征,M为多模态全局信息特征。
7.五个任务的损失函数合成一个总的损失函数,总损失函数如公式(15)所示,将海洋场景视频数据集输入网络模型在训练集上进行训练,每一轮计算总损失函数,然后使用优化器对整个网络进行优化,完成训练阶段后,在测试集进行测试,评估网络模型的效果和输出描述语句的质量和流畅度,最后根据测试情况,进一步微调模型。
LOverall=LVLM+LMLM+LMFM+LCMS+LCAP (15)
需要说明的是,以上所述仅为本发明实施例,仅仅是解释本发明,并非因此限制本发明专利范围。对属于本发明技术构思而仅仅显而易见的改动,同样在本发明保护范围之内。

Claims (7)

1.本发明涉及一种基于实例分割辅助信息的多模态海洋场景视频描述算法,其特征在于,包括如下步骤:
(1)设计并制作海洋场景视频描述数据集和图像数据集,分别包含1000个海洋视频和5000张海洋图像,视频数据集中每个视频对应5句文本标签,文本标签描述了视频中的内容,图像数据集是对视频数据集中每个视频采样5帧制作而成;
(2)Segment Anything是一个实例分割工具,用于提取海洋图像集的特征,有助于得到更加丰富的视觉信息,辅助描述的生成,使用Segment Anything网络分割海洋图像中的前景实例和背景信息,将前景信息和背景信息记录并写入辅助信息字典,将辅助信息字典的内容送入文本编码器,得到辅助信息特征;
(3)分别使用Video-Swin-Transformer视频特征提取器和Bert文本特征提取器对视频数据和文本标签数据进行特征提取;
(4)将视频特征和文本标签特征融合,送入到单流的多模态交互编码器中,在交互编码器中视频特征和文本特征完成语义对齐任务、文本掩码任务、视频帧掩码任务,并得到多模态全局信息特征;
(5)实现基于对比学习的多模态全局信息特征和辅助信息特征双流联合视频描述算法,将多模态全局信息特征和辅助信息特征进行联合对比学习,交互融合双流特征,送入语言解码器;
(6)语言解码器是一个自回归的解码器,用于将双流特征转换为人类理解的自然语言,语言解码器对融合后的双流特征进行解码,得到描述语句,得到的描述语句和标注的文本标签计算损失,并完成语言重建任务,不断优化文本描述能力和效果。
2.如权利要求1所述一种基于实例分割辅助信息的多模态海洋场景视频描述算法,其特征在于,根据步骤(1)所述的制作海洋场景视频数据集,数据集包括视频和文本标签两部分,视频内容主要以海面场景为主,海里场景为辅,海面场景包括:舰船航行关系、海上交通、海上运动、岸边情况等;海里场景包括:海洋生物活动、海底地形情况;每一个视频标注5句文本标签;对海洋场景视频数据集每个视频随机采样5帧,作为海洋场景图像,每个视频对应5幅图像,制作成图像数据集。
3.如权利要求1所述一种基于实例分割辅助信息的多模态海洋场景视频描述算法,其特征在于,实现基于实例分割辅助信息字典的海洋场景特征提取网络,根据步骤(2)所述的制作辅助信息字典,提取单模态的辅助信息特征,我们使用Segment Anything网络将海洋场景图像数据集中的每幅图像进行实例分割,将分割的前景主体和背景区域的数量和类别进行记录,存储制作为辅助信息字典后,送入Bert中提取辅助信息特征,作为海洋场景的先验信息,用于辅助后续文本描述工作。
4.如权利要求1所述一种基于实例分割辅助信息的多模态海洋场景视频描述算法,其特征在于,根据步骤(3)中所述的提取特征,我们使用Video-Swin-Transformer对海洋场景视频数据集进行特征提取,使用Bert对视频对应的文本标签进行特征提取。
5.如权利要求1所述一种基于实例分割辅助信息的多模态海洋场景视频描述算法,其特征在于,实现海洋场景视频特征和文本特征交互融合的多模态全局信息特征学习网络,根据步骤(4)所述的多模态交互编码使用Transformer Encoder block,将视频特征和文本特征融合送入交互编码器,得到多模态特征,在交互编码器中两个模态数据完成语义对齐任务,其损失函数公式为:
P=E(w,v)~Pexp(e(w,v)) (1)
N=E(w,v)~Nexp(e(w,v)) (2)
其中(w,v)为视频文本特征对,P为视频文本特征对齐的正样本,N为视频文本特征对齐的负样本,语义对齐的损失函数是采用Noise Contrastive Estimation(NCE)Loss对正负样本进行对比学习得到的结果;文本掩码任务对输入的文本标签采用15%的概率来掩盖语句中的单词,其损失函数公式为:
其中w为输入文本特征,v为输入视频特征,wm为掩盖的文本特征,D为训练集全集,p为概率;和文本掩码任务类似,视频帧掩码任务以15%的概率对视频中的帧进行掩盖,其损失函数公式为:
其中v是视频特征的实值向量,是v的线性输出,Mv是交互编码器输出结果的视频部分,/>属于Mv
6.如权利要求1所述一种基于实例分割辅助信息的多模态海洋场景视频描述算法,其特征在于,实现基于对比学习的多模态全局信息特征和辅助信息特征双流联合视频描述算法,根据步骤(5)所述的多模态全局信息特征和辅助信息特征进行对比学习,若多模态全局信息特征中包含辅助信息特征中的前景信息和背景信息,并且实例主体的数量和类别都可以匹配上,我们就将其设置为正样本,不匹配就设置为负样本,采用NCE Loss对辅助信息特征和多模态全局信息特征进行对比学习,来规范海洋场景视频描述语句的结果,该对比学习损失函数公式为:
LCMS=LM2S+LS2M (9)
其中B是batch size,σ是可学习的温度参数,Mi和Sj是第i个多模态特征和第j个辅助信息特征的归一化嵌入。
7.如权利要求1所述一种基于实例分割辅助信息的多模态海洋场景视频描述算法,其特征在于,根据步骤(6)所述的语言解码器使用Transformer Decoder block对辅助信息特征和多模态全局信息特征融合后的结果进行解码,完成语言重建任务,其损失函数为:
其中T为生成文本序列长度,t为第t个单词,S为辅助信息特征,M为多模态全局信息特征。
CN202310727600.7A 2023-06-19 2023-06-19 基于实例分割辅助信息的多模态海洋场景视频描述算法 Pending CN116778382A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310727600.7A CN116778382A (zh) 2023-06-19 2023-06-19 基于实例分割辅助信息的多模态海洋场景视频描述算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310727600.7A CN116778382A (zh) 2023-06-19 2023-06-19 基于实例分割辅助信息的多模态海洋场景视频描述算法

Publications (1)

Publication Number Publication Date
CN116778382A true CN116778382A (zh) 2023-09-19

Family

ID=88007479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310727600.7A Pending CN116778382A (zh) 2023-06-19 2023-06-19 基于实例分割辅助信息的多模态海洋场景视频描述算法

Country Status (1)

Country Link
CN (1) CN116778382A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117370679A (zh) * 2023-12-06 2024-01-09 之江实验室 一种多模态双向蕴含社交网络虚假消息验证的方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117370679A (zh) * 2023-12-06 2024-01-09 之江实验室 一种多模态双向蕴含社交网络虚假消息验证的方法及装置
CN117370679B (zh) * 2023-12-06 2024-03-26 之江实验室 一种多模态双向蕴含社交网络虚假消息验证的方法及装置

Similar Documents

Publication Publication Date Title
CN111488739B (zh) 基于多粒度生成图像增强表示的隐式篇章关系识别方法
CN109992669B (zh) 一种基于语言模型和强化学习的关键词问答方法
De Coster et al. Machine translation from signed to spoken languages: State of the art and challenges
CN117236338B (zh) 一种稠密实体文本的命名实体识别模型及其训练方法
CN116778382A (zh) 基于实例分割辅助信息的多模态海洋场景视频描述算法
CN113392265A (zh) 多媒体处理方法、装置及设备
CN114627162A (zh) 一种基于视频上下文信息融合的多模态密集视频描述方法
CN114626454A (zh) 一种融合自监督学习和注意力机制的视觉情感识别方法
Boukdir et al. Character-level Arabic text generation from sign language video using encoder–decoder model
Thangavel et al. A novel method for image captioning using multimodal feature fusion employing mask RNN and LSTM models
Dweik et al. Read my lips: Artificial intelligence word-level arabic lipreading system
Rizk et al. A hybrid capsule network-based deep learning framework for deciphering ancient scripts with scarce annotations: A case study on Phoenician epigraphy
Cornia et al. Towards cycle-consistent models for text and image retrieval
Kim et al. Towards practical and efficient image-to-speech captioning with vision-language pre-training and multi-modal tokens
CN114896969A (zh) 一种基于深度学习的方面词提取方法
CN114677569A (zh) 一种基于特征解耦合的文字-图像对生成方法和装置
Mishra et al. Environment descriptor for the visually impaired
CN116245111B (zh) 多方向多角度句子语义相似识别方法、装置及存储介质
Won et al. Using various pre-trained models for audio feature extraction in automated audio captioning
Zhou et al. Multimodal emotion recognition based on multilevel acoustic and textual information
CN117370934B (zh) 一种敏感信息发现模型的多模态数据增强方法
CN116152118B (zh) 基于轮廓特征增强的图像描述方法
CN117934657B (zh) 一种基于文图生成模型的语言跟踪图像编辑方法
CN112765955B (zh) 一种中文指代表达下的跨模态实例分割方法
CN116702094B (zh) 一种群体应用偏好特征表示方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination