CN112241468A - 一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质 - Google Patents
一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质 Download PDFInfo
- Publication number
- CN112241468A CN112241468A CN202010718382.7A CN202010718382A CN112241468A CN 112241468 A CN112241468 A CN 112241468A CN 202010718382 A CN202010718382 A CN 202010718382A CN 112241468 A CN112241468 A CN 112241468A
- Authority
- CN
- China
- Prior art keywords
- video
- text
- encoding
- frame
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000007246 mechanism Effects 0.000 title claims abstract description 26
- 239000013598 vector Substances 0.000 claims description 51
- 238000012549 training Methods 0.000 claims description 20
- 238000013507 mapping Methods 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 2
- 230000002452 interceptive effect Effects 0.000 claims 2
- 238000010606 normalization Methods 0.000 claims 2
- 238000002474 experimental method Methods 0.000 abstract description 5
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 239000010410 layer Substances 0.000 description 24
- 230000006870 function Effects 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 8
- 230000006872 improvement Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 241000288105 Grus Species 0.000 description 1
- 240000007171 Imperata cylindrica Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013106 supervised machine learning method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/732—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质,该跨模态视频检索方法包括视频编码步骤、文本编码步骤和联合嵌入步骤,本发明通过有监督训练的形式,充分利用训练多模态数据中的语义信息进行训练,同时引入多头目自注意力机制,捕捉视频和文本内部的细微交互,有选择性地关注多模态数据的关键信息来增强模型的表征能力,更好地挖掘数据语义,保证数据在原始空间和在共享子空间中距离的一致性。本发明的有益效果是:通过实验证明,本发明既可以有效保持数据在原始空间相似性,又能提高检索的准确率。
Description
技术领域
本发明涉及视频技术领域,尤其涉及一种基于多头目自注意力机制的 跨模态视频检索方法、系统及存储介质。
背景技术
随着多媒体数据的爆炸式增长,传统的单模态检索已经难以满足人们 在多媒体领域下的检索需求,用户迫切希望能够利用其中一种模态数据作 为查询对象来检索具有相似语义的另一种模态数据内容,例如用图像检索 文本、文本检索图像或视频等,即跨模态检索。
跨模态检索需要同时处理不同模态的数据,这些数据在内容上具有一 定的相似性,但是其底层特征是异构的,难以直接计算它们的相似度,即 存在“语义鸿沟问题”。将不同模态数据映射到公共子空间的方法在跨模 态检索中被大量使用,因为它能建立起“语义鸿沟”的桥梁。在这个公共 子空间中,两点之间的距离反映了其映射之前两个模态数据的相似性。
跨模态视频检索性能好坏主要取决于所学的共享空间的质量。通常假 设共享空间的质量在于其是否能有效保留不同模态原始数据内部隐含的语 义信息。例如,两个不同模态数据之间的语义是相似的,那么他们在共享 空间中的距离就较小,若两个不同模态数据之间的语义不相似,那么他们 在共享空间中的距离就较大。为了提高表示数据的共享空间质量,通常采 用基于深度学习的方法生成从多模态数据到共享空间位置的映射函数,并且在优化模型时要求在共享空间中表示的向量要与原始特征满足特定的统 计分布规律。
基于深度学习的跨模态视频检索主要有几点问题:1)将原始数据特征 空间映射至共享空间是一个NP难题;2)如何在特征映射时保持数据之间 的语义相似性。3)如何对异构多模态数据之间的关系进行建模。
发明内容
为了解决现有技术中的问题,本发明提供了一种基于多头目自注意力 机制的跨模态视频检索方法。
本发明提供了一种基于多头目自注意力机制的跨模态视频检索方法, 包括如下步骤:
视频编码步骤:对于给定的视频模态数据进行视频模态特征提取,利 用特征向量{v1,v2...vn}来描述视频,vt表示视频的第t帧的特征,n表示视频 的帧数,计算视频的多级特征 表示视频全局特征编 码,表示视频上下文特征编码,表示视频局部特征编码;
文本编码步骤:给定一个长度为m的文本s,用独热编码表示文本s 的每个单词,生成一个独热编码向量序列{w1,w2,.....,wm},其中wt表示第t 个单词的向量,计算文本的多级特征φ(s)=[fs (1),fs (2),fs (3)],fs (1)是文本全局 特征编码,fs (2)是文本上下文特征编码,fs (3)是文本局部特征编码;
联合嵌入步骤:将编码后得到的视频的多级特征φ(v)和文本的多级特 征φ(s)通过仿射转换映射到一个共享空间中,得到共享空间的视频特征向 量f(v)和f(s),从而生成向量表示。
作为本发明的进一步改进,在所述视频编码步骤中,对于给定的视频 模态数据,每0.5秒抽取一帧,对于每一帧,采用ResNet-152版本的深度 残差网络提取视频模态特征,并采用深度残差网络在ImageNet数据集上进 行预训练的参数对网络参数进行初始化;选取深度残差网络的倒数第二层 作为图片数据的编码,维度为2018维,随后,利用特征向量{v1,v2...vn}来描 述视频,这里vt表示视频的第t帧的特征,n表示视频的帧数。
作为本发明的进一步改进,在所述视频编码步骤中,采用多头目注意 力机制和平均池化相结合的方式计算视频全局特征编码,视频全局特征编 码用来表示平均池化的编码结果,vt表示视频的 第t帧的特征,视频的编码由视频中的每个帧的加权平均获得,即
作为本发明的进一步改进,在所述文本编码步骤中,文本全局特征编 码fs (1)是通过对序列中所有独热编码向量求平均和对独热编码进行自注意 力机制求得的特征串联后得到的,将基于双向GRU的文本编码表示为 fs (2),将基于Bi-GRU-CNN的文本编码为fs (3)。
作为本发明的进一步改进,在所述联合嵌入步骤中,将编码后得到的 视频的多级特征φ(v)和文本的多级特征φ(s)利用全连接后加上批量正则层 映射到一个共享空间中,参数Wv和Ws分别是视频侧 和文本侧的全连接的参数,各自的参数是bv和bs。。
作为本发明的进一步改进,该跨模态视频检索方法还包括训练步骤, 在所述训练步骤中,将视频特征向量f(v)和f(s)输入基于三元组的排序损 失函数进行训练。
本发明还提供了一种基于多头目自注意力机制的跨模态视频检索系 统,包括:
视频编码模块:用于对于给定的视频模态数据进行视频模态特征提取, 利用特征向量{v1,v2...vn}来描述视频,vt表示视频的第t帧的特征,n表示视 频的帧数,计算视频的多级特征 表示视频全局特征 编码,表示视频上下文特征编码,表示视频局部特征编码;
文本编码模块:给定一个长度为m的文本s,用独热编码表示文本s 的每个单词,生成一个独热编码向量序列{w1,w2,.....,wm},其中wt表示第t 个单词的向量,计算文本的多级特征φ(s)=[fs (1),fs (2),fs (3)],fs (1)是文本全局 特征编码,fs (2)是文本上下文特征编码,fs (3)是文本局部特征编码;
联合嵌入模块:用于将编码后得到的视频的多级特征φ(v)和文本的多 级特征φ(s)通过仿射转换映射到一个共享空间中,得到共享空间的视频特 征向量f(v)和f(s),从而生成向量表示。
作为本发明的进一步改进,在所述视频编码模块中,对于给定的视频 模态数据,每0.5秒抽取一帧,对于每一帧,采用ResNet-152版本的深度 残差网络提取视频模态特征,并采用深度残差网络在ImageNet数据集上进 行预训练的参数对网络参数进行初始化;选取深度残差网络的倒数第二层 作为图片数据的编码,维度为2018维,随后,利用特征向量{v1,v2...vn}来描 述视频,这里vt表示视频的第t帧的特征,n表示视频的帧数;
在所述视频编码模块中,采用多头目注意力机制和平均池化相结合的 方式计算视频全局特征编码,视频全局特征编码用来表示 平均池化的编码结果,vt表示视频的第t帧的特征,视频的编 码由视频中的每个帧的加权平均获得,即
作为本发明的进一步改进,在所述文本编码模块中,文本全局特征编 码fs (1)是通过对序列中所有独热编码向量求平均和对独热编码进行自注意 力机制求得的特征串联后得到的,将基于双向GRU的文本编码表示为 fs (2),将基于Bi-GRU-CNN的文本编码为fs (3);
在所述联合嵌入模块中,将编码后得到的视频的多级特征φ(v)和文本 的多级特征φ(s)利用全连接后加上批量正则层映射到一个共享空间中, 参数Wv和Ws分别是视频侧和文本侧的全连接的参数, 各自的参数是bv和bs;
该跨模态视频检索系统还包括训练模块,在所述训练步骤中,将视频 特征向量f(v)和f(s)输入基于三元组的排序损失函数进行训练。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质 存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所 述的跨模态视频检索方法的步骤。
本发明的有益效果是:通过实验证明,本发明既可以有效保持数据在 原始空间相似性,又能提高检索的准确率。
附图说明
图1是本发明的基于多头目注意力机制的跨模态视频检索框架图。
具体实施方式
本发明公开了一种基于多头目自注意力机制的跨模态视频检索方法, 本发明主要针对如何充分挖掘多模态数据内部的语义信息,生成高效向量 的问题。通过有监督训练的形式,充分利用训练多模态数据中的语义信息 进行训练,同时引入多头目自注意力机制,捕捉视频和文本内部的细微交 互,有选择性地关注多模态数据的关键信息来增强模型的表征能力,更好 地挖掘数据语义,保证数据在原始空间和在共享子空间中距离的一致性。 在训练模型时使用有监督的机器学习方法,采用基于三元组的排序损失函 数,引入正样本在每个batch中的次序,更好地修正了排序误差。对于两 种不同的模态,我们利用两个结构相似的网络进行特征提取,特征主要分 为三个部分:全局特征,时间特征,局部特征,三个特征进行串联,然后 利用联合嵌入模块,将学习到的特征映射到共享空间中,可以生成高质量 的向量表示。考虑近似样本点对在共享空间与原始空间距离一致的原则, 原始空间近似样本点对映射到共享空间之后,向量尽量距离较小。通过实 验证明,本发明既可以有效保持数据在原始空间相似性,又能提高检索的 准确率。下面进行具体说明:
1、相关概念和问题定义:
假设训练集O={oi=[xi,yi,ci],i=1,2,...,n},其中视频模态特征集为文本模态特征集为类标集为如果{xi,yi}属于第j类,则cji=1,否则cji=0。样本对 给出了视频模态和文本模态间的语义对应关系。设测试集为 T={ot=[xt,yt],t=1,...,m},其中和是两种不同模态样本。跨 模态检索问题的目标就是学习到一种跨模态的相似性度量sim(□)对于给定 的查询词xq∈X,返回最相似的另外一种模态样本: sim(□)中的□表示视频x与文本y之间的差值,sim(□)表示视频与文本 之间的曼哈顿距离。
2、框架描述
本发明在提取多模态数据特征中利用了全局特征、时间特征和局部特 征。在提取多模态数据全局特征中,利用多头目自注意力机制,可以自动 学习多模态数据中的重要部分,过滤掉非重要部分;同时,利用平均池化 方法,捕捉数据中重复出现的特征。在提取多模态数据上下文语义特征中, 利用双向神经网络(GRU),提取多模态数据时间序列。在捕捉多模态数 据局部特征中,利用多个不同卷积核的一维卷积神经网络(CNN),捕捉 多模态数据中相邻特征之间的交互。本发明充分提取了多模态数据中多个 层次的数据特征,挖掘出数据语义信息。然后利用联合嵌入模块,将学习 到的特征映射到共享空间中,可以生成高质量的向量表示。
2.1、模型概览
本发明提出的对于视频和句子(文本)的处理方法类似,是一个对称 的网络,即视频编码层和句子编码层具有相似的结构。对于给定的视频V 和句子(文本)S,假设经过视频编码层和句子编码层,我们将视频和句 子分别编码为φ(v)和φ(s),本发明模型框架如图1所示,每种模态数据都 通过了数层的编码,将编码结果结合起来,以一种由粗到细的方式来描述 这两种模态。这样的方法允许我们设计一个相似的编码网络来处理两种不 同的数据模态。接着通过联合嵌入模块实现两种模态数据特征的融合,最 后通过改进的基于三元组的排序损失函数进行训练。
2.2、视频编码模块(视频编码步骤)
对于给定的视频模态数据,我们每0.5秒抽取一帧。对于每一帧,我 们利用深度残差网络(Deep Residual NetWork)进行特征提取。
本发明中采用ResNet-152版本的残差网络提取视频模态特征,并采用 该网络在ImageNet数据集上进行预训练的参数对网络参数进行初始化。本 发明选取网络的倒数第二层(即除去最后一层SoftMax分类层)作为图片 数据的编码,维度为2018维。随后,我们就可以利用特征向量{v1,v2...vn}来 描述视频,这里vt表示视频的第t帧的特征,n表示视频的帧数。
2.2.1、视频全局特征编码
本发明采用多头目注意力机制和平均池化相结合的方式计算视频的全 局编码。
注意力机制的原理就是为不同特征表示计算权重,并通过加权求和的方 式得到最终的特征表示,以此来体现视频中不同帧的重要程度。在本发明 中,本发明采用的都头目自注意力机制通过两个偏置项为0的单层多层感知 机(MLP)和一个SoftMax层来实现的:
α=softmax(w2 tanh(w1φ(v)))
多头目自注意力机制最终得到的值是每一帧的权重,权重的大小表示对 隐含层向量的选择倾向,可以自动学习视频中的重要部分,过滤掉非重要 部分。最终,视频的编码由视频中的每个帧的加权平均获得:
通过结合视频内容中重复出现的视觉特征和视频中的重要部分特征, 我们可以得到视频全局特征编码:
2.2.2、视频上下文特征编码
双向GRU(Bi-GRU)对于提取具有时间顺序的数据特征有一定效果。 我们假设这样一个网络对于视频时间信息的建模也是有效的。我们采用双 向Bi-GRU,其参数比LSTM少,因此只需要较少的训练数据。一个Bi-GRU 由两个分离的GRU层组成,即前向GRU层和一个反向的GRU。前向GRU 将每帧视频的特征按照正常的先后顺序输入,而反向GRU按照反向的顺序输入。用和表示在相应的时间步t=1..n的隐含状态,隐含状态可以 用下面公式表示:
这里的和分别表示前向和后向GRU,通过和来传递时 间t的状态。通过和我们可以得到GRU在时刻t的输出。根据经验, 将前向GRU和后向GRU中的隐藏向量大小设置为512。因此,ht的大小 为1024。将所有的输出结合,我们可以得到一个特征表示队列 H={h1,h2,....,hn},维度是1024*n。通过平均池化,我们可以得到视频上下 文特征编码如下:
2.2.3、视频局部特征编码
前一层对Bi-GRU在每一步的输出权重都一样。为了增强有助于区分 视频细微差别的局部模态数据,我们在Bi-GRU的基础上构建了卷积网络。 特别地,我们采用了原本为句子分类而发展的一维CNN。
我们CNN的输入是上一节Bi-GRU模块生成的特征列表H。用Conv1dk,r表示一维卷积模块,它包含r=512个大小为k的滤波器。将H通过Conv1dk,r可以产生n*k个特征。用RELU激活函数进行非线性变换,增强模型的拟 合能力。因为每个视频的帧数n不一样,我们利用max pooling将特征列 表H转换为固定长度为r的向量ck。我们用下面公式表示:
ck=max pooling(ReLU(Conv1dk,r(H)))
一个k=2的卷积核可以用作求两个在H中的相邻行之间的交互,同样 的,k表示相邻的k个视频帧之间的交互。我们用卷积核k=2,3,4,5生 成多个范围的特征表示。它们的输出被串联起来,形成基于Bi-GRU-CNN 的编码。
fv (3)=[c2,c3,c4,c5]
事实上,这种连接操作虽然简单,但却是一种常见的功能组合。
2.3、文本编码模块(文本编码步骤)
上述编码网络经过细微修改后,同样适用于文本。给定一个长度为 m的句子(文本)s,我们用独热编码表示它的每个单词。因此,可以 生成一个独热编码向量序列{w1,w2,.....,wm},其中wt表示第t个单词的向 量。全局编码fs (1)是通过对序列中所有独热编码向量求平均和对独热编 码进行自注意力机制求得的特征串联后得到的。
对于基于biGRU的编码,首先将每个单词与一个单词嵌入矩阵 相乘,将其转换为一个密集的向量。我们使用由word2vec模型初始化 矩阵,该模型将word2vec训练到包含3000万张Flickr图片的英语标 记上。剩下的部分与视频部分基本相同。我们将基于双向GRU的句 子编码表示为fs (2)。类似地,我们将基于Bi-GRU-CNN的句子编码为 fs (3)。这里,我们使用三个1-d卷积块,k=2,3,4。将在文本编码层的 所有编码结果串联起来,得到句子的多级编码:
φ(s)=[fs (1),fs (2),fs (3)]
φ(s)和φ(v)没有直接的关系,他们不直接进行比较。在视频文本相似度 计算中,需要将向量投影到公共空间中,然后给出学习算法。
2.4、联合嵌入模块(联合嵌入步骤)
对于编码后得到的视频特征φ(v)和文本特征φ(s),将它们通过仿射转换 映射到一个共享空间中。通常的做法是利用全连接层进行映射。经过一些 理论研究,本发明采用在全连接后加上批量正则层,因为这样效果更好。 通过下面的变换,我们可以将得到共享空间的视频特征向量f(v)和f(s):
f(v)=BN(Wvφ(v)+bv)
f(s)=BN(Wsφ(s)+bs)
这里的参数Wv和Ws分别是视频侧和文本侧的全连接的参数,各自的参 数是bv和bs。
3、总体目标及优化算法(训练步骤)
基于排序的三元组损失函数如下所示:
L(v,s;θ)=L(rv)[max(0,α-Sθ(v,s)+Sθ(v,s-))]
+L(rs)[max(0,α-Sθ(v,s)+Sθ(v-,s))]
其中α是距离常数,这里的s-和v-分别表示一个相对于视频v的句子 负样本,相对于句子v的视频负样本,这两个负样本不是随机选取的,是 根据每一个batch中最相似的非样本对选择。
L(.)为不同秩的加权函数。对于视频嵌入v,rv是所有跟v比较的句子中 的秩。同样,对于一个文本嵌入s rs是所有比较的视频中匹配视频嵌入v 的秩。损失是基于在检索结果中正确匹配的相对排名的基于权重的惩罚。 如果正匹配在列表中名列前茅,那么L(.)将把一小部分重量分配给损失, 而不会使损失造成太大的损失。然而,如果一个正匹配不是排在最前面, L(.)将分配一个大得多的权重给损失,这最终会将正匹配的对推到最前面。
整个算法过程描述如下:
在实际测试阶段,对于多模态内容特征使用上述的模型计算出他们在 隐空间的向量表示。根据该向量表示可以检索出与它语义相近的另外一种 模态数据。
1、实验设置
我们在两个基准数据集上进行了实验:MSR-VTT和MSVD和 MPIIMD以评估本发明提出的框架的性能。
MSR-VTT是一个大型的视频描述数据集。这个数据集包含10,000 个视频剪辑。数据集分为6513个训练视频、2990个测试视频和497 个验证集视频,每个视频有20句话的描述。就句子的数量和词汇量而 言,这是最大的视频字幕数据集之一。
MSVD数据集包含1970个Youtube剪辑,每个视频都有大约40个句 子的注释。我们只使用英语描述。为了公平的比较,我们使用了与大多数 方法相同的分割,1200个训练视频,验证用视频100个,测试用视频670 个。
MPIIMD数据集包含54000个句子和72部高清电影,我们根据官方提 供的方法对数据集进行切分,利用ResNetXt-101进行特征提取。
本发明与以下三种现有的跨模态视频检索方法进行了对比:
DeViSE:深度语义联合嵌入模型(A deep visual-semantic embedding) 利用不同模态特征所构成的潜在因子模型进行联合矩阵分解,来学习hinge loss的排序问题。
VSE++:视觉语义嵌入方法(Visual-Semantic Embeddings)是一种有 监督跨模态检索算法,它将视频层和文本层进行编码,得到一个联合嵌 入层,第一个在跨模态检索中用了硬负样本编码的方法。
W2VV:词向量转换成语义向量(word2vis)是一种基于多尺度句子 矢量化和多层感知器学习预测文本输入的深度视觉特征的深度神经网络 结构,已经成功地应用于图像(视频)字幕检索和视频字幕生成。
W2VVrmil:W2VV的改进版本,原始的W2VV用的是MSE损失函数, 该算法用了基于排序损失的MSE损失函数。
本实验采用中位序数(Median Rank,MedR)以及top K召回率(Recall rate attop K,R@K)作为准确率评价指标。中位序数指所有检索样本对应的 被检索样本在检索结果中的序数的中位数,其值越低,代表模型的准确率 越高;top K召回率,举例而言如V2S任务中的top5召回率,指使用视频 检索文本时,视频对应的文本出现在检索结果前5位的比率,其值越高,代 表模型准确率越高。
2、实验结果
表格1.在MSRVTT数据集上文本检索视频的结果
表格2.在MSRVTT数据集上视频检索文本的结果
表格3在MSVD和MPIIMD数据集上视频检索文本的mAP结果
从实验结果中还可以看出,本发明在MSRVTT、MSVD和MPIIMD 三个数据集上都比大多数方法的检索性能高,这说明发明提出的方法能够 较好地提取多模态数据特征,使得多模态数据的语义表示更优。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说 明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术 领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若 干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (10)
1.一种基于多头目自注意力机制的跨模态视频检索方法,其特征在于,包括如下步骤:
视频编码步骤:对于给定的视频模态数据进行视频模态特征提取,利用特征向量{v1,v2...vn}来描述视频,vt表示视频的第t帧的特征,n表示视频的帧数,计算视频的多级特征 表示视频全局特征编码,表示视频上下文特征编码,表示视频局部特征编码;
文本编码步骤:给定一个长度为m的文本s,用独热编码表示文本s的每个单词,生成一个独热编码向量序列{w1,w2,.....,wm},其中wt表示第t个单词的向量,计算文本的多级特征φ(s)=[fs (1),fs (2),fs (3)],fs (1)是文本全局特征编码,fs (2)是文本上下文特征编码,fs (3)是文本局部特征编码;
联合嵌入步骤:将编码后得到的视频的多级特征φ(v)和文本的多级特征φ(s)通过仿射转换映射到一个共享空间中,得到共享空间的视频特征向量f(v)和f(s),从而生成向量表示。
2.根据权利要求1所述的跨模态视频检索方法,其特征在于,在所述视频编码步骤中,对于给定的视频模态数据,每0.5秒抽取一帧,对于每一帧,采用ResNet-152版本的深度残差网络提取视频模态特征,并采用深度残差网络在ImageNet数据集上进行预训练的参数对网络参数进行初始化;选取深度残差网络的倒数第二层作为图片数据的编码,维度为2018维,随后,利用特征向量{v1,v2...vn}来描述视频,这里vt表示视频的第t帧的特征,n表示视频的帧数。
4.根据权利要求1所述的跨模态视频检索方法,其特征在于,在所述文本编码步骤中,文本全局特征编码fs (1)是通过对序列中所有独热编码向量求平均和对独热编码进行自注意力机制求得的特征串联后得到的,将基于双向GRU的文本编码表示为fs (2),将基于Bi-GRU-CNN的文本编码为fs (3)。
6.根据权利要求1至5任一项所述的跨模态视频检索方法,其特征在于,该跨模态视频检索方法还包括训练步骤,在所述训练步骤中,将视频特征向量f(v)和f(s)输入基于三元组的排序损失函数进行训练。
7.一种基于多头目自注意力机制的跨模态视频检索系统,其特征在于,包括:
视频编码模块:用于对于给定的视频模态数据进行视频模态特征提取,利用特征向量{v1,v2...vn}来描述视频,vt表示视频的第t帧的特征,n表示视频的帧数,计算视频的多级特征 表示视频全局特征编码,表示视频上下文特征编码,表示视频局部特征编码;
文本编码模块:给定一个长度为m的文本s,用独热编码表示文本s的每个单词,生成一个独热编码向量序列{w1,w2,.....,wm},其中wt表示第t个单词的向量,计算文本的多级特征φ(s)=[fs (1),fs (2),fs (3)],fs (1)是文本全局特征编码,fs (2)是文本上下文特征编码,fs (3)是文本局部特征编码;
联合嵌入模块:用于将编码后得到的视频的多级特征φ(v)和文本的多级特征φ(s)通过仿射转换映射到一个共享空间中,得到共享空间的视频特征向量f(v)和f(s),从而生成向量表示。
8.根据权利要求7所述的跨模态视频检索系统,其特征在于,在所述视频编码模块中,对于给定的视频模态数据,每0.5秒抽取一帧,对于每一帧,采用ResNet-152版本的深度残差网络提取视频模态特征,并采用深度残差网络在ImageNet数据集上进行预训练的参数对网络参数进行初始化;选取深度残差网络的倒数第二层作为图片数据的编码,维度为2018维,随后,利用特征向量{v1,v2...vn}来描述视频,这里vt表示视频的第t帧的特征,n表示视频的帧数;
在所述视频编码模块中,采用多头目注意力机制和平均池化相结合的方式计算视频全局特征编码,视频全局特征编码用来表示平均池化的编码结果,vt表示视频的第t帧的特征,视频的编码由视频中的每个帧的加权平均获得,即其中α=softmax(ω2tanh(ω1φ(v)T))ω2和ω1是全连接层参数,αt为第t帧的权重;
9.根据权利要求8所述的跨模态视频检索系统,其特征在于,在所述文本编码模块中,文本全局特征编码fs (1)是通过对序列中所有独热编码向量求平均和对独热编码进行自注意力机制求得的特征串联后得到的,将基于双向GRU的文本编码表示为fs (2),将基于Bi-GRU-CNN的文本编码为fs (3);
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-6中任一项所述的跨模态视频检索方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010718382.7A CN112241468A (zh) | 2020-07-23 | 2020-07-23 | 一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010718382.7A CN112241468A (zh) | 2020-07-23 | 2020-07-23 | 一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112241468A true CN112241468A (zh) | 2021-01-19 |
Family
ID=74170598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010718382.7A Pending CN112241468A (zh) | 2020-07-23 | 2020-07-23 | 一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112241468A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801762A (zh) * | 2021-04-13 | 2021-05-14 | 浙江大学 | 基于商品感知的多模态视频高光检测方法及其系统 |
CN112925935A (zh) * | 2021-04-13 | 2021-06-08 | 电子科技大学 | 基于模态内及模态间混合融合的图像菜谱检索方法 |
CN112990297A (zh) * | 2021-03-10 | 2021-06-18 | 北京智源人工智能研究院 | 多模态预训练模型的训练方法、应用方法及装置 |
CN113239159A (zh) * | 2021-04-26 | 2021-08-10 | 成都考拉悠然科技有限公司 | 基于关系推理网络的视频和文本的跨模态检索方法 |
CN113344181A (zh) * | 2021-05-31 | 2021-09-03 | 北京市商汤科技开发有限公司 | 神经网络的结构搜索方法、装置、计算机设备及存储介质 |
CN113806482A (zh) * | 2021-09-17 | 2021-12-17 | 中国电信集团系统集成有限责任公司 | 视频文本跨模态检索方法、装置、存储介质和设备 |
CN114398961A (zh) * | 2021-12-28 | 2022-04-26 | 西南交通大学 | 一种基于多模态深度特征融合的视觉问答方法及其模型 |
CN114612826A (zh) * | 2022-03-09 | 2022-06-10 | 平安科技(深圳)有限公司 | 视频和文本相似度确定方法、装置、电子设备、存储介质 |
WO2022206307A1 (en) * | 2021-03-30 | 2022-10-06 | International Business Machines Corporation | Method for electronic messaging using image based noisy content |
CN115203380A (zh) * | 2022-09-19 | 2022-10-18 | 山东鼹鼠人才知果数据科技有限公司 | 基于多模态数据融合的文本处理系统及其方法 |
CN115223086A (zh) * | 2022-09-20 | 2022-10-21 | 之江实验室 | 基于交互注意力引导与修正的跨模态动作定位方法与系统 |
CN115496226A (zh) * | 2022-09-29 | 2022-12-20 | 中国电信股份有限公司 | 基于梯度调节的多模态情绪分析方法、装置、设备及存储 |
US11683283B2 (en) | 2021-03-30 | 2023-06-20 | International Business Machines Corporation | Method for electronic messaging |
CN113342168B (zh) * | 2021-06-10 | 2023-09-22 | 中国水利水电第七工程局有限公司 | 多模态智能化大型设备安拆培训系统 |
CN116955699A (zh) * | 2023-07-18 | 2023-10-27 | 北京邮电大学 | 一种视频跨模态搜索模型训练方法、搜索方法及装置 |
CN117743869A (zh) * | 2024-02-18 | 2024-03-22 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种内容发现方法、系统、终端及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191075A (zh) * | 2019-12-31 | 2020-05-22 | 华南师范大学 | 基于双重编码与联合的跨模态检索方法、系统及存储介质 |
CN111309971A (zh) * | 2020-01-19 | 2020-06-19 | 浙江工商大学 | 一种基于多级编码的文本到视频的跨模态检索方法 |
CN111652066A (zh) * | 2020-04-30 | 2020-09-11 | 北京航空航天大学 | 基于多自注意力机制深度学习的医疗行为识别方法 |
CN111897913A (zh) * | 2020-07-16 | 2020-11-06 | 浙江工商大学 | 基于语义树增强的复杂文本查询到视频的跨模态检索方法 |
-
2020
- 2020-07-23 CN CN202010718382.7A patent/CN112241468A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191075A (zh) * | 2019-12-31 | 2020-05-22 | 华南师范大学 | 基于双重编码与联合的跨模态检索方法、系统及存储介质 |
CN111309971A (zh) * | 2020-01-19 | 2020-06-19 | 浙江工商大学 | 一种基于多级编码的文本到视频的跨模态检索方法 |
CN111652066A (zh) * | 2020-04-30 | 2020-09-11 | 北京航空航天大学 | 基于多自注意力机制深度学习的医疗行为识别方法 |
CN111897913A (zh) * | 2020-07-16 | 2020-11-06 | 浙江工商大学 | 基于语义树增强的复杂文本查询到视频的跨模态检索方法 |
Non-Patent Citations (3)
Title |
---|
MITHUN N C 等: "Learning joint embedding with multimodal cues for cross-modal video-text retrieval", /PROCEEDINGS OF THE 2018 ACM ON INTERNATIONAL CONFERENCE ON MULTIMEDIA RETRIEVAL, 30 June 2018 (2018-06-30), pages 19 - 27, XP059032036, DOI: 10.1145/3206025.3206064 * |
SONG Y 等: "Polysemous visual-semantic embedding for cross-modal retrieval", PROCEEDINGS OF THE IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 9 January 2020 (2020-01-09), pages 1979 - 1988 * |
陈卓 等: "基于视觉-文本关系对齐的跨模态视频片段检索", 中国科学:信息科学, vol. 50, no. 06, 30 June 2020 (2020-06-30), pages 862 - 876 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112990297A (zh) * | 2021-03-10 | 2021-06-18 | 北京智源人工智能研究院 | 多模态预训练模型的训练方法、应用方法及装置 |
CN112990297B (zh) * | 2021-03-10 | 2024-02-02 | 北京智源人工智能研究院 | 多模态预训练模型的训练方法、应用方法及装置 |
US11533279B2 (en) | 2021-03-30 | 2022-12-20 | International Business Machines Corporation | Method for electronic messaging using image based noisy content |
US11683283B2 (en) | 2021-03-30 | 2023-06-20 | International Business Machines Corporation | Method for electronic messaging |
WO2022206307A1 (en) * | 2021-03-30 | 2022-10-06 | International Business Machines Corporation | Method for electronic messaging using image based noisy content |
CN112801762A (zh) * | 2021-04-13 | 2021-05-14 | 浙江大学 | 基于商品感知的多模态视频高光检测方法及其系统 |
CN112925935B (zh) * | 2021-04-13 | 2022-05-06 | 电子科技大学 | 基于模态内及模态间混合融合的图像菜谱检索方法 |
CN112801762B (zh) * | 2021-04-13 | 2021-08-03 | 浙江大学 | 基于商品感知的多模态视频高光检测方法及其系统 |
CN112925935A (zh) * | 2021-04-13 | 2021-06-08 | 电子科技大学 | 基于模态内及模态间混合融合的图像菜谱检索方法 |
CN113239159A (zh) * | 2021-04-26 | 2021-08-10 | 成都考拉悠然科技有限公司 | 基于关系推理网络的视频和文本的跨模态检索方法 |
CN113239159B (zh) * | 2021-04-26 | 2023-06-20 | 成都考拉悠然科技有限公司 | 基于关系推理网络的视频和文本的跨模态检索方法 |
CN113344181A (zh) * | 2021-05-31 | 2021-09-03 | 北京市商汤科技开发有限公司 | 神经网络的结构搜索方法、装置、计算机设备及存储介质 |
CN113344181B (zh) * | 2021-05-31 | 2022-10-18 | 北京市商汤科技开发有限公司 | 神经网络的结构搜索方法、装置、计算机设备及存储介质 |
CN113342168B (zh) * | 2021-06-10 | 2023-09-22 | 中国水利水电第七工程局有限公司 | 多模态智能化大型设备安拆培训系统 |
CN113806482A (zh) * | 2021-09-17 | 2021-12-17 | 中国电信集团系统集成有限责任公司 | 视频文本跨模态检索方法、装置、存储介质和设备 |
CN113806482B (zh) * | 2021-09-17 | 2023-12-12 | 中电信数智科技有限公司 | 视频文本跨模态检索方法、装置、存储介质和设备 |
CN114398961A (zh) * | 2021-12-28 | 2022-04-26 | 西南交通大学 | 一种基于多模态深度特征融合的视觉问答方法及其模型 |
CN114612826A (zh) * | 2022-03-09 | 2022-06-10 | 平安科技(深圳)有限公司 | 视频和文本相似度确定方法、装置、电子设备、存储介质 |
CN115203380B (zh) * | 2022-09-19 | 2022-12-20 | 山东鼹鼠人才知果数据科技有限公司 | 基于多模态数据融合的文本处理系统及其方法 |
CN115203380A (zh) * | 2022-09-19 | 2022-10-18 | 山东鼹鼠人才知果数据科技有限公司 | 基于多模态数据融合的文本处理系统及其方法 |
CN115223086B (zh) * | 2022-09-20 | 2022-12-06 | 之江实验室 | 基于交互注意力引导与修正的跨模态动作定位方法与系统 |
CN115223086A (zh) * | 2022-09-20 | 2022-10-21 | 之江实验室 | 基于交互注意力引导与修正的跨模态动作定位方法与系统 |
CN115496226A (zh) * | 2022-09-29 | 2022-12-20 | 中国电信股份有限公司 | 基于梯度调节的多模态情绪分析方法、装置、设备及存储 |
CN116955699A (zh) * | 2023-07-18 | 2023-10-27 | 北京邮电大学 | 一种视频跨模态搜索模型训练方法、搜索方法及装置 |
CN116955699B (zh) * | 2023-07-18 | 2024-04-26 | 北京邮电大学 | 一种视频跨模态搜索模型训练方法、搜索方法及装置 |
CN117743869A (zh) * | 2024-02-18 | 2024-03-22 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种内容发现方法、系统、终端及存储介质 |
CN117743869B (zh) * | 2024-02-18 | 2024-05-17 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种内容发现方法、系统、终端及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112241468A (zh) | 一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质 | |
CN110490946B (zh) | 基于跨模态相似度和生成对抗网络的文本生成图像方法 | |
CN111581405B (zh) | 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法 | |
Li et al. | A survey of multi-view representation learning | |
Wang et al. | Image captioning with deep bidirectional LSTMs and multi-task learning | |
JP7193252B2 (ja) | 画像の領域のキャプション付加 | |
CN110059217B (zh) | 一种两级网络的图像文本跨媒体检索方法 | |
US10354199B2 (en) | Transductive adaptation of classifiers without source data | |
Zheng et al. | A deep and autoregressive approach for topic modeling of multimodal data | |
Xiao et al. | Convolutional hierarchical attention network for query-focused video summarization | |
CN112100351A (zh) | 一种通过问题生成数据集构建智能问答系统的方法及设备 | |
CN112100346B (zh) | 基于细粒度图像特征和外部知识相融合的视觉问答方法 | |
Sharma et al. | A survey of methods, datasets and evaluation metrics for visual question answering | |
CN112417097B (zh) | 一种用于舆情解析的多模态数据特征提取与关联方法 | |
CN113657425A (zh) | 基于多尺度与跨模态注意力机制的多标签图像分类方法 | |
CN112860930B (zh) | 一种基于层次化相似性学习的文本到商品图像的检索方法 | |
CN112163114B (zh) | 一种基于特征融合的图像检索方法 | |
CN111461175A (zh) | 自注意与协同注意机制的标签推荐模型构建方法及装置 | |
CN113094534A (zh) | 一种基于深度学习的多模态图文推荐方法及设备 | |
Perdana et al. | Instance-based deep transfer learning on cross-domain image captioning | |
CN116956228A (zh) | 一种技术交易平台的文本挖掘方法 | |
CN116737877A (zh) | 基于注意力网络对抗哈希的跨模态检索方法及设备 | |
Mahalakshmi et al. | Collaborative text and image based information retrieval model using bilstm and residual networks | |
Tiwari et al. | Automatic caption generation via attention based deep neural network model | |
Zhong et al. | Deep convolutional hamming ranking network for large scale image retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |