CN111309971B - 一种基于多级编码的文本到视频的跨模态检索方法 - Google Patents

一种基于多级编码的文本到视频的跨模态检索方法 Download PDF

Info

Publication number
CN111309971B
CN111309971B CN202010060690.5A CN202010060690A CN111309971B CN 111309971 B CN111309971 B CN 111309971B CN 202010060690 A CN202010060690 A CN 202010060690A CN 111309971 B CN111309971 B CN 111309971B
Authority
CN
China
Prior art keywords
video
text
features
coding
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010060690.5A
Other languages
English (en)
Other versions
CN111309971A (zh
Inventor
董建锋
叶金德
章磊敏
林昶廷
王勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN202010060690.5A priority Critical patent/CN111309971B/zh
Publication of CN111309971A publication Critical patent/CN111309971A/zh
Application granted granted Critical
Publication of CN111309971B publication Critical patent/CN111309971B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于多级编码的文本到视频的跨模态检索方法,该方法包括:首先获取视频和文本的初步特征,然后通过两个多级编码网络分支分别对两种模态的全局、时序和局部信息进行编码;对于视频端提取音频特征,对于文本端提取句子特征;最后将编码的多个特征进行多级特征融合,得到鲁棒的视频和文本表达。通过全连接层将两个模态的特征映射到一个统一公共空间中,利用公共空间算法学习两个模态之间的关系,通过端到端的方式训练模型,自动学习文本和视频的匹配关系,从而实现文本到视频的跨模态检索。本发明是一种无概念的方法,不需复杂的概念检测操作,就能实现跨模态检索,并且利用了深度学习技术,在很大程度上提高了检索的性能和效率。

Description

一种基于多级编码的文本到视频的跨模态检索方法
技术领域
本发明涉及视频跨模态检索技术领域,尤其涉及一种基于多级编码的文本到视频的跨模态检索方法。
背景技术
近年来,由于互联网和移动智能设备的普及以及通信和多媒体技术的迅速发展,每天都会有海量的多媒体数据被创造并上传至互联网,不同模态的数据,如文字、图像和视频等正在以爆炸性的速度在增长,而这些多媒体数据也已经成为现代人们获取信息的最主要来源。随着5G时代的到来,因其更快的传输速度、更大的带宽和更低的时延等特点,将会进一步的加快多媒体数据的增长,特别是对于视频数据来说,人们将更容易地上传和共享自己所创造的视频,可以预见的是,未来互联网上的视频数据存储量将会非常巨大。面对如此庞大的多媒体数据,如何从中快速且准确地检索出用户所需求的视频是一个艰巨的挑战。文本到视频的跨模态检索就是缓解这个挑战的关键技术之一。
现有的文本到视频的跨模态检索假设所有的视频没有任何文本标注,用户通过自然语句描述其查询需求,检索模型通过计算文本和视频的跨模态相关度返回与查询相关度较高的视频。该检索模式的核心是计算文本和视频的跨模态相关度。现有文本到视频的跨模态检索方法以基于概念建模为主,从文本查询和视频中分别提取相关概念,并通过两种模态数据之间的概念匹配计算跨模态相关度。但这种基于概念的检索方法存在以下不足:一、文本和视频具有非常丰富的内容,一般很难通过若干概念充分地描述其内容从而导致信息的丢失;二、检索模型的性能取决于文本和视频的概念提取器,但如何构建有效的概念提取器并不容易;三、由于这类检索方法依赖于复杂的概念建模与概念匹配,其检索效率比较低。
发明内容
本发明针对现有技术的不足,采用了一种无需概念建模的方法,提出了多级深度编码网络,首次使用具有相似架构的多层编码网络同时对句子和视频进行量化编码和表示学习。通过将编码后的特征映射到公共空间,计算它们在公共空间的相关度,实现文本到视频的跨模态检索。
本发明的目的是通过以下技术方案来实现的:一种基于多级编码的文本到视频的跨模态检索方法,包括以下步骤:
(1)利用不同的特征提取方法分别对视频和文本的特征进行提取,得到这两种模态数据的初始特征;并获得视频的音频特征及文本的BERT特征。
(2)对在步骤(1)中得到的视频视觉特征进行多级编码;通过对视频的全局、时序和局部三个等级的编码,以此获得具有更强表示的视觉特征。
(3)将步骤(1)获得的视频的音频特征和步骤(2)获得的视频的三个视觉特征进行多级特征融合。
(4)以并行的方式,采用与步骤(2)中相似的网络结构,对在步骤(1)中得到的文本初始特征进行多级编码,包括文本的全局、时序和局部三个等级的编码。
(5)将步骤(1)获得的文本的BERT特征和步骤(4)获得的文本的三个特征进行多级特征融合。
(6)将步骤(3)和步骤(5)中经过多级特征融合后的视频和文本特征分别映射到公共空间中,利用公共空间学习算法来学习两个模态之间的相关度,最后以端到端的方式训练模型。
(7)利用步骤(6)训练得到的模型实现文本到视频的跨模态检索。
进一步地,所述步骤(1)中分别提取视频和文本特征的方法包括如下步骤:
(1-1)利用预训练的深度卷积神经网络对输入的视频帧进行视觉特征提取,获得视频的初始特征。
(1-2)利用预训练的VGGish模型对视频的音频进行特征提取,得到视频的音频特征。
(1-3)利用独热编码(one-hot)对文本中的每个单词进行编码,获得文本的初始特征。
(1-4)利用在大规模无标注语料上预训练的BERT(Bidirectional EncoderRepresentations from Transformers)模型,提取包含丰富语义信息的句子特征,即文本的BERT特征。
进一步地,所述步骤(2)中对在步骤(1)中获得的视频视觉特征进行多级编码的方法包括如下步骤:
(2-1)视频的全局信息编码。步骤(1)已获得视频的初始特征,通过对这些视频帧的特征做均值操作,就能获得一个视频的全局编码特征。
(2-2)视频的时序信息编码。由于视频是一系列图像序列组成的,具有前后顺序,也就是说视频具有时序性,因此获取视频的时序信息也是十分重要的。我们利用双向GRU(bi-GRU)来对步骤(1-1)得到的视频初始特征进行编码,获得bi-GRU每个时刻的隐藏状态,通过对这些隐藏状态做均值操作,获得一个包含视频时序信息的特征向量。
(2-3)视频的局部信息增强编码。前述步骤已经获取视频的全局特征,同样的视频的局部特征也是含有丰富的信息。因此我们利用1维卷积神经网络(1-dCNN)对步骤(2-2)中bi-GRU每个时刻输出的隐藏状态进行卷积操作,以此增强视频的局部信息。
(3)通过上述三个等级的编码以及视频音频特征的提取,我们分别获得了视频的全局、时序、局部和音频特征,通过对这四个特征进行多级特征融合来获得输入视频最终的多级编码特征。
所述步骤(4)中以类似的方式对在步骤(1)中获取的文本特征进行多级编码,它与视频的多级编码并行执行,具体方法包括如下步骤:
(4-1)文本的全局信息编码。步骤(1-3)中已经利用one-hot对文本中的每个单词进行了编码,使用与视频同样的方法,对每个单词的特征向量做均值操作,获取文本的一个全局特征。
(4-2)文本的时序信息编码。同样地,文本也含有时序信息。首先对文本的one-hot向量做词嵌入操作,获得每个单词的词嵌入编码。之后利用步骤(2-2)中提到的bi-GRU对文本的时序信息进行编码。
(4-3)文本的局部信息增强编码。对于在步骤(4-2)中获得的文本特征,类似地,我们采用步骤(2-3)中基于biGRU-CNN的方法对文本特征进行编码,得到文本局部信息增强的特征。
(5)使用与步骤(3)一样的方法,对上述得到的三个文本特征及步骤(1-4)得到的文本的BERT特征进行多级特征融合,以获得文本最终的特征。
进一步地,所述步骤(6)利用公共空间学习算法来学习两个模态之间的相关性并训练模型的方法如下:
(6-1)将从步骤(3)和(5)中经过多级特征融合得到的视频和文本的特征分别通过全连接层映射到一个统一的公共空间进行表达,并且在全连接层之后使用批归一化(BN)层。
(6-2)通过定义的三元排序损失,以端到端的方式训练模型,使模型自动学习两个模态之间的相关性。
进一步地,所述步骤(7)利用步骤(6)训练得到的模型实现文本到视频的跨模态检索包括如下步骤:
(7-1)将输入的文本查询和所有候选视频通过训练好的模型映射到一个公共空间。
(7-2)计算文本查询和所有候选视频在公共空间的相似度,并根据相似度对候选视频进行排序,并返回检索结果。
本发明的有益效果是:本发明提出了多级深度编码网络,首次使用具有相似架构的多层编码网络同时对句子和视频进行量化编码和表示学习,将编码的多个特征进行多级特征融合,挖掘特征之间的关系,从而得到鲁棒的视频和文本表达。由于两个模态的特征不能直接比较,通过全连接层将它们的特征映射到一个统一公共空间中,利用公共空间算法来学习两个模态之间的关系,通过端到端的方式训练模型,自动学习文本和视频的匹配关系,从而实现文本到视频的跨模态检索。本发明是一种无概念的方法,不需复杂的概念检测操作,就能实现跨模态检索,并且利用了深度学习技术,在很大程度上提高了检索的性能和效率。
附图说明
图1为本发明的面向视频的多级编码网络结构示意图;
图2为本发明的面向文本的多级编码网络结构示意图;
图3为本发明的基于多级特征融合的公共空间学习模型的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
本发明提出了一种基于多级编码的文本到视频的跨模态检索方法,包括:
(1)利用不同的特征提取方法分别提取视频和文本这两种模态的特征。
(1-1)对于给定的一个视频,我们预先指定每隔0.5秒从视频中均匀提取出n个视频帧。然后使用在ImageNet数据集上训练好的卷积神经网络(CNN)模型,比如ResNet模型,提取每帧的深度特征。这样,视频就可以由一系列特征向量{v1,v2,...,vn}来描述,其中vt表示第t帧的特征向量。
(1-2)由于视频中除了视觉信息之外,还有音频的相关信息对模型对视频内容的理解也有一定帮助,因此我们还对视频音频特征进行编码,让模型能更好地捕获音频方面的信息。
首先我们提取数据集中视频的音频数据,然后通过梅尔频率倒谱系数(MFCC)提取包含音频更多信息的MFCC特征数据。最后MFCC特征输入到在AudioSet数据集上预训练的VGGish模型中,提取音频每秒128维的特征,将这些特征均值化得到音频的最终特征
Figure BDA0002374348850000051
(1-3)给定长度为m的句子s,我们用独热编码(one-hot)来编码每个单词。因此,可生成一个独热编码向量序列{w1,w2,...,wm},其中wt表示第t个单词的one-hot向量。这就初步提取了文本的特征。
(1-4)由于句子中单词与单词之间的联系十分的密切,因此对理解句子中各单词之间的上下文关系就显得尤为重要。BERT是目前自然语言处理领域最先进也是最流行的语言模型,它能通过在其他大规模无标注语料库中预训练来学习文本中丰富语义信息。因此我们利用在Wikipedia和BookCorpus两个大型语料库中预训练的BERT模型提取句子级别的特征
Figure BDA0002374348850000052
通过上述步骤的特征提取,我们分别得到了视频和文本的初始特征,但这些特征只是简单的通过CNN模型和独热编码分别提取视频和文本的初始特征,其中包含的内容信息比较粗略,因此我们对这些特征进行进一步的编码处理,以获得更加精细的特征信息。
(2)多级编码网络对在步骤(1)中得到的视频视觉特征进行多级编码,以获得更强大的特征表述,网络结构如图1所示。首先是获取视频的全局特征,这是第一级特征;然后利用双向循环神经网络对特征向量{v1,v2,...,vn}进行编码以得到含有时序信息的特征,这是第二级特征;之后利用1维卷积神经网络(1-d CNN)对含有时序信息的特征进行局部信息的增强得到第三级特征。经过这三个等级的编码后,将得到的三个特征以及音频特征进行多级特征融合得到视频最终的特征,具体步骤如下:
(2-1)首先我们对视频全局信息进行编码。由于步骤(1)中已经利用预训练的CNN模型提取了视频每帧的特征,因此我们首先对这些特征采用均值操作(average pooling),也就是简单地平均每个视频帧的特征来获取视频的全局特征。根据定义,均值操作可以捕获重复出现在视频内容中的视觉模式,这些模式往往是全局的。我们用
Figure BDA0002374348850000061
来表示此级别的编码特征。视频帧的均值操作公式如下:
Figure BDA0002374348850000062
其中n为视频帧的个数,vt为第t帧的深度特征。
(2-2)由于视频本质就是一组图像序列组成,因此我们还可以对它们进行时序上的编码,步骤如下:
已知双向循环神经网络能有效地利用给定序列的过去和未来的上下文信息。因此,我们利用这样的网络对视频时序信息进行建模。我们采用双向GRU(bi-GRU)网络,因其参数少于双向LSTM,因此只需较少的训练数据。双向GRU由两个独立的GRU层组成,即前向GRU和后向GRU。前向GRU按正常顺序编码视频帧的特征,即从前往后的顺序;而后向GRU以相反的顺序编码视频帧特征。令
Figure BDA0002374348850000063
Figure BDA0002374348850000064
表示指定时间步t=1,2,...,n的相应隐藏状态。两种隐藏状态生成为:
Figure BDA0002374348850000065
Figure BDA0002374348850000066
其中
Figure BDA0002374348850000067
Figure BDA0002374348850000068
表示的是前向GRU和后向GRU,其上一时间步的信息分别由
Figure BDA0002374348850000069
Figure BDA00023743488500000610
承载。拼接当前时间步的
Figure BDA00023743488500000611
Figure BDA00023743488500000612
我们就获得了双向GRU在t时刻的输出
Figure BDA00023743488500000613
根据经验我们设置前向和后向GRU的隐藏状态大小为512维。因此,ht的大小是1,024维。将所有输出放在一起,我们得到一个特征映射H={h1,h2,...,hn},大小为1024×n维。将基于bi-GRU的编码表示为
Figure BDA00023743488500000614
它是通过沿着行维度在H上应用均值操作来获得的,即
Figure BDA00023743488500000615
其中n为视频帧的个数,ht是时间步为t时的隐藏状态。
(2-3)由于之前只是获取了视频全局特征,因此我们还要对其局部信息进行增强,以获得视频数据中更多的信息。对视频局部信息增强的编码步骤如下:
为了增强有助于区分视频之间微妙差异的局部模式,我们在双向GRU之上构建卷积网络。特别地,我们采用最初为句子分类开发的1-d CNN来进行进一步编码。
1-d CNN的输入是由步骤(2-2)中的双向GRU模块生成的特征映射H。我们用Conv1dk,r表示1-d卷积块,其包含大小为k的r=512个滤波器,其中k≥2。在零填充之后将H输入到Conv1dk,r中产生一个n×r的特征图,之后再在特征图上应用激活函数ReLU。当n随视频变化时,我们进一步采用最大池化(max pooling)以将特征图压缩为固定长度为r的向量ck。我们将上述过程表达为:
ck=max-pooling(ReLU(Convldk,r(H)))
由于k=2的滤波器允许H中的两个相邻行彼此交互,而较大k的滤波器意味着同时利用更多相邻行。为了生成多尺度表示,我们分别在视频的时序特征上应用了k=2,3,4,5这四个1-d卷积块,拼接它们的输出以生成基于biGRU-CNN的编码,即:
Figure BDA0002374348850000071
其中||表示特征的拼接。
(3)
Figure BDA0002374348850000072
是通过特定编码策略在不同级别上顺序获得的,它们分别表示了视频的音频特征、全局、时序、局部特征,我们认为这四个编码结果彼此互补且互相联系,为挖掘特征之间的关联性,我们通过多级特征融合的方法获取视频端最终的特征,如图3所示,其步骤如下:
我们将上述得到的四个特征分别拼接任意两个特征,之后将这些特征作为一个多层感知机的输入,以此来量化四个特征之间的关系,最后将多层感知机的输出进行平均池化得到视频端一个最终的特征,表示为:
Figure BDA0002374348850000073
其中MLPθ表示一个多层感知机,||表示两个不同的特征的拼接,(i<j)表示不考虑两个特征的前后顺序,
Figure BDA0002374348850000074
(4)利用并行的方式,采用与步骤(2)中类似的模型结构,如图2所示,对在步骤(1)中得到的文本特征进行多级编码,同样经过全局、时序和局部三个等级的编码,将得到的三个特征以及BERT提取的特征进行多级特征融合,得到最终的文本特征表示,具体步骤如下;
(4-1)获取文本的全局特征。步骤(1-3)中已经利用one-hot对文本中的每个单词进行了编码,使用与视频同样的方法,对每个单词的特征向量做均值操作,得到文本的一个全局特征,用
Figure BDA0002374348850000075
表示。
(4-2)文本由一组单词序列组成,因此文本同样含有时序信息。所以可以同样利用双向GRU对文本进行时序编码。首先因为使用在步骤(1-3)中所述的one-hot对文本编码的特征向量维度会比较大且稀疏,还有就是单词与单词之间彼此独立没有联系。所以我们通过将文本的one-hot向量与一个词嵌入(word embedding)矩阵相乘,将每个单词特征转换为密集向量且使每个词之间建立联系,这里我们使用在3000万Flickr图像的标签上训练word2vec模型。之后的步骤与步骤(2-2)对视频进行时序编码的步骤一样,我们将词嵌入编码后的每个单词特征输入到双向GRU中,最后获得文本的时序特征,用
Figure BDA0002374348850000081
表示。
(4-3)对于在步骤(4-2)中获得的文本特征,类似地,我们采用步骤(2-3)中基于biGRU-CNN的方法对文本特征进行编码,我们分别用到k=2,3,4,5这四个1-d卷积块,得到文本局部信息增强的特征
Figure BDA0002374348850000082
(5)同样地,我们对前述步骤得到的文本的四个特征做多级特征融合,如图3所示,得到文本端的最终特征,表示为:
Figure BDA0002374348850000083
其中MLPθ表示一个多层感知机,||表示两个不同的特征的拼接,(i<j)表示不考虑两个特征的前后顺序,
Figure BDA0002374348850000084
(6)通过步骤(3)和(5)我们就获得了视频和文本的多级编码特征
Figure BDA0002374348850000085
Figure BDA0002374348850000086
由于
Figure BDA0002374348850000087
Figure BDA0002374348850000088
之间没有相关,因此它们不能直接进行比较。对于视频特征与文本特征的相似度计算,需要将它们特征向量映射到统一的公共空间中才能进行计算。因此,我们利用公共空间学习算法来学习两个模态之间的相关度,最后以端到端的方式训练模型,使得模型能够自动学习文本和视频两个模态数据之间的关系,以此实现文本到视频的跨模态检索。步骤如下:
(6-1)在给定编码的视频的特征向量
Figure BDA0002374348850000089
和文本的特征向量
Figure BDA00023743488500000810
我们通过全连接(FC)层将它们映射到一个公共空间中。此外,我们在FC层之后另外使用批归一化(BN)层,这有助于模型的性能提升。最终,视频v和句子s在公共空间中的视频特征向量f(v)和文本特征向量f(s)为:
Figure BDA00023743488500000811
Figure BDA00023743488500000812
其中Wv和Ws是FC层的仿射矩阵参数,bv和bs为偏置项。
(6-2)除了用于提取视频特征的预训练的图像卷积网络参数是固定的之外,视频和文本的多级编码网络参数和公共空间学习网络参数都是以端到端的方式一起训练的。我们将所有可训练参数记为θ,用Sθ(v,s)表示视频v和文本s相似度,其用f(v)和f(s)之间的余弦相似度来计算。
我们使用三元排序损失(marginal ranking loss),它通过最难负样本(hardestnegative sample)来惩罚模型。具体地说,一个相关视频-句子对的损失函数L(v,s;θ)定义为:
L(v,s;θ)=max(0,α+Sθ(v,s-)-Sθ(v,s))
+max(0,α+Sθ(v-,s)-Sθ(v,s))
其中α是边际常数(margin),设为0.2,s-和v-分别表示与视频v的不相关的句子示例和与句子s的不相关的视频示例。这两个不相关的样本不是随机抽样的,而是会选择当前小批量数据中模型预测最相似但实际为不相关的句子和视频。
(6-3)我们通过最小化三元排序损失函数在训练集上的值以端到端的方式训练模型。我们采用基于Adam的批量数据随机梯度下降(Stochastic Gradient Descent)优化算法,批量数据(mini-batch)的大小设为64,初始学习率为0.0001,最大训练周期设为50。在训练过程中,如果验证集上的性能在两个连续的周期后没有提升,则将学习率除以2;如果连续10个训练周期验证集上的性能都没有提升,则停止训练。
(7)通过步骤(6)对模型的训练,模型已经学习到了视频和文本之间的相互的联系。给定一个文本查询,模型从一个候选视频集中找出与文本查询的相关视频,并将其作为检索结果。步骤如下:
(7-1)将给定的文本查询和所有候选视频通过步骤(6)训练好的模型映射一个到公共空间,文本s表示成f(s),视频v表示成f(v)。
(7-2)计算文本查询和所有候选视频在公共空间的余弦相似度,然后根据余弦相似度对所有候选视频进行降序排序,并将排序靠前的视频作为检索结果返回,以此实现文本到视频的跨模态检索。
以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (8)

1.一种基于多级编码的文本到视频的跨模态检索方法,其特征在于,包括:
(1)利用不同的特征提取方法分别对视频和文本的特征进行提取,得到两种模态数据的初始特征;并获得视频的音频特征及文本的BERT特征;
(2)对在步骤(1)中得到的视频初始特征进行多级编码,包括视频的全局、时序和局部三个等级的编码;
(3)将步骤(1)获得的视频的音频特征和步骤(2)获得的视频的三个等级特征进行多级特征融合;将步骤(1)获得的视频的音频特征fv (1)和步骤(2)获得的视频的全局特征fv (2)、时序特征fv (3)、局部特征fv (4)进行多级特征融合,将这四个特征分别拼接任意两个特征,之后将这些特征作为一个多层感知机的输入,以此来量化四个特征之间的关系,最后将多层感知机的输出进行平均池化得到视频端的最终特征
Figure FDA0003355899350000015
表示为:
Figure FDA0003355899350000016
其中MLPθ表示一个多层感知机,||表示两个不同的特征的拼接,(i<j)表示不考虑两个特征的前后顺序,
Figure FDA0003355899350000017
(4)以并行的方式,对在步骤(1)中得到的文本初始特征进行多级编码,包括文本的全局、时序和局部三个等级的编码;
(5)将步骤(1)获得的文本的BERT特征和步骤(4)获得的文本的三个等级特征进行多级特征融合;
(6)将步骤(3)和步骤(5)中经过多级特征融合后的视频和文本特征分别映射到公共空间中,利用公共空间学习算法来学习两个模态之间的相关度,最后以端到端的方式训练模型;
(7)利用步骤(6)训练得到的模型实现文本到视频的跨模态检索。
2.根据权利要求1所述的基于多级编码的文本到视频的跨模态检索方法,其特征在于,所述步骤(1)中分别提取视频和文本特征的方法包括如下步骤:
(1-1)利用预训练的深度卷积神经网络对输入的视频帧进行视觉特征提取,获得视频的初始特征;
(1-2)利用预训练的VGGish模型对视频的音频进行特征提取,得到视频的音频特征;
(1-3)利用独热编码对文本中的每个单词进行编码,获得文本的初始特征;
(1-4)利用在大规模无标注语料上预训练的BERT模型,提取包含丰富语义信息的句子特征,即文本的BERT特征。
3.根据权利要求1所述的基于多级编码的文本到视频的跨模态检索方法,其特征在于,所述步骤(2)中对在步骤(1)中获得的视频初始特征进行多级编码的方法包括如下步骤:
(2-1)视频的全局信息编码;通过对视频帧的初始特征做均值操作,获得一个视频的全局编码特征;
(2-2)视频的时序信息编码;利用双向GRU(bi-GRU)对视频初始特征进行编码,获得bi-GRU每个时刻的隐藏状态,通过对这些隐藏状态做均值操作,获得一个包含视频时序信息的特征向量;
(2-3)视频的局部信息增强编码;利用1维卷积神经网络(1-d CNN)对步骤(2-2)中bi-GRU每个时刻输出的隐藏状态进行卷积操作,得到视频局部信息增强的特征。
4.根据权利要求1所述的基于多级编码的文本到视频的跨模态检索方法,其特征在于,所述步骤(4)中对在步骤(1)中获取的文本初始特征进行多级编码的方法包括如下步骤:
(4-1)文本的全局信息编码;对每个单词的特征向量做均值操作,获取文本的一个全局特征;
(4-2)文本的时序信息编码;首先对文本的one-hot向量做词嵌入操作,获得每个单词的词嵌入编码;然后利用双向GRU(bi-GRU)对文本词嵌入特征进行编码,获得bi-GRU每个时刻的隐藏状态,通过对这些隐藏状态做均值操作,获得一个包含文本时序信息的特征向量;
(4-3)文本的局部信息增强编码;利用1维卷积神经网络(1-d CNN)对步骤(4-2)中bi-GRU每个时刻输出的隐藏状态进行卷积操作,得到文本局部信息增强的特征。
5.根据权利要求1所述的基于多级编码的文本到视频的跨模态检索方法,其特征在于,所述步骤(5)中将步骤(1)获得的文本的BERT特征fs (1)和步骤(4)获得的文本的全局特征fs (2)、时序特征fs (3)、局部特征fs (4)进行多级特征融合,将这四个特征分别拼接任意两个特征,之后将这些特征作为一个多层感知机的输入,以此来量化四个特征之间的关系,最后将多层感知机的输出进行平均池化得到文本端的最终特征
Figure FDA0003355899350000021
表示为:
Figure FDA0003355899350000031
其中MLPθ表示一个多层感知机,||表示两个不同的特征的拼接,(i<j)表示不考虑两个特征的前后顺序,
Figure FDA0003355899350000032
6.根据权利要求1所述的基于多级编码的文本到视频的跨模态检索方法,其特征在于,所述步骤(6)利用公共空间学习算法来学习两个模态之间的相关性并训练模型的方法如下:
(6-1)将从步骤(3)和(5)中经过多级特征融合得到的视频和文本的特征分别通过全连接层映射到一个统一的公共空间进行表达,并且在全连接层之后使用批归一化(BN)层;
(6-2)通过三元排序损失,以端到端的方式训练模型,使模型自动学习两个模态之间的相关性。
7.根据权利要求6所述的基于多级编码的文本到视频的跨模态检索方法,其特征在于,所述步骤(6-2)中三元排序损失通过最难负样本来惩罚模型;一个相关视频-句子对的损失函数L(v,s;θ)定义为:
L(v,s;θ)=max(0,α+Sθ(v,s-)-Sθ(v,s))+max(0,α+Sθ(v-,s)-Sθ(v,s))
其中α是边际常数(margin),s-和v-分别表示与视频v的不相关的句子示例和与句子s的不相关的视频示例;这两个不相关的样本不是随机抽样的,而是会选择当前小批量数据中模型预测最相似但实际为不相关的句子和视频;Sθ(v,s)表示视频v和文本s相似度,其用f(v)和f(s)之间的余弦相似度来计算。
8.根据权利要求1所述的基于多级编码的文本到视频的跨模态检索方法,其特征在于,所述步骤(7)利用步骤(6)训练得到的模型实现文本到视频的跨模态检索包括如下步骤:
(7-1)将输入的文本查询和所有候选视频通过训练好的模型映射到一个公共空间;
(7-2)计算文本查询和所有候选视频在公共空间的相似度,并根据相似度对候选视频进行排序,并返回检索结果。
CN202010060690.5A 2020-01-19 2020-01-19 一种基于多级编码的文本到视频的跨模态检索方法 Active CN111309971B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010060690.5A CN111309971B (zh) 2020-01-19 2020-01-19 一种基于多级编码的文本到视频的跨模态检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010060690.5A CN111309971B (zh) 2020-01-19 2020-01-19 一种基于多级编码的文本到视频的跨模态检索方法

Publications (2)

Publication Number Publication Date
CN111309971A CN111309971A (zh) 2020-06-19
CN111309971B true CN111309971B (zh) 2022-03-25

Family

ID=71144939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010060690.5A Active CN111309971B (zh) 2020-01-19 2020-01-19 一种基于多级编码的文本到视频的跨模态检索方法

Country Status (1)

Country Link
CN (1) CN111309971B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112000818B (zh) * 2020-07-10 2023-05-12 中国科学院信息工程研究所 一种面向文本和图像的跨媒体检索方法及电子装置
CN111897913B (zh) * 2020-07-16 2022-06-03 浙江工商大学 基于语义树增强的复杂文本查询到视频的跨模态检索方法
CN112241468A (zh) * 2020-07-23 2021-01-19 哈尔滨工业大学(深圳) 一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质
CN111930992B (zh) * 2020-08-14 2022-10-28 腾讯科技(深圳)有限公司 神经网络训练方法、装置及电子设备
CN112069361A (zh) * 2020-08-27 2020-12-11 新华智云科技有限公司 一种基于多模态融合的视频描述文本生成方法
CN112488133B (zh) * 2020-12-18 2022-06-14 贵州大学 一种视频/图片-文本跨模态检索方法
CN112650886B (zh) * 2020-12-28 2022-08-02 电子科技大学 基于跨模态动态卷积网络的跨模态视频时刻检索方法
CN112883896B (zh) * 2021-03-10 2022-10-11 山东大学 一种基于bert网络的微表情检测方法
CN113239159B (zh) * 2021-04-26 2023-06-20 成都考拉悠然科技有限公司 基于关系推理网络的视频和文本的跨模态检索方法
CN113204675B (zh) * 2021-07-07 2021-09-21 成都考拉悠然科技有限公司 一种基于跨模态物体推理网络的跨模态视频时刻检索方法
CN113673251B (zh) * 2021-08-09 2024-07-26 浙江浙能数字科技有限公司 一种基于无监督生成网络的多编码体系互迁移方法
CN114037945B (zh) * 2021-12-10 2024-09-06 浙江工商大学 一种基于多粒度特征交互的跨模态检索方法
CN114064967B (zh) * 2022-01-18 2022-05-06 之江实验室 多粒度级联交互网络的跨模态时序行为定位方法及装置
CN114743630B (zh) * 2022-04-01 2024-08-02 杭州电子科技大学 一种基于跨模态对比学习的医学报告生成方法
CN114998777B (zh) * 2022-04-22 2024-08-13 北京爱奇艺科技有限公司 一种针对跨模态视频检索模型的训练方法及装置
CN114625924B (zh) * 2022-05-16 2022-08-26 浙江大学 一种基于多视觉专家知识蒸馏的侵权视频检索方法及系统
CN114861016A (zh) * 2022-07-05 2022-08-05 人民中科(北京)智能技术有限公司 一种跨模态检索方法、装置以及存储介质
CN115392365B (zh) * 2022-08-18 2024-04-26 腾讯科技(深圳)有限公司 多模态特征的获取方法、装置及电子设备
CN116108147A (zh) * 2023-04-13 2023-05-12 北京蜜度信息技术有限公司 基于特征融合的跨模态检索方法、系统、终端及存储介质
CN117493608B (zh) * 2023-12-26 2024-04-12 西安邮电大学 一种文本视频检索方法、系统及计算机存储介质
CN117743869B (zh) * 2024-02-18 2024-05-17 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种内容发现方法、系统、终端及存储介质
CN117874175B (zh) * 2024-03-12 2024-06-04 武汉纺织大学 一种基于信息瓶颈的信息检索方法和系统
CN118585671A (zh) * 2024-08-02 2024-09-03 北京小米移动软件有限公司 视频检索方法、装置、电子设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8521766B1 (en) * 2007-11-12 2013-08-27 W Leo Hoarty Systems and methods for providing information discovery and retrieval
CN106021402A (zh) * 2016-05-13 2016-10-12 河南师范大学 用于跨模态检索的多模态多类Boosting框架构建方法及装置
CN108200483B (zh) * 2017-12-26 2020-02-28 中国科学院自动化研究所 动态多模态视频描述生成方法
CN108846375B (zh) * 2018-06-29 2019-06-18 山东大学 一种基于神经网络的多模态协同学习方法及装置
CN109344404B (zh) * 2018-09-21 2020-08-25 中国科学技术大学 情境感知的双重注意力自然语言推理方法

Also Published As

Publication number Publication date
CN111309971A (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
CN111309971B (zh) 一种基于多级编码的文本到视频的跨模态检索方法
CN111897913B (zh) 基于语义树增强的复杂文本查询到视频的跨模态检索方法
CN106650813B (zh) 一种基于深度残差网络和lstm的图像理解方法
CN106845411B (zh) 一种基于深度学习和概率图模型的视频描述生成方法
CN105938485B (zh) 一种基于卷积循环混合模型的图像描述方法
CN107506712A (zh) 一种基于3d深度卷积网络的人类行为识别的方法
CN112241468A (zh) 一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质
CN111400494B (zh) 一种基于GCN-Attention的情感分析方法
CN111274398A (zh) 一种方面级用户产品评论情感分析方法及系统
CN110888980A (zh) 基于知识增强的注意力神经网络的隐式篇章关系识别方法
CN109933682B (zh) 一种基于语义与内容信息结合的图像哈希检索方法及系统
CN113204522B (zh) 基于结合生成对抗网络的哈希算法的大规模数据检索方法
CN113128431B (zh) 视频片段检索方法、装置、介质与电子设备
CN116524593A (zh) 一种动态手势识别方法、系统、设备及介质
CN114037945A (zh) 一种基于多粒度特征交互的跨模态检索方法
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及系统
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN113806554A (zh) 面向海量会议文本的知识图谱构建方法
Yi et al. Exploiting language model for efficient linguistic steganalysis
CN117765450A (zh) 一种视频语言理解方法、装置、设备及可读存储介质
CN117909555A (zh) 多模态信息检索方法、装置、设备、可读存储介质及计算机程序产品
CN117807269A (zh) 基于视频情景分析的达人推荐方法及系统
CN117315695A (zh) 一种基于多层次语义增强的多模态假新闻检测方法
CN116881520A (zh) 基于偏序的内容检索模型训练方法、内容检索方法及装置
Phuc et al. Video captioning in Vietnamese using deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant