CN114003770A - 一种受阅读策略启发的跨模态视频检索方法 - Google Patents

一种受阅读策略启发的跨模态视频检索方法 Download PDF

Info

Publication number
CN114003770A
CN114003770A CN202111084182.1A CN202111084182A CN114003770A CN 114003770 A CN114003770 A CN 114003770A CN 202111084182 A CN202111084182 A CN 202111084182A CN 114003770 A CN114003770 A CN 114003770A
Authority
CN
China
Prior art keywords
video
preview
reading
space
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111084182.1A
Other languages
English (en)
Inventor
王雅冰
董建锋
陈先客
王勋
徐晓刚
王军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Zhejiang Lab
Original Assignee
Zhejiang Gongshang University
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University, Zhejiang Lab filed Critical Zhejiang Gongshang University
Priority to CN202111084182.1A priority Critical patent/CN114003770A/zh
Publication of CN114003770A publication Critical patent/CN114003770A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及视频跨模态检索技术领域,尤其涉及一种受阅读策略启发的跨模态视频检索方法,对于视频编码,采用预览分支和精读分支共同学习来表示视频,预览分支旨在简要地捕捉视频的概述信息,而精读分支旨在获取更深入的信息,本发明将从预览分支生成的较早的视频特征集成到精读分支中,对精读分支的特征提取做进一步指导,使得精读分支可以感知预览分支捕获的视频概述,用于提取更细粒度的特征,将两个分支的得到特征分别与文本特征映射到两个不同的混合空间中,在混合空间中进行跨模态匹配,从而实现文本到视频的跨模态检索。本发明使用端到端的方式训练模型,并在性能和模型复杂度上达到了最佳平衡。

Description

一种受阅读策略启发的跨模态视频检索方法
技术领域
本发明涉及视频跨模态检索技术领域,尤其涉及一种受阅读策略启发的跨模态视频检索方法。
背景技术
随着YouTube和TikTok等视频流媒体平台的日益普及,视频数据出现了爆炸式增长。本发明的目标是实现基于语言的视频检索。给定一个自然语言句子形式的查询,它被要求从大量无标签的视频中检索与给定查询语义相关的视频。
为了建立这样的视频检索模型,如何计算两种模态即视频和文本之间的语义相似度是至关重要的。早期基于语言的视频检索是基于概念的方法,它们将视频和文本查询表示到预定义的概念空间,并通过概念匹配计算相似度。由于基于概念的方法性能有限,因此基于跨模态表示学习的方法更受青睐,它以无概念的方式学习联合嵌入空间来进行跨模态相似度度量,表现出了更好的性能。
本发明在基于跨模态表示学习方法的基础上,重点研究视频表征学习,它是基于语言的视频检索的重要组成部分。视频表征学习的一种典型方法是首先通过预先训练的CNN模型从视频帧中提取视觉特征,然后通过平均池化或最大池化操作将帧级特征聚合为视频级特征。继而使用全连接层进一步将视频级特征映射到联合嵌入空间中。目前的视频表征学习模型可以根据结构大致分为两类:单分支模型和多分支模型。单分支模型主要取代了上述简单的池化策略,对序列感知深度神经网络进行了进一步的探索,但是它们通常是以一种全局的角度进行粗粒度视频表征学习,因此可能无法全面捕捉视频信息。多分支模型通过利用多个分支来对视频进行编码,尽管它们在性能上有了更好的提升,但由于在这种结构中,分支间相互独立,没有进一步的信息交互和传递,因此认为这种方法是次优的。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提供一种受阅读策略启发的跨模态视频检索方法,其具体技术方案如下:
一种受阅读策略启发的跨模态视频检索方法,包括如下步骤:
(1)采用预先训练的卷积神经网络提取视频模态的初始特征,得到视频的初始特征序列;
(2)将初始特征序列输入并通过预览分支进行编码得到视频中的预览特征;
(3)将初始特征序列输入并通过精读分支进行编码得到多粒度片段特征,后感知并集成预览特征,提取出精读特征;
(4)使用预训练的BERT模型对文本模态进行编码,得到文本多级编码特征;
(5)将视预览特征和精读特征分别与文本多级编码特征映射输入到对应混合空间,通过混合空间计算视频模态与文本模态之间的相似度来进行跨模态匹配;
(6)优化并训练通过步骤(1)至步骤(5)建立的检索模型,最后将视频和文本输入到训练好的检索模型中来实现文本到视频的跨模态检索。
进一步的,所述步骤(2)具体为:将视频帧特征序列输入到预览分支的双向GRU网络,双向GRU由一个前向GRU和后向GRU组成,将在前向GRU和后向GRU中所有特定时间步{t=1,…,m}的隐藏状态进行拼接作为双向GRU的输出,得到一个特征向量序列H={h1,h2,…,hm},大小为m×1024维;然后沿着时间维度对特征向量序列H应用平均池化操作来获得预览特征向量,即
Figure BDA0003264318590000021
进一步的,所述步骤(3)具体包括以下步骤:
(3-1)首先使用精读分支的全连接层对视觉特征序列进行降维,得到降维后的视觉特征序列V′;
(3-2)然后将V′输入卷积核大小为n,步长为s,卷积核数量为r的卷积神经网络CNN来提取不同长度的片段特征,具体公式表示为:
Cn=δ(Conv1Dr,n,s(V′))
其中δ代表Relu激活函数;
将由不同大小的卷积核生成的分段特征放在一起,获得多粒度片段特征,即:
Figure BDA0003264318590000022
其中φ表示卷积核的大小,mn表示长度为n的片段的数量,r是片段特征向量的维度,向量化片段特征后为C′,使用视觉特征序列V′作为长度为1的片段特征;
(3-3)对多粒度片段特征,进行感知预览注意力操作得到精读特征向量。
进一步的,所述步骤(3-3)具体为:
首先,将预览特征向量p映射为一个dk维的查询query特征向量Q,将片段特征向量C′分别映射为一个dk维的键key特征向量K和dv维的值value特征向量V,然后使用query和value通过点积计算来得到注意力权重,再将得到的注意力权重与value特征向量进行加权和,得到一个注意力特征向量O,即:
O=W4Attention(pW1,C′W2,C′W3)
Figure BDA0003264318590000031
其中W1,W2,W3和W4是可学习的映射矩阵参数;
接着使用残差操作来增强输入,得到更新后的注意力特征向量O′,即:
O′=LN(O+maxpool(C′))
其中,LN表示层归一化和最大池化操作,对片段特征向量沿时间维度进行了池化操作;
在获得了注意力特征向量之后,利用带有残差和层归一化的前馈网络对上述特征向量做进一步增强,通过使用多层感知机MLP来实现前馈网络,即:
PaA(p,C′)=LN(o′+MLP(o′))
其中,MLP由两个全连接层和Relu激活函数组成的;
最后对于多粒度片段特征,并行地对每个粒度执行上述的感知预览注意力操作,并将每个粒度的输出拼接起来作为精读分支的最终输出,得到精读特征向量g,具体表示如下:
Figure BDA0003264318590000032
其中,ConCat表示拼接操作。
进一步的,所述混合空间包括预览混合空间和精读混合空间,在混合空间中分别使用一个全连接层将视频文本对映射到一个概念空间和一个潜在空间中,并使用余弦相似度来计算视频文本对的相似度。
进一步的,所述概念空间使用一个二进制交叉熵损失和一个三元排序损失对该空间学习进行联合约束;所述潜在空间,使用一个三元排序损失对该空间学习进行约束。
进一步的,所述步骤(6)具体为:将所述概念空间的损失与潜在空间的损失相加作为混合空间的联合损失,通过最小化预览混合空间和精读混合空间的损失之和优化检索模型,使用Adam优化器训练检索模型,将文本和视频分别映射到预览混合空间和精读混合空间中,并在这两个空间中,通过计算视频文本对之间的余弦相似度,来对候选视频进行排序,将相似度更好的结果作为最终的返回结果,通过此过程来实现跨模态匹配任务。
进一步的,所述使用Adam优化器训练检索模型,在训练过程中,采用早停的训练策略,若验证损失在连续的三个周期内没有减少,就将学习率除以2,若验证性能在连续10个周期内没有改善,则发生早期停止。
本发明的有益效果:
本发明的一种受阅读策略启发的跨模态视频检索方法采用一个预览分支和一个精读分支共同学习来表示视频,并建立检索模型,与采用基于重型Transformer的模型相比,在性能和模型复杂性方面达到了最佳平衡,且两分支视频表示体系结构对注意力实现不敏感,具有良好的鲁棒性和处理复杂视频的潜力。
附图说明
图1为本发明实施例的受阅读策略启发的跨模态视频检索方法流程示意图;
图2为本发明的检索模型的感知预览注意力操作流程示意图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图,对本发明作进一步详细说明。
如图1所示,本发明提出了一种受阅读策略启发的跨模态视频检索方法,具体包括如下步骤:
(1)对视频使用不同的特征提取方法来得到视频模态数据的初始特征。具体的,给定一个视频,首先统一提取一个预先指定间隔为0.5秒的视频帧序列,并使用在ImageNet上预先训练的2D CNN卷积神经网络提取帧特征。此外,3D CNN卷积神经网络也可以用于特征提取,将帧片段作为单独项进行处理。
通过上述步骤,得到了视频的初始特征序列,然后将其输入到预览分支和精读分支中,以捕获更加精确和深层次的视频信息。
(2)将步骤(1)中得到特征序列输入到预览分支进行编码来获得视频中的视觉概述信息,具体步骤如下:
将步骤(1)中得到的视频帧特征序列输入到双向GRU(bi-GRU)网络中编码来提取视频的概述信息,双向GRU由一个前向GRU和后向GRU组成,将在前向GRU和后向GRU中所有特定时间步{t=1,…,m}的隐藏状态进行拼接作为双向GRU的输出,得到一个特征向量序列H={h1,h2,…,hm},大小为m×1024维;然后沿着时间维度对特征向量序列H应用平均池化操作来获得预览特征向量,即
Figure BDA0003264318590000051
此外,该预览分支可以是任何将视频作为特征向量序列建模的轻量级模型。
(3)将步骤(1)中得到的视频特征序列输入到精读分支中进行编码。由于视频通常包含多个对象和复杂的场景,因此本发明引入精读分支来编码多粒度的特征信息,并在预览分支所学习到的视觉概述信息的指导下来提取更深层次的信息,具体步骤如下:
(3-1)首先使用全连接层对步骤(1)中得到的视觉特征序列映射到一个低维的特征空间中进行降维,以降低计算复杂度,得到一个2048×m维的视觉特征序列V′。
(3-2)然后利用卷积核大小为n,步长为s,卷积核数量为r的卷积神经网络CNN来提取不同长度的片段特征,具体公式可表示为:
Cn=δ(Conv1Dr,n,s(V′))
其中δ代表Relu激活函数。
将由不同大小的卷积核生成的分段特征放在一起,获得多粒度片段特征,即:
Figure BDA0003264318590000053
其中φ表示卷积核的大小,mn表示长度为n的片段的数量,r是片段特征向量的维度,向量化片段特征后为C′。为了减少计算量,直接使用视觉特征序列V′作为长度为1的片段特征。
(3-3)对于通过步骤(3-1)得到的多粒度片段特征,为了自适应的增强与视频语义更加相关的片段特征,进行感知预览注意力操作,如图2所示,所述感知预览注意力操作借鉴Transformer中的多头注意力机制的思想,具体步骤如下:
首先,将预览特征向量p映射为一个dk维的查询query特征向量Q,将片段特征向量C′分别映射为一个dk维的键key特征向量K和dv维的值value特征向量V,然后使用query和value通过点积计算来得到注意力权重,再将得到的注意力权重与value特征向量进行加权和,得到一个注意力特征向量O,即:
O=W4Attention(pW1,C′W2,C′W3)
Figure BDA0003264318590000052
其中W1,W2,W3和W4是可学习的映射矩阵参数。
与Transformer相同,本发明同样使用了残差操作来增强输入,来得到更新后的注意力特征向量O′,即:
O′=LN(O+maxpool(C′))
其中,LN表示层归一化和最大池化操作,由于片段特征和注意力特征向量的大小不匹配,因此对片段特征向量沿时间维度进行了池化操作。
在获得了注意力特征向量之后,利用带有残差和层归一化的前馈网络对上述特征向量做进一步增强,再通过使用多层感知机MLP来实现前馈网络,即:
PaA(p,C′)=LN(o′+MLP(o′))
其中,MLP由两个全连接层和Relu激活函数组成的。
最后对于多粒度片段特征,并行地对每个粒度执行上述的感知预览注意力操作,并将每个粒度的输出拼接起来作为精读分支的最终输出,得到精读特征向量g,具体表示如下:
Figure BDA0003264318590000061
其中,ConCat表示拼接操作。
(4)由于BERT模型在自然语言处理领域取得了巨大的进展,因此本发明使用预训练的BERT模型对文本模态编码,得到文本多级编码特征向量s。
(5)通过步骤(3)和步骤(4)中的视频和文本编码,得到视频的预览特征向量p、精读特征向量g,以及文本多级编码特征向量s,再将得到预览特征向量p和精读特征向量g分别与文本多级编码特征向量s输入到两个不同的混合空间hybrid space中学习,即预览混合空间和精读混合空间。
在混合空间中,分别使用一个全连接层将视频文本对映射到一个概念空间concept space和一个潜在空间latent space中,并使用余弦相似度来计算视频文本对的相似度。由于概念空间被期望用于可解释性和视频文本匹配,因此使用了一个二进制交叉熵损失binary cross-entropy loss和一个三元排序损失marginal ranking loss来进行联合约束。
对于潜在空间,为了该空间可以拉近相关的视频文本对的距离,推远不相关的视频文本对的距离,对此使用了一个三元排序损失marginal ranking loss对该空间学习进行约束。
(6)将上述三个损失相加起来作为混合空间的联合损失,即:
L(v,s)=Ll+Lc+Lce
L(v,s)表示视频v和文本s在混合空间的联合损失;
Ll表示潜在空间的三元排序损失;
Lc表示概念空间的三元排序损失;
Lce表示二进制交叉熵损失。
上述混合空间的联合损失用于预览混合空间和精读混合空间的优化,最终通过最小化预览混合空间和精读混合空间的损失之和进行优化,即:
L=L(p,s)+L(g,s)
其中,L(p,s)表示预览混合空间的损失,即视频用预览特征向量p表示时,计算得到的混合空间的联合损失;L(g,s)表示精读混合空间的损失,即视频用精读特征向量g表示时,计算得到的混合空间的联合损失。
使用一个批处理为128的小批量的Adam优化器,初始学习率设置为0.0001,训练由所述步骤(1)至步骤(5)建立的检索模型。在训练过程中,采用早停的训练策略early stop,一旦验证损失在连续的三个周期内没有减少,就将学习率除以2。如果验证性能在连续10个周期内没有改善,就会发生早期停止。
通过以上步骤,该检索模型可以通过预览分支来捕捉到视频的概述信息,然后再对精读分支作出进一步指导,使得精读分支得到了进一步强化,使得在细粒度的特征感知到粗粒度的视频概述信息。接下来可以通过给定的文本和所有的候选视频进行匹配,来检索出所对应的视频,其步骤如下:
将文本和视频分别映射到预览混合空间和精读混合空间中,并在这两个空间中,通过计算视频文本对之间的余弦相似度,来对候选视频进行排序,将相似度更好的结果作为最终的返回结果,通过此过程来实现跨模态匹配任务。
以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (8)

1.一种受阅读策略启发的跨模态视频检索方法,其特征在于,包括如下步骤:
(1)采用预先训练的卷积神经网络提取视频模态的初始特征,得到视频的初始特征序列;
(2)将初始特征序列输入并通过预览分支进行编码得到视频中的预览特征;
(3)将初始特征序列输入并通过精读分支进行编码得到多粒度片段特征,后感知并集成预览特征,提取出精读特征;
(4)使用预训练的BERT模型对文本模态进行编码,得到文本多级编码特征;
(5)将视预览特征和精读特征分别与文本多级编码特征映射输入到对应混合空间,通过混合空间计算视频模态与文本模态之间的相似度来进行跨模态匹配;
(6)优化并训练通过步骤(1)至步骤(5)建立的检索模型,最后将视频和文本输入到训练好的检索模型中来实现文本到视频的跨模态检索。
2.如权利要求1所述的一种受阅读策略启发的跨模态视频检索方法,其特征在于,所述步骤(2)具体为:将视频帧特征序列输入到预览分支的双向GRU网络,双向GRU由一个前向GRU和后向GRU组成,将在前向GRU和后向GRU中所有特定时间步{t=1,...,m}的隐藏状态进行拼接作为双向GRU的输出,得到一个特征向量序列H={h1,h2,...,hm},大小为m×1024维;然后沿着时间维度对特征向量序列H应用平均池化操作来获得预览特征向量,即
Figure FDA0003264318580000011
3.如权利要求2所述的一种受阅读策略启发的跨模态视频检索方法,其特征在于,所述步骤(3)具体包括以下步骤:
(3-1)首先使用精读分支的全连接层对视觉特征序列进行降维,得到降维后的视觉特征序列V′;
(3-2)然后将V′输入卷积核大小为n,步长为s,卷积核数量为r的卷积神经网络CNN来提取不同长度的片段特征,具体公式表示为:
Cn=δ(Conv1Dr,n,s(V′))
其中δ代表Relu激活函数;
将由不同大小的卷积核生成的分段特征放在一起,获得多粒度片段特征,即:
Figure FDA0003264318580000012
其中φ表示卷积核的大小,mn表示长度为n的片段的数量,r是片段特征向量的维度,向量化片段特征后为C′,使用视觉特征序列V′作为长度为1的片段特征;
(3-3)对多粒度片段特征,进行感知预览注意力操作得到精读特征向量。
4.如权利要求3所述的一种受阅读策略启发的跨模态视频检索方法,其特征在于,所述步骤(3-3)具体为:
首先,将预览特征向量p映射为一个dk维的查询query特征向量Q,将片段特征向量C′分别映射为一个dk维的键key特征向量K和dv维的值value特征向量V,然后使用query和value通过点积计算来得到注意力权重,再将得到的注意力权重与value特征向量进行加权和,得到一个注意力特征向量O,即:
O=W4Attention(pW1,C′W2,C′W3)
Figure FDA0003264318580000021
其中W1,W2,W3和W4是可学习的映射矩阵参数;
接着使用残差操作来增强输入,得到更新后的注意力特征向量O′,即:
O′=LN(O+maxpool(C′))
其中,LN表示层归一化和最大池化操作,对片段特征向量沿时间维度进行了池化操作;
在获得了注意力特征向量之后,利用带有残差和层归一化的前馈网络对上述特征向量做进一步增强,通过使用多层感知机MLP来实现前馈网络,即:
PaA(p,C′)=LN(o′+MLP(o′))
其中,MLP由两个全连接层和Relu激活函数组成的;
最后对于多粒度片段特征,并行地对每个粒度执行上述的感知预览注意力操作,并将每个粒度的输出拼接起来作为精读分支的最终输出,得到精读特征向量g,具体表示如下:
Figure FDA0003264318580000022
其中,ConCat表示拼接操作。
5.如权利要求1所述的一种受阅读策略启发的跨模态视频检索方法,其特征在于,所述混合空间包括预览混合空间和精读混合空间,在混合空间中分别使用一个全连接层将视频文本对映射到一个概念空间和一个潜在空间中,并使用余弦相似度来计算视频文本对的相似度。
6.如权利要求5所述的一种受阅读策略启发的跨模态视频检索方法,其特征在于,所述概念空间使用一个二进制交叉熵损失和一个三元排序损失对该空间学习进行联合约束;所述潜在空间,使用一个三元排序损失对该空间学习进行约束。
7.如权利要求6所述的一种受阅读策略启发的跨模态视频检索方法,其特征在于,所述步骤(6)具体为:将所述概念空间的损失与潜在空间的损失相加作为混合空间的联合损失,通过最小化预览混合空间和精读混合空间的损失之和优化检索模型,使用Adam优化器训练检索模型,将文本和视频分别映射到预览混合空间和精读混合空间中,并在这两个空间中,通过计算视频文本对之间的余弦相似度,来对候选视频进行排序,将相似度更好的结果作为最终的返回结果,通过此过程来实现跨模态匹配任务。
8.如权利要求7所述的一种受阅读策略启发的跨模态视频检索方法,其特征在于,所述使用Adam优化器训练检索模型,在训练过程中,采用早停的训练策略,若验证损失在连续的三个周期内没有减少,就将学习率除以2,若验证性能在连续10个周期内没有改善,则发生早期停止。
CN202111084182.1A 2021-09-15 2021-09-15 一种受阅读策略启发的跨模态视频检索方法 Pending CN114003770A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111084182.1A CN114003770A (zh) 2021-09-15 2021-09-15 一种受阅读策略启发的跨模态视频检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111084182.1A CN114003770A (zh) 2021-09-15 2021-09-15 一种受阅读策略启发的跨模态视频检索方法

Publications (1)

Publication Number Publication Date
CN114003770A true CN114003770A (zh) 2022-02-01

Family

ID=79921353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111084182.1A Pending CN114003770A (zh) 2021-09-15 2021-09-15 一种受阅读策略启发的跨模态视频检索方法

Country Status (1)

Country Link
CN (1) CN114003770A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115578680A (zh) * 2022-09-09 2023-01-06 北京理工大学 一种视频理解方法
CN117076712A (zh) * 2023-10-16 2023-11-17 中国科学技术大学 视频检索方法、系统、设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115578680A (zh) * 2022-09-09 2023-01-06 北京理工大学 一种视频理解方法
CN115599984A (zh) * 2022-09-09 2023-01-13 北京理工大学(Cn) 一种检索方法
CN115578680B (zh) * 2022-09-09 2023-06-02 北京理工大学 一种视频理解方法
CN117076712A (zh) * 2023-10-16 2023-11-17 中国科学技术大学 视频检索方法、系统、设备及存储介质
CN117076712B (zh) * 2023-10-16 2024-02-23 中国科学技术大学 视频检索方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111309971B (zh) 一种基于多级编码的文本到视频的跨模态检索方法
CN111291212B (zh) 基于图卷积神经网络的零样本草图图像检索方法和系统
CN106650813B (zh) 一种基于深度残差网络和lstm的图像理解方法
US20210390700A1 (en) Referring image segmentation
CN113657124B (zh) 基于循环共同注意力Transformer的多模态蒙汉翻译方法
CN109614471B (zh) 一种基于生成式对抗网络的开放式问题自动生成方法
CN112100351A (zh) 一种通过问题生成数据集构建智能问答系统的方法及设备
CN111274398A (zh) 一种方面级用户产品评论情感分析方法及系统
CN111897913A (zh) 基于语义树增强的复杂文本查询到视频的跨模态检索方法
CN111079532A (zh) 一种基于文本自编码器的视频内容描述方法
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
US20220171760A1 (en) Data processing method and apparatus, computer-readable storage medium, and electronic device
CN114693397B (zh) 一种基于注意力神经网络的多视角多模态商品推荐方法
CN114003770A (zh) 一种受阅读策略启发的跨模态视频检索方法
CN116049459B (zh) 跨模态互检索的方法、装置、服务器及存储介质
CN112488301B (zh) 一种基于多任务学习和注意力机制的食品反演方法
CN113408430B (zh) 基于多级策略和深度强化学习框架的图像中文描述系统及方法
CN113204633B (zh) 一种语义匹配蒸馏方法及装置
CN113609326B (zh) 基于外部知识和目标间关系的图像描述生成方法
CN108804544A (zh) 互联网影视多源数据融合方法和装置
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN116611024A (zh) 一种基于事实和情感对立性的多模态反讽检测方法
CN115994990A (zh) 基于文本信息引导的三维模型自动建模方法
CN115309939A (zh) 基于时空语义分解的视频片段定位系统
CN113822125A (zh) 唇语识别模型的处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination