CN111930999B - 逐帧跨模态相似度关联实施文本查询定位视频片段方法 - Google Patents

逐帧跨模态相似度关联实施文本查询定位视频片段方法 Download PDF

Info

Publication number
CN111930999B
CN111930999B CN202010707541.3A CN202010707541A CN111930999B CN 111930999 B CN111930999 B CN 111930999B CN 202010707541 A CN202010707541 A CN 202010707541A CN 111930999 B CN111930999 B CN 111930999B
Authority
CN
China
Prior art keywords
video
frame
text
formula
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010707541.3A
Other languages
English (en)
Other versions
CN111930999A (zh
Inventor
程志勇
唐昊煜
祝继华
高赞
舒明雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Institute of Artificial Intelligence
Original Assignee
Shandong Institute of Artificial Intelligence
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Institute of Artificial Intelligence filed Critical Shandong Institute of Artificial Intelligence
Priority to CN202010707541.3A priority Critical patent/CN111930999B/zh
Publication of CN111930999A publication Critical patent/CN111930999A/zh
Application granted granted Critical
Publication of CN111930999B publication Critical patent/CN111930999B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

一种逐帧跨模态相似度关联实施文本查询定位视频片段方法,利用基于深度神经网络的跨模态特征间相似度或距离来尽可能挖掘视频与文本查询之间的关联信息;通过对视频语义感知的注意力信息对文本查询逐帧建模,提升了文本查询特征的表达能力;通过对视频片段内部帧的提取融合,最大化跨模态特征内包含信息,提高了视频片段定位的准确率。提供了一种新的集成了注意力机制和跨模态相似度/距离函数的模型,以挖掘视频帧和文本查询特征之间的交互作用;通过对视频片段内部帧的提取融合,最大化利用跨模态特征内包含信息,提高了视频片段定位的准确率,实现对视频片段的精准定位。

Description

逐帧跨模态相似度关联实施文本查询定位视频片段方法
技术领域
本发明涉及多媒体视觉语言处理及深度学习技术领域,具体涉及一种逐帧跨模态相似度关联实施文本查询定位视频片段方法。
背景技术
近年来,由于很多视频分享网站和相关应用程序的兴起,探索并理解大量产生的视频变得极具挑战性。在多媒体视觉语言处理领域中,有很多相关技术,如视频检索,视频内容捕捉,视频问答等。其中,基于文本查询来定位视频中某一片段是这一领域的核心技术。该技术编码视频和文本特征,学习视频与文本之间的跨模态信息。早期的基于文本定位视频片段的技术主要是基于文本查询特征,对利用时序滑窗采样的视频片段进行相似度排序。此类技术主要存在视频长度较大时会引入较大计算量与时间复杂度的问题,因此应用范围受限。此外,近期也出现了通过直接将文本查询逐帧拼接到视频特征上进行匹配并直接预测视频片段边界的不需预采样视频片段的技术。但是,简单的拼接特征无法深入挖掘跨模态特征之间的相似度关联。
发明内容
本发明为了克服以上技术的不足,提供了一种解决基于文本查询定位视频片段任务中存在的无法深入挖掘跨模态特征之间的相似度关联问题、忽视文本查询中不同词语权重差异,提高视频片段定位准确性的方法。
本发明克服其技术问题所采用的技术方案是:
一种逐帧跨模态相似度关联实施文本查询定位视频片段方法,包括如下步骤:
a)在视频-文本数据集中得到视频V的编码特征;
b)在视频-文本数据集中得到文本Q的编码特征;
c)构建视频V的编码特征及文本Q的编码特征之间的注意力关联,得到特定帧对应文本查询表示;
d)建立并训练基于深度网络逐帧跨模态相似度关联模型;
e)将文本查询与其对应的整段视频输入到训练好的模型中,得到开始与结束预测值的联合最大值,实现视频片段精准定位。
进一步的,步骤a)中采用ActivityNet-Caption视频-文本数据集以及Charades-STA视频-文本数据集。
进一步的,步骤a)中将视频-文本数据集中的视频降采样后,通过公式ft=F(vt)使用预训练好的三维深度卷积网络输入图片提取特征得到视频嵌入特征ft,通过公式V={v1,...,vT}得到视频V的编码特征,式中vt为视频第t帧的特征,T为视频长度,1≤t≤T。
进一步的,步骤b)中通过公式Q={q1,...,qm}得到文本Q的编码特征,式中qi为文本第i个词,m为文本查询长度,1≤i≤m,利用斯坦福CoreNLP工具标记视频-文本数据集中每个句子,通过公式S=glove(Q)采用预训练的Glove语料库得到文本嵌入特征S,S={s1,s2,...,sm},式中sj为文本第j个词的嵌入特征,式中1≤j≤m。
进一步的,骤c)包括如下步骤:
c-1)通过公式
Figure GDA0003808874540000021
计算得到逐帧的视频V的编码特征与逐词的文本Q的编码特征,式中BiLSTM为双向长短期记忆人工神经网络,
Figure GDA0003808874540000022
为视频V的编码特征的第t个隐藏特征,
Figure GDA0003808874540000023
为文本Q的编码特征的第j个隐藏特征;
c-2)通过公式
Figure GDA0003808874540000024
Figure GDA0003808874540000025
计算得到定帧对应文本查询表示rtj,式中
Figure GDA0003808874540000026
Ws、Wv均为线性映射函数的权重矩阵,br为偏差向量,tanh为双曲正切非线性激活函数,βtj为求得的相对于第t帧特征得到的第j个词的注意力权重,
Figure GDA0003808874540000031
为相对于第t帧特征得到的文本描述整体特征。
进一步的,步骤d)包括如下步骤:
d-1)通过公式
Figure GDA0003808874540000032
计算归一化的视频特征的维度
Figure GDA0003808874540000033
及文本特征的维度
Figure GDA0003808874540000034
式中Wq为线性映射函数的权重矩阵,bq、bv均为偏差向量,
Figure GDA0003808874540000035
为归一化函数,
Figure GDA0003808874540000036
为所有帧的文本描述整体特征拼接结果,hV为视频V的编码特征的所有隐藏特征的拼接结果,
Figure GDA0003808874540000037
Figure GDA0003808874540000038
d-2)通过公式
Figure GDA0003808874540000039
计算得到融合后的逐帧跨模态相似度特征CV
d-3)通过公式
Figure GDA00038088745400000310
计算得到开始真概率序列,式中Ps为开始帧概率序列,Pe为结束帧概率序列,Pf为视频片段内部帧概率序列,MLP为多层感知机,softmax(·)为归一化函数;
d-4)通过公式L=Lc+λLI
Figure GDA00038088745400000311
Figure GDA00038088745400000312
计算损失函数L,式中λ为权重参数,Lc为最大化视频边界概率的损失函数,LI为最大化视频片段内部帧概率的损失函数,K为训练样本总数,
Figure GDA00038088745400000313
为第i个样本的视频片段真实的开始帧,
Figure GDA00038088745400000314
为第i个样本的视频片段真实的结束帧,
Figure GDA00038088745400000315
为第i个样本的视频片段内部的帧,j∈[s,e],1≤i≤K;
d-5)通过计算得到的损失函数L对模型进行训练。
进一步的,步骤e)中通过最大化视频开始帧与结束帧的联合概率Ps(ts)×Pe(te),通过公式
Figure GDA0003808874540000041
计算得到视频开始位置的边界帧ts以及视频结束位置的边界帧te
进一步的,步骤d-1)中的归一化函数采取L2归一化和高斯分布归一化。
本发明的有益效果是:利用基于深度神经网络的跨模态特征间相似度或距离来尽可能挖掘视频与文本查询之间的关联信息;通过对视频语义感知的注意力信息对文本查询逐帧建模,提升了文本查询特征的表达能力;通过对视频片段内部帧的提取融合,最大化跨模态特征内包含信息,提高了视频片段定位的准确率。提供了一种新的集成了注意力机制和跨模态相似度/距离函数的模型,以挖掘视频帧和文本查询特征之间的交互作用;通过对视频片段内部帧的提取融合,最大化利用跨模态特征内包含信息,提高了视频片段定位的准确率;在两个基准数据Charades STA和ActivityNet Caption上进行的大量实验已经证明了我们的模型可以达到优异的效果,实现对视频片段的精准定位。
附图说明
图1为本发明的方法流程图。
具体实施方式
下面对本发明做进一步说明。
一种逐帧跨模态相似度关联实施文本查询定位视频片段方法,包括如下步骤:
a)在视频-文本数据集中得到视频V的编码特征。优选的,步骤a)中采用ActivityNet-Caption视频-文本数据集以及Charades-STA视频-文本数据集。
b)在视频-文本数据集中得到文本Q的编码特征。
c)构建视频V的编码特征及文本Q的编码特征之间的注意力关联,得到特定帧对应文本查询表示。
由于此前得到的视频与文本嵌入特征会缺失整体的上下文信息,因此我们采用双向长短期记忆人工神经网络编码视频帧与文本词语的序列嵌入特征,以融合长程的语义信息关联,最终得到逐帧的视频编码特征与逐词的文本编码特征。本发明通过将视频帧编码、文本查询词编码统一嵌入同一空间后构建视频帧-查询词之间的相似度矩阵,矩阵元素表示相应帧与词之间的相似度权重,权重值将会在每一轮训练中迭代更新;通过每帧相应的所有词的注意力权重,得到特定帧对应的文本表示。
d)建立并训练基于深度网络逐帧跨模态相似度关联模型。
本发明针对现有方法在跨模态特征融合时直接拼接不能很好地捕捉视频帧与文本查询之间的交互或相似度信息、并因此导致获得次优模型的问题,设计发明了一个新的基于深度网络逐帧跨模态相似度关联的模型。具体操作包括:1)将视频帧及利用相应注意力机制得到的特定帧编码的文本表示嵌入到同一特征空间后归一化。分别利用单层线性函数将两个模态特征映射到同一特征空间后,由于两种特征来自不同网络,其值可能在不同的范围内且偏差较大,这增加了下一步学习一个好的预测模型的难度。为了更好地进行后续相似性度量,我们需保证映射后两种特征处于同一尺度。为此我们引入了归一化方法;2)逐帧跨模态相似度特征融合。计算归一化特征之间的相似度可以更好地获取了视觉特征和文本特征之间的交互与关联。我们的发明用简单的度量得到逐帧视觉特征和帧对应的特定文本表示之间的跨模态相似度交互;3)映射相似度或距离特征得到预测值。将得到的内积或相减特征逐帧输入三个不同的多层感知机,得到三个预测值序列,每个值分别表示对应帧为开始帧、结束帧、视频片段内部帧的概率,将三个序列输入损失函数,训练模型。
e)将文本查询与其对应的整段视频输入到训练好的模型中,得到开始与结束预测值的联合最大值,实现视频片段精准定位。
利用基于深度神经网络的跨模态特征间相似度或距离来尽可能挖掘视频与文本查询之间的关联信息;通过对视频语义感知的注意力信息对文本查询逐帧建模,提升了文本查询特征的表达能力;通过对视频片段内部帧的提取融合,最大化跨模态特征内包含信息,提高了视频片段定位的准确率。提供了一种新的集成了注意力机制和跨模态相似度/距离函数的模型,以挖掘视频帧和文本查询特征之间的交互作用;通过对视频片段内部帧的提取融合,最大化利用跨模态特征内包含信息,提高了视频片段定位的准确率;在两个基准数据Charades STA和ActivityNet Caption上进行的大量实验已经证明了我们的模型可以达到优异的效果,实现对视频片段的精准定位。
进一步的,步骤a)中将视频-文本数据集中的视频降采样后,通过公式ft=F(vt)使用预训练好的三维深度卷积网络输入图片提取特征得到视频嵌入特征ft,通过公式V={v1,...,vT}得到视频V的编码特征,式中vt为视频第t帧的特征,T为视频长度,1≤t≤T。发明采用两个大规模公开视频-文本数据集(ActivityNet-Caption,Charades-STA)。为了得到视频的编码特征,我们将视频降采样后,使用预训练好的三维深度卷积网络以16帧每组的输入图片提取特征得到视频嵌入;为了得到文本的编码特征,用斯坦福CoreNLP标记每个句子,然后采用预训练的Glove语料库得到文本的嵌入特征。
进一步的,步骤b)中通过公式Q={q1,...,qm}得到文本Q的编码特征,式中qi为文本第i个词,m为文本查询长度,1≤i≤m,利用斯坦福CoreNLP工具标记视频-文本数据集中每个句子,通过公式S=glove(Q)采用预训练的Glove语料库得到文本嵌入特征S,S={s1,s2,...,sm},式中sj为文本第j个词的嵌入特征,式中1≤j≤m。
由于此前得到的视频与文本嵌入特征会缺失整体的上下文信息,因此我们采用双向长短期记忆人工神经网络(BiLSTM)编码视频帧与文本词语的序列嵌入特征,以融合长程的语义信息关联,最终得到逐帧的视频编码特征与逐词的文本编码特征。因此骤c)包括如下步骤:
c-1)通过公式
Figure GDA0003808874540000061
计算得到逐帧的视频V的编码特征与逐词的文本Q的编码特征,式中BiLSTM为双向长短期记忆人工神经网络,
Figure GDA0003808874540000071
为视频V的编码特征的第t个隐藏特征,
Figure GDA0003808874540000072
为文本Q的编码特征的第j个隐藏特征;
c-2)本发明通过将视频帧编码、文本查询词编码统一嵌入同一空间后构建视频帧-查询词之间的相似度矩阵,矩阵元素表示相应帧与词之间的相似度权重,权重值将会在每一轮训练中迭代更新;通过每帧相应的所有词的注意力权重,得到特定帧对应的文本表示,即通过公式
Figure GDA0003808874540000073
Figure GDA0003808874540000074
计算得到定帧对应文本查询表示rtj,式中
Figure GDA0003808874540000075
Ws、Wv均为线性映射函数的权重矩阵,br为偏差向量,tanh为双曲正切非线性激活函数,βtj为求得的相对于第t帧特征得到的第j个词的注意力权重,
Figure GDA0003808874540000076
为相对于第t帧特征得到的文本描述整体特征。
视频帧及利用相应注意力机制得到的特定帧编码的文本表示嵌入到同一特征空间后归一化。分别利用单层线性函数将两个模态特征映射到同一特征空间后,由于两种特征来自不同网络,其值可能在不同的范围内且偏差较大,这增加了下一步学习一个好的预测模型的难度。为了更好地进行后续相似性度量,我们需保证映射后两种特征处于同一尺度。步骤d)包括如下步骤:
d-1)通过公式
Figure GDA0003808874540000077
计算归一化的视频特征的维度
Figure GDA0003808874540000078
及文本特征的维度
Figure GDA0003808874540000079
式中Wq为线性映射函数的权重矩阵,bq、bv均为偏差向量,
Figure GDA00038088745400000710
为归一化函数,
Figure GDA00038088745400000711
为所有帧的文本描述整体特征拼接结果,hV为视频V的编码特征的所有隐藏特征的拼接结果,
Figure GDA00038088745400000712
Figure GDA00038088745400000713
d-2)计算归一化特征之间的相似度可以更好地获取了视觉特征和文本特征之间的交互与关联,通过公式
Figure GDA0003808874540000081
计算得到融合后的逐帧跨模态相似度特征CV,实现逐帧跨模态相似度特征融合。
d-3)通过公式
Figure GDA0003808874540000082
计算得到开始真概率序列,式中Ps为开始帧概率序列,Pe为结束帧概率序列,Pf为视频片段内部帧概率序列,MLP为多层感知机,softmax(·)为归一化函数。
d-4)通过公式L=Lc+λLI
Figure GDA0003808874540000083
Figure GDA0003808874540000084
计算损失函数L,式中λ为权重参数,Lc为最大化视频边界概率的损失函数,LI为最大化视频片段内部帧概率的损失函数,K为训练样本总数,
Figure GDA0003808874540000085
为第i个样本的视频片段真实的开始帧,
Figure GDA0003808874540000086
为第i个样本的视频片段真实的结束帧,
Figure GDA0003808874540000087
为第i个样本的视频片段内部的帧,j∈[s,e],1≤i≤K。
d-5)通过计算得到的损失函数L对模型进行训练。
进一步的,步骤e)中通过最大化视频开始帧与结束帧的联合概率Ps(ts)×Pe(te),通过公式
Figure GDA0003808874540000088
计算得到视频开始位置的边界帧ts以及视频结束位置的边界帧te
优选的,步骤d-1)中的归一化函数采取L2归一化和高斯分布归一化。

Claims (4)

1.一种逐帧跨模态相似度关联实施文本查询定位视频片段方法,其特征在于,包括如下步骤:
a)在视频-文本数据集中得到视频V的编码特征;
b)在视频-文本数据集中得到文本Q的编码特征;
c)构建视频V的编码特征及文本Q的编码特征之间的注意力关联,得到特定帧对应文本查询表示;
d)建立并训练基于深度网络逐帧跨模态相似度关联模型;
e)将文本查询与其对应的整段视频输入到训练好的模型中,得到开始与结束预测值的联合最大值,实现视频片段精准定位;
步骤a)中将视频-文本数据集中的视频降采样后,通过公式ft=F(vt)使用预训练好的三维深度卷积网络输入图片提取特征得到视频嵌入特征ft,通过公式V={v1,...,vT}得到视频V的编码特征,式中vt为视频第t帧的特征,T为视频长度,1≤t≤T;
步骤b)中通过公式Q={q1,...,qm}得到文本Q的编码特征,式中qi为文本第i个词,m为文本查询长度,1≤i≤m,利用斯坦福CoreNLP工具标记视频-文本数据集中每个句子,通过公式S=glove(Q)采用预训练的Glove语料库得到文本嵌入特征S,S={s1,s2,...,sm},式中sj为文本第j个词的嵌入特征,式中1≤j≤m;
骤c)包括如下步骤:
c-1)通过公式
Figure FDA0003808874530000011
计算得到逐帧的视频V的编码特征与逐词的文本Q的编码特征,式中BiLSTM为双向长短期记忆人工神经网络,
Figure FDA0003808874530000012
为视频V的编码特征的第t个隐藏特征,
Figure FDA0003808874530000013
为文本Q的编码特征的第j个隐藏特征;
c-2)通过公式
Figure FDA0003808874530000021
Figure FDA0003808874530000022
计算得到定帧对应文本查询表示rtj,式中
Figure FDA0003808874530000023
Ws、Wv均为线性映射函数的权重矩阵,br为偏差向量,tanh为双曲正切非线性激活函数,βtj为求得的相对于第t帧特征得到的第j个词的注意力权重,
Figure FDA0003808874530000024
为相对于第t帧特征得到的文本描述整体特征;
步骤d)包括如下步骤:
d-1)通过公式
Figure FDA0003808874530000025
计算归一化的视频特征的维度
Figure FDA0003808874530000026
及文本特征的维度
Figure FDA0003808874530000027
式中Wq为线性映射函数的权重矩阵,bq、bv均为偏差向量,
Figure FDA0003808874530000028
为归一化函数,
Figure FDA0003808874530000029
为所有帧的文本描述整体特征拼接结果,hV为视频V的编码特征的所有隐藏特征的拼接结果,
Figure FDA00038088745300000210
Figure FDA00038088745300000211
d-2)通过公式
Figure FDA00038088745300000212
计算得到融合后的逐帧跨模态相似度特征CV
d-3)通过公式
Figure FDA00038088745300000213
计算得到开始真概率序列,式中Ps为开始帧概率序列,Pe为结束帧概率序列,Pf为视频片段内部帧概率序列,MLP为多层感知机,softmax(·)为归一化函数;
d-4)通过公式L=Lc+λLI
Figure FDA00038088745300000214
Figure FDA0003808874530000031
计算损失函数L,式中λ为权重参数,Lc为最大化视频边界概率的损失函数,LI为最大化视频片段内部帧概率的损失函数,K为训练样本总数,
Figure FDA0003808874530000032
为第i个样本的视频片段真实的开始帧,
Figure FDA0003808874530000033
为第i个样本的视频片段真实的结束帧,
Figure FDA0003808874530000034
为第i个样本的视频片段内部的帧,j∈[s,e],1≤i≤K;
d-5)通过计算得到的损失函数L对模型进行训练。
2.根据权利要求1所述的逐帧跨模态相似度关联实施文本查询定位视频片段方法,其特征在于:步骤a)中采用ActivityNet-Caption视频-文本数据集以及Charades-STA视频-文本数据集。
3.根据权利要求1所述的逐帧跨模态相似度关联实施文本查询定位视频片段方法,其特征在于:步骤e)中通过最大化视频开始帧与结束帧的联合概率Ps(ts)×Pe(te),通过公式ts,
Figure FDA0003808874530000035
计算得到视频开始位置的边界帧ts以及视频结束位置的边界帧te
4.根据权利要求1所述的逐帧跨模态相似度关联实施文本查询定位视频片段方法,其特征在于:步骤d-1)中的归一化函数采取L2归一化和高斯分布归一化。
CN202010707541.3A 2020-07-21 2020-07-21 逐帧跨模态相似度关联实施文本查询定位视频片段方法 Active CN111930999B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010707541.3A CN111930999B (zh) 2020-07-21 2020-07-21 逐帧跨模态相似度关联实施文本查询定位视频片段方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010707541.3A CN111930999B (zh) 2020-07-21 2020-07-21 逐帧跨模态相似度关联实施文本查询定位视频片段方法

Publications (2)

Publication Number Publication Date
CN111930999A CN111930999A (zh) 2020-11-13
CN111930999B true CN111930999B (zh) 2022-09-30

Family

ID=73315149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010707541.3A Active CN111930999B (zh) 2020-07-21 2020-07-21 逐帧跨模态相似度关联实施文本查询定位视频片段方法

Country Status (1)

Country Link
CN (1) CN111930999B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348102B (zh) * 2020-11-16 2024-03-19 浙江大学 一种基于查询的自底向上视频定位方法和系统
CN113010740B (zh) * 2021-03-09 2023-05-30 腾讯科技(深圳)有限公司 词权重的生成方法、装置、设备及介质
CN113111836B (zh) * 2021-04-25 2022-08-19 山东省人工智能研究院 基于跨模态哈希学习的视频解析方法
CN113590881B (zh) * 2021-08-09 2024-03-19 北京达佳互联信息技术有限公司 视频片段检索方法、视频片段检索模型的训练方法及装置
CN113590874B (zh) * 2021-09-28 2022-02-11 山东力聚机器人科技股份有限公司 一种视频定位方法及装置、模型训练方法及设备
CN113887471B (zh) * 2021-10-15 2023-02-10 西安电子科技大学 基于特征解耦和交叉对比的视频时序定位方法
CN113934887B (zh) * 2021-12-20 2022-03-15 成都考拉悠然科技有限公司 一种基于语义解耦的无提议时序语言定位方法
CN114064967B (zh) * 2022-01-18 2022-05-06 之江实验室 多粒度级联交互网络的跨模态时序行为定位方法及装置
CN115223086B (zh) * 2022-09-20 2022-12-06 之江实验室 基于交互注意力引导与修正的跨模态动作定位方法与系统
CN116226443B (zh) * 2023-05-11 2023-07-21 山东建筑大学 基于大规模视频语料库的弱监督视频片段定位方法及系统
CN117152669B (zh) * 2023-10-30 2024-02-06 华中科技大学 一种跨模态时域视频定位方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932304A (zh) * 2018-06-12 2018-12-04 山东大学 基于跨模态的视频时刻定位方法、系统及存储介质
CN109905772A (zh) * 2019-03-12 2019-06-18 腾讯科技(深圳)有限公司 视频片段查询方法、装置、计算机设备及存储介质
CN110175266A (zh) * 2019-05-28 2019-08-27 复旦大学 一种用于多段视频跨模态检索的方法
CN110933518A (zh) * 2019-12-11 2020-03-27 浙江大学 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932304A (zh) * 2018-06-12 2018-12-04 山东大学 基于跨模态的视频时刻定位方法、系统及存储介质
CN109905772A (zh) * 2019-03-12 2019-06-18 腾讯科技(深圳)有限公司 视频片段查询方法、装置、计算机设备及存储介质
CN110175266A (zh) * 2019-05-28 2019-08-27 复旦大学 一种用于多段视频跨模态检索的方法
CN110933518A (zh) * 2019-12-11 2020-03-27 浙江大学 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法

Also Published As

Publication number Publication date
CN111930999A (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
CN111930999B (zh) 逐帧跨模态相似度关联实施文本查询定位视频片段方法
CN111581961B (zh) 一种中文视觉词汇表构建的图像内容自动描述方法
CN111309971B (zh) 一种基于多级编码的文本到视频的跨模态检索方法
CN109543180B (zh) 一种基于注意力机制的文本情感分析方法
CN109815364B (zh) 一种海量视频特征提取、存储和检索方法及系统
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN111581510A (zh) 分享内容处理方法、装置、计算机设备和存储介质
CN109255047A (zh) 基于互补语义对齐和对称检索的图像-文本互检索方法
CN110933518B (zh) 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法
CN109960728A (zh) 一种开放域会议信息命名实体识别方法及系统
CN111339837A (zh) 一种连续手语识别方法
CN115131638B (zh) 视觉文本预训练模型的训练方法、装置、介质和设备
US20210026887A1 (en) Retrieval device, training device, retrieval system, and recording medium
CN116775922A (zh) 基于语言与视觉细节特征融合的遥感图像跨模态检索方法
CN113806554B (zh) 面向海量会议文本的知识图谱构建方法
CN113190656A (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN113822368A (zh) 一种基于无锚的增量式目标检测方法
CN115223086A (zh) 基于交互注意力引导与修正的跨模态动作定位方法与系统
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
Pu et al. Review on research progress of machine lip reading
CN115640449A (zh) 媒体对象推荐方法、装置、计算机设备和存储介质
Hoxha et al. Retrieving images with generated textual descriptions
CN115527064A (zh) 基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法
CN113204522A (zh) 基于结合生成对抗网络的哈希算法的大规模数据检索方法
CN113569867A (zh) 一种图像处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant