CN111930999A - 逐帧跨模态相似度关联实施文本查询定位视频片段方法 - Google Patents
逐帧跨模态相似度关联实施文本查询定位视频片段方法 Download PDFInfo
- Publication number
- CN111930999A CN111930999A CN202010707541.3A CN202010707541A CN111930999A CN 111930999 A CN111930999 A CN 111930999A CN 202010707541 A CN202010707541 A CN 202010707541A CN 111930999 A CN111930999 A CN 111930999A
- Authority
- CN
- China
- Prior art keywords
- video
- frame
- text
- formula
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
一种逐帧跨模态相似度关联实施文本查询定位视频片段方法,利用基于深度神经网络的跨模态特征间相似度或距离来尽可能挖掘视频与文本查询之间的关联信息;通过对视频语义感知的注意力信息对文本查询逐帧建模,提升了文本查询特征的表达能力;通过对视频片段内部帧的提取融合,最大化跨模态特征内包含信息,提高了视频片段定位的准确率。提供了一种新的集成了注意力机制和跨模态相似度/距离函数的模型,以挖掘视频帧和文本查询特征之间的交互作用;通过对视频片段内部帧的提取融合,最大化利用跨模态特征内包含信息,提高了视频片段定位的准确率,实现对视频片段的精准定位。
Description
技术领域
本发明涉及多媒体视觉语言处理及深度学习技术领域,具体涉及一种逐帧跨模态相似度关联实施文本查询定位视频片段方法。
背景技术
近年来,由于很多视频分享网站和相关应用程序的兴起,探索并理解大量产生的视频变得极具挑战性。在多媒体视觉语言处理领域中,有很多相关技术,如视频检索,视频内容捕捉,视频问答等。其中,基于文本查询来定位视频中某一片段是这一领域的核心技术。该技术编码视频和文本特征,学习视频与文本之间的跨模态信息。早期的基于文本定位视频片段的技术主要是基于文本查询特征,对利用时序滑窗采样的视频片段进行相似度排序。此类技术主要存在视频长度较大时会引入较大计算量与时间复杂度的问题,因此应用范围受限。此外,近期也出现了通过直接将文本查询逐帧拼接到视频特征上进行匹配并直接预测视频片段边界的不需预采样视频片段的技术。但是,简单的拼接特征无法深入挖掘跨模态特征之间的相似度关联。
发明内容
本发明为了克服以上技术的不足,提供了一种解决基于文本查询定位视频片段任务中存在的无法深入挖掘跨模态特征之间的相似度关联问题、忽视文本查询中不同词语权重差异,提高视频片段定位准确性的方法。
本发明克服其技术问题所采用的技术方案是:
一种逐帧跨模态相似度关联实施文本查询定位视频片段方法,包括如下步骤:
a)在视频-文本数据集中得到视频V的编码特征;
b)在视频-文本数据集中得到文本Q的编码特征;
c)构建视频V的编码特征及文本Q的编码特征之间的注意力关联,得到特定帧对应文本查询表示;
d)建立并训练基于深度网络逐帧跨模态相似度关联模型;
e)将文本查询与其对应的整段视频输入到训练好的模型中,得到开始与结束预测值的联合最大值,实现视频片段精准定位。
进一步的,步骤a)中采用ActivityNet-Caption视频-文本数据集以及Charades-STA视频-文本数据集。
进一步的,步骤a)中将视频-文本数据集中的视频降采样后,通过公式ft=F(vt)使用预训练好的三维深度卷积网络输入图片提取特征得到视频嵌入特征ft,通过公式V={v1,…,vT}得到视频V的编码特征,式中vt为视频第t帧的特征,T为视频长度,1≤t≤T。
进一步的,步骤b)中通过公式Q={q1,…,qm}得到文本Q的编码特征,式中qi为本第i个词,m为文本查询长度,1≤i≤m,利用斯坦福CoreNLP工具标记视频-文本数据集中每个句子,通过公式S=glove(Q)采用预训练的Glove语料库得到文本嵌入特征S,S={s1,s2,…,sm},式中sj为文本第j个词的嵌入特征,式中1≤j≤m。
进一步的,骤c)包括如下步骤:
c-2)通过公式 计算得到定帧对应文本查询表示rtj,式中Ws、Wv均为线性映射函数的权重矩阵,br为偏差向量,tanh为双曲正切非线性激活函数,βtj为求得的相对于第t帧特征得到的第j个词的注意力权重,为相对于第t帧特征得到的文本描述整体特征。
进一步的,步骤d)包括如下步骤:
d-1)通过公式计算归一化的视频特征的维度及文本特征的维度式中Wq为线性映射函数的权重矩阵,bq、bv均为偏差向量,为归一化函数,为所有帧的文本描述整体特征拼接结果,hV为视频V的编码特征的所有隐藏特征的拼接结果,
d-4)通过公式L=Lc+λLI、 计算损失函数L,式中λ为权重参数,Lc为最大化视频边界概率的损失函数,LI为最大化视频片段内部帧概率的损失函数,K为训练样本总数,为第i个样本的视频片段真实的开始帧,为第i个样本的视频片段真实的结束帧,为第i个样本的视频片段内部的帧,j∈[s,e],1≤i≤K;
d-5)通过计算得到的损失函数L对模型进行训练。
进一步的,步骤d-1)中的归一化函数采取L2归一化和高斯分布归一化。
本发明的有益效果是:利用基于深度神经网络的跨模态特征间相似度或距离来尽可能挖掘视频与文本查询之间的关联信息;通过对视频语义感知的注意力信息对文本查询逐帧建模,提升了文本查询特征的表达能力;通过对视频片段内部帧的提取融合,最大化跨模态特征内包含信息,提高了视频片段定位的准确率。提供了一种新的集成了注意力机制和跨模态相似度/距离函数的模型,以挖掘视频帧和文本查询特征之间的交互作用;通过对视频片段内部帧的提取融合,最大化利用跨模态特征内包含信息,提高了视频片段定位的准确率;在两个基准数据Charades STA和ActivityNet Caption上进行的大量实验已经证明了我们的模型可以达到优异的效果,实现对视频片段的精准定位。
附图说明
图1为本发明的方法流程图。
具体实施方式
下面对本发明做进一步说明。
一种逐帧跨模态相似度关联实施文本查询定位视频片段方法,包括如下步骤:
a)在视频-文本数据集中得到视频V的编码特征。优选的,步骤a)中采用ActivityNet-Caption视频-文本数据集以及Charades-STA视频-文本数据集。
b)在视频-文本数据集中得到文本Q的编码特征。
c)构建视频V的编码特征及文本Q的编码特征之间的注意力关联,得到特定帧对应文本查询表示。
由于此前得到的视频与文本嵌入特征会缺失整体的上下文信息,因此我们采用双向长短期记忆人工神经网络编码视频帧与文本词语的序列嵌入特征,以融合长程的语义信息关联,最终得到逐帧的视频编码特征与逐词的文本编码特征。本发明通过将视频帧编码、文本查询词编码统一嵌入同一空间后构建视频帧-查询词之间的相似度矩阵,矩阵元素表示相应帧与词之间的相似度权重,权重值将会在每一轮训练中迭代更新;通过每帧相应的所有词的注意力权重,得到特定帧对应的文本表示。
d)建立并训练基于深度网络逐帧跨模态相似度关联模型。
本发明针对现有方法在跨模态特征融合时直接拼接不能很好地捕捉视频帧与文本查询之间的交互或相似度信息、并因此导致获得次优模型的问题,设计发明了一个新的基于深度网络逐帧跨模态相似度关联的模型。具体操作包括:1)将视频帧及利用相应注意力机制得到的特定帧编码的文本表示嵌入到同一特征空间后归一化。分别利用单层线性函数将两个模态特征映射到同一特征空间后,由于两种特征来自不同网络,其值可能在不同的范围内且偏差较大,这增加了下一步学习一个好的预测模型的难度。为了更好地进行后续相似性度量,我们需保证映射后两种特征处于同一尺度。为此我们引入了归一化方法;2)逐帧跨模态相似度特征融合。计算归一化特征之间的相似度可以更好地获取了视觉特征和文本特征之间的交互与关联。我们的发明用简单的度量得到逐帧视觉特征和帧对应的特定文本表示之间的跨模态相似度交互;3)映射相似度或距离特征得到预测值。将得到的内积或相减特征逐帧输入三个不同的多层感知机,得到三个预测值序列,每个值分别表示对应帧为开始帧、结束帧、视频片段内部帧的概率,将三个序列输入损失函数,训练模型。
e)将文本查询与其对应的整段视频输入到训练好的模型中,得到开始与结束预测值的联合最大值,实现视频片段精准定位。
利用基于深度神经网络的跨模态特征间相似度或距离来尽可能挖掘视频与文本查询之间的关联信息;通过对视频语义感知的注意力信息对文本查询逐帧建模,提升了文本查询特征的表达能力;通过对视频片段内部帧的提取融合,最大化跨模态特征内包含信息,提高了视频片段定位的准确率。提供了一种新的集成了注意力机制和跨模态相似度/距离函数的模型,以挖掘视频帧和文本查询特征之间的交互作用;通过对视频片段内部帧的提取融合,最大化利用跨模态特征内包含信息,提高了视频片段定位的准确率;在两个基准数据Charades STA和ActivityNet Caption上进行的大量实验已经证明了我们的模型可以达到优异的效果,实现对视频片段的精准定位。
进一步的,步骤a)中将视频-文本数据集中的视频降采样后,通过公式ft=F(vt)使用预训练好的三维深度卷积网络输入图片提取特征得到视频嵌入特征ft,通过公式V={v1,…,vT}得到视频V的编码特征,式中vt为视频第t帧的特征,T为视频长度,1≤t≤T。发明采用两个大规模公开视频-文本数据集(ActivityNet-Caption,Charades-STA)。为了得到视频的编码特征,我们将视频降采样后,使用预训练好的三维深度卷积网络以16帧每组的输入图片提取特征得到视频嵌入;为了得到文本的编码特征,用斯坦福CoreNLP标记每个句子,然后采用预训练的Glove语料库得到文本的嵌入特征。
进一步的,步骤b)中通过公式Q={q1,…,qm}得到文本Q的编码特征,式中qi为本第i个词,m为文本查询长度,1≤i≤m,利用斯坦福CoreNLP工具标记视频-文本数据集中每个句子,通过公式S=glove(Q)采用预训练的Glove语料库得到文本嵌入特征S,S={s1,s2,…,sm},式中sj为文本第j个词的嵌入特征,式中1≤j≤m。
由于此前得到的视频与文本嵌入特征会缺失整体的上下文信息,因此我们采用双向长短期记忆人工神经网络(BiLSTM)编码视频帧与文本词语的序列嵌入特征,以融合长程的语义信息关联,最终得到逐帧的视频编码特征与逐词的文本编码特征。因此骤c)包括如下步骤:
c-2)本发明通过将视频帧编码、文本查询词编码统一嵌入同一空间后构建视频帧-查询词之间的相似度矩阵,矩阵元素表示相应帧与词之间的相似度权重,权重值将会在每一轮训练中迭代更新;通过每帧相应的所有词的注意力权重,得到特定帧对应的文本表示,即通过公式 计算得到定帧对应文本查询表示rtj,式中Ws、Wv均为线性映射函数的权重矩阵,br为偏差向量,tanh为双曲正切非线性激活函数,βtj为求得的相对于第t帧特征得到的第j个词的注意力权重,为相对于第t帧特征得到的文本描述整体特征。
视频帧及利用相应注意力机制得到的特定帧编码的文本表示嵌入到同一特征空间后归一化。分别利用单层线性函数将两个模态特征映射到同一特征空间后,由于两种特征来自不同网络,其值可能在不同的范围内且偏差较大,这增加了下一步学习一个好的预测模型的难度。为了更好地进行后续相似性度量,我们需保证映射后两种特征处于同一尺度。步骤d)包括如下步骤:
d-1)通过公式计算归一化的视频特征的维度及文本特征的维度式中Wq为线性映射函数的权重矩阵,bq、bv均为偏差向量,为归一化函数,为所有帧的文本描述整体特征拼接结果,hV为视频V的编码特征的所有隐藏特征的拼接结果,
d-4)通过公式L=Lc+λLI、 计算损失函数L,式中λ为权重参数,Lc为最大化视频边界概率的损失函数,LI为最大化视频片段内部帧概率的损失函数,K为训练样本总数,为第i个样本的视频片段真实的开始帧,为第i个样本的视频片段真实的结束帧,为第i个样本的视频片段内部的帧,j∈[s,e],1≤i≤K。
d-5)通过计算得到的损失函数L对模型进行训练。
优选的,步骤d-1)中的归一化函数采取L2归一化和高斯分布归一化。
Claims (8)
1.一种逐帧跨模态相似度关联实施文本查询定位视频片段方法,其特征在于,包括如下步骤:
a)在视频-文本数据集中得到视频V的编码特征;
b)在视频-文本数据集中得到文本Q的编码特征;
c)构建视频V的编码特征及文本Q的编码特征之间的注意力关联,得到特定帧对应文本查询表示;
d)建立并训练基于深度网络逐帧跨模态相似度关联模型;
e)将文本查询与其对应的整段视频输入到训练好的模型中,得到开始与结束预测值的联合最大值,实现视频片段精准定位。
2.根据权利要求1所述的逐帧跨模态相似度关联实施文本查询定位视频片段方法,其特征在于:步骤a)中采用ActivityNet-Caption视频-文本数据集以及Charades-STA视频-文本数据集。
3.根据权利要求1所述的逐帧跨模态相似度关联实施文本查询定位视频片段方法,其特征在于:步骤a)中将视频-文本数据集中的视频降采样后,通过公式ft=F(vt)使用预训练好的三维深度卷积网络输入图片提取特征得到视频嵌入特征ft,通过公式V={v1,…,vT}得到视频V的编码特征,式中vt为视频第t帧的特征,T为视频长度,1≤t≤T。
4.根据权利要求3所述的逐帧跨模态相似度关联实施文本查询定位视频片段方法,其特征在于:步骤b)中通过公式Q={q1,…,qm}得到文本Q的编码特征,式中qi为本第i个词,m为文本查询长度,1≤i≤m,利用斯坦福CoreNLP工具标记视频-文本数据集中每个句子,通过公式S=glove(Q)采用预训练的Glove语料库得到文本嵌入特征S,S={s1,s2,…,sm},式中sj为文本第j个词的嵌入特征,式中1≤j≤m。
6.根据权利要求4所述的逐帧跨模态相似度关联实施文本查询定位视频片段方法,其特征在于,步骤d)包括如下步骤:
d-1)通过公式计算归一化的视频特征的维度及文本特征的维度式中Wq为线性映射函数的权重矩阵,bq、bv均为偏差向量,为归一化函数,为所有帧的文本描述整体特征拼接结果,hV为视频V的编码特征的所有隐藏特征的拼接结果,
d-4)通过公式L=Lc+λLI、 计算损失函数L,式中λ为权重参数,Lc为最大化视频边界概率的损失函数,LI为最大化视频片段内部帧概率的损失函数,K为训练样本总数,为第i个样本的视频片段真实的开始帧,为第i个样本的视频片段真实的结束帧,为第i个样本的视频片段内部的帧,j∈[s,e],1≤i≤K;
d-5)通过计算得到的损失函数L对模型进行训练。
8.根据权利要求6所述的逐帧跨模态相似度关联实施文本查询定位视频片段方法,其特征在于:步骤d-1)中的归一化函数采取L2归一化和高斯分布归一化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010707541.3A CN111930999B (zh) | 2020-07-21 | 2020-07-21 | 逐帧跨模态相似度关联实施文本查询定位视频片段方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010707541.3A CN111930999B (zh) | 2020-07-21 | 2020-07-21 | 逐帧跨模态相似度关联实施文本查询定位视频片段方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111930999A true CN111930999A (zh) | 2020-11-13 |
CN111930999B CN111930999B (zh) | 2022-09-30 |
Family
ID=73315149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010707541.3A Active CN111930999B (zh) | 2020-07-21 | 2020-07-21 | 逐帧跨模态相似度关联实施文本查询定位视频片段方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111930999B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112348102A (zh) * | 2020-11-16 | 2021-02-09 | 浙江大学 | 一种基于查询的自底向上视频定位方法和系统 |
CN113010740A (zh) * | 2021-03-09 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 词权重的生成方法、装置、设备及介质 |
CN113111836A (zh) * | 2021-04-25 | 2021-07-13 | 山东省人工智能研究院 | 基于跨模态哈希学习的视频解析方法 |
CN113590881A (zh) * | 2021-08-09 | 2021-11-02 | 北京达佳互联信息技术有限公司 | 视频片段检索方法、视频片段检索模型的训练方法及装置 |
CN113590874A (zh) * | 2021-09-28 | 2021-11-02 | 山东力聚机器人科技股份有限公司 | 一种视频定位方法及装置、模型训练方法及设备 |
CN113887471A (zh) * | 2021-10-15 | 2022-01-04 | 西安电子科技大学 | 基于特征解耦和交叉对比的视频时序定位方法 |
CN113934887A (zh) * | 2021-12-20 | 2022-01-14 | 成都考拉悠然科技有限公司 | 一种基于语义解耦的无提议时序语言定位方法 |
CN114064967A (zh) * | 2022-01-18 | 2022-02-18 | 之江实验室 | 多粒度级联交互网络的跨模态时序行为定位方法及装置 |
CN115223086A (zh) * | 2022-09-20 | 2022-10-21 | 之江实验室 | 基于交互注意力引导与修正的跨模态动作定位方法与系统 |
CN116226443A (zh) * | 2023-05-11 | 2023-06-06 | 山东建筑大学 | 基于大规模视频语料库的弱监督视频片段定位方法及系统 |
CN117152669A (zh) * | 2023-10-30 | 2023-12-01 | 华中科技大学 | 一种跨模态时域视频定位方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932304A (zh) * | 2018-06-12 | 2018-12-04 | 山东大学 | 基于跨模态的视频时刻定位方法、系统及存储介质 |
CN109905772A (zh) * | 2019-03-12 | 2019-06-18 | 腾讯科技(深圳)有限公司 | 视频片段查询方法、装置、计算机设备及存储介质 |
CN110175266A (zh) * | 2019-05-28 | 2019-08-27 | 复旦大学 | 一种用于多段视频跨模态检索的方法 |
CN110933518A (zh) * | 2019-12-11 | 2020-03-27 | 浙江大学 | 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法 |
-
2020
- 2020-07-21 CN CN202010707541.3A patent/CN111930999B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932304A (zh) * | 2018-06-12 | 2018-12-04 | 山东大学 | 基于跨模态的视频时刻定位方法、系统及存储介质 |
CN109905772A (zh) * | 2019-03-12 | 2019-06-18 | 腾讯科技(深圳)有限公司 | 视频片段查询方法、装置、计算机设备及存储介质 |
CN110175266A (zh) * | 2019-05-28 | 2019-08-27 | 复旦大学 | 一种用于多段视频跨模态检索的方法 |
CN110933518A (zh) * | 2019-12-11 | 2020-03-27 | 浙江大学 | 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112348102A (zh) * | 2020-11-16 | 2021-02-09 | 浙江大学 | 一种基于查询的自底向上视频定位方法和系统 |
CN112348102B (zh) * | 2020-11-16 | 2024-03-19 | 浙江大学 | 一种基于查询的自底向上视频定位方法和系统 |
CN113010740B (zh) * | 2021-03-09 | 2023-05-30 | 腾讯科技(深圳)有限公司 | 词权重的生成方法、装置、设备及介质 |
CN113010740A (zh) * | 2021-03-09 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 词权重的生成方法、装置、设备及介质 |
CN113111836A (zh) * | 2021-04-25 | 2021-07-13 | 山东省人工智能研究院 | 基于跨模态哈希学习的视频解析方法 |
CN113590881A (zh) * | 2021-08-09 | 2021-11-02 | 北京达佳互联信息技术有限公司 | 视频片段检索方法、视频片段检索模型的训练方法及装置 |
CN113590881B (zh) * | 2021-08-09 | 2024-03-19 | 北京达佳互联信息技术有限公司 | 视频片段检索方法、视频片段检索模型的训练方法及装置 |
CN113590874A (zh) * | 2021-09-28 | 2021-11-02 | 山东力聚机器人科技股份有限公司 | 一种视频定位方法及装置、模型训练方法及设备 |
CN113590874B (zh) * | 2021-09-28 | 2022-02-11 | 山东力聚机器人科技股份有限公司 | 一种视频定位方法及装置、模型训练方法及设备 |
CN113887471B (zh) * | 2021-10-15 | 2023-02-10 | 西安电子科技大学 | 基于特征解耦和交叉对比的视频时序定位方法 |
CN113887471A (zh) * | 2021-10-15 | 2022-01-04 | 西安电子科技大学 | 基于特征解耦和交叉对比的视频时序定位方法 |
CN113934887A (zh) * | 2021-12-20 | 2022-01-14 | 成都考拉悠然科技有限公司 | 一种基于语义解耦的无提议时序语言定位方法 |
CN114064967A (zh) * | 2022-01-18 | 2022-02-18 | 之江实验室 | 多粒度级联交互网络的跨模态时序行为定位方法及装置 |
CN115223086A (zh) * | 2022-09-20 | 2022-10-21 | 之江实验室 | 基于交互注意力引导与修正的跨模态动作定位方法与系统 |
CN115223086B (zh) * | 2022-09-20 | 2022-12-06 | 之江实验室 | 基于交互注意力引导与修正的跨模态动作定位方法与系统 |
CN116226443A (zh) * | 2023-05-11 | 2023-06-06 | 山东建筑大学 | 基于大规模视频语料库的弱监督视频片段定位方法及系统 |
CN117152669A (zh) * | 2023-10-30 | 2023-12-01 | 华中科技大学 | 一种跨模态时域视频定位方法及系统 |
CN117152669B (zh) * | 2023-10-30 | 2024-02-06 | 华中科技大学 | 一种跨模态时域视频定位方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111930999B (zh) | 2022-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111930999B (zh) | 逐帧跨模态相似度关联实施文本查询定位视频片段方法 | |
CN111581961B (zh) | 一种中文视觉词汇表构建的图像内容自动描述方法 | |
CN109815364B (zh) | 一种海量视频特征提取、存储和检索方法及系统 | |
CN109524006B (zh) | 一种基于深度学习的汉语普通话唇语识别方法 | |
CN111581510A (zh) | 分享内容处理方法、装置、计算机设备和存储介质 | |
CN109255047A (zh) | 基于互补语义对齐和对称检索的图像-文本互检索方法 | |
CN116775922A (zh) | 基于语言与视觉细节特征融合的遥感图像跨模态检索方法 | |
CN110933518B (zh) | 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法 | |
CN109960728A (zh) | 一种开放域会议信息命名实体识别方法及系统 | |
CN113190656A (zh) | 一种基于多标注框架与融合特征的中文命名实体抽取方法 | |
CN113836992A (zh) | 识别标签的方法、训练标签识别模型的方法、装置及设备 | |
CN115223086A (zh) | 基于交互注意力引导与修正的跨模态动作定位方法与系统 | |
CN118132803B (zh) | 一种零样本视频时刻检索方法、系统、设备及介质 | |
CN117574904A (zh) | 基于对比学习和多模态语义交互的命名实体识别方法 | |
CN111145914A (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN116933051A (zh) | 一种用于模态缺失场景的多模态情感识别方法及系统 | |
CN117765450B (zh) | 一种视频语言理解方法、装置、设备及可读存储介质 | |
CN116844056A (zh) | 结合自监督学习和知识蒸馏的sar目标检测方法 | |
Pu et al. | Review on research progress of machine lip reading | |
CN113254575B (zh) | 一种基于多步证据推理的机器阅读理解方法与系统 | |
CN115640449A (zh) | 媒体对象推荐方法、装置、计算机设备和存储介质 | |
CN116955579B (zh) | 一种基于关键词知识检索的聊天回复生成方法和装置 | |
CN113761282A (zh) | 视频查重方法、装置、电子设备以及存储介质 | |
CN116935329A (zh) | 一种类级别对比学习的弱监督文本行人检索方法及系统 | |
CN115422388B (zh) | 一种视觉对话方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |