CN113111836A - 基于跨模态哈希学习的视频解析方法 - Google Patents

基于跨模态哈希学习的视频解析方法 Download PDF

Info

Publication number
CN113111836A
CN113111836A CN202110447506.7A CN202110447506A CN113111836A CN 113111836 A CN113111836 A CN 113111836A CN 202110447506 A CN202110447506 A CN 202110447506A CN 113111836 A CN113111836 A CN 113111836A
Authority
CN
China
Prior art keywords
video
cross
modal
hash
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110447506.7A
Other languages
English (en)
Other versions
CN113111836B (zh
Inventor
贾永坡
申培
胡宇鹏
甘甜
吴建龙
高赞
聂礼强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hegang Digital Technology Co ltd
Shandong University
HBIS Co Ltd
Shandong Institute of Artificial Intelligence
Original Assignee
Hegang Digital Technology Co ltd
Shandong University
HBIS Co Ltd
Shandong Institute of Artificial Intelligence
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hegang Digital Technology Co ltd, Shandong University, HBIS Co Ltd, Shandong Institute of Artificial Intelligence filed Critical Hegang Digital Technology Co ltd
Priority to CN202110447506.7A priority Critical patent/CN113111836B/zh
Publication of CN113111836A publication Critical patent/CN113111836A/zh
Application granted granted Critical
Publication of CN113111836B publication Critical patent/CN113111836B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于跨模态哈希学习的视频解析方法,实现多模态特征向汉明共空间的特征映射与融合,并利用汉明距离对具有语义相似性的视频片段‑查询语句对,进行高效检索。一方面引入双向时序卷积网络模型,深刻理解视频单元的上下文信息,以及视频内部的长期语义依赖;另一方面,引入基于多头注意力机制的文本语义理解模型,对给定查询语句进行有效表征,从而提高了视频定位的精度。本发的特征编码模型是相互独立的,即视频片段候选集的生成与查询语句特征集的表征,可以分开独立运行。因此,当我们对给定视频完成相应的候选集生成之后,可以根据不同用户的多样性需求,对当前视频反复进行基于汉明距离度量的高效视频定位。

Description

基于跨模态哈希学习的视频解析方法
技术领域
本发明涉及视频语义分析技术领域,具体涉及一种基于跨模态哈希学习的视频解析方法。
背景技术
随着互联网、云计算、大数据技术的迅猛发展与相互融合,视频数据也随之增长,并广泛遍布于多样的应用场景中以满足人们的不同需求。由此,视频检索技术也日益受到广泛关注。当前视频检索研究主要分为:(1)单模态检索,即利用给定的视频特征,从视频数据库中检索出与之“特征相似”的视频数据;(2)跨模态检索,即利用给定的自然语言描述从视频数据库中检索出与之“语义相似”的视频数据。显然,这种基于自然语言的视觉信息检索,不仅是对传统视频检索研究的深化,而且具有良好的人机交互性。但是,目前的跨模态检索研究,仅能根据给定的简单文本描述(“坐下”、“点头”、“握手”等)从视频集合中检索出包含上述动作行为的完整视频,即仅能判断所给定视频中是否包含与文本查询具有相似“语义”视频片段,而无法对目标视频片段进行准确定位。但是对于给出查询语句的相关用户而言,从给定视频上检索出其所感兴趣的视频片段,肯定比单纯检索出包含相关片段的完整视频,更加符合用户的期望。例如,对于一段长度为30秒的监控视频(包含复杂的视觉场景和动作行为),相关安保人员可能迫切需要对对监控视频中一个具体片段:“黑衣男子第二次拿出手机,开始通话”(开始于5.6秒,结束于17.1秒)进行视频定位,以便于对可疑人员进行追踪。由此可见,跨模态视频定位研究更有意义,同时也具有更大的挑战性。
跨模态视频定位研究,不仅需要对视频内部所涉及复杂的场景、对象、交互进行准确理解,而且需要对给定的文本查询语句的自然语义逻辑,以及关键线索词“黑衣”、“男子”、“第二次”、“手机”进行准确理解。更重要的是,需要对以上两种模态特征,进行有效的跨模态特征融合,即:从给定视频所描绘的复杂场景中准确定位出与查询语义相匹配的视频片段,同时对该场景中的其他动作行为进行“忽略”,智能且精准地实现目标视频片段定位。
发明内容
本发明为了克服以上技术的不足,提供了一种从给定视频中对不同文本查询语句,所期望的视频片段进行准确定位的方法。
本发明克服其技术问题所采用的技术方案是:
一种基于跨模态哈希学习的视频解析方法,包括:
a)对第k条视频数据Vk进行单元分割,k∈{1,...,K},K为视频数据总数,对分割后的视频数据Vk输入C3D网络模型处理,将处理结果进行池化操作得到基于视频单元的特征表征Vk (0)
Figure BDA0003037424230000021
Figure BDA0003037424230000022
为第r个视频单元的特征表征,R为视频单元的总个数;
b)通过公式
Figure BDA0003037424230000023
基于双向时序卷积网络对Vk (0)进行上下文信息感知的特征增强,得到第i次双向卷积处理后的视频表征Vk (i),式中ε为卷积核大小,ρ为稀疏率,Θ为双向时序卷积操作,
Figure BDA0003037424230000024
为经过第i次双向卷积处理的第r个视频单元的特征表征;
c)完成三次双向时序卷积,得到视频表征Vk (3),将视频表征Vk (3)依次输入多尺度卷积网络和多层感知机网络模型处理,得到视频片段表征集合Ck,Ck={ck,1,ck,2,...,ck,i,...,…,ck,n},ck,i为第i个视频片段表征,i∈{1,...,n},n为视频片段总个数;
d)对第k条视频数据Vk的全体查询语句构成的集合Qk通过基于长短时记忆网络与多层感知机网络的语义理解,生成相应的查询语句表征集合
Figure BDA0003037424230000025
e)基于交并比率IoU构建跨模态相似矩阵Mk,将视频片段表征集合Ck和查询语句表征集合
Figure BDA0003037424230000026
分别输入全连接神经网络后基于跨模态相似矩阵进行跨模态特征语义对齐,完成跨模态哈希网络模型的建立,通过损失函数Γ训练跨模态哈希网络模型;
f)将测试集输入训练后的跨模态哈希网络模型,将测试集中第r条视频数据Vr和对第r条视频数据Vr的全体查询语句构成的集合Qr向汉明空间进行特征映射,得到视频数据Vr的哈希特征集合
Figure BDA0003037424230000031
以及集合Qr的哈希特征集合
Figure BDA0003037424230000032
Figure BDA0003037424230000033
bci为第i个视频数据的哈希特征,i∈{1,...,n},bqj为第j个查询语句的哈希特征,j∈{1,...,m},m为集合Qr中查询语句的总个数;
g)通过公式
Figure BDA0003037424230000034
计算得到汉明距离
Figure BDA0003037424230000035
T为转置,L为哈希码长度,⊙点乘计算,通过汉明距离
Figure BDA0003037424230000036
度量哈希特征集合
Figure BDA0003037424230000037
Figure BDA0003037424230000038
得到语义相似性结果。
进一步的,步骤a)中以16帧为最小单元对第k条视频数据Vk进行单元分割。
进一步的,每次双向时序卷积操作时增加填充信息,通过公式pi=(ε-1)p计算第i层的填充个数pi
进一步的,步骤e)中通过公式
Figure BDA0003037424230000039
计算全连接神经网络的损失函数Γ1,式中
Figure BDA00030374242300000310
为弗罗尼乌斯范数,T为转置,Y为多模态特征设置的统一维度。
进一步的,步骤e)中通过公式
Figure BDA00030374242300000311
计算得到转换成二值特征集合
Figure BDA00030374242300000312
通过公式
Figure BDA00030374242300000313
计算得到转换成二值特征集合
Figure BDA00030374242300000314
式中sgn(·)为符号函数,通过公式
Figure BDA00030374242300000315
计算损失函数Γ2,利用公式Γ=Γ1+λΓ2计算得到损失函数Γ,λ为超参,,通过损失函数Γ训练跨模态哈希网络模型,利用adam optimizer函数求解出跨模态哈希网络模型的全部参数。
本发明的有益效果是:实现多模态特征向汉明共空间的特征映射与融合,并利用汉明距离对具有语义相似性的视频片段-查询语句对,进行高效检索。一方面引入双向时序卷积网络模型,深刻理解视频单元的上下文信息,以及视频内部的长期语义依赖;另一方面,引入基于多头注意力机制的文本语义理解模型,对给定查询语句进行有效表征,从而提高了视频定位的精度。本发的特征编码模型是相互独立的,即视频片段候选集的生成与查询语句特征集的表征,可以分开独立运行。因此,当我们对给定视频完成相应的候选集生成之后,可以根据不同用户的多样性需求,对当前视频反复进行基于汉明距离度量的高效视频定位。
附图说明
图1为本发明的模型结构图;
图2为本发明的视频片段表征集生成流程图;
图3为本发明的对比模型介绍图;
图4为本发明的定位精度与效率对比图;
图5为本发明的定位可扩展性对比图。
具体实施方式
下面结合附图1至附图5对本发明做进一步说明。
如附图1所示,一种基于跨模态哈希学习的视频解析方法,包括:
a)如附图2所示,对第k条视频数据Vk进行单元分割,k∈{1,...,K},K为视频数据总数,并利用C3D网络模型与池化操作,获得视频单元的特征表征。随后,基于本发明提出双向时序卷积网络,对按照“时序”排列的视频单元进行基于“上下文”信息感知的特征增强,随后利用基于多尺度卷积网络和多层感知机网络模型,生成视频片段表征集合Ck。具体的对分割后的视频数据Vk输入C3D网络模型处理,将处理结果进行池化操作得到基于视频单元的特征表征Vk (0)
Figure BDA0003037424230000041
Figure BDA0003037424230000042
为第r个视频单元的特征表征,R为视频单元的总个数。
b)通过公式
Figure BDA0003037424230000051
基于双向时序卷积网络对Vk (0)进行上下文信息感知的特征增强,得到第i次双向卷积处理后的视频表征Vk (i),式中ε为卷积核大小,ρ为稀疏率,Θ为双向时序卷积操作,
Figure BDA0003037424230000052
为经过第i次双向卷积处理的第r个视频单元的特征表征。
c)当完成三次双向时序卷积之后,得到视频表征Vk (3),将视频表征Vk (3)依次输入多尺度卷积网络和多层感知机网络模型处理,得到视频片段表征集合Ck,Ck={ck,1,ck,2,…,ck,i,…,…,ck,n},ck,i为第i个视频片段表征,i∈{1,…,n},n为视频片段总个数。
d)对第k条视频数据Vk的全体查询语句构成的集合Qk通过基于长短时记忆网络与多层感知机网络的语义理解,生成相应的查询语句表征集合
Figure BDA0003037424230000053
e)基于交并比率IoU构建跨模态相似矩阵Mk,将视频片段表征集合Ck和查询语句表征集合
Figure BDA0003037424230000054
分别输入全连接神经网络后基于跨模态相似矩阵进行跨模态特征语义对齐,完成跨模态哈希网络模型的建立,通过损失函数Γ训练跨模态哈希网络模型。
f)将测试集输入训练后的跨模态哈希网络模型,将测试集中第r条视频数据Vr和对第r条视频数据Vr的全体查询语句构成的集合Qr向汉明空间进行特征映射,得到视频数据Vr的哈希特征集合
Figure BDA0003037424230000055
以及集合Qr的哈希特征集合
Figure BDA0003037424230000056
Figure BDA0003037424230000057
bci为第i个视频数据的哈希特征,i∈{1,…,n},bqj为第j个查询语句的哈希特征,j∈{1,…,m},m为集合Qr中查询语句的总个数。
g)通过公式
Figure BDA0003037424230000058
计算得到汉明距离
Figure BDA0003037424230000059
T为转置,L为哈希码长度,⊙点乘计算,通过汉明距离
Figure BDA0003037424230000061
度量哈希特征集合
Figure BDA0003037424230000062
Figure BDA0003037424230000063
得到语义相似性结果。利用汉明距离计算公式,可以迅速检索出具有语义相似性的“视频片段-查询语句”对,从而实现基于自然语言的视频片段精准定位和高效定位。如附图3所示,通过与国际领先的同类模型进行定位性能对比,如附图4中的结果显示,本模型的定位精度和效率具有显著优越性。
本跨模态哈希网络模型中的视频编码模块和查询语句编码模块是相互独立的,多模态信息(视频、文本)可以分别进行适应性的语义理解与表征学习。因此,当需要对给定视频,进行大量多样性片段定位查询时,跨模态哈希网络模型能够保证跨模态视频片段定位的可扩展性。为此,我们选取国际开源基准数据集ActivityNet Captions(网址https://cs.stanford.edu/people/ranjaykrishna/densevid/),并将其测试集所包含的查询语句数量进行整数倍扩展,随后将再次评估跨模态哈希网络模型与附图4中性能最好的对比模型CMIN的定位效率。如附图5中(10X,表示查询语句数量扩展到原来的10倍)结果显示,随着查询语句数量的增多,跨模态哈希网络模型定位时间的增长远低于对比模型CMIN,显然跨模态哈希网络模型的可扩展性同样具有显著优越性。
通过构建跨模态哈希网络模型。
实现多模态特征向汉明共空间的特征映射与融合,并利用汉明距离对具有语义相似性的视频片段-查询语句对,进行高效检索。一方面引入双向时序卷积网络模型,深刻理解视频单元的上下文信息,以及视频内部的长期语义依赖;另一方面,引入基于多头注意力机制的文本语义理解模型,对给定查询语句进行有效表征,从而提高了视频定位的精度。本发的特征编码模型是相互独立的,即视频片段候选集的生成与查询语句特征集的表征,可以分开独立运行。因此,当我们对给定视频完成相应的候选集生成之后,可以根据不同用户的多样性需求,对当前视频反复进行基于汉明距离度量的高效视频定位,即本模型能够保证视频定位的可扩展性。在开源基准数据上进行的大量性能对比实验,可以证明本发明所提供的模型不仅可以基于不同的文本查询语句,实现精准且高效的视频片段定位,而且能证明本模型的具有良好可扩展。
实施例1:
步骤a)中以16帧为最小单元对第k条视频数据Vk进行单元分割。
实施例2:
为保证每次双向卷积处理,都能得到长度为R的视频单元集合。我们需要为每次的双向时序卷积操作,增加填充(padding)信息。第i层的padding个数为每次双向时序卷积操作时增加填充信息,因此通过公式pi=(ε-1)p计算第i层的填充个数pi
实施例3:
步骤e)中通过公式
Figure BDA0003037424230000071
计算全连接神经网络的损失函数Γ1,式中
Figure BDA0003037424230000072
为弗罗尼乌斯范数,T为转置,Y为多模态特征设置的统一维度。
实施例4:
步骤e)中通过公式
Figure BDA0003037424230000073
计算得到转换成二值特征集合
Figure BDA0003037424230000074
通过公式
Figure BDA0003037424230000075
计算得到转换成二值特征集合
Figure BDA0003037424230000076
式中sgn(·)为符号函数,通过公式
Figure BDA0003037424230000077
计算损失函数Γ2,利用公式Γ=Γ1+λΓ2计算得到损失函数Γ,λ为超参,,通过损失函数Γ训练跨模态哈希网络模型,利用adam optimizer函数求解出跨模态哈希网络模型的全部参数。最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于跨模态哈希学习的视频解析方法,其特征在于,包括:
a)对第k条视频数据Vk进行单元分割,k∈{1,...,K},K为视频数据总数,对分割后的视频数据Vk输入C3D网络模型处理,将处理结果进行池化操作得到基于视频单元的特征表征Vk (0)
Figure FDA0003037424220000011
Figure FDA0003037424220000012
为第r个视频单元的特征表征,R为视频单元的总个数;
b)通过公式
Figure FDA0003037424220000013
基于双向时序卷积网络对Vk (0)进行上下文信息感知的特征增强,得到第i次双向卷积处理后的视频表征Vk (i),式中ε为卷积核大小,ρ为稀疏率,Θ为双向时序卷积操作,
Figure FDA0003037424220000014
为经过第i次双向卷积处理的第r个视频单元的特征表征;
c)完成三次双向时序卷积,得到视频表征Vk (3),将视频表征Vk (3)依次输入多尺度卷积网络和多层感知机网络模型处理,得到视频片段表征集合Ck,Ck={ck,1,ck,2,…,ck,i,…,...,ck,n},ck,i为第i个视频片段表征,i∈{1,...,n},n为视频片段总个数;
d)对第k条视频数据Vk的全体查询语句构成的集合Qk通过基于长短时记忆网络与多层感知机网络的语义理解,生成相应的查询语句表征集合
Figure FDA0003037424220000015
e)基于交并比率IoU构建跨模态相似矩阵Mk,将视频片段表征集合Ck和查询语句表征集合
Figure FDA0003037424220000016
分别输入全连接神经网络后基于跨模态相似矩阵进行跨模态特征语义对齐,完成跨模态哈希网络模型的建立,通过损失函数Γ训练跨模态哈希网络模型;
f)将测试集输入训练后的跨模态哈希网络模型,将测试集中第r条视频数据Vr和对第r条视频数据Vr的全体查询语句构成的集合Qr向汉明空间进行特征映射,得到视频数据Vr的哈希特征集合
Figure FDA0003037424220000017
以及集合Qr的哈希特征集合
Figure FDA0003037424220000018
Figure FDA0003037424220000021
bci为第i个视频数据的哈希特征,i∈{1,...,n},bqj为第j个查询语句的哈希特征,j∈{1,...,m},m为集合Qr中查询语句的总个数;
g)通过公式
Figure FDA0003037424220000022
计算得到汉明距离
Figure FDA0003037424220000023
T为转置,L为哈希码长度,⊙点乘计算,通过汉明距离
Figure FDA0003037424220000024
度量哈希特征集合
Figure FDA0003037424220000025
Figure FDA0003037424220000026
得到语义相似性结果。
2.根据权利要求1所述的基于跨模态哈希学习的视频解析方法,其特征在于:步骤a)中以16帧为最小单元对第k条视频数据Vk进行单元分割。
3.根据权利要求1所述的基于跨模态哈希学习的视频解析方法,其特征在于:每次双向时序卷积操作时增加填充信息,通过公式pi=(ε-1)p计算第i层的填充个数pi
4.根据权利要求1所述的基于跨模态哈希学习的视频解析方法,其特征在于:步骤e)中通过公式
Figure FDA0003037424220000027
计算全连接神经网络的损失函数Γ1,式中
Figure FDA0003037424220000028
为弗罗尼乌斯范数,T为转置,Y为多模态特征设置的统一维度。
5.根据权利要求4所述的基于跨模态哈希学习的视频解析方法,其特征在于:步骤e)中通过公式
Figure FDA0003037424220000029
计算得到转换成二值特征集合
Figure FDA00030374242200000210
通过公式
Figure FDA00030374242200000211
计算得到转换成二值特征集合
Figure FDA00030374242200000212
式中sgn(·)为符号函数,通过公式
Figure FDA00030374242200000213
计算损失函数Γ2,利用公式Γ=Γ1+λΓ2计算得到损失函数Γ,λ为超参,,通过损失函数Γ训练跨模态哈希网络模型,利用adam optimizer函数求解出跨模态哈希网络模型的全部参数。
CN202110447506.7A 2021-04-25 2021-04-25 基于跨模态哈希学习的视频解析方法 Active CN113111836B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110447506.7A CN113111836B (zh) 2021-04-25 2021-04-25 基于跨模态哈希学习的视频解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110447506.7A CN113111836B (zh) 2021-04-25 2021-04-25 基于跨模态哈希学习的视频解析方法

Publications (2)

Publication Number Publication Date
CN113111836A true CN113111836A (zh) 2021-07-13
CN113111836B CN113111836B (zh) 2022-08-19

Family

ID=76719968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110447506.7A Active CN113111836B (zh) 2021-04-25 2021-04-25 基于跨模态哈希学习的视频解析方法

Country Status (1)

Country Link
CN (1) CN113111836B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114780789A (zh) * 2022-06-22 2022-07-22 山东建筑大学 基于自然语言查询的装配式构件施工监控视频定位方法
CN116186329A (zh) * 2023-02-10 2023-05-30 阿里巴巴(中国)有限公司 视频处理、搜索、索引构建方法、装置、设备及存储介质
CN116385946A (zh) * 2023-06-06 2023-07-04 山东大学 面向视频的目标片段定位方法、系统、存储介质及设备
CN117555916A (zh) * 2023-11-06 2024-02-13 广东电网有限责任公司佛山供电局 一种基于自然语言处理的语音交互方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107871014A (zh) * 2017-11-23 2018-04-03 清华大学 一种基于深度融合哈希的大数据跨模态检索方法及系统
CN108932304A (zh) * 2018-06-12 2018-12-04 山东大学 基于跨模态的视频时刻定位方法、系统及存储介质
CN110019849A (zh) * 2018-05-23 2019-07-16 山东大学 一种基于注意力机制的视频关注时刻检索方法及装置
CN110069666A (zh) * 2019-04-03 2019-07-30 清华大学 基于近邻结构保持的哈希学习方法和装置
CN111897913A (zh) * 2020-07-16 2020-11-06 浙江工商大学 基于语义树增强的复杂文本查询到视频的跨模态检索方法
CN111930999A (zh) * 2020-07-21 2020-11-13 山东省人工智能研究院 逐帧跨模态相似度关联实施文本查询定位视频片段方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107871014A (zh) * 2017-11-23 2018-04-03 清华大学 一种基于深度融合哈希的大数据跨模态检索方法及系统
CN110019849A (zh) * 2018-05-23 2019-07-16 山东大学 一种基于注意力机制的视频关注时刻检索方法及装置
CN108932304A (zh) * 2018-06-12 2018-12-04 山东大学 基于跨模态的视频时刻定位方法、系统及存储介质
CN110069666A (zh) * 2019-04-03 2019-07-30 清华大学 基于近邻结构保持的哈希学习方法和装置
CN111897913A (zh) * 2020-07-16 2020-11-06 浙江工商大学 基于语义树增强的复杂文本查询到视频的跨模态检索方法
CN111930999A (zh) * 2020-07-21 2020-11-13 山东省人工智能研究院 逐帧跨模态相似度关联实施文本查询定位视频片段方法

Non-Patent Citations (11)

* Cited by examiner, † Cited by third party
Title
CHANGCHANG SUN等: "Supervised Hierarchical Cross-Modal Hashing", 《SIGIR 19》 *
KUNIHIKO TAYA等: "Detecting tampered region in video using LSTM and U-Net", 《ELECTRONICS AND COMMUNICATIONS IN JAPAN》 *
QING-YUAN JIANG等: "Deep Cross-Modal Hashing", 《ARXIV:1602.02255V2 [CS.IR]》 *
XIANG ZHOU等: "Graph Convolutional Network Hashing", 《IEEE TRANSACTIONS ON CYBERNETICS》 *
XIAOQIANG LU等: "Hierarchical Recurrent Neural Hashing for Image Retrieval With Hierarchical Convolutional Features", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 *
YI BIN等: "Describing Video With Attention-Based Bidirectional LSTM", 《IEEE TRANSACTIONS ON CYBERNETICS》 *
ZHEN-DUO CHEN等: "SCRATCH: A Scalable Discrete Matrix Factorization Hashing Framework for Cross-Modal Retrieval", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》 *
刘吉双: "基于语义内容的交通监控视频检索研究", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》 *
刘渝等: "基于语义相似性的跨模态图文内容筛选存储机制研究", 《计算机研究与发展》 *
彭海燕: "基于多模态哈希学习的视频拷贝检测", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
朱映映等: "基于视频感知哈希的视频篡改检测与多粒度定位", 《中国图象图形学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114780789A (zh) * 2022-06-22 2022-07-22 山东建筑大学 基于自然语言查询的装配式构件施工监控视频定位方法
CN116186329A (zh) * 2023-02-10 2023-05-30 阿里巴巴(中国)有限公司 视频处理、搜索、索引构建方法、装置、设备及存储介质
CN116186329B (zh) * 2023-02-10 2023-09-12 阿里巴巴(中国)有限公司 视频处理、搜索、索引构建方法、装置、设备及存储介质
CN116385946A (zh) * 2023-06-06 2023-07-04 山东大学 面向视频的目标片段定位方法、系统、存储介质及设备
CN116385946B (zh) * 2023-06-06 2023-08-29 山东大学 面向视频的目标片段定位方法、系统、存储介质及设备
CN117555916A (zh) * 2023-11-06 2024-02-13 广东电网有限责任公司佛山供电局 一种基于自然语言处理的语音交互方法及系统
CN117555916B (zh) * 2023-11-06 2024-05-31 广东电网有限责任公司佛山供电局 一种基于自然语言处理的语音交互方法及系统

Also Published As

Publication number Publication date
CN113111836B (zh) 2022-08-19

Similar Documents

Publication Publication Date Title
CN112560503B (zh) 融合深度特征和时序模型的语义情感分析方法
CN113111836B (zh) 基于跨模态哈希学习的视频解析方法
Mao et al. Deep cross-modal retrieval for remote sensing image and audio
Guo et al. Jointly learning of visual and auditory: A new approach for RS image and audio cross-modal retrieval
CN111291188B (zh) 一种智能信息抽取方法及系统
Li et al. Residual attention-based LSTM for video captioning
CN113177141B (zh) 基于语义嵌入软相似性的多标签视频哈希检索方法及设备
Chen et al. Deep quadruple-based hashing for remote sensing image-sound retrieval
CN110851584B (zh) 一种法律条文精准推荐系统和方法
CN113128431B (zh) 视频片段检索方法、装置、介质与电子设备
CN115062134B (zh) 知识问答模型训练及知识问答方法、装置和计算机设备
CN112883229B (zh) 基于多特征图注意网络模型的视频-文本跨模态检索方法和装置
CN112528136A (zh) 一种观点标签的生成方法、装置、电子设备和存储介质
CN113392265A (zh) 多媒体处理方法、装置及设备
Zhao et al. TelecomNet: Tag-based weakly-supervised modally cooperative hashing network for image retrieval
CN115438674A (zh) 实体数据处理、实体链接方法、装置和计算机设备
CN114239730B (zh) 一种基于近邻排序关系的跨模态检索方法
CN113806554A (zh) 面向海量会议文本的知识图谱构建方法
Xu et al. Idhashgan: deep hashing with generative adversarial nets for incomplete data retrieval
Zhu et al. Triplet-object loss for large scale deep image retrieval
CN116385946B (zh) 面向视频的目标片段定位方法、系统、存储介质及设备
Chen et al. Fine aligned discriminative hashing for remote sensing image-audio retrieval
CN116842934A (zh) 一种基于持续学习的多文档融合深度学习标题生成方法
Gayathri et al. An efficient video indexing and retrieval algorithm using ensemble classifier
Zhang et al. Semantics-preserving hashing based on multi-scale fusion for cross-modal retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant