CN111104555A - 基于注意力机制的视频哈希检索方法 - Google Patents

基于注意力机制的视频哈希检索方法 Download PDF

Info

Publication number
CN111104555A
CN111104555A CN201911346339.6A CN201911346339A CN111104555A CN 111104555 A CN111104555 A CN 111104555A CN 201911346339 A CN201911346339 A CN 201911346339A CN 111104555 A CN111104555 A CN 111104555A
Authority
CN
China
Prior art keywords
video
network
hash
output
pairs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911346339.6A
Other languages
English (en)
Other versions
CN111104555B (zh
Inventor
聂秀山
尹义龙
王迎新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jianzhu University
Original Assignee
Shandong Jianzhu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Jianzhu University filed Critical Shandong Jianzhu University
Priority to CN201911346339.6A priority Critical patent/CN111104555B/zh
Publication of CN111104555A publication Critical patent/CN111104555A/zh
Application granted granted Critical
Publication of CN111104555B publication Critical patent/CN111104555B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种注意力机制的视频哈希检索方法,包括以下步骤:(1)视频预处理:对视频帧进行采样,并构建视频对;(2)视频帧特征提取:利用卷积神经网络对每一帧进行特征提取;(3)视频特征学习:利用孪生网络、长短期记忆神经网络(LSTM)和注意力机制对视频进行学习;(4)降维和训练:利用全连接层对视频特征进行降维,得到想要的长度的哈希码,并使用梯度下降算法学习网络参数。(5)检索:利用孪生网络的一路网络得到每个视频的哈希码,计算与其他视频的海明距离并进行排序,得到距离最近的视频。与现有技术相比,本发明实现了同时学习视频的空间信息和时间信息,而且通过采样等技术大大降低了计算代价,也提高了视频检索的准确率。

Description

基于注意力机制的视频哈希检索方法
技术领域
本发明涉及一种视频哈希检索方法,属于视频、多媒体信号处理技术领域。
背景技术
随着网络和移动社交媒体的发展,海量的多媒体信息不断地产生,尤其是图片和视频。著名的图片分享网站Flickr,每分钟有3000张图片被上传上传;视频分享网站YouTube,每分钟上传的视频时长高达100小时。因此,如何对海量的多媒体信息进行检索是一个热点话题。从前我们主要通过关键字对图片和视频进行检索,但这往往会检索出我们不想要的结果。基于这个原因,基于内容的检索被提了出来。哈希方法由于其优点,即检索迅速和节省空间,在近年来成为一个热门的研究方向。哈希方法通过将图片或者视频映射成紧凑且离散的二值码(通常是0和1或者-1和1),即哈希码,在海明空间中通过异或运算来计算样本之间的海明距离,通过海明距离来决定检索的结果。由于哈希码是紧凑的,所以存储空间得以大大减小。而海明距离的计算极为迅速,所以检索的速度也得到了保证。
传统的哈希方法主要是针对图片,是基于内容的检索方法。通过对图片进行特征提取,得到每张图片的特征。然后对特征进行哈希映射。最后将连续的值映射成离散的哈希码。哈希方法分为有数据独立的方法和数据依赖的方法。数据独立的方法是指哈希方法不需要数据进行训练,而数据依赖的方法需要数据对哈希方法进行训练。
而视频与图片有很大的不同。在图片哈希中,我们只考虑空间信息。所以只提取图片的空间信息就足以表示图片的特征。而视频每一帧是一张图片,并且同时有很多帧,这些帧就是一个时间序列。每一帧和图像一样,包含空间信息,而帧所组成的时间序列则具有时序信息。由于视频同时具有每一帧的空间特征及帧之间的时序信息,所以在对视频进行处理时,既要考虑空间信息,又要考虑时序信息。空间信息一般使用卷积神经网络来进行提取,时序信息可利用光流图、相邻帧特征融合或者循环神经网络来进行提取。
发明内容
在一个视频中,每一帧的重要性往往是不同的,已有的视频哈希方法往往将所有视频帧同等考虑,而不去考虑不同视频帧对于视频在重要性上的差异。本发明针对现有视频哈希方法的不足,提出了一种基于注意力机制的视频哈希检索方法,通过利用注意力机制,可以区别不同帧的重要性,不同帧被赋予不同的权重,由此得到的视频特征表示更加准确。相邻视频帧往往有着极大地相似性,所以没有必要在对视频进行处理时,使用所有的视频帧,可以采用采样的方法,从视频中对视频帧进行采样,来降低视频帧的数量,从而减小计算复杂度。同时,本发明利用卷积神经网络和循环神经网络,同时获取空间特征和时序特征,大大提高了视频特征的表示能力。除了利用注意力机制来获得良好的视频表示,本发明还通过设计新的损失函数,提高哈希码的质量,进而提高视频检索的准确性。
与现有视频哈希中损失函数相比,该发明包含一个最大间隔损失、位平衡损失和位不相关损失,因此大大提高了哈希码的表示能力。通过设置最大间隔损失,使得不同类视频之间的距离大,相同类之间的距离小;同时,通过设置一个阈值,可以再一定程度上降低过拟合的风险。通过设置位平衡损失,使得生成的哈希码中的-1和+1(或者是0和1)数量尽可能的相近,这可以提高哈希码的表示能力。通过设置位不相关损失,哈希码的每一维度都是高度不相关的,降低了哈希码中的冗余,使得哈希码中的每一位都是有用的,这对哈希码的表示能力提高很大,并且哈希码越短,位不相关损失越重要,应该越小越好。与现有技术相比,本发明的计算复杂性较低,且检索准确率高。
本发明采用的技术方案为:
一种基于注意力机制的视频哈希检索方法,其特征在于该方法包括以下步骤:
(1)视频预处理:对视频帧进行采样,并构建视频对,视频对包括同一类的视频对即正样本对和不同类的视频对即负样本对,同一类的视频对的标签为1,不同类的视频对标签为0;
(2)视频帧特征提取:将视频采样后的每一帧输入卷积神经网络提取特征;
(3)利用孪生网络、长短期记忆神经网络LSTM和注意力机制对视频进行学习:将视频对中的两个视频分别输入孪生网络的两路神经网络,分别得到两个视频对应的视频特征表示,其中,孪生网络的两路神经网络是参数共享的,且每一路神经网络都是LSTM和注意力机制构成的网络,利用注意力机制,可以区别不同帧的重要性,不同帧被赋予不同的权重;
(4)降维和训练:利用全连接层对视频特征进行降维,得到想要长度的哈希码,并使用梯度下降算法学习网络参数;
(5)检索:当网络训练完成后进行检索时,只利用孪生网络中的一路网络,将一个视频输入到一路网络中,输出该视频对应的值为-1到+1的近似哈希码,然后通过量化得到该视频的哈希码,并通过计算该视频的哈希码与其他视频哈希码之间的海明距离对候选视频进行排序,得到最相近的视频。
优选地,所述步骤(1)的具体实现步骤是:
①对视频帧进行均匀采样,每个视频都均匀地抽取特定数量的视频帧;
②将每一帧都调整为相同大小的帧;
③构建视频对,包括同类的样本对和不同类的样本对,同类视频对和不同类视频对的比例是1:1,构造视频对时,随机选择一个视频,然后从余下的视频中随机选取一个同类的视频,随机选取一个不同类的视频,这样可以构造一个正样本视频对和一个负样本视频对。
优选地,所述步骤(2)的具体实现步骤是:
①对每一帧利用卷积神经网络VGG19进行特征提取,取倒数第二层全连接输出的特征作为每一帧的特征;
②每一个视频用一个矩阵表示。
优选地,所述步骤(3)的具体实现步骤是:
①构建孪生网络;
②将每个视频输入到长短期记忆神经网络LSTM中,得到每一个时间步的输出;
③利用注意力机制计算每一个时间步输出的向量的权重,并对每一个时间步得到的输出进行加权求和,得到视频的整体特征表示,具体实现方法为:LSTM每个时间步都会接收一个视频帧作为输入,并产生一个输出,将每个时间步产生的输出作为注意力机制的输入,通过计算得到每个时间步的权重,再对每个时间步的输出进行加权计算,得到最后的视频表示,计算过程如下:
Figure DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE004
为所有LSTM时间步输出的向量拼接成的向量,
Figure DEST_PATH_IMAGE006
为权重矩阵,tanh为双曲正切激活函数,
Figure DEST_PATH_IMAGE008
r经过softmax函数得到的权重,
Figure DEST_PATH_IMAGE010
为所有LSTM时间步输出的向量组成的矩阵,s为LSTM所有时间步输出对
Figure 236294DEST_PATH_IMAGE008
的加权和,也就是经过注意力机制后的视频表示。
优选地,所述步骤(4)的具体实现步骤是:
①设置三个全连接层,逐步对视频特征进行降维;
②利用梯度下降算法对网络的参数进行优化。
优选地,所述步骤(5)的具体实现步骤是:
①将一个视频输入到孪生网络的一路网络中,然后得到该视频对应的值为-1到+1的近似哈希码;
②然后通过量化将小于0的值量化为-1,其他值量化为+1,这样就得到该视频的哈希码;
③通过计算和其他视频哈希码之间的距离来对候选视频进行排序,得到最相近的视频。
上述方法首先对视频进行预处理,然后利用CNN提取视频中采样的帧的空间特征,再利用LSTM和注意力机制来获取视频的时序特征,最后通过全连接层来得到视频的哈希码。
本发明可以同时学取视频的空间信息和时序信息,并针对不同帧的重要性赋予不同帧不同的权重,大大提高了视频特征的表示能力。同时,采用抽样的方法降低了视频帧的数量,降低了计算代价。
附图说明
图1是本发明的步骤框架示意图。
图2是注意力机制示意图。
图3是在HMDB51数据集上的PR图:(a)哈希码长度为32的PR图,(b)哈希码长度为48的PR图,(c)哈希码长度为64的PR图。
表1是在HMDB51数据集上平均准确率(mean Average Precison,mAP)结果和准确率(precision)结果。
具体实施方式
下面结合附图对本发明加以详细的说明。
本发明的方法按图1所示流程,包括如下具体步骤:
(1)视频预处理
④对视频帧进行均匀采样,每个视频都均匀地抽取特定数量的视频帧;
⑤将每一帧都调整为相同大小的帧,例如将每一帧都调整为224*224大小;
⑥构建视频对,包括同类的样本对和不同类的样本对,同类视频对和不同类视频对的比例是1:1。构造视频对时,随机选择一个视频,然后从余下的视频中随机选取一个同类的视频,随机选取一个不同类的视频,这样可以构造一个正样本视频对和一个负样本视频对。
(2)视频帧特征提取
如图1,利用CNN网络(VGG19)对视频帧进行特征提取,取倒数第二层全连接输出的4096维特征作为每一帧的CNN特征。
(3)视频特征学习
如图1和图2,利用LSTM网络和注意力机制学习视频帧之间的时序信息,得到视频的特征表示。LSTM每个时间步都会产生一个输出。在本发明中,每个时间步代表一个视频帧,每个视频帧对应于LSTM每个时间步的输出。将每个时间步的输出拼接成一个向量,经过计算后可以得到每个时间步的权重,然后计算每个时间步输出的加权和。具体计算过程如下所示:
Figure DEST_PATH_IMAGE011
其中,
Figure 74806DEST_PATH_IMAGE004
为所有LSTM时间步输出的向量拼接成的向量,
Figure 261068DEST_PATH_IMAGE006
为权重矩阵,tanh为双曲正切激活函数,
Figure 187435DEST_PATH_IMAGE008
r经过softmax函数得到的权重,
Figure 454338DEST_PATH_IMAGE010
为所有LSTM时间步输出的向量组成的矩阵,s为LSTM所有时间步输出对
Figure 683325DEST_PATH_IMAGE008
的加权和,也就是经过注意力机制后的视频表示,如图2所示。
(4)降维和训练
对上一步得到的输出进行降维,如图1所示。对前面得到的1024维特征进行降维,经过三层全连接层,前两层维度分别为512和256,最后一层全连接层的维度为哈希码的长度。经过三层全连接层降维后,得到哈希码的维度。然后将两个视频得到的哈希码输入到损失函数中,计算损失,并用梯度下降算法优化网络参数。损失函数如下所示:
Figure DEST_PATH_IMAGE013
Figure DEST_PATH_IMAGE015
为间隔分类损失,
Figure DEST_PATH_IMAGE017
为位平衡损失,
Figure DEST_PATH_IMAGE019
为位不相关损失。其中,
Figure DEST_PATH_IMAGE021
为间隔,控制
Figure DEST_PATH_IMAGE023
的大小;
Figure DEST_PATH_IMAGE025
为训练样本经过神经网络得到的输出组成的矩阵;
Figure DEST_PATH_IMAGE027
为训练样本总数;βγ为超参数,
Figure DEST_PATH_IMAGE029
控制
Figure 236842DEST_PATH_IMAGE019
的大小,具体如下:
Figure DEST_PATH_IMAGE031
Figure 904583DEST_PATH_IMAGE023
为第
Figure DEST_PATH_IMAGE033
对视频对之间的损失,具体如下:
Figure DEST_PATH_IMAGE035
Figure DEST_PATH_IMAGE037
Figure 356818DEST_PATH_IMAGE037
为第i个视频和第j个视频经过网络得到的输出(第i个视频和第j个视频构成一个视频对),
Figure DEST_PATH_IMAGE039
为哈希码的长度,
Figure DEST_PATH_IMAGE041
为视频对的标签,若两个视频属于同一类,则
Figure DEST_PATH_IMAGE043
;否则,
Figure DEST_PATH_IMAGE045
之后计算损失,并利用梯度下降算法对网络参数进行学习。
(5)检索
此时网络已经训练完成。在进行检索时,只利用孪生网络中的一路网络,将一个视频输入到一路网络中,输出该视频对应的值为-1到+1的近似哈希码。然后通过量化将小于0的值量化为-1,其他值量化为+1,这样就得到该视频的哈希码。通过计算和其他视频哈希码之间的海明距离来对候选视频进行排序,得到最相近的视频。
表1
Figure DEST_PATH_IMAGE047

Claims (6)

1.一种基于注意力机制的视频哈希检索方法,其特征在于该方法包括以下步骤:
(1)视频预处理:对视频帧进行采样,并构建视频对,视频对包括同一类的视频对即正样本对和不同类的视频对即负样本对,同一类的视频对的标签为1,不同类的视频对标签为0;
(2)视频帧特征提取:将视频采样后的每一帧输入卷积神经网络VGG19,取倒数第二层全连接输出的特征作为每一帧的特征;
(3)利用孪生网络、长短期记忆神经网络LSTM和注意力机制对视频进行学习:将视频对中的两个视频分别输入孪生网络的两路神经网络,分别得到两个视频对应的视频特征表示,其中,孪生网络的两路神经网络是参数共享的,且每一路神经网络都是LSTM和注意力机制构成的网络,利用注意力机制,可以区别不同帧的重要性,不同帧被赋予不同的权重;
(4)降维和训练:利用全连接层对视频特征进行降维,得到想要长度的哈希码,并使用梯度下降算法学习网络参数;
(5)检索:当网络训练完成后进行检索时,只利用孪生网络中的一路网络,将一个视频输入到一路网络中,输出该视频对应的值为-1到+1的近似哈希码,然后通过量化得到该视频的哈希码,并通过计算该视频的哈希码与其他视频哈希码之间的海明距离对候选视频进行排序,得到最相近的视频。
2.如权利要求1所述的一种基于注意力机制的视频哈希检索方法,其特征在于:所述步骤(1)的具体实现步骤是:
①对视频帧进行均匀采样,每个视频都均匀地抽取特定数量的视频帧;
②将每一帧都调整为相同大小的帧;
③构建视频对,包括同类的样本对和不同类的样本对,同类视频对和不同类视频对的比例是1:1,构造视频对时,随机选择一个视频,然后从余下的视频中随机选取一个同类的视频,随机选取一个不同类的视频,这样可以构造一个正样本视频对和一个负样本视频对。
3.如权利要求1所述的一种基于注意力机制的视频哈希检索方法,其特征在于:所述步骤(2)的具体实现步骤是:
①对每一帧利用卷积神经网络进行特征提取,得到每一帧的特征;
②每一个视频用一个矩阵表示。
4.如权利要求1所述的一种基于注意力机制的视频哈希检索方法,其特征在于:所述步骤(3)的具体实现步骤是:
①构建孪生网络;
②将每个视频输入到长短期记忆神经网络LSTM中,得到每一个时间步的输出;
③利用注意力机制计算每一个时间步输出的向量的权重,并对每一个时间步得到的输出进行加权求和,得到视频的整体特征表示,具体实现方法为:LSTM每个时间步都会接收一个视频帧作为输入,并产生一个输出,将每个时间步产生的输出作为注意力机制的输入,通过计算得到每个时间步的权重,再对每个时间步的输出进行加权计算,得到最后的视频表示,计算过程如下:
h=[h1;h2;...;ht],
r=tanh(WTh+u),
α=softmax(r),
H=[h1,h2,...,ht],
s=Hα,
其中,h为所有LSTM时间步输出的向量拼接成的向量,W为权重矩阵,tanh为双曲正切激活函数,α为r经过softmax函数得到的权重,H为所有LSTM时间步输出的向量组成的矩阵,s为LSTM所有时间步输出对α的加权和,也就是经过注意力机制后的视频表示。
5.如权利要求1所述的一种基于注意力机制的视频哈希检索方法,其特征在于:所述步骤(4)的具体实现步骤是:
①设置三个全连接层,逐步对视频特征进行降维;
②利用梯度下降算法对网络的参数进行优化。
6.如权利要求1所述的一种基于注意力机制的视频哈希检索方法,其特征在于:所述步骤(5)的具体实现步骤是:
①将一个视频输入到孪生网络的一路网络中,然后得到该视频对应的值为-1到+1的近似哈希码;
②然后通过量化将小于0的值量化为-1,其他值量化为+1,这样就得到该视频的哈希码;
③通过计算和其他视频哈希码之间的距离来对候选视频进行排序,得到最相近的视频。
CN201911346339.6A 2019-12-24 2019-12-24 基于注意力机制的视频哈希检索方法 Active CN111104555B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911346339.6A CN111104555B (zh) 2019-12-24 2019-12-24 基于注意力机制的视频哈希检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911346339.6A CN111104555B (zh) 2019-12-24 2019-12-24 基于注意力机制的视频哈希检索方法

Publications (2)

Publication Number Publication Date
CN111104555A true CN111104555A (zh) 2020-05-05
CN111104555B CN111104555B (zh) 2023-07-07

Family

ID=70423658

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911346339.6A Active CN111104555B (zh) 2019-12-24 2019-12-24 基于注意力机制的视频哈希检索方法

Country Status (1)

Country Link
CN (1) CN111104555B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111831852A (zh) * 2020-07-07 2020-10-27 北京灵汐科技有限公司 一种视频检索方法、装置、设备及存储介质
CN112507990A (zh) * 2021-02-04 2021-03-16 北京明略软件系统有限公司 视频时空特征学习、抽取方法、装置、设备及存储介质
CN112668507A (zh) * 2020-12-31 2021-04-16 南京信息工程大学 基于混合神经网络与注意力机制的海杂波预测方法及系统
CN113177141A (zh) * 2021-05-24 2021-07-27 北湾科技(武汉)有限公司 基于语义嵌入软相似性的多标签视频哈希检索方法及设备
CN113627341A (zh) * 2021-08-11 2021-11-09 人民中科(济南)智能技术有限公司 一种视频样例比对的方法、系统、设备及存储介质
CN113742524A (zh) * 2021-08-11 2021-12-03 上海明略人工智能(集团)有限公司 视频快速检索方法、系统和视频快速推荐方法
CN113742525A (zh) * 2021-08-16 2021-12-03 上海明略人工智能(集团)有限公司 自监督视频哈希学习方法、系统、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980641A (zh) * 2017-02-09 2017-07-25 上海交通大学 基于卷积神经网络的无监督哈希快速图片检索系统及方法
CN109947963A (zh) * 2019-03-27 2019-06-28 山东大学 一种基于深度学习的多尺度哈希检索方法
CN110188227A (zh) * 2019-05-05 2019-08-30 华南理工大学 一种基于深度学习与低秩矩阵优化的哈希图像检索方法
CN110222140A (zh) * 2019-04-22 2019-09-10 中国科学院信息工程研究所 一种基于对抗学习和非对称哈希的跨模态检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980641A (zh) * 2017-02-09 2017-07-25 上海交通大学 基于卷积神经网络的无监督哈希快速图片检索系统及方法
CN109947963A (zh) * 2019-03-27 2019-06-28 山东大学 一种基于深度学习的多尺度哈希检索方法
CN110222140A (zh) * 2019-04-22 2019-09-10 中国科学院信息工程研究所 一种基于对抗学习和非对称哈希的跨模态检索方法
CN110188227A (zh) * 2019-05-05 2019-08-30 华南理工大学 一种基于深度学习与低秩矩阵优化的哈希图像检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JUN WANG: "Learning to Hash for Indexing Big DataVA Survey", 《IEEE》 *
刘惠: "基于哈希的视频快速检索技术研究", 《电脑知识与技术》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111831852A (zh) * 2020-07-07 2020-10-27 北京灵汐科技有限公司 一种视频检索方法、装置、设备及存储介质
WO2022007827A1 (zh) * 2020-07-07 2022-01-13 北京灵汐科技有限公司 一种视频检索方法、装置、设备及存储介质
US11734347B2 (en) 2020-07-07 2023-08-22 Lynxi Technologies Co., Ltd. Video retrieval method and apparatus, device and storage medium
CN111831852B (zh) * 2020-07-07 2023-11-24 北京灵汐科技有限公司 一种视频检索方法、装置、设备及存储介质
CN112668507A (zh) * 2020-12-31 2021-04-16 南京信息工程大学 基于混合神经网络与注意力机制的海杂波预测方法及系统
CN112507990A (zh) * 2021-02-04 2021-03-16 北京明略软件系统有限公司 视频时空特征学习、抽取方法、装置、设备及存储介质
CN113177141A (zh) * 2021-05-24 2021-07-27 北湾科技(武汉)有限公司 基于语义嵌入软相似性的多标签视频哈希检索方法及设备
CN113627341A (zh) * 2021-08-11 2021-11-09 人民中科(济南)智能技术有限公司 一种视频样例比对的方法、系统、设备及存储介质
CN113742524A (zh) * 2021-08-11 2021-12-03 上海明略人工智能(集团)有限公司 视频快速检索方法、系统和视频快速推荐方法
CN113627341B (zh) * 2021-08-11 2024-04-12 人民中科(济南)智能技术有限公司 一种视频样例比对的方法、系统、设备及存储介质
CN113742525A (zh) * 2021-08-16 2021-12-03 上海明略人工智能(集团)有限公司 自监督视频哈希学习方法、系统、电子设备及存储介质

Also Published As

Publication number Publication date
CN111104555B (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
CN111104555A (zh) 基于注意力机制的视频哈希检索方法
CN111581961B (zh) 一种中文视觉词汇表构建的图像内容自动描述方法
CN110222218B (zh) 基于多尺度NetVLAD和深度哈希的图像检索方法
Murray et al. A deep architecture for unified aesthetic prediction
CN111506773B (zh) 一种基于无监督深度孪生网络的视频去重方法
CN111526434B (zh) 基于转换器的视频摘要方法
CN109783691B (zh) 一种深度学习和哈希编码的视频检索方法
CN111460979A (zh) 一种基于多层时空框架的关键镜头视频摘要方法
Jiang et al. Comprehensive video understanding: Video summarization with content-based video recommender design
CN114911958B (zh) 一种基于语义偏好的快速图像检索方法
CN111460961A (zh) 一种基于cdvs的相似图聚类的静态视频摘要方法
CN110321805B (zh) 一种基于时序关系推理的动态表情识别方法
CN111984791B (zh) 一种基于注意力机制的长文分类方法
CN109933682B (zh) 一种基于语义与内容信息结合的图像哈希检索方法及系统
CN111242033A (zh) 一种基于视频和文字对判别分析的视频特征学习方法
CN112434553A (zh) 一种基于深度字典学习的视频鉴别方法及系统
CN115712740B (zh) 多模态蕴含增强图像文本检索的方法和系统
CN112712127A (zh) 一种结合图卷积神经网络的图像情感极性分类方法
CN110347853B (zh) 一种基于循环神经网络的图像哈希码生成方法
CN110442741B (zh) 一种基于张量融合和重排序的跨模态图文互搜方法
CN109241315B (zh) 一种基于深度学习的快速人脸检索方法
CN111079011A (zh) 一种基于深度学习的信息推荐方法
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
CN113420179B (zh) 基于时序高斯混合空洞卷积的语义重构视频描述方法
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant