CN115017366B - 基于多粒度语境化和多结构保存的无监督视频哈希检索方法 - Google Patents

基于多粒度语境化和多结构保存的无监督视频哈希检索方法 Download PDF

Info

Publication number
CN115017366B
CN115017366B CN202210810931.2A CN202210810931A CN115017366B CN 115017366 B CN115017366 B CN 115017366B CN 202210810931 A CN202210810931 A CN 202210810931A CN 115017366 B CN115017366 B CN 115017366B
Authority
CN
China
Prior art keywords
dimension
feature
module
characteristic
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210810931.2A
Other languages
English (en)
Other versions
CN115017366A (zh
Inventor
郝艳宾
段敬儒
何向南
周鹏远
王硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202210810931.2A priority Critical patent/CN115017366B/zh
Publication of CN115017366A publication Critical patent/CN115017366A/zh
Application granted granted Critical
Publication of CN115017366B publication Critical patent/CN115017366B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多粒度语境化和多结构保存的无监督视频哈希方法,其步骤包括:1、视频数据集的准备及处理;2、构建哈希检索网络;3、网络的训练及测试。本发明能从原始视频数据捕获更多有用信息,去除冗余信息,并将视频数据之间的内在语义结构信息保存到哈希码中,从而能实现低复杂度开销和高检索精度的视频检索。

Description

基于多粒度语境化和多结构保存的无监督视频哈希检索方法
技术领域
本发明涉及深度学习领域,更具体地,涉及一种无监督哈希方法,用于视频数据之间的语义相似性检索。
背景技术
在当下多媒体时代,视频数据越来越丰富,大规模视频检索技术日益重要。哈希是一种产生低维度、紧凑二进制码来传达数据信息的技术,哈希具有低存储、高匹配速度等优点,被广泛用于实时检索、数据检索等。由于视频内容更加丰富和复杂,视频数据量巨大并且快速增长使得人工标成为一种巨大开销,因此无监督的视频哈希技术变得更具挑战性并越来越受到研究关注。无监督哈希技术是需要将高维数据映射到低维的哈希码,这必定会带来信息损失,如何去更好地捕捉高维数据中内在的有用信息,将它保存到低维的哈希码中,是现在技术的共识。
针对现有的无监督哈希技术,存在的问题可以总结如下:
1)基于LSTM的视频哈希技术来对时间关系进行编码的方法,由于循环神经网络必须一帧一帧的处理帧序列,缺乏对整个视频内容的全局感知,或多或少的关注其不重要的内容影响其模型性能。基于Transformer的视频哈希技术克服了基于LSTM的这种循环神经网络的不足,但是由于Transformer网络的框架过于庞大,会极大增加模型的复杂度以及计算的复杂度,不利于节能和进行可持续发展。此外,循环神经网络和Transformer都关注特定的相关性或依赖性,可能在处理复杂视频内容方面能力不足。
2)基于近似视频的相关结构并保存到哈希空间的方法,和基于邻域相似结构的哈希方法,在一定程度上可以探索数据的相关结构信息,然而基于一种或两种类型的结构来完全表达相关结构并非是一件容易的事情。因此,完整的探索结构信息仍然是无监督视频哈希技术的一个难点。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于多粒度语境化和多结构保存的无监督视频哈希检索方法,以期能从原始视频数据捕获更多有用信息,去除冗余信息,并将视频数据之间的内在语义结构信息保存到哈希码中,从而能实现低复杂度开销和高检索精度的视频检索。
本发明为达到上述发明目的,采用如下技术方案:
本发明一个基于多粒度语境化和多结构保存的无监督视频哈希检索方法的特点在于,包括:
步骤1、获取N个不同类别的运动视频,对每个运动视频均抽取F帧,从而得到抽取后的N×F帧运动图像,将N×F帧运动图像通过预训练的网络框架VGG-16进行处理,并得到每一帧对应的C维特征向量,从而得到维度为N×F×C的输入特征其中 表示第i个运动视频的输入特征,且其维度为F×C;/>表示第i个运动视频的第f帧运动图像的输入特征,且其维度为C;
步骤2、构建哈希检索网络,包括:两个全连接层FC、两个MLP模块、三个LMS模块;其中,每个LMS模块均包括:L-RD模块,M-RD模块和S-RD模块;
步骤2.1、所述输入特征V通过第一个全连接层FC(C,D)将维度C降到维度D后,再通过ReLU(·)激活函数,得到维度为N×F×D的特征X1
步骤2.2、对特征X1先做转置变换后输入第一MLP模块中进行处理,得到维度为N×D×F的特征X2,再同时通过第一个LMS模块中的L-RD模块,M-RD模块和S-RD模块的处理,并将三个模块的输出结果相加后再做转置变换得到维度为N×F×D的特征X3,再将特征X1和特征X3相加后得到特征X4
对特征X4先通过第二MLP模块的处理后输出的结果,再同时通过第二个LMS模块中的L-RD模块,M-RD模块和S-RD模块的处理,并将三个模块的输出结果相加后得到特征X5;再将特征X4和特征X5相加后得到特征X6
所述特征X6同时通过第三个LMS模块中的L-RD模块,M-RD模块和S-RD模块的处理,并将三个模块的输出结果相加后得到维度N×F×D的隐层特征其中, 表示第i个运动视频的隐层特征,且其维度为F×D;/>表示第i个运动视频的第f帧运动图像的隐层特征,且其维度为D;
步骤2.3、所述隐层特征E通过第二个全连接层FC(D,K)将维度D降到维度K,从而得到维度为N×F×K的真值特征其中,/>表示第i个运动视频的真值特征,且其维度为F×K;/>表示第i个运动视频的第f帧运动图像的真值特征,且其维度为K;
步骤2.4、通过式(1)得到第i个运动视频的真值特征Hi所对应的维度为K的松弛哈希码
式(1)中,Tanh(·)为激活函数;
步骤2.5、通过式(2)得到松弛哈希码所对应的维度为K的哈希码bi
式(3)中,Sgn(·)为符号函数;
步骤3、对输入特征V通过平均池化后得到维度为N×C的视频平均特征,再通过K-means算法对视频平均特征进行聚类,得到维度为M×C的聚类中心uj表示第j个聚类中心;
步骤4、对第i个隐层特征Ei通过平均池化后得到维度为D的特征通过PCA算法将特征/>的维度C降到维度D,并通过式(2)计算聚类损失Lcluster
式(2)中,为距离/>最近的聚类中心;
步骤5、对第i个输入特征Vi通过平均池化后得到维度为C的特征并通过式(3)得到维度为N×M的矩阵P:
式(3)中,Pi,j表示P中的第i行第j列的值,σ为带宽参数,为距离/>最近的m个聚类中心,/>为距离/>最近的第j个聚类中心,/>为距离/>最近的第c个聚类中心;
步骤10、通过式(4)和式(5)分别得到维度为N×N矩阵A和维度为N×N矩阵A':
A=PΛ-1PT (4)
式(4)中,Λ表示取矩阵P对角值的对角矩阵,A'ij表示A'中的第i行第j列的值,Aij表示A中的第i行第j列的值;
步骤11、设置聚类中心的个数m分别为三个不同的取值,从而得到三个不同的矩阵A'(1),A'(2),A'(3),并通过式(6)得到维度为N×N矩阵S:
式(6)中,Sij表示S中的第i行第j列的值;
步骤12、根据松弛哈希码和哈希码bi,通过式(7)计算邻域相似损失Lsim
式(7)中,为第j个运动视频的松弛哈希码,θ为超参数;
步骤13、根据松弛哈希码通过式(8)计算四元组损失Lquad
式(8)中,为第j个运动视频的松弛哈希码,/>为第k个运动视频的松弛哈希码,为第l个运动视频的松弛哈希码;/>的选取同时满足条件Sij=1,Sil=-1,Sik=-1,Slk=-1,其中,Sij表示S中的第i行第j列的值,Sil表示S中的第i行第l列的值,Sik表示S中的第i行第k列的值,Slk表示S中的第l行第k列的值,α1,α2是超参数;
步骤14、通过式(9)得到总体目标函数Lall,并利用梯度下降法对哈希检索网络进行训练,使得总体目标函数Lall的参数不断交替迭代更新,直到总体目标函数Lall收敛或者达到迭代次数为止,从而得到训练好的哈希检索网络;
Lall=αLcluster+βLsim+γLquad (9)
式(9)中,α,β,γ是超参数;
步骤15、将待查询的运动视频与数据库中的运动视频分别输入训练好的哈希检索网络中进行处理,并得到查询哈希码与数据库哈希码,计算查询哈希码和数据库哈希码之间的汉明距离,再将数据库中的运动视频按照汉明距离进行升序排序,并作为最终的检索结果。
本发明所述的基于多粒度语境化和多结构保存的无监督视频哈希检索方法的特点也在于,任意一个MLP模块是对所输入的三维特征,通过一个全连接层和GELU(·)激活函数,将三维特征的第三维度变为2倍,再输入一个全连接层中,将三维特征的第三维度变为原来的维度。
任意一个L-RD模块是按如下步骤进行处理:
步骤2.2.1、对维度为D1×D2的特征,通过一个全连接层FC(D1,D1),得到维度为D1×D2的特征X,所述特征X通过一维平均池化函数AvgPool1d(D1),将维度变为1×D2后,再输入一个全连接层FC(D2,D2/r)和激活函数ReLU(·)中,得到维度为1×D2/r的特征Y,所述特征Y再通过一个全连接层FC(D2/r,D2)和激活函数Sigmoid(·),将维度变为1×D2后,得到的特征再复制扩充为维度为D1×D2的特征G,将特征X与特征G做哈达玛积得到维度为D1×D2的特征Z,最后所述特征Z再通过一个全连接层FC(D1,D1)得到输出。
任意一个M-RD模块是按如下步骤进行处理:
步骤2.2.2、对维度为D1×D2的特征,通过一个全连接层FC(D1,D1),得到维度为D1×D2的特征X,所述特征X再通过一维平均池化函数AvgPool1d(3),将维度变为D1/3×D2后,再输入一个一维卷积Cov1d(D2,D2/r)和激活函数ReLU(·)中,得到维度为D1/3×D2/r的特征Y,所述特征Y再通过一个一维卷积Cov1d(D2/r,D2)和激活函数Sigmoid(·),将维度变为D1/3×D2后,得到的特征再下采样扩充为维度为D1×D2的特征G,将特征X与特征G做哈达玛积得到维度为D1×D2的特征Z,最后所述特征Z再通过一个全连接层FC(D1,D1)得到输出。
任意一个S-RD模块是按如下步骤进行处理:
步骤2.2.3、对维度为D1×D2的特征,通过一个全连接层FC(D1,D1),得到维度为D1×D2的特征X,所述特征X通过一个一维卷积Cov1d(D2,D2/r)和激活函数ReLU(·),得到维度为D1×D2/r的特征Y,所述特征Y再通过一个一维卷积Cov1d(D2/r,D2)和激活函数Sigmoid(·),得到维度为D1×D2的特征G,将特征X与特征G做哈达玛积得到维度为D1×D2的特征Z,最后所述特征Z再通过一个全连接层FC(D1,D1)得到输出。
与现有技术相比,本发明的有益效果在于:
1、本发明使用无监督技术,在多层感知机的混合器(MLP-Mixer)的基础上设计三种不同粒度的门控模块以及三种互补的结构保存方法,提高了检索精度的同时,降低了计算复杂度,节省了大量的人力、物力资源。
2、本发明设计的哈希检索网络是在多层感知机的混合器(MLP-Mixer)的基础上,融合了三个不同粒度的门控模块L-RD模块,M-RD模块和S-RD模块,使得网络更好地在高维视频数据之间交互,在映射到的低维哈希码中更多地保留原始高维数据的特征信息,可以提升哈希视频检索的检索精度并降低计算复杂度。
3、本发明设计的结构保存方法是采用了聚类损失,邻域相似损失和四元组损失,三个结构保存方法互补,聚类损失减少类内距离,邻域相似损失增加类间距离,四元组损失可以完成较大的类间距和较小的类内距,三个损失函数结合更好地捕捉高维视频数据之间内在的结构联系,将其尽可能完整地保存在汉明空间中,可以更进一步提升哈希视频检索的检索精度。
附图说明
图1为本发明一种视频哈希检索方法的流程图;
图2为本发明一种哈希检索网络的整体模型结构示意图;
图3a为本发明一种哈希检索网络中L-RD模块的模型结构示意图;
图3b为本发明一种哈希检索网络中M-RD模块的模型结构示意图;
图3c为本发明一种哈希检索网络中S-RD模块的模型结构示意图;
图3d为本发明一种哈希检索网络中MLP模块的模型结构示意图。
具体实施方式
本实施例中,一个基于多粒度语境化和多结构保存的无监督视频哈希检索方法,是采用了三个不同大小的数据集来验证方法的有效性,本实施例中仅使用FCVID数据集进行展示,FCVID数据集包含91,223个运动视频数据分为239个类别,其中45,585个视频用于训练,45,600个视频用于测试,对每个视频都均匀采样25帧。如图1所示:整个流程可以具体分为以下几个步骤:
步骤1、获取N个不同类别的运动视频,对每个运动视频均抽取F帧,从而得到抽取后的N×F帧运动图像,这里得到91,223×25帧运动图像,将N×F帧运动图像通过预训练的网络框架VGG-16进行处理,并得到每一帧对应的C维特征向量,每一帧得到4096维特征向量,从而得到维度为N×F×C的输入特征其中/>表示第i个运动视频的输入特征,且其维度为F×C;/>表示第i个运动视频的第f帧运动图像的输入特征,且其维度为C;
步骤2、构建哈希检索网络,如图2所示,包括:两个全连接层FC、两个MLP模块、三个LMS模块;其中,每个LMS模块均包括:L-RD模块,M-RD模块和S-RD模块;各个模块结构如图3a-3d所示,每个模块的结构相同,下面举例说明每个模块处理的具体步骤:
如图3d所示,任意一个MLP模块是对所输入的三维特征,通过一个全连接层和GELU(·)激活函数,将三维特征的第三维度变为2倍,再输入一个全连接层中,将三维特征的第三维度变为原来的维度;
如图3a所示,举例说明L-RD模块是按如下步骤进行处理:
对维度为D1×D2的特征,通过一个全连接层FC(D1,D1),得到维度为D1×D2的特征X,所述特征X通过一维平均池化函数AvgPool1d(D1),将维度变为1×D2后,再输入一个全连接层FC(D2,D2/r)和激活函数ReLU(·)中,得到维度为1×D2/r的特征Y,所述特征Y再通过一个全连接层FC(D2/r,D2)和激活函数Sigmoid(·),将维度变为1×D2后,得到的特征再复制扩充为维度为D1×D2的特征G,将特征X与特征G做哈达玛积得到维度为D1×D2的特征Z,最后所述特征Z再通过一个全连接层FC(D1,D1)得到输出;
如图3b所示,举例说明M-RD模块是按如下步骤进行处理:
对维度为D1×D2的特征,通过一个全连接层FC(D1,D1),得到维度为D1×D2的特征X,所述特征X再通过一维平均池化函数AvgPool1d(3),将维度变为D1/3×D2后,再输入一个一维卷积Cov1d(D2,D2/r)和激活函数ReLU(·)中,得到维度为D1/3×D2/r的特征Y,所述特征Y再通过一个一维卷积Cov1d(D2/r,D2)和激活函数Sigmoid(·),将维度变为D1/3×D2后,得到的特征再下采样扩充为维度为D1×D2的特征G,将特征X与特征G做哈达玛积得到维度为D1×D2的特征Z,最后所述特征Z再通过一个全连接层FC(D1,D1)得到输出;
如图3c所示,举例说明S-RD模块是按如下步骤进行处理:
对维度为D1×D2的特征,通过一个全连接层FC(D1,D1),得到维度为D1×D2的特征X,所述特征X通过一个一维卷积Cov1d(D2,D2/r)和激活函数ReLU(·),得到维度为D1×D2/r的特征Y,所述特征Y再通过一个一维卷积Cov1d(D2/r,D2)和激活函数Sigmoid(·),得到维度为D1×D2的特征G,将特征X与特征G做哈达玛积得到维度为D1×D2的特征Z,最后所述特征Z再通过一个全连接层FC(D1,D1)得到输出;
步骤2.1、输入特征V通过第一个全连接层FC(C,D)将维度C降到维度D后,再通过ReLU(·)激活函数,得到维度为N×F×D的特征X1,这里为了减少计算量,将4096维度特征降到256维;
步骤2.2、对特征X1先做转置变换后输入第一MLP模块中进行处理,得到维度为N×D×F的特征X2,再同时通过第一个LMS模块中的L-RD模块,M-RD模块和S-RD模块的处理,并将三个模块的输出结果相加后再做转置变换得到维度为N×F×D的特征X3,再将特征X1和特征X3相加后得到特征X4
对特征X4先通过第二MLP模块的处理后输出的结果,再同时通过第二个LMS模块中的L-RD模块,M-RD模块和S-RD模块的处理,并将三个模块的输出结果相加后得到特征X5;再将特征X4和特征X5相加后得到特征X6
特征X6同时通过第三个LMS模块中的L-RD模块,M-RD模块和S-RD模块的处理,并将三个模块的输出结果相加后得到维度N×F×D的隐层特征其中,/> 表示第i个运动视频的隐层特征,且其维度为F×D;/>表示第i个运动视频的第f帧运动图像的隐层特征,且其维度为D,各个模块可以使输入特征V很好地融合不同轴向的信息,获得表征能力很好的隐层特征E;
步骤2.3、隐层特征E通过第二个全连接层FC(D,K)将维度D降到维度K,从而得到维度为N×F×K的真值特征其中,/>表示第i个运动视频的真值特征,且其维度为F×K;/>表示第i个运动视频的第f帧运动图像的真值特征,且其维度为K,这里应用最简单的全连接层将隐层特征E维度降到与哈希码的长度值保持一致,得到真值特征;
步骤2.4、通过式(1)得到第i个运动视频的真值特征Hi所对应的维度为K的松弛哈希码
式(1)中,Tanh(·)为激活函数;
步骤2.5、通过式(2)得到松弛哈希码所对应的维度为K的哈希码bi
式(3)中,Sgn(·)为符号函数;
步骤3、对输入特征V通过平均池化后得到维度为N×C的视频平均特征,再通过K-means算法对视频平均特征进行聚类,得到维度为M×C的聚类中心uj表示第j个聚类中心;
步骤4、对第i个隐层特征Ei通过平均池化后得到维度为D的特征通过PCA算法将特征/>的维度C降到维度D,这里降维度是为了和隐层特征E维度保持一致,并通过式(2)计算聚类损失Lcluster
式(2)中,为距离/>最近的聚类中心;
步骤5、对第i个输入特征Vi通过平均池化后得到维度为C的特征并通过式(3)得到维度为N×M的矩阵P:
式(3)中,Pi,j表示P中的第i行第j列的值,σ为带宽参数,为距离/>最近的m个聚类中心,/>为距离/>最近的第j个聚类中心,/>为距离/>最近的第c个聚类中心;
步骤10、通过式(4)和式(5)分别得到维度为N×N矩阵A和维度为N×N矩阵A':
A=PΛ-1PT (4)
式(4)中,Λ表示取矩阵P对角值的对角矩阵,A'ij表示A'中的第i行第j列的值,Aij表示A中的第i行第j列的值;
步骤11、设置聚类中心的个数m分别为三个不同的取值,从而得到三个不同的矩阵A'(1),A'(2),A'(3),设置不同的m值是为了区分一些边界位置的假相似性带来的歧义,并通过式(6)得到维度为N×N矩阵S:
式(6)中,Sij表示S中的第i行第j列的值;
步骤12、根据松弛哈希码和哈希码bi,通过式(7)计算邻域相似损失Lsim
式(7)中,为第j个运动视频的松弛哈希码,θ为超参数;
步骤13、根据松弛哈希码通过式(8)计算四元组损失Lquad
式(8)中,为第j个运动视频的松弛哈希码,/>为第k个运动视频的松弛哈希码,为第l个运动视频的松弛哈希码;/>的选取需要同时满足这四个条件Sij=1,Sil=-1,Sik=-1,Slk=-1,其中Sij表示S中的第i行第j列的值,Sil表示S中的第i行第l列的值,Sik表示S中的第i行第k列的值,Slk表示S中的第l行第k列的值,α1,α2是超参数,这里选取的松弛哈希码/>和/>是语义相似的(Sij=1),其他成对的松弛哈希码均是语义不相似的(Sij=-1);
步骤14、通过式(9)得到总体目标函数Lall,并利用梯度下降法对哈希检索网络进行训练,使得总体目标函数Lall的参数不断交替迭代更新,直到总体目标函数Lall收敛或者达到迭代次数为止,从而得到训练好的哈希检索网络;
Lall=αLcluster+βLsim+γLquad (9)
式(9)中,α,β,γ是超参数;
步骤15、将待查询的运动视频与数据库中的运动视频分别输入训练好的哈希检索网络中进行处理,并得到查询哈希码与数据库哈希码,计算查询哈希码和数据库哈希码之间的汉明距离,再将数据库中的运动视频按照汉明距离进行升序排序,并作为最终的检索结果。
为了说明本发明的有效性,通过进行了如下实验进行了验证。
实验在三个视频数据集上进行了实验,这里选取其中FCVID作为展示,以前k个检索结果的平均检索精度(mAP@k)作为评价指标。且设计了消融实验,从而验证了设计单元的有效性。
实验分为如下几个部分:
1)不同粒度的门控模块对模型性能的影响,其结果如表1所示。
表1不同粒度的门控模块的性能比较
本发明验证所提出的三个不同粒度的门控模块的影响,在64位哈希码的设置下进行了消融实验,表1展示了单个模块和三个模块组合以及多层感知机混合器(MLP-Mixer)之间的不同,可以通过数据看出,本发明所提出的门控模块都可以改进基础的多层感知机混合器,表明其有效性,此外,与单个模块相比,并行组合三个模块可以实现更好的性能。
2)不同的结构保存模块对模型性能的影响,其结果如表2所示。
表2不同的结构保存模块的性能比较
表2中,本发明通过单个类型的结构与三个结合的相比较,在64位哈希码的设置下进行了消融实验,三个组合的结果超过单一的结构,可以看出这三种结构侧重于不同的数据结构模式,即反映视频之间成对相似性的邻域,反映整个样本的群组特征的聚类捕获统计信息,以及促进高类内紧凑性和类间的类间/类内变化可分离性(排名顺序),这证明这三种使用的结构是互补的,并且可以协同工作以学习更具区分性的哈希码。
3)与基于Transformer的视频哈希的对比
Method Param. FLOPs AverageEncodingTime
BTH 3.17M 0.05G 0.53ms
MCMSH 1.76M 0.05G 0.47ms
表3与基于Transformer的方法的比较
表3中,本发明与最具竞争力的基于Transformer的视频哈希方法BTH进行了比较,Param.表示参数数量,FLOPS表示计算复杂度,AverageEncodingTime表示平均编码时间,在64位哈希码的设置下进行了比较实验,本发明的性能是领先于BTH的,在性能领先的同时,参数量几乎是BTH的一半,本发明的计算复杂度和BTH的基本持平,另外,本发明在编码时间上也是快于BTH。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (2)

1.一个基于多粒度语境化和多结构保存的无监督视频哈希检索方法,其特征在于,包括:
步骤1、获取N个不同类别的运动视频,对每个运动视频均抽取F帧,从而得到抽取后的N×F帧运动图像,将N×F帧运动图像通过预训练的网络框架VGG-16进行处理,并得到每一帧对应的C维特征向量,从而得到维度为N×F×C的输入特征其中/> 表示第i个运动视频的输入特征,且其维度为F×C;/>表示第i个运动视频的第f帧运动图像的输入特征,且其维度为C;
步骤2、构建哈希检索网络,包括:两个全连接层FC、两个MLP模块、三个LMS模块;其中,每个LMS模块均包括:L-RD模块,M-RD模块和S-RD模块;
步骤2.1、所述输入特征V通过第一个全连接层FC(C,D)将维度C降到维度D后,再通过ReLU(·)激活函数,得到维度为N×F×D的特征X1
步骤2.2、对特征X1先做转置变换后输入第一MLP模块中进行处理,得到维度为N×D×F的特征X2,再同时通过第一个LMS模块中的L-RD模块,M-RD模块和S-RD模块的处理,并将三个模块的输出结果相加后再做转置变换得到维度为N×F×D的特征X3,再将特征X1和特征X3相加后得到特征X4
对特征X4先通过第二MLP模块的处理后输出的结果,再同时通过第二个LMS模块中的L-RD模块,M-RD模块和S-RD模块的处理,并将三个模块的输出结果相加后得到特征X5;再将特征X4和特征X5相加后得到特征X6
所述特征X6同时通过第三个LMS模块中的L-RD模块,M-RD模块和S-RD模块的处理,并将三个模块的输出结果相加后得到维度N×F×D的隐层特征其中,/> 表示第i个运动视频的隐层特征,且其维度为F×D;/>表示第i个运动视频的第f帧运动图像的隐层特征,且其维度为D;
任意一个L-RD模块是对维度为D1×D2的特征,通过一个全连接层FC(D1,D1),得到维度为D1×D2的特征X,所述特征X通过一维平均池化函数AvgPool1d(D1),将维度变为1×D2后,再输入一个全连接层FC(D2,D2/r)和激活函数ReLU(·)中,得到维度为1×D2/r的特征Y,所述特征Y再通过一个全连接层FC(D2/r,D2)和激活函数Sigmoid(·),将维度变为1×D2后,得到的特征再复制扩充为维度为D1×D2的特征G,将特征X与特征G做哈达玛积得到维度为D1×D2的特征Z,最后所述特征Z再通过一个全连接层FC(D1,D1)得到输出;
任意一个M-RD模块是对维度为D1×D2的特征,通过一个全连接层FC(D1,D1),得到维度为D1×D2的特征X,所述特征X再通过一维平均池化函数AvgPool1d(3),将维度变为D1/3×D2后,再输入一个一维卷积Cov1d(D2,D2/r)和激活函数ReLU(·)中,得到维度为D1/3×D2/r的特征Y,所述特征Y再通过一个一维卷积Cov1d(D2/r,D2)和激活函数Sigmoid(·),将维度变为D1/3×D2后,得到的特征再下采样扩充为维度为D1×D2的特征G,将特征X与特征G做哈达玛积得到维度为D1×D2的特征Z,最后所述特征Z再通过一个全连接层FC(D1,D1)得到输出;
任意一个S-RD模块是对维度为D1×D2的特征,通过一个全连接层FC(D1,D1),得到维度为D1×D2的特征X,所述特征X通过一个一维卷积Cov1d(D2,D2/r)和激活函数ReLU(·),得到维度为D1×D2/r的特征Y,所述特征Y再通过一个一维卷积Cov1d(D2/r,D2)和激活函数Sigmoid(·),得到维度为D1×D2的特征G,将特征X与特征G做哈达玛积得到维度为D1×D2的特征Z,最后所述特征Z再通过一个全连接层FC(D1,D1)得到输出;
步骤2.3、所述隐层特征E通过第二个全连接层FC(D,K)将维度D降到维度K,从而得到维度为N×F×K的真值特征其中,/>表示第i个运动视频的真值特征,且其维度为F×K;/>表示第i个运动视频的第f帧运动图像的真值特征,且其维度为K;
步骤2.4、通过式(1)得到第i个运动视频的真值特征Hi所对应的维度为K的松弛哈希码
式(1)中,Tanh(·)为激活函数;
步骤2.5、通过式(2)得到松弛哈希码所对应的维度为K的哈希码bi
式(3)中,Sgn(·)为符号函数;
步骤3、对输入特征V通过平均池化后得到维度为N×C的视频平均特征,再通过K-means算法对视频平均特征进行聚类,得到维度为M×C的聚类中心uj表示第j个聚类中心;
步骤4、对第i个隐层特征Ei通过平均池化后得到维度为D的特征通过PCA算法将特征的维度C降到维度D,并通过式(2)计算聚类损失Lcluster
式(2)中,为距离/>最近的聚类中心;
步骤5、对第i个输入特征Vi通过平均池化后得到维度为C的特征并通过式(3)得到维度为N×M的矩阵P:
式(3)中,Pi,j表示P中的第i行第j列的值,σ为带宽参数,为距离/>最近的m个聚类中心,/>为距离/>最近的第j个聚类中心,/>为距离/>最近的第c个聚类中心;
步骤10、通过式(4)和式(5)分别得到维度为N×N矩阵A和维度为N×N矩阵A′:
A=PΛ-1PT (4)
式(4)中,Λ表示取矩阵P对角值的对角矩阵,A′ij表示A′中的第i行第j列的值,Aij表示A中的第i行第j列的值;
步骤11、设置聚类中心的个数m分别为三个不同的取值,从而得到三个不同的矩阵A′(1),A′(2),A′(3),并通过式(6)得到维度为N×N矩阵S:
式(6)中,Sij表示S中的第i行第j列的值;
步骤12、根据松弛哈希码和哈希码bi,通过式(7)计算邻域相似损失Lsim
式(7)中,为第j个运动视频的松弛哈希码,θ为超参数;
步骤13、根据松弛哈希码通过式(8)计算四元组损失Lquad
式(8)中,为第j个运动视频的松弛哈希码,/>为第k个运动视频的松弛哈希码,/>为第l个运动视频的松弛哈希码;/>的选取同时满足条件Sij=1,Sil=-1,Sik=-1,Slk=-1,其中,Sij表示S中的第i行第j列的值,Sil表示S中的第i行第l列的值,Sik表示S中的第i行第k列的值,Slk表示S中的第l行第k列的值,α1,α2是超参数;
步骤14、通过式(9)得到总体目标函数Lall,并利用梯度下降法对哈希检索网络进行训练,使得总体目标函数Lall的参数不断交替迭代更新,直到总体目标函数Lall收敛或者达到迭代次数为止,从而得到训练好的哈希检索网络;
Lall=αLcluster+βLsim+γLquad (9)
式(9)中,α,β,γ是超参数;
步骤15、将待查询的运动视频与数据库中的运动视频分别输入训练好的哈希检索网络中进行处理,并得到查询哈希码与数据库哈希码,计算查询哈希码和数据库哈希码之间的汉明距离,再将数据库中的运动视频按照汉明距离进行升序排序,并作为最终的检索结果。
2.根据权利要求1所述的基于多粒度语境化和多结构保存的无监督视频哈希检索方法,其特征在于,任意一个MLP模块是对所输入的三维特征,通过一个全连接层和GELU(·)激活函数,将三维特征的第三维度变为2倍,再输入一个全连接层中,将三维特征的第三维度变为原来的维度。
CN202210810931.2A 2022-07-11 2022-07-11 基于多粒度语境化和多结构保存的无监督视频哈希检索方法 Active CN115017366B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210810931.2A CN115017366B (zh) 2022-07-11 2022-07-11 基于多粒度语境化和多结构保存的无监督视频哈希检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210810931.2A CN115017366B (zh) 2022-07-11 2022-07-11 基于多粒度语境化和多结构保存的无监督视频哈希检索方法

Publications (2)

Publication Number Publication Date
CN115017366A CN115017366A (zh) 2022-09-06
CN115017366B true CN115017366B (zh) 2024-04-02

Family

ID=83080218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210810931.2A Active CN115017366B (zh) 2022-07-11 2022-07-11 基于多粒度语境化和多结构保存的无监督视频哈希检索方法

Country Status (1)

Country Link
CN (1) CN115017366B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116128846B (zh) * 2023-02-01 2023-08-22 南通大学 一种面向肺部X-ray图像检索的视觉Transformer哈希方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737135A (zh) * 2012-07-10 2012-10-17 北京大学 基于变形敏感的软级联模型的视频拷贝检测方法及系统
WO2017092183A1 (zh) * 2015-12-03 2017-06-08 中山大学 一种基于可变长深度哈希学习的图像检索方法
CN109919084A (zh) * 2019-03-06 2019-06-21 南京大学 一种基于深度多索引哈希的行人重识别方法
WO2020147857A1 (zh) * 2019-01-18 2020-07-23 上海极链网络科技有限公司 海量视频特征提取以及存储和检索方法及系统
CN111753060A (zh) * 2020-07-29 2020-10-09 腾讯科技(深圳)有限公司 信息检索方法、装置、设备及计算机可读存储介质
CN112199533A (zh) * 2020-10-15 2021-01-08 华中科技大学 一种基于节点表征的无监督深度哈希模型训练方法及图像检索方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737135A (zh) * 2012-07-10 2012-10-17 北京大学 基于变形敏感的软级联模型的视频拷贝检测方法及系统
WO2017092183A1 (zh) * 2015-12-03 2017-06-08 中山大学 一种基于可变长深度哈希学习的图像检索方法
WO2020147857A1 (zh) * 2019-01-18 2020-07-23 上海极链网络科技有限公司 海量视频特征提取以及存储和检索方法及系统
CN109919084A (zh) * 2019-03-06 2019-06-21 南京大学 一种基于深度多索引哈希的行人重识别方法
CN111753060A (zh) * 2020-07-29 2020-10-09 腾讯科技(深圳)有限公司 信息检索方法、装置、设备及计算机可读存储介质
CN112199533A (zh) * 2020-10-15 2021-01-08 华中科技大学 一种基于节点表征的无监督深度哈希模型训练方法及图像检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于欧氏距离双比特嵌入哈希的图像检索;李蕾;岑翼刚;赵瑞珍;崔丽鸿;王艳红;;应用科学学报;20170330(02);全文 *
基于深度卷积神经网络与哈希的图像检索;冯兴杰;程毅玮;;计算机工程与设计;20200316(03);全文 *

Also Published As

Publication number Publication date
CN115017366A (zh) 2022-09-06

Similar Documents

Publication Publication Date Title
Gholamalinezhad et al. Pooling methods in deep neural networks, a review
CN111428073B (zh) 一种深度监督量化哈希的图像检索方法
CN112307995B (zh) 一种基于特征解耦学习的半监督行人重识别方法
CN111858991A (zh) 一种基于协方差度量的小样本学习算法
Ding et al. Where to prune: Using LSTM to guide data-dependent soft pruning
Qian et al. Double constrained NMF for partial multi-view clustering
Zhou et al. Exploiting operation importance for differentiable neural architecture search
Sun et al. Combining the kernel collaboration representation and deep subspace learning for facial expression recognition
CN113034414B (zh) 一种图像重构方法、系统、装置及存储介质
CN115100709B (zh) 一种特征分离的图像人脸识别与年龄估计方法
Levin et al. Out-of-sample extension of graph adjacency spectral embedding
CN115017366B (zh) 基于多粒度语境化和多结构保存的无监督视频哈希检索方法
CN114972794A (zh) 基于多视图Pooling Transformer的三维对象识别方法
Zhang et al. Fchp: Exploring the discriminative feature and feature correlation of feature maps for hierarchical dnn pruning and compression
Zhen et al. Toward compact transformers for end-to-end object detection with decomposed chain tensor structure
Zhang et al. Semantic hierarchy preserving deep hashing for large-scale image retrieval
Xie et al. Object Re-identification Using Teacher-Like and Light Students.
CN111242003B (zh) 一种基于多尺度受约束自注意机制的视频显著性物体检测的方法
Liu et al. Densehashnet: A novel deep hashing for medical image retrieval
CN116343109A (zh) 基于自监督掩码模型和跨模态码本的文本行人搜索方法
Ziyaden et al. Long-context transformers: A survey
CN115100694A (zh) 一种基于自监督神经网络的指纹快速检索方法
Hu et al. Deep batch active learning and knowledge distillation for person re-identification
Zhang et al. Hierarchical model compression via shape-edge representation of feature maps—an enlightenment from the primate visual system
CN113792594A (zh) 一种基于对比学习的视频中语言片段定位方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant