CN115017366A - 基于多粒度语境化和多结构保存的无监督视频哈希检索方法 - Google Patents

基于多粒度语境化和多结构保存的无监督视频哈希检索方法 Download PDF

Info

Publication number
CN115017366A
CN115017366A CN202210810931.2A CN202210810931A CN115017366A CN 115017366 A CN115017366 A CN 115017366A CN 202210810931 A CN202210810931 A CN 202210810931A CN 115017366 A CN115017366 A CN 115017366A
Authority
CN
China
Prior art keywords
dimension
feature
module
formula
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210810931.2A
Other languages
English (en)
Other versions
CN115017366B (zh
Inventor
郝艳宾
段敬儒
何向南
周鹏远
王硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202210810931.2A priority Critical patent/CN115017366B/zh
Publication of CN115017366A publication Critical patent/CN115017366A/zh
Application granted granted Critical
Publication of CN115017366B publication Critical patent/CN115017366B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多粒度语境化和多结构保存的无监督视频哈希方法,其步骤包括:1、视频数据集的准备及处理;2、构建哈希检索网络;3、网络的训练及测试。本发明能从原始视频数据捕获更多有用信息,去除冗余信息,并将视频数据之间的内在语义结构信息保存到哈希码中,从而能实现低复杂度开销和高检索精度的视频检索。

Description

基于多粒度语境化和多结构保存的无监督视频哈希检索方法
技术领域
本发明涉及深度学习领域,更具体地,涉及一种无监督哈希方法,用于视频数据之间的语义相似性检索。
背景技术
在当下多媒体时代,视频数据越来越丰富,大规模视频检索技术日益重要。哈希是一种产生低维度、紧凑二进制码来传达数据信息的技术,哈希具有低存储、高匹配速度等优点,被广泛用于实时检索、数据检索等。由于视频内容更加丰富和复杂,视频数据量巨大并且快速增长使得人工标成为一种巨大开销,因此无监督的视频哈希技术变得更具挑战性并越来越受到研究关注。无监督哈希技术是需要将高维数据映射到低维的哈希码,这必定会带来信息损失,如何去更好地捕捉高维数据中内在的有用信息,将它保存到低维的哈希码中,是现在技术的共识。
针对现有的无监督哈希技术,存在的问题可以总结如下:
1)基于LSTM的视频哈希技术来对时间关系进行编码的方法,由于循环神经网络必须一帧一帧的处理帧序列,缺乏对整个视频内容的全局感知,或多或少的关注其不重要的内容影响其模型性能。基于Transformer的视频哈希技术克服了基于LSTM的这种循环神经网络的不足,但是由于Transformer网络的框架过于庞大,会极大增加模型的复杂度以及计算的复杂度,不利于节能和进行可持续发展。此外,循环神经网络和Transformer都关注特定的相关性或依赖性,可能在处理复杂视频内容方面能力不足。
2)基于近似视频的相关结构并保存到哈希空间的方法,和基于邻域相似结构的哈希方法,在一定程度上可以探索数据的相关结构信息,然而基于一种或两种类型的结构来完全表达相关结构并非是一件容易的事情。因此,完整的探索结构信息仍然是无监督视频哈希技术的一个难点。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于多粒度语境化和多结构保存的无监督视频哈希检索方法,以期能从原始视频数据捕获更多有用信息,去除冗余信息,并将视频数据之间的内在语义结构信息保存到哈希码中,从而能实现低复杂度开销和高检索精度的视频检索。
本发明为达到上述发明目的,采用如下技术方案:
本发明一个基于多粒度语境化和多结构保存的无监督视频哈希检索方法的特点在于,包括:
步骤1、获取N个不同类别的运动视频,对每个运动视频均抽取F帧,从而得到抽取后的N×F帧运动图像,将N×F帧运动图像通过预训练的网络框架VGG-16进行处理,并得到每一帧对应的C维特征向量,从而得到维度为N×F×C的输入特征
Figure BDA0003738881220000021
其中
Figure BDA0003738881220000022
Figure BDA0003738881220000023
表示第i个运动视频的输入特征,且其维度为F×C;
Figure BDA0003738881220000024
表示第i个运动视频的第f帧运动图像的输入特征,且其维度为C;
步骤2、构建哈希检索网络,包括:两个全连接层FC、两个MLP模块、三个LMS模块;其中,每个LMS模块均包括:L-RD模块,M-RD模块和S-RD模块;
步骤2.1、所述输入特征V通过第一个全连接层FC(C,D)将维度C降到维度D后,再通过ReLU(·)激活函数,得到维度为N×F×D的特征X1
步骤2.2、对特征X1先做转置变换后输入第一MLP模块中进行处理,得到维度为N×D×F的特征X2,再同时通过第一个LMS模块中的L-RD模块,M-RD模块和S-RD模块的处理,并将三个模块的输出结果相加后再做转置变换得到维度为N×F×D的特征X3,再将特征X1和特征X3相加后得到特征X4
对特征X4先通过第二MLP模块的处理后输出的结果,再同时通过第二个LMS模块中的L-RD模块,M-RD模块和S-RD模块的处理,并将三个模块的输出结果相加后得到特征X5;再将特征X4和特征X5相加后得到特征X6
所述特征X6同时通过第三个LMS模块中的L-RD模块,M-RD模块和S-RD模块的处理,并将三个模块的输出结果相加后得到维度N×F×D的隐层特征
Figure BDA0003738881220000025
其中,
Figure BDA0003738881220000026
Figure BDA0003738881220000027
表示第i个运动视频的隐层特征,且其维度为F×D;
Figure BDA0003738881220000028
表示第i个运动视频的第f帧运动图像的隐层特征,且其维度为D;
步骤2.3、所述隐层特征E通过第二个全连接层FC(D,K)将维度D降到维度K,从而得到维度为N×F×K的真值特征
Figure BDA0003738881220000029
其中,
Figure BDA00037388812200000210
表示第i个运动视频的真值特征,且其维度为F×K;
Figure BDA00037388812200000211
表示第i个运动视频的第f帧运动图像的真值特征,且其维度为K;
步骤2.4、通过式(1)得到第i个运动视频的真值特征Hi所对应的维度为K的松弛哈希码
Figure BDA00037388812200000213
Figure BDA00037388812200000212
式(1)中,Tanh(·)为激活函数;
步骤2.5、通过式(2)得到松弛哈希码
Figure BDA0003738881220000031
所对应的维度为K的哈希码bi
Figure BDA0003738881220000032
式(3)中,Sgn(·)为符号函数;
步骤3、对输入特征V通过平均池化后得到维度为N×C的视频平均特征,再通过K-means算法对视频平均特征进行聚类,得到维度为M×C的聚类中心
Figure BDA0003738881220000033
uj表示第j个聚类中心;
步骤4、对第i个隐层特征Ei通过平均池化后得到维度为D的特征
Figure BDA0003738881220000034
通过PCA算法将特征
Figure BDA0003738881220000035
的维度C降到维度D,并通过式(2)计算聚类损失Lcluster
Figure BDA0003738881220000036
式(2)中,
Figure BDA0003738881220000037
为距离
Figure BDA0003738881220000038
最近的聚类中心;
步骤5、对第i个输入特征Vi通过平均池化后得到维度为C的特征
Figure BDA0003738881220000039
并通过式(3)得到维度为N×M的矩阵P:
Figure BDA00037388812200000310
式(3)中,Pi,j表示P中的第i行第j列的值,σ为带宽参数,
Figure BDA00037388812200000311
为距离
Figure BDA00037388812200000312
最近的m个聚类中心,
Figure BDA00037388812200000313
为距离
Figure BDA00037388812200000314
最近的第j个聚类中心,
Figure BDA00037388812200000315
为距离
Figure BDA00037388812200000316
最近的第c个聚类中心;
步骤10、通过式(4)和式(5)分别得到维度为N×N矩阵A和维度为N×N矩阵A':
A=PΛ-1PT (4)
Figure BDA00037388812200000317
式(4)中,Λ表示取矩阵P对角值的对角矩阵,A'ij表示A'中的第i行第j列的值,Aij表示A中的第i行第j列的值;
步骤11、设置聚类中心的个数m分别为三个不同的取值,从而得到三个不同的矩阵A'(1),A'(2),A'(3),并通过式(6)得到维度为N×N矩阵S:
Figure BDA00037388812200000318
式(6)中,Sij表示S中的第i行第j列的值;
步骤12、根据松弛哈希码
Figure BDA00037388812200000319
和哈希码bi,通过式(7)计算邻域相似损失Lsim
Figure BDA0003738881220000041
式(7)中,
Figure BDA0003738881220000042
为第j个运动视频的松弛哈希码,θ为超参数;
步骤13、根据松弛哈希码
Figure BDA0003738881220000043
通过式(8)计算四元组损失Lquad
Figure BDA0003738881220000044
式(8)中,
Figure BDA0003738881220000045
为第j个运动视频的松弛哈希码,
Figure BDA0003738881220000046
为第k个运动视频的松弛哈希码,
Figure BDA0003738881220000047
为第l个运动视频的松弛哈希码;
Figure BDA0003738881220000048
的选取同时满足条件Sij=1,Sil=-1,Sik=-1,Slk=-1,其中,Sij表示S中的第i行第j列的值,Sil表示S中的第i行第l列的值,Sik表示S中的第i行第k列的值,Slk表示S中的第l行第k列的值,α1,α2是超参数;
步骤14、通过式(9)得到总体目标函数Lall,并利用梯度下降法对哈希检索网络进行训练,使得总体目标函数Lall的参数不断交替迭代更新,直到总体目标函数Lall收敛或者达到迭代次数为止,从而得到训练好的哈希检索网络;
Lall=αLcluster+βLsim+γLquad (9)
式(9)中,α,β,γ是超参数;
步骤15、将待查询的运动视频与数据库中的运动视频分别输入训练好的哈希检索网络中进行处理,并得到查询哈希码与数据库哈希码,计算查询哈希码和数据库哈希码之间的汉明距离,再将数据库中的运动视频按照汉明距离进行升序排序,并作为最终的检索结果。
本发明所述的基于多粒度语境化和多结构保存的无监督视频哈希检索方法的特点也在于,任意一个MLP模块是对所输入的三维特征,通过一个全连接层和GELU(·)激活函数,将三维特征的第三维度变为2倍,再输入一个全连接层中,将三维特征的第三维度变为原来的维度。
任意一个L-RD模块是按如下步骤进行处理:
步骤2.2.1、对维度为D1×D2的特征,通过一个全连接层FC(D1,D1),得到维度为D1×D2的特征X,所述特征X通过一维平均池化函数AvgPool1d(D1),将维度变为1×D2后,再输入一个全连接层FC(D2,D2/r)和激活函数ReLU(·)中,得到维度为1×D2/r的特征Y,所述特征Y再通过一个全连接层FC(D2/r,D2)和激活函数Sigmoid(·),将维度变为1×D2后,得到的特征再复制扩充为维度为D1×D2的特征G,将特征X与特征G做哈达玛积得到维度为D1×D2的特征Z,最后所述特征Z再通过一个全连接层FC(D1,D1)得到输出。
任意一个M-RD模块是按如下步骤进行处理:
步骤2.2.2、对维度为D1×D2的特征,通过一个全连接层FC(D1,D1),得到维度为D1×D2的特征X,所述特征X再通过一维平均池化函数AvgPool1d(3),将维度变为D1/3×D2后,再输入一个一维卷积Cov1d(D2,D2/r)和激活函数ReLU(·)中,得到维度为D1/3×D2/r的特征Y,所述特征Y再通过一个一维卷积Cov1d(D2/r,D2)和激活函数Sigmoid(·),将维度变为D1/3×D2后,得到的特征再下采样扩充为维度为D1×D2的特征G,将特征X与特征G做哈达玛积得到维度为D1×D2的特征Z,最后所述特征Z再通过一个全连接层FC(D1,D1)得到输出。
任意一个S-RD模块是按如下步骤进行处理:
步骤2.2.3、对维度为D1×D2的特征,通过一个全连接层FC(D1,D1),得到维度为D1×D2的特征X,所述特征X通过一个一维卷积Cov1d(D2,D2/r)和激活函数ReLU(·),得到维度为D1×D2/r的特征Y,所述特征Y再通过一个一维卷积Cov1d(D2/r,D2)和激活函数Sigmoid(·),得到维度为D1×D2的特征G,将特征X与特征G做哈达玛积得到维度为D1×D2的特征Z,最后所述特征Z再通过一个全连接层FC(D1,D1)得到输出。
与现有技术相比,本发明的有益效果在于:
1、本发明使用无监督技术,在多层感知机的混合器(MLP-Mixer)的基础上设计三种不同粒度的门控模块以及三种互补的结构保存方法,提高了检索精度的同时,降低了计算复杂度,节省了大量的人力、物力资源。
2、本发明设计的哈希检索网络是在多层感知机的混合器(MLP-Mixer)的基础上,融合了三个不同粒度的门控模块L-RD模块,M-RD模块和S-RD模块,使得网络更好地在高维视频数据之间交互,在映射到的低维哈希码中更多地保留原始高维数据的特征信息,可以提升哈希视频检索的检索精度并降低计算复杂度。
3、本发明设计的结构保存方法是采用了聚类损失,邻域相似损失和四元组损失,三个结构保存方法互补,聚类损失减少类内距离,邻域相似损失增加类间距离,四元组损失可以完成较大的类间距和较小的类内距,三个损失函数结合更好地捕捉高维视频数据之间内在的结构联系,将其尽可能完整地保存在汉明空间中,可以更进一步提升哈希视频检索的检索精度。
附图说明
图1为本发明一种视频哈希检索方法的流程图;
图2为本发明一种哈希检索网络的整体模型结构示意图;
图3a为本发明一种哈希检索网络中L-RD模块的模型结构示意图;
图3b为本发明一种哈希检索网络中M-RD模块的模型结构示意图;
图3c为本发明一种哈希检索网络中S-RD模块的模型结构示意图;
图3d为本发明一种哈希检索网络中MLP模块的模型结构示意图。
具体实施方式
本实施例中,一个基于多粒度语境化和多结构保存的无监督视频哈希检索方法,是采用了三个不同大小的数据集来验证方法的有效性,本实施例中仅使用FCVID数据集进行展示,FCVID数据集包含91,223个运动视频数据分为239个类别,其中45,585个视频用于训练,45,600个视频用于测试,对每个视频都均匀采样25帧。如图1所示:整个流程可以具体分为以下几个步骤:
步骤1、获取N个不同类别的运动视频,对每个运动视频均抽取F帧,从而得到抽取后的N×F帧运动图像,这里得到91,223×25帧运动图像,将N×F帧运动图像通过预训练的网络框架VGG-16进行处理,并得到每一帧对应的C维特征向量,每一帧得到4096维特征向量,从而得到维度为N×F×C的输入特征
Figure BDA0003738881220000061
其中
Figure BDA0003738881220000062
表示第i个运动视频的输入特征,且其维度为F×C;
Figure BDA0003738881220000063
表示第i个运动视频的第f帧运动图像的输入特征,且其维度为C;
步骤2、构建哈希检索网络,如图2所示,包括:两个全连接层FC、两个MLP模块、三个LMS模块;其中,每个LMS模块均包括:L-RD模块,M-RD模块和S-RD模块;各个模块结构如图3a-3d所示,每个模块的结构相同,下面举例说明每个模块处理的具体步骤:
如图3d所示,任意一个MLP模块是对所输入的三维特征,通过一个全连接层和GELU(·)激活函数,将三维特征的第三维度变为2倍,再输入一个全连接层中,将三维特征的第三维度变为原来的维度;
如图3a所示,举例说明L-RD模块是按如下步骤进行处理:
对维度为D1×D2的特征,通过一个全连接层FC(D1,D1),得到维度为D1×D2的特征X,所述特征X通过一维平均池化函数AvgPool1d(D1),将维度变为1×D2后,再输入一个全连接层FC(D2,D2/r)和激活函数ReLU(·)中,得到维度为1×D2/r的特征Y,所述特征Y再通过一个全连接层FC(D2/r,D2)和激活函数Sigmoid(·),将维度变为1×D2后,得到的特征再复制扩充为维度为D1×D2的特征G,将特征X与特征G做哈达玛积得到维度为D1×D2的特征Z,最后所述特征Z再通过一个全连接层FC(D1,D1)得到输出;
如图3b所示,举例说明M-RD模块是按如下步骤进行处理:
对维度为D1×D2的特征,通过一个全连接层FC(D1,D1),得到维度为D1×D2的特征X,所述特征X再通过一维平均池化函数AvgPool1d(3),将维度变为D1/3×D2后,再输入一个一维卷积Cov1d(D2,D2/r)和激活函数ReLU(·)中,得到维度为D1/3×D2/r的特征Y,所述特征Y再通过一个一维卷积Cov1d(D2/r,D2)和激活函数Sigmoid(·),将维度变为D1/3×D2后,得到的特征再下采样扩充为维度为D1×D2的特征G,将特征X与特征G做哈达玛积得到维度为D1×D2的特征Z,最后所述特征Z再通过一个全连接层FC(D1,D1)得到输出;
如图3c所示,举例说明S-RD模块是按如下步骤进行处理:
对维度为D1×D2的特征,通过一个全连接层FC(D1,D1),得到维度为D1×D2的特征X,所述特征X通过一个一维卷积Cov1d(D2,D2/r)和激活函数ReLU(·),得到维度为D1×D2/r的特征Y,所述特征Y再通过一个一维卷积Cov1d(D2/r,D2)和激活函数Sigmoid(·),得到维度为D1×D2的特征G,将特征X与特征G做哈达玛积得到维度为D1×D2的特征Z,最后所述特征Z再通过一个全连接层FC(D1,D1)得到输出;
步骤2.1、输入特征V通过第一个全连接层FC(C,D)将维度C降到维度D后,再通过ReLU(·)激活函数,得到维度为N×F×D的特征X1,这里为了减少计算量,将4096维度特征降到256维;
步骤2.2、对特征X1先做转置变换后输入第一MLP模块中进行处理,得到维度为N×D×F的特征X2,再同时通过第一个LMS模块中的L-RD模块,M-RD模块和S-RD模块的处理,并将三个模块的输出结果相加后再做转置变换得到维度为N×F×D的特征X3,再将特征X1和特征X3相加后得到特征X4
对特征X4先通过第二MLP模块的处理后输出的结果,再同时通过第二个LMS模块中的L-RD模块,M-RD模块和S-RD模块的处理,并将三个模块的输出结果相加后得到特征X5;再将特征X4和特征X5相加后得到特征X6
特征X6同时通过第三个LMS模块中的L-RD模块,M-RD模块和S-RD模块的处理,并将三个模块的输出结果相加后得到维度N×F×D的隐层特征
Figure BDA0003738881220000071
其中,
Figure BDA0003738881220000072
Figure BDA0003738881220000073
表示第i个运动视频的隐层特征,且其维度为F×D;
Figure BDA0003738881220000074
表示第i个运动视频的第f帧运动图像的隐层特征,且其维度为D,各个模块可以使输入特征V很好地融合不同轴向的信息,获得表征能力很好的隐层特征E;
步骤2.3、隐层特征E通过第二个全连接层FC(D,K)将维度D降到维度K,从而得到维度为N×F×K的真值特征
Figure BDA0003738881220000081
其中,
Figure BDA0003738881220000082
表示第i个运动视频的真值特征,且其维度为F×K;
Figure BDA0003738881220000083
表示第i个运动视频的第f帧运动图像的真值特征,且其维度为K,这里应用最简单的全连接层将隐层特征E维度降到与哈希码的长度值保持一致,得到真值特征;
步骤2.4、通过式(1)得到第i个运动视频的真值特征Hi所对应的维度为K的松弛哈希码
Figure BDA00037388812200000821
Figure BDA0003738881220000084
式(1)中,Tanh(·)为激活函数;
步骤2.5、通过式(2)得到松弛哈希码
Figure BDA0003738881220000085
所对应的维度为K的哈希码bi
Figure BDA0003738881220000086
式(3)中,Sgn(·)为符号函数;
步骤3、对输入特征V通过平均池化后得到维度为N×C的视频平均特征,再通过K-means算法对视频平均特征进行聚类,得到维度为M×C的聚类中心
Figure BDA0003738881220000087
uj表示第j个聚类中心;
步骤4、对第i个隐层特征Ei通过平均池化后得到维度为D的特征
Figure BDA0003738881220000088
通过PCA算法将特征
Figure BDA0003738881220000089
的维度C降到维度D,这里降维度是为了和隐层特征E维度保持一致,并通过式(2)计算聚类损失Lcluster
Figure BDA00037388812200000810
式(2)中,
Figure BDA00037388812200000811
为距离
Figure BDA00037388812200000812
最近的聚类中心;
步骤5、对第i个输入特征Vi通过平均池化后得到维度为C的特征
Figure BDA00037388812200000813
并通过式(3)得到维度为N×M的矩阵P:
Figure BDA00037388812200000814
式(3)中,Pi,j表示P中的第i行第j列的值,σ为带宽参数,
Figure BDA00037388812200000815
为距离
Figure BDA00037388812200000816
最近的m个聚类中心,
Figure BDA00037388812200000817
为距离
Figure BDA00037388812200000818
最近的第j个聚类中心,
Figure BDA00037388812200000819
为距离
Figure BDA00037388812200000820
最近的第c个聚类中心;
步骤10、通过式(4)和式(5)分别得到维度为N×N矩阵A和维度为N×N矩阵A':
A=PΛ-1PT (4)
Figure BDA0003738881220000091
式(4)中,Λ表示取矩阵P对角值的对角矩阵,A'ij表示A'中的第i行第j列的值,Aij表示A中的第i行第j列的值;
步骤11、设置聚类中心的个数m分别为三个不同的取值,从而得到三个不同的矩阵A'(1),A'(2),A'(3),设置不同的m值是为了区分一些边界位置的假相似性带来的歧义,并通过式(6)得到维度为N×N矩阵S:
Figure BDA0003738881220000092
式(6)中,Sij表示S中的第i行第j列的值;
步骤12、根据松弛哈希码
Figure BDA0003738881220000093
和哈希码bi,通过式(7)计算邻域相似损失Lsim
Figure BDA0003738881220000094
式(7)中,
Figure BDA0003738881220000095
为第j个运动视频的松弛哈希码,θ为超参数;
步骤13、根据松弛哈希码
Figure BDA0003738881220000096
通过式(8)计算四元组损失Lquad
Figure BDA0003738881220000097
式(8)中,
Figure BDA0003738881220000098
为第j个运动视频的松弛哈希码,
Figure BDA0003738881220000099
为第k个运动视频的松弛哈希码,
Figure BDA00037388812200000910
为第l个运动视频的松弛哈希码;
Figure BDA00037388812200000911
的选取需要同时满足这四个条件Sij=1,Sil=-1,Sik=-1,Slk=-1,其中Sij表示S中的第i行第j列的值,Sil表示S中的第i行第l列的值,Sik表示S中的第i行第k列的值,Slk表示S中的第l行第k列的值,α1,α2是超参数,这里选取的松弛哈希码
Figure BDA00037388812200000912
Figure BDA00037388812200000913
是语义相似的(Sij=1),其他成对的松弛哈希码均是语义不相似的(Sij=-1);
步骤14、通过式(9)得到总体目标函数Lall,并利用梯度下降法对哈希检索网络进行训练,使得总体目标函数Lall的参数不断交替迭代更新,直到总体目标函数Lall收敛或者达到迭代次数为止,从而得到训练好的哈希检索网络;
Lall=αLcluster+βLsim+γLquad (9)
式(9)中,α,β,γ是超参数;
步骤15、将待查询的运动视频与数据库中的运动视频分别输入训练好的哈希检索网络中进行处理,并得到查询哈希码与数据库哈希码,计算查询哈希码和数据库哈希码之间的汉明距离,再将数据库中的运动视频按照汉明距离进行升序排序,并作为最终的检索结果。
为了说明本发明的有效性,通过进行了如下实验进行了验证。
实验在三个视频数据集上进行了实验,这里选取其中FCVID作为展示,以前k个检索结果的平均检索精度(mAP@k)作为评价指标。且设计了消融实验,从而验证了设计单元的有效性。
实验分为如下几个部分:
1)不同粒度的门控模块对模型性能的影响,其结果如表1所示。
Figure BDA0003738881220000101
表1不同粒度的门控模块的性能比较
本发明验证所提出的三个不同粒度的门控模块的影响,在64位哈希码的设置下进行了消融实验,表1展示了单个模块和三个模块组合以及多层感知机混合器(MLP-Mixer)之间的不同,可以通过数据看出,本发明所提出的门控模块都可以改进基础的多层感知机混合器,表明其有效性,此外,与单个模块相比,并行组合三个模块可以实现更好的性能。
2)不同的结构保存模块对模型性能的影响,其结果如表2所示。
Figure BDA0003738881220000102
表2不同的结构保存模块的性能比较
表2中,本发明通过单个类型的结构与三个结合的相比较,在64位哈希码的设置下进行了消融实验,三个组合的结果超过单一的结构,可以看出这三种结构侧重于不同的数据结构模式,即反映视频之间成对相似性的邻域,反映整个样本的群组特征的聚类捕获统计信息,以及促进高类内紧凑性和类间的类间/类内变化可分离性(排名顺序),这证明这三种使用的结构是互补的,并且可以协同工作以学习更具区分性的哈希码。
3)与基于Transformer的视频哈希的对比
Method Param. FLOPs AverageEncodingTime
BTH 3.17M 0.05G 0.53ms
MCMSH 1.76M 0.05G 0.47ms
表3与基于Transformer的方法的比较
表3中,本发明与最具竞争力的基于Transformer的视频哈希方法BTH进行了比较,Param.表示参数数量,FLOPS表示计算复杂度,AverageEncodingTime表示平均编码时间,在64位哈希码的设置下进行了比较实验,本发明的性能是领先于BTH的,在性能领先的同时,参数量几乎是BTH的一半,本发明的计算复杂度和BTH的基本持平,另外,本发明在编码时间上也是快于BTH。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (5)

1.一个基于多粒度语境化和多结构保存的无监督视频哈希检索方法,其特征在于,包括:
步骤1、获取N个不同类别的运动视频,对每个运动视频均抽取F帧,从而得到抽取后的N×F帧运动图像,将N×F帧运动图像通过预训练的网络框架VGG-16进行处理,并得到每一帧对应的C维特征向量,从而得到维度为N×F×C的输入特征
Figure FDA0003738881210000011
其中
Figure FDA0003738881210000012
Figure FDA0003738881210000013
表示第i个运动视频的输入特征,且其维度为F×C;
Figure FDA0003738881210000014
表示第i个运动视频的第f帧运动图像的输入特征,且其维度为C;
步骤2、构建哈希检索网络,包括:两个全连接层FC、两个MLP模块、三个LMS模块;其中,每个LMS模块均包括:L-RD模块,M-RD模块和S-RD模块;
步骤2.1、所述输入特征V通过第一个全连接层FC(C,D)将维度C降到维度D后,再通过ReLU(·)激活函数,得到维度为N×F×D的特征X1
步骤2.2、对特征X1先做转置变换后输入第一MLP模块中进行处理,得到维度为N×D×F的特征X2,再同时通过第一个LMS模块中的L-RD模块,M-RD模块和S-RD模块的处理,并将三个模块的输出结果相加后再做转置变换得到维度为N×F×D的特征X3,再将特征X1和特征X3相加后得到特征X4
对特征X4先通过第二MLP模块的处理后输出的结果,再同时通过第二个LMS模块中的L-RD模块,M-RD模块和S-RD模块的处理,并将三个模块的输出结果相加后得到特征X5;再将特征X4和特征X5相加后得到特征X6
所述特征X6同时通过第三个LMS模块中的L-RD模块,M-RD模块和S-RD模块的处理,并将三个模块的输出结果相加后得到维度N×F×D的隐层特征
Figure FDA0003738881210000015
其中,
Figure FDA0003738881210000016
Figure FDA0003738881210000017
表示第i个运动视频的隐层特征,且其维度为F×D;
Figure FDA0003738881210000018
表示第i个运动视频的第f帧运动图像的隐层特征,且其维度为D;
步骤2.3、所述隐层特征E通过第二个全连接层FC(D,K)将维度D降到维度K,从而得到维度为N×F×K的真值特征
Figure FDA0003738881210000019
其中,
Figure FDA00037388812100000110
表示第i个运动视频的真值特征,且其维度为F×K;
Figure FDA00037388812100000111
表示第i个运动视频的第f帧运动图像的真值特征,且其维度为K;
步骤2.4、通过式(1)得到第i个运动视频的真值特征Hi所对应的维度为K的松弛哈希码
Figure FDA00037388812100000112
Figure FDA00037388812100000113
式(1)中,Tanh(·)为激活函数;
步骤2.5、通过式(2)得到松弛哈希码
Figure FDA0003738881210000021
所对应的维度为K的哈希码bi
Figure FDA0003738881210000022
式(3)中,Sgn(·)为符号函数;
步骤3、对输入特征V通过平均池化后得到维度为N×C的视频平均特征,再通过K-means算法对视频平均特征进行聚类,得到维度为M×C的聚类中心
Figure FDA0003738881210000023
uj表示第j个聚类中心;
步骤4、对第i个隐层特征Ei通过平均池化后得到维度为D的特征
Figure FDA0003738881210000024
通过PCA算法将特征
Figure FDA0003738881210000025
的维度C降到维度D,并通过式(2)计算聚类损失Lcluster
Figure FDA0003738881210000026
式(2)中,
Figure FDA0003738881210000027
为距离
Figure FDA0003738881210000028
最近的聚类中心;
步骤5、对第i个输入特征Vi通过平均池化后得到维度为C的特征
Figure FDA0003738881210000029
并通过式(3)得到维度为N×M的矩阵P:
Figure FDA00037388812100000210
式(3)中,Pi,j表示P中的第i行第j列的值,σ为带宽参数,
Figure FDA00037388812100000211
为距离
Figure FDA00037388812100000212
最近的m个聚类中心,
Figure FDA00037388812100000213
为距离
Figure FDA00037388812100000214
最近的第j个聚类中心,
Figure FDA00037388812100000215
为距离
Figure FDA00037388812100000216
最近的第c个聚类中心;
步骤10、通过式(4)和式(5)分别得到维度为N×N矩阵A和维度为N×N矩阵A':
A=PΛ-1PT (4)
Figure FDA00037388812100000217
式(4)中,Λ表示取矩阵P对角值的对角矩阵,A'j表示A'中的第i行第j列的值,Aij表示A中的第i行第j列的值;
步骤11、设置聚类中心的个数m分别为三个不同的取值,从而得到三个不同的矩阵A'(1),A'(2),A'(3),并通过式(6)得到维度为N×N矩阵S:
Figure FDA00037388812100000218
式(6)中,Sij表示S中的第i行第j列的值;
步骤12、根据松弛哈希码
Figure FDA00037388812100000219
和哈希码bi,通过式(7)计算邻域相似损失Lsim
Figure FDA0003738881210000031
式(7)中,
Figure FDA0003738881210000032
为第j个运动视频的松弛哈希码,θ为超参数;
步骤13、根据松弛哈希码
Figure FDA0003738881210000033
通过式(8)计算四元组损失Lquad
Figure FDA0003738881210000034
式(8)中,
Figure FDA0003738881210000035
为第j个运动视频的松弛哈希码,
Figure FDA0003738881210000036
为第k个运动视频的松弛哈希码,
Figure FDA0003738881210000037
为第l个运动视频的松弛哈希码;
Figure FDA0003738881210000038
的选取同时满足条件Sij=1,Sil=-1,Sik=-1,Slk=-1,其中,Sij表示S中的第i行第j列的值,Sil表示S中的第i行第l列的值,Sik表示S中的第i行第k列的值,Slk表示S中的第l行第k列的值,α1,α2是超参数;
步骤14、通过式(9)得到总体目标函数Lall,并利用梯度下降法对哈希检索网络进行训练,使得总体目标函数Lall的参数不断交替迭代更新,直到总体目标函数Lall收敛或者达到迭代次数为止,从而得到训练好的哈希检索网络;
Lall=αLcluster+βLsim+γLquad (9)
式(9)中,α,β,γ是超参数;
步骤15、将待查询的运动视频与数据库中的运动视频分别输入训练好的哈希检索网络中进行处理,并得到查询哈希码与数据库哈希码,计算查询哈希码和数据库哈希码之间的汉明距离,再将数据库中的运动视频按照汉明距离进行升序排序,并作为最终的检索结果。
2.根据权利要求1所述的基于多粒度语境化和多结构保存的无监督视频哈希检索方法,其特征在于,任意一个MLP模块是对所输入的三维特征,通过一个全连接层和GELU(·)激活函数,将三维特征的第三维度变为2倍,再输入一个全连接层中,将三维特征的第三维度变为原来的维度。
3.根据权利要求1所述的基于多粒度语境化和多结构保存的无监督视频哈希检索方法,其特征在于,任意一个L-RD模块是按如下步骤进行处理:
步骤2.2.1、对维度为D1×D2的特征,通过一个全连接层FC(D1,D1),得到维度为D1×D2的特征X,所述特征X通过一维平均池化函数AvgPool1d(D1),将维度变为1×D2后,再输入一个全连接层FC(D2,D2/r)和激活函数ReLU(·)中,得到维度为1×D2/r的特征Y,所述特征Y再通过一个全连接层FC(D2/r,D2)和激活函数Sigmoid(·),将维度变为1×D2后,得到的特征再复制扩充为维度为D1×D2的特征G,将特征X与特征G做哈达玛积得到维度为D1×D2的特征Z,最后所述特征Z再通过一个全连接层FC(D1,D1)得到输出。
4.根据权利要求1所述的基于多粒度语境化和多结构保存的无监督视频哈希检索方法,其特征在于,任意一个M-RD模块是按如下步骤进行处理:
步骤2.2.2、对维度为D1×D2的特征,通过一个全连接层FC(D1,D1),得到维度为D1×D2的特征X,所述特征X再通过一维平均池化函数AvgPool1d(3),将维度变为D1/3×D2后,再输入一个一维卷积Cov1d(D2,D2/r)和激活函数ReLU(·)中,得到维度为D1/3×D2/r的特征Y,所述特征Y再通过一个一维卷积Cov1d(D2/r,D2)和激活函数Sigmoid(·),将维度变为D1/3×D2后,得到的特征再下采样扩充为维度为D1×D2的特征G,将特征X与特征G做哈达玛积得到维度为D1×D2的特征Z,最后所述特征Z再通过一个全连接层FC(D1,D1)得到输出。
5.根据权利要求1所述的基于多粒度语境化和多结构保存的无监督视频哈希检索方法,其特征在于,任意一个S-RD模块是按如下步骤进行处理:
步骤2.2.3、对维度为D1×D2的特征,通过一个全连接层FC(D1,D1),得到维度为D1×D2的特征X,所述特征X通过一个一维卷积Cov1d(D2,D2/r)和激活函数ReLU(·),得到维度为D1×D2/r的特征Y,所述特征Y再通过一个一维卷积Cov1d(D2/r,D2)和激活函数Sigmoid(·),得到维度为D1×D2的特征G,将特征X与特征G做哈达玛积得到维度为D1×D2的特征Z,最后所述特征Z再通过一个全连接层FC(D1,D1)得到输出。
CN202210810931.2A 2022-07-11 2022-07-11 基于多粒度语境化和多结构保存的无监督视频哈希检索方法 Active CN115017366B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210810931.2A CN115017366B (zh) 2022-07-11 2022-07-11 基于多粒度语境化和多结构保存的无监督视频哈希检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210810931.2A CN115017366B (zh) 2022-07-11 2022-07-11 基于多粒度语境化和多结构保存的无监督视频哈希检索方法

Publications (2)

Publication Number Publication Date
CN115017366A true CN115017366A (zh) 2022-09-06
CN115017366B CN115017366B (zh) 2024-04-02

Family

ID=83080218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210810931.2A Active CN115017366B (zh) 2022-07-11 2022-07-11 基于多粒度语境化和多结构保存的无监督视频哈希检索方法

Country Status (1)

Country Link
CN (1) CN115017366B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116128846A (zh) * 2023-02-01 2023-05-16 南通大学 一种面向肺部X-ray图像检索的视觉Transformer哈希方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737135A (zh) * 2012-07-10 2012-10-17 北京大学 基于变形敏感的软级联模型的视频拷贝检测方法及系统
WO2017092183A1 (zh) * 2015-12-03 2017-06-08 中山大学 一种基于可变长深度哈希学习的图像检索方法
CN109919084A (zh) * 2019-03-06 2019-06-21 南京大学 一种基于深度多索引哈希的行人重识别方法
WO2020147857A1 (zh) * 2019-01-18 2020-07-23 上海极链网络科技有限公司 海量视频特征提取以及存储和检索方法及系统
CN111753060A (zh) * 2020-07-29 2020-10-09 腾讯科技(深圳)有限公司 信息检索方法、装置、设备及计算机可读存储介质
CN112199533A (zh) * 2020-10-15 2021-01-08 华中科技大学 一种基于节点表征的无监督深度哈希模型训练方法及图像检索方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737135A (zh) * 2012-07-10 2012-10-17 北京大学 基于变形敏感的软级联模型的视频拷贝检测方法及系统
WO2017092183A1 (zh) * 2015-12-03 2017-06-08 中山大学 一种基于可变长深度哈希学习的图像检索方法
WO2020147857A1 (zh) * 2019-01-18 2020-07-23 上海极链网络科技有限公司 海量视频特征提取以及存储和检索方法及系统
CN109919084A (zh) * 2019-03-06 2019-06-21 南京大学 一种基于深度多索引哈希的行人重识别方法
CN111753060A (zh) * 2020-07-29 2020-10-09 腾讯科技(深圳)有限公司 信息检索方法、装置、设备及计算机可读存储介质
CN112199533A (zh) * 2020-10-15 2021-01-08 华中科技大学 一种基于节点表征的无监督深度哈希模型训练方法及图像检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
冯兴杰;程毅玮;: "基于深度卷积神经网络与哈希的图像检索", 计算机工程与设计, no. 03, 16 March 2020 (2020-03-16) *
李蕾;岑翼刚;赵瑞珍;崔丽鸿;王艳红;: "基于欧氏距离双比特嵌入哈希的图像检索", 应用科学学报, no. 02, 30 March 2017 (2017-03-30) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116128846A (zh) * 2023-02-01 2023-05-16 南通大学 一种面向肺部X-ray图像检索的视觉Transformer哈希方法
CN116128846B (zh) * 2023-02-01 2023-08-22 南通大学 一种面向肺部X-ray图像检索的视觉Transformer哈希方法

Also Published As

Publication number Publication date
CN115017366B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
Gholamalinezhad et al. Pooling methods in deep neural networks, a review
Chen et al. Shallowing deep networks: Layer-wise pruning based on feature representations
Cong et al. A review of convolutional neural network architectures and their optimizations
CN109241995B (zh) 一种基于改进型ArcFace损失函数的图像识别方法
Xie et al. Visualization and Pruning of SSD with the base network VGG16
Sun et al. Combining the kernel collaboration representation and deep subspace learning for facial expression recognition
CN110188827A (zh) 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
Golovko et al. A new technique for restricted Boltzmann machine learning
Hou et al. Hitpr: Hierarchical transformer for place recognition in point cloud
CN103268484A (zh) 用于高精度人脸识别的分类器设计方法
Xu et al. Discriminative analysis for symmetric positive definite matrices on lie groups
CN110119455A (zh) 一种基于卷积深度置信网络的图像分类检索方法
CN115017366B (zh) 基于多粒度语境化和多结构保存的无监督视频哈希检索方法
CN114170154A (zh) 基于Transformer的遥感VHR图像变化检测方法
CN111242003B (zh) 一种基于多尺度受约束自注意机制的视频显著性物体检测的方法
ElAdel et al. Fast DCNN based on FWT, intelligent dropout and layer skipping for image retrieval
Aziz et al. Multi-level refinement feature pyramid network for scale imbalance object detection
CN116311504A (zh) 一种小样本行为识别方法、系统及设备
Liu et al. Multi-digit Recognition with Convolutional Neural Network and Long Short-term Memory
CN115100694A (zh) 一种基于自监督神经网络的指纹快速检索方法
Ziyaden et al. Long-context transformers: A survey
Zhang et al. Hierarchical model compression via shape-edge representation of feature maps—an enlightenment from the primate visual system
CN115146689A (zh) 一种基于深度学习的动力系统高维测量数据降维方法
Kashani et al. Leveraging deep learning representation for search-based image annotation
Liu et al. Learning compact ConvNets through filter pruning based on the saliency of a feature map

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant