CN113742525A - 自监督视频哈希学习方法、系统、电子设备及存储介质 - Google Patents

自监督视频哈希学习方法、系统、电子设备及存储介质 Download PDF

Info

Publication number
CN113742525A
CN113742525A CN202110937019.9A CN202110937019A CN113742525A CN 113742525 A CN113742525 A CN 113742525A CN 202110937019 A CN202110937019 A CN 202110937019A CN 113742525 A CN113742525 A CN 113742525A
Authority
CN
China
Prior art keywords
video
hash
learning
hash code
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110937019.9A
Other languages
English (en)
Inventor
范清
唐大闰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Minglue Artificial Intelligence Group Co Ltd
Original Assignee
Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Minglue Artificial Intelligence Group Co Ltd filed Critical Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority to CN202110937019.9A priority Critical patent/CN113742525A/zh
Publication of CN113742525A publication Critical patent/CN113742525A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种自监督视频哈希学习方法、系统、电子设备及存储介质,其方法技术方案包括收集视频数据,并对视频数据中的无关内容进行裁剪处理;通过孪生网络获取视频的时空特征,根据时空特征得到期望长度的哈希码,并进一步利用哈希码计算损失并依据反向传播算法优化参数,以完成孪生网络的训练;孪生网络训练完成后,在推理时将视频输入至孪生网络的其中一个路径,并从哈希投影组件得到该视频的128维的哈希编码。本申请解决了现有方法计算消耗大、学习到的哈希码表示能力差、检索精度低导致其难以应用到实际场景的问题。

Description

自监督视频哈希学习方法、系统、电子设备及存储介质
技术领域
本发明属于机器学习技术领域,尤其涉及一种自监督视频哈希学习方法、系统、电子设备及存储介质。
背景技术
近年来,互联网视频流量的井喷式增长使得海量视频数据的处理成为了一个迫切的需求。对于用户来说,从杂乱繁多的视频中快速检索出感兴趣的目标视频,会极大地改善用户体验,提高用户粘性;对于互联网企业来说,精准的视频检索可以使视频推荐更加精确,也更便于精准推送营销信息,提高产品利润。
传统的基于关键字的视频检索方法,主要是通过对视频的关键字进行检索,返回与关键字相同或相近的视频,然而,对于当今海量的视频增量而言,对视频标注关键字是及其耗费时间和人力的。因此,基于内容的视频检索作为一个新的解决方案,在近年来逐渐发展起来,并成为了多媒体领域的一个研究热点。从原理上,基于内容的视频检索问题可归于近似最近邻搜索,而哈希学习是近似最近邻搜索问题的一个有效解决方法。哈希学习将原始数据通过某种设计的哈希函数映射到一个海明空间,从而将高维度的原始数据映射为低维的0/1二值码,在映射的同时保持原始数据的邻域相关性,使得原始空间中相关的样本在哈希空间中依然相似,原始空间中不相似的样本在哈希编码中的距离较大。海明空间中数据的相似性可以由0/1哈希码的异或运算得出的海明距离表示,与传统的距离计算相比,计算速度大大提升,与此同时,样本的低维二值码表示降低了检索时的存储需求。得益于这些技术优势,通过哈希学习实现的基于内容的视频检索具有广阔的应用前景。
有监督的哈希学习方法中,比较有代表性的方法是核监督哈希方法、基于列采样的离散监督哈希、快速监督哈希方法、最小损失哈希方法和有监督离散哈希方法。在无监督哈希学习方法中比较有代表性的方法有主成分分析哈希方法和谱哈希方法。
随着深度学习的发展,大量的基于深度神经网络的哈希学习方法涌现出来。由于深度神经网络拥有极为强大的特征表示能力,人们开始转向采用深度学习的方法来学习数据的哈希表示。非对称深度监督哈希方法采用卷积神经网络,并使用非对称的方式来进行哈希码的学习。深度监督离散哈希方法基于学习到的哈希码同样适合进行分类任务的假设,使用深度网络学习哈希码。
然而,目前的视频哈希学习方法依然存在诸如对视频的表达能力不够,计算代价高昂,或是检索准确性低的问题,导致其难以应用到现实场景中。
发明内容
本申请实施例提供了一种自监督视频哈希学习方法、系统、电子设备及存储介质,以至少解决现有方法计算消耗大、学习到的哈希码表示能力差、检索精度低导致其难以应用到实际场景的问题。
第一方面,本申请实施例提供了一种自监督视频哈希学习方法,包括:视频数据准备步骤,收集视频数据,并对所述视频数据中的无关内容进行裁剪处理;网络训练学习步骤,通过孪生网络获取所述视频的时空特征,根据所述时空特征得到期望长度的哈希码,并进一步利用所述哈希码计算损失并依据反向传播算法优化参数,以完成所述孪生网络的训练;哈希编码获取步骤,所述孪生网络训练完成后,在推理时将所述视频输入至所述孪生网络的其中一个路径,并从哈希投影组件得到该视频的128维的哈希编码;线上检索应用步骤,将所述孪生网络应用于线上检索时,获取待检索视频的所述128维的哈希编码,将所述128维的哈希编码与一检索库中视频的哈希编码计算海明距离,根据所述海明距离得到检索结果。
优选的,所述网络训练学习步骤进一步包括:基于一个对比学习框架,将来自任一所述视频的两个增强视图分别输入到所述孪生网络的两条路径,经过特征嵌入编码器提取所述时空特征,经哈希映射将提取的所述时空特征映射到哈希空间并得到期望长度的所述哈希码,然后利用所述两个增强视图的所述哈希码计算损失并依据反向传播算法优化参数,使得网络逐渐收敛。
优选的,所述网络训练学习步骤进一步包括:给出一个长度为T的所述视频,随机从所述视频的不同时间点以一定速率采样两个相同长度的序列,对其中一个所述序列应用变换得到第一增强视图,对另一所述序列应用相同的所述变换得到第二增强视图。
优选的,所述网络训练学习步骤进一步包括:根据一目标函数计算损失,所述目标函数定义为
Figure BDA0003213194280000031
其中,h1、h2分别代表两个增强视图的哈希码,C代表h1和h2协方差矩阵,b表示视频样例,i和j分别表示协方差矩阵行列维度。
第二方面,本申请实施例提供了一种自监督视频哈希学习系统,适用于上述一种自监督视频哈希学习方法,包括:视频数据准备模块,收集视频数据,并对所述视频数据中的无关内容进行裁剪处理;网络训练学习模块,通过孪生网络获取所述视频的时空特征,根据所述时空特征得到期望长度的哈希码,并进一步利用所述哈希码计算损失并依据反向传播算法优化参数,以完成所述孪生网络的训练;哈希编码获取模块,所述孪生网络训练完成后,在推理时将所述视频输入至所述孪生网络的其中一个路径,并从哈希投影组件得到该视频的128维的哈希编码;线上检索应用模块,将所述孪生网络应用于线上检索时,获取待检索视频的所述128维的哈希编码,将所述128维的哈希编码与一检索库中视频的哈希编码计算海明距离,根据所述海明距离得到检索结果。
在其中一些实施例中,所述网络训练学习模块进一步包括:基于一个对比学习框架,将来自任一所述视频的两个增强视图分别输入到所述孪生网络的两条路径,经过特征嵌入编码器提取所述时空特征,经哈希映射将提取的所述时空特征映射到哈希空间并得到期望长度的所述哈希码,然后利用所述两个增强视图的所述哈希码计算损失并依据反向传播算法优化参数,使得网络逐渐收敛。
在其中一些实施例中,所述网络训练学习模块进一步包括:给出一个长度为T的所述视频,随机从所述视频的不同时间点以一定速率采样两个相同长度的序列,对其中一个所述序列应用变换得到第一增强视图,对另一所述序列应用相同的所述变换得到第二增强视图。
在其中一些实施例中,所述网络训练学习模块进一步包括:根据一目标函数计算损失,所述目标函数定义为
Figure BDA0003213194280000041
其中,h1、h2分别代表两个增强视图的哈希码,C代表h1和h2协方差矩阵,b表示视频样例,i和j分别表示协方差矩阵行列维度。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的一种自监督视频哈希学习方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的一种自监督视频哈希学习方法。
本申请可应用于深度学习技术领域。相比于相关技术,本申请实施例提供的一种自监督视频哈希学习方法,提出一种完全端到端的自监督视频哈希学习框架,通过自监督对比训练提升视频的表达能力,通过精心设计的目标函数降低哈希映射中的信息损失,提升检索精度。同时学习视频表征与哈希映射函数,流程简单、实用,学习到的哈希码表达能力强,提升检索精度。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明的自监督视频哈希学习方法流程图;
图2为本发明的自监督视频哈希学习系统的框架图;
图3为本发明的电子设备的框架图;
图4为网络训练学习的算法示意图;
图5为特征嵌入编码器网络结构示意图;
图6为哈希投影结构示意图;
以上图中:
1、视频数据准备模块;2、网络训练学习模块;3、哈希编码获取模块;4、线上检索应用模块;60、总线;61、处理器;62、存储器;63、通信接口。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
以下,结合附图详细介绍本发明的实施例:
图1为本发明的自监督视频哈希学习方法流程图,请参见图1,本发明自监督视频哈希学习方法包括如下步骤:
S1:收集视频数据,并对所述视频数据中的无关内容进行裁剪处理。
在具体实施中,利用开源的kinetics600视频数据集或从互联网上收集大量的视频数据并进行简单的预处理,即裁剪掉无关视频内容。
S2:通过孪生网络获取所述视频的时空特征,根据所述时空特征得到期望长度的哈希码,并进一步利用所述哈希码计算损失并依据反向传播算法优化参数,以完成所述孪生网络的训练。
进一步的,基于一个对比学习框架,将来自任一所述视频的两个增强视图分别输入到所述孪生网络的两条路径,经过特征嵌入编码器提取所述时空特征,经哈希映射将提取的所述时空特征映射到哈希空间并得到期望长度的所述哈希码,然后利用所述两个增强视图的所述哈希码计算损失并依据反向传播算法优化参数,使得网络逐渐收敛。
可选的,给出一个长度为T的所述视频,随机从所述视频的不同时间点以一定速率采样两个相同长度的序列,对其中一个所述序列应用变换得到第一增强视图,对另一所述序列应用相同的所述变换得到第二增强视图。
可选的,根据一目标函数计算损失,所述目标函数定义为
Figure BDA0003213194280000061
其中,h1、h2分别代表两个增强视图的哈希码,C代表h1和h2协方差矩阵,b表示视频样例,i和j分别表示协方差矩阵行列维度。
图4为网络训练学习的算法示意图,请参见图4,在具体实施中,基于一个对比学习框架,将来自任一视频v的两个增强视图v1和v2分别输入到孪生网络的两条路径,经过特征嵌入编码器提取视频的时空特征,经哈希映射将提取的时空特征映射到哈希空间并得到期望长度的哈希码。然后利用两个视图的哈希码计算损失并依据反向传播算法优化参数,使得网络逐渐收敛。
首先,从数据集加载一个批次的视频数据,设批次大小为n,本申请实施例中n=512。对这n个视频分别进行样例增强,得到n对增强视图,将这n对增强视图分别输入网络的两条路径进行训练。一对增强视图可以公式化为
v1,v2=aug(v),aug(v)
具体的增强方式如下:
a.时序采样。给出一个长度为T的视频,随机从视频的不同时间点以10fps的速率采样两个长度均为32帧的序列,记为t1、t2
b.空间变换增强。对t1应用随机裁剪、Resize到224x224大小,随机水平翻转、随机颜色抖动、随机灰度化和随机高斯模糊变换,得到增强视图v1;对t2应用与t1相同的变换得到v2
图5为特征嵌入编码器网络结构示意图,请参见图5,每对增强视图经过特征嵌入编码器以抽取视频时空特征,编码后的特征表示为
z1,z2=f(v1),f(v2)
图6为哈希投影结构示意图,编码后的时空特征输入哈希投影组件,进一步将时空特征映射到哈希空间并进行哈希编码为
h1,h2=g(y1),g(y2)
将每个批次的哈希编码输入目标函数计算损失,反向传播梯度,更新网络参数θ。目标函数定义为
Figure BDA0003213194280000071
其中,其中C代表h1和h2协方差矩阵,b表示该批次所有样例i和j分别表示协方差矩阵行列维度。第一项强制同一视频不同增强视图哈希编码之间的海明距离尽可能小,第二项通过让同一视频不同增强视图哈希编码协方差矩阵尽可能为单位矩阵来强制同一视频不同增强视图间的哈希编码高度相关,第三项项通过让同一视频不同增强视图哈希编码协方差矩阵尽可能稀疏来强制哈希编码的平衡性(哈希编码中0和1出现的概率相等)。
在具体实施中,当loss趋于稳定或训练800个epoch后停止训练,本申请实施例使用随机梯度下降进行训练,学习率依据余弦衰减规则进行调整,初始学习率为0.1。
S3:所述孪生网络训练完成后,在推理时将所述视频输入至所述孪生网络的其中一个路径,并从哈希投影组件得到该视频的128维的哈希编码。
在具体实施中,训练时网络两个视图共享参数,当网络训练完成后,推理时,将待编码视频输入网络其中一个路径,从哈希投影组件得到该视频的128维的哈希编码。由于该哈希码为[-1,1]的实数,具体使用时还需要一个附加的简单函数,将输出的哈希编码每个维度离散化为0或者1。如下述公式所示,其中i代表输出哈希编码不同维度的值。
Figure BDA0003213194280000081
S4:将所述孪生网络应用于线上检索时,获取待检索视频的所述128维的哈希编码,将所述128维的哈希编码与一检索库中视频的哈希编码计算海明距离,根据所述海明距离得到检索结果。
在具体实施中,当应用于线上检索时,直接使用生成的128维哈希码与检索库中视频的哈希码计算海明距离,根据距离得到检索结果。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例提供了一种自监督视频哈希学习系统,适用于上述的一种自监督视频哈希学习方法。如以下所使用的,术语“单元”、“模块”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件、或者软件和硬件的组合的实现也是可能并被构想的。
图2为根据本发明的自监督视频哈希学习系统的框架图,请参见图2,包括:
视频数据准备模块1:收集视频数据,并对所述视频数据中的无关内容进行裁剪处理。
在具体实施中,利用开源的kinetics600视频数据集或从互联网上收集大量的视频数据并进行简单的预处理,即裁剪掉无关视频内容。
网络训练学习模块2:通过孪生网络获取所述视频的时空特征,根据所述时空特征得到期望长度的哈希码,并进一步利用所述哈希码计算损失并依据反向传播算法优化参数,以完成所述孪生网络的训练。
进一步的,基于一个对比学习框架,将来自任一所述视频的两个增强视图分别输入到所述孪生网络的两条路径,经过特征嵌入编码器提取所述时空特征,经哈希映射将提取的所述时空特征映射到哈希空间并得到期望长度的所述哈希码,然后利用所述两个增强视图的所述哈希码计算损失并依据反向传播算法优化参数,使得网络逐渐收敛。
可选的,给出一个长度为T的所述视频,随机从所述视频的不同时间点以一定速率采样两个相同长度的序列,对其中一个所述序列应用变换得到第一增强视图,对另一所述序列应用相同的所述变换得到第二增强视图。
可选的,根据一目标函数计算损失,所述目标函数定义为
Figure BDA0003213194280000091
其中,h1、h2分别代表两个增强视图的哈希码,C代表h1和h2协方差矩阵,b表示视频样例,i和j分别表示协方差矩阵行列维度。
图4为网络训练学习的算法示意图,请参见图4,在具体实施中,基于一个对比学习框架,将来自任一视频v的两个增强视图v1和v2分别输入到孪生网络的两条路径,经过特征嵌入编码器提取视频的时空特征,经哈希映射将提取的时空特征映射到哈希空间并得到期望长度的哈希码。然后利用两个视图的哈希码计算损失并依据反向传播算法优化参数,使得网络逐渐收敛。
首先,从数据集加载一个批次的视频数据,设批次大小为n,本申请实施例中n=512。对这n个视频分别进行样例增强,得到n对增强视图,将这n对增强视图分别输入网络的两条路径进行训练。一对增强视图可以公式化为
v1,v2=aug(v),aug(v)
具体的增强方式如下:
a.时序采样。给出一个长度为T的视频,随机从视频的不同时间点以10fps的速率采样两个长度均为32帧的序列,记为t1、t2
b.空间变换增强。对t1应用随机裁剪、Resize到224x224大小,随机水平翻转、随机颜色抖动、随机灰度化和随机高斯模糊变换,得到增强视图v1;对t2应用与t1相同的变换得到v2
图5为特征嵌入编码器网络结构示意图,请参见图5,每对增强视图经过特征嵌入编码器以抽取视频时空特征,编码后的特征表示为
z1,z2=f(v1),f(v2)
图6为哈希投影结构示意图,编码后的时空特征输入哈希投影组件,进一步将时空特征映射到哈希空间并进行哈希编码为
h1,h2=g(y1),g(y2)
将每个批次的哈希编码输入目标函数计算损失,反向传播梯度,更新网络参数θ。目标函数定义为
Figure BDA0003213194280000101
其中,其中C代表h1和h2协方差矩阵,b表示该批次所有样例i和j分别表示协方差矩阵行列维度。第一项强制同一视频不同增强视图哈希编码之间的海明距离尽可能小,第二项通过让同一视频不同增强视图哈希编码协方差矩阵尽可能为单位矩阵来强制同一视频不同增强视图间的哈希编码高度相关,第三项项通过让同一视频不同增强视图哈希编码协方差矩阵尽可能稀疏来强制哈希编码的平衡性(哈希编码中0和1出现的概率相等)。
在具体实施中,当loss趋于稳定或训练800个epoch后停止训练,本申请实施例使用随机梯度下降进行训练,学习率依据余弦衰减规则进行调整,初始学习率为0.1。
哈希编码获取模块3:所述孪生网络训练完成后,在推理时将所述视频输入至所述孪生网络的其中一个路径,并从哈希投影组件得到该视频的128维的哈希编码。
在具体实施中,训练时网络两个视图共享参数,当网络训练完成后,推理时,将待编码视频输入网络其中一个路径,从哈希投影组件得到该视频的128维的哈希编码。由于该哈希码为[-1,1]的实数,具体使用时还需要一个附加的简单函数,将输出的哈希编码每个维度离散化为0或者1。如下述公式所示,其中i代表输出哈希编码不同维度的值。
Figure BDA0003213194280000111
线上检索应用模块4:将所述孪生网络应用于线上检索时,获取待检索视频的所述128维的哈希编码,将所述128维的哈希编码与一检索库中视频的哈希编码计算海明距离,根据所述海明距离得到检索结果。
在具体实施中,当应用于线上检索时,直接使用生成的128维哈希码与检索库中视频的哈希码计算海明距离,根据距离得到检索结果。
另外,结合图1描述的一种自监督视频哈希学习方法可以由电子设备来实现。图3为本发明的电子设备的框架图。
电子设备可以包括处理器61以及存储有计算机程序指令的存储器62。
具体地,上述处理器61可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器62可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器62可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器62可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器62可在数据处理装置的内部或外部。在特定实施例中,存储器62是非易失性(Non-Volatile)存储器。在特定实施例中,存储器62包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器62可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器61所执行的可能的计算机程序指令。
处理器61通过读取并执行存储器62中存储的计算机程序指令,以实现上述实施例中的任意一种自监督视频哈希学习方法。
在其中一些实施例中,电子设备还可包括通信接口63和总线60。其中,如图3所示,处理器61、存储器62、通信接口63通过总线60连接并完成相互间的通信。
通信端口63可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线60包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。总线60包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线60可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(FrontSide Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线60可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该电子设备可以执行本申请实施例中的一种自监督视频哈希学习方法。
另外,结合上述实施例中的一种自监督视频哈希学习方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种自监督视频哈希学习方法。
而前述的存储介质包括:U盘、移动硬盘、只读存储器(ReadOnly Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种自监督视频哈希学习方法,其特征在于,包括:
视频数据准备步骤,收集视频数据,并对所述视频数据中的无关内容进行裁剪处理;
网络训练学习步骤,通过孪生网络获取所述视频的时空特征,根据所述时空特征得到期望长度的哈希码,并进一步利用所述哈希码计算损失并依据反向传播算法优化参数,以完成所述孪生网络的训练;
哈希编码获取步骤,所述孪生网络训练完成后,在推理时将所述视频输入至所述孪生网络的其中一个路径,并从哈希投影组件得到该视频的128维的哈希编码;
线上检索应用步骤,将所述孪生网络应用于线上检索时,获取待检索视频的所述128维的哈希编码,将所述128维的哈希编码与一检索库中视频的哈希编码计算海明距离,根据所述海明距离得到检索结果。
2.根据权利要求1所述的自监督视频哈希学习方法,其特征在于,所述网络训练学习步骤进一步包括:基于一个对比学习框架,将来自任一所述视频的两个增强视图分别输入到所述孪生网络的两条路径,经过特征嵌入编码器提取所述时空特征,经哈希映射将提取的所述时空特征映射到哈希空间并得到期望长度的所述哈希码,然后利用所述两个增强视图的所述哈希码计算损失并依据反向传播算法优化参数,使得网络逐渐收敛。
3.根据权利要求2所述的自监督视频哈希学习方法,其特征在于,所述网络训练学习步骤进一步包括:给出一个长度为T的所述视频,随机从所述视频的不同时间点以一定速率采样两个相同长度的序列,对其中一个所述序列应用变换得到第一增强视图,对另一所述序列应用相同的所述变换得到第二增强视图。
4.根据权利要求2所述的自监督视频哈希学习方法,其特征在于,所述网络训练学习步骤进一步包括:根据一目标函数计算损失,所述目标函数定义为
Figure FDA0003213194270000021
其中,h1、h2分别代表两个增强视图的哈希码,C代表h1和h2协方差矩阵,b表示视频样例,i和j分别表示协方差矩阵行列维度。
5.一种自监督视频哈希学习系统,其特征在于,包括:
视频数据准备模块,收集视频数据,并对所述视频数据中的无关内容进行裁剪处理;
网络训练学习模块,通过孪生网络获取所述视频的时空特征,根据所述时空特征得到期望长度的哈希码,并进一步利用所述哈希码计算损失并依据反向传播算法优化参数,以完成所述孪生网络的训练;
哈希编码获取模块,所述孪生网络训练完成后,在推理时将所述视频输入至所述孪生网络的其中一个路径,并从哈希投影组件得到该视频的128维的哈希编码;
线上检索应用模块,将所述孪生网络应用于线上检索时,获取待检索视频的所述128维的哈希编码,将所述128维的哈希编码与一检索库中视频的哈希编码计算海明距离,根据所述海明距离得到检索结果。
6.根据权利要求5所述的自监督视频哈希学习系统,其特征在于,所述网络训练学习模块进一步包括:基于一个对比学习框架,将来自任一所述视频的两个增强视图分别输入到所述孪生网络的两条路径,经过特征嵌入编码器提取所述时空特征,经哈希映射将提取的所述时空特征映射到哈希空间并得到期望长度的所述哈希码,然后利用所述两个增强视图的所述哈希码计算损失并依据反向传播算法优化参数,使得网络逐渐收敛。
7.根据权利要求6所述的自监督视频哈希学习系统,其特征在于,所述网络训练学习模块进一步包括:给出一个长度为T的所述视频,随机从所述视频的不同时间点以一定速率采样两个相同长度的序列,对其中一个所述序列应用变换得到第一增强视图,对另一所述序列应用相同的所述变换得到第二增强视图。
8.根据权利要求6所述的自监督视频哈希学习系统,其特征在于,所述网络训练学习模块进一步包括:根据一目标函数计算损失,所述目标函数定义为
Figure FDA0003213194270000031
其中,h1、h2分别代表两个增强视图的哈希码,C代表h1和h2协方差矩阵,b表示视频样例,i和j分别表示协方差矩阵行列维度。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的自监督视频哈希学习方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至4中任一项所述的自监督视频哈希学习方法。
CN202110937019.9A 2021-08-16 2021-08-16 自监督视频哈希学习方法、系统、电子设备及存储介质 Pending CN113742525A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110937019.9A CN113742525A (zh) 2021-08-16 2021-08-16 自监督视频哈希学习方法、系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110937019.9A CN113742525A (zh) 2021-08-16 2021-08-16 自监督视频哈希学习方法、系统、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113742525A true CN113742525A (zh) 2021-12-03

Family

ID=78731187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110937019.9A Pending CN113742525A (zh) 2021-08-16 2021-08-16 自监督视频哈希学习方法、系统、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113742525A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842371A (zh) * 2022-03-30 2022-08-02 西北工业大学 一种无监督视频异常检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298404A (zh) * 2019-07-02 2019-10-01 西南交通大学 一种基于三重孪生哈希网络学习的目标跟踪方法
CN110674673A (zh) * 2019-07-31 2020-01-10 国家计算机网络与信息安全管理中心 一种关键视频帧抽取方法、装置和存储介质
CN111104555A (zh) * 2019-12-24 2020-05-05 山东建筑大学 基于注意力机制的视频哈希检索方法
CN111626141A (zh) * 2020-04-30 2020-09-04 上海交通大学 基于生成图像的人群计数模型建立方法、计数方法及系统
CN112507990A (zh) * 2021-02-04 2021-03-16 北京明略软件系统有限公司 视频时空特征学习、抽取方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298404A (zh) * 2019-07-02 2019-10-01 西南交通大学 一种基于三重孪生哈希网络学习的目标跟踪方法
CN110674673A (zh) * 2019-07-31 2020-01-10 国家计算机网络与信息安全管理中心 一种关键视频帧抽取方法、装置和存储介质
CN111104555A (zh) * 2019-12-24 2020-05-05 山东建筑大学 基于注意力机制的视频哈希检索方法
CN111626141A (zh) * 2020-04-30 2020-09-04 上海交通大学 基于生成图像的人群计数模型建立方法、计数方法及系统
CN112507990A (zh) * 2021-02-04 2021-03-16 北京明略软件系统有限公司 视频时空特征学习、抽取方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842371A (zh) * 2022-03-30 2022-08-02 西北工业大学 一种无监督视频异常检测方法
CN114842371B (zh) * 2022-03-30 2024-02-27 西北工业大学 一种无监督视频异常检测方法

Similar Documents

Publication Publication Date Title
US20190108242A1 (en) Search method and processing device
CN111522996B (zh) 视频片段的检索方法和装置
CN108073902B (zh) 基于深度学习的视频总结方法、装置及终端设备
CN111460153B (zh) 热点话题提取方法、装置、终端设备及存储介质
CN111767796B (zh) 一种视频关联方法、装置、服务器和可读存储介质
CN112559800B (zh) 用于处理视频的方法、装置、电子设备、介质和产品
CN109508584A (zh) 视频分类的方法、信息处理的方法以及服务器
CN117312681B (zh) 面向元宇宙的用户偏好产品推荐方法及系统
CN113240071A (zh) 图神经网络处理方法、装置、计算机设备及存储介质
CN114155388B (zh) 一种图像识别方法、装置、计算机设备和存储介质
CN115391578A (zh) 一种跨模态图文检索模型训练方法及系统
CN112232070A (zh) 自然语言处理模型构建方法、系统、电子设备及存储介质
CN113743277A (zh) 一种短视频分类方法及系统、设备和存储介质
CN116611497B (zh) 一种点击率预估模型训练方法和装置
CN113742525A (zh) 自监督视频哈希学习方法、系统、电子设备及存储介质
CN114882334B (zh) 用于生成预训练模型的方法、模型训练方法及装置
CN113766311B (zh) 用于确定视频中的视频段数的方法及装置
CN114724174A (zh) 基于增量学习的行人属性识别模型训练方法及装置
CN113569684A (zh) 短视频场景分类方法、系统、电子设备及存储介质
CN114328884A (zh) 一种图文去重方法及装置
CN113742524A (zh) 视频快速检索方法、系统和视频快速推荐方法
CN114118411A (zh) 图像识别网络的训练方法、图像识别方法及装置
CN112329445A (zh) 乱码判断方法、系统、信息抽取方法及信息抽取系统
CN113821661B (zh) 图像检索方法、系统、存储介质及电子设备
CN113360696B (zh) 图像配对方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination