CN114722902A

CN114722902A - 基于自监督学习的无标注视频哈希检索方法及装置

Info

Publication number: CN114722902A
Application number: CN202210226862.0A
Authority: CN
Inventors: 宋丹明; 郑伟诗; 孙伟
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2022-03-08
Filing date: 2022-03-08
Publication date: 2022-07-08

Abstract

本发明公开了一种基于自监督学习的无标注视频哈希检索方法及装置，方法为：获取视频帧数据集并划分为训练数据集及测试集，对训练数据集进行数据增强，得到增强后的数据集；建立视频哈希检索网络；使用特征提取层获取中间特征并计算中间特征的对比损失；将中间特征输入哈希层得到哈希码特征并计算哈希码特征的对比损失；对视频哈希检索网络进行训练，使用随机梯度下降法优化损失，更新网络参数直至收敛，获得训练好的检索网络；将测试集输入训练好的检索网络中进行视频检索，得到检索结果。本方法使用对比损失函数，在没有类别标注信息的情况下对视频哈希检索网络进行训练，并采用随机梯度下降法更新网络参数，得到的检索网络准确率高、结果有效。

Description

基于自监督学习的无标注视频哈希检索方法及装置

技术领域

本发明属于视频检索的技术领域，具体涉及一种基于自监督学习的无标注视频哈希检索方法及装置。

背景技术

近年来，随着通信和互联网技术的飞速发展，视频通话、视频软件和视频内容的不断兴起，视频已经成了人们必不可少的娱乐和社交媒介，并在互联网上积累了大量视频数据。目前的文本和图片检索技术已经相对比较成熟，但视频的检索技术还非常欠缺，尤其是在缺乏数据标注的实际场景下。在互联网的海量视频数据中，对视频进行人工标注是一件极为困难且成本巨大的工作，因此无标注场景下的视频检索技术成为了学术界和工业界都在研究的热点。

视频相似性检索可以理解为用不同视频素材将其进行特征表达，然后在相应的特征空间里进行查找和排序。特征表达有两种方式：一种是通过传统方法提取的视觉特征，比如关键点特征、颜色直方图等；另一个是基于深度学习提取底层基础特征或高层语义特征(深度特征)。传统方法在面对大规模数据时需要提前提取视觉特征再进行检索，不仅检索速度慢、效果差，而且无法使用GPU并行计算；而基于深度学习的检索方法速度快、效果好，可以在GPU上大规模训练，但是现实场景中往往缺乏准确的视频标注，导致检索结果不佳，准确率低。

在现有的视频检索技术中，Song J等人在《Self-Supervised Video HashingWith Hierarchical Binary Auto-Encoder》文献中采用了一种相近自监督哈希检索方法，使用LSTM作为骨干网络，将M帧训练视频帧的特征输入到LSTM网络的编码器中，生成对应的二进制哈希码，然后分别用另外两个LSTM网络从前向和后向两个方向重建帧特征，最后与原始输入视频帧的特征计算重建损失，以此实现对视频的检索。Wu G等人发表的《Unsupervised Deep Video Hashing via Balanced Code for Large-Scale VideoRetrieval》论文中，则使用TSN作为骨干网络，通过两路对输入视频的RGB帧和光流帧分别提取特征，然后对RGB那一路网络的第7个全连接层FC7输出的特征Z进行聚类得到Y，再对Y使用CCA方法降维得到H，再乘一个旋转矩阵R后通过符号函数sign，得到伪哈希码B.然后用伪哈希码B与光流那一路网络的第8个全连接层FC8计算误差来训练网络，最后将光流那一路的网络参数继承给RGB帧那一路，实现了对视频的检索。在文献《NeighborhoodPreserving Hashing for Scalable Video Retrieval》中，Li S等人使用引入注意力机制的LSTM网络作为骨干网络，先对视频帧特征计算出二进制哈希码，再通过LSTM网络重建出视频帧特征，将重建的特征和原始的视频帧特征计算一个视觉内容重建损失，然后计算领域相似度损失和领域信息重建损失，以此实现对视频的检索。但是现有的检索方法提取的特征是连续维度的特征，需要极大的存储量，时间成本高，检索速度慢；而有监督的训练方法往往依赖于大量的标注数据，但人工标注成本高且误差大，易导致检索的准确率低，效果不佳。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于自监督学习的无标注视频哈希检索方法及装置，方法使用对比损失函数，在没有类别标注信息的情况下对视频哈希检索网络进行训练，并采用随机梯度下降法更新网络参数，得到的检索网络准确率高、结果准确有效。

为了达到上述目的，本发明采用以下技术方案：

一方面，本发明提供了一种基于自监督学习的无标注视频哈希检索方法，包括下述步骤：

获取视频帧数据集并划分为训练数据集及测试集，对训练数据集进行数据增强，得到增强后的数据集；

建立视频哈希检索网络，所述视频哈希检索网络包括特征提取层和哈希层；

将增强后数据集输入视频哈希检索网络，使用特征提取层获取中间特征并计算中间特征的对比损失；

将中间特征输入哈希层得到哈希码特征并计算哈希码特征的对比损失；

对视频哈希检索网络进行训练，使用随机梯度下降法优化损失，更新网络参数直至收敛，获得训练好的视频哈希检索网络；

将测试集输入训练好的视频哈希检索网络中进行视频检索，得到检索结果。

作为优选的技术方案，所述数据增强包括随机裁切、随机颜色偏移、随机灰度变化、高斯模糊及随机水平翻转；

设训练数据集表示为X，则对训练数据集进行两次相同的数据增强，获得增强后数据集X1和X2，表示为：

X1,X2＝augmentaion(X)

其中，augmentaion()表示数据增强操作。

作为优选的技术方案，所述特征提取层采用ResNet网络；所述哈希层包括一个全连接层和激活函数；所述激活函数表示为y＝tanh(βx)，其中β为参数。

作为优选的技术方案，所述获取中间特征具体为：

将增强后的数据集输入视频哈希检索网络，使用特征提取层学习数据集中视频帧的视觉信息，分别计算出X1和X2的中间特征Z1和Z2：

Z1＝F(X1),Z2＝F(X2)

其中，F表示特征提取层，Z1和Z2为N×C的特征实数矩阵，N为训练数据集中视频帧的数量，C为中间通道数量。

作为优选的技术方案，所述计算中间特征的对比损失具体为：

设增强后数据集Z1与Z2中对应训练数据集中同一视频帧的两个视频帧为正样本对，其他的视频帧为负样本对，使用对比损失函数计算中间特征之间的损失：

其中，z_i,z_j分别表示Z1中第i张视频帧与Z2中第j张视频帧对应训练数据集中同一视频帧的正样本对，z_i,z_k表示负样本对，τ表示温度超参数，用来调整损失函数的效果，

表示z_i和z_j之间的余弦相似度。

作为优选的技术方案，所述得到哈希码特征具体为：

将中间特征Z1和Z2输入哈希层H获得哈希码特征B1和B2：

B₁＝tanh(βw^TZ1)

B₂＝tanh(βw^TZ2)

其中，B1和B2为N×K的哈希特征矩阵，其中每一个元素的值都趋近于-1或1来代表二进制的0和1，K表示哈希码位数。

作为优选的技术方案，所述计算哈希码特征的对比损失，具体为：

设哈希码特征B1和B2中对应训练数据集中同一视频帧的哈希码特征为正样本对，其他的视频帧作为负样本对，使用对比损失函数计算哈希码特征之间的损失，公式为：

其中，b_i,b_j表示B1中第i个哈希码特征与B2中第j个哈希码特征对应于训练集同一视频帧的正样本对，b_i,b_k表示负样本对。

作为优选的技术方案，所述更新网络参数具体为：

特征提取层的权重参数为θ，哈希层中的全连接层参数为w，激活函数参数为β；

对视频哈希检索网络进行训练时，计算中间特征和哈希码特征的对比损失；

使用随机梯度下降法对网络参数进行更新，包括：

更新特征提取层的权重参数θ，更新公式为：

其中α为学习率，L₁为中间特征的对比损失函数；

更新哈希层的全连接层参数w及激活函数参数β，更新公式为：

其中，L₂为哈希码特征的对比损失函数；

随着训练次数的增加，不断增大激活函数参数β，使哈希层输出的值趋近于-1和1；

当网络参数收敛时停止训练，获得训练好的视频哈希检索网络。

另一方面，本发明提供了一种基于自监督学习的无标注视频哈希检索系统，应用于上述的基于自监督学习的无标注视频哈希检索方法，包括数据收集处理模块、检索网络建立模块、中间特征提取模块、哈希码特征获得模块、检索网络训练模块及检索结果输出模块；

所述数据收集处理模块用于获取视频帧数据集并划分为训练数据集及测试集，对训练数据集进行数据增强，得到增强后的数据集；

所述检索网络建立模块用于建立视频哈希检索网络，所述视频哈希检索网络包括特征提取层和哈希层；

所述中间特征提取模块将增强后数据集输入视频哈希检索网络，使用特征提取层获取中间特征并计算中间特征的对比损失；

所述哈希码特征获得模块将中间特征输入哈希层得到哈希码特征并计算哈希码特征的对比损失；

所述检索网络训练模块用于对视频哈希检索网络进行训练，使用随机梯度下降法优化损失，更新网络参数直至收敛，获得训练好的视频哈希检索网络；

所述检索结果输出模块将测试集输入训练好的视频哈希检索网络中进行视频检索，得到检索结果。

又一方面，本发明提供了一种计算机可读存储介质，存储有程序，所述程序被处理器执行时，实现上述的基于自监督学习的无标注视频哈希检索方法。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明对中间特征和哈希码特征使用对比损失函数，减小了生成的哈希码的量化误差，在没有类别标注信息的情况下对视频哈希检索网络进行训练，得到的网络检索准确率高、性能良好；

2、本发明在训练过程中，使用同一批次的视频帧数据构造正负样本对，帮助视频哈希检索网络学到更多的视觉表征信息，保证了检索结果的有效性；

3、传统方法中，由于哈希层是二进制整数，所以无法求导并使用随机梯度下降算法进行参数更新，而本发明在哈希层中使用激活函数y＝tanh(βx)进行求导，使得整个网络模型可以使用随机梯度下降算法，且随着训练次数的增加，不断地增大激活函数β，使哈希层输出的值越来越趋近于-1和1，实现哈希码输出的效果；

4、现有方法中都需要提前使用特征提取网络提取好视频帧的特征再进行训练，而本发明可以直接端到端训练，训练过程更为便捷；

5、传统方法在数据量非常大的场景下，训练速度慢、训练效果不佳，而本发明能够很好地在适应数据量大、数据缺乏标注的实际场景下使用，具有良好的适用性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于自监督学习的无标注视频哈希检索方法的流程图；

图2为本发明实施例中视频哈希检索网络的结构图；

图3为本发明实施例中基于自监督学习的无标注视频哈希检索系统的结构图；

图4为本发明实施例中计算机可读存储介质的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本申请所描述的实施例可以与其它实施例相结合。

如图1、图2所示，本实施例基于自监督学习的无标注视频哈希检索方法，包括下述步骤：

S1、获取视频帧数据集并划分为训练数据集及测试集，对训练数据集进行数据增强，得到增强后的数据集；

S2、建立视频哈希检索网络，所述视频哈希检索网络包括特征提取层和哈希层；

S3、将增强后数据集输入视频哈希检索网络，使用特征提取层获取中间特征并计算中间特征的对比损失；

S4、将中间特征输入哈希层得到哈希码特征并计算哈希码特征的对比损失；

S5、对视频哈希检索网络进行训练，使用随机梯度下降法优化损失，更新网络参数直至收敛，获得训练好的视频哈希检索网络；

S6、将测试集输入训练好的视频哈希检索网络中进行视频检索，得到检索结果。

更具体的，步骤S1中，设训练数据集表示为X，对训练数据集进行两次相同的数据增强，即将随机裁切、随机颜色偏移、随机灰度变化、高斯模糊及随机水平翻转等方法结合在一起对训练数据集进行数据增强，获得增强后数据集X1和X2，表示为：

X1,X2＝augmentaion(X)

其中，augmentaion()表示数据增强操作。

更具体的，步骤S2中，视频哈希检索网络的特征提取层采用ResNet网络；哈希层包括了一个全连接层和激活函数y＝tanh(βx)，其中β为参数。

需要注意的是，特征提取层可以采用相同功能的网络进行构建，而不局限于本申请的ResNet网络。

更具体的，步骤S3中，获取中间特征具体为：

将增强后的数据集输入视频哈希检索网络，使用特征提取层学习视频帧中的视觉信息，分别计算出X1和X2的中间特征Z1和Z2；

Z1＝F(X1),Z2＝F(X2)

接着计算中间特征的对比损失：

对于训练数据集中的N个视频帧数据，经过数据增强之后得到2N个增强后的视频帧数据；设增强后数据集Z1与Z2中对应训练数据集中同一视频帧的两个视频帧为正样本对，其他的视频帧为负样本对，使用对比损失函数计算中间特征之间的损失：

表示z_i和z_j之间的余弦相似度。

更具体的，步骤S4中得到哈希码特征具体为：

由于中间特征Z为N×C的实数矩阵，而哈希层的输出应该为+1和-1分别代表二进制的0和1，因此需要哈希层将实数矩阵转换成N×K的哈希特征矩阵，其中K代表哈希码的位数，通常取8，16，32，64等；

直接将实数转化成二级制码，在训练网络进行梯度反向传播时是不可导的，因此设计哈希层来使得这部分可以求导，本方法的哈希层H包括一个全连接层和激活函数y＝tanh(βx)，因为y＝tanh(βx)是可导的，所以整个训练过程就可以正常进行；

故将中间特征Z1和Z2输入哈希层H获得哈希码特征B1和B2：

B₁＝tanh(βw^TZ1)

B₂＝tanh(βw^TZ2)

其中，B1和B2为N×K的哈希特征矩阵，其中每一个元素的值都趋近于-1或1来代表二进制的0和1。

再计算哈希码特征的对比损失：

设哈希码特征B1和B2中对应训练数据集中同一视频帧的两个哈希码特征为正样本对，其他的视频帧作为负样本对，使用对比损失函数计算哈希码特征之间的损失，公式为：

更具体的，步骤S5具体为：

使用随机梯度下降法对网络参数进行更新，包括：

更新特征提取层的权重参数θ，更新公式为：

其中α为学习率，L₁为中间特征的对比损失函数；

其中，L₂为哈希码特征的对比损失函数；

需要说明的是，对于前述的各方法实施例，为了简便描述，将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。

基于与上述实施例中的基于自监督学习的无标注视频哈希检索方法相同的思想，本发明还提供基于自监督学习的无标注视频哈希检索系统，该系统可用于执行上述基于自监督学习的无标注视频哈希检索方法。为了便于说明，基于自监督学习的无标注视频哈希检索系统实施例的结构示意图中，仅仅示出了与本发明实施例相关的部分，本领域技术人员可以理解，图示结构并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图3所示，本发明另一个实施例提供了一种基于自监督学习的无标注视频哈希检索系统，包括以下几个模块：

数据收集处理模块用于获取视频帧数据集并划分为训练数据集及测试集，对训练数据集进行数据增强，得到增强后的数据集；

检索网络建立模块用于建立视频哈希检索网络，所述视频哈希检索网络包括特征提取层和哈希层；

中间特征提取模块将增强后数据集输入视频哈希检索网络，使用特征提取层获取中间特征并计算中间特征的对比损失；

哈希码特征获得模块将中间特征输入哈希层得到哈希码特征并计算哈希码特征的对比损失；

检索网络训练模块用于对视频哈希检索网络进行训练，使用随机梯度下降法优化损失，更新网络参数直至收敛，获得训练好的视频哈希检索网络；

检索结果输出模块将测试集输入训练好的视频哈希检索网络中进行视频检索，得到检索结果。

需要说明的是，本发明的基于自监督学习的无标注视频哈希检索系统与本发明的基于自监督学习的无标注视频哈希检索方法一一对应，在上述基于自监督学习的无标注视频哈希检索方法的实施例阐述的技术特征及其有益效果均适用于基于自监督学习的无标注视频哈希检索系统的实施例中，具体内容可参见本发明方法实施例中的叙述，此处不再赘述，特此声明。

此外，上述实施例的基于自监督学习的无标注视频哈希检索系统的实施方式中，各程序模块的逻辑划分仅是举例说明，实际应用中可以根据需要，例如出于相应硬件的配置要求或者软件的实现的便利考虑，将上述功能分配由不同的程序模块完成，即将所述基于自监督学习的无标注视频哈希检索系统的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分功能。

如图4所示，在一个实施例中，提供了一种计算机可读存储介质，存储有程序于存储器中，所述程序被处理器执行时，实现所述的基于自监督学习的无标注视频哈希检索方法，具体为：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于自监督学习的无标注视频哈希检索方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的基于自监督学习的无标注视频哈希检索方法，其特征在于，所述数据增强包括随机裁切、随机颜色偏移、随机灰度变化、高斯模糊及随机水平翻转；

X1，X2＝augmentaion(X)

其中，augmentaion()表示数据增强操作。

3.根据权利要求2所述的基于自监督学习的无标注视频哈希检索方法，其特征在于，所述特征提取层采用ResNet网络；所述哈希层包括一个全连接层和激活函数；所述激活函数表示为y＝tanh(βx)，其中β为参数。

4.根据权利要求3所述的基于自监督学习的无标注视频哈希检索方法，其特征在于，所述获取中间特征具体为：

Z1＝F(X1)，Z2＝F(X2)

5.根据权利要求4所述的基于自监督学习的无标注视频哈希检索方法，其特征在于，所述计算中间特征的对比损失具体为：

其中，z_i，z_j分别表示Z1中第i张视频帧与Z2中第j张视频帧对应训练数据集中同一视频帧的正样本对，z_i，z_k表示负样本对，τ表示温度超参数，用来调整损失函数的效果，

表示z_i和z_j之间的余弦相似度。

6.根据权利要求5所述的基于自监督学习的无标注视频哈希检索方法，其特征在于，所述得到哈希码特征具体为：

将中间特征Z1和Z2输入哈希层H获得哈希码特征B1和B2：

B₁＝tanh(βw^TZ1)

B₂＝tanh(βw^TZ2)

7.根据权利要求6所述的基于自监督学习的无标注视频哈希检索方法，其特征在于，所述计算哈希码特征的对比损失，具体为：

其中，b_i，b_j表示B1中第i个哈希码特征与B2中第j个哈希码特征对应于训练集同一视频帧的正样本对，b_i，b_k表示负样本对。

8.根据权利要求7所述的基于自监督学习的无标注视频哈希检索方法，其特征在于，所述更新网络参数具体为：

使用随机梯度下降法对网络参数进行更新，包括：

更新特征提取层的权重参数θ，更新公式为：

其中α为学习率，L₁为中间特征的对比损失函数；

其中，L₂为哈希码特征的对比损失函数；

9.基于自监督学习的无标注视频哈希检索系统，其特征在于，应用于权利要求1-8中任一项所述的基于自监督学习的无标注视频哈希检索方法，包括数据收集处理模块、检索网络建立模块、中间特征提取模块、哈希码特征获得模块、检索网络训练模块及检索结果输出模块；

10.一种计算机可读存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1-8任一项所述的基于自监督学习的无标注视频哈希检索方法。