CN111274445B

CN111274445B - 基于三元组深度学习的相似视频内容检索方法及系统

Info

Publication number: CN111274445B
Application number: CN202010065347.XA
Authority: CN
Inventors: 聂秀山; 周鑫; 尹义龙
Original assignee: Shandong Jianzhu University
Current assignee: Shandong Jianzhu University
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2021-04-23
Anticipated expiration: 2040-01-20
Also published as: CN111274445A

Abstract

本发明公开了基于三元组深度学习的相似视频内容检索方法及系统，包括：建立视频哈希检索模型，采用构建好的视频三元组对所述模型进行训练；将经过预处理后的待检索视频输入训练好的视频哈希检索模型，得到待检索视频的哈希码；将待检索视频的哈希码与视频库中视频哈希码进行比较，按海明距离进行排序返回，确定与带检索视频内容最相近的视频。本发明充分利用了视频的标签信息，并对视频的时序信息进行了融合，降低了训练模型的计算量，并提高了视频检索的效率。

Description

基于三元组深度学习的相似视频内容检索方法及系统

技术领域

本发明涉及相似视频内容检索技术领域，特别是涉及一种基于三元组深度学习的相似视频内容检索方法及系统。

背景技术

随着互联网的高速发展和网络宽带速度的大幅提高，近年来，由互联网用户产生的以视频和图像为主的多媒体信息呈现井喷式的增长。从用户手中移动终端的各个视频软件到存储海量视频的各大视频网站，如何能快速的对大规模的视频进行处理成为了目前多媒体及大数据分析的一个重点研究方向。对于用户来说，能否从海量视频中快速的检索出自己感兴趣的内容是十分重要的；而对于互联网企业来说，有效的视频检索能够对用户进行精准的内容推荐和广告投放。

传统的检索过程通常由检索内容的文本标注作为检索键值，然而对于当前如此庞大的视频产出量和上传量来说，对视频进行完整的文本标注是不现实也不可能的，因此基于内容的检索便成了一种十分关键的手段。具体来讲，基于内容的视频检索即给定一个视频，仅仅根据此视频内容检索出与其具有语义相似性的相关视频。传统的基于内容的检索通常先对视频提取特征，之后与视频库中的视频特征计算欧式距离并基于距离由小到大给出检索排序。这一方法对于当前大规模视频库来说，对于存储需求以及计算量需求较大，且基于欧式距离的计算复杂度较高。

为了解决这一问题，以哈希检索为代表的近似最近邻搜索方法近年来被广泛研究。哈希检索的过程主要分为两步，第一步将原始的视频进行特征学习和降维，将原始视频的高维特征表示映射到低维度的二进制哈希码空间，并通过设计相应的损失函数来保持原始空间中的近邻关系，即在原始视频中语义相似的两个视频在哈希码空间中的哈希码也应是具有较小差异的。第二步在检索过程中，将查询视频以相同映射转化为哈希码后，将哈希码与视频库中的视频哈希码进行比对，根据海明距离排序来得出检索视频序列。得益于计算机在异或(XOR)运算中的极快速度和二进制码的存储优势，海明距离计算的时间复杂度和空间复杂度都远远小于欧式距离的计算和存储，从而达到快速近似最近邻检索的目标，可以显著提升大规模检索的速度和性能。

得益于哈希检索优异的检索效率，该技术在视频制作及传播日益迅猛的背景下具有重要的理论意义和应用价值，近年来已成为多媒体信息分析研究领域的热点。发明人发现，在已有的文献和技术中存在的视频哈希检索方法主要分为两类，一种是利用线性映射的浅层方法，主要出现于早期的视频哈希研究中，这类方法简单的将视频特征视为图像特征来处理，且哈希函数多为线性映射，性能较低。另一种是将视频看作多个场景的结合，并将每个场景通过深度哈希函数得到一个哈希码，对每个视频产生多个哈希码作为整个视频的哈希矩阵。这类方法缺陷在于需要使用的视频帧较多，数据量较大，在哈希过程中忽视了时序特征(场景间)联系，且最后产生的哈希码矩阵冗余较大，所占空间较大，与哈希技术本身的特性相违背。

发明内容

有鉴于此，本发明公开了一种基于三元组深度学习的相似视频内容检索方法及系统，通过卷积神经网络和循环神经网络提取视频的局部图像特征和时域特征，并通过三元组信息和类别信息对整个网络进行训练，并辅以哈希码位约束来使生成的哈希码可以容纳更多信息，使最终对视频生成的哈希码具有很高的检索精度。

为了实现上述目的，在一些实施方式中，本发明采用如下技术方案：

基于三元组深度学习的相似视频内容检索方法，包括：

建立视频哈希检索模型，采用构建好的视频三元组对所述模型进行训练；

将经过预处理后的待检索视频输入训练好的视频哈希检索模型，得到待检索视频的哈希码；

将待检索视频的哈希码与视频库中视频哈希码进行比较，按海明距离进行排序返回，确定与带检索视频内容最相近的视频。

在另一些实施方式中，本发明采用如下技术方案：

基于三元组深度学习的相似视频内容检索系统，包括：

用于建立视频哈希检索模型，采用构建好的视频三元组对所述模型进行训练的装置；

用于将经过预处理后的待检索视频输入训练好的视频哈希检索模型，得到待检索视频的哈希码的装置；

用于将待检索视频的哈希码与视频库中视频哈希码进行比较，按海明距离进行排序返回，确定与带检索视频内容最相近的视频的装置。

在另一些实施方式中，本发明采用如下技术方案：

一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行上述的基于三元组深度学习的相似视频内容检索方法。

在另一些实施方式中，本发明采用如下技术方案：

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行上述的基于三元组深度学习的相似视频内容检索方法。

与现有技术相比，本发明的有益效果是：

本发明充分利用了视频的标签信息，并对视频的时序信息进行了融合，降低了训练模型的计算量，并提高了视频检索的效率。

本发明通过卷积神经网络来对视频中每一帧进行特征提取，并通过一个长短时记忆网络来对各个帧进行时域融合，充分考虑了视频的视觉信息和时空信息。

本发明既克服了传统方法对视频特征提取的局限性，实现了对视频帧图像高级特征的提取的同时对视频的时序信息进行了较好的融合，同时通过三元组和分类误差使哈希码具有较强的判别和分类能力，提高检索精度。此外，关于哈希码的两项约束使得哈希码可以容纳更多信息。与已有方法相比，减少了计算复杂度的同时提高了检索精度。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是本发明实施例中基于三元组深度学习的相似视频内容检索方法示意图；

图2(a)-(c)分别是本发明实施例中检索哈希码位数为16位，32位和64位时的精度-召回率曲线。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

在一个或多个实施方式中，公开了一种基于三元组深度学习的相似视频内容检索方法，参照图1，包括如下步骤：

(1)视频预处理

视频在检索过程中，由于所含帧数非常多(24帧/秒)，应用全部的视频帧所产生的计算量非常大。而在同一视频相邻帧之间变化往往很小，如果全部使用也会带来较多冗余的信息。为此，我们对视频采用均匀采样，在本实施例的实验中统一采样25-32帧，在应用中可根据实际情况依据视频长短来相应调整帧数。然后对每一帧的尺寸进行标准化，在本发明中，将每帧的分辨率设为224x224，来使输入模型的数据标准化。

(2)建立视频哈希检索模型，采用构建好的视频三元组对所述模型进行训练；

①训练集构建视频三元组。对于均匀采样的训练集视频，将其按照每个三元组一个样例视频，一个与样例视频同类的视频，一个与样例视频不同类的视频组成三元组；

②网络模型前向传播。将三元组输入网络，首先经过卷积神经网络对每一帧得到一个4096维的向量表示，之后按各个帧的时间顺序，将这些向量逐个输入长短时记忆网络，将最后一个时间步输出的512维向量作为整个视频的特征。在经过一个全连接层的维度转变后，就可将原视频映射至哈希空间。之后通过分类模块可同时得出将哈希码用于分类的结果。

具体地，将步骤(1)中构建的训练集中输入的三元组视频进行平均抽帧，并将其输入依次输入卷积神经网络和循环神经网络(长短时记忆网络)，并通过若干全连接层得到每个视频的低维哈希向量；

另外将每个视频的低维哈希向量用于分类，分类误差可用如式(1)的交叉熵损失来表示，此举可以加强哈希码的判别能力；

其中，x_c表示将哈希向量用于分类的分类向量，g_t表示该视频的真实类别，函数I为指示函数，当且仅当其下标所代表的等式真值为真时其值为1，反之为0；

③更新模型参数。分别计算三元组损失，分类损失以及哈希码位约束项损失，并通过梯度反向传播更新参数。损失计算公式如式(4)所示。重复②③过程直到达到预设的终止条件。

具体地，损失包括：

1)三元组损失：使三元组中不同类样本间距离与同类样本间距离差值大于一个阈值，如式(2)；

2)分类损失如式(1)所示；

3)哈希码位约束：使所产生的简短的哈希码各位有50％的概率为0或1，并使哈希码各个位不相关，如式(3)，此举可以使哈希码容纳更多信息，提高哈希码质量。

其中

为网络生成的哈希码向量，

为设定的阈值，1为全1列向量，I为单位向量；{x,x+,x-}表示测试中输入的视频三元组，其中x+与x相似(同类)，x-与x不相似(不同类)；N为每个训练批次中视频三元组的个数。

整个损失函数如式(4)所示：

每次输入三元组前向传播后，根据式(4)中损失反向传播，更新网络参数，训练模型。对整个训练集经过100-200次迭代训练后，得到最终训练好的网络模型。

λ、θ为平衡超参数，根据验证实验结果取得；优选地，取λ＝2，θ＝0.01时，整个模型的检索性能最好，可保证检索最靠前的5个样本的平均精度可以达到90％以上。

(3)将经过预处理后的待检索视频输入训练好的视频哈希检索模型，得到待检索视频的哈希码；

①将待检索视频进行预处理。与训练视频处理类似，进行均匀采样和视频帧尺寸标准化。

②进行哈希码计算。将处理好的待检索视频输入训练好的网络模型，前向传播后得到该视频的哈希码；如式(5)：

其中V表示待检索视频，sign函数为量化函数，目的是将网络输出的实数值量化为离散的0/1码，便于之后的检索。

(4)将待检索视频的哈希码与视频库中视频哈希码进行比较，按海明距离进行排序返回，确定与带检索视频内容最相近的视频。

①将该哈希码与现有检索视频库中的视频哈希码进行对比，可通过0/1异或运算快速的计算出待检索视频和视频库视频的海明距离；

②依照海明距离从小到大将检索出来的视频排序返回，海明距离越小代表两个视频内容上越相近。

对本实施例方法进行仿真验证，图2是本发明在10100个视频的数据库上的Precision-Recall(精度-召回率)曲线，表1为本发明在检索出500个视频时的平均精度均值，每个仿真实验中都测试了三种哈希码位数(16，32，64位)的性能表现，并与现有的8种方法(分别记为LSH、ITQ、PCAH、SH、SKLSH、DSH、DVH、SSVH)进行了比较，均可以看出本发明的方法性能较好。平均精度均值(mean Average Precision)的定义如下：

其中，R表示范围中相似视频的总个数，K表示总检索范围，R_i表示检索到第i个视频时检索出相似视频的个数。

表1.平均精度均值统计表(前500个视频，％)

检索方法\哈希码长	16位	32位	64位
				LSH	14.77	16.73	21.23
ITQ	21.85	30.96	33.76
				PCAH	14.86	14.14	13.18
SH	20.41	28.48	33.27
				SKLSH	11.44	13.31	23.33
DSH	16.59	25.12	29.84
				DVH	30.37	33.17	35.60
SSVH	15.23	20.78	19.07
				本发明方法	79.31	84.54	87.43

实施例二

在一个或多个实施方式中，公开了一种终端设备，包括服务器，所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例一中的基于三元组深度学习的相似视频内容检索方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的基于三元组深度学习的相似视频内容检索方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.基于三元组深度学习的相似视频内容检索方法，其特征在于，包括：

将待检索视频进行预处理，进行均匀采样和视频帧尺寸标准化；

建立视频哈希检索模型，采用构建好的视频三元组和损失函数对所述模型进行训练；所述损失函数包括三元组损失、分类损失和哈希码位约束；

将经过预处理后的待检索视频输入训练好的视频哈希检索模型，前向传播后得到待检索视频的哈希码；所述前向传播，通过卷积神经网络提取视频帧的局部空间特征，通过长短时记忆网络对帧特征进行时域融合，再通过全连接层得到视频的低维哈希向量；

2.如权利要求1所述的基于三元组深度学习的相似视频内容检索方法，其特征在于，将待使用的训练集按照类别构造三元组视频，其中每个三元组包括一个样例视频和一个与样例视频相似的视频，以及另一个与样例视频不相似的视频。

3.如权利要求1所述的基于三元组深度学习的相似视频内容检索方法，其特征在于，构造三元组视频之后，将训练集中的三元组视频进行平均抽帧，并依次输入卷积神经网络和循环神经网络，通过若干全连接层得到每个视频的低维哈希向量；

将每个视频的低维哈希向量用于分类；

计算三元组哈希网络的损失，并将损失反向传播来训练网络；

每次输入三元组视频前向传播后，根据损失反向传播，更新网络参数，训练模型；

对整个训练集经过设定次数的迭代训练后，得到训练好的网络模型。

4.如权利要求1所述的基于三元组深度学习的相似视频内容检索方法，其特征在于，将每个视频的低维哈希向量用于分类，采用交叉熵损失来表示分类误差，具体为：

其中，x_c表示将哈希向量用于分类的分类向量，gt表示该视频的真实类别，函数I为指示函数，当且仅当其下标所代表的等式真值为真时其值为1，反之为0；c表示类别总数，i和j表示当前视频的分类哈希向量中对应第i类和第j类的情况。

5.如权利要求1所述的基于三元组深度学习的相似视频内容检索方法，其特征在于，对待检测视频的预处理过程为：

对视频采用均匀采样，根据实际情况依据视频长短来相应调整帧数；对每一帧的尺寸进行标准化。

6.如权利要求1所述的基于三元组深度学习的相似视频内容检索方法，其特征在于，将经过预处理后的待检索视频输入训练好的视频哈希检索模型，得到待检索视频的哈希码；具体为：

将帧输入视频哈希检索模型进行前向传播，通过卷积神经网络提取视频帧的局部空间特征，通过长短时记忆网络对帧特征进行时域融合，最后通过三元组损失，分类损失及哈希码位约束来训练网络，使网络生成具有判别性的优质哈希码。

7.如权利要求1所述的基于三元组深度学习的相似视频内容检索方法，其特征在于，将待检索视频的哈希码与视频库中视频哈希码进行比较，按海明距离进行排序返回，具体为：

将哈希码与现有检索视频库中的视频哈希码进行对比，通过0/1异或运算快速的计算出待检索视频和视频库视频的海明距离；

依照海明距离从小到大将检索出来的视频排序返回，海明距离越小代表两个视频内容上越相近。

8.基于三元组深度学习的相似视频内容检索系统，其特征在于，包括：

用于待检索视频进行预处理模型，进行均匀采样和视频帧尺寸标准化；

用于建立视频哈希检索模型，采用构建好的视频三元组和损失函数对所述模型进行训练的装置；损失函数包括三元组损失、分类损失和哈希码位约束；

用于将经过预处理后的待检索视频输入训练好的视频哈希检索模型，前向传播后得到待检索视频的哈希码的装置；前向传播，通过卷积神经网络提取视频帧的局部空间特征，通过长短时记忆网络对帧特征进行时域融合，再通过全连接层得到视频的低维哈希向量；

9.一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，其特征在于，所述指令适于由处理器加载并执行权利要求1-7任一项所述的基于三元组深度学习的相似视频内容检索方法。

10.一种计算机可读存储介质，其中存储有多条指令，其特征在于，所述指令适于由终端设备的处理器加载并执行权利要求1-7任一项所述的基于三元组深度学习的相似视频内容检索方法。