CN114372169A

CN114372169A - 一种同源视频检索的方法、装置以及存储介质

Info

Publication number: CN114372169A
Application number: CN202111485056.7A
Authority: CN
Inventors: 姚灿荣; 高志鹏; 张光斌; 赵建强; 黄仁裕; 吴厚阔; 俞钰
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-04-19

Abstract

本发明公开了一种同源视频检索方法、装置以及存储介质。所述方法包括：对所述视频库中的所有视频进行处理，确定出各视频的视频特征序列；对所述待检索视频进行处理，确定出待检索视频的视频特征序列；基于所述待检索视频的视频特征序列在视频库中查找，若在视频库中找到某一段视频与待检索视频的视频特征序列的相似度达到预定条件，则表明检索到所述待检索视频，否则未检索到所述待检索视频。本发明提供的一种同源视频检索方法和装置，能够实现对同源视频的高精度检索，对经过主流的视频编辑、特效渲染、复合转码等方法生成的同源视频能保持较高的检索精确度。

Description

一种同源视频检索的方法、装置以及存储介质

技术领域

本发明涉及计算机机器视觉技术领域，具体涉及视频识别技术领域，尤其涉及一种同源视频检索的方法、装置以及存储介质。

背景技术

近年来，随着互联网的快速发展，信息的传播越来越快，数据的传播量与日俱增。特别在多媒体领域，利用手机、U盘、PC、云服务等介质终端进行文本、语音、图像、视频的传播是人们最常用的信息分享方式。然而，由于多媒体数据中往往包含了个人隐私信息、商业机密、版权限制的信息、有害信息等。其传播往往引发有关企业和监管部门的关注。在实际音视频、图像传播过程中对数据传播的监督、事后传播数据的溯源需要有效的技术进行支撑。传统的同源视频检索方法主要有以下几种方法：

1)通过计算视频文件的MD5，然后在MD5库中进行查找，校验其是否存在；

2)利用压缩感知算法和矩阵分解计算视频中的关键帧的稀疏特征；

3)通过深度学习技术，提取视频的图像特征，结合熵值或者哈希值进行比对；

方法1无法校验经过编辑转码后的同源视频，方法2和3往往只能检索出基本的转码压缩和简单编辑生成的同源视频，对于经过复杂编辑与转码生成的同源视频难以检索。

发明内容

为了克服如上所述的技术问题，本发明提出一种同源视频检索的方法和装置，提高了检索经过复杂编辑与复合转码生成的同源视频的精确度。

本发明提出一种同源视频检索的方法，用于确定待检索视频是否为视频库中视频的同源视频，该方法的技术方案如下：

S1，对所述视频库中的所有视频进行处理，得到所述所有视频的图像帧序列，利用训练好的图像特征提取模型对所述图像帧序列进行处理，确定出各视频的视频特征序列；

S2，对所述待检索视频进行处理，得到所述待检索视频的图像帧序列，利用训练好的图像特征提取模型对所述待检索视频的图像帧序列进行处理，确定出待检索视频的视频特征序列；

S3，基于所述待检索视频的视频特征序列在视频库中查找，若在视频库中找到某一段视频与待检索视频的视频特征序列的相似度达到预定条件，则表明检索到所述待检索视频，否则未检索到所述待检索视频；

其中，所述训练好的图像特征提取模型是通过如下步骤进行训练的：

收集视频样本；

根据转场效果对所收集的视频样本中的每一个进行切分，并对切分后的视频进行转码，生成具有多种分辨率、多种码率、多种帧率、和/或多种编码格式的同源视频样本；

通过解码抽帧获取所述同源视频样本的原始图像数据集；

对所述原始图像数据集进行随机变换获得同源图像数据集；

利用所述同源图像数据集来训练图像特征提取模型。

进一步的，对所述视频库中的所有视频进行处理、以及对所述检索视频进行处理，均包括步骤：

S21，对视频V转码，得到预先设定格式、码率和帧率的转码视频V^t；

S22，对转码视频V^t抽取图像帧，生成视频V的一组长度为n的图像帧序列P＝{P₀,P₁,...,P_n-1}，其中，n为大于0的自然数；

S23，将所述图像帧序列P的每一个图像帧P_k输入到预先训练好的图像特征提取模型中，通过所述图像特征提取模型获取图像帧P_k对应的图像特征f_k，生成视频V的视频特征序列F＝{f₀,f₁,...,f_n-1}，其中，0≤k<n。

进一步的，通过以下方式训练图像特征提取模型：

S31，对原始图像数据集的所有原始图像标注类标签，对同源图像数据集的所有同源图像标注为与原始图像相应的类标签；

S32，基于所述同源图像数据集和所述同源图像的类标签，训练图像特征提取模型；

其中，训练过程包括归一化输入图像，结合度量学习和交叉熵损失，使用余弦距离测量同源图像的图像特征的空间距离，对空间距离进行归一化后得到图像的相似度，越相似的同源图像的相似度越接近1，非同源图像之间的相似度越偏向于0。

进一步的，所述随机变换至少包括以下一种或多种：

裁剪、加文字、打马赛克、添加黑框、美化、画中画、拼接、上下加黑边、上下翻转、左右翻转、上下左右同时翻转、行列变换、视频帧压缩、视频帧切片、灰度变换、尺度变换、运动模糊、高斯模糊、仿射变换、中值模糊、亮度扰动、色度扰动、饱和度扰动、对比度增强、锐化、浮雕。

进一步的，所述图像特征提取模型的实现方式具体为基于残差网络实现，其中，所述图像特征提取模型的输入图像的宽度为224像素，高度为224像素，每个像素由3个字节组成，所述残差网络的全连接层的输出维度为128*样本类别数，所述残差网络的主干网络包含了4个残差块，4个残差块分别包含了[3,30,48,8]层的二维卷积网络，4个残差块的输出通道分别是[32,64,128,256]，其中所述样本类别数是每个原始图像对应的同源图像的个数。

进一步的，所述基于待检索视频的视频特征序列在视频库中查找，具体为将待检索视频的视频特征序列和视频库中的所有视频的视频特征序列进行滑窗比对，首先将待检索视频的视频特征序列和所述视频的视频特征序列进行局部特征比对，如果局部特征比对的相似度满足第一预设条件，则检索到待检索视频，否则进行全局特征比对，如果全局特征对比的相似度满足第二预设条件，则检索到待检索视频，否则未检索到待检索视频。

本发明还提出一种同源视频检索的装置，所述同源视频检索的装置存储计算机指令；所述计算机指令在所述同源视频检索的装置执行如上述任一项所述的同源视频检索的方法。

本发明还提出了一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令使计算机执行如上述任一项所述的同源视频检索的方法。

本发明提供的技术方案带来的有益效果是：

本发明的一种同源视频检索的方法和装置，能够实现对同源视频的高精度检索，对经过主流的视频编辑、特效渲染、复合转码等方法生成的同源视频能保持较高的检索精确度。

附图说明

图1为本发明实施例的一种同源视频检索的方法的流程图；

图2为本发明实施例的待检索视频在同源视频特征库中进行检索的过程示意图；

图3为本发明实施例所涉及的一种同源视频检索的装置结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例一：

如图1所示为本发明实施例的一种同源视频检索的方法的流程图，示出了该方法的具体实施步骤，用于确定待检索视频是否为视频库中视频的同源视频，包括：

收集视频样本；

通过解码抽帧获取所述同源视频样本的原始图像数据集；

对所述原始图像数据集进行随机变换获得同源图像数据集；

利用所述同源图像数据集来训练图像特征提取模型。

具体的，对所述视频库中的所有视频进行处理、以及对所述检索视频进行处理，均包括步骤：

具体的，通过以下方式训练图像特征提取模型：

具体的，所述随机变换至少包括以下一种或多种：

具体的，所述图像特征提取模型的实现方式具体为基于残差网络实现，其中，所述图像特征提取模型的输入图像的宽度为224像素，高度为224像素，每个像素由3个字节组成，所述残差网络的全连接层的输出维度为128*样本类别数，所述残差网络的主干网络包含了4个残差块，4个残差块分别包含了[3,30,48,8]层的二维卷积网络，4个残差块的输出通道分别是[32,64,128,256]，其中所述样本类别数是每个原始图像对应的同源图像的个数。

具体的，所述基于待检索视频的视频特征序列在视频库中查找，具体为将待检索视频的视频特征序列和视频库中的所有视频的视频特征序列进行滑窗比对，首先将待检索视频的视频特征序列和所述视频的视频特征序列进行局部特征比对，如果局部特征比对的相似度满足第一预设条件，则检索到待检索视频，否则进行全局特征比对，如果全局特征对比的相似度满足第二预设条件，则检索到待检索视频，否则未检索到待检索视频。

实施例二：

本实施例是在实施例一的同源视频检索方法基础上，介绍一个本发明的应用实例。

如图2所示为本发明实施例的待检索视频在同源视频特征库中进行检索的过程示意图，示出了检索过程具体步骤：首先获取待检索视频，对待检索视频进行解码抽帧，得到待检索视频的图像帧序列，接着利用训练好的图像特征提取模型对待检索视频的图像帧序列中的所有图像帧提取图像特征，生成待检索视频的视频特征序列，另一方面，对视频样本库中的所有视频也做相同处理生成各视频的视频特征序列，存储到同源视频特征库中；然后使用待检索视频的视频特征序列在同源视频特征库中查找，首先将待检索视频的视频特征序列和视频库中的所有视频的视频特征序列进行局部特征对比，当局部特征比对的相似度大于预设的局部比对阈值时，接着继续进行全局特征比对，否则未检索到待检索视频；当全局特征比对的相似度大于预设的全局比对阈值时，检索到待检索视频，否则未检索到待检索视频。

为了得到训练好的图像图征提取模型，需要先构建同源图像数据集，同源图像数据集的构建过程具体为：

本例中，首先收集了多段视频，例如可以收集1万段视频创建原始视频样本集，然后根据转场效果对原始视频样本集中的每个视频进行切分生成多组镜头视频，得到镜头视频集，接着对镜头视频集中的每个镜头视频进行转码，生成了多种分辨率、多种码率、多种帧率、多种编码格式的多个同源视频，得到同源视频集，然后对同源视频集中的每个同源视频进行解码抽取视频帧图像生成多个原始图像，得到原始图像集，并将同一个同源视频抽取得到的原始图像标注为同一类标签，生成了原始视频样本数量数倍的类标签，例如可以是100万个类标签，对原始图像集中的每张原始图像进行随机变化生成多张同源图像，得到同源图像集。

为了能适应多种编辑方法，本发明采用随机变换方式对原始图像进行了如下变换中的一种或多种：裁剪、加文字、打马赛克、添加黑框、美化、画中画、拼接、上下加黑边、上下翻转、左右翻转、上下左右同时翻转、行列变换、视频帧压缩、视频帧切片、灰度变换、尺度变换、运动模糊、高斯模糊、仿射变换、中值模糊、亮度扰动、色度扰动、饱和度扰动、对比度增强、锐化、浮雕。在随机变换过程中，变换参数也是随机设置的，通过这种随机设置变换参数的随机变换过程，可以提升训练后模型的泛化性。原始图像集中每一张原始图像经过转码、解码、随机变换后生成了多张同源图像，同源图像的数目可以是原始图像的若干倍，例如可以是200倍，或者更多。示例性地，每一张原始图像经过上述处理后可以生成200张的同源图像。

需要注意的是，本例中的1万段视频、100万个类标签、200张的同源图像只是示例性数值，并不作为本例的限制，在其他实现方式中可以采用不同的数值。

图像特征提取模型基于残差网络架构设计。优选地，图像特征提取模型的输入图像宽度为224像素，高度为224像素。在该例中，每个像素由3个字节组成，全连接层的输出维度为128*样本类别数，主干网络包含了4个残差块，4个残差块分别包含了[3,30,48,8]层的二维卷积网络，4个残差块的输出通道分别是[32,64,128,256]，其中样本类别数是每张原始图像对应的同源图像的数量，本例中，样本类别数为200。

使用同源图像数据集对图像特征提取模型进行训练，为了使图像特征提取模型能够更好拟合样本特征的空间分布，输出更容易区分非同源样本且更容易识别同源样本的特征，在该例中，在训练过程中结合度量学习和交叉熵损失，使用余弦距离进行特征空间距离测量。经过多轮迭代后，成功得到了图像特征提取模型。利用图像特征提取模型可以获得每一张图像的图像特征。进一步地，提取两张图像的图像特征后，可以比对两种图像的特征，以判断这两张图像的相似度。示例性地，可以对图像特征进行余弦距离计算。对计算得到的距离进行归一化，可以获得两张图像的相似度分值。越相似的同源图像的相似度分值越接近1，非同源图像之间的相似度分值越偏向于0。

生成待检索视频的视频特征序列、以及对视频样本库中的所有视频也做相同处理生成各视频的视频特征序列，具体包括步骤：

1)对视频V转码，得到预先设定格式、码率和帧率的转码视频V^t；

2)对转码视频V^t进行解码抽帧以获得与视频V对应的图像帧序列。示例性地，将采样时间间隔设定为τ秒，每秒抽取1/τ张图像帧，经解码抽帧后，得到视频V的一组长度为n的图像帧序列P＝{P₀,P₁,...,P_n-1}，其中，τ>0，n为大于0的自然数；

3)使用预先训练好的图像特征提取模型分别提取图像帧序列P中每一个图像P_k的图像特征f_k，得到与视频V对应的视频特征序列F＝{f₀,f₁,...,f_n-1}，其中，0≤k<n。

使用待检索视频的视频特征序列在同源视频特征库中查找的具体过程为：

1)设定最小滑窗子模块长度ω，滑动步长ε，其中ω≥1，ε≥1；

2)获取同源视频特征库中第一个视频的视频特征序列作为比对视频的视频特征序列；

3)如果待检索视频的视频特征序列的长度小于比对视频的视频特征序列的长度，则将待检索视频的视频特征序列作为移动对象，将比对视频的视频特征序列作为待滑对象，否则将比对视频的视频特征序列作为移动对象，将待检索视频的视频特征序列作为待滑对象；令移动对象为V_s、待滑对象为V_i，移动对象V_s包含一组长度为m的视频特征序列F_s'，待滑对象V_i包含一组长度为n的视频特征序列F_i，其中m≥1，n≥1，m≤n；

3)将移动对象V_s的视频特征序列F_s'按最小滑窗子模块长度ω切分成(m/ω)数量的不重叠子块；从移动对象V_s的第0块

开始，待滑对象V_i的指针从第0帧特征f₀开始取与

相同长度ω的子块B₀，将

与B₀进行块内相似度计算，当子块内的对应帧的图像特征

与f_q的图像特征相似度大于图像相似度阈值T_f时，将块内命中帧数Z_f加1，然后计算块内命中率R_b＝Z_f/ω，如果R_b小于块相似度阈值T_b，则视为块非命中，否则视为块内命中；

4)局部特征比对：当块非命中时，待滑对象V_i的指针往后移动ε，取与

相同长度ω的下一子块B₁，重复进行块内相似度计算和移动待滑对象V_i的指针的过程，当待滑对象V_i的指针移动到视频特征序列F_i的末端仍未发生块内命中时，则判定移动对象V_s与待滑对象V_i为非同源命中，取同源视频特征库中下一个视频的视频特征序列作为比对视频的视频特征序列，跳转到步骤3，直到与同源视频库中的所有视频比对完成；

5)全局特征比对：当块内命中时，将子块命中数Z_b加1，取移动对象V_s的下一子块

待滑对象V_i的指针往后移动ω，取与

相同长度ω的下一子块B₁'，继续进行

与B₁'的块内相似度计算，迭代该特征对比的过程，直到取完移动对象V_s所有子块或者待滑对象V_i的指针移动到视频特征序列F_i的末端，最后计算子块命中率R_v＝Z_b/(m/ω)，当R_v小于同源视频相似度阈值T_v时，则判定移动对象V_s与待滑对象V_i为非同源命中，取同源视频特征库中下一个视频的视频特征序列作为比对视频的视频特征序列，跳转到步骤3，直到与同源视频库中的所有视频比对完成，否则为同源命中，结束查找过程；

其中，当发生同源命中时，即检索到待检索视频，当发生非同源命中时，即未检索到待检索视频。

实施例三：

本发明还提供一种同源视频检索的装置，如图3所示，该装置包括处理器301、存储器302、总线303、以及存储在存储器302中并可在处理器301上运行的计算机程序，处理器301包括一个或一个以上处理核心，存储器302通过总线303与处理器301相连，存储器302用于存储程序指令，处理器执行计算机程序时实现本发明的上述方法实施例中的步骤。

进一步地，作为一个可执行方案，同源视频检索的装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。系统/电子设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述系统/电子设备的组成结构仅仅是系统/电子设备的示例，并不构成对系统/电子设备的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件。例如系统/电子设备还可以包括输入输出设备、网络接入设备、总线等，本发明实施例对此不做限定。

进一步地，作为一个可执行方案，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是系统/电子设备的控制中心，利用各种接口和线路连接整个系统/电子设备的各个部分。

存储器可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现系统/电子设备的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

实施例四：

本发明还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现本发明实施例上述方法的步骤。

系统/电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Onny Memory)、随机存取存储器(RAM，Random AccessMemory)以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种同源视频检索的方法，用于确定待检索视频是否为视频库中视频的同源视频，其特征在于，包括步骤：

收集视频样本；

通过解码抽帧获取所述同源视频样本的原始图像数据集；

对所述原始图像数据集进行随机变换获得同源图像数据集；

利用所述同源图像数据集来训练图像特征提取模型。

2.根据权利要求1所述的方法，其特征在于，对所述视频库中的所有视频进行处理、以及对所述检索视频进行处理，均包括步骤：

3.根据权利要求1所述的方法，其特征在于，通过以下方式训练图像特征提取模型：

4.根据权利要求1所述的方法，其特征在于，所述随机变换至少包括以下一种或多种：

5.根据权利要求1所述的方法，其特征在于，所述图像特征提取模型的实现方式具体为基于残差网络实现，其中，所述图像特征提取模型的输入图像的宽度为224像素，高度为224像素，每个像素由3个字节组成，所述残差网络的全连接层的输出维度为128*样本类别数，所述残差网络的主干网络包含了4个残差块，4个残差块分别包含了[3,30,48,8]层的二维卷积网络，4个残差块的输出通道分别是[32,64,128,256]，其中所述样本类别数是每个原始图像对应的同源图像的个数。

6.根据权利要求1所述的方法，其特征在于，所述基于待检索视频的视频特征序列在视频库中查找，具体为将待检索视频的视频特征序列和视频库中的所有视频的视频特征序列进行滑窗比对，首先将待检索视频的视频特征序列和所述视频的视频特征序列进行局部特征比对，如果局部特征比对的相似度满足第一预设条件，则检索到待检索视频，否则进行全局特征比对，如果全局特征对比的相似度满足第二预设条件，则检索到待检索视频，否则未检索到待检索视频。

7.一种同源视频检索的装置，其特征在于，包括存储器和处理器，所述存储器存储有至少一段程序，所述至少一段程序由所述处理器执行以实现如权利要求1至6任一所述的同源视频检索方法。

8.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一段程序，所述至少一段程序由所述处理器执行以实现如权利要求1至6任一所述的同源视频检索方法。