CN114372169A - 一种同源视频检索的方法、装置以及存储介质 - Google Patents
一种同源视频检索的方法、装置以及存储介质 Download PDFInfo
- Publication number
- CN114372169A CN114372169A CN202111485056.7A CN202111485056A CN114372169A CN 114372169 A CN114372169 A CN 114372169A CN 202111485056 A CN202111485056 A CN 202111485056A CN 114372169 A CN114372169 A CN 114372169A
- Authority
- CN
- China
- Prior art keywords
- video
- retrieved
- homologous
- image
- videos
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Abstract
本发明公开了一种同源视频检索方法、装置以及存储介质。所述方法包括:对所述视频库中的所有视频进行处理,确定出各视频的视频特征序列;对所述待检索视频进行处理,确定出待检索视频的视频特征序列;基于所述待检索视频的视频特征序列在视频库中查找,若在视频库中找到某一段视频与待检索视频的视频特征序列的相似度达到预定条件,则表明检索到所述待检索视频,否则未检索到所述待检索视频。本发明提供的一种同源视频检索方法和装置,能够实现对同源视频的高精度检索,对经过主流的视频编辑、特效渲染、复合转码等方法生成的同源视频能保持较高的检索精确度。
Description
技术领域
本发明涉及计算机机器视觉技术领域,具体涉及视频识别技术领域,尤其涉及一种同源视频检索的方法、装置以及存储介质。
背景技术
近年来,随着互联网的快速发展,信息的传播越来越快,数据的传播量与日俱增。特别在多媒体领域,利用手机、U盘、PC、云服务等介质终端进行文本、语音、图像、视频的传播是人们最常用的信息分享方式。然而,由于多媒体数据中往往包含了个人隐私信息、商业机密、版权限制的信息、有害信息等。其传播往往引发有关企业和监管部门的关注。在实际音视频、图像传播过程中对数据传播的监督、事后传播数据的溯源需要有效的技术进行支撑。传统的同源视频检索方法主要有以下几种方法:
1)通过计算视频文件的MD5,然后在MD5库中进行查找,校验其是否存在;
2)利用压缩感知算法和矩阵分解计算视频中的关键帧的稀疏特征;
3)通过深度学习技术,提取视频的图像特征,结合熵值或者哈希值进行比对;
方法1无法校验经过编辑转码后的同源视频,方法2和3往往只能检索出基本的转码压缩和简单编辑生成的同源视频,对于经过复杂编辑与转码生成的同源视频难以检索。
发明内容
为了克服如上所述的技术问题,本发明提出一种同源视频检索的方法和装置,提高了检索经过复杂编辑与复合转码生成的同源视频的精确度。
本发明提出一种同源视频检索的方法,用于确定待检索视频是否为视频库中视频的同源视频,该方法的技术方案如下:
S1,对所述视频库中的所有视频进行处理,得到所述所有视频的图像帧序列,利用训练好的图像特征提取模型对所述图像帧序列进行处理,确定出各视频的视频特征序列;
S2,对所述待检索视频进行处理,得到所述待检索视频的图像帧序列,利用训练好的图像特征提取模型对所述待检索视频的图像帧序列进行处理,确定出待检索视频的视频特征序列;
S3,基于所述待检索视频的视频特征序列在视频库中查找,若在视频库中找到某一段视频与待检索视频的视频特征序列的相似度达到预定条件,则表明检索到所述待检索视频,否则未检索到所述待检索视频;
其中,所述训练好的图像特征提取模型是通过如下步骤进行训练的:
收集视频样本;
根据转场效果对所收集的视频样本中的每一个进行切分,并对切分后的视频进行转码,生成具有多种分辨率、多种码率、多种帧率、和/或多种编码格式的同源视频样本;
通过解码抽帧获取所述同源视频样本的原始图像数据集;
对所述原始图像数据集进行随机变换获得同源图像数据集;
利用所述同源图像数据集来训练图像特征提取模型。
进一步的,对所述视频库中的所有视频进行处理、以及对所述检索视频进行处理,均包括步骤:
S21,对视频V转码,得到预先设定格式、码率和帧率的转码视频Vt;
S22,对转码视频Vt抽取图像帧,生成视频V的一组长度为n的图像帧序列P={P0,P1,...,Pn-1},其中,n为大于0的自然数;
S23,将所述图像帧序列P的每一个图像帧Pk输入到预先训练好的图像特征提取模型中,通过所述图像特征提取模型获取图像帧Pk对应的图像特征fk,生成视频V的视频特征序列F={f0,f1,...,fn-1},其中,0≤k<n。
进一步的,通过以下方式训练图像特征提取模型:
S31,对原始图像数据集的所有原始图像标注类标签,对同源图像数据集的所有同源图像标注为与原始图像相应的类标签;
S32,基于所述同源图像数据集和所述同源图像的类标签,训练图像特征提取模型;
其中,训练过程包括归一化输入图像,结合度量学习和交叉熵损失,使用余弦距离测量同源图像的图像特征的空间距离,对空间距离进行归一化后得到图像的相似度,越相似的同源图像的相似度越接近1,非同源图像之间的相似度越偏向于0。
进一步的,所述随机变换至少包括以下一种或多种:
裁剪、加文字、打马赛克、添加黑框、美化、画中画、拼接、上下加黑边、上下翻转、左右翻转、上下左右同时翻转、行列变换、视频帧压缩、视频帧切片、灰度变换、尺度变换、运动模糊、高斯模糊、仿射变换、中值模糊、亮度扰动、色度扰动、饱和度扰动、对比度增强、锐化、浮雕。
进一步的,所述图像特征提取模型的实现方式具体为基于残差网络实现,其中,所述图像特征提取模型的输入图像的宽度为224像素,高度为224像素,每个像素由3个字节组成,所述残差网络的全连接层的输出维度为128*样本类别数,所述残差网络的主干网络包含了4个残差块,4个残差块分别包含了[3,30,48,8]层的二维卷积网络,4个残差块的输出通道分别是[32,64,128,256],其中所述样本类别数是每个原始图像对应的同源图像的个数。
进一步的,所述基于待检索视频的视频特征序列在视频库中查找,具体为将待检索视频的视频特征序列和视频库中的所有视频的视频特征序列进行滑窗比对,首先将待检索视频的视频特征序列和所述视频的视频特征序列进行局部特征比对,如果局部特征比对的相似度满足第一预设条件,则检索到待检索视频,否则进行全局特征比对,如果全局特征对比的相似度满足第二预设条件,则检索到待检索视频,否则未检索到待检索视频。
本发明还提出一种同源视频检索的装置,所述同源视频检索的装置存储计算机指令;所述计算机指令在所述同源视频检索的装置执行如上述任一项所述的同源视频检索的方法。
本发明还提出了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使计算机执行如上述任一项所述的同源视频检索的方法。
本发明提供的技术方案带来的有益效果是:
本发明的一种同源视频检索的方法和装置,能够实现对同源视频的高精度检索,对经过主流的视频编辑、特效渲染、复合转码等方法生成的同源视频能保持较高的检索精确度。
附图说明
图1为本发明实施例的一种同源视频检索的方法的流程图;
图2为本发明实施例的待检索视频在同源视频特征库中进行检索的过程示意图;
图3为本发明实施例所涉及的一种同源视频检索的装置结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例一:
如图1所示为本发明实施例的一种同源视频检索的方法的流程图,示出了该方法的具体实施步骤,用于确定待检索视频是否为视频库中视频的同源视频,包括:
S1,对所述视频库中的所有视频进行处理,得到所述所有视频的图像帧序列,利用训练好的图像特征提取模型对所述图像帧序列进行处理,确定出各视频的视频特征序列;
S2,对所述待检索视频进行处理,得到所述待检索视频的图像帧序列,利用训练好的图像特征提取模型对所述待检索视频的图像帧序列进行处理,确定出待检索视频的视频特征序列;
S3,基于所述待检索视频的视频特征序列在视频库中查找,若在视频库中找到某一段视频与待检索视频的视频特征序列的相似度达到预定条件,则表明检索到所述待检索视频,否则未检索到所述待检索视频;
其中,所述训练好的图像特征提取模型是通过如下步骤进行训练的:
收集视频样本;
根据转场效果对所收集的视频样本中的每一个进行切分,并对切分后的视频进行转码,生成具有多种分辨率、多种码率、多种帧率、和/或多种编码格式的同源视频样本;
通过解码抽帧获取所述同源视频样本的原始图像数据集;
对所述原始图像数据集进行随机变换获得同源图像数据集;
利用所述同源图像数据集来训练图像特征提取模型。
具体的,对所述视频库中的所有视频进行处理、以及对所述检索视频进行处理,均包括步骤:
S21,对视频V转码,得到预先设定格式、码率和帧率的转码视频Vt;
S22,对转码视频Vt抽取图像帧,生成视频V的一组长度为n的图像帧序列P={P0,P1,...,Pn-1},其中,n为大于0的自然数;
S23,将所述图像帧序列P的每一个图像帧Pk输入到预先训练好的图像特征提取模型中,通过所述图像特征提取模型获取图像帧Pk对应的图像特征fk,生成视频V的视频特征序列F={f0,f1,...,fn-1},其中,0≤k<n。
具体的,通过以下方式训练图像特征提取模型:
S31,对原始图像数据集的所有原始图像标注类标签,对同源图像数据集的所有同源图像标注为与原始图像相应的类标签;
S32,基于所述同源图像数据集和所述同源图像的类标签,训练图像特征提取模型;
其中,训练过程包括归一化输入图像,结合度量学习和交叉熵损失,使用余弦距离测量同源图像的图像特征的空间距离,对空间距离进行归一化后得到图像的相似度,越相似的同源图像的相似度越接近1,非同源图像之间的相似度越偏向于0。
具体的,所述随机变换至少包括以下一种或多种:
裁剪、加文字、打马赛克、添加黑框、美化、画中画、拼接、上下加黑边、上下翻转、左右翻转、上下左右同时翻转、行列变换、视频帧压缩、视频帧切片、灰度变换、尺度变换、运动模糊、高斯模糊、仿射变换、中值模糊、亮度扰动、色度扰动、饱和度扰动、对比度增强、锐化、浮雕。
具体的,所述图像特征提取模型的实现方式具体为基于残差网络实现,其中,所述图像特征提取模型的输入图像的宽度为224像素,高度为224像素,每个像素由3个字节组成,所述残差网络的全连接层的输出维度为128*样本类别数,所述残差网络的主干网络包含了4个残差块,4个残差块分别包含了[3,30,48,8]层的二维卷积网络,4个残差块的输出通道分别是[32,64,128,256],其中所述样本类别数是每个原始图像对应的同源图像的个数。
具体的,所述基于待检索视频的视频特征序列在视频库中查找,具体为将待检索视频的视频特征序列和视频库中的所有视频的视频特征序列进行滑窗比对,首先将待检索视频的视频特征序列和所述视频的视频特征序列进行局部特征比对,如果局部特征比对的相似度满足第一预设条件,则检索到待检索视频,否则进行全局特征比对,如果全局特征对比的相似度满足第二预设条件,则检索到待检索视频,否则未检索到待检索视频。
实施例二:
本实施例是在实施例一的同源视频检索方法基础上,介绍一个本发明的应用实例。
如图2所示为本发明实施例的待检索视频在同源视频特征库中进行检索的过程示意图,示出了检索过程具体步骤:首先获取待检索视频,对待检索视频进行解码抽帧,得到待检索视频的图像帧序列,接着利用训练好的图像特征提取模型对待检索视频的图像帧序列中的所有图像帧提取图像特征,生成待检索视频的视频特征序列,另一方面,对视频样本库中的所有视频也做相同处理生成各视频的视频特征序列,存储到同源视频特征库中;然后使用待检索视频的视频特征序列在同源视频特征库中查找,首先将待检索视频的视频特征序列和视频库中的所有视频的视频特征序列进行局部特征对比,当局部特征比对的相似度大于预设的局部比对阈值时,接着继续进行全局特征比对,否则未检索到待检索视频;当全局特征比对的相似度大于预设的全局比对阈值时,检索到待检索视频,否则未检索到待检索视频。
为了得到训练好的图像图征提取模型,需要先构建同源图像数据集,同源图像数据集的构建过程具体为:
本例中,首先收集了多段视频,例如可以收集1万段视频创建原始视频样本集,然后根据转场效果对原始视频样本集中的每个视频进行切分生成多组镜头视频,得到镜头视频集,接着对镜头视频集中的每个镜头视频进行转码,生成了多种分辨率、多种码率、多种帧率、多种编码格式的多个同源视频,得到同源视频集,然后对同源视频集中的每个同源视频进行解码抽取视频帧图像生成多个原始图像,得到原始图像集,并将同一个同源视频抽取得到的原始图像标注为同一类标签,生成了原始视频样本数量数倍的类标签,例如可以是100万个类标签,对原始图像集中的每张原始图像进行随机变化生成多张同源图像,得到同源图像集。
为了能适应多种编辑方法,本发明采用随机变换方式对原始图像进行了如下变换中的一种或多种:裁剪、加文字、打马赛克、添加黑框、美化、画中画、拼接、上下加黑边、上下翻转、左右翻转、上下左右同时翻转、行列变换、视频帧压缩、视频帧切片、灰度变换、尺度变换、运动模糊、高斯模糊、仿射变换、中值模糊、亮度扰动、色度扰动、饱和度扰动、对比度增强、锐化、浮雕。在随机变换过程中,变换参数也是随机设置的,通过这种随机设置变换参数的随机变换过程,可以提升训练后模型的泛化性。原始图像集中每一张原始图像经过转码、解码、随机变换后生成了多张同源图像,同源图像的数目可以是原始图像的若干倍,例如可以是200倍,或者更多。示例性地,每一张原始图像经过上述处理后可以生成200张的同源图像。
需要注意的是,本例中的1万段视频、100万个类标签、200张的同源图像只是示例性数值,并不作为本例的限制,在其他实现方式中可以采用不同的数值。
图像特征提取模型基于残差网络架构设计。优选地,图像特征提取模型的输入图像宽度为224像素,高度为224像素。在该例中,每个像素由3个字节组成,全连接层的输出维度为128*样本类别数,主干网络包含了4个残差块,4个残差块分别包含了[3,30,48,8]层的二维卷积网络,4个残差块的输出通道分别是[32,64,128,256],其中样本类别数是每张原始图像对应的同源图像的数量,本例中,样本类别数为200。
使用同源图像数据集对图像特征提取模型进行训练,为了使图像特征提取模型能够更好拟合样本特征的空间分布,输出更容易区分非同源样本且更容易识别同源样本的特征,在该例中,在训练过程中结合度量学习和交叉熵损失,使用余弦距离进行特征空间距离测量。经过多轮迭代后,成功得到了图像特征提取模型。利用图像特征提取模型可以获得每一张图像的图像特征。进一步地,提取两张图像的图像特征后,可以比对两种图像的特征,以判断这两张图像的相似度。示例性地,可以对图像特征进行余弦距离计算。对计算得到的距离进行归一化,可以获得两张图像的相似度分值。越相似的同源图像的相似度分值越接近1,非同源图像之间的相似度分值越偏向于0。
生成待检索视频的视频特征序列、以及对视频样本库中的所有视频也做相同处理生成各视频的视频特征序列,具体包括步骤:
1)对视频V转码,得到预先设定格式、码率和帧率的转码视频Vt;
2)对转码视频Vt进行解码抽帧以获得与视频V对应的图像帧序列。示例性地,将采样时间间隔设定为τ秒,每秒抽取1/τ张图像帧,经解码抽帧后,得到视频V的一组长度为n的图像帧序列P={P0,P1,...,Pn-1},其中,τ>0,n为大于0的自然数;
3)使用预先训练好的图像特征提取模型分别提取图像帧序列P中每一个图像Pk的图像特征fk,得到与视频V对应的视频特征序列F={f0,f1,...,fn-1},其中,0≤k<n。
使用待检索视频的视频特征序列在同源视频特征库中查找的具体过程为:
1)设定最小滑窗子模块长度ω,滑动步长ε,其中ω≥1,ε≥1;
2)获取同源视频特征库中第一个视频的视频特征序列作为比对视频的视频特征序列;
3)如果待检索视频的视频特征序列的长度小于比对视频的视频特征序列的长度,则将待检索视频的视频特征序列作为移动对象,将比对视频的视频特征序列作为待滑对象,否则将比对视频的视频特征序列作为移动对象,将待检索视频的视频特征序列作为待滑对象;令移动对象为Vs、待滑对象为Vi,移动对象Vs包含一组长度为m的视频特征序列Fs',待滑对象Vi包含一组长度为n的视频特征序列Fi,其中m≥1,n≥1,m≤n;
3)将移动对象Vs的视频特征序列Fs'按最小滑窗子模块长度ω切分成(m/ω)数量的不重叠子块;从移动对象Vs的第0块开始,待滑对象Vi的指针从第0帧特征f0开始取与相同长度ω的子块B0,将与B0进行块内相似度计算,当子块内的对应帧的图像特征与fq的图像特征相似度大于图像相似度阈值Tf时,将块内命中帧数Zf加1,然后计算块内命中率Rb=Zf/ω,如果Rb小于块相似度阈值Tb,则视为块非命中,否则视为块内命中;
4)局部特征比对:当块非命中时,待滑对象Vi的指针往后移动ε,取与相同长度ω的下一子块B1,重复进行块内相似度计算和移动待滑对象Vi的指针的过程,当待滑对象Vi的指针移动到视频特征序列Fi的末端仍未发生块内命中时,则判定移动对象Vs与待滑对象Vi为非同源命中,取同源视频特征库中下一个视频的视频特征序列作为比对视频的视频特征序列,跳转到步骤3,直到与同源视频库中的所有视频比对完成;
5)全局特征比对:当块内命中时,将子块命中数Zb加1,取移动对象Vs的下一子块待滑对象Vi的指针往后移动ω,取与相同长度ω的下一子块B1',继续进行与B1'的块内相似度计算,迭代该特征对比的过程,直到取完移动对象Vs所有子块或者待滑对象Vi的指针移动到视频特征序列Fi的末端,最后计算子块命中率Rv=Zb/(m/ω),当Rv小于同源视频相似度阈值Tv时,则判定移动对象Vs与待滑对象Vi为非同源命中,取同源视频特征库中下一个视频的视频特征序列作为比对视频的视频特征序列,跳转到步骤3,直到与同源视频库中的所有视频比对完成,否则为同源命中,结束查找过程;
其中,当发生同源命中时,即检索到待检索视频,当发生非同源命中时,即未检索到待检索视频。
实施例三:
本发明还提供一种同源视频检索的装置,如图3所示,该装置包括处理器301、存储器302、总线303、以及存储在存储器302中并可在处理器301上运行的计算机程序,处理器301包括一个或一个以上处理核心,存储器302通过总线303与处理器301相连,存储器302用于存储程序指令,处理器执行计算机程序时实现本发明的上述方法实施例中的步骤。
进一步地,作为一个可执行方案,同源视频检索的装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。系统/电子设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,上述系统/电子设备的组成结构仅仅是系统/电子设备的示例,并不构成对系统/电子设备的限定,可以包括比上述更多或更少的部件,或者组合某些部件,或者不同的部件。例如系统/电子设备还可以包括输入输出设备、网络接入设备、总线等,本发明实施例对此不做限定。
进一步地,作为一个可执行方案,所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是系统/电子设备的控制中心,利用各种接口和线路连接整个系统/电子设备的各个部分。
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现系统/电子设备的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据手机的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
实施例四:
本发明还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现本发明实施例上述方法的步骤。
系统/电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Onny Memory)、随机存取存储器(RAM,Random AccessMemory)以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。
Claims (8)
1.一种同源视频检索的方法,用于确定待检索视频是否为视频库中视频的同源视频,其特征在于,包括步骤:
S1,对所述视频库中的所有视频进行处理,得到所述所有视频的图像帧序列,利用训练好的图像特征提取模型对所述图像帧序列进行处理,确定出各视频的视频特征序列;
S2,对所述待检索视频进行处理,得到所述待检索视频的图像帧序列,利用训练好的图像特征提取模型对所述待检索视频的图像帧序列进行处理,确定出待检索视频的视频特征序列;
S3,基于所述待检索视频的视频特征序列在视频库中查找,若在视频库中找到某一段视频与待检索视频的视频特征序列的相似度达到预定条件,则表明检索到所述待检索视频,否则未检索到所述待检索视频;
其中,所述训练好的图像特征提取模型是通过如下步骤进行训练的:
收集视频样本;
根据转场效果对所收集的视频样本中的每一个进行切分,并对切分后的视频进行转码,生成具有多种分辨率、多种码率、多种帧率、和/或多种编码格式的同源视频样本;
通过解码抽帧获取所述同源视频样本的原始图像数据集;
对所述原始图像数据集进行随机变换获得同源图像数据集;
利用所述同源图像数据集来训练图像特征提取模型。
2.根据权利要求1所述的方法,其特征在于,对所述视频库中的所有视频进行处理、以及对所述检索视频进行处理,均包括步骤:
S21,对视频V转码,得到预先设定格式、码率和帧率的转码视频Vt;
S22,对转码视频Vt抽取图像帧,生成视频V的一组长度为n的图像帧序列P={P0,P1,...,Pn-1},其中,n为大于0的自然数;
S23,将所述图像帧序列P的每一个图像帧Pk输入到预先训练好的图像特征提取模型中,通过所述图像特征提取模型获取图像帧Pk对应的图像特征fk,生成视频V的视频特征序列F={f0,f1,...,fn-1},其中,0≤k<n。
3.根据权利要求1所述的方法,其特征在于,通过以下方式训练图像特征提取模型:
S31,对原始图像数据集的所有原始图像标注类标签,对同源图像数据集的所有同源图像标注为与原始图像相应的类标签;
S32,基于所述同源图像数据集和所述同源图像的类标签,训练图像特征提取模型;
其中,训练过程包括归一化输入图像,结合度量学习和交叉熵损失,使用余弦距离测量同源图像的图像特征的空间距离,对空间距离进行归一化后得到图像的相似度,越相似的同源图像的相似度越接近1,非同源图像之间的相似度越偏向于0。
4.根据权利要求1所述的方法,其特征在于,所述随机变换至少包括以下一种或多种:
裁剪、加文字、打马赛克、添加黑框、美化、画中画、拼接、上下加黑边、上下翻转、左右翻转、上下左右同时翻转、行列变换、视频帧压缩、视频帧切片、灰度变换、尺度变换、运动模糊、高斯模糊、仿射变换、中值模糊、亮度扰动、色度扰动、饱和度扰动、对比度增强、锐化、浮雕。
5.根据权利要求1所述的方法,其特征在于,所述图像特征提取模型的实现方式具体为基于残差网络实现,其中,所述图像特征提取模型的输入图像的宽度为224像素,高度为224像素,每个像素由3个字节组成,所述残差网络的全连接层的输出维度为128*样本类别数,所述残差网络的主干网络包含了4个残差块,4个残差块分别包含了[3,30,48,8]层的二维卷积网络,4个残差块的输出通道分别是[32,64,128,256],其中所述样本类别数是每个原始图像对应的同源图像的个数。
6.根据权利要求1所述的方法,其特征在于,所述基于待检索视频的视频特征序列在视频库中查找,具体为将待检索视频的视频特征序列和视频库中的所有视频的视频特征序列进行滑窗比对,首先将待检索视频的视频特征序列和所述视频的视频特征序列进行局部特征比对,如果局部特征比对的相似度满足第一预设条件,则检索到待检索视频,否则进行全局特征比对,如果全局特征对比的相似度满足第二预设条件,则检索到待检索视频,否则未检索到待检索视频。
7.一种同源视频检索的装置,其特征在于,包括存储器和处理器,所述存储器存储有至少一段程序,所述至少一段程序由所述处理器执行以实现如权利要求1至6任一所述的同源视频检索方法。
8.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一段程序,所述至少一段程序由所述处理器执行以实现如权利要求1至6任一所述的同源视频检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111485056.7A CN114372169A (zh) | 2021-12-07 | 2021-12-07 | 一种同源视频检索的方法、装置以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111485056.7A CN114372169A (zh) | 2021-12-07 | 2021-12-07 | 一种同源视频检索的方法、装置以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114372169A true CN114372169A (zh) | 2022-04-19 |
Family
ID=81141116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111485056.7A Pending CN114372169A (zh) | 2021-12-07 | 2021-12-07 | 一种同源视频检索的方法、装置以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114372169A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304163A (zh) * | 2023-05-11 | 2023-06-23 | 深圳兔展智能科技有限公司 | 一种图像检索方法、装置、计算机设备及介质 |
-
2021
- 2021-12-07 CN CN202111485056.7A patent/CN114372169A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304163A (zh) * | 2023-05-11 | 2023-06-23 | 深圳兔展智能科技有限公司 | 一种图像检索方法、装置、计算机设备及介质 |
CN116304163B (zh) * | 2023-05-11 | 2023-07-25 | 深圳兔展智能科技有限公司 | 一种图像检索方法、装置、计算机设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190080177A1 (en) | Video detection method, server and storage medium | |
CN111327945B (zh) | 用于分割视频的方法和装置 | |
CN111651636B (zh) | 视频相似片段搜索方法及装置 | |
Ayed et al. | MapReduce based text detection in big data natural scene videos | |
CN110149529B (zh) | 媒体信息的处理方法、服务器及存储介质 | |
CN104376003A (zh) | 一种视频检索方法及装置 | |
CN110688524B (zh) | 视频检索方法、装置、电子设备及存储介质 | |
CN112434553B (zh) | 一种基于深度字典学习的视频鉴别方法及系统 | |
Husain et al. | ACTNET: end-to-end learning of feature activations and multi-stream aggregation for effective instance image retrieval | |
Fei et al. | New fusional framework combining sparse selection and clustering for key frame extraction | |
CN114372169A (zh) | 一种同源视频检索的方法、装置以及存储介质 | |
Li et al. | Coverless Video Steganography Based on Frame Sequence Perceptual Distance Mapping. | |
CN116383470B (zh) | 一种具有隐私保护的图像搜索方法 | |
CN110826365B (zh) | 一种视频指纹生成方法和装置 | |
CN111212322A (zh) | 一种基于多视频去重拼接的视频压缩方法 | |
Ali et al. | A meta-heuristic method for reassemble bifragmented intertwined JPEG image files in digital forensic investigation | |
CN111143619B (zh) | 视频指纹生成方法、检索方法、电子设备及介质 | |
CN114722902A (zh) | 基于自监督学习的无标注视频哈希检索方法及装置 | |
CN113742525A (zh) | 自监督视频哈希学习方法、系统、电子设备及存储介质 | |
CN108287817B (zh) | 一种信息处理方法及设备 | |
Fang et al. | Coarse-to-fine two-stage semantic video carving approach in digital forensics | |
Wang et al. | A nonparametric Bayesian method of structural saliency dictionary learning for image compression | |
Liu et al. | A novel inverted index file based searching strategy for video copy detection | |
CN111008301B (zh) | 一种以图搜视频的方法 | |
Miao et al. | Progressive transmission based on wavelet used in mobile visual search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |