CN111241345A - 一种视频检索方法、装置、电子设备和存储介质 - Google Patents

一种视频检索方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN111241345A
CN111241345A CN202010098469.9A CN202010098469A CN111241345A CN 111241345 A CN111241345 A CN 111241345A CN 202010098469 A CN202010098469 A CN 202010098469A CN 111241345 A CN111241345 A CN 111241345A
Authority
CN
China
Prior art keywords
video
target
comparison
target video
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010098469.9A
Other languages
English (en)
Inventor
杨喻茸
徐敘远
龚国平
方杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010098469.9A priority Critical patent/CN111241345A/zh
Publication of CN111241345A publication Critical patent/CN111241345A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification

Abstract

本申请提供一种视频检索方法、装置、电子设备和存储介质,属于计算机技术领域,涉及人工智能和计算机视觉技术。其中,视频检索方法包括:确定目标视频的关键帧;对所述目标视频的关键帧进行特征提取,生成目标视频指纹;根据目标视频指纹与聚类中心的距离,确定所述目标视频的目标特征向量;所述聚类中心为将多个参考图片的参考特征向量进行聚类得到的;获取对照视频的对照特征向量,利用所述目标特征向量与所述对照特征向量,确定所述目标视频与所述对照视频的相似度。

Description

一种视频检索方法、装置、电子设备和存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种视频检索方法、装置、电子设备和存储介质。
背景技术
随着智能手机和移动4G的普及,以及即将到来的5G,移动直播的热潮尚未散去,短视频行业又迅速崛起,通过将短视频嵌入社交网络的信息流中,借助其便捷性和强大的分享功能掀起了短视频的热潮。短视频数量的井喷,对视频重复检测和视频检索系统都提出了更高的要求,在海量数据中快速精准并且全面的检测出相似视频是视频平台的核心技术之一。
目前,视频的相似性检索中,一般通过将两个视频进行逐帧对比的方式,确定视频是否类似。这种方式受视频序列的顺序影响,准确性较低,且工作量较大,效率低下。
发明内容
本申请实施例提供了一种视频检索方法、装置、电子设备和存储介质,能够提高视频检索的准确性。
一方面,本申请实施例提供了一种视频检索方法,包括:
确定目标视频的关键帧;
对所述目标视频的关键帧进行特征提取,生成目标视频指纹;
根据目标视频指纹与聚类中心的距离,确定所述目标视频的目标特征向量;所述聚类中心为将多个参考图片的参考特征向量进行聚类得到的;
获取对照视频的对照特征向量,利用所述目标特征向量与所述对照特征向量,确定所述目标视频与所述对照视频的相似度。
另一方面,本申请实施例提供一种视频检索装置,所述装置包括:
关键帧获取单元,用于确定目标视频的关键帧;
指纹提取单元,用于对所述目标视频的关键帧进行特征提取,生成目标视频指纹;
特征确定单元,用于根据目标视频指纹与聚类中心的距离,确定所述目标视频的目标特征向量;所述聚类中心为将多个参考图片的参考特征向量进行聚类得到的;
检索对照单元,用于获取对照视频的对照特征向量,利用所述目标特征向量与所述对照特征向量,确定所述目标视频与所述对照视频的相似度。
在一种可选的实施例中,关键帧确定单元,具体用于:
按照设定的规则,从所述目标视频中获取多个待选帧;
计算每个待选帧的颜色直方图特征;
根据颜色直方图特征,将所有待选帧聚类,得到多个簇;
将每个簇中距离簇中心最近的待选帧作为所述目标视频的关键帧。
在一种可选的实施例中,所述指纹提取单元,具体用于:
将所述目标视频的关键帧输入特征提取模型,得到关键帧特征;所述特征提取模型利用训练样本图片以及训练样本图片的分类结果进行训练得到对应的模型参数;
将所述关键帧特征降维,得到所述目标视频指纹。
在一种可选的实施例中,所述聚类中心的数量为N个,N为正整数;所述特征确定单元,用于:
针对每一个目标视频指纹,根据所述目标视频指纹与每个聚类中心之间的距离,确定与所述目标视频指纹距离最近的K个聚类中心;
针对所述K个聚类中心中的每一个聚类中心,计算所述目标视频指纹与所述聚类中心之间的残差;K为小于或等于N的正整数;
针对N个聚类中心中的每一个聚类中心,计算所述聚类中心与每个目标视频指纹之间的残差和向量;
将计算得到的N个残差和向量作为所述目标视频的目标特征向量。
在一种可选的实施例中,所述特征确定单元用于根据以下方式获取所述聚类中心:
将每个参考图片输入特征提取模型,得到所述参考图片对应的参考特征向量;
将所述参考特征向量降维,并将降维后的参考特征向量进行聚类,得到所述聚类中心。
在一种可选的实施例中,所述检索对照单元,还用于:
利用多个对照视频的对照特征向量,对所述目标特征向量进行相似性检索,从所述多个对照视频中确定与所述目标视频相似度最大的对照视频作为相似视频。
在一种可选的实施例中,所述检索对照单元,具体用于:
根据搜索算法,利用图索引结果对所述目标特征向量进行相似性检索;
从所述图索引结构中确定与所述目标特征向量之间的距离小于距离阈值的M个对照特征向量;所述图索引结构为利用多个对照特征向量构建,M为正整数;
将所述M个对照特征向量对应的M个对照视频作为相似视频。
在一种可选的实施例中,所述检索对照单元,具体用于通过以下方式确定所述相似视频:
利用搜索算法,在所述图索引结构的第L层中查找与所述目标特征向量最近的对照特征向量;所述图索引结构为利用对照视频的对照特征向量建立的L层网络模型,L为正整数;
以第L层中最近的对照特征向量为输入,确定第L-1层中与所述目标特征向量最近的对照特征向量;
以此类推,直至以第1层中最近的对照特征向量为输入,确定第0层中与所述目标特征向量最近的对照特征向量;
将所述第0层中与所述目标特征向量最近的对照特征向量对应的对照视频作为所述相似视频。
在一种可选的实施例中,所述检索对照单元,具体用于通过以下方式确定图索引结构:
获取多个对照视频的关键帧;
对所述对照视频的关键帧进行特征提取,生成对照视频指纹;
根据对照视频指纹与所述聚类中心的距离,确定每个对照视频的对照特征向量;
利用图索引算法,将对照视频的对照特征向量依次插入网络结构中,建立所述图索引结构。
另一方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现第一方面的视频检索方法。
另一方面,本申请实施例还提供一种电子设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器实现第一方面的视频检索方法。
本申请实施例从目标视频中确定关键帧,并对目标视频的关键帧进行特征提取,生成目标视频指纹。将多个参考图片的参考特征向量进行聚类得到聚类中心,根据目标视频指纹与聚类中心之间的距离,确定目标视频的目标特征向量,从而将目标视频转换为目标聚类向量。另一方面,获取对照视频的对照特征向量。利用目标聚类向量与对照视频的对照特征向量,确定目标视频与对照视频的相似度。本申请实施例将视频转换为向量,由于向量包含有视频的细节特征,且不受视频时长缩放、帧率变化的影响,准确性较高。且利用了向量相似性检索作为衡量视频之间相似性的方法,无需逐帧对比,减少了计算量,适用于大规模的视频相似性检索。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种视频检索方法的系统架构示意图;
图2为本申请实施例提供的一种视频检索方法的流程图;
图3为本申请实施例中目标特征向量的构建示意图;
图4为本申请实施例提供的图索引结构的示意图;
图5为本申请具体实施例提供的一种视频检索方法的流程示意图;
图6为本申请实施例提供的一种视频检索装置的结构示意图;
图7为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
下文中所用的词语“示例性”的意思为“用作例子、实施例或说明性”。作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
文中的术语“第一”、“第二”仅用于描述目的,而不能理解为明示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征,在本申请实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
以下对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
帧:就是影像动画中最小单位的单幅影像画面。一帧就是一副静止的图像,连续的帧就形成动画,如电视图像等。通常说帧数,简单地说,就是在1秒钟时间里传输的图像的帧数,也可以理解为图形处理器每秒钟能够刷新几次,通常用FPS(Frames Per Second,每秒钟帧数)表示。每一帧都是静止的图像,快速连续地显示帧便形成了运动的假象。高的帧率可以得到更流畅、更逼真的动画,FPS越大,所显示的动作就会越流畅。
CNN,(Convolutional Neural Networks,卷积神经网络)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deeplearning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行平移不变分类(shift-invariantclassification),因此也被称为“平移不变人工神经网络。
GoogLeNet:是一种全新的深度学习结构,在这之前的AlexNet、VGG等结构都是通过增大网络的深度(层数)来获得更好的训练效果,但层数的增加会带来很多负作用,比如overfit、梯度消失、梯度爆炸等。GoogLeNet从另一种角度来提升训练结果:能更高效的利用计算资源,在相同的计算量下能提取到更多的特征,从而提升训练结果。
聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。
VLAD(vector of locally aggregated descriptors,局部描述子特征向量)算法:其核心思想是aggregated(积聚),主要应用于图像检索领域。主要方法是通过聚类训练一个小的码本,对于每幅图像中的特征找到最近的码本聚类中心,随后所有特征与聚类中心的差值做累加,得到一个k×d的VLAD矩阵,其中k是聚类中心个数,d是特征维数,随后将该矩阵扩展为一个(k×d)维的向量,并对其L2归一化,所得到的向量即为VLAD向量。
HNSW(Hierarchical Navigable Small World,层级可导航小世界)算法:是近似k近邻搜索中的新方法,也是对NSW方法的改进,它由多层的邻近图组成,因此称为分层的NSW方法。
A*搜索(A-star Algorithm)算法:比较流行的启发式搜索算法之一,被广泛应用于路径优化领域。它的独特之处是检查最短路径中每个可能的节点时引入了全局信息,对当前节点距终点的距离做出估计,并作为评价该节点处于最短路线上的可能性的量度。
下面结合附图及具体实施例对本申请作进一步详细的说明。
为了解决相关技术中的技术问题,本申请实施例提供了一种视频检索方法、装置、电子设备和存储介质。本申请实施例涉及人工智能(Artificial Intelligence,AI)和机器学习(Machine Learning,ML)技术,基于人工智能中的计算机视觉(Computer Vision,CV)技术和机器学习而设计。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、语音处理技术、以及机器学习/深度学习等几大方向。
随着人工智能技术研究和进步,人工智能在多个领域展开研究和应用,例如常见的智能家居、图像检索、视频监控、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗等,相信随着技术的发展,人工智能将在更多的领域得到应用,并发挥越来越重要的价值。
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。本申请实施例采用了基于深度强化学习的特征提取模型,对目标视频的关键帧进行特征提取,生成目标视频指纹。
本申请实施例提供的视频检索方法可以应用于相似视频检索场景、视频去重场景等。例如,通过本申请实施例中的视频检索方法可以从网络上检测是否存在重复视频,从而保护了视频的原创者的版权。又例如,在向用户推送视频素材的过程中,可以利用本申请实施例中的视频检索方法确定不重复的推荐素材,从而避免给用户推送重复的视频素材;或者构建相似视频的关系链,用于将推荐的视频进行协同过滤。
下面结合本申请实施例,对上述场景进行详细说明。
在一种场景下,用户想要以视频搜视频,则用户通过客户端上传目标视频,期望从服务器中搜索到与目标视频相似的其他视频,在此场景下,利用本申请提供的方法,服务器可以根据目标视频得到目标特征向量,基于对照视频的对照特征向量,目标特征向量进行相似性检索,从视频库中选择与目标视频的相似度最大的一个或多个对照视频作为目标视频的相似视频,将该目标视频的相似视频作为检索结果,输出该检索结果。
例如,用户浏览过某电影的删减版,将其作为目标视频上传至客户端,客户端与服务器通信后,服务器从视频库中选择与该目标视频相似度最大的视频例如该电影的完整版,将其作为该目标视频的相似视频,最后,服务器将该电源的完整版视频作为检索结果,输出该检索结果,如此,用户就能够实现以视频搜视频,快速浏览到自己想看的视频。
在该场景中,服务器也可以预先标记目标视频的相似视频,这样,用户在以视频搜视频时,能够根据上述标记快速确定用户指定的目标视频对应的相似视频,提高了响应效率。
其中,服务器标记目标视频可以通过如下方式实现:接收新上传的视频,将该新上传的视频作为目标视频,利用本申请实施例提供的方法,服务器将目标视频中各关键帧转换为目标视频指纹,再根据目标视频指纹确定出目标视频的目标特征向量,利用上述方式确定出对照视频的对照特征向量,利用多个对照特征向量对目标特征向量进行相似性检索,确定与目标视频相似度最大的对照视频标记为目标视频的相似视频。
在一种场景下,视频运营平台为了有效管理视频,需要对判断新添加的视频与平台上已有视频资源是否重复,如果重复则需要进行去重处理,从而进行原创保护,也可以避免资源冗余占用过多存储空间,同时能够提高检索效率。视频运营平台考虑到视频库的存储容量以及用户的检索体验,也可以采用本申请实施例中的视频检测方法进行相似视频去重。
例如,将新上传的视频作为目标视频,将视频运营平台中的视频数据库中的视频作为对照视频,则服务器基于目标特征向量和对照特征向量,确定目标视频与每一个对照视频的相似度,当视频库中存在对照视频与目标视频的相似度超过预设的相似度阈值时,对视频库和目标视频进行去重。
在去重时,服务器可以将视频库中与目标视频对应的对照视频删除,进而将目标视频添加至视频库,以目标视频代替对照视频;服务器也可以拒绝添加目标视频至视频库,保留原有的对照视频。
本申请实施例提供的视频检索方法的一种应用场景可以参见图1所示,该应用场景中包括终端设备101、服务器102和数据库103。
其中,终端设备101为可以安装各类客户端,并且能够将已安装的客户端的运行界面进行显示的电子设备,该电子设备可以是移动的,也可以是固定的。例如,手机、平板电脑、笔记本电脑、台式电脑、各类可穿戴设备、智能电视、车载设备或其它能够实现上述功能的电子设备等。客户端可以是视频客户端或浏览器客户端等。各终端设备101通过通信网络与服务器102连接,该通信网络可以是有线网络或无线网络。服务器102可以是客户端对应的服务器,可以是一台服务器或由若干台服务器组成的服务器集群或云计算中心,或者是一个虚拟化平台。
其中,图1是以数据库103独立于所述服务器102存在进行说明的,在其他可能的实现方式中,数据库103也可以位于服务器102中。
服务器102与数据库103连接,数据库103中存储有对照视频,服务器102接收终端设备101发送的待检测的目标视频,通过目标视频的关键帧转换为目标视频指纹,再根据目标视频指纹与聚类中心的距离生成目标特征向量,基于该目标特征向量和数据库103中各对照视频的对照特征向量,确定目标视频与对照视频的相似度,实现视频检测。
需要说明的是,本申请提供的视频检索方法可以应用于服务器102,由服务器执行本申请实施例提供的视频检索方法;也可以应用于终端设备的客户端中,由终端设备101实施本申请提供的视频检索方法,还可以由服务器102与终端设备101中的客户端配合完成。
图2示出了本申请一个实施例提供的视频检索方法的流程图。如图2所示,该方法包括如下步骤:
步骤S201,确定目标视频的关键帧。
其中,目标视频可以是终端设备实时拍摄后上传的视频,例如视频编辑场景中,需要对摄像头实时拍摄的视频进行处理,此时,目标视频可以是摄像头实时拍摄的视频,通过本申请实施例中的视频检索方法可以查找到对应的视频素材;或者目标视频可以是从网络中获取的视频,例如视频查重场景中,需要检查网络获取的视频是否存在重复,此时,目标视频可以是网络中获取的需要进行查重的视频;或者,目标视频可以是本地存储的视频,例如视频查找场景中,需要根据本地视频从网络中查找到相似的视频,此时目标视频可以是本地数据库中存储的视频。
在实际应用中,目标视频也可认为是连续帧的图像集合,对目标视频的处理,可以是对图像集合中的各帧图像的处理。帧就是动画中最小单位的单幅影像画面,相当于电影胶片上的每一格镜头,在动画软件的时间轴上帧表现为一格或一个标记。关键帧指角色或者物体运动或变化中的关键动作所处的那一帧。其中,目标视频中的关键帧可以为预先设置的,例如,可以为每20帧设置一个关键帧,即目标视频的第0帧、第20帧、第40帧……设置为关键帧。
另一种可选的实施例中,也可以根据每一帧的特征进行从目标视频中选取某些帧作为关键帧。具体地,将场景切换帧作为关键帧。
本领域技术人员应能理解,上述几种场景和视频来源仅为举例,基于这些范例进行的适当变化也可适用于本申请,本申请实施例并不对目标视频的来源和场景进行限定。
步骤S202、对目标视频的关键帧进行特征提取,生成目标视频指纹。
在本申请实施例中,将从目标视频各关键帧中提取的图像特征直接作为该视频的视频指纹,因此,目标视频指纹包括目标视频中各关键帧的图像特征。
针对目标视频抽取关键帧,获得目标视频的关键帧序列,针对目标视频的关键帧序列中每个关键帧,通过特征提取模型提取关键帧特征,基于目标视频中每个关键帧的特征可以生成关键帧特征集合,将该关键帧特征集合作为目标视频指纹。
在具体实施过程中,将目标视频的关键帧输入特征提取模型,得到关键帧特征。其中,特征提取模型利用训练样本图片以及训练样本图片的分类结果进行训练得到对应的模型参数。
特征提取模型包括卷积神经网络模型。本申请实施例中,采用GoogleNet网络结构提取关键帧特征,该网络结构的全连接(Full Connect,FC)层输出2048维的特征。此外,其它网络结构也可以作为本申请实施例中的特征提取模型,如ResNet101网络结构等。
本申请实施例中GoogleNet网络结构的训练方式如下:
获取训练样本,训练样本中包含训练样本图片以及训练样本图片的分类结果。具体来说,训练样本可以分为三元组,分别为原图、与原图相似的第一图片、与原图不同的第二图片。这里对模型网络训练的目的即为使得原图与第一图片的距离近,而原图与第二图片的距离远。需要说明的是,本申请实施例中的距离可以为欧式距离,也可以为曼哈顿距离、切比雪夫距离等,这里不做限制。
将训练样本输入初始网络结构,并根据输出的分类结果计算损失函数,当所述损失函数达到设定的训练结束条件时,确定对应的参数为网络结构对应的参数,得到GoogleNet网络。
为了降低后续视频检测的计算量和复杂度,还可以将关键帧特征降维,得到目标视频指纹。即利用降维算法对图像特征提取模型提取的关键帧特征进行降维处理,将处理后的特征作为关键帧的图像特征。然后基于目标视频中每个关键帧经降维处理的图像特征,生成图像特征集合,并将该集合作为目标视频指纹。一般来说,最终目标视频指纹的维度为32维。
具体地,为了节省存储空间,可以采用主成分分析法(Principal ComponentAnalysis,PCA)对特征提取模型输出的高位特征进行降维处理,根据降维处理后的特征生成关键帧特征集合,该关键帧特征集合作为目标视频指纹。需要说明的是,通过PCA算法进行降维处理不仅实现了大幅减少存储空间,而且对视频指纹的精度影响也较小。
步骤S203、根据目标视频指纹与聚类中心的距离,确定目标视频的目标特征向量。
其中,聚类中心为将多个参考图片的参考特征向量进行聚类得到的。本申请实施例中利用k-means算法将参图片的参考特征向量聚类得到聚类中心,当然,也可以利用k-medoids算法、Clara算法等聚类算法,这里不做限制。
本申请实施例中利用聚类算法得到多个聚类中心,即构建生成码本每个,之后可以利用所有的聚类中心,根据目标视频指纹生成目标特征向量,从而将目标视频转化为一条高维定长向量,该高维定长向量中包含有目标视频的所有关键帧的细节特征。从而可以利用向量进行视频相似性对比。
步骤S204、获取对照视频的对照特征向量,利用目标特征向量与对照特征向量,确定目标视频与对照视频的相似度。
其中,对照视频可以是终端设备实时拍摄后上传的视频,或者对照视频可以是从网络中获取的视频,或者对照视频可以是本地存储的视频。对照视频的对照特征向量也可以利用与上述获取目标视频的目标特征向量相似的方式获得。对照特征向量可以为服务器或终端实时计算得到,较佳地,为了便于对照和检索,一般对照特征向量为预先根据对照视频计算得到后存储在数据库中,这样在需要对目标视频进行对比或检索时,服务器直接从本地数据库中获取即可。
本申请实施例从目标视频中确定关键帧,并将目标视频的关键帧转换为目标视频的目标视频指纹。将多个参考图片的参考特征向量进行聚类得到聚类中心,根据目标视频指纹与聚类中心之间的距离,确定目标视频的目标特征向量,从而将目标视频转换为目标聚类向量。另一方面,获取对照视频的对照特征向量。利用目标聚类向量与对照视频的对照特征向量,确定目标视频与对照视频的相似度。本申请实施例将视频转换为向量,由于向量包含有视频的细节特征,且不受视频时长缩放、帧率变化的影响,准确性较高。且利用了向量相似性检索作为衡量视频之间相似性的方法,无需逐帧对比,减少了计算量,适用于大规模的视频相似性检索。
本申请实施例中,目标视频的关键帧可以为预先设置,例如在对视频解码时,可以获得i帧,i帧又称帧内编码帧,是一种自带全部信息的独立帧,无需参考其他图像便可独立进行解码,基于此,可以将视频解码所获得的i帧直接确定为关键帧,形成目标视频的关键帧序列。
然而预先设置的关键帧不能随意变动,灵活性较差,又关键帧的数量多的话会提高计算量,影响效率;而关键帧的数量少的话无法涵盖视频的所有信息,会影响后续计算的准确性。因此,本申请实施例中通过计算确定目标视频的关键帧,包括:
按照设定的规则,从目标视频中获取多个待选帧;
计算每个待选帧的颜色直方图特征;
根据颜色直方图特征,将所有待选帧聚类,得到多个簇;
将每个簇中距离簇中心最近的待选帧作为目标视频的关键帧。
具体实施过程中,视频由多个场景组成,而同一个场景中的图像序列具有一定的连续性和重复性,为降低计算的冗余,仅对关键帧进行特征提取生成视频指纹。具体的,从单位时长内的帧提取设定数量的待选帧,例如一般视频中每秒包含25-30帧画面,每秒提取3帧画面作为待选帧,这里待选帧的选取方式可以为随机选取,也可以为按照设定的帧数进行选取,或者也可以为其选取方式,这里不做限制。
计算每个待选帧的颜色直方图特征,即HSV((Hue,Saturation,Value)颜色模型,包括待选帧的每个像素的色调(H)、饱和度(S)和明度(V),并将颜色直方图特征进行特征归一化。利用颜色直方图特征,将所有的待选帧聚类,得到多个簇。这里可以利用k-means算法将待选帧聚类得到多个簇,当然,也可以利用k-medoids算法、Clara算法等聚类算法,这里不做限制。上述簇的数量为预先设定,一般来说,若目标视频的时长为t秒,则将簇的个数设定为t,其中t大于0。
得到设定数量的簇后,针对每个簇,计算该簇中每个待选帧至簇中心的距离,选取距离簇中心最近的待选帧作为目标视频的关键帧。这样由于簇的数量为预先设定,则关键帧的数量也确定了,例如上述簇的个数设定为t,则关键帧的数量也为t,即针对时长为t秒的目标视频,一般选出t个关键帧。
针对目标视频,选出关键帧后,对关键帧进行特征提取,生成目标视频指纹。之后,利用目标视频指纹,得到目标视频的目标特征向量。本申请实施例中,利用VLAD算法计算得到目标特征向量。计算之前,需要预先构建好算法对应的码本,即多个聚类中心。
本申请实施例中的聚类中心可以通过以下方式获取:
将每个参考图片输入特征提取模型,得到参考图片对应的参考特征向量;
将参考特征向量降维,并将降维后的参考特征向量进行聚类,得到聚类中心。
具体实施过程中,为了提高码本的准确率和覆盖度,需要获取海量的参考图片。参考图片覆盖各种场景以及各种画面,参考图片可以为从视频中获取的帧图片,也可以直接将网络或本地的图片作为参考图片。将所有参考图片输入特征提取模型中,这里的特征提取模型与上文中获取目标视频指纹的特征提取模型一致,这里不多赘述。将每一个参考图片输入特征提取模型中,获取每个参考图片对应的参考特征向量。
为了降低后续视频检测的计算量和复杂度,还可以将参考特征向量降维。即利用降维算法对参考特征向量进行降维处理。具体地,为了节省存储空间,可以采用主成分分析法(Principal Component Analysis,PCA)对特征提取模型输出的参考特征向量进行降维处理。需要说明的是,通过PCA算法进行降维处理不仅实现了大幅减少存储空间,而且对参考特征向量的精度影响也较小。
将降维后的参考特征向量进行聚类,得到聚类中心。这里可以利用k-means算法将参考特征向量进行聚类得到多个聚类中心,当然,也可以利用k-medoids算法、Clara算法等聚类算法,这里不做限制。上述聚类中心的数量为预先设定,将聚类中心的个数设定为64,这64个聚类中心即组成为码本。之后可以利用构建好的码本生成目标视频的目标特征向量。
本申请实施例中利用VLAD算法计算目标视频的目标特征向量,VLAD算法一般用于计算图像的特征向量,具体根据以下方式进行计算:
提取目标图像的SIFT(Scale-invariant feature transform,尺度不变特征变换)描述子,其中,单条SIPT描述子的维度为128;
利用多个训练图像的SIFT描述子训练码本,训练方法可以为是K-means算法;
把目标图像的SIFT描述子按照最近邻原则分配到码本上,也即分配到N个聚类中心;
对每个聚类中心做残差和,即将属于当前聚类中心的所有SIFT描述子减去聚类中心然后求和;
对得到的残差和做归一化,然后拼接成一个N×128的高维向量。
本申请实施例中,将目标视频中的每个关键帧作为一个图像,利用VLAD算法进行计算,最终将目标视频中所有关键帧结合起来,得到目标特征向量。设定聚类中心的数量为N个,N为正整数,则目标视频的目标特征向量根据以下方式获得:
针对每一个目标视频指纹,根据目标视频指纹与每个聚类中心之间的距离,确定与目标视频指纹距离最近的K个聚类中心;
针对K个聚类中心中的每一个聚类中心,计算目标视频指纹与聚类中心之间的残差;K为小于或等于N的正整数;
针对N个聚类中心中的每一个聚类中心,计算聚类中心与所有目标视频指纹之间的残差和向量;
将计算得到的N个残差和向量作为目标视频的目标特征向量。
具体实施过程中,针对每一关键帧,根据对应的目标视频指纹,确定与该目标视频指纹距离最近的K个聚类中心,一般来说,K可以取3或5等数字。计算目标视频指纹与这K个聚类中心中每个聚类中心的残差。具体的,目标视频指纹与聚类中心的差值根据以下公式计算:
Figure BDA0002386064470000171
其中,x是一关键帧的目标视频指纹,xj是该目标视频指纹中的第j维特征;c是与x距离最近的聚类中心,有k个,其中ci,j为第i个聚类中心;NN(x)代表离x最近的聚类中心;vi,j是以ci,j为聚类中心的目标视频指纹的每一维度的值与聚类中心ci,j的对应维度值的差值。若上述目标视频指纹的维度为d,即x的维度为d,则v的维度D=d×N,其中,N为聚类中心的总个数。这样,每个目标视频指纹都可以转化为D维的向量。
通过上述计算,得到每一个目标视频指纹与K个聚类中心中每个聚类中心相应维度之间的残差。反过来说,针对每个聚类中心,均可通过上述计算得出该聚类中心与目标视频中每个目标视频指纹相应维度之间的残差,从而可以计算该聚类中心与目标视频指纹的残差和向量。图3示出了目标特征向量的构建示意图,如图3所示,对每一关键帧x落在同一个聚类中心ci上的残差进行累加求和,并进行归一化处理,最后每一个聚类中心上都会得到一个残差的累加和向量。由于目标视频指纹的维度为d,则每一个聚类中心上都有一个d维的残差累加和向量。有N个聚类中心,则将N个d维的残差和向量作为目标视频的目标特征向量,该目标特征向量的维度为d×N。
本申请实施例通过上述方式得到目标特征向量,利用目标特征向量表示目标视频,无论目标视频的长短,其目标特征向量均为定长的向量,将向量进行比较,便于视频之间相互比较和检索,且不受视频的时长影响。同时,该目标特征向量包含了该视频的所有关键特征,因此准确性较高,不受视频帧率变化的影响。
本申请实施例中,利用上述方法可以比较任意两个视频之间的相似度。其中,目标视频的目标特征向量由上述过程计算得到,另一个视频可以为对照视频,该对照视频的对照特征向量与目标特征向量的计算方式相同,这里不做赘述。
一种可选的实施例中,对照视频的数量为多个,则此时,可以利用多个对照视频的对照特征向量,对目标特征向量进行相似性检索,从多个对照视频中确定与目标视频相似度最大的对照视频作为相似视频。
例如,视频运营平台接收到用户上传的目标视频,为了保护原创,需要对该视频进行查重。则视频运营平台在使用该目标视频之前,在平台数据库中进行相似性检索,查找到与该目标视频相似度最大的对照视频作为相似视频。进一步,若该相似视频与目标视频的相似度大于阈值,则确定目标视频存在重复,不能取用。
另一种可选的实施例中,从多个对照视频中确定的相似视频的数量也可以为多个。例如,视频运营平台向用户推荐视频,为了避免给用户推送重复视频,可以在向用户推荐目标视频之前,在用户的已推荐数据库中进行相似视频检索,若检测出相似度超过阈值的相似视频,则将该目标视频删去,重新选择视频推荐。又例如,用户编辑视频文件时,需要从网络上查找相关视频素材进行参考,则用户上传目标视频,视频运行平台可以基于用户上传的目标视频从本地数据库中找到相似的多个视频,向用户推送。
这些场景中,由于对照视频的数量较多,为了便于计算和查找,可以通过图索引结构进行检索。具体为,根据搜索算法,利用图索引结果对目标特征向量进行相似性检索;从图索引结构中确定与目标特征向量之间的距离小于距离阈值的M个对照特征向量。将M个对照特征向量对应的M个对照视频作为相似视频。
其中,图索引结构为利用多个对照特征向量构建,M为正整数。
具体来说,图索引结构可以通过以下方式确定:
获取多个对照视频的关键帧;
对对照视频的关键帧进行特征提取,生成对照视频指纹;
根据对照视频指纹与聚类中心的距离,确定每个对照视频的对照特征向量;
利用图索引算法,将对照视频的对照特征向量依次插入网络结构中,建立图索引结构。
具体实施过程中,可以采用HNSW算法将对照视频的对照特征向量构建图索引结构。其中,对照视频的对照特征向量的获取方式,与上述目标视频的目标特征向量的获取方式相同,这里不多赘述。需要注意的是,生成对照特征向量的聚类中心,与生成目标特征向量的聚类中心相同,即对照特征向量和目标特征向量利用同一个码本生成。对照特征向量生成之后,利用HNSW算法,将多个对照特征向量依次插入网络结构中,将所有对照特征向量插入后,建立起如图4所示的图索引结构。
如图4所示,图索引结构以连续插入的方式构建,将一个对照特征向量看做图中的一个点。针对每一个点,通过以下公式来计算这个点可以深入到第几层。
L=floor(-ln(uniform(0,1))×ml)……公式2
其中,ml为常数,floor()的含义是向下取整,uniform(0,1)的含义是在均匀分布中随机取出一个值,ln()表示取对数。
在第0层中,包含了所有点。将某一点插入图索引结构时,先根据公式2计算这个点可以深入到第几层,从顶层(图4中的第2层)开始贪心遍历图索引结构,以便在某层A中找到最近邻点。当在A层找到局部最小值之后,再将A层中找到的最近邻点作为输入点,继续再下一层中寻找最近邻点,重复该过程。在每层中查找t个最近邻点,分别连接它们,对每层图都进行如此操作。将所有点插入后,图索引结构构建完成。HNSW算法将数据建立多层索引,通过顶层粗粒度查找,快速找到候选区域点,作为新的查询点,进入下一层做精细查找,极大的提升了查找效率。
当然,本申请实施例中的图索引结构还可以用其它算法进行构建,如近邻图算法等,这里不做限制。图索引结构构建完成之后,可以利用该图索引结构对目标视频的目标特征向量进行检索。
具体的,利用上述图索引结构进行检索,以确定相似视频,包括:
利用搜索算法,在图索引结构的第L层中查找与目标特征向量最近的对照特征向量;图索引结构为利用对照视频的对照特征向量建立的L层网络模型,L为正整数;
以第L层中最近的对照特征向量为输入,确定第L-1层中与目标特征向量最近的对照特征向量;
以此类推,直至以第1层中最近的对照特征向量为输入,确定第0层中与目标特征向量最近的对照特征向量;
将第0层中与目标特征向量最近的对照特征向量对应的对照视频作为相似视频。
具体实施过程中,可以利用A*搜索算法在图索引结构中对目标特征向量进行检索。检索的基本思想是“邻居的邻居是邻居”,从顶层开始搜索,通过检索目标特征向量的近邻点,看是否有距离目标特征向量更近的点(更相似),若有,则接着走到更近的那个点,继续检查这个点的邻居,看有没有更近的,如此迭代直到找到本层中目标特征向量的最近邻点,然后以该最近邻点作为下一层的输入点,如此迭代,直到最后一层(即第0层)做精细搜索,从而在第0层找到与目标特征向量最接近的对照特征向量。则将0层中确定的对照特征向量对应的对照视频作为目标视频的相似视频。
以下通过具体实例说明本申请实施例提供的视频检索方法的实现过程,具体实施例的场景为视频运营平台接收用户上传的目标视频,并基于视频数据库中的对照视频,对目标视频进行查重检索。具体实施例的流程如图5所示。
首先构建码本。获取海量参考图片,将参考图片输入特征提取模型,得到每一个参考图片对应的参考特征向量。将参考特征向量降维后进行聚类,得到多个聚类中心,即码本。
然后,生成对照视频的对照特征向量,并构建图索引模型。从视频数据库中获取所有对照视频。针对每一个对照视频,提取对照视频中的关键帧,将关键帧输入特征提取模型,对对照视频的关键帧进行特征提取,生成对照视频指纹。之后,利用对照视频指纹以及构建的码本,确定每个对照视频的对照特征向量。利用HNSW算法,将所有对照特征向量依次插入网络结构中,建立图索引结构。
需要说明的是,图索引结构可以预先建立,并存储在视频数据库中。当需要进行检索时,直接获取并检索即可。当有新的对照视频加入时,可以利用上述方法,生成新的对照视频的对照特征向量,并插入原有图索引结构中,形成新的图索引结构。
当视频运营平台接收到用户上传的目标视频后,从目标视频中获取关键帧,对关键帧进行特征提取,生成目标视频指纹,并根据目标视频指纹与码本,确定目标特征向量。将目标特征向量插入图索引结构中,进行相似度检索,确定视频数据库中的对照视频中是否存在与目标视频相似度超过阈值的相似视频,若是,则表明目标视频与其他视频重复,不可使用;若否,则表明目标视频可以使用。
下述为本申请装置实施例,对于装置实施例中未详尽描述的细节,可以参考上述一一对应的方法实施例。
请参考图6,其示出了本申请一个实施例提供的视频检索装置的结构方框图。该装置包括:关键帧获取单元601、指纹提取单元602、特征确定单元603、检索对照单元604。
其中,关键帧获取单元601,用于确定目标视频的关键帧;
指纹提取单元602,用于对目标视频的关键帧进行特征提取,生成目标视频指纹;
特征确定单元603,用于根据目标视频指纹与聚类中心的距离,确定目标视频的目标特征向量;聚类中心为将多个参考图片的参考特征向量进行聚类得到的;
检索对照单元604,用于获取对照视频的对照特征向量,利用目标特征向量与对照特征向量,确定目标视频与对照视频的相似度。
在一种可选的实施例中,关键帧确定单元601,具体用于:
按照设定的规则,从目标视频中获取多个待选帧;
计算每个待选帧的颜色直方图特征;
根据颜色直方图特征,将所有待选帧聚类,得到多个簇;
将每个簇中距离簇中心最近的待选帧作为目标视频的关键帧。
在一种可选的实施例中,指纹提取单元692,具体用于:
将目标视频的关键帧输入特征提取模型,得到关键帧特征;特征提取模型利用训练样本图片以及训练样本图片的分类结果进行训练得到对应的模型参数;
将关键帧特征降维,得到目标视频指纹。
在一种可选的实施例中,聚类中心的数量为N个,N为正整数;特征确定单元603,用于:
针对每一个目标视频指纹,根据目标视频指纹与每个聚类中心之间的距离,确定与目标视频指纹距离最近的K个聚类中心;
针对K个聚类中心中的每一个聚类中心,计算目标视频指纹与聚类中心之间的残差;K为小于或等于N的正整数;
针对N个聚类中心中的每一个聚类中心,计算聚类中心与每个目标视频指纹之间的残差和向量;
将计算得到的N个残差和向量作为目标视频的目标特征向量。
在一种可选的实施例中,特征确定单元603用于根据以下方式获取聚类中心:
将每个参考图片输入特征提取模型,得到参考图片对应的参考特征向量;
将参考特征向量降维,并将降维后的参考特征向量进行聚类,得到聚类中心。
在一种可选的实施例中,检索对照单元604,还用于:
利用多个对照视频的对照特征向量,对目标特征向量进行相似性检索,从多个对照视频中确定与目标视频相似度最大的对照视频作为相似视频。
在一种可选的实施例中,检索对照单元604,具体用于:
根据搜索算法,利用图索引结果对目标特征向量进行相似性检索;
从图索引结构中确定与目标特征向量之间的距离小于距离阈值的M个对照特征向量;图索引结构为利用多个对照特征向量构建,M为正整数;
将M个对照特征向量对应的M个对照视频作为相似视频。
在一种可选的实施例中,检索对照单元604,具体用于通过以下方式确定相似视频:
利用搜索算法,在图索引结构的第L层中查找与目标特征向量最近的对照特征向量;图索引结构为利用对照视频的对照特征向量建立的L层网络模型,L为正整数;
以第L层中最近的对照特征向量为输入,确定第L-1层中与目标特征向量最近的对照特征向量;
以此类推,直至以第1层中最近的对照特征向量为输入,确定第0层中与目标特征向量最近的对照特征向量;
将第0层中与目标特征向量最近的对照特征向量对应的对照视频作为相似视频。
在一种可选的实施例中,检索对照单元604,具体用于通过以下方式确定图索引结构:
获取多个对照视频的关键帧;
对对照视频的关键帧进行特征提取,生成对照视频指纹;
根据对照视频指纹与聚类中心的距离,确定每个对照视频的对照特征向量;
利用图索引算法,将对照视频的对照特征向量依次插入网络结构中,建立图索引结构。
本申请实施例中视频检索装置的从目标视频中确定关键帧,并对目标视频的关键帧进行特征提取,生成目标视频指纹。将多个参考图片的参考特征向量进行聚类得到聚类中心,根据目标视频指纹与聚类中心之间的距离,确定目标视频的目标特征向量,从而将目标视频转换为目标聚类向量。另一方面,获取对照视频的对照特征向量。利用目标聚类向量与对照视频的对照特征向量,确定目标视频与对照视频的相似度。本申请实施例将视频转换为向量,由于向量包含有视频的细节特征,且不受视频时长缩放、帧率变化的影响,准确性较高。且利用了向量相似性检索作为衡量视频之间相似性的方法,无需逐帧对比,减少了计算量,适用于大规模的视频相似性检索。
与上述方法实施例相对应地,本申请实施例还提供了一种电子设备。该电子设备可以是服务器,如图1中所示的服务器102,也可以是终端,如图1中所示的终端设备101,该电子设备至少包括用于存储数据的存储器和用于数据处理的处理器。其中,对于用于数据处理的处理器而言,在执行处理时,可以采用微处理器、CPU、GPU(Graphics ProcessingUnit,图形处理单元)、DSP或FPGA实现。对于存储器来说,存储器中存储有操作指令,该操作指令可以为计算机可执行代码,通过该操作指令来实现上述本申请实施例的视频筛选方法的流程中的各个步骤。
图7为本申请实施例提供的一种电子设备的结构示意图;如图7所示,本申请实施例中该电子设备70包括:处理器71、显示器72、存储器73、输入设备76、总线75和通讯设备74;该处理器71、存储器73、输入设备76、显示器72和通讯设备74均通过总线75连接,该总线75用于该处理器71、存储器73、显示器72、通讯设备74和输入设备76之间传输数据。
其中,存储器73可用于存储软件程序以及模块,如本申请实施例中的视频检索方法对应的程序指令/模块,处理器71通过运行存储在存储器73中的软件程序以及模块,从而执行电子设备70的各种功能应用以及数据处理,如本申请实施例提供的视频检索方法。存储器73可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个应用的应用程序等;存储数据区可存储根据电子设备70的使用所创建的数据(比如动画片段、控制策略网络)等。此外,存储器73可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器71是电子设备70的控制中心,利用总线75以及各种接口和线路连接整个电子设备70的各个部分,通过运行或执行存储在存储器73内的软件程序和/或模块,以及调用存储在存储器73内的数据,执行电子设备70的各种功能和处理数据。可选的,处理器71可包括一个或多个处理单元,如CPU、GPU(Graphics Processing Unit,图形处理单元)、数字处理单元等。
本申请实施例中,处理器71将生成的动画片段通过显示器72展示给用户。
处理器71还可以通过通讯设备74连接网络,如果电子设备是终端设备,则处理器71可以通过通讯设备74与游戏服务器之间传输数据。如果电子设备是游戏服务器,则处理器71可以通过通讯设备74与终端设备之间传输数据。
该输入设备76主要用于获得用户的输入操作,当该电子设备不同时,该输入设备76也可能不同。例如,当该电子设备为计算机时,该输入设备76可以为鼠标、键盘等输入设备;当该电子设备为智能手机、平板电脑等便携设备时,该输入设备76可以为触控屏。
本申请实施例还提供了一种计算机存储介质,该计算机存储介质中存储有计算机可执行指令,该计算机可执行指令用于实现本申请任一实施例的视频检索方法。
在一些可能的实施方式中,本申请提供的视频检索方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的视频检索方法的步骤,例如,计算机设备可以执行如图2所示的步骤S201至S206中的视频检索流程。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。

Claims (12)

1.一种视频检索方法,其特征在于,所述方法包括:
确定目标视频的关键帧;
对所述目标视频的关键帧进行特征提取,生成目标视频指纹;
根据目标视频指纹与聚类中心的距离,确定所述目标视频的目标特征向量;所述聚类中心为将多个参考图片的参考特征向量进行聚类得到的;
获取对照视频的对照特征向量,利用所述目标特征向量与所述对照特征向量,确定所述目标视频与所述对照视频的相似度。
2.根据权利要求1所述的方法,其特征在于,所述确定目标视频的关键帧,包括:
按照设定的规则,从所述目标视频中获取多个待选帧;
计算每个待选帧的颜色直方图特征;
根据颜色直方图特征,将所有待选帧聚类,得到多个簇;
将每个簇中距离簇中心最近的待选帧作为所述目标视频的关键帧。
3.根据权利要求1所述的方法,其特征在于,所述对所述目标视频的关键帧进行特征提取,生成目标视频指纹,包括:
将所述目标视频的关键帧输入特征提取模型,得到关键帧特征;所述特征提取模型利用训练样本图片以及训练样本图片的分类结果进行训练得到对应的模型参数;
将所述关键帧特征降维,得到所述目标视频指纹。
4.根据权利要求1所述的方法,其特征在于,所述聚类中心的数量为N个,N为正整数;所述根据目标视频指纹与聚类中心的距离,确定所述目标视频的目标特征向量,包括:
针对每一个目标视频指纹,根据所述目标视频指纹与每个聚类中心之间的距离,确定与所述目标视频指纹距离最近的K个聚类中心;
针对所述K个聚类中心中的每一个聚类中心,计算所述目标视频指纹与所述聚类中心之间的残差;K为小于或等于N的正整数;
针对N个聚类中心中的每一个聚类中心,计算所述聚类中心与每个目标视频指纹之间的残差和向量;
将计算得到的N个残差和向量作为所述目标视频的目标特征向量。
5.根据权利要求4所述的方法,其特征在于,所述聚类中心通过以下方式获取:
将每个参考图片输入特征提取模型,得到所述参考图片对应的参考特征向量;
将所述参考特征向量降维,并将降维后的参考特征向量进行聚类,得到所述聚类中心。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述获取对照视频的对照特征向量,利用所述目标特征向量与所述对照特征向量,确定所述目标视频与所述对照视频的相似度之后,还包括:
利用多个对照视频的对照特征向量,对所述目标特征向量进行相似性检索,从所述多个对照视频中确定与所述目标视频相似度最大的对照视频作为相似视频。
7.根据权利要求6所述的方法,其特征在于,所述利用多个对照视频的对照特征向量,对所述目标特征向量进行相似性检索,包括:
根据搜索算法,利用图索引结构对所述目标特征向量进行相似性检索;
所述从所述多个对照视频中确定与所述目标视频相似度最大的对照视频作为相似视频,包括:
从所述图索引结构中确定与所述目标特征向量之间的距离小于距离阈值的M个对照特征向量;所述图索引结构为利用多个对照特征向量构建,M为正整数;
将所述M个对照特征向量对应的M个对照视频作为相似视频。
8.根据权利要求7所述的方法,其特征在于,所述相似视频通过以下方式确定:
利用搜索算法,在所述图索引结构的第L层中查找与所述目标特征向量最近的对照特征向量;所述图索引结构为利用对照视频的对照特征向量建立的L层网络模型,L为正整数;
以第L层中最近的对照特征向量为输入,确定第L-1层中与所述目标特征向量最近的对照特征向量;
以此类推,直至以第1层中最近的对照特征向量为输入,确定第0层中与所述目标特征向量最近的对照特征向量;
将所述第0层中与所述目标特征向量最近的对照特征向量对应的对照视频作为所述相似视频。
9.根据权利要求7所述的方法,其特征在于,所述图索引结构通过以下方式确定:
获取多个对照视频的关键帧;
对所述对照视频的关键帧进行特征提取,生成对照视频指纹;
根据对照视频指纹与所述聚类中心的距离,确定每个对照视频的对照特征向量;
利用图索引算法,将对照视频的对照特征向量依次插入网络结构中,建立所述图索引结构。
10.一种视频检索装置,其特征在于,所述装置包括:
关键帧获取单元,用于确定目标视频的关键帧;
指纹提取单元,用于对所述目标视频的关键帧进行特征提取,生成目标视频指纹;
特征确定单元,用于根据目标视频指纹与聚类中心的距离,确定所述目标视频的目标特征向量;所述聚类中心为将多个参考图片的参考特征向量进行聚类得到的;
检索对照单元,用于获取对照视频的对照特征向量,利用所述目标特征向量与所述对照特征向量,确定所述目标视频与所述对照视频的相似度。
11.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,其特征在于:所述计算机程序被处理器执行时,实现权利要求1~9任一项所述的方法。
12.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器实现权利要求1~9任一项所述的方法。
CN202010098469.9A 2020-02-18 2020-02-18 一种视频检索方法、装置、电子设备和存储介质 Pending CN111241345A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010098469.9A CN111241345A (zh) 2020-02-18 2020-02-18 一种视频检索方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010098469.9A CN111241345A (zh) 2020-02-18 2020-02-18 一种视频检索方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN111241345A true CN111241345A (zh) 2020-06-05

Family

ID=70866365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010098469.9A Pending CN111241345A (zh) 2020-02-18 2020-02-18 一种视频检索方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN111241345A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111666449A (zh) * 2020-06-23 2020-09-15 北京字节跳动网络技术有限公司 视频检索方法、装置、电子设备和计算机可读介质
CN111782870A (zh) * 2020-06-18 2020-10-16 湖南大学 基于强化学习的对抗性视频时刻检索方法、装置、计算机设备和存储介质
CN112001280A (zh) * 2020-08-13 2020-11-27 浩鲸云计算科技股份有限公司 一种实时、可在线优化的人脸识别系统和方法
CN112597161A (zh) * 2020-12-23 2021-04-02 北京澎思科技有限公司 数据处理方法、电子设备及可读存储介质
CN112784102A (zh) * 2021-01-20 2021-05-11 北京百度网讯科技有限公司 视频检索方法、装置和电子设备
CN112866800A (zh) * 2020-12-31 2021-05-28 四川金熊猫新媒体有限公司 视频内容相似性检测方法、装置、设备及存储介质
CN113515662A (zh) * 2021-07-09 2021-10-19 北京百度网讯科技有限公司 一种相似歌曲检索方法、装置、设备以及存储介质
CN113627363A (zh) * 2021-08-13 2021-11-09 百度在线网络技术(北京)有限公司 视频文件的处理方法、装置、设备以及存储介质
CN113779303A (zh) * 2021-11-12 2021-12-10 腾讯科技(深圳)有限公司 视频集合的索引方法、装置和存储介质及电子设备
CN113837022A (zh) * 2021-09-02 2021-12-24 北京新橙智慧科技发展有限公司 一种视频行人快速搜索的方法
WO2022161397A1 (zh) * 2021-02-01 2022-08-04 腾讯科技(深圳)有限公司 人脸图像的验证方法、装置、电子设备和存储介质
CN115709356A (zh) * 2022-08-31 2023-02-24 深圳前海瑞集科技有限公司 焊接工艺参数获取方法、装置、电子设备及存储介质
CN117076713A (zh) * 2023-10-18 2023-11-17 中国科学技术大学 一种视频指纹提取和检索方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336795A (zh) * 2013-06-09 2013-10-02 华中科技大学 基于多特征的视频索引方法
WO2014174058A1 (en) * 2013-04-25 2014-10-30 Thomson Licensing Method of obtaining a mega-frame image fingerprints for image fingerprint based content identification, method of identifying a video sequence, and corresponding device
CN106354736A (zh) * 2015-07-23 2017-01-25 无锡天脉聚源传媒科技有限公司 一种重复视频的判断方法及装置
CN109934142A (zh) * 2019-03-04 2019-06-25 北京字节跳动网络技术有限公司 用于生成视频的特征向量的方法和装置
CN110134804A (zh) * 2019-05-20 2019-08-16 北京达佳互联信息技术有限公司 图像检索方法、装置及存储介质
CN110278449A (zh) * 2019-06-26 2019-09-24 腾讯科技(深圳)有限公司 一种视频检测方法、装置、设备及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014174058A1 (en) * 2013-04-25 2014-10-30 Thomson Licensing Method of obtaining a mega-frame image fingerprints for image fingerprint based content identification, method of identifying a video sequence, and corresponding device
CN103336795A (zh) * 2013-06-09 2013-10-02 华中科技大学 基于多特征的视频索引方法
CN106354736A (zh) * 2015-07-23 2017-01-25 无锡天脉聚源传媒科技有限公司 一种重复视频的判断方法及装置
CN109934142A (zh) * 2019-03-04 2019-06-25 北京字节跳动网络技术有限公司 用于生成视频的特征向量的方法和装置
CN110134804A (zh) * 2019-05-20 2019-08-16 北京达佳互联信息技术有限公司 图像检索方法、装置及存储介质
CN110278449A (zh) * 2019-06-26 2019-09-24 腾讯科技(深圳)有限公司 一种视频检测方法、装置、设备及介质

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782870A (zh) * 2020-06-18 2020-10-16 湖南大学 基于强化学习的对抗性视频时刻检索方法、装置、计算机设备和存储介质
CN111666449B (zh) * 2020-06-23 2023-04-25 抖音视界有限公司 视频检索方法、装置、电子设备和计算机可读介质
CN111666449A (zh) * 2020-06-23 2020-09-15 北京字节跳动网络技术有限公司 视频检索方法、装置、电子设备和计算机可读介质
CN112001280A (zh) * 2020-08-13 2020-11-27 浩鲸云计算科技股份有限公司 一种实时、可在线优化的人脸识别系统和方法
CN112597161A (zh) * 2020-12-23 2021-04-02 北京澎思科技有限公司 数据处理方法、电子设备及可读存储介质
CN112866800A (zh) * 2020-12-31 2021-05-28 四川金熊猫新媒体有限公司 视频内容相似性检测方法、装置、设备及存储介质
CN112784102A (zh) * 2021-01-20 2021-05-11 北京百度网讯科技有限公司 视频检索方法、装置和电子设备
CN112784102B (zh) * 2021-01-20 2023-07-28 北京百度网讯科技有限公司 视频检索方法、装置和电子设备
WO2022161397A1 (zh) * 2021-02-01 2022-08-04 腾讯科技(深圳)有限公司 人脸图像的验证方法、装置、电子设备和存储介质
CN113515662A (zh) * 2021-07-09 2021-10-19 北京百度网讯科技有限公司 一种相似歌曲检索方法、装置、设备以及存储介质
CN113627363A (zh) * 2021-08-13 2021-11-09 百度在线网络技术(北京)有限公司 视频文件的处理方法、装置、设备以及存储介质
CN113627363B (zh) * 2021-08-13 2023-08-15 百度在线网络技术(北京)有限公司 视频文件的处理方法、装置、设备以及存储介质
CN113837022A (zh) * 2021-09-02 2021-12-24 北京新橙智慧科技发展有限公司 一种视频行人快速搜索的方法
CN113779303A (zh) * 2021-11-12 2021-12-10 腾讯科技(深圳)有限公司 视频集合的索引方法、装置和存储介质及电子设备
CN115709356A (zh) * 2022-08-31 2023-02-24 深圳前海瑞集科技有限公司 焊接工艺参数获取方法、装置、电子设备及存储介质
CN117076713A (zh) * 2023-10-18 2023-11-17 中国科学技术大学 一种视频指纹提取和检索方法
CN117076713B (zh) * 2023-10-18 2024-02-23 中国科学技术大学 一种视频指纹提取和检索方法

Similar Documents

Publication Publication Date Title
CN111241345A (zh) 一种视频检索方法、装置、电子设备和存储介质
CN110866140B (zh) 图像特征提取模型训练方法、图像搜索方法及计算机设备
Mai et al. Spatial-semantic image search by visual feature synthesis
Yang et al. Learning salient visual word for scalable mobile image retrieval
CN111209897B (zh) 视频处理的方法、装置和存储介质
Le et al. NII-HITACHI-UIT at TRECVID 2016.
CN112131978A (zh) 一种视频分类方法、装置、电子设备和存储介质
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN113515669A (zh) 基于人工智能的数据处理方法和相关设备
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN113590854B (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN112328833A (zh) 标签处理方法、装置及计算机可读存储介质
CN115062709A (zh) 模型优化方法、装置、设备、存储介质及程序产品
CN113033507B (zh) 场景识别方法、装置、计算机设备和存储介质
CN104778272B (zh) 一种基于区域挖掘和空间编码的图像位置估计方法
Bommisetty et al. Content-based video retrieval using integration of curvelet transform and simple linear iterative clustering
CN111783734B (zh) 原版视频识别方法及装置
CN114519863A (zh) 人体重识别方法、人体重识别装置、计算机设备及介质
CN114329004A (zh) 数字指纹生成、数据推送方法、装置和存储介质
Phalke et al. A survey on near duplicate video retrieval using deep learning techniques and framework
Hussain et al. Efficient content based video retrieval system by applying AlexNet on key frames
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
CN113824989A (zh) 一种视频处理方法、装置和计算机可读存储介质
CN113822291A (zh) 一种图像处理方法、装置、设备及存储介质
Zhang et al. Cross indexing with grouplets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40024386

Country of ref document: HK