CN114020963A - 一种相似或重复视频检索的方法和装置 - Google Patents
一种相似或重复视频检索的方法和装置 Download PDFInfo
- Publication number
- CN114020963A CN114020963A CN202111324598.6A CN202111324598A CN114020963A CN 114020963 A CN114020963 A CN 114020963A CN 202111324598 A CN202111324598 A CN 202111324598A CN 114020963 A CN114020963 A CN 114020963A
- Authority
- CN
- China
- Prior art keywords
- video
- gene
- similar
- module
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Library & Information Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明是一种相似或重复视频检索的方法和装置,装置包括应用程序模块、任务调度模块、基因提取模块和基因数据库模块,方法包括首先对视频库中所有视频提取视频基因,并插入Milvus向量数据库,检索时,同样提取待检索视频的基因并发起检索请求,基因数据库返回检索结果,具体包含视频基因入库和相似视频检索。本发明的优点:1)较现有技术方案检索准确度更高,能够减少漏检的情况;2)检索结果以相似图片数进行排序,更符合用户的检索需求;3)检索结果包含待检索视频与目标视频的重合度,有助于用户判断目标视频是否是重复视频;4)不依赖视频文本描述信息,只需提供视频文件即可。
Description
技术领域
本发明涉及的是一种相似或重复视频检索的方法和装置,属于计算机多媒体(图像和视频)信息处理技术领域。
背景技术
现如今,互联网中充斥着大量重复或内容相似的视频,如何从海量视频中快速检索出重复的视频,成为越来越迫切的需求。
现有技术中的解决方案,一种是基于视频标题或简介等文本信息建立数据库然后进行文本检索,另一种是利用向量数据库进行检索(李兆星《相似视频搜索—Opera的Milvus实践》),首先提取视频图像特征并记录向量数据库,然后计算检索结果中待检索视频和命中视频图像集的平均相似度,按图像集的平均相似度进行排序,平均相似度低于某个阈值认为两个视频相似。
然而在视频信息缺失的情况下,文本检索的方案并不适用,比如有时候只有一批视频文件,没有任何视频描述信息,想要在这批视频中查找重复的视频,就不能用文本检索的方法。另一方面,文本描述信息往往描述的不够全面,有时候会由于信息缺失导致检索结果召回率低下。
基于向量数据库结合图像集的平均相似度的方法虽然不依赖于文本描述信息,但是其图片集与图片集的相似度定义为“图片与图片集的相似度的平均值”,导致有时候会出现重合度(相似片段的时长)低的视频排名靠前的问题。例如命中视频和待检索视频中包含同一段广告,广告的内容完全一致,这时候检索结果中该命中视频排名就会很靠前,而真正重合度高的视频排名结果会靠后,这显然无法满足使用需要。
发明内容
本发明提出的是一种相似或重复视频检索的方法和装置,其目的旨在克服现有技术存在的上述不足,实现有效提高检索准确度,减少漏检。
本发明的技术解决方案:一种相似或重复视频检索装置,包括应用程序模块、任务调度模块、基因提取模块和基因数据库模块,
应用程序模块用于用户界面展示以及生成用户检索请求等,
任务调度模块用于解析应用程序模块发起的任务请求,包括视频基因入库请求与相似视频检索请求,并分别生成相应的子任务给基因提取模块和基因数据库模块,
基因提取模块用于接收和处理来自任务调度模块的基因提取子任务,
基因数据库模块用于接收和处理来自任务调度模块的基因入库和检索子任务。
一种相似或重复视频检索的方法,使用上述相似或重复视频检索装置,首先对视频库中所有视频提取视频基因,并插入Milvus向量数据库,检索时,同样提取待检索视频的基因并发起检索请求,基因数据库返回检索结果,具体包含视频基因入库和相似视频检索。
优选的,所述的视频基因入库包括以下步骤:
步骤1:应用程序模块发起视频基因入库请求;
步骤2:任务调度模块接收视频基因入库请求,并发起基因提取子任务请求到基因提取模块;
步骤3:基因提取模块提取视频基因并返回基因提取结果,提取视频基因具体包括:
1)利用ffmpeg开源工具对视频进行抽帧,抽帧的同时将图片缩放到224x224尺寸大小,抽帧图片保存在本地磁盘,抽帧间隔默认1秒,
2)将图片输入预训练好的深度学习模型resnet50,抽取中间表示层的特征,得到2048维的特征向量,
3)假设视频时长为N秒,步骤2)得到一个N*2048维向量组成的浮点数组,将该数组保存为pkl文件并返回;
步骤4:任务调度模块接收基因提取结果并发起基因入库子任务到基因数据库模块;
步骤5:基因数据库模块读取pkl文件并插入到向量数据库中,向量数据库会返回已插入向量对应的向量Id,将向量Id与视频Id的对应关系记录到MySQL数据库中。
优选的,所述的相似视频检索流程包括以下步骤:
步骤1:应用程序模块发起相似视频检索请求;
步骤2:任务调度模块接收相似视频检索请求,并发起基因提取子任务请求到基因提取模块;
步骤3:基因提取模块提取待检索视频基因并返回基因提取结果;
步骤4:任务调度模块接收基因提取结果,并发起基因检索子任务到基因数据库模块;
步骤5:基因数据库模块读取待检索视频基因文件,得到N*2048维向量,N表示待检索视频时长,使用该向量在向量数据库中发起检索,向量数据库返回每个2048维向量对应的topk个最相似的向量,得到N*topk个相似向量对应的向量Id和相似度,过滤其中向量相似度小于某个阈值的结果,并且相同向量Id仅保留相似度最大的结果;
步骤6:在MySQL数据库中查询过滤后相似向量Id对应的视频Id;
步骤7:统计查询结果中同一个视频Id出现的次数,该次数即为待查询视频与目标视频的相似图片数,将相似图片数分别除以待检索视频时长和目标视频时长,得到该目标视频与待查询视频的重合度,分别记为commonAB和commonBA,commonAB表示待检索视频与目标视频相似百分比,commonBA表示目标视频与待检索视频相似百分比;
步骤8:对步骤7所得结果结果以相似图片数按从大到小进行排序,取其中的topk个结果返回,得到最相似的topk个视频Id和对应的视频重合度commonAB、commonBA。
本发明的优点:1)较现有技术方案检索准确度更高,能够减少漏检的情况;
2)检索结果以相似图片数进行排序,更符合用户的检索需求;
3)检索结果包含待检索视频与目标视频的重合度,有助于用户判断目标视频是否是重复视频;
4)不依赖视频文本描述信息,只需提供视频文件即可。
附图说明
图1是本发明相似或重复视频检索装置的结构框图。
图2是图1中基因入库的流程图。
图3是图1中相似视频检索的流程图。
具体实施方式
下面结合实施例和具体实施方式对本发明作进一步详细的说明。
如图1所示,一种相似或重复视频检索装置,包括应用程序模块、任务调度模块、基因提取模块和基因数据库模块,
应用程序模块用于用户界面展示以及生成用户检索请求等,
任务调度模块用于解析应用程序模块发起的任务请求,包括视频基因入库请求与相似视频检索请求,并分别生成相应的子任务给基因提取模块和基因数据库模块,
基因提取模块用于接收和处理来自任务调度模块的基因提取子任务,
基因数据库模块用于接收和处理来自任务调度模块的基因入库和检索子任务。
一种相似或重复视频检索的方法,包括:首先对视频库中所有视频提取视频基因,并插入Milvus向量数据库,检索时,同样提取待检索视频的基因并发起检索请求,基因数据库返回检索结果。具体包含两个流程:一个是视频基因入库流程,一个是相似视频检索流程。
如图2所示,视频基因入库流程包括以下步骤:
步骤1:应用程序模块发起视频基因入库请求;
步骤2:任务调度模块接收请求并发起基因提取子任务请求到基因提取模块;
步骤3:基因提取模块提取视频基因并返回提取结果,提取视频基因的流程具体如下:
1)利用ffmpeg开源工具对视频进行抽帧,抽帧的同时将图片缩放到224x224尺寸大小,抽帧图片保存在本地磁盘,抽帧间隔默认1秒,
2)将图片输入预训练好的深度学习模型resnet50,抽取中间表示层的特征,得到2048维的特征向量,
3)假设视频时长为N秒,上一步将得到一个N*2048维向量组成的浮点数组,将该数组保存为pkl文件并返回;
步骤4:任务调度模块接收基因提取结果并发起基因入库子任务到基因数据库模块;
步骤5:基因数据库模块读取上述pkl文件并插入到向量数据库中,向量数据库会返回已插入向量对应的向量Id,将向量Id与视频Id的对应关系记录到MySQL数据库中。
如图3所示,相似视频检索流程包括以下步骤:
步骤1:应用程序模块发起相似视频检索请求;
步骤2:任务调度模块接收请求并发起基因提取子任务请求到基因提取模块;
步骤3:基因提取模块提取待检索视频基因并返回提取结果;
步骤4:任务调度模块接收基因提取结果并发起基因检索子任务到基因数据库模块;
步骤5:基因数据库模块读取待检索视频基因文件,得到N*2048维向量,N表示待检索视频时长,使用该向量在向量数据库中发起检索,向量数据库会返回每个2048维向量对应的topk个最相似的向量,这样就得到N*topk个相似向量对应的向量Id和相似度,过滤其中向量相似度小于某个阈值的结果,并且相同向量Id仅保留相似度最大的结果;
步骤6:在MySQL数据库中查询过滤后相似向量Id对应的视频Id;
步骤7:统计查询结果中同一个视频Id出现的次数,该次数即为待查询视频与目标视频的相似图片数。将相似图片数分别除以待检索视频时长和目标视频时长,可以得到该目标视频与待查询视频的重合度,分别记为commonAB和commonBA,commonAB表示待检索视频中有多少百分比与目标视频相似,commonBA表示目标视频中有多少百分比与待检索视频相似;
步骤8:对上一步结果以相似图片数按从大到小进行排序,取其中的topk个结果返回,得到最相似的topk个视频Id和对应的视频重合度commonAB、commonBA。
本发明通过提取图像特征并记录向量数据库,利用向量数据库的快速查找相似向量的特性,实现海量视频中快速查找出跟目标视频相似的或重复的视频,此过程不依赖视频文本描述信息,仅依赖视频文件。同时,本发明重新定义图片集与图片集的相似度,定义为相似图片数,其中图片相似度大于某一个阈值认为两张图片相似,并在检索结果中以相似图片数进行排序,这样,重合度高的视频就会排在检索结果前面。
以上所述的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (4)
1.一种相似或重复视频检索装置,其特征包括应用程序模块、任务调度模块、基因提取模块和基因数据库模块,
应用程序模块用于用户界面展示以及生成用户检索请求等,
任务调度模块用于解析应用程序模块发起的任务请求,包括视频基因入库请求与相似视频检索请求,并分别生成相应的子任务给基因提取模块和基因数据库模块,
基因提取模块用于接收和处理来自任务调度模块的基因提取子任务,
基因数据库模块用于接收和处理来自任务调度模块的基因入库和检索子任务。
2.一种相似或重复视频检索的方法,其特征是使用如权利要求1所述的一种相似或重复视频检索装置,首先对视频库中所有视频提取视频基因,并插入Milvus向量数据库,检索时,同样提取待检索视频的基因并发起检索请求,基因数据库返回检索结果,具体包含视频基因入库和相似视频检索。
3.如权利要求2所述的一种相似或重复视频检索的方法,其特征是所述的视频基因入库包括以下步骤:
步骤1:应用程序模块发起视频基因入库请求;
步骤2:任务调度模块接收视频基因入库请求,并发起基因提取子任务请求到基因提取模块;
步骤3:基因提取模块提取视频基因并返回基因提取结果,提取视频基因具体包括:
1)利用ffmpeg开源工具对视频进行抽帧,抽帧的同时将图片缩放到224x224尺寸大小,抽帧图片保存在本地磁盘,抽帧间隔默认1秒,
2)将图片输入预训练好的深度学习模型resnet50,抽取中间表示层的特征,得到2048维的特征向量,
3)假设视频时长为N秒,步骤2)得到一个N*2048维向量组成的浮点数组,将该数组保存为pkl文件并返回;
步骤4:任务调度模块接收基因提取结果并发起基因入库子任务到基因数据库模块;
步骤5:基因数据库模块读取pkl文件并插入到向量数据库中,向量数据库会返回已插入向量对应的向量Id,将向量Id与视频Id的对应关系记录到MySQL数据库中。
4.如权利要求3所述的一种相似或重复视频检索的方法,其特征是所述的相似视频检索流程包括以下步骤:
步骤1:应用程序模块发起相似视频检索请求;
步骤2:任务调度模块接收相似视频检索请求,并发起基因提取子任务请求到基因提取模块;
步骤3:基因提取模块提取待检索视频基因并返回基因提取结果;
步骤4:任务调度模块接收基因提取结果,并发起基因检索子任务到基因数据库模块;
步骤5:基因数据库模块读取待检索视频基因文件,得到N*2048维向量,N表示待检索视频时长,使用该向量在向量数据库中发起检索,向量数据库返回每个2048维向量对应的topk个最相似的向量,得到N*topk个相似向量对应的向量Id和相似度,过滤其中向量相似度小于某个阈值的结果,并且相同向量Id仅保留相似度最大的结果;
步骤6:在MySQL数据库中查询过滤后相似向量Id对应的视频Id;
步骤7:统计查询结果中同一个视频Id出现的次数,该次数即为待查询视频与目标视频的相似图片数,将相似图片数分别除以待检索视频时长和目标视频时长,得到该目标视频与待查询视频的重合度,分别记为commonAB和commonBA,commonAB表示待检索视频与目标视频相似百分比,commonBA表示目标视频与待检索视频相似百分比;
步骤8:对步骤7所得结果结果以相似图片数按从大到小进行排序,取其中的topk个结果返回,得到最相似的topk个视频Id和对应的视频重合度commonAB、commonBA。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111324598.6A CN114020963A (zh) | 2021-11-10 | 2021-11-10 | 一种相似或重复视频检索的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111324598.6A CN114020963A (zh) | 2021-11-10 | 2021-11-10 | 一种相似或重复视频检索的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114020963A true CN114020963A (zh) | 2022-02-08 |
Family
ID=80062997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111324598.6A Pending CN114020963A (zh) | 2021-11-10 | 2021-11-10 | 一种相似或重复视频检索的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114020963A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115495457A (zh) * | 2022-11-16 | 2022-12-20 | 青岛以萨数据技术有限公司 | 基于单机向量数据库的数据处理系统、设备及存储介质 |
-
2021
- 2021-11-10 CN CN202111324598.6A patent/CN114020963A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115495457A (zh) * | 2022-11-16 | 2022-12-20 | 青岛以萨数据技术有限公司 | 基于单机向量数据库的数据处理系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10922350B2 (en) | Associating still images and videos | |
US9355330B2 (en) | In-video product annotation with web information mining | |
AU2009357597B2 (en) | Methods and apparatuses for facilitating content-based image retrieval | |
CN107562742B (zh) | 一种图像数据处理方法及装置 | |
US8768917B1 (en) | Method and apparatus for automatically identifying compounds | |
US20090112830A1 (en) | System and methods for searching images in presentations | |
US8391355B2 (en) | Method and device for online dynamic semantic video compression and video indexing | |
US8090715B2 (en) | Method and system for dynamically generating a search result | |
EP2497041A2 (en) | Content-based image search | |
CN109408672B (zh) | 一种文章生成方法、装置、服务器及存储介质 | |
EP3996373A3 (en) | Method and apparatus of generating bullet comment, device, and storage medium | |
CN104599692A (zh) | 录音方法及装置,录音内容搜索方法及装置 | |
CN113407773A (zh) | 一种短视频智能推荐方法、系统、电子设备及存储介质 | |
Araujo et al. | Stanford I2V: a news video dataset for query-by-image experiments | |
CN114020963A (zh) | 一种相似或重复视频检索的方法和装置 | |
Chang et al. | An interactive approach to integrating external textual knowledge for multimodal lifelog retrieval | |
Truong et al. | Video search based on semantic extraction and locally regional object proposal | |
Tommasi et al. | Beyond metadata: searching your archive based on its audio-visual content | |
JP6991255B2 (ja) | メディア検索方法及び装置 | |
CN108228101B (zh) | 一种管理数据的方法和系统 | |
Juan et al. | Content-based video retrieval system research | |
EP2435928A1 (en) | Method and computer program product for enabling organization of media objects | |
CN110929002B (zh) | 相似文章去重的方法、装置、终端及计算机可读存储介质 | |
WO2003105489A1 (en) | Method and device for online dynamic semantic video compression and video indexing | |
Sebastine et al. | Semantic web for content based video retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |