CN112182287B - 一种基于时空视觉词组和分层匹配的视频拷贝检测方法 - Google Patents
一种基于时空视觉词组和分层匹配的视频拷贝检测方法 Download PDFInfo
- Publication number
- CN112182287B CN112182287B CN202010945969.1A CN202010945969A CN112182287B CN 112182287 B CN112182287 B CN 112182287B CN 202010945969 A CN202010945969 A CN 202010945969A CN 112182287 B CN112182287 B CN 112182287B
- Authority
- CN
- China
- Prior art keywords
- video
- surf
- library
- layer
- visual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/71—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/75—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Library & Information Science (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于时空视觉词组和分层匹配的视频拷贝检测方法,包括以下步骤:1)视频帧采样;2)SURF特征提取;3)空间视觉词生成;4)时间视觉词生成;5)时空视觉词组生成;6)多级倒排索引结构构建;7)特征分层匹配与特征相似度融合计算;通过以上步骤得到查询视频和库视频之间的相似度,从而判定库视频是否为查询视频的拷贝版本。本发明首先生成时空视觉词组,然后将生成的时空视觉词组构建多级倒排索引以便于特征匹配,在线检测阶段使用了特征分层匹配与相似度融合计算策略,本发明的视频拷贝检测方法,在保证拷贝检测效率的同时,大大提高了检测的准确度。
Description
技术领域
本发明属于信息安全领域。
背景技术
由于互联网技术和视频处理技术,尤其是目前新兴的基于人工智能的视频处理技术的发展,视频拷贝成本越来越低。为了防止视频内容被未经授权地非法使用和隐私侵犯,检测具有版权视频的非法拷贝版本已成为迫切的问题。因此,视频拷贝检测技术在信息安全领域起着非常重要的作用。
实际上,无论对原视频使用何种拷贝攻击方式,拷贝后的视频仍会保留有与原视频相同内容。通过设计合适的特征提取算法,可以提取视频内容的独一无二紧凑特征,并进行特征匹配,从而可以实现拷贝检测。在图像检索领域,通常使用传统词袋模型来描述图像,然后建立倒排索引结构实现快速检索。传统词袋模型通常从图像中提取一组局部特征,将高维特征向量量化为紧凑的视觉词,来描述图像内容。词袋模型能大大压缩图像局部特征向量,从而以更加紧凑的方式描述图像。倒排索引主要应用于多媒体搜索领域,可以实现对大规模数据的快速检索。类似于文本检索中基于关键词的倒排索引结构,图像检索方法通常将视觉词作为索引,建立倒排索引结构,可以在大规模图像数据库中进行快速检索。
类似于图像检索,现有的视频拷贝检测研究大多数都是基于传统的词袋模型,将视频帧看作图像,提取视觉词来描述视频内容。现有的视频拷贝检测方法仍然有以下几个技术难题:
1)对于一个视频片段,传统的词袋模型的视觉词只考虑其空间域特征而忽视了时间域特征,因此现有的视频拷贝检测方法检测精度不高。
2)现有的视频拷贝检测方法,对于视频的空间域特征和时间域特征单独进行处理,并没有建立统一的倒排索引结构,这导致占用内存空间大,检测效率不够理想,不适合在大规模数据集上应用。
3)现有的视频拷贝检测方法,对于视频之间特征匹配和相似度度量方式比较单一,没有充分考虑到空间域与时间域不同特征之间匹配结果和相似度计算,因而在视频相似度准确度量方面需要进一步提高。
发明内容
发明目的:为解决背景技术中存在的问题,本发明提供过了一种基于时空视觉词组和分层匹配的视频拷贝检测方法。
技术方案:本发明提供过一种基于时空视觉词组和分层匹配的视频拷贝检测方法,具体包括如下步骤:
步骤1:以d帧为采样间隔,对视频库中的每个视频进行均匀采样,得到采样帧;
步骤2:在每一个采样帧中提取若干个SURF特征;
步骤3:通过K-means聚类算法,将每个SURF特征量化到相应的视觉词,从而得到第n个SURF特征fn的空间视觉词wS(fn),n=1,2,3…,N;N为SURF特征的总个数;
步骤4:针对视频库中的每一个视频的第k个采样帧,k=1,2,…L-1,当时,检测该视频中的第k~第个采样帧中相同的SURF特征,并将相同的SURF特征作为一组SURF特征组,当时,则检测第k~L个采样帧中相同的SURF特征;并将相同的SURF特征作为一组SURF特征组;对每一组SURF特征组中的SURF特征轨迹进行量化编码,从而的得到该组中SURF特征对应的时间视觉词;其中L为该视频中采样帧的总个数,所述相同的SURF特征为具有相同空间视觉词的SURF特征;
步骤5:将步骤4的每一组中的SURF特征对应的空间视觉词和时间视觉词的集合作为该SURF特征的时空视觉词组;
步骤6:根据视频库中所有的时空视觉词组,构建多级倒排索引结构;
步骤7:提取被查询视频的时空视觉词组,并基于多级倒排索引结构在视频库中查找与该被查询图像相互匹配的库视频,并计算被查询视频和每一个与被查询视频相互匹配的库视频之间的相似度。
进一步的,所述步骤4中相同特征的检测具体为:以第k个采样帧中第i个SURF特征fi的位置p(fi)为中心,7.5×σ(fi)为半径,当时,在第采样帧中均设置寻找区域,当时,在第k+1~L个采样帧中均设置寻找区域,其中σ(fi)为fi的尺度,i=1,2,…,I,I为第k个采样帧中SURF特征的总个数,判断每一个区域内是否均存在与fi的空间视觉词wS(fi)相同的SURF特征,若否,则停止对第i个SURF特征进行时间视觉词的提取,并继续检测第k个采样帧中的下一个SURF特征;否则,若某一个区域内存在多个与wS(fi)相同的SURF特征,则计算这些多个SURF特征中每个SURF特征的主方向与fi的主方向的差值,以及每个SURF特征的尺度与fi的尺度的差值,并计算两个差值之和,选择差值之和最小的SURF特征作为该区域中与特征fi相同的特征。
进一步的,所述步骤4中对每一组SURF特征组中的SURF特征的进行轨迹进行量化编码具体为:
步骤4.1:基于第k~第个或第k~L个采样帧,针对任意一组SURF特征组中相同的SURF特征fm,根据该fm在第k个采样帧中的位置p(fm)=(xm,ym)和在i`个采样帧中的位置得到它们在横向和纵向上的差值Δxl',Δyl';当时,当时,l'=k+1,k+2,…,L;其中(xm,ym)为fm在第k个采样帧中的坐标,为fm在第i`个采样帧中的坐标;
其中,abs(*)表示取绝对值;
步骤4.2:对差值Δxl'和Δyl'进行量化得到量化后的值q(Δxl')和q(Δyl')
步骤4.3:特征fm在第l'采样帧中的时间视觉词为:
进一步的,所述步骤7为:
步骤7.1:查询倒排索引的第1层,在视频库中查找与被查询视频Q存在相同空间视觉词的库视频,记录这些库视频的个数为R,计算被查询视频Q与R个库视频中的第r个库视频的相似度sim1(Q,r),r=1,2,…,R;
sim1(Q,r)=NC(wS)/max[NQ(wS),Nr(wS)]
其中NC(wS)表示被查询视频Q与第r个库视频之间相同的空间视觉词的总个数,NQ(wS)表示所有相同的空间视觉词在被查询视频Q中出现的总次数,Nr(wS)表示所有相同的空间视觉词在第r个库视频中出现的总次数;
其中,yd表示第d层,为第d层倒排索引结构中的时间视觉词,为第1层空间视觉词与第2层~d层中的时间视觉词组成的时空视觉词组,表示在第1~d层中,被查询视频Q与第r个库视频之间相同的时空视词组的总个数,为所有相同的时空视词组在被查询视频Q中出现的总次数,为所有相同的时空视词组在第r个库视频中出现的总次数;
若否,则停止计算被查询视频Q与第r个库视频的相似度,对下一个库视频进行计算;
有益效果:
(1)本发明设计的一种基于时空视觉词组和分层匹配的视频拷贝检测方法。不同于现有的图像和视频检索方法,该方法不仅利用传统词袋模型提取视频帧的空间视觉词,并且考虑视频帧之间相同特征的运动轨迹,从而提取时间视觉词。通过联合空间视觉词和时间视觉词构造时空视觉词组,从而能更加准确地表达视频内容。
(2)本发明设计的一种基于时空视觉词组和分层匹配的视频拷贝检测方法,根据生成的时空视觉词组,构建多级倒排索引,能同时支持粗粒度和细粒度的特征分层匹配,从而大大提高特征匹配的精确度,并保证较高的匹配效率。
(3)本发明设计的一种基于时空视觉词组和分层匹配的视频拷贝检测方法,充分考虑到粗粒度和细粒度的多层次特征匹配和这些特征匹配结果的相似度度量,并对特征相似度融合计算得到最终视频相似度,能更加准确度量视频之间的相似度。
附图说明
图1为本发明的总体框架示意图;
图2为本发明的时间视觉词生成示意图;
图3为本发明的多级倒排索引结构示意图。
具体实施方式
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
如图1所示,本实施例提供了一种基于时空视觉词组和分层匹配的视频拷贝检测方法,具体为:
步骤1:对视频库中的每个视频以间隔d帧进行均匀采样,得到采样后的视频帧。以下步骤均针对采样视频帧进行处理。为了平衡检测精确度和存储空间占用,在本发明中,设置采样间隔d=2。
步骤2:对每个采样帧当作图像,从中提取上百个SURF特征。其中,每个SURF特征fn包含1个64维度特征向量v(fn)和3个特征值:位置p(fn)、方向θ(fn)以及尺度σ(fn)。
步骤3:对上述提取的SURF特征,使用K-means聚类算法进行聚类,聚类中心数目设定为K,则得到K个聚类中心。将这K个聚类中心看作空间视觉词,这些视觉词的集合称作空间视觉词典其中wS(I)表示第I个聚类中心的空间视觉词。每个SURF特征都可以使用与其距离最近的空间视觉词来量化表示。最终,将库视频每个SURF特征量化到相应的视觉词,从而得到空间视觉词wS(fn)。由于较大的聚类中心数目K将导致K-means聚类时庞大的计算消耗,而较小的K会导致视觉词生成时的量化损失过大。考虑以上因素,本发明将K设为200000。该设置可以在聚类计算量和量化损失之间较好的平衡。
步骤4:针对当前视频帧及之后的若干个相邻帧,检测相同SURF特征的运动轨迹,并进行量化编码,从而得到时间视觉词,具体为:针对视频库中的每一个视频的第k帧采样帧,k=1,2,…L-1,当时,检测该视频中的第k~第个采样帧中相同的SURF特征,并将相同的SURF特征作为一组SURF特征组,当时,则检测第k~L个采样帧中相同的SURF特征;并将相同的SURF特征作为一组SURF特征组;对每一组SURF特征组中的SURF特征进行轨迹进行量化编码,从而的得到该组中SURF特征对应的时间视觉词;其中L为该视频中采样帧的总个数,所述相同的SURF特征为具有相同视觉词的SURF特征;本实施例中
步骤5:将步骤4的每一组中的SURF特征对应的空间视觉词和时间视觉词的集合作为该SURF特征的时空视觉词组;
步骤6:根据视频库中所有的时空视觉词组,构建多级倒排索引结构;
步骤8:在线检测阶段,提取被查询视频的时空视觉词组,并基于多级倒排索引结构在视频库中查找与该被查询图像相互匹配的库视频,并计算被查询视频和每一个与被查询视频相互匹配的库视频之间的相似度。
优选的,所述步骤4中对每一个SURF特征组中的SURF特征的进行轨迹进行量化编码具体为:将一个任意给定的采样帧作为当前帧,针对当前帧中SURF征点fi,遍历当前帧之后的个相邻帧寻找与fi相同的SURF特征。具体做法为:对于当前帧的SURF特征fi(其空间视觉词和所在位置分别表示为w(fi)和p(fi)),在其后个相邻帧的每帧中,以p(fn)为中心和7.5×σ(fi)为半径的区域内查找是否有空间视觉词同为w(fi)的SURF特征,其中σ(fi)为fi的尺度,这样的SURF特征可以看作相同的SURF特征。如果没有这样的特征,将跳过时间视觉词提取步骤,对当前帧中下一个SURF征点进行提取;如果有一个区域内有多个这样特征,则计算这些多个SURF特征中每个SURF特征的主方向与fi的主方向的差值,以及每个SURF特征的尺度与fi的尺度的差值,并计算两个差值之和,选择差值之和最小的SURF特征作为与该区域中与特征fi相同的特征,只保留差值和最小的SURF特征。最后,统计保留下来的SURF特征在个相邻帧的位置,表示为{p1(fi),p2(fi)}。
优选的,如图2所示,所述步骤4中对每一个SURF特征组中的SURF特征的进行轨迹进行量化编码具体为:
步骤4-1:基于第k~第个或第k~L个采样帧,针对任意一组SURF特征组中相同的SURF特征fm,据该fm在第k个采样帧中的位置p(fm)=(xm,ym)和在第i`个采样帧中的位置计算出它们之间的运动位移信息。然后通过对位移信息进行量化编码,可以得到时间视觉词,如图2所示,计算它们在横向和纵向上的差值Δxl',Δyl';当时,当时,l'=k+1,k+2,…,L,其中(xm,ym)为fm在第k个采样帧中的坐标,为fm在第i`个采样帧中的坐标;
其中,abs(*)表示取绝对值;由于视频帧内SURF特征的位置的横坐标和纵坐标分别不超过视频帧的宽度和高度,那么0≤Δx≤w和0≤Δy≤h,w和h分别是视频帧的宽度和高度。
步骤4-2:对差值Δxl'和Δyl'进行量化得到量化后的值q(Δxl')和q(Δyl')
步骤4-2:针对SURF特征fm在当前帧和每个相邻采样帧位置,参考以上步骤,计算他们的横坐标和纵坐标差值并量化,得到一系列量化值对,表示为或者不同于空间视觉词生成方式,我们直接将不同的量化值对串联起来生成若干个时间视觉词。
具体来说,根据生成的量化值对,将第l'个量化值对串联起来,可以得到第l'采样帧中的时间视觉词为,表示为:
则若该组中SURF特征fm的时间视觉词为若 该组中SURF特征fm的时间视觉词为此外由于1≤q(Δxl')≤s1,1≤q(Δyl')≤s2,s1=10,s2=3,那么每个视觉词的取值范围为[1,30]。
优选的,步骤6为该索引结构共有层,第1层为所有的空间视觉词,第层依次设置SURF特征fm对应第或第k+1~L采样帧中的时间视觉词,第2层为第层中每个时间视觉词对应的视屏ID;具体的如图3所示,本实施例中l=2,则该索引结构总共有4层,第1层为空间视觉词wS,当1<k≤L-2时,第k帧采样帧与与其向后相邻的个采样帧组成的相同SURF特征组,第2层为该组特征组中SURF特征在第k+1采样帧中的时间视觉词第3层为该组特征组中SURF特征在第k+2采样帧中时间视觉词当L-2<k≤L-1时,第k采样帧与第L采样帧组成的相同SURF特征组,该组中的SURF特征的在第L采样帧中时间视觉词只放在第2层;第4层是时空视觉词组为的特征所在视频ID。
步骤7-1:查询倒排索引的第一层,在视频库中查找与被查询视频Q存在相同空间视觉词的库视频,记录这些库视频的个数为R个,计算被查询视频Q与R个库视频中的第r个库视频的相似度sim1(Q,r),r=1,2,…,R;
sim1(Q,r)=NC(wS)/max[NQ(wS),Nr(wS)]
其中NC(wS)表示被查询视频Q与第r个库视频之间相同的空间视觉词的总个数,NQ(wS)表示所有相同的空间视觉词在被查询视频Q中出现的总次数,Nr(wS)表示所有相同的空间视觉词在第r个库视频中出现的总次数;
其中,yd表示第d层,为第d层倒排索引结构中的时间视觉词,为第一层空间视觉词与第2层~d层中的时间视觉词组成的时空视觉词组,表示在第1~d层中,被查询视频Q与第r个库视频之间相同的时空视词组的总个数,为所有相同的时空视词组在被查询视频Q中出现的总次数,为所有相同的时空视词组在第r个库视频中出现的总次数。
若否,则停止计算被查询视频Q与第r个库视频的相似度,对下一个库视频进行计算;
Sim(Q,r)=∑(ω1×sim1(Q,r)+ω2×sim2(Q,r)+ω3×sim2(Q,r))
其中,ω1=0.8,ω2=0.1,ω3=0.1。
步骤7-4:将查询视频与所有候选库视频之间的相似度进行降序排序,作为拷贝检测结果。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (5)
1.一种基于时空视觉词组和分层匹配的视频拷贝检测方法,其特征在于,具体包括如下步骤:
步骤1:以d帧为采样间隔,对视频库中的每个视频进行均匀采样,得到采样帧;
步骤2:在每一个采样帧中提取若干个SURF特征;
步骤3:通过K-means聚类算法,将每个SURF特征量化到相应的视觉词,从而得到第n个SURF特征fn的空间视觉词wS(fn),n=1,2,3...,N;N为SURF特征的总个数;
步骤4:针对视频库中的每一个视频的第k个采样帧,k=1,2,…L-1,当时,检测该视频中的第k~第个采样帧中相同的SURF特征,并将相同的SURF特征作为一组SURF特征组,当时,则检测第k~L个采样帧中相同的SURF特征;并将相同的SURF特征作为一组SURF特征组;对每一组SURF特征组中的SURF特征轨迹进行量化编码,从而得到该组中SURF特征对应的时间视觉词;其中L为该视频中采样帧的总个数,所述相同的SURF特征为具有相同空间视觉词的SURF特征;
步骤5:将步骤4的每一组中的SURF特征对应的空间视觉词和时间视觉词的集合作为该SURF特征的时空视觉词组;
步骤6:根据视频库中所有的时空视觉词组,构建多级倒排索引结构;
步骤7:提取被查询视频的时空视觉词组,并基于多级倒排索引结构在视频库中查找与该被查询图像相互匹配的库视频,并计算被查询视频和每一个与被查询视频相互匹配的库视频之间的相似度。
2.根据权利要求1所述的一种基于时空视觉词组和分层匹配的视频拷贝检测方法,其特征在于,所述步骤4中相同特征的检测具体为:以第k个采样帧中第i个SURF特征fi的位置p(fi)为中心,7.5×σ(fi)为半径,当时,在第采样帧中均设置寻找区域,当时,在第k+1~L个采样帧中均设置寻找区域,其中σ(fi)为fi的尺度,i=1,2,...,I,I为第k个采样帧中SURF特征的总个数,判断每一个区域内是否均存在与fi的空间视觉词wS(fi)相同的SURF特征,若否,则停止对第i个SURF特征进行时间视觉词的提取,并继续检测第k个采样帧中的下一个SURF特征;否则,若某一个区域内存在多个与wS(fi)相同的SURF特征,则计算这些多个SURF特征中每个SURF特征的主方向与fi的主方向的差值,以及每个SURF特征的尺度与fi的尺度的差值,并计算两个差值之和,选择差值之和最小的SURF特征作为该区域中与特征fi相同的特征。
3.根据权利要求1所述的一种基于时空视觉词组和分层匹配的视频拷贝检测方法,其特征在于,所述步骤4中对每一组SURF特征组中的SURF特征的进行轨迹进行量化编码具体为:
步骤4.1:基于第k~第个或第k~L个采样帧,针对任意一组SURF特征组中相同的SURF特征fm,根据该fm在第k个采样帧中的位置p(fm)=(xm,ym)和在第i`个采样帧中的位置得到它们在横向和纵向上的差值Δxl′,Δyi′;当时,l′=k+1,当时,l′=k+1,k+2,...,L;其中(xm,ym)为fm在第k个采样帧中的坐标,为fm在第i`个采样帧中的坐标;
其中,abs(*)表示取绝对值;
步骤4.2:对差值Δxl′和Δyl′进行量化得到量化后的值q(Δxl′)和q(Δyl′)
步骤4.3:特征fm在第l′采样帧中的时间视觉词为:
5.根据权利要求4所述的一种基于时空视觉词组和分层匹配的视频拷贝检测方法,其特征在于,所述步骤7为:
步骤7.1:查询倒排索引的第1层,在视频库中查找与被查询视频Q存在相同空间视觉词的库视频,记录这些库视频的个数为R,计算被查询视频Q与R个库视频中的第r个库视频的相似度sim1(Q,r),r=1,2,…,R;
sim1(Q,r)=NC(wS)/max[NQ(wS),Nr(wS)]
其中NC(ws)表示被查询视频Q与第r个库视频之间相同的空间视觉词的总个数,NQ(wS)表示所有相同的空间视觉词在被查询视频Q中出现的总次数,Nr(wS)表示所有相同的空间视觉词在第r个库视频中出现的总次数;
其中,yd表示第d层,为第d层倒排索引结构中的时间视觉词,为第1层空间视觉词与第2层~d层中的时间视觉词组成的时空视觉词组,表示在第1~d层中,被查询视频Q与第r个库视频之间相同的时空视词组的总个数,为所有相同的时空视词组在被查询视频Q中出现的总次数,为所有相同的时空视词组在第r个库视频中出现的总次数;
若否,则停止计算被查询视频Q与第r个库视频的相似度,对下一个库视频进行计算;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010945969.1A CN112182287B (zh) | 2020-09-10 | 2020-09-10 | 一种基于时空视觉词组和分层匹配的视频拷贝检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010945969.1A CN112182287B (zh) | 2020-09-10 | 2020-09-10 | 一种基于时空视觉词组和分层匹配的视频拷贝检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112182287A CN112182287A (zh) | 2021-01-05 |
CN112182287B true CN112182287B (zh) | 2021-06-08 |
Family
ID=73921740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010945969.1A Active CN112182287B (zh) | 2020-09-10 | 2020-09-10 | 一种基于时空视觉词组和分层匹配的视频拷贝检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112182287B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051359A (zh) * | 2021-03-30 | 2021-06-29 | 大连理工大学 | 一种基于多级索引结构的大规模轨迹数据相似性查询方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101442641A (zh) * | 2008-11-21 | 2009-05-27 | 清华大学 | 一种基于内容的视频拷贝监测的方法及系统 |
CN102201001A (zh) * | 2011-04-29 | 2011-09-28 | 西安交通大学 | 基于倒排技术的快速检索方法 |
CN102693299A (zh) * | 2012-05-17 | 2012-09-26 | 西安交通大学 | 一种并行视频拷贝检测系统和方法 |
CN104991953A (zh) * | 2015-07-20 | 2015-10-21 | 成都纽捷那科技有限公司 | 一种基于倒排索引的粗细粒度视频检索方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102110122B (zh) * | 2009-12-24 | 2013-04-03 | 阿里巴巴集团控股有限公司 | 一种建立样本图片索引表和图片过滤、搜索方法及装置 |
-
2020
- 2020-09-10 CN CN202010945969.1A patent/CN112182287B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101442641A (zh) * | 2008-11-21 | 2009-05-27 | 清华大学 | 一种基于内容的视频拷贝监测的方法及系统 |
CN102201001A (zh) * | 2011-04-29 | 2011-09-28 | 西安交通大学 | 基于倒排技术的快速检索方法 |
CN102693299A (zh) * | 2012-05-17 | 2012-09-26 | 西安交通大学 | 一种并行视频拷贝检测系统和方法 |
CN104991953A (zh) * | 2015-07-20 | 2015-10-21 | 成都纽捷那科技有限公司 | 一种基于倒排索引的粗细粒度视频检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112182287A (zh) | 2021-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qu et al. | Joint hierarchical category structure learning and large-scale image classification | |
CN110297931B (zh) | 一种图像检索方法 | |
Gu et al. | Clustering-driven unsupervised deep hashing for image retrieval | |
Jing et al. | SNMFCA: Supervised NMF-based image classification and annotation | |
Zhou et al. | Integrating SIFT and CNN feature matching for partial-duplicate image detection | |
CN108491430A (zh) | 一种基于对特征方向进行聚类的无监督哈希检索方法 | |
CN109657112B (zh) | 一种基于锚点图的跨模态哈希学习方法 | |
CN109034248B (zh) | 一种基于深度学习的含噪声标签图像的分类方法 | |
CN110647904A (zh) | 一种基于无标记数据迁移的跨模态检索方法及系统 | |
CN113780003B (zh) | 时空数据变分编解码跨模态增强方法 | |
CN110647907A (zh) | 利用多层分类和字典学习的多标签图像分类算法 | |
CN112417381A (zh) | 应用于图像版权保护的快速定位侵权图像的方法及装置 | |
CN113537304A (zh) | 一种基于双向cnn的跨模态语义聚类方法 | |
Xu et al. | ESA-VLAD: A lightweight network based on second-order attention and NetVLAD for loop closure detection | |
CN115221947A (zh) | 一种基于预训练语言模型的鲁棒的多模态主动学习方法 | |
CN115795065A (zh) | 基于带权哈希码的多媒体数据跨模态检索方法及系统 | |
CN112182287B (zh) | 一种基于时空视觉词组和分层匹配的视频拷贝检测方法 | |
CN111368176A (zh) | 基于监督语义耦合一致的跨模态哈希检索方法及系统 | |
Wu et al. | Distilled camera-aware self training for semi-supervised person re-identification | |
Wang et al. | Block-based image matching for image retrieval | |
Gong et al. | Erroneous pixel prediction for semantic image segmentation | |
CN115600602B (zh) | 一种长文本的关键要素抽取方法、系统及终端设备 | |
CN116663539A (zh) | 基于RoBERTa和指针网络的中文实体与关系联合抽取方法及系统 | |
El Abyad et al. | Deep Video Hashing Using 3DCNN with BERT. | |
Hu et al. | STRNN: End-to-end deep learning framework for video partial copy detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20211111 Address after: 210000 rooms 212, 213, 214, 215, 216 and 217, building 3, No. 56, lingzhi Road, Xuanwu District, Nanjing City, Jiangsu Province Patentee after: Jiangsu Yuchi blockchain Technology Research Institute Co., Ltd Address before: No. 219, ningliu Road, Jiangbei new district, Nanjing, Jiangsu 210032 Patentee before: Nanjing University of Information Engineering |
|
TR01 | Transfer of patent right |