CN112182287B - 一种基于时空视觉词组和分层匹配的视频拷贝检测方法 - Google Patents

一种基于时空视觉词组和分层匹配的视频拷贝检测方法 Download PDF

Info

Publication number
CN112182287B
CN112182287B CN202010945969.1A CN202010945969A CN112182287B CN 112182287 B CN112182287 B CN 112182287B CN 202010945969 A CN202010945969 A CN 202010945969A CN 112182287 B CN112182287 B CN 112182287B
Authority
CN
China
Prior art keywords
video
surf
library
layer
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010945969.1A
Other languages
English (en)
Other versions
CN112182287A (zh
Inventor
周志立
王美民
陈京诚
孙星明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Yuchi blockchain Technology Research Institute Co., Ltd
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202010945969.1A priority Critical patent/CN112182287B/zh
Publication of CN112182287A publication Critical patent/CN112182287A/zh
Application granted granted Critical
Publication of CN112182287B publication Critical patent/CN112182287B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于时空视觉词组和分层匹配的视频拷贝检测方法,包括以下步骤:1)视频帧采样;2)SURF特征提取;3)空间视觉词生成;4)时间视觉词生成;5)时空视觉词组生成;6)多级倒排索引结构构建;7)特征分层匹配与特征相似度融合计算;通过以上步骤得到查询视频和库视频之间的相似度,从而判定库视频是否为查询视频的拷贝版本。本发明首先生成时空视觉词组,然后将生成的时空视觉词组构建多级倒排索引以便于特征匹配,在线检测阶段使用了特征分层匹配与相似度融合计算策略,本发明的视频拷贝检测方法,在保证拷贝检测效率的同时,大大提高了检测的准确度。

Description

一种基于时空视觉词组和分层匹配的视频拷贝检测方法
技术领域
本发明属于信息安全领域。
背景技术
由于互联网技术和视频处理技术,尤其是目前新兴的基于人工智能的视频处理技术的发展,视频拷贝成本越来越低。为了防止视频内容被未经授权地非法使用和隐私侵犯,检测具有版权视频的非法拷贝版本已成为迫切的问题。因此,视频拷贝检测技术在信息安全领域起着非常重要的作用。
实际上,无论对原视频使用何种拷贝攻击方式,拷贝后的视频仍会保留有与原视频相同内容。通过设计合适的特征提取算法,可以提取视频内容的独一无二紧凑特征,并进行特征匹配,从而可以实现拷贝检测。在图像检索领域,通常使用传统词袋模型来描述图像,然后建立倒排索引结构实现快速检索。传统词袋模型通常从图像中提取一组局部特征,将高维特征向量量化为紧凑的视觉词,来描述图像内容。词袋模型能大大压缩图像局部特征向量,从而以更加紧凑的方式描述图像。倒排索引主要应用于多媒体搜索领域,可以实现对大规模数据的快速检索。类似于文本检索中基于关键词的倒排索引结构,图像检索方法通常将视觉词作为索引,建立倒排索引结构,可以在大规模图像数据库中进行快速检索。
类似于图像检索,现有的视频拷贝检测研究大多数都是基于传统的词袋模型,将视频帧看作图像,提取视觉词来描述视频内容。现有的视频拷贝检测方法仍然有以下几个技术难题:
1)对于一个视频片段,传统的词袋模型的视觉词只考虑其空间域特征而忽视了时间域特征,因此现有的视频拷贝检测方法检测精度不高。
2)现有的视频拷贝检测方法,对于视频的空间域特征和时间域特征单独进行处理,并没有建立统一的倒排索引结构,这导致占用内存空间大,检测效率不够理想,不适合在大规模数据集上应用。
3)现有的视频拷贝检测方法,对于视频之间特征匹配和相似度度量方式比较单一,没有充分考虑到空间域与时间域不同特征之间匹配结果和相似度计算,因而在视频相似度准确度量方面需要进一步提高。
发明内容
发明目的:为解决背景技术中存在的问题,本发明提供过了一种基于时空视觉词组和分层匹配的视频拷贝检测方法。
技术方案:本发明提供过一种基于时空视觉词组和分层匹配的视频拷贝检测方法,具体包括如下步骤:
步骤1:以d帧为采样间隔,对视频库中的每个视频进行均匀采样,得到采样帧;
步骤2:在每一个采样帧中提取若干个SURF特征;
步骤3:通过K-means聚类算法,将每个SURF特征量化到相应的视觉词,从而得到第n个SURF特征fn的空间视觉词wS(fn),n=1,2,3…,N;N为SURF特征的总个数;
步骤4:针对视频库中的每一个视频的第k个采样帧,k=1,2,…L-1,当
Figure GDA0003016043860000027
时,检测该视频中的第k~第
Figure GDA0003016043860000021
个采样帧中相同的SURF特征,并将相同的SURF特征作为一组SURF特征组,当
Figure GDA0003016043860000022
时,则检测第k~L个采样帧中相同的SURF特征;并将相同的SURF特征作为一组SURF特征组;对每一组SURF特征组中的SURF特征轨迹进行量化编码,从而的得到该组中SURF特征对应的时间视觉词;其中
Figure GDA0003016043860000023
L为该视频中采样帧的总个数,所述相同的SURF特征为具有相同空间视觉词的SURF特征;
步骤5:将步骤4的每一组中的SURF特征对应的空间视觉词和时间视觉词的集合作为该SURF特征的时空视觉词组;
步骤6:根据视频库中所有的时空视觉词组,构建多级倒排索引结构;
步骤7:提取被查询视频的时空视觉词组,并基于多级倒排索引结构在视频库中查找与该被查询图像相互匹配的库视频,并计算被查询视频和每一个与被查询视频相互匹配的库视频之间的相似度。
进一步的,所述步骤4中相同特征的检测具体为:以第k个采样帧中第i个SURF特征fi的位置p(fi)为中心,7.5×σ(fi)为半径,当
Figure GDA0003016043860000024
时,在第
Figure GDA0003016043860000025
采样帧中均设置寻找区域,当
Figure GDA0003016043860000026
时,在第k+1~L个采样帧中均设置寻找区域,其中σ(fi)为fi的尺度,i=1,2,…,I,I为第k个采样帧中SURF特征的总个数,判断每一个区域内是否均存在与fi的空间视觉词wS(fi)相同的SURF特征,若否,则停止对第i个SURF特征进行时间视觉词的提取,并继续检测第k个采样帧中的下一个SURF特征;否则,若某一个区域内存在多个与wS(fi)相同的SURF特征,则计算这些多个SURF特征中每个SURF特征的主方向与fi的主方向的差值,以及每个SURF特征的尺度与fi的尺度的差值,并计算两个差值之和,选择差值之和最小的SURF特征作为该区域中与特征fi相同的特征。
进一步的,所述步骤4中对每一组SURF特征组中的SURF特征的进行轨迹进行量化编码具体为:
步骤4.1:基于第k~第
Figure GDA0003016043860000031
个或第k~L个采样帧,针对任意一组SURF特征组中相同的SURF特征fm,根据该fm在第k个采样帧中的位置p(fm)=(xm,ym)和在i`个采样帧中的位置
Figure GDA0003016043860000032
得到它们在横向和纵向上的差值Δxl',Δyl';当
Figure GDA0003016043860000033
时,
Figure GDA0003016043860000034
Figure GDA0003016043860000035
时,l'=k+1,k+2,…,L;其中(xm,ym)为fm在第k个采样帧中的坐标,
Figure GDA0003016043860000036
为fm在第i`个采样帧中的坐标;
Figure GDA0003016043860000037
Figure GDA0003016043860000038
其中,abs(*)表示取绝对值;
步骤4.2:对差值Δxl'和Δyl'进行量化得到量化后的值q(Δxl')和q(Δyl')
Figure GDA0003016043860000039
Figure GDA00030160438600000310
其中,
Figure GDA00030160438600000311
表示向上取整,s1和s2为量化参数,h为第k个采样帧的高度,1≤q(Δxl')≤s1,1≤q(Δyl')≤s2
步骤4.3:特征fm在第l'采样帧中的时间视觉词为:
Figure GDA00030160438600000312
Figure GDA0003016043860000041
则该组中SURF特征fm的时间视觉词为
Figure GDA0003016043860000042
Figure GDA0003016043860000043
Figure GDA0003016043860000044
则该组中SURF特征fm的时间视觉词为
Figure GDA0003016043860000045
进一步的,所述步骤6具体为:该索引结构共有
Figure GDA0003016043860000046
层,第1层为所有的空间视觉词,第
Figure GDA0003016043860000047
层依次设置SURF特征fm在第
Figure GDA0003016043860000048
或第k+1~L采样帧中的时间视觉词,第
Figure GDA0003016043860000049
层为第
Figure GDA00030160438600000410
层中每个时间视觉词对应的视屏ID。
进一步的,所述步骤7为:
步骤7.1:查询倒排索引的第1层,在视频库中查找与被查询视频Q存在相同空间视觉词的库视频,记录这些库视频的个数为R,计算被查询视频Q与R个库视频中的第r个库视频的相似度sim1(Q,r),r=1,2,…,R;
sim1(Q,r)=NC(wS)/max[NQ(wS),Nr(wS)]
其中NC(wS)表示被查询视频Q与第r个库视频之间相同的空间视觉词的总个数,NQ(wS)表示所有相同的空间视觉词在被查询视频Q中出现的总次数,Nr(wS)表示所有相同的空间视觉词在第r个库视频中出现的总次数;
步骤7.2:查询倒排索引的第d层,
Figure GDA00030160438600000411
判断被查询视频Q与第r个库视频之间是否存在相同的时间视觉词,若是,则计算被查询视频Q与第r个库视频在第d层的相似度simd(Q,r)为:
Figure GDA00030160438600000412
其中,yd表示第d层,
Figure GDA00030160438600000413
为第d层倒排索引结构中的时间视觉词,
Figure GDA00030160438600000414
为第1层空间视觉词与第2层~d层中的时间视觉词组成的时空视觉词组,
Figure GDA00030160438600000415
表示在第1~d层中,被查询视频Q与第r个库视频之间相同的时空视词组的总个数,
Figure GDA00030160438600000416
为所有相同的时空视词组在被查询视频Q中出现的总次数,
Figure GDA00030160438600000417
为所有相同的时空视词组在第r个库视频中出现的总次数;
若否,则停止计算被查询视频Q与第r个库视频的相似度,对下一个库视频进行计算;
步骤7.3:若在第
Figure GDA00030160438600000418
层倒排索引层中,被查询视频Q与第r个库视频之间仍然有相同的时间视觉词,则计算被查询视频Q与第r个库视频的最终相似度Sim(Q,r)为:
Figure GDA0003016043860000051
其中ω1,ω2
Figure GDA0003016043860000052
均为系数,
Figure GDA0003016043860000053
表示被查询视频Q与第r个库视频在第
Figure GDA0003016043860000054
层的相似度。
有益效果:
(1)本发明设计的一种基于时空视觉词组和分层匹配的视频拷贝检测方法。不同于现有的图像和视频检索方法,该方法不仅利用传统词袋模型提取视频帧的空间视觉词,并且考虑视频帧之间相同特征的运动轨迹,从而提取时间视觉词。通过联合空间视觉词和时间视觉词构造时空视觉词组,从而能更加准确地表达视频内容。
(2)本发明设计的一种基于时空视觉词组和分层匹配的视频拷贝检测方法,根据生成的时空视觉词组,构建多级倒排索引,能同时支持粗粒度和细粒度的特征分层匹配,从而大大提高特征匹配的精确度,并保证较高的匹配效率。
(3)本发明设计的一种基于时空视觉词组和分层匹配的视频拷贝检测方法,充分考虑到粗粒度和细粒度的多层次特征匹配和这些特征匹配结果的相似度度量,并对特征相似度融合计算得到最终视频相似度,能更加准确度量视频之间的相似度。
附图说明
图1为本发明的总体框架示意图;
图2为本发明的时间视觉词生成示意图;
图3为本发明的多级倒排索引结构示意图。
具体实施方式
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
如图1所示,本实施例提供了一种基于时空视觉词组和分层匹配的视频拷贝检测方法,具体为:
步骤1:对视频库中的每个视频以间隔d帧进行均匀采样,得到采样后的视频帧。以下步骤均针对采样视频帧进行处理。为了平衡检测精确度和存储空间占用,在本发明中,设置采样间隔d=2。
步骤2:对每个采样帧当作图像,从中提取上百个SURF特征。其中,每个SURF特征fn包含1个64维度特征向量v(fn)和3个特征值:位置p(fn)、方向θ(fn)以及尺度σ(fn)。
步骤3:对上述提取的SURF特征,使用K-means聚类算法进行聚类,聚类中心数目设定为K,则得到K个聚类中心。将这K个聚类中心看作空间视觉词,这些视觉词的集合称作空间视觉词典
Figure GDA0003016043860000061
其中wS(I)表示第I个聚类中心的空间视觉词。每个SURF特征都可以使用与其距离最近的空间视觉词来量化表示。最终,将库视频每个SURF特征量化到相应的视觉词,从而得到空间视觉词wS(fn)。由于较大的聚类中心数目K将导致K-means聚类时庞大的计算消耗,而较小的K会导致视觉词生成时的量化损失过大。考虑以上因素,本发明将K设为200000。该设置可以在聚类计算量和量化损失之间较好的平衡。
步骤4:针对当前视频帧及之后的若干个相邻帧,检测相同SURF特征的运动轨迹,并进行量化编码,从而得到时间视觉词,具体为:针对视频库中的每一个视频的第k帧采样帧,k=1,2,…L-1,当
Figure GDA0003016043860000062
时,检测该视频中的第k~第
Figure GDA0003016043860000063
个采样帧中相同的SURF特征,并将相同的SURF特征作为一组SURF特征组,当
Figure GDA0003016043860000064
时,则检测第k~L个采样帧中相同的SURF特征;并将相同的SURF特征作为一组SURF特征组;对每一组SURF特征组中的SURF特征进行轨迹进行量化编码,从而的得到该组中SURF特征对应的时间视觉词;其中
Figure GDA0003016043860000065
L为该视频中采样帧的总个数,所述相同的SURF特征为具有相同视觉词的SURF特征;本实施例中
Figure GDA0003016043860000066
步骤5:将步骤4的每一组中的SURF特征对应的空间视觉词和时间视觉词的集合作为该SURF特征的时空视觉词组;
步骤6:根据视频库中所有的时空视觉词组,构建多级倒排索引结构;
步骤8:在线检测阶段,提取被查询视频的时空视觉词组,并基于多级倒排索引结构在视频库中查找与该被查询图像相互匹配的库视频,并计算被查询视频和每一个与被查询视频相互匹配的库视频之间的相似度。
优选的,所述步骤4中对每一个SURF特征组中的SURF特征的进行轨迹进行量化编码具体为:将一个任意给定的采样帧作为当前帧,针对当前帧中SURF征点fi,遍历当前帧之后的
Figure GDA0003016043860000071
个相邻帧寻找与fi相同的SURF特征。具体做法为:对于当前帧的SURF特征fi(其空间视觉词和所在位置分别表示为w(fi)和p(fi)),在其后
Figure GDA00030160438600000710
个相邻帧的每帧中,以p(fn)为中心和7.5×σ(fi)为半径的区域内查找是否有空间视觉词同为w(fi)的SURF特征,其中σ(fi)为fi的尺度,这样的SURF特征可以看作相同的SURF特征。如果没有这样的特征,将跳过时间视觉词提取步骤,对当前帧中下一个SURF征点进行提取;如果有一个区域内有多个这样特征,则计算这些多个SURF特征中每个SURF特征的主方向与fi的主方向的差值,以及每个SURF特征的尺度与fi的尺度的差值,并计算两个差值之和,选择差值之和最小的SURF特征作为与该区域中与特征fi相同的特征,只保留差值和最小的SURF特征。最后,统计保留下来的SURF特征在
Figure GDA00030160438600000711
个相邻帧的位置,表示为{p1(fi),p2(fi)}。
优选的,如图2所示,所述步骤4中对每一个SURF特征组中的SURF特征的进行轨迹进行量化编码具体为:
步骤4-1:基于第k~第
Figure GDA0003016043860000072
个或第k~L个采样帧,针对任意一组SURF特征组中相同的SURF特征fm,据该fm在第k个采样帧中的位置p(fm)=(xm,ym)和在第i`个采样帧中的位置
Figure GDA0003016043860000073
计算出它们之间的运动位移信息。然后通过对位移信息进行量化编码,可以得到时间视觉词,如图2所示,计算它们在横向和纵向上的差值Δxl',Δyl';当
Figure GDA0003016043860000074
时,
Figure GDA0003016043860000075
Figure GDA0003016043860000076
时,l'=k+1,k+2,…,L,其中(xm,ym)为fm在第k个采样帧中的坐标,
Figure GDA0003016043860000077
为fm在第i`个采样帧中的坐标;
Figure GDA0003016043860000078
Figure GDA0003016043860000079
其中,abs(*)表示取绝对值;由于视频帧内SURF特征的位置的横坐标和纵坐标分别不超过视频帧的宽度和高度,那么0≤Δx≤w和0≤Δy≤h,w和h分别是视频帧的宽度和高度。
步骤4-2:对差值Δxl'和Δyl'进行量化得到量化后的值q(Δxl')和q(Δyl')
Figure GDA0003016043860000081
Figure GDA0003016043860000082
其中,
Figure GDA0003016043860000083
表示向上取整;s1和s2是量化参数,它的值越大,量化精度越高;由于0≤Δxl≤w和0≤Δyl≤h,那么1≤q(Δxl')≤s1,1≤q(Δyl')≤s2本实施例中s1=10,s2=3。
步骤4-2:针对SURF特征fm在当前帧和每个相邻采样帧位置,参考以上步骤,计算他们的横坐标和纵坐标差值并量化,得到一系列量化值对,表示为
Figure GDA0003016043860000084
或者
Figure GDA0003016043860000085
不同于空间视觉词生成方式,我们直接将不同的量化值对串联起来生成若干个时间视觉词。
具体来说,根据生成的量化值对,将第l'个量化值对串联起来,可以得到第l'采样帧中的时间视觉词为,表示为:
Figure GDA0003016043860000086
则若
Figure GDA00030160438600000820
该组中SURF特征fm的时间视觉词为
Figure GDA0003016043860000087
Figure GDA0003016043860000088
Figure GDA0003016043860000089
该组中SURF特征fm的时间视觉词为
Figure GDA00030160438600000810
此外由于1≤q(Δxl')≤s1,1≤q(Δyl')≤s2,s1=10,s2=3,那么每个视觉词的取值范围为[1,30]。
优选的,步骤5为,结合SURF特征fm将其空间视觉词wS(fm)与时间视觉词组和,得到时空视觉词组
Figure GDA00030160438600000811
或者组
Figure GDA00030160438600000812
优选的,步骤6为该索引结构共有
Figure GDA00030160438600000813
层,第1层为所有的空间视觉词,第
Figure GDA00030160438600000814
层依次设置SURF特征fm对应第
Figure GDA00030160438600000815
或第k+1~L采样帧中的时间视觉词,第
Figure GDA00030160438600000816
2层为第
Figure GDA00030160438600000817
层中每个时间视觉词对应的视屏ID;具体的如图3所示,本实施例中l=2,则该索引结构总共有4层,第1层为空间视觉词wS,当1<k≤L-2时,第k帧采样帧与与其向后相邻的
Figure GDA00030160438600000818
个采样帧组成的相同SURF特征组,第2层为该组特征组中SURF特征在第k+1采样帧中的时间视觉词
Figure GDA00030160438600000819
第3层为该组特征组中SURF特征在第k+2采样帧中时间视觉词
Figure GDA0003016043860000091
当L-2<k≤L-1时,第k采样帧与第L采样帧组成的相同SURF特征组,该组中的SURF特征的在第L采样帧中时间视觉词
Figure GDA0003016043860000092
只放在第2层;第4层是时空视觉词组为
Figure GDA0003016043860000093
的特征所在视频ID。
优选的,在线检测阶段,对给定的查询视频提取时空视觉词组,然后对多级倒排索引中的第1层到第
Figure GDA0003016043860000094
层每层的视觉词进行分层匹配,计算分层匹配相似度,最后使用相似度融合计算的方式得到最终相似度;具体做法如下:
步骤7-1:查询倒排索引的第一层,在视频库中查找与被查询视频Q存在相同空间视觉词的库视频,记录这些库视频的个数为R个,计算被查询视频Q与R个库视频中的第r个库视频的相似度sim1(Q,r),r=1,2,…,R;
sim1(Q,r)=NC(wS)/max[NQ(wS),Nr(wS)]
其中NC(wS)表示被查询视频Q与第r个库视频之间相同的空间视觉词的总个数,NQ(wS)表示所有相同的空间视觉词在被查询视频Q中出现的总次数,Nr(wS)表示所有相同的空间视觉词在第r个库视频中出现的总次数;
步骤7-2:查询倒排索引的第d层,
Figure GDA00030160438600000912
统计被查询视频Q与R个库视频中的第r个库视频是否存在相同的时间视觉词,若是,则基于第d层,被查询视频Q与第r个库视频的相似度simd(Q,r)为:
Figure GDA0003016043860000095
其中,yd表示第d层,
Figure GDA0003016043860000096
为第d层倒排索引结构中的时间视觉词,
Figure GDA0003016043860000097
为第一层空间视觉词与第2层~d层中的时间视觉词组成的时空视觉词组,
Figure GDA0003016043860000098
表示在第1~d层中,被查询视频Q与第r个库视频之间相同的时空视词组的总个数,
Figure GDA0003016043860000099
为所有相同的时空视词组在被查询视频Q中出现的总次数,
Figure GDA00030160438600000910
为所有相同的时空视词组在第r个库视频中出现的总次数。
若否,则停止计算被查询视频Q与第r个库视频的相似度,对下一个库视频进行计算;
步骤7-3:若在第
Figure GDA00030160438600000911
层倒排索引层中,被查询视频Q与第r个库视频之间仍然有相同的时间视觉词,则与第r个库视频为候选库视频,则计算被查询视频Q与第r个库视频的最终相似度Sim(Q,r)为:
Figure GDA0003016043860000101
其中ω1,ω2,ωl+1均为系数,siml+1(Q,r)表示基于第
Figure GDA0003016043860000102
层倒排索,被查询视频Q与第r个库视频之间的相似度。本实施例中
Figure GDA0003016043860000103
则Sim(Q,r):
Sim(Q,r)=∑(ω1×sim1(Q,r)+ω2×sim2(Q,r)+ω3×sim2(Q,r))
其中,ω1=0.8,ω2=0.1,ω3=0.1。
步骤7-4:将查询视频与所有候选库视频之间的相似度进行降序排序,作为拷贝检测结果。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (5)

1.一种基于时空视觉词组和分层匹配的视频拷贝检测方法,其特征在于,具体包括如下步骤:
步骤1:以d帧为采样间隔,对视频库中的每个视频进行均匀采样,得到采样帧;
步骤2:在每一个采样帧中提取若干个SURF特征;
步骤3:通过K-means聚类算法,将每个SURF特征量化到相应的视觉词,从而得到第n个SURF特征fn的空间视觉词wS(fn),n=1,2,3...,N;N为SURF特征的总个数;
步骤4:针对视频库中的每一个视频的第k个采样帧,k=1,2,…L-1,当
Figure FDA0003016043850000013
时,检测该视频中的第k~第
Figure FDA0003016043850000011
个采样帧中相同的SURF特征,并将相同的SURF特征作为一组SURF特征组,当
Figure FDA0003016043850000012
时,则检测第k~L个采样帧中相同的SURF特征;并将相同的SURF特征作为一组SURF特征组;对每一组SURF特征组中的SURF特征轨迹进行量化编码,从而得到该组中SURF特征对应的时间视觉词;其中
Figure FDA0003016043850000014
L为该视频中采样帧的总个数,所述相同的SURF特征为具有相同空间视觉词的SURF特征;
步骤5:将步骤4的每一组中的SURF特征对应的空间视觉词和时间视觉词的集合作为该SURF特征的时空视觉词组;
步骤6:根据视频库中所有的时空视觉词组,构建多级倒排索引结构;
步骤7:提取被查询视频的时空视觉词组,并基于多级倒排索引结构在视频库中查找与该被查询图像相互匹配的库视频,并计算被查询视频和每一个与被查询视频相互匹配的库视频之间的相似度。
2.根据权利要求1所述的一种基于时空视觉词组和分层匹配的视频拷贝检测方法,其特征在于,所述步骤4中相同特征的检测具体为:以第k个采样帧中第i个SURF特征fi的位置p(fi)为中心,7.5×σ(fi)为半径,当
Figure FDA0003016043850000015
时,在第
Figure FDA0003016043850000016
采样帧中均设置寻找区域,当
Figure FDA0003016043850000017
时,在第k+1~L个采样帧中均设置寻找区域,其中σ(fi)为fi的尺度,i=1,2,...,I,I为第k个采样帧中SURF特征的总个数,判断每一个区域内是否均存在与fi的空间视觉词wS(fi)相同的SURF特征,若否,则停止对第i个SURF特征进行时间视觉词的提取,并继续检测第k个采样帧中的下一个SURF特征;否则,若某一个区域内存在多个与wS(fi)相同的SURF特征,则计算这些多个SURF特征中每个SURF特征的主方向与fi的主方向的差值,以及每个SURF特征的尺度与fi的尺度的差值,并计算两个差值之和,选择差值之和最小的SURF特征作为该区域中与特征fi相同的特征。
3.根据权利要求1所述的一种基于时空视觉词组和分层匹配的视频拷贝检测方法,其特征在于,所述步骤4中对每一组SURF特征组中的SURF特征的进行轨迹进行量化编码具体为:
步骤4.1:基于第k~第
Figure FDA00030160438500000216
个或第k~L个采样帧,针对任意一组SURF特征组中相同的SURF特征fm,根据该fm在第k个采样帧中的位置p(fm)=(xm,ym)和在第i`个采样帧中的位置
Figure FDA0003016043850000021
得到它们在横向和纵向上的差值Δxl′,Δyi′;当
Figure FDA0003016043850000022
时,l′=k+1,
Figure FDA0003016043850000023
Figure FDA0003016043850000024
时,l′=k+1,k+2,...,L;其中(xm,ym)为fm在第k个采样帧中的坐标,
Figure FDA0003016043850000025
为fm在第i`个采样帧中的坐标;
Figure FDA0003016043850000026
Figure FDA0003016043850000027
其中,abs(*)表示取绝对值;
步骤4.2:对差值Δxl′和Δyl′进行量化得到量化后的值q(Δxl′)和q(Δyl′)
Figure FDA0003016043850000028
Figure FDA0003016043850000029
其中,
Figure FDA00030160438500000210
表示向上取整,s1和s2为量化参数,h为第k个采样帧的高度,1≤q(Δxl′)≤s1,1≤q(Δyi′)≤s2
步骤4.3:特征fm在第l′采样帧中的时间视觉词为:
Figure FDA00030160438500000211
Figure FDA00030160438500000212
则该组中SURF特征fm的时间视觉词为
Figure FDA00030160438500000213
Figure FDA00030160438500000214
Figure FDA00030160438500000217
则该组中SURF特征fm的时间视觉词为
Figure FDA00030160438500000215
4.根据权利要求1所述的一种基于时空视觉词组和分层匹配的视频拷贝检测方法,其特征在于,所述步骤6具体为:该索引结构共有
Figure FDA0003016043850000031
层,第1层为所有的空间视觉词,第
Figure FDA0003016043850000032
层依次设置SURF特征fm在第
Figure FDA0003016043850000033
或第k+1~L采样帧中的时间视觉词,第
Figure FDA0003016043850000034
层为第
Figure FDA0003016043850000035
层中每个时间视觉词对应的视屏ID。
5.根据权利要求4所述的一种基于时空视觉词组和分层匹配的视频拷贝检测方法,其特征在于,所述步骤7为:
步骤7.1:查询倒排索引的第1层,在视频库中查找与被查询视频Q存在相同空间视觉词的库视频,记录这些库视频的个数为R,计算被查询视频Q与R个库视频中的第r个库视频的相似度sim1(Q,r),r=1,2,…,R;
sim1(Q,r)=NC(wS)/max[NQ(wS),Nr(wS)]
其中NC(ws)表示被查询视频Q与第r个库视频之间相同的空间视觉词的总个数,NQ(wS)表示所有相同的空间视觉词在被查询视频Q中出现的总次数,Nr(wS)表示所有相同的空间视觉词在第r个库视频中出现的总次数;
步骤7.2:查询倒排索引的第d层,
Figure FDA0003016043850000036
判断被查询视频Q与第r个库视频之间是否存在相同的时间视觉词,若是,则计算被查询视频Q与第r个库视频在第d层的相似度simd(Q,r)为:
Figure FDA0003016043850000037
其中,yd表示第d层,
Figure FDA0003016043850000038
为第d层倒排索引结构中的时间视觉词,
Figure FDA0003016043850000039
为第1层空间视觉词与第2层~d层中的时间视觉词组成的时空视觉词组,
Figure FDA00030160438500000310
表示在第1~d层中,被查询视频Q与第r个库视频之间相同的时空视词组的总个数,
Figure FDA00030160438500000311
为所有相同的时空视词组在被查询视频Q中出现的总次数,
Figure FDA00030160438500000312
为所有相同的时空视词组在第r个库视频中出现的总次数;
若否,则停止计算被查询视频Q与第r个库视频的相似度,对下一个库视频进行计算;
步骤7.3:若在第
Figure FDA00030160438500000313
层倒排索引层中,被查询视频Q与第r个库视频之间仍然有相同的时间视觉词,则计算被查询视频Q与第r个库视频的最终相似度Sim(Q,r)为:
Figure FDA0003016043850000044
其中ω1,ω2
Figure FDA0003016043850000041
均为系数,
Figure FDA0003016043850000042
表示被查询视频Q与第r个库视频在第
Figure FDA0003016043850000043
层的相似度。
CN202010945969.1A 2020-09-10 2020-09-10 一种基于时空视觉词组和分层匹配的视频拷贝检测方法 Active CN112182287B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010945969.1A CN112182287B (zh) 2020-09-10 2020-09-10 一种基于时空视觉词组和分层匹配的视频拷贝检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010945969.1A CN112182287B (zh) 2020-09-10 2020-09-10 一种基于时空视觉词组和分层匹配的视频拷贝检测方法

Publications (2)

Publication Number Publication Date
CN112182287A CN112182287A (zh) 2021-01-05
CN112182287B true CN112182287B (zh) 2021-06-08

Family

ID=73921740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010945969.1A Active CN112182287B (zh) 2020-09-10 2020-09-10 一种基于时空视觉词组和分层匹配的视频拷贝检测方法

Country Status (1)

Country Link
CN (1) CN112182287B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051359A (zh) * 2021-03-30 2021-06-29 大连理工大学 一种基于多级索引结构的大规模轨迹数据相似性查询方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101442641A (zh) * 2008-11-21 2009-05-27 清华大学 一种基于内容的视频拷贝监测的方法及系统
CN102201001A (zh) * 2011-04-29 2011-09-28 西安交通大学 基于倒排技术的快速检索方法
CN102693299A (zh) * 2012-05-17 2012-09-26 西安交通大学 一种并行视频拷贝检测系统和方法
CN104991953A (zh) * 2015-07-20 2015-10-21 成都纽捷那科技有限公司 一种基于倒排索引的粗细粒度视频检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110122B (zh) * 2009-12-24 2013-04-03 阿里巴巴集团控股有限公司 一种建立样本图片索引表和图片过滤、搜索方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101442641A (zh) * 2008-11-21 2009-05-27 清华大学 一种基于内容的视频拷贝监测的方法及系统
CN102201001A (zh) * 2011-04-29 2011-09-28 西安交通大学 基于倒排技术的快速检索方法
CN102693299A (zh) * 2012-05-17 2012-09-26 西安交通大学 一种并行视频拷贝检测系统和方法
CN104991953A (zh) * 2015-07-20 2015-10-21 成都纽捷那科技有限公司 一种基于倒排索引的粗细粒度视频检索方法

Also Published As

Publication number Publication date
CN112182287A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
Qu et al. Joint hierarchical category structure learning and large-scale image classification
CN110297931B (zh) 一种图像检索方法
Gu et al. Clustering-driven unsupervised deep hashing for image retrieval
Jing et al. SNMFCA: Supervised NMF-based image classification and annotation
Zhou et al. Integrating SIFT and CNN feature matching for partial-duplicate image detection
CN108491430A (zh) 一种基于对特征方向进行聚类的无监督哈希检索方法
CN109657112B (zh) 一种基于锚点图的跨模态哈希学习方法
CN109034248B (zh) 一种基于深度学习的含噪声标签图像的分类方法
CN110647904A (zh) 一种基于无标记数据迁移的跨模态检索方法及系统
CN113780003B (zh) 时空数据变分编解码跨模态增强方法
CN110647907A (zh) 利用多层分类和字典学习的多标签图像分类算法
CN112417381A (zh) 应用于图像版权保护的快速定位侵权图像的方法及装置
CN113537304A (zh) 一种基于双向cnn的跨模态语义聚类方法
Xu et al. ESA-VLAD: A lightweight network based on second-order attention and NetVLAD for loop closure detection
CN115221947A (zh) 一种基于预训练语言模型的鲁棒的多模态主动学习方法
CN115795065A (zh) 基于带权哈希码的多媒体数据跨模态检索方法及系统
CN112182287B (zh) 一种基于时空视觉词组和分层匹配的视频拷贝检测方法
CN111368176A (zh) 基于监督语义耦合一致的跨模态哈希检索方法及系统
Wu et al. Distilled camera-aware self training for semi-supervised person re-identification
Wang et al. Block-based image matching for image retrieval
Gong et al. Erroneous pixel prediction for semantic image segmentation
CN115600602B (zh) 一种长文本的关键要素抽取方法、系统及终端设备
CN116663539A (zh) 基于RoBERTa和指针网络的中文实体与关系联合抽取方法及系统
El Abyad et al. Deep Video Hashing Using 3DCNN with BERT.
Hu et al. STRNN: End-to-end deep learning framework for video partial copy detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211111

Address after: 210000 rooms 212, 213, 214, 215, 216 and 217, building 3, No. 56, lingzhi Road, Xuanwu District, Nanjing City, Jiangsu Province

Patentee after: Jiangsu Yuchi blockchain Technology Research Institute Co., Ltd

Address before: No. 219, ningliu Road, Jiangbei new district, Nanjing, Jiangsu 210032

Patentee before: Nanjing University of Information Engineering

TR01 Transfer of patent right