CN104239420A - 一种基于视频指纹的视频相似度匹配方法 - Google Patents

一种基于视频指纹的视频相似度匹配方法 Download PDF

Info

Publication number
CN104239420A
CN104239420A CN201410414054.2A CN201410414054A CN104239420A CN 104239420 A CN104239420 A CN 104239420A CN 201410414054 A CN201410414054 A CN 201410414054A CN 104239420 A CN104239420 A CN 104239420A
Authority
CN
China
Prior art keywords
video
frame
camera lens
similarity
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410414054.2A
Other languages
English (en)
Other versions
CN104239420B (zh
Inventor
张军
程东岳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING CKLEADER SOFTWARE TECHNOLOGY Co Ltd
Original Assignee
BEIJING CKLEADER SOFTWARE TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING CKLEADER SOFTWARE TECHNOLOGY Co Ltd filed Critical BEIJING CKLEADER SOFTWARE TECHNOLOGY Co Ltd
Priority to CN201410414054.2A priority Critical patent/CN104239420B/zh
Publication of CN104239420A publication Critical patent/CN104239420A/zh
Application granted granted Critical
Publication of CN104239420B publication Critical patent/CN104239420B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于视频指纹的视频相似度匹配方法:基于已知的视频拷贝和攻击算法构建包含基准视频和拷贝与攻击视频的数据库;镜头分割库中的视频,对分割后的每个镜头内的视频进行层次均值聚类算法,生成关键帧;对每个关键帧构建三层空间金字塔,分块抽取DCT特征,利用特征带符号平方根表示关键帧;基于判别二值编码算法,学习关键帧二值表示,每个关键帧被表示为固定长度的二值编码,将该编码按镜头组织为视频指纹;输入视频抽取视频指纹后,基于快速分层匹配算法计算输入视频与库中视频的相似度以排序返回相似视频。该方法具有良好的鲁棒性,快速有效的检索海量视频以获得准确的匹配结果,为多媒体版权的追踪保护提供了有效帮助。

Description

一种基于视频指纹的视频相似度匹配方法
技术领域
 本发明属于多媒体应用领域,特别的涉及一种基于视频指纹的视频相似度匹配方法。
背景技术
目前在互联网上,视频文件每天都会被拷贝并共享,共享的站点,方式和人数都在急剧增长,其中就可能存在着大量的复制品和转换、篡改过的视频片段,这对于视频文件的拷贝检测和版权管理保护带来了极大的安全隐患,现有技术中的一个解决途径是“水印”技术,水印技术依赖于插入明显的标签到视频流,利用标签提供视频的来源指示,然而,标签可以被清除或规避,也容易在视频格式转换或传输时被损坏或扭曲,这些都使得无法利用“水印”技术对视频的所有者进行追踪。视频指纹技术是一个新兴的软件识别、提取和压缩视频的技术,能够产生唯一的“指纹”来代表一个视频文件,能够识别任何内容,不管文件之前是否被更改过,然而现有的视频数量太过庞大,用户上传视频的网站大量涌现,视频指纹识别技术面临着巨大的挑战。现有技术中的视频指纹算法中,通过计算来得到关键帧的算法,依赖于大量的像素压缩和帧处理,复杂度较高,基于关键帧的视频匹配则需要通过给定的算法对比大量的基准视频,庞大的计算量也严重影响了匹配的速度,无法满足用户即时获取结果的需求。
有鉴于此,本发明提出了一种基于视频指纹技术的视频相似度匹配方法,能够有效的提取唯一表示视频的关键帧,通过学习建立训练样本集合,利用二值编码技术对关键帧进行编码表示,对输入视频进行层次化的匹配,极大的提高了检索效率,获得客观的,准确的视频相似度排序。
发明内容
本发明提供了一种基于视频指纹的视频相似度匹配方法,包括:
一种基于视频指纹的视频相似度匹配方法,其特征在于:
(1)基于已知的视频拷贝和攻击算法,构建一个包含基准视频,拷贝和攻击视频的数据库;
(2)对数据库中的视频进行关键帧提取;
(3)将数据库中视频的关键帧用特征来表示;
(4)对输入视频进行关键帧提取;
(5)将输入视频的关键帧用特征来表示;
(6)对数据库中的基准视频进行K均值聚类生成基准训练样本,加入对应的拷贝样本和攻击样本,生成训练集合;
(7)利用判别二值编码技术在训练集合上学习判别二值投影,保留前P个投影;
(8)利用该P个投影对数据库中的视频和输入视频的特征表示进行二值编码,表示为固定长度为P的0/1序列;
(9)对输入视频进行快速分层匹配,获得输入视频的镜头相似度排序;
(10)利用输入视频的镜头相似度排序,获得输入视频的视频相似度排序。
优选的,其中步骤(2)所述的关键帧提取具体为:
(2.1)对数据库中的视频经过镜头分割,视频被分为M’个镜头,其中M’为大于1的自然数,在每个镜头中独立进行关键帧提取。
优选的,步骤(2.1)所述的在每个镜头中独立进行关键帧提取的步骤具体为:
(2.1.1)对镜头内的每个视频帧抽取H空间颜色直方图特征h,经过特征抽取,镜头内的视频帧被表示为特征集合                                               ,其中n为镜头内帧的数目;
(2.1.2)对视频帧的集合进行层次K均值聚类,其中K为大于1的自然数,将视频帧集合聚类为一个K叉树,将最终输出的聚类树中保留的N个叶子节点表示为
(2.1.3)对于C中每个子类,计算聚类中心,将聚类中心的最近邻样本推荐为关键帧,通过步骤(2.1.1)至(2.1.3), 每个视频镜头被表示为N个关键帧的集合,其中N的取值对于不同的镜头,相同或不同。
优选的,其中步骤(2.1.2)所述的对视频帧的集合进行层次K均值聚类,将视频帧集合聚类为一个K叉树,最终输出聚类树的步骤具体为:
(2.1.2.1)输入特征集合,每层聚类中心数为K,叶子节点最小样本数num,其中num为大于1的自然数,最大聚类层数Lmax,其中Lmax为大于1的自然数;
(2.1.2.2)初始化L=1;
(2.1.2.3)用K均值聚类算法将F聚为K类,每个类别构成一个叶子节点,L=L+1;
(2.1.2.4)判断L<Lmax是否成立,如果不成立,跳至步骤(2.1.2.6);
(2.1.2.5)如果成立,对L层中的所有节点,如果存在样本数大于等于num的节点,则继续用K均值聚类算法将该节点聚为K类,L=L+1,返回步骤(2.1.2.4),如果不存在样本数大于num的节点,进入步骤(2.1.2.6);
(2.1.2.6)输出K叉数;
(2.1.2.7)对K叉树进行树剪枝,剪除少于25个样本的聚类叶子节点;
(2.1.2.8)最终输出聚类结果K叉树。
优选的,其中步骤(3)所述的特征表示,具体为:
(3.1)将关键帧转换到YUV空间,对Y空间构建三层空间金字塔,第一层金字塔将图像分为1*1的网格,第二层金字塔将图像分为2*2的网格,第三层金字塔将图像分为4*4的网格;
(3.2)对每个金字塔网格进行DCT变换,保留左上角6*6块中的36维特征,每个关键帧用21个网格的DCT特征串联起来表示,维度为21*36=756维;
(3.3)对特征的每一维特征取带符号平方根。
优选的,其中步骤(4)所述的关键帧提取,具体为:
(4.1)对输入视频经过镜头分割,视频被分为M个镜头,其中M为大于1的自然数,在每个镜头中独立进行关键帧提取。
优选的,其中步骤(4.1)所述的在每个镜头中独立进行关键帧提取的步骤,具体为:
(4.1.1)对镜头内的每个视频帧抽取H空间颜色直方图特征h,经过特征抽取,镜头内的视频帧被表示为特征集合,其中n为镜头内帧的数目;
(4.1.2)对视频帧的集合进行层次K均值聚类,其中K为大于1的自然数,将视频帧集合聚类为一个K叉树,将最终输出的聚类树中保留的N个叶子节点表示为
(4.1.3)对于C中每个子类,计算聚类中心,将聚类中心的最近邻样本推荐为关键帧,通过步骤(4.1.1)至(4.1.3), 每个视频镜头被表示为N个关键帧的集合,其中N的取值对于不同的镜头,相同或不同。
优选的,其中步骤(4.1.2)所述的对视频帧的集合进行层次K均值聚类,将视频帧集合聚类为一个K叉树,最终输出聚类树的步骤,具体为:
(4.1.2.1)输入特征集合,每层聚类中心数为K,叶子节点最小样本数num,其中num为大于1的自然数,最大聚类层数Lmax,其中Lmax为大于1的自然数;
(4.1.2.2)初始化L=1;
(4.1.2.3)用K均值聚类算法将F聚为K类,每个类别构成一个叶子节点,L=L+1;
(4.1.2.4)判断L<Lmax是否成立,如果不成立,跳至步骤(4.1.2.6);
(4.1.2.5)如果成立,对L层中的所有节点,如果存在样本数大于等于num的节点,则继续用K均值聚类算法将该节点聚为K类,L=L+1,返回步骤(4.1.2.4),如果不存在样本数大于num的节点,进入步骤(4.1.2.6);
(4.1.2.6)输出K叉数; 
(4.1.2.7)对K叉树进行树剪枝,剪除少于25个样本的聚类叶子节点;
(4.1.2.8)最终输出聚类结果K叉树。
优选的,步骤(5)所述的特征表示,具体为:
(5.1)将关键帧转换到YUV空间,对Y空间构建三层空间金字塔,第一层金字塔将图像分为1*1的网格,第二层金字塔将图像分为2*2的网格,第三层金字塔将图像分为4*4的网格;
(5.2)对每个金字塔网格进行DCT变换,保留左上角6*6块中的36维特征,每个关键帧用21个网格的DCT特征串联起来表示,维度为21*36=756维;
(5.3)对特征的每一维特征取带符号平方根。
优选的,其中步骤(6)具体为:
(6.1)对数据库中的基准视频的关键帧进行K均值聚类,聚类中心数为5000,选择聚类中心的最近邻作为基准训练样本;
(6.2)对于第i个基准训练样本,加入定义的拷贝条件和攻击条件下的对应样本,即找到和第i个基准视频训练样本的视频信息对应的处于拷贝条件下的拷贝样本和处于攻击条件下的攻击样本;
(6.3)将这三类样本集合起来,构成训练类别,最终的训练集合
优选的,其中步骤(8)中的P取值为512。
优选的,其中步骤(9)具体为:
(9.1)定义帧相似度函数,计算两个关键帧之间的相似度:,其中为关键帧的第i位的二值编码,为关键帧的第i位二值编码;
(9.2) 对于输入镜头M,设有N个关键帧,对每个关键帧,基于相似度函数快速匹配50个近邻关键帧,其中,对于,设所有关键帧的近邻帧所在的镜头集合为,中镜头个数为Q, 表示第i个镜头,定义表示镜头间的相似度,表示所在的镜头,对于镜头,其包含存在于中的一个或多个近邻关键帧,对这一个或多个近邻关键帧,利用(9.1)中定义的帧相似度函数计算每个近邻关键帧和对应的关键帧之间的帧相似度函数值并全部累加得到
(9.3)对中的所有Q个镜头和输入镜头M之间的相似度进行排序,保留前50个相似度最大的镜头;
(9.4)输出输入视频的镜头相似度排序。
优选的,其中步骤(10)具体为:
(10.1)对于输入视频W,设具有E个镜头,对每个镜头,基于镜头相似度投票得到50个相似镜头 , ,对于,所有镜头的相似镜头所在的视频集合为,包含有V个视频,定义表示视频之间的相似度,表示镜头所在的视频,对于视频,其包含存在于中的一个或多个相似镜头,将根据计算排序得出的这一个或多个相似镜头和其对应的输入镜头之间的镜头相似度全部累加得到
(10.2)对中的所有视频和输入视频之间的相似度进行排序;
(10.3)输出视频相似度排序结果。
优选的,其中拷贝手段为转码、分辨率转换以及裁剪中的一个或多个。
优选的,其中攻击手段为几何攻击、非几何攻击以及针对图像序列的攻击中的一个或多个。
优选的,其中几何攻击手段为缩放、裁剪、水平位移、垂直位移以及信封模式裁剪中的一个或多个。
优选的,其中非几何攻击手段为信号增强、低通滤波、抗混叠的矩形滤波、数字视频降噪滤波以及加噪中的一个或多个。
优选的,其中针对图像序列的攻击为帧交换、压缩、转码、摄像捕捉后低码率压缩、重采样和重量化、D/A和A/D转换、格式转换、覆盖以及共谋攻击中的一个或多个。
优选的,其中攻击手段为对帧片段进行模糊、旋转、裁剪、加速、减速以及插入元素中的一个或多个。
附图说明
图1为基于视频指纹的视频相似度匹配方法流程图; 
图2为图像3层空间金字塔; 
图3为视频帧集合层次K均值聚类方法流程图; 
图4为镜头相似度投票方法流程图; 
图5为视频相似度投票方法流程图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明做出进一步地详细描述。
图1为本发明所采用的基于视频指纹的视频相似度匹配方法流程图。如图1所示,该方法包括:
步骤1:基于已知的视频拷贝和攻击算法,构建一个包含基准视频,拷贝和攻击视频的数据库,可以支持转码、分辨率转换、裁剪的视频拷贝,支持各种几何攻击,如:尺寸变化、缩放、裁剪、信号增强、信封模式裁剪;支持各种非几何攻击,如:信号增强、低通滤波、抗混叠的矩形滤波、数字视频降噪滤波、加噪;支持针对图像序列的攻击,如:帧交换、压缩、转码、摄像捕捉后低码率压缩、重采样和重量化、多种D-A/A-D转换、格式转换、覆盖、共谋攻击;支持对帧片段进行模糊、旋转、裁剪、加速、减速、插入元素。
步骤2:对数据库中的视频进行如下处理:
(1)经过镜头分割,视频被分为M’个镜头,其中M’为大于1的自然数,在每个镜头中独立进行关键帧提取,所述关键帧提取的步骤具体为:
(1.1)对镜头内的每个视频帧抽取H空间颜色直方图特征h,经过特征抽取,镜头内的视频帧被表示为特征集合,其中n为镜头内帧的数目。
(1.2)对视频帧的集合进行层次K均值聚类,其中K为大于1的自然数,将视频帧集合聚类为一个K叉树,将最终输出的聚类树中保留的N个叶子节点表示为,其中,参见图3描述了具体的层次K均值聚类方法:
300:输入特征集合,每层聚类中心数为K,叶子节点最小样本数num,其中num为大于1的自然数,最大聚类层Lmax,其中Lmax为大于1的自然数;
301:初始化L=1;
302:用K均值聚类算法将F聚为K类,每个类别构成一个叶子节点,L=L+1;
303:判断L<Lmax是否成立,如果不成立,跳至步骤305; 
304:如果成立,对L层中的所有节点,如果存在样本数大于等于num的节点,则继续用K均值聚类算法将该节点聚为K类,L=L+1,返回步骤303,如果不存在样本数大于num的节点,进入步骤305; 305:输出K叉数;
306:对K叉树进行剪枝,少于25个样本的聚类叶子节点将被剪除;
307:输出聚类结果K叉树。
(1.3)关键帧自动推荐:对于C中每个子类,计算聚类中心,将聚类中心的最近邻样本推荐为关键帧。
通过步骤(1.1)-(1.3),每个视频镜头被紧凑的表示为N个关键帧的集合,其中N的取值对于不同的镜头,可以相同或不同。
(2)将关键帧转换到YUV空间,对Y空间构建如图2所示的三层空间金字塔。第一层金字塔将图像分为1*1的网格,第二层金字塔将图像分为2*2的网格,第三层金字塔将图像分为4*4的网格;对每个金字塔网格进行DCT变换,保留左上角6*6块的36维特征,每个关键帧用21个网格的DCT特征串联起来表示,维度为21*36=756维,对特征的每一维特征取带符号平方根。
步骤3:对输入视频进行如下处理: 
(1)经过镜头分割,输入视频被分为M个镜头,其中M为大于1的自然数,在每个镜头中独立进行关键帧提取,所述关键帧提取的步骤具体为:
(1.1)对镜头内的每个视频帧抽取H空间颜色直方图特征h,经过特征抽取,镜头内的视频帧被表示为特征集合,其中n为镜头内帧的数目。
(1.2)对视频帧的集合进行层次K均值聚类,其中K为大于1的自然数,将视频帧集合聚类为一个K叉树,将最终输出的聚类树中保留的N个叶子节点表示为,其中,参见图3描述了具体的层次K均值聚类方法:
300:输入特征集合,每层聚类中心数为K,叶子节点最小样本数num,其中num为大于1的自然数,最大聚类层Lmax,其中Lmax为大于1的自然数;
301:初始化L=1;
302:用K均值聚类算法将F聚为K类,每个类别构成一个叶子节点,L=L+1;
303:判断L<Lmax是否成立,如果不成立,跳至步骤305; 
304:如果成立,对L层中的所有节点,如果存在样本数大于等于num的节点,则继续用K均值聚类算法将该节点聚为K类,L=L+1,返回步骤303,如果不存在样本数大于num的节点,进入步骤305; 
305:输出K叉数;
306:对K叉树进行剪枝,少于25个样本的聚类叶子节点将被剪除;
307:输出聚类结果K叉树。
(1.3)关键帧自动推荐:对于C中每个子类,计算聚类中心,将聚类中心的最近邻样本推荐为关键帧。
通过步骤(1.1)-(1.3),每个输入视频镜头被紧凑的表示为N个关键帧的集合,其中N的取值对于不同的镜头,可以相同或不同。
(2)将关键帧转换到YUV空间,对Y空间构建如图2所示的三层空间金字塔。第一层金字塔将图像分为1*1的网格,第二层金字塔将图像分为2*2的网格,第三层金字塔将图像分为4*4的网格;对每个金字塔网格进行DCT变换,保留左上角6*6块的36维特征,每个关键帧用21个网格的DCT特征串联起来表示,维度为21*36=756维,对特征的每一维特征取带符号平方根。步骤4:对数据库中的基准视频的关键帧进行K均值聚类,聚类中心数为5000,选择聚类中心的最近邻作为基准训练样本,对于第i个基准训练样本,加入表1定义的各个拷贝条件和攻击条件下的对应样本,即找到和第i个基准视频训练样本的视频信息对应的处于拷贝条件下的拷贝样本和处于攻击条件下的攻击样本,将这三类样本集合起来,构成训练类别,最终的训练集合;利用判别二值编码技术在训练集合上学习判别二值投影,保留前512个投影。
步骤5:利用该512个投影对数据库中的视频帧和输入视频帧的特征带符号平方根值进行二值编码,表示为固定长度为512的0/1序列,所占存储空间为64字节。其中,步骤3可以在步骤5之前的任意位置。
步骤6:视频匹配:对输入视频进行分层快速匹配。
(6.1)定义帧相似度函数,计算两个关键帧之间的相似度:,其中为关键帧的第i位的二值编码,为关键帧的第i位二值编码;
(6.2) 对于输入镜头M,假设有N个关键帧,对每个关键帧,基于相似度函数快速匹配50个近邻关键帧,其中
(6.3)进行镜头相似度投票:对于,设所有关键帧的近邻帧所在的镜头的集合为,中镜头个数为Q, 表示第i个镜头,对M与的相似度进行投票,其中定义镜头间的相似度,表示所在的镜头,投票方法如下:
输入镜头M,中所有关键帧的近邻帧所在镜头的集合
对于镜头,其包含存在于中的一个或多个帧,对该一个或多个帧,分别计算这一个或多个帧和其对应的关键帧之间的帧相似度函数值并全部累加得到
中的所有Q个镜头和输入镜头M之间的相似度进行排序,保留前50个相似度最大的镜头;
(6.4)进行视频相似度投票:对于输入视频W,设具有E个镜头,对每个镜头,基于镜头相似度投票得到上述50个相似镜头,,对于,设所有镜头的相似镜头所在的视频集合为,包含有V个视频,对于视频,对W与 之间的相似度进行投票, 其中定义视频之间的相似度,表示镜头所在的视频,投票方法如下:
输入视频W,设中所有相似镜头所在的视频集合为
对视频,其包含存在于中的一个或多个镜头,对该一个或多个镜头,分别计算这一个或多个镜头和其对应的输入镜头之间的镜头相似度并全部累加得到,对中的所有视频和输入视频之间的相似度进行排序;
(6.5)输出视频相似度排序结果。
显然,本领域的技术人员可以对本发明进行各种改动和变形而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变形属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变形在内。

Claims (19)

1.一种基于视频指纹的视频相似度匹配方法,其特征在于:
(1)基于已知的视频拷贝和攻击算法,构建一个包含基准视频,拷贝和攻击视频的数据库;
(2)对数据库中的视频进行关键帧提取;
(3)将数据库中视频的关键帧用特征来表示;
(4)对输入视频进行关键帧提取;
(5)将输入视频的关键帧用特征来表示;
(6)对数据库中的基准视频进行K均值聚类生成基准训练样本,加入对应的拷贝样本和攻击样本,生成训练集合;
(7)利用判别二值编码技术在训练集合上学习判别二值投影,保留前P个投影;
(8)利用该P个投影对数据库中的视频和输入视频的特征表示进行二值编码,表示为固定长度为P的0/1序列;
(9)对输入视频进行快速分层匹配,获得输入视频的镜头相似度排序;
(10)利用输入视频的镜头相似度排序,获得输入视频的视频相似度排序。
2.如权利要求1所述的相似度匹配方法,其中步骤(2)所述的关键帧提取具体为:
(2.1)对数据库中的视频经过镜头分割,视频被分为M’个镜头,其中M’为大于1的自然数,在每个镜头中独立进行关键帧提取。
3.如权利要求2所述的相似度匹配方法,步骤(2.1)所述的在每个镜头中独立进行关键帧提取的步骤具体为:
(2.1.1)对镜头内的每个视频帧抽取H空间颜色直方图特征h,经过特征抽取,镜头内的视频帧被表示为特征集合                                                ,其中n为镜头内帧的数目;
(2.1.2)对视频帧的集合进行层次K均值聚类,其中K为大于1的自然数,将视频帧集合聚类为一个K叉树,将最终输出的聚类树中保留的N个叶子节点表示为
(2.1.3)对于C中每个子类,计算聚类中心,将聚类中心的最近邻样本推荐为关键帧,通过步骤(2.1.1)至(2.1.3), 每个视频镜头被表示为N个关键帧的集合,其中N的取值对于不同的镜头,相同或不同。
4.如权利要求3所述的相似度匹配方法,其中步骤(2.1.2)所述的对视频帧的集合进行层次K均值聚类,将视频帧集合聚类为一个K叉树,最终输出聚类树的步骤具体为:
(2.1.2.1)输入特征集合,每层聚类中心数为K,叶子节点最小样本数num,其中num为大于1的自然数,最大聚类层数Lmax,其中Lmax为大于1的自然数;
(2.1.2.2)初始化L=1;
(2.1.2.3)用K均值聚类算法将F聚为K类,每个类别构成一个叶子节点,L=L+1;
(2.1.2.4)判断L<Lmax是否成立,如果不成立,跳至步骤(2.1.2.6);
(2.1.2.5)如果成立,对L层中的所有节点,如果存在样本数大于等于num的节点,则继续用K均值聚类算法将该节点聚为K类,L=L+1,返回步骤(2.1.2.4),如果不存在样本数大于num的节点,进入步骤(2.1.2.6);
(2.1.2.6)输出K叉数;
(2.1.2.7)对K叉树进行树剪枝,剪除少于25个样本的聚类叶子节点;
(2.1.2.8)最终输出聚类结果K叉树。
5.如权利要求4所述的相似度匹配方法,其中步骤(3)所述的特征表示,具体为:
(3.1)将关键帧转换到YUV空间,对Y空间构建三层空间金字塔,第一层金字塔将图像分为1*1的网格,第二层金字塔将图像分为2*2的网格,第三层金字塔将图像分为4*4的网格;
(3.2)对每个金字塔网格进行DCT变换,保留左上角6*6块中的36维特征,每个关键帧用21个网格的DCT特征串联起来表示,维度为21*36=756维;
(3.3)对特征的每一维特征取带符号平方根。
6.如权利要求1所述的相似度匹配方法,其中在步骤(4)所述的关键帧提取具体为:
(4.1)对输入视频经过镜头分割,视频被分为M个镜头,其中M为大于1的自然数,在每个镜头中独立进行关键帧提取。
7.如权利要求6所述的相似度匹配方法,其中步骤(4.1)所述的在每个镜头中独立进行关键帧提取的步骤具体为:
(4.1.1)对镜头内的每个视频帧抽取H空间颜色直方图特征h,经过特征抽取,镜头内的视频帧被表示为特征集合,其中n为镜头内帧的数目;
(4.1.2)对视频帧的集合进行层次K均值聚类,其中K为大于1的自然数,将视频帧集合聚类为一个K叉树,将最终输出的聚类树中保留的N个叶子节点表示为
(4.1.3)对于C中每个子类,计算聚类中心,将聚类中心的最近邻样本推荐为关键帧,通过步骤(4.1.1)至(4.1.3), 每个视频镜头被表示为N个关键帧的集合,其中N的取值对于不同的镜头,相同或不同。
8.如权利要求7所述的相似度匹配方法,其中步骤(4.1.2)所述的对视频帧的集合进行层次K均值聚类,将视频帧集合聚类为一个K叉树,最终输出聚类树的步骤具体为:
(4.1.2.1)输入特征集合,每层聚类中心数为K,叶子节点最小样本数num,其中num为大于1的自然数,最大聚类层数Lmax,其中Lmax为大于1的自然数;
(4.1.2.2)初始化L=1;
(4.1.2.3)用K均值聚类算法将F聚为K类,每个类别构成一个叶子节点,L=L+1;
(4.1.2.4)判断L<Lmax是否成立,如果不成立,跳至步骤(4.1.2.6);(4.1.2.5)如果成立,对L层中的所有节点,如果存在样本数大于等于num的节点,则继续用K均值聚类算法将该节点聚为K类,L=L+1,返回步骤(4.1.2.4),如果不存在样本数大于num的节点,进入步骤(4.1.2.6);
(4.1.2.6)输出K叉数;
(4.1.2.7)对K叉树进行树剪枝,剪除少于25个样本的聚类叶子节点;
(4.1.2.8)最终输出聚类结果K叉树。
9.如权利要求8所述的相似度匹配方法,步骤(5)所述的特征表示,具体为:
(5.1)将关键帧转换到YUV空间,对Y空间构建三层空间金字塔,第一层金字塔将图像分为1*1的网格,第二层金字塔将图像分为2*2的网格,第三层金字塔将图像分为4*4的网格;
(5.2)对每个金字塔网格进行DCT变换,保留左上角6*6块中的36维特征,每个关键帧用21个网格的DCT特征串联起来表示,维度为21*36=756维;
(5.3)对特征的每一维特征取带符号平方根。
10.如权利要求9所述的相似度匹配方法,其中步骤(6)具体为:
(6.1)对数据库中的基准视频的关键帧进行K均值聚类,聚类中心数为5000,选择聚类中心的最近邻作为基准训练样本;
(6.2)对于第i个基准训练样本,加入定义的拷贝条件和攻击条件下的对应样本,即找到和第i个基准视频训练样本的视频信息对应的处于拷贝条件下的拷贝样本和处于攻击条件下的攻击样本;
(6.3)将这三类样本集合起来,构成训练类别,最终的训练集合
11.如权利要求1所述的相似度匹配方法,其中步骤(8)中的P取值为512。
12.如权利要求10所述的相似度匹配方法,其中步骤(9)具体为:
(9.1)定义帧相似度函数,计算两个关键帧之间的相似度:,其中为关键帧的第i位的二值编码,为关键帧的第i位二值编码;
(9.2) 对于输入镜头M,设有N个关键帧,对每个关键帧,基于相似度函数快速匹配50个近邻关键帧,其中,对于,设所有关键帧的近邻帧所在的镜头集合为,中镜头个数为Q,表示第i个镜头,定义表示镜头间的相似度,表示所在的镜头,对于镜头,其包含存在于中的一个或多个近邻关键帧,对这一个或多个近邻关键帧,利用(9.1)中定义的帧相似度函数计算每个近邻关键帧和对应的关键帧之间的帧相似度函数值并全部累加得到
(9.3)对中的所有Q个镜头和输入镜头M之间的相似度进行排序,保留前50个相似度最大的镜头;
(9.4)输出输入视频的镜头相似度排序。
13.如权利要求12所述的相似度匹配算法,其中步骤(10)具体为:
(10.1)对于输入视频W,设具有E个镜头,对每个镜头,基于镜头相似度投票得到50个相似镜头,,对于,所有镜头的相似镜头所在的视频集合为,包含有V个视频,定义表示视频之间的相似度,表示镜头所在的视频,对于视频,其包含存在于中的一个或多个相似镜头,将根据计算排序得出的这一个或多个相似镜头和其对应的输入镜头之间的镜头相似度全部累加得到
(10.2)对中的所有视频和输入视频之间的相似度进行排序;
(10.3)输出视频相似度排序结果。
14.如权利要求1所述的相似度匹配方法,其中拷贝手段为转码、分辨率转换以及裁剪中的一个或多个。
15.如权利要求1所述的相似度匹配方法,其中攻击手段为几何攻击、非几何攻击以及针对图像序列的攻击中的一个或多个。
16.如权利要求15所述的相似度匹配方法,其中几何攻击手段为缩放、裁剪、水平位移、垂直位移以及信封模式裁剪中的一个或多个。
17.如权利要求15所述的相似度匹配方法,其中非几何攻击手段为信号增强、低通滤波、抗混叠的矩形滤波、数字视频降噪滤波以及加噪中的一个或多个。
18.如权利要求15所述的相似度匹配方法,其中针对图像序列的攻击为帧交换、压缩、转码、摄像捕捉后低码率压缩、重采样和重量化、D/A和A/D转换、格式转换、覆盖以及共谋攻击中的一个或多个。
19.如权利要求1所述的相似度匹配方法,其中攻击手段为对帧片段进行模糊、旋转、裁剪、加速、减速以及插入元素中的一个或多个。
CN201410414054.2A 2014-10-20 2014-10-20 一种基于视频指纹的视频相似度匹配方法 Expired - Fee Related CN104239420B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410414054.2A CN104239420B (zh) 2014-10-20 2014-10-20 一种基于视频指纹的视频相似度匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410414054.2A CN104239420B (zh) 2014-10-20 2014-10-20 一种基于视频指纹的视频相似度匹配方法

Publications (2)

Publication Number Publication Date
CN104239420A true CN104239420A (zh) 2014-12-24
CN104239420B CN104239420B (zh) 2017-06-06

Family

ID=52227480

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410414054.2A Expired - Fee Related CN104239420B (zh) 2014-10-20 2014-10-20 一种基于视频指纹的视频相似度匹配方法

Country Status (1)

Country Link
CN (1) CN104239420B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677758A (zh) * 2015-12-30 2016-06-15 合一网络技术(北京)有限公司 一种建立样本视频与副本视频归属关系的方法及系统
CN109905765A (zh) * 2017-12-11 2019-06-18 浙江宇视科技有限公司 视频追溯方法及装置
CN109960960A (zh) * 2017-12-14 2019-07-02 中国移动通信集团安徽有限公司 视频指纹生成和匹配方法及装置、计算机设备和存储介质
CN110222594A (zh) * 2019-05-20 2019-09-10 厦门能见易判信息科技有限公司 盗版视频识别方法及系统
CN110427895A (zh) * 2019-08-06 2019-11-08 李震 一种基于计算机视觉的视频内容相似度判别方法及系统
CN110852289A (zh) * 2019-11-16 2020-02-28 公安部交通管理科学研究所 一种基于移动视频提取车辆及驾驶人信息的方法
CN110889011A (zh) * 2019-11-29 2020-03-17 杭州当虹科技股份有限公司 一种视频指纹方法
CN110996123A (zh) * 2019-12-18 2020-04-10 广州市百果园信息技术有限公司 一种视频处理方法、装置、设备及介质
CN111586473A (zh) * 2020-05-20 2020-08-25 北京字节跳动网络技术有限公司 视频的裁剪方法、装置、设备及存储介质
CN111966859A (zh) * 2020-08-27 2020-11-20 司马大大(北京)智能系统有限公司 视频数据的处理方法及装置、可读存储介质
CN112183328A (zh) * 2020-09-27 2021-01-05 北京永新视博数字电视技术有限公司 视频识别方法、装置、设备和存储介质
CN113268634A (zh) * 2021-04-27 2021-08-17 广州骏伯网络科技有限公司 一种视频数据关联方法、装置、计算机设备及存储介质
CN113591524A (zh) * 2020-04-30 2021-11-02 聚好看科技股份有限公司 显示设备及界面展示方法
CN114827714A (zh) * 2022-04-11 2022-07-29 咪咕文化科技有限公司 基于视频指纹的视频还原方法、终端设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7142600B1 (en) * 2003-01-11 2006-11-28 Neomagic Corp. Occlusion/disocclusion detection using K-means clustering near object boundary with comparison of average motion of clusters to object and background motions
US20060285587A1 (en) * 2005-06-21 2006-12-21 Nokia Corporation Image processing of DCT-based video sequences in compressed domain
CN101394522A (zh) * 2007-09-19 2009-03-25 中国科学院计算技术研究所 一种视频拷贝的检测方法和系统
CN101739555A (zh) * 2009-12-01 2010-06-16 北京中星微电子有限公司 假脸检测方法及系统、假脸模型训练方法及系统
CN101751568A (zh) * 2008-12-12 2010-06-23 汉王科技股份有限公司 证件号码定位和识别方法
CN103744973A (zh) * 2014-01-11 2014-04-23 西安电子科技大学 基于多特征哈希的视频拷贝检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7142600B1 (en) * 2003-01-11 2006-11-28 Neomagic Corp. Occlusion/disocclusion detection using K-means clustering near object boundary with comparison of average motion of clusters to object and background motions
US20060285587A1 (en) * 2005-06-21 2006-12-21 Nokia Corporation Image processing of DCT-based video sequences in compressed domain
CN101394522A (zh) * 2007-09-19 2009-03-25 中国科学院计算技术研究所 一种视频拷贝的检测方法和系统
CN101751568A (zh) * 2008-12-12 2010-06-23 汉王科技股份有限公司 证件号码定位和识别方法
CN101739555A (zh) * 2009-12-01 2010-06-16 北京中星微电子有限公司 假脸检测方法及系统、假脸模型训练方法及系统
CN103744973A (zh) * 2014-01-11 2014-04-23 西安电子科技大学 基于多特征哈希的视频拷贝检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
孙淑敏 等: "基于改进K-means算法的关键帧提取", 《计算机工程》 *
李红: "基于对象的视频编码技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
袁正午 等: "基于支持向量机的视频语义场景分割算法研究", 《重庆邮电大学学报(自然科学版)》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677758A (zh) * 2015-12-30 2016-06-15 合一网络技术(北京)有限公司 一种建立样本视频与副本视频归属关系的方法及系统
CN109905765A (zh) * 2017-12-11 2019-06-18 浙江宇视科技有限公司 视频追溯方法及装置
CN109960960A (zh) * 2017-12-14 2019-07-02 中国移动通信集团安徽有限公司 视频指纹生成和匹配方法及装置、计算机设备和存储介质
CN110222594A (zh) * 2019-05-20 2019-09-10 厦门能见易判信息科技有限公司 盗版视频识别方法及系统
CN110222594B (zh) * 2019-05-20 2021-11-16 厦门能见易判信息科技有限公司 盗版视频识别方法及系统
CN110427895A (zh) * 2019-08-06 2019-11-08 李震 一种基于计算机视觉的视频内容相似度判别方法及系统
CN110852289A (zh) * 2019-11-16 2020-02-28 公安部交通管理科学研究所 一种基于移动视频提取车辆及驾驶人信息的方法
CN110889011A (zh) * 2019-11-29 2020-03-17 杭州当虹科技股份有限公司 一种视频指纹方法
CN110889011B (zh) * 2019-11-29 2022-07-26 杭州当虹科技股份有限公司 一种视频指纹方法
CN110996123A (zh) * 2019-12-18 2020-04-10 广州市百果园信息技术有限公司 一种视频处理方法、装置、设备及介质
CN110996123B (zh) * 2019-12-18 2022-01-11 广州市百果园信息技术有限公司 一种视频处理方法、装置、设备及介质
CN113591524A (zh) * 2020-04-30 2021-11-02 聚好看科技股份有限公司 显示设备及界面展示方法
CN111586473A (zh) * 2020-05-20 2020-08-25 北京字节跳动网络技术有限公司 视频的裁剪方法、装置、设备及存储介质
CN111966859A (zh) * 2020-08-27 2020-11-20 司马大大(北京)智能系统有限公司 视频数据的处理方法及装置、可读存储介质
CN112183328A (zh) * 2020-09-27 2021-01-05 北京永新视博数字电视技术有限公司 视频识别方法、装置、设备和存储介质
CN113268634A (zh) * 2021-04-27 2021-08-17 广州骏伯网络科技有限公司 一种视频数据关联方法、装置、计算机设备及存储介质
CN114827714A (zh) * 2022-04-11 2022-07-29 咪咕文化科技有限公司 基于视频指纹的视频还原方法、终端设备及存储介质
CN114827714B (zh) * 2022-04-11 2023-11-21 咪咕文化科技有限公司 基于视频指纹的视频还原方法、终端设备及存储介质

Also Published As

Publication number Publication date
CN104239420B (zh) 2017-06-06

Similar Documents

Publication Publication Date Title
CN104239420A (zh) 一种基于视频指纹的视频相似度匹配方法
CN102012939B (zh) 综合颜色和局部不变特征匹配的动画场景自动标注方法
CN107169106B (zh) 视频检索方法、装置、存储介质及处理器
CN105320705B (zh) 相似车辆的检索方法及装置
CN101271526B (zh) 一种图像处理中物体自动识别并三维重建的方法
CN106991370B (zh) 基于颜色和深度的行人检索方法
CN106610969A (zh) 基于多模态信息的视频内容审查系统及方法
CN103065153A (zh) 一种基于色彩量化和聚类的视频关键帧提取方法
CN109766873B (zh) 一种混合可变形卷积的行人再识别方法
CN104361096B (zh) 一种基于特征富集区域集合的图像检索方法
CN110675421B (zh) 基于少量标注框的深度图像协同分割方法
CN105404657A (zh) 一种基于cedd特征和phog特征的图像检索方法
CN111445459A (zh) 一种基于深度孪生网络的图像缺陷检测方法及系统
CN108335290B (zh) 一种基于liop特征与块匹配的图像区域复制篡改检测方法
CN106126585A (zh) 基于质量分级与感知哈希特征组合的无人机图像检索方法
CN109598301B (zh) 检测区域去除方法、装置、终端和存储介质
CN114187520B (zh) 一种建筑物提取模型的构建及应用方法
Damavandi et al. Speed limit traffic sign detection and recognition
CN113269224A (zh) 一种场景图像分类方法、系统及存储介质
CN114140665A (zh) 一种基于改进YOLOv5的密集小目标检测方法
CN113988147A (zh) 基于图网络的遥感图像场景多标签分类方法及装置、多标签检索方法及装置
CN114612450B (zh) 基于数据增广机器视觉的图像检测分割方法、系统、电子设备
CN112668662B (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
CN114694185B (zh) 一种跨模态目标重识别方法、装置、设备及介质
CN111160262A (zh) 一种融合人体关键点检测的人像分割方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170606

Termination date: 20211020