CN106778686A - 一种基于深度学习和图论的拷贝视频检测方法和系统 - Google Patents

一种基于深度学习和图论的拷贝视频检测方法和系统 Download PDF

Info

Publication number
CN106778686A
CN106778686A CN201710024138.9A CN201710024138A CN106778686A CN 106778686 A CN106778686 A CN 106778686A CN 201710024138 A CN201710024138 A CN 201710024138A CN 106778686 A CN106778686 A CN 106778686A
Authority
CN
China
Prior art keywords
video
key frame
copy
detected
reference library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710024138.9A
Other languages
English (en)
Inventor
杨欧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Polytechnic
Original Assignee
Shenzhen Polytechnic
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Polytechnic filed Critical Shenzhen Polytechnic
Priority to CN201710024138.9A priority Critical patent/CN106778686A/zh
Publication of CN106778686A publication Critical patent/CN106778686A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00086Circuits for prevention of unauthorised reproduction or copying, e.g. piracy

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度学习和图论的拷贝视频检测方法,包括:抽取参考库视频中的关键帧,从关键帧中提取关键帧特征,并将该关键帧特征存储在参考库视频数据库中;抽取待检测视频中的关键帧,并从关键帧中提取关键帧特征;采用近似最近邻搜索算法对得到的参考库视频数据库中的关键帧特征和得到的待检测视频中的关键帧特征进行相似性匹配,根据图论的方法对得到的相似性匹配列表进行拷贝视频片段的判断与定位。本发明能够解决现有方法中存在的拷贝视频检测时间消耗大以及对部分视频编辑变换方式难以应对的技术问题。

Description

一种基于深度学习和图论的拷贝视频检测方法和系统
技术领域
本发明属于多媒体信息处理技术领域,更具体地,涉及一种基于深度学习和图论的拷贝视频检测方法和系统。
背景技术
随着信息技术、视频采集设备和视频编辑软件的发展,视频数据呈现海量增长的趋势。互联网上每天都有大量的视频被上传和下载,这就导致互联网上存在着大量的相似或者拷贝视频。大量拷贝视频的产生给视频内容监管、视频版权保护、视频搜索引擎结果排序等多方面带来技术性的难题。利用计算机进行拷贝视频检测研究是近年来人们普遍关注的新兴研究课题,其涉及到的关键帧相似性匹配、视频子序列相似性匹配等技术已引起了越来越多学者和机构的关注。
目前,拷贝视频片段检测技术研究主要集中于基于视频关键帧特征的相似性匹配以及视频子序列的相似性匹配两方面。基于视频关键帧特征的相似性匹配目前研究主要集中于基于关键帧的局部特征进行相似性匹配,局部特征即通过提取关键帧的局部关键点并对关键点进行描述从而对关键帧进行描述。对于视频子序列相似性匹配方面的研究主要是采用模板序列匹配的方法,模板序列匹配是指以待检测视频序列的长度为窗口长度,然后以一个步长在参考视频序列中依次滑动,度量窗口内对应视频序列的相似度值。
然而,现有的拷贝视频检测方法存在以下的技术问题:第一,局部特征点检测算法较为复杂,局部描述子的维度高,且使采用局部特征进行关键帧相似性匹配需要对关键帧进行两两相似度计算,因此时间消耗过大,在应对大规模数据集时算法的效率不高;第二,基于模板序列匹配的视频子序列相似性匹配方法很难应对帧率改变、插帧、丢帧等视频编辑变换,而且在视频规模较大时,基于模板序列匹配的方法时间复杂度较高;第三,当前绝大多数的拷贝视频检测研究均侧重于待检测视频与参考视频长度相等的情况和待检测视频是参考视频子集的情况,但是当待检测视频本身也为拷贝片段和非拷贝片段拼接且拷贝片段仅为参考库视频中的子集时,当前研究方法就变得难以应对,检测的准确率也会大大降低。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于深度学习和图论的拷贝视频检测方法和系统,其目的在于,解决现有方法中存在的拷贝视频检测时间消耗大以及对部分视频编辑变换方式难以应对的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于深度学习和图论的拷贝视频检测方法,包括以下步骤:
(1)抽取参考库视频中的关键帧,从关键帧中提取关键帧特征,并将该关键帧特征存储在参考库视频数据库中;
(2)抽取待检测视频中的关键帧,并从关键帧中提取关键帧特征;
(3)采用近似最近邻搜索算法对步骤(1)中得到的参考库视频数据库中的关键帧特征和步骤(2)中得到的待检测视频中的关键帧特征进行相似性匹配;
(4)根据图论的方法对步骤(3)得到的相似性匹配列表进行拷贝视频片段的判断与定位。
优选地,步骤(1)具体包括以下子步骤:
(1-1)抽取参考库视频中的多个关键帧,具体是按照时间间隔T秒抽取一个关键帧,其中T为自然数;
(1-2)将步骤(1-1)中获取的多个关键帧进行归一化,将归一化的关键帧大小减去图像均值,并将结果输入到卷积神经网络模型进行处理,并将处理得到的W维向量作为关键帧特征,其中W为自然数;
(1-3)将步骤(1-2)中获得的关键帧特征按生成时间的先后顺序保存在参考库视频数据库中,并记录每个关键帧特征所对应的参考库视频序号。
优选地,步骤(1-2)中采用的是AlexNet卷积神经网络模型FC7层输出的的4096维向量,即W=4096。
优选地,步骤(2)具体包括以下步骤:
(2-1)抽取待检测视频中的多个关键帧,具体是按照时间间隔S秒抽取一个关键帧,其中S为自然数;
(2-2)将步骤(2-1)中获取的多个关键帧进行归一化,将归一化的关键帧大小减去图像均值,并将结果输入到卷积神经网络模型中进行处理,并将处理得到的W维向量作为关键帧特征。
优选地,步骤(3)具体包括以下步骤:
(3-1)读取参考库视频数据库中的关键帧特征R={r1,r2,...,rn},并将所有关键帧特征组合为W×n的矩阵,其中n表示参考库视频数据库中关键帧的数量,rj为参考视频关键帧,且j∈(1,n);
(3-2)读取待检测视频中的关键帧特征Q={q1,q2,...,qm},并将所有关键帧特征组合为W×m的矩阵,其中,m表示待检测视频关键帧的数量,qi为按时间先后排序的待检测视频关键帧,且i∈(1,m);
(3-3)采用近似最近邻搜索算法对获得的W×m的矩阵和W×n的矩阵进行关键帧的相似性匹配,以得到关键帧相似性匹配结果。
优选地,步骤(3-3)具体为,采用近似最近邻搜索算法,针对步骤(3-2)得到的矩阵W×m中的每一行,在步骤(3-1)得到的矩阵W×n中搜索与其欧式距离最小的前K个行向量,并按欧式距离由小到大的顺序对结果进行排序,即得到参考库视频数据库关键帧集合R中与其距离最近的前K个关键帧rj,并得到待检测视频关键帧集合Q与参考库视频数据库中关键帧集合R的相似性匹配结果,其中K为自然数。
优选地,步骤(4)具体包括以下子步骤:
(4-1)根据步骤(3)得到的关键帧相似性匹配结果构造匹配结果图中的结点,即对于待检测关键帧qi,如果参考库视频数据库关键帧集合R中与其距离最近的前K个关键帧中包含rj,则得到结点Mi,j
(4-2)判断匹配结果图中的相邻两个结点是存在连边,如果是则进入步骤(4-3),否则转入步骤(4-4);
(4-3)将该两个结点之间距离设为1,然后转入步骤(4-5);
(4-4)将该两个结点之间距离设为-1;
(4-5)针对匹配结果图中的所有任意两个结点,重复上述步骤(4-2)至(4-4),直到得到所有结点之间的距离为止,利用获得的所有向结点之间的距离,并使用Floyd_Warshall算法查找匹配结果图中任意两结点之间的最长路径Dist(Mi,j,Mu,v),其中u∈(1,m),v∈(1,n)。
(4-6)根据步骤(4-5)得到的结果对待检测视频中的拷贝片段进行判断,以获取非拷贝视频。
优选地,步骤(4-2)具体为,判断两个结点Mi,j和Mu,v是否存在连边需要同时两个条件:一是满足时间方向的一致性,即(i-u)*(j-v)>0;二是满足两结点之间的跳跃度其中τ为结点之间的时间跳跃度阈值。
优选地,步骤(4-6)具体为,查找匹配结果图中的最长路径maxDist(Mi,j,Mu,v),如果maxDist(Mi,j,Mu,v)≥λ,则判断该待检测视频为包含拷贝片段,拷贝片段的关键帧序列为从qi到qu,对应的参考视频库关键帧序列为从rj到rv,λ是对最大路径长度的限制阈值,如果maxDist(Mi,j,Mu,v)<λ,则判断该待检测视频不包含拷贝片段,即为非拷贝视频。
按照本发明的另一方面,提供了一种基于深度学习和图论的拷贝视频检测系统,包括:
第一模块,用于抽取参考库视频中的关键帧,从关键帧中提取关键帧特征,并将该关键帧特征存储在参考库视频数据库中;
第二模块,用于抽取待检测视频中的关键帧,并从关键帧中提取关键帧特征;
第三模块,用于采用近似最近邻搜索算法对第一模块得到的参考库视频数据库中的关键帧特征和第二模块得到的待检测视频中的关键帧特征进行相似性匹配;
第四模块,用于根据图论的方法对第三模块得到的相似性匹配列表进行拷贝视频片段的判断与定位。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明能够解决现有基于关键帧特征相似性匹配方法中存在的计算复杂度高,时间消耗大的技术问题:本发明由于采用了步骤(1)和步骤(2),通过利用卷积神经网络模型提取关键帧特征,使得关键帧特征描述能力更好且维数大大减少,又由于步骤(3)利用近似最近邻搜索算法进行关键帧相似性匹配,不需对关键帧两两计算相似度,而是一次性得到所有待检测关键帧的相似性匹配结果,大幅度提高了计算速度,因此本发明能够解决计算复杂度高,时间消耗大的技术问题。
(2)本发明能够解决现有基于模板序列匹配方法中存在的计算复杂度高,难以应对帧率改变、插帧、丢帧等视频编辑变换的技术问题:本发明由于采用了步骤(3)和步骤(4),通过利用近似最近邻搜索算法进行关键帧相似性匹配,通过利用图论的方法将拷贝视频的判断与定位转化为在有向图中寻找最长路径,因此本发明能够解决计算复杂度高,难以应对帧率改变、插帧、丢帧等视频编辑变换的技术问题。
(3)本发明能够解决现有方法无法应对待检测视频本身也为拷贝片段和非拷贝片段拼接且拷贝片段仅为参考库视频中的子集的技术问题:本发明步骤(4),通过利用图论的方法将拷贝视频的判断与定位转化为在有向图中寻找最长路径,可以应对待检测视频与参考库视频之间的任意匹配形式,因此本发明能够解决待检测视频本身也为拷贝片段和非拷贝片段拼接且拷贝片段仅为参考库视频中的子集的技术问题。
附图说明
图1是现有技术中拷贝视频编辑变换的示意图。
图2是现有技术中待检测视频与参考库视频之间的匹配形式示意图。
图3是本发明基于深度学习和图论的拷贝视频检测方法的流程图。
图4是本发明步骤(3)中基于AlexNet卷积神经网络模型提取的关键帧特征进行关键帧相似性匹配示意图。
图5是本发明步骤(3)中得到的待检测关键帧相似性匹配结果示意图。
图6是本发明步骤(4)中得到的匹配结果示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
图1为现有技术的拷贝视频编辑变换示意图,图中(a)为源视频,其余均为经过了一定编辑变换的拷贝视频,图中(b)在源视频的基础上进行了高斯模糊,图中(c)在源视频的基础上进行了改变了对比度,图中(d)为对源视频进行了裁剪变换,图中(e)对源视频添加了黑边,图中(f)对源视频进行了高斯模糊同时添加了标志,此图说明了拷贝视频编辑变换的种类非常多,要进行拷贝视频检测具有一定的难度,本发明提出的基于深度学习和图论的拷贝视频检测方法可以应对以上多种不同的编辑变换类型。
图2为现有技术的待检测视频与参考库视频之间的匹配形式示意图,图中(a)为待检测视频长度与参考视频长度相等且待检测视频即为参考视频完整拷贝的情况,图中(b)为待检测视频拷贝自参考视频一个子集的情况,图中(c)即待检测视频片段中的部分片段与参考库视频中片段中的一个子集是拷贝的情况,当前研究绝大多数都是解决图中(a)、(b)两种匹配形式的情况,对于图中(c)所示的情况难以应对,本发明提出的基于深度学习和图论的拷贝视频检测方法可以应对图中(c)所示的匹配形式。
如图3所示,本发明基于深度学习和图论的拷贝视频检测方法包括以下步骤:
(1)抽取参考库视频中的关键帧,从关键帧中提取关键帧特征,并将该关键帧特征存储在参考库视频数据库中。
本步骤具体包括以下子步骤:
(1-1)抽取参考库视频中的多个关键帧;具体而言,本步骤是按照时间间隔T秒抽取一个关键帧,其中T为自然数,且优选值等于1;
(1-2)将步骤(1-1)中获取的多个关键帧进行归一化(例如,归一化为227×227大小),将归一化的关键帧大小减去图像均值,并将结果输入到卷积神经网络模型进行处理(在本实施方式中,采用已经在诸如ImageNet数据集的海量图像数据集上预训练的AlexNet卷积神经网络模型),并将处理得到的W维向量作为关键帧特征,其中W为自然数,在本实施方式中采用的是AlexNet卷积神经网络模型FC7层输出的的4096维向量,即W=4096;
(1-3)将步骤(1-2)中获得的关键帧特征按生成时间的先后顺序保存在参考库视频数据库中,并记录每个关键帧特征所对应的参考库视频序号。
(2)抽取待检测视频中的关键帧,并从关键帧中提取关键帧特征。
本步骤具体包括以下步骤:
(2-1)抽取待检测视频中的多个关键帧;具体而言,本步骤是按照时间间隔S秒抽取一个关键帧,其中S为自然数,且优选值等于1;
(2-2)将步骤(2-1)中获取的多个关键帧进行归一化(例如,归一化为227×227大小),将归一化的关键帧大小减去图像均值,并将结果输入到卷积神经网络模型中进行处理(在本实施方式中,采用已经在诸如ImageNet数据集的海量图像数据集上预训练的AlexNet卷积神经网络模型),并将处理得到的W维向量作为关键帧特征。
(3)采用近似最近邻搜索算法对步骤(1)中得到的参考库视频数据库中的关键帧特征和步骤(2)中得到的待检测视频中的关键帧特征进行相似性匹配;
本步骤具体包括以下子步骤:
(3-1)读取参考库视频数据库中的关键帧特征,并将所有关键帧特征组合为W×n的矩阵,其中n表示参考库视频数据库中关键帧的数量,且为自然数;具体而言,设参考库视频数据库中关键帧集合为R={r1,r2,...,rn},rj为参考视频关键帧,且j∈(1,n),本发明中每一个关键帧特征为一个4096维向量,则可将参考库视频数据库中所有关键帧特征组合在一起,构成一个4096×n的矩阵;
(3-2)读取待检测视频中的关键帧特征,并将所有关键帧特征组合为W×m的矩阵,其中,m表示待检测视频关键帧的数量,且为自然数;具体而言,设待检测视频中关键帧集合为Q={q1,q2,...,qm},qi为按时间先后排序的待检测视频关键帧,且i∈(1,m),本发明中每一个关键帧特征为一个4096维向量,则可将所有待检测视频中关键帧特征组合在一起,构成一个4096×m的矩阵;
(3-3)采用近似最近邻搜索算法对获得的W×m的矩阵和W×n的矩阵进行关键帧的相似性匹配,以得到关键帧相似性匹配结果;具体而言,采用近似最近邻搜索算法,针对步骤(3-2)得到的矩阵4096×m中的每一行,在步骤(3-1)得到的矩阵4096×n中搜索与其欧式距离最小的前K个行向量,并按欧式距离由小到大的顺序对结果进行排序(其中K为自然数,且优选值等于10);也就是说,对每一个待检测关键帧qi,均得到参考库视频数据库关键帧集合R中与其距离最近的前K个关键帧rj,这样也就得到了待检测视频关键帧集合Q与参考库视频数据库中关键帧集合R的相似性匹配结果。
(4)根据图论的方法对步骤(3)得到的相似性匹配列表进行拷贝视频片段的判断与定位。
本步骤具体包括以下子步骤:
(4-1)根据步骤(3)得到的关键帧相似性匹配结果构造匹配结果图中的结点;具体而言,对于待检测关键帧qi,如果参考库视频数据库关键帧集合R中与其距离最近的前K个关键帧中包含rj,则得到结点Mi,j
(4-2)判断匹配结果图中的相邻两个结点是存在连边,如果是则进入步骤(4-3),否则转入步骤(4-4);具体而言,判断两个结点Mi,j和Mu,v是否存在连边需要同时两个条件:一是满足时间方向的一致性,即(i-u)*(j-v)>0;二是满足两结点之间的跳跃度其中τ为结点之间的时间跳跃度阈值,且优选值等于5,v∈(1,n),u∈(1,m);
(4-3)将该两个结点之间距离设为1,然后转入步骤(4-5);
(4-4)将该两个结点之间距离设为-1;
(4-5)针对匹配结果图中的所有任意两个结点,重复上述步骤(4-2)至(4-4),直到得到所有结点之间的距离为止,利用获得的所有向结点之间的距离,并使用Floyd_Warshall算法查找匹配结果图中任意两结点之间的最长路径Dist(Mi,j,Mu,v)。
(4-6)根据步骤(4-5)得到的结果对待检测视频中的拷贝片段进行判断;具体而言,查找匹配结果图中的最长路径maxDist(Mi,j,Mu,v),如果maxDist(Mi,j,Mu,v)≥λ,则判断该待检测视频为包含拷贝片段,拷贝片段的关键帧序列为从qi到qu,对应的参考视频库关键帧序列为从rj到rv,λ是对最大路径长度的限制阈值,且优选值等于5,如果maxDist(Mi,j,Mu,v)<λ,则判断该待检测视频不包含拷贝片段,即为非拷贝视频。
图4为本发明步骤(3)中基于AlexNet卷积神经网络模型提取的关键帧特征进行关键帧相似性匹配示意图,利用AlexNet卷积神经网络模型输出的FC7层特征进行关键帧相似度的计算,这里即计算两个4096维向量的距离。
图5为本发明步骤(3)中得到的待检测关键帧相似性列表示意图,代表待检测视频的第m帧,代表参考库视频数据库关键帧集中的第f帧。图中的前7列数据为实验中一段待检测视频的匹配结果,匹配时,待检测视频Q={q1,...,qm}中的每一帧qi按照时间先后顺序进行排序,然后将待检测关键帧qi与参考库视频数据库中关键帧集合R={r1,...,rn}进行相似性匹配,按照欧式距离从小到大对匹配结果进行排序,图中K=5,即取前5个距离最小的结果。以图中第一列匹配结果为例,则有dist(q1,r26)≤dist(q1,r40)≤dist(q1,r112)≤dist(q1,r11)≤dist(q1,r76)。
图6为本发明步骤(4)中得到的匹配结果示意图,其是由图5中的前7列数据转化而来,两条虚线边的地方代表两个结点之间不存在边,匹配结果图中令τ=5,虚线(1)连接的两个结点超过了时间跳跃度阈值,虚线(2)连接的两个结点不满足时间方向的一致性,图中红色路径即为匹配结果图中的最长路径,路径的起止结点M1,26和M7,33表示待检测视频的第一帧到第七帧为拷贝片段,对应于整个参考库视频关键帧中的第26到第33帧,通过数据库里记录到的关键帧所属视频标号,即可查找拷贝片段的源视频片段,由此完成拷贝视频片段的判断和定位。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于深度学习和图论的拷贝视频检测方法,其特征在于,包括以下步骤:
(1)抽取参考库视频中的关键帧,从关键帧中提取关键帧特征,并将该关键帧特征存储在参考库视频数据库中;
(2)抽取待检测视频中的关键帧,并从关键帧中提取关键帧特征;
(3)采用近似最近邻搜索算法对步骤(1)中得到的参考库视频数据库中的关键帧特征和步骤(2)中得到的待检测视频中的关键帧特征进行相似性匹配;
(4)根据图论的方法对步骤(3)得到的相似性匹配列表进行拷贝视频片段的判断与定位。
2.根据权利要求1所述的拷贝视频检测方法,其特征在于,步骤(1)具体包括以下子步骤:
(1-1)抽取参考库视频中的多个关键帧,具体是按照时间间隔T秒抽取一个关键帧,其中T为自然数;
(1-2)将步骤(1-1)中获取的多个关键帧进行归一化,将归一化的关键帧大小减去图像均值,并将结果输入到卷积神经网络模型进行处理,并将处理得到的W维向量作为关键帧特征,其中W为自然数;
(1-3)将步骤(1-2)中获得的关键帧特征按生成时间的先后顺序保存在参考库视频数据库中,并记录每个关键帧特征所对应的参考库视频序号。
3.根据权利要求1所述的拷贝视频检测方法,其特征在于,步骤(1-2)中采用的是AlexNet卷积神经网络模型FC7层输出的的4096维向量,即W=4096。
4.根据权利要求2所述的拷贝视频检测方法,其特征在于,步骤(2)具体包括以下步骤:
(2-1)抽取待检测视频中的多个关键帧,具体是按照时间间隔S秒抽取一个关键帧,其中S为自然数;
(2-2)将步骤(2-1)中获取的多个关键帧进行归一化,将归一化的关键帧大小减去图像均值,并将结果输入到卷积神经网络模型中进行处理,并将处理得到的W维向量作为关键帧特征。
5.根据权利要求4所述的拷贝视频检测方法,其特征在于,步骤(3)具体包括以下步骤:
(3-1)读取参考库视频数据库中的关键帧特征R={r1,r2,...,rn},并将所有关键帧特征组合为W×n的矩阵,其中n表示参考库视频数据库中关键帧的数量,rj为参考视频关键帧,且j∈(1,n);
(3-2)读取待检测视频中的关键帧特征Q={q1,q2,...,qm},并将所有关键帧特征组合为W×m的矩阵,其中,m表示待检测视频关键帧的数量,qi为按时间先后排序的待检测视频关键帧,且i∈(1,m);
(3-3)采用近似最近邻搜索算法对获得的W×m的矩阵和W×n的矩阵进行关键帧的相似性匹配,以得到关键帧相似性匹配结果。
6.根据权利要求5所述的拷贝视频检测方法,其特征在于,步骤(3-3)具体为,采用近似最近邻搜索算法,针对步骤(3-2)得到的矩阵W×m中的每一行,在步骤(3-1)得到的矩阵W×n中搜索与其欧式距离最小的前K个行向量,并按欧式距离由小到大的顺序对结果进行排序,即得到参考库视频数据库关键帧集合R中与其距离最近的前K个关键帧rj,并得到待检测视频关键帧集合Q与参考库视频数据库中关键帧集合R的相似性匹配结果,其中K为自然数。
7.根据权利要求5所述的拷贝视频检测方法,其特征在于,步骤(4)具体包括以下子步骤:
(4-1)根据步骤(3)得到的关键帧相似性匹配结果构造匹配结果图中的结点,即对于待检测关键帧qi,如果参考库视频数据库关键帧集合R中与其距离最近的前K个关键帧中包含rj,则得到结点Mi,j
(4-2)判断匹配结果图中的相邻两个结点是存在连边,如果是则进入步骤(4-3),否则转入步骤(4-4);
(4-3)将该两个结点之间距离设为1,然后转入步骤(4-5);
(4-4)将该两个结点之间距离设为-1;
(4-5)针对匹配结果图中的所有任意两个结点,重复上述步骤(4-2)至(4-4),直到得到所有结点之间的距离为止,利用获得的所有向结点之间的距离,并使用Floyd_Warshall算法查找匹配结果图中任意两结点之间的最长路径Dist(Mi,j,Mu,v),其中u∈(1,m),v∈(1,n);
(4-6)根据步骤(4-5)得到的结果对待检测视频中的拷贝片段进行判断,以获取非拷贝视频。
8.根据权利要求7所述的拷贝视频检测方法,其特征在于,步骤(4-2)具体为,判断两个结点Mi,j和Mu,v是否存在连边需要同时两个条件:一是满足时间方向的一致性,即(i-u)*(j-v)>0;二是满足两结点之间的跳跃度其中τ为结点之间的时间跳跃度阈值。
9.根据权利要求8所述的拷贝视频检测方法,其特征在于,步骤(4-6)具体为,查找匹配结果图中的最长路径maxDist(Mi,j,Mu,v),如果maxDist(Mi,j,Mu,v)≥λ,则判断该待检测视频为包含拷贝片段,拷贝片段的关键帧序列为从qi到qu,对应的参考视频库关键帧序列为从rj到rv,λ是对最大路径长度的限制阈值,如果maxDist(Mi,j,Mu,v)<λ,则判断该待检测视频不包含拷贝片段,即为非拷贝视频。
10.一种基于深度学习和图论的拷贝视频检测系统,其特征在于,包括:
第一模块,用于抽取参考库视频中的关键帧,从关键帧中提取关键帧特征,并将该关键帧特征存储在参考库视频数据库中;
第二模块,用于抽取待检测视频中的关键帧,并从关键帧中提取关键帧特征;
第三模块,用于采用近似最近邻搜索算法对第一模块得到的参考库视频数据库中的关键帧特征和第二模块得到的待检测视频中的关键帧特征进行相似性匹配;
第四模块,用于根据图论的方法对第三模块得到的相似性匹配列表进行拷贝视频片段的判断与定位。
CN201710024138.9A 2017-01-12 2017-01-12 一种基于深度学习和图论的拷贝视频检测方法和系统 Pending CN106778686A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710024138.9A CN106778686A (zh) 2017-01-12 2017-01-12 一种基于深度学习和图论的拷贝视频检测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710024138.9A CN106778686A (zh) 2017-01-12 2017-01-12 一种基于深度学习和图论的拷贝视频检测方法和系统

Publications (1)

Publication Number Publication Date
CN106778686A true CN106778686A (zh) 2017-05-31

Family

ID=58948299

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710024138.9A Pending CN106778686A (zh) 2017-01-12 2017-01-12 一种基于深度学习和图论的拷贝视频检测方法和系统

Country Status (1)

Country Link
CN (1) CN106778686A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108289248A (zh) * 2018-01-18 2018-07-17 福州瑞芯微电子股份有限公司 一种基于内容预测的深度学习视频解码方法和装置
CN108427925A (zh) * 2018-03-12 2018-08-21 中国人民解放军国防科技大学 一种基于连续拷贝帧序列的拷贝视频检测方法
CN108664902A (zh) * 2018-04-23 2018-10-16 中国科学院自动化研究所 基于深度学习的端到端的视频拷贝检测方法及装置
CN108985165A (zh) * 2018-06-12 2018-12-11 东南大学 一种基于卷积及循环神经网络的视频拷贝检测系统及方法
CN109165574A (zh) * 2018-08-03 2019-01-08 百度在线网络技术(北京)有限公司 视频检测方法和装置
CN109508408A (zh) * 2018-10-25 2019-03-22 北京陌上花科技有限公司 一种基于帧密度的视频检索方法及计算机可读存储介质
CN110688524A (zh) * 2019-09-24 2020-01-14 深圳市网心科技有限公司 视频检索方法、装置、电子设备及存储介质
CN112218119A (zh) * 2020-09-30 2021-01-12 深圳创维-Rgb电子有限公司 视频流帧率转换方法、装置、终端设备以及存储介质
CN114041165A (zh) * 2019-07-18 2022-02-11 华为技术有限公司 一种视频相似检测的方法、装置及设备
CN114286174A (zh) * 2021-12-16 2022-04-05 天翼爱音乐文化科技有限公司 一种基于目标匹配的视频剪辑方法、系统、设备及介质
US11954152B2 (en) 2020-08-14 2024-04-09 Alipay (Hangzhou) Information Technology Co., Ltd. Video matching methods and apparatuses, and blockchain-based infringement evidence storage methods and apparatuses

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008016102A1 (fr) * 2006-08-03 2008-02-07 Nec Corporation dispositif de calcul de similarité et dispositif de recherche d'informations
CN101853377A (zh) * 2010-05-13 2010-10-06 复旦大学 一种对数字视频进行内容识别的方法
CN102890778A (zh) * 2011-07-21 2013-01-23 北京新岸线网络技术有限公司 基于内容的视频检测方法及装置
CN105354228A (zh) * 2015-09-30 2016-02-24 小米科技有限责任公司 相似图搜索方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008016102A1 (fr) * 2006-08-03 2008-02-07 Nec Corporation dispositif de calcul de similarité et dispositif de recherche d'informations
CN101853377A (zh) * 2010-05-13 2010-10-06 复旦大学 一种对数字视频进行内容识别的方法
CN102890778A (zh) * 2011-07-21 2013-01-23 北京新岸线网络技术有限公司 基于内容的视频检测方法及装置
CN105354228A (zh) * 2015-09-30 2016-02-24 小米科技有限责任公司 相似图搜索方法及装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108289248B (zh) * 2018-01-18 2020-05-15 福州瑞芯微电子股份有限公司 一种基于内容预测的深度学习视频解码方法和装置
CN108289248A (zh) * 2018-01-18 2018-07-17 福州瑞芯微电子股份有限公司 一种基于内容预测的深度学习视频解码方法和装置
CN108427925A (zh) * 2018-03-12 2018-08-21 中国人民解放军国防科技大学 一种基于连续拷贝帧序列的拷贝视频检测方法
CN108427925B (zh) * 2018-03-12 2020-07-21 中国人民解放军国防科技大学 一种基于连续拷贝帧序列的拷贝视频检测方法
CN108664902A (zh) * 2018-04-23 2018-10-16 中国科学院自动化研究所 基于深度学习的端到端的视频拷贝检测方法及装置
CN108664902B (zh) * 2018-04-23 2020-08-25 中国科学院自动化研究所 基于深度学习的端到端的视频拷贝检测方法及装置
CN108985165A (zh) * 2018-06-12 2018-12-11 东南大学 一种基于卷积及循环神经网络的视频拷贝检测系统及方法
CN109165574A (zh) * 2018-08-03 2019-01-08 百度在线网络技术(北京)有限公司 视频检测方法和装置
CN109508408A (zh) * 2018-10-25 2019-03-22 北京陌上花科技有限公司 一种基于帧密度的视频检索方法及计算机可读存储介质
CN114041165A (zh) * 2019-07-18 2022-02-11 华为技术有限公司 一种视频相似检测的方法、装置及设备
CN110688524A (zh) * 2019-09-24 2020-01-14 深圳市网心科技有限公司 视频检索方法、装置、电子设备及存储介质
CN110688524B (zh) * 2019-09-24 2023-04-14 深圳市网心科技有限公司 视频检索方法、装置、电子设备及存储介质
US11954152B2 (en) 2020-08-14 2024-04-09 Alipay (Hangzhou) Information Technology Co., Ltd. Video matching methods and apparatuses, and blockchain-based infringement evidence storage methods and apparatuses
CN112218119A (zh) * 2020-09-30 2021-01-12 深圳创维-Rgb电子有限公司 视频流帧率转换方法、装置、终端设备以及存储介质
CN114286174A (zh) * 2021-12-16 2022-04-05 天翼爱音乐文化科技有限公司 一种基于目标匹配的视频剪辑方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN106778686A (zh) 一种基于深度学习和图论的拷贝视频检测方法和系统
Peng et al. Two-stream collaborative learning with spatial-temporal attention for video classification
CN106991373A (zh) 一种基于深度学习和图论的拷贝视频检测方法
CN102334118B (zh) 基于用户兴趣学习的个性化广告推送方法与系统
Chang et al. Searching persuasively: Joint event detection and evidence recounting with limited supervision
CN108427925B (zh) 一种基于连续拷贝帧序列的拷贝视频检测方法
CN106649663B (zh) 一种基于紧凑视频表征的视频拷贝检测方法
CN109271488B (zh) 一种结合行为序列和文本信息的社交网络用户间因果关系发现方法及系统
CN102156686B (zh) 基于组示多示例学习模型的视频特定包含语义检测方法
CN109033833B (zh) 一种基于多特征与特征选择的恶意代码分类方法
CN114239083B (zh) 一种基于图神经网络的高效状态寄存器识别方法
CN112200096B (zh) 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质
Song et al. Gratis: Deep learning graph representation with task-specific topology and multi-dimensional edge features
CN113298015A (zh) 基于图卷积网络的视频人物社交关系图生成方法
Huang et al. Visual–textual hybrid sequence matching for joint reasoning
CN115731498A (zh) 一种联合强化学习和对比学习的视频摘要生成方法
Li et al. Multi-label pattern image retrieval via attention mechanism driven graph convolutional network
CN113919440A (zh) 一种融合双重注意力机制和图卷积社交网络谣言检测系统
WO2024188044A1 (zh) 视频标签生成方法、装置、电子设备及存储介质
Li et al. Social context-aware person search in videos via multi-modal cues
Liao et al. Time-sync comments denoising via graph convolutional and contextual encoding
Pu et al. Spatial-temporal knowledge-embedded transformer for video scene graph generation
Tapaswi et al. Long term spatio-temporal modeling for action detection
CN109670071B (zh) 一种序列化多特征指导的跨媒体哈希检索方法和系统
CN115019342B (zh) 一种基于类关系推理的濒危动物目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170531

RJ01 Rejection of invention patent application after publication