CN111723692B - 基于卷积神经网络语义分类的标签特征的近重复视频检测方法 - Google Patents

基于卷积神经网络语义分类的标签特征的近重复视频检测方法 Download PDF

Info

Publication number
CN111723692B
CN111723692B CN202010496104.1A CN202010496104A CN111723692B CN 111723692 B CN111723692 B CN 111723692B CN 202010496104 A CN202010496104 A CN 202010496104A CN 111723692 B CN111723692 B CN 111723692B
Authority
CN
China
Prior art keywords
video
frame
level
feature
semantic classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010496104.1A
Other languages
English (en)
Other versions
CN111723692A (zh
Inventor
王萍
梁思颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202010496104.1A priority Critical patent/CN111723692B/zh
Publication of CN111723692A publication Critical patent/CN111723692A/zh
Application granted granted Critical
Publication of CN111723692B publication Critical patent/CN111723692B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7857Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明基于卷积神经网络的语义分类标签特征的近重复视频检测方法,以解决现有近重复视频检索领域特征存储空间大、检索效率低等问题。该方法首先利用深度卷积神经网络模型对视频提取密集的语义分类标签特征;再根据视频帧标签特征之间的重复性去冗余以获得视频的语义分类标签特征;然后对查询视频和库视频的特征向量进行相似性匹配;最后通过计算杰卡德系数度量两视频的相似度,从而实现近重复视频的检测。其中视频标签特征去冗余和特征匹配两个步骤有视频级别和帧级别两种实现方式,即可以通过两种不同层次的方法实现基于语义分类标签特征的近重复视频检测。采用本发明能够快速实现近重复视频检测,并且对视频编辑变换和噪声具有一定的鲁棒性。

Description

基于卷积神经网络语义分类的标签特征的近重复视频检测 方法
技术领域
本发明属于多媒体信息处理领域,具体涉及一种基于卷积神经网络语义分类的标签特征的近重复视频检测方法。
背景技术
随着互联网技术的蓬勃发展,视频作为信息的载体,在信息表达、信息传递中扮演着越来越重要的角色;而视频采集设备和视频编辑软件的快速发展,用户能更轻松地获取、编辑、分享视频,网络视频呈现爆炸式增长。以全球最大的视频网站YouTube为例,该网站目前每分钟有超过500小时时长的视频被上传,月活跃用户超过18亿。然而在这海量的视频数据中,存在着大量相同或近似的视频。据相关研究结果显示,在YouTube、Google Video和Yahoo Video上基于24个流行关键词进行查询,检索结果中平均有近27%的视频是相似视频,有的检索结果中这一数字甚至达到93%。这部分相似视频中,除了部分是完全重复的视频外,更多的是对原始视频进行了编辑变换后得到的近重复视频。大量近重复视频的存在给网络视频监管、视频版权保护、视频检索等任务带来了不小的挑战。
近重复视频检测技术是近年来引起人们普遍关注的研究课题。近重复视频是指完全相同或近似的视频,这些视频彼此之间几乎完全相同,但在文件格式、编码参数、光度变化(颜色、光照变化)、编辑操作(标题、徽标和边框插入)、长度和某些修改(插入帧/删除帧)方面有所不同。近重复视频检测的任务就是在一组视频(待检测视频)中确定是否有与给定视频(参考视频)近重复的视频。
在现有的近重复视频检测技术中,选择合适的具有高区分度和稳定性的视频帧特征是研究人员关注的热点。目前有视频帧的全局特征和视频帧的局部特征两种主要的特征表示方式。视频帧的全局特征包括颜色、纹理、形状等全局的图像视觉特征,通常将提取到的特征用一固定维数的向量进行表示,其优点在于计算简单,然而对于经过复杂编辑变换的视频,利用全局特征通常不能达到很好的检测效果。视频帧的局部特征包括尺度不变特征变换(Scale-invariant feature transform,SIFT)、加速鲁棒特征(Speed Up RobustFeatures,SURF)等,局部特征对颜色、光照、亮度变化、几何变换等后期编辑具有较强的鲁棒性,但是其计算代价较大且特征维数较高。
目前不论是视频帧的全局特征还是局部特征,都是以图像的低层视觉特征为主要内容,而忽略了视频帧在语义上的特性。通常为了解决计算代价和匹配准确率之间的矛盾,会对视频帧进行稀疏采样,如每秒均匀采样一到两帧、或一个镜头内选取一到三帧图像来代表整个视频片段。然而,同一秒内或同一镜头内的视频帧,尽管画面相似但又存在着细节上的差异,若仅使用其中的一到两帧来表示该一秒或一个镜头的视频片段,则会损失部分信息,导致特征的描述能力降低,继而造成检测结果准确率的下降。
发明内容
本发明通过深度学习的方法来解决现有技术中语义特征缺失和检测效率的问题。本发明提供一种基于卷积神经网络分类的语义标签的近重复视频检测方法,采用高层语义特征来描述视频内容,保证特征的紧凑和无冗余,实现高效的视频相似性匹配,满足视频检索、版权保护、视频监管等方面的技术需求。
本发明通过以下技术方案来实现的:
基于卷积神经网络语义分类的标签特征的近重复视频检测方法,该方法首先利用深度卷积神经网络模型对视频提取密集的语义分类标签特征;其次根据视频帧标签特征之间的重复性,去冗余得到视频的语义分类标签特征;然后对查询视频和库视频的特征向量进行相似性匹配;最后通过计算杰卡德系数度量两视频的相似度,从而实现近重复视频的检测;其中视频标签特征去冗余和特征匹配两个步骤有帧级别和视频级别两种实现方式,即通过两种不同层次的方法实现基于语义分类标签特征的近重复视频检测。
本发明进一步的改进在于,该方法具体包括以下步骤:
步骤1:视频帧语义分类标签特征提取:
分别对查询视频和库视频提取视频的所有帧,将各帧送入深度神经网络模型中提取语义分类标签特征,获得密集的视频帧标签特征;
步骤2:视频标签特征去冗余:
从视频级或帧级两个层次对密集的视频帧标签特征进行去冗余,获得视频级的查询视频特征向量Vqv和库视频特征向量Vdv,以及帧级的查询视频特征向量Vqf和库视频特征向量Vdf
步骤3:视频标签特征匹配:
从视频级或帧级两个层次进行视频间的相似性匹配,利用集合操作对视频级标签特征进行匹配,获得查询视频和库视频公共的语义标签数目;利用最大公共子序列的方法对帧级标签特征进行匹配,获得查询视频和库视频具有公共语义标签的帧数目;
步骤4:视频间相似性度量:
采用杰卡德系数计算查询视频和库视频中所有视频的相似度S,将相似度得分按从大到小排列,即得到近重复视频匹配列表。
本发明进一步的改进在于,在步骤1中,视频帧语义分类标签特征提取过程如下:
步骤1.1:抽取视频所有帧,得到视频帧集合F={f1,f2,…,fn},n为视频帧总数;
步骤1.2:将视频帧集合F中的n个视频帧进行归一化,每帧尺寸调整为227×227像素,并将归一化后的视频帧输入到在ImageNet数据集上预训练的AlexNet卷积神经网络模型;模型的Softmax层输出的1000维向量对应于1000个语义分类的概率,将这1000维向量作为每个视频帧的语义分类特征,得到n个视频帧的各1000维语义分类特征;
步骤1.3:对视频帧的语义分类特征,其标签定义为1000维向量的索引值,即1,2...,1000;因为该向量对应1000个语义分类的概率,因此取最高概率的三个语义分类对应的标签作为视频帧的语义分类标签特征,最终得到n×3维密集的视频帧语义分类标签特征矩阵。
本发明进一步的改进在于,在步骤2中,视频级去冗余的过程如下:
将n×3维的视频帧语义分类标签特征矩阵中的所有标签重组为一维的特征向量,该向量中重复出现的标签元素仅保留一个,即去冗余后得到一个一维的含p个无重复标签的视频级语义分类标签特征向量;对查询视频和库视频,其视频级语义分类标签特征分别记做Vqv和Vdv
帧级去冗余的过程如下:
将第i帧特征向量与前i-1帧特征向量都进行比较,i=2,…,n,若第i帧特征向量与前i-1帧的每个特征向量在每一维上都不相同,则保留第i帧特征向量,否则舍弃第i帧特征向量,即去冗余后的特征矩阵的每个3维的标签特征都是不同的;假设共保留q个无重复的3维标签特征,则得到q×3维的帧级视频特征向量;对查询视频和库视频,其帧级语义分类标签特征分别记做Vqf和Vdf
本发明进一步的改进在于,在步骤3中,针对视频级和帧级语义分类标签特征,有不同的相似性匹配方法;
其中视频级标签特征匹配过程如下:
对于视频级标签特征,利用集合的交集操作获得查询视频和库视频公共的语义标签数目|Vqv∩Vdv|,利用集合的并集操作获得查询视频和库视频全部的语义标签数目|Vqv∪Vdv|;
其中帧级标签特征匹配过程如下:
对于帧级标签特征,每帧的3维特征向量为一个匹配单元,如果两帧的3维特征向量的每一维分别对应相同,则认为两帧相似;利用最大公共子序列的方法获得查询视频和库视频按相同时间顺序出现的具有公共语义标签的帧数目|Vqf∩Vdf|,以及查询视频和库视频全部语义标签的帧数目|Vqf∪Vdf|=|Vqf|+|Vdf|-|Vqf∩Vdf|,其中|Vqf|和|Vdf|分别表示查询视频和库视频具有语义标签的帧数目。
本发明进一步的改进在于,在步骤4中,查询视频和库视频的相似度S的计算公式如下:采用杰卡德系数计算查询视频和库视频中所有视频的相似度S,对于视频级标签特征,
Figure BDA0002522896460000051
Figure BDA0002522896460000052
对于帧级标签特征,
Figure BDA0002522896460000053
与现有技术相比,本发明至少具有如下有益的技术效果:
(1)本发明采用高层语义特征来描述视频内容,相比传统的颜色特征、纹理特征、SIFT特征等,对视频内容的描述更加精简,特征维数低,所占用存储空间小,匹配时所需的时间大幅减少。
(2)本发明采用先提取特征,再对特征进行去冗余的方法来获得稀疏的视频描述,相比一般的先提取关键帧再提取特征的方法,本发明能够保留更多视频的原始信息,从而使检测的结果更加可靠。
附图说明
图1为本发明的总体流程图。
图2为本发明中视频高级语义特征提取过程示意图。
图3为从帧级的层面对一段视频的密集视频特征矩阵进行去冗余的流程图。
图4为利用本发明中的算法与现有的近重复视频检测算法在公开数据库CC_WEB_VIDEO中进行检测的结果的PR曲线。
具体实施方式
下面结合附图和实施例对本发明方法的实施方式做详细说明。
如图1所示,为本发明实现过程的总体流程图,本发明提供了基于卷积神经网络语义分类的标签特征的近重复视频检测方法,该方法首先对视频提取密集的语义分类标签特征;其次根据同一个视频的视频帧标签特征之间的重复性对特征进行去冗余,获得视频的语义分类标签特征;接着对查询视频和库视频的特征向量进行相似性匹配;最后通过计算杰卡德系数度量两视频的相似度,从而实现近重复视频的检测。其中视频标签特征去冗余和特征匹配两个步骤有帧级别和视频级别两种实现方式,即可以通过两种不同层次的方法实现基于语义分类标签特征的近重复视频检测。
本发明提供的基于卷积神经网络语义分类的标签特征的近重复视频检测方法,其具体实现过程如下:
步骤1,视频帧语义分类标签特征提取:
如图2所示为视频帧语义分类标签特征提取的流程,分别对查询视频和库视频提取视频的所有帧,将各帧送入深度神经网络模型中提取语义分类标签特征,获得密集的视频帧标签特征,具体生成过程如下:
第一步:抽取视频的所有视频帧,得到视频帧集合F={f1,f2,…,fn},n为视频帧总数;
第二步:将第一步中获得的视频帧集合F中的n个视频帧进行归一化,每帧尺寸调整为227×227像素;
第三步:将归一化后的视频帧输入到在ImageNet数据集上预训练的AlexNet卷积神经网络模型中,AlexNet卷积神经网络模型softmax层输出的1000维向量对应于1000个语义分类的概率,将这1000维向量作为每个视频帧的语义分类特征,得到n个视频帧的各1000维语义分类特征;
第四步:对第二步中获得的视频帧的语义分类特征,其标签定义为1000维向量的索引值,即1,2...,1000;因为该向量对应1000个语义分类的概率,因此取最高概率的三个语义分类对应的标签作为视频帧的语义分类标签特征,得到n×3维密集的视频帧语义分类标签特征矩阵。
步骤2,视频帧标签特征去冗余:
从视频级或帧级两个层次对密集的视频帧标签特征进行去冗余,获得视频级的查询视频特征向量Vqv和库视频特征向量Vdv,以及帧级的查询视频特征向量Vqf和库视频特征向量Vdf
其中视频级的特征去冗余的具体过程如下:
将n×3维的视频帧语义分类标签特征矩阵中的所有标签重组为一维的特征向量,该向量中重复出现的标签元素仅保留一个,即去冗余后得到一个一维的含p个无重复标签的视频级语义分类标签特征向量;对查询视频和库视频,其视频级语义分类标签特征分别记做Vqv和Vdv
其中帧级的特征去冗余的流程如图3所示,具体过程如下:
第一步:保存第一个视频帧特征,初始化变量i=2,将第i帧特征向量与前i-1帧特征向量都进行比较,若第i帧特征向量与前i-1帧的每个特征向量在每一维上都不相同,则保留第i帧特征向量,否则舍弃第i帧特征向量;
第二步:判断i是否小于n,若小于等于n,则令i=i+1,返回第一步,继续进行比较,若大于或等于n,则循环结束;假设共保留q个无重复的3维标签特征,则得到q×3维的帧级视频特征向量。对查询视频和库视频,其帧级语义分类标签特征分别记做Vqf和Vdf
步骤3:视频标签特征匹配:
从视频级或帧级两个层次进行视频间的相似性匹配,利用集合操作对视频级标签特征进行匹配,获得查询视频和库视频公共的语义标签数目;利用最大公共子序列的方法对帧级标签特征进行匹配,获得查询视频和库视频具有公共语义标签的帧数目。
其中视频级标签特征匹配过程如下:
对于视频级标签特征,利用集合的交集操作获得查询视频和库视频公共的语义标签数目|Vqv∩Vdv|,利用集合的并集操作获得查询视频和库视频全部的语义标签数目|Vqv∪Vdv|。
其中帧级标签特征匹配过程如下:
第一步:对查询视频特征矢量Vqf及库视频特征矢量Vdf,每帧的特征向量为一个匹配单元,若两帧的特征向量在每一维上都对应相同,则认为这两帧相似,利用最长公共子序列的方法获得查询视频和库视频按相同时间顺序出现的具有公共语义标签的帧数目|Vqf∩Vdf|;
第二步:对查询视频特征矢量Vq及库视频特征矢量Vd,计算二者全部的帧特征向量数量|Vqf∪Vdf|=|Vqf|+|Vdf|-|Vqf∩Vdf|,其中|Vqf|和|Vdf|分别表示查询视频和库视频具有语义标签的帧数目。
步骤4,视频间相似性度量:
采用杰卡德系数计算查询视频和库视频中所有视频的相似度S,将相似度得分按从大到小排列,即得到近重复视频匹配列表。
对于视频级标签特征,
Figure BDA0002522896460000081
对于帧级标签特征,
Figure BDA0002522896460000082
如表1所示为利用本发明中的算法与现有的近重复视频检测算法在公开数据库CC_WEB_VIDEO中进行检测的结果,其中FL表示本发明中的帧级检测算法,VL表示本发明中的视频级检测算法,CH(Xiao Wu,Alexander G Hauptmann,and Chong-Wah Ngo,“Practical elimination of near-duplicates from web video search,”inProceedings of the 15th ACM international conference on Multimedia.ACM,2007,pp.218-227.)、ACC(Cai Yang,Linjun Yang,Ping Wei,Wang Fei,Mei Tao,Xian ShengHua,and Shipeng Li,“Million-scale near-duplicate video retrieval system,”inInternational Conference on Multimedea,2011.)、I-CNN-V(Giorgos Kordopatis-Zilos,Symeon Papadopoulos,Ioannis Patras,and Yiannis Kompatsiaris,“Near-duplicate video retrieval by aggregating intermediate cnn layers,”inInternational Conference on Multimedia Modeling.Springer,2017,pp.251-263.)为三种现有的近重复检测算法。mAP越高表明检测效果越好,本发明提高的检测的准确性。
表1 本发明与现有的近重复视频检测方法的对比结果
Figure BDA0002522896460000083
Figure BDA0002522896460000091
如图4所示为利用本发明中的算法与现有的近重复视频检测算法在公开数据库CC_WEB_VIDEO中进行检测的结果的PR曲线,本发明中的算法在各个水平的查全率(Recall)下都取得了优于其他三种算法的查准率(Precision)。

Claims (3)

1.基于卷积神经网络语义分类的标签特征的近重复视频检测方法,其特征在于,该方法首先利用深度卷积神经网络模型对视频提取密集的语义分类标签特征;其次根据视频帧标签特征之间的重复性,去冗余得到视频的语义分类标签特征;然后对查询视频和库视频的特征向量进行相似性匹配;最后通过计算杰卡德系数度量两视频的相似度,从而实现近重复视频的检测;其中视频标签特征去冗余和特征匹配两个步骤有帧级别和视频级别两种实现方式,即通过两种不同层次的方法实现基于语义分类标签特征的近重复视频检测;
该方法具体包括以下步骤:
步骤1:视频帧语义分类标签特征提取:
分别对查询视频和库视频提取视频的所有帧,将各帧送入深度神经网络模型中提取语义分类标签特征,获得密集的视频帧标签特征;视频帧语义分类标签特征提取过程如下:
步骤1.1:抽取视频所有帧,得到视频帧集合F={f1,f2,…,fn},n为视频帧总数;
步骤1.2:将视频帧集合F中的n个视频帧进行归一化,每帧尺寸调整为227×227像素,并将归一化后的视频帧输入到在ImageNet数据集上预训练的AlexNet卷积神经网络模型;模型的Softmax层输出的1000维向量对应于1000个语义分类的概率,将这1000维向量作为每个视频帧的语义分类特征,得到n个视频帧的各1000维语义分类特征;
步骤1.3:对视频帧的语义分类特征,其标签定义为1000维向量的索引值,即1,2…,1000;因为该向量对应1000个语义分类的概率,因此取最高概率的三个语义分类对应的标签作为视频帧的语义分类标签特征,最终得到n×3维密集的视频帧语义分类标签特征矩阵;
步骤2:视频标签特征去冗余:
从视频级或帧级两个层次对密集的视频帧标签特征进行去冗余,获得视频级的查询视频特征向量Vqv和库视频特征向量Vdv,以及帧级的查询视频特征向量Vqf和库视频特征向量Vdf;视频级去冗余的过程如下:
将n×3维的视频帧语义分类标签特征矩阵中的所有标签重组为一维的特征向量,该向量中重复出现的标签元素仅保留一个,即去冗余后得到一个一维的含p个无重复标签的视频级语义分类标签特征向量;对查询视频和库视频,其视频级语义分类标签特征分别记做Vqv和Vdv
帧级去冗余的过程如下:
将第i帧特征向量与前i-1帧特征向量都进行比较,i=2,…,n,若第i帧特征向量与前i-1帧的每个特征向量在每一维上都不相同,则保留第i帧特征向量,否则舍弃第i帧特征向量,即去冗余后的特征矩阵的每个3维的标签特征都是不同的;假设共保留q个无重复的3维标签特征,则得到q×3维的帧级视频特征向量;对查询视频和库视频,其帧级语义分类标签特征分别记做Vqf和Vdf
步骤3:视频标签特征匹配:
从视频级或帧级两个层次进行视频间的相似性匹配,利用集合操作对视频级标签特征进行匹配,获得查询视频和库视频公共的语义标签数目;利用最大公共子序列的方法对帧级标签特征进行匹配,获得查询视频和库视频具有公共语义标签的帧数目;
步骤4:视频间相似性度量:
采用杰卡德系数计算查询视频和库视频中所有视频的相似度S,将相似度得分按从大到小排列,即得到近重复视频匹配列表。
2.根据权利要求1所述的基于卷积神经网络语义分类的标签特征的近重复视频检测方法,其特征在于,在步骤3中,针对视频级和帧级语义分类标签特征,有不同的相似性匹配方法;
其中视频级标签特征匹配过程如下:
对于视频级标签特征,利用集合的交集操作获得查询视频和库视频公共的语义标签数目|Vqv∩Vdv|,利用集合的并集操作获得查询视频和库视频全部的语义标签数目|Vqv∪Vdv|;
其中帧级标签特征匹配过程如下:
对于帧级标签特征,每帧的3维特征向量为一个匹配单元,如果两帧的3维特征向量的每一维分别对应相同,则认为两帧相似;利用最大公共子序列的方法获得查询视频和库视频按相同时间顺序出现的具有公共语义标签的帧数目|Vqf∩Vdf|,以及查询视频和库视频全部语义标签的帧数目|Vqf∪Vdf|=|Vqf|+|Vdf|-|Vqf∩Vdf|,其中|Vqf|和|Vdf|分别表示查询视频和库视频具有语义标签的帧数目。
3.根据权利要求2所述的基于卷积神经网络语义分类的标签特征的近重复视频检测方法,其特征在于,在步骤4中,查询视频和库视频的相似度S的计算公式如下:采用杰卡德系数计算查询视频和库视频中所有视频的相似度S,对于视频级标签特征,
Figure FDA0003647741210000031
Figure FDA0003647741210000032
对于帧级标签特征,
Figure FDA0003647741210000033
CN202010496104.1A 2020-06-03 2020-06-03 基于卷积神经网络语义分类的标签特征的近重复视频检测方法 Active CN111723692B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010496104.1A CN111723692B (zh) 2020-06-03 2020-06-03 基于卷积神经网络语义分类的标签特征的近重复视频检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010496104.1A CN111723692B (zh) 2020-06-03 2020-06-03 基于卷积神经网络语义分类的标签特征的近重复视频检测方法

Publications (2)

Publication Number Publication Date
CN111723692A CN111723692A (zh) 2020-09-29
CN111723692B true CN111723692B (zh) 2022-08-09

Family

ID=72565917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010496104.1A Active CN111723692B (zh) 2020-06-03 2020-06-03 基于卷积神经网络语义分类的标签特征的近重复视频检测方法

Country Status (1)

Country Link
CN (1) CN111723692B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257595A (zh) * 2020-10-22 2021-01-22 广州市百果园网络科技有限公司 视频匹配方法、装置、设备及存储介质
CN112749300B (zh) * 2021-01-22 2024-03-01 北京百度网讯科技有限公司 用于视频分类的方法、装置、设备、存储介质和程序产品
CN116628265A (zh) * 2023-07-25 2023-08-22 北京天平地成信息技术服务有限公司 Vr内容管理方法、管理平台、管理设备和计算机存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750339A (zh) * 2012-06-05 2012-10-24 北京交通大学 一种基于视频重构的重复片段定位方法
CN103617233A (zh) * 2013-11-26 2014-03-05 烟台中科网络技术研究所 一种基于语义内容多层表示的重复视频检测方法与装置
CN103631932A (zh) * 2013-12-06 2014-03-12 中国科学院自动化研究所 一种对重复视频进行检测的方法
CN110738128A (zh) * 2019-09-19 2020-01-31 天津大学 一种基于深度学习的重复视频检测方法
CN110996123A (zh) * 2019-12-18 2020-04-10 广州市百果园信息技术有限公司 一种视频处理方法、装置、设备及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897714B (zh) * 2017-03-23 2020-01-14 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750339A (zh) * 2012-06-05 2012-10-24 北京交通大学 一种基于视频重构的重复片段定位方法
CN103617233A (zh) * 2013-11-26 2014-03-05 烟台中科网络技术研究所 一种基于语义内容多层表示的重复视频检测方法与装置
CN103631932A (zh) * 2013-12-06 2014-03-12 中国科学院自动化研究所 一种对重复视频进行检测的方法
CN110738128A (zh) * 2019-09-19 2020-01-31 天津大学 一种基于深度学习的重复视频检测方法
CN110996123A (zh) * 2019-12-18 2020-04-10 广州市百果园信息技术有限公司 一种视频处理方法、装置、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
An Efficient Hierarchical Near-Duplicate Video Detection Algorithm Based on Deep Semantic Features;Siying Liang and Ping Wang;《MultiMedia Modeling: 26th International Conference, MMM 2020》;20200105;第752–763页 *
基于标签路径特征融合的在线Web新闻内容抽取;吴共庆等;《软件学报》;20161231;第27卷(第3期);第714-735页 *

Also Published As

Publication number Publication date
CN111723692A (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN107679250B (zh) 一种基于深度自编码卷积神经网络的多任务分层图像检索方法
CN111723692B (zh) 基于卷积神经网络语义分类的标签特征的近重复视频检测方法
Cong et al. Towards scalable summarization of consumer videos via sparse dictionary selection
CN106033426B (zh) 一种基于潜在语义最小哈希的图像检索方法
Taskiran et al. ViBE: A compressed video database structured for active browsing and search
EP2291765A2 (en) Statistical approach to large-scale image annotation
CN112434553B (zh) 一种基于深度字典学习的视频鉴别方法及系统
Nian et al. Efficient near-duplicate image detection with a local-based binary representation
Fei et al. New fusional framework combining sparse selection and clustering for key frame extraction
CN110287369B (zh) 一种基于语义的视频检索方法及系统
CN116975615A (zh) 基于视频多模态信息的任务预测方法和装置
CN110110120B (zh) 一种基于深度学习的图像检索方法和装置
CN114168773A (zh) 一种基于伪标签和重排序的半监督草图图像检索方法
Fei et al. Learning user interest with improved triplet deep ranking and web-image priors for topic-related video summarization
US20220207808A1 (en) Image manipulation
CN117609583A (zh) 一种基于图像文本组合检索的海关进出口商品归类方法
Anayat et al. A deep analysis of image based video searching techniques
CN113190706A (zh) 一种基于二阶注意力机制的孪生网络图像检索方法
CN111178409B (zh) 基于大数据矩阵稳定性分析的图像匹配与识别系统
CN114567798A (zh) 一种针对互联网短视频变种的溯源方法
CN107909091A (zh) 一种基于稀疏低秩回归模型的图像记忆度预测方法
Mumar Image retrieval using SURF features
Li et al. A method of inpainting moles and acne on the high‐resolution face photos
CN111611427A (zh) 基于线性鉴别分析深度哈希算法的图像检索方法及系统
Chatur et al. A simple review on content based video images retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant