CN105612535A - 高效的基于内容的视频检索 - Google Patents

高效的基于内容的视频检索 Download PDF

Info

Publication number
CN105612535A
CN105612535A CN201480047924.5A CN201480047924A CN105612535A CN 105612535 A CN105612535 A CN 105612535A CN 201480047924 A CN201480047924 A CN 201480047924A CN 105612535 A CN105612535 A CN 105612535A
Authority
CN
China
Prior art keywords
frame
camera lens
ordered
partial
partial ordered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480047924.5A
Other languages
English (en)
Other versions
CN105612535B (zh
Inventor
艾利·戈兹
萨吉·沙迈
阿兰·波克尔
利奥尔·科恩
尤里·拉维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PicScout Israel Ltd
PicScout (Israel) Ltd
Original Assignee
PicScout Israel Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PicScout Israel Ltd filed Critical PicScout Israel Ltd
Publication of CN105612535A publication Critical patent/CN105612535A/zh
Application granted granted Critical
Publication of CN105612535B publication Critical patent/CN105612535B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/467Encoded features or binary features, e.g. local binary patterns [LBP]
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/80Indexing information stored in optical or magnetic or other strip attached to cassette or disc, e.g. barcodes attached to a recording medium

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Television Signal Processing For Recording (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)

Abstract

各种公开的实施例涉及部分地基于镜头转换检测镜头转换的视频内容分析。在一些实施例中,用于检测视频中的镜头转换镜头转换的方法和计算机系统被用于将视频序列分割成一系列具有多个帧的“镜头”。然后这些镜头可用于附加处理,例如,视频帧范围内的内容检测。

Description

高效的基于内容的视频检索
相关申请的交叉引用
本申请要求2013年8月29日提交的以色列专利申请号228204,标题为“高效的基于内容的视频检索”,2014年1月22日提交的美国申请号14/161,355的优先权,其通过引用方式以全文合并于此。
技术领域
各种公开的实施方式涉及视频内容分析。
背景技术
随着因特网的发展,视频内容的创建和分发急剧增加。对这些内容的分析和理解的需求也同样增加。例如,对识别包含非法内容、侵犯艺术家版权、犯罪等的视频的需求日益增加。为了执行这些检测,必须对视频内容进行处理和分析。不幸的是,庞大的视频数据量和识别视频数据的相关部分的困难往往挫败这种尝试。在一些情况下,存在适当的工具可以于执行分析,但仅在被执行的图像帧数较少时,分析才易于处理。如果将工具应用到整个视频,这需要太长的时间才能收到结果。此外,一些工具相比其他在某些情况下更加合适。如果不加区别地将这些工具适用于所有品质和特性的视频,那么这些工具可能会反馈误报或误导一系列其他分析工具。
因此,存在对将视频有效地分解为易处理的单元进行分析的系统和方法的需求。特别地,存在有效地确定视频内容的边界的需求,以便在之后可以更有效地应用所适用的工具和分析技术。需要这样的工具,以除去从搜索中检索的重复的视频,挖掘视频数据库的内部结构,执行自动视频标记,进行对侵犯版权的自动检测等。存在对克服上述问题,并提供额外益处的系统的需求。总体而言,本文中一些现有或相关系统的实施方式及其相关限定是说明性的而非排他性的。经过阅读以下发明详述后,对于本领域技术人员而言,现存的或现有的系统的其他限定将变得显而易见。
附图说明
本公开的一个或多个实施方式通过实施例的方式示出,并且附图中类似的标号表示类似的元件而非限制。
图1是示意框图,描绘了可以在一些实施方式中实现的视频处理操作的各个方面,包括镜头转换检测分析;
图2是流程图,描绘了用于基于可以在一些实施方式中实现的逐帧画面分析,确定视频中镜头转换的方法的各个步骤;
图3是流程图,描绘了镜头转换检测方法的各个步骤;
图4是示意框图,描绘了镜头转换检测方法的各个方面;
图5是时间序列曲线图,描绘了视频序列中的各个镜头转换;
图6是流程图,描绘了用于检测可以在一些实施方式中实现的不同转换类型的方法的各个步骤;和
图7是可以被用于实现一些实施方式的特征的计算机系统的框图。
本领域技术人员会理解,本文所讨论的每一流程图和序列图中所示出的逻辑可以以各种方式来改变。例如,可以重新排列逻辑的顺序,可以并行执行子框,可以省略示出的逻辑,可以包括其他逻辑等。以所描绘的方式提供所描绘的实施方式仅是出于解释的目的,并为读者的方便起见。
发明详述
以下描述和附图是说明性的,而不应被解释为限制。许多具体细节被描述以提供对本公开的全面理解。然而,在某些情况下,为了避免使说明书显得模糊,不再对公知细节进行描述。本说明书中提到的“一个实施方式”或“实施方式”是指该实施方式有关的所描述的特定的特征、结构或特性被包括在本公开的至少一个实施方式中。出现在本说明书各处的短语“在一个实施方式中”并不必然全部指代同一实施方式,也并非与单独的或替代的实施方式相互排斥的其他实施方式。此外,所描述的各种特征可以由一些实施方式,而非其他实施方式展示。类似地,描述的各种要求,可以是对一些实施方式,而非对其它实施方式的要求。
本说明书中所用的术语在本领域中、在本公开内容的语境内、在使用每个术语的说明书语境中,通常具有其普通的含义。被用于描述本公开的某些术语将在下文或者说明书中的其他地方进行讨论从而为实施者提供关于本公开的说明书的额外指导。为方便起见,某些术语可能被突出显示,例如使用引号。突出显示的使用对术语的范围和含义没有影响;在同样的情况下,无论它是否被高亮显示,术语的范围和含义是相同的。应当理解,相同的事物能够以一个以上的方式进行叙述。将认识到的是“存储器”是“存储”的一种形式,而且术语有时可以互换使用。
因此,可以将替代语和同义词用于本文中所讨论的任意一个或多个术语,根据本文是否阐述或讨论术语,任何特殊的意义不会被定义。提供了某些术语的同义词。一个或多个同义词的陈述不排除其它同义词的使用。使用本说明书中的任何实施例,包括本文所讨论的任何术语的实施例仅是说明性的,并且不旨在进一步限定本公开或任何实施例性术语的范围和含义。同样地,本发明并不限于本说明书中给出的各个实施方式。
在无意进一步限定本公开内容的范围的情况下,仪器、装置、方法和其相关结果,根据本公开的实施方式在下文给出。注意,为读者的方便起见,可以以实施例形式使用标题或副标题,但它们决不应限制本公开的范围。除非另有定义,否则本文使用的所有技术和科学术语具有与本公开内容所属领域的普通技术人员的通常理解相同的含义。在冲突的情况下,以包括定义的本文件为准。
对所描述的技术的若干实施方式更详细的描述参见附图。可以在其上实现所描述的技术的计算设备可以包括一个或多个中央处理单元、存储器、输入设备的(例如,键盘和定点设备)、输出设备(例如,显示设备)、存储设备(例如,磁盘驱动器)和网络设备(例如,网络接口)。存储器和存储设备是可以存储实现至少一部分所描述的技术的指令的计算机可读存储介质。此外,可以经由数据传输介质,诸如通信链路上的信号,存储或传输数据结构和消息结构。可以使用各种通信链路,诸如因特网、局域网、广域网或点对点拨号连接。因此,计算机可读介质能够包括计算机可读存储介质(例如,“非临时性”介质)和计算机可读传输介质。
系统总览
各种公开的实施方式涉及部分地基于检测镜头转换的视频内容分析。在一些实施方式中,用于检测视频中镜头转换的方法和计算机系统被用于将视频序列分割成一系列具有多个帧的“镜头”。这些镜头然后可以用于额外的处理,例如,视频帧内的内容检测。通常,帧可以是数字视频的基本离散单位。每个帧可以是一个图像。
图1是示意框图,描绘了可以在一些实施方式中实现的视频处理操作100的各个方面,包括镜头转换检测分析。视频105可以包括帧110a-h的序列。这些帧110a-h可以包括像素阵列、压缩帧,例如MPEG帧内帧,P帧等。
处理系统可以将帧110a-h组织为“镜头”115a-c。镜头是帧的集合。镜头可以是两个转换(例如,擦除、切屏、溶解等)之间存在的帧的集合。在一些实施方式中,镜头通常包括由表示在时间和空间上的连续动作的单个摄像机连续拍摄的相互关联的连续帧。在所描绘的实施例中,镜头1115a描绘了一名男子正在拉雪撬,镜头2115b描绘了该男人正在调整雪橇上的物品,以及镜头3115c描绘了小屋的两个人物。在理想情况下,处理系统可以识别适合用于后续分析的镜头。镜头可以被编入索引,例如,使用代表图像120a-c。然后,可以将被编入索引的视频数据125提供给基于镜头的视频处理系统130用于进一步分析。例如,基于镜头的视频处理系统130可以包括适于某些视频条件的多个工具。一种技术可以在描绘了巨大开放空间的场景内进行目标识别,而另一种技术可以更适合于演员脸部的特写镜头。因此,一些技术可能对于一些镜头比其他镜头更加成功。
然而,适当地推导镜头115a-c之间的边界帧可能是困难的。不当地选择边界可能减少基于镜头的处理130的效率,并且可能导致识别目标、受版权保护的材料等的失败。例如,视频105的创建者可能已经非法合并了受版权保护的材料,但是执行了转换(例如,翻转)以避免检测措施。在一些情况下,尽管存在转换,基于镜头的处理130依然能够检测侵权材料,但仅在材料没有跨越镜头边界分割的情况下。因此,对镜头边界的准确识别与分析方法相关。
内容识别方法实施例
图2是流程图,描绘了用于基于可以在一些实施方式中实现的逐帧画面分析,确定视频中镜头转换的方法200的各个步骤。
在框205中,系统接收视频数据。在框210中,系统可以设法确定视频数据中的镜头和它们的边界。特别地,该系统可以分析该视频所考虑的帧(例如,最近的100帧被考虑),并确定是否创建新的镜头分组。其中所述帧被压缩,在一些实施方式中,系统可以将压缩的帧转换为像素帧(例如,使用相邻帧内帧将P帧转换为像素图像)。
如果最近添加到所考虑的帧小组的帧不确定为框215中将被考虑的最后帧,则在框220中,系统可以包括各帧之间的视图中的下一帧用于镜头转换检测的考虑。如在下文更详细讨论的,对过去帧的考虑可以根据施加到一个或多个帧的度量,其可被用于随着时间的推移识别帧内容中的图案。
一旦已经考虑了所有的相关帧,并且确定了镜头转换时,系统可进行到框225。在框225中,系统可以将视频数据集编入索引,例如,使用代表帧(将认识到的是在一些实施方式中,索引编制随着镜头转换的识别而发生)。在框230中,系统或者相关的系统可以执行对索引数据的基于镜头的处理(例如,对镜头的各帧进行匹配算法和图像识别)。
在一些实施方式中,系统可以在一开始将视频分割成连续帧的序列,之后将这些帧划分为镜头,而不是执行迭代过程。例如,在接收到每一到达的帧后,对不检测镜头,而是执行两步骤过程。首先,系统将视频分割为各帧,然后检测镜头边界。
用于镜头识别的帧分析实施例
图3是流程图,描绘了在一些实施方式中实现的镜头转换检测方法300的各个步骤。特别地,如上文相关的图2的框210所讨论的,可以将方法300应用到视频序列中的连续帧。因此,图3描绘了该方法的单次迭代,而将认识到的是可以对帧的序列迭代地执行各种所描绘的步骤。例如,可以将方法300作为框210的部分来执行(经由框220,随着更多的帧被考虑,当前镜头被调整而新镜头被创建)。
在框305和框310中,该系统可以预先处理帧,例如,在框305中通过将帧转换为灰度并且对帧310进行平滑从而去除伪影。如上文所讨论的,也可以将帧从压缩形式转换为独立的像素图像。
在框315中,系统可以将帧分割为n×k个块。这里所使用的“块”指的是帧的一部分。例如,像素图像帧的宽度为256个像素,高度为256个像素,该帧可以被细分为八个块,每个块的宽度为128个像素,高度为64个像素。在本实施例中,块不必是对称的,虽然它们可以是对称的。
在框320中,系统计算每个块mi的平均灰度值。例如,该系统可以累加上述块中的8192像素(64×128=8192)的每个值,并将总和除以8192。虽然在本实施方式中为了说明的目的引用了平均灰度值,但一些实施方式在分析的基础上考虑另一值。例如,不同实施方式考虑使用不同彩色空间分量,例如RGB像素中的红色分量,HSV像素中的色调分量等。一些实施方式在颜色空间之间进行转换,以执行不同分析。虽然在本实施例中引用了“灰度值”和“平均”,但是可以用其它值(色调、色度等),值的推导值(红色和绿色分量的平均值,特征值表示等)和其他统计测定(模式、方差等)来代替。
在框325中,该系统通过连接每个值mi构建向量a(f)。不需要在物理上连接,而是纯粹的逻辑。例如,该系统可以创建索引块值数组,可以经由指针分配表示连接等。
在框330中,该系统可以以与贯穿从视频分析出的所有帧或者一部分先前帧一致的方式排列a(f)的元素。此排列向量在这里被称为as(f)。如本领域技术人员将认识到的,该重新排列可以采取任何合适的形式,例如,重建将元素编入索引的新结构,重新排列a(f)的元素,仅引用a(f)中的位置的新结构等。在一些实施方式中,排列是部分排序或更特别地在一些实施方式中,可以是总排序。在其他实施方式中,排序可以是关于中点值(向量的每端的最小值和中心的最大值,或反之亦然)的“高斯”型分布。在一些实施方式中,基于图像的环境(例如,相邻像素或块的值),块之间“关系”得到处理。
在框335中,该系统可以创建帧描述d(f),其指出分类排序的向量as(f)中块的位置。然后该描述可以是在计算机系统中的逻辑或物理结构,例如,对数组的存储器的实际分配,或通过间接手段,诸如指针集合的逻辑表示。例如,一些实现可以不直接创建d(f)而是可以用as(f)执行操作,间接考虑块的位置。在这些实现中,如在下文更详细描述的,可以保存前一帧的as(f)用于创建d(f)_previous。
在框340中,该系统确定是否这是被考虑的第一帧。再次说明,所描绘的步骤是出于解释的目的,并且许多实现不必在创建任何其他步骤之后实际执行此检查。相反,该系统可以通过进行与d(f)_previous值的比较,检查它的存在。
如果这是被考虑的第一帧,或至少不存在d(f)_previous,则该方法可以进行到框345。在框345中,该系统可以创建新镜头,并将新镜头设置为所考虑的当前镜头。创建“新”镜头可以包括创建新的数据结构来存储各帧,对各帧的引用,一系列帧等。在一些实施方式中,该框还可以包括关于先前帧的任何加工程序(例如,指出过去镜头的结束帧)。
在框350中,该方法可以将该帧保存到当前镜头(例如,将该帧的副本插入到镜头数据结构,插入数据结构中对该帧的引用,扩大镜头数据结构中的范围以包括帧等)。
在框355中,该方法可以将d(f)保存为d(f)_previous或以其他方式为后续帧的计算提供信息。如上文所述,可以通过对存储器或逻辑结构的物理分配表示d(f),而将d(f)记录为d(f)_previous可以采取多种形式(例如,保存as(f)的副本或记录)。
在框360中,在一些实施方式中,该方法可以更新过去帧的比较的时间序列。例如,时间序列可描绘各帧之间一系列的排列距离。使用这个信息,系统能够评估这些距离的模式来确定镜头转换的存在和性质,例如,更详细的描述可参照图5和6。序列中的条目ti可以包括:
ti=[Di-Di-1]
其中Di是当前帧与前一考虑帧的距离,而Di-1是前一考虑帧和它的前一考虑帧之间的距离。在这点上,下面的框360,该方法可以选择用于考虑的下一帧,然后重复该方法(以新的帧返回到框305)直到将被考虑的所有帧已被考虑。
如果在框340中内容被代之以确定是否正在考虑后续帧(或用于d(f)_previous的值是否存在,可能是通过缺省的初始化)该方法可以进行到框365。在框365中,系统可以测量d(f)和d(f)_previous之间的排列距离D。将认识到用于执行这样的排列度量的许多方法。例如,一些实施方式以类似于语法中使用的列文斯坦距离的方式,计算必须用于将描述符(d(f))转换为其他(d(f)_previous)的重新排列的数量。图4中描述了这种方法的一个实施例。
在框370中,系统可以确定D是否表示镜头转换,例如通过确定是否超过阈值。在一些实施方式中,不仅当前的D,还有框360中来自时间序列的先前考虑的Ds被用于确定镜头转换是否存在。如果发生了转换,那么系统可以在框345中创建一个新镜头。如果没有发生转换,那么在框350中,可以将该帧存储在当前镜头中。再次说明,图3所描述的方法300仅仅是一个实施方式的一种可能实现,这些变化将容易被认识到。例如,在框370中,系统可以查阅来自框360的序列,并确定镜头转换的“中点”实际上发生在先前的若干帧(例如,如下文图5中所描述的可能发生在柔性转换中),而不是仅将当前考虑的帧放置在新镜头中。虽然所描绘的实施例可以正确检测刚性转换,但是框370中对过去的帧的考虑可以更容易地检测到柔性转换。因此,在当前帧之前直到中点的各帧可以被包括在新的镜头,而不是先前的镜头中。
图4是示意框图,描绘了可以在一些实施方式中实现的镜头转换检测方法的各个方面。图4还描绘了可以在一些实施方式中应用的一种可能的排列度量以确定两个帧的描述之间的距离。
该方法可以考虑第一帧405a和第二帧405b。在本实施例中,每帧405a-b被分解为九个块,并为每一块计算块值M1-M9。如上文所讨论的,例如,块值可以是一部分颜色空间(例如,灰度值)的平均值。例如,第一帧405a的块M1可以具有块值22。第二帧405b的块M1可以具有块值100。这种情况可能发生,例如,因为每帧描绘了不同的图像。
如上文图3所描述,每帧的各块可以被组织成向量a(f)410a-b。然后,可以将各向量a(f)分类以创建分类的向量as(f)415a-b(再次说明,不必在物理上复制存储器中的分配,但是,例如,指引,诸如指针,可以被交换)。在所描绘的实施例中,从最大块编号到最小块编号执行分类作为部分排序。在一些实施方式中,可以基于打破均势的标准来处理关系。例如,as(f)415a的块M8和M9共享值10,并且可以基于其在帧中的位置对其进行排序。
然后可以应用排列度量,其可以,例如,识别两个分类向量as(f)415a-b中不一致的块的位置。例如,在各分类向量as(f)415a-b中,各块M3、M5和M1可以占用相同的位置。然而,如对应关系420所指出的,其他各块可以位于两个向量中不同的位置。由于六个块占据不同的位置,可以将排列距离D425计为6(在一些实施方式中,块的数量可以超过9,并且距离的范围会相应地更大)。
然后,该系统可以通过使用所确定的距离执行后置处理430,诸如镜头检测。上述度量可以是有力地平滑摄像机运动,并对各种镜头转换较为敏感。
镜头转换分类和检测
图5是时间序列曲线图,描绘了可以由各个公开的实施方式检测到的视频序列中的各个镜头转换。该图表示在视频中帧515上有切屏510的概率。如图所表示的,在少数帧或单一帧之上迅速发生转换的硬切效果525b可以在镜头边界530c处产生极高的概率。此概率可以,例如,从各帧之间的排列距离得到。起始于帧530a终止于530b的溶解效果525a可能更加难以检测,因为其概率可能不超过阈值520。擦除效果525c可能相对易于检测,因为虽然该转换是渐进的,但是两个场景在多帧中的帧中保持独立地描绘。基于从排列距离所得到的概率,上文描述的图3的操作可以检测四个镜头的三个介于中间的转换525a-c。
图6是流程图,描绘了用于检测可以在一些实施方式中实现的不同转换类型的方法的各个步骤。在框605中,该方法开始一个新的镜头。在框610中,该方法可以对要考虑的下一帧执行分析,例如,包括来自图3的框的分析。
在框615中,例如,通过查阅时间序列,系统可以确定过去的帧是否提供硬切镜头转换。在框620中,例如,再次通过查阅时间序列,系统可以确定过去的帧是否在提供溶解效果的镜头转换。在框625中,例如,再次通过查阅时间序列,系统可以确定过去的帧是否提供擦除效果的镜头转换。虽然本实施例中仅描绘了三个转换类型,但是将认识到的是可以由系统测量任何数量和阶段的转换。该过程方法继续,直到要考虑的最后一帧已经被考虑。从框650开始,该方法可能会在框655结束当前镜头。
当检测到镜头转换时,该方法可以在框630、635和640(在本文中称为帧N)执行相应的边界帧检测。例如,参考图5,边界帧N可以在帧4、10和15中找到。一些实施方式可以比一个帧级别更精细,并且可以包括两个镜头中的相同帧,在每个镜头中具有存在指示(例如,在溶解效果的转换中,各帧可能具有对一个镜头正在减少的相关性,同时具有对后续镜头增加的相关性)。
在框645中,该方法可以采取步骤在帧N或在帧N之前结束先前镜头,并在在帧N或帧N之后开始一个新的镜头。
上文描述的转换检测操作可以在一些实施方案中以各种方式加以改进。例如,非常短的镜头(例如,包括最多3帧)不太可行,可能归因于原始镜头内的突然的照明、运动或其它物理变化。因此,如果上述算法检测到该等短镜头,那么可以通过这些帧继续使用先前镜头。
相反,非常长的镜头的检测(相对于其它镜头)可能归因于各帧之间的柔性转换(溶解,衰落或擦拭)而不是突然切屏。柔性转换可能难以检测到。可以用不同的启发法来解决该问题。例如,可以应用基于滑动窗口统计的自适应距离阈值,这可以实现对镜头边界的更高的检测分辨率。
在一些实施方案中,该系统可以识别镜头,如具有开始帧、结束帧和中点帧,而不是寻找唯一的边界帧(帧N)。可以在开始和结束帧执行后置处理以更精细地确定柔性转换的效果。
计算机系统概述
各种实施方式包括已在上文描述的各种步骤和操作。硬件部件可以执行多种这些步骤和操作,或者在机器可执行指令中可以体现,其可以用于使编入指令程序的通用或专用处理器执行步骤。或者,可以通过硬件、软件和/或固件的组合来执行各步骤。因此,图7是可以被用于实现一些实施方式的特征的计算机系统700的框图。各种所公开的特征可以位于计算机系统700上。根据本实施例,该计算机系统包括总线705、至少一个处理器710、至少一个通信端口715、主存储器720、可移动存储介质725、只读存储器730和大容量存储735。
处理器710可以是任何已知的处理器,比如,但不限于,安腾或安腾处理器,或或速龙处理器,或处理器系列。通信端口715可以是任何RS-232端口,用于与基于拨号连接的调制解调器、10/100以太网端口或使用铜缆或光纤的千兆端口共同使用。可以根据网络如局域网(LAN),广域网(WAN)或该计算机系统700连接的任何网络,包括无线网络,选择通信端口715。
主存储器720可以是随机存取存储器(RAM),或者在本领域中公知的任何其他动态存储设备。只读存储器730可以是任何静态存储设备,诸如可编程只读存储器(PROM)芯片,用于存储诸如用于处理器710的指令的静态信息。
可以使用大容量存储器735存储信息和指令。例如,可以使用诸如的SCSI驱动器家族的硬盘、光盘、诸如RAID的磁盘阵列,诸如Adaptec的RAID驱动器家族或任何其他大容量存储设备的阵列。
总线705将处理器710与其他存储器、存储和通信模块在通信上连接。根据所使用的存储设备,总线705可以是PCI/PCI-X或基于SCSI的系统总线。
可移动存储介质725可以是任何类型的外部硬盘驱动器、软盘驱动器,Zip驱动器、只读存储器光盘(CD-ROM)、可重写光盘(CD-RW)、只读存储器数字视频盘(DVD-ROM)。
上文所描述的部件意在列举某些可能性的类型。上述实施例决不会限制本发明的范围,因为它们只是适合的实施方式。
备注
虽然本主题已经通过特定于结构特征和/或方法动作的语言进行了描述,但是应当理解所附权利要求书中定义的主题并不限于上述具体特征或动作。相反,上文描述的具体特征和动作被公开作为实现权利要求的实施例形式。因此,本发明并不局限于所附权利要求书。
虽然实施方式中示出计算机可读介质是单个介质,但是术语“计算机可读介质”应被理解为包括单个介质或多个介质(例如,集中式或分布式数据库和/或相关联的缓存和服务器),其存储一组或多组指令。术语“计算机可读介质”也可以被理解为包括能够存储、编码或携带由计算机执行的一组指令的任何介质,该等介质使计算机执行目前公开的技术和创新的任何一个或多个方法。
一般情况下,执行以实现本公开的实施方式的例程,可以被实现作为操作系统或被称为“程序”的具体应用、部件、程序、对象、模块或指令序列的一部分。该等程序通常包括设置在计算机中各种存储器和存储设备在不同时间的一个或多个指令,并且,当计算机的一个或多个处理单元或处理器读取或执行该等程序时,其使得该计算机执行操作以执行涉及本公开的各个方面的元素。
此外,虽然在计算机和计算机系统充分运作的情况下,实施方式已经被描述,但是各种实施方式能够被分发为各种形式的程序产品,并且不考虑用于实际上影响分发的计算机可读介质的特定类型,该公开内容同等地适用。
除非上下文清楚地要求,否则遍及说明书和权利要求书,词语“包括”、“包含”和其他类似词将被以包括的含义来解释,而不是排他或穷举的含义;也就是说,是指“包括但不限于”。如本文中所使用的,术语“连接”、“连结”或其任何变体是指两个或更多元件之间的任何连接或连结,无论是直接或间接的;元件之间的连接可以是物理的、逻辑的或其组合的。另外,词语“这里”、“以上”、“以下”,以及类似含义的词语,在本申请中使用时,应指本申请的整体而不是本申请的任何特定部分。如果上下文允许,在上述发明详述中使用单数或复数也可以分别包括复数或单数。关于两个或更多项目的列表,词语“或”覆盖该词语以下所有的解释:列表中的任何项目、列表中的所有的项目、以及列表中该等项目的任意组合。
本公开的实施方式的以上详细描述并不旨在穷尽或将教导限制于上文公开的精确形式。相关领域技术人员将认识到尽管上文出于说明的目的描述了本公开的具体实施方式和实施例,但是在本公开的范围之内的各种等同修改是可能的。例如,尽管流程或框以给定的顺序呈现,替代实施方式可以以不同的顺序执行具有以下步骤的例程或采用具有块的系统,并且可以删除、移动、增加、再细分、组合和/或修改流程或框以提供替代选择或子组合。可以以各种不同的方式来实现这些处理或框的每一个。此外,尽管有时流程或框被示为按顺序执行,但是可以并行地执行这些流程或框,或者可以在不同的时间来执行。进一步,注意本文的任何具体的数字仅仅是实施例:可以采用具有不同的值或范围的替换的实现。
本文所提供的公开内容的教导可以应用于其它系统,而不必是上文描述的系统。可以组合上文描述的各种实施方式的元素和动作以提供进一步的实施方式。
如果有需要的话,可以修改本公开的各方面,采用上文描述的各种参考文献的系统、功能和概念来提供本公开的又一实施方式。例如,尽管已经讨论了特定的流程图中的各步骤,但是将认识到的是可以执行或描绘额外的步骤省略来完成类似功能的步骤。在某些情况下,可以通过流程图虚线轮廓指出可选择的元素,同时其他元素的可选择性可以明确地在文本中说明。将认识到许多未被明确指出为可选择的流程步骤根据语境也可以是可选择的。提供所说明的流程图实施例是出于解释的目的而不是为了限制对一个或多个实施方式的描述。因此所描述的步骤是实施例性的。
可以根据上述发明详述对本公开内容进行这些或其他变化。虽然上述说明描述了本公开的某些实施方式,并描述了预期的最佳实施方式,但无论上述内容在文本中有多么详细,其教导可以以许多方式来实施。该系统的细节可能在其实施细节上有相当大的变化,而仍然被本文公开的主题所涵盖。如上所述,描述本公开的某些特征或方面时所使用的特定术语,不应当被认为是在暗示该术语在此被重新定义,以限制与该术语相关联的本公开的任何具体特性、特征或方面。在一般情况下,除非上文发明详述部分明确定义了这种术语,在权利要求书中使用的术语不应当被解释为将本公开限定为说明书中所公开的具体实施方式。因此,本公开的实际范围不仅包括公开的实施方式,还包括在权利要求下实施或实现本公开的所有等同的方式。
为了减少权利要求的数目,本发明的某些方面以特定权利要求的形式呈现如下,但是申请人设想中本发明的各个方面是任何数量的权利要求形式。例如,尽管仅本发明的一个方面被记载为计算机可读介质的权利要求,但是其它方面同样可以体现为计算机可读介质的权利要求。(任何试图根据美国专利法第112条第6款(35U.S.C.§112,)处理的权利要求,将以词组“用于......方法”开头,但是在其他任何语境下,术语“用于”的使用并非试图根据美国专利法第112条第6款(35U.S.C.§112,)启动处理)因此,申请人保留寻求附加权利要求的权利,从而在提交本申请之后,无论在本申请或后续申请中寻求该等附加权利要求的形式。

Claims (21)

1.一种用于识别视频序列中的镜头转换的计算机实现的方法,包括:
接收来自所述视频序列的第一帧;
基于应用于所述第一帧中的多个块的部分排序和第二帧的多个块的部分排序的置换度量,确定所述第一帧和所述第二帧之间的距离;和
至少部分地基于所述距离确定所述镜头转换的存在。
2.根据权利要求1所述的计算机实现的方法,进一步包括:
基于所述第一帧中的多个块,确定多个块值;
确定所述多个块值的至少部分排序;和
基于所述多个块值的所述部分排序,确定所述第一帧中的所述多个块的所述部分排序,
其中确定距离包括确定所述第一帧中的多个块的所述部分排序和所述第二帧中的多个块的所述部分排序之间的再排序数目。
3.根据权利要求1所述的计算机实现的方法,其中确定所述镜头转换的存在还包括基于所述视频序列中的各帧之间的确定的距离,确定所述镜头转换的存在。
4.根据权利要求1所述的计算机实现的方法,其中所述置换度量包括:
识别被需要以创造所述第二帧中的所述多个块的所述部分排序中的所述块排序的所述第一帧中的所述多个块的所述部分排序中的位置重定位的数目。
5.根据权利要求1所述的计算机实现的方法,其中各部分排序是一总排序。
6.根据权利要求2所述的计算机实现的方法,还包括:
在确定所述多个块值之前,对所述图像进行灰度标定,并且其中所述块值包括各块内的所述灰度值的平均值。
7.根据权利要求2所述的计算机实现的方法,其中所述块值基于红色、绿色或蓝色像素值中的其中之一,以及相邻块的内容。
8.一种非临时性计算机可读介质,包括由至少一个处理器执行的指令以使一个或多个计算机系统:
接收来自所述视频序列的第一帧;
基于应用于所述第一帧中的多个块的部分排序和第二帧的多个块的部分排序的置换度量,确定所述第一帧和所述第二帧之间的距离;和
至少部分地基于所述距离确定所述镜头转换的存在。
9.根据权利要求8所述的非临时性计算机可读介质,其中所述指令被进一步配置用于:
基于所述第一帧中的多个块,确定多个块值;
确定所述多个块值的至少部分排序;和
基于所述多个块值的所述部分排序,确定所述第一帧中的所述多个块的所述部分排序,
其中确定距离包括确定所述第一帧中的多个块的所述部分排序和所述第二帧中的多个块的所述部分排序之间的再排序数目。
10.根据权利要求8所述的非临时性计算机可读介质,其中确定所述镜头转换的存在还包括基于所述视频序列中帧之间的多个距离,确定所述镜头转换的存在。
11.根据权利要求8所述的非临时性计算机可读介质,其中所述置换度量包括:
识别被需要以创造所述第二帧中的所述多个块的所述部分排序中的所述块排序的所述第一帧中的所述多个块的所述部分排序中位置重定位的数目。
12.根据权利要求8所述的非临时性计算机可读介质,其中每个部分排序是一总排序。
13.根据权利要求9所述的非临时性计算机可读介质,由所述至少一个处理器进一步可执行指令以使一个或多个计算机系统:
在确定所述多个块值之前,对所述图像进行灰度标定,并且其中所述块值包括各块内的所述灰度值的平均值。
14.根据权利要求9所述的非临时性计算机可读介质,其中所述块值基于红色、绿色或蓝色像素值中的其中之一。
15.一种计算机系统,包括:
至少一个处理器;
存储器,其包括由所述至少一个处理器可执行的指令,以使所述计算机系统:
接收来自所述视频序列的第一帧;
基于应用于所述第一帧中的多个块的部分排序和第二帧的多个块的部分排序的置换度量,确定所述第一帧和所述第二帧之间的距离;和
至少部分地基于所述距离确定所述镜头转换的存在。
16.根据权利要求15所述的计算机系统,其中所述指令进一步被配置用于:
基于所述第一帧中的多个块,确定多个块值;
确定所述多个块值的至少部分排序;和
基于所述多个块值的所述部分排序,确定所述第一帧中的所述多个块的所述部分排序,
其中确定距离包括确定所述第一帧中的多个块的所述部分排序和所述第二帧中的多个块的所述部分排序之间的再排序数目。
17.根据权利要求15所述的计算机系统,其中确定所述镜头转换的存在还包括基于所述视频序列中帧之间的多个距离,确定所述视频序列的存在。
18.根据权利要求15所述的计算机系统,其中所述置换度量包括:
识别被需要以创造所述第二帧中的所述多个块的所述部分排序中的所述块排序的所述第一帧中的所述多个块的所述部分排序中位置重定位的数目。
19.根据权利要求15所述的计算机系统,其中每个部分排序是一总排序。
20.根据权利要求16所述的计算机系统,由所述至少一个处理器进一步执行得指令以使计算机系统:
在确定所述多个块值之前,对所述图像进行灰度标定,并且其中所述块值包括各块内的所述灰度值的平均值。
21.根据权利要求16所述的计算机系统,其中所述块值基于红色、绿色或蓝色像素值中的其中之一。
CN201480047924.5A 2013-08-29 2014-08-18 高效的基于内容的视频检索 Active CN105612535B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
IL228204 2013-08-29
IL228204A IL228204A (en) 2013-08-29 2013-08-29 Efficiently obtaining content-based video
US14/161,355 US8913872B1 (en) 2013-08-29 2014-01-22 Efficient content based video retrieval
US14/161,355 2014-01-22
PCT/IL2014/050740 WO2015029013A1 (en) 2013-08-29 2014-08-18 Efficient content based video retrieval

Publications (2)

Publication Number Publication Date
CN105612535A true CN105612535A (zh) 2016-05-25
CN105612535B CN105612535B (zh) 2019-11-12

Family

ID=49784263

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480047924.5A Active CN105612535B (zh) 2013-08-29 2014-08-18 高效的基于内容的视频检索

Country Status (5)

Country Link
US (2) US8913872B1 (zh)
EP (1) EP3039618A4 (zh)
CN (1) CN105612535B (zh)
IL (1) IL228204A (zh)
WO (1) WO2015029013A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021003825A1 (zh) * 2019-07-11 2021-01-14 平安科技(深圳)有限公司 视频镜头剪切的方法、装置及计算机设备

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL228204A (en) * 2013-08-29 2017-04-30 Picscout (Israel) Ltd Efficiently obtaining content-based video
US11023737B2 (en) 2014-06-11 2021-06-01 Arris Enterprises Llc Detection of demarcating segments in video
US10887609B2 (en) * 2017-12-13 2021-01-05 Netflix, Inc. Techniques for optimizing encoding tasks
JP6360271B1 (ja) 2018-04-06 2018-07-18 株式会社Medi Plus 医療動画処理システム
CN110969066B (zh) * 2018-09-30 2023-10-10 北京金山云网络技术有限公司 直播视频的识别方法、装置及电子设备
US11665312B1 (en) * 2018-12-27 2023-05-30 Snap Inc. Video reformatting recommendation
US10887542B1 (en) 2018-12-27 2021-01-05 Snap Inc. Video reformatting system

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050123052A1 (en) * 2001-12-19 2005-06-09 Nitzan Rabinowitz Apparatus and method for detection of scene changes in motion video
CN101872415A (zh) * 2010-05-06 2010-10-27 复旦大学 适用于iptv的视频拷贝检测方法
CN102254006A (zh) * 2011-07-15 2011-11-23 上海交通大学 基于内容的互联网视频检索方法
CN102306153A (zh) * 2011-06-29 2012-01-04 西安电子科技大学 基于归一化语义加权和规则的足球视频进球事件检测方法
CN103065301A (zh) * 2012-12-25 2013-04-24 浙江大学 一种双向比对视频镜头分割方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6639945B2 (en) * 1997-03-14 2003-10-28 Microsoft Corporation Method and apparatus for implementing motion detection in video compression
US6278446B1 (en) * 1998-02-23 2001-08-21 Siemens Corporate Research, Inc. System for interactive organization and browsing of video
US7487262B2 (en) * 2001-11-16 2009-02-03 At & T Mobility Ii, Llc Methods and systems for routing messages through a communications network based on message content
KR100411347B1 (ko) * 2001-12-29 2003-12-18 엘지전자 주식회사 동영상 비디오의 장면전환 검출 방법
US7840081B2 (en) * 2004-09-23 2010-11-23 Mitsubishi Denki Kabushiki Kaisha Methods of representing and analysing images
US7813552B2 (en) * 2004-09-23 2010-10-12 Mitsubishi Denki Kabushiki Kaisha Methods of representing and analysing images
JP4252030B2 (ja) * 2004-12-03 2009-04-08 シャープ株式会社 記憶装置およびコンピュータ読取り可能な記録媒体
US7486827B2 (en) * 2005-01-21 2009-02-03 Seiko Epson Corporation Efficient and robust algorithm for video sequence matching
TW200632691A (en) * 2005-03-03 2006-09-16 Ulead Systems Inc System and method for extracting data from a storage medium
US7305128B2 (en) * 2005-05-27 2007-12-04 Mavs Lab, Inc. Anchor person detection for television news segmentation based on audiovisual features
US7551234B2 (en) * 2005-07-28 2009-06-23 Seiko Epson Corporation Method and apparatus for estimating shot boundaries in a digital video sequence
KR100780057B1 (ko) * 2006-04-25 2007-11-29 삼성전자주식회사 동영상 그레쥬얼 샷 변환 장치 및 그 방법
JP2008048279A (ja) * 2006-08-18 2008-02-28 Toshiba Corp 映像再生装置、方法およびプログラム
DE102007028175A1 (de) * 2007-06-20 2009-01-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Automatisiertes Verfahren zur zeitlichen Segmentierung eines Videos in Szenen unter Berücksichtigung verschiedener Typen von Übergängen zwischen Bildfolgen
CN102025892A (zh) * 2009-09-16 2011-04-20 索尼株式会社 镜头转换检测方法及装置
JP5510484B2 (ja) * 2012-03-21 2014-06-04 カシオ計算機株式会社 動画撮影装置、ダイジェスト再生設定装置、ダイジェスト再生設定方法、及び、プログラム
US8644596B1 (en) * 2012-06-19 2014-02-04 Google Inc. Conversion of monoscopic visual content using image-depth database
IL228204A (en) * 2013-08-29 2017-04-30 Picscout (Israel) Ltd Efficiently obtaining content-based video

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050123052A1 (en) * 2001-12-19 2005-06-09 Nitzan Rabinowitz Apparatus and method for detection of scene changes in motion video
CN101872415A (zh) * 2010-05-06 2010-10-27 复旦大学 适用于iptv的视频拷贝检测方法
CN102306153A (zh) * 2011-06-29 2012-01-04 西安电子科技大学 基于归一化语义加权和规则的足球视频进球事件检测方法
CN102254006A (zh) * 2011-07-15 2011-11-23 上海交通大学 基于内容的互联网视频检索方法
CN103065301A (zh) * 2012-12-25 2013-04-24 浙江大学 一种双向比对视频镜头分割方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021003825A1 (zh) * 2019-07-11 2021-01-14 平安科技(深圳)有限公司 视频镜头剪切的方法、装置及计算机设备

Also Published As

Publication number Publication date
EP3039618A1 (en) 2016-07-06
IL228204A (en) 2017-04-30
IL228204A0 (en) 2013-12-31
CN105612535B (zh) 2019-11-12
US8913872B1 (en) 2014-12-16
WO2015029013A1 (en) 2015-03-05
US20150071607A1 (en) 2015-03-12
US9741394B2 (en) 2017-08-22
EP3039618A4 (en) 2017-04-05

Similar Documents

Publication Publication Date Title
CN105612535A (zh) 高效的基于内容的视频检索
He et al. Single shot text detector with regional attention
US9785867B2 (en) Character recognition device, image display device, image retrieval device, character recognition method, and computer program product
US9275734B2 (en) Memory having information refinement detection function by applying a logic operation in parallel for each memory address to the match/mismatch results of data items and memory addresses, information detection method using memory, and memory address comparison circuit for the memory
CN100351839C (zh) 文档检索·阅览方法以及文档检索·阅览装置
CN108881947B (zh) 一种直播流的侵权检测方法及装置
US8755603B2 (en) Information processing apparatus performing character recognition and correction and information processing method thereof
US8504546B2 (en) Method and system for searching multimedia content
EP2291765A2 (en) Statistical approach to large-scale image annotation
WO2009154861A9 (en) Annotating images
CN109783691B (zh) 一种深度学习和哈希编码的视频检索方法
US8345742B2 (en) Method of processing moving picture and apparatus thereof
Gómez et al. Cutting Sayre's Knot: reading scene text without segmentation. application to utility meters
CN111126401B (zh) 一种基于上下文信息的车牌字符识别方法
US20210097692A1 (en) Data filtering of image stacks and video streams
Tuna et al. Indexing and keyword search to ease navigation in lecture videos
Mukhiddinov Scene text detection and localization using fully convolutional network
EP2093709A1 (en) Document image feature value generating device, document image feature value generating method, and document image feature value generating program
CN112836510A (zh) 一种产品图片文字识别方法和系统
CN113014831B (zh) 用于对体育视频进行场景获取的方法及装置、设备
CN112380970A (zh) 基于局部区域搜索的视频目标检测方法
US20210097102A1 (en) Querying images for discrete patterns using regular expressions
CN107766863B (zh) 图像表征方法和服务器
CN113704532B (zh) 一种提升图片检索召回率的方法和系统
Chaisorn et al. A fast and efficient framework for indexing and detection of modified copies in video

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant