CN102959951B - 图像处理装置、图像处理方法及集成电路 - Google Patents

图像处理装置、图像处理方法及集成电路 Download PDF

Info

Publication number
CN102959951B
CN102959951B CN201280001593.2A CN201280001593A CN102959951B CN 102959951 B CN102959951 B CN 102959951B CN 201280001593 A CN201280001593 A CN 201280001593A CN 102959951 B CN102959951 B CN 102959951B
Authority
CN
China
Prior art keywords
mentioned
content
frame
video
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201280001593.2A
Other languages
English (en)
Other versions
CN102959951A (zh
Inventor
黄仲阳
华扬
颜水成
陈强
川西亮
川西亮一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Publication of CN102959951A publication Critical patent/CN102959951A/zh
Application granted granted Critical
Publication of CN102959951B publication Critical patent/CN102959951B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供一种在再现时减少从视听侧的不适感、并且能够从多个内容(例如视频)尽可能维持各内容的故事性而将内容结合的图像处理装置。图像处理装置针对多个内容的各个内容,检测在时间上后续于该内容所包含的第一部分内容的第二部分内容、以及包含在上述多个内容中的与该内容不同的内容中且在时间上连续的多个部分内容中的与上述第二部分内容之间的类似度高的第三部分内容,使用由上述第一处理单元检测出的类似度,生成表示用来将上述第一部分内容、上述第二部分内容及上述第三部分内容连结的关系的信息。

Description

图像处理装置、图像处理方法及集成电路
技术领域
本发明涉及多媒体处理及图像处理,特别涉及从多个内容中提取具有类似的部分的内容并连结的技术。
背景技术
随着个人用数字设备(例如,数字摄像机、数字视频摄像机等)的受欢迎程度提高,摄影出的家庭用的数字视频的数量爆发性地增加。这是因为,(1)存储摄影出的视频(视频片断)的存储装置的存储容量变大;(2)摄影出的视频仅包含单镜头(singleshot)的影像,其摄影时间(再现时间)非常短;(3)对多种多样的题材或事件进行摄影等。因此,用户需要将在不同的场所及时间摄影的自己的视频集频繁地维护、管理,如果其数量变得庞大,则难以管理或操作。例如,用户从自己摄影的大量存在的视频中阅览希望的视频并不容易。
以往,为了能够将这样的大量的视频高效率地阅览,有将视频摘要的技术。在视频的摘要技术中,在应在摘要中使用的特征是与视频的故事无关的特征的情况下丢失了原来的视频的详细数据,或者在应在摘要中使用的特征包含于视频的几乎全部图像中的情况下不能进行摘要等。在这样的情况下,摘要自身有可能变得不正确。
此外,作为与上述技术不同的技术,有将视频合成(连结)的技术(参照非专利文献1~3)。例如,非专利文献1公开了在存在与视频段建立了关联的域(domain)固有元数据的情况下自动地合成为有一贯性的视频的技术。此外,非专利文献2中公开的系统是选择家庭视频段、并通过将其沿着音乐排列来制作编辑视频段的系统。
这里,所谓镜头(shot),是视频的最基本的物理的实体,表示用一台摄像机记录的不包含中断的视频片断。上述单镜头(也称作短镜头),是指持续时间比较短的不包含中断的视频片断。
现有技术文献
非专利文献
非专利文献1:Automaticcompositiontechniquesforvideoproduction.KnowledgeandDataEngineering,1998,G.Ahanger
非专利文献2:Optimization-BasedAutomatedHomeVideoEditingSystem.IEEETransactionsonCircuitsandSystemsforVideoTechnology,2004,X.S.Hua,L.Lu,andH.J.Zhang
非专利文献3:Systematicevaluationoflogicalstoryunitsegmentation.IEEETransactionsonMultimedia,2002,J.VendrigandM.Worring
发明概要
发明要解决的问题
但是,在上述各非专利文献所公开的技术中,如果将一个视频与其他视频结合而再现,则当再现对象从一个视频向其他视频切换时,场面急剧变化的可能性较高。在这样的情况下,如果从视听的一侧看,则会对一个视频与其他视频的连接感到不适感。
发明内容
所以,本发明鉴于上述问题,目的是提供一种能够在再现时从视听侧减少不适感、并且从多个内容(例如视频)尽可能维持各内容的故事性而将内容结合的图像处理装置、图像处理方法、图像处理程序及集成电路。
用于解决问题的手段
为了达到上述目的,本发明是一种图像处理装置,其特征在于,具备:第一处理单元,针对有关动态图像的多个内容的各个内容,分别检测下述类似度,该类似度是在时间上后续于该内容所包含的第一部分内容的第二部分内容、与构成上述多个内容中的与该内容不同的检测对象内容的一部分且在时间上连续的多个部分内容之间的类似度,并且检测该多个部分内容中的与上述第二部分内容的类似度高的第三部分内容;第二处理单元,使用由上述第一处理单元检测到的上述第二部分内容与上述第三部分内容的类似度,生成下述信息,该信息表示用于将上述第一部分内容、上述第二部分内容及上述第三部分内容连结的关系。
发明效果
根据该结构,图像处理装置通过使用生成的信息,能够进行第二部分内容与多个部分内容中的类似度最高的第三部分内容的结合。因此,如果将结合后的内容再现,则由于在类似的部分处连接,所以视听侧能够没有不适感而视听。此外,在结合时由于还包含第一部分内容,所以维持了包括第一部分内容在内的内容的故事性。
附图说明
图1是表示图像处理装置1的结构的模块图。
图2是使用偏好系数说明帧序列对应性的计算方法的图。
图3是表示在人物检测处理中使用的模型及检测结果的一例的图。
图4是表示面部检测处理中的匹配的例子的图。
图5是表示生成的视频类似图表G100及路径搜索结果的一例的图。
图6是表示将自动路径搜索的检测结果提示给用户的界面的一例的图。
图7是表示将由用户固定了视频片断的情况下的搜索的检测结果提示给用户的界面的一例的图。
图8是表示将由用户固定了对象的情况下的搜索的检测结果提示给用户的界面的一例的图。
图9是说明将视频Vi与视频Vj连结时的顺序的图。
图10是表示将本实施方式的过渡与基于其他方法的过渡进行比较的一例的图。
图11是表示图像处理装置1的处理概要的流程图。
图12是表示检测类似的视频对的处理的流程图。
图13是表示连结视频生成处理的流程图。
图14是使用具体例说明图像处理装置1的处理的图。
图15是说明图像处理装置1的处理例的图。
具体实施方式
1.实施方式
以下,参照附图对本发明的实施方式进行说明。
1.1概要
有关本发明的图像处理装置是从类似的多个视频(由动态图像构成的内容)自动地生成虚拟的单镜头演示(presentation)(1个内容)的装置。另外,以下将单镜头演示也称作单镜头视频、连结视频。这里,将构成虚拟的单镜头演示的各内容的再现顺序(再现路径)称作“视频拼图(VideoPuzzle)”。本发明的图像处理装置从多个视频中提取具有类似的主要的主题的视频的集合。作为主题,人物、物体或场景可以作为其对象。主题由用户指定,或者通过自动发现法找出。并且,使用以下说明的粗细法(coarse-to-finemethod)取得视频间的开始、末端帧的对应,将它们无缝地合成(连结),生成长时间的单镜头演示。因而,本发明提供一种使用户对于多个视频中的故事能够得到更深的印象的视频内容的新的演示法。
1.2结构
参照图1对有关本发明的图像处理装置1的结构进行说明。
图像处理装置1如图1所示,由视频存储部10、检测处理部11、图表生成部12及连结视频生成部13构成。
另外,图像处理装置1包括处理器及存储器而构成,检测处理部11、图表生成部12及连结视频生成部13各自的功能通过由处理器执行存储在存储器中的程序来实现。
检测处理部11针对多个视频(内容)的各个视频,从构成其他视频的一部分、且在时间上连续的多个部分(部分内容)中检测与作为该视频的一部分、且在时间上连续的两个部分(第一部分内容及第二部分内容)中的第二部分内容的类似度高的部分(第三部分内容)。
此外,图表生成部12针对上述多个视频,将与该视频连结的视频的关系图表化。连结视频生成部13以第一部分内容、第二部分内容、第三部分内容、以及包含在上述其他视频中且在时间上后续于上述第三部分内容的部分(第四部分内容)的顺序进行连结。
以下,对各构成要素详细地说明。
(1)视频存储部10
视频存储部10是用来将多个视频(有关动态图像的内容)存储的存储区域。另外,将存储在视频存储部10中的视频分别也称作视频片断。
(2)检测处理部11
检测处理部11为了针对存储在视频存储部10中的多个视频生成匹配图表,以存储在视频存储部10中的各视频为输入,生成具有类似的主要的主题的视频的集合并输出。
检测处理部11如图1所示,由第一检测部100、第二检测部101及匹配处理部102构成。
(2-1)第一检测部100
第一检测部100使用基于规定的特征变换法计算的类似度,在存储在视频存储部10中的全部的视频的对中计算帧的部分类似性。第一检测部100例如使用PartitionMin-Hashing(PmH:分区最小哈希)算法作为规定的特征变换法。并且,第一检测部100使用计算出的帧的部分类似性,从视频的对中选择在概括水平(summary-level)上类似性高的视频的对作为候选对,并基于选择结果生成视频类似性的组。具体而言,第一检测部100将类似度为规定的阈值以下的类似性低的视频的对排除,选择最多4个视频的对作为各视频的匹配候选。由此,不是使用例如图像特征量那样的指标来检测严格一致的帧,而能够检测在概括水平上一致的帧,所以进行视频匹配工序时的计算成本大幅削减。
通常,一般的min-hash(最小哈希)是用于发现几乎重复的文本文件或网页的方法。近年来,min-hash及其变种被用于几乎重复的图像的检测、图像聚类、图像的取得及对象的检测。这里,所谓对象,是包括人物及物体的概念。在min-hash算法中,将哈希函数适用于图像中的全部的VisualWord,忽视它们的位置。并且,选择具有最小哈希值的VisualWord作为该图像的全局描述符。但是,与通常利用词的集合(bag-of-words)表现的文本文件不同,图像被由2D构成的对象较大地赋予特征,它们多数情况下在图像内在空间上局部存在。并且,PmH是利用该局部存在性的哈希方法。利用PmH的第一检测部100的基本的处理如以下这样。另外,关于VisualWord,由于是已知的技术,所以这里的说明省略。
a)取得构成视频的各帧。
b)对于所取得的各帧,分别将该帧划分为相同尺寸的p个矩形区域。
c)按照各部分区域实施相同的哈希函数,提取最小哈希素描(min-hashsketch),保存到哈希表中。这里,哈希表是将哈希函数能够取的变域按照规定的范围划分的表。并且,最小哈希素描被保存在该最小哈希素描表示的值所属的范围中。
d)针对视频的各对,根据哈希表,基于最小哈希素描所冲突的个数计算视频间的类似度。具体而言,通过以下的数式1计算。
e)选择视频的各对中的、计算出的值大的(视频间的类似度高的)上位4个作为候选对。
[数1]
这里,Vi,m表示视频Vi的第m个帧,Vj,n表示视频Vj的第n个帧。δ(Vi,m,Vj,n)在视频Vi的第m个帧中的部分区域的一个最小哈希素描与视频Vj的第n个帧中的多个部分区域各自的最小哈希素描的某个冲突的情况下定义为“1”,在不冲突的情况下定义为“0”。此外,|Vi|及|Vj|分别表示视频Vi及Vj各自的帧数。
(2-2)第二检测部101
第二检测部101以由第一检测部100选择的候选对为输入,检测分别包含在所输入的候选对的视频中的子序列(以下,也称作帧序列)的类似性。
以下,对第二检测部101的功能的详细情况进行说明。
第二检测部101针对由第一检测部100选择的候选对(例如视频Vi和Vj)的各视频,提取由视频Vi的结束部分构成的视频结束部分、由视频Vj的开始部分构成的视频开始部分,检测序列对应性Si,j。这里,例如视频结束部分是将视频的再现时间划分为两份的情况下的后半部分,视频开始部分是将视频的再现时间划分为两份的情况下的前半部分。
第二检测部101为了计算序列对应性Si,j,首先在视频Vi的视频结束部分、视频Vj的视频开始部分中划分为由相同的长度(再现时间)构成的子序列(帧序列)。这里,视频Vi的视频结束部分被划分为Seqi,1,Seqi,2,…,Seqi,p,视频Vj的视频开始部分被划分为Seqj,1,Seqj,2,…,Seqj, q。这里,Seqi,1,Seqi,2,…,Seqi,p及Seqj,1,Seqj,2,…,Seqj,q的长度(再现时间)相同。此外,Seqi,1,Seqi,2,…,Seqi,p是位于视频Vi的结束部分的子序列,Seqj,1,Seqj,2,…,Seqj,q是位于视频Vj的开始部分的子序列。
第二检测部101基于预先设定的固定比率,针对视频结束部分Seqi,s(s是1以上且p以下的整数)检测与视频开始部分Seqj,1,Seqj,2,…,Seqj,q各自的类似性。例如,第二检测部101基于预先设定的固定比率,针对帧序列Seqi,s检测与帧序列Seqj,t的帧的类似性(t是1以上且q以下的整数)。
这里,所谓固定比率,表示用来基于视频的帧速率检测(采样)类似性的采样率。例如,当视频的帧速率是30帧/秒时,如果设固定比率为30,则第二检测部101每一秒对一个帧检测类似性。此外,在与上述相同的帧速率的情况下,当固定比率是15时每一秒对两个帧检测类似性,当固定比率是6时每一秒对5个帧检测类似性。例如,在设再现时间为5秒、帧速率为30帧/秒、以及固定比率为30的情况下,在帧序列Seqi,s和帧序列Seqj, t中分别包含150(30帧/秒×5秒)个帧。第二检测部101在帧序列Seqi,s中将开头帧和在该开头帧后每一秒存在的各帧作为检测对象帧,针对这些检测对象帧分别检测与包含在帧序列Seqj,t中的各帧的类似性。另外,在将固定比率设为1的情况下,包含在帧序列Seqi,s中的全部的帧成为类似性的检测对象。
第二检测部101根据基于固定比率成为检测对象的各帧和包含在帧序列Seqj,t中的帧,使用以下所示的数式2计算序列类似性VSi,j
[数式2]
这里,scorex,y是后述的帧类似值。此外,x表示属于Seqi,s的帧的帧号码,y表示属于Seqj,t的帧的帧号码。此外,|k|表示在Seqi,s中作为检测对象的帧的个数。因而,可知在数式2中得到的帧的类似性是按照Seqi,s中的作为检测对象的每一帧得到的scorex,y的最大值的平均值。
第二检测部101为了计算帧间的类似度而进行图像局部关键点匹配。作为匹配处理,使用具有DifferenceofGaussians(DOG)keypointdetector的SIFT+ColorMoments。SIFT描述符和ColorMoments相互处于补充关系,SIFT描述符记述局部构造,ColorMoments记述局部差的构造,由此表示更高阶的信息。第二检测部101使用这些方法取得作为图像的特征点的局部关键点。
第二检测部101为了判断从不同的视频片断得到的规定的两个帧的局部一致,通过确定目标图像(例如Vj的帧)的局部关键点中的最接近的局部关键点,来检测源图像(例如Vi的帧)的每个局部关键点的最优的匹配候选。
这里,最接近的局部关键点是欧几里德距离为最小的局部关键点。在源图像中存在许多在目标图像中没有一致者的局部关键点,如在背景中存在杂乱的、或从目标图像不能检测到的部分的局部关键点等,所以将它们丢弃是有效的。第二检测部101通过将最近的局部关键点与第二个近的局部关键点比较,取得有效测定值。并且,第二检测部101取得表示一致的局部关键点的数量的关键点匹配集KS、和表示一致的局部关键点的一致的程度的匹配分数T。
第二检测部101使用通过局部匹配得到的关键点匹配集KS和匹配分数T,通过以下所示的数式3计算帧间的类似值。
[数式3]
这里,|KS|表示关键点匹配集的大小,即包含在关键点匹配集中的要素的个数。此外,j是1以上且|KS|以下的整数。这里,对属于关键点匹配集的各要素(关键点匹配),分配了1以上且|KS|以下的整数中的相互不同的整数。并且,Tj表示被分配了整数j的关键点匹配的匹配分数。
并且,第二检测部101使用在数式3中计算出的类似值和上述数式2计算帧类似性。
第二检测部101针对帧序列的对,分别用偏好系数对用数式2计算出的帧类似性进行缩放(scaling),取得帧序列的对的序列类似性。第二检测部101例如对取得的序列类似性乘以偏好系数,取得帧序列的对的序列类似性。这里,所谓偏好系数,是针对在帧序列间计算出的帧类似性的权重,该权重根据各帧序列存在的位置来设定。例如,如图2所示,对于包含视频Vj的再现开始位置的Seqj,1,作为与视频Vi的再现结束位置Seqi,p的偏好系数而设定值“1”,对于从视频Vi的再现结束位置依次远离的Seqi,p-1,Seqi,p-2,…,Seqi,2,Seqi,1的设定的偏好系数的值向0接近。
另外,在序列类似性的计算中,首先,将视频Vi的Seqi,p固定,计算与视频Vj的Seqj,1,…,Seqj,q各自的序列类似性。然后,按视频Vi的Seqi,p-1,…,Seqi,1的顺序,计算与视频Vj的Seqj,1,…,Seqj,q各自的序列类似性。
第二检测部101按每个候选对,检测序列类似性(通过偏好系数缩放后的值)最高的序列对。并且,第二检测部101取得检测到的序列对的序列类似性作为序列对应性Si,j
第二检测部101对于全部的候选对,检测序列类似性(通过偏好系数缩放后的值)最高的序列对,并且还取得该序列对的序列对应性。由此,能够判断视频片断是否能够与其他视频合成。
(2-3)匹配处理部102
匹配处理部102使用由第二检测部101检测出的序列对,检测类似性高的视频的对内的过渡(transition)的候选。如果直接生成帧水平的过渡则变得不自然。所以,匹配处理部102在由第二检测部101检测到的序列对中,通过匹配处理检测类似度高的帧的对。
匹配处理部102如图1所示,具有共同图案检测部110、人物检测部111及面部检测部112。
匹配处理部102使用共同图案检测部110、人物检测部111及面部检测部112,在由第二检测部检测出的两个序列内确定作为类似度高的帧所成的对的关键帧对候选。确定的关键帧对候选的帧对成为由后述的连结视频生成部13生成的连结视频的应连结的部位。
这里,匹配处理部102对作为对象的两个序列,执行共同图案检测部110、人物检测部111、面部检测部112及它们的组合中的某1个。
(2-3-1)共同图案检测部110
共同图案检测部110使用局部的视觉图案检测,进行特征对象(salientobject)匹配。另外,由于使用局部的视觉图案检测的匹配是公知的,所以这里的说明省略。
共同图案检测部110按对应序列内的每一帧对,进行共同图案检测,选择具有最大图案的支持的帧组作为关键帧对候选。
共同图案检测部110基于与由第二检测部101基于序列匹配用的关键点进行的匹配不同的图像匹配,对类似度高的序列的对检测在帧间共同的图案(对象),例如玩具、车、风景。
通常,对图像匹配而言,由于包含大量的异常值的情况较多,所以为了检测共同图案,需要抗差拟合(robustfitting)法。具体而言,所谓共同图案,表示共有相同或类似的齐次变换参数的匹配对。共同图案检测部110作为图像匹配的一例,采用GraphShift法,对一致的对导入空间制约,检测高密度的共同图案。
(2-3-2)人物检测部111
人物检测部111使用基于人的自动确定法的自动人体检测处理进行人物的外观匹配。另外,自动人体检测处理是公知的技术,所以以下简单地省略。
人物检测部111预先保持有part-based模型,该part-based模型是利用从人物检测用的数据集合得到的带注释的人物图像经过学习而得到的。人物检测部111针对序列的对的各帧进行与预先保持的part-based模型的匹配处理,检测人物。
然后,人物检测部111使用自动人体检测处理的检测结果,检测在序列的对的帧间共同的人物。
人物检测部111基于检测结果,如果某个帧对的人物的类似度比规定的阈值高,则选择该帧对作为关键帧对候选。
图3表示part-based模型的一例和使用它的检测结果的一例。
part-based模型包括两个部分。一个是描绘完全的视(view)(表示为根模型)的部分,另一个是描绘部分视(表示为部分模型)的部分。
在图3(a)、图3(b)中,part-based模型包括两个根模型(分别是上半身和全身),每个根模型包括四个部分模型。图3(c)表示几个帧的若干个检测结果例。检测出的人体的外观用彩色直方图表示,为了搜索在不同的帧/视频中出现的相同的人物而进行匹配。
另外,使用part-based模型的匹配处理、使用彩色直方图的匹配处理是公知的技术,所以这里的说明省略。
(2-3-3)面部检测部112
面部检测部112使用基于人脸的自动确定法的自动面部检测处理进行面部的外观匹配。
面部检测部112针对序列的对的各帧进行自动面部检测处理。面部检测部112基于自动面部检测处理的检测结果,如果某个帧对的面部的类似度比规定的阈值高,则选择该帧对作为关键帧对候选。
以下表示自动面部检测处理的一例。
面部检测部112使用多视检测处理及主动形状模型(activeshapemodel)进行面部的对位。面部检测部112按每一帧进行大致正面的面部的识别,将面部区域的位置与几个面部的部分、例如眼睛、嘴、轮廓等一起确定。将包含面部的帧基于以下的基准与包含面部的别的帧进行匹配。
基准1)面部区域充分大。较小的区域的视频匹配及过渡多数情况下不自然,所以较小的面部区域的重要性较低。例如,使面部区域的阈值为3600像素。
基准2)面部是同一人物的面部。首先,进行面部对位而使面部的位置对准,对于按照面部的对提取出的特征矢量,计算欧几里德距离。另外,面部区域的阈值根据经验来设定,以能够将大部分的不匹配候选排除。
基准3)两个面部的姿势不怎么有差异。面部检测的输出包括姿势视(view)信息。此外,与不朝向正面的面部的匹配相比,朝向正面的面部的匹配更优选。
在图4中表示面部检测处理中的匹配的例子。帧F100及帧F101各自的面部区域F110、F111是规定大小以上的大小,满足基准1。此外,由于面部区域F110、F111各自的面部是同一人物,所以满足基准2。最后,面部区域F110、F111各自的面部的姿势也大致相同,满足基准3。
由此,面部检测部112从帧F100及帧F101中检测共同人物的面部。
(3)图表生成部12
图表生成部12针对存储在视频存储部10中的N个视频片断(V1,V2,…,Vn),使用由第二检测部101检测出的序列对及该序列对的序列对应性,生成有向加权的匹配图表G=(V,E)。这里,V表示节点(视频),E表示有向加权的边缘。这里,边缘E的有向权重表示为Ei,j,表示从视频Vi向视频Vj的有向权重。并且,由Ei,j表示的值是基于由第二检测部101检测出的序列对的序列对应性Si,j计算出的值。另外,关于计算方法在后面叙述。另外,也将有向权重本身称作边缘。
并且,图表生成部12根据生成的有向加权图表G检测最优的路径P。这里,在寻找图表中的路径时,可以考虑以下的基准。
(基准1)连续性:路径的各边缘具有比规定的阈值大的权重。否则,不选择该边缘。
(基准2)完全性:路径整体充分长。为了确保视频的完全性,组合的片断的数量较多是优选的。关于最长路径的检测在后面叙述。
(基准3)多样性:节点是多样的。由于匹配的片断有可能包含许多大致重复的版本,所以需要将它们排除以使合成后的视频变小。另外,多样性通过调查视频间的类似性来达到。即,作为视频间的类似性,通过PmH方法进行候选对的检测,针对一个视频检测4个候选对。由此,关于上述一个视频,作为后续连结的视频而存在4个图案,是多样的。并且,如果选择其中的1个图案作为路径,则在以后的路径检测中用后述那样的方法将表示该路径的边缘的权重进行缩放,以将该图案排除。
以下,对关于图表生成部12的详细的功能结构进行说明。
图表生成部12如图1所示,具有图表构成处理部120、边缘裁剪部121及路径检测部122。
(3-1)图表构成处理部120
图表构成处理部120针对由第一检测部100选择的视频的候选对分别使用由第二检测部101计算出的与该候选对对应的序列对应性来赋予有向权重。由此,对各视频的对赋予有向的边缘,生成有向加权图表G。以下,设候选对为视频Vi及视频Vj,对图表构成处理部120的功能的详细情况进行说明。
图表构成处理部120对于视频Vi及视频Vj,使用由第二检测部101计算出的序列对应性Si,j和以下的数式4,计算从视频Vi向视频Vj的有向权重Ei,j
[数式4]
这里,Wi,j是用上述数式1针对视频Vi及视频Vj计算出的值,θ是通过数式1针对候选对的全部计算出的值的平均值。
(3-2)边缘裁剪部121
边缘裁剪部121以由图表构成处理部120构成的有向加权图表G为输入,检测该图表G中的闭路径,将构成检测到的闭路径的至少1个边缘裁剪,即该1个边缘从图表G中排除。由此,在将有类似性的多个视频连结的视频中,能够防止重复再现。
具体而言,边缘裁剪部121使用Depth-First-Search方法检测图表G中的闭路径。边缘裁剪部121对于检测出的闭路径,将构成该闭路径的边缘中的有向权重的值最小的边缘从图表G中排除。Depth-First-Search方法是公知的,所以这里的说明省略。
(3-3)路径检测部122
路径检测部122以由边缘裁剪部121进行边缘裁剪后的图表G为输入,从进行边缘裁剪后的图表G中检测1个以上的最优的路径。
路径检测部122从图表G=(V,E)中检测最长的路径P。这里,已知图表理论中的最长路径问题通过调查最优化的二重性能够变换为最短路径问题。在对于最长路径问题的输入图表是G的情况下,图表G’上的最短简单路径除了边缘的权重是倒数以外与G完全相同。但是,原来的图表G中的正闭路为G’中的负闭路。因而,在具有负闭路的图表中寻找最短简单路径是NP完全问题。在G中没有闭路的情况下,在G’中没有负闭路,为了解决多项式时间的原本的问题,通过任何的最短路径搜索算法都能够安装到G上。因而,不存在闭路径的图表中的最长路径问题在非循环图表中能够容易地解决。在本实施方式中,由于通过边缘裁剪部121的功能进行裁剪后的图表G中不存在闭路径,所以通过将从裁剪后的图表G中检测最长路径P替换为从由裁剪后的图表G的各权重的倒数构成的G’检测最短路径,来检测最长路径P。
最长路径的生成方法存在各种方法。
图5表示根据裁剪后的图表(视频类似图表)G100,通过自动路径搜索方法、对话型路径搜索(视频组固定)及对话型路径搜索(对象固定)进行路径搜索(路径检测)的结果。以下对这些方法进行说明。
(3-3-1)关于自动路径搜索
该方法是自动地寻找1个以上的最大路径的方法。路径检测部122如果从图表G检测出各有向权重(各边缘)由规定值以上的值构成的最长路径,则将对该路径的节点赋予的全部的有向权重(边缘的权重)用系数λ(例如,λ=0.2)进行缩放(乘法),使这些节点再次被选择的可能性变低。并且,路径检测部122在更新后的图表G中再次搜索别的最长路径。将该处理重复,直到满足最终的路径的权重的合计小于阈值的条件。
例如,对在图5所示的视频类似图表G100中求出由边缘的权重为0.5以上的边缘构成的最长路径的情况进行说明。首先,路径检测部122检测由节点7、12、14、18、19、16的顺序构成的路径G200作为由边缘的权重为0.5以上的边缘构成的最长路径。并且,对该路径G200中的各边缘的权重乘以λ(=0.2)。通过这样,这些边缘的权重成为比0.5小的值,所以这些边缘不会再次通过搜索被检测到。然后,路径检测部122检测路径G201,对存在于路径G201上的边缘的权重,与路径G200的情况同样进行缩放。并且,路径检测部122检测路径G202,对路径G202进行同样的缩放。
此外,在图6中表示向用户提示的界面的一例。在该例中,表示在系统自动地找出视频片断的组的路径后存在3个最长路径(视频拼图)G300、G301、G302。这里,基于边缘的两个视频片断的连接表示它们的类似性,边缘的粗细表示它们以何种程度类似。例如,如果用户将视频拼图G300、G301、G302中的某一个的指示符按下,则不论何时都对用户再现如下单镜头(oneshot)视频,该单镜头视频是使用构成被按下指示符的视频拼图的各视频片断进行合成而得到的视频。
(3-3-2)对话型的搜索方法
对话型的搜索方法是在个人的利用中、通过人的对话型操作检索连续的视频片断的方法。该搜索方法在用户要求包含指定的视频片断或者向指定的对象或场景的聚焦的单镜头视频的情况。
(a)用户将视频片断进行固定的情况
该情况下的搜索方法,是检测如下路径的方法,该路径是从一个节点到另一个节点的最长路径,并且在该最长路径中包含由用户指定的视频片断(节点Vi)。由于构成的图表是非循环图表,所以保证了在检测的路径中没有被选择两次以上的节点。另外,由用户指定的视频片断只要是1个以上就可以,在指定了多个视频片断的情况下,检测将被指定的全部的视频片断包括在内的最长路径。此外,由用户指定的一个视频片断既可以是最长路径的开头,也可以是最末尾。
例如,对在图5所示的视频类似图表G100中由用户指定了节点(视频片断)9、11、13的情况进行说明。
路径检测部122生成由指定的节点构成的路径。例如,路径检测部122生成节点9、节点13、节点11的路线的路径G210。然后,路径检测部122检测到达节点9的最长路径(节点1、3、4、9的路线的路径)。此外,路径检测部122搜索以节点11为开头的最长路径。在此情况下,由于不存在与节点11类似的节点,所以检测不到以节点11为开头的最长路径。路径检测部122将检测出的路径(节点1、3、4、9的路线的路径)与所生成的路径G210结合,生成最终的最长路径(节点1、3、4、9、13、11的路线的路径)G211。
在由用户指定的节点是1个的情况下(以指定的节点为Vk),分别检测从某个节点Vi到该节点Vk的最长路径、及从该节点Vk到其他节点Vj的最长路径,将检测出的路径分别结合,生成1个最长路径(Vi~Vk~Vj的路线的路径)。此时,当从某个节点Vi到该节点Vk的最长路径不存在时生成的路径为Vk~Vj的路线的路径,当从该节点Vk到其他节点Vj的最长路径不存在时生成的路径为Vj~Vk的路线的路径。
图7表示在由用户固定了3个视频片断的情况下对用户提示的界面的一例。在该例中,通过用户的指定选择视频片断G310、G311、G312。在此情况下,路径检测部122生成由指定的视频片断(节点)G310、G311、G312构成的路径,例如以G310、G311、G312为路线的路径。路径检测部122搜索以视频片断G312为开头的最长路径,结果检测以视频片断G312、G313、G314、G315、G316为路线的路径。由于不存在与视频片断G310类似的其他视频片断,所以检测不到到G310的路径。路径检测部122将由指定的视频片断构成的路径与检测到的路径结合,生成1个最长路径(以视频片断G310、G311、…、G316为路线的路径)。
(b)用户将对象进行固定的情况
该情况下的搜索方法是检测包含用户指定的对象的单镜头视频的方法。
路径检测部122确定包含由用户选择的对象的两个视频Vi及Vj。并且,搜索以所确定的一个节点Vi为开头、以所确定的节点Vj为最末尾的最长路径。
例如,对在图5所示的视频类似图表G100中由用户指定某个对象、再指定了包含指定的对象的节点17、19的情况进行说明。
路径检测部122检测包含指定的对象的节点5及节点16。并且,搜索如下路径,该路径是从节点5到节点16的最长路径,包含由节点17、19构成的路径G220,并且在路径中途的节点中也包含指定的对象。这里,路径检测部122作为搜索结果而检测路径G211。
另外,包含指定的对象的节点5及节点16的至少1个节点也可以处于最长路径的中途。该情况下的路径检测例如在检测节点5、节点16都存在于中途的路径的情况下,与视频片断被固定的情况同样,生成由节点5和节点16构成的路径,检测到达所生成的路径的最长路径及从所生成的路径继续的最长路径,将这3个路径结合。当检测最长路径时,检测包含指定的对象、或者与指定的对象不同但包含在所生成的路径(由节点5、节点16构成的路径)中的对象的最长路径。
此外,在图8中,表示在用户固定了对象的情况下对用户提示的界面的一例。在该例中,通过用户的指定,选择了在视频片断G350、G351各自中共同的人物OBJ1、OBJ2。
并且,路径检测部122检测包括所选择的人物、且到达视频片断G350的最长路径,例如检测以视频片断G352、G353、G354、G350为路线的路径。由于不存在包含视频片断G350、G351各自中共同的人物、且后续于视频片断G351的视频片断,所以路径检测部122搜索包含视频片断G351中包含的其他对象OJB10、且后续于视频片断G351的视频片断。结果检测出包含与对象OJB10共同的对象OBJ11的视频片断G355。并且,由于不存在包含对象OBJ10、OBJ11中共同的对象、且后续于视频片断G355的视频片断,所以路径检测部122搜索包含视频片断G355中包含的其他对象OJB12、且后续于视频片断G355的视频片断。结果,检测出包含与对象OJB12共同的对象OBJ13的视频片断G356。
最后,路径检测部122生成以视频片断G352、G353、G354、G350、G351、G355、G356为路线的最长路径。
(4)连结视频生成部13
连结视频生成部13是使用由路径检测部122检测出的路径将存在于该路径上的各视频片断连结而生成单镜头视频的单元。
如果以帧水平直接生成过渡,则发生视觉上的中断,变得不自然。此外,在由匹配处理部102确定了关键帧对候选的情况下,也可以考虑将它们简单连结。但是,在作为关键帧对候选的两个帧中,一致的部分如共同图案、人体、面部等那样是局部的。如果基于这两个帧将两个视频直接接合,则会突然地变化,在此情况下也成为不自然的连接。
(存在关键帧对候选的情况)
所以,连结视频生成部13在由路径检测部122检测出的路径上的相邻的两个视频间确定了关键帧对候选的情况下,使用所确定的关键帧对候选将两个视频连结,以使两个视频间自然地过渡。此时,在连结成视频Vj后续于视频Vi的情况下,连结视频生成部13生成的连结视频不是仅由分别包括作为关键帧对候选的帧的帧序列Seqi,s和帧序列Seqj,t构成。连结视频生成部13生成的连结视频包括在时间上与帧序列Seqi,s连续而先行的部分(以下,称作先行部分)、以及在时间上与帧序列Seqj,t连续而后续的部分(以下,称作后续部分)。进而,连结视频以上述先行部分、帧序列Seqi,s、帧序列Seqj,t及后续部分的顺序连结。
具体而言,连结视频生成部13对作为关键帧对候选的两个帧采用图像变形方法,将与关键帧对候选对应的两个视频连结。
通常,图像变形(morphing)方法多数情况下用于视频动画的过渡。变形的目的是使用插值纹理平滑从原来的形状向目的形状平滑地变形的中间几何形状。
连结视频生成部13通过以下的顺序生成采用图像变形方法的连结视频。
(顺序1)搜索最小一致区域:多数情况下两个帧中的一致的对象间的过渡必须是平滑且连续的。所以,连结视频生成部13生成最小一致区域间的过渡,以取代单纯生成作为类似的视频Vi及Vj的关键帧对候选的帧Fk及Fl的过渡。这里,Fk是视频Vi的第k个帧,Fl是视频Vj的第l个帧。连结视频生成部13为了保证平滑性,通过以下的3个顺序选择最小一致区域:(顺序1-1)决定所检测的区域的纵横比率。决定的纵横比率在视频Vi及视频Vj中是相同的。(顺序1-2)在决定的纵横比率的区域中判断是否覆盖局部一致点的大部分,在判断为覆盖的情况下,检测所决定的纵横比率的区域作为最小一致区域。在由“顺序1-1”决定的纵横比率的区域中没有检测到最小一致区域时,再次通过“顺序1-1”决定纵横比率,在再次决定的纵横比率的区域中搜索最小一致区域。(顺序1-3)将关于帧Fk、Fl的最小一致区域内的局部一致点的中心间的偏移最小化。
(顺序2)将焦点对准于一致的对象:连结视频生成部13在确定最小一致区域后,搜索视频Vi中的比帧Fk靠前的m个帧,对由m个帧及帧Fk构成的序列所包含的一致的对象使用移近(zoomin)方法。这里,m由帧Fk和在帧Fk中确定的最小一致区域的面积比率决定。同样,连结视频生成部13在视频Vj中搜索比帧Fl靠后的n个帧,对由n个帧及帧Fl构成的序列所包含的一致的对象采用移离(zoomout)方法。这里,m由帧Fl和在帧Fl中确定的最小一致区域的面积比率决定。
(顺序3)进行局部对位及局部纹理形状匹配:连结视频生成部13在关于帧Fk、Fl的最小一致区域间进行变形的处理,生成中间帧。首先,连结视频生成部13以针对一致的对象的匹配集合点为前提,生成德洛内三角划分(Delaunaytriangulation)集合。并且,连结视频生成部13使用与德洛内三角划分集合对应的要素计算中间三角形。并且,对三角形划分内的纹理进行线性插值。另外,使用德洛内三角划分集合的线性插值是公知的,所以这里的说明省略。
(顺序4)对不一致区域进行羽化(Feathering):最小一致区域间的过渡关于不一致区域有可能还残留有幻影现象。所以,连结视频生成部13对不一致区域采用一般用在图像马赛克中的羽化法。即,连结视频生成部13关于各帧中的像素,与边缘及到匹配点的中心的距离成比例地进行加权。
(不存在关键帧对候选的情况)
对在两个视频之间不存在关键帧对候选的情况进行说明。在此情况下,看作“忽视上下文的”合成,连结视频生成部13进行直接的合成。
另外,也可以不是直接的合成,连结视频生成部13采用移近、移离等其他过渡法或画中画(Picture-in-Picture)技术。在对两个视频使用画中画技术的情况下,连结视频生成部13可以寻找一个视频的结束部分中的平坦的区域,使用虚拟TV帧将其他视频埋入到该区域中而连结,关于过渡可以通过向TV帧的移近来实现。
(4-1)具体例
通常,变形方法对于一致的对象产生有魅力的效果,但对于不一致的部分有可能引起幻影现象。在本实施方式中,基于帧的部分区域的一致,所以发生幻影现象的可能性较高。因此,通过如上述那样对不一致区域实施羽化,能够避免幻影现象。
图9表示将视频Vi与视频Vj连结时的从上述顺序1到顺序3的具体例。
连结视频生成部13检测视频Vi和视频Vj中的最小一致区域。在图9中,检测包含在视频Vi的图像(帧)F100中的区域F110和包含在视频Vj的图像(帧)F200中的区域F210作为最小一致区域。到此为止相当于上述顺序1。
连结视频生成部13将焦点对准于针对帧F100及在该帧F100的前方存在的规定个数的帧F101、F102检测出的最小一致区域F110,采用移近方法。此外,连结视频生成部13将焦点对准于针对帧F200及在该帧F100的后方存在的规定个数的帧F201、F202检测出的最小一致区域F210,采用移离方法。到此为止相当于上述顺序2。
并且,连结视频生成部13对帧F100和帧F200的最小一致区域F110、F210检测匹配集合点。针对在图9的上段表示的帧F100、F200,将两者间连结的多个线段各自的两端的组为匹配集合点。连结视频生成部13使用检测出的匹配集合点生成中间帧F300、F301、…、F302、F303。到此为止相当于上述顺序3。
此外,图10是将家人/风景的视频片断的基于本实施方式的过渡、和基于其他方法的过渡比较的例子。
在图10中过渡1~4分别表示的两端的帧的对(帧F400和帧F450、帧F500和帧F550、帧F600和帧F650、帧F700和帧F750)是相符合的开始、结束帧。各过渡(例如选择5个帧)的第一行是通过在本实施方式中提出的方法得到的。各过渡的第二行是通过一般使用的过渡(这里,是移近/移离)得到的。
过渡1不进行羽化,而通过相符合的关键点生成。过渡2~4是通过所提出的方法使用过渡用的不同的线索得到的。例如是在过渡2中作为过渡的线索而使用“人脸”、在过渡3中作为过渡的线索而使用“人体(上半身)”、在过渡4中作为过渡的线索而使用“建筑物(塔)”的情况下的一例。
1.3动作
(1)动作概要
这里,使用图11所示的流程图对图像处理装置1的动作概要进行说明。
检测处理部11针对存储在视频存储部10中的多个视频片断,检测类似的视频片断的对(步骤S5)。另外,关于该处理的详细情况在后面叙述。
图表生成部12使用通过步骤S5的处理检测出的视频片断的对及该对的类似性,生成有向加权图表(步骤S10)。
图表生成部12根据所生成的有向加权图表,检测最优的路径(步骤S15)。
连结视频生成部13将存在于在步骤S15中检测出的路径上的各视频片断连结而生成单镜头视频(步骤S20)。另外,关于该处理的详细情况在后面叙述。
(2)视频的对检测处理
这里,使用图12所示的流程图对图11所示的步骤S5的视频的对检测处理进行说明。
第一检测部100针对存储在视频存储部10中的各视频,使用PmH方法选择由视频Vi(基准视频Vi)和类似的类似视频构成的1个以上的候选对(步骤S100)。
第二检测部101对所选择的各候选对,从基准视频Vi的视频结束部分取得1个以上的帧序列,从类似视频各自的视频开始部分取得1个以上的帧序列(步骤S105)。这里,从基准视频Vi的视频结束部分取得的1个以上的帧序列各自的尺寸与从类似视频各自的视频开始部分取得的1个以上的帧序列各自的尺寸相同。
第二检测部101按类似视频的每个帧序列,使用预先设定的固定比率进行与基准视频的各帧序列的采样,使用该采样结果、以及对作为采样的对象的类似视频的子序列和基准视频的子序列所成的组分配的偏好系数计算帧序列的类似度(步骤S110)。
第二检测部101按每个候选对,取得帧序列的类似度最高的帧序列的组(步骤S115)。
匹配处理部102针对所取得的帧序列的组,分别取得关键帧对候选(步骤S120)。
(3)连结视频生成处理
这里,使用图13所示的流程图,对图11所示的步骤S20的连结视频生成处理进行说明。这里,设连结对象的视频为Vi、Vj,假设在从Vi向Vj的方向上设定了有向图表,以下进行说明。
连结视频生成部13针对连结对象的视频间、即在图11所示的步骤S15中检测出的最长路径上的相邻的节点(视频)间,判断是否通过执行图12所示的步骤S120而取得了关键帧对候选。即,连结视频生成部13针对最长路径上的相邻的节点(视频)间,判断是否存在关键帧对候选(步骤S200)。
在判断为存在关键帧对候选的情况下(步骤S200中的“是”),连结视频生成部13使用关键帧对候选,针对连结对象的视频分别检测相符合的对象的最小一致区域(步骤S205)。
连结视频生成部13在检测出的最小一致区域内,将焦点对准于在视频Vi、Vj中一致的对象(步骤S210)。具体而言,在将视频Vi的帧Fk和视频Vj的帧Fl作为关键帧对候选的情况下,连结视频生成部13搜索视频Vi的比帧Fk靠前的m个帧,对由m个帧及帧Fk构成的序列中包含的一致的对象采用移近方法。此外,连结视频生成部13在视频Vj中搜索比帧Fl靠后的n个帧,对由n个帧及帧Fl构成的序列中包含的一致的对象采用移离方法。
连结视频生成部13进行局部对位及局部纹理形状匹配(步骤S215)。具体而言,连结视频生成部13在关键帧对候选的帧Fk、Fl的最大一致子窗口间进行变形的处理,生成中间帧。
连结视频生成部13对不一致区域进行羽化(步骤S220)。具体而言,连结视频生成部13对不一致区域采用一般用在图像马赛克中的羽化法。
在判断为不存在关键帧对候选的情况下(步骤S200中的“否”),连结视频生成部13进行“忽视上下文的”合成,例如直接的合成(步骤S225)。
1.4具体例
这里,使用图14所示的具体例对图像处理装置1的处理进行说明。
存储在视频存储部10中的多个视频片断输入到检测处理部11。
并且,在检测处理部11中,通过疏密的部分一致方法检测类似的视频对。具体而言,检测处理部11的第一检测部100通过PmH方法粗略地检测类似的视频的对。接着,针对粗略地检测出的视频对,第二检测部101通过帧类似性检测类似的序列。然后,匹配处理部102在最类似的序列间通过帧类似检测一致的对象。通过检测处理部11的处理,进行类似的视频片断的组的形成、在类似的视频片断间类似度较高的部分(序列)的确定、以及在类似度较高的部分中一致的对象的确定。
如果形成类似的视频片断的组,则在图表生成部12中生成有向权重图表,根据所生成的图表检测最适合于视频连结的路径。具体而言,图表生成部12的图表构成处理部120根据由检测处理部11生成的类似视频片断的组,生成有向权重图表。此时,在生成的有向权重图表中存在闭路径的情况下,通过边缘裁剪部121将构成该闭路径的至少1个边缘删除。在路径检测部122中,根据不存在闭路径的有向权重图表,例如通过自动路径搜索检测最优的路径。
针对检测出的最优的路径,连结视频生成部13通过将路径上的相邻的视频片断依次结合,生成结合视频。具体而言,连结视频生成部13在相邻的视频间存在关键帧对候选的情况下进行通过匹配引导的连结(无缝连结),在不存在关键帧对候选的情况下进行忽视了上下文的连结(例如,直接连结)。
经过上述各处理,生成连结的视频。
如以上说明,图像处理装置1在视频相册中自动地检测具有“类似、继续的主题”的视频片断,将它们用自然的形式接合、做成一个虚拟的较长时间镜头(longtake)视频,生成总括性的演示,能传递具有一贯性的潜在的故事。图15是表示其一例的图,通过使用图像处理装置1,根据存储在视频存储部10中的多个视频片断自动地检测两个主题(场景主题、人物主题),根据各个主题,生成结合的视频。
1.5变形例
以上,基于实施方式进行了说明,但本发明并不限定于上述实施方式。例如,可以考虑以下这样的变形例。
(1)在上述实施方式中,边缘裁剪部121对于检测出的闭路径,将构成该闭路径的边缘中的有向权重的值最小的边缘从图表G中排除,但并不限定于此。
边缘裁剪部121也可以根据时间的限制,从有向权重图表中排除闭路径。通常,在视频、特别是家庭视频的浏览中,通常以时间顺序视听。所以,边缘裁剪部121在闭路径中使用视频片断的时间戳元数据进行边缘的除去(将视频间的关系切断),以使基于边缘的对应关系维持视频片断的摄影日期时间的顺序。例如,在闭路径中,在边缘的方向从一个视频朝向摄影日期时间比该一个视频早的其他视频的情况下,由于没有保持摄影日期时间的顺序,所以将该边缘除去。通过这样,从有向权重图表中排除闭路径。
(2)在上述实施方式中,将由多个帧构成的动态图像(视频)作为处理的对象,但并不限定于此。
作为处理对象,也可以使用单一的图像(静止图像)。在此情况下,开始帧和结束帧看作相同,通过在上述中说明的动作,能够生成动态图像与静止图像混合存在的连结视频(例如,动态图像(video01)-动态图像(video02)-静止图像(image01)-动态图像(video03))。
(3)在上述实施方式中,设为视频存储部10具备图像处理装置1,但并不限定于此。
经由网络与图像处理装置1连接的外部的装置也可以具备视频存储部10。
图像处理装置1经由网络从外部的装置取得作为处理对象的视频片断。
(4)在上述实施方式中,假设图像处理装置1从多个类似的视频制作1个连结视频而进行了说明,但并不限定于此。
图像处理装置1也可以在从1个视频制作摘要的视频时使用。
在此情况下,将1个视频分割为多个,生成部分视频。通过将该多个部分视频作为本实施方式的视频片断来处理,能够将这些部分视频中的类似的部分视频无缝地连结。
(5)在上述实施方式中表示的PmH方法将图像分割为p个矩形区域,对各区域使用相同的哈希函数,但并不限定于此。
PmH也可以是以下这样的方法。
第一检测部100将图像按每个栅格要素分割,按分割后的每个栅格要素,使用哈希函数计算最小哈希素描。这里,所谓栅格要素,是将区域覆盖的部分区域中的最大的共同区域,例如是图像中包含的各对象的区域。
并且,检索与某个部分区域建立了关联的要素,对于检索出的要素,选择计算出的最小哈希素描中的、为真的最小哈希素描。并且,将所选择的最小哈希素描作为该图像的最小哈希素描。
(6)也可以将记述有在上述实施方式及变形例中说明的方法的顺序的程序存储到存储器中,通过由CPU(CentralProcessingUnit)等从存储器读出程序并执行所读出的程序,来实现上述方法。
此外,也可以将记述有该方法的顺序的程序保存到记录介质中而发布。另外,作为存储上述程序的介质,例如可以举出闪存存储器、USB存储器及SD卡(注册商标)等的外部存储器作为一例。
(7)有关上述实施方式的各结构也可以作为集成电路即LSI(LargeScaleIntegration)实现。这些结构既可以形成1个芯片,也可以包含一部分或全部而形成1个芯片。这里表现为LSI,但根据电路的集成度的差异,也有称作IC(IntegratedCircuit)、系统LSI、超级LSI、超大规模LSI的情况。此外,集成电路化的方法并不限定于LSI,也可以由专用电路或通用处理器进行集成电路化。此外,也可以使用在LSI制造后能够编程的FPGA(FieldProgrammableGateArray)、或能够再构成LSI内部的电路单元的连接及设定的可重构处理器(ReConfigurableProcessor)。或者,这些功能块的运算例如也可以使用DSP(DigitalSignalProcessor)或CPU(CentralProcessingUnit)等运算。进而,这些处理步骤也可以作为程序记录在记录介质中,通过执行来处理。
(8)也可以将上述实施方式及上述变形例分别组合。
1.7总结
上述所示的图像处理装置与以往以来存在的搜索类似的视频的组、或将合成的视频与音乐或元数据等的追加信息加在一起的装置不同,是将几个关联的视频片断合成而生成在时间上及空间上具有一贯性的虚拟的较长时间镜头视频(连结视频)的装置。
并且,如在上述中说明那样,图像处理装置主要包括三个主要部分(检测处理部、图表生成部、连结视频生成部)。
检测处理部具有如下功能:(a)取得视频类似性测定值的功能,该视频类似性测定值是保证所生成的单镜头视频为不包含重复的完全的品质的依据;(b)高速且正确地确定具有内容的开始、结束的对应关系的视频对内的序列的功能;(c)在对应序列内找出作为过渡的线索的关键帧对候选的功能。
图表生成部具有从构成的视频匹配图表中选择最优的视频合成的功能,即检测作为最优的再现顺序的路径的功能。该功能既可以通过制作在整体上具有最优的内容一贯性的单镜头视频来完全自动地动作,也可以通过生成具有任意的主题(例如,确定的主要对象或人物)的单镜头视频而与用户交互地动作。
连结视频生成部具有将最优的路径的相邻的视频对应对1个个结合的功能。此时,在结合的部位,通过对一致的对象实施移近、移离,对不一致的区域实施羽化,与移近、移离、擦除、渐隐等那样的以往的过渡相比变得更自然。在图像水平及序列水平双方中能够进行视频对的匹配,所以能够实现基于内容的连续的过渡。因此,连结视频生成部虚拟地生成具有一贯性的连接。
此外,以下介绍采用了这些功能的具体例。
(应用1)个人视频演示。能够根据大量的个人用视频内容,生成明确地表示视频中的内容的连续关系的视频匹配图表。从多个视频片断检测出的故事情节(有向加权图表中的最优的路径)自动地弹出显示。进而,用户所需要的是只是指定特定的人物或场景,通过挖掘视频图表,能够生成描绘了对应的人物或场景的单镜头演示。
(应用2)总括性的标志物(Landmark)视频的生成。可以使用描绘有相同的标志物的多个网络视频来生成标志物的单镜头的视觉的描绘。在其中,例如包含从不同的视野摄影的视觉的内容那样的、标志物的更总括性的视觉的描绘。
(应用3)在用户从网络上取得了视频片断的情况下,系统自动地将类似的片断合成,用户能够高效率地视听单镜头演示。
如这些应用例所示,通过使用本实施方式,例如能够进行家庭视频演示、标志物视频的生成、以社交网络为中心的个人用视频片断(例如,从因特网获得的视频片断)的体系化等。并且,不仅提供了比以往的视频提取·显示技术更新的演示法(虚拟单镜头视频),而且能够使编辑等进一步的服务也变得容易。
此外,本实施方式的图像处理装置能够从多个视频片断自动地生成虚拟单镜头演示,提供视频内容的新的演示,对于来自多个视频片断的故事,用户能够得到更深的印象。
并且,图像处理装置的特征能够如以下这样总结。
(1)通过在上述实施方式中表示的基于“视频拼图”的单镜头演示的生成方法,能够提取与指定的主题有关的视频片断,由此合成虚拟的单镜头演示。该方法是灵活的,几个部分能够专用化而在不同的形式中应用。
(2)检测多个视频的对应的帧(类似的帧),将它们用最优的方法合成。
以往,长镜头(longshot)因为将总括性的内容持续地且具有一贯性地提示的其独特的特征,在专业的电影产业、MTV视频、及其他的特定的视频领域中被广泛地使用。此外,进行长镜头的视频编辑较容易。这是因为,虽然能够从长镜头切出较短的片断,但从较短的片断生成长镜头并不容易。但是,为了摄影高品质的长镜头的视频,需要使照相机的运动与摄影目标的对象长时间正确地协同,这通常对于专业人员而言都比较困难。
已知为长时间镜头视频或单镜头视频的长镜头的视频,是指持续时间比较长的视频拍摄。
在本实施方式中表示的图像处理装置提出了从多个视频片断高效率地检索有一贯性的视频片断的组、并且通过对象的高度的匹配技术能够在视频片断间自然结合的视频合成技术,是实现在观感上也有魅力的单镜头演示的装置。即,通过使用该图像处理装置,能够从短镜头的视频容易地生成长镜头的视频。
1.5补充
(1)作为本发明的一形态的图像处理装置,其特征在于,具备:第一处理单元,针对有关动态图像的多个内容的各个内容,检测下述类似度,该类似度是在时间上后续于该内容所包含的第一部分内容的第二部分内容、与构成上述多个内容中的与该内容不同的检测对象内容的一部分且在时间上连续的多个部分内容之间的类似度,并且检测该多个部分内容中的与上述第二部分内容之间的类似度高的第三部分内容;以及第二处理单元,使用由上述第一处理单元检测到的上述第二部分内容与上述第三部分内容之间的类似度,生成下述信息,该信息表示用于连结上述第一部分内容、上述第二部分内容及上述第三部分内容的关系。
根据该结构,图像处理装置通过使用生成的信息,能够进行第二部分内容、与多个部分内容中的类似度最高的第三部分内容的结合。因此,如果将结合后的内容再现,则由于在类似的部分处连接,所以视听侧能够没有不适感地视听。此外,在结合时由于还包含第一部分内容,所以维持了包括第一部分内容的内容的故事性。
另外,上述第一处理单元相当于上述实施方式的检测处理部11。此外,上述第二处理单元相当于上述实施方式的图表生成部12及连结视频生成部13的组合。
(2)这里,也可以是,上述第一处理单元针对上述多个内容的各个内容,通过规定的特征变换法计算该内容与包含在上述多个内容中的其他内容之间的帧类似度,并基于该帧类似度,确定在概括水平上与该内容类似的上述检测对象内容。
根据该结构,图像处理装置通过使用规定的特征变换法,能够进行比物体检测粗略的类似检测。
(3)这里,也可以是,上述规定的特征变换法是PartitionMin-Hashing方法;上述第一处理单元针对上述多个内容的各个内容,对包含在该内容中的全部的帧实施PartitionMin-Hashing算法,计算上述全部的帧各自的哈希值;根据针对该内容计算出的各哈希值与针对包含在上述多个内容中的其余的内容分别计算出的各哈希值的一致数量,从上述其余的内容中确定与该内容类似的上述检测对象内容。
根据该结构,图像处理装置使用PartitionMin-Hashing算法进行粗略的类似检测,由此能够高速地检测与该内容类似的检测对象内容。
(4)这里,也可以是,上述第二部分内容包含于该内容的结束部位;上述检测对象内容的上述多个部分内容构成该检测对象内容的开始部位。
根据该结构,通过将第二部分内容包含于内容的结束部位,能够使在连结后先行于第二部分内容的部分的存在变得可靠,通过由上述多个部分内容构成开始部分内容,能够使在连结后后续于第三部分内容的部分的存在变得可靠。因此,能够使各内容的故事性的维持变得可靠。
(5)这里,也可以是,上述第二部分内容的再现时间和上述多个部分内容各自的再现时间是相同的时间长度;上述第一处理单元针对包含在上述第二部分内容中的规定个数的帧的每个帧,计算与包含在上述多个部分内容各自中的各帧的帧类似度,使用上述帧类似度检测与上述第二部分内容的类似度高的第三部分内容。
根据该结构,图像处理装置在检测类似度时,通过使作为基准的第二部分内容与作为检测对象的上述多个部分内容的再现时间相同,能够检测正确的类似度。
(6)这里,也可以是,上述第二部分内容中的上述规定个数的帧相对于上述第二部分内容的开始位置以等间隔存在。
根据该结构,图像处理装置使在检测类似度时使用的规定个数的帧以等间隔存在,所以能够从第二部分内容普遍地检测类似度。
(7)这里,也可以是,上述第二处理单元生成的上述信息是针对上述多个内容的各个内容表示该内容与作为该内容的连结目的地的内容的关系的图表。
根据该结构,图像处理装置通过将进行连结时的内容间的关系图表化,能够容易地确定作为连结对象的内容。
(8)这里,也可以是,上述第二处理单元生成有向加权图表,该有向加权图表是针对上述多个内容的各个内容,将该内容和包含与该内容的第二部分内容类似的上述第三部分内容在内的内容通过边缘建立关联、并对该边缘附加与上述第二部分内容和上述第三部分内容之间的类似度相应的权重而得到的;上述第二处理单元基于对各个上述边缘附加的上述权重,从上述有向加权图表中检测从包含在上述多个内容中的第一内容到第二内容的路径,针对在检测到的上述路径上存在的各内容中的相邻的内容的组,分别将该组中的作为边缘的派生源的内容所包含的上述第一部分内容及上述第二部分内容与作为边缘的派生目的地的内容所包含的上述第三部分内容连结。
根据该结构,图像处理装置由于将存在于路径上的内容连结,所以能够对有类似性的内容进行视听,所以用户能够高效率地进行有类似性的内容的视听。
(9)这里,也可以是,上述第二处理单元还在检测到上述路径时,针对与检测到的上述路径上存在的各边缘对应的权重,修正该权重的值,以使得在其他的路径检测时,在该路径上存在的各内容成为检测对象外;上述第二处理单元重复上述路径检测及上述修正,直到检测到的路径上的边缘的权重的合计值成为规定值以下。
根据该结构,图像处理装置不会将一次检测出的路径上存在的内容包含在通过再次的检测来检测出的其他的最长路径中。因此,用户在将由存在于路径上的内容构成的连结内容视听后对由存在于其他路径上的内容构成的其他连结内容进行视听时,不会视听包含在前面视听的连结内容中的内容,所以能够高效率地视听。
(10)这里,也可以是,上述第二处理单元以由用户指定的一个内容存在于开始位置、结束位置及路径中途的方式检测上述路径。
或者,也可以是,在用户指定了由两个以上的内容构成的内容组的情况下,上述第二处理单元检测包含上述内容组的将上述两个以上的内容全部通过的上述路径。
或者,也可以是,在用户指定了对象的情况下,上述第二处理单元确定包含被指定的上述对象的两个内容,将所确定的一个内容作为上述第一内容,将所确定的另一内容作为上述第二内容,来确定上述路径。
根据这些结构,图像处理装置以包含由用户指定的内容、内容组及对象的方式生成连结内容,所以用户能够视听自身希望的具有类似性的连结内容。
(11)这里,也可以是,上述第二处理单元以上述第一部分内容、上述第二部分内容、上述第三部分内容、以及包含在上述检测对象内容中且在时间上后续于上述第三部分内容的第四部分内容的顺序连结而生成一个连结内容。
根据该结构,图像处理装置能够维持各内容的故事性而生成连结内容。这是因为,连结内容不仅包括类似的部分,还包括先行于第二部分内容的第一部分内容、以及后续于第三部分内容的第四部分内容。因而,视听者能够掌握连结内容为生成源的各内容的故事,并且不对连接部分抱有不适感地视听连结内容。
(12)这里,也可以是,上述第一处理单元还从上述内容的上述第二部分内容和上述第三部分内容中检测存在一致的对象的帧;上述第二处理单元进行如下处理:在存在上述对象的上述第二部分内容的第一帧和上述第三部分内容的第二帧中,检测存在该对象的一致区域;针对由上述第一帧及在上述第一帧的前方连续存在的规定个数的帧构成的第一帧群,对包含在上述一致区域中的上述对象实施基于移近方法的图像处理,针对由上述第二帧及在上述第二帧的后方连续存在的规定个数的帧构成的第二帧群,对包含在上述一致区域中的上述对象实施基于移离方法的图像处理;在上述第一帧与上述第二帧之间,实施变形处理而生成一个以上的中间帧;针对上述第一帧群、上述第二帧群及上述一个以上的中间帧,对除了包含上述对象的区域以外的其余的区域实施羽化处理;在实施各处理后,在上述第一帧与上述第二帧之间配置实施羽化处理后的上述一个以上的中间帧并连结,从而生成上述连结内容。
根据该结构,图像处理装置对连结的部位实施移近、移离、变形、及羽化,所以与单纯连结的情况相比能够使连结部位的图像的变化变得平滑。
(13)这里,也可以是,上述第一处理单元对上述第二部分内容及上述第三部分内容实施共同图案检测处理、面部检测处理、人体检测处理及它们的组合的处理的某一种,来检测上述一致的对象。
根据该结构,图像处理装置通过实施共同图案检测处理、面部检测处理、人体检测处理及它们组合的处理的某种,能够可靠地检测一致的对象。
工业实用性
本发明的图像处理装置在将多个视频编辑为1个视频时是有效的。
标号说明
1图像处理装置
10视频存储部
11检测处理部
12图表生成部
13连结视频生成部
100第一检测部
101第二检测部
102匹配处理部
110共同图案检测部
111人物检测部
112面部检测部
120图表构成处理部
121边缘裁剪部
122路径检测部

Claims (14)

1.一种图像处理装置,其特征在于,具备:
第一处理单元,针对有关动态图像的多个内容的各个内容,检测下述类似度,该类似度是在时间上后续于该内容所包含的第一部分内容的第二部分内容、与构成上述多个内容中的与该内容不同的检测对象内容的一部分且在时间上连续的多个部分内容之间的类似度,并且检测该多个部分内容中的与上述第二部分内容之间的类似度高的第三部分内容;以及
第二处理单元,使用由上述第一处理单元检测到的上述第二部分内容与上述第三部分内容之间的类似度,生成下述信息,该信息表示用于连结上述第一部分内容、上述第二部分内容及上述第三部分内容的关系;
上述第二处理单元生成的上述信息是针对上述多个内容的各个内容表示该内容与作为该内容的连结目的地的内容的关系的图表;
上述第二处理单元还使用所生成的上述图表,检测从包含在上述多个内容中的第一内容到第二内容的路径,将存在于检测到的上述路径上的各内容中的相邻的内容连结;
上述第二处理单元生成有向加权图表,该有向加权图表是针对上述多个内容的各个内容,将该内容和包含与该内容的第二部分内容类似的上述第三部分内容在内的内容通过边缘建立关联、并对该边缘附加相应于上述第二部分内容与上述第三部分内容之间的类似度的权重而得到的;
上述第二处理单元基于对各个上述边缘附加的上述权重,从上述有向加权图表中检测从上述第一内容到上述第二内容的上述路径,针对存在于检测到的上述路径上的各内容中的相邻的内容的组,分别将该组中的作为边缘的派生源的内容所包含的上述第一部分内容及上述第二部分内容与作为边缘的派生目的地的内容所包含的上述第三部分内容连结;
上述第二处理单元将对各个上述边缘附加的上述权重取倒数,通过将上述权重取倒数后的有向权重图表的最短路径问题,检测上述路径。
2.如权利要求1所述的图像处理装置,其特征在于,
上述第一处理单元针对上述多个内容的各个内容,通过规定的特征变换法计算该内容与包含在上述多个内容中的其他内容之间的帧类似度,并基于该帧类似度,确定在概括水平上与该内容类似的上述检测对象内容。
3.如权利要求2所述的图像处理装置,其特征在于,
上述规定的特征变换法是分区最小哈希方法即PartitionMin-Hashing方法;
上述第一处理单元针对上述多个内容的各个内容,对包含在该内容中的全部的帧实施PartitionMin-Hashing算法,计算上述全部的帧各自的哈希值,并根据针对该内容计算出的各哈希值与针对包含在上述多个内容中的其余的内容分别计算出的各哈希值的一致数量,从上述其余的内容中确定与该内容类似的上述检测对象内容。
4.如权利要求1所述的图像处理装置,其特征在于,
上述第二部分内容包含于该内容的结束部位;
上述检测对象内容的上述多个部分内容构成该检测对象内容的开始部位。
5.如权利要求1所述的图像处理装置,其特征在于,
上述第二部分内容的再现时间和上述多个部分内容各自的再现时间是相同的时间长度;
上述第一处理单元针对包含在上述第二部分内容中的规定个数的帧的各个帧,计算与包含在上述多个部分内容各自中的各帧之间的帧类似度,使用上述帧类似度来检测与上述第二部分内容之间的类似度高的第三部分内容。
6.如权利要求5所述的图像处理装置,其特征在于,
上述第二部分内容中的上述规定个数的帧相对于上述第二部分内容的开始位置以等间隔存在。
7.如权利要求1所述的图像处理装置,其特征在于,
上述第二处理单元还在检测到上述路径时,针对与存在于检测到的上述路径上的各边缘对应的权重,修正该权重的值,以使得在其他的路径检测时,存在于该路径上的各内容成为检测对象外;
上述第二处理单元重复上述路径检测及上述修正,直到检测到的路径上的边缘的权重的合计值成为规定值以下。
8.如权利要求1所述的图像处理装置,其特征在于,
上述第二处理单元以由用户指定的一个内容存在于开始位置、结束位置及路径中途的方式检测上述路径。
9.如权利要求1所述的图像处理装置,其特征在于,
在用户指定了由两个以上的内容构成的内容组的情况下,上述第二处理单元检测包含上述内容组的将上述两个以上的内容全部通过的上述路径。
10.如权利要求1所述的图像处理装置,其特征在于,
在用户指定了对象的情况下,上述第二处理单元确定包含被指定的上述对象的两个内容,将所确定的一个内容作为上述第一内容,将所确定的另一个内容作为上述第二内容,来确定上述路径。
11.一种图像处理装置,其特征在于,具备:
第一处理单元,针对有关动态图像的多个内容的各个内容,检测下述类似度,该类似度是在时间上后续于该内容所包含的第一部分内容的第二部分内容、与构成上述多个内容中的与该内容不同的检测对象内容的一部分且在时间上连续的多个部分内容之间的类似度,并且检测该多个部分内容中的与上述第二部分内容之间的类似度高的第三部分内容;以及
第二处理单元,使用由上述第一处理单元检测到的上述第二部分内容与上述第三部分内容之间的类似度,生成下述信息,该信息表示用于连结上述第一部分内容、上述第二部分内容及上述第三部分内容的关系;
上述第二处理单元生成的上述信息是针对上述多个内容的各个内容表示该内容与作为该内容的连结目的地的内容的关系的图表;
上述第二处理单元还使用所生成的上述图表,检测从包含在上述多个内容中的第一内容到第二内容的路径,将存在于检测到的上述路径上的各内容中的相邻的内容连结;
上述第二处理单元以上述第一部分内容、上述第二部分内容、上述第三部分内容、以及包含在上述检测对象内容中且在时间上后续于上述第三部分内容的第四部分内容的顺序连结而生成一个连结内容;
上述第一处理单元还从上述内容的上述第二部分内容和上述第三部分内容中检测存在一致的对象的帧;
上述第二处理单元进行如下处理:
在存在上述对象的上述第二部分内容的第一帧和上述第三部分内容的第二帧中,检测存在该对象的一致区域;
针对由上述第一帧及在上述第一帧的前方连续存在的规定个数的帧构成的第一帧群,对包含在上述一致区域中的上述对象实施基于移近方法的图像处理,针对由上述第二帧及在上述第二帧的后方连续存在的规定个数的帧构成的第二帧群,对包含在上述一致区域中的上述对象实施基于移离方法的图像处理;
在上述第一帧与上述第二帧之间,实施变形处理而生成一个以上的中间帧;
针对上述第一帧群、上述第二帧群及上述一个以上的中间帧,对除了包含上述对象的区域以外的其余的区域实施羽化处理;
在实施各处理后,在上述第一帧与上述第二帧之间配置实施羽化处理后的上述一个以上的中间帧并连结,从而生成上述连结内容。
12.如权利要求11所述的图像处理装置,其特征在于,
上述第一处理单元对上述第二部分内容及上述第三部分内容实施共同图案检测处理、面部检测处理、人体检测处理及它们的组合的处理的某一种,来检测上述一致的对象。
13.一种图像处理方法,在图像处理装置中使用,其特征在于,包括:
第一处理步骤,针对有关动态图像的多个内容的各个内容,检测下述类似度,该类似度是在时间上后续于该内容所包含的第一部分内容的第二部分内容、与构成上述多个内容中的与该内容不同的检测对象内容的一部分且在时间上连续的多个部分内容之间的类似度,并且检测该多个部分内容中的与上述第二部分内容之间的类似度高的第三部分内容;以及
第二处理步骤,使用由上述第一处理步骤检测到的上述第二部分内容与上述第三部分内容之间的类似度,生成下述信息,该信息表示用于连结上述第一部分内容、上述第二部分内容及上述第三部分内容的关系;
上述第二处理步骤生成的上述信息是针对上述多个内容的各个内容表示该内容与作为该内容的连结目的地的内容的关系的图表;
上述第二处理步骤还使用所生成的上述图表,检测从包含在上述多个内容中的第一内容到第二内容的路径,将存在于检测到的上述路径上的各内容中的相邻的内容连结;
上述第二处理步骤中,
生成有向加权图表,该有向加权图表是针对上述多个内容的各个内容,将该内容和包含与该内容的第二部分内容类似的上述第三部分内容在内的内容通过边缘建立关联、并对该边缘附加相应于上述第二部分内容与上述第三部分内容之间的类似度的权重而得到的;
基于对各个上述边缘附加的上述权重,从上述有向加权图表中检测从上述第一内容到上述第二内容的上述路径,针对存在于检测到的上述路径上的各内容中的相邻的内容的组,分别将该组中的作为边缘的派生源的内容所包含的上述第一部分内容及上述第二部分内容与作为边缘的派生目的地的内容所包含的上述第三部分内容连结;
上述第二处理步骤将对各个上述边缘附加的上述权重取倒数,通过将上述权重取倒数后的有向权重图表的最短路径问题,检测上述路径。
14.一种集成电路,在图像处理装置中使用,其特征在于,包括:
第一处理单元,针对有关动态图像的多个内容的各个内容,检测下述类似度,该类似度是在时间上后续于该内容所包含的第一部分内容的第二部分内容、与构成上述多个内容中的与该内容不同的检测对象内容的一部分且在时间上连续的多个部分内容之间的类似度,并且检测该多个部分内容中的与上述第二部分内容之间的类似度高的第三部分内容;以及
第二处理单元,使用由上述第一处理单元检测到的上述第二部分内容与上述第三部分内容之间的类似度,生成下述信息,该信息表示用于连结上述第一部分内容、上述第二部分内容及上述第三部分内容的关系;
上述第二处理单元生成的上述信息是针对上述多个内容的各个内容表示该内容与作为该内容的连结目的地的内容的关系的图表;
上述第二处理单元还使用所生成的上述图表,检测从包含在上述多个内容中的第一内容到第二内容的路径,将存在于检测到的上述路径上的各内容中的相邻的内容连结;
上述第二处理单元生成有向加权图表,该有向加权图表是针对上述多个内容的各个内容,将该内容和包含与该内容的第二部分内容类似的上述第三部分内容在内的内容通过边缘建立关联、并对该边缘附加相应于上述第二部分内容与上述第三部分内容之间的类似度的权重而得到的;
上述第二处理单元基于对各个上述边缘附加的上述权重,从上述有向加权图表中检测从上述第一内容到上述第二内容的上述路径,针对存在于检测到的上述路径上的各内容中的相邻的内容的组,分别将该组中的作为边缘的派生源的内容所包含的上述第一部分内容及上述第二部分内容与作为边缘的派生目的地的内容所包含的上述第三部分内容连结;
上述第二处理单元将对各个上述边缘附加的上述权重取倒数,通过将上述权重取倒数后的有向权重图表的最短路径问题,检测上述路径。
CN201280001593.2A 2011-04-07 2012-04-04 图像处理装置、图像处理方法及集成电路 Active CN102959951B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161472810P 2011-04-07 2011-04-07
US61/472,810 2011-04-07
PCT/JP2012/002339 WO2012137493A1 (ja) 2011-04-07 2012-04-04 画像処理装置、画像処理方法、画像処理プログラム及び集積回路

Publications (2)

Publication Number Publication Date
CN102959951A CN102959951A (zh) 2013-03-06
CN102959951B true CN102959951B (zh) 2016-07-20

Family

ID=46968902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280001593.2A Active CN102959951B (zh) 2011-04-07 2012-04-04 图像处理装置、图像处理方法及集成电路

Country Status (4)

Country Link
US (1) US8958646B2 (zh)
JP (1) JPWO2012137493A1 (zh)
CN (1) CN102959951B (zh)
WO (1) WO2012137493A1 (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2011086803A1 (ja) * 2010-01-12 2013-05-16 日本電気株式会社 画像照合システム、画像照合方法、コンピュータプログラム
US8660296B1 (en) * 2012-01-10 2014-02-25 Google Inc. Systems and methods for facilitating video fingerprinting using local descriptors
JP5898117B2 (ja) * 2013-03-15 2016-04-06 日本電信電話株式会社 映像要約装置、映像要約方法及び映像要約プログラム
US9843623B2 (en) 2013-05-28 2017-12-12 Qualcomm Incorporated Systems and methods for selecting media items
EP3686754A1 (en) * 2013-07-30 2020-07-29 Kodak Alaris Inc. System and method for creating navigable views of ordered images
US9558407B1 (en) * 2013-12-24 2017-01-31 Google Inc. Methods, systems, and media for detecting and presenting related media content
JP6276995B2 (ja) * 2014-01-03 2018-02-07 大木 光晴 画像処理装置、方法、プログラム、および、画像表示装置
CN104618803B (zh) * 2014-02-26 2018-05-08 腾讯科技(深圳)有限公司 信息推送方法、装置、终端及服务器
US9992443B2 (en) 2014-05-30 2018-06-05 Apple Inc. System and methods for time lapse video acquisition and compression
US9426409B2 (en) 2014-09-30 2016-08-23 Apple Inc. Time-lapse video capture with optimal image stabilization
US9324376B2 (en) * 2014-09-30 2016-04-26 Apple Inc. Time-lapse video capture with temporal points of interest
US9436876B1 (en) 2014-12-19 2016-09-06 Amazon Technologies, Inc. Video segmentation techniques
JP6580381B2 (ja) * 2015-06-12 2019-09-25 オリンパス株式会社 画像処理装置および画像処理方法
CN105025198B (zh) * 2015-07-22 2019-01-01 东方网力科技股份有限公司 一种基于时空因素的视频运动目标的分组方法
KR101934109B1 (ko) * 2015-09-01 2018-12-31 한국전자통신연구원 방송 컨텐츠 및 방송 연관 데이터를 이용한 클러스터 방법 및 상기 방법을 수행하는 사용자 단말
US10319410B1 (en) * 2015-12-21 2019-06-11 Amazon Technologies, Inc. Video story assembly
US10534964B2 (en) * 2017-01-30 2020-01-14 Blackberry Limited Persistent feature descriptors for video
US10789291B1 (en) * 2017-03-01 2020-09-29 Matroid, Inc. Machine learning in video classification with playback highlighting
US11069112B2 (en) * 2017-11-17 2021-07-20 Sony Interactive Entertainment LLC Systems, methods, and devices for creating a spline-based video animation sequence
US11055348B2 (en) * 2017-12-29 2021-07-06 Facebook, Inc. Systems and methods for automatically generating stitched media content
US11886486B2 (en) * 2018-08-30 2024-01-30 Spotify Ab Apparatus, systems and methods for providing segues to contextualize media content
CN112565625A (zh) * 2019-09-26 2021-03-26 北京小米移动软件有限公司 视频处理方法、装置及介质
CN111601181B (zh) * 2020-04-27 2022-04-29 北京首版科技有限公司 生成视频指纹数据的方法及装置
US11373403B2 (en) * 2020-05-26 2022-06-28 Pinterest, Inc. Object-to-object visual graph
US11551397B1 (en) * 2021-05-27 2023-01-10 Gopro, Inc. Media animation selection using a graph
US11877050B2 (en) * 2022-01-20 2024-01-16 Qualcomm Incorporated User interface for image capture

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101112090A (zh) * 2004-12-03 2008-01-23 日本电气株式会社 视频内容回放辅助方法、系统和信息分发程序
EP2296378A1 (en) * 2008-06-26 2011-03-16 NEC Corporation Content reproduction order determination system, and method and program thereof

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2377332A (en) * 2001-07-04 2003-01-08 Hewlett Packard Co Simulating a moving image from static cameras along a route
US7019748B2 (en) * 2001-08-15 2006-03-28 Mitsubishi Electric Research Laboratories, Inc. Simulating motion of static objects in scenes
US20120114167A1 (en) * 2005-11-07 2012-05-10 Nanyang Technological University Repeat clip identification in video data
JP4650288B2 (ja) * 2006-02-01 2011-03-16 ソニー株式会社 再生制御装置、再生制御方法、およびプログラム
JP4891740B2 (ja) 2006-11-22 2012-03-07 株式会社日立製作所 コンテンツ検索装置及びコンテンツ検索方法
US8356035B1 (en) * 2007-04-10 2013-01-15 Google Inc. Association of terms with images using image similarity
US8000527B2 (en) * 2007-04-17 2011-08-16 Siemens Aktiengesellschaft Interactive image segmentation by precomputation
US7889947B2 (en) * 2007-06-27 2011-02-15 Microsoft Corporation Image completion
US8036464B2 (en) * 2007-09-07 2011-10-11 Satyam Computer Services Limited System and method for automatic segmentation of ASR transcripts
US8705810B2 (en) * 2007-12-28 2014-04-22 Intel Corporation Detecting and indexing characters of videos by NCuts and page ranking
US8620077B1 (en) * 2009-01-26 2013-12-31 Google Inc. Spatio-temporal segmentation for video
JP5350928B2 (ja) * 2009-07-30 2013-11-27 オリンパスイメージング株式会社 カメラ及びカメラの制御方法
US8229219B1 (en) * 2009-08-06 2012-07-24 Google Inc. Full-length video fingerprinting
US8135222B2 (en) * 2009-08-20 2012-03-13 Xerox Corporation Generation of video content from image sets
US8811745B2 (en) * 2010-01-20 2014-08-19 Duke University Segmentation and identification of layered structures in images
WO2012039719A1 (en) * 2010-09-24 2012-03-29 Hewlett-Packard Development Company, L.P. Image registration
US9185469B2 (en) * 2010-09-30 2015-11-10 Kodak Alaris Inc. Summarizing image collection using a social network
US20120114307A1 (en) * 2010-11-09 2012-05-10 Jianchao Yang Aligning and annotating different photo streams
US8380711B2 (en) * 2011-03-10 2013-02-19 International Business Machines Corporation Hierarchical ranking of facial attributes

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101112090A (zh) * 2004-12-03 2008-01-23 日本电气株式会社 视频内容回放辅助方法、系统和信息分发程序
EP2296378A1 (en) * 2008-06-26 2011-03-16 NEC Corporation Content reproduction order determination system, and method and program thereof

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Partition Min-Hash for Partial Duplicate Image Discovery;David C.Lee,Qifa Ke,Michael Isard;《11th European Conference on Computer Vision Heraklion》;20100911;第651-652页 *

Also Published As

Publication number Publication date
US20130071031A1 (en) 2013-03-21
CN102959951A (zh) 2013-03-06
WO2012137493A1 (ja) 2012-10-11
JPWO2012137493A1 (ja) 2014-07-28
US8958646B2 (en) 2015-02-17

Similar Documents

Publication Publication Date Title
CN102959951B (zh) 图像处理装置、图像处理方法及集成电路
US11132578B2 (en) System and method for creating navigable views
Wang et al. Videosnapping: Interactive synchronization of multiple videos
CN105745938B (zh) 多视角音频和视频交互式回放
JP5355422B2 (ja) ビデオの索引付けとビデオシノプシスのための、方法およびシステム
US8548249B2 (en) Information processing apparatus, information processing method, and program
Chen et al. Tiling slideshow
US20130229581A1 (en) Juxtaposing still and dynamic imagery for cliplet creation
Tompkin et al. Videoscapes: exploring sparse, unstructured video collections
US20150139608A1 (en) Methods and devices for exploring digital video collections
CN109791556B (zh) 一种用于从移动视频自动创建拼贴的方法
JP5878523B2 (ja) コンテンツ加工装置とその集積回路、方法、およびプログラム
Le et al. Object removal from complex videos using a few annotations
Wang et al. Hyper-lapse from multiple spatially-overlapping videos
Yeh et al. Relative features for photo quality assessment
Silva et al. Making a long story short: A multi-importance fast-forwarding egocentric videos with the emphasis on relevant objects
Diakopoulos et al. Content based image synthesis
Yeh et al. An approach to automatic creation of cinemagraphs
Chen et al. Videopuzzle: Descriptive one-shot video composition
Zhang et al. Hierarchical narrative collage for digital photo album
US20240290016A1 (en) Image processing method, apparatus, and readable storage medium
Zhang et al. Coherent video generation for multiple hand-held cameras with dynamic foreground
Hsieh et al. Photo navigator
JP7470279B2 (ja) 情報処理装置、画像出力プログラム、及び画像出力方法
Alzayer Capturing and Understanding Photos Autonomously

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20141009

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20141009

Address after: Seaman Avenue Torrance in the United States of California No. 2000 room 200

Applicant after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Osaka Japan

Applicant before: Matsushita Electric Industrial Co.,Ltd.

C53 Correction of patent of invention or patent application
CB02 Change of applicant information

Address after: Seaman Avenue Torrance in the United States of California No. 20000 room 200

Applicant after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Seaman Avenue Torrance in the United States of California No. 2000 room 200

Applicant before: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM:

C14 Grant of patent or utility model
GR01 Patent grant