CN103365942A - 显示控制装置、显示控制方法和程序 - Google Patents

显示控制装置、显示控制方法和程序 Download PDF

Info

Publication number
CN103365942A
CN103365942A CN2013100923727A CN201310092372A CN103365942A CN 103365942 A CN103365942 A CN 103365942A CN 2013100923727 A CN2013100923727 A CN 2013100923727A CN 201310092372 A CN201310092372 A CN 201310092372A CN 103365942 A CN103365942 A CN 103365942A
Authority
CN
China
Prior art keywords
unit
content
chapters
sections
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013100923727A
Other languages
English (en)
Inventor
铃木洋贵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN103365942A publication Critical patent/CN103365942A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/8042Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种显示控制装置、显示控制方法和程序,该显示控制装置包括:章节点生成单元,被配置成生成将由多个静止图像构成的内容分割成多个章节的章节点数据;以及显示控制单元,被配置成:基于章节点数据,在针对每个章节而设置的章节显示区域中显示代表该章节的每个场景的代表图像,以及显示构成内容的多个静止图像中的、基于通过预定用户操作所选择的静止图像指示的图像组,连同内容的总播放时间中构成该图像组的静止图像的播放位置。

Description

显示控制装置、显示控制方法和程序
技术领域
本公开内容涉及一种显示控制装置、显示控制方法和程序,并且更具体地,涉及一种显示控制装置、显示控制方法和程序,由此例如便于从内容中搜索用户期望的播放位置。
背景技术
存在例如将诸如运动图像等的内容划分(分割)为多个章节的划分技术。利用这样的划分技术,在将内容划分为章节时,检测例如在广告与主要特征之间的切换或者在运动图像中的人与物体之间的切换作为章节之间的切换点(例如,参见日本未审查专利申请公布第2008-312183号)。然后,在所检测的切换点处将内容划分为多个章节。因此,用户可以从期望的章节开始观看或收听(播放)被划分为多个章节的内容。
发明内容
现在,当用户例如观看或收听内容时,期望用户能够容易地从用户期望的播放位置开始播放内容。也就是说,期望用户不但可以从章节的起始开始播放内容,而且可以从章节当中的中途开始播放,并且可以搜索与特定场景类似的场景并从通过这样的搜索找到的场景开始播放。
已发现,用户期望能够容易地从内容中搜索用户期望的播放位置。
根据一个实施例,一种显示控制装置包括:章节点生成单元,被配置成生成将由多个静止图像构成的内容分割成多个章节的章节点数据;以及显示控制单元,被配置成:基于章节点数据,在针对每个章节而设置的章节显示区域中显示代表章节的每个场景的代表图像,以及显示构成内容的多个静止图像中的、基于通过预定用户操作所选择的静止图像指示的图像组,连同内容的总播放时间中构成该图像组的静止图像的播放位置。
章节点生成单元可生成通过将内容分割成章节数根据用户执行的改变操作而改变的章节获得的章节点数据;其中,显示控制单元在针对具有章节数的每个章节而设置的章节显示区域中显示代表章节的场景的代表图像。
响应于选择了构成内容的多个静止图像中的已被显示作为代表图像的静止图像,显示控制单元可连同播放位置一起显示构成由所选择的代表图像代表的场景的每个静止图像。
响应于选择了构成内容的多个静止图像中已被显示作为构成场景的静止图像的静止图像,显示控制单元可连同播放位置一起显示具有与所选择的静止图像类似的显示内容的每个静止图像。
显示控制单元可以以强调方式显示关注静止图像的播放位置。
显示控制装置还可包括:符号串生成单元,被配置成基于内容生成每个代表构成内容的静止图像的属性的符号;其中,响应于选择了构成内容的多个静止图像中已被显示作为构成场景的静止图像的静止图像,显示控制单元连同播放位置一起显示与所选择的静止图像的符号相同的符号对应的每个静止图像。
显示控制装置还可包括:分割单元,被配置成基于由符号串生成单元所生成的符号的分散,将内容分割成多个章节。
显示控制装置还可包括:特征量提取单元,被配置成从内容中提取代表内容的特征的特征量;其中,显示控制单元基于特征量,在为每个章节而设的章节显示区域中将代表特定场景的特征的特征显示添加到代表特定场景的代表图像来进行显示。
显示控制单元可显示通过缩小静止图像而获得的缩略图图像。
根据一个实施例,一种用于显示图像的显示控制装置的显示控制方法包括:生成章节点数据,该章节点数据将构成多个静止图像的内容分割成多个章节;以及基于章节点数据在针对每个章节而设置的章节显示区域中显示代表章节的每个场景的代表图像,以及显示构成内容的多个静止图像中的、基于通过预定用户操作所选择的静止图像而构造的图像组连同内容的总播放时间中构成该图像组的静止图像的播放位置。
根据一个实施例,一种使得计算机用作以下单元的程序:章节点生成单元,被配置成生成将由多个静止图像构成的内容分割成多个章节的章节点数据;以及显示控制单元,被配置成基于章节点数据在为每个章节提供的章节显示区域中显示代表该章节的每个场景的代表图像,并且显示基于在构成内容的多个静止图像中通过预定用户操作所选择的静止图像指示的图像组连同内容的总播放时间中构成该图像组的静止图像的播放位置。
根据以上配置,生成将由多个静止图像构成的内容分割成多个章节的章节点数据;并且基于章节点数据在为每个章节提供的章节显示区域中显示代表章节的每个场景的代表图像,以及显示构成内容的多个静止图像中基于通过预定用户操作所选择的静止图像指示的图像组连同内容的总播放时间中构成该图像组的静止图像的播放位置。因此,可以容易地从内容中搜索用户期望的播放位置。
附图说明
图1是示出根据第一实施例的记录器的配置示例的框图;
图2是示出图1所示的符号串生成单元生成的符号串的示例的图;
图3是示出图1所示的内容模型学习单元的配置示例的框图;
图4是示出从左到右型HMM(隐马尔可夫模型)的示例的图;
图5是示出各态历经HMM的示例的图;
图6A和6B是示出作为稀疏构造(sparse-structured)HMM的二维邻近约束HMM的示例的图;
图7A至7C是示出除二维邻近约束HMM之外的稀疏构造HMM的示例的图;
图8是示出图3所示的特征量提取单元执行的提取特征量的处理的图;
图9是用于描述图3所示的内容模型学习单元执行的内容模型学习处理的流程图;
图10是示出图1所示的符号串生成单元的配置示例的框图;
图11是用于描述图1所示的符号串生成单元执行的符号串生成处理的概况的图;
图12是用于描述图1所示的符号串生成单元执行的符号串生成处理的流程图;
图13是示出图1所示的划分单元基于符号串将内容划分为多个片段的示例的图;
图14是用于描述图1所示的划分单元执行的递归二分处理的流程图;
图15是用于描述图1所示的划分单元执行的退火分割(annealingpartitioning)处理的流程图;
图16是用于描述图1所示的记录器执行的内容划分处理的流程图;
图17是示出根据第二实施例的记录器的配置示例的框图;
图18是示出由图17所示的划分单元生成的章节点数据的示例的图;
图19是用于描述图17所示的摘要生成单元执行的摘要生成处理的概况的图;
图20是示出图17所示的摘要生成单元的详细配置示例的框图;
图21是用于描述图20所示的特征量提取单元生成音频功率时间序列数据的方式的图;
图22是示出帧中的运动矢量的示例的图;
图23是示出放大(zoom-in)模板的示例的图;
图24是用于描述图20所示的效果添加单元执行的处理的图;
图25是用于描述图17所示的记录器执行的摘要生成处理的流程图;
图26是示出根据第三实施例的记录器的配置示例的框图;
图27A和27B是示出章节点数据根据用户执行的指定操作改变的方式的图;
图28是示出被设置为章节点的帧的示例的图;
图29是示出以50帧为间隔显示在被设置为章节点的帧的右侧的缩略图图像的示例的图;
图30是示出显示单元上的显示画面的示例的第一图;
图31是示出显示单元上的显示画面的示例的第二图;
图32是示出显示单元上的显示画面的示例的第三图;
图33是示出显示单元上的显示画面的示例的第四图;
图34是示出图26所示的呈现单元的详细配置示例的框图;
图35是示出显示单元上的显示画面的示例的第五图;
图36是示出显示单元上的显示画面的示例的第六图;
图37是示出显示单元上的显示画面的示例的第七图;
图38是示出显示单元上的显示画面的示例的第八图;
图39是示出显示单元上的显示画面的示例的第九图;
图40是用于描述图26所示的记录器执行的呈现处理的流程图;
图41是示出显示模式转变的方式的示例的流程图;以及
图42是示出计算机的配置示例的框图。
具体实施方式
将描述本公开的实施例(下文中简称为“实施例”)。注意,将按以下顺序进行描述。
1.第一实施例(将内容分割成有意义的片段的示例)
2.第二实施例(生成指示内容的粗略概况的摘要的示例)
3.第三实施例(显示构成内容的每个章节的缩略图图像的示例)
4.变型例
1.第一实施例
记录器1的配置示例
图1示出了记录器1的配置示例。图1中的记录器1例如是例如能够记录(存储)各种类型的内容的硬盘(下文中也可称为“HD”)记录器等,各种类型的内容比如为电视广播节目、经由诸如因特网的网络提供的内容、利用视频摄像机等拍摄的内容等等。
在图1中,记录器1由内容存储单元11、内容模型学习单元12、模型存储单元13、符号串生成单元14、划分单元15、控制单元16和操作单元17构成。
内容存储单元11例如存储(记录)内容比如电视广播节目等。将内容存储在内容存储单元11中表示对内容进行记录,并且根据例如使用操作单元17的用户操作来播放所记录的内容(存储在内容存储单元11中的内容)。
内容模型学习单元12在预定特征量空间中以自组织方式对存储在内容存储单元11中的内容等进行构造,并且执行作为随机学习的、用于获得代表内容的结构(时间-空间结构)的模型(下文中也称为“内容模型”)的学习。内容模型学习单元12将作为学习结果而获得的内容模型提供给模型存储单元13。模型存储单元13存储从内容模型学习单元12提供的内容模型。
符号串生成单元14从内容存储单元11读出内容。符号串生成单元14然后获得代表构成已读出的内容的帧(或场)的属性的符号,生成从每帧获得的多个符号以时间顺序排列的符号串,并且将该符号串提供给划分单元15。也就是说,符号串生成单元14使用存储在内容存储单元11中的内容和存储在模型存储单元13中的内容模型来创建由多个符号构成的符号串,并且将该符号串提供给划分单元15。
现在,可以用作符号的示例例如是作为构成特征量空间的子空间的多个聚类中的代表包括帧的特征的聚类的聚类ID。注意,聚类ID是与该聚类ID所代表的聚类对应的值。也就是说,聚类的位置越接近彼此,则聚类ID的值越接近彼此。因此,帧的特征量的相似度越高,则聚类ID的值越接近彼此。
另外,可以用作符号的示例例如是代表多个不同状态的多个状态ID中的、代表帧的状态的状态ID。注意,状态ID是与该状态ID所代表的状态对应的值。也就是说,帧的状态越接近彼此,则状态ID的值越接近彼此。
在聚类ID用作符号的情况下,与相同的符号对应的帧在帧中所显示的对象方面具有相似性。另外,在状态ID用作符号的情况下,与相同的符号对应的帧在帧中所显示的对象方面具有相似性,并且此外,在时间顺序关系方面具有相似性。
也就是说,在聚类ID用作符号的情况下,显示刚刚打算要离开的火车的帧和显示刚刚打算要停止的火车的帧被分配了同一符号。这是因为,在聚类ID用作符号的情况下,仅基于对象是否彼此相似来为帧分配符号。
另一方面,在状态ID用作符号的情况下,显示刚刚打算要离开的火车的帧和显示刚刚打算要停止的火车的帧被分配了不同的符号。这是因为,在状态ID用作符号的情况下,不仅基于对象是否彼此相似还基于时间顺序关系来为帧分配符号。因此,在采用状态ID作为符号的情况下,与采用聚类ID的情况相比,符号更详细地代表帧属性。
第一实施例的特征在于,基于符号串中的符号的分散将内容划分为多个片段。因此,对于第一实施例,在采用状态ID作为符号的情况下,与采用聚类ID作为符号的情况相比,可以更精确地将内容划分成多个有意义的片段。
注意,在学习的内容模型已存储在模型存储单元13中的情况下,记录器1可以配置为没有内容模型学习单元12。
现在,将假设存储在内容存储单元11中的内容的数据适当包括图像、音频以及文本(字幕)的数据(流)。在该描述中,还将假设在内容数据中,仅图像数据将用于内容模型学习处理和使用内容模型的处理。然而,除了图像数据之外,内容模型学习处理和使用内容模型的处理还可以使用音频数据和文本数据来执行,由此可以提高处理精度。此外,可进行如下布置:其中,仅音频数据而不是图像数据用于内容模型学习处理和使用内容模型的处理。
划分单元15从内容存储单元11读出与用于生成来自符号串生成单元14的符号串的内容相同的内容。划分单元15然后基于来自符号串生成单元14的符号串中的符号的分散,将已读出的内容划分(分割)成多个有意义的片段。也就是说,划分单元15将内容划分成例如广播节目、各个新闻话题等的片段作为多个有意义的片段。
基于来自操作单元17的操作信号,控制单元16控制内容模型学习单元12、符号串生成单元14和驱动单元15。操作单元17是由用户操作的操作按钮等,并且根据用户的操作将与用户操作对应的操作信号提供给控制单元16。
接下来,图2示出了符号串生成单元14生成的符号串的示例。注意,在图2中,水平轴代表时间点t,竖直轴代表时间点t处的帧(帧t)的符号。
这里,“时间点t”表示以内容的头部为基准的时间点,并且时间点t处的“帧t”表示从内容的头部开始的第t个帧。注意,内容的头部帧是帧0。符号值越接近彼此,则与符号对应的帧的属性越接近彼此。
另外,在图2中,在图中竖直延伸的粗线段代表将由多个符号构成的符号串分割成六个局部序列的分割线。该符号串由频繁观察到相对少类型的符号的第一局部序列(具有“停滞”特性的局部序列)和观察到相对多类型的符号的第二局部序列(具有“大分散”特性的局部序列)构成。图2示出了四个第一局部序列和两个第二局部序列。
发明人如下进行实验。取多个对象,并且使得每一个对象均绘制分割线以将诸如图2所示的符号串划分成N个划分(在图2所示的情况下N=6)。
实验结果表明,对象通常在符号串中的第一局部序列与第二局部序列之间的边界处、两个第一局部序列之间的边界处以及两个第二局部序列之间的边界处绘制分割线。还发现,当在对象绘制分割线的位置处对与图2所示的符号对应的内容进行划分时,一般将内容划分成多个有意义的片段。因此,划分单元15基于来自符号串生成单元14的符号串,通过以与对象相同的方式绘制分割线来将内容划分成多个有意义的片段。稍后将参照图13至图15给出划分单元15执行的具体处理的详细描述。
内容模型学习单元12的配置示例
图3示出了图1所示的内容模型学习单元12的配置示例。内容模型学习单元12执行由状态将转移的状态转移概率和将从该状态观察到预定观察值的观察概率规定的状态转移概率模型的学习(模型学习)。另外,内容模型学习单元12提取学习内容中的图像的每帧的特征量,该学习内容是用于用以获得稍后描述的聚类信息的聚类学习的内容。此外,内容模型学习单元12使用学习内容的特征来执行聚类学习。
内容模型学习单元12由学习内容选择单元21、特征量提取单元22、特征量存储单元26和学习单元27构成。
学习内容选择单元21选择用于模型学习和聚类学习的内容作为学习内容,并且将该学习内容提供到特征量提取单元22。更具体地,学习内容选择单元21从存储在内容存储单元11中的内容中提取例如属于预定类别的一个或更多个内容作为学习内容。
术语“属于预定类别的内容”表示共享潜在的内容结构的内容,诸如,例如,同一类型的节目、定期(比如,每周、每天或者其它周期)广播的节目(具有同一标题的节目)等。“类型”可以暗示非常宽的分类,比如体育节目、新闻节目等,但是优选地是更详细的分类,比如足球比赛节目、棒球比赛节目等。在例如足球比赛节目的情况下,可执行内容分类以使得每个频道(广播站)构成不同的类别。
将假设例如在图1所示的记录器1处预先设置将内容分类成哪种类别。替选地,可根据伴随电视广播节目一起传送的元数据(比如节目标题和类型等)或者根据在因特网网站处提供的节目信息等来识别用于对存储在内容存储单元11中的内容进行分类的类别。
特征量提取单元22对来自学习内容选择单元21的学习内容进行解复用(分离),提取图像的每帧的特征量,并且将其提供到特征量存储单元26。该特征量提取单元22由帧划分单元23、子区域特征量提取单元24和结合单元25构成。
帧划分单元23以时间顺序被提供来自学习内容选择单元21的学习内容的图像的帧。帧划分单元23顺序地将以时间顺序从学习内容选择单元21提供的学习内容的帧作为关注帧。帧划分单元23将关注帧划分为作为多个小区域的子区域,并且将这些子区域提供到子区域特征量提取单元24。
子区域特征量提取单元24从由帧划分单元23提供的关注帧的子区域中提取这些子区域的特征量(下文中也称为“子区域特征量”),并且将其提供到结合单元25。
结合单元25对来自子区域特征量提取单元24的关注帧的子区域的子区域特征量进行结合,并且将结合结果提供到特征量存储单元26作为关注帧的特征量。特征量存储单元26以时间顺序存储从特征量提取单元22的结合单元25提供的学习内容的帧的特征量。
学习单元27使用存储在特征量存储单元26中的学习内容的帧的特征量来执行聚类学习。也就是说,学习单元27使用存储在特征量存储单元26中的学习内容的帧的特征量(矢量)来执行将作为特征量的空间的特征空间划分成多个聚类的聚类学习,并获得作为聚类的信息的聚类信息。
可采用的聚类学习的示例是k均值聚类。在使用k均值作为聚类学习的情况下,作为聚类学习的结果而获得的聚类信息是码书(codebook),在该码书中,代表特征空间中的聚类的代表矢量与代表该代表矢量(或者更具体地,代表矢量所表示的聚类)的代码相关。注意,对于k均值,关注聚类的代表矢量是学习内容的特征量(矢量)中的、属于关注聚类的特征量(其相对于关注聚类的代表矢量的距离(欧氏距离)在相对于码书中的代表矢量的距离中最短的特征量)的平均值(矢量)。
学习单元27还使用从学习内容获得的聚类信息,执行将存储在特征量存储单元26中的学习内容的每帧的特征聚类成多个聚类之一,从而获得代表特征所属的聚类的代码,从而将学习内容的特征的时间顺序转换成代码序列(获得学习内容的代码序列)。
注意,在使用k均值用于聚类学习的情况下,使用作为通过聚类学习而获得的聚类信息的码书所执行的聚类是矢量量化。采用矢量量化,针对码书的每个代表矢量计算相对于特征量(矢量)的距离,并且输出其距离为最小的代表矢量的代码作为矢量量化结果。
在通过执行聚类将学习内容的特征的时间顺序转换成代码序列之后,学习单元27使用代码序列来执行作为状态转移模型的学习的模型学习。学习单元27然后向模型存储单元13提供模型学习之后的状态转移概率模型和通过聚类学习获得的聚类信息的集合作为与学习内容的类别相关的内容模型。因此,内容模型由状态转移概率模型和聚类信息构成。
注意,构成内容模型的状态转移概率模型(使用代码序列执行学习的状态转移概率模型)在下文中也可称为“代码模型”。
状态转移概率模型
将参照图4至7C描述图3所示的学习单元27关于其执行模型学习的状态转移概率模型。状态转移概率模型的示例是隐马尔可夫模型(下文中可缩写为“HMM”)。在采用HMM作为状态转移概率模型的情况下,通过例如Baum-Welch(鲍姆-韦尔奇)重估计来执行HMM学习。
图4示出了从左到右HMM的示例。从左到右HMM是状态从左到右排列在信号直线上的HMM,其中可以执行自转移(从一个状态到该状态的转移)和从一个状态到该状态右侧的状态的转移。从左到右HMM用于例如语音识别等。
图4中的HMM由三个状态s1、s2和s3构成。允许的状态转移是自转移和从一个状态到其右侧的状态的转移。
注意,HMM由状态si的初始概率πi、状态转移概率aij和将从状态si观察到预定观察值o的观察概率bi(o)来规定。注意,初始概率πi是状态si将是初始状态(起始状态)的概率,并且对于从左到右HMM,状态si将在最左侧状态s1处的初始概率πi是1.0,并且状态si将在其它状态si处的初始概率πi是0.0。
状态转移概率aij是状态si将转移到状态sj的概率。
观察概率bi(o)是当转移到状态si时将在状态si中观察到观察值o的概率。在观察值o是离散值的情况下,用作概率的值(离散值)用于观察概率bi(o),而在观察值o是连续值的情况下,使用概率分布函数。可以使用的概率分布函数的示例是例如由平均值(平均矢量)和分散(协方差矩阵)定义的高斯分布等。注意,对于本实施例,离散值用于观察值o。
图5示出了各态历经HMM的示例。各态历经HMM是对状态转移不存在任何限制的HMM,即,状态转移可以从任意状态si到任意状态sj发生。图5中的HMM由三个状态s1、s2和s3构成,其中允许任意状态转移。
尽管各态历经HMM具有最高的状态转移自由度,但是取决于HMM的参数(初始概率πi、状态转移概率aij和观察概率bi(o))的初始值,HMM可能收敛于局部最小值,而没有获得适当参数。
因此,将采用“几乎所有的自然现象以及由此生成视频内容的摄影技巧和节目安排(programming)可以通过稀疏组合比如小世界网络来表示”的假设,并且将采用状态转移被限制于稀疏结构的HMM。
注意,这里,“稀疏结构”表示可以从特定状态进行状态转移所达到的状态非常有限的结构(仅稀疏状态转移可用的结构),而不是可以从特定状态进行状态转移所达到的状态如各态历经HMM一样密集的结构。另外,注意,尽管结构是稀疏的,但是将存在对另一状态可用的至少一个状态转移,并且还存在自转移。
图6A和6B示出了二维邻近约束HMM的示例。图6A和6B中的HMM被限制于:结构是稀疏的并且构成HMM的状态位于二维平面上的网格上。图6A所示的HMM具有到被限制于水平相邻状态和竖直相邻状态的其它状态的状态转移。图6B所示的HMM具有到被限制于水平相邻状态、竖直相邻状态和对角相邻状态的其它状态的状态转移。
图7A至7C是示出除二维邻近约束HMM之外的稀疏构造HMM的示例的图。也就是说,图7A示出了具有三维网格限制的HMM的示例。图7B示出了具有二维随机阵列限制的HMM的示例。图7C示出了根据小世界网络的HMM的示例。
对于图3所示的学习单元27,使用存储在特征量存储单元26中的从图像的帧提取的特征量的代码序列通过鲍姆-韦尔奇重估计来执行对具有大约一百至几百个状态的、具有比如图6A至7B所示的稀疏结构的HMM的学习。
通过仅使用内容的图像(视觉)特征量进行学习来获得作为由在学习单元27处的学习而获得的代码模型的HMM,因此我们在这里将其称为“视觉HMM”。用于HMM学习(模型学习)的特征量的代码序列是离散值,并且概率值用于HMM的观察概率bi(o)。
可以在由Laurence Rabiner和Biing-Hwang Juang合著的“Fundamentals of Speech Recognition”中和本受让人的日本专利申请第2008-064993号中找到HMM的进一步描述。可以在本受让人的日本未审查专利申请公布第2009-223444号中找到各态历经HMM和稀疏结构HMM的使用的进一步描述。
特征量的提取
图8示出了图3所示的特征量提取单元22执行的特征量提取处理。在特征量提取单元22处,以时间顺序将来自学习内容选择单元21的学习内容的图像帧提供到帧划分单元23。帧划分单元23顺序地将以时间顺序从学习内容选择单元21提供的学习内容的帧作为关注帧,并且将关注帧划分成多个子区域Rk,这多个子区域Rk然后被提供到子区域特征量提取单元24。
图8示出了已被等分成16个子区域R1、R2等直至R16的关注帧,每个均为竖直×水平为4×4。然而,将一个帧划分成子区域Rk不限于子区域Rk的数量为4×4=16;而是可以使用其它划分方式,比如子区域Rk的数量为5×4=20,子区域Rk的数量为5×5=25,等等。
另外,尽管图8示出了一个帧被等分成同样尺寸的子区域Rk,但是子区域Rk的尺寸不需要都是相同的。也就是说,可进行如下布置:其中,例如,帧的中间部分被划分成小尺寸的子区域,而在帧的外围的部分(与图像帧相邻的部分等)被划分成较大尺寸的子区域。
图3所示的子区域特征量提取单元24提取来自帧划分单元23的关注帧的每个子区域Rk的子区域特征量fk=FeatExt(Rk),并且将其提供到结合单元25。也就是说,子区域特征量提取单元24使用子区域Rk的像素值(例如,RGB分量、YUV分量等)来获得子区域Rk的全局特征作为子区域特征量fk
这里,“子区域Rk的全局特征”表示仅使用像素值相加算出的特征,而没有使用构成子区域Rk的像素的位置的信息,该特征比如为直方图。作为全局特征的示例,可使用GIST。可在例如“A.Torralba,K.Murphy,W.Freeman,M.Rubin,'Context-based vision system for place and objectrecognition',IEEE Int.Conf.Computer Vision,vol.1,no.1,pp.273-280,2003”中找到GIST的细节。
注意,全局特征不限于根据GIST的这些特征;而是可使用可以以鲁棒方式处理局部位置、光度、视点可见性等的改变的任何特征系统。这样的示例包括高阶局部自相关(下文中也称为“HLAC”)、局部二进制模式(下文中也称为“LBP”)、颜色直方图等。
可以在例如“N.Otsu,T.Kurita,'A new scheme for practical flexibleand intelligent vision systems',Proc.IAPR Workshop on Computer Vision,pp.431-435,1988”中找到HLAC的详细描述。可以在例如“Ojala T,
Figure BDA00002948342600131
M&
Figure BDA00002948342600132
'Multiresolution gray-scale and rotationinvariant texture classification with Local Binary Patterns',IEEETransactions on Pattern Analysis and Machine Intelligence24(7):971-987”中找到LBP的详细描述。
现在,尽管上述全局特征比如GIST、LBP、HLAC、颜色直方图等趋向于具有较高维度,但是也趋向于具有维度之间的较高相关性。因此,对于图3所示的子区域特征量提取单元24,在从子区域Rk提取了GIST等之后,可以对GIST等执行主成分分析(也缩写为“PCA”)。子区域特征量提取单元24可以基于PCA的结果压缩(限制)GIST的维度数,以使得累积贡献率是相当高的值(例如,如95%或更高的值),并且可以将压缩结果作为子区域特征量。在该情况下,GIST等在具有压缩后的维度数的PCA空间上的投影矢量是具有压缩的GIST等的维度数的压缩结果。
图3所示的结合单元25结合子区域特征量f1至f16,并且将其结合结果提供到特征量存储单元26作为关注帧的特征量。也就是说,结合单元25结合来自子区域特征量提取单元24的子区域特征量f1至f16,从而生成子区域特征量f1至f16是其分量的矢量,并且将这些矢量提供到特征量存储单元26作为关注帧的特征量Ft。注意,在图8中,时间点t处的帧(帧t)是关注帧。
图3所示的特征量提取单元22从头部开始按顺序将学习内容的帧作为关注帧,并且如上所述获得特征量Ft。学习内容的每帧的特征量Ft从特征量提取单元22以时间顺序(以保持时间顺序的状态)提供到特征量存储单元26并且被存储。
因此,在特征量提取单元22处获得子区域Rk的全局特征作为子区域特征量fk,并且获得以子区域特征量fk作为其分量的矢量作为帧的特征量Ft。因此,帧的特征量Ft是对局部改变(发生在子区域内的改变)具有鲁棒性但是对于整个帧的模式阵列的改变可辨别的特征量。
内容模型学习处理
接下来,将参照图9中的流程图描述图3所示的内容模型学习单元12执行的处理(内容模型学习处理)。
在步骤S11中,学习内容选择单元21从存储在内容存储单元11中的内容中选择属于预定类别的一个或更多个内容作为学习内容。也就是说,学习内容选择单元21从存储在内容存储单元11中的内容中选择尚未被作为学习内容的任一个内容作为学习内容。此外,学习内容选择单元21识别被选作学习内容的一个内容的类别,并且在内容存储单元11中存储有属于该类别的其它内容的情况下,还选择这些其它内容作为学习内容。学习内容选择单元21将学习内容提供到特征量提取单元22,并且流程从步骤S11前进到步骤S12。
在步骤S12中,特征量提取单元22的帧划分单元23从来自学习内容选择单元21的学习内容中选择尚未被选作关注学习内容(下文中可简称为“关注内容”)的学习内容作为关注内容。
然后,流程从步骤S12前进到步骤S13,其中,帧划分单元23在关注内容的帧中选择尚未被选作关注帧的时间上最先的帧作为关注帧,并且流程前进到步骤S14。
在步骤S14中,帧划分单元23将关注帧划分为多个被提供到子区域特征量提取单元24的子区域,并且流程前进到步骤S15。
在步骤S15中,子区域特征量提取单元24提取来自帧划分单元23的多个子区域中的每个的子区域特征量,将其提供到结合单元25,并且流程前进到步骤S16。
在步骤S16中,结合单元25结合构成关注帧的多个子区域中的每个的子区域特征量,从而生成关注帧的特征量,并且流程前进到步骤S17。
在步骤S17中,帧划分单元23确定是否关注内容的所有帧都已被作为关注帧。在步骤S17中确定在关注内容的帧中剩有尚未被作为关注帧的帧的情况下,流程返回到步骤S13,并且重复相同的处理。另外,在步骤S17中确定关注内容中的所有帧都已被作为关注帧的情况下,流程前进到步骤S18。
在步骤S18中,结合单元25将关于关注内容获得的、关注内容的帧的特征的时间序列提供到特征量存储单元26以进行存储。
然后,流程从步骤S18前进到步骤S19,并且帧划分单元23确定是否来自学习内容选择单元21的所有学习内容都已被作为关注内容。在步骤S19中确定在学习内容中剩有尚未被作为关注内容的学习内容的情况下,流程返回到步骤S12,并且重复相同的处理。另外,在步骤S19中确定所有学习内容都已被作为关注内容的情况下,流程进行到步骤S20。
在步骤S20中,学习单元27使用存储在特征量存储单元26中的学习内容的特征量(帧的特征量的时间序列)来执行对内容模型的学习。也就是说,学习单元27使用存储在特征量存储单元26中的学习内容的帧的特征量(矢量),通过k-均值聚类执行聚类学习,并且获得规定数量的码书(例如,一百到几百个聚类(代表矢量))作为聚类信息,在该聚类学习中,作为特征量的空间的特征量空间被划分成多个聚类。
此外,学习单元27使用用作已通过聚类学习而获得的聚类信息的码书,执行对存储在特征量存储单元26中的学习内容的帧的特征量进行聚类的矢量量化,并且将学习内容的特征量的时间顺序转换成代码序列。
在通过执行聚类而将学习内容的特征量的时间顺序转换成代码序列之后,学习单元27使用该代码序列来执行作为HMM(离散HMM)学习的模型学习。学习单元27然后将模型学习之后的状态转移概率模型和用作通过聚类学习获得的聚类信息的码书的集合作为与学习内容的类别相关的内容模型输出(提供)到模型存储单元13,并且内容模型学习处理结束。注意,内容模型学习处理可在任意定时处开始。
根据上述内容模型学习处理,在作为代码模型的HMM中,可以以自组织方式获取学习内容中潜在的内容结构(例如,通过节目安排和摄影技巧等创建的结构)。因此,用作通过内容模型学习处理而获得的内容模型中的代码模型的HMM的每个状态对应于通过学习而获取的内容结构的分量,并且状态转移表达了具有该内容结构的分量之间的时间转移。在特征量空间(由图3所示的特征量提取单元22提取的特征量的空间)中,代码模型的状态共同代表时间距离接近并且还在时间顺序关系方面类似的帧组(即,“类似场景”)。
符号串生成单元14的配置示例
图10示出了图1所示的符号串生成单元14的配置示例。符号串生成单元14包括内容选择单元31、模型选择单元32、特征量提取单元33和最大似然状态序列估计单元34。
内容选择单元31在控制单元16的控制之下,从存储在内容存储单元11中的内容中选择用于生成符号串的内容作为关注内容。注意,控制单元16基于与在操作单元17处的用户操作对应的操作信号来控制内容选择单元31,以便选择通过用户操作选择的内容作为关注内容。另外,内容选择单元31将关注内容提供到特征量提取单元33。此外,内容选择单元31识别关注内容的类别并且将其提供到模型选择单元32。
模型选择单元32从存储在模型存储单元13中的内容模型中选择类别与来自内容选择单元31的关注内容的类别匹配的内容模型(已与关注内容的类别相关的内容模型)作为关注模型。模型选择单元32然后将关注模型提供到最大似然状态序列估计单元34。
特征量提取单元33以与图3所示的特征量提取单元22相同的方式提取从内容选择单元31提供的关注内容的图像的每个帧的特征量,并且将关注内容的帧的特征量的时间序列提供到最大似然状态序列估计单元34。
最大似然状态序列估计单元34使用来自模型选择单元32的关注模型的聚类信息对来自特征量提取单元33的关注内容的帧的特征量的时间序列执行聚类,并且获得关注内容的特征量的代码序列。最大似然状态序列估计单元34还使用例如维特比(Viterbi)算法来估计最大似然状态序列,该最大似然状态序列是在来自特征量提取单元33的关注内容的特征量的代码序列的观察似然性在来自模型选择单元32的关注模型的代码模型中最大的情况下发生状态转移的状态序列(即,构成所谓的维特比路径的状态序列)。
最大似然状态序列估计单元34然后将关注内容的特征量的代码序列的观察似然性在关注模型的代码模型(下文中,也称为“关注代码模型”)中最大的最大似然状态序列作为符号串提供到划分单元15。注意,在下文中,关注内容的特征量的代码序列的观察似然性最大的该最大似然状态序列也可称为“关于关注内容的关注代码模型的最大似然状态序列”。
注意,取代关于关注内容的关注代码模型的最大似然状态序列,最大似然状态序列估计单元34可将通过聚类而获得的关注内容的代码序列(聚类ID的序列)作为符号串提供到划分单元15。
现在,将假设在时间点t处具有关于关注内容的关注代码模型的最大似然状态序列的头部的状态(构成最大似然状态序列的、作为从头部开始的第t个状态的状态)用s(t)来表示,并且关注内容的帧数量用T来表示。在该情况下,关于关注内容的关注代码模型的最大似然状态序列是T个状态s(1)、s(2)等至s(T)的序列,其中第t个状态(时间点t处的状态)s(t)与关注内容中的时间点t处的帧(帧t)对应。
另外,如果假设关注代码模型的状态总数用N来代表,则在时间点t处的状态s(t)是N个状态s1、s2等至sN中的一个。此外,N个状态s1、s2等至sN中的每个均设置有用作标识该状态的索引的状态ID(标识)。
如果假设关于关注内容的关注代码模型的最大似然状态序列中的时间点t处的状态s(t)是N个状态s1至sN中的第i个状态si,则时间点t的帧对应于状态si。因此,关注内容的每个帧对应于N个状态s1至sN中的一个。
关于关注内容的关注代码模型的最大似然状态序列实际上是与关注内容的每个时间点t对应的、状态s1至sN中的任意状态的状态ID的序列。
图11示出了图10所示的符号串生成单元14执行的符号串生成处理的概况。在图11中,A代表被内容选择单元31选作关注内容的内容的帧的时间序列。B代表A中的帧的时间序列的特征量的时间序列。C代表由最大似然状态序列估计单元34对B的特征量的时间序列执行聚类而获得的代码的代码序列,并且D代表观察到C中的关注内容的代码序列(更具体地,C中的关注内容的特征量的时间序列的代码序列)的最大似然状态序列(关于关注内容的关注代码模型的最大似然状态序列)。
在将C中的代码序列提供到划分单元15的情况下,符号串生成单元14将构成代码序列的每个代码(聚类ID)作为符号提供到划分单元15。另外,在将D中的最大似然状态序列提供到划分单元15的情况下,符号串生成单元14将构成最大似然状态序列的每个状态ID作为符号提供到划分单元15。
符号串生成单元14的操作的描述
接下来,将参照图12中的流程图描述符号串生成单元14执行的符号串生成处理。该符号串生成处理在例如用户使用操作单元17来执行选择操作时开始,该选择操作用于从存储在内容存储单元11中的内容中选择用于符号串生成的内容。此时,操作单元17将与用户执行的选择操作对应的操作信号提供到控制单元16。控制单元16基于来自操作单元17的操作信号来控制内容选择单元31。
也就是说,在步骤S41中,内容选择单元31在控制单元16的控制之下从存储在内容存储单元11中的内容中选择用于生成符号串的内容。内容选择单元31将关注内容提供到特征量提取单元33。内容选择单元31还识别关注内容的类别,并且将其提供到模型选择单元32。
在步骤S42中,模型选择单元32从存储在模型存储单元13中的内容模型中选择类别与来自内容选择单元31的关注内容的类别匹配的内容模型(与关注内容的类别相关的内容模型)作为关注模型。模型选择单元32然后将关注模型提供到最大似然状态序列估计单元34。
在步骤S43中,特征量提取单元33以与图3所示的特征量提取单元22相同的方式提取从内容选择单元31提供的关注内容的图像的每个帧的特征量,并且将关注内容的帧的特征量的时间序列提供到最大似然状态序列估计单元34。
在步骤S44中,最大似然状态序列估计单元34使用来自模型选择单元32的关注模型的聚类信息对来自特征量提取单元33的关注内容的特征量的时间序列执行聚类,从而获得关注内容的特征量的代码序列。
最大似然状态序列估计单元34还使用例如维特比算法来估计最大似然状态序列,该最大似然状态序列是在来自特征量提取单元33的关注内容的特征量的代码序列的观察似然性在来自模型选择单元32的关注模型的代码模型中最大的情况下发生状态转移的状态序列(即,构成所谓的维特比路径的状态序列)。最大似然状态序列估计单元34然后将关注内容的特征量的代码序列的观察似然性在关注模型的代码模型(下文中也称为“关注代码模型”)中最大的最大似然状态序列(即,关于关注内容的关注代码模型的最大似然状态序列)作为符号串提供到划分单元15。
注意,取代关于关注内容的关注代码模型的最大似然状态序列,最大似然状态序列估计单元34可将通过聚类而获得的关注内容的代码序列作为符号串提供到划分单元15。这结束了符号串生成处理。
接下来,图13示出了划分单元15基于来自符号串生成单元14的符号串将内容划分成多个有意义的片段的示例。注意,图13以与图2相同的方式来配置。例如,在图13中,水平轴代表时间点t,并且竖直轴代表帧t处的符号。
图13中还示出了用于将内容分成六个片段s1、s2、s3、s4、s5和s6的分割线(粗线段)。分割线位于(绘制在)可选时间点t处。
现在,在采用代码序列作为符号串的情况下,符号是构成代码序列的每个代码(图11中的C所示的代码)。另外,在采用最大似然状态序列作为符号串的情况下,符号是构成最大似然状态序列的每个代码(图11中的D所示的代码)。
划分单元15以与参照图2所描述的相同的方式,通过在第一局部序列与第二局部序列之间的边界处、两个第一局部序列之间的边界处以及两个第二局部序列之间的边界处绘制线段来划分内容。具体地,划分单元15可绘制分割线以使得图13中所示的线段Si(i=1、2、…6)的熵H(Si)的和Q最小。注意,线段Si的熵代表线段Si中的符号的分散度。
注意,当分割线位于可选时间点t处时,以帧t作为边界来划分内容。也就是说,当在尚未被划分的内容中分割线位于可选时间点t处时,将内容划分成包括从头部帧0至帧t-1的片段以及包括从帧t到最后帧T的片段。
划分单元15基于比如图13所示的、来自符号串生成单元14的符号串中的符号的分散,计算此时用于划分内容的划分位置(应该绘制分割线的位置)。划分单元15然后从内容存储单元11读出与来自符号串生成单元14的符号串对应的内容,并且在算出的划分位置处将内容划分成多个片段。
例如,假设划分单元15要将内容划分为D个片段Si(i=1、2、…D),D是使用操作单元17通过上指定操作指定的总划分数。具体地,划分单元15根据例如以下表达式(1)计算每个片段Si的熵H(Si)。
H ( Si ) = - Σ k P [ Si ] ( k ) × log { P [ Si ] ( k ) } . . . ( 1 )
其中,概率P[Si](k)代表当例如按升序排列片段Si中的符号时,第k个符号(具有第k最小值的符号)的概率。在表达式(1)中。P[Si](k)等于片段Si内的第k个符号的频率计数除以片段Si内的符号总数。
划分单元15还使用以下表达式(2)计算所有片段S1至SD的熵H(S1)至H(SD)的和Q。
Q = Σ i { H ( Si ) } . . . ( 2 )
使得和Q最小的片段S1、S2、S3、S4、S5、S6等至SD是由图13所示的分割线划分的片段S1、S2、S3、S4、S5、S6等至SD。因此,通过求解使得算出的和Q最小的最小化问题,划分单元15将内容划分成多个片段S1至SD,并且将划分后的内容提供到内容存储单元11。
求解和Q的最小化问题的方式的示例包括递归二分处理和退火分割处理。然而,求解和Q的最小化问题的方式不限于这些,并且可使用禁忌搜索、遗传算法等来求解最小化问题。
递归二分处理是通过在使得划分后的片段的熵之和最小的划分位置处递归地(重复地)对内容进行划分来将内容划分为多个片段的处理。将参照图14来详细描述递归二分处理。
另外,退火分割处理是通过执行将任意划分内容的划分位置改变为使得划分后的片段的熵之和最小的划分位置的处理来将内容划分为多个片段的处理。将参照图15详细描述退火分割处理。
划分单元15的操作的描述
接下来,将参照图14中的流程图描述划分单元15执行的递归二分处理。该递归二分处理在例如用户使用操作单元17来指示划分单元15将符号串划分为用户所指定的总划分数D时开始。
此时,操作单元17将与用户指定操作对应的操作信号提供到控制单元16。控制单元16根据来自操作单元17的操作信号控制划分单元15,以使得划分单元15将符号串划分为用户所指定的总划分数D。
在步骤S81中,划分单元15将在未示出的内存中预先保存的划分数d设置为1。划分数d代表通过递归二分处理将符号串划分而成的划分数。当划分数d=1时,这表示符号串尚未被划分。
在步骤S82中,在可以向其添加分割线的添加点Li中,划分单元15基于来自符号串生成单元14的符号串中的符号的分散,计算针对未添加分割线的每个添加点Li的当向其添加分割线时的熵之和Q=Q(Li)。注意,添加点Li是与构成内容的帧0至T中的帧1至T对应的时间点t。
在步骤S83中,划分单元15将在步骤S82中算出的熵之和Q(Li)中具有最小和Q=Q(Li)的Li取作L*
在步骤S84中,划分单元15在添加点L*处添加分割线,并且在步骤S85中将划分数d递增1。这表示划分单元15已在添加点L*处划分了来自符号串生成单元14的符号串。
在步骤S86中,划分单元15确定划分数d是否等于通过用户指定操作所指定的总划分数D,并且在划分数d不等于总划分数D的情况下,流程返回到步骤S82,并且随后重复相同的处理。
另一方面,在确定划分数d等于总划分数D的情况下,也就是说,在确定已将符号串划分成D个片段S1至SD的情况下,划分单元15结束递归二分处理。划分单元15然后从内容存储单元11读出与在符号串生成单元14处被转换成符号串的内容相同的内容,并且在与已划分符号串的划分位置相同的划分位置处对已读出的内容进行划分。划分单元15将被划分成多个片段S1至SD的内容提供到内容存储单元11以进行存储。
如上所述,采用图14所示的递归二分处理,将内容划分成D个片段S1至SD,由此使得熵H(Si)的和Q最小化。因此,采用图14所示的递归二分处理,可以以与实验中的对象相同的方式将内容划分成有意义的片段。也就是说,可以将内容划分成例如广播节目的区间、各个新闻话题等作为多个片段。
另外,采用图14所示的递归二分处理,可以用相对简单的算法来划分内容。因此,可以利用递归二分处理以相对少的计算来快速地划分内容。
划分单元15的操作的另一描述
接下来,将参照图15中的流程图描述划分单元15执行的退火分割处理。该退火分割处理在例如用户使用操作单元17指示划分单元15将符号串划分成用户所指定的总划分数D时开始。
此时,操作单元17将与用户指定操作对应的操作信号提供到控制单元16。控制单元16根据来自操作单元17的操作信号控制划分单元15,以使得划分单元15将符号串划分成用户所指定的总划分数D。
在步骤S111中,划分单元15从代表可以添加分割线的时间点的添加点Li中选择D-1个任意添加点Li,并且在所选择的D-1个添加点Li处添加(布置)分割线。因此,划分单元15试验性地将来自符号串生成单元14的符号串划分成D个片段S1至SD
在步骤S112中,划分单元15将在未示出的内存中预先保存的变量t和j均设置为1。另外,划分单元15将在未示出的内存中预先保存的温度参数temp设置(初始化)为预定值。
在步骤S113中,划分单元15确定变量t是否为预定阈值NREP,并且在确定变量t不为预定阈值NREP的情况下,流程前进到步骤S114。
在步骤S114中,划分单元15确定变量j是否为预定阈值NIREP,并且在确定变量j为预定阈值NIREP的情况下,流程前进到步骤S115。注意,阈值NIREP优选地是充分大于阈值NREP的值。
在步骤S115中,划分单元15以通过乘以0.9而获得的乘法结果temp×0.9替换在未示出的内存中预先保存的温度参数temp,以用作改变之后的新temp。
在步骤S116中,划分单元15将变量t递增1,并且在步骤S117中将变量j设置为1。此后,流程返回到步骤S113,并且划分单元15随后执行相同的处理。
在步骤S114中,在划分单元15确定了变量j不为阈值NIREP的情况下,流程前进到步骤S118。
在步骤S118中,划分单元15确定已添加了分割线的D-1个添加点中的任意添加点Li,并且计算所确定的添加点Li的裕量范围RNG。注意,裕量范围RNG代表关于添加点Li的从Li-x到Li+x的范围。注意,x是正整数,并且已在划分单元15处被预先设置。
在步骤S119中,划分单元15计算当在步骤S118中确定的添加点Li移动到同样在步骤S118中算出的裕量范围RNG中所包括的添加点Ln(其中,n是i-x到i+x范围内的正整数)时的Q(Ln)。
在步骤S120中,划分单元15将在步骤S119中算出的多个Q(Ln)中的其Q(Ln)变为最小的Ln确定为L*,并且计算Q(L*)。划分单元15还计算移动分割线之前的Q(Li)。
在步骤S121中,划分单元15计算通过从移动分割线之后的Q(L*)减去移动分割线之前的Q(Li)而获得的差ΔQ=Q(L*)-Q(Li)。
在步骤S122中,划分单元15确定在步骤S121中算出的差ΔQ是否小于0。在确定差ΔQ小于0的情况下,流程前进到步骤S123。
在步骤S123中,划分单元15将在步骤S118中确定的添加点Li处设置的分割线移动到在步骤S120中确定的添加点L*处,并且使流程前进到步骤S125。
另一方面,在步骤S122中确定差ΔQ不小于0的情况下,划分单元15使流程前进到步骤S124。
在步骤S124中,划分单元15以概率exp(ΔQ/temp)将在步骤S118中确定的添加点Li移动到在步骤S120中确定的添加点L*,其中概率exp(ΔQ/temp)是以e为底、以ΔQ/temp为幂指数的自然对数。流程然后前进到步骤S125。
在步骤S125中,划分单元15将变量j递增1,将流程返回到步骤S114,并且随后执行相同的处理。
注意,在步骤S113中确定变量t为预定阈值NREP的情况下,图15的退火分割处理结束。
划分单元15然后从内容存储单元11读出与在符号串生成单元14处被转换成符号串的内容相同的内容,并且在与已划分了符号串的划分位置相同的划分位置处划分已读出的内容。划分单元15将被划分成多个片段S1至SD的内容提供到内容存储单元11以进行存储。因此,采用图15所示的退火分割处理,可以以与图14中的递归二分处理相同的方式将内容划分成有意义的片段。
尽管以上关于划分单元15将从内容存储单元11读出的内容划分成通过用户指示操作指定的总划分数D进行了描述,但是也可进行其它布置,比如,划分单元15根据可以按照将内容可以划分成的总划分数中使得熵之和Q最小化的总划分数D来划分内容。
替选地,可进行如下布置:其中,在用户通过用户指示操作指示了总划分数D的情况下,划分单元15将内容划分成总划分数D,但是在没有指示总划分数D的情况下,划分单元15按照使得熵之和Q最小化的总划分数D来划分内容。
记录器1的操作的描述
接下来,将关于内容划分处理进行描述,在该内容划分处理中,在用户通过用户指示操作指示了总划分数D的情况下,记录器1将内容划分成总划分数D,而在没有指示总划分数D的情况下,记录器1按照使得熵之和Q最小化的总划分数D来划分内容。
在步骤S151中,内容模型学习单元12执行参照图9描述的内容模型学习处理。
在步骤S152中,符号串生成单元14执行参照图12描述的符号串生成处理。
在步骤S153中,控制单元16基于来自操作单元17的操作信号,确定在预定时段内是否通过用户指示操作指示了总划分数D。在基于来自操作单元17的操作信号确定通过用户指示操作指示了总划分数D的情况下,控制单元16控制划分单元15以使得划分单元15按照通过用户指示操作指示的总划分数D来划分内容。
例如,划分单元15在通过图14中的递归二分处理或图15中的退火分割处理而获得的划分位置(即,设置分割线的位置)处来划分内容。划分单元15然后将被划分成总划分数D个片段的内容提供到内容存储单元11以进行存储。
另一方面,在步骤S153中,在基于来自操作单元17的操作信号确定没有通过用户指示操作指示了总划分数D的情况下,控制单元16使流程前进到步骤S155。在步骤S155和随后步骤的处理中,控制单元16控制划分单元15以计算在可以将内容划分成的总划分数中使得熵之和Q最小化的总划分数D,并且按照算出的总划分数D来划分要被划分的内容。
在步骤S155中,划分单元15使用例如递归二分处理和退火分割处理中的一个或另一个来计算当利用预定的总划分数D(例如,D=2)来划分符号串时的熵之和QD
在步骤S156中,划分单元15基于算出的熵之和QD计算平均熵mean(QD)=QD/D。
在步骤S157中,划分单元15使用与步骤S155相同的划分处理来计算当用总划分数D+1来划分符号串时的熵之和QD+1
在步骤S158中,划分单元15基于算出的熵之和QD+1计算平均熵mean(QD+1)=QD+1/(D+1)。
在步骤S159中,划分单元15计算通过从在步骤S158中算出的平均熵mean(QD+1)减去在步骤S156中算出的平均熵mean(QD)而获得的差Δmean。
在步骤S160中,划分单元15确定差Δmean是否小于预定阈值TH,并且在差Δmean不小于预定阈值TH(即,等于或大于)的情况下,流程前进到步骤S161。
在步骤S161中,划分单元15将预定总划分数D递增1,取D+1作为新的总划分数D,将流程返回到步骤S157,随后执行相同的处理。
在步骤S160中,在确定在步骤S159中算出的差Δmean小于阈值TH的情况下,划分单元15推出当按照预定总划分数D来划分符号串时的熵之和Q最小,并且使流程前进到步骤S162。
在步骤S162中,划分单元15在与划分了符号串的划分位置相同的划分位置处来划分内容,并且将被划分成预定总划分数D的内容提供到内容存储单元11以进行存储。因此,图16中的内容划分处理结束。
因此,采用图16中的内容划分处理,在用户通过用户指示操作指示了总划分数D的情况下,将内容划分成所指定的总划分数D。因此,可以将内容划分成用户所指示的总划分数D。另一方面,在没有通过用户指示操作指示总划分数D的情况下,按照使得熵之和Q最小化的总划分数D来划分内容。因此,可以省去用户在划分内容时指定总划分数D的麻烦。
对于第一实施例,已描述了记录器1将内容划分成多个有意义的片段。因此,记录器1的用户可以从多个有意义的片段中选择期望的片段(例如,广播节目的预定区间)。尽管描述了记录器1将内容划分成多个片段,但是划分的对象不限于内容,而是可以是例如音频数据、比如脑波的波形等。也就是说,划分的对象可以是任意种类的数据,只要其是按时间顺序排列数据的时间顺序数据即可。
现在,如果针对每个片段生成摘要(概要),则用户可以通过参考所生成的摘要而更容易地选择和播放期望的片段。因此,除了将内容划分成多个有意义的片段之外,优选地生成多个片段的每个的摘要。将参照图17至25描述这样的记录器51:其除了将内容划分成多个有意义的片段之外,还生成多个片段的每个的摘要。
2.第二实施例
记录器51的配置示例
图17示出了作为第二实施例的、记录器51的配置示例。图17所示的记录器51的、与图1所示的根据第一实施例的记录器1相同地配置的部分将用相同的附图标记来表示,并且将适当地省略其描述。记录器51以与记录器1相同的方式来配置,除了取代图1所示的划分单元15而设置了划分单元71并且新设置了摘要生成单元72之外。
划分单元71执行与图1所示的划分单元15相同的处理。划分单元71然后将划分成多个片段之后的内容经由摘要生成单元72提供到内容存储单元11以进行存储。划分单元71在将内容划分成多个片段时还生成用于唯一地标识每个片段的头部帧(分割线所位于的时间点t的帧t)的章节ID,并且将这些章节ID提供到摘要生成单元72。在以下描述中,由划分单元71划分内容而获得的片段也将称为“章节”。
接下来,图18示出了由划分单元71生成的章节点数据的示例。图18中示出了位于构成内容的多个帧中的与帧编号300、720、1115和1431对应的帧的时间点处的分割线的示例。更具体地,这里示出了已被划分成由帧编号0至299构成的章节(片段)、由帧编号300至719构成的章节、由帧编号720至1114构成的章节、由帧编号1115至1430构成的章节等的内容的示例。
这里,帧编号t是唯一地标识从内容的头部开始的第t个的帧t的编号。章节ID与构成章节的帧的头部帧(具有最小帧编号的帧)相关。也就是说,章节ID“0”与具有帧编号0的帧0相关,并且章节ID“1”与具有帧编号300的帧300相关。以同样方式,章节ID“2”与具有帧编号720的帧720相关,章节ID“3”与具有帧编号1115的帧1115相关,并且章节ID“4”与具有帧编号1431的帧1431相关。
划分单元71将诸如图18所示的多个章节ID作为章节点数据提供到图17所示的摘要生成单元72。
返回到图17,摘要生成单元72从内容存储单元11读出与划分单元71已读出的内容相同的内容。另外,基于来自划分单元71的章节点数据,摘要生成单元72标识从内容存储单元11读出的内容的每个章节。
摘要生成单元72然后从每个所标识的章节提取具有预定长度(基本片段长度)的章节片段。也就是说,摘要生成单元72从每个所标识的章节提取代表该章节的部分,例如,在基本片段长度范围内从章节的头部开始具有基本片段长度的预定部分。注意,基本片段长度可以是例如从5秒至10秒的范围。另外,用户可通过使用操作单元17改变操作来改变基本片段长度。
此外,摘要生成单元72从已读出的内容提取特征量时间顺序数据,并且基于所提取的特征量时间顺序数据从每个章节提取特征量峰值片段。特征量峰值片段是具有基本片段长度的特征量部分。注意,特征量时间顺序数据代表在提取特征量峰值片段时所使用的时间顺序的特征量。稍后将进行特征量时间顺序数据的详细描述。
摘要生成单元72可从章节片段提取具有不同长度的特征量峰值片段。也就是说,章节片段的基本片段长度和特征量峰值片段的基本片段长度可以是不同的长度。
此外,摘要生成单元72可从一个章节提取一个特征量峰值片段,或者可从一个章节提取多个特征量峰值片段。另外,摘要生成单元72通常不需要从每个章节提取特征量峰值片段。
摘要生成单元72按时间顺序排列从每个章节提取的章节片段和特征量峰值片段,从而生成代表内容的大致概况的摘要,并且将该摘要提供到内容存储单元11以进行存储。在要被提取作为章节片段的时段内正发生明显场景切换的情况下,摘要生成单元72可提取直到紧挨在场景切换之前的部分作为章节片段。这使得摘要生成单元72能够提取在适当的分开点处所划分的章节片段。这对于特征量峰值片段也是同样的。
注意,摘要生成单元72可基于例如时间上相邻的帧的像素的绝对差之和是否等于或大于预定阈值来确定是否正发生明显场景切换。
另外,摘要生成单元72可基于所标识的该章节的音频数据来检测在章节中正进行语音的语音区间。在甚至在用于提取作为章节片段的时段过去之后语音仍继续的情况下,摘要生成单元72可提取直到语音的结束作为章节片段。这对于特征量峰值片段也是同样的。
另外,在语音区间足够长于基本片段长度的情况下,例如,在语音区间是基本片段长度的两倍长或更长的情况下,摘要生成单元72可提取在整个语音的中途切断的章节片段。这对于特征量峰值片段也是同样的。
在这样的情况下,优选地为章节片段添加效果,以使得用户不会感觉到在整个语音的中途切断的章节片段看起来不自然。也就是说,摘要生成单元72优选地施加如下效果:在该效果中,所提取的章节片段中的语音朝向章节片段的结束淡出(音量逐渐减小)等。
现在,摘要生成单元72从由划分单元71所划分的内容提取章节片段和特征量峰值片段。然而,如果用户例如使用编辑软件等将内容划分成多个章节,则用户可以从内容提取章节片段和峰值片段。注意,编辑软件等在将内容划分成多个章节时生成章节点数据。以下将关于如下布置进行描述:在该布置中,摘要生成单元72从每个章节提取章节片段和特征量峰值片段中的每一个,并且仅将背景音乐(下文中,也缩写为“BGM”)添加到所生成的摘要。
接下来,图19示出了摘要生成单元72所执行的摘要生成处理的概况。图19中示出了将关于要提取其摘要的内容划分成多个章节的分割线。在分割线上方示出了相应的章节ID。图19中还示出了音频功率时间序列数据91和面部区域时间序列数据92。
这里,音频功率时间序列数据91指的是帧t的音频越大则呈现出越大的值的时间序列数据。另外,面部区域时间序列数据92指的是帧t中所显示的面部区域的比率越大则呈现出越大的值的时间序列数据。
注意,在图19中,水平轴代表播放内容时的时间点t,并且竖直轴代表特征量时间序列数据。此外,在图19中,白色矩形代表指示章节的头部部分的章节片段,并且阴影矩形代表基于音频功率时间序列数据91而提取的特征量峰值片段。另外,实心矩形代表基于面部区域时间序列数据92提取的特征量峰值片段。
基于来自划分单元71的章节点数据,摘要生成单元72标识从内容存储单元11读出的章节,并且提取所标识的章节的章节片段。
另外,摘要生成单元72在从内容存储单元11读出的内容中提取例如比如图19所示的音频功率时间序列数据91。此外,摘要生成单元72从每个所标识的章节提取音频功率时间序列数据91最大的帧。摘要生成单元72然后从章节提取包括所提取的峰值特征量帧的特征量峰值片段(例如,其峰值特征量帧是头部的特征量峰值片段)。
另外,摘要生成单元72可例如以所设置的间隔来确定峰值特征量帧的提取点。摘要生成单元72然后可提取在基于所确定的提取点而确定的范围内音频功率时间序列数据91最大的帧作为峰值特征量帧。
另外,可进行如下布置:在该布置中,在音频功率时间序列数据91的极大值不超过预定阈值的情况下,摘要生成单元72不提取峰值特征量帧。在该情况下,摘要生成单元72不提取特征量峰值片段。
此外,可进行如下布置:在该布置中,摘要生成单元72提取音频功率时间序列数据91为极大值的帧作为峰值特征量帧,而不是音频功率时间序列数据91的最大值。
另外,注意,除了使用一个音频功率时间序列数据91提取特征量峰值片段之外,摘要生成单元72可使用多组特征量时间序列数据来提取特征量峰值片段,以提取特征量峰值片段。也就是说,例如,除了音频功率时间序列数据91之外,摘要生成单元72还在从内容存储单元11读出的内容中提取面部区域时间序列数据92。另外,摘要生成单元72选择音频功率时间序列数据91和面部区域时间序列数据92中、其章节中的最大值最大的特征量时间序列数据。摘要生成单元72然后提取所选择的特征量时间序列数据是章节中的最大值的帧作为峰值特征量帧,并且从章节提取包括所提取的峰值特征量帧的特征量峰值片段。
在该情况下,摘要生成单元72选择音量在预定章节中较大的部分作为特征量峰值片段,并且在其它章节中,提取面部区域比率较大的部分作为特征量峰值片段。因此,仅将音量较大的部分选作特征量峰值片段的摘要生成单元72例如防止了生成单调的摘要。也就是说,摘要生成单元72可以更好地以随机选择特征量峰值片段的氛围来生成摘要。因此,摘要生成单元72可以生成防止用户变得对不变的模式厌烦的摘要。
替选地,摘要生成单元72可例如提取多个特征量时间序列数据的每个的特征量峰值片段。也就是说,采用该布置,例如,摘要生成单元72提取包括音频功率时间序列数据91在每个所标识的章节中变成最大值的帧的特征量峰值片段作为峰值特征量帧。另外,摘要生成单元72提取包括面部区域时间序列数据92变为最大值的帧的特征量峰值片段作为峰值特征量帧。在该情况下,摘要生成单元72从一个章节提取两个特征量峰值片段。
注意,如图19中的右下部所示,以重叠方式从在与章节ID4对应的分割线处开始至与章节ID5对应的分割线的章节提取章节片段(用白色矩形指示)和特征量峰值片段(用阴影矩形指示)。在该情况下,摘要生成单元72将章节片段和特征量峰值片段作为单个片段来处理。
摘要生成单元72例如按时间顺序如图19所示连接所提取的章节片段和特征量峰值片段,从而生成摘要。摘要生成单元72然后在所生成的摘要中包括BGM等,并且将添加了BGM的摘要提供到内容存储单元11以进行存储。
摘要生成单元72的细节
图20示出了摘要生成单元72的详细配置示例。摘要生成单元72包括章节片段提取单元111、特征量提取单元112、特征量峰值片段提取单元113和效果添加单元114。
章节片段提取单元111和特征量提取单元112被提供有来自内容存储单元11的内容。另外,章节片段提取单元111和特征量峰值片段提取单元113被提供有来自划分单元71的章节点数据。
章节片段提取单元111基于来自划分单元71的章节点数据,标识从内容存储单元11提供的内容中的每个章节。章节片段提取单元111然后从每个所标识的章节提取章节片段,该章节片段被提供到效果添加单元114。
特征量提取单元112例如在从内容存储单元11提供的内容中提取多组特征量时间序列数据,并且将其提供到特征量峰值片段提取单元113。注意,将参照图21至图23详细描述特征量时间序列数据。特征量提取单元112可使用平滑滤波器来平滑所提取的特征量时间序列数据,并且向特征量峰值片段提取单元113提取从其去除了噪声的特征量时间序列数据。特征量提取单元112还向特征量峰值片段提取单元113提供没有任何改变的来自内容存储单元11的内容。
特征量峰值片段提取单元113基于来自划分单元71的章节点数据,标识经由特征量提取单元112从内容存储单元11提供的内容的每个章节。特征量峰值片段提取单元113还基于从特征量提取单元112提供的多组特征量时间序列数据,如参照图19所述,从每个所标识的章节提取特征量峰值片段,并且将其提供到效果添加单元114。
效果添加单元114例如按时间顺序如图19所示连接所提取的章节片段和特征量峰值片段,从而生成摘要。效果添加单元114然后在所生成的摘要中包括BGM等,并且将添加了BGM的摘要提供到内容存储单元11以进行存储。将参照图24详细描述效果添加单元114将BGM等添加到摘要的处理。另外,效果添加单元114可添加诸如淡出靠近构成所生成的摘要的每个片段(章节片段和特征量峰值片段)的结束的帧、淡入紧挨在开始之后的帧等的效果。
特征量时间序列数据的示例
接下来,将描述图20所示的特征量提取单元112从内容提取(生成)特征量时间序列数据的方法。注意,特征量提取单元112从内容提取面部区域时间序列数据、音频功率时间序列数据、放大强度时间序列数据和缩小强度时间序列数据中的至少一个作为特征量时间序列数据。
这里,在特征量峰值片段提取单元113从章节提取包括帧中的面部区域的比率变得较大的帧的片段作为特征量峰值片段时,使用面部区域时间序列数据。
特征量提取单元112检测作为存在人脸的区域的面部区域,或者更具体地,检测该面部区域的像素数。基于所检测到的结果,特征量提取单元112计算每个帧t的面部区域特征量值f1(t)=Rt-ave(Rt'),从而生成通过以时间序列排列帧t的面部区域特征量值f1(t)而获得的面部区域时间序列数据。
注意,比率是面部区域中的像素数除以帧的总像素数,并且ave(Rt')代表从存在于区间[t-WL,t+WL]中的帧t’获得的比率Rt的平均值。另外,时间点t代表显示帧t的时间点t,并且值WL(>0)是预设值。
接下来,图21示出了特征量提取单元112生成音频功率时间序列数据作为特征量时间序列数据的示例。在图21中,音频数据x(t)代表在从时间点ts至时间点te的所有区间[ts,te]中所播放的音频数据。
现在,在特征量峰值片段提取单元113从章节提取包括音频(音量)已变大的帧的片段作为特征量峰值片段时,使用音频功率时间序列数据。
特征量提取单元112通过以下表达式(3)计算构成内容的每个帧t的音频功率P(t)。
P ( t ) = Σ τ = t - w t + w × ( τ ) 2 . . . ( 3 )
其中,音频功率P(t)代表每个音频数据x(τ)的平方和的平方根。另外,τ是从t-W到t+W的值,其中W是预先设置的。
特征量提取单元112计算通过从根据区间[t-W,t+W]算出的音频功率P(t)的平均值减去根据所有区间[ts,te]算出的音频功率P(t)的平均值而获得的差值作为音频功率特征量值f2(t)。通过计算每个帧t的音频功率特征量值f2(t),特征量提取单元112生成通过以时间序列排列帧t的音频功率特征量值f2(t)而获得的音频功率时间序列数据。
接下来,将参照图22和图23描述特征量提取单元112生成放大强度时间序列数据作为特征量时间序列数据的方法。注意,在特征量峰值片段提取单元113从章节提取包括放大(上移(zoon-up))帧的片段作为特征量峰值片段时使用放大强度时间序列数据。
图22示出了帧t中的运动矢量的示例。在图22中,帧t已被分割成多个块。其中示出了帧t中的每个块的运动矢量。
特征量提取单元112将构成内容的每个帧t分割成诸如图22所示的多个块。特征量提取单元112然后通过块匹配等、使用构成内容的每个帧t来检测多个块中的每个块的矢量。注意,“帧t中的块的运动矢量”指的是代表例如帧t至帧t+1中的块的运动的矢量。
图23示出了由已算出了与帧t中的块的内积的运动矢量构成的放大模板的示例。该放大模板由代表被放大的块的运动的运动矢量构成,如图23所示。
特征量提取单元112计算帧t中的块的运动矢量at(图22)与放大模板(图23)的块的相应运动矢量b的内积at·b,并且计算其和sum(at·b)。特征量提取单元112还计算针对包括在区间[t-W,t+W]中的每个帧t’而计算的和sum(at'·b)的平均值ave(sum(at'·b))。
特征量提取单元112然后计算通过从和sum(at·b)减去平均值ave(sum(at'·b))而获得的差作为帧t处的放大特征量值f3(t)。该放大特征量值f3(t)与帧t处的放大幅度成比例。
特征量提取单元112计算每个帧t的放大特征量值f3(t),并且生成通过以时间序列排列帧t的放大特征量值f3(t)而获得的放大强度时间序列数据。
现在,在特征量峰值片段提取单元113从章节提取包括缩小帧的片段作为特征量峰值片段时使用缩小强度时间序列数据。当生成缩小强度时间序列数据时,特征量提取单元112取代图23所示的放大模板而使用缩小模板,该缩小模板具有与图23中的模板所示的运动矢量相反的运动矢量。也就是说,特征量提取单元112以与生成放大强度时间序列数据相同的方式,使用缩小模板来生成缩小强度时间序列数据。
接下来,图24示出了效果添加单元114将BGM添加到所生成的摘要的细节。在图24中上方示出了构成摘要的每个片段(章节片段和特征量峰值片段)的音量的权重,并且在下方示出了通过连接图19所示的章节片段和特征量峰值片段而获得的摘要。如图24的下方所示,效果添加单元114通过按时间顺序连接来自章节片段提取单元111的章节片段和来自特征量峰值片段提取单元113的特征量峰值片段,生成大致L秒长的摘要。
现在,通过由章节片段提取单元111提取的章节片段的数量和长度以及由特征量峰值片段提取单元113提取的特征量峰值片段的数量和长度来确定摘要的长度L。此外,用户可以使用例如操作单元17来设置摘要的长度L。
操作单元17向控制单元16提供与用户对长度L的设置操作对应的操作信号。控制单元16基于来自操作单元17的操作信号来控制摘要生成单元72,以使得摘要生成单元72生成具有通过设置操作所设置的长度L的摘要。摘要生成单元72因此提取章节片段和特征量峰值片段,直至所提取的片段的总长度(长度之和)达到长度L为止。
在该情况下,摘要生成单元72优选地优先从每个章节提取章节片段,此后提取特征量峰值片段,以使得至少从章节提取了章节片段。替选地,可进行如下布置:在该布置中,例如,在优先从每个章节提取了章节片段之后提取特征量峰值片段时,摘要生成单元72按照最大的极大值的顺序从一组或多组特征量时间序列数据中提取特征量峰值片段。
此外,可进行如下布置:在该布置中,例如,用户使用操作单元17来执行用于设置从一个章节提取的片段的长度之和S连同摘要的长度L的设置操作,以使得摘要生成单元72生成具有预定长度L的摘要。在该情况下,操作单元17将与用户的设置操作对应的操作信号提供到控制单元16。控制单元16基于来自操作单元17的操作信号来识别用户所设置的L和S,并且通过逆计算、基于所识别的L和S来计算总划分数D。
也就是说,总划分数D是最接近L/S的整数(例如,将L/S四舍五入到最近的整数)。例如,考虑如下情况:用户已通过设置操作设置了L=30,并且还执行了设置使得要从章节提取7.5秒的章节片段和7.5秒的特征量峰值片段,即,使得S=15(7.5+7.5)。在该情况下,控制单元16基于L=30并且S=15计算L/30=30/15=2,并计算作为最接近L/S=2的整数值的2作为总划分数D。
控制单元16控制划分单元71以使得划分单元71生成与算出的总划分数D对应的章节点数据。因此,划分单元71在控制单元16的控制之下生成与算出的总划分数D对应的章节点数据,并且将其提供到摘要生成单元72。摘要生成单元72基于来自划分单元71的章节点数据和从内容存储单元11读出的内容,生成具有用户所设置的长度L的摘要,该摘要被提供到内容存储单元11以进行存储。
另外,效果添加单元114利用图24的上方所示的权重α对构成摘要的每个片段(章节片段和特征量峰值片段)的音频数据进行加权,并且利用1-α对BGM数据进行加权。效果添加单元114然后将加权后的音频数据与加权后的BGM进行混合,并且将作为其结果获得的混合音频数据与构成摘要的每个帧相关作为构成摘要的片段的音频数据。将假设效果添加单元114具有预先保持在未示出的内存中的BGM数据,并且根据用户操作来指定要添加的BGM。
也就是说,在将BGM添加到以白色矩形代表的章节片段的情况下,例如,效果添加单元114利用小于0.5的权重对章节片段的音频数据进行加权(相乘),以使得BGM音量可以例如被设置为较大。具体地,在图24中,效果添加单元114以0.2对章节片段的音频数据进行加权,并且以0.8对要添加的BGM数据进行加权。
另外,在将BGM添加到基于多个特征量时间序列数据中与音频功率时间序列数据不同的特征量时间序列数据提取的特征量峰值片段的情况下,效果添加单元114以与向章节片段添加BGM的情况相同的方式执行加权。具体地,在图24中,效果添加单元114以0.2对基于面部区域时间序列数据提取的特征量峰值片段(用实心矩形指示)的音频数据进行加权,并且以0.8对BGM数据进行加权。
另外,在将BGM添加到基于音频功率时间序列数据提取的特征量峰值片段(用阴影矩形代表)的情况下,例如,效果添加单元114利用大于0.5的权重对章节片段的音频数据进行加权,以使得BGM音量可以例如被设置为较小。具体地,在图24中,效果添加单元114以0.8对基于音频功率时间序列数据而提取的特征量峰值片段的音频数据进行加权,并且以0.2对要添加的BGM数据进行加权。
注意,在如图19所示以重叠方式提取章节片段和特征量峰值片段的情况下,章节片段和特征量峰值片段被提取作为单个片段。在该情况下,效果添加单元114使用要应用于其头部帧时间点在时间上较晚的特征量峰值片段的权重作为要应用于由章节片段和特征量峰值片段构成的一个片段的音频数据的权重。
另外,如图24的上方所示,效果添加单元114连续地而不是不连续地改变权重的切换。也就是说,效果添加单元114不是以非连续方式将摘要的音频数据的权重从0.2改变至0.8,而是例如在预定时间量内(例如,500毫秒)从0.2线性地改变至0.8。此外,效果添加单元114可非线性地而不是线性地改变权重,比如与时间的平方成比例地改变权重。这可以防止摘要的音量或BGM的音量突然变大,因此避免了用户对突然音量改变的不愉快经历。
记录器51的操作的描述
接下来,将参照图25描述记录器51(具体地,划分单元71和摘要生成单元72)执行的摘要生成处理。
在步骤S191中,划分单元71执行与图1中的划分单元15相同的处理。划分单元71然后根据已被划分成多个片段的内容生成用于唯一地标识每个片段的头部帧的章节ID作为章节点数据。划分单元71将所生成的章节点数据提供到摘要生成单元72的章节片段提取单元111和特征量峰值片段提取单元113。
在步骤S192中,章节片段提取单元111基于来自划分单元71的章节点数据,标识从内容存储单元11提供的内容的每个章节。章节片段提取单元111然后从代表章节的头部部分的每个所标识的章节提取章节片段,并且将其提供到效果添加单元114。
在步骤S193中,特征量提取单元112例如在从内容存储单元11提供的内容中提取多组特征量时间序列数据,并且将其提供到特征量峰值片段提取单元113。特征量提取单元112可使用平滑滤波器来平滑所提取的特征量时间序列数据,并且向特征量峰值片段提取单元113提供从其去除了噪声的特征量时间序列数据。特征量提取单元112还向特征量峰值片段提取单元113提供来自内容存储单元11的没有任何改变的内容。
在步骤S194中,特征量峰值片段提取单元113基于来自划分单元71的章节点数据,标识经由特征量提取单元112从内容存储单元11提供的内容的每个章节。特征量峰值片段提取单元113还基于从特征量提取单元112提供的多组特征量时间序列数据,从每个所标识的章节提取特征量峰值片段,并且将其提供到效果添加单元114。
在步骤S195中,效果添加单元114例如按时间顺序如图19所示连接所提取的章节片段和特征量峰值片段,从而生成摘要。效果添加单元114然后在所生成的摘要中包括BGM等,并且将添加了BGM的摘要提供到内容存储单元11以进行存储。这结束了图25的摘要生成处理。
如上所述,采用摘要生成处理,章节片段提取单元111从每个章节提取章节片段。效果添加单元114然后生成具有至少所提取的章节片段的摘要。因此,通过播放摘要,例如,用户可以观看或收听作为内容的每个章节的头部部分的章节片段,因此可以容易地理解内容的大致概况。
另外,采用摘要生成处理,特征量峰值片段提取单元113基于例如多组特征量时间序列数据来提取特征量峰值片段。因此,可以生成关于要生成摘要的内容的摘要,在该摘要中,包括例如高潮场景作为特征量峰值片段。所提取的特征量峰值片段的示例是音量大的场景、包括放大或缩小的场景、存在较大比率的面部区域的场景等。
另外,效果添加单元114生成例如添加了诸如BGM的效果的摘要。因此,根据摘要生成处理,生成可以更容易地理解内容中所包括的东西的摘要。此外,逐渐切换用于混合BGM的权重,从而防止BGM的音量或摘要的音量突然变大。
3.第三实施例
记录器131的配置示例
现在,优选地,用户能够在播放存储在内容存储单元11中的内容时从期望的播放位置开始进行播放。将参照图26至图41描述记录器131,记录器131对显示画面进行显示,以使得用户可以容易地搜索期望的播放位置。图26示出了根据第三实施例的记录器131的配置示例。
注意,对于记录器131,以与图1所示的根据第一实施例的记录器1相同的方式配置的部分以相同的附图标记来表示,并且将适当地省略其描述。也就是说,记录器131以与图1中的记录器1相同的方式来配置,除了取代图1中的划分单元15而设置了划分单元151并且新设置了呈现单元152之外。
此外,用于显示图像的显示单元132连接到记录器131。另外,尽管从图26的图示省略了图17所示的摘要生成单元72,但是可以以与图17相同的方式来设置摘要生成单元72。
划分单元151执行与图1中的划分单元15相同的划分处理。划分单元151还以与图17中的划分单元71相同的方式来生成章节点数据(章节ID),并且将其提供到呈现单元152。此外,划分单元151将构成从符号串生成单元14提供的符号串的符号与构成内容的相应帧相关,并且将其提供到呈现单元152。另外,划分单元151将从内容存储单元11读出的内容提供到呈现单元152。
呈现单元152基于同样来自划分单元151的章节点数据,使得显示单元132以矩阵形式显示从划分单元151提供的内容的每个章节。也就是说,呈现单元152使得显示单元132显示根据使用操作单元17的用户指示操作而改变的章节的总划分数D,以例如以矩阵形式进行排列。
具体地,响应于由于用户指示操作而改变的总划分数D,划分单元151生成与改变之后的总划分数D对应的新章节点数据,并且将其提供到呈现单元152。基于从划分单元151提供的新章节点数据,呈现单元152在显示单元132上显示通过用户指示操作而指定的总划分数D。呈现单元152还使用来自划分单元151的符号来以稍后将描述的、如图39所示的平铺形式显示具有与用户所选择的帧相同的符号的帧。
接下来,图27A和27B示出了通过用户指示操作而得到的总划分数D的改变引起相应的章节点数据改变的方式的示例。图27A示出了总划分数D和与总划分数D对应的章节点数据之间的组合的示例。另外,图27B示出了位于内容的时间轴上的章节点的示例。注意,章节点指示在构成章节的帧中头部帧所位于的位置。
如图27A所示,当总划分数D=2时,除了具有帧编号0的帧之外,还将具有帧编号720的帧设置作为章节点。当总划分数D=2时,如从图27B的第一行可以看出,将内容划分成具有帧编号0的帧为头部的章节和具有帧编号720的帧为头部的章节。注意,帧编号0在任意情况下都是章节点,因此在图27A和27B中的图示省略了帧编号0。
另外,当将总划分数D=2改变为总划分数D=3时,额外将具有帧编号300的帧设置为章节点。当总划分数D=3时,如从图27B的第二行可以看出,将内容划分成具有帧编号0的帧为头部的章节、具有帧编号300的帧为头部的章节以及具有帧编号720的帧为头部的章节。
另外,当将总划分数D=3改变为总划分数D=4时,额外地将具有帧编号1431的帧设置为章节点。当总划分数D=4时,如从27B的第三行可以看出,可以将内容划分成具有帧编号0的帧为头部的章节、具有帧编号300的帧为头部的章节、具有帧编号720的帧为头部的章节以及具有帧编号1431的帧为头部的章节。
此外,当将总划分数D=4变为总划分数D=5,额外地将具有帧编号1115的帧设置为章节点。当总划分数D=5,如从27B的第四行可以看出,可以将内容划分成具有帧编号0的帧为头部的章节、具有帧编号300的帧为头部的章节、具有帧编号720的帧为头部的章节、具有帧编号1115的帧为头部的章节以及具有帧编号1431的帧为头部的章节。
接下来,将参照图28至图30描述呈现单元152生成用于在显示单元132上显示的显示数据的处理。注意,将关于在总划分数D=5的情况下呈现单元152生成显示数据的情况对图28至图30进行描述。
图28示出了已被设置为章节点的帧的示例。注意,在图28中,矩形代表帧,并且矩形内描述的数字代表帧编号。
呈现单元152在从划分单元151提供的内容中提取已被设置为章节点的、具有帧编号0、300、720、1115和1431的帧。注意,在该情况下,章节点数据对应于总划分数D=5,其中具有帧编号0、300、720、1115和1431的帧已被设置为章节点。
呈现单元152缩小所提取的帧以形成缩略图图像,并且按照帧编号0、300、720、1115和1431的顺序从顶部到底部在显示单元132的显示画面上显示缩略图图像。呈现单元152然后在显示单元132的显示画面上从左到右以例如50帧的间隔显示构成章节的帧作为缩略图图像。
接下来,图29示出了以50帧的间隔在被设置为章节点的帧的右侧显示的缩略图图像的示例。呈现单元152基于来自划分单元151的章节点数据,在从划分单元151提供的内容中提取被设置为章节点的具有帧编号0的帧以及还有具有帧编号50、100、150、200和250的帧。
呈现单元152缩小所提取的帧以形成缩略图图像,并且按照帧编号50、100、150、200和250的顺序在从具有帧编号0的帧开始的右侧方向上显示缩略图图像。呈现单元152还在从具有帧编号300的帧开始的右侧方向上,按帧编号350、400、450、500、550、600、650和700的升序显示帧的缩略图图像。
呈现单元152还在从具有帧编号720的帧开始的右侧方向上,以同样方式按照帧编号770、820、870、920、970、1020和1070的升序来显示帧的缩略图图像。呈现单元152还在从具有帧编号1115的帧开始的右侧方向上,按帧编号1165、1215、1265、1315、1365和1415的升序显示帧的缩略图图像。另外,呈现单元152在从具有帧编号1431的帧开始的右侧方向上,按帧编号1481、1531、1581、1631等的升序显示帧的缩略图图像。因此,如图30所示,呈现单元152可以在显示单元132上显示针对每个章节以矩阵形式排列章节的缩略图图像的显示。
注意,呈现单元152不限于以矩阵形式排列章节的缩略图图像,而是可以以使得缩略图图像重叠在彼此之上来排列缩略图图像。具体地,呈现单元152可将具有帧编号300的帧显示作为缩略图图像,并且将具有帧编号301至349的帧的缩略图图像放置为被具有帧编号300的帧隐藏。
接下来,图30示出了显示单元132上的显示画面的示例。如图30所示,显示画面具有在为每个章节设置的章节显示区域(以章节编号1、2、3、4和5指示的水平延伸的矩形)中以矩阵形式显示的章节的缩略图图像。
也就是说,在图30中,从左到右按帧编号0、50、100、150、200等的顺序,位于第一行中的是具有帧编号0、50、100、150、200等的帧,作为从内容的头部开始的第一章节1的缩略图图像。也就是说,显示单元132将这些缩略图图像显示作为代表章节1的场景的代表图像。具体地,显示单元132将与具有帧编号0的帧对应的缩略图图像显示作为代表由具有帧编号0至49的帧构成的场景的代表图像。这对于图30所示的章节2至5也是同样的。
另外,在图30中,从左到右按帧编号300、350、400、450、500等的顺序,位于第二行的是具有帧编号300、350、400、450、500等的帧,作为从内容的头部开始的第二章节2的缩略图图像。此外,在图30中,从左到右按帧编号720、770、820、870、920等的顺序,位于第三行的是具有帧编号720、770、820、870、920等的帧,作为从内容的头部开始的第三章节3的缩略图图像。此外,在图30中,从左到右按帧编号1115、1165、1215、1265、1315等的顺序,位于第四行的是具有帧编号1115、1165、1215、1265、1315等的帧,作为从内容的头部开始的第四章节4的缩略图图像。另外,此外,在图30中,从左到右按帧编号1431、1481、1531、1581、1631等的顺序,位于第五行的是具有帧编号1431、1481、1531、1581、1631等的帧,作为从内容的头部开始的第五章节5的缩略图图像。
注意,如图30所示,滑块171可显示在显示单元132的显示画面上。在设置总划分数D时要在图30中水平地移动(滑动)该滑块171,并且可以根据滑块171的位置而改变总划分数D。也就是说,滑块171被向左侧移动地越远,则总划分数D越小,并且滑块171被向右侧移动地越远,则总划分数D越大。
因此,在用户使用操作单元17来执行用于在图中的左侧方向上移动在图30所示的显示画面上的滑块171的操作的情况下,根据操作在显示单元132上显示比如图31所示的显示画面。根据使用滑块171的滑动操作,划分单元151生成具有与滑动操作对应的总划分数D的章节点数据,并且将所生成的章节点数据提供到呈现单元152。呈现单元152基于来自划分单元151的章节指针数据来生成比如图31所示的显示画面,并且在显示单元132上显示该显示画面。
另外,可进行如下布置:在该布置中,划分单元151根据滑动操作在用户每次执行滑动操作时生成具有总划分数D的章节点数据,或者可预先生成具有多个不同的总划分数D的章节点数据。在预先生成了具有多个不同的总划分数D的章节点数据的情况下,划分单元151将具有多个不同的总划分数D的章节点数据提供到呈现单元152。
在该情况下,呈现单元152在从划分单元151提供的具有多个不同的总划分数D的章节点数据中选择具有与用户使用滑块171执行的滑动操作对应的总划分数D的章节点数据。呈现单元152然后基于所选择的章节点数据生成要显示在显示单元132上的显示画面,并且将该显示画面提供到显示单元132以进行显示。
接下来,图31示出了当已在减小总划分数D的方向上移动了滑块时,显示在显示单元132上的显示画面的示例。从图31所示的显示画面可以看出,与图30所示的显示画面相比,章节数(总划分数D)已从五个减小到三个。
另外,可进行如下布置:在该布置中,例如,呈现单元152以与图20所示的特征量提取单元112相同的方式,在从划分单元151提供的内容中提取特征量时间序列数据。呈现单元152然后可根据所提取的特征量时间序列数据的强度而在视觉上表示在显示单元132上显示的缩略图图像。
接下来,图32示出了显示单元132上的显示画面的另一示例,其中,显示根据特征量时间序列数据的强度而在视觉上表示的缩略图图像。注意,根据包括与该缩略图图像对应的帧(例如,50个帧中与缩略图图像对应的帧是头部)的场景的特征,在图32所显示的缩略图图像上添加带显示。
将带显示191a至191f分别添加到代表具有高比率的面部区域的场景的缩略图图像。这里,将带显示191a至191f添加到具有帧编号100、150、350、400、450和1581的缩略图图像。
将带显示192a至192d分别添加到代表具有高比率的面部区域并且还具有相对大的音频功率的场景的缩略图图像。另外,将带显示193a至193b分别添加到代表具有相对大音频功率的场景的缩略图图像。
在构成场景的帧中面部区域的比率等于或高于预定阈值的帧数大于预定的帧数阈值的情况下,将带显示191a至191f分别添加到代表该场景的缩略图图像。
替选地,对于带显示191a至191f,可使得面部区域的比率等于或大于预定阈值的帧数越大,则带显示191a至191f的底色(floor)越深。这对于带显示192a至192d以及带显示193a和193b也是成立的。
另外,尽管关于图32描述了将带显示添加到缩略图图像,但是例如,也可以取代带显示191a至191f而进行人脸的显示。也就是说,可使用任意显示方法进行显示,只要其代表该场景的特征即可。另外,尽管在图32中示出了帧编号来标识缩略图图像,但是显示单元132上的显示画面实际上如图33所示的那样。
呈现单元152的细节
接下来,图34示出了图26中的呈现单元152的详细配置示例。呈现单元152由特征量提取单元211、显示数据生成单元212和显示控制单元213构成。
特征量提取单元211被提供有来自划分单元151的内容。特征量提取单元211以与图20所示的特征量提取单元112相同的方式来提取特征量时间序列数据,并且将其提供到显示数据生成单元212。也就是说,特征量提取单元211提取面部区域时间序列数据、音频功率时间序列数据、放大强度时间序列数据和缩小强度时间序列数据中的至少一个作为特征量时间序列数据,并且将其提供到显示数据生成单元212。
除了来自特征量提取单元211的特征量时间序列数据之外,显示数据生成单元212还被提供有来自划分单元151的章节点数据。显示数据生成单元212基于来自特征量提取单元211的特征量时间序列数据和来自划分单元151的章节点数据,生成比如图31至图33所示的、要显示在显示单元132的显示画面上的显示数据。
显示控制单元213基于来自显示数据生成单元212的显示数据,使得显示单元132的显示画面进行比如图31至图33所示的显示。
应注意,显示数据生成单元212生成与用户操作对应的显示数据,并且将该显示数据提供到显示控制单元213。显示控制单元213基于来自显示数据生成单元212的显示数据,根据用户操作改变显示单元132的显示画面。
存在三种显示控制单元213执行内容的章节的显示控制的模式,即层0模式、层1模式和层2模式。在层0模式中,显示单元132执行比如图31至图33所示的显示。
图35示出了当在层0模式中用户指示显示单元132的显示画面上的位置时所发生的示例。现在,将假设例如鼠标用作操作单元17以便于描述。用户可以使用作为鼠标的操作单元17来执行单击和双击。操作单元17不限于鼠标。
在层0模式中,当用户操作作为鼠标的操作单元17以在从图35中的章节4的左侧开始的第五个缩略图图像上移动指针(光标)231时,显示控制单元213将显示单元132的显示改变为诸如图35所示的显示。也就是说,以强调方式来显示由指针231指示的缩略图图像232。在图35的示例中,由指针231指示的缩略图图像232被显示为例如比其它缩略图图像大、由黑框包围。因此,用户可以容易地理解由指针231指示的缩略图图像232。
接下来,图36示出了当在层0模式在由指针231指示的缩略图图像232的状态下进行双击时所发生的示例。在用户在由指针231指示的缩略图图像232的状态下双击鼠标的情况下,从与缩略图图像232对应的帧开始播放内容。也就是说,显示控制单元213例如在显示单元132的显示画面的左上部显示窗口233,如图36所示。该窗口233在其中显示从与缩略图图像232对应的帧开始播放的内容233a。
另外,在窗口233中,在图36中从左到右布置有时钟标记233b、时间条233c、播放位置显示233d和音量按钮233e。时钟标记233b是以时钟指针来显示在内容233a中的总播放时间中正播放内容233a的播放位置(播放时间点)的图标。注意,对于时钟标记233b,内容233a的总播放时间被分配为例如绕时钟面(象征0至60分钟)一周。
时间条233c以与时钟标记233b相同的方式来显示内容233a的播放位置。注意,时间条233c具有从时间条233c的左边缘到右边缘分配的内容233a的总播放时间,其中播放位置显示233d位于与内容233a的播放位置对应的位置处。注意,在图36中,播放位置显示233d可被配置为可以移动的滑块。在该情况下,用户可以使用操作单元17来执行移动作为滑块的播放位置显示233d的移动操作,从而从移动之后的播放位置显示233d的位置开始播放内容233a。
音量按钮233e是被操作用于对正播放的内容233a的音量进行静音或改变的图标。也就是说,在用户使用操作单元17来在音量按钮233e上移动指针231并单击音量按钮233e的情况下,对正播放的内容233a的音量静音。另外,例如,在用户使用操作单元17在音量按钮233e上移动指针231并双击的情况下,新显示用于改变正播放的内容233a的音量的窗口。
接下来,当在层0模式中用户在如图35所示由指针231指示的缩略图图像232的状态下单击鼠标时,显示控制单元214将显示模式从层0模式转变为层1模式。显示控制单元213然后例如在显示单元132中的显示画面的下侧布置窗口251,如图37所示。位于该窗口251中的是平铺图像251a、时钟标记251b、时间条251c和播放位置显示251d。
平铺图像251a代表在缩略图图像232下面叠起的缩略图图像的图像列表(由缩略图图像232代表的场景的缩略图图像)。例如,在缩略图图像232是与具有帧编号300的帧对应的缩略图图像的情况下,缩略图图像在其下面叠起与具有帧编号301至349的帧对应的缩略图图像,如图29所示。
在不是在缩略图图像232下面叠起的缩略图图像的列表中的所有图像都可以被显示作为平铺图像251a的情况下,例如,可将一部分缩略图图像显示为已被稀疏化。替选地,可进行如下布置:在该布置中,在窗口251中显示滚动条,以使得可以通过移动滚动条来查看在缩略图图像232下面叠起的缩略图图像的列表的所有图像。
时钟标记251b是显示在内容233a的总播放时间中与单击的缩略图图像对应的正播放的帧的播放位置的图标,并且以与图36中的时钟标记233b相同的方式来配置。时间条251c通过播放位置显示251d显示在内容233a的总播放时间中与单击的缩略图图像对应的正播放的帧的播放位置,并且以与图36中的时间条233c相同的方式来配置。
时间条251c还使用与播放位置显示251d相同的播放位置显示,显示与构成平铺图像251a的缩略图图像(包括缩略图图像232)对应的帧的播放位置。对于图37,仅示出了缩略图图像232的播放位置显示251d,并且未示出其它播放位置显示,以防止图变得过于复杂。
在用户执行鼠标悬停(mouseover)操作时,以强调方式显示由指针231指示的特定缩略图图像,在该鼠标悬停操作中,使用操作单元17利用指针231来指示构成平铺图像251a的多个缩略图图像的特定缩略图图像。也就是说,在用户执行使用操作单元17利用指针231来指示平铺图像251a中的缩略图图像271的鼠标悬停操作时,显示作为增强的271的缩略图图像271’。
此时,在时间条251c处,以与缩略图图像271’本身相同的方式,以强调方式显示缩略图图像271’的播放位置显示。例如,以与其它播放位置显示不同的颜色以强调方式显示缩略图图像271’的播放位置显示。
另外,对于时间条251c,以强调方式显示的播放位置显示可被配置为作为滑块而可移动。在该情况下,通过使用操作单元17执行移动作为滑块的强调显示播放位置显示的移动操作,用户可以例如将与移动之后的播放位置显示对应的缩略图图像所代表的场景显示为平铺图像251a。注意,可根据与参照图35描述的缩略图图像232相同的方法来强调显示缩略图图像271,包括显示增强的缩略图图像271’。
当在由指针231指示强调显示的缩略图图像271’的状态下用户使用操作单元17双击时,如图38所示从与缩略图图像271’(271)对应的帧开始播放内容233a。图38示出了当在层1模式下用指针231指示缩略图图像271’的状态下执行双击时所发生的示例。
当在层1模式中以指针231指示缩略图图像271’(图37)的状态下用户进行双击时,显示控制单元213将显示模式从层1模式转变为层0模式。显示控制单元213然后在显示单元132上的显示画面的左上部显示窗口233,例如如图38所示。该窗口233在其中显示从与缩略图图像271’(271)对应的帧播放的内容233a。
接下来,图39示出了当在层1模式中在由指针231指示的缩略图图像271’的状态下进行单击时所发生的示例。当在层1模式中在由指针231指示的缩略图图像271’(图37)的状态下用户单击鼠标时,显示控制单元213将显示模式从层1模式转变为层2模式。显示控制单元213然后在显示单元132上的显示画面中显示窗口291,例如如图39所示。位于该窗口291中的是平铺图像291a、时钟标记291b和时间条291c。
平铺图像291a代表以与缩略图图像271’(271)的显示相同的方式的缩略图图像的图像列表。也就是说,平铺图像291a是与构成内容233a的帧中对应于缩略图图像271’的帧具有相同的符号的缩略图图像的列表。
注意,除了来自划分单元151的章节点数据之外,显示数据生成单元212还被提供有内容233a和内容233a的符号串。显示数据生成单元212基于来自划分单元151的符号串,从来自划分单元151的内容233a中提取具有与对应于缩略图图像271’的帧的符号相同的符号的帧。
显示数据生成单元212然后将所提取的帧分别取作缩略图图像,生成作为这些缩略图图像的列表的平铺图像291a,并且将包括生成的平铺图像291a的显示数据提供到显示控制单元213。显示控制单元213然后基于来自显示数据生成单元212的显示数据来控制显示单元132,以在显示单元132的显示画面上显示包括平铺图像291a的窗口291。
在不是构成平铺图像291a的所有缩略图图像都可以被显示的情况下,在窗口291中显示滚动条。替选地,可省略一部分缩略图图像,以使得平铺图像291a可以限制在窗口291中。
时钟标记291b是显示在内容233a的总播放时间中与单击的缩略图图像271’对应的正播放的帧的播放位置的图标,并且以与图36中的时钟标记233b相同的方式来配置。时间条291c显示在内容233a的总播放时间中与单击的缩略图图像对应的正播放的帧的播放位置,并且以与图36中的时间条233c相同的方式来配置。因此,在时间条291c中显示例如数量等于多个用作平铺图像291a的多个缩略图图像的数量的播放位置。
另外,在用户执行鼠标悬停操作时,以强调方式显示由指针231指示的特定缩略图图像,在该鼠标悬停操作中,使用操作单元17以指针231来指示构成平铺图像291a的多个缩略图图像中的特定缩略图图像。此时,在时间条291c处,以强调方式显示用指针231指示的缩略图图像的播放位置显示,比如以与其它播放位置显示不同的颜色以强调方式来显示。在图39中,以与当用户执行以指针231指示缩略图图像271的鼠标悬停操作并且显示缩略图图像271’时(在图37中)相同的方式,以强调方式来显示特定缩略图图像。
当在由指针231指示强调显示的缩略图图像的状态下用户使用操作单元17进行双击时,以与图38所示相同的方式,从与缩略图图像对应的帧开始播放内容233a。
记录器131的操作的描述
接下来,将描述图26中的记录器131(特别是呈现单元152)执行的呈现处理。在步骤S221中,划分单元151执行与图1中的划分单元15相同的处理。另外,划分单元151以与图17中的划分单元71相同的方式生成章节点数据(章节ID),并且将其提供到呈现单元152的显示数据生成单元212。此外,划分单元151将构成从符号串生成单元14提供的符号串的符号与构成内容的相应帧相关,并且将其提供到呈现单元152的显示数据生成单元212。另外,划分单元151将从内容存储单元11读出的内容提供到呈现单元152的特征量提取单元211。
在步骤S222中,特征量提取单元211以与图20所示的特征量提取单元112相同的方式提取特征量时间序列数据,并且将其提供到显示数据生成单元212。也就是说,特征量提取单元211提取面部区域时间序列数据、音频功率时间序列数据、放大强度时间序列数据和缩小强度时间序列数据中的至少一个作为特征量时间序列数据,并且将其提供到显示数据生成单元212。
在步骤S223中,显示数据生成单元212基于来自特征量提取单元211的特征量时间序列数据和来自划分单元151的章节点数据,生成比如图31至图33所示的、要显示在显示单元132的显示画面上的显示数据,并且将其提供到显示控制单元213。替选地,显示数据生成单元212根据用户操作在控制单元16的控制之下生成要显示在显示单元132的显示画面上的显示数据,并且将其提供到显示控制单元213。
也就是说,如图39所示,当在由指针231指示缩略图图像271’的状态下用户进行单击时,显示数据生成单元212使用来自划分单元151的符号来生成用于显示包括平铺图像291a的窗口291的显示数据,并且将其提供到显示控制单元213。
在步骤S224中,显示控制单元213基于来自显示数据生成单元212的显示数据,使得显示单元132的显示画面进行与显示数据对应的显示。因此,图40的呈现处理结束。
如上所述,根据图40中的呈现处理,显示控制单元213在显示单元132的显示画面上显示构成内容的每个章节的缩略图图像。因此,用户可以通过参考显示单元132上的显示画面,从特定章节中的期望播放位置开始播放内容。
此外,根据图40中的呈现处理,显示控制单元213显示添加了带显示的缩略图图像。因此,可以根据带显示容易地识别与缩略图图像对应的场景的特征。具体地,用户不能从缩略图图像获得关于音频的信息,因此向缩略图图像添加指示音量大的特征的带显示使得能够容易地识别场景的特征而无需播放场景。
因此,根据图40中的呈现处理,显示控制单元213使得显示作为平铺图像251a的由缩略图图像232代表的场景的缩略图图像连同其播放位置,例如如图37所示。
另外,根据图40中的呈现处理,显示单元132显示具有与对应于缩略图图像271’的帧的符号相同的符号的帧的缩略图图像连同其播放位置,作为例如如图39所示的平铺图像291a。因此,用户可以从构成内容233a的多个帧中容易地搜索期望开始播放的帧的播放位置。因此,用户可以容易地从期望的开始位置播放内容233a。
接下来,图41示出了显示控制单元213的显示模式转变的方式的示例。在步骤ST1中,显示控制单元213的显示模式是层0模式。因此,显示控制单元213控制显示单元132以使得显示单元132的显示画面为诸如图33所示的那样。例如,当基于来自操作单元17的操作信号确定在指针231没有指示任何缩略图图像的状态下,用户使用了操作单元17来执行双击操作时,流程从步骤ST1前进到步骤ST2。
在步骤ST2中,在存在播放显示内容233a的窗口233的情况下,控制单元16控制显示数据生成单元212生成用于在最前方显示窗口233的显示数据,并且将其提供到显示控制单元213。显示控制单元213基于来自显示数据生成单元212的显示数据,将显示单元132上的显示画面改变为窗口233显示在最前方的显示画面,并且流程从步骤ST2返回到步骤ST1。
另外,控制单元16在适当时使得流程从步骤ST1前进到步骤ST3。在步骤ST3中,控制单元16基于来自操作单元17的操作信号确定用户是否执行了滑动滑块171的滑动操作等。在基于来自操作单元17的操作信号确定用户执行了滑动操作的情况下,控制单元16使得显示数据生成单元212生成与用户执行的滑动操作等对应的显示数据,该显示数据然后被提供到显示控制单元213。
显示控制单元213基于来自显示数据生成单元212的显示数据,将显示单元132上的显示画面改变为根据用户执行的滑动操作等的显示画面。因此,例如,显示单元132上的显示画面从图30所示的显示画面改变为图31所示的显示画面。此后,流程从步骤ST3返回到步骤ST1。
另外,控制单元16在适当时使得流程从步骤ST1前进到步骤ST4。在步骤ST4中,控制单元16基于来自操作单元17的操作信号确定是否存在距指针231的距离在预定阈值内的缩略图图像232。在确定不存在这样的缩略图图像232的情况下,控制单元16使流程返回到步骤ST1。
另外,在步骤ST4中基于来自操作单元17的操作信号确定存在距指针231的距离在预定阈值内的缩略图图像232的情况下,控制单元16使得处理前进到步骤ST5。注意,指针231与缩略图图像232之间的距离表示例如指针231的重心(或者箭头形式的指针231的尖端部分)与缩略图图像232的重心之间的距离。
在步骤ST5中,控制单元16使得显示数据生成单元212生成用于缩略图图像232的强调显示的显示数据,该显示数据然后被提供到显示控制单元213。显示控制单元213基于来自显示数据生成单元212的显示数据,将显示在显示单元132上的显示画面改变为诸如图35所示的显示画面。
另外,在步骤ST5中,控制单元16基于来自操作单元17的操作信号,确定在指针231与缩略图图像232之间的距离在阈值内的状态下,用户是否使用操作单元17执行了双击或单击中的一个或另一个。在控制单元16在步骤ST5中基于来自操作单元17的操作信号确定用户既没有使用操作单元17执行双击也没有使用操作单元17执行单击的情况下,流程适当地返回到步骤ST4。
另一方面,当控制单元16在步骤ST5中基于来自操作单元17的操作信号,确定在指针231与缩略图图像232之间的距离在阈值内的状态下,用户使用操作单元17执行了双击时,控制单元16使流程前进到步骤ST6。
在步骤ST6中,控制单元16使得显示数据生成单元212生成用于从与缩略图图像232对应的帧的播放位置开始播放内容233a的显示数据,该显示数据被提供到显示控制单元213。显示控制单元213将显示单元132上的显示画面改变为诸如图36所示的显示画面,并且流程返回到步骤ST1。
另外,当控制单元16在步骤ST5中基于来自操作单元17的操作信号,确定在指针231与缩略图图像232之间的距离在阈值内的状态下,用户使用操作单元17执行了单击时,控制单元16使流程前进到步骤ST7。
在步骤ST7中,控制单元16控制显示控制单元213以使得显示控制单元213的显示模式从层0模式转变为层1模式。另外,在控制单元16的控制之下,显示控制单元213将显示单元132上的显示画面改变为添加了图37所示的窗口251的、图33所示的显示画面。另外,在步骤ST7中,控制单元16基于来自操作单元17的操作信号确定用户是否使用操作单元17执行了双击,并且在确定用户执行了双击的情况下,流程前进到步骤ST8。
在步骤ST8中,控制单元16使得显示数据生成单元212生成用于从与最靠近指针231的缩略图图像232对应的帧的播放位置开始播放内容233a的显示数据,该显示数据被提供到显示控制单元213。显示控制单元213将显示单元132上的显示画面改变为诸如图36所示的显示画面,并流程返回到步骤ST1。
另外,在步骤ST7中,在控制单元16基于来自操作单元17的操作信号确定用户没有执行双击的情况下,流程在适当时前进到步骤ST9。
在步骤ST9中,控制单元16基于来自操作单元17的操作信号,确定是否存在距指针231的距离在预定阈值内的缩略图图像271。在确定不存在这样的缩略图图像271的情况下,控制单元16使流程前进到步骤ST10。
在步骤ST10中,控制单元16基于来自操作单元17的操作信号确定指针231是否移动到以层1模式显示的窗口251的区域之外,并且在确定指针231已移动到窗口251的区域之外的情况下,流程返回到步骤ST1。
在步骤ST1中,控制单元16使得显示数据生成单元212生成用于执行与层0模式对应的显示的显示数据,并且将其提供到显示控制单元213。显示控制单元213控制显示单元132以使得显示单元132的显示画面改变为例如图33所示的那样。在该情况下,显示控制单元213将显示模式从层1模式转变为层0模式。
另外,在步骤ST10中确定指针231没有移动到窗口251的区域之外的情况下,流程返回到步骤ST7。
在步骤ST9中,在控制单元16基于来自操作单元17的操作信号确定存在距指针231的距离在预定阈值内(例如,在窗口251内)的缩略图图像271的情况下,流程前进到步骤ST11。
在步骤ST11中,控制单元16使得显示数据生成单元212生成用于以强调方式显示缩略图图像的显示数据,并且将其提供到显示控制单元213。显示控制单元213将显示单元132的显示画面改变为诸如图37所示的显示作为强调缩略图图像271的缩略图图像271’的显示画面。
另外,在步骤ST11中,控制单元16基于来自操作单元17的操作信号,确定在指针231与缩略图图像271’之间的距离在阈值内的状态下,用户是否使用操作单元17执行了双击或单击中的一个或另一个。在控制单元16在步骤ST11中基于来自操作单元17的操作信号确定用户既没有使用操作单元17执行双击也没有使用操作单元17执行单击的情况下,流程适当地返回到步骤ST9。
另一方面,当控制单元16在步骤ST11中基于来自操作单元17的操作信号,确定在指针231与缩略图图像271’之间的距离在阈值内的状态下,用户使用操作单元17执行了双击时,控制单元16使流程前进到步骤ST12。
在步骤ST12中,控制单元16使得显示数据生成单元212生成用于从与缩略图图像271’对应的帧的播放位置开始播放内容233a的显示数据,该显示数据被提供到显示控制单元213。显示控制单元213基于来自显示数据生成单元212的显示数据,将显示单元132上的显示画面改变为诸如图38所示的显示画面,并且流程返回到步骤ST7。
另外,当控制单元16在步骤ST11中基于来自操作单元17的操作信号,确定在指针231与缩略图图像271’之间的距离在阈值内的状态下,用户使用操作单元17执行了单击时,控制单元16使流程前进到步骤ST13。
在步骤ST13中,控制单元16控制显示控制单元213以使得显示控制单元213的显示模式从层1模式转变为层2模式。另外,在控制单元16的控制之下,显示控制单元213将显示单元132上的显示画面改变为显示了窗口291的图39所示的显示画面。另外,在步骤ST13中,控制单元16基于来自操作单元17的操作信号,确定用户是否使用操作单元17执行了双击,并且在确定用户执行了双击的情况下,流程前进到步骤ST14。
在步骤ST14中,控制单元16使得显示数据生成单元212生成用于从与缩略图图像232对应的帧的播放位置开始播放内容233a的显示数据,该显示数据被提供到显示控制单元213。显示控制单元213将显示单元132上的显示画面改变为诸如图36所示的显示画面,并且流程返回到步骤ST1。
另外,在步骤ST14中,在控制单元16基于来自操作单元17的操作信号确定用户没有执行双击的情况下,流程在适当时前进到步骤ST15。
在步骤ST15中,控制单元16例如基于来自操作单元17的操作信号,确定是否存在距指针231的距离在预定阈值内的特定缩略图图像(包括在平铺图像291a中的图像)。在确定不存在这样的特定缩略图图像的情况下,控制单元16使流程前进到步骤ST16。
在步骤ST16中,控制单元16使得显示数据生成单元212生成用于显示距窗口291中的指针231的距离在阈值内的特定缩略图图像的显示数据,并且将其提供到显示控制单元213。显示控制单元213将显示单元132上的显示画面改变为以强调方式显示特定缩略图图像的显示画面。
另外,在步骤ST16中,控制单元16基于来自操作单元17的操作信号,确定在指针231与缩略图图像之间的距离在阈值内的状态下用户是否使用操作单元17执行了双击,并且在确定用户执行了双击的情况下,流程前进到步骤ST17。
在步骤ST17中,控制单元16使得显示数据生成单元212生成用于从与缩略图图像对应的帧的播放位置开始播放内容233a的显示数据,该显示数据被提供到显示控制单元213。显示控制单元213将显示单元132上的显示画面改变为诸如图36所示的显示画面,并且流程返回到步骤ST1。
另外,在步骤ST15中,在控制单元16例如基于来自操作单元17的操作信号确定不存在距指针231的距离在预定阈值内的特定缩略图图像(包括在平铺图像291a中的图像)的情况下,控制单元16使流程前进到步骤ST18。
在步骤ST18中,控制单元16基于来自操作单元17的操作信号确定指针231是否移动到以层2模式显示的窗口291的区域之外,并且在确定指针231已移动到窗口291的区域之外的情况下,流程返回到步骤ST1。
在步骤ST1中,控制单元16控制显示单元132以使得显示模式从层2模式转变为层0模式,并且以相同方式执行随后的处理。
另外,在控制单元16在步骤ST18中基于来自操作单元17的操作信号确定指针231没有移动到以层2模式显示的窗口291的区域之外的情况下,流程返回到步骤ST13,并且以相同方式执行随后的处理。
4.变型例
本技术可以采用以下配置。
(1)一种显示控制装置,包括:章节点生成单元,被配置成生成将由多个静止图像构成的内容分割成多个章节的章节点数据;以及显示控制单元,被配置成:基于所述章节点数据,在针对每个章节而设置的章节显示区域中显示代表所述章节的每个场景的代表图像,以及显示构成所述内容的所述多个静止图像中的、基于通过预定用户操作所选择的静止图像指示的图像组,连同所述内容的总播放时间中构成该图像组的静止图像的播放位置。
(2)根据(1)所述的显示控制装置,其中,所述章节点生成单元生成通过将所述内容分割成具有下述章节数的章节而获得的章节点数据:所述章节数根据由所述用户执行的改变操作而改变;并且其中,所述显示控制单元在针对具有所述章节数的每个章节而设置的章节显示区域中显示代表所述章节的场景的代表图像。
(3)根据(1)或(2)所述的显示控制装置,其中,响应于选择了构成所述内容的所述多个静止图像中的已被显示作为所述代表图像的静止图像,所述显示控制单元连同所述播放位置一起显示构成由所选择的代表图像所代表的场景的每个静止图像。
(4)根据(1)至(3)中的任意一项所述的显示控制装置,其中,响应于选择了构成所述内容的所述多个静止图像中的已被显示作为构成所述场景的静止图像的静止图像,所述显示控制单元连同所述播放位置一起显示具有与所选择的静止图像类似的显示内容的每个静止图像。
(5)根据(1)至(4)中的任意一项所述的显示控制装置,其中,所述显示控制单元以强调方式显示关注的静止图像的播放位置。
(6)根据(4)或(5)所述的显示控制装置,还包括:符号串生成单元,被配置成基于所述内容生成每个代表构成所述内容的静止图像的属性的符号;其中,响应于选择了构成所述内容的所述多个静止图像中的已被显示作为构成所述场景的静止图像的静止图像,所述显示控制单元连同所述播放位置一起显示与所选择的静止图像的符号相同的符号对应的每个静止图像。
(7)根据(1)至(6)中的任意一项所述的显示控制装置,还包括:分割单元,被配置成基于由所述符号串生成单元生成的符号的分散,将所述内容分割成多个章节。
(8)根据(1)至(7)中的任意一项所述的显示控制装置,还包括:特征量提取单元,被配置成从所述内容中提取代表所述内容的特征的特征量;其中,所述显示控制单元基于所述特征量,在为每个章节而设置的章节显示区域中将代表特定场景的特征的特征显示添加到代表所述特定场景的代表图像来进行显示。
(9)根据(1)至(8)中的任意一项所述的显示控制装置,其中,所述显示控制单元显示通过缩小所述静止图像而获得的缩略图图像。
(10)一种用于显示图像的显示控制装置的显示控制方法,所述方法包括:生成将由多个静止图像构成的内容分割成多个章节的章节点数据;以及基于所述章节点数据,在针对每个章节而设置的章节显示区域中显示代表所述章节的每个场景的代表图像,以及显示构成所述内容的所述多个静止图像中的、基于通过预定用户操作所选择的静止图像指示的图像组,连同所述内容的总播放时间中构成该图像组的静止图像的播放位置。
(11)一种使得计算机用作以下单元的程序:章节点生成单元,被配置成生成将由多个静止图像构成的内容分割成多个章节的章节点数据;以及显示控制单元,被配置成:基于所述章节点数据,在针对每个章节而设置的章节显示区域中显示代表所述章节的每个场景的代表图像,以及显示构成所述内容的所述多个静止图像中的、基于通过预定用户操作所选择的静止图像指示的图像组,连同所述内容的总播放时间中构成该图像组的静止图像的播放位置。
应用本技术的计算机的描述
接下来,上述一系列处理可由硬件来执行,或者可由软件来执行。在由软件来执行这一系列处理的情况下,构成其软件的程序安装在通用计算机等中。
因此,图42示出了安装了执行上述一系列处理的程序的计算机的实施例的配置示例。
程序可记录在用作计算机中预先包括的记录介质的硬盘305或ROM303中。
替选地,程序可存储(记录)在可移除记录介质311中。这样的可移除记录介质311可被提供作为所谓的封装软件。这里,可移除记录介质311的示例包括软盘、光盘只读存储器(CD-ROM)、磁光(MO)盘、数字通用盘(DVD)、磁盘和半导体存储器。
注意,除了如上所述从可移除记录介质311安装到计算机之外,程序可经由通信网络或广播网络而被下载到计算机,并且安装在内置硬盘305中。也就是说,程序可经由用于数字卫星广播的卫星通过无线从下载站点传输到计算机,或者可经由诸如局域网(LAN)或因特网的网络通过线缆而被传输到计算机。
计算机包括中央处理单元(CPU)302,并且CPU302经由总线301连接到输入/输出接口310。
在通过用户操作输入单元307等而经由输入/输出接口310输入了命令的情况下,响应于该命令,CPU302执行存储在只读存储器(ROM)303中的程序。替选地,CPU302将存储在硬盘305中的程序加载到随机存取存储器(RAM)304并且执行该程序。
因此,CPU302执行依照上述流程图的处理,或者要由上述框图的配置执行的处理。例如,CPU302适当地经由输入/输出接口310从输出单元306输出其处理结果或者从通信单元308进行传送,进一步记录在硬盘305中等等。
注意,输入单元307由键盘、鼠标、麦克风等构成。另外,输出单元306由液晶显示器(LCD)、扬声器等构成。
这里,对于本说明书,计算机根据程序执行的处理不一定必须以沿着被描述为流程图的顺序以时间顺序来处理。也就是说,计算机根据程序执行的处理还包括要并行地或单独地执行的处理(例如,并行处理或根据对象的处理)。
另外,程序可由一个计算机(处理器)来处理,或者可由多个计算机以分布式方式来处理。此外,程序可被传输到远程计算机以进行执行。
注意,本公开的实施例不限于上述实施例,并且在不背离本公开的实质的情况下可进行各种修改。
本公开包含与2012年3月28日向日本专利局提交的日本优先权专利申请JP2012-074114中公开的主题相关的主题,其全部内容通过引用合并于此。
本领域的技术人员应理解,在所附权利要求或其等同物的范围内,取决于设计要求和其它因素,可进行各种修改、组合、子组合和变更。

Claims (11)

1.一种显示控制装置,包括:
章节点生成单元,被配置成生成将由多个静止图像构成的内容分割成多个章节的章节点数据;以及
显示控制单元,被配置成:
基于所述章节点数据,在针对每个章节而设置的章节显示区域中显示代表所述章节的每个场景的代表图像,以及
显示构成所述内容的所述多个静止图像中的、基于通过预定用户操作所选择的静止图像指示的图像组,连同所述内容的总播放时间中构成该图像组的静止图像的播放位置。
2.根据权利要求1所述的显示控制装置,
其中,所述章节点生成单元生成通过将所述内容分割成具有下述章节数的章节而获得的章节点数据:所述章节数根据由所述用户执行的改变操作而改变;
并且其中,所述显示控制单元在针对具有所述章节数的每个章节而设置的章节显示区域中显示代表所述章节的场景的代表图像。
3.根据权利要求1所述的显示控制装置,其中,响应于选择了构成所述内容的所述多个静止图像中的已被显示作为所述代表图像的静止图像,所述显示控制单元连同所述播放位置一起显示构成由所选择的代表图像所代表的场景的每个静止图像。
4.根据权利要求3所述的显示控制装置,其中,响应于选择了构成所述内容的所述多个静止图像中的已被显示作为构成所述场景的静止图像的静止图像,所述显示控制单元连同所述播放位置一起显示具有与所选择的静止图像类似的显示内容的每个静止图像。
5.根据权利要求4所述的显示控制装置,其中,所述显示控制单元以强调方式显示关注的静止图像的播放位置。
6.根据权利要求4所述的显示控制装置,还包括:
符号串生成单元,被配置成基于所述内容生成每个代表构成所述内容的静止图像的属性的符号;
其中,响应于选择了构成所述内容的所述多个静止图像中的已被显示作为构成所述场景的静止图像的静止图像,所述显示控制单元连同所述播放位置一起显示与所选择的静止图像的符号相同的符号对应的每个静止图像。
7.根据权利要求6所述的显示控制装置,还包括:
分割单元,被配置成基于由所述符号串生成单元生成的符号的分散,将所述内容分割成多个章节。
8.根据权利要求1所述的显示控制装置,还包括:
特征量提取单元,被配置成从所述内容中提取代表所述内容的特征的特征量;
其中,所述显示控制单元基于所述特征量,在为每个章节而设置的章节显示区域中将代表特定场景的特征的特征显示添加到代表所述特定场景的代表图像来进行显示。
9.根据权利要求1所述的显示控制装置,其中,所述显示控制单元显示通过缩小所述静止图像而获得的缩略图图像。
10.一种用于显示图像的显示控制装置的显示控制方法,所述方法包括:
生成将由多个静止图像构成的内容分割成多个章节的章节点数据;以及
基于所述章节点数据,在针对每个章节而设置的章节显示区域中显示代表所述章节的每个场景的代表图像,以及
显示构成所述内容的所述多个静止图像中的、基于通过预定用户操作所选择的静止图像指示的图像组,连同所述内容的总播放时间中构成该图像组的静止图像的播放位置。
11.一种使得计算机用作以下单元的程序:
章节点生成单元,被配置成生成将由多个静止图像构成的内容分割成多个章节的章节点数据;以及
显示控制单元,被配置成:
基于所述章节点数据,在针对每个章节而设置的章节显示区域中显示代表所述章节的每个场景的代表图像,以及
显示构成所述内容的所述多个静止图像中的、基于通过预定用户操作所选择的静止图像指示的图像组,连同所述内容的总播放时间中构成该图像组的静止图像的播放位置。
CN2013100923727A 2012-03-28 2013-03-21 显示控制装置、显示控制方法和程序 Pending CN103365942A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012074114A JP2013207529A (ja) 2012-03-28 2012-03-28 表示制御装置、表示制御方法、及びプログラム
JP2012-074114 2012-03-28

Publications (1)

Publication Number Publication Date
CN103365942A true CN103365942A (zh) 2013-10-23

Family

ID=49236776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013100923727A Pending CN103365942A (zh) 2012-03-28 2013-03-21 显示控制装置、显示控制方法和程序

Country Status (3)

Country Link
US (1) US20130262998A1 (zh)
JP (1) JP2013207529A (zh)
CN (1) CN103365942A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105933772A (zh) * 2015-08-18 2016-09-07 盯盯拍(深圳)技术股份有限公司 交互方法、交互装置以及交互系统
CN111669304A (zh) * 2020-05-19 2020-09-15 广东科徕尼智能科技有限公司 基于边缘网关的智能家居场景控制方法、设备及存储介质
CN111858229A (zh) * 2019-04-26 2020-10-30 富士通株式会社 优化装置及优化装置的控制方法
CN116414972A (zh) * 2023-03-08 2023-07-11 浙江方正印务有限公司 一种资讯内容自动播报和生成简讯的方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130179790A1 (en) 2012-01-06 2013-07-11 Level 3 Communications, Llc Method and apparatus for generating and converting sales opportunities
USD771078S1 (en) * 2013-01-04 2016-11-08 Level 3 Communications, Llc Display screen or portion thereof with graphical user interface
USD771079S1 (en) 2013-01-04 2016-11-08 Level 3 Communications, Llc Display screen or portion thereof with graphical user interface
USD757053S1 (en) 2013-01-04 2016-05-24 Level 3 Communications, Llc Display screen or portion thereof with graphical user interface
USD742891S1 (en) * 2013-04-23 2015-11-10 Eidetics Corporation Display screen or portion thereof with a graphical user interface

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6571054B1 (en) * 1997-11-10 2003-05-27 Nippon Telegraph And Telephone Corporation Method for creating and utilizing electronic image book and recording medium having recorded therein a program for implementing the method
EP1909282A4 (en) * 2005-07-28 2009-12-02 Panasonic Corp RECORDING DEVICE AND REPRODUCTION DEVICE
US7421455B2 (en) * 2006-02-27 2008-09-02 Microsoft Corporation Video search and services
EP2034487B1 (en) * 2007-09-04 2018-04-25 Samsung Electronics Co., Ltd. Method and system for generating thumbnails for video files
CN103402070B (zh) * 2008-05-19 2017-07-07 日立麦克赛尔株式会社 记录再现装置及方法
WO2010006334A1 (en) * 2008-07-11 2010-01-14 Videosurf, Inc. Apparatus and software system for and method of performing a visual-relevance-rank subsequent search
US8209396B1 (en) * 2008-12-10 2012-06-26 Howcast Media, Inc. Video player
US20100150520A1 (en) * 2008-12-17 2010-06-17 Dolby Laboratories Licensing Corporation Method and system for controlling playback of a video program including by providing visual feedback of program content at a target time
US8914826B2 (en) * 2008-12-23 2014-12-16 Verizon Patent And Licensing Inc. Method and system for creating a chapter menu for a video program
JP4625862B2 (ja) * 2008-12-24 2011-02-02 株式会社東芝 オーサリング装置およびオーサリング方法
US8363888B2 (en) * 2009-03-18 2013-01-29 Shutterfly, Inc. Proactive creation of photobooks
US8582952B2 (en) * 2009-09-15 2013-11-12 Apple Inc. Method and apparatus for identifying video transitions
US9595300B2 (en) * 2009-10-21 2017-03-14 Media Ip, Llc Contextual chapter navigation
US20110161818A1 (en) * 2009-12-29 2011-06-30 Nokia Corporation Method and apparatus for video chapter utilization in video player ui
US20120114307A1 (en) * 2010-11-09 2012-05-10 Jianchao Yang Aligning and annotating different photo streams
CN103959284B (zh) * 2011-11-24 2017-11-24 微软技术许可有限责任公司 使用置信图像样本进行重新排名

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105933772A (zh) * 2015-08-18 2016-09-07 盯盯拍(深圳)技术股份有限公司 交互方法、交互装置以及交互系统
CN105933772B (zh) * 2015-08-18 2019-06-21 盯盯拍(深圳)技术股份有限公司 交互方法、交互装置以及交互系统
CN111858229A (zh) * 2019-04-26 2020-10-30 富士通株式会社 优化装置及优化装置的控制方法
CN111669304A (zh) * 2020-05-19 2020-09-15 广东科徕尼智能科技有限公司 基于边缘网关的智能家居场景控制方法、设备及存储介质
CN111669304B (zh) * 2020-05-19 2022-03-15 广东好太太智能家居有限公司 基于边缘网关的智能家居场景控制方法、设备及存储介质
CN116414972A (zh) * 2023-03-08 2023-07-11 浙江方正印务有限公司 一种资讯内容自动播报和生成简讯的方法
CN116414972B (zh) * 2023-03-08 2024-02-20 浙江方正印务有限公司 一种资讯内容自动播报和生成简讯的方法

Also Published As

Publication number Publication date
JP2013207529A (ja) 2013-10-07
US20130262998A1 (en) 2013-10-03

Similar Documents

Publication Publication Date Title
CN103365942A (zh) 显示控制装置、显示控制方法和程序
CN103365650A (zh) 信息处理设备、信息处理方法和程序
US9280709B2 (en) Information processing device, information processing method and program
US9232205B2 (en) Information processing device, information processing method and program
US8457469B2 (en) Display control device, display control method, and program
US20120057775A1 (en) Information processing device, information processing method, and program
US8285114B2 (en) Electronic apparatus and display method
US7986819B2 (en) Electronic apparatus and video display method
US7757172B2 (en) Electronic equipment and method for displaying images
CN102099860B (zh) 用于编辑视频剪辑的用户界面
US8503770B2 (en) Information processing apparatus and method, and program
US8396332B2 (en) Electronic apparatus and face image display method
US8326623B2 (en) Electronic apparatus and display process method
US8503832B2 (en) Electronic device and facial image display apparatus
US20090034806A1 (en) Electronic apparatus and face image display method
CN102981733A (zh) 信息处理装置、运动画面摘要方法以及计算机可读介质
US10129515B2 (en) Display control device, recording control device, and display control method
CN102821261A (zh) 显示设备、对象显示方法和程序
EP2184693A1 (en) Apparatus, method, and program for retrieving multimedia content related information based on content associated metadata
CN102860031A (zh) 用于识别运动图像内容中包含的静止图像的装置和方法
CN103067780A (zh) 图像处理装置、图像处理方法和程序
CN102084337A (zh) 时空媒体对象布局
JP2013207530A (ja) 情報処理装置、情報処理方法、及びプログラム
US20110304779A1 (en) Electronic Apparatus and Image Processing Method
EP1134740A3 (en) Data processing method and storage medium, and program for causing computer to execute the data processing method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20131023