CN101778233B

CN101778233B - 数据处理装置以及数据处理方法

Info

Publication number: CN101778233B
Application number: CN2010100029016A
Authority: CN
Inventors: 浅野康治; 小林贤一郎
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-01-09
Filing date: 2010-01-08
Publication date: 2012-06-06
Anticipated expiration: 2030-01-08
Also published as: JP4873018B2; US9837125B2; CN101778233A; US20100179972A1; JP2010161722A; US20180068690A1; US20150221344A1; US9049418B2

Abstract

本发明公开了数据处理装置、数据处理方法及程序。数据处理装置包括：文本获取机构，获取要用作关键字的文本，关键字将经历音频检索，文本与对应于内容数据的内容相关，内容数据包括图像数据和音频数据；关键字获取机构，从文本中获取关键字；音频检索机构，从内容数据的音频数据中检索关键字的发声，并获取表示发声被检索到的关键字的发声定时的定时信息；以及回放控制机构，根据在定时信息所表示的时间附近的图像数据来生成将与关键字一起显示的代表图像的代表图像数据，并执行用于将与代表图像数据相对应的代表图像与在定时信息所表示的时间被发声的关键字一起显示的回放控制。

Description

数据处理装置以及数据处理方法

技术领域

本发明涉及数据处理装置、数据处理方法及程序。特别地，本发明涉及例如能够使用户可以很容易掌握诸如电视广播节目之类的内容的细节的数据处理装置、数据处理方法和程序。

背景技术

摘要回放(digest playback)是使得用户可以很容易掌握诸如电视广播节目之类的、包括图像和语音的内容的细节(概要)的内容回放方法。

根据摘要回放，基于内容中包含的图像或语音的特征量而将内容划分为若干场景。然后，生成并显示诸如代表性图像(例如，各个场景的开头图像)的缩略图之类的用于摘要回放的图像。

此外，作为一种用于在生成用于摘要回放的图像时以相对较低的处理负荷来有效提取内容中包含的对话部分的方法，例如日本未实审专利申请公布No.2008-124551公开了一种在字幕显示时段回放的语音的回放时段期间提取对话语音的回放时段的方法。

发明内容

但是，当在摘要回放中仅显示各个场景的开头图像的缩略图时，用户可能难以从场景的缩略图中掌握该场景的细节。

例如，在新闻节目(报导节目)的情况下，新闻节目各场景的开头图像主要由新闻广播员(播音员)的图像组成。

在这种情况下，通过摘要回放而显示的缩略图将主要由新闻广播员的缩略图像组成。因此，仅通过观看这些缩略图难以掌握各场景的细节。

因此，希望使用户能够很容易掌握包括图像和语音的内容的细节。

根据本发明一个实施例，提供了一种数据处理装置或者一种用于使计算机用作数据处理装置的程序，数据处理装置包括：文本获取装置，用于获取要用作关键字的文本，所述关键字将经历音频检索，所述文本与对应于内容数据的内容相关，内容数据包括图像数据和音频数据；关键字获取装置，用于从文本中获取关键字；音频检索装置，用于从内容数据的音频数据中检索关键字的发声，并获取表示发声被检索到的关键字的发声定时的定时信息；以及回放控制装置，用于根据内容数据的图像数据中在定时信息所表示的时间附近的图像数据，来生成将与关键字一起显示的代表图像的代表图像数据，并执行用于将与代表图像数据相对应的代表图像与在该定时信息所表示的时间被发声的关键字一起显示的回放控制。

根据本发明另一实施例，提供了一种数据处理方法，用于使数据处理装置能够执行以下步骤：获取要用作关键字的文本，所述关键字将经历音频检索，所述文本与对应于内容数据的内容相关，内容数据包括图像数据和音频数据；从文本中获取关键字；从内容数据的音频数据中检索关键字的发声，并获取表示发声被检索到的关键字的发声定时的定时信息；以及根据内容数据的图像数据中在所述定时信息所表示的时间附近的图像数据来生成将与关键字一起显示的代表图像的代表图像数据，并执行用于将与该代表图像数据相对应的代表图像与在所述定时信息所表示的时间被发声的关键字一起显示的回放控制。

根据本发明实施例，与对应于内容数据(包括图像数据和音频数据)的内容相关并且将用作要经历音频检索的关键字的文本被获取，并且关键字将从这些文本中被获取。而且，关键字的发声被从内容数据的音频数据中检索到，并且表示发声被检索到的关键字的发声定时的定时信息被获取。此外，根据内容数据的图像数据中、在定时信息所表示的时间附近的图像数据，将与关键字一起显示的代表图像的代表图像数据被生成。此外，与该代表图像数据相对应的代表图像与在所述定时信息所表示的时间被发声的关键字一起被显示。

数据处理装置可以是独立装置，并且可以是一个装置中包括的内部块。

可通过经由传输介质传送来提供程序，或者可通过记录在记录介质中来提供程序。

根据本发明实施例，用户能够很容易掌握内容中包括的各场景的细节。也就是说，例如，在包括图像和语音的内容中，获取预定字词说明了细节的场景的定时，并且将这些定时附近的图像与预定字词一起显示。结果，用户将能够很容易掌握内容中包括的各场景的细节。

附图说明

图1是图示出根据本发明一个实施例的记录器的示例性配置的框图。

图2是出定时信息获取处理的流程图。

图3是图示出回放处理的流程图。

图4是图示出文本获取部件的第一示例性配置的框图。

图5是图示出根据文本获取部件的第一示例性配置的处理示例的流程图。

图6是图示出代表图像的显示示例的示图。

图7是图示出代表图像的显示示例的示图。

图8是图示出文本获取部件的第二示例性配置的框图。

图9是图示出根据文本获取部件的第二示例性配置的处理示例的流程图。

图10是图示出特定内容检索处理的流程图。

图11是图示出音频检索部件的示例性配置的框图。

图12是图示出由音频检索部件执行的索引生成处理的流程图。

图13是图示出代表图像生成部件的第一示例性配置的框图。

图14是图示出根据代表图像生成部件的第一示例性配置的处理示例的流程图。

图15是图示出代表图像生成部件的第二示例性配置的框图。

图16是图示出根据代表图像生成部件的第二示例性配置的处理示例的流程图。

图17是图示出根据代表图像生成部件的第二示例性配置的另一处理示例的流程图。

图18是图示出列表修改处理的流程图。

图19是图示出根据本发明一个实施例的计算机的示例性配置的框图。

具体实施方式

根据本发明实施例的记录器的示例性配置

参考图1，记录器例如是HD(硬盘)记录器，并且包括内容获取部件11、内容保存部件12、定时信息获取单元20、和回放控制单元30。

内容获取部件11被配置为获取例如电视广播节目形式的内容(例如，图像和语音)的内容数据，并将所获取的内容数据提供给内容保存部件12。

当内容数据与该内容数据所对应的内容的元数据相关联时，内容获取部件11还获取元数据并将它们提供给内容保存部件12。

也就是说，内容获取部件11是一种调谐器，该调谐器接收诸如数字广播之类的电视广播的广播数据并被配置为例如通过接收作为从未图示出的广播台发送(广播)的广播数据的TS(传送流)来获取内容数据并将这些内容数据提供给内容保存部件12。

这里，广播数据包括作为节目(亦即内容)数据的内容数据。此外，如果需要，广播数据还可以包括作为节目元数据(与节目(内容)相关联的元数据)的EPG(电子节目指南)数据等。

而且，作为节目数据的内容数据至少包括节目的图像数据和与该图像数据相关联的音频数据。此外，内容数据有时候可以包括诸如闭合字幕(closed caption)之类的字幕数据。当在内容数据中包括字幕数据时，内容数据还可以包括表示与字幕数据相对应的字幕被显示的显示时间的显示时间信息。

内容获取部件11例如可由通信接口构成，该通信接口经由诸如LAN(局域网)或因特网之类的网络执行通信。在这种情况下，内容获取部件11通过接收可从网络上的服务器下载的内容数据和元数据(例如，所谓的 iEPG数据)来获取内容数据。

此外，内容获取部件11可以通过回放记录在诸如DVD之类的包装介质上的内容来获取内容数据。

内容保存部件12例如由诸如HD(硬盘)之类的大容量记录(存储)介质构成，并且被配置为在需要时在其中记录(存储或保存)从内容获取部件11提供来的内容数据。

当从内容获取部件11向内容保存部件12提供了诸如EPG数据之类的内容(节目)元数据时，内容保存部件12在其中记录该元数据。

在内容保存部件12中记录内容数据相当于录像(包括程式化录像、所谓的自动录像、转录等)。

定时信息获取单元20用作一种数据处理装置，该数据处理装置获取表示在内容数据被记录在内容保存部件12中的内容的回放期间关键字被发声的时间的定时信息。

具体而言，定时信息获取单元20包括文本获取部件21、关键字获取部件22、音频数据获取部件23、音频检索部件24、和定时信息存储部件25。

文本获取部件21被配置为获取要用作关键字(在音频检索部件24执行音频检索时要使用这些关键字)的文本并将这些文本提供给关键字获取部件22。

关键字获取部件22被配置为从自文本获取部件21提供来的文本中获取关键字(这些关键字是要用作音频检索目标的字符串)并将这些关键字提供给音频检索部件24。

这里，关键字获取部件22可以获取从文本获取部件21提供来的文本的整体作为一个关键字。

而且，关键字获取部件22可以对来自文本获取部件21的文本执行诸如词素分析(morphology analysis)之类的自然语言处理，以便将这些文本分解为词素(morpheme)，从而获取构成这些文本的词素的整体或一部分作为关键字。

这里，关键字获取部件22可以获取例如词素的阅读信息(音素 (phoneme))，从而基于该阅读信息来获取读起来较长的字词(也就是，具有预定数目或更多数目的音素的字词)作为关键字。

此外，关键字获取部件22可以获取具有预定出现频率或更高频率的词素作为关键字，同时仅获取自立字词(self-sufficient word)而排除诸如助词之类的附属字词。

此外，关键字获取部件22可以获取其词性为专有名词的词素作为关键字。

除了上述之外，关键字获取部件22还可以获取例如通过所谓的特征表述提取技术提取的字符串来作为关键字。

音频数据获取部件23被配置为通过阅读内容数据被记录在内容保存部件12中的内容中的目标内容的内容数据的音频数据来获取音频数据，并将该音频数据提供给音频检索部件24。

音频检索部件24被配置为执行如下音频检索：从自音频数据获取部件23提供来的目标内容的音频数据中检索从关键字获取部件22提供来的关键字的发声(utterance)。另外，音频检索部件24还获取表示其发声被检索到的关键字的发声定时的定时信息：也就是说，例如基于目标内容的开始来获取关键字被发声的时间(定时)。

这里，作为定时信息，例如可以使用时间码。而且，作为关键字的发声定时，例如可以使用发声的开始定时或结束定时，并且除此之外，还可以使用发声期间的任意定时。

针对目标内容，音频检索部件24生成定时信息列表并将该定时信息列表提供给定时信息存储部件25，在定时信息列表中，以相关联方式登记了检索到了其发声的关键字以及表示其发声定时的定时信息。

定时信息存储部件25被配置为以相关联方式存储从音频检索部件24提供来的目标内容的定时信息列表和这些目标内容(或其标识信息)。

回放控制单元30被配置为执行如下回放控制：控制诸如回放内容的摘要回放之类的回放，其中，在内容数据被记录在内容保存部件12中的内容中的、指定要回放的内容被用作回放内容。

具体而言，回放控制单元30包括代表图像生成部件31和显示控制部件32。

代表图像生成部件31被配置为从内容保存部件12获取回放内容的内容数据的图像数据，并且还从定时信息存储部件25获取回放内容的定时信息列表。

而且，代表图像生成部件31根据回放内容的图像数据中的、在由定时信息列表中登记的定时信息表示的时间附近的图像数据，来生成代表图像的代表图像数据，该代表图像的代表图像数据将和与该定时信息相关联的关键字一起被显示。

这里，作为代表图像，例如可以使用所谓的缩略图，缩略图是通过缩小原始图像而获得的大小缩小了的图像。

代表图像生成部件31将成对的对应于定时信息的关键字和代表图像数据提供给显示控制部件32。也就是说，各组与定时信息相关联的关键字和根据在该时间点所表示的时间附近的图像数据来生成的代表图像数据被提供给显示控制部件32。

显示控制部件32将与从代表图像生成部件31提供来的代表图像数据相对应的代表图像与和该代表图像数据配对的关键字一起显示在诸如TV(电视接收机)之类的显示设备40上。

在具有上述配置的记录器中，执行了定时信息获取处理、回放处理等。

定时信息获取处理由定时信息获取单元20执行。在定时信息获取处理中，获取了表示内容回放期间的关键字发声定时的定时信息。

回放处理由回放控制单元30执行。在回放处理中，利用在定时信息获取处理中获取的定时信息来执行摘要回放等。

定时信息获取处理

现在参考图2，将描述由图1的定时信息获取单元20执行的定时信息获取处理。

在图1的记录器中，将假设在内容保存部件12中记录了一个或多个内容的内容数据。而且，定时信息获取处理是在任意定时执行(开始) 的。

在定时信息获取处理中，在步骤S11，文本获取部件21获取文本并将这些文本提供给关键字获取部件22，并且处理流程行进到步骤S12。

在步骤S12，关键字获取部件22从自文本获取部件21提供的文本中获取作为要经历音频检索的字符串的关键字，并生成其中登记了一个或多个关键字的关键字列表。

也就是说，关键字获取部件22从自文本获取部件21提供的文本中提取要用作音频检索目标的一个或多个字符串，并生成各个字符串被登记为关键字的关键字列表。

然后，处理流程从步骤S12行进到步骤S13，其中，音频数据获取部件23选择内容数据被记录在内容保存部件12中的内容中的、未被选作目标内容的内容之一作为目标内容。此外，在步骤S13，音频数据获取部件23还从内容保存部件12获取目标内容的内容数据的音频数据并将该音频数据提供给音频检索部件24。

然后，处理流程从步骤S13行进到步骤S14，并且在步骤S14到S19执行用于生成目标内容的定时信息列表的定时信息列表生成处理。

具体而言，在步骤S14，音频检索部件24判断在从关键字获取部件22提供来的关键字列表中是否登记了关键字。

当在步骤S14判定在关键字列表中登记了关键字时，处理流程行进到步骤S15，其中，音频检索部件24选择关键字列表中登记的关键字之一作为目标关键字，然后处理流程行进到步骤S16。

在步骤S16，音频检索部件24执行音频检索以从自音频数据获取部件23提供来的目标内容的音频数据中检索目标关键字的发声，并且处理流程行进到步骤S17。

这里，例如可使用所谓的关键字辨识(keyword spotting)来执行从音频数据中对目标关键字的发声的音频检索。

此外，可使用其它方法来执行音频检索，例如，生成从音频数据获取部件23提供给音频检索部件24的音频数据的音素以及这些音素的位置索引从而根据索引来找到形成目标关键字的一序列音素的方法(下文中也称为基于索引的检索方法)。例如在N.Kanda等人的“Open-VocabularyKeyword Detection from Super-Large Scale Speech Database”，IEEE SignalProcessing Society 2008 International Workshop on Multimedia SignalProcessing中描述了该基于索引的检索方法。

在步骤S17，音频检索部件24基于步骤S16的音频检索结果来判断在目标内容的音频数据中是否包括目标关键字的发声(也就是，与目标关键字的发声相对应的音频数据)。

当在步骤S17判定在目标内容的音频数据中包括目标关键字的发声时，音频检索部件24检测该发声的定时，然后处理流程行进到步骤S18。

在步骤S18，音频检索部件24以相关联方式将目标关键字与表示该目标关键字的发声定时的定时信息登记(存储)在目标内容的定时信息列表中，并且处理流程行进到步骤S19。

另一方面，当在步骤S17判定在目标内容的音频数据中不包括目标关键字的发声时，则处理流程在跳过步骤S18的情况下行进到步骤S19。

在步骤S19，音频检索部件24从关键字列表中删除该目标关键字，然后处理流程返回到步骤S14，并重复相同处理。

当在步骤S14判定在关键字列表中没有登记关键字时，也就是说，在对步骤S12所生成的关键字列表中登记的所有关键字都执行了音频检索时，音频检索部件24将目标内容的定时信息列表提供给定时信息存储部件25，然后处理流程结束。

如上所述，在定时信息获取处理中，文本获取部件21获取文本，并且关键字获取部件22从文本中获取关键字。然后，音频检索部件24从目标内容的音频数据中检索关键字的发声，并获取表示其发声被检索到的关键字的发声定时的定时信息。

因此，可以获取内容回放期间关键字被发声的场景；也就是说，可以获取其中关键字说明了细节的场景的定时(表示定时的定时信息)。

回放处理

现在参考图3，将描述由图1的回放控制单元30执行的回放处理。

在图1的记录器中，将假设已执行了图2的定时信息获取处理，并且定时信息存储部件25已在其中存储了内容数据被记录在内容保存部件12中的所有内容的定时信息列表。

例如，当用户操作未图示出的操作单元以在内容数据被记录在内容保存部件12中的内容中指定要用于摘要回放的内容时，代表图像生成部件31在步骤S31选择用户所指定的内容作为回放内容，并且处理流程随后行进到步骤S32。

在步骤S32，代表图像生成部件31从内容保存部件12中获取回放内容的图像数据，并且还从定时信息存储部件25获取回放内容的定时信息列表，然后处理流程行进到步骤S33。

在步骤S33，代表图像生成部件31获取回放内容的图像数据中的、在定时信息列表中登记的定时信息所表示的时间附近的图像数据，并根据该图像数据来生成代表图像数据。

具体而言，代表图像生成部件31例如根据与定时信息列表中登记的定时信息所表示的时间相对应的帧(场)的图像数据来生成作为代表图像数据的缩略图像数据。

代表图像生成部件31针对定时信息列表中登记的所有定时信息生成代表图像数据，并以配对方式将各个代表图像数据和与这些代表图像数据相对应的关键字提供给显示控制部件32：也就是说，将与定时信息相关联的关键字和根据在该定时信息所表示的时间附近的图像数据来生成的代表图像数据配对。

然后，处理流程从步骤S33行进到步骤S34，其中，显示控制部件32将与从代表图像生成部件31提供来的代表图像数据相对应的一批代表图像与相应关键字一起显示在显示设备40上，并且处理流程结束。

以这种方式，在显示设备40上，代表图像被与和代表图像数据配对的关键字一起显示，这些关键字说明了包括这些代表图像的场景的细节。

因此，用户能够很容易掌握回放内容的各场景的细节。

也就是说，即使在回放内容是其中代表图像主要由新闻广播员的图像组成的新闻节目时，用户也能够通过阅读与相应代表图像一起显示的关键字来很容易掌握包括该代表图像的场景的细节。

当显示一批代表图像时，基于用于生成这些代表图像的图像数据的帧的显示时间来顺序显示这些代表图像。

虽然在此示例中使用与定时信息所表示的时间相对应的帧的缩略图作为代表图像，但是代表图像例如可以是包括与定时信息所表示的时间相对应的图像的短视频剪辑(包括具有缩小的大小的那些)。

文本获取部件21的第一示例性配置

现在参考图4，图示出了图1的文本获取部件21的第一示例性配置。

在图4中，文本获取部件21被配置为相关文本获取单元50。

相关文本获取单元50被配置为获取与内容数据被记录在内容保存部件12中的内容相关的文本(下文中也称为相关文本)并将这些文本提供给关键字获取部件22。

具体而言，在图4中，相关文本获取单元50包括元数据获取部件51和字幕数据获取部件52。

当在内容保存部件12中记录了目标内容的元数据时，元数据获取部件51通过从内容保存部件12中读出元数据来获取该元数据作为相关文本，并将这些相关文本提供给关键字获取部件22。

具体而言，当目标内容例如是电视广播节目，并且在内容保存部件12中记录了作为电视广播节目的元数据的EPG数据时，元数据获取部件51从EPG数据中提取诸如作为目标内容的节目的标题、演员姓名或简要概述(概要)之类的相关文本，并将这些相关文本提供给关键字获取部件22。

除了获取记录在内容保存部件12中的元数据之外，元数据获取部件51还可从诸如因特网之类的网络上的网站获取目标内容的元数据。

具体而言，元数据获取部件51例如可以从提供关于节目的信息的网站(网页)(例如，因特网上的提供iEPG的网站或者呈现节目的广播台的网站)获取目标内容的元数据。

当目标内容的内容数据除图像数据和音频数据外还包括字幕数据时，字幕数据获取部件52通过从内容保存部件12读出字幕数据来获取该字幕数据作为相关文本，并将这些相关文本提供给关键字获取部件22。

除了从内容保存部件12获取字幕数据之外，字幕数据获取部件52还可以从内容保存部件12获取表示与该字幕数据相对应的字幕的显示时间的显示时间信息。然后，字幕数据获取部件52将该显示时间信息提供给音频检索部件24。

在这种情况下，音频检索部件24可以仅针对由作为相关文本的字幕数据的显示时间信息表示的显示时间附近的音频数据，执行对从该字幕数据获取的关键字的发声的音频检索。也就是说，音频检索可以仅针对与字幕数据所对应的字幕的预定显示时间区间相对应的音频数据来执行，其中，显示时间区间在其开始和结束处延伸预定时段。

通过仅针对在由显示时间信息表示的显示时间附近的音频数据而不是针对目标内容的所有音频数据执行关键字发声的音频检索，可以提高音频检索的精确度，减少检索所必须的处理量，并且加速了检索处理。其结果是，可以高效地执行定时信息获取处理。

当以反射式字幕(telop)(滚动字幕(ticker))之类的形式在内容的图像上叠加字幕，而不是将字幕以字幕数据的形式包括在内容数据中时，字幕数据获取部件52可以通过图像处理来提取该反射式字幕并通过字符识别将该反射式字幕转换为文本字幕数据，以使得可以按与字幕以字幕数据的形式包括在内容数据中的情况相同的方式来处理反射式字幕。

根据文本获取部件21的第一示例性配置的处理示例

现在参考图5，将描述根据图4的文本获取部件21的第一示例性配置的处理示例(即，图2的定时信息获取处理中的步骤S11的处理)。

在步骤S41，元数据获取部件51判断在内容保存部件12中或者在因特网网站上是否存在目标内容的元数据。

当在步骤S41判定在内容保存部件12中或者在因特网网站上存在目标内容的元数据时，处理流程行进到步骤S42，其中，元数据获取部件51从内容保存部件12或者因特网网站获取目标内容的元数据作为相关文本。而且，元数据获取部件51将该元数据作为相关文本来提供给关键字获取部件22，并且处理流程从步骤S42行进到步骤S43。

当在步骤S41判定在内容保存部件12中或者在因特网网站上不存在目标内容的元数据时，处理流程随后在跳过步骤S42的情况下行进到步骤S43。

在步骤S43，字幕数据获取部件52判断在内容保存部件12中是否存在目标内容的字幕数据。

当在步骤S43判定在内容保存部件12中存在目标内容的字幕数据时，处理流程行进到步骤S44，其中，字幕数据获取部件52从内容保存部件12获取目标内容的字幕数据作为相关文本，并且还获取该字幕数据的显示时间信息。然后，字幕数据获取部件52将字幕数据作为相关文本来提供给关键字获取部件22并且将显示时间信息提供给音频检索部件24，处理流程随后从步骤S44行进到步骤S45。

在步骤S45，关键字获取部件22判断是否已从元数据获取部件51和字幕数据获取部件52的至少一个提供来相关文本。

当在步骤S45判定关键字获取部件22尚未从元数据获取部件51和字幕数据获取部件52中的任何一个接收到相关文本时，定时信息获取处理结束，这是因为在这种情况下无法获取关键字。

当在步骤S45判定关键字获取部件22已从元数据获取部件51和字幕数据获取部件52的至少一个接收到相关文本时，则处理流程行进到图2的步骤S12，并且执行上述处理。

代表图像的显示示例

现在参考图6，图示出了通过图3的回放处理而显示的代表图像的显示示例。

具体而言，图6图示出了代表图像的显示示例，其中，在新闻节目为要被用作目标内容的内容的情况下执行图2和5所述的定时信息获取处理，并且在图3的回放处理中选择该新闻节目作为回放内容。

参考图6，作为回放内容的新闻节目的新闻广播员的4个缩略图像以显示时间的顺序从左起被顺序显示为代表图像。

图6中的4个缩略图都示出了新闻广播员；仅通过观看缩略图很难掌握新闻节目的细节。

但是，在图6中，与各个缩略图一起显示了与缩略图形式的代表图像相对应的关键字。

具体而言，在图6中，在新闻广播员的4个缩略图像中，在第一缩略图(从左数)的下方显示了关键字“次级贷款”，并且在第二缩略图的下方显示了关键字“日经平均股价”。而且，在第三缩略图的下方显示了关键字“反恐特别措施法”，并且在第四缩略图的下方显示了关键字“全国高校棒球冠军赛”。

因此，用户能够通过阅读关键字来容易地掌握新闻节目的细节。

这里，当内容被划分为若干场景时，可以认为关键字用作这些场景的标题。

虽然在图6中，与关键字被发声的时间相对应的图像的缩略图被显示为代表图像，但是内容的其它图像的缩略图也可被显示为代表图像。

具体而言，内容的图像之中、在关键字被发声的时间附近的图像可被用作要转换为缩略图的图像的候选(下文中也称为缩略图候选图像)，并且这些缩略图候选图像的缩略图可被显示为代表图像，而不是显示与关键字被发声的时间相对应的图像的缩略图。

这里，作为缩略图候选图像，可以使用例如在关键字被发声的时间附近的图像之中、在基于图像或语音的特征量对内容进行划分的情况下各场景的开头图像。而且，作为缩略图候选图像，可以使用例如在关键字被发声的时间附近的图像之中、图像或语音的特征量与周围图像极为不同的那些图像。

也就是说，允许将不是与关键字被发声的时间相对应的图像的缩略图候选图像的缩略图显示为代表图像。因此，很有可能(各种场景的)图像的缩略图被显示为代表图像，而不是诸如图6所示的新闻广播员的图像之类的相似场景的图像的缩略图被显示为代表图像。

现在参考图7，图示出了代表图像的显示示例，其中，各种缩略图像被显示为代表图像。

在图7中，取代与关键字被发声的时间相对应的图像，在该时间附近的缩略图候选图像的缩略图与图6所图示出的关键字一起被显示为4个代表图像。

具体而言，在图7中，缩略图候选图像的第一缩略图示出了例如由于次级贷款危机而被交付拍卖的一所房子，并且与关键字“次级贷款危机”一起被显示。

缩略图候选图像的第二缩略图示出了例如在TSE(东京证券交易所)Arrows中的交易中心，并且与关键字“日经平均股价”一起被显示。

缩略图候选图像的第三缩略图示出了例如日本国会的内部视图，并且与关键字“反恐特别措施法”一起被显示。

缩略图候选图像的第四缩略图示出了例如高校棒球比赛的场景，并且与关键字“全国高校棒球冠军赛”一起被显示。

与图6的代表图像相比，图7的代表图像使得用户能够更好地掌握内容的细节。

但是，在示出日本国会内部视图的缩略图候选图像的第三缩略图的情况下，虽然可以粗略掌握是关于政治事务的内容，但是难以掌握其进一步的细节。

但是，从与该缩略图一起显示的关键字“反恐特别措施法”可以很容易掌握内容是关于反恐特别措施法的。

参考图6和图7，虽然关键字被显示在代表图像的下方，但是显示关键字的位置不受特别限制。而且，可将关键字显示为叠加在代表图像的一部分上。

根据日本未实审专利申请公布No.2008-124551所公开的上述技术，由于对话语音的回放时段被提取出，所以可以执行顺序回放与这些回放时段相对应的图像的摘要回放。但是，作为代表图像的一批缩略图未被显示。

而且，即使将日本未实审专利申请公布No.2008-124551所公开的技术修改为显示与对话语音的回放时段相对应的开头图像的缩略图，也没有如图6和7所图示的那样显示关键字。因此，当相似图像的缩略图被显示时，将难以掌握内容的细节。

文本获取部件21的第二示例性配置

现在参考图8，图示出了图1的文本获取部件21的第二示例性配置。

在图8中，文本获取部件21被配置为用户输入获取部件61。

用户输入获取部件61被配置为以文本形式获取来自用户的输入，并将这些文本提供给关键字获取部件22。

也就是说，用户输入获取部件61例如以文本形式获取在用户操作未图示出的键盘时从该键盘提供的字符串输入。而且，用户输入获取部件61对用户的发声(话音)输入执行话音识别，以获取作为话音识别的结果获得的字符串作为所述文本。

文本获取部件21的第二示例性配置的处理示例

现在参考图9，将描述根据图8的文本获取部件21的第二示例性配置的处理示例(即，图2的定时信息获取处理中的步骤S11的处理)。

在步骤S51，用户输入获取部件61响应于用户操作键盘或说出话语而判断是否有文本被输入。当在步骤S51判定没有输入文本时，则处理流程返回到步骤S51。

当在步骤S51判定输入了文本时，则处理流程行进到步骤S52，其中，用户输入获取部件61获取文本并将它们提供给关键字获取部件22。然后，处理流程行进到图2的步骤S12，并且执行上述处理。

这里，如以上在图1中所述的，关键字获取部件22可以将从文本获取部件21提供的所有文本获取为一个关键字。

当关键字获取部件22将从文本获取部件21提供来的所有文本获取为一个关键字时，用户输入的文本自身被用作关键字。因此，可以认为用户能够输入关键字。

特定内容检索处理

当来自用户的输入被获取为文本，并且关键字被从文本中获得(包括从用户输入的文本自身被用作关键字的情况)时，除了图2所述的定时信息获取处理(其中，生成了定时信息列表，在该定时信息列表中，以相关联方式登记了关键字和关键字的定时信息)之外，还可以执行特定内容检索处理以便检索包含从来自用户的输入获取的关键字的发声的内容。

现在参考图10，将描述可由图1的记录器执行的特定内容检索处理。

可通过使用图2的定时信息获取处理和图3的回放处理来执行特定内容检索处理。

也就是说，在该特定内容检索处理中，在步骤S61，文本获取部件21以与图9所述方式相同的方式获取文本，并将这些文本提供给关键字获取部件22。

具体而言，当用户输入其感兴趣的演员的姓名或者表示流派(genre)的字词时，文本获取部件21(具体而言，图8的用户输入获取部件61)获取用户输入作为文本，并将这些文本提供给关键字获取部件22。

然后，处理流程从步骤S61行进到步骤S62，其中，关键字获取部件22从自文本获取部件21提供的文本中获取关键字，并以与图2的步骤S12相同的方式生成其中登记了关键字的关键字列表。然后，关键字获取部件22将该关键字列表提供给音频检索部件24，并且处理流程从步骤S62行进到步骤S63。

在这种情况下，在关键字列表中，用户感兴趣的演员的姓名或者表示流派的字词被登记为关键字。

在步骤S63，音频数据获取部件23判断在内容数据被记录在内容保存部件12中的内容之中是否余留有未被选择为目标内容的内容。

当在步骤S63判定在内容数据被记录在内容保存部件12中的内容之中余留有未被选择为目标内容的内容时，则处理流程行进到步骤S64，其中，音频数据获取部件23选择内容数据被记录在内容保存部件12中的内容之中、尚未被选择为目标内容的内容之一作为目标内容。

此外，在步骤S64，音频数据获取部件23还从内容保存部件12获取目标内容的内容数据的音频数据，并将该音频数据提供给音频检索部件24。

然后，处理流程从步骤S64行进到步骤S65，其中，音频检索部件24执行用于生成目标内容的定时信息列表的定时信息列表生成处理，也就是说，执行与图2的步骤S14到S19相同的处理。

在步骤S65，执行定时信息列表生成处理，由此目标内容的定时信息列表被生成并存储在定时信息存储部件25中。然后，处理流程行进到步骤S66，并且在步骤S66到S68，回放控制单元30在使用目标内容作为回放内容的情况下执行与图3的回放处理中的各个步骤S32到S34相同的处理。

具体而言，在步骤S66，回放控制单元30的代表图像生成部件31从内容保存部件12获取目标内容的图像数据，并且还从定时信息存储部件25获取目标内容的定时信息列表，然后处理流程行进到步骤S67。

在步骤S67，代表图像生成部件31获取目标内容的图像数据之中的、在由定时信息列表中登记的定时信息表示的时间附近的图像数据，并根据该图像数据来生成代表图像数据。

具体而言，代表图像生成部件31例如根据与由定时信息列表中登记的定时信息表示的时间相对应的帧的图像数据来生成缩略图像数据作为代表图像数据。

代表图像生成部件31针对定时信息列表中登记的所有定时信息来生成代表图像数据，并以配对方式将各个代表图像数据和与代表图像数据相对应的关键字提供给显示控制部件32。

然后，处理流程从步骤S67行进到步骤S68，其中，显示控制部件32将与从代表图像生成部件31提供来的代表图像数据相对应的一批代表图像与相应关键字一起显示在显示设备40上。

以这种方式，在显示设备40上，一起显示了代表图像和与代表图像数据配对的关键字，关键字说明了包括代表图像的场景(连续帧)的细节。

然后，处理流程从步骤S68返回到步骤S63，并且重复相同处理。

当在步骤S63判定在内容数据被记录在内容保存部件12中的内容之中没有余留未被选择为目标内容的内容时，也就是说，当使用内容数据被记录在内容保存部件12中的所有内容作为目标内容执行了步骤S63到S68的处理时，则处理流程结束。

在这种情况中，用户感兴趣的演员的姓名或者表示流派的字词被用作关键字。因此，目标内容包含许多对用户感兴趣的演员姓名或者表示流派的字词的发声，并且多个缩略图与关键字一起被显示。

另一方面，当目标内容包含很少的对用户感兴趣的演员姓名或者表示流派的字词的发声时，也就是说，在目标内容不包含对用户感兴趣的演员姓名或者表示流派的字词的发声的极端情况下，缩略图不被显示为代表图像。

因此，用户能够很容易掌握：与关键字一起显示了多个缩略图的内容是与用户感兴趣的演员相关的内容或者与用户感兴趣的流派相关的内容。

在图10的特定内容检索处理中，必需在使用内容数据被记录在内容保存部件12中的所有内容作为目标内容而不是使用用户指定的内容的情况下执行步骤S65的定时信息列表生成处理(对应于图2的步骤S14到S19)。

因此，特别希望加速在定时信息列表生成处理中用于从音频数据中检索关键字发声的音频检索。

作为加速音频检索的方法，例如可以使用上述基于索引的检索方法，其中，生成了音频数据的音素以及音素位置的索引，从而根据索引来找出形成目标关键字的一序列音素。

因此，当执行图10的特定内容检索处理时，特别希望将图1的音频检索部件24配置为使用基于索引的检索方法来执行音频检索。使用基于索引的检索方法来执行音频检索的音频检索部件24的示例性配置

现在参考图11，图示出了使用基于索引的检索方法来执行音频检索的音频检索部件24的示例性配置。

参考图11，音频检索部件24包括索引生成部件71、索引存储部件72和关键字检索部件73。

索引生成部件71被配置为从音频数据获取部件23接收目标内容的音频数据。

索引生成部件71生成从音频数据获取部件23提供来的目标内容的音频数据中的音素(音素串)以及这些音素的位置(定时)的索引，并将这些音素和索引提供给索引存储部件72。

索引存储部件72被配置为临时存储从索引生成部件71提供来的索引。

关键字检索部件73被配置为从关键字获取部件22接收关键字。

关键字检索部件73根据存储在索引存储部件72中的索引来检索形成了从关键字获取部件22提供来的关键字的一序列音素。

当根据存储在索引存储部件72中的索引可以检索到关键字的一序列音素时，关键字检索部件73通过判定可以检索到关键字的发声而根据存储在索引存储部件72中的索引来获取表示定时(该一序列音素的位置)的定时信息。然后，关键字检索部件73生成以相关联方式登记了关键字和定时信息的定时信息列表，并将该定时信息列表提供给定时信息存储部件25。

使用基于索引的检索方法执行音频检索的音频检索部件24的处理示例

当音频检索部件24被如图11所示地配置以便使用基于索引的检索方法来执行音频检索时，音频检索部件24在从音频数据获取部件23接收到目标内容的音频数据时，在图10中的在步骤S65的定时信息列表生成处理之前的步骤S64执行用于生成索引的索引生成处理。

现在参考图12，将描述由图11的音频检索部件24执行的索引生成处理。

在步骤S71，索引生成部件71生成从音频数据获取部件23提供来的目标内容的音频数据中的音素以及这些音素的位置索引，并将这些音素和索引提供给索引存储部件72，然后处理流程行进到步骤S72。

在步骤S72，索引存储部件72临时存储从索引生成部件71提供来的索引，并且处理流程结束。

在完成索引生成处理之后，执行图10中的步骤S65的定时信息列表生成处理。具体而言，关键字检索部件73根据存储在索引存储部件72中的索引来执行用于检索形成从关键字获取部件22提供来的关键字的一序列音素的基于音频的关键字检索(对应于图2的步骤S16)。

代表图像生成部件31的第一示例性配置

现在参考图13，图示出了图1的代表图像生成部件31的第一示例性配置。

参考图13，代表图像生成部件31包括图像数据获取部件81和缩略图生成部件82。

图像数据获取部件81被配置为从内容保存部件12获取目标内容(或回放内容)的图像数据并将该图像数据提供给缩略图生成部件82。

缩略图生成部件82被配置为从定时信息存储部件25接收目标内容(或回放内容)的定时信息列表，除此之外还从图像数据获取部件81接收目标内容的图像数据。

基于从定时信息存储部件25提供来的定时信息列表中登记的定时信息，缩略图生成部件82根据从图像数据获取部件81提供来的图像数据之中、与定时信息所表示的时间相对应的图像数据来生成缩略图像数据作为代表图像数据。

然后，缩略图生成部件82以配对方式将和该定时信息相关联的关键字以及基于该定时信息生成的作为代表图像数据的缩略图像数据提供给显示控制部件32。

代表图像生成部件31的第一示例性配置的处理示例

现在参考图14，将描述图13的代表图像生成部件31的第一示例性配置的处理示例(即，图3的回放处理中的步骤S32和S33的处理)。

执行了与图10的步骤S66和S67相同的处理。

具体而言，在步骤S81，缩略图生成部件82从定时信息存储部件25获取回放内容的定时信息列表，并且处理流程行进到步骤S82。

在步骤S82，图像数据获取部件81从内容保存部件12获取回放内容的图像数据，并将该图像数据提供给缩略图生成部件82，然后处理流程行进到步骤S83。

这里，上述步骤S81和S82的处理是在图3的步骤S32(图10的步骤S66)执行的。而且，后面将描述的步骤S83和S84的处理是在图3的步骤S33(图10的步骤S67)执行的。

具体而言，在步骤S83，基于从定时信息存储部件25提供来的定时信息列表中登记的定时信息，缩略图生成部件82获取从图像数据获取部件81提供来的图像数据之中、与该定时信息所表示的时间相对应的图像数据。

然后，处理流程从步骤S83行进到步骤S84，其中，缩略图生成部件82根据与定时信息所表示的时间相对应的图像数据来生成缩略图像数据作为代表图像数据。

在步骤S84，缩略图生成部件82以配对方式将与定时信息列表中的定时信息相关联的关键字以及基于该定时信息生成的作为代表图像数据的缩略图像数据提供给显示控制部件32，然后处理流程行进到图3的步骤S34(图10的步骤S68)。

代表图像生成部件31的第二示例性配置

如上所述，音频检索部件24执行从自音频数据获取部件23提供来的目标内容的音频数据中检索从关键字获取部件22提供来的目标关键字的发声的音频检索，并获取其发声被检索到的目标关键字的定时信息。

也就是说，当目标关键字的发声被从目标内容的音频数据中检索到时，音频检索部件24获取其发声被检索到的目标关键字的定时信息。

因此，当在目标内容中出现目标关键字的多次发声时，音频检索部件24针对这多次发声获取目标关键字的定时信息。

如上所述，当针对多次发声获取了目标关键字的定时信息时，也就是说，当针对目标关键字获取了多条定时信息时，以相关联方式将目标关键字与这多条定时信息登记在定时信息列表中。

而且，当以相关联方式在定时信息列表中登记了关键字和多条定时信息时，在图3的回放处理中，根据与多条定时信息的每一条所表示的时间相对应的图像数据来生成的多个代表图像被与同一关键字一起显示。

但是，从吸引用户注意力的角度看，希望与定时信息列表中登记的关键字一起显示的多个代表图像由尽可能不同的图像组成，而不是由彼此相似的图像(例如，新闻广播员的相似图像)组成。

现在参考图15，图示出了图1的代表图像生成部件31的第二示例性配置。

在该图中，将用相同标号表示与图13所图示的部件或单元相同或相似的部件或单元，并且将适当地省略对其的描述。

图15的代表图像生成部件31与图13的情况的相似之处在于其包括图像数据获取部件81和缩略图生成部件82。

但是，图15的代表图像生成部件31与图13的情况的不同之处在于其还包括相似性计算部件83和选择部件84。

图15的代表图像生成部件31被配置为计算如下相似度，该相似度表示与在定时信息列表中登记的定时信息所表示的时间附近的图像数据相对应的图像和与在其它定时信息所表示的时间附近的图像数据相对应的图像之间的相似性。此外，基于该相似度，代表图像生成部件31在定时信息列表中登记的定时信息之中选择表示下述时间的定时信息来作为表示将被用作代表图像数据的图像数据的定时的最终定时信息：在所述时间处，代表图像与其他代表图像不同。然后，代表图像生成部件31根据在最终定时信息所表示的时间附近的图像数据来生成代表图像数据。

也就是说，在图15中，相似性计算部件83被配置为从图像数据获取部件81接收目标内容(或回放内容)的图像数据。此外，相似性计算部件83还被配置为从定时信息存储部件25接收目标内容(或回放内容)的定时信息列表。

相似性计算部件83顺序地将从定时信息存储部件25提供来的定时信息列表中登记的各个关键字设为目标关键字，并获取与该目标关键字相关联的定时信息，作为表示将用作代表图像的图像的定时候选的候选定时信息。

当针对目标关键字获取了一个候选定时信息时，相似性计算部件83将该一个候选定时信息与该目标关键字一起提供给选择部件84。

而且，当针对该目标关键字获取了多条候选定时信息时，相似性计算部件83将与该目标关键字的多条候选定时信息中的每一条所表示的时间相对应的图像数据所对应的图像设为将用作代表图像候选的候选图像，并计算每个候选图像和对应于与其他关键字的相关定时信息所表示的时间相对应的图像数据的每个图像之间的相似度。

也就是说，相似性计算部件83使用从图像数据获取部件81提供来的图像数据，计算与目标关键字的多条候选定时信息所表示的时间相对应的多个候选图像中的每一个、和与定时信息列表中除了该多条候选定时信息之外的定时信息(与目标关键字以外的关键字(其它关键字)相关联的定时信息)所表示的时间相对应的每一个图像之间的相似度。

然后，相似性计算部件83将与目标关键字的多条候选定时信息所表示的时间相对应的多个候选图像(下文中也称为候选定时信息的候选图像)中的每一个、和与其它关键字所关联的定时信息所表示的时间相对应的图像(下文中也称为相似性计算目标图像)之间计算出的相似度和候选定时信息与目标关键字一起提供给选择部件84。

当针对目标关键字从相似性计算部件83提供来一个候选定时信息时，选择部件84选择该一个候选定时信息作为表示将用作代表图像数据的图像数据的定时的最终定时信息，并将该候选定时信息与从相似性计算部件83提供来的目标关键字一起提供给缩略图生成部件82。

当针对目标关键字从相似性计算部件83提供来多条候选定时信息时，选择部件84基于从相似性计算部件83提供来的相似度，选择该多条候选定时信息的多个候选图像之中、与相似性计算目标图像最不相似的候选图像的候选定时信息作为最终定时信息。

然后，选择部件84将该最终定时信息与从相似性计算部件83提供来的目标关键字一起提供给缩略图生成部件82。

如上所述，在图15中，缩略图生成部件82从选择部件84接收最终定时信息和目标关键字。此外，缩略图生成部件82还从图像数据获取部件81接收目标内容的图像数据。

缩略图生成部件82基于从选择部件84提供来的最终定时信息，根据从图像数据获取部件81提供来的图像数据中与最终定时信息所表示的时间相对应的图像数据来生成缩略图像数据作为代表图像数据。

然后，缩略图生成部件82以配对方式将从选择部件84提供来的目标关键字，亦即与最终定时信息相关联的关键字，和基于该最终定时信息生成的作为代表图像数据的缩略图像数据提供给显示控制部件32。

这里，作为在相似性计算部件83中计算出的图像之间的相似度(即，候选图像与相似性计算目标图像之间的相似度)，可以使用根据彩色图像直方图(例如，RGB颜色直方图)计算出的图像之间的距离(度量)。例如在Y.Rubner等人的“The Earth Mover′s Distance as a Metric forImage Retrieval”，International Journal of Computer Vision 40(2)pp.99-121(2000)中描述了一种根据彩色图像直方图来计算距离的方法。

此外，可以使用内容的图像数据本身来计算相似度，并且可以使用内容的图像数据的缩小图像数据来计算相似度。当使用内容的图像数据的缩小图像数据来计算相似度时，可以减少计算相似度所需的处理量。

代表图像生成部件31的第二示例性配置的处理示例

现在参考图16，将描述图15的代表图像生成部件31的第二示例性配置的处理示例，即，图3的回放处理中的步骤S32和S33(和图10的步骤S66和S67)的处理。

在步骤S101，相似性计算部件83从定时信息存储部件25获取回放内容的定时信息列表，然后处理流程行进到步骤S102。

在步骤S102，图像数据获取部件81从内容保存部件12获取回放内容的图像数据，并将图像数据提供给相似性计算部件83和缩略图生成部件82，然后，处理流程行进到步骤S103。

这里，上述步骤S101和S102的处理是在图3的步骤S32(图10的步骤S66)执行的。而且，后面将描述的步骤S103到S111的处理是在图3 的步骤S33(图10的步骤S67)执行的。

在步骤S103，相似性计算部件83选择从定时信息存储部件25提供来的定时信息列表中登记的关键字之中、尚未被选为目标关键字的一个关键字作为目标关键字，然后处理流程行进到步骤S104。

在步骤S104，相似性计算部件83从自定时信息存储部件25提供来的定时信息列表中获取与目标关键字相关联的定时信息作为候选定时信息，然后处理流程行进到步骤S105。

在步骤S105，相似性计算部件83判断是否针对该目标关键字获取了多条候选定时信息。

当在步骤S105判定针对该目标关键字未获取多条候选定时信息时，即，当针对该目标关键字获取了一个候选定时信息时，相似性计算部件83将该一个候选定时信息与目标关键字一起提供给选择部件84。

然后，处理流程从步骤S105行进到步骤S106，并且选择部件84选择从相似性计算部件83提供来的候选定时信息之一作为最终定时信息。此外，在步骤S106，选择部件84还将最终定时信息与从相似性计算部件83提供来的目标关键字一起提供给缩略图生成部件82，然后处理流程行进到步骤S109。

当在步骤S105判定针对目标关键字获取了多条候选定时信息时，处理流程行进到步骤S107，其中，相似性计算部件83将与目标关键字的多条候选定时信息的每一条所表示的时间相对应的图像数据所对应的图像设置为候选图像，并计算这多个候选图像中的每一个、和与其它关键字所关联的定时信息所表示的时间相对应的图像数据所对应的每一个图像(相似性计算目标图像)之间的相似度。

也就是说，相似性计算部件83使用从图像数据获取部件81提供来的图像数据，计算与目标关键字的多条候选定时信息所表示的时间相对应的多个候选图像中的每一个与相似性计算目标图像(即，与定时信息列表中的与除目标关键字之外的关键字(其它关键字)相关联的定时信息所表示的时间相对应的图像)之间的相似度。

然后，相似性计算部件83将在目标关键字的多条候选定时信息的多个候选图像中的每一个和相似性计算目标图像之间计算出的相似度与目标关键字一起提供给选择部件84。

然后，处理流程从步骤S107行进到步骤S108，并且选择部件84针对目标关键字、基于从相似性计算部件83提供来的相似度，选择从相似性计算部件83提供来的多个候选图像之中、与相似性计算目标图像最不相似的候选图像的候选定时信息作为最终定时信息。

也就是说，如果具有较小值的相似度表示较低相似性，则选择部件84检测相似性计算目标图像与多个候选图像的每一个之间的相似度的最小值(或者最大值)。此外，选择部件84将针对多个候选图像的每一个检测到的相似度的最小值(或最大值)为最低(或最高)的候选图像设为与相似性计算目标图像最不相似的候选图像，并且选择该候选图像的候选定时信息作为最终定时信息。

然后，选择部件84将该最终定时信息与从相似性计算部件83提供来的目标关键字一起提供给缩略图生成部件82，并且处理流程行进到步骤S109。

在步骤S109，缩略图生成部件82从自图像数据获取部件81提供来的目标内容的图像数据中获取与从选择部件84提供来的最终定时信息所表示的时间相对应的图像数据，然后处理流程行进到步骤S110。

在步骤S110，缩略图生成部件82根据与最终定时信息所表示的时间相对应的图像数据来生成缩略图像数据作为代表图像数据。

此外，在步骤S110，缩略图生成部件82以配对方式将从选择部件84提供来的目标关键字和基于从选择部件84提供来的最终定时信息生成的作为代表图像数据的缩略图像数据提供给显示控制部件32。

然后，处理流程从步骤S110行进到步骤S111，并且相似性计算部件83判断是否已处理了从定时信息存储部件25提供来的定时信息列表中登记的所有关键字。

当在步骤S111判定尚未处理完定时信息列表中登记的所有关键字时，即，当在定时信息列表中登记的关键字中存在尚未用作目标关键字的关键字时，则处理流程返回到步骤S103。然后，在步骤S103，从定时信息列表中登记的关键字中选择尚未用作关键字的关键字之一作为新的目标关键字，并且重复相同处理。

当在步骤S111判定已经处理了定时信息列表中登记的所有关键字时，则处理流程行进到图3的步骤S34(图10的步骤S68)。

如上所述，当在定时信息列表中多条定时信息与一目标关键字相关联时，使用这多条定时信息作为候选定时信息来计算相似性计算目标图像与每一个候选定时信息的候选图像之间的相似度。然后，基于该相似度，多个候选图像中与相似性计算目标图像最不相似的候选图像的候选定时信息被选作最终定时信息。结果，与定时信息列表中登记的关键字一起显示在显示设备40上的多个代表图像由尽可能不同的图像组成。

因此，与将诸如新闻广播员的图像之类的相似图像显示为代表图像的情况相比，可以更吸引用户注意力。

代表图像生成部件31的第二示例性配置的另一处理示例

现在参考图17，将描述图15的代表图像生成部件31的第二示例性配置的另一处理示例，即，图3的回放处理中的步骤S32和S33(图10的步骤S66和S67)的处理。

参考图17，在步骤S121和S122以及步骤S124到S132执行了与图16的步骤S101到S111相同的处理。

但是，在图17中，在步骤S122和S124之间的步骤S123，相似性计算部件83执行了用于对从定时信息存储部件25获取的定时信息列表进行修改的列表修改处理。

列表修改处理

现在参考图18，将描述由图15的相似性计算部件83执行的列表修改处理。

在步骤S141，相似性计算部件83选择从定时信息存储部件25提供来的定时信息列表中登记的关键字中、尚未被选为目标关键字的一个关键字作为目标关键字，然后处理流程行进到步骤S142。

在步骤S142，相似性计算部件83从自定时信息存储部件25提供来的定时信息列表中，选择与目标关键字相关联的定时信息中、尚未被选为目标定时信息的定时信息之一作为目标定时信息，然后处理流程行进到步骤S143。

在步骤S143，相似性计算部件83选择从图像数据获取部件81提供来的目标内容的图像数据的定时中、在目标定时信息所表示的时间附近的一个或多个定时，作为将额外地与目标关键字相关联的额外定时的候选。

也就是说，相似性计算部件83选择在将目标定时信息所表示的时间附近的预定时间区间划分为预定数目的简短时间区间的定时中、除了目标定时信息所表示的定时之外的定时，作为额外定时的候选。这里，预定时间区间的长度和划分该预定时间区间而得到的简短时间区间的数目可以具有固定值，或者可以具有例如由随机数确定的可变值。

然后，处理流程从步骤S143行进到步骤S144，并且相似性计算部件83计算与额外定时的一个或多个候选相对应的每一个图像和与其它定时相对应的每一个图像之间的相似度。

这里，在与额外定时的一个或多个候选相对应的图像中，计算了其相似度的图像将被视为目标图像。

在步骤S144计算了其与目标图像的相似度的“与其它定时相对应的图像”指的是与额外定时的一个或多个候选相对应的图像中除了目标图像之外的图像以及与目标定时信息所表示的时间相对应的图像。

然后，处理流程从步骤S144行进到步骤S145，其中，基于在步骤S144计算出的相似度，相似性计算部件83确定额外定时的一个或多个候选的图像中、和与其它定时相对应的图像不相似的图像的定时(额外定时的候选)作为额外定时。

也就是说，例如，如果具有较大值的相似度表示较高相似性，则相似性计算部件83选择与额外定时的一个或多个候选相对应的图像之中、与其它定时的图像的相似度不大于阈值(例如，最小值或最大值)的图像或者相似度的排名在从最低排名开始的第N(N＞1)个以内的图像作为与对应于其它定时的图像不相似的图像，并且将这些图像的定时(额外定时的候选)确定为额外定时。

此外，在步骤S145，相似性计算部件83以额外地将表示额外定时的定时信息与目标关键字相关联的形式将该定时信息登记在定时信息列表中，然后处理流程行进到步骤S146。

在步骤S146，相似性计算部件83判断是否已经处理了与目标关键字相关联的所有定时信息。

当在步骤S146判定尚未处理完与目标关键字相关联的所有定时信息时，即，当在与目标关键字相关联的定时信息中存在尚未被选为目标定时信息的定时信息时，则处理流程返回到步骤S142。

然后，重复步骤S142到S146的处理。

根据步骤S142到S146的处理，在与目标关键字相关联的目标定时信息所表示的时间附近的一个或多个定时中，表示彼此不相似的图像(与目标定时信息所表示的时间所对应的图像不相似的图像)的定时的定时信息被额外地与目标关键字相关联。

当在步骤S146判定与目标关键字相关联的所有定时信息都已经过处理时，则处理流程行进到步骤S147，其中，相似性计算部件83判断是否已经处理完在定时信息列表中登记的所有关键字。

当在步骤S147判定尚未处理完定时信息列表中登记的所有关键字时，即，在定时信息列表中登记的关键字中存在尚未被选为目标关键字的关键字时，则处理流程返回到步骤S141。

然后，重复步骤S141到S147的处理。

当在步骤S147判定已经处理了定时信息列表中登记的所有关键字时，则处理流程返回到主例程。

如上所述，在列表修改处理中，在定时信息列表中登记的定时信息所表示的时间附近的一个或多个定时(额外定时的候选)中、彼此尽可能不相似的图像的定时被选择为额外定时。然后，表示额外定时的定时信息被额外地添加到定时信息列表，从而修改定时信息列表。

之后，在图17中，使用经修改的定时信息列表，在步骤S124到S132执行与图16的步骤S103到S111相同的处理。

因此，根据图17的处理，彼此不相似的图像的缩略图与关键字一起被显示为代表图像。

结果，由于在图10的特定内容检索处理中执行了图17的处理，所以针对包含从来自用户的输入获取的关键字的发声的内容显示彼此不相似的场景的缩略图。因此，与显示相似场景的缩略图的情况相比，用户一眼就能够掌握内容的细节，并且很容易找出用户感兴趣的内容。

实现本发明的计算机

上述处理系列不仅可通过硬件执行，而且可通过软件执行。当通过软件执行该处理系列时，将软件中包括的程序安装在通用计算机中。

现在参考图19，图示出了根据本发明一个实施例的计算机的示例性配置，该计算机安装了用于执行上述处理系列的程序。

程序首先可被记录在安装在计算机中的作为记录介质的硬盘105或ROM 103中。

或者，程序可被存储(记录)在可移除存储介质111中。可移除存储介质111可以以所谓的套装软件的形式提供。这里，可移除存储介质111可以是软盘、CD-ROM(致密盘只读存储器)、MO(磁光)盘、DVD(数字多功能盘)、磁盘、或者半导体存储器。

除了如上所述从可移除存储介质111将程序安装在计算机中之外，还可通过经由通信网络或广播网络下载程序来将程序安装在内部硬盘105中。也就是说，可以经由数字广播卫星将程序从下载站点无线传送到计算机，或者可以经由诸如LAN(局域网)或因特网之类的网络将程序通过线路传送到计算机。

计算机包含有CPU(中央处理单元)102，并且输入/输出接口110经由总线101连接到CPU 102。

CPU 102响应于并且根据通过用户操作输入单元107等经由输入/输出接口110输入的命令而执行存储在ROM(只读存储器)103中的程序。或者，CPU 102通过将程序加载到RAM(随机访问存储器)104中来执行存储在硬盘105中的程序。

以这种方式，CPU 102执行与上述流程图相对应的处理或者由框图中图示出的配置执行的处理。然后，CPU 102按需将处理结果例如经由输入/输出接口110通过输出单元106输出、通过通信单元108发送、或者记录在硬盘105中。

输入单元107包括键盘、鼠标、麦克风等。输出单元106包括LCD(液晶设备)、扬声器等。

这里，在本说明书中，计算机根据程序执行的处理可以不按流程图中描述的顺序以时序方式执行。也就是说，计算机根据程序执行的处理包括并行和/或分别执行的处理(例如，并行处理或者基于对象的处理)。

而且，程序可由单个计算机(处理器)执行，并且可由多个计算机以分布式方式执行。此外，可将程序传送到远程位置处的计算机来执行程序。

本申请包含与2009年1月9日向日本专利局提交的日本在先专利申请JP 2009-003688所公开的主题相关的主题，该申请的全部内容通过引用结合于此。

本发明的实施例不限于上述实施例，而是可在不脱离本发明的主旨的范围内进行各种修改。

例如，文本获取部件21可由图4的相关文本获取单元50和图8的用户输入获取部件61构成。

Claims

1.一种数据处理装置，包括：

文本获取装置，用于获取要用作关键字的文本，所述关键字将经历音频检索，所述文本与对应于内容数据的内容相关，所述内容数据包括图像数据和音频数据；

关键字获取装置，用于从所述文本中获取所述关键字；

音频检索装置，用于从所述内容数据的音频数据中检索所述关键字的发声，并获取表示发声被检索到的关键字的发声定时的定时信息；以及

回放控制装置，用于根据所述内容数据的图像数据之中在所述定时信息所表示的时间附近的图像数据，来生成将与所述关键字一起显示的代表图像的代表图像数据，并执行用于将与所述代表图像数据相对应的代表图像与在所述定时信息所表示的时间被发声的关键字一起显示的回放控制；

其中，所述回放控制装置被配置为：

计算与所述定时信息所表示的时间附近的图像数据相对应的图像和与其他定时信息所表示的时间附近的图像数据相对应的图像之间的相似度；

基于所述相似度，在由所述音频检索装置获取的定时信息之中选择表示如下时间的定时信息作为表示将用作所述代表图像数据的图像数据的定时的最终定时信息：在该时间处所述代表图像与其它代表图像不相似；并且

根据在所述最终定时信息所表示的定时附近的图像数据来生成所述代表图像数据。

2.根据权利要求1所述的数据处理装置，还包括：

定时信息存储装置，用于存储定时信息列表，在该定时信息列表中以相关联方式存储了所述关键字和表示所述关键字的发声定时的定时信息，

其中，所述回放控制装置被配置为：

顺序地将登记在所述定时信息列表中的关键字设为目标关键字；

当所述目标关键字与一个定时信息相关联时，

选择所述一个定时信息作为所述最终定时信息；以及

当所述目标关键字与多条定时信息相关联时，

计算候选图像中的每一个与相似性计算目标图像中的每一个之间的相似度，所述候选图像是与所述多条定时信息所表示的时间相对应的图像数据所对应的图像，所述相似性计算目标图像是与所述定时信息列表中登记的定时信息之中除了所述多条定时信息之外的定时信息所表示的时间相对应的图像数据所对应的图像；并且

基于所述相似度选择所述候选图像之中与所述相似性计算目标图像最不相似的候选图像的定时信息作为所述最终定时信息。

3.根据权利要求1所述的数据处理装置，其中：

所述内容数据还包括字幕数据；并且

所述文本获取装置获取所述内容数据的字幕数据作为所述文本。

4.根据权利要求3所述的数据处理装置，其中，所述音频检索装置仅针对在显示了与所述字幕数据相对应的字幕的时间附近的音频数据执行对关键字的发声的检索。

5.根据权利要求1所述的数据处理装置，其中，所述文本获取装置获取与所述内容数据相对应的内容的元数据作为所述文本。

6.根据权利要求5所述的数据处理装置，其中：

所述内容是电视广播节目；并且

所述内容的元数据是电子节目指南数据。

7.根据权利要求1所述的数据处理装置，其中，所述文本获取装置获取来自用户的输入作为所述文本。

8.根据权利要求7所述的数据处理装置，其中，所述文本获取装置获取用户操作键盘的输入或者对用户话音的话音识别结果作为所述文本。

9.一种数据处理方法，用于使数据处理装置能够执行以下步骤：

获取要用作关键字的文本，所述关键字将经历音频检索，所述文本与对应于内容数据的内容相关，所述内容数据包括图像数据和音频数据；

从所述文本中获取所述关键字；

从所述内容数据的音频数据中检索所述关键字的发声，并获取表示发声被检索到的关键字的发声定时的定时信息；以及

根据所述内容数据的图像数据之中在所述定时信息所表示的时间附近的图像数据来生成将与所述关键字一起显示的代表图像的代表图像数据，并执行用于将与所述代表图像数据相对应的代表图像与在所述定时信息所表示的时间被发声的关键字一起显示的回放控制；

其中，所述生成代表图像数据并执行回放控制的步骤包括以下步骤：

基于所述相似度，在所获取的定时信息之中选择表示如下时间的定时信息作为表示将用作所述代表图像数据的图像数据的定时的最终定时信息：在该时间处所述代表图像与其它代表图像不相似；并且