CN103514248B

CN103514248B - 视频记录设备、信息处理系统、信息处理方法和记录介质

Info

Publication number: CN103514248B
Application number: CN201310242489.9A
Authority: CN
Inventors: 高木刚; 村林升
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-06-25
Filing date: 2013-06-19
Publication date: 2018-08-14
Anticipated expiration: 2033-06-19
Also published as: US9131207B2; JP6046393B2; CN103514248A; US20140010518A1; JP2014006680A

Abstract

提供视频记录设备、信息处理系统、信息处理方法和记录介质，该视频记录设备包括：内容累积部分，累积视频内容；特征提取处理部分，从内容累积部分累积的视频内容提取作为特征的图像或语音，并且从所提取的图像或所提取的语音获得词信息；词信息获取部分，获取对从相机捕获的图像识别的词信息使用聚类处理而获得的分类词信息；以及内容检索部分，基于由词信息获取部分获取的分类词信息和由特征提取处理部分获取的词信息，从由内容累积部分累积的视频内容检索相关视频内容。

Description

视频记录设备、信息处理系统、信息处理方法和记录介质

技术领域

本公开涉及用于利用累积视频内容进行处理的视频记录设备、信息处理系统、信息处理方法和记录介质。

背景技术

对实际应用开发和供应诸如广播节目之类的视频记录设备累积视频内容。例如，生产作为记录介质的使用硬盘驱动器的各种类型的视频记录设备。随着近些年硬盘驱动器的更大的容量，此类视频记录设备趋向于具有在其中可以累积视频内容的增加的容量。例如，包括具有2T字节容量的硬盘驱动器的视频记录设备可以以超过1000小时的持续时间累积视频内容。

此类视频记录设备具有保持诸如标题以及记录所记录视频内容和显示标题列表的日期和时间之类的信息的功能。然后，用户浏览标题列表并且从该标题列表选取要观看的内容，该内容由视频记录设备累积、回放。

日本专利特开第2008-219342号（以下称为专利文献1）公开了一种提取诸如由视频记录设备累积的内容中的反射式字幕（telop）之类的文本信息并且还获取外部分布的关键字的技术。此外，专利文献1公开了以下技术，计算由此获取的关键字的重要性并且从由视频记录设备累积的内容搜索在其文本信息中包含重要关键字的内容。

如专利文献1所公开，获取外部分布的关键字的视频记录设备使得能够例如自动搜索涉及最近主题的内容以使用视频记录设备呈现给用户。

发明内容

顺便提及，如专利文献1所公开的内容的呈现取决于基于外部分布的关键字的检索。因而，视频记录设备不总是找到用户希望观看的内容。即，外部分布的关键字假定为代表诸如近期话题的人名和近期关注的事件名之类的当前潮流的关键字。因而，专利文献1所公开的内容的呈现可能适于例如从新闻的视频内容选取话题场景，但是取决于视频内容的类型可能从内容自身完全给不出检索目标。

期望提供用于使得能够恰当地对由视频记录设备累积的内容进行检索的视频记录设备、信息处理系统、信息处理方法和记录介质。

根据本公开的实施例，提供包括如下的视频记录设备：累积视频内容的内容累积部分;特征提取处理部分;词信息获取部分和内容检索部分。

特征提取处理部分从由视频累积部分累积的视频内容获得作为特征的图像或语音，并且从所提取的图像或所提取的语音获得词信息。

词信息获取部分获取对从由相机捕获的图像识别的词信息使用聚类处理（clustering processing）而获得的分类词信息。

内容检索部分基于由词信息获取部分获取的分类词信息和由特征提取处理部分获得的词信息从由内容累积部分累积的视频内容检索相关视频内容。

根据本公开的实施例，提供包括如下的信息处理系统：具有相机部分的配备相机的终端设备；和与配备相机的终端设备可通信并且具有累积视频内容的内容累积部分的视频内容记录设备。

配备相机的终端设备和视频内容记录设备的任一个包括：图像识别部分；聚类处理部分；特征提取处理部分；和内容检索部分。

图像识别部分从由配备相机的终端设备的相机部分捕获的图像获得词信息。

聚类处理部分通过聚类由图像识别部分获得的词信息来获得分类词信息。

特征提取处理部分从由内容累积部分累积的视频内容提取作为特征的图像或语音，并且从所提取的图像或所提取的语音获得词信息。

内容检索部分基于由聚类处理部分获得的分类词信息和由特征提取处理部分获得的词信息从由内容累积部分累积的视频内容检索相关视频内容。

根据本公开的实施例，在信息处理方法中，进行从由内容累积部分累积的视频内容提取作为特征的图像或语音并且从所提取的图像或所提取的语音获得词信息的特征提取处理。此外，进行从由相机捕获的图像获得词信息的图像识别处理，并且进行通过聚类使用图像识别处理获得的词信息获得分类词信息的聚类处理。此外，进行基于使用聚类处理获得的分类词信息和使用特征提取处理获得的词信息从由内容累积部分累积的视频内容检索相关视频内容的内容检索处理。

根据本公开的实施例，提供作为在其中记录程序用于使得计算机执行以下例程（a）到（d）的记录介质的记录介质：

（a）从由内容累积部分累积的视频内容提取作为特征的图像或语音，并且从所提取的图像或所提取的语音获得词信息的特征提取例程；

（b）从由相机捕获的图像获得词信息的图像识别例程；

（c）通过聚类使用图像识别例程而获得的词信息来获得分类词信息的聚类例程；

（d）基于使用聚类例程获得的分类词信息和使用特征提取例程获得的词信息从由内容累积部分累积的视频内容检索相关视频内容的内容检索例程。

根据本公开的实施例，基于通过聚类从由相机捕获的图像获得的词信息而获得的结果和从累积的视频内容获得的词信息，进行由内容累积部分累积的视频内容的检索。因此，包括内容累积部分的设备可以从累积视频内容检索与由相机捕获的图像的内容相关的视频内容，以呈现给用户。

根据本公开的实施例，包括内容累积部分的设备可以从累积视频内容检索与由相机捕获的图像的内容相关的视频内容，以呈现给用户。因而，仅使用配备相机的终端设备简单地捕获其感兴趣的影像（imagery）的用户使得包括内容累积部分的设备能够自动地将与由影像指示的各种类型的信息相关的视频内容呈现给用户。

附图说明

图1是根据本公开的实施例的系统的示例性配置的说明图；

图2是图示根据本公开的实施例的视频记录设备的示例性配置的框图；

图3是图示根据本公开的实施例的配备相机的终端设备的示例性配置的框图；

图4是图示根据本公开的实施例的处理的概述的示例的说明图；

图5是图示根据本公开的实施例的处理的示例的流程图；

图6是图示根据本公开的实施例的聚类处理的的示例的说明图；

图7是图示根据本公开的实施例的内容检索处理的的示例的说明图；

图8是图示根据本公开的实施例的相似度确定的示例的说明图；

图9是图示根据本公开的实施例的变型1(从图像的内容提取特征的示例)的概述的说明图；

图10图示根据变型1的处理的流程图；

图11是图示根据变型1的聚类处理的说明图；

图12是图示根据本公开的实施例的变型2（根据图像选择处理的示例）的流程图；以及

图13是图示根据变型2的比较处理的示例的说明图。

具体实施方式

以下，将参考附图描述本公开的优选实施例。注意，在此说明书和附图中，具有基本相同功能和结构的结构要素用相同的附图标记表示，并且省略这些结构要素的重复说明。

将参考附图以如下顺序描述根据本公开的实施例的视频记录设备、信息处理系统、信息处理方法和记录介质。

1、整体系统的配置示例（图1）

2、视频记录设备的配置示例（图2）

3、配备相机的终端设备的配置示例（图3）

4、处理流程的示例（图4到图8）

5、变型1（图9到图11）

6、变型2（图12到图13）

7、其他变型

[1、整体系统的配置示例]

图1图示根据本公开的实施例的整体信息处理系统的示例的示图。

根据本公开的实施例的信息处理系统包括累积视频内容的视频记录设备100和显示由视频记录设备100累积的视频内容的显示设备300。视频记录设备100包括大容量记录介质并且累积大量视频内容（广播节目、电影、从运动图像站点获取的运动图像等）。视频记录设备100和显示设备300可以集成为一个。

视频记录设备100可以以有线或无线方式连接到配备相机的终端设备200。配备相机的终端设备200例如采用称为智能电话的移动电话终端装置。用户使用在配备相机的终端设备200中实现的相机功能捕获其感兴趣的图像书籍（杂志）、手册、通知、展品等。然后，配备相机的终端设备200分析通过图像捕获获得的图像以获取词信息，并且传送如此获取的词信息到视频记录设备100。另外，这里的词信息包含关于将词分类到的类别的信息以及该词本身（文本数据）的信息。

另一方面，视频记录设备100进行内容的特征提取处理，使用该特征提取处理从图像或语音获得处理词信息作为来自累积视频内容的特征。然后，视频记录设备100将从配备相机的终端设备200传送的词信息与使用特征提取处理获得的词信息进行比较以计算相似度。此外，视频记录设备100基于如此计算的相似度从由视频记录设备100累积的视频内容片段选取推荐用于用户观看的标题，并且创建包括如此选取的标题的标题列表。由视频记录设备100创建的标题列表在显示设备300上显示。

另外，作为配备相机的终端设备200从图像获取词信息的一个示例呈现处理。例如，视频记录设备100可以进行从传送自配备相机的终端设备200的图像获取词信息的处理。或者，当视频记录设备100或配备相机的终端设备200可以连接到因特网90时，连接到该因特网90的服务器400可以分析该图像以获取词信息。此外，即使当视频记录设备100或配备相机的终端设备200进行分析时，视频记录设备100或配备相机的终端设备200可以从服务器400获取用于分析的信息。

[2、视频记录设备的配置示例]

图2是图示视频记录设备100的示例性配置的示图。视频记录设备100包括连接到天线101的调谐器102。调谐器102接收电视广播信号。将由调谐器102获得的电势广播信号供应到记录处理部分104。已经经历用于在记录处理部分104中记录的处理的信号作为视频内容记录在记录介质120中。记录介质120采用硬盘驱动器、闪存等。在记录介质120中记录的视频内容包括例如通过用户进行了视频记录保留而获得的广播节目、通过在预置条件下从节目表等自动检索而获得的广播节目等。或者，当记录介质120具有极大容量时，在指定频道上的广播节目可以被全程记录。

此外，视频记录设备100包括磁盘驱动器部分130并且安装在磁盘驱动器部分130中的磁盘形记录介质131也可以记录视频内容。

此外，视频记录设备100包括网络接口部分103并且可以经由预定网络连接到因特网90。记录介质120或磁盘形记录介质131记录网络接口部分103从外部接收的视频内容。

另外，记录介质120包含记录了作为如此记录的视频内容的分析结果的数据的数据库。图像/语音特征提取部分111在系统控制器110的控制下进行视频内容的分析处理。

此外，回放处理部分108对记录介质120中记录的视频内容进行回放处理，以获得图像数据和语音数据。将使用回放处理获得的图像数据和语音数据经由显示处理部分109供应给外部提供的显示设备300。显示设备300在显示面板上显示基于如此供应的图像数据的图像。从扬声器输出基于如此供应的语音数据的语音。此外，当信息处理部分105进行创建内容列表等的处理时，显示处理部分109创建用来显示内容列表等的图像数据以供应由此创建的图像数据到显示设备300。

此外，视频记录设备100可以经由终端接口部分106与配备相机的终端设备200进行数据传递。终端接口部分106可以以利用有线电缆的通信方式或以无线通信方式进行与配备相机的终端设备200的连接与数据传递。在根据本公开的示例中，配备相机的终端设备200传送词信息到视频记录设备100。因此，终端接口部分106用作从配备相机的终端设备200获取词信息的词信息获取部分。

另外，当在配备相机的终端设备200和视频记录设备100之间进行数据传递时，网络接口部分103可以经由因特网90进行该数据传递。

图像/语音特征提取部分111从在记录介质120中记录的视频内容的图像、语音等提取特征，以从如此提取的特征中获取词。然而，图像/语音特征提取部分111将如此获取的词形成为通过其分类获得的词信息，并且将该词信息形成为数据库以记录在记录介质120中。

信息处理部分105对在作为数据库的记录介质120中记录的视频内容的每一个片段的词信息与从配备相机的终端设备200传送的词信息进行比较以进行检索具有高相似度的视频内容的处理。然后，信息处理部分105基于检索结果创建指示推荐用于用户回放的整体内容的内容列表。或者，系统控制器110可以获取信息处理部分105的检索结果，并且系统控制器110可以自动回放具有高相似度的视频内容。

另外，视频记录设备100中的各个处理部分经由控制总线141进行与系统控制器110的控制命令的传送和接收以及经由数据总线142进行数据传递。控制总线141和数据总线142连接到存储器107并且该存储器107在系统控制器110等进行处理时临时存储数据。此外，存储器107存储系统控制器110执行的程序。然后，在开启视频记录设备100等时，系统控制器110执行在存储器107中存储的程序，并且由此，视频记录设备100如程序所指令地操作。还由执行在存储器107中存储的程序的系统控制器110进行在根据实施例的示例中描述的视频内容的检索处理。

[3、配备相机的终端设备的配置示例]

图3是图示配备相机的终端设备200的示例性配置的示图。根据本公开的实施例的配备相机的终端设备200是应用于所谓智能电话的移动电话终端装置的示例。

配备相机的终端设备200包括连接到天线201的无线通信部分202。无线通信部分202在系统控制器210的控制下与用于无线电话的基站进行无线信号的传送和接收处理。系统控制器210经由控制总线231和数据总线232进行到配备相机的终端设备200中的各个部分的命令、数据等的传送。

存储器211存储诸如程序之类的预先准备的数据，并且另外存储由用户操作生成的数据。由用户操作如此生成的数据包括由相机部分220捕获的图像的图像数据和通过分析该图像数据获得的词信息。

当配备相机的终端设备200进行语音呼叫时，向语音处理部分205供应由无线通信部分202接收的用于呼叫的语音数据。该语音处理部分205对如此供应的语音数据进行解码处理并且获得模拟语音信号。由语音处理部分205获得的模拟语音信号被供应到扬声器206并且从该扬声器206输出该语音。

此外，在语音呼叫期间，语音处理部分205将由麦克风207输出的语音信号转换为传送格式的语音数据。然后，由语音处理部分205转换的语音数据被供应到无线通信部分202，并且将供应到无线通信部分202的语音数据形成为分组并且以无线方式从天线201传送。

当配备相机的终端设备200经由诸如因特网之类的网络进行数据通信和/或邮件的传送和接收时，无线通信部分202在系统控制器210的控制之下进行传送和接收的处理。例如，由无线通信部分202接收的数据存储在存储器211中并且根据系统控制器210的控制进行基于所存储数据的诸如显示之类的处理。此外，在存储器211中存储的数据供应到无线通信部分202并以无线方式传送。

此外，配备相机的终端设备200包括显示处理部分214和根据显示处理部分214的驱动进行显示的显示面板215。显示面板215集成于触摸板。此外，配备相机的终端设备200包括外部接口部分208并且可以与诸如视频记录设备100之类的外部装备进行数据传递。

另外，配备相机的终端设备200包括相机部分220。相机部分220根据用户的操作捕获静止图像或运动图像。

在存储器211中存储通过相机部分220捕获影像获得的图像数据。在此情况下，配备相机的终端设备200包括对通过图像捕获如此获得的图像数据进行各种类型处理的图像处理部分212，并且在存储器211中存储由图像处理部分212处理的图像数据。图像处理部分212还进行稍后提及的图像分析处理。当由图像处理部分212分析的图像数据是具有语音数据的图像数据（诸如运动图像数据之类）时，图像处理部分212还分析语音数据。

当图像处理部分212分析图像和/或语音时，分析结果的信息被供应到信息处理部分213。该信息处理部分213在系统控制器210的控制之下从图像和/或语音的分析结果中获取与图像和/或语音有关的词信息。此外，信息处理部分213进行分类如此获取的词信息的聚类处理。在存储器211中存储已经经历聚类处理的词信息。在存储器211中存储的已经经历聚类处理的词信息在系统控制器210的控制之下被传送到视频记录设备100。

另外，配备相机的终端设备200包括连接到天线203的短距无线通信部分204，并且使用该短距无线通信部分204的无线通信使得能够与邻近其他装置和/或接入点进行数据传送。短距无线通信部分204例如使用由IEEE802.11标准定义的无线LAN（局域网）系统与例如几十米范围内的对应方（counterpart）以无线方式通信。使用短距无线通信部分204的无线通信在例如在配备相机的终端设备200访问因特网的情况下使用。

此外，使用短距无线通信部分204的无线通信还在配备相机的终端设备200与视频记录设备100进行数据传送的情况下使用。即，配备相机的终端设备200通常经由如上所述的外部接口部分208与视频记录设备100进行数据传送，尽管当通过经由外部接口部分208的路径的数据传送失败时短距无线通信部分204以无线方式与视频记录设备100通信。

[4、处理流程的示例]

接着，参考图4到图8描述在根据本公开的实施例的系统中进行的处理。另外，进行以下描述的处理的各个片段的设备的分配是一个示例并且系统中的其他设备、因特网上的服务器等可以进行处理的各个片段。

图4是图示处理的总结的示图。例如，当持有配备相机的终端设备200的用户寻找其中最爱的信息以字符描述的书籍、杂志等时，它使用配备相机的终端设备200的相机部分220捕获在书籍、杂志等中的相关页面的影像，以获得图像11。图像优选是静止图像但是可以是运动图像。图像捕获的目标可以是诸如其中描述用户最爱的信息和/或其感兴趣的信息的杂志和手册之类的任何东西。此外，除了诸如书籍和杂志之类的印刷品之外，用户可以捕获诸如通知和展品之类的其感兴趣的各种东西的影像。

然后，配备相机的终端设备200对由捕获影像的相机部分220获得的图像进行字符识别处理12。由配备相机的终端设备200的图像处理部分212进行字符识别处理12。进行字符识别处理12将图像11中的字符形成为文本数据。例如，当通过在书籍中捕获特定页面的影像来获得图像11时，字符识别处理12将在书籍的相关页面中描述的字符形成为文本数据。

接着，配备相机的终端设备200中的信息处理部分213对使用字符识别处理12获得的文本数据进行形态（morphological）分析处理13。该形态分析处理是从文本数据提取词的处理。此外，配备相机的终端设备200中的信息处理部分213进行以种类分类从文本数据提取的词的聚类处理。在此情况下，从例如服务器400获取关于使用聚类处理14进行分类为的类别的信息。之后，配备相机的终端设备200传送使用聚类处理14获得的词信息到视频记录设备100。

视频记录设备100分析在记录介质120中累积的视频内容。即，视频记录设备100进行提取在记录介质120中累积的视频内容的图像和语音的特征的图像/语音特征提取处理15。这里，例如通过将在诸如向图像添加的字幕和反射式字幕之类图像中的字符形成为文本数据来进行对图像的特征提取处理。通过使用语音识别处理将语音数据形成为文本数据来进行对语音的特征提取处理。此外，当存在向视频内容（节目指南信息等）添加的信息时，从所添加的信息获得文本数据。当存在诸如字幕之类的数据作为从图像数据分离的其他额外数据时，在额外数据中包含的文本数据由此获取。由视频记录设备100的图像/语音特征提取部分111进行这样的文本数据获取。

然后，视频记录设备100从如此获得的每一个文本数据获取词并且获得用于每一个视频内容片断的词信息。由视频记录设备100的信息处理部分105进行从文本数据获取词信息的处理。将所获取的词信息形成为数据库并例如记录在记录介质120中。

另外，例如当基于逐片段在记录介质120中累积每一个视频内容片段时，进行对在记录介质120中累积的视频内容的分析处理。或者，在从配备相机的终端设备200传送词信息的时候由视频记录设备100对在记录介质120中累积的视频内容的全部片段集中进行处理。

然后，视频记录设备100将从配备相机的终端设备200传送的词信息与从在记录介质120中累积的视频内容获得的词信息进行比较，并且基于一致性等进行搜索作为目标的视频内容的内容检索处理16。视频记录设备100的信息处理部分105进行内容检索处理16。视频记录设备100创建指示通过检索获得的视频内容的整体片段的标题列表，并且显示设备300显示该标题列表。然后，通过用户进行从标题列表选择视频内容的任何片段的操作，视频记录设备100回放相关视频内容。显示设备300显示由视频记录设备100如此回放的视频内容。或者，视频记录设备100可以自动地回放基于一致性检测的视频内容。

图5是在图4中图示的处理的流程图。

参考图6到图8中的处理的具体示例描述在图5的流程图中所示的操作。

首先，用户设置配备相机的终端设备200的操作模式为进行用于检索视频内容的图像获取的操作模式。在设置该操作模式的状态下，用户使用配备相机的终端设备200捕获书籍等的图像，并且获取其中描述字符的图像（静止图像或运动图像）（步骤S11）。一旦获取图像，配备相机的终端设备200进行图像识别处理以提取图像中的字符作为文本代码（步骤S12）。

然后，配备相机的终端设备200在如此提取的文本代码中进行对字符串的形态分析（步骤S13），并且获取内容检索预期的词。在形态分析中，将在文本数据中呈现的字符串分割为每一个都具有含义（词素（morpheme））的最小单元并且确定对每一个词素的讲话部分。从如此确定的词素，提取预期用于检索视频内容的词。此外，配备相机的终端设备200对如此提取的词进行聚类处理（步骤S14）。

例如如图6所示地进行对捕获的图像的字符提取处理、形态分析处理和聚类处理。

假定用户捕获了其中出现时尚商店的指南信息的信息杂志的影像。配备相机的终端设备200由于图像捕获而获得图像11a。在此阶段，字符识别处理12允许将在图像11a中呈现的字符形成为文本数据。

在图6的示例中，图11a是在其中出现糖果信息的信息杂志的特定页面的捕获图像，并且形态分析允许提取诸如糖果的名称、糖果的位置区域、其他名词和形容词之类的词。

然后，聚类处理14允许按类别分类如此提取的词。例如，已经经历形态分析的词被分类为糖果的名称的类别、区域的类别、其他名词的类别、形容词的类别等。

当配备相机的终端设备200进行聚类处理14时，配备相机的终端设备200例如与图1所示的服务器400通信以使用关于在服务器400中包括的聚类的数据库401。即，在服务器400中准备的数据库401具有关于各种词和该词所属的类别的信息。例如，图6所示的数据库401基础逐类别具有属于诸如“糖果”、“区域”和“蔬菜”之类的各种类别的词的信息。例如，如同类别“糖果”，存储诸如“奶油泡芙”、“水果酥饼”和“指形小饼”之类的各种糖果名称的词。参考数据库401中这样的信息，配备相机的终端设备200进行聚类处理14。另外，配备相机的终端设备200可以具有数据库401用于聚类处理。

回到图5的流程图，为了将已经经历聚类的词信息与由视频记录设备100累积的视频内容关联的目的，将其从配备相机的终端设备200传送到视频记录设备100(步骤S15)。在这个阶段，如此传送的词信息包含例如如图6所示的词信息和各个词所属的类别。

然后，视频记录设备100对在记录介质120中累积的视频内容进行特征提取处理（步骤S16）。另外，作为一个示例，以步骤的呈现顺序在步骤S16中进行对视频内容的特征提取处理，然而，视频记录设备100可以在任何其他时间点对视频内容进行特征提取处理。此外，作为对视频内容的特征提取处理的结果而获得的词经历与配备相机的终端设备200中的处理相同的聚类处理以给予分类词信息。

之后，视频记录设备100基于对视频内容使用特征提取处理而获得的词信息以及从配备相机的终端设备200传送的词信息，进行检索相关视频内容的内容检索处理（步骤S17）。例如，视频记录设备100将对视频内容使用特征提取处理而获得的词信息与从配备相机的终端设备200传送的词信息进行比较以使用词的一致性作为比较结果进行内容检索处理。

然后，视频记录设备100的系统控制器110确定候选视频内容是否使用内容检索处理从在记录介质120中累积的视频内容中检索（步骤S18）。当在确定中检索到候选视频内容时，系统控制器110执行如此检索到的内容的标题列表的创建指令，并且通知用户检索到的视频内容（步骤S19）。然后，当在步骤S18的确定中未检索到任何候选视频内容时，系统控制器110在显示图像等上做出无相似内容的警告（步骤S20）。

图7是图示视频记录设备100基于配备相机的终端设备200从捕获图像获得的字检索在记录介质120中累积的视频内容的示例的示图。

如图7所示，已经经历聚类处理的词信息14a从配备相机的终端设备200传送到视频记录设备100。此外，视频记录设备100对在记录介质120中累积的特定视频内容120a进行特征提取以获得词信息15a。在图7的示例中，通过对视频内容120a的特征提取获得的词信息15a是用于视频内容120a作为一个片段所分割为的每一个场景并且是通过使用聚类处理分类而获得的信息。

即，在图7的示例中，视频内容120a是新闻节目并且视频内容120a对于该新闻节目中的各个主题而分割为场景1、场景2…。此外，对于每一个场景，使用聚类处理分类从语音检测到的词。例如，在场景2的词信息15a中，在类别糖果中的词的出现次数是3次，并且在类别区域中的词的出现次数是3次。

然后，视频记录设备100的信息处理部分105将从配备相机的终端设备200传送的词信息与对视频内容的每一个片段使用特征提取而获得的词信息进行比较。例如，如图7所示，视频记录设备100的信息处理部分105将从捕获图像获得的词信息14a与对视频内容120a的每一个场景的词信息（词信息15a等）进行比较以进行内容检索处理16。视频记录设备100的信息处理部分105通过在内容检索处理16中比较根据一致性的类别中的词的数量，对每一个场景（或者，对于内容的每个片段）进行相似度的确定，并且选取具有确定获得的高相似度的场景或内容。

图8是图示对每一个场景的相似度的确定的示例的示图。

在此示例中，呈现两个类别“糖果”和“区域”。

例如，如图8所示，假定在配备相机的终端设备200获取的图像中，“糖果”中词的出现次数是3次而“区域”中词的出现次数是1次。在此阶段，信息处理部分105确定在与3次的词的次数相同的每一个类别中的词在视频内容的一个片段中的场景1到4的每一个中出现的次数是多少。

如图8所示，假定在场景2中，在“糖果”中词的出现次数是3次而在“区域”中词的出现次数是3次，并且假定在其他场景1、3和4中，在“糖果”中词和在“区域”中词的出现次数每个是0次。

在此阶段，例如根据以下表达式计算在从捕获图像获得的词信息和从每一个场景获得的词信息之间的相似度。

其中，表达式中的a、b、x和y如下定义。

a：从捕获图像获得的类别“糖果”中词的出现次数，

b：从捕获图像获得的类别“区域”中词的出现次数，

x：在每一个场景中类别“糖果”中词的出现次数，以及

y：在每一个场景中类别“区域”中词的出现次数。

通过进行相似度的计算，场景2的相似度是0.89而场景1、3和4的相似度是0。图8所示的计算的示例根据上述表达式呈现了场景2的相似度的计算。

视频记录设备100的信息处理部分105对在记录介质120中累积的视频内容的全部片段进行计算相似度的处理。然后，信息处理部分105设置具有不低于阈值的相似度的视频内容（或视频内容中的场景）为相似内容（或相似场景）。

在对内容的全部片段的相似度的计算完成之后，视频记录设备100的系统控制器110指令创建内容的标题列表或如此选取的场景的列表，并且显示设备300显示如此创建的列表。

然后，用户进行从如此显示的列表中选择想要的视频内容片段的操作。通过用户进行该操作，视频记录设备100回放所选择的视频内容片段并且显示设备300显示如此回放的视频内容片段。

另外，处理呈现为其中视频记录设备100基于检索结果创建标题列表的一个示例，并且视频记录设备100可以进行其他处理。例如，基于视频记录设备100中检索内容，视频记录设备100可以自动回放具有最高相似度的视频内容。

如上所述，基于从由用户使用配备相机的终端设备200捕获的图像中检测到的字信息，视频记录设备100在累积的视频内容中进行检索，这使得能够恰当地呈现视频内容。即，甚至当用户完全不掌握累积的视频内容的内容时，用户简单地捕获其感兴趣的影像也导致视频记录设备100自动搜索相关视频内容。因此，可以提供享受视频记录设备100的更宽范围。此外，如图7和图8所示的示例，甚至在每一个视频内容片段是具有相对更长持续时间的内容的情况下，对一个视频内容片段中每一个场景进行相似度的比较使得能够立即找出用户感兴趣的场景。

[5、变型1]

接着，参考图9到图11描述根据本公开（部分1）的实施例的变型。

图9是图示根据此示例的处理的总结的示图。作为根据上述一个实施例的示例，图4图示了对在由配备相机的终端设备200捕获的捕获图像中包含的字符的字符识别的示例。相反，在图9的示例中，配备相机的终端设备200对捕获图像进行图像识别并且从图像中对象主体的形状和颜色的识别结果获得字符信息。

例如，如图9所示，假定配备相机的终端设备200包含通过捕获其中描述糖果的图片的杂志的影像获得的图像21。在此阶段，配备相机的终端设备200的图像处理部分212进行图像特征提取处理17，并且由此，检测在图像中出现的糖果的名称并且获得糖果的名称的文本数据。

在从图像检测名称中，例如，图像可以被发送到连接到因特网90的服务器400并且该服务器400可以进行检索。

然后，配备相机的终端设备200中的信息处理部分213进行按类型分类从文本数据提取的字的聚类处理14。聚类处理14之后的处理与参考图4描述的处理相同。

另外，同样当视频记录设备100进行进行视频内容的分析的图像/语音特征提取处理15时，可以基于图像中对象主体的识别结果检测到文本数据，与配备相机的终端设备200中的图像特征提取处理17相同。

然后，视频记录设备100对从配备相机的终端设备200传送的词信息和从记录介质120中累积的视频内容获得的词信息进行比较以进行搜索作为目标的视频内容的内容检索处理16。视频记录设备100创建例如在内容检索处理16中检索到的视频内容的标题列表。

图10是图9所示的处理的流程图。在图9的流程图中，向与图5的流程图中的处理片段相同的处理片段提供相同步骤标号并且省略其描述。

在图9的流程图中，在配备相机的终端设备200在步骤S11获取捕获图像之后，对图像进行图9所示的图像特征提取处理17以从图像中的对象主体的形状等获得字信息（步骤S21）。然后，配备相机的终端设备200对如此获得的字进行聚类处理（步骤S14）。在聚类处理之后的处理与图5的流程图相同。

例如如图11所示地进行对捕获图像的字提取处理和聚类处理。

假定用户捕获其中使用配备相机的终端设备200呈现其感兴趣的糖果和蔬菜的图像的信息杂志的影像。在此阶段，在图像特征提取处理17中从捕获图像21a提取糖果和蔬菜的图像。

此外，通过进行聚类处理14’，将如此提取的各个图像分类为类别糖果和类别蔬菜。

当配备相机的终端设备200进行聚类处理14’时，配备相机的终端设备200例如进行图1所示的与服务器400的通信以使用关于对在服务器400中包括的图像的聚类的数据库402。即，在服务器400中准备的数据库402包括与各种词对应的图像和该词所属的类别的信息。例如，图11所示的数据库402包括属于诸如“糖果”、“蔬菜”和“车辆”之类的各种类别的每一个类别的词的信息。另外，认为在数据库402的信息中包括的各个词的特征量包括诸如色彩特征之类（诸如，色彩直方图、亮度特征、纹理特征和边缘特征）的各种特征量。通过进行这样的各种特征量的比较，在捕获图像中识别对象主体的处理可以精确地进行。

通过进行参考图9到图11描述的处理片段，视频记录设备100可以基于从由配备相机的终端设备200捕获的图像的内容提取的字信息检索视频内容。因而，用户捕获杂志、目录、手册等（其中描述了用户感兴趣的项目）的影像使得能够检索视频内容，在该视频内容中，出现与通过捕获获得的对象主体的类别相同的类别中的对象主体。

此外，配备相机的终端设备200捕获其影像用于从图像的内容检测词信息的目标不限于诸如杂志之类的印刷品，而是用户可以捕获例如实际上在糖果中呈现的糖果的影像。或者，还可以捕获由显示设备300显示的电视广播屏幕等的影像。因此，可以从各种捕获图像的内容提取词信息。

[6、变型2]

接着，参考图12到图13描述根据本公开（部分2）的实施例的变型。

此示例是使用字符识别检测在由配备相机的终端设备200捕获的捕获图像中包含的字符的、参考图4等描述的处理和对由配备相机的终端设备200捕获的捕获图像的内容进行图像识别的、参考图9等描述的处理的组合。

图12是呈现在此情况下处理示例的流程图。在图12的流程图中，向与图5和图10的流程图中的处理片段相同的处理片段提供相同步骤标号并且省略其描述。

描述图12的流程图中的处理，在获取步骤S11捕获的图像之后，配备相机的终端设备200进行识别在图像中包含的字符的字符识别处理和识别图像的内容的图像识别处理（步骤S31）。之后，配备相机的终端设备200基于识别结果确定字符信息是否是主要（步骤S32）。在确定中，当确定其中字符信息是主要的图像时，配备相机的终端设备200对所提取的文本代码中的字符串进行形态分析并且获取预期用于内容检索的词（步骤S13）。

此外，在步骤S32的确定中，当确定字符信息部不是主要但是图像信息是主要时，配备相机的终端设备200进行图像特征提取处理以从图像中的对象主体的形状等获得字信息（步骤S21）。

然后，在进行步骤S13的形态分析处理或步骤S21的图像特征提取处理之后，配备相机的终端设备200对所提取的词进行聚类处理（步骤S14）。在进行聚类处理之后，进行与图5的流程图相同的处理。

例如如图13所示，进行图12的流程图中的步骤S32中确定字符信息是否是主要的处理。即，当配备相机的终端设备200捕获图像31时，配备相机的终端设备200将对在图31中包含的字符使用形态分析而获取的名词数量与在图31中包含的各个图像的数量进行比较。这里，各个图像是如下图像：使用如图13所示的诸如“糖果”的图像之类的图像识别检测到名词的图像。

然后，相机配备终端设备200确定具有较大数量的字符信息作为主要信息，并且对是主要的字符信息进行聚类处理，以获得传送到视频记录设备100的字信息。

因此，配备相机的终端设备200确定在捕获图像中的字符信息是否是主要的，并且切换处理。由此，达到如下效果：任何具有更多字符以及具有更少字符的捕获图像可以被处理。

另外，在图12的流程图中，配备相机的终端设备200从确定为主要的信息获得词信息。相反，配备相机的终端设备200还可以使用对在图31中包含的字符使用形态分析而获得的词以及通过识别在图31中包含的各个图像而获得的词两者作为用于检索视频内容的词信息。

[7、其他变型]

另外，在根据实施例的上述示例中，配备相机的终端设备200使用对捕获的图像的字符识别或图像识别来获取词信息以传送词信息到视频记录设备100。相反，配备相机的终端设备200可以发送例如捕获的图像到视频记录设备100且视频记录设备100可以对该图像进行字符识别或图像识别。或者，由配备相机的终端设备200捕获的图像可以被发送到服务器400且服务器400可以使用字符识别或图像识别获取词信息。设备100、200和400中的任一种都可以进行分类词信息的聚类处理。

此外，除了视频记录设备100或连接到因特网的服务器400之外的外部设备都可以对在视频记录设备100中累积的视频内容进行图像/语音特征提取处理15（图4等）。

此外，在根据实施例的上述示例中，视频记录设备100是接收和累积广播信号的设备。相反，根据本公开的实施例的处理可以应用于可以累积视频内容的任何其他记录设备。

此外，配备相机的终端设备200是应用到所谓智能电话的移动电话终端装置的示例。相反，根据本公开的实施例的处理可以应用于任何其他终端装置，只要其是配备相机的终端装置。

此外，图1所示的系统是包括配备相机的终端设备200和视频记录设备100的两个设备的系统。相反，当配备相机的终端设备200具有累积电视广播和/或下载的视频内容的功能时，配备相机的终端设备200可以进行从图像捕获到视频内容检索的全部处理片段。

此外，在根据实施例的上述示例中描述的确定相似度的处理是一个示例且视频记录设备100可以在任何其他处理片段中确定相似度。例如，在根据实施例的上述示例中，视频记录设备100比较词的出现频率，该频率是对各个类别的。相反，视频记录设备100可以在多个级别上进行分类以更精确地确定相似度。具体地，例如，准备顶级类别（例如，“食物”）、低于该类别的较低级类别（例如，“糖果”）以及低于该类别的更低级类别（例如，“西式糖果”）作为类别，当视频记录设备100确定相似度时，在较低级别上具有高相似度的项目被认为是具有较高相似度的项目。

此外，当确定相似度时，除了词的出现频率（该频率是用于各个类别的）之外的其他因素可以用于相似度的确定。

或者，视频记录设备100可以基于从捕获的图像获得的词信息和从累积视频内容获得的词信息在其他确定处理中从累积视频内容检索相关视频内容。

此外，当视频记录设备100从视频内容获得词信息时，在用户似乎偏爱的类别中的词可以被优选地检索，以反映用户对视频记录设备100之前的使用。另外，当配备相机的终端设备200从图像获得词信息时，可以进行分类，以相似地反映用户对其之前的使用。

此外，在根据实施例的上述示例中，示例性地描述进行处理的视频记录设备100和配备相机的终端设备200。相反，进行各种类型的数据处理的计算机设备可以例如以用于根据本公开的实施例进行处理例程的程序（软件）实现，并且该计算机装置可以进行图像的分析和/或累积视频内容的检索。该程序可以例如通过在各种类型的记录介质中存储来准备的。

本领域的技术人员应当理解，只要在所附权利要求或其等效物的范围之内，取决于设计要求和其他因素可以发生各种修改、组合、部分组合和变更。

另外，本技术还可以如下配置。

（1）

一种视频记录设备，包括：

内容累积部分，累积视频内容；

特征提取处理部分，从所述内容累积部分累积的视频内容提取作为特征的图像或语音，并且从所提取的图像或所提取的语音获得词信息；

词信息获取部分，获取对从相机捕获的图像识别的词信息使用聚类处理而获得的分类词信息；以及

内容检索部分，基于由所述词信息获取部分获取的分类词信息和由所述特征提取处理部分获取的词信息，从由内容累积部分累积的视频内容检索相关视频内容。

（2）

根据（1）所述的视频记录设备，

其中，所述特征提取处理部分从在所述视频内容的图像中包含的字幕或反射式字幕获取所述词信息。

（3）

根据（1）或（2）所述的视频记录设备，

其中，所述特征提取处理部分进一步从在所述视频内容的额外信息中包含的文本信息获取所述词信息。

（4）

根据（1）到（3）中的任一项所述的视频记录设备，

其中，所述词信息获取部分获取对词信息使用聚类处理而获得的分类词信息，所述词信息通过对由所述相机捕获的图像的字符识别处理而获取。

（5）

根据（1）到（3）中的任一项的所述视频记录设备，

其中，所述词信息获取部分从由所述相机捕获的图像中的对象主体的形状获取作为所述对象主体的名称的所述词信息。

（6）

根据（1）到（3）中的任一项的所述视频记录设备，

其中，所述词信息获取部分获取的词信息是通过将对由所述相机捕获的图像使用字符识别处理而获得的词的数量与基于由所述相机捕获的图像中的形状识别的对象主体的数量进行比较而确定为主要信息的词信息。

(7)

一种信息处理系统，包括：

配备相机的终端设备，具有相机部分；和

视频记录设备，与所述配备相机的终端设备通信并且具有累积视频内容的内容累积部分，

其中，所述配备相机的终端设备和所述视频记录设备中的任一个包括：

图像识别部分，从由所述配备相机的终端设备的相机部分捕获的图像获得词信息；

聚类处理部分，通过聚类由所述图像识别部分获得的词信息来获得分类词信息；

特征提取处理部分，从由所述内容累积部分累积的视频内容提取作为特征的图像或语音，并且从所提取的图像或所提取的语音获得词信息；以及

内容检索部分，基于由聚类处理部分获得的分类词信息和由特征提取处理部分获得的词信息从由内容累积部分累积的视频内容检索相关视频内容。

（8）

一种信息处理方法，包括：

从由内容累积部分累积的视频内容提取作为特征的图像或语音并且从所提取的图像或所提取的语音获得词信息的特征提取处理；

从由相机捕获的图像获得词信息的图像识别处理；

通过聚类使用所述图像识别处理而获得的词信息获得分类词信息的聚类处理；以及

基于使用所述聚类处理获得的分类词信息和使用所述特征提取处理获得的词信息，从由所述内容累积部分累积的视频内容检索相关视频内容的内容检索处理。

（9）

一种记录介质，其中记录程序用于使得计算机如下执行：

从由内容累积部分累积的视频内容提取作为特征的图像或语音，并且从所提取的图像或所提取的语音获得词信息的特征提取例程；

从由相机捕获的图像获得词信息的图像识别例程；

通过聚类使用图像识别例程而获得的词信息来获得分类词信息的聚类例程；以及

基于使用所述聚类例程获得的分类词信息和使用所述特征提取处理获得的词信息，从由所述内容累积部分累积的视频内容检索相关视频内容的内容检索例程。

本公开包含涉及公开在于2012年6月25日向日本专利局提交的日本优先权专利申请JP2012-141596的主题的主题，其整体内容通过引用并入于此。

Claims

1.一种视频记录设备，包括：

内容累积部分，累积视频内容；

内容检索部分，基于由所述词信息获取部分获取的分类词信息和由所述特征提取处理部分获取的词信息，从由内容累积部分累积的视频内容检索相关视频内容；

2.根据权利要求1所述的视频记录设备，

其中，所述特征提取处理部分从在所述视频内容的图像中包含的字幕获取所述词信息。

3.根据权利要求2所述的视频记录设备，

4.根据权利要求1所述的视频记录设备，

5.根据权利要求1所述的视频记录设备，

6.一种信息处理系统，包括：

配备相机的终端设备，具有相机部分；和

内容检索部分，基于由聚类处理部分获得的分类词信息和由特征提取处理部分获得的词信息从由内容累积部分累积的视频内容检索相关视频内容；

其中，所述聚类处理部分获取的词信息是通过将对由所述相机捕获的图像使用字符识别处理而获得的词的数量与基于由所述相机捕获的图像中的形状识别的对象主体的数量进行比较而确定为主要信息的词信息。

7.一种信息处理方法，包括：

从由相机捕获的图像获得词信息的图像识别处理；

基于使用所述聚类处理获得的分类词信息和使用所述特征提取处理获得的词信息，从由所述内容累积部分累积的视频内容检索相关视频内容的内容检索处理；

其中，所述聚类处理获取的词信息是通过将对由所述相机捕获的图像使用字符识别处理而获得的词的数量与基于由所述相机捕获的图像中的形状识别的对象主体的数量进行比较而确定为主要信息的词信息。

8.一种记录介质，其中记录程序用于使得计算机如下执行：

从由相机捕获的图像获得词信息的图像识别例程；

基于使用所述聚类例程获得的分类词信息和使用所述特征提取例程获得的词信息，从由所述内容累积部分累积的视频内容检索相关视频内容的内容检索例程；