CN101877060A

CN101877060A - 信息处理设备和方法以及程序

Info

Publication number: CN101877060A
Application number: CN2010101708936A
Authority: CN
Inventors: 铃木洋贵
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-04-30
Filing date: 2010-04-23
Publication date: 2010-11-03
Anticipated expiration: 2030-04-23
Also published as: US8457469B2; EP2246807A1; WO2010125962A1; EP2426917A1; CN101877060B; RU2010154157A; CN102077580B; US20120033933A1; EP2426917A4; CN102077580A; JPWO2010125962A1; JP5533861B2; RU2494566C2

Abstract

本发明涉及信息处理设备和方法以及程序。一种信息处理设备，包括：特征量提取单元，提取图像的每一帧的特征量；最大似然状态序列估计单元，使用特征量估计最大似然状态序列；高亮标记生成单元，关于关注检测器学习内容生成高亮标记序列；以及学习单元，使用学习标记序列来学习作为状态转变概率模型的高亮检测器，学习标记序列是从关注检测器学习内容获得的最大似然状态序列和高亮标记序列的对。

Description

信息处理设备和方法以及程序

技术领域

本发明涉及一种信息处理设备和方法以及程序。具体地说，本发明涉及一种使得可以容易获得其中例如用户感兴趣的场景被收集作为高亮场景的摘要的信息处理设备和方法以及程序。

背景技术

作为用于例如从内容(诸如电影、电视广播节目等)检测高亮场景的高亮场景检测技术，存在使用专家(或设计者)经验或知识的经验或知识的技术、使用采用学习样本的统计学习的技术等。

在使用专家的经验或知识的技术中，基于专家的经验或知识来设计用于检测高亮场景中出现的事件的检测器以及用于检测从该事件定义的场景(即产生事件的场景)的检测器。此外，使用检测器来检测高亮场景。

在使用采用学习样本的统计学习的技术中，使用学习样本来获得用于检测高亮场景的检测器(即高亮检测器)和用于检测高亮场景中出现的事件的检测器(即事件检测器)。此外，使用检测器来检测高亮场景。

此外，在高亮场景检测技术中，提取内容的视频或音频的特征量，并且使用特征量来检测高亮场景。作为用于检测上述高亮场景的特征量，通常使用专用于从其检测高亮场景的内容的风格的特征量。

例如，在高亮场景检测技术中(诸如“Wang”、“Dua”等)，使用足球场线、足球轨迹、整个屏幕的运动、MFCC(梅尔频率倒谱系数)等从足球比赛视频提取用于检测事件“吹哨”、“鼓掌”等的高阶特征量，并且使用通过组合提取的特征量所获得的特征量来执行足球竞技场景(例如进攻、犯规等)的检测。

例如，“Wang”已经提出了一种高亮场景检测技术，其中，从足球比赛的视频设计使用色彩柱状图特征量的观看类型分类器、使用线检测器的竞赛位置标识器、重放标志检测器、广播员兴奋度检测器、吹哨检测器等，并且通过由贝叶斯网络对它们之间的时间前后关系进行建模来配置足球高亮检测器。

此外，作为高亮场景检测技术，在日本未审专利申请公开第2008-185626号中已经提出了使用指定高音调(欢呼)声音的特征量来检测内容的高亮场景的技术。

根据上述高亮场景检测技术，可以关于所指定的风格的内容来检测高亮场景(或事件)，但难以关于其它风格的内容来检测作为高亮场景的正确场景。

例如，根据日本待审专利申请公开第2008-185626号中描述的高亮场景检测技术，在考虑具有欢呼的场景作为高亮场景的规则下检测高亮场景，但具有欢呼的场景变为高亮场景的内容的风格有限。此外，在日本待审专利申请公开第2008-185626号中描述的高亮场景检测技术中，难以关于其中没有欢呼的场景变为高亮场景的风格的内容检测高亮场景。

相应地，为了使用日本待审专利申请公开第2008-185626号中描述的高亮场景检测技术关于除了所指定的风格之外的风格的内容来执行高亮场景检测，可能需要设计适合于该风格的特征量。此外，必须执行规则设计，以用于基于专家的会见使用特征量检测高亮场景(或者事件的定义)。

例如，在日本待审专利申请公开第2000-299829号中，已经提出了一种通过设计可以用于检测通常变为高亮场景的场景的特征量和阈值并且使用特征量和阈值来执行阈值处理而检测高亮场景的方法。

然而，由于内容近来已经多样化，因此很难获得一般规则，诸如用于处理特征量或阈值、用于关于所有内容检测作为高亮场景的正确场景的规则。

相应地，为了检测作为高亮场景的正确场景，可能必须设计用于检测适合于每一风格的高亮场景的特征量和规则。甚至在设计这种规则的情况下，也仍难以检测例外高亮场景(例如其可以是对于规则的例外)。

发明内容

关于内容(诸如体育节目)中通常称为高亮场景的场景(例如足球比赛中的进球场景)，可以设计用于使用专家知识以高精度检测场景的规则。

然而，用户具有多样品味和偏好。例如，用户可能喜好“教练被示出在椅子上的场景”、“垒球比赛中跑垒者从一垒暴投的场景”、“测验游戏中提问以及回答的场景”等。在此情况下，对于各个用户单独设计适合于各种品味并且在检测系统(例如视听(AV)电器检测高亮场景)中采用这种规则是不现实的。

另一方面，并非用户观看根据所设计的并且用户在检测系统中采用的固定规则检测的其中收集了高亮场景的摘要，而是检测系统学习用户的品味，检测属于用户的品味的场景(即用户感兴趣的场景)作为高亮场景，并且提供其中收集了这些高亮场景的摘要。相应地，在观看内容时实现所谓的“个性化”以改进内容享受方法。

鉴于上述情况，期望使得可以容易地获得其中收集了用户感兴趣的场景作为高亮场景的摘要。

根据本发明实施例，提供一种信息处理设备或对作为信息处理设备的计算机进行操作的程序，包括：特征量提取单元，提取关注检测器学习内容的图像的每一帧的特征量，其中，关注检测器学习内容是用于学习高亮检测器的内容，高亮检测器是用于检测用户感兴趣的场景作为高亮场景的模型；最大似然状态序列估计单元，估计最大似然状态序列，其为这样的状态序列，其中，存在具有在内容模型中观测关注检测器学习内容的特征量的最高似然的状态转变，内容模型是通过提取作为用于学习被规定为状态转变概率和从状态观测预定观测值的观测概率的状态转变概率模型的内容的学习内容的图像的每一帧的特征量并使用学习内容的特征量来学习状态转变概率模型获得的学习之后的状态转变概率模型；高亮标记生成单元，根据用户的操控通过对关注检测器学习内容的每一帧标记指示场景是否为高亮场景的高亮标记来关于关注检测器学习内容生成高亮标记序列；以及学习单元，使用学习标记序列来学习作为状态转变概率模型的高亮检测器，学习标记序列是从关注检测器学习内容获得的最大似然状态序列和高亮标记序列的对。

此外，根据本发明实施例，提供一种信息处理方法，包括以下步骤：提取关注检测器学习内容的图像的每一帧的特征量，其中，关注检测器学习内容是用于学习高亮检测器的内容，高亮检测器是用于检测用户感兴趣的场景作为高亮场景的模型；估计最大似然状态序列，其为这样的状态序列，其中，存在具有在内容模型中观测关注检测器学习内容的特征量的最高似然的状态转变，内容模型是通过提取作为用于学习被规定为状态转变概率和从状态观测预定观测值的观测概率的状态转变概率模型的内容的学习内容的图像的每一帧的特征量并使用学习内容的特征量来学习状态转变概率模型获得的学习之后的状态转变概率模型；根据用户的操控通过对关注检测器学习内容的每一帧标记指示场景是否为高亮场景的高亮标记来关于关注检测器学习内容生成高亮标记序列；以及使用学习标记序列来学习作为状态转变概率模型的高亮检测器，学习标记序列是从关注检测器学习内容获得的最大似然状态序列和高亮标记序列的对。

在根据本发明实施例的信息处理设备和方法以及程序中，关注检测器学习内容的图像的每一帧的特征量被提取，其中，关注检测器学习内容是用于学习高亮检测器的内容，高亮检测器是用于检测用户感兴趣的场景作为高亮场景的模型。最大似然状态序列被估计，其为这样的状态序列，其中，存在具有在内容模型中观测关注检测器学习内容的特征量的最高似然的状态转变，内容模型是通过提取作为用于学习被规定为状态转变概率和从状态观测预定观测值的观测概率的状态转变概率模型的内容的学习内容的图像的每一帧的特征量并使用学习内容的特征量来学习状态转变概率模型获得的学习之后的状态转变概率模型。根据用户的操控通过对关注检测器学习内容的每一帧标记指示场景是否为高亮场景的高亮标记来关于关注检测器学习内容生成高亮标记序列。此外，使用学习标记序列来学习作为状态转变概率模型的高亮检测器，学习标记序列是从关注检测器学习内容获得的最大似然状态序列和高亮标记序列的对。

根据本发明另一实施例，提供一种信息处理设备或对作为信息处理设备的计算机进行操作的程序，包括：获取装置，用于获取通过提取关注检测器学习内容的图像的每一帧的特征量而获得的高亮检测器，其中，关注检测器学习内容是用于学习高亮检测器的内容，高亮检测器是用于检测用户感兴趣的场景作为高亮场景的模型，估计最大似然状态序列，其为这样的状态序列，其中，存在具有在内容模型中观测关注检测器学习内容的特征量的最高似然的状态转变，内容模型是通过提取作为用于学习被规定为状态转变概率和从状态观测预定观测值的观测概率的状态转变概率模型的内容的学习内容的图像的每一帧的特征量并使用学习内容的特征量来学习状态转变概率模型获得的学习之后的状态转变概率模型，根据用户的操控通过对关注检测器学习内容的每一帧标记指示场景是否为高亮场景的高亮标记来关于关注检测器学习内容生成高亮标记序列，以及使用学习标记序列来学习作为状态转变概率模型的高亮检测器，学习标记序列是从关注检测器学习内容获得的最大似然状态序列和高亮标记序列的对；特征量提取装置，用于提取作为检测高亮场景的对象的内容的关注高亮检测内容的图像的每一帧的特征量；第一最大似然状态序列估计装置，用于估计第一最大似然状态序列，其为这样的状态序列，其中，存在具有在内容模型中观测关注高亮检测内容的特征量的最高似然的状态转变；第二最大似然状态序列估计装置，用于估计第二最大似然状态序列，其为这样的状态序列，其中，存在具有在高亮检测器中观测从关注高亮检测内容获得的最大似然状态序列以及与指示场景是否为高亮场景的高亮标记的高亮标记序列成对的检测标记序列的最高似然的状态转变；高亮场景检测装置，用于基于作为从检测标记序列获得的最大似然状态序列的高亮关系状态序列的每一状态的高亮标记的观测概率从关注高亮检测内容检测高亮场景的帧；以及摘要内容生成装置，用于使用高亮场景的帧生成作为关注高亮检测内容的摘要的摘要内容。

此外，根据本发明另一实施例，提供一种信息处理方法，包括以下步骤：信息处理设备通过提取关注检测器学习内容的图像的每一帧的特征量而获取高亮检测器，其中，关注检测器学习内容是用于学习高亮检测器的内容，高亮检测器是用于检测用户感兴趣的场景作为高亮场景的模型，估计最大似然状态序列，其为这样的状态序列，其中，存在具有在内容模型中观测关注检测器学习内容的特征量的最高似然的状态转变，内容模型是通过提取作为用于学习被规定为状态转变概率和从状态观测预定观测值的观测概率的状态转变概率模型的内容的学习内容的图像的每一帧的特征量并使用学习内容的特征量来学习状态转变概率获得的学习之后的状态转变概率模型，根据用户的操控通过对关注检测器学习内容的每一帧标记指示场景是否为高亮场景的高亮标记来关于关注检测器学习内容生成高亮标记序列，以及使用学习标记序列来学习作为状态转变概率模型的高亮检测器，学习标记序列是从关注检测器学习内容获得的最大似然状态序列和高亮标记序列的对；提取作为检测高亮场景的对象的内容的关注高亮检测内容的图像的每一帧的特征量；估计第一最大似然状态序列，其为这样的状态序列，其中，存在具有在内容模型中观测关注高亮检测内容的特征量的最高似然的状态转变；估计第二最大似然状态序列，其为这样的状态序列，其中，存在具有在高亮检测器中观测从关注高亮检测内容获得的最大似然状态序列以及与指示场景是否为高亮场景的高亮标记的高亮标记序列成对的检测标记序列的最高似然的状态转变；基于作为从检测标记序列获得的最大似然状态序列的高亮关系状态序列的每一状态的高亮标记的观测概率从关注高亮检测内容检测高亮场景的帧；以及使用高亮场景的帧生成作为关注高亮检测内容的摘要的摘要内容。

在根据本发明另一实施例的所述信息处理设备和方法以及程序中，通过提取关注检测器学习内容的图像的每一帧的特征量而获取高亮检测器，其中，关注检测器学习内容是用于学习高亮检测器的内容，高亮检测器是用于检测用户感兴趣的场景作为高亮场景的模型，估计最大似然状态序列，其为这样的状态序列，其中，存在具有在内容模型中观测关注检测器学习内容的特征量的最高似然的状态转变，内容模型是通过提取作为用于学习被规定为状态转变概率和从状态观测预定观测值的观测概率的状态转变概率模型的内容的学习内容的图像的每一帧的特征量并使用学习内容的特征量来学习状态转变概率模型获得的学习之后的状态转变概率模型，根据用户的操控通过对关注检测器学习内容的每一帧标记指示场景是否为高亮场景的高亮标记来关于关注检测器学习内容生成高亮标记序列，以及使用学习标记序列来学习作为状态转变概率模型的高亮检测器，学习标记序列是从关注检测器学习内容获得的最大似然状态序列和高亮标记序列的对。作为检测高亮场景的对象的内容的关注高亮检测内容的图像的每一帧的特征量被提取；以及第一最大似然状态序列被估计，其为这样的状态序列，其中，存在具有在内容模型中观测关注高亮检测内容的特征量的最高似然的状态转变。此外最大似然状态序列被估计，其为这样的状态序列，其中，存在具有在高亮检测器中观测从关注高亮检测内容获得的最大似然状态序列以及与指示场景是否为高亮场景的高亮标记的高亮标记序列成对的检测标记序列的最高似然的状态转变。然后，基于作为从检测标记序列获得的最大似然状态序列的高亮关系状态序列的每一状态的高亮标记的观测概率从关注高亮检测内容检测高亮场景的帧；以及使用高亮场景的帧生成作为关注高亮检测内容的摘要的摘要内容。

信息处理设备可以是独立设备或配置一个设备的内部块。

此外，程序可以是通过传输介质进行传输而提供的，或者可以被记录在记录介质中。

如上所述，根据本发明实施例，可以容易地获得其中收集了用户感兴趣场景作为高亮场景的摘要。

附图说明

图1是示出记录器的配置示例的框图，本发明的实施例被应用至该记录器；

图2是示出内容模型学习单元的配置的框图；

图3是示出HMM的示例的示图；

图4是示出HMM的示例的示图；

图5A和图5B是示出HMM的示例的示图；

图6A至图6C是示出HMM的示例的示图；

图7是示出特征量提取单元所处理的特征量提取的示图；

图8是示出内容模型学习处理的流程图；

图9是示出内容结构呈现单元的配置示例的框图；

图10A至图10D是示出内容结构呈现处理的概述的示图；

图11是示出模型映射的示例的示图；

图12是示出模型映射的示例的示图；

图13是示出内容结构呈现单元所处理的内容结构呈现的流程图；

图14是示出摘要生成单元的配置示例的框图；

图15是示出高亮检测器学习单元的配置示例的框图；

图16是示出高亮标记生成单元的处理的示图；

图17是示出高亮检测器学习单元所处理的高亮检测器学习的流程图；

图18是示出高亮检测单元的配置示例的框图；

图19A和图19B是示出摘要内容生成单元所生成的摘要内容的示例的示图；

图20是示出高亮检测单元所处理的高亮检测的流程图；

图21是示出高亮场景检测处理的流程图；

图22是示出剪贴簿生成单元的配置示例的框图；

图23是示出初始剪贴簿生成单元的配置示例的框图；

图24是示出用于用户指定模型映射上的状态的用户接口的示例的示图；

图25是示出初始剪贴簿生成单元所处理的初始剪贴簿生成的流程图；

图26是示出注册剪贴簿生成单元的配置示例的框图；

图27是示出注册剪贴簿生成单元所处理的注册剪贴簿生成的流程图；

图28A至图28E是示出注册剪贴簿生成处理的示图；

图29是示出服务器客户机系统的第一配置示例的框图；

图30是示出服务器客户机系统的第二配置示例的框图；

图31是示出服务器客户机系统的第三配置示例的框图；

图32是示出服务器客户机系统的第四配置示例的框图；

图33是示出服务器客户机系统的第五配置示例的框图；

图34是示出服务器客户机系统的第六配置示例的框图；

图35是示出记录器的配置示例的框图，根据本发明另一实施例将本发明的实施例应用至该记录器；

图36是示出内容模型学习单元的配置示例的框图；

图37是示出音频特征量提取单元所处理的特征量提取的示图；

图38A至图38D是示出音频特征量提取单元所处理的特征量提取的示图；

图39是示出对象特征量提取单元所处理的特征量提取的示图；

图40是示出内容模型学习单元所处理的音频内容模式学习的流程图；

图41是示出内容模型学习单元所处理的对象内容模式学习的流程图；

图42是示出摘要生成单元的配置示例的框图；

图43是示出高亮检测器学习单元的配置示例的框图；

图44是示出高亮检测器学习单元所处理的高亮检测器学习的流程图；

图45是示出高亮检测单元的配置示例的框图；

图46是示出高亮检测单元所处理的高亮检测的流程图；

图47是示出剪贴簿生成单元的配置示例的框图；

图48是示出初始剪贴簿生成单元的配置示例的框图；

图49是示出用于用户指定模型映射上的状态的用户接口的示例的示图；

图50是示出注册剪贴簿生成单元的配置示例的框图；

图51是示出注册剪贴簿生成单元所处理的注册剪贴簿生成的流程图；

图52是示出注册剪贴簿生成处理的示图；以及

图53是示出计算机的配置示例的框图，根据本发明实施例将本发明实施例应用至该计算机。

具体实施方式

[应用根据本发明实施例的信息处理设备的记录器的示例]

图1是示出应用根据本发明实施例的信息处理设备的记录器的配置示例的框图。

图1中的记录器可以是例如HD(硬盘)记录器等，并且记录(或者存储)各种内容(诸如电视广播节目、通过诸如互联网的网络而提供的内容、使用摄像机拍摄的内容等)。

在图1中，记录器包括内容存储单元11、内容模型学习单元12、模型存储单元13、内容结构呈现单元14、摘要生成单元15、以及剪贴簿生成单元15。

内容存储单元11存储(或者记录)例如诸如电视广播节目等的内容。内容被记录(或者存储)在内容存储单元11中，并且在内容存储单元11中记录(或者存储)的内容例如根据用户的操控而被播放。

内容模型学习单元12在预定特征量空间中对内容存储单元11中存储的内容进行自身有系统地结构化，并且执行学习(即统计学习)，用于获得指示内容的结构(即空间-时间结构)的模型(下文中称为“内容模型”)。内容模型学习单元12将获得的内容模型作为学习的结果提供给模型存储单元13。

模型存储单元13存储从内容模型学习单元12提供的内容模型。

内容结构呈现单元14使用内容存储单元11中存储的内容以及模型存储单元13中存储的内容模型来呈现指示内容结构的模型映射(稍后进行描述)。

摘要生成单元15使用模型存储单元13中存储的内容模型来从内容存储单元11中存储的内容检测用户感兴趣的场景作为高亮场景。此外，摘要生成单元15生成其中收集高亮场景的摘要。

剪贴簿生成单元16使用模型存储单元13中存储的内容模型来检测用户感兴趣的场景，并且生成其中收集场景的剪贴簿。

在此情况下，虽然摘要生成单元15进行的摘要的生成以及剪贴簿生成单元16进行的剪贴簿的生成在检测用户感兴趣的场景作为结果时是共同的，但通过不同的检测方法(即算法)来执行它们。

此外，可以在不安装内容结构呈现单元14或剪贴簿生成单元16的情况下配置图1中的记录器。

因此，内容存储单元11中存储的内容可以包括视频、音频以及必要文本(即字幕)的数据(即流)。

此外，在此，仅内容数据之中的图像数据可以用在处理内容模型的学习中或使用内容模型的处理中。

然而，在处理内容模型的学习或使用内容模型的处理中，除了图像数据之外还可以使用音频和文本数据，并且在此情况下，可以改进处理精度。

此外，在处理内容模型的学习或使用内容模型的处理中，可以使用音频数据而非图像数据。

[内容模型学习单元12的配置的示例]

图2是示出图1中的内容模型学习单元12的配置示例的框图。

内容模型学习单元12提取作为用于学习状态转变概率模型的内容的学习内容的图像的每一帧的特征量，其中状态转变概率模型被规定为状态转变概率和从状态观测预定观测值的观测概率。此外，内容模型学习单元12使用学习内容的特征量执行状态转变概率模型的学习。

也就是说，内容模型学习单元12包括学习内容选择单元21、特征量提取单元22、特征量存储单元26、以及学习单元27。

学习内容选择单元21在内容存储单元11中存储的内容之中选择用于学习状态转变概率模型的内容作为学习内容，并且将所选内容提供给特征量提取单元22。

在此，学习内容选择单元21在内容存储单元11中存储的内容之中选择例如属于预定类别的一个或多个内容作为学习内容。

属于预定类别的内容表示具有在内容中潜在的共同内容结构的内容，诸如相同风格的节目、系列节目、每星期、每天定期广播的节目(即具有相同标题的节目)等。

在风格方面，虽然可以采用简短分类(例如体育节目、新闻节目等)，但优选地采用详细分类(例如足球比赛节目、垒球比赛节目等)。

此外，例如，在频道(即广播站)不同的足球比赛节目的情况下，它们可以被分类为属于不同类别的内容。

在此情况下，假设在图1的记录器中预先确定采用哪种类别作为内容的类别。

此外，可以从元数据(诸如节目标题、风格等)识别内容存储单元11中存储的内容的类别，其连同电视广播中的节目或互联网上的站所提供的节目信息一起被发送。

特征量提取单元22将来自学习内容选择单元21的学习内容解复用为图像和音频数据，并且提取每一帧的特征量，以将提取出的特征量提供给特征量存储单元26。

也就是说，特征量提取单元22包括帧划分单元23、子区域特征量提取单元24、以及组合单元25。

来自学习内容选择单元21的学习内容的图像的帧按时间序列被提供给帧划分单元23。

帧划分单元23按时间序列连续处理从学习内容选择单元21提供的学习内容的帧作为关注帧。此外，帧划分单元23将关注帧划分为作为小区域的多个子区域，并且将这些子区域提供给子区域特征量提取单元24。

子区域特征量提取单元24从帧划分单元23提供的关注帧的每一子区域提取特征量(下文中称为“子区域特征量”)，并且将特征量提供给组合单元25。

组合单元25组合从子区域特征量提取单元24提供的关注帧的子区域的子区域特征量，并且将组合的结果提供给特征量存储单元26作为关注帧的特征量。

特征量存储单元26按时间序列存储从特征量提取单元22(或特征量提取单元22的组合单元25)提供的学习内容的各个帧的特征量。

学习单元27使用特征量存储单元26中存储的学习内容的各个帧的特征量来执行状态转变概率模型的学习。此外，学习单元27使得在学习之后的状态转变概率模型对应于学习内容的类别作为内容模型，并且将状态转变概率模型提供给模型存储单元13。

[状态转变概率模型]

参照图3至图6，将描述由图2中的学习单元27学习的状态转变概率模型。

作为状态转变概率模型，例如，可以采用HMM(隐式马尔科夫模型)。在采用HMM的情况下，例如通过Baum-Welch重新估计方法来执行HMM的学习。

图3是示出从左到右类型HMM的示例的示图。

从左到右类型HMM是按行从左到右布置的HMM，并且可以执行从特定状态到同一状态的转变(称为自身转变)以及从特定状态到该特定状态的右侧的状态的转变。从左到右类型HMM可以用在例如语音识别等中。

图3中的HMM包括三个状态s₁、s₂和s₃，并且允许自身转变以及从特定状态到邻近右侧状态的转变。

在此情况下，HMM通过状态s_i的初始概率π_i、状态转变概率a_ij以及从状态s_i观测预定观测值o的观测概率b_i(o)来规定。

在此，初始概率π_i是状态s_i处于初始状态(即原始状态)的概率。在从左到右类型HMM中，最左侧状态s_i的初始概率π_i是1.0，另一状态s_i的初始概率π_i是0.0。

状态转变概率a_ij是状态从状态s_i转变到状态s_j的概率。

观测概率b_i(o)是当状态转变到状态s_i时从状态s_i观测到观测值o的概率。作为观测概率b_i(o)，如果观测值o是离散值，则使用概率值，而如果观测值o是连续值，则使用概率分布函数。作为概率分布函数，可以采用平均值(即平均矢量)和方差(即协方差矩阵)所定义的高斯分布。

图4是示出遍历类型HMM的示例的示图。

遍历类型HMM是状态转变不受限的HMM，即，其中从任意状态si到另一状态s_j的状态转变有可能的HMM。

图4所示的HMM包括三个状态s₁、s₂和s₃，并且允许任意状态转变。

遍历类型HMM是具有状态转变的最高自由度的HMM。然而，如果状态数目增加，则HMM的参数(例如初始概率π_i、状态转变概率a_ij以及观测概率b_i(o))取决于参数的初始值而收敛到局部最小值，并且因此无法获得正确的参数。

相应地，通过采用自然界中的多数现象以及用于产生视频内容的摄影技巧或节目配置可以表示为这种小型世界网络的稀疏组合的假设，假定学习单元27采用其中状态转变被限制为稀疏结构的HMM。

在此，稀疏结构是其中到任意状态的状态转变大大受限的结构，而非紧密状态转变(close state transition)，诸如遍历(Ergodic)类型HMM(其中从任意状态到另一状态的状态转变是可能的)。

在此，甚至在稀疏结构中，也假设至少一个状态到另一状态的转变存在，并且存在自身转变。

图5A和图5B是示出作为具有稀疏结构的HMM的二维(2D)邻近约束HMM的示例的示图。

图5A和图5B中所示的HMM除了稀疏结构之外还在配置方面受限。也就是说，应在二维平面上以格状的形式来布置HMM。

在此，图5A中的HMM配置如下：到另一状态的状态转变限于水平邻近状态和垂直邻近状态。此外，图5B中的HMM配置如下：状态转变限于水平邻近状态、垂直邻近状态、以及对角线邻近状态。

图6A至图6C是示出具有除了2D邻近约束HMM之外的稀疏结构的HMM的示例的示图。

也就是说，图6A示出具有3D栅格限制的HMM的示例，图6B示出具有2D随机布置限制的HMM的示例，图6C示出具有小型世界网络的HMM的示例。

图2的学习单元27使用特征量存储单元26中存储的(从帧提取的)图像的特征量通过Baum-Welch重新估计方法来执行具有容纳如图5A和图5B或图6A至图6C所示的一百至几百个状态的稀疏结构的HMM的学习。

由于HMM(它是作为由学习单元27执行的学习的结果而获得的内容模型)是仅使用内容的图像的特征量通过学习而获得的，因此其可以称为可视HMM。

在此，在学习HMM时所使用的特征量存储单元26中存储的特征量对应于连续矢量，并且概率分布函数用作HMM的观测概率b_i(o)。

上述HMM的示例被公布在Laurence Rabiner、Biing-Hwang Juang共同合著者“the Basis of Voice Recognition(in two volumes)，NTT AdvancedTechnology Co.，Ltd”或发明人先前提出的日本专利申请第2008-064993号中。此外，具有稀疏结构的HMM或遍历类型HMM的使用示例被公布在发明人先前提出的日本专利申请第2008-064994号中。

[特征量的提取]

图7是示出由图2所示的特征量提取单元22处理的特征量提取的示图。

来自学习内容选择单元21的学习内容的图像的帧按时间序列被提供给特征量提取单元22的帧划分单元23。

帧划分单元23按时间序列连续处理从学习内容选择单元21提供的学习内容的帧作为关注帧，并且将关注帧划分为多个子区域R_k，以将子区域提供给子区域特征量提取单元24。

在图7中，关注帧相等地划分为16(即，水平×垂直＝4×4)个子区域R₁、R₂、......、R₁₆。

在此，当一个帧划分为子区域R_k时，划分后的子区域R_k的数目不限于16(即4×4)。一个帧可以划分为20(即5×4)个子区域R_k或25(即5×5)个子区域R_k。

虽然在图7中，一个帧划分为具有相同大小的子区域R_k即相等地划分为子区域)，但子区域的大小可以彼此不等。例如，帧的中心部分可以划分为具有较小大小的子区域，而帧的邻近部分(即邻近于图像边界的部分)可以划分为具有较大大小的子区域。

子区域特征量提取单元24(见图2)从帧划分单元23提供的关注帧的各个子区域R_k提取子区域特征量f_k＝FeatExt(R_k)，并且将提取出的子区域特征量提供给组合单元25。

也就是说，子区域特征量提取单元24使用子区域R_k的像素值(例如RGB分量、YUV分量等)获得子区域R_k的全局特征量作为子区域特征量f_k。

在此，子区域R_k的全局特征量是指仅使用像素值而不使用构成子区域R_k的像素的位置的信息来加性计算的特征量(例如直方图)。

作为全局特征量，可以采用称为GIST的特征量。GIST已经详细描述于例如A.Torralba，K.Murphy，W.Freeman，M.Rubin“Context-basedvision system for place and object recognition”，IEEE Int.Conf.ComputerVision，vol.1，no.1，pp.273-280，2003中。

在此情况下，全局特征量不限于GIST。也就是说，全局特征量可以关于局部位置、亮度、时间点等的外部改变的健壮(例如改变吸收类型)特征量。这种特征量的示例可以是HLCA(高阶局部相关)、LBP(局部二进制模式)、色彩柱状图等。

HLCA已经详细描述于例如N.Otsu，T.Kurita，″A new scheme forpractical flexible and intelligent vision systems″，Proc.IAPR Workshop onComputer Vision，pp.431-435，1988中。LBP已经详细描述于例如Ojalat，Pietickainen M & Maenpaa T，″Multiresolution gray-scale and rotationinvariant texture classification with Local Binary Patterns″，IEEETransactions on Pattern Analysis and Machine Intelligence 24(7)：971-987中(准确地说，Pietikainen和Maenpaa中出现的“a”是通过将“..”加到“a”的上部而获得的字符)。

在此，虽然上述GIST的全局特征量、LBP、HLCA、色彩柱状图等被部署为增加维度的数目，但还部署为加大各维度之间的相关性。

相应地，子区域特征量提取单元24(见图2)从子区域R_k提取GIST等，并且然后执行GIST的PCA(基本分量分析)。此外，子区域特征量提取单元24可以压缩(或者限制)GIST的维度的数目，从而累积贡献率基于PCA的结果而达到某个高值(例如等于或大于95的值)，并且可以把压缩的结果看作子区域特征量。

在此情况下，将GIST等投射到具有压缩数目维度的PCA空间上的投射矢量变为GIST等的维度的数目的压缩的结果。

组合单元25(见图2)组合从子区域特征量提取单元24提供的关注帧的子区域R₁至R₁₆的子区域特征量f₁至f₁₆，并且将组合的结果提供给特征量存储单元26作为关注帧的特征量。

也就是说，组合单元25通过组合从子区域特征量提取单元24提供的子区域特征量f₁至f₁₆来生成具有作为其分量的子区域特征量f₁至f₁₆的矢量，并且将该矢量提供给特征量存储单元26作为关注帧的特征量F_t。

在此，在图7中，在时间t的帧(即帧t)变为关注帧。时间t是基于内容的前端的时间，并且在本发明实施例中，在时间t的帧表示从内容的前端起的第t帧。

根据图2的特征量提取单元22，从内容的前端开始，学习内容的各个帧被连续处理为关注帧，并且如上所述，获得特征量F_t。此外，将学习内容的各个帧的特征量F_t按时间序列(在保持时间前后关系的状态下)从特征量提取单元22提供给特征量存储单元26，以存储在特征量存储单元26中。

如上所述，特征量提取单元22获得子区域R_k的全局特征量作为子区域特征量f_k，然后获得具有作为其分量的子区域特征量f_k的矢量作为帧的特征量F_t。

相应地，帧的特征量F_t对于局部改变(即子区域内出现的改变)是健壮的，但关于作为整个帧的模式布置的改变是可辨别的(可以灵敏地辨别差异)。

根据特征量F_t，可以正确地确定各帧之间场景(即内容)的相似性。例如，足够的是，“海岸”的场景是其中“天空”在帧上侧，“大海”在帧中心、并且“沙滩”处于帧的下侧的场景，但其与白云在天空上什么地方或场景是否为“海岸”的场景相似性没有相关性。在这点上，特征量F_t适合于确定场景相似性(即对场景进行分类)。

[内容模型学习处理]

图8是示出图2的内容模型学习单元12所执行的内容模型学习处理的流程图。

在步骤S11中，学习内容选择单元21在内容存储单元11中存储的内容之中选择属于预定类别的一个或多个内容作为学习内容。

例如，学习内容选择单元21在内容存储单元11中存储的内容之中选择尚未处理为学习内容的特定内容作为学习内容。

此外，学习内容选择单元21识别选择为学习内容的内容的类别，并且如果属于相同类别的另一内容存储在内容存储单元11中，则学习内容选择单元再次选择对应内容(另一内容)作为学习内容。

学习内容选择单元21将学习内容提供给特征量提取单元22，并且从步骤S11进入步骤S12。

在步骤S12中，特征量提取单元22的帧划分单元23在从学习内容选择单元21提供的学习内容之中选择尚未处理为关注学习内容(下文中称为“关注内容”)的内容作为关注内容。

然后，帧划分单元23从步骤S12进入步骤S13，并且在关注内容的帧之中选择尚未处理为关注帧的最在前的帧作为关注帧，以进入步骤S14。

在步骤S14中，帧划分单元23将关注帧划分为多个子区域，将划分后的子区域提供给子区域特征量提取单元24，并且进入步骤S15。

在步骤S15中，子区域特征量提取单元24提取从帧划分单元23提供的多个子区域的各个子区域特征量，将提取出的子区域特征量提供给组合单元25，并且进入步骤S16。

在步骤S16中，组合单元25通过对来自子区域特征量提取单元24的构成关注帧的多个子区域的子区域特征量进行组合来生成关注帧的特征量，并且进入步骤S17。

在步骤S17中，帧划分单元23判断是否关注内容的所有帧已经处理为关注帧。

在步骤S17中，如果判读出存在尚未处理为关注帧的任何帧，则帧划分单元23返回步骤S13，以重复相同处理。

反之，在步骤S17中，如果判读出所有帧已经处理为关注帧，则组合单元25进入步骤S18，并且将关注内容的各个帧的特征量(的时间序列)提供给特征量存储单元26，以将特征量存储在特征量存储单元26中。

然后，帧划分单元23从步骤S18进入步骤S19，并且判断从学习内容选择单元21提供的所有学习内容是否已经处理为关注内容。

在步骤S19中，如果判读出存在尚未处理为关注内容的任何内容，则帧划分单元23返回步骤S12，以重复相同处理。

反之，在步骤S19中，如果判断出所有内容已经处理为关注内容，则学习单元27进入步骤S20，并且使用特征量存储单元26中存储的学习内容的特征量(即各个帧的时间序列特征量)来执行HMM的学习。

然后，学习单元27使得在学习之后的HMM对应于学习内容的类别作为内容模型，并且将HMM输出(即提供)给模型存储单元13，以完成内容模型学习。

此时，内容模型学习处理可以开始于特定时序。

根据上述内容模型学习处理，在HMM中，自身系统性地获取学习内容中潜在的内容结构(例如其中节目构造、摄影技巧等出现的结构)。

结果，根据内容模型学习处理而获得的作为内容模型的HMM的每一状态对应于通过学习所获取的内容的元素，并且状态转变表示内容结构的各元素之间的时间转变。

此外，通过特征量空间(即特征量提取单元22(见图2)所提取的特征量的空间)中的空间距离彼此接近并且时间前后关系彼此相似的帧组(即相似场景)的组合来表示内容模型的状态。

在此，在内容为测验节目的情况下，例如，提出用于测验的问题、给出提示、玩家回答问题、以及宣布正确答案的流程被设置为节目的基本流程，并且通过重复这些基本过程，迅速有效地执行测验节目。

节目的基本流程对应于该内容结构，并且构成该流程(即结构)的元素(诸如提出用于测验的问题、给出提示、玩家回答问题、以及宣布正确答案)对应于内容结构的元素。

此外，例如从提出用于测验的问题进入到给出提示等对应于时间转变。

[内容结构呈现单元14的配置示例]

图9是示出图1的内容结构呈现单元14的配置示例的框图。

如上所述，虽然内容模型获取对于学习内容潜在的内容结构，但内容结构呈现单元14使得内容结构对于用户可视化并将其呈现给用户。

也就是说，内容结构呈现单元14包括内容选择单元31、模型选择单元32、特征量提取单元33、最大似然状态序列估计单元34、状态对应图像信息生成单元35、状态间距离计算单元36、坐标计算单元37、映射绘制单元38、以及显示控制单元39。

例如，根据用户的操控，内容选择单元31在内容存储单元11中存储的内容之中选择使得结构可视化的内容作为关注呈现内容(下文中简称为“关注内容”)。

内容选择单元31将关注内容提供给特征量提取单元33和状态对应图像信息生成单元35。此外，内容选择单元31识别关注内容的类别并将其提供给模型选择单元32。

模型选择单元32在模型存储单元13中存储的内容模型之中选择与来自内容选择单元31的关注内容的类别一致的类别的内容模型(即对应于关注内容的类别的内容模型)作为关注模型。

然后，模型选择单元32将关注模型提供给最大似然状态序列估计单元34和状态间距离计算单元36。

特征量提取单元33按与图2的特征提取单元22相同的方式提取从内容选择单元31提供的关注内容的(图像的)各个帧的特征量，并且将关注内容的各个帧的特征量(的时间序列)提供给最大似然状态序列估计单元34。

例如，根据维特比算法，最大似然状态序列估计单元34估计最大似然状态序列(所谓的配置维特比路径的状态序列)，其为这样的状态序列：其中，存在具有在从模型选择单元32提供的关注模型中观测从特征量提取单元33提供的关注内容的特征量(的时间序列)的最高似然的状态转变。

然后，最大似然状态序列估计单元34将关注模型中从其观测到关注内容的特征量的最大似然状态序列(下文中称为“用于关注内容的关注模型的最大似然状态序列”)提供给状态对应图像信息生成单元35。

在此，假设基于用于关注内容的关注模型的最大似然状态序列的前端的在时间t的状态(即从构成最大似然状态序列的前端起的第t状态)表示为s(t)，并且关注内容的帧的数目表示为T。

在此情况下，用于关注内容的关注模型的最大似然状态序列是T个状态s(1)、s(2)、...、s(T)的序列，第t状态(即在时间t的状态)s(t)对应于在关注内容的时间t的帧(即帧t)。

此外，如果假设关注模型的状态的总数表示为N，则在时间t的状态s(t)是N个状态S₁、S₂、...、S_N中的任一个。

此外，作为指定状态的索引的状态ID(标识)附连到N个状态S₁、S₂、...、S_N。

现在，如果假设在用于关注内容的关注模型的最大似然状态序列的时间t的状态s(t)是在N个状态s₁至s_N之中的第i状态s_i，则在时间t的帧对应于状态s_i。

相应地，关注内容的每一帧对应于N个状态s₁至s_N中的任一个。

用于关注内容的关注模型的最大似然状态序列的实例是在N个状态s₁至s_N之中一个状态的状态ID的序列，其对应于在关注内容的在时间t的帧。

如上所述，用于关注内容的关注模型的最大似然状态序列表示关注内容在关注模型上生成哪个状态转变。

状态对应图像信息生成单元35在从内容选择单元31提供的关注内容之中选择与构成从最大似然状态序列估计单元34提供的最大似然状态序列(即状态ID的序列)的状态的每一状态ID的相同状态相对应的帧。

也就是说，状态对应图像信息生成单元35连续选择关注模型的N个状态s₁至s_N作为关注状态。

现在，如果假设将具有状态ID#i的状态s_i被选择为关注状态，则状态对应图像信息生成单元35在最大似然状态序列之中搜索与关注状态(即具有状态ID#i的状态)一致的状态，并且使得对应于该状态的帧与关注状态的状态ID对应，以存储对应于该状态的帧。

然后，状态对应图像信息生成单元35通过处理对应于状态ID的帧来生成对应于状态ID的图像信息(下文中称为“状态对应图像信息”)，并且将状态对应图像信息提供给映射绘制单元38。

在此，作为状态对应图像信息，例如，可以采用其中按时间序列顺序布置对应于状态ID的一个或多个帧的缩略图的静止图像(即图像序列)或其中按时间序列顺序布置对应于状态ID的一个或多个缩小的帧的运动图像(即电影)。

在此情况下，状态对应图像信息生成单元35关于在关注模型的N个状态s₁至s_N的状态ID之中在最大似然状态序列中未出现的状态的状态ID不生成状态对应图像信息(即，难以生成状态对应图像信息)。

状态间距离计算单元36基于从一个状态s_i到另一状态s_j的状态转变概率a_ij获得从模型选择单元32提供的关注模型的一个状态s_i与另一状态s_j之间的状态间距离d_ij ^＊。一旦获得关注模型的一个状态s_i与另一状态s_j之间的状态间距离d_ij ^＊，状态间距离计算单元36就将具有状态间距离d_ij ^＊作为其分量的具有的N行和N列的矩阵(即状态间距离矩阵)提供给坐标计算单元37。

在此，例如，如果状态转变概率a_ij大于预定阈值(例如(1/N)×10^-2)，则状态间距离计算单元36将状态间距离d_ij ^＊设置为例如0.1(即较小值)，而如果状态转变概率a_ij小于等于预定阈值，则状态间距离计算单元36将状态间距离d_ij ^＊设置为例如1.0(即较大值)。

坐标计算单元37获得状态坐标Y_i(其为模型映射上状态s_i的位置的坐标)，从而减少模型映射上从一个状态s_i到另一状态s_j的欧几里得距离d_ij与从状态间距离计算单元36提供的状态间距离矩阵的状态间距离d_ij ^＊之间的误差，其中该模型映射布置关注模型的N个状态s₁至s_N的二维(2D)或三维(3D)映射。

也就是说，坐标计算单元37获得状态坐标Y_i，从而使得与欧几里得距离d_ij和状态间距离d_ij ^＊之间的统计误差成比例的Sammon映射的误差函数E最小。

在此，Sammon映射是多维定标方法之一，并且其细节已经描述于例如J.W.Sammon，JR.，″A Nonlinear Mapping for Data Structure Analysis″，IEEE Transactions on Computers，vol.C-18，No.5，May 1969中。

根据Sammon映射，例如，获得模型映射上的状态坐标Y_i＝(X_i，Y_i)，从而使得等式(1)的误差函数E最小。

E = \frac{1}{\underset{i < j}{Σ} [d_{ij} *]} Σ_{i < j}^{N} {\frac{[d_{ij} * - d_{ij}]}{d_{ij} *}}^{2} - - - (1)

在等式(1)中，N表示关注模型的状态的总数，i和j表示1至N范围中取整数值的状态索引(在该实施例中，状态ID)。

项“d_ij ^＊”表示状态间距离矩阵的第i行第j列的元素，并且指示从状态s_i到状态s_j的状态间距离。“d_ij”指示模型映射上状态s_i的位置的坐标(即状态坐标)Y_i与状态s_j的位置的坐标Y_j之间的欧几里得距离。

坐标计算单元37通过重复应用梯度方法来获得状态坐标Y_i(i＝1、2、...、N)，从而使得等式(1)中的误差函数E最小，并且将状态坐标提供给映射绘制单元38。

映射绘制单元38绘制其中布置对应于从坐标计算单元37提供的状态坐标Y_i的位置的状态s_i(的图像)的模型映射(的图形)。此外，映射绘制单元38根据各状态之间的状态转变概率绘制模型映射上在各状态之间进行连接的线段。

此外，映射绘制单元38链接模型映射上的状态s_i和与在从状态对应图像信息生成单元35提供的状态对应图像信息之中的状态s_i的状态ID相对应的状态对应图像信息，以将模型映射提供给显示控制单元39。

显示控制单元39执行显示控制，以将从映射绘制单元38提供的模型映射显示在显示器(未示出)上。

图10A至图10D是示出图9中所示的内容结构呈现单元14所执行的处理(即内容结构呈现处理)的概述的示图。

图10A示出内容选择单元31选择作为关注内容(即关注呈现内容)的内容的帧的时间序列。

图10B示出图10A中所示的帧的时间序列的特征量时间序列，其由特征量提取单元33提取。

图10C示出最大似然状态序列(即用于关注内容的关注模型的最大似然状态序列)，其中从最大似然状态序列在最大似然状态序列估计单元34所估计的关注模型中观测图10B的关注内容的特征量时间序列。

在此，用于关注内容的关注模型的最大似然状态序列的实例是状态ID的序列。此外，从用于关注内容的关注模型的最大似然状态序列的前端起的第t状态ID是在最大似然状态序列中从其观测关注内容的第t(即在时间t)帧的特征量的状态的状态ID(即对应于帧t的状态的状态ID)。

图10D示出状态对应图像信息生成单元35所生成的状态对应图像信息。

在图10D中，在图10C中所示的最大似然状态序列中选择对应于状态ID为“1”的状态的帧，并且生成电影和图像序列作为对应于状态ID的状态对应图像信息。

图11是示出图9所示的映射绘制单元38所绘制的模型映射的示例的示图。

在图11的模型映射中，椭圆指示状态，在各椭圆之间进行连接的线段指示线段。此外，附属于椭圆的标号指示由椭圆指示的状态的状态ID。

如上所述，模型映射绘制单元38绘制其中在由坐标计算单元37获得的状态坐标Y_i的位置中布置对应状态s_i(的图像)的模型映射(的图形)。

此外，映射绘制单元38根据各状态之间的状态转变概率来绘制模型映射上各状态之间连接的线段。也就是说，如果从状态s_i到另一状态s_j的状态转变大于预定阈值，则映射绘制单元38绘制状态s_i与s_j之间连接的线段。

在模型映射中，可以通过强调的方式来绘制状态。

也就是说，在模型映射中，状态s_i可以由圆圈或椭圆圈来绘制，并且指示状态s_i的圆圈例如可以通过根据作为变为状态s_i的观测概率b_i(o)的概率分布函数的高斯分布的方差来改变其半径或颜色而被绘制。

此外，可以通过根据状态转变概率的大小改变线段的宽度或颜色来绘制根据各状态之间的状态转变概率的模型映射上的各状态之间连接的线段。

在此情况下，通过强调来绘制状态的方法不限于上述绘制。此外，可以不执行状态的强调。

然而，在图9的坐标计算单元37获得模型映射上的状态坐标Y_i从而使得误差函数E最小的情况下，通过如常采用等式(1)中的误差函数E，将(指示)状态(的椭圆)布置在图11所示的模型映射上的圆圈中。

在此情况下，在模型映射的周围的附近(即外部)按紧密顺序形成各状态，使得难以查找各状态的布置，并且因此可视性可能恶化。

相应地，图9的坐标计算单元37可以通过校正等式(1)中的误差函数E从而在校正之后使得误差函数E最小来获得模型映射上的状态坐标Y_i。

也就是说，坐标计算单元37确定欧几里得距离d_ij是否大于预定阈值THd(例如THd＝1.0)。

如果欧几里得距离d_ij不大于预定阈值THd，则坐标计算单元37在运算等式(1)的误差函数中如常使用欧几里得距离d_ij。

另一方面，如果欧几里得距离d_ij大于预定阈值THd，则坐标计算单元37在运算等式(1)的误差函数中使用状态间距离d_ij ^＊作为欧几里得距离d_ij(即d_ij＝d_ij ^＊)(使得欧几里得距离d_ij与状态间距离d_ij ^＊是相同的距离)。

在此情况下，如果观测到欧几里得距离d_ij在模型映射中处于稍微彼此接近(即不大于阈值THb)的状态s_i和s_j之间，则状态坐标Y_i和Y_j改变，从而欧几里得距离d_ij和状态间距离d_ij ^＊彼此一致(即欧几里得距离d_ij近似于状态间距离d_ij ^＊)。

另一方面，如果观测到欧几里得距离d_ij在模型映射中处于稍微彼此远离(即大于阈值THb)的两个状态s_i和s_j之间，则状态坐标Y_i和Y_j不改变。

结果，如果欧几里得距离d_ij处于彼此稍微远离的两个状态s_i与s_j之间，则欧几里得距离d_ij保持较长，因此防止在图11所示的模型映射的周围的附近按紧密顺序形成各状态而使得可视性恶化。

图12是示出在校正之后使用误差函数E获得的模型映射的示例的示图。

根据图12的模型映射，可以确认：在模型映射的周围的附近并未按紧密顺序形成各状态。

[内容结构呈现处理]

图13是示出由图9的内容结构呈现单元14处理的内容结构呈现的流程图。

在步骤S41中，内容选择单元31例如根据用户的操控在内容存储单元11中存储的内容之中选择关注内容(即关注呈现内容)。

内容选择单元31将关注内容提供给特征量提取单元33和状态对应图像信息生成单元35。此外，内容选择单元31识别关注内容的类别并将其提供给模型选择单元32，并且从步骤S41进入步骤S42。

在步骤S42中，模型选择单元32在模型存储单元13中存储的内容模型之中选择对应于从内容选择单元31提供的关注内容的类别的内容模型作为关注模型。

然后，模型选择单元32将关注模型提供给最大似然状态序列估计单元34和状态间距离计算单元36，并且从步骤S42进入步骤S43。

在步骤S43中，特征量提取单元33提取从内容选择单元31提供的关注内容的各个帧的特征量，并且将关注内容的各个帧的特征量(的时间序列)提供给最大似然状态序列估计单元34，并且进入步骤S44。

在步骤S44中，最大似然状态序列估计单元34估计最大似然状态序列(即用于关注内容的关注模式的最大似然状态序列)，其中从最大似然状态序列在从模型选择单元32提供的关注模型中观测从特征量提取单元33提供的关注内容的特征量。

然后，最大似然状态序列估计单元34将用于关注内容的关注模型的最大似然状态序列提供给状态对应图像信息生成单元35，并且从步骤S44进入步骤S45。

在步骤S45中，状态对应图像信息生成单元35在从内容选择单元31提供的关注内容之中选择与构成从最大似然状态序列估计单元34提供的最大似然状态序列(即状态ID的序列)的每一状态ID的相同状态相对应的帧。

此外，状态对应图像信息生成单元35通过使得帧对应于状态ID来存储对应于状态ID的状态的帧。此外，状态对应图像信息生成单元35通过处理对应于状态ID的帧来生成状态对应图像信息。

状态对应图像信息生成单元35将对应于状态ID的状态对应图像信息提供给映射绘制单元38，并且从步骤S45进入步骤S46。

在步骤S46中，状态间距离计算单元36基于状态转变概率a_ij获得从模型选择单元32提供的一个状态s_i与另一状态s_j之间的状态间距离d_ij ^＊。一旦获得关注模型的N个状态的一个状态s_i与另一状态s_j之间的状态间距离d_ij ^＊，状态间距离计算单元36就将具有状态间距离d_ij ^＊作为其分量的状态间距离矩阵提供给坐标计算单元37，并且从步骤S46进入步骤S47。

在步骤S47中，坐标计算单元37获得状态坐标Y_i＝(x_i，y_i)，从而使得作为模型映射上从一个状态s_i到另一状态s_j的欧几里得距离d_ij与从状态间距离计算单元36提供的状态间距离矩阵的状态间距离d_ij ^＊之间的统计误差的等式(1)中的误差函数E最小。

然后，坐标计算单元37将状态坐标Y_i＝(x_i，y_i)提供给映射绘制单元38，并且从步骤S47进入步骤S48。

在步骤S48中，映射绘制单元38绘制例如其中布置对应于从坐标计算单元37提供的状态坐标Y_i＝(x_i，y_i)的位置的状态s_i(的图像)的二维(2D)模型映射(的图形)。此外，映射绘制单元38在模型映射上绘制状态转变概率等于或大于预定阈值的各状态之间连接的线段，并且从步骤S48进入步骤S49。

在步骤S49中，映射绘制单元38链接模型映射上的状态s_i与在从状态对应图像信息生成单元35提供的状态对应图像信息之中对应于状态s_i的状态ID的状态对应图像信息，以将模型映射提供给显示控制单元39，并且进入步骤S50。

在步骤S50中，显示控制单元39执行显示控制，以将从映射绘制单元38提供的模型映射显示在显示器(未示出)上。

此外，显示控制单元39关于根据用户的操控指定状态而执行显示对应于模型映射上的状态的状态ID的状态对应图像信息的显示控制(即回放控制)。

也就是说，如果用户执行用于指定模型映射上的状态的操控，则显示控制单元39在与模型映射分离的显示器(未示出)上显示链接到该状态的状态对应图像信息。

相应地，用户可以确认对应于模型映射上的状态的帧的图像。

[摘要生成单元15的配置示例]

图14是示出图1的摘要生成单元15的配置示例的框图。

摘要生成单元15包括高亮检测学习单元51、检测器存储单元52、以及高亮检测单元53。

高亮检测器学习单元51使用内容存储单元11中存储的内容以及模型存储单元13中存储的内容模型来执行作为用于检测用户感兴趣的场景作为高亮场景的模型的高亮检测器的学习。

高亮检测器学习单元51在学习之后将高亮检测器提供给检测器存储单元52。

在此，作为高亮检测器的模型，通过与内容模型相同的方式，可以使用作为状态转变概率模型之一的HMM。

检测器存储单元52存储从高亮检测器学习单元51提供的高亮检测器。

高亮检测单元53使用检测器存储单元52中存储的高亮检测器从内容存储单元11中存储的内容检测高亮场景的帧。此外，高亮检测单元53使用高亮场景的帧生成作为内容存储单元11中存储的内容的摘要的摘要内容。

[高亮检测器学习单元51的配置示例]

图15是示出图14的高亮检测器学习单元51的配置示例的框图。

在图15中，高亮检测器学习单元51包括内容选择单元61、模型选择单元62、特征量提取单元63、最大似然状态序列估计单元64、高亮标记生成单元65、学习标记生成单元66、以及学习单元67。

内容选择单元61例如根据用户的操控在内容存储单元11中存储的内容之中选择用于高亮检测器的学习的内容作为关注检测器学习内容(下文中简称为“关注内容”)。

也就是说，内容选择单元61例如在内容存储单元11中存储的内容(例如完全记录的节目)之中选择由用户指定播放的内容作为关注内容。

然后，内容选择单元61将关注内容提供给特征量提取单元63，识别关注内容的类别并将其提供给模型选择单元62。

模型选择单元62在模型存储单元13中存储的内容模型之中选择对应于从内容选择单元61提供的关注内容的类别的内容模型作为关注模型，并且将所选内容模型提供给最大似然状态序列估计单元64。

特征量提取单元63按与图2的特征量提取单元22相同的方式提取从内容选择单元61提供的关注内容的各个帧的特征量，并且将关注内容的各个帧的特征量(的时间序列)提供给最大似然状态序列估计单元64。

最大似然状态序列估计单元64通过与图9的最大似然状态序列估计单元34相同的方式估计最大似然状态序列(即用于关注内容的关注模型的最大似然状态序列)，其为这样的状态序列：其中，存在具有在从模型选择单元62提供的关注模型中观测从特征量提取单元63提供的关注内容的特征量(的时间序列)的最高似然的状态转变。

最大似然状态序列估计单元64将用于关注内容的关注模型的最大似然状态序列提供给学习标记生成单元66。

高亮标记生成单元65根据用户的操控通过将内容选择单元61所选择的关注内容的每一帧标记高亮标记来关于关注内容而生成高亮标记序列，其中高亮标记指示场景是否为高亮场景。

也就是说，内容选择单元61所选择的关注内容是用户如上所述指定作为回放主题的内容，并且关注内容的图像显示在显示器(未示出)上(与此同时，音频从扬声器(未示出)输出)。

当感兴趣场景显示在显示器上时，用户可以通过操控远程命令器(未示出)等来输入感兴趣场景的对象，并且高亮标记生成单元65根据用户的操控生成高亮标记。

具体地说，如果假设当用户输入感兴趣场景的对象时用户的操控被表示为偏好的操控，则高亮标记生成单元65关于不对应于偏好操控的帧生成指示不对应于高亮场景的帧的高亮标记(例如具有值“0”)。

此外，高亮标记生成单元65关于对应于偏好操控的帧生成指示对应于高亮场景的帧的高亮标记(例如具有值“1”)。

高亮标记生成单元65将作为对于关注内容生成的高亮标记的时间序列的高亮标记序列提供给学习标记生成单元66。

高亮标记生成单元66生成作为从最大似然状态序列估计单元64提供的用于关注内容的关注模型的最大似然状态序列(即从最大似然状态序列估计单元64获得的最大似然状态序列)的状态ID系列、以及与从高亮标记生成单元65提供的高亮标记序列成对的学习标记序列。

也就是说，学习标记生成单元66生成作为从最大似然状态序列估计单元64提供的最大似然状态序列的状态ID、在从高亮标记生成单元65提供的高亮标记序列中在时间t的状态ID(即对应于帧t的状态的状态ID)、以及与高亮标记(即对于帧t的高亮标记)成对的多流学习标记序列。

然后，学习标记生成单元66将学习标记序列提供给学习单元67。

学习单元67使用从学习标记生成单元66提供的学习标记序列通过Baum-Welch重新估计方法来执行作为遍历类型的多流HMM的高亮检测器的学习。

然后，学习单元67在学习之后使得高亮检测器对应于内容选择单元61所选择的关注内容的类别，并且将高亮检测器存储在检测器存储单元52中。

在此，从高亮标记生成单元65获得的高亮标记是具有两个离散值“0”和“1”的标记(即符号)。此外，在最大似然状态序列估计单元64中从关注内容获得的最大似然状态序列是具有离散值的状态ID序列。

相应地，学习标记生成单元66中生成作为与高亮标记成对的学习标记序列和最大似然状态序列也是离散值的时间序列。由于学习标记序列具有离散值，因此作为学习单元67中的高亮检测器的HMM的观测概率b_j(o)恰变为概率值自身。

在多流HMM中，关于构成多流的各个序列(即流)(下文中称为“构成元素序列”)，在多流HMM中可以提供作为多流的构成元素序列对多流HMM的影响程度的加权值(下文中称为“序列加权值”)。

通过在多流HMM的学习期间或者在使用多流HMM进行识别期间(即在获得最大似然状态序列期间)关于重要构成元素序列设置大序列加权值，可以提供先验知识以防止多流HMM的学习结果落入局部解。

多流HMM的细节描述于Tamura Satoshi，1wano Cozy，Hurui Teihiroshi，″Study of Multi-modal Audio Recognition using Optical Flow″，AcousticalSociety of Japan，2001 Autumn Lecture Notes，1-1-14，pp.27-28(2001-10)。

在上述文献中，已经介绍了音频视觉会话识别领域中的多流HMM的使用示例。也就是说，当音频的SN(信噪)比率较低时，执行学习和识别，从而通过降低音频的特征量序列的序列加权值，视频施加比音频的影响更大的影响。

多流HMM与使用单个序列的HMM的不同点在于，通过将预设序列加权值W_m给予构成多流的各个构成元素序列o_[m]的观测概率b_[m]j(o_[m])来计算整个多流的观测概率b_j(o_[1]，o_[2]，...，o_[M])，如等式(2)所示。

b_{j} (O_{[1]}, O_{[2]}, . . ., O_{[M]}) = Π_{m = 1}^{M} b_{[m] j} {(O_{[m]})}^{Wm},

其中

W_{m} &GreaterEqual; 0, Σ_{m = 1}^{M} W_{m} = 1 . . . (2)

在等式(2)中，M表示构成多流的构成元素序列o_[m]的数目(即流的数目)，W_m表示构成多流的M个构成元素序列之中第m构成元素序列的序列加权值。

作为用于在图15的学习单元67中学习的多流的学习标记序列包括两个构成元素序列：状态ID序列o_[v]和高亮标记序列o_[HL]。

在此情况下，学习标记序列的观测概率b_j(o_[v]，o_[HL])在等式(3)中表示。

b_j(o_[v]，o_[HL])＝(b_[v]j(o_[v]))^w×(b_[HL]j(o_[HL]))^1-W...(3)

在等式(3)中，b_[v]j(o_[v])表示状态ID的序列o_[v]的观测概率(即在状态s_j下观测到所观测的值o_[v]的观测概率)，并且b_[HL]j(o_[HL])表示高亮标记序列o_[HL]的观测概率。此外，W表示状态ID的序列o_[v]的序列加权值，1-W表示高亮标记序列o_[HL]的序列加权值。

在此情况下，在学习作为高亮检测器的HMM时，序列加权值W可以是例如0.5。

图16是示出图15中的高亮标记生成单元65的处理的示图。

高亮标记生成单元65关于不对应于用户的偏好操控的关注内容的帧(即时间)生成指示帧不对应于高亮场景的高亮标记(例如具有值“0”)。此外，高亮标记生成单元65关于对应于用户的偏好操控的关注帧的帧生成指示帧对应于高亮场景的高亮标记(例如具有值“1”)。

[高亮检测器学习处理]

图17是示出图15中的高亮检测器学习单元51执行的处理(即高亮检测器学习处理)的流程图。

在步骤S71中，内容选择单元61例如在内容存储单元11中存储的内容之中选择根据用户的操控指定回放的内容作为关注内容(即关注检测器学习内容)。

然后，内容选择单元61将关注内容提供给特征量提取单元63，识别关注内容的类别并将其提供给模型选择单元62，并且从步骤S71计算S72。

在步骤S72中，模型选择单元62在模型存储单元13中存储的内容模型之中选择对应于从内容选择单元61提供的关注内容的类别的内容模型作为关注模型。

模型选择单元62将关注模型提供给最大似然状态序列估计单元64，并且从步骤S72进入步骤S73。

在步骤S73中，特征量提取单元63提取从内容选择单元61提供的关注内容的各个帧的特征量，并且将关注内容的各个帧的特征量(的时间序列)提供给最大似然状态序列估计单元64，并且进入步骤S74。

在步骤S74中，最大似然状态序列估计单元64估计最大似然状态序列(即用于关注内容的关注模型的最大似然状态序列)，其为这样的状态序列：其中出现具有在从模型选择单元62提供的关注模型中观测从特征量提取单元63提供的关注内容的特征量(的时间序列)的最高似然的状态转变。

然后，最大似然状态序列估计单元64将用于关注内容的关注模型的最大似然状态序列提供给学习标记生成单元66，并且从步骤S74进入步骤S75。

在步骤S75中，高亮标记生成单元65根据用户的操控通过对由内容选择单元61所选择的关注内容的每一帧标记高亮标记来关于关注内容生成高亮标记序列。

高亮标记生成单元65将对于关注内容所生成的高亮标记序列提供给学习标记生成单元66，并且进入步骤S76。

在步骤S76中，学习标记生成单元66生成作为来自最大似然状态序列估计单元64的用于关注内容的关注模型的最大似然状态序列的状态ID序列、以及与从高亮标记生成单元65提供的高亮标记序列成对的学习标记序列。

然后，学习标记生成单元66将学习标记序列提供给学习单元67，并且从步骤S76进入步骤S77。

在步骤S77中，学习单元67使用从学习标记生成单元66提供的学习标记序列来执行作为HMM的高亮检测器的学习，并且进入步骤S78。

在步骤S78中，学习单元67在学习之后使得高亮检测器对应于内容选择单元61所选择的关注内容的类别，并且将高亮检测器存储在存储单元52中。

如上所述，通过使用作为用于关注内容的关注模型的最大似然状态序列的状态ID序列以及与根据用户的操控生成的高亮标记序列成对的学习标记序列来执行HMM的学习而获得高亮检测器。

相应地，通过参照高亮检测器的各个状态的高亮标记序列o_[HL]的观测概率b_[HL]j(o_[HL])，可以确定对应于该状态的帧是否为用户感兴趣的场景(即高亮场景)。

[高亮检测单元53的配置示例]

图18是示出图14的高亮检测单元53的配置示例的框图。

在图18中，高亮检测单元53包括内容选择单元71、模型选择单元72、特征量提取单元73、最大似然状态序列估计单元74、检测标记生成单元75、最大似然状态序列估计单元77、高亮场景检测单元78、摘要内容生成单元79、以及回放控制单元80。

内容选择单元71例如根据用户的操控在内容存储单元11中存储的内容之中选择作为针对其检测高亮场景的内容的关注高亮检测内容(下文中简称为“关注内容”)。

作为生成摘要的内容，内容选择单元71例如选择用户指定的内容作为关注内容。此外，内容选择单元71例如在尚未生成摘要的内容之中选择特定内容作为关注内容。

如果选择了关注内容，则内容选择单元71将关注内容提供给特征量提取单元73，识别关注内容的类别并将其提供给模型选择单元72和检测器选择单元76。

模型选择单元72在模型存储单元13中存储的内容模型之中选择对应于从内容选择单元71提供的关注内容的类别的内容模型作为关注内容，并且将所选内容模型提供给最大似然状态序列估计单元74。

特征量提取单元73按与图2的特征提取单元22相同的方式提取从内容选择单元71提供的关注内容的各个帧的特征量，并且将关注内容的各个帧的特征量(的时间序列)提供给最大似然状态序列估计单元74。

最大似然状态序列估计单元74通过与图9的最大似然状态序列估计单元34相同的方式估计最大似然状态序列(即用于关注内容的关注模型的最大似然状态序列)，其为这样的状态序列：其中，存在具有在从模型选择单元72提供的关注模型中观测从特征量提取单元73提供的关注内容的特征量(的时间序列)的最高似然的状态转变。

最大似然状态序列估计单元74将用于关注内容的关注模型的最大似然状态序列提供给学习标记生成单元75。

检测标记生成单元75生成作为从最大似然状态序列估计单元74提供的用于关注内容的关注模型的最大似然状态序列(即从关注内容获得的最大似然状态序列)的状态ID序列、以及与指示场景不是高亮场景(或者场景是高亮场景)的高亮标记的高亮标记序列成对的检测标记序列。

也就是说，检测标记生成单元75生成虚设序列(dummy series)，并且将具有与从最大似然状态序列估计单元74提供的最大似然状态序列的长度相同的长度(即序列的长度)的高亮标记序列提供给高亮检测器作为仅指示场景不是高亮场景的高亮标记的高亮标记序列。

此外，检测标记生成单元75生成作为从最大似然状态序列估计单元74提供的最大似然状态序列的状态ID，在作为虚设序列的高亮标记序列中在时间t的状态ID(即对应于帧t的状态的状态ID)、以及与高亮标记成对的多流学习标记序列(即用于帧t的高亮标记(在此，指示场景不是高亮场景的高亮标记))。

然后，检测标记生成单元75将检测标记序列提供给最大似然状态序列估计单元77。

检测器选择单元76在检测器存储单元52中存储的高亮检测器之中选择对应于从内容选择单元71提供的关注内容的类别的高亮检测器作为关注检测器。检测器选择单元76获取检测器存储单元52中存储的高亮检测器之中的关注检测器，并且将所获取的关注检测器提供给最大似然状态序列估计单元77和高亮场景检测单元78。

例如，根据维特比算法，最大似然状态序列估计单元77估计最大似然状态序列(下文中称为“高亮关系状态序列”)，其为这样的状态序列：其中，存在具有在作为从检测器选择单元76提供的关注检测器的HMM中观测从检测标记生成单元75提供的检测标记序列的最高似然的状态转变。

然后，最大似然状态序列估计单元77将高亮关系状态序列提供给高亮场景检测单元78。

在此情况下，检测标记序列是包括作为用于关注内容的关注模型的最大似然状态序列的状态ID的序列o_[v]以及作为虚设序列的高亮标记序列o_[HL]的多流，并且在对高亮关系状态序列进行估计时，以与学习标记序列相同的方式通过等式(3)获得检测标记序列的观测概率b_j(o_[v]，o_[HL])。

然而，当获得检测标记序列的观测概率b_j(o_[v]，o_[HL])时，1.0用作状态ID的序列o_[v]的序列加权值W。在此情况下，高亮标记序列o_[HL]的序列加权值1-W变为0.0。相应地，最大似然状态序列估计单元77仅考虑用于关注内容的关注模型的最大似然状态序列而不考虑作为虚设序列的高亮标记序列输入，来估计高亮关系状态序列。

高亮场景检测单元78通过参照从检测器选择单元76提供的关注检测器来识别从最大似然状态序列估计单元77提供从检测标记序列获得的最大似然状态序列(即高亮关系状态序列)的各个状态的高亮标记o_[HL]的观测概率b_[HL]j(o_[HL])。

此外，高亮场景检测单元78基于高亮标记o_[HL]的观测概率b_[HL]j(o_[HL])从关注内容检测高亮场景的帧。

也就是说，在高亮关系状态序列的时间t的状态s_j中，如果指示场景是高亮场景的高亮标记的观测概率b_[HL]j(o_[HL]＝″1″)与指示场景不是高亮场景的高亮标记的观测概率b_[HL]j(o_[HL]＝″0″)之间的差b_[HL]j(o_[HL]＝″1″)-b_[HL]j(o_[HL])大于预定阈值THb(例如THb＝0)，则高亮场景检测单元78检测对应于在时间t的状态s_j的关注内容的帧t作为高亮场景的帧。

此外，关于关注内容的高亮场景的帧，高亮场景检测单元78在指示帧是否为高亮场景帧的一比特高亮标志处设置指示帧为高亮场景帧的值(例如“1”)。此外，关于关注内容的非高亮场景的帧，高亮场景检测单元78在高亮标志处设置指示帧不是高亮场景帧的值(例如“0”)。

高亮场景检测单元78将关注内容的各个帧的高亮标志(的时间序列)提供给摘要内容生成单元79。

摘要内容生成单元79从自内容选择单元71提供的关注内容的帧提取由从高亮场景检测单元78提供的高亮标志所指定的高亮场景的帧。此外，摘要内容生成单元79至少使用从关注内容的帧提取的高亮场景的帧生成作为关注内容的摘要的摘要内容，并且将生成的摘要内容提供给回放控制单元80。

回放控制单元80执行从摘要内容生成单元79提供的摘要内容的回放控制。

图19A和图19B示出由图18的摘要内容生成单元79所生成的摘要内容的示例。

图19A示出摘要内容的第一示例。

在图19A中，摘要内容生成单元79从关注内容提取高亮场景的帧的图像以及附属于图像的音频数据，并且通过在保持时间前后关系的状态下组合图像和音频数据来生成运动图像内容作为摘要内容。

在此情况下，回放控制单元80(见图18)进行控制以仅显示具有与原始内容(即关注内容)的大小相同的大小(下文中称为“实际大小”)的高亮场景的帧的图像并输出附属于该图像的音频。

如图19A所示，在从关注内容提取高亮场景的帧的图像时，可以提取高亮场景的全部帧，或者可以使得帧变稀疏，诸如提取高亮场景中的两个帧之一。

图19B示出摘要内容的第二示例。

在图19B中，摘要内容生成单元79通过使得帧变稀疏(例如在跳过20帧的情况下提取一个帧)来生成摘要内容从而在关注内容的帧之中不是高亮场景的帧的图像在观看图像期间被快进(例如，带子被快进)，并且不输出附属于图像的音频。

在此情况下，回放控制单元80(见图18)以正常速度(例如1-速度)显示对应于高亮场景的图像，并且输出附属于其的音频，并且以高速度(例如20-速度)显示对应于非高亮图像的图像，而不输出音频。

在图19B中，例举的是不输出附属于非高亮场景的音频。然而，可以按与附属于高亮场景的音频的相同方式来输出附属于非高亮场景的音频。在此情况下，可以按较低音量级别来输出附属于非高亮场景的音频，并且可以按较高音量级别来输出附属于高亮场景的音频。

此外，在图19B中，例举的是以相同大小(即实际大小)来显示高亮场景图像和非高亮场景图像。然而，还可以显示具有小于高亮场景图像的显示大小的显示大小(例如宽度和长度方面50％减少的大小)的非高亮场景图像，或者显示具有大于非高亮场景图像的显示大小的显示大小的高亮场景图像。

此外，在图19中，在使得帧变稀疏的情况下，可以由用户指定稀疏率。

[高亮检测处理]

图20是示出图18的高亮检测单元53所执行的处理(即高亮检测处理)的流程图。

在步骤S81中，内容选择单元71在内容存储单元11中存储的内容之中选择作为针对其检测高亮场景的内容的关注内容(即关注高亮检测内容)。

内容选择单元71将关注内容提供给特征量提取单元73。此外，内容选择单元71识别关注内容的类别并将其提供给模型选择单元72和检测器选择单元76，并且从步骤S81进入步骤S82。

在步骤S82中，模型选择单元72在模型存储单元13中存储的内容模型之中选择对应于从内容选择单元71提供的关注内容的类别的内容模型作为关注模型。

然后，模型选择单元72将关注模型提供给最大似然状态序列估计单元74，并且从步骤S82进入步骤S83。

在步骤S83中，特征量提取单元73提取从内容选择单元71提供的关注内容的各个帧的特征量，将提取出的特征量提供给最大似然状态序列估计单元74，并且进入步骤S84。

在步骤S84中，最大似然状态序列估计单元74提取最大似然状态序列(即用于关注内容的关注模型的最大似然状态序列)，其为这样的状态序列：其中，存在具有在从模型选择单元72提供的关注模型中观测从特征量提取单元73提供的关注内容的特征量(的时间序列)的最高似然的状态转变。

然后，最大似然状态序列估计单元74将用于关注内容的关注模型的最大似然状态序列提供给检测标记生成单元75，并且从步骤S84进入步骤S85。

在步骤S85中，检测标记生成单元75生成仅具有指示场景不是高亮场景的高亮标记(即具有值“0”的高亮标记)的高亮标记序列作为虚设高亮标记序列，并且进入步骤S86。

在步骤S86中，检测标记生成单元75生成作为从最大似然状态序列估计单元74提供的用于关注内容的关注模型的最大似然状态序列的状态ID序列、以及与虚设高亮标记序列成对的检测标记序列。

然后，检测标记生成单元75将检测标记序列提供给最大似然状态序列估计单元77，并且从步骤S86进入步骤S87。

在步骤S87中，检测器选择单元76在检测器存储单元52中存储的高亮检测器之中选择对应于从内容选择单元71提供的关注内容的类别的高亮检测器作为关注检测器。检测器选择单元76在检测器存储单元52中存储的高亮检测器之中获取关注检测器，并且将所获取的关注检测器提供给最大似然状态序列估计单元77和高亮场景检测单元78，并且从步骤S87进入步骤S88。

在步骤S88中，最大似然状态序列估计单元77估计最大似然状态序列(即高亮关系状态序列)，其为这样的状态序列：其中，存在具有在从检测器选择单元76提供的关注检测器中观测从检测标记生成单元75提供的检测标记序列的最高似然的状态转变。

然后，最大似然状态序列估计单元74将高亮关系状态序列提供给高亮场景检测单元78，并且从步骤S88进入步骤S89。

在步骤S89中，高亮场景检测单元78基于从最大似然状态序列估计单元77提供的高亮关系状态序列从关注内容检测高亮场景，并且处理输出高亮标志的高亮场景检测。

在完成步骤S89中的高亮场景检测处理之后，摘要内容生成单元79在步骤S90中从自内容选择单元71提供的关注内容的帧提取由从高亮场景检测单元78提供的高亮标志所指定的高亮场景的帧。

此外，摘要内容生成单元79使用从关注内容的帧提取的高亮场景的帧生成关注内容的摘要内容，将生成的摘要内容提供给回放控制单元80，并且从步骤S90进入步骤S91。

在步骤S91中，回放控制单元80执行从摘要内容生成单元79提供的摘要内容的回放控制。

图21是示出在图20的步骤S89中由高亮场景检测单元78(见图18)执行的高亮场景检测处理的流程图。

在步骤S101中，高亮场景检测单元78设置“1”作为对时间进行计数的变量t(即关注内容的帧的数目)的初始值，并且进入步骤S102。

在步骤S102中，高亮场景检测单元78在HMM的状态s₁至s_N′(其中N′表示作为关注检测器的HMM的状态的总数)之中获取(即识别)从最大似然状态序列估计单元77提供的高亮关系状态序列的在时间t的状态H(t)＝s_j(从前端起第t状态)作为从检测器选择单元76(见图18)提供的关注检测器。

然后，在步骤S103中，高亮场景检测器78从自检测器选择单元76提供的关注检测器获取在时间t的状态H(t)＝s_j的高亮标记o_[HL]的观测概率b_[HL]H(t)j(o_[HL])，并且进入步骤S104。

在步骤S104中，高亮场景检测单元78基于高亮标记o_[HL]的观测概率b_[HL]H(t)j(o_[HL])来确定关注内容在时间t的帧是否对应于高亮场景。

在步骤S104中，如果确定关注内容在时间t的帧对应于高亮场景，例如，如果在高亮标记o_[HL]的观测概率b_[HL]H(t)j(o_[HL])之中指示场景是高亮场景的高亮标记的观测概率b_[HL]H(t)(o_[HL]＝″1″)与指示场景不是高亮场景的高亮标记的观测概率b_[HL]H(t)(o_[HL]＝″0″)之间的差b_[HL]j(o_[HL]＝″1″)-b_[HL]j(o_[HL])＝″0″)大于预定阈值THb，则高亮场景检测单元78进入步骤S105，并且在关注内容在时间t的帧的高亮标志处设置指示帧是高亮场景帧的值(例如“1”)。

此外，在步骤S104中，如果确定关注内容在时间t的帧不对应于高亮场景，例如，如果在高亮标记o_[HL]的观测概率b_[HL]H(t)j(o_[HL])之中指示场景是高亮场景的高亮标记的观测概率b_[HL]H(t)(o_[HL]＝″1″)与指示场景不是高亮场景的高亮标记的观测概率b_[HL]H(t)(o_[HL]＝″0″)之间的差b_[HL]j(o_[HL]＝″1″)-b_[HL]j(o_[HL])＝″0″)不大于预定阈值THb，则高亮场景检测单元78进入步骤S106，并且在关注内容在时间t的帧的高亮标志F(t)处设置指示帧不是高亮场景帧的值(例如“0”)。

在步骤S105和S106之后，高亮场景检测单元78进入步骤S107，并且确定变量t是否等于关注内容的帧的总数N_F。

在步骤S107中，如果确定变量t等于帧的总量N_F，则高亮场景检测单元进入步骤S108，将变量t增加1，并且返回步骤S102。

在步骤S107中，如果确定变量t等于帧的总数N_F(即如果对于其中获得关注内容的特征量的每一帧获得高亮标志F(t))，则高亮场景检测单元78进入步骤S109，并且将关注内容的帧的高亮标志F(t)的序列输出到摘要内容生成单元79(见图18)，作为用于返回的高亮场景检测的结果。

如上所述，在高亮检测器中，当观测到与虚设高亮标记序列成对的检测标记序列时高亮检测单元53(见图18)估计作为用于关注内容的关注模型的最大似然状态序列的状态ID序列以及作为最大似然状态序列的高亮关系状态序列，基于高亮关系状态序列的各个状态的高亮标记的观测概率从关注内容检测高亮场景帧，并且使用高亮场景帧生成摘要内容。

此外，使用作为用于内容的内容模型的最大似然状态序列的状态ID序列以及根据用户的操控而生成的高亮标记序列通过执行HMM的学习来获得高亮检测器。

相应地，如果甚至在生成摘要内容的关注内容并未用于学习内容模型或高亮检测器的状态下执行使用与关注内容的类别相同的类别的内容的内容模型以及高亮检测器的学习，则可以使用内容模型和高亮检测器容易地获得用户感兴趣的场景被搜集作为高亮场景的摘要(即摘要内容)。

[剪贴簿生成单元16的配置示例]

图22是示出图1的剪贴簿生成单元16的配置示例的框图。

剪贴簿生成单元16包括初始剪贴簿生成单元101、初始剪贴簿存储单元102、注册剪贴簿生成单元103、注册剪贴簿存储单元104、以及回放控制单元105。

初始剪贴簿生成单元101使用内容存储单元11中存储的内容以及模型存储单元13中存储的内容模型生成初始剪贴簿(稍后描述)，并且将初始剪贴簿提供给初始剪贴簿存储单元102。

初始剪贴簿存储单元102存储从初始剪贴簿生成单元101提供的初始剪贴簿。

注册剪贴簿存储单元103使用内容存储单元11中存储的内容、模型存储单元13中存储的内容模型、以及初始剪贴簿存储单元102中存储的初始剪贴簿生成注册剪贴簿，并且将生成的注册剪贴簿提供给注册剪贴簿存储单元104。

注册剪贴簿存储单元104存储从注册剪贴簿生成单元103提供的注册剪贴簿。

回放控制单元105执行注册剪贴簿存储单元104中存储的注册剪贴簿的回放控制。

[初始剪贴簿生成单元101的配置示例]

图23是示出图22的初始剪贴簿生成单元101的配置示例的框图。

在图23中，初始剪贴簿生成单元101包括内容选择单元111、模型选择单元112、特征量提取单元113、最大似然状态序列估计单元114、状态对应图像信息生成单元115、状态间距离计算单元116、坐标计算单元117、映射绘制单元118、显示控制单元119、状态选择单元121、以及选择状态注册单元122。

内容选择单元111至显示控制单元119具有与内容结构呈现单元14(见图9)的内容选择单元31至显示控制单元39的配置相同的配置，并且执行如上参照图13描述的内容结构呈现处理。

在此情况下，映射绘制单元118通过与图9的映射绘制单元38相同的方式将模型映射提供给显示控制单元119和状态选择单元121。

如果通过用户的操控来指定由内容结构呈现处理所指示的模型映射的状态(见图11和图12)，则状态选择单元121选择所指定的状态作为选择状态。此外，状态选择单元121参照从映射绘制单元118提供的模型映射识别选择状态的状态ID，并且将识别出的状态ID提供给选择状态注册单元122。

选择状态注册单元122生成空剪贴簿，并且注册从状态选择单元121提供的选择状态的状态ID。此外，选择状态注册单元122提供其中状态ID已经注册到初始剪贴簿存储单元102的剪贴簿作为初始剪贴簿，以将剪贴簿存储在初始剪贴簿存储单元中。

在此，选择状态注册单元122所生成的剪贴簿是能够存储数据(诸如静止图像(例如照片)、运动图像、音频(例如音乐)等)的电子存储器。

空剪贴簿是其中未注册任何东西的剪贴簿，初始剪贴簿是其中注册了状态ID的剪贴簿。

如上配置的初始剪贴簿生成单元101执行内容结构呈现处理(见图13)，并且模型映射(见图11和图12)显示在显示器(未示出)上。此外，如果通过用户的操控来指定模型映射的状态，则所指定的状态(即选择状态)的状态ID被注册在(空)剪贴簿中。

图24是示出用于用户指定模型映射上的状态的用户接口的示例的示图，其显示为执行显示控制的显示控制单元119。

在图24中，映射绘制单元118所生成的模型映射132显示在窗口131中。

窗口131中模型映射132上的状态由用户指定，并且因此可以实现所谓的焦点匹配(focus match)。可以通过借助指点装置(诸如鼠标)进行点击，根据指点装置的操控将光标移动到可以实现焦点匹配的位置等来执行状态的用户指定。

此外，可以通过不同的显示类型(诸如不同的颜色)来显示模型映射132上各状态之中已经选择的状态以及尚未选择的状态。

在窗口131的下部上，提供了状态ID输入栏133、剪贴簿ID输入栏134、注册按钮135和保存按钮136。

在状态ID输入栏133中，显示模型映射132上各状态之中焦点匹配状态的状态ID。

此外，在状态ID输入栏133中，用户可以直接输入状态ID。

在剪贴簿ID输入栏134中，显示作为指定其中注册了选择状态的状态ID的剪贴簿的信息的剪贴簿ID。

在此情况下，在剪贴簿ID输入栏134中，用户的操控(例如通过诸如鼠标的指点装置进行点击)是可能的，并且在剪贴簿ID输入栏134中显示的剪贴簿ID可以根据用户在剪贴簿ID输入栏134上的操控而改变。相应地，用户可以通过操控剪贴簿ID输入栏134来改变用于注册状态ID的剪贴簿。

当焦点匹配状态(即其中状态ID显示在状态ID输入栏133上的状态)的状态ID被注册在剪贴簿中时，操控注册按钮135。也就是说，在操控注册按钮135的情况下，可以将焦点匹配状态选择(确认)作为选择状态。

例如，当终止模型映射132的显示时(即当窗口131关闭时)，操控保存按钮136。

如果在内容结构呈现处理中生成的状态对应图像信息被链接在模型映射132上各状态之中的焦点匹配状态中，则窗口130打开。此外，在窗口130中，显示与焦点匹配状态链接的状态对应图像信息。

在此情况下，在窗口130中(或在除了窗口130之外的窗口(未示出)中)，可以在时间上依次或者在空间上并行地显示与模型映射132上的焦点匹配状态、接近于该状态的位置中的各状态链接的状态对应图像信息、与模型映射132上所有状态链接的状态对应图像信息，而不是与焦点匹配状态链接的状态对应图像信息。

用户可以通过点击对应状态来指定窗口131中显示的模型映射132上的特定状态。

如果由用户指定状态，则显示控制单元119(见图23)在窗口130中显示与用户所指定的状态相链接的状态对应图像信息。

相应地，用户可以获取对应于模型映射132上的状态的帧的图像。

如果用户对窗口130中显示的图像感兴趣，并且期望将该图像注册在剪贴簿中，则用户操控注册按钮135。

如果注册按钮135被操控，则状态选择单元121(见图23)选择用户所指定的模型映射132上的状态作为选择状态。

然后，如果用户操控保存按钮136，则状态选择单元121将直到此时所选择的选择状态的状态ID提供给选择状态注册单元122(见图23)。

选择状态注册单元122将从状态选择单元121提供的选择状态的状态ID注册在空剪贴簿中，并且存储其中已经在初始剪贴簿存储单元102中注册了状态ID的剪贴簿作为初始剪贴簿。然后，显示控制单元119(见图23)关闭窗131和141。

[初始剪贴簿生成处理]

图25是示出图23中的初始剪贴簿生成单元101执行的处理(即初始剪贴簿生成处理)的流程图。

在步骤S121中，内容选择单元111至显示控制单元119具有与内容结构呈现单元14(见图9)的内容选择单元31至显示控制单元39的配置相同的配置，并且执行相同内容结构呈现处理(见图13)。相应地，包括模型映射132的窗口131(见图24)显示在显示器(未示出)上。

然后，处理从步骤S121进入步骤S122，并且状态选择单元121确定用户是否已经执行状态注册操控。

在步骤S122中，如果确定已经执行状态注册操控(即如果用户指定模型映射132上的状态并且(窗口131的)注册按钮135(见图24)被操控)，则在步骤S123中状态选择单元121选择在注册按钮135被操控时已注册的模型映射132上的状态作为选择状态。

此外，状态选择单元121将选择状态的状态ID存储在存储器(未示出)中，并且处理从步骤S123进入步骤S124。

此外，在步骤S122中，如果确定尚未执行状态注册操控，则跳过步骤S123，并且进入步骤S124。

在步骤S124中，状态选择单元121确定用户是否已经执行保存操控。

在步骤S124中，如果判断出尚未执行保存操控，则处理返回步骤S122，以重复同一处理。

此外，在步骤S124中，如果确定已经执行保存操控(即如果用户已经操控保存按钮136(图24))，则状态选择单元121将在步骤S123中存储的选择状态的所有状态ID提供给选择状态注册单元122，并且进入步骤S125。

在步骤S125中，选择状态注册单元122生成空剪贴簿，并且将从状态选择单元121提供的选择状态的状态ID注册在空剪贴簿中。

此外，选择状态注册单元122把其中已经注册状态ID的剪贴簿看作初始剪贴簿，并且使得初始剪贴簿对应于在步骤S121中的内容结构呈现处理(见图13)中选择作为关注内容(即关注呈现内容)的内容的类别。

然后，选择状态注册单元122将对应于关注内容的类别的初始剪贴簿提供给初始剪贴簿存储单元102，以将初始剪贴簿存储在初始剪贴簿存储单元102中。

此后，在步骤S121中的内容结构呈现处理中显示在的窗口131(见图24)被关闭，以终止初始剪贴簿生成处理。

[注册剪贴簿生成单元103的配置示例]

图26是示出图22的注册剪贴簿生成单元103的配置示例的框图。

在图26中，注册剪贴簿生成单元103包括剪贴簿选择单元141、内容选择单元142、模型选择单元143、特征量提取单元144、最大似然状态序列估计单元145、帧提取单元146、以及帧注册单元147。

剪贴簿选择单元141选择初始剪贴簿存储单元102中存储的一个初始剪贴簿作为关注剪贴簿，并且将所选初始剪贴簿提供给帧提取单元146和帧注册单元147。

此外，剪贴簿选择单元141将对应于关注剪贴簿的类别提供给内容选择单元142和模型选择单元143。

内容选择单元142在内容存储单元11中存储的内容之中选择从剪贴簿选择单元141提供的类别的内容作为关注剪贴簿内容(下文中简称为“关注内容”)。

然后，内容选择单元142将关注内容提供给特征量提取单元144和帧提取单元146。

模型选择单元143在模型存储单元13中存储的内容模型之中选择对应于从剪贴簿选择单元141提供的类别的内容模型作为关注模型，并且将所选模型提供给最大似然状态序列估计单元145。

特征量提取单元144按与图2的特征量提取单元22相同的方式提取从内容选择单元142提供的关注内容的(图像的)各个帧的特征量，并且将关注内容的各个帧的特征量(的时间序列)提供给最大似然状态序列估计单元145。

例如，根据维特比算法，最大似然状态序列估计单元145估计最大似然状态序列(即用于关注内容的关注模型的最大似然状态序列)，其为这样的状态序列：其中，存在具有在从模型选择单元143提供的关注模型中观测从特征量提取单元144提供的关注内容的特征量(的时间序列)的最高似然的状态转变。

然后，最大似然状态序列估计单元145将用于关注内容的关注模型的最大似然状态序列提供给帧提取单元146。

帧提取单元146确定从最大似然状态序列估计单元145提供的最大似然状态序列的每一状态ID是否与在从剪贴簿选择单元141提供的关注剪贴簿中注册的选择状态的状态ID(下文中称为“注册状态ID”)一致。

此外，帧提取单元146从自内容选择单元142提供的关注内容提取对应于其中从最大似然状态序列估计单元145提供的最大似然状态序列的状态ID与在从剪贴簿选择单元141提供的关注剪贴簿中注册的选择状态的状态ID一致的状态的帧，并且将提取出的帧提供给帧注册单元147。

帧注册单元147将从帧提取单元146提供的帧注册在从剪贴簿选择单元141提供的关注剪贴簿中。此外，帧注册单元147将帧的注册之后的关注剪贴簿提供给注册剪贴簿存储单元104作为注册剪贴簿，以将关注剪贴簿存储在注册剪贴簿存储单元104中。

[注册剪贴簿生成处理]

图27是示出图26的注册剪贴簿生成单元103执行的注册剪贴簿生成处理的流程图。

在步骤S131中，剪贴簿选择单元141在初始剪贴簿存储单元102中存储的初始剪贴簿之中选择尚未选择作为关注剪贴簿的一个初始剪贴簿作为关注剪贴簿。

剪贴簿选择单元141将关注剪贴簿提供给帧提取单元146和帧注册单元147。此外，剪贴簿选择单元141将对应于关注剪贴簿的类别提供给内容选择单元142和模型选择单元143，并且从步骤S131进入步骤S132。

在步骤S132中，内容选择单元142在内容存储单元11中存储的内容之中选择在从剪贴簿选择单元141提供的类别的内容之中尚未选择为关注内容(即关注剪贴簿内容)的内容作为关注内容。

然后，内容选择单元142将关注内容提供给特征量提取单元144和帧提取单元146，并且从步骤S132进入步骤S133。

在步骤S133中，模型选择单元143在模型存储单元13中存储的内容模型之中选择对应于从剪贴簿选择单元141提供的类别的内容模型作为关注模型。

然后，模型选择单元143将关注模型提供给最大似然状态序列估计单元145，并且从步骤S133进入步骤S134。

在步骤S134中，特征量提取单元144提取从内容选择单元142提供的关注内容的各个帧的特征量，并且将关注内容的各个帧的特征量(的时间序列)提供给最大似然状态序列估计单元145。

然后，处理从步骤S134进入步骤S135，最大似然状态序列估计单元145估计最大似然状态序列(即用于关注内容的关注模型的最大似然状态序列)，其为这样的状态序列：其中，存在具有在从模型选择单元143提供的关注模型中观测从特征量提取单元144提供的关注内容的特征量(的时间序列)的最高似然的状态转变。

然后，最大似然状态序列估计单元145将用于关注内容的关注模型的最大似然状态序列提供给帧提取单元146，并且从步骤S135进入步骤S136。

在步骤S136中，帧提取单元146设置“1”作为对时间进行计数的变量t(即关注内容的帧的数目)的初始值，并且进入步骤S137。

在步骤S137中，帧提取单元146确定从最大似然状态序列估计单元145提供的最大似然状态序列(即用于关注内容的关注模型的最大似然状态序列)的在时间t的状态(即从前端起的第t状态)的状态ID是否与在从剪贴簿选择单元141提供的关注剪贴簿中注册的选择状态的注册状态ID中的任何一个一致。

在步骤S137中，如果确定用于关注内容的关注模型的最大似然状态序列的在时间t的状态的状态ID与在关注剪贴簿中注册的选择状态的注册状态ID中的任何一个一致，则帧提取单元146进入步骤S138，从自内容选择单元142提供的关注内容提取在时间t的帧，将提取出的帧提供给帧注册单元147，并且然后进入步骤S139。

此外，在步骤S137中，如果确定用于关注内容的关注模型的最大似然状态序列的在时间t的状态的状态ID与在关注剪贴簿中注册的选择状态的注册状态ID中的任何一个都不一致，则帧提取单元146跳过步骤S138，并且进入步骤S139。

在步骤S139中，帧提取单元146确定变量t是否等于关注内容的帧的总数目N_F。

在步骤S139中，如果确定变量t的不等于关注内容的帧的总数目NF，则处理进入步骤S140，并且帧注册单元147将从帧提取单元146提供的所有帧(即从关注内容提取的所有帧)注册在来自剪贴簿选择单元141的关注剪贴簿中。

在步骤S139中，如果确定变量t等于关注内容的帧的总数目N_F，则帧注册单元147进入步骤S141，并且将从帧提取单元146提供的帧(即从关注内容提取的所有帧)注册在从剪贴簿选择单元141提供的关注剪贴簿中。

然后，处理从步骤S141进入步骤S142，并且内容选择单元142确定在存储在内容存储单元11的、其类别等于对应于关注剪贴簿的类别的内容之中是否存在尚未选择作为关注内容的任何内容。

在步骤S142中，如果确定在存储在内容存储单元11中的、类别等于对应于关注剪贴簿的类别的内容之中存在尚未选择作为关注内容的内容，则内容选择单元142返回步骤S132，并且重复同一处理。

此外，在步骤S142中，如果确定在存储在内容存储单元11中的、类别等于对应于关注剪贴簿的类别的内容之中不存在尚未选择作为关注内容的内容，则步骤进入步骤S143，并且帧注册单元147将关注剪贴簿输出到注册剪贴簿存储单元104作为注册剪贴簿，以终止注册剪贴簿生成处理。

参照图28A至图28E，将更详细地描述注册剪贴簿生成单元103(见图26)执行的注册剪贴簿生成处理。

图28A示出内容选择单元142(见图26)选择作为关注内容(即关注剪贴簿内容)的内容的帧的时间序列。

图28B示出特征量提取单元144(见图26)提取的图28A的帧的特征量的时间序列。

图28C示出从其在由最大似然状态序列估计单元145(见图26)估计的关注模型中观测图28B的关注内容的特征量的时间序列的最大似然状态序列(即用于关注内容的关注模型的最大似然状态序列)。

在此，用于关注内容的关注模型的最大似然状态序列的实例是状态ID的序列。此外，从用于关注内容的关注模型的最大似然状态序列的前端起的第t状态ID是从其观测第t(即在时间t)帧的特征量的状态的状态ID(对应于帧t的状态的状态ID)。

图28D示出由帧提取单元146(见图26)提取的帧。

在图28D中，“1”和“3”被注册作为关注剪贴簿的注册状态ID，并且从关注内容提取具有“1”和“3”的状态ID的各个帧。

图28E示出其中注册从关注内容提取的帧的剪贴簿(即注册剪贴簿)。

在剪贴簿中，例如，注册从关注内容提取的帧，作为保持时间前后关系的形式的运动图像。

如上所述，由于注册剪贴簿生成单元103提取关注内容的图像的各个帧的特征量，估计最大似然状态序列(其是这样的状态序列，其中存在具有在关注模型中观测关注内容的特征量的最高似然的状态转变)，在来自关注内容的最大似然状态序列之中提取对应于与由初始剪贴簿生成处理(见图25)中由用户指示的模型映射的状态的状态ID(即注册状态ID)一致的状态的帧，并且将从关注内容提取的帧注册在剪贴簿中，因此用户可以获得这样的剪贴簿：其中，通过仅指定对应于模型映射中感兴趣的帧(例如其中歌手脸部接近于歌手正在演唱的场景的帧)的状态来收集帧和具有相同内容的帧。

在图27中，虽然例举的是在对应于关注剪贴簿的类别的所有内容被看作关注内容的状态下生成注册剪贴簿，但还有可能的是，通过仅把由用户指定的内容看作关注内容来执行注册剪贴簿的生成。

虽然例举的是在图27中的注册剪贴簿生成处理中，剪贴簿选择单元141通过在初始剪贴簿存储单元102中存储的初始剪贴簿之中选择关注剪贴簿来注册从关注内容提取的帧，但还有可能的是，在注册剪贴簿存储单元104中存储的注册剪贴簿之中选择关注剪贴簿。

也就是说，如果在内容存储单元11中存储新内容的情况下已经存在对应于新内容的类别的注册剪贴簿，则可以通过把新内容看作关注内容并且把对应于关注内容的类别的注册剪贴簿看作关注剪贴簿来执行注册剪贴簿生成处理(见图27)。

此外，在注册剪贴簿生成单元103(见图26)中，帧提取单元146除了帧之外还可以提取附属于帧(图像)的音频。从关注内容，帧注册单元147可以将提取出的音频注册在初始剪贴簿中。

此外，如果在内容存储单元11中存储新内容的情况下已经存在对应于新内容的类别的注册剪贴簿，则可以通过对看作关注内容的新内容执行包括内容结构呈现处理(见图13)的初始剪贴簿生成处理(见图25)将新状态ID附加地注册在注册剪贴簿中。

此外，在通过初始剪贴簿生成处理将新状态ID附加地注册在注册剪贴簿中的情况下，可以通过对看作关注剪贴簿的注册剪贴簿执行注册剪贴簿生成处理(见图27)而从内容存储单元11中存储的内容提取其状态ID与在注册剪贴簿中附加地注册的新状态ID一致的帧，并且可以将提取出的帧附加地注册在注册剪贴簿中。

在此情况下，可以从内容c新提取与注册剪贴簿中附加地注册的新状态ID一致的状态ID的另一帧f′，并且将该帧附加地注册在注册剪贴簿中，其中，已从内容c提取已在注册剪贴簿中注册的帧f。

如上所述，在保持帧f′与从已经从其提取帧f′的内容c提取的帧f之间的时间前后关系的状态下，执行帧f′的附加注册。

在此情况下，由于可能必须指定已经从其提取注册剪贴簿中注册的帧f的内容c，因而内容ID可以连同帧f一起注册在注册剪贴簿中作为指定已经从其提取帧f的内容c的信息。

在此，根据日本待审专利申请公开第2005-189832号中描述的高亮场景检测技术，从内容的图像提取的运动矢量的大小的平均值和方差被量化为四个或五个标记，并且从内容的音频提取的特征量由神经网络分类器分类为标记“拍掌”、“击球”、“女人的声音”、“男人的声音”、“音乐”、“音乐+声音”以及“噪声”，从而获得图像标记时间序列和音频标记时间序列。

此外，在日本待审专利申请公开第2005-189832号中描述的高亮场景检测中，在后处理中，通过使用标记时钟序列进行学习来获取检测高亮场景的检测器。

也就是说，内容的数据中的高亮场景部分中的数据被确定作为在学习作为检测器的HMM时所使用的学习数据，并且从学习数据获得的图像和音频标记时间序列被提供给HMM，从而执行离散HMM(即其观测值为离散值的HMM)的学习。

此后，从要通过滑动窗口处理从其检测高亮场景的待检测的内容提取预定长度(即窗口长度)的图像和音频标记时间序列，并且将其提供给学习之后的HMM，从而在HMM中获得从其观测标记时间序列的似然。

此外，在似然变得大于预定阈值的情况下，从其获得似然的标记序列的部分被检测作为高亮场景部分。

根据日本待审专利申请公开第2005-189832号中描述的高亮场景检测技术，仅通过将内容的数据中的高亮场景部分中的数据提供给HMM作为学习数据，可以通过学习来获得HMM作为检测高亮场景的检测器，甚至无需来自专家的设计先验知识(例如哪个特征量或事件场景将是高亮场景)。

结果，例如，通过将用户感兴趣的场景的数据提供给HMM作为学习数据，变得可以检测用户感兴趣的场景作为高亮场景。

然而，根据日本待审专利申请公开第2005-189832号中描述的高亮场景检测技术，所指定的风格的内容被确定为待检测的内容，并且从这种指定风格的内容提取适合于例如“拍掌”、“击球”、“女人的声音”、“男人的声音”、“音乐”、“音乐+声音”以及“噪声”的标记的(音频)特征量。

相应地，根据日本待审专利申请公开第2005-189832号中描述的高亮场景检测技术，待检测的内容受限于指定风格的内容，为了避免这种限制，无论何时待检测的内容的风格不同时，都必须设计(或者确定)并且提取适合于该风格的特征量。此外，虽然必须针对内容的每一风格确定检测高亮场景时所使用的似然的阈值，但可能难以确定该阈值。

反之，在图1的记录器中，使用特征量来执行内容模型(即HMM)的学习，因为其没有指示内容的内容的标记(诸如“拍掌”)，并且内容结构是自身系统性地获取的。相应地，可以采用通常在对场景进行分类(或标识)时所使用的通用特征量，而不是适合于指定风格的特征量。

相应地，在图1的记录器中，甚至在将多样风格的内容被选择作为待检测的内容的情况下，也必须针对每一风格执行内容模型的学习，但不必改变从用于每一风格的内容提取的特征量。

根据前述情况，可以确认，图1的记录器进行的高亮场景检测技术具有非常高的通用性，并且不依赖于内容的风格。

此外，根据图1的记录器，用户可以指定用户感兴趣的场景、根据指定而生成通过对内容的每一帧标记指示场景是否为高亮场景的高亮标记而获得的高亮标记序列，并且通过采用高亮标记序列作为构成元素序列的多流来执行作为高亮检测器的HMM的学习。相应地，可以容易地获得作为高亮检测器的HMM，而无需来自专家的设计先验知识(诸如哪个特征量或事件场景将是高亮场景。

如上所述，由于来自专家的先验知识并非必须的，因此根据图1的记录器的高亮检测技术具有高度通用性。

此外，图1的记录器学习用户的品味，检测属于该品味的场景(即用户感兴趣的场景)作为高亮场景，并且提供其中收集这种高亮场景的摘要。相应地，在观看内容时实现所谓的“个性化”以拓宽内容享受方法。

[服务器客户机系统的应用]

虽然可以将图1的记录器配置为单个主体设备，但其可以由包括服务器和客户机的服务器客户机系统来配置。

在此，作为内容模型以及另外用于学习内容模型的内容，可以采用所有用户共用的内容(或内容模型)。

另一方面，用户感兴趣的场景(即用户的高亮场景)可以根据用户而不同。

相应地，在由服务器客户机系统配置图1的记录器的情况下，可以例如由服务器执行用于学习内容模型的内容的管理(例如存储)。

此外，可以由服务器根据内容的类别(诸如内容的风格)来执行内容结构的学习(即内容模型的学习)，此外，可以由服务器执行在学习之后的内容模型的管理(例如存储)。

此外，例如，在内容模型中，服务器可以估计最大似然状态序列(其是这样的状态序列，其中存在具有观测内容的特征量的最高似然的状态转变)，并且还可以管理(或者存储)学习之后的内容模型。

在服务器客户机系统中，客户机从服务器请求执行学习所需的信息，服务器将所请求的信息提供或者发送到客户机。然后，客户机使用从服务器提供的信息来执行必要处理。

图29是示出在由服务器客户机系统配置图1的记录器的情况下服务器客户机系统的配置示例(即第一配置示例)的框图。

在图29中，服务器包括内容存储单元11、内容模型学习单元12、以及模型存储单元13，客户机包括内容结构呈现单元14、摘要生成单元15、以及剪贴簿生成单元16。

在此情况下，如图29所示，可以将内容从内容存储单元11提供给客户机，或者可以从另一块(未示出)(例如调谐器)提供内容。

虽然在图29中，内容结构呈现单元14整个安装在客户机侧上，但内容结构呈现单元14的一部分可以被配置为服务器，它的其余部分可以被配置为客户机。

图30是示出服务器客户机系统的配置示例(即第二配置示例)的框图。

在图30中，作为内容结构呈现单元14(见图9)的一部分，内容选择单元31至坐标计算单元37安装在服务器中，作为内容结构呈现单元14的其余部分，映射绘制单元38和显示控制单元39安装在客户机中。

在图30中，客户机将作为指定用于绘制模型映射的内容的信息的内容ID发送到服务器。

服务器通过内容选择单元31选择由从客户机提供的内容ID所指定的内容作为关注内容，获得用于生成(例如绘制)模型映射所需的状态坐标，并且生成状态对应图像信息。

此外，服务器将状态坐标和状态对应图像信息发送到客户机，客户机使用从服务器提供的状态坐标来绘制模型映射。从服务器提供的状态对应图像信息与模型映射相连接，并且模型映射被显示在客户机上。

虽然在图29中，包括高亮检测器学习单元51的摘要生成单元15(见图14)整个安装在客户机侧上，但高亮检测器学习单元51(见图15)的一部分可以被配置为服务器，它的其余部分可以被配置为客户机。

图31是示出服务器客户机系统的配置示例(即第三配置示例)的框图。

在图31中，作为高亮检测器学习单元51(见图15)的一部分，内容选择单元61至最大似然状态序列估计单元64安装在服务器中，作为它的其余部分，高亮标记生成单元65至学习单元67安装在客户机中。

在图31中，客户机将用于学习高亮检测器的内容的内容ID发送到服务器。

服务器通过内容选择单元61选择由从客户机提供的内容ID指定的内容作为关注内容，并且获得用于关注内容的最大似然状态序列。服务器将用于关注内容的最大似然状态序列提供给客户机。

客户机使用从服务器提供的最大似然状态序列生成学习标记序列，并且使用学习标记序列执行高亮检测器的学习。此外，客户机将在学习之后的高亮检测器存储在检测器存储单元52中。

虽然在图29中，包括高亮检测单元53的摘要生成单元15(见图14)整个安装在客户机侧上，但高亮检测单元53(见图18)的一部分可以被配置为服务器，它的其余部分可以被配置为客户机。

图32是示出服务器客户机系统的配置示例(即第四配置示例)的框图。

在图32中，作为高亮检测单元53(见图18)的一部分，内容选择单元71至最大似然状态序列估计单元74安装在服务器中，作为它的其余部分，检测标记生成单元75至回放控制单元80安装在客户机中。

在图32中，客户机将用于检测高亮场景的内容的内容ID发送到服务器。

服务器通过内容选择单元111选择由从客户机提供的内容ID指定的内容作为关注内容，并且获得用于关注内容的最大似然状态序列。服务器将用于关注内容的最大似然状态序列提供给客户机。

客户机使用从服务器提供的最大似然状态序列生成检测标记序列，并且使用检测器存储单元52中存储的高亮检测器执行高亮场景的检测，并且使用高亮场景执行摘要内容的生成。

然后，虽然在图29中，包括初始剪贴簿生成单元101的剪贴簿生成单元16(见图22)整个安装在客户机侧上，但初始剪贴簿生成单元101(见图23)的一部分可以被配置为服务器，它的其余部分可以被配置为客户机。

图33是示出服务器客户机系统的配置示例(即第五配置示例)的框图。

在图33中，作为初始剪贴簿生成单元101(见图23)的一部分，内容选择单元111至坐标计算单元117安装在服务器中，作为它的其余部分，映射绘制单元118、显示控制单元119、状态选择单元121、以及选择状态注册单元122安装在客户机中。

在图33中，客户机将作为指定用于绘制模型映射的内容的信息的内容ID发送到服务器。

服务器通过内容选择单元111选择由从客户机提供的内容ID所指定的内容作为关注内容，获得用于生成(例如绘制)模型映射所需的状态坐标，并且生成状态对应图像信息。

此外，服务器将状态坐标和状态对应图像信息发送到客户机，客户机使用来自服务器的状态坐标来绘制模型映射。从服务器提供的状态对应图像信息与模型映射相连接，并且模型映射被显示在客户机上。

此外，客户机根据用户的操控选择模型映射上的状态作为选择状态，并且识别选择状态的状态ID。此外，在客户机中，选择状态的状态ID被注册在剪贴簿中，并且剪贴簿被存储在初始剪贴簿存储单元102中作为初始剪贴簿。

然后，虽然在图29中，包括注册剪贴簿生成单元103的剪贴簿生成单元16(见图22)整个安装在客户机侧上，但注册剪贴簿生成单元103(见图26)的一部分可以被配置为服务器，它的其余部分可以被配置为客户机。

图34是示出如上所述的服务器客户机系统的配置示例(即第六配置示例)的框图。

在图34中，内容选择单元142至最大似然状态序列估计单元145安装在服务器中作为注册剪贴簿生成单元103(见图26)的一部分，剪贴簿选择单元141、帧提取单元146以及帧注册单元147安装在客户机中作为它的其余部分。

在图34中，客户机将对应于由剪贴簿选择单元141选择的关注剪贴簿的类别发送到服务器。

在服务器中，估计对应于从客户机发送的类别的内容模型的最大似然状态序列，然后将最大似然状态序列连同从客户机发送的类别的内容一起提供给客户机。

在客户机中，从服务器中的内容提取对应于其中从服务器提供的最大似然状态序列的状态之中的状态ID与在由剪贴簿选择单元141所选择的关注剪贴簿中注册的状态ID(即注册状态ID)一致的状态的帧，并且将该帧注册在剪贴簿中。

如上所述，通过配置图1的记录器从而记录器划分为服务器和客户机，甚至硬件性能不高的客户机也可以执行迅捷的处理

在此情况下，只要由客户机执行在由图1的记录器执行的处理之中反映用户的品味的部分的处理，就无需特别限定如何将图1的记录器划分为服务器和客户机。

[其它记录器的配置示例]

如上所述，例举的是，通过使用从以帧为单位的图像获得的特征量对视频内容进行自身系统性地结构化，学习内容模型，呈现内容结构，并且生成摘要视频或视频片段。然而，在学习内容模型时，并非以帧为单位的图像可以用作特征量，例如，音频或图像中的对象可以用作特征量。

图35是示出应用根据本发明实施例(其使用特征量，而不是以帧为单位的图像)的图像处理设备的记录器的另一示例的配置的框图。在此情况下，相同标号赋予具有与图1的记录器中相同功能的构成元件，并且将适当地省略其描述。

图35的记录器包括内容模型学习单元201、模型存储单元202、内容结构呈现单元203、摘要生成单元204、以及剪贴簿生成单元205，而不是图1的记录器中包括的内容模型学习单元12、模型存储单元13、内容结构呈现单元14、摘要生成单元15、以及剪贴簿生成单元16。

内容模型学习单元201、模型存储单元202、内容结构呈现单元203、摘要生成单元204以及剪贴簿生成单元205的基本功能与图1的记录器中包括的内容模型学习单元12、模型存储单元13、内容结构呈现单元14、摘要生成单元15以及剪贴簿生成单元16的基本功能相同。然而，不同于图1的记录器，图35的记录器采用三种特征量，即音频特征量、对象特征量外加图像特征量。下文中，将描述处理三种特征量的示例。然而，特征量的种类不限于此，并且也可以使用多于三种的特征量。

[内容模型学习单元201的配置示例]

图36是示出图35的内容模型学习单元201的配置示例的框图。在图36所示的内容模型学习单元201的配置中，相同标号赋予具有与图2所示的内容模型学习单元12相同功能的配置。

内容模型学习单元201提取图像特征量、音频特征量、以及对象特征量作为成为用于学习状态转变概率模型的内容的学习内容的图像的每一帧的特征量，其中状态转变概率模型被规定为用于状态转变的状态转变概率以及用于预定观测值的观测的观测概率。然后，内容模型学习单元201使用学习内容的图像特征量、音频特征量和对象特征量来执行各个状态转变概率模型的学习。

图像特征量提取单元220与特征量提取单元22相同，此外，图像特征量存储单元26和学习单元27与图2的相同。也就是说，用于处理图像特征量的配置与图2的内容模型学习单元12相同。此外，在学习单元27中，通过学习所获得的内容模型被存储在模型存储单元202中的图像模型存储单元202a中。也就是说，图像模型存储单元202a与图2中的模型存储单元13相同。在此情况下，由于通过图像特征量获得内容模型，因此下文中称其为图像内容模型。

音频特征量提取单元221通过使得学习内容的音频对应于图像的各个帧来提取特征量。

音频特征量提取单元221将从学习内容选择单元21提供的学习内容解复用为图像和音频数据，通过使得数据对应于各个帧来提取音频的特征量，并且将提取出的特征量提供给音频特征量存储单元222。下文中，以帧为单位的音频特征量将称为音频特征量。

也就是说，音频特征量提取单元221包括原初特征量提取单元241、平均计算单元242、方差计算单元243、以及组合单元244。

原初特征量提取单元241提取原初特征量作为用于生成适合于将音频分类为场景(例如“音乐”、“非音乐”“、噪声”、“人类语音”、“人类语音+音乐”、“观众”等)的音频特征量(诸如声音分类或音频分类领域中使用的音频特征量)的原始特征量。原初特征量可以是使用音频分类领域中使用的音频特征量提取方法例如诸如以大约10毫秒的量级以相对短的时间单位从音频信号进行计算而获得的能量、过零率、谱中心等。

更详细地说，原初特征量提取单元241通过例如Zhu Liu；JincheongHuang；Yao Wang；Tsuhan Chen，Audio feature extraction and analysis forscene classification，First Workshop on Mulitmedia Signal Processing，1997.，IEEE Volume，Issue，23-25 Jun 1997 Page(s)：343-348，和Brezeale，D.Cook，D.J.，Automatic Video Classification：A Survey of the Literature，IEEETransactions on Systems，Man，and Cybernetics，Part C：Applications andReviews，May 2008，Volume：38，Issue：3，pp.416-430中讨论的特征量提取方法提取原初特征量。

平均计算单元242通过从原初特征量时间序列以较长时间单位(通常等于或大于1秒)计算作为统计量的平均值来提取以较长时间单位的时间序列中的特征量，并且将提取出的特征量提供给组合单元244。

方差计算单元243通过从原初特征量时间序列以较长时间单位(通常等于或大于1秒)计算作为统计量的方差来提取以较长时间单位的时间序列中的特征量，并且将提取出的特征量提供给组合单元244。

组合单元244组合作为来自原初特征量时间序列的统计量而获得的平均值和方差，并且将组合的结果提供给音频特征量存储单元26作为关注帧的特征量。

更具体地说，音频特征量可以是必须提取的，从而其与上述图像特征量同步，以实现以下处理。相应地，由于音频特征量在于在提取图像特征量的各个时间通过音频来区分场景的音频特征量，因此通过以下方法生成音频特征量。

也就是说，如果声音信号是立体声音信号，则原初特征量提取单元241将声音信号转换为单耳声音信号。然后，如图37所示，原初特征量提取单元241从波形“A”指示的音频信号的能量波形提取波形“B”指示的具有0.05秒步长宽度、以0.05秒为连续时间宽度单位的原初特征量。在此，在A和B的波形图中，垂直轴表示音频信号的能量，水平轴表示时间。此外，波形B通过其分辨率关于波形A的一部分放大而得以显示。A的波形处于以2.0833秒为刻度的0(×10⁴)至10(×10⁴)的范围中。此外，波形B处于以0.1042秒为刻度的0至5000的范围中。另一方面，可以在看作相同时间的预定时间范围中的副本中提取原初特征量。在此情况下，原初特征量提取单元241组合它们作为元素，以形成特征量矢量作为原初特征量。

然后，在提取图像特征量的各个时间，如图38A至图38D所示，平均计算单元242和方差计算单元243关于对应于该时间的原初特征量的0.5秒前后时段(即1.0秒的窗口大小)获得音频信号的能量的方差和平均值，并且把在对应时间的特征量矢量看作音频特征量。

在图38A至图38D中，波形A是指示用于标识音频信息的采样数据的标识符Sid与作为原初特征量的能量的大小之间的关系的波形，波形B是指示用于标识图像帧的标识符Vid与图像特征量(GIST)之间的关系的波形。在波形A和波形B中，圆圈分别指示原初特征量和图像特征量。

波形图C和D是在波形图A和D的基础上的并且放大了水平轴上标识符Sid和Vid的显示间隔的波形图。在图38A至图38D中，例举的是，音频的原初特征量的采样率fq_s是20Hz，图像特征量的采样率fq_v是3Hz。

如上所述，由于音频特征量和图像特征量必须彼此同步，如图38A至图38D的波形图A和B所示，因此音频标识符Sid和图像标识符Vid具有下述等式(4)中指示的关系。

Sid＝ceil((Vid-1)×(fq_s/fq_v)+1 ...(4)

在此，ceil()表示指示在正无穷方向上取整的函数。

以上确定的标识符Sid与Vid之间的关系变为图38A至图38D中波形图A和B中指示的关系。也就是说，存在的标识符Sid的原初特征量的范围对应于图像特征量的标识符Vid以及三个前后原初特征量(总共七个)变为窗口大小W(＝1.0秒)，窗口大小W中的平均值和方差变为对应于标识符Vid的帧图像的音频特征量。在此，窗口大小W由以下等式(5)定义。

W＝round(K×(fq_s/fq_v)) ...(6)

在此，round()是具有最接近的整数的函数，K是预定整数。在图38A至图38D中，K变为1。

如上提取的音频特征量被存储在音频特征量存储单元222中。另一方面，由于音频特征量存储单元222和学习单元223的功能与图像特征量存储单元26和学习单元27的功能相同，因此将省略它们的解释。此外，通过由学习单元223进行学习处理所获得的内容模型存储在模型存储单元202的音频模型存储单元202b中作为音频内容模型。

对象特征量提取单元224通过使得对象对应于学习内容的图像的各个帧来提取特征量。

对象特征量提取单元224通过将从学习内容选择单元21提供的学习内容解复用为图像和音频数据来检测图像的帧中包括的对象(例如，其可以是人物和脸部)作为四边形图像。此外，对象特征量提取单元224使用检测到的四边形图像提取特征量，并且将提取出的特征量提供给对象特征量存储单元225。

也就是说，对象特征量提取单元224包括对象提取单元261、帧划分单元262、子区域特征量提取单元263、以及组合单元264。

对象提取单元261将内容视频解复用为图像和音频数据。然后，对象提取单元261执行对象检测，例如，在对象对应于人物的外部整个身体的假设下，在图39的左上部所示的帧F1内检测由四边形区域构成的对象OB1和OB2。然后，对象提取单元261将由左上坐标构成的矢量(X1，Y1，W1，H1)和(X2，Y2，W2，H2)以及由图39的左下部中的斜线指示的包括检测到的对象的四边形区域的宽度和高度输出到子区域特征量提取单元263。此时，如果检测到多个对象并且输出多个四边形区域，则该信息与检测的数目同样多地输出到帧1。

同时，帧划分单元262按与帧划分单元23相同的方式将帧划分为图39的左下部所示的子区域R1至R36(6×6)，并且将划分后的子区域提供给子区域特征量提取单元263。

如图39的中心下部所示的，子区域特征量提取单元263对用于各个子区域R_n的四边形区域中的像素V_n的数目进行计数，并且与检测的数目同样多地累计计数值。此外，子区域特征量提取单元263通过将四边形区域中的像素数目V_n除以子区域中的像素总数目S_n来对图像大小进行归一化，并且将除法结果输出到组合单元264。

如图39的右下部所示的，组合单元264通过组合各个区域中计算出的值来生成构成对象特征量的对象特征量矢量，并且将所生成的对象特征量矢量输出到对象特征量存储单元225。此时，由于对象特征量存储单元225和学习单元226的功能与图像特征量存储单元26和学习单元27的功能相同，因此将省略它们的解释。此外，通过由学习单元226所处理的学习所获得的内容模型存储在模型存储单元202的对象模型存储单元202c中作为对象内容模型。

[内容模型学习单元201执行的内容模型学习处理]

接下来，将描述图36的内容模型学习单元201执行的内容模型学习处理。图36的内容模型学习单元201执行的内容模型学习处理包括根据特征量的种类的图像内容模型学习处理、音频内容模型学习处理以及对象内容模型学习处理。其中，图像内容模型学习处理与参照图8描述的内容模型学习处理相似，例外之处是创建的图像内容模型被存储在图像模型存储单元202a中，并且因此将省略其描述。

接下来，将参照图40的流程图描述图36的内容模型学习单元201执行的音频内容模型学习处理。在该实例中，图40中步骤S201的处理与图8中步骤S11的处理相似，并且因此将省略其描述。

在步骤S202中，音频特征量提取单元221的原初特征量提取单元241在从学习内容选择单元21提供的学习内容之中选择尚未处理为关注学习内容(下文中称为“关注内容”)的内容作为关注内容。

然后，原初特征量提取单元241从步骤S202进入步骤S203，并且在关注内容的帧之中选择尚未处理为关注帧的视觉上最前的帧作为关注帧，以进入步骤S204。

在步骤S204中，原初特征量提取单元241从音频提取原初特征量作为用于生成适合于对场景进行分类的音频特征量的原初特征量，如参照图37和图38描述的。原初特征量提取单元241将提取出的原初特征量提供给平均计算单元242和方差计算单元243。

在步骤S205中，平均计算单元242在所提供的原初特征量之中计算关注帧的平均值，并且将其提供给组合单元244。

在步骤S206中，方差计算单元243在所提供的原初特征量之中计算关注帧的方差，并且将其提供给组合单元244。

在步骤S207中，组合单元244通过组合从平均计算单元242提供的关注帧的原初特征量的平均值与从方差计算单元243提供的关注帧的原初特征的方差来构成特征量矢量。组合单元244生成特征量矢量作为关注帧的音频特征量，并且处理进入步骤S208。

在步骤S208中，帧划分单元23判断是否关注内容的所有帧已经处理为关注帧。

在步骤S208中，如果判断出尚未处理为关注帧的任何帧存在，则帧划分单元23返回步骤S203，以重复相同处理。

在步骤S208中，如果判断出所有帧已经处理为关注帧，则组合单元224进入步骤S209，并且将关注内容的各个帧的特征量(的时间序列)提供给特征量存储单元222，以将特征量存储在特征量存储单元222中。

然后，原初特征量提取单元241从步骤S209进入步骤S210，并且判断从学习内容选择单元21提供的所有学习内容是否已经处理为关注内容。

在步骤S210中，如果判断出尚未处理为关注内容的任何内容存在，则原初特征量提取单元241返回步骤S202，以重复相同处理。

在步骤S210中，如果判断出所有内容已经处理为关注内容，则学习单元223进入步骤S211，并且使用音频特征量存储单元222中存储的学习内容的音频特征量(即各个帧的音频特征量的时间序列)来执行音频HMM的学习。

然后，学习单元223使得在学习之后的音频HMM对应于作为音频内容模型的学习内容的类别，并且将音频HMM输出(即提供)给音频模型存储单元202b，以完成音频内容模型学习。

音频内容模型学习处理可以开始于特定时序。

根据上述音频内容模型学习处理，在音频HMM中，自身系统性地获取学习内容中潜在的内容结构(例如其中音频等出现的结构)。

结果，根据音频内容模型学习处理而获得的作为音频内容模型的音频HMM的每一状态对应于通过学习所获取的内容的元素，并且状态转变表示内容结构的各元素之间的时间转变。

此外，通过音频特征量空间(即音频特征量提取单元221(见图36)所提取的音频特征量的空间)中的空间距离彼此接近并且时间前后关系彼此相似的帧组(即相似场景)的组合来表示音频内容模型的状态。

接下来，参照图41的流程图，将描述图36的内容模型学习单元201执行的对象内容模型学习处理。在该实例中，图41中步骤S231的处理与图8中步骤S11的处理相似，并且在此因此将省略其描述。

在步骤S232中，对象特征量提取单元224的帧划分单元262在从学习内容选择单元21提供的学习内容之中选择尚未处理为关注学习内容(下文中称为“关注内容”)的内容作为关注内容。

然后，帧划分单元262从步骤S232进入步骤S233，并且在关注内容的帧之中选择尚未处理为关注帧的视觉上最前的帧作为关注帧，并且进入步骤S234。

在步骤S234中，帧划分单元262将关注帧划分为多个子区域，将划分后的子区域提供给子区域特征量提取单元263，并且进入步骤S235。

在步骤S235中，对象提取单元261检测关注帧中包含的对象，使得包含检测到的对象的区域在矩形区域中，并且将矩形区域的左上坐标构成的矢量、宽度和高度输出到子区域特征量提取单元263。

在步骤S236中，子区域特征量提取单元263在来自帧划分单元262的多个子区域之中对对象矩形区域的像素数目进行计数。此外，子区域特征量提取单元263对每一子区域中的对象矩形区域的像素数目进行计算并且归一化，并且将归一化后的像素数目提供给组合单元264作为子区域特征量。

在步骤S237中，组合单元264通过组合构成来自子区域特征量提取单元263的关注帧的多个子区域的子区域特征量来生成关注帧的特征量，并且进入步骤S238。

在步骤S238中，帧划分单元262判断是否关注内容的所有帧已经处理为关注帧。

在步骤S238中，如果判断出尚未处理为关注帧的任何帧存在，则帧划分单元262返回步骤S233，以重复相同处理。

此外，在步骤S238中，如果判断出所有帧已经处理为关注帧，则组合单元244进入步骤S239，并且将关注内容的各个帧的特征量(的时间序列)提供给特征量存储单元225，以将特征量存储在特征量存储单元225中。

然后，帧划分单元262从步骤S239进入步骤S240，并且判断从学习内容选择单元21提供的所有学习内容是否已经处理为关注内容。

在步骤S240中，如果判断出尚未处理为关注内容的任何内容存在，则帧划分单元262返回步骤S232，以重复相同处理。

此外，在步骤S240中，如果判断出所有内容已经处理为关注内容，则处理进入步骤S241。在步骤S241中，学习单元226使用对象特征量存储单元225中存储的学习内容的特征量(即各个帧的时间序列特征量)来执行对象HMM的学习。

然后，学习单元226使得在学习之后的对象HMM对应于作为内容模型的学习内容的类别，并且将HMM输出(即提供)给对象模型存储单元202c，以完成内容模型学习。

此时，对象内容模型学习处理可以开始于特定时序。

根据上述对象内容模型学习处理，在对象HMM中，自身系统性地获取学习内容中潜在的内容结构(例如其中对象的外观等出现的结构)。

结果，根据内容模型学习处理而获得的作为对象内容模型的对象HMM的每一状态对应于通过学习所获取的内容的元素，并且状态转变表示内容结构的各元素之间的视觉转变。

此外，通过对象特征量空间(即对象特征量提取单元224(见图36)所提取的对象特征量的空间)中的空间距离彼此接近并且时间前后关系彼此相似的帧组(即相似场景)的组合来表示对象内容模型的状态。

接下来，将描述内容结构呈现单元203的配置示例。内容结构呈现单元203的配置示例与以下将描述的初始剪贴簿生成单元371(图48)的配置示例相似，例外之处是状态选择单元419和选择状态注册单元420。原因在于，其通过安装对应于图像内容模型、音频内容模型和对象内容模型中的每一个的内容结构呈现单元14而被配置。

此外，内容结构呈现单元203处理图像内容模型、音频内容模型和对象内容模型的每一内容结构的映射图像，以将映射图像分离地显示在窗口上，或者显示在独立窗口上。因此，关于图像内容模型、音频内容模型和对象内容模型中的每一个，执行与上述内容结构呈现单元14(图9)中的内容结构呈现处理(图13)相同的处理。

从以上描述，在此将不描述内容结构呈现单元203的构造示例及其内容结构呈现处理。

[摘要生成单元204的配置示例]

图42是示出图35的摘要生成单元204的配置示例的框图。

摘要生成单元204包括高亮检测学习单元291、检测器存储单元292、以及高亮检测单元293。

高亮检测学习单元291、检测器存储单元292以及高亮检测单元293具有与高亮检测学习单元51、检测器存储单元52以及高亮检测单元53相同的功能，但可以执行对应于图像内容模型、音频内容模型以及对象内容模型的处理。

[高亮检测器学习单元291的配置示例]

图43是示出图42的高亮检测器学习单元291的配置示例的框图。在该实例中，与图15所示的高亮检测器学习单元51相同的图43中的高亮检测器学习单元291的配置由相同标号来表示，并且在此将省略其描述。

也就是说，高亮检测器学习单元291与高亮检测器学习单元51相似，例外之处是对应于图像特征量、音频特征量以及对象特征量的模型选择单元62、特征量提取单元63以及最大似然状态序列估计单元64。更具体地说，高亮检测器学习单元291包括图像模型选择单元311、图像特征量提取单元312、以及图像最大似然状态序列估计单元313。此外，高亮检测器学习单元291包括音频模型选择单元316、音频特征量提取单元317、以及音频最大似然状态序列估计单元318。此外，高亮检测器学习单元291包括对象模型选择单元319、对象特征量提取单元320、以及对象最大似然状态序列估计单元321。

瞄准图像内容模型的图像模型选择单元311、图像特征量提取单元312以及图像最大似然状态序列估计单元313与模型选择单元62、特征量提取单元63以及最大似然状态序列估计单元64相似。此外，音频模型选择单元316、音频特征量提取单元317以及音频最大似然状态序列估计单元318就其基本功能而言与模型选择单元62、特征量提取单元63以及最大似然状态序列估计单元64相似，例外之处是所对待的特征量为音频特征量。此外，对象模型选择单元319、对象特征量提取单元320以及对象最大似然状态序列估计单元321就其基本功能而言与模型选择单元62、特征量提取单元63以及最大似然状态序列估计单元64相似，例外之处是所对待的特征量为对象特征量。

此外，图像模型选择单元311选择模型存储单元202的图像模型存储单元202a中的图像内容模型中的任一个。音频模型选择单元316选择模型存储单元202的音频模型存储单元202b中的音频内容模型中的任一个。对象模型选择单元319选择模型存储单元202的对象模型存储单元202c中的对象内容模型中的任一个。

此外，图43的高亮检测器学习单元291包括学习标记生成单元314，而不是学习标记生成单元66。学习标记生成单元314就其基本功能而言与学习标记生成单元66相似。学习标记生成单元314获得对应于图像最大似然状态序列估计单元313中的图像特征量的对应于用于关注内容的关注模型的图像特征量的最大似然状态序列(也称为图像最大似然状态序列)的状态ID序列。学习标记生成单元314获得对应于音频最大似然状态序列估计单元318中的音频特征量的对应于用于关注内容的关注模型的音频特征量的最大似然状态序列(也称为音频最大似然状态序列)的状态ID序列。学习标记生成单元314获得对应于对象最大似然状态序列估计单元319中的对象特征量的对应于用于关注内容的关注模型的对象特征量的最大似然状态序列(也称为对象最大似然状态序列)的状态ID序列。高亮标记生成单元314从高亮标记生成单元65获得高亮标记序列。学习标记生成单元314生成包括图像最大似然状态序列、音频最大似然状态序列和对象最大似然状态序列的状态ID序列的学习标记序列、以及高亮标记序列。

也就是说，学习标记生成单元314生成作为图像、音频和对象中的每一个的最大似然状态序列的状态ID、高亮标记序列中在时间t的状态ID、以及与高亮标记成对的多流学习标记序列。

相应地，学习标记生成单元314基于以上等式2中M＝4的元素序列的多流生成学习标记序列。学习标记生成单元314将基于多流的学习标记序列提供给学习单元315。

学习单元315使用从学习标记生成单元314提供的学习标记序列通过Baum-Welch重新估计方法来执行作为遍历类型的多流HMM的高亮检测器的学习。

然后，学习单元315使得学习之后的高亮检测器对应于内容选择单元61所选择的关注内容的类别，提供高亮检测器，并且将其存储在检测器存储单元292中。

在该实例中，在学习单元315中多流HMM的学习中，如上所述，由于多流包括M＝4的四种构成元素序列，因此每一序列的序列加权值被设置为W₁至W₄，并且例如，如果所有序列加权值被均匀地划分，则它们全部可以被设置为1/4(＝0.25)。此外，如果构成元素序列M被归一化，则在每一序列的序列加权值相等的情况下，所有加权值可以是1/M。

[高亮检测器学习处理]

图44是示出图43中的高亮检测器学习单元291执行的处理(即高亮检测器学习处理)的流程图。

在步骤S261中，内容选择单元61例如在内容存储单元11中存储的内容之中选择根据用户的操控指定回放的内容作为关注内容(即关注检测器学习内容)。

然后，内容选择单元61将关注内容分别提供给图像特征量提取单元312、音频特征量提取单元317以及对象特征量提取单元320。此外，内容选择单元61识别关注内容的类别，并且将其提供给图像模型选择单元311、音频模型选择单元316以及对象模型选择单元319，并且从步骤S261进入S262。

在步骤S262中，图像模型选择单元311在模型存储单元202a中存储的内容模型之中选择对应于从内容选择单元61提供的关注内容的类别的内容模型作为关注模型。

图像模型选择单元311将关注模型提供给最大似然状态序列估计单元313，并且从步骤S262进入步骤S263。

在步骤S263中，图像特征量提取单元312提取从内容选择单元61提供的关注内容的各个帧的特征量，并且将关注内容的各个帧的特征量(的时间序列)提供给最大似然状态序列估计单元313，并且进入步骤S264。

在步骤S264中，最大似然状态序列估计单元313估计最大似然状态序列，从该最大似然状态序列在从图像模型选择单元311提供的关注模型中观测从图像特征量提取单元312提供的关注内容的特征量(的时间序列)。

然后，图像最大似然状态序列估计单元313将用于关注内容的关注模型的图像最大似然状态序列提供给学习标记生成单元314，并且从步骤S264进入步骤S265。

在步骤S265中，音频模型选择单元316在音频模型存储单元202b中存储的音频内容模型之中选择对应于来自内容选择单元61的关注内容的类别的内容模型作为关注模型。

然后，音频模型选择单元316将关注模型提供给音频最大似然状态序列估计单元318，并且从步骤S265进入步骤S266。

在步骤S266中，音频特征量提取单元317提取从内容选择单元61提供的关注内容的每一帧的音频特征量，将关注内容的每一帧的音频特征量(的时间序列)提供给音频最大似然状态序列估计单元318，并且进入步骤S267。

在步骤S267中，音频最大似然状态序列估计单元318估计最大似然状态序列，从该最大似然状态序列在从音频模型选择单元316提供的关注模型中观测从音频特征量提取单元317提供的关注内容的音频特征量(的时间序列)。

然后，音频最大似然状态序列估计单元318将用于关注内容的关注模型的音频最大似然状态序列提供给学习标记生成单元314，并且从步骤S267进入步骤S268。

在步骤S268中，对象模型选择单元319在来自内容选择单元61的对象模型存储单元202c中存储的对象内容模型之中选择对应于关注内容的类别的内容模型作为关注模型。

然后，对象模型选择单元319将关注模型提供给对象最大似然状态序列估计单元321，并且从步骤S268进入步骤S269。

在步骤S269中，对象特征量提取单元320提取从内容选择单元61提供的关注内容的每一帧的对象特征量，将关注内容的每一帧的对象特征量(的时间序列)提供给对象最大似然状态序列估计单元321，并且进入步骤S270。

在步骤S270中，对象最大似然状态序列估计单元321估计最大似然状态序列，从该最大似然状态序列在从对象模型选择单元319提供的关注模型中观测从对象特征量提取单元320提供的关注内容的对象特征量(的时间序列)。

然后，对象最大似然状态序列估计单元321将用于关注内容的关注模型的对象最大似然状态序列提供给学习标记生成单元314，并且从步骤S270进入步骤S271。

在步骤S271中，高亮标记生成单元65通过根据用户的操控对由内容选择单元61所选择的关注内容的每一帧标记高亮标记来关于关注内容生成高亮标记序列。

高亮标记生成单元65将针对关注内容所生成的高亮标记序列提供给学习标记生成单元314，并且进入步骤S272。

在步骤S272中，学习标记生成单元314从图像最大似然状态序列估计单元313获得用于关注内容的关注模型的图像最大似然状态序列的状态ID序列。此外，学习标记生成单元314从音频最大似然状态序列估计单元318获得用于关注内容的关注模型的音频最大似然状态序列的状态ID序列。此外，学习标记生成单元314从对象最大似然状态序列估计单元321获得用于关注内容的关注模型的对象最大似然状态序列的状态ID序列。此外，学习标记生成单元314从高亮标记序列生成单元65获得高亮标记序列。然后，学习标记生成单元314通过组合图像最大似然状态序列、音频最大似然状态序列、以及对象最大似然状态序列的每一状态ID序列以及高亮标记序列的四个序列来生成学习标记序列。

然后，学习标记生成单元314将学习标记序列提供给学习单元315，并且从S272进入步骤S273。

在步骤S273中，学习单元315使用从学习标记生成单元314提供的学习标记序列执行作为多流HMM的高亮检测器的学习。于是，处理进入步骤S274。

在步骤S274中，学习单元315使得学习之后的高亮检测器对应于内容选择单元61所选择的关注内容的类别，提供高亮检测器，并且将其存储在检测器存储单元292中。

如上所述，使用关注内容的关注模型的图像最大似然状态序列、音频最大似然状态序列以及对象最大似然状态序列的状态ID序列的学习标记序列以及高亮标记序列的四个序列通过多流HMM的学习来获得高亮检测器。

相应地，可以通过参照各个状态的高亮标记的观测概率来判断对应于状态的帧是否为用户感兴趣的场景(高亮场景)。

[高亮检测单元293的配置示例]

图45是示出图42的高亮检测单元293的配置示例的框图。在图45中的高亮检测单元293中，相同标号赋予具有与图18中高亮检测单元53的配置的功能相同的功能的配置，并且将省略其描述。

在图45中，高亮检测单元293与图18的高亮检测单元53具有相同的功能，例外之处是，根据图像特征量、音频特征量以及对象特征量生成检测标记。

也就是说，图像模型选择单元341、图像特征量提取单元342以及图像最大似然状态序列估计单元343与图43的高亮检测学习单元291的图像模型选择单元311、图像特征量提取单元312以及图像最大似然状态序列估计单元313相似。此外，音频模型选择单元350、音频特征量提取单元351以及音频最大似然状态序列估计单元352与图43的高亮检测学习单元291的音频模型选择单元316、音频特征量提取单元317以及音频最大似然状态序列估计单元318相似。此外，对象模型选择单元353、对象特征量提取单元354以及对象最大似然状态序列估计单元355与图43的高亮检测学习单元291的对象模型选择单元319、对象特征量提取单元320以及对象最大似然状态序列估计单元321相似。

通过上述配置，学习标记生成单元344被提供有用于关注内容的图像最大似然状态序列、音频最大似然状态序列以及对象最大似然状态序列的各个状态ID序列。

检测标记生成单元344生成用于关注内容的图像最大似然状态序列、音频最大似然状态序列以及对象最大似然状态序列的各个状态ID序列、以及仅高亮标记的高亮标记序列。

也就是说，检测标记生成单元344生成虚设序列，并且将具有与图像最大似然状态序列、音频最大似然状态序列以及对象最大似然状态序列的长度(即序列的长度)相同的长度的高亮标记序列提供给高亮检测器作为仅指示场景不是高亮场景的高亮标记的高亮标记序列。

此外，检测标记生成单元344生成图像最大似然状态序列、音频最大似然状态序列以及对象最大似然状态序列的状态ID、作为虚设序列的高亮标记序列中在时间t的状态ID、以及与高亮标记成对的多流学习标记序列。

然后，检测标记生成单元344将检测标记序列提供给最大似然状态序列估计单元346。

在该实例中，当获得检测标记序列的观测概率时，图像最大似然状态序列、音频最大似然状态序列以及对象最大似然状态序列的各个序列以及作为虚设序列的高亮标记序列的序列加权值W₁至W₄使用(W₁∶W₂∶W₃∶W₄)＝(1/3∶1/3∶1/3∶0)。相应地，最大似然状态序列估计单元346并非鉴于作为虚设序列的高亮标记序列而是鉴于用于关注内容的关注模型的图像最大似然状态序列、音频最大似然状态序列以及对象最大似然状态序列来执行高亮关系状态序列的估计。此外，如果在序列号M的情况下加权值被归一化，则在高亮标记序列的加权值被设置为“0”的情况下，所有序列的加权值变为1/(M-1)，并且其它序列的加权值设置为均匀的。

此外，检测器选择单元345、最大似然状态序列估计单元346、高亮场景检测单元347、摘要内容生成单元348以及回放控制单元349变为包括四个流的检测标记序列。关于其它方面，其功能基本上与图18所示的检测器选择单元76、最大似然状态序列估计单元77、高亮场景检测单元78、摘要内容生成单元79以及回放控制单元80相似，并且将省略其描述。

[高亮检测处理]

图46是示出图45的高亮检测单元293所执行的处理(即高亮检测处理)的流程图。

在步骤S291中，内容选择单元71在内容存储单元11中存储的内容之中选择作为针对其检测高亮场景的内容的关注内容(即关注高亮检测内容)。

内容选择单元71将关注内容提供给图像特征量提取单元342、音频特征量提取单元351以及对象特征量提取单元354。此外，内容选择单元71识别关注内容的类别，并且将其提供给图像模型选择单元341、音频模型选择单元350、对象模型选择单元353以及检测器选择单元345，并且从步骤S291进入步骤S292。

在步骤S292中，图像模型选择单元341在图像模型存储单元202a中存储的图像内容模型之中选择对应于从内容选择单元71提供的关注内容的类别的内容模型作为关注模型。

然后，图像模型选择单元341将关注模型提供给图像最大似然状态序列估计单元343，并且从步骤S292进入步骤S293。

在步骤S293中，图像特征量提取单元342提取从内容选择单元71提供的关注内容的各个帧的图像特征量，将提取出的特征量提供给图像最大似然状态序列估计单元343，并且进入步骤S294。

在步骤S294中，图像最大似然状态序列估计单元343估计图像最大似然状态序列(即用于关注内容的关注模型的图像最大似然状态序列)，其为这样的状态序列：其中，存在具有在从图像模型选择单元341提供的关注模型中观测从图像特征量提取单元342提供的关注内容的图像特征量(的时间序列)的最高似然的状态转变。

然后，最大似然状态序列估计单元294将用于关注内容的关注模型的图像最大似然状态序列提供给检测标记生成单元344，并且从步骤S294进入步骤S295。

在步骤S295中，音频模型选择单元350在音频模型存储单元202b中存储的音频内容模型之中选择对应于从内容选择单元71提供的关注内容的类别的内容模型作为关注模型。

然后，音频模型选择单元350将关注模型提供给音频最大似然状态序列估计单元352，并且从步骤S295进入步骤S296。

在步骤S296中，音频特征量提取单元351提取从内容选择单元71提供的关注内容的各个帧的音频特征量，将提取出的特征量提供给音频最大似然状态序列估计单元352，并且进入步骤S297。

在步骤S297中，音频最大似然状态序列估计单元352估计音频最大似然状态序列(即用于关注内容的关注模型的音频最大似然状态序列)，其为这样的状态序列：其中，存在具有在从音频模型选择单元350提供的关注模型中观测从音频特征量提取单元351提供的关注内容的音频特征量(的时间序列)的最高似然的状态转变。

然后，音频最大似然状态序列估计单元352将用于关注内容的关注模型的音频最大似然状态序列提供给检测标记生成单元344，并且从步骤S297进入步骤S298。

在步骤S298中，对象模型选择单元353在对象模型存储单元202c中存储的对象内容模型之中选择对应于从内容选择单元71提供的关注内容的类别的内容模型作为关注模型。

然后，对象模型选择单元353将关注模型提供给对象最大似然状态序列估计单元355，并且从步骤S298进入步骤S299。

在步骤S299中，对象特征量提取单元354提取从内容选择单元71提供的关注内容的各个帧的对象特征量，将提取出的特征量提供给对象最大似然状态序列估计单元355，并且进入步骤S300。

在步骤S300中，对象最大似然状态序列估计单元355估计对象最大似然状态序列(即用于关注内容的关注模型的对象最大似然状态序列)，其为这样的状态序列：其中，存在具有在从对象模型选择单元353提供的关注模型中观测从对象特征量提取单元353提供的关注内容的对象特征量(的时间序列)的最高似然的状态转变。

然后，对象最大似然状态序列估计单元355将用于关注内容的关注模型的对象最大似然状态序列提供给检测标记生成单元344，并且从步骤S300进入步骤S301。

在步骤S301中，检测标记生成单元344生成仅具有指示场景不是高亮场景的高亮标记(即具有值“0”的高亮标记)的高亮标记序列作为虚设高亮标记序列，并且进入步骤S302。

在步骤S302中，检测标记生成单元344生成作为图像最大似然状态序列、音频最大似然状态序列以及对象最大似然状态序列的每一状态ID序列的检测标记序列、以及虚设高亮标记序列。

然后，检测标记生成单元344将检测标记序列提供给最大似然状态序列估计单元346，并且从步骤S302进入步骤S303。

在步骤S303中，检测器选择单元345在检测器存储单元292中存储的高亮检测器之中选择对应于从内容选择单元71提供的关注内容的类别的高亮检测器作为关注检测器。然后，检测器选择单元345在检测器存储单元292中存储的高亮检测器之中获取关注检测器，并且将所获取的关注检测器提供给最大似然状态序列估计单元346和高亮场景检测单元347，并且从步骤S303进入步骤S304。

在步骤S304中，最大似然状态序列估计单元346估计最大似然状态序列(即高亮关系状态序列)，其为这样的状态序列：其中，存在具有在从检测器选择单元345提供的关注检测器中观测从检测标记生成单元344提供的检测标记序列的最高似然的状态转变。

然后，最大似然状态序列估计单元346将高亮关系状态序列提供给高亮场景检测单元347，并且从步骤S304进入步骤S305。

在步骤S305中，高亮场景检测单元347基于从最大似然状态序列估计单元346提供的高亮关系状态序列从关注内容检测高亮场景，并且处理输出高亮标志的高亮场景检测。

在完成步骤S305中的高亮场景检测处理之后，摘要内容生成单元348从步骤S305进入步骤S306，并且从自内容选择单元71提供的关注内容的帧提取由从高亮场景检测单元347提供的高亮标志指定的高亮场景的帧。

此外，摘要内容生成单元348使用从关注内容的帧提取的高亮场景的帧生成关注内容的摘要内容，将生成的摘要内容提供给回放控制单元349，并且从步骤S306进入步骤S307。

在步骤S307中，回放控制单元49执行从摘要内容生成单元348提供的摘要内容的回放控制。

在该实例中，步骤S305中的高亮场景检测处理与图20中的步骤S89的处理(即参照图21的流程图描述的处理)相似，并且将省略其描述。

如上所述，当观测与虚设高亮标记序列成对的检测标记序列时，高亮检测单元293估计图像、音频和对象最大似然状态序列的状态ID序列以及作为最大似然状态序列的高亮关系状态序列。高亮检测单元293基于高亮关系状态序列的各个状态的高亮标记的观测概率从关注内容检测高亮场景帧，并且使用高亮场景帧生成摘要内容。

此外，使用包括用于内容的内容模型的图像最大似然状态序列、音频最大似然状态序列和对象最大似然状态序列的状态ID序列以及根据用户操控生成的似然状态序列的四个序列组合的学习标记序列来执行HMM的学习而获得高亮检测器293。

相应地，如果甚至在生成摘要内容的关注内容并未用于学习内容模型或高亮检测器的状态下执行使用与关注内容相同类别的内容的内容模型以及高亮检测器的学习，则可以使用内容模型和高亮检测器容易地获得用户感兴趣的场景被搜集作为高亮场景的摘要(即摘要内容)。

[剪贴簿生成单元205的配置示例]

图47是示出图35的剪贴簿生成单元205的配置示例的框图。

剪贴簿生成单元205包括初始剪贴簿生成单元371、初始剪贴簿存储单元372、注册剪贴簿生成单元373、注册剪贴簿存储单元374、以及回放控制单元375。

初始剪贴簿生成单元371、初始剪贴簿存储单元372、注册剪贴簿生成单元373、注册剪贴簿存储单元374以及回放控制单元375基本上与初始剪贴簿生成单元101至回放控制单元105相似。它们中的任何一个执行对应于基于图像特征量的图像内容模型、基于音频特征量的音频内容模型、以及基于对象特征量的对象内容模型的处理。

[初始剪贴簿生成单元371的配置示例]

图48是示出图47的初始剪贴簿生成单元371的配置示例的框图。在该实例中，与图23中的初始剪贴簿生成单元101的功能相似的图48的初始剪贴簿生成单元371的配置由相同标号来表示，并且在此将省略其描述。

此外，在图48中，初始剪贴簿生成单元371的图像模型选择单元411、图像特征量提取单元412、图像最大似然状态序列估计单元413、图像状态对应图像信息生成单元414、图像状态间距离计算单元415、图像坐标计算单元416以及图像映射绘制单元417分别与模型选择单元112、特征量提取单元113、最大似然状态序列估计单元114、状态对应图像信息生成单元115、状态间距离计算单元116、坐标计算单元117以及映射绘制单元118相似，并且在此将省略其描述。

也就是说，图像模型选择单元411至图像映射绘制单元417与内容结构呈现单元14(图9)的图像模型选择单元32至图像映射绘制单元38相似，并且基于图13描述的图像特征量执行内容结构呈现处理。

此外，音频模型选择单元421、音频特征量提取单元422、音频最大似然状态序列估计单元423、音频状态对应图像信息生成单元424、音频状态间距离计算单元425、音频坐标计算单元426以及音频映射绘制单元427处理作为目标的音频特征量，并且分别与图像选择单元411、图像特征量提取单元412至图像映射绘制单元417相似，例外之处是待处理的目标是图像特征量。

此外，对象模型选择单元428、对象特征量提取单元429、对象最大似然状态序列估计单元430、对象状态对应图像信息生成单元431、对象状态间距离计算单元432、对象坐标计算单元433以及对象映射绘制单元434处理作为目标的对象特征量，并且分别与图像选择单元411至图像映射绘制单元417相似，例外之处是待处理的目标是图像特征量。

因此，初始剪贴簿生成单元371执行内容结构呈现处理，以根据图像特征量、音频特征量和对象特征量将模型映射(图11和图12)呈现在显示器(未示出)上。如果通过用户的操控来指定对应于图像特征量、音频特征量和对象特征量的模型映射的状态，则将所指定的状态的状态ID(选择ID)被注册在(空)剪贴簿中。

图49是示出用于用户指定模型映射上的状态的用户接口的示例的示图，其在显示控制单元418执行显示控制时被显示。在该实例中，具有与图24的窗口131中显示相同功能的显示由相同标号表示，并且将省略其描述。

在图49中，窗口451由映射绘制单元417所生成的对应于图像特征量的模型映射462以及对应于音频特征量的模型映射463来呈现。在该实例中，在图49所示的示例中，可以显示对应于对象特征量的模型映射，但其未被示出。此外，在处理除了图像特征量、音频特征量和对象特征量之外的其它特征量的情况下，可以显示对应于其它特征量的模型映射。此外，可以将各个模型映射显示作为其它窗口。

窗口451中模型映射462和463上的状态由用户指定，并且因此可以实现所谓的焦点匹配。可以通过借助指点装置(诸如鼠标)进行点击，根据指点装置的操控将光标移动到可以实现焦点匹配的位置等来执行状态的用户指定。

此外，可以通过不同的显示类型(诸如不同的颜色)来显示模型映射462和463上各状态之中已经选择的状态以及尚未选择的状态。

在窗口451的下部上，安装图像状态ID输入栏471和音频状态ID输入栏472，而不是状态ID输入栏133，这与图24的窗口131不同。

在图像状态ID输入栏471中，显示基于图像特征量的模型映射462上各状态之中焦点匹配状态的状态ID。

在音频状态ID输入栏472中，显示基于音频特征量的模型映射463上各状态之中焦点匹配状态的状态ID。

在该实例中，用户可以在图像状态ID输入栏471和音频状态ID输入栏472中直接输入状态ID。此外，在显示基于对象特征量的模型映射的情况下，显示对象状态ID输入栏。

如果在内容结构呈现处理中生成的状态对应图像信息链接在模型映射462和463上各状态之中的焦点匹配状态中，则窗口461打开。此外，在窗口461中，显示与焦点匹配状态链接的状态对应图像信息。

在此情况下，在窗口461中，显示与模型映射462和463上的焦点匹配状态、接近于该状态的位置中的状态链接的状态对应图像信息，与所有状态链接的状态对应图像信息。此外，在窗口461中，可以在时间上依次或者在空间上并行地显示与模型映射462和463上的所有状态连接的状态对应图像信息。

用户可以通过点击对应状态来指定窗口451中显示的模型映射462和463上的特定状态。

如果状态被用户指定，则显示控制单元418(见图48)在窗口461中显示与由用户指定的状态相链接的状态对应图像信息。

相应地，用户可以获取对应于模型映射462和463上的状态的帧的图像。

也就是说，在图48的初始剪贴簿生成单元371进行处理的情况下，图像模型映射、音频模型映射和对象模型映射的选择状态的状态ID由选择状态注册单元420以收集的状态被注册作为初始剪贴簿。

在该实例中，对于图像模型映射、音频模型映射和对象模型映射，图48的初始剪贴簿生成单元371进行的初始剪贴簿生成处理与参照图25描述的处理相似，并且在此将省略其描述。

[注册剪贴簿生成单元373的配置示例]

图50是示出图47的注册剪贴簿生成单元373的配置示例的框图。在该实例中，在图50的注册剪贴簿生成单元373中，具有与图26的注册剪贴簿生成单元103相同功能的配置由相同标号表示，并且在此将省略其描述。

在图50中，图像模型选择单元501、图像特征量提取单元502、图像最大似然状态序列估计单元503以及图像帧注册单元505与图26中的模型选择单元143至帧注册单元147相似，并且在此将省略其描述。

音频模型选择单元506、音频特征量提取单元507以及音频最大似然状态序列估计单元508与图像模型选择单元501至图像最大似然状态序列估计单元503相似，例外之处是待处理的目标是图像特征量，并且在此将省略其描述。

此外，对象模型选择单元509、对象特征量提取单元510以及对象最大似然状态序列估计单元511与图像模型选择单元501至图像最大似然状态序列估计单元503相似，例外之处是待处理的目标是对象特征量，并且在此将省略其描述。

帧提取单元504基本上具有与图26的帧提取单元146相同的功能，例外之处是所对待的状态序列。也就是说，帧提取单元504确定图像最大似然状态序列、音频最大似然状态序列以及对象最大似然状态序列的每一状态ID是否与在从剪贴簿选择单元141提供的关注剪贴簿中注册的选择状态的状态ID一致。

此外，帧提取单元504从关注内容提取对应于其中状态ID与从剪贴簿选择单元141提供的关注剪贴簿中注册的选择状态的状态ID一致的状态的帧，并且将提取出的帧提供给帧注册单元505。

[注册剪贴簿生成单元373进行的注册剪贴簿生成处理]

图51是示出图50的注册剪贴簿生成单元373执行的注册剪贴簿生成处理的流程图。

在步骤S331中，剪贴簿选择单元141在初始剪贴簿存储单元372中存储的初始剪贴簿之中选择尚未选择为关注剪贴簿的一个初始剪贴簿。

剪贴簿选择单元141将关注剪贴簿提供给帧提取单元504和帧注册单元505。此外，剪贴簿选择单元141将对应于关注剪贴簿的类别提供给内容选择单元142、图像模型选择单元501、音频模型选择单元506和对象模型选择单元509，并且从步骤S331进入步骤S332。

在步骤S332中，内容选择单元142在内容存储单元11中存储的内容之中选择在从剪贴簿选择单元141提供的类别的内容之中尚未选择为关注内容的内容作为关注内容。

然后，内容选择单元142将关注内容提供给图像特征量提取单元502、音频特征量提取单元507、对象特征量提取单元510以及帧提取单元504，并且从步骤S332进入步骤S333。

在步骤S333中，图像模型选择单元501在图像模型存储单元202a中存储的内容模型之中选择对应于从剪贴簿选择单元141提供的类别的图像内容模型作为关注模型。

然后，图像模型选择单元501将关注模型提供给图像最大似然状态序列估计单元503，并且从步骤S333进入步骤S334。

在步骤S334中，图像特征量提取单元502提取从内容选择单元142提供的关注内容的各个帧的图像特征量，并且将关注内容的各个帧的特征量(的时间序列)提供给图像最大似然状态序列估计单元503。

此后，其从步骤S334进入步骤S335。在步骤S335中，图像最大似然状态序列估计单元503估计图像最大似然状态序列，其为这样的状态序列：其中，存在具有在从图像模型选择单元501提供的关注模型中观测从图像特征量提取单元502提供的关注内容的图像特征量(的时间序列)的最高似然的状态转变。

然后，图像最大似然状态序列估计单元503将用于关注内容的关注模型的最大似然状态序列提供给图像帧提取单元504，并且从步骤S335进入步骤S336。

在步骤S336中，音频模型选择单元506在音频模型存储单元202b存储的音频内容模型之中选择对应于从剪贴簿选择单元141提供的类别的音频内容模型作为关注内容。

然后，音频模型选择单元506将关注内容提供给音频最大似然状态序列估计单元508，并且从步骤S336进入步骤S337。

在步骤S337中，音频特征量提取单元507提取从内容选择单元142提供的关注内容的各个帧的音频特征量，并且将关注内容的各个帧的音频特征量(的时间序列)提供给音频最大似然状态序列估计单元508。

此后，其从步骤S337进入步骤S338。在步骤S338中，音频最大似然状态序列估计单元508估计音频最大似然状态序列，其为这样的状态序列：其中，存在具有在从音频模型选择单元506提供的关注模型中观测从音频特征量提取单元507提供的关注内容的音频特征量(的时间序列)的最高似然的状态转变。

然后，音频最大似然状态序列估计单元508将用于关注内容的关注模型的最大似然状态序列提供给帧提取单元504，并且从步骤S338进入步骤S339。

在步骤S339中，对象模型选择单元509在对象模型存储单元202c存储的对象内容模型之中选择对应于从剪贴簿选择单元141提供的类别的对象内容模型作为关注模型。

然后，对象模型选择单元509将关注内容提供给对象最大似然状态序列估计单元511，并且从步骤S339进入步骤S340。

在步骤S340中，对象特征量提取单元510提取从内容选择单元142提供的关注内容的各个帧的对象特征量，并且将关注内容的各个帧的对象特征量(的时间序列)提供给对象最大似然状态序列估计单元511。

此后，其从步骤S340进入步骤S341。在步骤S341中，对象最大似然状态序列估计单元511估计对象最大似然状态序列，其为这样的状态序列：其中，存在具有在从对象模型选择单元509提供的关注模型中观测从对象特征量提取单元510提供的关注内容的对象特征量(的时间序列)的最高似然的状态转变。

然后，对象最大似然状态序列估计单元511将用于关注内容的关注模型的最大似然状态序列提供给帧提取单元504，并且从步骤S341进入步骤S342。

在步骤S342中，帧提取单元504设置“1”作为对时间进行计数的变量t(即关注内容的帧的数目)的初始值，并且进入步骤S343。

在步骤S343中，帧提取单元504确定图像最大似然状态序列、音频最大似然状态序列以及对象最大似然状态序列的在时间t的状态(即从前端起的第t状态)的状态ID是否与在从剪贴簿选择单元141提供的关注剪贴簿中注册的选择状态的注册状态ID中的任何一个一致。

相应地，如果确定用于关注内容的关注模型的图像最大似然状态序列、音频最大似然状态序列以对象最大似然状态序列的在时间t的状态的状态ID与关注剪贴簿中注册的选择状态的注册状态ID中的任何一个一致，则其进入步骤S344。

在步骤S344中，帧提取单元504从来自内容选择单元142的关注内容提取时间t的帧，将帧提供给帧注册单元505，并且进入步骤S345。

此外，在步骤S343中，如果确定用于关注内容的关注模型的图像最大似然状态序列、音频最大似然状态序列以对象最大似然状态序列的在时间t的状态的状态ID与关注剪贴簿中注册的选择状态的注册状态ID中的任何一个都不一致，则进入步骤S345。也就是说，跳过步骤S344。

在步骤S345中，帧提取单元504确定变量t是否等于关注内容的帧的总数目N_F。

在步骤S345中，如果确定变量t等于关注内容的帧的总数目N_F，则帧提取单元504进入步骤S346，并且将变量t增加“1”。此后，处理从步骤S346返回步骤S343，并且相同处理被重复。

此外，在步骤S345中，如果确定变量t等于关注内容的帧的总数目N_F，则其进入步骤S347。

在步骤S347中，帧注册单元505将从帧提取单元504提供的帧(即从关注内容提取出的所有帧)注册在从剪贴簿选择单元141提供的关注剪贴簿中。

然后，此后，处理从步骤S347进入步骤S348。在步骤S348中，内容选择单元142确定在存储在内容存储单元11中的类别等于对应于关注剪贴簿的类别的内容之中是否存在尚未选择作为关注内容的任何内容。

在步骤S348中，如果确定在存储在内容存储单元11中的类别等于对应于关注剪贴簿的类别的内容之中存在尚未选择作为关注内容的内容，则处理返回步骤S332。

此外，在步骤S348中，如果确定在存储在内容存储单元11中的类别等于对应于关注剪贴簿的类别的内容之中不存在尚未选择作为关注内容的内容，则步骤进入步骤S349。

在步骤S349中，帧注册单元505将关注剪贴簿输出到注册剪贴簿存储单元374作为注册剪贴簿，以终止注册剪贴簿生成处理。

参照图52，将描述由注册剪贴簿生成单元373执行的注册剪贴簿生成处理与参照图28A至图28E描述的仅由注册剪贴簿生成单元103通过使用图像特征量执行的剪贴簿生成处理之间的差异。

也就是说，在图28D中，“1”和“3”被注册作为关注剪贴簿的注册状态ID，并且从关注内容提取具有“1”和“3”的状态ID的各个帧。

如图28E所示，从关注内容提取的帧按保持例如运动图片的形式的时间前后关系而注册在剪贴簿中。

在该实例中，在使用除了图像特征量之外的特征量的情况下，例如，如图52所示，可以将“V1”、“V3”、“A3”和“V2&A6”注册作为关注剪贴簿的注册ID。在该实例中，由于基于图像特征量的状态ID被注册作为“V1”和“V3”，基于音频特征量的状态ID被注册作为“A5”，以及基于音频特征量的状态ID被注册作为“V2&A6”，因此对应帧被提取。

也就是说，由于鉴于多个特征量而基于状态ID选择帧，因此可以通过高精度来获得具有校正的用户感兴趣的帧的剪贴簿。

在该实例中，在图52中，虽然示出使用通过图像特征量和音频特征量获得的状态ID的示例，但当然，可以进一步使用包含对象特征量的状态ID。

此外，虽然描述了使用图像特征量、音频特征量和对象特征量的示例，但可以单独使用其它特征量或其组合。此外，根据对象的种类，可以设置并且有区别地使用对象特征量。例如，人物的整个形状、上体以及脸部图像可以用作单独对象特征量。

[应用本发明的计算机的描述]

可以通过硬件来执行或软件来执行一系列上述处理。在通过软件执行一系列处理的情况下，构成软件的程序安装在通用计算机中。

图53是示出根据本发明实施例的计算的配置示例的框图，其中，安装了执行一系列处理的程序。

程序可以事先被记录在内建于计算机中作为记录介质的硬盘1005或ROM 1003上。

或者，程序可以被记录在驱动器1009上安装的可移动记录介质1011中。可移动记录介质1011可以被提供作为所谓的软件包(package software)。可移动记录介质1011包括软盘、CD-ROM(致密盘只读存储器)、MO(磁光)盘、DVD(数字多功能盘)、磁盘、半导体存储器等。

在该实例中，程序不仅从可移动记录介质1011安装在计算机中，如上所述，而且还可以经由通信网络或广播网络下载在计算机中，以安装在内建于计算机中的硬盘1005中。也就是说，程序经由用于数字卫星广播的人造卫星无线发送到计算机，或者可以经由网络(诸如LAN(局域网)或互联网)通过缆线发送到计算机。

计算机可以装配有装配CPU(中心处理单元)1002，CPU 1002经由总线1001连接到输入/输出接口1010。

如果CPU 1002通过由用户操控输入单元1007而经由输入/输出接口1010输入命令，则执行ROM(只读存储器)1003中存储的程序。或者，CPU1002将硬盘1005中存储的程序加载在RAM(随机存取存储器)1004中，以执行程序。

以此方式，CPU 1002执行根据上述流程图的处理或根据上述框图的配置的处理。CPU 1002经由输入/输出接口1010从输出单元1006输出处理结果、或从通信单元1008发送处理结果，以记录在硬盘1005上。

此外，输入单元1007包括键盘、鼠标、麦克风等。输出单元1006包括LCD(液晶显示器)、扬声器等。

在说明书中，由程序执行的计算机的处理并非一定按根据流程图中阐述的顺序的时间序列而执行。也就是说，程序所执行的计算机的处理包括并行处理或独立处理(例如并行处理或对象处理)。

此外，程序可以由单个计算机(处理)来处理，或者由多个计算机进行分布式处理。此外，程序可以被发送到远程计算机，以便执行。

本发明包含涉及于2009年4月30日提交到日本专利局的日本在先专利申请JP 2009-110292以及于2009年12月4日提交到日本专利局的日本在先专利申请JP 2009-277055中公开的主题内容，其完整内容通过引用合并到此。

本领域技术人员应理解，由于各种修改、组合、部分组合和改动在所附权利要求及其等同物的范围内，因此它们可以根据在这个范围内的设计需求以及其它因素而出现。

Claims

1.一种信息处理设备，包括：

特征量提取装置，用于提取关注检测器学习内容的图像的每一帧的特征量，其中，所述关注检测器学习内容是用于学习高亮检测器的内容，所述高亮检测器是用于检测用户感兴趣的场景作为高亮场景的模型；

最大似然状态序列估计装置，用于估计最大似然状态序列，其为这样的状态序列，其中，存在具有在内容模型中观测所述关注检测器学习内容的所述特征量的最高似然的状态转变，所述内容模型是通过提取作为用于学习被规定为状态转变概率和从状态观测预定观测值的观测概率的状态转变概率模型的内容的学习内容的图像的每一帧的特征量并使用所述学习内容的所述特征量来学习所述状态转变概率模型获得的学习之后的状态转变概率模型；

高亮标记生成装置，用于根据用户的操控通过对所述关注检测器学习内容的每一帧标记指示所述场景是否为所述高亮场景的高亮标记来关于所述关注检测器学习内容生成高亮标记序列；以及

学习装置，用于使用从所述关注检测器学习内容获得的所述最大似然状态序列和与所述高亮标记序列成对的学习标记序列来学习作为所述状态转变概率模型的所述高亮检测器。

2.根据权利要求1所述的信息处理设备，还包括：

高亮检测装置，用于提取作为从其检测所述高亮场景的内容的所述关注高亮检测内容的所述图像的每一帧的所述特征量；

估计作为其中出现具有在所述内容模型中观测所述关注高亮检测内容的所述特征量的所述最高似然的所述状态转变的所述状态序列的所述最大似然状态序列；

估计最大似然状态序列，其为这样的状态序列，其中，存在具有在所述高亮检测器中观测从所述关注高亮检测内容获得的所述最大似然状态序列以及与指示所述场景是否为所述高亮场景的所述高亮标记的所述高亮标记序列成对的检测标记序列的最高似然的状态转变；

基于作为从所述检测标记序列获得的所述最大似然状态序列的高亮关系状态序列的每一状态的所述高亮标记的观测概率来从所述关注高亮检测内容检测所述高亮场景的帧；以及

使用所述高亮场景的所述帧生成作为所述关注高亮检测内容的摘要的摘要内容。

3.根据权利要求2所述的信息处理设备，

其中，如果在所述高亮关系状态序列的预定时间处的状态下指示所述场景是所述高亮场景的所述高亮标记的所述观测概率与指示所述场景不是所述高亮场景的所述高亮标记的所述观测概率之间的差大于预定阈值，则所述高亮检测装置检测与在所述预定时间处的状态相对应的所述关注高亮检测内容的帧。

4.根据权利要求1所述的信息处理设备，还包括：

剪贴簿生成装置，用于提取所述内容的所述图像的各个帧的所述特征量，

估计作为其中出现具有在所述内容模型中观测所述内容的所述特征量的所述最高似然的所述状态转变的所述状态序列的所述最大似然状态序列，

在所述最大似然状态序列的各状态之间提取对应于与由用户指示的状态一致的状态的所述帧，以及

将从所述内容提取出的所述帧注册在其中注册了所述高亮场景的剪贴簿中。

5.根据权利要求1所述的信息处理设备，还包括：

状态间距离计算装置，用于基于从一个状态到另一状态的状态转变概率来获得所述内容模型的一个状态与另一状态之间的状态间距离；

坐标计算装置，用于获得作为模型映射上的状态的位置的坐标的状态坐标，从而减少作为在其上布置所述内容模型的状态的二维(2D)或三维(3D)映射的模型映射上从一个状态到另一状态的欧几里得距离与所述状态间距离之间的误差；以及

显示控制装置，用于执行显示控制以显示所述状态在其上被布置在所述状态坐标的各位置中的模型映射。

6.根据权利要求5所述的信息处理设备，

其中，所述坐标计算装置获得所述状态坐标，从而使得与所述欧几里得距离与所述状态间距离之间的统计误差成比例的Sammon映射的误差函数最小，以及

如果所述欧几里得距离大于预定阈值，则通过使得从一个状态到另一状态的所述欧几里得距离等于从一个状态到另一状态的所述状态间距离来执行所述误差函数的计算。

7.根据权利要求5所述的信息处理设备，还包括：

估计最大似然状态序列，其为这样的状态序列，其中，存在具有在所述内容模型中观测所述内容的所述特征量的最高似然的状态转变；

在所述最大似然状态序列的各状态之间提取对应于与由用户指示的所述模型映射的所述状态一致的状态的所述帧，以及

将从所述内容提取出的所述帧注册在用于注册所述高亮场景的所述剪贴簿中。

8.根据权利要求1所述的信息处理设备，

其中，通过将所述帧划分为作为小区域的多个子区域，提取所述多个子区域的各自的特征量，并且组合所述多个子区域的各自的特征量，来获得所述帧的所述特征量。

9.根据权利要求1所述的信息处理设备，

其中，通过组合对应于所述帧的预定时间内的音频能量、过零率或谱中心的平均值和方差来获得所述帧的所述特征量。

10.根据权利要求1所述的信息处理设备，

其中，通过检测所述帧中的对象的显示区域，将所述帧划分为作为小区域的多个子区域，提取所述子区域中所述对象的所述显示区域中的像素的数目与所述多个子区域中的像素的数目的比率作为所述特征量，并且组合所述多个子区域的各个特征量，来获得所述帧的所述特征量。

11.根据权利要求1所述的信息处理设备，还包括：

内容模型学习装置，用于通过使用所述学习内容的所述特征量执行所述状态转变概率模型的学习来生成所述内容模型。

12.一种信息处理方法，包括以下步骤：

提取关注检测器学习内容的图像的每一帧的特征量，其中，所述关注检测器学习内容是用于学习高亮检测器的内容，所述高亮检测器是用于检测用户感兴趣的场景作为高亮场景的模型；

估计最大似然状态序列，其为这样的状态序列，其中，存在具有在内容模型中观测所述关注检测器学习内容的所述特征量的最高似然的状态转变，所述内容模型是通过提取作为用于学习被规定为状态转变概率和从状态观测预定观测值的观测概率的状态转变概率模型的内容的学习内容的图像的每一帧的特征量并使用所述学习内容的所述特征量来学习所述状态转变概率模型获得的学习之后的状态转变概率模型；

根据用户的操控通过对所述关注检测器学习内容的每一帧标记指示所述场景是否为所述高亮场景的高亮标记来关于所述关注检测器学习内容生成高亮标记序列；以及

使用从所述关注检测器学习内容获得的所述最大似然状态序列和与所述高亮标记序列成对的学习标记序列来学习作为所述状态转变概率模型的所述高亮检测器。

13.一种用于使得计算机起以下作用的程序：

14.一种信息处理设备，包括：

获取装置，用于获取高亮检测器，所述高亮检测器是通过以下获得的：

提取关注检测器学习内容的图像的每一帧的特征量，其中，所述关注检测器学习内容是用于学习高亮检测器的内容，所述高亮检测器是用于检测用户感兴趣的场景作为高亮场景的模型，

估计最大似然状态序列，其为这样的状态序列，其中，存在具有在内容模型中观测所述关注检测器学习内容的所述特征量的最高似然的状态转变，所述内容模型是通过提取被规定为作为用于学习状态转变概率和从状态观测预定观测值的观测概率的状态转变概率模型的内容的学习内容的图像的每一帧的特征量并使用所述学习内容的所述特征量来学习所述状态转变概率模型获得的学习之后的状态转变概率模型，

根据用户的操控通过对所述关注检测器学习内容的每一帧标记指示所述场景是否为所述高亮场景的高亮标记来关于所述关注检测器学习内容生成高亮标记序列，以及

使用从所述关注检测器学习内容获得的所述最大似然状态序列和与所述高亮标记序列成对的学习标记序列来学习作为所述状态转变概率模型的所述高亮检测器；

特征量提取装置，用于提取作为从其检测所述高亮场景的内容的关注高亮检测内容的图像的每一帧的特征量；

第一最大似然状态序列估计装置，用于估计第一最大似然状态序列，其为这样的状态序列，其中，存在具有在所述内容模型中观测所述关注高亮检测内容的特征量的最高似然的状态转变；

第二最大似然状态序列估计装置，用于估计第二最大似然状态序列，其为这样的状态序列，其中，存在具有在所述高亮检测器中观测从所述关注高亮检测内容获得的所述最大似然状态序列以及与指示所述场景是否为所述高亮场景的所述高亮标记的所述高亮标记序列成对的检测标记序列的最高似然的状态转变；

高亮场景检测装置，用于基于作为从所述检测标记序列获得的所述最大似然状态序列的高亮关系状态序列的每一状态的所述高亮标记的观测概率从所述关注高亮检测内容检测所述高亮场景的帧；以及

摘要内容生成装置，用于使用所述高亮场景的所述帧生成作为所述关注高亮检测内容的摘要的摘要内容。

15.根据权利要求14所述的信息处理设备，

其中，如果在所述高亮关系状态序列的在预定时间处的状态下指示所述场景是所述高亮场景的所述高亮标记的所述观测概率与指示所述场景不是所述高亮场景的所述高亮标记的所述观测概率之间的差大于预定阈值，则所述高亮场景检测装置检测与在所述预定时间处的状态相对应的所述关注高亮检测内容的帧。

16.根据权利要求14所述的信息处理设备，

17.一种信息处理方法，包括以下步骤：

获取高亮检测器，所述高亮检测器是通过以下获得的：

估计最大似然状态序列，其为这样的状态序列，其中，存在具有在内容模型中观测所述关注检测器学习内容的所述特征量的最高似然的状态转变，所述内容模型是通过提取作为用于学习被规定为状态转变概率和从状态观测预定观测值的观测概率的状态转变概率模型的内容的学习内容的图像的每一帧的特征量并使用所述学习内容的所述特征量来学习所述状态转变概率模型获得的学习之后的状态转变概率模型，

提取从其检测所述高亮场景的关注高亮检测内容的图像的每一帧的特征量；

估计第一最大似然状态序列，其为这样的状态序列，其中，存在具有在所述内容模型中观测所述关注高亮检测内容的特征量的最高似然的状态转变；

估计第二最大似然状态序列，其为这样的状态序列，其中，存在具有在所述高亮检测器中观测从所述关注高亮检测内容获得的所述最大似然状态序列以及与指示所述场景是否为所述高亮场景的所述高亮标记的所述高亮标记序列成对的检测标记序列的最高似然的状态转变；

基于作为从所述检测标记序列获得的所述最大似然状态序列的高亮关系状态序列的每一状态的所述高亮标记的观测概率从所述关注高亮检测内容检测所述高亮场景的帧；以及

18.一种用于使得计算机起以下作用的程序：

特征量提取装置，用于提取从其检测所述高亮场景的关注高亮检测内容的图像的每一帧的特征量；

19.一种信息处理设备，包括：

特征量提取单元，提取关注检测器学习内容的图像的每一帧的特征量，其中，所述关注检测器学习内容是用于学习高亮检测器的内容，所述高亮检测器是用于检测用户感兴趣的场景作为高亮场景的模型；

最大似然状态序列估计单元，估计最大似然状态序列，其为这样的状态序列，其中，存在具有在内容模型中观测所述关注检测器学习内容的所述特征量的最高似然的状态转变，所述内容模型是通过提取作为用于学习被规定为状态转变概率和从状态观测预定观测值的观测概率的状态转变概率模型的内容的学习内容的图像的每一帧的特征量并使用所述学习内容的所述特征量来学习所述状态转变概率模型获得的学习之后的状态转变概率模型；

高亮标记生成单元，根据用户的操控通过对所述关注检测器学习内容的每一帧标记指示所述场景是否为所述高亮场景的高亮标记来关于所述关注检测器学习内容生成高亮标记序列；以及

学习单元，使用从所述关注检测器学习内容获得的所述最大似然状态序列和与所述高亮标记序列成对的学习标记序列来学习作为所述状态转变概率模型的所述高亮检测器。

20.一种信息处理设备，包括：

获取单元，获取通过提取关注检测器学习内容的图像的每一帧的特征量而获得的高亮检测器，其中，所述关注检测器学习内容是用于学习高亮检测器的内容，所述高亮检测器是用于检测用户感兴趣的场景作为高亮场景的模型，

估计最大似然状态序列，其为这样的状态序列，其中，存在具有在内容模型中观测所述关注检测器学习内容的所述特征量的最高似然的状态转变，所述内容模型是通过提取作为用于学习被规定为状态转变概率和从状态观测预定观测值的观测概率的状态转变概率模型的内容的学习内容的图像的每一帧的特征量并使用所述学习内容的所述特征量来学习所述状态转变概率获得的学习之后的状态转变概率模型，

特征量提取单元，提取作为从其检测所述高亮场景的内容的关注高亮检测内容的图像的每一帧的特征量；

第一最大似然状态序列估计单元，估计第一最大似然状态序列，其为这样的状态序列，其中，存在具有在所述内容模型中观测所述关注高亮检测内容的特征量的最高似然的状态转变；

第二最大似然状态序列估计单元，估计第二最大似然状态序列，其为这样的状态序列，其中，存在具有在所述高亮检测器中观测从所述关注高亮检测内容获得的所述最大似然状态序列以及与指示所述场景是否为所述高亮场景的所述高亮标记的所述高亮标记序列成对的检测标记序列的最高似然的状态转变；

高亮场景检测单元，基于作为从所述检测标记序列获得的所述最大似然状态序列的高亮关系状态序列的每一状态的所述高亮标记的观测概率从所述关注高亮检测内容检测所述高亮场景的帧；以及

摘要内容生成单元，使用所述高亮场景的所述帧生成作为所述关注高亮检测内容的摘要的摘要内容。