CN101292523A

CN101292523A - 影像摘要装置

Info

Publication number: CN101292523A
Application number: CNA200680039162XA
Authority: CN
Inventors: 工藤大树; 西川博文; 加藤嘉明
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2005-10-27
Filing date: 2006-06-23
Publication date: 2008-10-22
Anticipated expiration: 2026-06-23
Also published as: KR20080059597A; CN101292523B; JP4699476B2; WO2007049381A1; US20090279840A1; JPWO2007049381A1; KR100957902B1

Abstract

本发明提供一种影像摘要装置，设有在由切割点检测部(1)中的切割点判定部(16)的判定结果表示是切割点的含义的情况下，计算以其切割点的前一个切割点为起点的镜头的镜头长度的镜头长度计算部(2)，把由该镜头长度计算部(2)计算出的镜头长度作为判别材料，判别以前一个切割点为起点的镜头是否是重要镜头。

Description

影像摘要装置

技术领域

本发明涉及从影像信号抽取重要区间的影像，能够实施重要区间的影像的再生或者编辑的影像摘要装置。

背景技术

当前提出了通过检测影像的切割点(cut point)，将影像信号分割为镜头(shot)单位，从多个镜头中识别重要镜头的影像摘要装置。

重要镜头的判别处理如以下的非专利文献1公开的那样，例如大多使用像多数的影像处理方法或者声音处理方法等那样非常复杂的处理，难以进行实时的判别或者向便携设备的搭载。

另外，在进行实际分类的镜头的编辑或者再生时，大多使用称为略图的小图像的一览。

在该略图中，使用各镜头的代表图像，作为代表图像，大多使用各镜头的开头图像。

然而，镜头的开头图像不一定就是代表性表示该镜头的图像。因此，用户即使观看略图的一览，有时也不能判别自己希望视听的镜头位于何处。

非专利文献1：「基于戏剧影像的心理内容的摘要影像的生成」，电子情报通信学会论文志，D-II，Vol.J84-D-II，No.6，pp1122-1131，2001年，森山刚，坂内正夫著

现有的影像摘要装置由于如以上那样构成，因此存在例如如果不实施像多数的影像处理方法或者声音处理方法等那样非常复杂的处理，则就不能辨别重要的镜头，难以进行实时判别或者向便携设备的搭载这样的课题。

另外，由于镜头的开头图像不一定就是代表性表示该镜头的图像，因此存在有时即使用户观看略图的一览，也不能判别自己希望视听的镜头位于何处这样的课题。

发明内容

本发明是为解决上述那样的课题而完成的，其目的在于得到不必实施复杂的处理而提高计算负荷，让用户能够容易地把握重要的镜头的影像摘要装置。

本发明的影像摘要装置设有在由切割点检测单元检测出了切割点的情况下，计算以该切割点的前一个切割点为起点的镜头的镜头长度的镜头长度计算单元，把由该镜头长度计算单元计算出的镜头长度作为判别材料，判别以前一个切割点为起点的镜头是否是重要镜头。

由此，具有不必实施复杂处理而提高计算负荷，让用户能够容易地把握重要的镜头的效果。

附图说明

图1是表示本发明实施形态1的影像摘要装置的结构图。

图2是表示本发明实施形态1的影像摘要装置的切割点检测部1的结构图。

图3是表示亮度值的变化或者切割点的说明图。

图4是表示本发明实施形态1的影像摘要装置的处理内容的流程图。

图5是表示本发明实施形态2的影像摘要装置的结构图。

图6是表示本发明实施形态3的影像摘要装置的结构图。

图7是在分割了影像内容的各个分割范围的每一个中存在重要镜头的情况下，表示该镜头所代表的范围的说明图。

图8是表示本发明实施形态4的影像摘要装置的结构图。

图9是表示内容的大的变化点的说明图。

图10是表示本发明实施形态5的影像摘要装置的结构图。

图11是表示本发明实施形态6的影像摘要装置的结构图。

图12是表示本发明实施形态7的影像摘要装置的结构图。

图13是表示本发明实施形态8的影像摘要装置的结构图。

图14是表示本发明实施形态9的影像摘要装置的结构图。

图15是表示本发明实施形态10的影像摘要装置的结构图。

图16是表示本发明实施形态11的影像摘要装置的结构图。

图17是表示镜头长度的对数正态分布的说明图。

图18是表示镜头长度与影像内容长度的关系的说明图。

图19是表示本发明实施形态12的影像摘要装置的结构图。

图20是表示本发明实施形态13的影像摘要装置的结构图。

图21是表示本发明实施形态14的影像摘要装置的结构图。

图22是表示本发明实施形态15的影像摘要装置的结构图。

图23是表示本发明实施形态16的影像摘要装置的结构图。

图24是表示本发明实施形态17的影像摘要装置的结构图。

图25是表示本发明实施形态18的影像摘要装置的结构图。

图26是表示本发明实施形态19的影像摘要装置的结构图。

图27是表示本发明实施形态20的影像摘要装置的结构图。

图28是表示本发明实施形态20的影像摘要装置的AV切割点判定部121的结构图。

图29是表示本发明实施形态21的影像摘要装置的结构图。

图30是表示本发明实施形态22的影像摘要装置的结构图。

图31是表示本发明实施形态23的影像摘要装置的结构图。

图32是表示本发明实施形态24的影像摘要装置的结构图。

图33是表示本发明实施形态25的影像摘要装置的结构图。

图34是表示本发明实施形态26的影像摘要装置的结构图。

具体实施方式

以下，为了更详细地说明本发明，根据附图说明用于实施本发明的最佳形态。

实施形态1

图1是表示本发明实施形态1的影像摘要装置的结构图，图中，切割点检测部1在输入影像信号时，实施检测其影像的切割点的处理。另外，切割点检测部1构成切割点检测单元。

镜头长度计算部2在由切割点检测部1检测出了切割点的情况下，实施计算以该切割点的前一个切割点(前一个切割点是由切割点检测部1前一次检测出的切割点)为起点的镜头的镜头长度的处理。即，如果由切割点检测部1检测出切割点，则实施求出当前帧的时刻与存储在镜头开始点缓冲器3中的镜头开始点的时刻的时刻差，把该时刻差作为镜头长度，输出到重要镜头判定部4的处理。镜头开始点缓冲器3是存储镜头开始点的时刻的存储器。

另外，由镜头长度计算部2以及镜头开始点缓冲器3构成镜头长度计算单元。

在由镜头长度计算部2计算出的镜头长度比预先设定的阈值A长的情况下，重要镜头判定部4实施判定为以由切割点检测部1检测出的切割点的前一个切割点为起点的镜头是重要镜头，以前一个切割点为起点的镜头的下一个镜头是重要镜头，或者，以前一个切割点为起点的镜头和下一个镜头是重要镜头，输出其判定结果的处理。另外，重要镜头判定部4构成重要镜头判别单元。

图2是表示本发明实施形态1的影像摘要装置的切割点检测部1的结构图，图中，特征量抽取部11在输入影像信号时，实施从该影像信号抽取表示影像帧的特征的特征量的处理。另外，特征量抽取部11构成特征量抽取单元。

帧间距离计算部12使用预定的评价函数，对由特征量抽取部11本次抽取出的当前帧的特征量和存储在特征量缓冲器13中的前一个帧的特征量(由特征量抽取部11前一次抽取出的帧的特征量)进行比较，实施计算这些特征量之间的距离(非类似度)的处理。以下，把当前帧与前一个帧的特征量之间的距离称为「帧间距离」。

特征量缓冲器13存储前一个帧的特征量，如果帧间距离计算部12计算出帧间距离，则为了在下一次帧间距离的计算中备用，把当前存储的前一个帧的特征量更新为由特征量抽取部11本次抽取出的当前帧的特征量。

另外，由帧间距离计算部12以及特征量缓冲器13构成距离计算单元。

切割点判定用数据计算部14实施求出由帧间距离计算部12计算出的帧间距离的统计量，从该统计量计算切割点判定用的阈值Th，把切割点判定用的阈值Th输出到切割点判定用数据缓冲器15的处理。

切割点判定用数据缓冲器15是存储由切割点判定用数据计算部4计算出的切割点判定用的阈值Th的存储器。

另外，由切割点判定用数据计算部14以及切割点判定用数据缓冲器15构成阈值计算单元。

切割点判定部16实施对由帧间距离计算部12计算出的帧间距离与存储在切割点判定用数据缓冲器15中的切割点判定用的阈值Th进行比较，从其比较结果判别切割点的处理。另外，切割点判定部16构成切割点判别单元。

图4是表示本发明实施形态1的影像处理装置的处理内容的流程图。

其次说明动作。

切割点检测部1在输入影像信号时，实施检测其影像的切割点的处理。

以下，说明切割点检测部1中的切割点的具体检测处理内容，而本实施形态1中的切割点检测部1由于采用与现有的检测处理方法(例如，如果邻接的帧的亮度比固定的阈值大，则把该帧的变化点检测为切割点的方法：日经电子学N0.892 2005.1.31号51页)不同的检测处理方法，因此具有即使在输入任何影像信号的情况下，也能正确地检测切割点的特征。

其中，切割点检测部1只要能检测影像的切割点即可，在不关心切割点的检测精度的情况下，也可以使用现有的检测处理方法来检测影像的切割点。

切割点检测部1的特征量抽取部11在输入影像信号时，从该影像信号抽取表示帧的特征的特征量(步骤ST1)。

作为表示帧的特征的特征量，例如除了与过去的帧的差分以外，还可以举出颜色的直方图、颜色的配置信息、结构信息、运动信息等，既可以使用某一个特征量，也可以使用多个特征量。

如果特征量抽取部11抽取当前帧的特征量，则切割点检测部1的帧间距离计算部12从特征量缓冲器13读出前一个帧的特征量(由特征量抽取部11前一次抽取的帧的特征量)。

而且，帧间距离计算部12利用预定的评价函数，比较当前帧的特征量和前一个帧的特征量，计算作为它们的特征量之间距离(非类似度)的帧间距离(步骤ST2)。

此外，帧间距离计算部12在计算出了帧间距离时，将特征量缓冲器13的存储内容更新为当前帧的特征量。

如果帧间距离计算部12计算出帧间距离，则切割点检测部1的切割点判定部16对该帧间距离与存储在切割点判定用数据缓冲器15中的切割点判定用的阈值Th进行比较(步骤ST3)。

切割点判定部16在该帧间距离比切割点判定用的阈值Th大的情况下，判定为是切割点，输出表示该含义的判定结果(步骤ST4)。

另一方面，在该帧间距离小于等于切割点判定用的阈值Th的情况下，判定为不是切割点，输出表示该含义的判定结果(步骤ST5)。

这里，切割点判定部16使用切割点判定用的阈值Th判别切割点，而例如也可以考虑镜头时间等来判别切割点。

切割点检测部1的切割点判定用数据计算部14在切割点判定部16的判定结果表示是切割点的含义的情况下，把切割点判定用数据缓冲器15的存储内容初始化为预定的值(步骤ST6)。

另一方面，在切割点判定部16的判定结果表示不是切割点的含义的情况下，求出由帧间距离计算部12计算出的帧间距离的统计量，从该统计量计算切割点判定用的阈值Th，用该阈值Th更新切割点判定用数据缓冲器15的存储内容(步骤ST7)。

具体地讲，如以下那样计算切割点判定用的阈值Th。

实际的影像内容由多个镜头构成，难以考虑作为镜头划分处的切割点的紧接之后的帧是切割点，认为镜头是多个帧连续的。

这里，为了说明方便，把各镜头的第n-1个帧与第n个帧的距离记为Dist_n。

当该距离Dist_n比某个阈值大时，认为第i个镜头中的第n个帧实际上是第(i+1)的最初的帧。即，认为第i个镜头中的第n个帧是切割点。其中，设第i个镜头的最初的帧是第0个帧。另外，上述的阈值适应性变动，设为Th_{i_n}。

切割点判定用数据计算部14在计算阈值Th_{i_n}时，计算第i个镜头中的帧的距离的平均值avg_i(Dist_n)，同时计算帧的距离的分散值var_i(Dist_n)。

如果计算出距离的平均值avg_i(Dist_n)和距离的分散值var_i(Dist_n)，则切割点判定用数据计算部14把距离的平均值avg_i(Dist_n)和距离的分散值var_i(Dist_n)代入到下述的式(1)中，计算阈值Th_{i_n}。

Th_{i_n}＝avg_i(Dist_n)+α·var_i(Dist_n) (1)

在式(1)中，α是系数。

另外，平均值avg_i(Dist_n)以及分散值var_i(Dist_n)不是第i个镜头中的所有帧的平均值以及分散值，而是从第1到第n-1个帧的平均值以及分散值。

在平均值或者分散值的计算中不使用第0个帧，从第1个帧开始在平均值或者分散值的计算中使用的理由是，因为第0个帧的距离Dist₀表示与前面的镜头的最后帧的帧间距离。

另外，在平均值或者分散值的计算中不使用第n个帧，在平均值或者分散值的计算中使用直到第n-1个为止的帧的理由是，因为对于所输入的帧能够立即判别是否是切割点。

另外，平均值avg_i(Dist_n)以及分散值var_i(Dist_n)也可以不是准确的值而使用某个近似值。另外，系数α也能够根据内容的式样(genre)等变更。

如从以上所明确的那样，切割点检测部1即使在镜头内有运动的情况下，也能够通过统计地分析该运动，判别切割点和镜头内的运动的变动，因此能够适应性地设定切割点判定用的阈值Th_{i_n}，其结果与现有的使用固定阈值的情况相比较，能够提高切割点的检测精度。其理由如下。

在现有的检测处理方法中，在切割点的检测中使用帧内的亮度值的变化，切割点检测用的阈值是固定值。

一般，难以预测接着当前镜头是否有镜头到来。

在相似的镜头连续的情况下，例如，在同一个演播室内，在摄影机切换等情况下，即使是切割点，有时亮度值的变化也很小。

另一方面，即使是同一个镜头，在有闪光或者人物的很大运动等的情况下，有时帧间的变化(亮度值的变化)很大。

图3是表示这种情况下的亮度值的变化的说明图。

因此，在现有的检测处理方法中，如果设定大的阈值，则漏失变化小的切割点，如果设定小的阈值，则在变化大的镜头中有时错误地检测出切割点。

与此不同，在本实施形态1的切割点检测部1中，除了单纯的亮度值的差以外，还使用特征量来提高通用性。进而，在作为基于评价函数的评价结果的距离大的情况下作为切割点，而通过适应性地设定其阈值，如果是变化大的镜头，则阈值自动地增大，如果是变化小的镜头，则阈值自动地减小，从而能够期待切割点检测的大幅度精度提高和通用性的提高。

另外，在本实施形态1中，在抽取特征量时，也可以不是从影像信号而是从压缩了的图像的编码数据抽取特征量。

另外，在计算帧间距离时，也不一定是邻接的帧，也可以计算隔开两个帧以上间隔的帧间的距离，谋求计算处理的高速化。

在这样隔开帧间隔进行距离的计算或者切割点的检测时，也可以使用应用了时间压缩的编码影像中的帧内编码的帧。

进而，在计算平均值以及分散值时，也可以对于接近当前帧的帧实施加权等处理，与镜头内的变动状况的时间变化相对应。

镜头长度计算部2在切割点检测部1中的切割点判定部16的判定结果表示不是切割点的含义的情况下，不特别实施处理，而在切割点检测部1中的切割点判定部16的判定结果表示是切割点的含义的情况下，计算以该切割点的前一个切割点为起点的镜头的镜头长度(步骤ST8)。

即，镜头长度计算部2由于能够用第i个镜头的开始时刻与第(i+1)个镜头的开始时刻的差求出镜头的镜头长度，因此在切割点检测部1中的切割点判定部16的判定结果表示是切割点的含义的情况下，求出当前帧的时刻与存储在镜头开始点缓冲器3中的镜头开始点的时刻的时刻差，把该时刻差作为镜头长度输出到重要镜头判定部4。

另外，如果计算出镜头长度，则镜头长度计算部2把存储在镜头开始点缓冲器3的存储内容更新为当前帧的时刻。

重要镜头判定部4如果镜头长度计算部2计算出镜头长度，则对该镜头长度与预先设定的阈值A进行比较(步骤ST9)。

而且，重要镜头判定部4在该镜头长度比预先设定的阈值A长的情况下，判定为以由切割点检测部1检测出的切割点的前一个切割点为起点的镜头是重要镜头，输出其判定结果(步骤ST10)。

这里，重要镜头判定部13判定为以前一个切割点为起点的镜头是重要镜头，而也可以判定为以前一个切割点为起点的镜头的下一个镜头是重要镜头，还可以判定为以前一个切割点为起点的镜头和下一个镜头这双方是重要镜头。

如从上述中明确的那样，依据本实施形态1，设置了在切割点检测部1中的切割点判定部16的判定结果表示是切割点的含义的情况下，计算以该切割点的前一个切割点为起点的镜头的镜头长度的镜头长度计算部2，把由该镜头长度计算部2计算出的镜头长度作为判别材料，判别以前一个切割点为起点的镜头是否是重要镜头，因此，例如能够不必像多数的影像处理方法或者声音处理方法那样实施复杂的处理而提高计算负荷，起到用户能够容易地把握重要镜头的效果。

在本实施形态1中，特别是在会话是主体内容的情况下，以重要的讲述或者台词部分中的镜头长度长为基础。另外，在知道切割点的情况下，计算负荷非常小是其特征，即使在计算能力低的设备中也能够进行重要镜头判定。

另外，在求切割点时，可以不使用邻接的帧而使用离开的帧来谋求处理的高速化。这种情况下，输出的重要镜头的开始时刻从原来的重要镜头的开始时刻仅错开微小的时间。

实施形态2

图5是表示本发明实施形态2的影像摘要装置的结构图，图中，由于与图1相同的号码表示相同或者相当的部分，因此省略说明。

时间间隔设定部21实施从由用户设定的摘要视听时间(用户希望视听摘要的时间)、影像内容的时间分割数以及影像内容长度设定内容分割时间间隔(分割影像内容的时间间隔)和镜头视听时间(每一个镜头的视听时间)的处理。另外，时间间隔设定部21构成时间间隔设定单元。

最长镜头判定部22在镜头长度计算部2每次计算出镜头长度时，实施对由该镜头长度计算部2直到当前时刻为止计算出的镜头长度进行相互比较，判别镜头长度最长的镜头的处理。

最长镜头长度缓冲器23是存储由最长镜头判定部22判别了的最长镜头的镜头长度的存储器。

最长镜头开始点缓冲器24是存储由最长镜头判定部22判别了的最长镜头的开始点的时刻(检测出了最长镜头的时刻的帧的时刻)的存储器。

时间分割判定部25输出在由时间间隔设定部21所设定的内容分割时间间隔中重要镜头的开始点的时刻。即，在当前帧的时刻是由时间间隔设定部21所设定的内容分割时间间隔的整数倍的情况下，实施把存储在最长镜头开始点缓冲器24中的最长镜头的开始点的时刻作为在摘要再生中使用的重要镜头的开始时刻输出的处理。

另外，由最长镜头判定部22、最长镜头长度缓冲器23、最长镜头开始点缓冲器24以及时间分割判定部25构成最长镜头检测单元。

其次说明动作。

如果输入由用户所设定的摘要视听时间T_Dijest、影像内容的时间分割数n以及影像内容长度T_Content，则时间间隔设定部21根据这些输入信息，设定所取出的重要镜头的个数N_shot、内容分割时间间隔T_Segment以及镜头视听时间T_Play。

N_shot＝n

T_Segment＝T_Content/n

T_Play＝T_Dijest/n

在这样设定了的情况下，用户把n个镜头从开头起各视听T_Play秒钟。

例如，在影像内容长度T_Content是30分钟(＝1800秒)，摘要视听时间T_Dijest是5分钟(＝300秒)，影像内容的时间分割数n是10的情况下，内容分割时间间隔T_Segment成为3分钟(＝180秒)，镜头视听时间T_Play成为0.5分钟(＝30秒)。

另外，时间间隔设定部21也可以不是输入数值信息而是输入语句的信息，分析该语句，判别摘要视听时间T_Dijest、影像内容的时间分割数n以及影像内容长度T_Content。

如果输入影像信号，则切割点检测部1与上述实施形态1相同，实施检测其影像的切割点的处理。

如果切割点检测部1没有检测出切割点，则镜头长度计算部2不特别实施处理，而如果切割点检测部1检测出切割点，则与上述实施形态1相同，计算以该切割点的前一个切割点为起点的镜头的镜头长度。

即，如果切割点检测部1检测出切割点，则镜头长度计算部2求出当前帧的时刻与存储在镜头开始点缓冲器3中的镜头开始点的时刻的时刻差，把该时刻差作为镜头长度，输出到最长镜头判定部22。

另外，镜头长度计算部2如果计算出镜头长度，则把镜头开始点缓冲器3的存储内容更新成当前帧的时刻。

最长镜头判定部22在镜头长度计算部2每次计算出镜头长度时，对由该镜头长度计算部2直到当前时刻为止所计算出的镜头长度进行相互比较，判别镜头长度最长的镜头。

即，如果镜头长度计算部2计算出镜头长度，则最长镜头判定部22把由该镜头长度计算部2计算出的镜头长度与存储在最长镜头长度缓冲器23中的最长镜头的镜头长度进行比较，在由该镜头长度计算部2计算出的镜头长度比存储在最长镜头长度缓冲器23中的最长镜头的镜头长度长的情况下，判别为由镜头长度计算部2计算出了镜头长度的镜头是当前时刻下最长的镜头。

最长镜头判定部22如果判别当前时刻中的最长的镜头，则把最长镜头长度缓冲器23的存储内容更新为由镜头长度计算部2计算出的镜头长度。

另外，最长镜头判定部22把最长镜头开始点缓冲器24的存储内容更新成最长镜头的开始点的时刻(当前帧的时刻)。

时间分割判定部25输出在由时间间隔设定部21所设定的内容分割时间间隔T_Segment中重要的镜头的开始点的时刻。

即，时间分割判定部25在当前帧的时刻是由时间间隔设定部21所设定的内容分割时间间隔T_Segment的整数倍的情况下，把存储在最长镜头开始点缓冲器24中的最长镜头的开始点的时刻作为在摘要再生中使用的重要镜头的开始时刻输出。

这里表示了时间分割判定部25输出最长镜头的开始点的时刻的情况，而也可以输出最长镜头的下一个镜头的开始点的时刻，或者最长镜头和下一个镜头的开始点的时刻。

但是，这种情况下，需要设置存储最长镜头的下一个镜头的开始点时刻的缓冲器。

如从上述所明确的那样，依据本实施形态2，由于构成为在镜头长度计算部2每次计算出镜头长度时，对由该镜头长度计算部2直到当前时刻为止所计算出的镜头长度相互进行比较，检测由时间间隔设定部21所设定的时间间隔中镜头长度最长的镜头、最长镜头的下一个镜头或者最长镜头和下一个镜头，因此例如，能够不像多数的影像处理方法或者声音处理方法等那样实施复杂的处理而提高计算负荷，起到用户能够容易地把握重要镜头的效果。

另外，如果把本实施形态2应用到录像装置或者再生装置中，则由于知道重要镜头的开始时刻或者镜头再生的时间，因此能够进行影像的自动编辑或者简便的摘要再生视听。

另外，在求切割点时，也可以不使用邻接的帧而使用离开的帧来谋求处理的高速化。这种情况下，输出的重要镜头的开始时刻从原来的开始时刻仅错开微小的时间。

实施形态3

图6是表示本发明实施形态3的影像摘要装置的结构图，图中，由于与图5相同的号码表示相同或者相当的部分，因此省略说明。

时间间隔设定部31实施从由用户所设定的摘要视听时间、影像内容的时间分割数以及影像内容长度，设定内容分割时间间隔的初始值和镜头基准视听时间(每一个镜头的视听时间)的处理。

镜头代表范围初始设定部32实施从由时间间隔设定部31所设定的内容分割时间间隔的初始值和影像内容长度，设定镜头代表范围(镜头代表范围由镜头代表范围开始点以及暂定镜头代表范围结束点构成)的初始值的处理。

时间分割点缓冲器33是存储由镜头代表范围初始设定部32所设定的镜头代表范围的初始值的存储器。

镜头代表范围判定·再设定部34在当前帧的时刻超过镜头代表范围的结束点的情况下，计算并输出重要镜头再生时间的同时，把存储在最长镜头开始点缓冲器24中的最长镜头的开始点的时刻作为在摘要再生中使用的重要镜头的开始时刻输出。另外，镜头代表范围判定.再设定部34生成镜头代表范围的更新数据，更新时间分割点缓冲器33的存储内容。

另外，由时间间隔设定部31、镜头代表范围初始设定部32、时间分割点缓冲器33以及镜头代表范围判定·再设定部34构成时间间隔设定单元。

其次说明动作。

如果输入由用户设定的摘要视听时间T_Dijest、影像内容的时间分割数n以及影像内容长度T_Content，则时间间隔设定部31根据这些输入信息，设定所取出的重要镜头的个数N_shot、内容分割时间间隔的初始值T_Segment0以及镜头基准视听时间T_Play0。

N_shot＝n

T_Segment0＝T_Content/n

T_Play0＝T_Dijest/n

例如，在影像内容长度T_Content是30分钟(＝1800秒)，摘要视听时间T_Dijest是5分钟(＝300秒)，影像内容的时间分割数n是10的情况下，内容分割时间间隔的初始值T_Segment0成为3分钟(＝180秒)，镜头基准视听时间T_Play0成为0.5分钟(＝30秒)。

另外，时间间隔设定部31也可以不是输入数值信息而是输入语句的信息，分析该语句，判别摘要视听时间T_Dijest、影像内容的时间分割数n以及影像内容长度T_Content。

如果由时间间隔设定部31设定内容分割时间间隔的初始值T_Segment0，则镜头代表范围初始设定部32从该内容分割时间间隔的初始值T_Segment0和影像内容长度T_Content设定镜头代表范围的初始值(镜头代表范围的开始点P_Start、暂定镜头代表范围的结束点P_{End_temp})。

P_Start＝O

P_{End_temp}＝T_Content/N_shot＝T_Segment0

这里，图7是表示在分割了影像内容的各个分割范围的每一个内存在重要镜头的情况下，该镜头代表的范围的说明图。

如果设定镜头代表范围的初始值，则镜头代表范围初始设定部32把该镜头代表范围的初始值保存到时间分割点缓冲器33中。

即，如果切割点检测部1检测出切割点，则镜头长度计算部2求出当前帧的时刻与存储在镜头开始点缓冲器3中的镜头开始点的时刻的时刻差，把该时刻差作为镜头长度输出到最长镜头判定部22。

另外，如果计算出镜头长度，则镜头长度计算部2把镜头开始点缓冲器3的存储内容更新成当前帧的时刻。

最长镜头判定部22与上述实施形态2相同，在镜头长度计算部2每次计算出镜头长度时，对由该镜头长度计算部2直到当前时刻为止所计算出的镜头长度相互进行比较，判别镜头长度最长的镜头。

即，如果镜头长度计算部2计算出镜头长度，则最长镜头判定部22对由该镜头长度计算部2计算出的镜头长度与存储在最长镜头长度缓冲器23中的最长镜头的镜头长度进行比较，在由该镜头长度计算部2计算出的镜头长度比存储在最长镜头长度缓冲器23中的最长镜头的镜头长度长的情况下，判别为由镜头长度计算部2计算出了镜头长度的镜头在当前时刻是最长的镜头。

如果最长镜头判定部22判别出当前时刻中的最长的镜头，则把最长镜头长度缓冲器23的存储内容更新成由镜头长度计算部2计算出的镜头长度。

镜头代表范围判定·再设定部34在当前帧的时刻P_Now超过存储在时间分割点缓冲器33中的暂定镜头代表范围的结束点P_{End_temp}的情况下，如下述那样，计算镜头代表范围的结束点P_End和重要镜头再生时间T_Play，输出该重要镜头再生时间T_Play。

P_End＝P_Now+P_{Shot_Start}-P_Start

T_Play＝(P_End-P_Start)*T_Play0/T_Segment0

式中，P_{Shot_Start}是存储在最长镜头开始点缓冲器24中的最长镜头的开始点的时刻。

另外，镜头代表范围判定·再设定部34在当前帧的时刻P_Now超过存储在时间分割点缓冲器33中的暂定镜头代表范围的结束点P_{End_temp}的情况下，把存储在最长镜头开始点缓冲器24中的最长镜头的开始点的时刻P_{Shot_Start}作为在摘要再生中使用的重要镜头的开始时刻输出的同时，更新存储在时间分割点缓冲器33中的镜头代表范围的开始点P_Start和暂定镜头代表范围的结束点P_{End_temp}。

更新后的镜头代表范围如下。

P_Start＝P_End

P_{End_temp}＝P_End+T_Content/N_Shot＝P_End+T_Segment0

如从上述所明确的那样，依据本实施形态3，由于构成为根据由最长镜头判定部22判别了的最长镜头的开始时刻和镜头长度，更新镜头代表范围，因此起到能够使内容的划分点或者划分了的内容中的重要镜头的再生时间适应性变化的效果。

另外，上述实施形态2的情况下，在时间上均匀地划分内容的情况下是有效的，在内容的每个式样中，最好分开使用上述实施形态2和实施形态3。

实施形态4

图8是表示本发明实施形态4的影像摘要装置的结构图，图中，由于与图2相同的号码表示相同或者相当的部分，因此省略说明。

距离判定部41在帧间距离计算部12每次计算出帧间距离时，对由该帧间距离计算部12直到当前时刻为止所计算出的帧间距离相互进行比较，实施判别最大帧间距离的处理。即，对由帧间距离计算部12计算出的帧间距离与存储在最大距离缓冲器42中的最大帧间距离进行比较，如果由帧间距离计算部12计算出的帧间距离比最大的帧间距离大，则向时间判定部43输出表示检测出了最大帧间距离的含义的检测信息的同时，把最大距离缓冲器42的存储内容更新成由帧间距离计算部12计算出的帧间距离。

最大距离缓冲器42是存储由距离判定部41判别了的最大帧间距离的存储器。

另外，由距离判定部41以及最大距离缓冲器42构成最大距离检测单元。

时间判定部43如果从距离判定部41接收到最大帧间距离的检测信息，则求出从存储在最大距离帧时刻缓冲器44中的帧的时刻(从距离判定部41接收到前一次检测信息的时刻的帧的时刻)到当前帧的时刻为止的时刻差，在该时刻差比预先设定的内容时间分割间隔(分割影像内容的时间间隔)大的情况下，把当前帧的时刻作为重要帧的开始时刻输出的同时，实施把最大距离帧时刻缓冲器44的存储内容更新成当前帧的时刻的处理。

最大距离帧时刻缓冲器44是存储判别了最大距离的时刻的帧的时刻的存储器。

另外，由时间判定部43以及最大距离帧时刻缓冲器44构成重要帧检测单元。

其次说明动作。

如果输入影像信号，则特征量抽取部11与上述实施形态1相同，从该影像信号抽取表示帧的特征的特征量。

作为表示帧的特征的特征量，例如，除了与过去的帧的差分以外，还可以举出颜色的直方图、颜色的配置信息、结构信息、运动信息等，既可以使用某一个特征量也可以使用多个特征量。

如果特征量抽取部11抽取出当前帧的特征量，则帧间距离计算部12与上述实施形态1相同，从特征量缓冲器13读出前一个帧的特征量(由特征量抽取部11前一次抽取出的帧的特征量)。

而且，帧间距离计算部12使用预定的评价函数对当前帧的特征量与前一个帧的特征量进行比较，计算作为这些特征量之间的距离(非类似度)的帧间距离。

另外，如果帧间距离计算部12计算出帧间距离，则把特征量缓冲器13的存储内容更新成当前帧的特征量。

距离判定部41在帧间距离计算部12每次计算帧间距离时，对由该帧间距离计算部12直到当前时刻为止所计算出的帧间距离相互进行比较，判别最大的帧间距离。

即，如果帧间距离计算部12计算出帧间距离，则距离判定部41把该帧间距离与存储在最大距离缓冲器42中的最大的帧间距离进行比较，如果由帧间距离计算部12计算出的帧间距离比最大的帧间距离大，则向时间判定部43输出表示检测出了最大的帧间距离的含义的检测信息。

这时，距离判定部41把最大距离缓冲器42的存储内容更新成由帧间距离计算部12计算出的帧间距离。

时间判定部43如果从距离判定部41接收到最大帧间距离的检测信息，则求出从存储在最大距离帧时刻缓冲器44中的帧的时刻(从距离判定部41接收到前一次检测信息的时刻的帧的时刻)到当前帧的时刻为止的时刻差。

而且，时间判定部43在该时刻差比预先设定的内容时间分割间隔大的情况下，把当前帧的时刻作为重要帧的开始时刻输出的同时，把最大距离帧时刻缓冲器44的存储内容更新成当前帧的时刻。

如从上述所明确的那样，依据本实施形态4，由于构成为如果从距离判定部41接收到最大帧间距离的检测信息，则求出从存储在最大距离帧时刻缓冲器44中的帧的时刻到当前帧的时刻为止的时刻差，在该时刻差比预先设定的内容时间分割间隔大的情况下，把当前帧的时刻作为重要帧的开始时刻输出，因此在保持时间间隔的同时，能够仅用帧间距离和时间间隔找出内容的大的变化点(参照图9)。由此，起到以非常小的计算负荷就能够进行影像的自动编辑或者简便的摘要再生的视听的效果。

另外，在求帧间距离时，也可以不使用邻接的帧而使用离开的帧来谋求处理的高速化。

实施形态5

图10是表示本发明实施形态5的影像摘要装置的结构图，图中，由于与图5相同的号码表示相同或者相当的部分，因此省略说明。

距离判定部51在由切割点检测部1检测出了切割点的情况下，在帧间距离计算部12每次计算帧间距离时，对由该帧间距离计算部12直到当前时刻为止所计算出的帧间距离相互进行比较，实施判别最大的帧间距离的处理。即，对由帧间距离计算部12计算出的帧间距离与存储在最大距离缓冲器42中的最大的帧间距离进行比较，如果由帧间距离计算部12计算出的帧间距离比最大的帧间距离大，则把最大距离切割点开始时刻缓冲器52的存储内容更新成当前帧的时刻的同时，把最大距离缓冲器42的存储内容更新成由帧间距离计算部12计算出的帧间距离。

最大距离切割点开始时刻缓冲器52是存储最大帧间距离的切割点的开始时刻的存储器。

另外，由距离判定部51、最大距离缓冲器42以及最大距离切割点开始时刻缓冲期52构成最大距离检测单元。

时间分割判定部53输出由时间间隔设定部21所设定的内容分割时间间隔中的重要镜头的开始点的时刻。即，在当前帧的时刻是由时间间隔设定部21设定的内容分割时间间隔的整数倍的情况下，实施把存储在最大距离切割点开始时刻缓冲器52中的最大的帧间距离的切割点的开始时刻作为在摘要再生中使用的重要镜头的开始时刻输出的处理。

另外，时间分割判定部53构成重要镜头检测单元。

其次说明动作。

如果输入由用户设定的摘要视听时间T_Dijest、影像内容的时间分割数n以及影像内容长度T_Content，则时间间隔设定部21与上述实施形态2相同，根据这些输入信息设定重要镜头的个数N_shot、内容分割时间间隔T_Segment以及镜头视听时间T_Play。

N_shot＝n

T_Segment＝T_Content/n

T_Play＝T_Dijest/n

另外，如果特征量抽取部11抽取出当前帧的特征量，则切割点检测部1的帧间距离计算部12与上述实施形态1相同，计算帧间距离(参照图2)。

如果切割点检测部1检测出切割点，则距离判定部51在帧间距离计算部12每次计算出帧间距离时，对由该帧间距离计算部12直到当前时刻为止计算出的帧间距离相互进行比较，判别最大的帧间距离。

即，距离判定部51当切割点检测部1检测出了切割点时，如果帧间距离计算部12计算出帧间距离，则把该帧间距离与在最大距离缓冲器42中存储的最大的帧间距离进行比较，如果由帧间距离计算部12计算出的帧间距离比最大的帧间距离大，则把最大距离切割点开始时刻缓冲器52的存储内容更新成当前帧的时刻的同时，实施把最大距离缓冲器42的存储内容更新成由帧间距离计算部12计算出的帧间距离的处理。

时间分割判定部53输出由时间间隔设定部21所设定的内容分割时间间隔T_Segment中的重要镜头的开始点的时刻。

即，时间分割判定部53在当前帧的时刻是由时间间隔设定部21所设定的内容分割时间间隔T_Segment的整数倍的情况下，实施把存储在最大距离切割点开始时刻缓冲器52中的最大的帧间距离的切割点的开始时刻作为在摘要再生中使用的重要镜头的开始时刻输出的处理。

如从以上所明确的那样，依据本实施形态5，由于构成为设置了在由切割点检测部1检测出了切割点的情况下，在帧间距离计算部12每次计算出帧间距离时，对由该帧间距离计算部12直到当前时刻为止所计算出的帧间距离相互进行比较，检测出最大的帧间距离的距离判定部51，在由时间间隔设定部21所设定的时间间隔中，把由距离判定部51检测出了最大的帧间距离的帧的时刻作为重要镜头的开始时刻输出，因此能够在时间上均匀地分割影像内容，在各个分割了的区间中能够把变化大的切割点检测为各个时间间隔中的代表性的场景。由此，起到能够以非常小的计算负荷，进行影像的自动编辑或者简便的摘要再生的视听的效果。

另外，在求帧间距离时，也可以不使用邻接的帧而使用离开了的帧来谋求处理的高速化。

实施形态6

图11是表示本发明实施形态6的影像摘要装置的结构图，图中，由于与图6以及图10相同的号码表示相同或者相当的部分，因此省略说明。

镜头代表范围判定·再设定部54在当前帧的时刻超过镜头代表范围的结束点的情况下，计算并输出重要镜头再生时间，同时，把存储在最大距离切割点开始时刻缓冲器52中的最大的帧间距离的切割点的开始时刻作为在摘要再生中使用的重要镜头的开始时刻输出。另外，镜头代表范围判定·再设定部54生成镜头代表范围的更新数据，更新时间分割点缓冲器33的存储内容。

另外，由时间间隔设定部31、镜头代表范围初始设定部32、时间分割点缓冲器33以及镜头代表范围判定·再设定部54构成时间间隔设定单元。

其次说明动作。

如果输入由用户所设定的摘要视听时间T_Dijest、影像内容的时间分割数n以及影像内容长度T_Content，则时间间隔设定部31与上述实施形态3相同，根据这些输入信息设定重要镜头的个数N_shot、内容分割时间间隔的初始值T_Segment0以及镜头基准视听时间T_Play0。

N_shot＝n

T_Segment0＝T_Content/n

T_Play0＝T_Dijest/n

如果时间间隔设定部31设定了内容分割时间间隔的初始值T_Segment0，则镜头代表范围初始设定部32与上述实施形态3相同，从该内容分割时间间隔的初始值T_Segment0和影像内容长度T_Content设定镜头代表范围的初始值(镜头代表范围的开始点P_Start、暂定镜头代表范围的结束点P_{End_temp})。

P_Start＝O

P_{End_temp}＝T_Content/N_shot＝T_Segment0

如果镜头代表范围初始设定部32设定镜头代表范围的初始值，则把该镜头代表范围的初始值保存到时间分割点缓冲器33中。

如果输入影像信号，则与上述实施形态1相同，切割点检测部1实施检测其影像的切割点的处理。

在由切割点检测部1检测出了切割点的情况下，距离判定部51与上述实施形态5相同，如果帧间距离计算部12计算出帧间距离，则实施对该帧间距离与存储在最大距离缓冲器42中的最大的帧间距离进行比较，如果由帧间距离计算部12计算出的帧间距离比最大的帧间距离大，则把最大距离切割点开始时刻缓冲器52的存储内容更新成当前帧的时刻，同时，把最大距离缓冲器42的存储内容更新成由帧间距离计算部12计算出的帧间距离的处理。

镜头代表范围判定·再设定部54在当前帧的时刻P_Now超过存储在时间分割点缓冲器33中的暂定镜头代表范围的结束点P_{End_temp}的情况下，如下述那样，计算镜头代表范围的结束点P_End和重要镜头再生时间T_Play，输出该重要镜头再生时间T_Play。

P_End＝P_Now+P_{Shot_Start}-P_Start

T_Play＝(P_End-P_Start)*T_Play0/T_Segment0

式中，P_{Shot_Start}是存储在最大距离切割点开始时刻缓冲器52中的最大的帧间距离的切割点的开始时刻。

另外，镜头代表范围判定·再设定部54在当前帧的时刻P_Now超过存储在时间分割点缓冲器33中的暂定镜头代表范围的结束点P_{End_temp}的情况下，把存储在最大距离切割点开始时刻缓冲器52中的最大帧间距离的切割点的开始时刻P_{Shot_Start}作为在摘要再生中使用的重要镜头的开始时刻输出的同时，更新存储在时间分割点缓冲器33中的镜头代表范围的开始点P_Start和暂定镜头代表范围的结束点P_{End_temp}。

更新后的镜头代表范围如下。

P_Start＝P_End

P_{End_temp}＝P_End+T_Content/N_Shot＝P_End+T_Segment0

如从上述所明确的那样，依据本实施形态6，由于构成为根据由距离判定部51检测出了最大的帧间距离的帧的时刻更新镜头代表范围，因此起到能够使内容的划分点或者划分了的内容中的重要镜头的再生时间适应性地发生变化的效果。

另外，在上述实施形态5的情况下，在时间上均匀地划分内容的情况下是有效的，在内容的每个式样中，最好分开使用上述实施形态5和实施形态6。

实施形态7

图12是表示本发明实施形态7的影像摘要装置的结构图，图中，由于与图1相同的号码表示相同或者相当的部分因此省略说明。

距离平均计算部61在切割点检测部1的帧间距离计算部12每次计算出帧间距离时，实施计算由该帧间距离计算部12直到当前时刻为止所计算出的帧间距离的平均值的处理。另外，距离平均计算部61构成平均值计算单元。

关键帧候选判定部62在由帧间距离计算部12计算出的帧间距离与由平均值计算部61计算出的平均值的差分值比存储在最小值缓冲器63中的最小值小的情况下，把表示该差分值小于最小值的含义的最小值检测信号输出到略图候选图像缓冲器64的同时，把最小值缓冲器63的存储内容更新成该差分值。

最小值缓冲器63是存储最小值的存储器，略图候选图像缓冲器64是如果从关键帧候选判定部62接收到最小值检测信号，则把影像信号的影像存储为略图候选图像的存储器。

另外，由关键帧候选判定部62、最小值缓冲器63以及略图候选图像缓冲器64构成略图候选图像存储单元。

如果切割点检测部1检测出切割点，则略图生成部65实施从存储在略图候选图像缓冲器64中的略图候选图像生成略图的处理。另外略图生成部65构成略图生成单元。

其次说明动作。

距离平均计算部61在切割点检测部1判定为当前的帧不是切割点的情况下，在帧间距离计算部12每次计算帧间距离时，计算由该帧间距离计算部12直到当前时刻为止所计算出的帧间距离的平均值。

关键帧候选判定部62在切割点检测部1判定为当前的帧不是切割点的情况下，如果距离平均计算部61计算出帧间距离的平均值，则求出由帧间距离计算部12计算出的帧间距离与由平均值计算部61计算出的平均值的差分值，对该差分值与存储在最小值缓冲器63中的最小值进行比较。

关键帧候选判定部62在该差分值比存储在最小值缓冲器63中的最小值小的情况下把表示该差分值比最小值小的含义的最小值检测信号输出到略图候选图像缓冲器64的同时，把最小值缓冲器63的存储内容更新为该差分值。

如果略图候选图像缓冲器64从关键帧候选判定部62接收到最小值检测信号，则把影像信号的影像存储为略图候选图像。

如果切割点检测部1检测出切割点，则略图生成部65读出存储在略图候选图像缓冲器64中的略图候选图像，从该略图候选图像生成并输出略图。

一般，在影像内容中的同一个镜头中，也根据摄影机的摇摄(panning)、俯仰(tilting)、变焦或者人物的运动，在图像中看到差异。

另外，摇摄、俯仰、变焦或者人物的运动安定下来时，是该镜头中的重要图像的情况很多。

这时，帧间距离Dist_n减小，如果其持续较长的时间，则帧间距离的平均值avg_i(Dist_n)减小。

在本实施形态7中，把|Dist_n-avg_i(Dist_n)|成为最小的n的图像作为第i个镜头中的代表图像。

由此，能够有效地检测代表各镜头的图像，用户能够更简单地从影像内容中再生希望视听的场景。

实施形态8

图13是表示本发明实施形态8的影像摘要装置的结构图，图中由于与图1相同的号码表示相同或者相当的部分，因此省略说明。

重要镜头长度缓冲器71是如果重要镜头判定部4检测出重要镜头，则存储由镜头长度计算部2计算出的重要镜头的镜头长度的存储器。此外，由重要镜头长度缓冲器71构成重要镜头长度存储单元。

重要镜头再生时间计算部72从存储在重要镜头长度缓冲器71中的重要镜头的镜头长度和预先设定的摘要视听时间实施计算重要镜头的再生时闻的处理。另外，重要镜头再生时间计算部72构成再生时间计算单元。

其次说明动作。

如果镜头长度计算部2计算出镜头长度，则重要镜头判定部4与上述实施形态1相同，对该镜头长度与预先设定的阈值A进行比较，判定以由切割点检测部1检测出的切割点的前一个切割点为起点的镜头是否是重要镜头，输出其判定结果。

这里，表示了重要镜头判定部4与上述实施形态1相同，检测重要镜头的情况，而重要镜头的检测方法不限于上述实施形态1中记载的方法，例如也可以使用上述实施形态2～6中记载的方法。

重要镜头再生时间计算部72在输入由用户所设定的摘要视听时间PT时，如满足下述式子那样，从该摘要视听时间PT和存储在重要镜头长度缓冲器71中的第i个重要镜头的镜头长度SL_i计算第i个重要镜头的再生时间TS_i。

[数1]

PT = Σ_{i = 0}^{m} {PS}_{i}

{PS}_{i} = \frac{PT}{m Σ_{i = 0}^{m} {SL}_{i}} {SL}_{i}

式中，m是重要镜头的个数。

如在上述中所明确的那样，依据本实施形态8，由于构成为从存储在重要镜头长度缓冲器71中的重要镜头的镜头长度和预先设定的摘要视听时间计算重要镜头的再生时间，因此起到能够以与各镜头的长度相对应的权重设定摘要再生时的各重要镜头的视听时间的效果。

实施形态9

图14是表示本发明实施形态9的影像摘要装置的结构图，图中由于与图1相同的号码表示相同或者相当的部分因此省略说明。

重要镜头判定部81从存储在镜头开始点缓冲器3中的切割点的检测时刻计算以各切割点为起点的镜头的镜头长度，与所希望的摘要视听时间相匹配地，实施从多个镜头中把镜头长度长的镜头优先决定为再生对象的镜头的处理。另外，重要镜头判定部81构成重要镜头判定单元。

其次说明动作。

如果切割点检测部1检测出影像的切割点，则把该切割点的检测时刻存储到镜头开始点缓冲器3。

如果影像结束而接收到影像结束信号，则重要镜头判定部81从镜头开始点缓冲器3取得切割点的检测时刻，从该检测时刻计算以各切割点为起点的镜头的镜头长度。

而且，重要镜头判定部81与所希望的摘要视听时间相匹配地，通过从多个镜头中把镜头长度长的镜头优先决定为再生对象的镜头(重要镜头)，决定重要镜头的开始点和再生时间。

具体如下。

重要镜头判定部81例如在影像信号中有m个镜头的情况下，使用m个镜头中的第i个镜头的开始点的时刻ST_i(第i个切割点的检测时刻)和第i+1个镜头的开始点的时刻ST_i+1，求出第i个镜头的镜头长度SL_i。

SL_i＝ST_i+1-ST_i

重要镜头判定部81如上述那样，如果求出包含在影像信号中的m个镜头的镜头长度SL_i，则按照镜头长度SL_i变短的顺序排序(sort)m个镜头。

如果设排序后的镜头长度为SSL_i，由于按照变短的顺序进行排序，因此成为SSL_i≥SSL_i+1。

接着，重要镜头判定部81在排序后的镜头长度SSL_i上乘以系数α，计算各乘法结果αSSL_i的总和。其中，系数α的值域是0＜α≤1。

重要镜头判定部81对各乘法结果αSSL_i的总和与摘要视听时间T_Dijest进行比较，求出满足下述不等式的最大的k。

[数2]

T_{Dijest} &GreaterEqual; α Σ_{i = 0}^{k} {SSL}_{i}

如果求出满足上述不等式的最大的k，则重要镜头判定部81把这时的镜头长度SSL_k设定为在判别重要镜头时使用的镜头长度的阈值SL_Th。

如果重要镜头判定部81设定了镜头长度的阈值SL_Th，则对包含在影像信号中的m个镜头的镜头长度SL_i与阈值SL_Th进行比较，认定为满足SL_Th＜SL_i的镜头是重要镜头，把该重要镜头决定为再生对象的镜头。

这时，使再生对象的镜头的再生时间为αSL_i。由此，摘要再生的时间成为小于等于摘要视听时间T_Dijest。

如从上述所明确的那样，依据本实施形态9，由于构成为从存储在镜头开始点缓冲器3中的切割点的检测时刻计算以各切割点为起点的镜头的镜头长度，与所希望的摘要视听时间相匹配地，从多个镜头中把镜头长度长的镜头优先决定为再生对象的镜头，因此起到用户能够仅视听重要镜头的效果。

另外，如果减小系数α的值，则再生对象的镜头的数量增加，每一个镜头的再生时间缩短。反之，如果加大系数α的值，则再生对象的镜头的数量减少，增加每一个镜头的再生时间。

因此，系数α的值最好根据内容的式样或者特征、用户的希望分开使用。

另外，作为镜头长度或者镜头开始点等的时间信息，也可以使用时刻、帧编号、影像压缩数据中的时间信息等。

实施形态10

图15是表示本发明实施形态10的影像摘要装置的结构图，图中，由于与图1以及图14相同的号码表示相同或者相当的部分，因此省略说明。

时间间隔设定部91从影像内容长度、由用户设定的所希望的摘要视听时间、由用户设定或者自动设定的时间分割数(时间上分割内容的数量)，计算内容分割时间间隔(成为时间上分割内容的基准的时间)、基准分割摘要视听时间(成为对所分割的时间进行摘要视听的基准的时间)。另外，时间间隔设定部91构成时间间隔设定单元。

重要镜头判定部81与图14的重要镜头判定部81相同，从存储在镜头开始点缓冲器3中的切割点的检测时刻计算以各切割点为起点的镜头的镜头长度，与所希望的摘要视听时间相匹配地，从多个镜头中把镜头长度长的镜头优先决定为再生对象的镜头，而图15的重要镜头判定部81根据在由时间间隔设定部91所设定的时间间隔中，存储在镜头开始点缓冲器3中的切割点的检测时刻计算以各切割点为起点的镜头的镜头长度。

时间分割点缓冲器92是存储分割了内容的时刻的存储器。

其次说明动作。

时间间隔设定部91在输入由用户所设定的摘要视听时间T_Dijest、影像内容的时间分割数n以及影像内容长度T_Content时，根据这些输入信息，设定内容分割时间间隔T_Segment以及基准分割摘要视听时间T_{S_Dijest}。

T_Segment＝T_Content/n

T_{S_Dijest}＝T_Dijest/n

例如，在影像内容长度T_Content是30分钟(＝1800秒)，摘要视听时间T_Dijest是5分钟(＝300秒)，影像内容的时间分割数n是10的情况下，内容分割时间间隔T_Segment成为3分钟(＝180秒)，基准分割摘要视听时间T_{S_Dijest}成为0.5分钟(＝30秒)。

切割点检测部1如果检测出影像的切割点，则把该切割点的检测时刻存储到镜头开始点缓冲器3的同时，把切割点的判定结果输出到重要镜头判定部81。

重要镜头判定部81如果从切割点检测部1接收到切割点的判定结果，则决定重要镜头的开始时刻以及重要镜头的再生时间。

具体如下。

首先，重要镜头判定部81参照当前帧时刻T_Now和存储在时间分割点缓冲器92中的前一次的分割时间帧时刻T_Pre。

重要镜头判定部81如下述那样，在当前的帧时刻T_Now与前一次的分割时间帧时刻T_Pre的差超过内容分割时间间隔T_Segment的情况下，参照从切割点检测部1输出的切割点判定结果。

T_Segment≤T_Now-T_Pre

重要镜头判定部81在切割点的判定结果表示是切割点的含义的情况下，把该切割点作为影像内容的分割点，计算分割成m个的影像内容的第i个分割摘要视听时间T_{S_Dijest，i}。

[数3]

T_{S_Dijest, i} = \frac{T_{now} - T_{Pre}}{T_{Segment}} \times T_{S_Dijest}

重要镜头判定部81由于在知道了第i+1个分割点的时刻，知道全部的第i个分割区间的镜头开始点的时刻及其个数，因此设在该第i个区间中有n个镜头。使用该n个镜头中第j个镜头的开始点的时刻ST_i，j和第j+1个镜头的开始点的时刻ST_i，j+1，求第j个镜头的镜头长度SL_i，j。

SL_i，j＝ST_i，j+1-ST_i，j

如果重要镜头判定部81如上述那样求出分割区间中的影像中的n个镜头的镜头长度SL_i，j，则按照镜头长度SL_i，j变短的顺序排序n个镜头。

如果设排序后的镜头长度为SSL_i，j，则由于按照变短的顺序进行排序，因此成为SSL_i，j≥SSL_i，j+1。

接着，重要镜头判定部81在排序后的镜头长度SSL_i，j上乘以系数α，计算各乘法结果αSSL_i，j的总和。式中，系数α的值域是0＜α≤1。

重要镜头判定部81把各乘法结果αSSL_i，j的总和与分割摘要视听时间T_{S_Dijest，i}进行比较，求满足下述不等式的最大的k。

[数4]

T_{S_Dijest, i} &GreaterEqual; α Σ_{j = 0}^{k} {SSL}_{i, j}

如果求出满足上述不等式的最大的k，则重要镜头判定部81把这时的镜头长度SSL_i，k设定为在第i个区间中，在判别重要镜头时使用的镜头长度的阈值SL_Th，i。

如果设定了镜头长度的阈值SL_Th，i，则重要镜头判定部81在第i个区间中，对包含在影像信号中的n个镜头的镜头长度SL_i，j与阈值SL_Th，i进行比较，认定满足SL_Th，i＜SL_i，j的镜头是重要镜头，把该重要镜头决定为再生对象的镜头。

这时，设再生对象的镜头的再生时间为αSL_i，j。由此分割了的影像中的摘要再生的时间成为小于等于T_{S_Dijest，i}。

另外，如果减小系数α的值，则成为再生对象的镜头的数量增加，每一个镜头的再生时间缩短。反之，如果加大系数α的值，则再生对象的镜头的数量减少，增加每一个镜头的再生时间。

在本实施形态10中，还能够根据分割区间改变系数α的值。

例如，在节目前半部分的新闻内容中，能够使用在节目前半部分的头条新闻中加大系数α，加长视听认为最重要的部分，在后半部分的短新闻的连续部分中，减小系数α，对概要进行视听等使用方法。

在上述实施形态9的情况下，当内容非常长时，内容整体的镜头长度排序的计算处理量有时非常庞大，而在本实施形态10中，由于只要在第i个区间中计算镜头长度排序即可，因此即使在内容非常长的情况下，也不会导致计算处理量的庞大化，用户能够仅对重要镜头进行视听。

另外，作为镜头长度或者镜头开始点等时间信息，还能够使用时刻、帧编号、影像压缩数据中的时间信息等的任一个。

实施形态11

图16是表示本发明实施形态11的影像摘要装置的结构图，图中，由于与图1相同的号码表示相同或者相当的部分，因此省略说明。

镜头统计处理部101实施从存储在镜头开始点缓冲器3中的时刻计算以各切割点为起点的镜头的镜头长度，求出与该镜头长度有关的统计性的分布函数，与所希望的摘要视听时间相匹配地，从多个镜头中根据上述分布函数决定再生对象的镜头的处理。另外，镜头统计处理部101构成重要镜头判定单元。

其次说明动作。

如果影像结束而接收到影像结束信号，则镜头统计处理部101从镜头开始点缓冲器3取得切割点的检测时刻，从该检测时刻计算以各切割点为起点的镜头的镜头长度，求出与该镜头长度有关的统计性的分布函数。

而且，镜头统计处理部101与所希望的摘要视听时间相匹配地，通过从多个镜头中根据上述分布函数决定再生对象的镜头(重要镜头)，来决定重要镜头的开始点和再生时间。

具体如下。

镜头统计处理部101例如在影像信号中有m个镜头的情况下，使用m个镜头中的第i个镜头的开始点的时刻ST_i和第i+1个镜头的开始点的时刻ST_i+1，求第i个镜头的镜头长度SL_i。

SL_i＝ST_i+1-ST_i

假定如果镜头统计处理部101如上述那样求出包含在影像信号中的m个镜头的镜头长度SL_i，则镜头长度SL_i是SL_i＞0，镜头长度SL_i遵从对数正态分布。

这时，镜头长度SL_i为x的概率p(x)，即，分布概率p(x)如下。

[数5]

p (x) = \frac{1}{\sqrt{2 π} σx} \exp {\frac{- {(\ln x - μ)}^{2}}{{2 σ}^{2}}}

式中，μ是SL_i的平均值，σ²是SL_i的分散值。

图17是表示镜头长度的对数正态分布的说明图。

能够从镜头长度SL_i容易地计算出上述的平均值μ和分散值σ²。

由于影像内容长度是T_Content，因此分布概率p(x)能够如下式那样表示。

[数6]

{&Integral;}_{0}^{\infty} p (x) dx = {&Integral;}_{0}^{T_{Content}} p (x) dx = 1

另外，由于影像中的镜头数量是m个，因此在影像中，长度为x的镜头的个数成为m×p(x)。从而，该概率分布p(x)与影像内容长度T_Content的关系用下式表示。

[数7]

T_{Content} = m {&Integral;}_{0}^{T_{Content}} xp (x) dx

图18是表示镜头长度与影像内容长度T_Content的关系的说明图。

由此，作为0＜α≤1，能够在计算机上求出满足下述不等式的最小的x₀。

[数8]

T_{Dijest} &GreaterEqual; αm {&Integral;}_{x_{0}}^{T_{Content}} xp (x) dx

镜头统计处理部101如果求出满足上述不等式的最小的x₀，则把该x₀设定为在判别重要镜头时使用的镜头长度的阈值SL_Th。

镜头统计处理部101如果设定了镜头长度的阈值SL_Th，则对包含在影像信号中的m个镜头的镜头长度SL_i与阈值SL_Th进行比较，认定为满足SL_Th＜SL_i的镜头是重要镜头，把该重要镜头决定为再生对象的镜头。

这时，设再生对象的镜头的再生时间为αSL_i。由此，摘要再生的时间大致成为摘要视听时间T_Dijest。其中，在假定为实际镜头长度的分布的概率分布p(x)的差大的情况下也可以进行修正。

在本实施形态11中，在影像内容结束以后计算在统计处理中使用的平均值μ和分散值σ²，而例如关于直到第i个为止的平均值μ_i，也可以使用以下的式子在每次检测出切割点时，顺序计算并更新。

μ_i＝(SL_i+(i-1)μ_i-1)/i

同样，关于分散值σ²，也可以顺序进行类似的计算并更新。另外，可以进行任意的近似计算。

另外，本实施形态11中，在分布函数中使用对数正态分布，而例如也可以使用正态分布等其它的分布函数。

另外，如果减小系数α的值，则再生对象的镜头数增加，每一个镜头的再生时间缩短。反之，如果加大系数α的值，则再生对象的镜头数减少，增加每一个镜头的再生时间。

通过使用该实施形态11，能够根据所利用的计算机的能力改变统计处理的精度，即使在便携设备等中，用户也能够仅对重要镜头进行视听。

另外，作为镜头长度或者镜头开始点等时间信息，也可以使用时刻、帧编号、影像压缩数据中的时间信息等。

实施形态12

图19是表示本发明实施形态12的影像摘要装置的结构图，图中，由于与图15以及图16相同的号码表示相同或者相当的部分，因此省略说明。

其次说明动作。

T_Segment＝T_Content/n

T_{S_Dijest}＝T_Dijest/n

如果切割点检测部1检测出影像的切割点，则把该切割点的检测时刻存储到镜头开始点缓冲器3的同时，把切割点的判定结果输出到镜头统计处理部101。

镜头统计处理部101如果从切割点检测部1接收到切割点的判定结果，则决定重要镜头的开始时刻以及重要镜头的再生时间。

具体如下。

首先，镜头统计处理部101参照当前的帧时刻T_Now和存储在时间分割点缓冲器92中的前一次的分割时间帧时刻T_Pre。

镜头统计处理部101如下述那样，在当前的帧时刻T_Now与前一次的分割时间帧时刻T_Pre的差超过内容分割时间间隔T_Segment的情况下，参照从切割点检测部1输出的切割点的判定结果。

T_Segment≤T_Now-T_Pre

镜头统计处理部101在切割点的判定结果表示是切割点的含义的情况下，把该切割点作为影像内容的分割点，计算分割为m个的影像内容的第i个分割摘要视听时间T_{S_Dijest，i}。另外，计算第i个区间的长度T_Segment，i。

[数9]

T_{S_Dijest, i} = \frac{T_{Now} - T_{Pre}}{T_{Segment}} \times T_{S_Dijest}

T_Segment，i＝T_Now-T_Pre

镜头统计处理部101由于在知道了第i+1个分割点的时刻，知道全部的第i个分割区间的镜头开始点的时刻及其个数，因此设在该第i个区间中有n个镜头。使用该n个镜头中第j个镜头的开始点的时刻ST_i，j和第j+1个镜头的开始点的时刻ST_i，j+1，求第j个镜头的镜头长度SL_i，j。

SL_i，j＝ST_i，j+1-ST_i，j

假定如果镜头统计处理部101如上述那样求出包含在影像信号中的n个镜头的镜头长度SL_i，则与上述实施形态11相同，镜头长度SL_i是SL_i＞0，镜头长度SL_i遵从对数正态分布。

这时，镜头长度SL_i为x的概率p(x)，即，分布概率p(x)如下。

[数10]

p (x) = \frac{1}{\sqrt{2 π} σx} \exp {\frac{- {(\ln x - μ)}^{2}}{{2 σ}^{2}}}

式中，μ是SL_i的平均值，σ²是SL_i的分散值。

由于该第i个区间的长度是T_Segment，i，因此分布概率p(x)能够如下式那样表示。

[数11]

{&Integral;}_{0}^{\infty} p (x) dx = {&Integral;}_{0}^{T_{Segment, i}} p (x) dx = 1

另外，由于影像中的镜头数量是n个，因此在影像中，长度为x的镜头的个数成为n×p(x)。从而，该概率分布p(x)与影像内容长度T_Content的关系用下式表示。

[数12]

T_{Segment, i} = n {&Integral;}_{0}^{T_{Segment, i}} xp (x) dx

[数13]

T_{S_Dijest, i} &GreaterEqual; αn {&Integral;}_{x_{0}}^{T_{Segment, i}} xp (x) dx

镜头统计处理部101如果求出满足上述不等式的最小的x₀，则把该x₀设定为在判别重要镜头时使用的镜头长度的阈值SL_Th，i。

镜头统计处理部101如果设定了镜头长度的阈值SL_Th，i，则对包含在影像信号中的n个镜头的镜头长度SL_i，j与阈值SL_Th，i进行比较，认定为满足SL_Th，i＜SL_i，j的镜头是重要镜头，把该重要镜头决定为再生对象的镜头。

这时，设再生对象的镜头的再生时间为αSL_i，j。由此，摘要再生的时间大致成为分割摘要视听时间T_{S_Dijest，i}。其中，在假定为实际镜头长度的分布的概率分布p(x)的差大的情况下也可以进行修正。

在本实施形态12中，在影像内容结束以后计算在统计处理中使用的平均值μ和分散值σ²，而例如关于第i个区间中的直到第j个为止的平均值μ_i，j，也可以使用以下的式子在每次检测出切割点时，顺序计算并更新。

μ_i，j＝(SL_i，j+(j-1)μ_i，j-1)/j

另外，本实施形态12中，在分布函数中使用对数正态分布，而例如也可以使用正态分布等其它的分布函数。

另外，如果减小系数α的值，则再生对象镜头数增加，每一个镜头的再生时间缩短。反之，如果加大系数α的值，则再生对象的镜头数减少，增加每一个镜头的再生时间。

在本实施形态12中，还能够根据分割区间改变系数α的值。

在本实施形态12中，即使在用便携设备等计算处理量小的计算机处理非常长的内容的情况下，通过调整分割处理或者统计处理的精度，用户也能够仅对重要镜头进行视听。

另外，作为镜头长度或者镜头开始点等时间信息，还能够使用时刻、帧编号、影像压缩数据中的时间信息等。

实施形态13

图20是表示本发明实施形态13的影像摘要装置的结构图，图中，由于与图1相同的号码表示相同或者相当的部分，因此省略说明。

无声判定部111实施判定影像中的声音信号是否为无声，检测影像中的声音的无声点的处理。另外，无声判定部11 1构成无声点检测单元。

其次说明动作。

无声判定部111判定影像中的声音信号是否为无声，检测影像中的声音的无声点。

如果无声判定部111检测出影像中的声音的无声点，则把该无声点视为切割点，把其检测结果作为切割点的判定结果输出到镜头长度计算部2。

作为无声点的检测方法，例如考虑对音量与阈值进行比较的方法等。而也可以使用其它的方法。

镜头长度计算部2在从无声判定部111输出的切割点的判定结果表示不是切割点的含义的情况下，不特别实施处理，而在切割点的判定结果表示是切割点的含义的情况下，与上述实施形态1相同，求出当前帧的时刻与存储在镜头开始点缓冲器3中的前一个镜头开始点的时刻的时刻差，把该时刻差作为镜头长度输出到重要镜头判定部4。

另外，如果镜头长度计算部2计算出镜头长度，则把镜头开始点缓冲器3的存储内容更新为当前帧的时刻。

重要镜头判定部4如果镜头长度计算部2计算出镜头长度，则与上述实施形态1相同，把该镜头长度与预先设定的阈值A进行比较。

而且，重要镜头判定部4在该镜头长度比预先设定的阈值A长的情况下，判定以由无声判定部111检测出的无声点(切割点)的前一个无声点(切割点)为起点的镜头是重要镜头，输出其判定结果。

这里，重要镜头判定部4判定为以前一个切割点为起点的镜头是重要镜头，而也可以判定为以前一个切割点为起点的镜头的下一个镜头是重要镜头，还可以判定为以前一个切割点为起点的镜头和下一个镜头这双方是重要镜头。

依据本实施形态13，由于不是把影像而是把声音信号的无声点视为影像内容的切割点，因此例如能够仅视听戏剧或者电影内容的故事中重要的长的台词或者讲述、音乐节目中的乐曲部分。另外，通过使用无声点，能够减少连续视听重要镜头时的不自然感。

另外，在本实施形态13的影像摘要装置中，还可以适用于不是影像内容而是无线电广播等仅声音的内容。

实施形态14

图21是表示本发明实施形态14的影像摘要装置的结构图，图中，由于与图5相同的号码表示相同或者相当的部分，因此省略说明。

音量判定部112对影像中的声音信号的音量与阈值进行比较，实施检测其声音信号的音量比阈值小的音量降低点的处理。另外，音量判定部112构成音量降低点检测单元。

其次说明动作。

N_shot＝n

T_Segment＝T_Content/n

T_Play＝T_Dijest/n

在这样设定的情况下，用户对n个镜头从开头起各视听T_Play秒钟。

另外，时间间隔设定部21也可以不是输入数值的信息而是输入语句的信息，分析该语句，判别摘要视听时间T_Dijest、影像内容的时间分割数n以及影像内容长度T_Content。

如果输入影像中的声音信号，则音量判定部112对该声音信号的音量与预先所设定的阈值进行比较，检测该声音信号的音量比阈值小的音量降低点。

音量判定部112不是把声音信号的音量比阈值大的点视为切割点，而是把声音信号的音量比阈值小的音量降低点视为切割点，把其检测结果作为切割点的判定结果输出到镜头长度计算部2。

另外，该阈值也可以根据内容的式样变化。例如，如果是体育直播，则提高设定阈值，检测是否有欢呼声。或者，如果是新闻节目或者音乐节目，通过使阈值降低到噪声水平附近，检测无声部分，进行节目主持人(caster)或者记者等声音、乐曲的划分处等部分的检测。

镜头长度计算部2在从音量判定部112输出的切割点的判定结果表示不是切割点的含义的情况下，不特别实施处理，而在切割点的判定结果表示是切割点的含义的情况下，与上述实施形态1相同，求出当前帧的时刻与存储在镜头开始点缓冲器3中的前一个镜头开始点的时刻的时刻差，把该时刻差作为镜头长度输出到重要镜头判定部4。

另外，如果镜头长度计算部2计算出镜头长度，则把镜头开始点缓冲器3的存储内容更新成当前帧的时刻。

如果最长镜头判定部22判别了当前时刻中的最长的镜头，则把最长镜头长度缓冲器23的存储内容更新成由镜头长度计算部2计算出的镜头长度。

时间分割判定部25与上述实施形态2相同，在由时间间隔设定部21所设定的内容分割时间间隔T_Segment中，输出重要镜头的开始点的时刻。

这里，表示了时间分割判定部25输出最长镜头的开始点的时刻的情况，而也可以输出最长镜头的下一个镜头的开始点的时刻，或者最长镜头和下一个镜头的开始点的时刻。

如从上述所明确的那样，依据本实施形态14，由于构成为通过进行基于音量的镜头的判别，在镜头长度计算部2每次计算出镜头长度时，对由该镜头长度计算部2直到当前时刻为止所计算出的镜头长度相互进行比较，检测出在由时间间隔设定部21所设定的时间间隔中镜头长度最长的镜头，因此例如不必像多数的影像处理方法或者声音处理方法等那样实施复杂的处理而提高计算负荷，起到能够容易地把握内容中的重要镜头的效果。

如果把本实施形态14适用在录像装置、录音装置或者再生装置中，则由于知道基于音量的重要镜头的开始时刻或者镜头再生时间，因此能够进行影像的自动编辑或者简便的摘要再生的视听。另外，通过使用音量小的部分，能够减轻连续视听重要镜头时的不自然感。

另外，本实施形态14的影像摘要装置也可以适用于不是影像内容而是无线电广播等仅声音的内容。

另外，作为镜头长度或者镜头开始点等的时刻信息，也可以使用时刻、帧编号、影像压缩数据中的时间信息等。

实施形态15

图22是表示本发明实施形态15的影像摘要装置的结构图，图中，由于与图6以及图21相同的号码表示相同或者相当的部分，因此省略说明。

其次说明动作。

如果输入由用户所设定的摘要视听时间T_Dijest、影像内容的时间分割数n以及影像内容长度T_Content，则时间间隔设定部31与上述实施形态3相同，根据这些输入信息，设定所取出的重要镜头的个数N_shot、内容分割时间间隔的初始值T_Segment0以及镜头基准视听时间T_Play0。

N_shot＝n

T_Segment0＝T_Content/n

T_Play0＝T_Dijest/n

例如，在影像内容长度T_Content是30分钟(＝1800秒)，摘要视听时间T_Dijest是5分钟(≈300秒)，影像内容的时间分割数n是10的情况下，内容分割时间间隔的初始值T_Segment0成为3分钟(＝180秒)，镜头基准视听时间T_Play0成为0.5分钟(＝30秒)。

另外，时间间隔设定部31也可以不是输入数值的信息而是输入语句的信息，分析该语句，判别摘要视听时间T_Dijest、影像内容的时间分割数n以及影像内容长度T_Content。

P_Start＝O

P_{End_temp}＝T_Content/N_shot＝T_Segment0

如果镜头代表范围初始设定部32设定了镜头代表范围的初始值，则把该镜头代表范围的初始值保存到时间分割点缓冲器33。

如果输入影像中的声音信号，则音量判定部112与上述实施形态14相同，对其声音信号的音量与预先所设定的阈值进行比较，检测其声音信号的音量比阈值小的音量降低点。

另外，该阈值可以根据内容的式样改变。例如，如果是体育直播，则提高设定阈值，检测是否有欢呼声。或者，如果是新闻节目或者音乐节目，则通过使阈值降低到噪声水平附近，检测无声部分，进行节目主持人或者记者等声音、乐曲的划分处等部分的检测。

镜头代表范围判定·再设定部34在当前帧的时刻P_Now超过存储在时间分割点缓冲器33中的暂定镜头代表范围的结束点P_{End_temp}的情况下，与上述实施形态3相同，计算镜头代表范围的结束点P_End和重要镜头再生时间T_Play，输出该重要镜头再生时间T_Play。

P_End＝P_Now+P_{Shot_Start}-P_Start

T_Play＝(P_End-P_Start)*T_Play0/T_Segment0

更新后的镜头代表范围如下。

P_Start＝P_End

P_{End_temp}＝P_End+T_Content/N_Shot＝P_End+T_Segment0

如从上述所明确的那样，依据本实施形态15，由于构成为通过进行基于音量的镜头的判别，根据由最长镜头判定部22判别了的最长镜头的开始时刻和镜头长度更新镜头代表范围，因此起到能够使内容的划分点或者划分了的内容中的重要镜头的再生时间适应性地变化的效果。

另外，通过使用音量小的部分，能够减轻连续视听重要镜头时的不自然感。

另外，本实施形态15的影像摘要装置也可以适用于不是影像内容而是无线电广播等仅声音的内容。

实施形态16

图23是表示本发明实施形态16的影像摘要装置的结构图，图中，由于与图14以及图21相同的号码表示相同或者相当的部分，因此省略说明。

其次说明动作。

音量判定部112不是把声音信号的音量比阈值大的点视为切割点，而是把声音信号的音量比阈值小的音量降低点视为切割点，把其检测结果作为切割点的判定结果输出到镜头开始点缓冲器3。另外，如果检测出音量降低点，则把该音量降低点的检测时刻存储到镜头开始点缓冲器3。

如果影像结束而接收到影像结束信号，则重要镜头判定部81与上述实施形态9相同，从镜头开始点缓冲器3取得切割点的检测时刻，从该检测时刻计算以各切割点为起点的镜头的镜头长度。

重要镜头判定部81的具体处理内容由于与上述实施形态9相同，因此省略详细的说明。

依据本实施形态16，通过进行基于音量的镜头的判别，能够仅视听重要镜头。另外，通过使用音量小的部分，能够减轻连续视听重要镜头时的不自然感。

另外，本实施形态16的影像摘要装置也可以适用于不是影像内容而是无线电广播等仅声音的内容。

实施形态17

图24是表示本发明实施形态17的影像摘要装置的结构图，图中，由于与图15以及图21相同的号码表示相同或者相当的部分，因此省略说明。

其次说明动作。

如果输入由用户所设定的摘要视听时间T_Dijest、影像内容的时间分割数n以及影像内容长度T_Content，则时间间隔设定部91与上述实施形态10相同，根据这些输入信息，设定内容分割时间间隔T_Segment以及基准分割摘要视听时间T_{S_Dijest}。

T_Segment＝T_Content/n

T_{S_Dijest}＝T_Dijest/n

音量判定部112不是把声音信号的音量比阈值大的点视为切割点，而是把声音信号的音量比阈值小的音量降低点视为切割点，把其检测结果作为切割点的判定结果输出到镜头开始点缓冲器3以及重要镜头判定部81。另外，如果检测出音量降低点，则把该音量降低点的检测时刻存储到镜头开始点缓冲器3。

如果从音量判定部112接收到切割点的判定结果，则重要镜头判定部81与上述实施形态10相同，在由时间间隔设定部91所设定的时间间隔中，从存储在镜头开始点缓冲器3中的切割点的检测时刻计算以各切割点为起点的镜头的镜头长度，与所希望的摘要视听时间相匹配地，从多个镜头中把镜头长度长的镜头优先决定为再生对象的镜头。

重要镜头判定部81的具体处理内容由于与上述实施形态10相同，因此省略详细的说明。

上述实施形态16的情况下，当内容非常长时，有时内容整体的镜头长度排序的计算处理量非常庞大，而在本实施形态17中，由于只要在第i个区间中计算镜头长度排序即可，因此即使在内容非常长的情况下，也不会导致计算处理量的庞大化，用户能够仅视听基于音量的重要镜头。

另外，本实施形态17的影像摘要装置也可以适用于不是影像内容而是无线电广播等仅声音的内容。

实施形态18

图25是表示本发明实施形态18的影像摘要装置的结构图，图中，由于与图16以及图21相同的号码表示相同或者相当的部分，因此省略说明。

其次说明动作。

如果输入影像中的声音信号，则音量判定部112与上述实施形态14相同，对该声音信号的音量与预先所设定的阈值进行比较，检测其声音信号的音量比阈值小的音量降低点。

如果影像结束而接收到影像结束信号，则镜头统计处理部101与上述实施形态11相同，从镜头开始点缓冲器3取得切割点的检测时刻(音量降低点的检测时刻)，从该检测时刻计算出以各切割点为起点的镜头的镜头长度，求出与该镜头长度有关的统计性的分布函数。

而且，镜头统计处理部101与所希望的摘要视听时间相匹配地，通过从多个镜头中根据分布函数决定再生对象的镜头(重要镜头)，决定重要镜头的开始点和再生时间。

镜头统计处理部101的具体处理内容由于与上述实施形态14相同，因此省略详细的说明。

依据本实施形态18，能够根据所利用的计算机的能力改变统计处理的精度，即使在便携设备等中，用户也能够仅视听基于音量的重要镜头。另外，通过使用音量小的部分，能够减轻连续视听重要镜头时的不自然感。

另外，本实施形态18的影像摘要装置也可以适用于不是影像内容而是无线电广播等仅声音的内容。

实施形态19

图26是表示本发明实施形态19的影像摘要装置的结构图，图中，由于与图19以及图21相同的号码表示相同或者相当的部分，因此省略说明。

其次说明动作。

如果输入由用户所设定的摘要视听时间T_Dijest、影像内容的时间分割数n以及影像内容长度T_Content，则时间间隔设定部91与上述实施形态12相同，根据这些输入信息，设定内容分割时间间隔T_Segment以及基准分割摘要视听时间T_{S_Dijest}。

T_Segment＝T_Content/n

T_{S_Dijest}＝T_Dijest/n

音量判定部112不是把声音信号的音量比阈值大的点视为切割点，而是把声音信号的音量比阈值小的音量降低点视为切割点，把其检测结果作为切割点的判定结果输出到镜头开始点缓冲器3以及镜头统计处理部101。另外，如果检测出音量降低点，则把该音量降低点的检测时刻存储到镜头开始点缓冲器3。

如果影像结束而接收到影像结束信号，则镜头统计处理部101与上述实施形态12相同，在由时间间隔设定部91所设定的时间间隔中，从镜头开始点缓冲器3取得切割点的检测时刻(音量降低点的检测时刻)，从该检测时刻计算出以各切割点为起点的镜头的镜头长度，求出与该镜头长度有关的统计性的分布函数。

镜头统计处理部101的具体处理内容由于与上述实施形态12相同，因此省略详细的说明。

在本实施形态19中，即使在用便携设备等计算处理量少的计算机处理非常长的内容的情况下，通过调整分割处理或者统计处理的精度，用户也能够仅视听基于音量的重要镜头。

另外，本实施形态19的影像摘要装置也可以适用于不是影像内容而是无线电广播等仅声音的内容。

实施形态20

图27是表示本发明实施形态20的影像摘要装置的结构图，图中，由于与图1相同的号码表示相同或者相当的部分，因此省略说明。

AV切割点判定部121搭载有切割点检测部1和音量判定部112，实施从切割点检测部1的判定结果和音量判定部112的判定结果，最终进行切割点判定的处理。

图28是表示本发明实施形态20的影像摘要装置的AV切割点判定部121的结构图，图中，当从切割点检测部1输出的判定结果表示是切割点的含义，而且从音量判定部112输出的判定结果表示是切割点的含义时，同步判定部122实施这样的处理，即进行是切割点的含义的最终判定。

其次说明动作。

如果输入影像信号，则AV切割点判定部121的切割点检测部1与上述实施形态1相同，检测其影像的切割点。但是，切割点的检测方法也可以是与上述实施形态1不同的方法。

如果输入影像中的声音信号，则AV切割点判定部121的音量判定部112与上述实施形态14相同，对该声音信号的音量与预先所设定的阈值进行比较，检测出其声音信号的音量比阈值小的音量降低点。

音量判定部112不是把声音信号的音量比阈值大的点视为切割点，而是把声音信号的音量比阈值小的音量降低点视为切割点，把其检测结果作为切割点的判定结果输出。

AV切割点判定部121的同步判定部122当从切割点检测部1输出的判定结果表示是切割点的含义，而且从音量判定部112输出的判定结果表示是切割点的含义时，进行是切割点的含义的最终判定。

即，如果切割点检测部1和音量判定部112在同一个定时中检测出切割点，则同步判定部122把该切割点视为影像内容中的切割点，而即使切割点检测部1或者音量判定部112的某一个检测出切割点，但另一个没有检测出切割点，则不把该切割点视为影像内容中的切割点。

镜头长度计算部2在从AV切割点判定部121输出的切割点的判定结果表示不是切割点的含义的情况下，不特别实施处理，而在切割点的判定结果表示是切割点的含义的情况下，与上述实施形态1相同，求出当前帧的时刻与存储在镜头开始点缓冲器3中的前一个镜头开始点的时刻的时刻差，把该时刻差作为镜头长度，输出到重要镜头判定部4。

如果镜头长度计算部2计算出镜头长度，则重要镜头判定部4与上述实施形态1相同，对该镜头长度与预先所设定的阈值A进行比较。

而且，重要镜头判定部4在该镜头长度比预先所设定的阈值A长的情况下，判定为以由AV切割点判定部121检测出的切割点的前一个切割点为起点镜头是重要镜头，输出其判定结果。

依据本实施形态20，通过使用影像和音量这双方判定切割点，得到长的镜头，用户能够仅视听重要镜头。

实施形态21

图29是表示本发明实施形态21的影像摘要装置的结构图，图中，由于与图5以及图27相同的号码表示相同或者相当的部分，因此省略说明。

其次说明动作。

如果输入由用户所设定的摘要视听时间T_Dijest、影像内容的时间分割数n以及影像内容长度T_Content，则时间间隔设定部21与上述实施形态2相同，根据这些输入信息，设定所取出的重要镜头的个数N_shot、内容分割时间间隔T_Segment以及镜头视听时间T_Play。

N_shot＝n

T_Segment＝T_Content/n

T_Play＝T_Dijest/n

在这样设定了的情况下，用户能够对n个镜头从开头起各视听T_Play秒钟。

AV切割点判定部121与上述实施形态20相同，从切割点检测部1的判定结果和音量判定部112的判定结果，最终进行切割点的判定。

镜头长度计算部2在从AV切割点判定部121输出的切割点的判定结果表示不是切割点的含义的情况下，不特别实施处理，而在切割点的判定结果表示是切割点的含义的情况下，与上述实施形态1相同，求出当前帧的时刻与存储在镜头开始点缓冲器3中的前一个镜头开始点的时刻的时刻差，把该时刻差作为镜头长度输出到重要镜头判定部4。

即，如果镜头长度计算部2计算出镜头长度，则最长镜头判定部22对由该镜头长度计算部2计算出的镜头长度与存储在最长镜头长度缓冲器23中的最长镜头的镜头长度进行比较，在由该镜头长度计算部2计算出的镜头长度比存储在最长镜头长度缓冲器23中的最长镜头的镜头长度长的情况下，判别为由镜头长度计算部2计算了镜头长度的镜头在当前时刻是最长的镜头。

时间分割判定部25与上述实施形态2相同，输出在由时间间隔设定部21所设定的内容分割时间间隔T_Segment中的重要镜头的开始点的时刻。

但是，这种情况下，需要设置存储最长镜头的下一个镜头的开始点的时刻的缓冲器。

如从上述所明确的那样，依据本实施形态21，由于构成为通过进行基于影像和音量双方的镜头的判别，在镜头长度计算部2每次计算出镜头长度时，对由该镜头长度计算部2直到当前时刻为止所计算出的镜头长度相互进行比较，在由时间间隔设定部21所设定的时间间隔中检测镜头长度最长的镜头，因此例如不会像多数的影像处理方法或者声音处理方法等那样实施复杂的处理而提高计算负荷，起到能够容易地把握内容中的重要镜头的效果。

如果把本实施形态21适用在录像装置、录音装置或者再生装置中，则由于知道基于影像和音量的重要镜头的开始时刻或者镜头再生时间，因此能够进行影像的自动编辑或者简便的摘要再生的视听。另外，通过使用音量小的部分，能够减轻连续视听重要镜头时的不自然感。

实施形态22

图30是表示本发明实施形态22的影像摘要装置的结构图，图中，由于与图6以及图27相同的号码表示相同或者相当的部分，因此省略说明。

其次说明动作。

N_shot＝n

T_Segment0＝T_Content/n

T_Play0＝T_Dijest/n

另外，时间间隔设定部31也可以不是输入数值的信息，而是输入语句的信息，分析该语句，判别摘要视听时间T_Dijest、影像内容的时间分割数n以及影像内容长度T_Content。

P_Start＝O

P_{End_temp}＝T_Content/N_shot＝T_Segment0

AV切割点判定部121与上述实施形态20相同，从切割点检测部1的判定结果和音量判定部112的判定结果最终进行切割点的判定。

P_End＝P_Now+P_{Shot_Start}-P_Start

T_Play＝(P_End-P_Start)*T_Play0/T_Segment0

更新后的镜头代表范围如下。

P_Start＝P_End

P_{End_temp}＝P_End+T_Content/N_Shot＝P_End+T_Segment0

如从上述所明确的那样，依据本实施形态22，由于构成为通过进行基于影像和音量的镜头的判别，根据由最长镜头判定部22判别出的最长镜头的开始时刻和镜头长度更新镜头代表范围，因此起到能够使内容的划分点或者划分了的内容中的重要镜头的再生时间适应性变化的效果。另外，通过使用音量小的部分，能够减轻连续视听重要镜头时的不自然感。

实施形态23

图31是表示本发明实施形态23的影像摘要装置的结构图，图中，由于与图14以及图27相同的号码表示相同或者相当的部分，因此省略说明。

其次说明动作。

如果AV切割点判定部121最终检测出切割点，则把该切割点的检测时刻存储到镜头开始点缓冲器3。

依据本实施形态23，通过进行基于影像和音量的镜头的判别，能够仅视听重要镜头。另外，通过使用音量小的部分，能够减轻连续视听重要镜头时的不自然感。

实施形态24

图32是表示本发明实施形态24的影像摘要装置的结构图，图中，由于与图15以及图27相同的号码表示相同或者相当的部分，因此省略说明。

其次说明动作。

T_Segment＝T_Content/n

T_{S_Dijest}＝T_Dijest/n

AV切割点判定部121与上述实施形态20相同，从切割点检测部1的判定结果和音量判定部112的判定结果，最终实施切割点的判定，把其判定结果输出到镜头开始点缓冲器3以及重要镜头判定部81。

另外，如果AV切割点判定部121最终检测出切割点，则把该切割点的检测时刻存储到镜头开始点缓冲器3。

在上述实施形态23的情况下，当内容非常长时，有时内容整体的镜头长度排序的计算处理量非常庞大，而在本实施形态24中，由于只要在第i个区间中计算镜头长度排序即可，因此即使在内容非常长的情况下，也不会导致计算处理量的庞大化，用户能够仅视听基于影像和音量的重要镜头。

实施形态25

图33是表示本发明实施形态25的影像摘要装置的结构图，图中，由于与图16以及图27相同的号码表示相同或者相当的部分，因此省略说明。

其次说明动作。

如果AV切割点判定部121最终检测出切割点，则把该切割点的检测时刻存储在镜头开始点缓冲器3。

如果影像结束而接收到影像结束信号，则镜头统计处理部101与上述实施形态11相同，从镜头开始点缓冲器3取得切割点的检测时刻(音量降低点的检测时刻)，从该检测时刻计算以各切割点为起点的镜头的镜头长度，求出与该镜头长度有关的统计性的分布函数。

依据本实施形态25，能够根据所利用的计算机的能力改变统计处理的精度，即使在便携设备等中，用户也能够仅视听基于影像和音量的重要镜头。另外，通过使用音量小的部分，能够减轻连续视听重要镜头时的不自然感。

实施形态26

图34是表示本发明实施形态26的影像摘要装置的结构图，图中，由于与图19以及图27相同的号码表示相同或者相当的部分，因此省略说明。

其次说明动作。

T_Segment＝T_Content/n

T_{S_Dijest}＝T_Dijest/n

AV切割点判定部121与上述实施形态20相同，从切割点检测部1的判定结果和音量判定部112的判定结果，最终实施切割点的判定，把其判定结果输出到镜头开始点缓冲器3以及镜头统计处理部101。

如果影像结束而接收到影像结束信号，则镜头统计处理部101与上述实施形态12相同，在由时间间隔设定部91所设定的时间间隔中，从镜头开始点缓冲器3取得切割点的检测时刻(音量降低点的检测时刻)，从该检测时刻计算以各切割点为起点的镜头的镜头长度，求出与该镜头长度有关的统计性的分布函数。

在本实施形态26中，即使在用便携设备等计算处理量少的计算机处理非常长的内容的情况下，通过调整分割处理或者统计处理的精度，用户能够仅视听基于影像和音量的重要镜头。

产业上的可利用性

如上所述，本发明的影像摘要装置由于用户能够容易地把握重要镜头，因此适于在需要从影像信号抽取重要区间的影像等情况中使用。

Claims

1.一种影像摘要装置，其特征在于，具备：

检测影像的切割点的切割点检测单元；

由上述切割点检测单元检测出了切割点的情况下，计算以上述切割点的前一个切割点为起点的镜头的镜头长度的镜头长度计算单元；

以由上述镜头长度计算单元计算出的镜头长度作为判别材料，判别以由上述切割点检测单元检测出的切割点的前一个切割点为起点的镜头是否是重要镜头的重要镜头判别单元。

2.根据权利要求1所述的影像摘要装置，其特征在于，

重要镜头判别单元在由镜头长度计算单元计算出的镜头长度比预先设定的镜头长度长的情况下，判别为以由切割点检测单元检测出的切割点的前一个切割点为起点的镜头是重要镜头、或者以前一个切割点为起点的镜头的下一个镜头是重要镜头、或者以前一个切割点为起点的镜头和下一个镜头是重要镜头。

3.一种影像摘要装置，其特征在于，具备：

检测影像的切割点的切割点检测单元；

在由上述切割点检测单元检测出了切割点的情况下，计算以上述切割点的前一个切割点为起点的镜头的镜头长度的镜头长度计算单元；

设定分割影像的时间间隔的时间间隔设定单元；

最长镜头检测单元，在上述镜头长度计算单元每次计算出镜头长度时，对由上述镜头长度计算单元一直到当前时刻为止所计算出的镜头长度进行相互比较，检测出由上述时间间隔设定单元所设定的时间间隔中镜头长度最长的镜头、最长的镜头的下一个镜头、或者最长的镜头和下一个镜头。

4.根据权利要求3所述的影像摘要装置，其特征在于，

时间间隔设定单元根据由最长镜头检测单元检测出的最长镜头的开始时刻和镜头长度更新时间间隔。

5.一种影像摘要装置，其特征在于，具备：

从影像信号抽取表示影像特征的特征量的特征量抽取单元；

从由上述特征量抽取单元本次抽取出的特征量和由上述特征量抽取单元前一次抽取出的特征量计算特征量之间的距离的距离计算单元；

在上述距离计算单元每次计算出特征量之间的距离时，对由上述距离计算单元一直到当前时刻为止所计算出的特征量之间的距离进行相互比较，检测出最大距离的最大距离检测单元；

如果上述最大距离检测单元检测出最大距离，则从由上述最大距离检测单元前一次检测出了最大距离的时刻的帧的时刻到当前帧的时刻为止的时刻差比预先设定的时刻差大的情况下，把当前帧的时刻作为重要帧的开始时刻输出的重要帧检测单元。

6.一种影像摘要装置，其特征在于，具备：

设定分割影像的时间间隔的时间间隔设定单元；

检测影像的切割点的切割点检测单元；

从影像信号抽取表示影像特征的特征量的特征量抽取单元；

从由上述特征量抽取单元本次抽取出的特征量与由上述特征量抽取单元前一次抽取出的特征量计算出特征量之间的距离的距离计算单元；

由上述切割点检测单元检测出了切割点的情况下，在上述距离计算单元每次计算出特征量之间的距离时，对由上述距离计算单元一直到当前时刻为止所计算出的特征量之间的距离进行相互比较，检测出最大距离的最大距离检测单元；

由上述时间间隔设定单元所设定的时间间隔中，把由上述最大距检测单元检测出了最大距离的帧的时刻作为重要镜头的开始时刻输出的重要镜头检测单元。

7.根据权利要求6所述的影像摘要装置，其特征在于，

时间间隔设定单元根据由最大距离检测单元检测出了最大距离的帧的时刻和最大距离更新时间间隔。

8.一种影像摘要装置，其特征在于，具备：

检测影像的切割点的切割点检测单元；

从影像信号抽取表示影像特征的特征量的特征量抽取单元；

在上述距离计算单元每次计算出特征量之间的距离时，计算由上述距离计算单元一直到当前时刻为止所计算出的特征量之间的距离的平均值的平均值计算单元；

在由上述距离计算单元计算出的特征量之间的距离与由上述平均值计算单元计算出的平均值的差分值小于预先所设定的最小值的情况下，作为略图候选图像存储上述影像信号的影像的略图候选图像存储单元；

如果由上述切割点检测单元检测出切割点，则从由上述略图候选图像存储单元所存储的略图候选图像生成略图的略图生成单元。

9.根据权利要求1所述的影像摘要装置，其特征在于，

设有：存储由重要镜头判别单元所判别的重要镜头的镜头长度的重要镜头长度存储单元；从由上述重要镜头长度存储单元所存储的重要镜头的镜头长度和预先所设定的摘要视听时间，计算出重要镜头的再生时间的再生时间计算单元。

10.根据权利要求1所述的影像摘要装置，其特征在于，

切割点检测单元包括：从影像信号抽取表示影像特征的特征量的特征量抽取单元；从由上述特征量抽取单元本次抽取出的特征量和由上述特征量抽取单元前一次抽取出的特征量计算出特征量之间的距离的距离计算单元；求出由上述距离计算单元所计算出的特征量之间的距离的统计量，从上述统计量计算出切割点判定用的阈值的阈值计算单元；对由上述距离计算单元所计算出的特征量之间的距离与由上述阈值计算单元所计算出的阈值进行比较，从上述比较结果判别切割点的切割点判别单元。

11.一种影像摘要装置，其特征在于，具备：

检测影像的切割点的切割点检测单元；

存储由上述切割点检测单元检测出了切割点的时刻的镜头开始点存储单元；

从存储在上述镜头开始点存储单元中的时刻计算出以各切割点为起点的镜头的镜头长度，与所希望的摘要视听时间相匹配地，从多个镜头中把镜头长度长的镜头优先决定为再生对象的镜头的重要镜头判定单元。

12.一种影像摘要装置，其特征在于，具备：

设定分割影像的时间间隔的时间间隔设定单元；

检测影像的切割点的切割点检测单元；

在由上述时间间隔设定单元所设定的时间间隔中，从存储在上述镜头开始点存储单元中的时刻计算出以各切割点为起点的镜头的镜头长度，与所希望的摘要视听时间相匹配地，从多个镜头中把镜头长度长的镜头优先决定为再生对象的镜头的重要镜头判定单元。

13.一种影像摘要装置，其特征在于，具备：

检测影像的切割点的切割点检测单元；

从存储在上述镜头开始点存储单元中的时刻计算出以各切割点为起点的镜头的镜头长度，求出与上述镜头长度有关的统计性的分布函数，与所希望的摘要视听时间相匹配地，从多个镜头中，根据上述分布函数决定再生对象的镜头的重要镜头判定单元。

14.一种影像摘要装置，其特征在于，具备：

设定分割影像的时间间隔的时间间隔设定单元；

检测影像的切割点的切割点检测单元；

在由上述时间间隔设定单元所设定的时间间隔中，从存储在上述镜头开始点存储单元中的时刻计算以各切割点为起点的镜头的镜头长度，求出与上述镜头长度有关的统计性的分布函数，与所希望的摘要视听时间相匹配地，从多个镜头中，根据上述分布函数决定再生对象的镜头的重要镜头判定单元。

15.一种影像摘要装置，其特征在于，具备：

检测影像中的声音的无声点的无声点检测单元；

由上述无声点检测单元检测出了无声点的情况下，计算以上述无声点的前一个无声点为起点的镜头的镜头长度的镜头长度计算单元；

把由上述镜头长度计算单元所计算出的镜头长度作为判别材料，判别以由上述无声点检测单元检测出的无声点的前一个无声点为起点的镜头是否是重要镜头的重要镜头判别单元。

16.一种影像摘要装置，其特征在于，具备：

设定分割影像的时间间隔的时间间隔设定单元；

检测影像中的声音的音量小于阈值的音量降低点的音量降低点检测单元；

在由上述音量降低点检测单元检测出了音量降低点的情况下，计算以上述音量降低点的前一个音量降低点为起点的镜头的镜头长度的镜头长度计算单元；

最长镜头检测单元，在上述镜头长度计算单元每次计算出镜头长度时，对由上述镜头长度计算单元一直到当前时刻为止所计算出的镜头长度进行相互比较，在由上述时间间隔设定单元所设定的时间间隔中，检测出镜头长度最长的镜头、最长的镜头的下一个镜头、或者最长的镜头和下一个镜头。

17.根据权利要求16所述的影像摘要装置，其特征在于，

时间间隔设定单元根据由最长镜头检测单元所检测出的最长的镜头的开始时刻和镜头长度更新时间间隔。

18.一种影像摘要装置，其特征在于，具备：

存储由上述音量降低点检测单元检测出了音量降低点的时刻的镜头开始点存储单元；

从存储在上述镜头开始点存储单元中的时刻计算以各音量降低点为起点的镜头的镜头长度，与所希望的摘要视听时间相匹配地，从多个镜头中，把镜头长度长的镜头优先决定为再生对象的镜头的重要镜头判定单元。

19.一种影像摘要装置，其特征在于，具备：

设定分割影像的时间间隔的时间间隔设定单元；

在由上述时间间隔设定单元所设定的时间间隔中，从存储在上述镜头开始点存储单元中的时刻计算出以各音量降低点为起点的镜头的镜头长度，与所希望的摘要视听时间相匹配地，从多个镜头中，把镜头长度长的镜头优先决定为再生对象的镜头的重要镜头判定单元。

20.一种影像摘要装置，其特征在于，具备：

从存储在上述镜头开始点存储单元中的时刻计算以各音量降低点为起点的镜头的镜头长度，求出与上述镜头长度有关的统计性的分布函数，与所希望的摘要视听时间相匹配地，从多个镜头中，根据上述分布函数决定再生对象的镜头的重要镜头判定单元。

21.一种影像摘要装置，其特征在于，具备：

设定分割影像的时间间隔的时间间隔设定单元；

在由上述时间间隔设定单元所设定的时间间隔中，从存储在上述镜头开始点存储单元中的时刻计算出以各音量降低点为起点的镜头的镜头长度，求出与上述镜头长度有关的统计性的分布函数，与所希望的摘要视听时间相匹配地，从多个镜头中，根据上述分布函数决定再生对象的镜头的重要镜头判定单元。

22.根据权利要求1所述的影像摘要装置，其特征在于，

切割点检测单元在检测出影像的切割点时，检测影像中的声音的音量小于阈值的音量降低点，从检测出的切割点中，检测与上述音量降低点同步的切割点。

23.根据权利要求11所述的影像摘要装置，其特征在于，

重要镜头判定单元从多个镜头中把镜头长度长的镜头优先决定为再生对象的镜头，决定该镜头的再生时间。