CN102763407A

CN102763407A - 视频处理装置、视频处理方法及视频处理程序

Info

Publication number: CN102763407A
Application number: CN2010800512989A
Authority: CN
Inventors: 中手慎; 猪羽涉; 新关亮太
Original assignee: JVCKenwood Corp
Current assignee: JVCKenwood Corp; JVCKenwood Holdings Inc
Priority date: 2009-11-13
Filing date: 2010-11-11
Publication date: 2012-10-31
Also published as: JP2011124979A; WO2011059029A1; US20120230588A1

Abstract

场景内摘要区间数决定部（16）把作为摘要区间提取的总剪辑数（Ac）分配给摘要生成对象场景中的各场景，特征量检测部（17）从在提取的摘要区间数在1以上的场景即剪辑提取场景中包含的帧中选择多个代表帧，把各代表帧内存在的被摄影体的脸的数量、代表帧内的最大的脸的位置以及最大的脸的大小中的至少一个，作为各代表帧的特征量来检测，重要度计算部（20）根据各代表帧的特征量计算各代表帧的重要度，摘要区间选择部（21）根据各剪辑提取场景中的代表帧的特征量以及重要度决定要从各剪辑提取场景中选择的摘要区间。

Description

视频处理装置、视频处理方法及视频处理程序

技术领域

本发明涉及生成视频数据的摘要的视频处理装置、视频处理方法及视频处理程序。

背景技术

用户为从设备中保存的许多视频数据中找出想要看的视频数据，例如可以通过视频的快进再生来查找目的视频，但是这需要很大的时间和劳力。因此提出生成视频数据的摘要，使用摘要容易检索希望的视频数据的技术。

例如，在专利文献1中提出了一种视频信息记录再生装置，其能够与称为新闻或者戏剧、音乐节目这样的节目的种类一致，适当提取特征区间即对于该节目重要的区间，生成摘要视频后再生。

现有技术文献

专利文献

专利文献1：日本特许第4039873号公报

发明内容

但是，在专利文献1记载的技术中，被判断为重要的区间的部分集中于视频全体的例如序幕中的情况下，生成仅将该部分作为摘要再生，而完全不再生其以外的部分的摘要。用这样的摘要，用户难于把握视频全体的内容。

另外，在专利文献1中，针对每一场景检测特征量，根据该特征量评价场景，选择场景全体或者场景中预定的一部分区间作为摘要。

但是在该方法中，例如在对于全体10分钟中成为值得看的场面的重要的区间仅1分钟的场景，选择该场景全体作为摘要的情况下，9分钟期间成为不特别值得看的场景。另外，即使在选择该场景的一部分作为摘要的情况下，也有从不值得看的场面的9分钟期间中选择摘要的可能。

鉴于上述做出本发明，其目的是提供能够生成用户容易把握视频全体的内容的摘要的视频处理装置、视频处理方法及视频处理程序。

用于解决课题的手段

根据本发明的一个实施方式，提供一种视频处理装置，其特征在于，具有：场景内摘要区间数决定部，用于决定从视频数据的各场景中提取的摘要区间数；特征量检测部，用于从通过上述场景内摘要区间数决定部决定的上述摘要区间数为1以上的场景即剪辑提取场景中包含的帧中选择多个代表帧，把在上述各代表帧内存在的被摄影体的脸的数量、上述各代表帧内的最大的脸的位置以及最大的脸的大小中的至少一个，作为上述各代表帧的特征量来检测；重要度计算部，用于根据上述特征量来计算上述各代表帧的重要度；摘要区间选择部，用于根据上述特征量以及上述重要度，从上述剪辑提取场景中选择通过上述场景内摘要区间数决定部决定的数的剪辑作为上述摘要区间；以及再生部，用于再生通过上述摘要区间选择部选择的上述摘要区间。

根据本发明的另外一种实施方式，提供一种视频处理方法，其特征在于，包含：决定从视频数据的各场景中提取的摘要区间数的步骤；从上述摘要区间数为1以上的场景即剪辑提取场景中包含的帧中选择多个代表帧，把在上述各代表帧内存在的被摄影体的脸的数量、上述各代表帧内的最大的脸的位置以及最大的脸的大小中的至少一个，作为上述各代表帧的特征量来检测的步骤；根据上述特征量计算上述各代表帧的重要度的步骤；根据上述特征量以及上述重要度，从上述剪辑提取场景中选择通过上述决定摘要区间数的步骤决定的数量的剪辑作为上述摘要区间的步骤；以及再生通过上述摘要区间选择部选择的上述摘要区间的步骤。

根据本发明的另外一种实施方式，提供一种视频处理程序，用于使计算机执行下述步骤：决定从视频数据的各场景中提取的摘要区间数的步骤；从上述摘要区间数为1以上的场景即剪辑提取场景中包含的帧中选择多个代表帧，把在上述各代表帧内存在的被摄影体的脸的数量、上述各代表帧内的最大的脸的位置以及最大的脸的大小中的至少一个，作为上述各代表帧的特征量来检测的步骤；根据上述特征量计算上述各代表帧的重要度的步骤；根据上述特征量以及上述重要度，从上述剪辑提取场景中选择通过上述决定摘要区间数的步骤决定的数量的剪辑作为上述摘要区间的步骤；以及再生通过上述摘要区间选择部选择的上述摘要区间的步骤。

发明的效果

根据本发明，能够生成用户容易把握视频全体的内容的摘要。

附图说明

图1是表示本发明的实施方式的视频处理装置的结构的框图。

图2是表示决定给各场景分配的剪辑数的过程的流程图。

图3是表示分组的一例的图。

图4是表示剪辑提取场景的帧结构的一例的示意图。

图5是说明代表帧的特征量的图。

图6是表示剪辑提取场景中的各代表帧的特征量的一例的图。

图7是表示剪辑提取场景中的各代表帧的重要度的一例的图。

图8是表示剪辑提取场景中的各代表帧的重要度的另一例的图。

图9是表示决定摘要区间的过程的流程图。

图10是表示摘要区间的示意图。

具体实施方式

下面参照附图说明本发明的实施方式。

图1是表示本发明的实施方式的视频处理装置的结构的框图。图1表示的视频处理装置10具有视频数据存储部11、摘要生成对象场景指定部12、总剪辑数决定部13、分组部14、组内摘要区间数决定部15、场景内摘要区间数决定部16、特征量检测部17、场景分割部18、场景特征判定部19、重要度计算部20、摘要区间选择部21、摘要数据存储部22、以及再生部23。

视频数据存储部11具有硬盘、半导体存储介质等非易失性的存储介质，存储用视频摄像机等记录的视频数据。视频数据存储部11也可以采用可从视频处理装置10装卸的结构。

给在视频数据存储部11中存储的视频数据附加包含用视频摄像机等摄影设备摄影的视频数据中的各场景的摄影开始时刻、摄影结束时刻、摄影场所等的摄影信息。摄影信息可以在摄影时用摄影设备取得。这里，所谓场景指一系列摄影动作中的从摄影开始到摄影结束的段落。

摘要生成对象场景指定部12从视频数据存储部11中存储的场景中指定成为摘要生成对象的场景。可以根据由用户对于操作输入部（未图示）的操作，逐一指定摘要生成对象场景，也可以把通过用户操作选择的两个场景之间已摄影的所有场景作为摘要生成对象场景。另外，也可以根据用户操作指定日期，把指定的日子摄影的全部场景作为摘要生成对象场景。

总剪辑数决定部13，从用摘要生成对象场景指定部12指定的摘要生成对象场景的全体中决定作为摘要而再生的区间的剪辑（摘要区间）的数的总剪辑数Ac。

总剪辑数Ac也可以通过用户操作指定，或者也可以由用户指定摘要的长度，根据该值决定总剪辑数Ac。

在这样根据摘要的长度决定总剪辑数Ac的情况下，总剪辑数决定部13预先设定好成为剪辑的平均时间的标准的时间，根据该值计算总剪辑数Ac。

例如，在把剪辑的平均时间的标准设定为10秒时，如果用户指定摘要的长度为180秒，则Ac=180÷10=18，总剪辑数Ac成为18剪辑。

此外，在根据摘要的长度计算总剪辑数Ac的情况下，摘要的长度也可以不通过用户操作输入，而根据摘要生成对象场景的合计摄影时间等信息自动计算。

分组部14根据场景间的摄影间隔或者摄影内容等，进行摘要生成对象场景中的场景的分组。例如，通过在日本特开2009－99120号公报中记载的方法进行分组。由此，把在接近的时刻或场所摄影的场景彼此汇总分组，或者把摄影了相同内容的场景彼此汇总分组。

组内摘要区间数决定部15给各组分配由总剪辑数决定部13决定的总剪辑数Ac，决定要从各组提取的剪辑数。例如，组内摘要区间数决定部15根据属于组的场景数、或者属于组的场景的合计摄影时间分配剪辑。

场景内摘要区间数决定部16给组内的各场景分配用组内摘要区间数决定部15决定的各组的剪辑数，决定从各场景选择的剪辑数。

特征量检测部17，从由场景内摘要区间数决定部16分配了一个以上的剪辑的剪辑提取场景中包含的帧中选择多个代表帧，检测各代表帧的特征量。例如，特征量检测部17把在各代表帧内存在的被摄影体的脸的数量、代表帧内的最大的脸的位置、以及最大的脸的大小，作为代表帧的特征量来检测。

场景分割部18把分配了两个以上的剪辑的剪辑提取场景分割为与所分配的剪辑数相同数量的分割场景。例如，场景分割部18以分配的剪辑数等分剪辑提取场景，把分配了两个剪辑的1分钟的场景等分为前半30秒、后半30秒的两个分割场景。

场景特征判定部19对于各剪辑提取场景根据代表帧的特征量等判别场景的特征。对于用场景分割部18分割的剪辑提取场景针对每一分割场景判别场景的特征。

例如，场景特征判定部19根据用特征量检测部17检测出的被摄影体的脸的数量，把被摄影体是一人还是多人作为场景的特征判定。

重要度计算部20根据各代表帧的特征量计算各代表帧的重要度。重要度计算部20对于场景的每一个特征存储重要度计算法，通过与用场景特征判定部19决定的剪辑提取场景（在被分割的情况下为每一分割场景）的特征对应的重要度计算法，根据各代表帧的特征量计算各代表帧的重要度。

摘要区间选择部21根据由特征量检测部17检测出的代表帧的特征量、和由重要度计算部20算出的代表帧的重要度，针对各剪辑提取场景（摘要区间）决定作为剪辑选择的区间。

摘要数据存储部22具有硬盘等非易失性的存储介质，作为摘要数据以时间系列顺序存储由摘要区间选择部21选择的剪辑的信息。摘要数据对于各剪辑包含用于识别提取的场景的场景ID、和剪辑的开始时刻以及结束时刻的信息。场景ID，可以作为以记录顺序给各场景分配的值，也可以作为记录场景的视频文件名。此外，也可以由视频数据存储部11兼做摘要数据存储部22。

再生部23，根据在摘要数据存储部22中存储的摘要数据，以时间系列顺序再生由摘要区间选择部21从在视频数据存储部11中存储的视频数据选择的剪辑（摘要区间），由此进行摘要再生，使在视频处理装置10上连接的显示装置（未图示）显示摘要的视频。

下面说明视频处理装置10的动作。

当由用户进行指定摘要生成对象场景的操作时，摘要生成对象场景指定部12，与用户的操作对应，从在视频数据存储部11中存储的场景中指定摘要生成对象场景。另外，总剪辑数决定部13决定从摘要生成对象场景的全体中作为摘要区间而选择的总剪辑数Ac。

当指定摘要生成对象场景，决定总剪辑数Ac时，视频处理装置10决定要给摘要生成对象场景中的各场景分配的剪辑数。关于该过程，参照图2表示的流程图进行说明。

首先，在步骤S10中，分组部14进行摘要生成对象场景中的各场景的分组。在本实施方式中，如图3所示，作为把摘要生成对象场景分类为从组1到组g的g个组进行说明。

接着，在步骤S20中，组内摘要区间数决定部15给各组分配总剪辑数Ac，决定要从各组中提取的剪辑数。通过给根据场景间的摄影间隔或摄影内容等分类的各组分配剪辑，作为摘要提取的视频不会不平衡，能够把各种场面的视频均衡地加入摘要中。

在本实施方式中，组内摘要区间数决定部15根据

Gc (n) = \frac{\log (L (n)) \times \log (N (n) + 1)}{Σ_{i = 1}^{g} (\log (L (i))) \times \log (N (i) + 1)} \times Ac . . . (1)

，计算从组n（n=1、2、…）中提取的剪辑数Gc（n）。

式中，L（n）是组n的合计摄影时间，N（n）是在组n中包含的场景数。

通过根据式（1）给各组分配剪辑，能够从场景数多、摄影时间长的组中选择多个剪辑。

接着，在步骤S30中，场景内摘要区间数决定部16把表示组的轮流次序的变量n设定为1。

接着，在步骤S40中，场景内摘要区间数决定部16把组n的开始场景的剪辑数设为1。

接着，在步骤S50中，场景内摘要区间数决定部16判断给组n分配的剪辑数Gc（n）是否等于1。在Gc（n）=1的情况下（步骤S50：是），前进到步骤S110，在不是Gc（n）=1的情况下（步骤S50：否），前进到步骤S60。

在步骤S60中，场景内摘要区间数决定部16，在属于组n的场景中的，还未分配剪辑的场景（剪辑数为0的场景）中，把与紧前面的场景的摄影间隔最长的场景的剪辑数设为1。

接着，在步骤S70中，场景内摘要区间数决定部16判断给组n内的场景分配的剪辑数的合计是否达到Gc（n）。在达到Gc（n）的情况下（步骤S70：是），前进到步骤S110，在未达到Gc（n）的情况下（步骤S70：否），前进到步骤S80。

在步骤S80中，场景内摘要区间数决定部16判断组n内的全部场景的剪辑数是否成为1。在全部场景的剪辑数成为1的情况下（步骤S80：是），前进到步骤S90，在有剪辑数是0的场景的情况下（步骤S80：否），返回步骤S60。

在步骤S90中，场景内摘要区间数决定部16，在属于组n的场景中，使（摄影时间）÷（剪辑数）的值是最大的场景的剪辑数增加1。

接着，在步骤S100，场景内摘要区间数决定部16判断给组n内的场景分配的剪辑数的合计是否达到Gc（n）。在达到Gc（n）的情况下（步骤S100：是），前进到步骤S110，在未达到Gc（n）的情况下（步骤S100：否），返回步骤S90。

在步骤S110中，场景内摘要区间数决定部16判断变量n是否是表示最后的组的值g。在n=g的情况下（步骤S110：是），结束处理，在不是n=g的情况下（步骤S110：否），在步骤S120中，场景内摘要区间数决定部16使变量n增加1，其后返回步骤S40。

通过以上的处理，对于从组1到组g的所有的组给组内的各场景进行剪辑的分配。

此外，进行各场景的剪辑的分配的方法不限于上述处理，例如，也可以由用户指定各场景的剪辑数。

另外，也可以从组内的摄影时间长的场景开始按照顺序每次分配一个剪辑。在这种情况下，在总剪辑数Ac比场景数多时，通过从摄影时间长的场景开始按照顺序每次再分配一个剪辑，能够从长的场景中选择多个剪辑。

另外，也可以根据场景间的摄影间隔来分配剪辑。例如，计算各场景间的摄影间隔，从在组内与紧跟前的场景的摄影间隔长的场景开始按照顺序分配剪辑。

另外，也可以组合上述那样的方法和根据摄影内容对场景进行分组来进行剪辑的分配。

将通过场景内摘要区间数决定部16分配了一个以上的剪辑（摘要区间）的场景称为剪辑提取场景。特征量检测部17从在剪辑提取场景中包含的帧中选择每一预定时间的帧作为代表帧，检测表示各代表帧的特征的特征量。

例如如图4所示，假定有由帧f（0）～f（16）的17个帧构成的剪辑提取场景。在图4中，横轴表示各帧的记录时刻。

例如在选择每一秒的帧作为代表帧的情况下，特征量检测部17分别把开始帧f（0）、从摄影开始1秒后记录的帧f（5）、在其1秒后记录的帧f（10），再在其1秒后记录的帧f（15）这四个帧作为代表帧F（0）、F（1）、F（2）、F（3），从各个帧中检测特征量。

在本实施方式中，特征量检测部17把代表帧F（i）（i=0、1、2、…）内存在的被摄影体的脸的数量Num（F（i））、作为代表帧F（i）内的最大的脸的位置、从该最大的脸的中心到帧的四角中的最近的距离Dis（F（i））、以及最大的脸的大小Siz（F（i）），作为代表帧F（i）的特征量来检测。

关于脸的图像的检测，公知各种方法，例如，因为可以使用在日本特许第4158153号公报中记载的技术检测脸的图像，所以这里关于其处理内容省略说明。

图5表示被摄影体的脸存在的帧的一例。在图5表示的帧中最大显示的脸是脸A。另外，因为在帧的四角中与脸A的中心最近的是左上角，所以把从脸A的中心到左上角的距离作为Dis（F（i））。Siz（F（i））取最大显示的脸A的纵向的长度。另外，因为在图5表示的帧中脸显示出3个，所以有Num（F（i））=3。

这些特征量，在摄影时由摄影设备取得，可以读入在文件等中存储的这些特征量，也可以通过特征量检测部17解析视频数据来取得。

在存在通过场景内摘要区间数决定部16分配了两个以上的剪辑的剪辑提取场景的情况下，场景分割部18把该剪辑提取场景分割为与所分配的剪辑数相同数量的分割场景。

接着，场景特征判定部19对于各剪辑提取场景判定场景的特征。对于由场景分割部18分割的剪辑提取场景，对于每一分割场景判别场景的特征。在本实施方式中，场景特征判定部19根据由特征量检测部17检出的代表帧F（i）中的被摄影体的脸的数量Num（F（i）），判定被摄影体是1人还是多人作为特征量。

场景特征判定部19，对于各剪辑提取场景（在被分割的情况下为各分割场景），判别该场景内的各代表帧中的被摄影体的脸的数量是1还是2以上，对脸的数量是1的代表帧的数和脸的数量是2以上的代表帧的数进行计数。

然后，在脸的数量是1的代表帧的数比脸的数量是2以上的代表帧的数多的情况下，把该场景的被摄影体作为1人。另一方面，在脸的数量是2以上的代表帧的数比脸的数量是1的代表帧的数多的情况下，把该场景的被摄影体作为多人。另外，在全部代表帧中一个脸也没有检出的情况下，该场景的被摄影体作为1人。

图6表示1分钟长的剪辑提取场景中的各代表帧的从场景开始起的经过时间以及特征量（Num（F（i））、Dis（F（i））、Siz（F（i）））。以图6的场景为例，关于给剪辑提取场景分配的剪辑数是1的情况和2的情况的各情况，说明场景特征判断部19中的场景的特征的判定。

（1）给剪辑提取场景分配的剪辑数是1的情况

从剪辑提取场景的全部代表帧判别该场景的特征。

在图6中，在全部代表帧中，脸的数量是1的代表帧有28帧，脸的数量是2以上的代表帧有15帧。因此因为脸的数量是1的代表帧的一方比脸的数量是2以上的代表帧多，所以该场景的特征成为“被摄影体是1人”。

（2）给剪辑提取场景分配的剪辑数是2的情况

把剪辑提取场景分割为00：00：00～00：00：29和00：00：30～00：00：59这样两个分割场景，对于各分割场景判别特征。

首先，在00：00：00～00：00：29的分割场景（第一分割场景）中，脸的数量是1的代表帧有15帧，但是没有脸的数量是2以上的代表帧。因此，第一分割场景的特征是“被摄影体是1人”。

另一方面，在00：00：30～00：00：59的分割场景（第二分割场景）中，脸的数量是1的代表帧有13帧，脸的数量是2以上的代表帧有15帧。因此，因为脸的数量是2以上的代表帧的一方比脸的数量是1的代表帧多，所以第二分割场景的特征是“被摄影体是多人”。

当通过场景特征判定部19决定各剪辑提取场景的特征时，重要度计算部20根据该场景的特征，根据各代表帧的特征量计算各代表帧的重要度。重要度计算部20，在计算重要度时，首先求剪辑提取场景中的Num（F（i））、Dis（F（i））、Siz（F（i））各自的最大值MaxNum、MaxDis、MaxSiz。对于通过场景分割部18分割后的剪辑提取场景，对于每一分割场景求这些的值。

使用上述的值，重要度计算部20通过式（2）计算在特征是“被摄影体是1人”的场景中包含的代表帧F（i）的重要度I（F（i））。

I(F(i))＝10Stz(F(i))/MaxSiz+Dis(F(i))/MaxDis …(2)

另外，重要度计算部20通过式（3）计算在特征是“被摄影体是多人”的场景中包含的代表帧F（i）的重要度I（F（i））。

I(F(i))-100Num(F(i))/MaxNum+10Dis(F(i))/MaxDis+Siz(Fi))/MaxSiz …(3)

这里以图6的场景为例，对于给剪辑提取场景分配的剪辑数是1的情况和2的情况的各情况，说明重要度I（F（i））的计算。

（1）给剪辑提取场景分配的剪辑数是1的情况

在这种情况下，当从全体场景求Num（F（i））、Dis（F（i））、Siz（F（i））的最大值时，为MaxNum=3、MaxDis=1000、MaxSiz=500。

然后，把这些值代入式（2），如式（4）那样计算各代表帧的重要度I（F（i））。

I(F(i))＝10Siz(F(i))/500+Dis(F(i))/1000 …(4)

如以上那样算出的重要度I（F（i））表示在图7的表中。

（2）给剪辑提取场景分配的剪辑数是2的情况

在这种情况下，求每一分割场景的特征量的最大值，计算各代表帧F（i）的重要度I（F（i））。

首先，对于第一分割场景（00：00：00～00：00：29），计算各代表帧F（i）的重要度I（F（i））。

根据图6，第一分割场景的特征量的最大值，MaxNum=1，MaxDis=500，MaxSiz=300。

另外，如上述，因为由场景特征判定部19判定第一分割场景的特征是“被摄影体是1人”，所以把上述最大值代入式（2），如式（5）那样那样计算重要度I（F（i））。

I(F(i))＝10Siz(F(i))/300+Dis(F(i))/500 …(5)

接着对于第二分割场景（00：00：30～00：00：59），计算各代表帧F（i）的重要度I（F（i））。

根据图6，第二分割场景的特征量的最大值，MaxNum=3，MaxDis=1000，MaxSiz=500。

另外，如上述，因为由场景特征判定部19判定第二分割场景的特征是“被摄影体是多人”，所以把上述最大值代入式（3），如式（6）那样计算重要度I（F（i））。

I(F(i))＝100Num(F(i))/3+10Dis(F(i))/1000+Siz(Fi))/500 …(6)

以上那样算出的重要度I（F（i））在图8的表中表示。

根据上述的重要度计算法，关于被摄影体是1人的场景，该被摄影体被较大地放大的部分的重要度变大，关于被摄影体是多人的场景，多个人物存在的部分的重要度变大。由此，关于被摄影体是1人的场景，可以在摘要中包含该被摄影体被放大的部分，关于被摄影体是多人的场景，可以在摘要中包含尽可能多的人物存在的部分。

使用这样由重要度计算部20算出的各代表帧的重要度和由特征量检测部17检出的各代表帧的特征量，摘要区间选择部21对于各剪辑提取场景决定作为摘要区间要选择的剪辑的区间。关于该过程，参照图9表示的流程图进行说明。

首先，在步骤S210中，摘要区间选择部21决定剪辑中心帧，该剪辑中心帧成为用于决定剪辑区间的基准。在此，摘要区间选择部21从剪辑提取场景内的代表帧中选择重要度最高的帧作为剪辑中心帧。

接着，在步骤S220中，摘要区间选择部21把变量j设定为1。

接着，在步骤S230中，摘要区间选择部21判断作为剪辑中心帧而选择的代表帧F（i）的在时间系列上的前面j幅的代表帧（i－j）的特征量之一即脸的数量Num（F（i－j））是否是0。在Num（F（i－j））是0的情况下（步骤S230：是），前进到步骤S240，在Num（F（i－j））不是0的情况下（步骤S230：否，前进到步骤S250。

在步骤S240中，摘要区间选择部21把代表帧F（i－j＋1）作为剪辑开始帧，该剪辑开始帧为作为摘要区间而选择的剪辑的最初的帧。之后前进到步骤S290。

在步骤S250中，摘要区间选择部21判断代表帧F（i－j）是否是剪辑提取场景的开头代表帧。在是开头代表帧的情况下（步骤S250：是），前进到步骤S270，在不是开头代表帧的情况下（步骤S250：否），前进到步骤S260。

在步骤S260中，摘要区间选择部21判断变量j是否是第一预定数j1。在j=j1的情况下（步骤S260：是），前进到步骤S270，在不是j=j1的情况下（步骤S260：否），在步骤S280中，摘要区间选择部21使变量j增1，然后返回步骤S230。

在步骤S270中，摘要区间选择部21把代表帧F（i－j）作为剪辑开始帧。

通过到此的处理，摘要区间选择部21从剪辑中心帧开始在时间系列上追溯最大为第一预定数j1前面的代表帧，并依次判断各代表帧的脸的数量，把在时间系列上对于最初检测出的脸的数量是0的代表帧后移1幅的代表帧决定为剪辑开始帧。在从剪辑中心帧开始到第一预定数j1前面代表帧的所有代表帧的脸的数量为1以上的情况下，把从剪辑中心帧起到第一规定数j1前面的代表帧决定为剪辑开始帧。另外，在检测出脸的数量是0的代表帧之前追溯到开始代表帧的情况下，把开始代表帧作为剪辑开始帧。

如果决定了剪辑开始帧，则为了决定成为作为摘要区间而选择的剪辑的最后的帧的剪辑结束帧，在步骤S290中，摘要区间选择部21把变量j设定为1。

接着，在步骤S300中，摘要区间选择部21判断作为剪辑中心帧而选择的代表帧F（i）的在时间系列上j幅后的代表帧F（i＋j）中的脸的数量Num（F（i＋j））是否是0。在Num（F（i＋j））是0的情况下（步骤S300：是），前进到步骤S340，在Num（F（i＋j））不是0的情况下（步骤S300：否），前进到步骤S310。

在步骤S310中，摘要区间选择部21判断代表帧F（i＋j）是否是剪辑提取场景的最终代表帧。在是最终代表帧的情况下（步骤S310：是），前进到步骤S320，在不是最终代表帧的情况下（步骤S310：否），前进到步骤S330。

在步骤S320中，摘要区间选择部21把剪辑提取场景的最终帧作为剪辑结束帧。

在步骤S330中，摘要区间选择部21判断变量j是否是第二预定数j2。在j=j2的情况下（步骤S330：是），前进到步骤S340，在不是j=j2的情况下（步骤S330：否），在步骤S350中，摘要区间选择部21把变量j增1，然后返回步骤S310。

在步骤S340中，摘要区间选择部21把代表帧F（i＋j）作为剪辑结束帧。

通过步骤S290及以后的处理，摘要区间选择部21从剪辑中心帧开始到在时间系列上最大为第二规定数j2之后的代表帧依次判断各代表帧的脸的数量，把最初检出的脸的数量是0的代表帧决定为剪辑结束帧。在从剪辑中心帧开始到第二预定数j2之后的代表帧的所有代表帧的脸的数量是1以上的情况下，把从剪辑中心帧开始第二预定数j2后的代表帧决定为剪辑结束帧。另外，在直到最终代表帧为止也未检测出脸的数量是0的代表帧的情况下，把剪辑提取场景的最终帧作为剪辑结束帧。

通过以上的处理，例如如图10所示，从摘要生成对象场景决定摘要区间。摘要区间为包含各剪辑提取场景内重要度最高的代表帧（剪辑中心帧）的、包含最大（j1＋j2＋1）幅的代表帧的区间。此外，关于通过场景分割部18分割的剪辑提取场景，对于每一分割帧通过上述图9的流程图的处理决定摘要区间。

这里，以图6的场景为例，关于给剪辑提取场景分配的剪辑数为1的情况和为2的情况的各情况，表示摘要区间决定的具体例。这里，设j1=5，j2=15。

（1）给剪辑提取场景分配的剪辑数为1的情况

根据图7的表可知代表帧F（47）的重要度最高。因此，把代表帧F（47）作为剪辑中心帧。

接着决定剪辑开始帧。根据图7的表，因为从剪辑中心帧F（47）开始到其5（=j1）秒前的代表帧F（42）脸的数量都在1以上，所以把剪辑中心帧的5秒前的代表帧F（42）作为剪辑开始帧。

接着决定剪辑结束帧。根据图7的表，因为从剪辑中心帧F（47）开始到最后的代表帧F（59）之间的全部代表帧中脸的数量在1以上，所以把场景的最终帧作为剪辑结束帧。

根据上述，从图6的场景中提取的摘要区间，为从代表帧F（42）到场景的结束，即00：00：42～场景结束的区间。

（2）给剪辑提取场景分配的剪辑数为2的情况

首先，对于第一分割场景（00：00：00～00：00：29）决定摘要区间。根据图8的表，在第一分割场景中，代表帧F（8）的重要度最高。因此，把代表帧F（8）作为剪辑中心帧。

接着决定剪辑开始帧。根据图8的表，因为从剪辑中心帧F（8）开始到其5秒前的代表帧F（3）脸的数量都在1以上，所以把剪辑中心帧F（8）的5秒前的代表帧F（3）作为剪辑开始帧。

接着决定剪辑结束帧。根据图8的表，因为从剪辑中心帧F（8）开始到其8秒后的代表帧F（16）脸的数量在1以上，但是9秒后的代表帧F（17）脸的数量变为0，所以把代表帧F（17）作为剪辑结束帧。

因此，从第一分割场景中提取的摘要区间，为代表帧F（3）～F（17）之间，即00：00：03～00：00：17的区间。

同样，对于第二分割场景决定摘要区间。根据图8的表，在第二分割场景中，代表帧F（43）的重要度最高。因此，把代表帧F（43）作为剪辑中心帧。

接着决定剪辑开始帧。根据图8的表，因为从剪辑中心帧F（43）开始到其5秒前的代表帧F（38）脸的数量都在1以上，所以把剪辑中心帧F（43）的5秒前的代表帧F（38）作为剪辑开始帧。

接着决定剪辑结束帧。根据图8的表，因为从剪辑中心帧F（43）开始到其15（=j2）秒后的代表帧F（58）脸的数量都在1以上，所以把剪辑中心帧F（43）的15秒后的代表帧F（58）作为剪辑结束帧。

因此，从第二分割场景中提取的摘要区间，为代表帧F（38）～F（58）之间，即00：00：38～00：00：58的区间。

根据上述，从图6的场景中，提取00：00：03～00：00：17的区间、和00：00：38～00：00：58的区间这两个区间作为摘要区间。

摘要区间选择部21把上述选择的剪辑的信息以时间系列顺序作为摘要数据存储在摘要数据存储部22中。

然后。再生部23根据在摘要数据存储部22中存储的摘要数据，从在视频数据存储部11中存储的视频数据以时间系列顺序再生摘要区间，使显示装置（未图示）上显示摘要的视频。

如上所述，根据本实施方式，把作为摘要区间提取的总剪辑数Ac分配给摘要生成对象场景中的各场景，根据各剪辑提取场景中的代表帧的特征量以及重要度，决定从各剪辑提取场景选择的摘要区间，所以能够从摘要生成对象场景全体中平衡地选择重要的部分作为摘要区间，能够生成用户容易把握的摘要生成对象场景全体的视频的内容的摘要。

另外，通过判别剪辑提取场景的特征，使用对于每一特征决定的重要度计算法计算代表帧的重要度，能够根据各剪辑提取场景的特征，提取适合的部分作为摘要区间。

此外，作为特征量也可以是检测在各代表帧内存在的被摄影体的脸的数量、各代表帧内的最大的脸的位置、以及最大的脸的大小中的至少一个的结构。另外，重要度的计算法也不限于上述的方法，也可以采用根据各代表帧内存在的被摄影体的脸的数量、各代表帧内的最大的脸的位置、以及最大的脸的大小中的至少一个的特征量计算重要度的结构。

另外，在从一个剪辑提取场景中提取两个以上的摘要区间的情况下，通过分割该剪辑提取场景，判别每一分割场景的特征，根据各分割场景的特征决定摘要区间，能够生成均衡地反映各场景的特征的摘要。

此外，也可以省略分组部14和组内摘要区间数决定部15，不进行摘要制造对象场景的分组，而在场景内摘要区间数决定部16给摘要生成对象场景中的各场景分配总剪辑数Ac。

另外，作为通过特征量检测部17检测的代表帧的特征量，也可以使用颜色信息或者亮度、运动矢量、声音信息等。

另外，作为通过场景特征判定部19判别的场景的特征，也可以使用场景的摄影时刻是上午还是下午、场景的摄影时间是否比预定时间长、背景是室内还是室外、是否记录了人的声音、是否进行拍手、声音水平是否在一定阈值以上等，由重要度计算部使用与那些特征对应的重要度计算法。

本实施方式的视频处理装置10，能够由个人计算机等构成该装置结构的一部分或者全部。在这种情况下，上述说明的装置各部，能够通过计算机的硬件或者软件实现其功能。例如，也可以使用于使计算机执行在上述实施方式中说明的动作的一部分或者全部的程序，存储在计算机的硬盘、CD－ROM等的存储介质、或者通过下载存储在计算机的存储器等中并使用。

产业上的利用可能性

如上所述，根据本发明，能够提供用于生成用户容易地把握视频全体的内容的摘要的视频处理装置。符号说明

10视频处理装置

11视频数据存储部

12摘要生成对象场景指定部

13总剪辑数决定部

14分组部

15组内摘要区间数决定部

16场景内摘要区间数决定部

17特征量检测部

18场景分割部

19场景特征判定部

20重要度计算部

21摘要区间选择部

22摘要数据存储部

23再生部

Claims

1.一种视频处理装置，其特征在于，具有：

场景内摘要区间数决定部，用于决定从视频数据的各场景中提取的摘要区间数；

特征量检测部，用于从通过上述场景内摘要区间数决定部决定的上述摘要区间数为1以上的场景、即剪辑提取场景中包含的帧中选择多个代表帧，把在上述各代表帧内存在的被摄影体的脸的数量、上述各代表帧内的最大的脸的位置以及最大的脸的大小中的至少一个，作为上述各代表帧的特征量来检测；

重要度计算部，用于根据上述特征量来计算上述各代表帧的重要度；

摘要区间选择部，用于根据上述特征量以及上述重要度，从上述剪辑提取场景中选择通过上述场景内摘要区间数决定部决定的数量的剪辑作为上述摘要区间；以及

再生部，用于再生通过上述摘要区间选择部选择的上述摘要区间。

2.根据权利要求1所述的视频处理装置，其特征在于，

还具有场景特征判定部，用于根据上述特征量来判定上述剪辑提取场景中的被摄影体是1人还是多人，

上述重要度计算部对于被摄影体是1人的剪辑提取场景、和被摄影体是多人的剪辑提取场景使用不同的重要度计算式来计算上述重要度。

3.一种视频处理方法，其特征在于，包含：

决定从视频数据的各场景中提取的摘要区间数的步骤；

从上述摘要区间数为1以上的场景即剪辑提取场景中包含的帧中选择多个代表帧，把在上述各代表帧内存在的被摄影体的脸的数量、上述各代表帧内的最大的脸的位置以及最大的脸的大小中的至少一个，作为上述各代表帧的特征量来检测的步骤；

根据上述特征量来计算上述各代表帧的重要度的步骤；

根据上述特征量以及上述重要度，从上述剪辑提取场景中选择由上述决定摘要区间数的步骤决定的数量的剪辑作为上述摘要区间的步骤；以及

再生通过上述摘要区间选择部选择的上述摘要区间的步骤。

4.根据权利要求3所述的视频处理方法，其特征在于，

还包含根据上述特征量判定上述剪辑提取场景中的被摄影体是1人还是多人的步骤，

上述计算重要度的步骤是对于被摄影体是1人的剪辑提取场景、和被摄影体是多人的剪辑提取场景使用不同的重要度计算式来计算上述重要度的步骤。

5.一种视频处理程序，其特征在于，

使计算机执行下述步骤：

决定从视频数据的各场景中提取的摘要区间数的步骤；

根据上述特征量来计算上述各代表帧的重要度的步骤；

根据上述特征量以及上述重要度，从上述剪辑提取场景中选择由上述决定摘要区间数的步骤决定的数的剪辑作为上述摘要区间的步骤；以及

再生通过上述摘要区间选择部选择的上述摘要区间的步骤。

6.根据权利要求5所述的视频处理程序，其特征在于，

还使计算机执行根据上述特征量来判定上述剪辑提取场景中的被摄影体是1人还是多人的步骤，