CN101047795A

CN101047795A - 运动图像分割设备、字幕提取设备、方法和程序

Info

Publication number: CN101047795A
Application number: CNA2007100862287A
Authority: CN
Inventors: 山本晃司
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-03-30
Filing date: 2007-03-09
Publication date: 2007-10-03
Anticipated expiration: 2027-03-09
Also published as: JP2007274154A; EP1845477A2; EP1845477A3; CN100499751C; JP4377887B2; US20070230781A1

Abstract

本发明涉及运动图像分割设备、字幕提取设备、方法和程序，其中的运动图像分割设备包括：(A)用于存储包含时间顺序排列的多个视频帧的3维空间－时间图像的装置(101)；(B)用于提取切片图像中平行于时间轴的多个线段的装置(102，1201)，通过沿平行时间轴的平面，切割空间－时间图像获得所述切片图像，以及(C)用于基于线段的时间域，将空间－时间图像分割成多个场景的装置(103)。

Description

运动图像分割设备、字幕提取设备、方法和程序

技术领域

本发明涉及用于将通过叠加字符和/或图像产生的视频数据分割成场景的运动图像分割设备、方法和程序，以及用于提取包含在视频数据中的字幕的字幕提取设备、方法和程序。

背景技术

根据信息分发，诸如数字广播中的多频道的最近发展，可获得大量视频内容。同时，在记录装置端，根据各种记录装置，诸如硬盘记录器和具有调谐器的个人计算机的速度，视频内容已经变成记录和处理为数字数据并有效地查看。作为各种处理功能中的一个，存在用于将一定量的视频内容分割成预定连贯场景的功能，从而允许检测内容的前沿部分或跳过内容。每一场景的开始点也称为章节点，以及能设置成由装置自动检测，或能由用户自动设置。

存在用于检测字幕以及将出现单一字幕的帧序列视为一个场景的场景分割方法。例如，为检测字幕，将每一帧的图像分割成块，以及从两个连续帧提取在例如亮度方面满足预定条件的块。如果这些块水平或垂直重合，将它们确定为字幕区(参见例如日本专利No.3024574)。

为将出现单一字幕的帧序列设置成一个场景，有必要继续检测字幕。然而，在上述技术中，仅将从两个连续帧获得的信息用作时域中的连续数据。因此，背景亮度的变化可能改变检测字幕区的尺寸，或可能引起检测字幕失败，使得不可能将视频内容分割成场景。特别地，用于将视频内容分割成有意义场景的重要字幕通常可能在该场景的角落显示很长时间。这种重要字幕可能以非饱和颜色、透明或由小的字符形成，由此不显眼，因此不能被可靠地检测。

如上所述，传统的技术不能可靠地检测长时间显示的不显眼字幕。因此，如果基于字幕出现的帧序列，执行场景分割，那么可能获得过多场景，或分割本身是不可能。

发明内容

根据本发明的第一方面，提供一种运动图像分割设备，包括：存储单元，配置成存储包含时间顺序排列的多个视频帧的3维空间-时间图像；提取单元，配置成提取切片图像中平行于时间轴的多个线段，通过沿平行时间轴的平面，切割空间-时间图像获得所述切片图像，以及分割单元，配置成基于线段的时间域，将空间-时间图像分割成多个场景。

根据本发明的第二方面，提供一种字幕提取设备，包括存储单元，存储包含时间顺序排列的多个视频帧的3维空间-时间图像；提取单元，配置成提取切片图像中平行于时间轴的多个线段，通过沿平行时间轴的平面，切割空间-时间图像获得所述切片图像；以及合并单元，配置成在线段间的每一空间-时间距离不大于阈值时，将线段合并成充当字幕区的单一线段。

附图说明

图1是示例说明根据第一实施例的图像分割设备的框图；

图2是示例说明图1的图像分割设备的操作例子的流程图；

图3是示例说明时间-空间图像和切片图像间的关系的视图；

图4A是用在说明由在图1中出现的场景分割单元执行的过程的视图；

图4B是示例说明对应于图4A的场景分割例子的视图；

图5是示例说明在图3中出现的一个线段周围的部分的扩展图；

图6是示例说明图2中的步骤S203采用的线段检测方法的流程图；

图7A是示例说明目标像素和另一像素间的距离的视图；

图7B是示例说明目标像素和各个N像素间的距离的平均值的视图；

图8A是示例说明在垂直于时间轴的方向中，目标像素和与该目标像素相邻的另一像素间的距离的视图；

图8B是示例说明N个像素和与N个像素相邻的各个像素间的距离的平均值的视图；

图9A是示例说明两个距离间的差值的视图，一个距离为目标像素和另一像素间，以及另一距离为另一像素和又一像素间；

图9B是示例说明与目标像素有关的上述两个距离间的差值的平均值的视图；

图10是示例说明在图1中出现的场景分割单元的框图；

图11是示例说明图10的场景分割单元的操作例子的流程图；

图12A是示例说明代替图1的线段检测单元使用的块的框图；

图12B是示例说明代替图1的场景确定单元使用的块的框图；

图13是用在说明当存在低可靠性域时执行的过程中的视图；

图14是用在说明用于高速时间采样压缩、编码运动图像数据的方法中的视图；

图15是用在说明用于随时间采样相同图像数据的另一方法中的视图；

图16是用在说明用于高速空间采样压缩、编码运动图像数据的方法中的视图；

图17是用在说明用于空间采样相同图像数据的另一方法中的视图；

图18是示例说明图1的场景分割单元的框图；

图19A是用在说明由图1的场景分割单元执行的、检测层次树结构的过程中的视图；

图19B是示例说明对应于图19A的场景分割例子的视图；

图20是示例说明在图18中出现的场景分割检测域的操作例子的流程图；

图21A是用在说明由图1的场景分割单元执行的分组过程中的视图；

图21B是示例说明对应于图21A的场景分割例子的视图；

图22A是用在说明由图1的场景分割单元执行的、将视频数据分组成主要内容和其他内容的过程中的视图；

图22B是示例说明对应于图22A的场景分割例子的视图；

图23是包括在图18中出现的场景结构检测域的操作的流程图；

图24是用在说明通过图18中出现的场景结构检测域，改进层次结构中的视图；

图25是用在说明由图18中出现的场景结构检测域执行的、将场景分割成包含CM域的运动图像的过程中的视图；

图26是示例说明根据第二实施例的字幕提取设备的框图；

图27是示例说明图26的字幕提取设备的操作例子的流程图；以及

图28是用在说明图27中的步骤S2702中的视图。

具体实施方式

将参考附图，详细地描述根据本发明的实施例的运动图像分割设备、方法和程序、以及字幕提取设备、方法和程序。

根据实施例的运动图像分割设备、方法和程序用来将通过叠加字符和/或图像形成的视频数据帧临时累积为空间-时间图像，从通过沿平行于时间轴的平面切割空间-时间图像获得的切片图像，提取平行于时间轴的线段，基于通过收集所提取的线段产生的区域，将视频数据分割成场景。另外，根据另一实施例的字幕提取设备、方法和程序用来从视频数据提取字幕。如上所述，字幕表示在屏幕上显示的字符或图像。例如不包含字符的标志也称为字幕。另外，场景表示包括多个视频帧并由起始时间和结束时间指定的运动图像。

运动图像分割设备、方法和程序以及字幕提取设备、方法和程序能精确地将视频数据划分成有意义场景。

在实施例中，字幕出现的域被检测为空间-时间图像中的线段，从而允许视频数据分割成有意义场景。另外，线段的合并允许提取字幕区。在实施例中，即使背景颜色改变，或字符透明或小，也能可靠地检测字幕出现的域，由此能实现高度精度场景分割和字幕区提取。

(第一实施例)

首先参考图1，将描述根据第一实施例的运动图像分割设备。

第一实施例的运动图像分割设备包括空间-时间图像累积单元101、线段检测单元102和场景分割单元103。

空间-时间图像累积单元101接收包含在运动图像中的多个视频帧100，以及将它们累积为单一空间-时间图像。空间-时间图像累积单元101包括存储器，以及累积视频帧和空间-时间图像。稍后，将参考图14至17，描述有关空间-时间图像累积单元101的细节。

线段检测单元102检测在空间-时间图像累积单元101中累积的空间-时间图像中的至少一个中的线段。稍后，将参考图2、3、5至9B、12A和12B，描述有关线段检测单元102的细节。

场景分割单元103基于由线段检测单元102检测的线段，将运动图像(视频数据)分割成场景，以及将场景添加到场景信息104。稍后，将参考图4A、4B、10、11、18、19A、19B、20、21A、21B、22和23，描述有关场景分割单元103的细节。

然后参考图2，将描述图1的运动图像分割设备的操作。在下述描述中，通过相应的参考数字表示与上述类似的元件，以及将不再描述。

首先，空间-时间图像累积单元101提取视频帧以及将其累积在存储器中(步骤S201)。此时，如果已经累积任一视频帧，空间-时间图像累积单元101按采集时间，排列包括当前视频帧的视频帧。重复步骤S201的过程直到获取所有视频帧，或存储器变为满为止(步骤S202)。如果存储器变为满，空间-时间图像累积单元101将空间-时间图像数据的一部分输出到线段检测单元102，由此，线段检测单元102将所获得的空间-时间图像数据叠加到单一空间-时间图像中。

随后，线段检测单元102由单一空间-时间图像生成多个切片图像，以及检测该图像中的多个线段(步骤S203)。稍后，将参考图3，描述切片图像。线段检测单元102检测域信息(也称为线段信息)，其包括表示每一场景的线段的开始时间和结束时间的域时间信息，以及表示每一场景的线段的开始位置和结束位置的域位置信息。如果在步骤S202检测到存储器是满的，由此存在未处理的视频帧，程序返回到步骤S201，其中，重复上述过程直到处理所有视频帧为止(步骤S204)。

随后，场景分割单元103基于用于由线段检测单元102检测的线段的域信息，将视频数据分割成场景(步骤S205)。例如，场景分割单元103将表示每一场景的起始时间的章节点设置为域时间信息。代替起始时间本身，可以将接近起始时间的时间设置为章节点。例如，可以将比起始时间早预定周期的时间设置为章节点。另外，可以将最接近切割点(在其上临时切割视频数据以便例如编辑的点)设置成章节点。

参考图3，将描述空间-时间图像和切片图像间的关系。

在图3中，参考数字300表示空间-时间图像，其是将方向t用作时间轴，按采集时间排列的视频帧集。参考数字301表示从空间-时间图像300提取的单一视频帧。

线段检测单元102使用平行于时间轴的至少一个平面，切割空间-时间图像300。该平面可以是水平面(y为常数)、垂直平面(x为常数)、或斜面、或曲面。线段检测单元102可以使用曲面，首先将空间-时间图像切割成用于字幕很好存在的位置的声音，然后，可以切割图像的发声位置。另外，由于通常在空间-时间图像的结束附近存在字幕，期望使用切割结尾的平面切割该图像。

当平面用于切割时，产生切片图像。如果使用水平面切割空间-时间图像，以及y值逐个偏移，能产生与图像的高度相同数量的多个切片图像。在图3中，通过用y＝s1，s2和s3的三个平面切割空间-时间图像，产生三个切片图像。参考数字302表示y＝s3的切片图像。在通过切割平面获得的切片图像上，包括由参考数字303表示的字幕，字幕和背景间的边缘部分出现为由参考数字304表示的线段集。线段检测单元102检测线段。稍后，将参考图5至9B，描述检测线段的方法。

参考图4A和4B，将描述由图1所示的场景切割单元103执行的TV节目的场景分割例子。

视频帧400包括字幕401和402。图4A示出了其中字幕401表示比赛的拳击较量，以及字幕402表示较量的每一回合的时间。在此假定字幕401对应于将水平轴用作时间轴的图4B中的显示域403，以及字幕402对应于图4B中的显示域404。如果章节点405设置在显示域404中的开始时间以将视频数据分割成场景，则能显示如参考数字406表示的场景列表。章节点405的设置对应于场景分割，由于每个场景点被设置在转变拳击手对或显示拳击每一回合的开始的时间点，与表示图像的简单切换的切割点不同，通过分割，能产生有意义场景。

然后，参考图5，6、7A、7B、8A、8B、9A和9B，描述在图2的步骤S203采用的、检测线段的方法。该方法是各种线段检测方法中的仅一个。

通过扩展包括在图3中的切片图像302中的线段集304的线段之一周围的部分，获得图5的线段500。参考数字501表示目标像素502(用粗线包围)周围的像素排列。将参考图6、7A、7B、8A、8B、9A和9B，描述用于确定目标像素502是否是线段的一部分的方法。

首先，线段检测单元102确定目标像素是否具有某一等级或更高的亮度(步骤S601)。因为许多字幕具有高于背景的亮度，因此执行此操作。如果亮度不低于预定等级，程序进入步骤S602，而如果低于预定等级，确定目标像素不包括在线段中，从而完成该过程。

随后，确定目标像素是否包括在时间轴的方向中颜色连续的像素中(步骤S602)。如果出现在时间轴方向中的目标像素和另一像素间的距离d₁(如图7A所示)小于阈值，则确定目标像素是时间轴方向中连续的颜色分量的一部分。图7A是示例说明在时间轴的方向中出现的目标像素和另一像素间的距离的视图。具体地，将其一特征量，诸如某一颜色或亮度等级间的距离用作距离d₁。作为颜色距离，使用有关RGB或HSV值的欧几里得(Euclidean)距离。H表示色调，S表示色饱和度，以及V表示亮度。存在用于确定的另一方法。即，如图7B所示，计算目标像素和在时间轴方向中的目标像素前后相继出现的各个N个像素(N为预定值)间的距离的平均值<d₁>＝∑d₁/N。如果<d₁>小于阈值，则确定目标像素包括在时间轴方向中颜色连续的像素中。后续过程与上述相同。如果目标像素包括在时间轴方向中颜色连续的像素中，程序进入步骤S604，而如果不包括在像素中，确定目标像素不包括在线段中，从而结束该过程。

在此之后，确定目标像素的边缘强度是否不小于预定值(步骤S604)。如果在垂直于时间轴的方向中目标像素和与之相邻的像素间的距离d₂(如图8A所示)大于阈值，确定目标像素的边缘强度不小于预定值。图8A是示例说明在垂直于时间轴的方向中目标像素和与该目标像素相邻的另一像素间的距离的视图。具体地，将某一特征量，诸如某一颜色或亮度等级间的距离用作距离d₂。作为颜色距离，使用有关RGB或HSV的欧几里得距离。存在用于确定的另一方法。即，如图8B所示，计算在垂直于时间轴的方向中目标像素和与之相邻的像素间的距离，以及在时间轴中目标像素前后相继出现的N个像素以及在垂直于时间轴的方向中与N个像素相邻的各个像素的距离的平均值<d₂>＝∑d₂/N。如果<d2>大于阈值，则确定目标像素的边缘强度不小于预定值。如果目标像素的边缘强度不小于预定值，则确定目标像素包括在线段中，因此结束该过程。相反，如果强度小于预定值，则确定目标像素不包括在线段中，由此结束该过程。

此后，为允许待检测的半透明线段，确定通过从目标像素的边缘强度减去相邻像素的颜色分量中的每一个所获得的差值是否在时间轴方向中逐渐改变(步骤S603)。如果确定差值在时间轴方向中逐渐改变，程序进入步骤S604，而如果差值在时间轴方向中不逐渐改变，确定目标像素不包括在线段中，由此结束该过程。另外，如在图8A的情况下，获得目标像素和空间上与其相邻的另一像素间的、以颜色分量为单位的差值。随后，如图9A所示，获得两个距离间的差值d₃，两个距离中的一个为目标像素和空间上与其相邻的像素间的距离，以及另一距离为正好在目标像素前或后、在时间轴方向中出现的另一像素和与空间上与所述另一像素相邻的又一像素间的距离。如果d₃小于阈值，确定通过从目标像素的边缘强度减去相邻像素的颜色分量中的每一个获得的差值在时间轴方向中逐渐改变。另外，如图9B所示，计算与目标像素有关的上述两个距离间的差值，以及以与上文相同的方式获得的在时间轴方向中在目标像素前后接连出现的相关N个像素的距离间的差值的平均值<d₃>＝∑d₃/N。如果<d3>小于阈值，确定通过从目标像素的边缘强度减去相邻像素的颜色分量中的每一个获得的差值在时间轴方向中逐渐改变。

图6的流程图仅是例子。并非所有步骤S601至S604是必不可少的。可以删除部分步骤，可以改变步骤的顺序，或可以采用其他步骤。其他步骤包括例如扩展每一线段和/或改变用于耦合或除去去耦小区域的阈值的步骤。

在通过图6的流程图例示的过程后，执行每一线段的扩展。例如，确定包括在目标像素四周的九个像素中的至少五个像素是否包括在线段中。如果至少五个像素包括在线段中，也确定目标像素包括在线段中，而如果从线段排除它们，也确定将排除目标像素。因此，扩展线段。用于线段的阈值过程是指用于将目标像素耦合到另一线段，或擦除目标像素的过程。例如，如果目标像素保存在两个线段间，将两个线段组合成新的单一线段，以及目标像素包含在新的线段中。另外，如果目标像素远离线段预定距离或更大，则擦除线段。

参考图10，将描述图1所示的场景分割单元103。图10是详细地示例说明场景分割单元103的结构的框图。

如所示，场景分割单元103包括线段合并单元1001、域长度确定单元1002和场景确定单元1003。

线段合并单元1001接收通过线段检测单元102获得的线段信息1000，以及合并线段。域长度确定单元1002确定线段的域长度。场景确定单元1003由合并的线段确定章节点，以及输出场景信息1004。

参考图11的流程图，将详细地描述场景分割单元1003的操作。

首先，线段合并单元1001在时间轴方向中从线段i的起点到其终点的范围中搜索域，以及搜索具有重叠线段i的域的域的线段j(步骤S1101)。在这种情况下，线段的总数为N，以及i和j是1，2，...，N。如果具有重叠线段i的域的域的线段j存在，则合并单元1001进入步骤S1102，而如果没有这种线段，合并单元1001进入步骤S1105。

线段合并单元1001确定具有重叠域的线段i和j间的距离是否不大于阈值(步骤S1102)。线段i和j间的距离是空间-时间图像中两者间的空间距离。如果这些线段在空间-时间图像中彼此相邻存在，则其间的距离小。通过例如像素的数量表示距离。另外，例如，颜色信息可以用作距离。如果距离不大于阈值，合并单元1001进入步骤S1103，而如果大于阈值，合并单元1001返回到步骤S1101，从而搜索下一线段j。

线段合并单元1001将空间-时间图像中的线段j的区域与同一空间-时间图像中的线段i的区域合并(步骤S1103)。这些区域是由x-，y-和t-坐标表示的三维区域。在此之后，合并单元1001返回到步骤S1101，由此搜索下一线段j。如果不存在下一线段j，合并单元1001进入步骤S1105。

如果在步骤S1105，线段合并单元1001结束包括在某一切片图像中的所有线段i(i＝1，...，N)的处理，进入步骤S1106。如果未完成所有线段的处理，更新i(步骤S1104)，以及返回到步骤S1101，由此重复该过程。由合并单元1001执行到此为止的步骤，以便将在空间-时间图像中以预定密度存在的线段合并成一线段。

随后，如果合并的线段的时间方向域长度小于预定值(阈值)，域长度确定单元1002擦除某一合并的线段(步骤S1106)。作为域长度，例如，使用从时间轴方向中合并的线段的最大值减去其最小值所获得的值。

随后，场景确定单元1003基于合并的线段，确定场景(步骤S1107)。例如，确定域的起始时间和结束时间间的间隔。可以不从域本身的起始时间和结束时间来设置场景，而是从起始时间和结束时间前或后的时间。存在代替场景设置章节点的情形。在这种情况下，在域的起始时间，设置表示场景开始的章节点。代替起始时间本身，可以将起始时间附近的时间设置为章节点。例如，可以将比起始时间早的时间设置为章节点，或最近切割点(其上临时切割例如用于编辑视频数据的点)设置成章节点。

有关线段是否存在的确定结果的可靠性可以在域间不同。现在，参考图12A和12B，描述当考虑可靠性时，代替线段检测单元102和场景确定单元1003使用的块。

使用在图12A中，由参考数字1201表示的块，代替图1的线段检测单元102。块1201包括线段检测单元102和估计值计算单元1203。估计值计算单元1203计算每一域的估计值。具体地，计算单元1203计算每一像素的估计值。例如，计算单元1203计算包括在空间-时间图像累计单元101中存储的空间-时间图像中的切片图像中的每一像素的估计值。估计值表示有关线段是否存在的确定结果的可靠性。估计值越低，确定结果的可靠性越低。估计值可以根据例如空间-时间图像中的背景条件改变。降低可靠性的因素是例如背景的颜色或亮度与字幕类似。

使用图12B中，由参考数字1202表示的块，代替图10所示的场景确定单元1003。块1202包括场景确定单元1003和场景校正单元1204。如果与具有低于某一阈值的估计值的低可靠性对应的起始和结束点包括在估计值计算单元1203的计算结果中，场景校正单元1204从其移出起始和结束点。

参考图13，将描述当低可靠性域存在时执行的过程。

在此假定估计值计算单元1203确定域1301为低可靠域，以及线段检测单元102在该域中检测线段1302失败，这意味着线段1302划分成两个域。当如在该情况下，低可靠域存在于线段的中间部分中时，场景校正单元1204仅在高可靠域中的线段的开始点1303处设置章节点，以及在点1304不设置它。这防止由于分割产生过多场景。块1201和1202能合并在相同域中存在的线段信息，以及由合并的线段确定切割点。

当场景确定单元1003确定场景时，在低可靠域中或附近的位置，不设置起始或结束点。

参考图14，将描述用于使空间-时间图像累积单元101执行视频帧的时间和空间采样(代替获取所有视频帧)以便减少在其中存储的数据的方法。在图2的操作中，视频帧100直接输入到空间-时间图像累积单元101以及形成空间-时间图像。在这种情况下，空间-时间图像累积单元101要求大的存储容量。

首先，将描述使用空间-时间图像累积单元101的时间采样视频帧的方法。为最容易执行时间采样，如果以与视频数据的形式无关有效的规则的间隔，获取视频帧则足以。

参考图14，将描述用于以高速时间采样、压缩、编码MPEG-1或MPEG-2视频数据的方法的具体例子。

在MPEG-1或MPEG-2中，视频数据由以帧为单位编码的I-图像数据项1401和1403，以及由通过编码包含在其他帧中的不同信息获得的多个P-图像数据项和B-图像数据项1402形成。以规则的间隔插入I-图像数据项，以及在I-图像数据项的每一相邻对间，排列P图像和B图像数据项。空间-时间图像累积单元101通过仅提取I图像数据项以及将它们用作输入数据帧数据，执行视频数据帧的时间采样。因此，如果仅解码I图像数据项1401和1403则足以，这导致视频数据的高速处理。

参考图15，将描述使用空间-时间图像累积单元101的时间采样视频数据的另一方法。

在该方法中，在视频数据中，预先检测切割点1501和1502，诸如其上视频数据断续的编辑点。空间-时间图像累积单元101仅获得在切割点1501和1502前后几秒的数据，作为输入视频帧数据。由于非常可能字幕将在这些切割点前后出现或消失，通过在有限范围中执行的过程，能有效地检测它们。

将描述使用空间-时间图像累积单元101的空间采样视频数据的方法。为最容易执行空间采样，如果以规则的间隔，在纵向和横向中，使视频数据经受向下采样则足以，由此定制缩略图。

参考图16，将描述使用空间-时间图像累积单元101，以高速空间采样、压缩、编码MPEG-1或MPEG-2视频数据的方法的具体例子。

在图16中，参考数字1600表示压缩MPEG-1或MPEG-2视频帧。将视频帧1600分成多个小块1601，以及使用DCT，其颜色信息转换成以块为单位的频率信息。当DCT系数配置成如由参考数字1602表示，频率从左上到右下增加时，左上角的系数1603表示直流(DC)分量。将DC分量能视为每一块1601的颜色电平的平均值。使用这些DC分量，能产生由参考数字1604表示的缩小图像数据，其中，一个像素对应于视频帧1600的一个块。由于在该方法中，如果仅解码DC分量则足够以及反转DCT是不必要的，能实现高速处理。

参考图17，将描述使用空间-时间图像累积单元101，执行空间采样的另一方法。

在这种情况下，仅输入除中心部分1701外，视频帧400的周围部分。由于长时间显示用于设置域起始点、域结束点或章节点的字幕，在大多数情况下，在屏幕的周围部分上显示它以便不干扰视频数据的主要内容。因此，如果仅处理除中心部分1701外的周围部分，能实现有效处理。

可以单独或结合使用上述时间和空间采样方法。通过输入由时间/空间采样获得的视频帧，空间-时间图像累积单元101仅需要小的存储容量，因此，能实现高速处理。

(改进)

图4B表示不考虑场景间的关系的情形。然而，实际视频数据通常具有能将粗略分割的场景分割成更小部分，或能根据场景的含义分组的树结构。

参考图18，将参考图1的改进，描述运动图像分割设备，其中，将新的元件添加到图10的场景分割单元103。如所示，场景分割单元103进一步包括场景结构检测单元1801。场景结构检测单元1801接收表示由场景确定单元1003确定的场景的信息以及基于该信息，检测场景的层次结构或组结构等等。

参考图19A和19B，将使用图4A和4B所示的场景分割例子，描述层次树结构的检测。

参考数字1901表示由场景分割获得的章节点。场景结构检测单元1801重构每一拳击较量的场景1902，以及每一拳击较量的每一回合的场景1903作为子节点，从而提供层次树结构。

场景结构检测单元1801基于字幕的显示域的包含关系，确定场景间的层次关系。即，如果表示每一拳击较量的每一回合的时间并用来确定每一回合的场景的字幕显示域404包括在表示每一拳击较量和用来确定每一拳击较量的场景的字幕显示域403中，将其确定为子节点。

参考图20，将描述场景结构检测单元1801的操作。图20是示例说明基于包含关系，检测层次场景的关系的流程图。由于每一显示域对应于线段，利用线段间的包含关系。

首先，搜索在时间轴方向中，从线段i的起始点到结束点的范围中，包括在该域中的线段j(步骤S2001)。在此假定线段的总数为N，以及i，j＝1，...，N。如果存在包括在该域中的线段j，程序进入步骤S2002，而如果不存在这一线段j，程序进入步骤S2004。

在步骤S2002，将线段j添加为线段i的子节点。随后，程序返回到步骤S2001，其中，搜索下一线段j。如果不存在下一线段j，程序进入步骤S2004。

在步骤S2004，如果已经处理所有线段i(i＝1，...，N)，结束该过程，而如果还未处理所有线段，更新i(步骤S2003)，由此返回步骤S2001并重复该过程。

如上所述，场景结构检测单元1801由线段包含关系，构造层次树结构，由此允许切换粗略场景和详细场景的显示。

参考图21A和21B，将描述使用图4A和4B的场景分割例子的场景分组。

参考数字1901表示通过场景分割获得的章节点。场景结构检测单元1801将它们分组成每一拳击较量的场景2101，以及每一拳击较量的每一回合的场景2102。场景结构检测单元1801利用基于特征量，诸如字幕的位置或颜色的相似度的群集，执行分组。

参考图22A和22B，将描述基于分组结果，将视频数据分组成主内容和其他内容的例子。

视频数据包含多个字幕，其通过分组过程分组成不同组。例如，包括在该字幕中的字幕2200设置成特定字幕，以及该字幕的每一显示域2201设置成主内容。例如，字幕2200是广播电台的名称。

参考图23，将描述通过场景结构检测单元1801，将场景分成组以及重放作为主内容的这些组的特定一个的过程。

首先，从线段提取特征量以便获得线段的特征量矢量(步骤S2301)。特征量是例如在屏幕上的显示位置、尺寸或颜色信息。

随后，基于每对线段间的特征量矢量的距离，执行线段的群集(步骤S2302)。将在步骤S2302获得的群集用作组。例如，场景结构检测单元1801确定它们的特征量的相似等级高于阈值的线段属于单一组。特征量表示在图像帧上的显示位置、尺寸和/或颜色信息。

此后，场景结构检测单元1801确定每一组是否满足重放条件，如果它满足重放条件，确定某一组为主内容，以及设置重放包括在某一组中的线段(步骤S2303)。重放条件由例如至少与线段的特征量类似的特征量、或字幕的形状、位置或尺寸形成。如果例如当显示主内容时，仅显示专用于每一广播电台的台标(诸如字幕2200)，可以将其用作重放条件，以便重放仅包括台标的域。

假定在图21B中，将两个场景2101的域设置成t1和t2，以及将六个场景2102的域设置成t3、t4、t5、t6、t7和t8，能将表达式“t1+t2＞t3+t4+t5+t6+t7+t8”用作另一重放条件。如果满足该重放条件，能将域t1和t2用作主内容。即，将通过分组获得的最大(最长)组用作主内容。

如上所述，如果将视频数据分成主内容和其他内容，以及仅重放主内容，能实现短时间观看。

尽管在图23的流程图中，在分组结构中检测满足重放条件的组并显示，将所有线段与重放条件比较，以及可以将仅满足该条件的线段的域用作主内容。

参考图24，将描述使用场景结构检测单元1801，基于分组结构，修改层次树结构的过程。

场景的层次关系的结构能与场景的分组结合。例如，假定如图24所示，已经获得层次树结构2400。当树结构2400基于线段间的包含关系时，同一阶段中的场景不总是具有相同的含义。鉴于此，重构树结构以便属于同一组的场景位于同一阶段中。

参考图25，将描述由场景结构检测单元1801执行的、用于包含商业消息(CM)域的视频数据的场景分割过程。

假定继续视为同一场景并包括在包含CM域2500的视频数据中的域2501(例如某一节目)。通常，在CM域中不显示字幕，因此，将所检测的显示域分割成如由参考数字2502表示的部分，以及设置章节点2503和2504。然而，存在要求在视为同一含义场景的域中，诸如节目的每一部分中，仅设置一个章节点的情形。在这种情况下，场景结构检测单元1801获得CM域信息，以及当视为同一场景的域包含CM域时，不设置章节点。即，章节点2504正好设置在取消CM域后。CM域信息能通过传统的CM检测技术产生。

在第一实施例的上述运动图像分割设备中，将包含字幕的域检测为视频数据中的线段，以及设置域定义点(例如章节点)以便将视频数据精确地分割成场景。

也能通过将通用计算机用作基本硬件，实现运动图像分割设备。即，空间-时间图像累积单元101、线段检测单元102和场景分割单元103能通过使包含在计算机中的微处理器执行程序来实现。在这种情况下，可以通过在计算机中预安装程序，或通过将程序存储在存储器介质，诸如CD-ROM中，或经网络分发它们，然后将它们安装在计算机中来实现运动图像分割设备。

(第二实施例)

参考图26，将描述根据第二实施例的字幕提取设备。

第二实施例的字幕提取设备包括空间-时间图像累积单元101、线段检测单元102和字幕区提取单元2601。字幕区提取单元2601基于由线段检测单元102检测的线段提取字幕，以及输出字幕区信息2602。

参考图27，将描述字幕提取设备的操作。图27是示例说明第二实施例的字幕提取设备的操作例子的流程图。通过将第一实施例的运动图像分割设备的场景分割单元修改成字幕区提取单元，获得第二实施例的字幕提取设备。除字幕区提取单元外，字幕提取设备与运动图像分割设备类似。因此，用相应的参考数字表示与后者类似的前者的元件，以及不再描述。

字幕区提取单元2601将所检测的线段合并成一个线段(步骤S2701)。合并的线段是由x-，y-和t-坐标表示的三维线段。在空间-时间图像中，包含字幕的部分包括按高密度排列的多个线段，以及基于它们的重叠域或其间的空间距离，合并多个线段。

在下一步骤S2702，字幕区提取单元2601基于在步骤S2701合并的线段，输出包括字幕区的字幕信息。字幕信息表示存在字幕的二维区域，现在将参考图28描述。

参考图28，将描述在图27的步骤S2702处采用的、用于从合并的线段获取字幕区的方法。

图28所示以及在步骤S2701合并的合并的线段2800是由x-，y-和t-坐标表示的三维区。字幕区提取单元2601将该区域投射到x-y平面上以便获取x-y平面中的二维字幕区，以及输出表示该区域2801的坐标的字幕信息。另外，字幕区提取单元2601获得环绕所投射的字幕区的矩形区2802，以及将该区域的坐标输出为字幕信息。

如果在某一x-y平面中，合并的线段2800的时间方向长度小于预定值，或小于整个合并的区的预定比率，字幕区提取单元2601可以不将其从x-y-t坐标投射到x-y坐标，即忽略它。

根据第二实施例的上述字幕提取设备检测出现字幕的域，作为视频数据中的线段，以及基于空间-时间图像中的线段，提取字幕区。

本领域的技术人员很容易想到另外的优点和改进。因此，在更宽方面，本发明不限于在此所示和所述的具体的细节和代表性实施例。因此，在不背离如由附加权利要求和它们的等效定义的本发明的一般原理的精神或范围的情况下，可以做出各种改进。

Claims

1.一种运动图像分割设备，其特征在于，包括：

用于存储包含时间顺序排列的多个视频帧的3维空间-时间图像的装置(101)；

用于提取切片图像中平行于时间轴的多个线段的装置(102，1201)，通过沿平行时间轴的平面，切割空间-时间图像获得所述切片图像；以及

用于基于线段的时间域，将空间-时间图像分割成多个场景的装置(103)。

2.如权利要求1所述的设备，其特征在于，当时间域的长度等于或大于阈值时，提取装置(102)提取每一线段。

3.如权利要求1所述的设备，其特征在于，

提取装置(102)包括用于当两个线段的间隔不大于阈值时，将线段中的这两个线段合并成单一线段的装置(102)；以及

在合并单元合并这两个线段后，分割装置(103)将空间-时间图像分割成场景。

4.如权利要求1所述的设备，其特征在于，

提取装置(1201)包括用于以包含在切片图像中的像素为单位，计算表示有关至少一个线段是否被包括在切片图像中的确定结果的可靠性的估计值的装置(1203)；以及

当每一线段的空间域具有等于或高于阈值的估计值时，分割装置(103)分割空间-时间图像。

5.如权利要求1所述的设备，其特征在于，存储装置(101)存储通过临时减少视频帧获得的空间-时间图像的部分。

6.如权利要求1所述的设备，其特征在于，存储装置(101)存储尺寸缩小的视频帧，或仅存储每一视频帧的部分。

7.如权利要求1所述的设备，其特征在于，分割装置(103)包括用于在提取装置从线段提取第一线段和第二线段时，确定包括在从第二线段的时间方向起始点到第二线段的时间方向结束点的范围的显示域中的第一线段属于低于第二线段的层次级的层次级的装置(1001)。

8.如权利要求1所述的设备，其特征在于，分割装置(103)包括用于在提取装置(102)提取至少两个线段以及该至少两个线段间的特征量的相似度不小于阈值时，确定至少这两个线段属于多个组之一的装置(1001)，所述特征量包括至少两个线段中的每一个的位置、至少两个线段中的每一个的尺寸、以及有关该至少两个线段的颜色信息中的至少一个。

9.如权利要求8所述的设备，其特征在于，分割装置(103)将空间-时间图像分割成主内容和其他内容，主内容对应于具有最大时间域的组中的一个组。

10.如权利要求1所述的设备，其特征在于，分割装置(103)将空间-时间图像分割成主内容和其他内容，当至少一个线段包含特定章节和特定图像中的一个时，主内容对应于至少一个线段的时间域。

11.一种字幕提取设备，其特征在于，包括：

用于提取切片图像中平行于时间轴的多个线段的装置(2601)，通过沿平行时间轴的平面，切割空间-时间图像获得所述切片图像；以及

用于在线段间的每一空间-时间距离不大于阈值时，将线段合并成充当字幕区的单一线段的装置(2601)。

12.一种运动图像分割方法，其特征在于，包括：

存储包含时间顺序排列的多个视频帧的3维空间-时间图像；

提取切片图像中平行于时间轴的多个线段，通过沿平行时间轴的平面，切割空间-时间图像获得所述切片图像；以及

基于线段的时间域，将空间-时间图像分割成多个场景。

13.一种字幕提取方法，其特征在于，包括：

存储包含时间顺序排列的多个视频帧的3维空间-时间图像；

在线段间的每一空间-时间距离不大于阈值时，将线段合并成充当字幕区的单一线段。

14.一种存储在计算机可读介质中的运动图像分割程序，其特征在于，包括：

用于指示计算机存取用于存储包含时间顺序排列的多个视频帧的3维空间-时间图像的装置(101)的装置；

用于指示计算机提取切片图像中平行于时间轴的多个线段的装置(102，1201)，通过沿平行时间轴的平面，切割空间-时间图像获得所述切片图像；以及

用于指示计算机基于线段的时间域，将空间-时间图像分割成多个场景的装置(103)。

15.一种存储在计算机可读介质中的字幕提取程序，其特征在于，包括：

用于指示计算机提取切片图像中平行于时间轴的多个线段的装置(2601)，通过沿平行时间轴的平面，切割空间-时间图像获得所述切片图像；以及

用于指示计算机在线段间的每一空间-时间距离不大于阈值时，将线段合并成充当字幕区的单一线段的装置(2601)。