CN1839633A

CN1839633A - 运动对象检测装置和运动对象检测方法

Info

Publication number: CN1839633A
Application number: CN 200580000797
Authority: CN
Inventors: 市村大治郎; 本田义雅
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2004-05-31
Filing date: 2005-05-26
Publication date: 2006-09-27

Abstract

提供了一种运动对象检测装置，其能够以高准确度和低处理负荷、高速地检测运动对象。该装置包括：运动信息提取部件(102)，用于从通过使用频带划分方法和运动预测分量编码进行了视频编码的视频流，提取运动信息，其中频带划分方法用于将图像划分成简化图像、水平方向分量、垂直方向分量、以及对角方向分量；边缘信息提取部件(103)，用于在从视频流的最高有效位平面开始的、按照顺序的一位或多位平面中提取有关水平方向分量、垂直方向分量和对角方向分量的信息；以及运动对象检测部件(106)，用于通过使用所提取的运动信息和边缘信息来检测运动对象，并输出检测结果。由于不需要对视频流进行解码，因此有可能以高准确度和低处理负荷、高速地检测运动对象。

Description

运动对象检测装置和运动对象检测方法

技术领域

本发明涉及一种用于从通过对视频进行编码而生成的视频流检测运动对象的装置和方法。

背景技术

在专利文献1中描述了该运动对象检测装置的传统示例。

该运动对象检测装置被设计成提取用于运动预测补偿编码方案的运动向量，并且通过将运动向量视为特定区域内的对象运动来检测高速的运动对象，而无需对视频流进行解码。图1示出了在专利文献1中描述的传统运动对象检测装置。

在图1中，将图像块的编码模式、由可变长度解码部件1801解码的运动补偿模式和运动向量信息、以及由模式信息检测部件1802检测的模式信息发送到运动对象检测处理部件1803。运动对象检测处理部件1803使用该信息判定该图像块是否是运动对象。使用运动向量、空间相似性判定、时间相似性判定等来进行该判定。

专利文献1：未审查的日本专利公开No.平10-75457

发明内容

本发明所要解决的问题

然而，由于上述传统配置仅仅依赖于不一定准确地表达对象运动的运动向量，因此它不能被认为提供了很高的准确度。也就是，在很多情况下，运动向量生成方法从正被编码的区域之前或之后的图像搜索编码压缩率高的参考区域，并且将对搜索到的区域的参考视为运动向量。为此，仅仅使用运动向量的运动对象检测的准确度不高。

本发明的目的是提供一种用于检测运动对象的装置和方法，其能够以高准确度和低处理负荷，从使用频带划分方法和运动预测补偿编码进行视频编码的视频流，检测高速的运动对象，其中频带划分方法用于将图像划分成简化图像、水平方向分量、垂直方向分量和对角方向分量。

用于解决该问题的手段

根据本发明的运动对象检测装置采用这样的配置，其具有：运动信息提取部件，从使用分层编码和运动预测补偿编码进行视频编码的视频流，提取运动信息，其中分层编码通过将视频划分成多个层来对其进行编码；边缘信息提取部件，从视频流提取边缘信息；以及运动对象检测部件，使用运动信息和边缘信息来检测运动对象，并且输出检测结果。

根据本发明的运动对象检测方法是一种用于从视频流检测运动对象的方法，其具有以下步骤：从使用分层编码和运动预测补偿编码进行视频编码的视频流，提取运动信息，其中分层编码通过将视频划分成多个层来对其进行编码；从视频流提取边缘信息；以及使用所提取的运动信息和边缘信息检测运动对象，这些步骤由检测运动对象的运动对象检测装置执行。

本发明的有益效果

根据本发明，有可能以高准确度和低处理负荷，从使用频带划分方法和运动预测补偿编码进行视频编码的视频流，检测高速的运动对象的轮廓，而无需对视频进行解码，其中频带划分方法用于将图像划分成简化图像、水平方向分量、垂直方向分量和对角方向分量。此外，还有可能同时对视频进行解码。

附图说明

图1示出了传统的运动对象检测装置的配置；

图2示出了根据本发明实施例1的视频解码装置的配置；

图3是根据本发明实施例1的位平面编码的概念图；

图4是示出根据本发明实施例1的视频解码装置的操作的流程图；

图5是示出根据本发明实施例1的视频解码装置的运动对象检测处理的操作的流程图；

图6是根据本发明实施例1的扩展层的流结构图；

图7是根据本发明实施例1的扩展层的位平面k的流结构图；

图8是根据本发明实施例1的扩展层j的位平面k的流结构图；

图9是根据本发明实施例1的基本层的流结构图；

图10是根据本发明实施例1的基本层的区域j的流结构图；

图11A示出了根据本发明实施例1的8×8像素区域中的水平方向分量的示例；

图11B示出了根据本发明实施例1的8×8像素区域中的水平方向分量的另一示例；

图11C示出了根据本发明实施例1的8×8像素区域中的水平方向分量的另一示例；

图12示出了根据本发明实施例2的视频监控系统的配置；

图13示出了根据本发明实施例2的自动跟踪摄像机的配置；

图14示出了根据本发明实施例2的视频编码装置的配置；

图15是示出根据本发明实施例2的自动跟踪摄像机的操作的流程图；

图16是示出根据本发明实施例2的视频编码装置的操作的流程图；

图17是示出根据本发明实施例2的视频监控装置的操作的流程图；

图18是示出根据本发明实施例2的视频监控系统的操作的顺序图；

图19示出了根据本发明实施例3的视频解码装置的配置；以及

图20是示出根据本发明实施例3的视频解码装置的操作的流程图；

具体实施方式

现在，以下将参考附图详细地描述本发明的实施例。

(实施例1)

实施例1示出了将根据本发明的用于检测运动对象的方法和装置应用于视频解码装置的情况。也就是，实施例1被设计成能够对视频流进行解码，同时以高准确度高速地检测视频内的运动对象。

首先，将说明用于本实施例的视频流。该视频流包括基本层和扩展层，并且可以单独地对基本层进行解码，以获得具有低分辨率的视频。扩展层是能够提高基本层的图像质量并获得具有高分辨率的视频的附加信息，并且包括水平、垂直和对角方向上的边缘分量(水平方向分量、垂直方向分量和对角方向分量)。

接下来，将说明用于生成该视频流的方法。

首先，对输入图像进行频带划分，以便生成简化图像、水平分量、垂直分量和对角分量。此外，通过运动预测补偿编码将简化图像编码为可以单独地对视频进行解码的基本层。然后，通过位平面编码将水平方向分量、垂直方向分量和对角方向分量编码为扩展层，以便提高通过对基本层进行解码而获得的视频图像质量。

这里，将说明频带划分。在频带划分中，将图像划分成四个分量：简化图像、水平分量、垂直分量和对角分量。使用小波变换、高通滤波器、低通滤波器和下采样器的组合等来执行该频带划分。此外，可以通过频带组合将通过频带划分而获得的简化图像、水平方向分量、垂直方向分量和对角方向分量恢复成原始图像。通过该频带划分而获得的水平方向分量、垂直方向分量和对角方向分量是可以在数学上计算的与相邻像素的像素值差值，并且不一定需要表达对象的轮廓。例如，在单色水平条纹图案的情况下，在作为水平线的其颜色边界上出现强的垂直分量。

图2是示出根据实施例1的视频解码装置100的配置的方框图，其中应用了本发明的用于检测运动对象的方法和装置。

在图2中，视频解码装置100装备有流输入部件101、基本层解码部件102、扩展层解码部件103、频带组合部件104、视频输出部件105、运动对象检测部件106、以及检测结果输出部件107。

注意，基本层解码部件102、扩展层解码部件103和频带组合部件104对应于本发明的视频解码部件，基本层解码部件102对应于运动信息提取部件，扩展层解码部件103对应于边缘信息提取部件，并且运动对象检测部件106对应于运动对象检测部件。

这里，视频解码部件对输入视频流进行解码，生成并输出视频。运动信息提取部件从输入视频流提取运动信息，并且将它输出到运动对象检测部件。边缘信息提取部件从输入视频流提取边缘信息，并且将它输出到运动对象检测部件。运动对象检测部件从所输入的边缘信息和运动信息检测运动对象。

接下来，将说明如上所示配置的视频解码装置100的操作。

图4是示出根据图2所示的实施例1的视频解码装置100的操作的流程图。通过使CPU(未示出)执行存储在存储装置(未示出)(例如，ROM、闪存等)中的控制程序的软件，也可以用软件执行图4的流程图所示的操作。

首先，流输入部件101从视频解码装置100的外部接收视频流，并且分别将视频流的基本层输出到基本层解码部件102并将扩展层输出到扩展层解码部件103(步骤S301)。

接下来，基本层解码部件102在从流输入部件101输入的基本层中提取运动信息，并且将它输出到运动对象检测部件106。此外，扩展层解码部件103在从流输入部件101输入的扩展层中提取边缘信息，并且将它输出到运动对象检测部件106。然后，对象检测部件106使用从基本层解码部件102和扩展层解码部件103输入的运动信息和边缘信息来检测运动对象，生成运动对象检测结果，并且将它输出到检测结果输出部件107和频带组合部件104(步骤S302)。

视频可以包括或可以不包括运动对象，并且当视频包括运动对象时，运动对象的数目可以是一个或多个。

下面将更详细地说明S302步骤中的运动对象检测处理。

图5是示出图4中的运动对象检测处理的步骤的示例的流程图。

首先，在步骤S401中，执行边缘信息提取处理。更具体地说，扩展层解码部件103提取从流输入部件101输入的、包括有关直到特定位平面的扩展层的信息的代码，生成边缘信息，并且将它输出到运动对象检测部件106。

这里，将说明位平面编码。

该位平面是指仅仅排列以二进制数表达的几个数值数据的相同位位置的位串。如在Weiping Li，“Overview of Fine Granularity Scalability in MPEG-4Video Standard”，IEEE Transaction on Circuits and Systems for Video Technology，vol.11，pp.301-317，Mar.2001中所述，用于每个位平面的编码方法被称作“位平面编码”，并且具有调整数据质量的优良性能。

图3示出了位平面编码的概念，并且以表达水平方向分量的某一区域的位平面编码对此进行说明。

在图3中，一列表达以二进制数表示的水平分量的1个像素(像素1、像素2)。一行表达在水平方向分量的某一区域中的位平面(位平面1、位平面2)，也就是，它是每个像素中仅仅具有相同位置的位的集合。位平面的位置越高，位平面可以表达的水平方向分量的边缘就越强。通过对有关所排列的、直到特定位平面的最高位平面的信息进行编码，获得边缘信息。例如，边缘信息包括诸如这样的信息，即针对每个区域例如8×8像素和16×16像素、直到特定位平面的每个位平面的代码量。水平方向分量、垂直方向分量和对角方向分量包括多个“0”，因此当存在多个“0”时，执行位平面编码，以便缩短代码长度。因此，包括越多的“1”，每个水平方向分量、垂直方向分量和对角方向分量的区域的位平面的代码长度就变得越长。

图6示出了本实施例的扩展层的数据结构。图6所示的扩展层是对应于一个图像的代码，并且包括有关n个位平面和m个区域的信息。对应于一个图像的扩展层存储图像首标信息501、以及有关位平面1到位平面n的信息502，其中位平面1表示最高位平面，并且位平面n为最低位平面。

图7示出了图6中的扩展层的位平面k的数据结构，并且扩展层的位平面k包括位平面首标信息601、以及区域1到区域m的位平面k的代码602。

图8示出了图7中的扩展层的区域j的位平面k的数据结构，并且扩展层的区域j的位平面k包括对应区域的像素分量的代码701和表示区域代码结束的结束信号702。

使用上述数据结构，仅仅通过在视频流内从最高位平面到特定位平面搜索那些区域的结束信号并计算区域结束信号之间的代码长度，就有可能提取位平面信息。这样，扩展层解码部件103可以高速地生成边缘信息。

接下来，在步骤S402中，执行运动信息提取处理。更具体地说，基本层解码部件102在从流输入部件101输入的基本层中提取有关运动向量的信息，生成运动信息并且将它输出到运动对象检测部件106。

该运动信息用于基本层的运动预测补偿，并且包括有关是否针对每个区域执行了运动预测补偿编码或帧内编码的信息、有关运动向量的幅值和方向以及由运动向量引用的图像的信息、有关是否对整个图像执行了运动预测补偿编码或帧内编码的信息等。

图9示出了本实施例的基本层的数据结构。图9所示的基本层是对应于一个图像的代码，并且包括有关m个区域的信息。也就是，一个图像基本层包括图像首标信息801和有关区域1到区域m的信息802。图10示出了图9中的基本层的区域p的数据结构，并且基本层的区域p包括区域首标信息901、运动向量902、像素分量代码903、以及表示区域代码结束的结束信号904。

仅仅通过从视频流中搜索那些区域的首标信息901和结束信号904，并且仅仅对位于从那个位置开始的固定位置的运动向量902进行解码，就可以提取运动向量。这允许基本层解码部件102高速地生成运动信息。

在步骤S403中，执行检测运动对象轮廓的处理。更具体地说，运动对象检测部件106使用从基本层解码部件102和扩展层解码部件103输入的运动信息和边缘信息，检测运动对象的轮廓的区域，并且将结果存储到运动对象检测部件106中。

这里，将说明用于检测轮廓区域的方法。

也就是，假定条件1是从对应于某一区域的水平方向分量、垂直方向分量和对角方向分量的位平面计算的代码长度，例如，从最高位平面到第三位平面的各个代码量的总代码长度应当等于或大于阈值A。注意，该阈值A是由此判定边缘为弱边缘的参考值。

此外，假定条件2是上述区域的总代码长度应该等于或小于阈值B。该阈值B是识别不是边缘的图像如条纹图案的参考值。

然后，判定包括该区域的边缘信息是否表示点、线或平面，并且当上述区域的总代码长度满足这些条件1和条件2时，判定它是出现在对象的轮廓上的线。下面将使用图11说明特定示例。

图11A到图11C示出了8×8像素区域中的水平方向分量的示例。为简化说明起见，以二进制数表达像素值，并且用黑色示出从最高位平面到特定位平面的包括“1”的单元并且用白色示出不包括“1”的单元。图11A示出了当噪声和小点等存在于区域内时的水平方向分量，图11B示出了在垂直线存在于区域内的情况下的水平方向分量，并且图11C示出了当整个区域例如是条纹图案的一部分时的水平方向分量。当对在图11A到图11C中表达的区域进行编码时，根据包括在每个区域内的除0之外的值的数目，代码量按照图11A、图11B和图11C的次序增加。上述情况也适用于垂直方向分量和对角方向分量。此时，假定阈值A是8并且阈值B是32，则可以判定其中“阈值A＜上述总值＜阈值B”的关系成立的、图11B所示的区域包括出现在对象轮廓中的线。这里，阈值A＜阈值B。

此外，作为更简单的轮廓提取，还可以通过仅仅使用阈值A来判定其中“阈值A＜上述总值”的关系成立的区域包括出现在对象轮廓中的线。

此外，通过区域是否满足下面条件3或条件4，确定被判定为轮廓的某一区域是否是运动对象的轮廓。

也就是，因为条件3要求区域的运动向量的幅值小于阈值C并且目标运动对象的运动需要显示一定程度或更高程度上的运动。

条件4要求与区域的运动向量和周围运动向量之间的差值相对应的向量的幅值小于阈值D。这判定运动对象是否执行与周围区域相同的运动。周围运动向量的数目无需是一。将说明这种情况下的条件4。首先，提取多个周围运动向量，并且针对每个周围运动向量确定与区域的运动向量的差值相对应的向量的幅值。这种情况下的条件4要求差值向量的总值小于阈值D。

对于条件4，还可以考虑与上述不同的下面条件。例如，当选择多个运动向量作为周围运动向量时，还可以使用区域和周围区域中的运动向量的X方向分量(水平方向分量)之间的差值的平方和、与Y轴方向分量(垂直方向分量)之间的差值的平方和的总和(以下被称为“方差(variance)”)作为参考值。这种情况下的条件4要求上述方差小于阈值D。当满足条件4时，区域的运动向量被认为具有与周围区域相同的方向和幅值，并且对象被判定为不是运动对象。此外，方差的计算不局限于此，并且还可以将方差计算为运动向量的幅值的差值绝对值和周围区域中的角度的差值绝对值的乘积的总和。可以采用任何方法，只要它至少使得有可能判定区域中的运动向量是否具有与周围运动向量不同的方向和幅值即可。

当满足条件3或条件4时，判定该区域不是运动对象的区域。在帧没有包括运动向量，以致整个图像是帧内编码的情况下，等待包括运动向量的帧，而不判定轮廓。这是因为不可能从不具有运动向量的帧检测任何运动。

运动对象检测部件106判定从上述条件1和条件2确定为对象的轮廓的区域当中满足条件3或条件4的区域不是运动对象的轮廓。这是因为运动对象的轮廓以不同于周围运动对象的速度运动。

接下来，在步骤S404中，执行检测运动对象内部的处理。更具体地说，运动对象检测部件106使用从基本层解码部件102输入的运动信息和所存储的运动对象的轮廓的检测结果，检测在运动对象内部的区域。将内部区域的检测结果存储在运动对象检测部件106中。

这里，下面将说明用于检测内部区域的方法。

也就是，由此判定某一区域在运动对象的内部的条件将满足下面示出的条件5或条件6。

条件5要求区域相邻于被判定为运动对象的轮廓或内部的区域，并且相对于相邻区域的运动向量的幅值和方向的方差小于阈值E，其中阈值E是在判定运动对象的轮廓和内部以相同速度运动时的参考值。

条件6要求该区域由被判定为运动对象的轮廓或内部的区域围绕，并且这是因为运动对象的内部由轮廓围绕。

接下来，在步骤S405中，执行消除运动对象的错误检测的处理。更具体地说，运动对象检测部件106从所存储的运动对象的轮廓和内部区域的检测结果，消除被错误检测的区域，生成运动对象检测结果并且将它输出到检测结果输出部件107和频带组合部件104。

用于该被错误检测的区域的判定条件是在周围存在被判定为运动对象的轮廓或内部的一些区域，并且这是因为当检测到太小的运动对象时，错误检测的可能性是高的。

运动对象检测部件106从如上所示获得的运动对象的区域生成运动对象检测结果。例如，运动对象检测结果如下所示。

首先，它是针对每个区域描述其是否是运动对象的区域的信息，其次，它是定义包围一个运动对象的一个矩形或椭圆并且描述每个矩形或椭圆的坐标和大小的信息。

当有关运动对象内部的信息不必要时，可以省略检测内部的处理。

此外，用于检测运动对象的方法不限于使用运动向量的运动对象检测方法，而是如果与本发明的边缘信息相组合，也可以使用其它方法。

根据本实施例中的运动对象检测方法，如果基本层包括运动向量，并且扩展层至少包括直到某一位位置的位平面的代码，则即使当以低位速率执行传输并且图像质量差时，也有可能以高准确度和低处理负荷来高速地检测运动对象。

接下来，在步骤S303中，输出检测运动对象的结果。更具体地说，检测结果输出部件107将从运动对象检测部件106输入的运动对象的区域的坐标输出到外部。

接下来，在步骤S304中，执行基本层解码处理。更具体地说，基本层解码部件102对从流输入部件101输入的视频流的基本层进行运动预测补偿解码，生成简化图像并且将它输出到频带组合部件104。

接下来，在步骤S305中，执行扩展层解码处理。更具体地说，扩展层解码部件103对从流输入部件101输入的视频流的扩展层进行位平面解码，生成水平方向分量、垂直方向分量和对角方向分量，并且将这些分量输出到频带组合部件104。

接下来，在步骤S306中，执行频带组合处理。更具体地说，频带组合部件104对从基本层解码部件102输入的简化图像和从扩展层解码部件103输入的水平方向分量、垂直方向分量和对角方向分量进行频带组合，生成解码图像，并将该解码图像输出到视频输出部件105。此外，频带组合部件104还可以使用从运动对象检测部件106输入的运动对象检测结果来加重包括解码图像的运动对象的区域。

这里，将说明运动对象的区域加重。例如，频带组合部件104仅对运动对象的区域的解码视频进行着色，或者执行诸如以框架等包围运动对象的区域的处理。此外，还有可能将通过对基本层进行解码而获得的简化图像的全部像素值设置为“0”，以便频带组合和生成仅由轮廓组成的图像，并且进一步加重运动对象的区域。

通过这样做，在由轮廓组成的视频中，仅仅运动对象变得十分引人注意，并且对于同时监控多个监控视频的管理者，更容易检测异常或可疑图形。此外，当基本层的位速率由于通信速度的限制而非常低，并且只能生成非常差图像质量的视频时，单独的轮廓可以相当有助于细节的识别。或者，在处理能力受限的环境中，例如，当显示多个摄像机视频时，仅仅显示轮廓可以使得更容易以低的处理负荷监控重要的区域。

接下来，在步骤S307中，执行视频输出处理。更具体地说，视频输出部件105将从频带组合部件104输入的解码视频输出到外部。

注意，有可能仅仅检测运动对象而无需执行解码处理。此时，不能获得视频，但是由于不执行从基本层解码处理(步骤S304)到视频输出处理(步骤S307)的处理，因此有可能以更高的速度并且以更低的处理负荷来检测运动对象。

接下来，在步骤S308中，执行结束判定处理。当例如流输入部件101判定存在或不存在下一视频流和然后如果视频解码装置100既不再需要执行运动对象的检测也不需要对视频进行解码时，则视频解码装置结束处理，否则返回到步骤S301。

在前述说明中，在运动对象检测处理(步骤S302和步骤S303)之后，执行基本层解码处理(步骤S304)到视频输出处理(步骤S307)，但是本发明不限于此，有可能与基本层和扩展层的解码处理并发地执行运动对象检测处理。

此外，作为根据使用频带划分的另一编码方法生成视频流的方法，有可能使用在对输入图像进行运动预测补偿之后执行频带划分然后执行位平面编码的方法。然而，根据该方法，即使对通过运动预测补偿为其获取在前和在后图像之间的差值的图像进行频带划分，也不可能获得在对象的轮廓上生成的水平方向分量、垂直方向分量和对角方向分量。在这种情况下，仅仅使用全部是帧内编码的图像的水平方向分量、垂直方向分量和对角方向分量。

此外，扩展层可以不仅包括水平方向分量、垂直方向分量和对角方向分量，还可以包括与通过对简化图像和基本层进行解码而获得的图像的差值相对应的信息。

如上所示，实施例1提供了从有关水平方向分量、垂直方向分量和对角方向分量的信息提取边缘信息和运动信息的部件，其中有关水平方向分量、垂直方向分量和对角方向分量的信息通过对包括通过运动预测补偿生成的运动向量的输入图像和视频流直接进行频带划分而获得，因此，有可能以高准确度和低处理负荷、高速地检测运动对象而无需对由基本层和扩展层组成的视频流进行解码，其中基本层使用运动预测编码，并且扩展层使用水平方向分量、垂直方向分量和对角方向分量的位平面编码。

此外，根据实施例1，有可能从基本层的视频流提取运动信息并从扩展层的视频流提取边缘信息，并且当运动信息表示没有运动时，有可能停止诸如提取边缘信息的处理并且减轻处理负荷，并且当边缘信息表示没有边缘时，有可能停止诸如提取运动信息的处理并且减轻处理负荷，这样使得能够高速地检测对象的轮廓。此时，可以首先提取运动信息和边缘信息中的任一个，或者可以并发地提取运动信息和边缘信息。

此外，根据实施例1，有可能检测仅仅具有运动向量和某些位平面的边缘信息的运动对象，从而即使在通信速度受限的情形下，也有可能高速且高效地从低位速率视频流检测运动对象。

此外，根据实施例1，扩展层解码部件103提取检测运动对象所需的边缘信息，并且基本层解码部件102提取运动信息，因此，视频解码处理和运动对象检测处理可以共享某些部件和处理，并且有可能同时且高速地执行运动对象的检测和视频解码，并且减小装置的总体规模。

此外，根据实施例1，扩展层解码部件103可以仅仅通过搜索包括在视频流内的位平面首标601中的开始信号和每个8×8像素等的区域的结束信号702并且计算标识信号之间的代码长度，高速地生成边缘信息。

此外，根据实施例1，基本层解码部件102仅仅搜索视频流内的每个8×8像素等的区域的标识信号，并且对从该标识信号开始位于预定位置的运动向量进行解码，因此有可能高速地生成运动信息。

此外，根据实施例1，运动对象检测部件106使用边缘信息和运动信息来检测运动对象的轮廓，使用运动信息和已经检测到的结果来检测运动对象的内部，并且消除错误检测，因此，有可能以高准确度检测运动对象。

此外，根据实施例1，频带组合部件104加重解码视频的运动对象的区域，或者使用线条画，其中作为解码基本层的简化视频未被频带组合，因此，可能有助于管理者检测运动对象的检测结果。

(实施例2)

实施例2是将根据本发明的用于检测运动对象的方法和装置应用于视频监控系统的情况。该视频监控系统包括装备有视频编码装置的自动跟踪摄像机。也就是，视频监控系统对视频进行编码并且生成视频流，同时以高准确度和低处理负荷、高速地检测存在于视频中的运动对象，并且基于检测结果，自动跟踪摄像机有可能自动地跟踪运动对象并且高效地执行视频监控。

下面将更具体地说明视频监控系统。

图12示出了根据实施例2的视频监控系统的配置，其中应用了本发明的用于检测运动对象的方法和装置。

该视频监控系统包括视频监控装置1100、通信网络1110和N个自动跟踪摄像机1121到112N。自动跟踪摄像机对应于本发明的图像拾取装置。

图13是示出根据实施例2的自动跟踪摄像机1121到112N的配置的方框图。图13所示的自动跟踪摄像机对应于图12所示的视频监控系统中的自动跟踪摄像机1121。

在图13中，自动跟踪摄像机1121包括图像拾取部件1201、视频编码部件1202和图像拾取控制部件1203。其它的自动跟踪摄像机1122到112N也具有类似的配置。

图像拾取部件1201对应于本发明的图像拾取部件，并且图像拾取控制部件1203对应于本发明的图像拾取控制部件。

这里，图像拾取部件1201执行诸如摇镜头/倾斜/变焦的图像拾取功能操作，并且将所捕获的视频输出到视频编码部件1202。

视频编码部件1202对输入视频进行频带划分，生成包括有关水平方向分量、垂直方向分量和对角方向分量的信息以及通过运动预测补偿而生成的运动向量的视频流。

图像拾取控制部件1203接收有关跟踪目标的信息和运动对象检测的结果，生成并输出用于执行图像拾取部件1201的摇镜头/倾斜/变焦的控制信号。

图14是示出视频编码装置1202的配置的方框图，并且对应于应用了本发明的用于检测运动对象的方法和装置的视频编码装置。

在图14中，视频编码部件1202包括视频输入部件1301、频带划分部件1302、基本层编码部件1303、扩展层编码部件1304、流输出部件1305、运动对象检测部件1306、以及检测结果输出部件1307。

注意，频带划分部件1302、基本层编码部件1303和扩展层编码部件1304对应于本发明的视频编码部件，并且基本层编码部件1303对应于运动信息提取部件，扩展层编码部件1304对应于边缘信息提取部件，并且运动对象检测部件1306对应于运动对象检测部件。

这里，视频编码部件对输入视频进行编码，并且生成并输出视频流。组成该视频编码部件的频带划分部件1302对输入图像进行频带划分，以便生成简化图像、水平分量、垂直分量和对角分量，并且对简化图像进行运动预测补偿编码，以便将它编码为能够单独地对视频进行解码的基本层。此外，频带划分部件1302对这些水平方向分量、垂直方向分量和对角方向分量进行位平面编码，并且将它们编码为扩展层。基本层编码部件1303从所生成的视频流提取运动信息，并且将它输出到运动对象检测部件1306。扩展层编码部件1304从所生成的视频流提取边缘信息，并且将它输出到运动对象检测部件1306。运动对象检测部件1306从所输入的边缘信息和运动信息检测运动对象。流输出部件1305和检测结果输出部件1307对应于本发明的输出部件。

接下来，将说明根据本实施例的自动跟踪摄像机1121的操作。图15是示出图13所示的自动跟踪摄像机1121的操作的流程图。通过使CPU(未示出)执行存储在存储装置(未示出)(例如，ROM、闪存等)中的控制程序的软件，也可以用软件执行图15所示的流程图。

首先，在步骤S1401中，执行图像拾取处理。更具体地说，图像拾取部件1201捕获作为监控目标的视频，并且将输入图像输出到视频编码部件1202的视频输入部件1301。此外，图像拾取部件1201将有关摇镜头/倾斜/变焦和安装位置的信息输出到视频编码部件1202的检测结果输出部件1307。

接下来，在步骤S1402中，执行视频编码处理。视频编码部件1202对从图像拾取部件1202输入的输入视频进行编码以生成视频流，并且同时检测运动对象以生成运动对象检测结果。通过通信网络1110将这些所生成的视频流和运动对象检测结果输出到视频监控装置1100的接收部件1101。此外，将运动对象检测结果输出到图像拾取控制部件1203。

接下来，在步骤S1403中，执行图像拾取控制处理。更具体地说，图像拾取控制部件1203根据通过通信网络1100从视频监控装置1100的摄像机组控制部件1102输入的目标跟踪命令和从视频编码部件输入的运动对象检测结果，生成摇镜头/倾斜/变焦控制信号，并且将它输出到图像拾取部件1201。图像拾取部件1201基于从图像拾取控制部件1203输入的控制信号而执行摇镜头/倾斜/变焦。

这里，将说明该控制信号。当由后面将要描述的视频监控装置1100生成的目标跟踪命令指定例如用于获取要被捕获的可疑图形(figure)的坐标和放大率等时，图像拾取控制部件1203相应地生成控制信号，以便执行摇镜头/倾斜/变焦。当在获取要被捕获的图像的坐标和在运动对象检测结果中示出的运动对象的区域的坐标之间存在差异时，图像拾取控制部件1203还可以纠正该差异并且生成控制信号。此外，还有可能摇动摄像机的镜头，使得要被跟踪的运动对象总是占据相对于屏幕的固定区域。当不存在目标跟踪命令但是存在运动对象检测结果时，在运动对象被设置为视频中心的情况下获取图像。此外，还有可能生成控制信号，以便将多个运动对象全都容纳在视频中。另外，尤其是当既不存在目标跟踪命令也不存在运动对象检测结果时，有可能生成控制信号，以使图像拾取部件1201执行摆动，以便在较宽的范围上获取图像。

接下来，在步骤S1404中，当不再需要执行视频监控时，例如，当关断了自动跟踪摄像机1121的电源时，自动跟踪摄像机1121结束其操作，否则返回到步骤S1401。

这里，将详细说明图15的步骤S1402中的视频编码处理。

图16是示出视频编码部件120的操作的流程图。通过使CPU(未示出)执行存储在存储装置(例如，ROM、闪存等)(未示出)中的控制程序的软件，也可以用软件执行图16的流程图所示的操作。

首先，在步骤S1501中，执行视频输入处理。更具体地说，视频输入部件1301从自动跟踪摄像机1121的图像拾取部件1201接收输入图像，并且将它输出到频带划分部件1302。

接下来，在步骤S1502中，执行频带划分处理。更具体地说，频带划分部件1302对从视频输入部件1301输入的输入图像进行频带划分，以生成简化图像、水平方向分量、垂直方向分量和对角方向分量，将简化图像输出到基本层编码部件1303，并且将水平方向分量、垂直方向分量和对角方向分量输出到扩展层编码部件1304。

接下来，在步骤S1503中，执行基本层编码处理。更具体地说，基本层编码部件1303对从频带划分部件1302输入的简化图像进行运动预测补偿编码，以生成基本层，并且将它输出到流输出部件1305。此外，将在运动预测补偿期间获得的运动信息输出到运动对象检测部件1306。

接下来，在步骤S1504中，执行扩展层编码处理。更具体地说，扩展层编码部件1304对从频带划分部件1302输入的水平方向分量、垂直方向分量和对角方向分量进行位平面编码，以生成扩展层，并且将它输出到流输出部件1305。此外，将在位平面编码期间获得的边缘信息输出到运动对象检测部件1306。

接下来，在步骤S1505中，执行流输出处理。更具体地说，流输出部件1305通过通信网络1110，将从基本层编码部件1303输入的基本层和从扩展层编码部件1304输入的扩展层输出到视频监控装置1100的接收部件1101。

接下来，在步骤S1506中，执行运动对象检测处理。更具体地说，运动对象检测部件1306使用从基本层编码部件1303输入的运动信息和从扩展层编码部件1304输入的边缘信息来检测运动对象，生成运动对象检测结果，并且将它输出到检测结果输出部件1307。

用于检测运动对象的方法类似于实施例1的方法，因此这里将省略其详细说明。

接下来，在步骤S1507中，执行检测结果输出处理。更具体地说，检测结果输出部件1307通过通信网络1110，将从运动对象检测部件1306输入的运动对象检测结果和从自动跟踪摄像机1121的图像拾取部件1201输入的有关摇镜头/倾斜/变焦和安装位置等的信息输出到视频监控装置1100的接收部件1101。

如同在实施例1中描述的视频解码装置的情况一样，本实施例也可以使用其它频带划分方法，只要至少有可能生成包括有关水平方向分量、垂直方向分量和对角方向分量的信息和通过运动预测补偿生成的运动向量的视频流即可。

接下来，下面将说明根据本实施例的视频监控装置1100的配置。

在图12中，视频监控装置1100装备有接收部件1101、图像识别部件1102和摄像机组控制部件1103。

图像识别部件1102对应于本发明的图像识别部件，接收视频流和运动对象检测结果，执行详细的图像识别并且将图像识别结果输出到摄像机组控制部件1103。

摄像机组控制部件1103对应于本发明的摄像机组控制部件，接收图像识别识别结果，并且生成并输出有关跟踪目标的信息到摄像机1121到112N。

接下来，将说明如上所示配置的视频监控装置1100的操作。

图17是示出视频监控装置1100的操作的流程图。

首先，在步骤S1601中，执行接收处理。更具体地说，接收部件1101通过通信网络1110，从自动跟踪摄像机1121接收视频流和运动对象检测结果，并且将它们输出到图像识别部件1102。

接下来，在步骤S1602中，执行图像识别处理。更具体地说，图像识别部件1102使用从接收部件1101输入的视频流和运动对象检测结果来对视频流进行解码，使用各种公知的图像识别方法来执行诸如图形、面部或对象的检测或认证，生成结果并且将它们输出到摄像机组控制部件1103。此外，图像识别部件1102可以通过防止对除了包括在运动对象检测结果中的运动对象的区域之外的任何区域进行图像识别，进一步提高处理速度。

接下来，在步骤S1603中，执行摄像机控制处理。更具体地说，摄像机组控制部件1103通过使用从图像识别部件1102输入的图像识别结果，生成用于自动跟踪摄像机1121的目标跟踪命令，并且通过通信网络1110将它输出到自动跟踪摄像机1121的图像拾取控制部件1203。此外，当根据自动跟踪摄像机1121的图像识别结果而需要执行其它自动跟踪摄像机1122到112N的新跟踪时，生成新的目标跟踪命令并且通过通信网络1110将其输出到对应的自动跟踪摄像机1122到112N的图像拾取部件1203。

这里，将说明目标跟踪命令。

当从图像识别部件1102输入的图像识别结果例如表示视频中存在可疑图形时，摄像机组控制部件1103生成包括坐标和放大率等的目标跟踪命令，以便获取可疑图形的变焦图像。此外，当可疑图形存在于视频中，可是自动跟踪摄像机1121不能获取可疑图形面部的任何图像时，摄像机组控制部件1103生成目标跟踪命令，以便指示自动跟踪摄像机1122获取可疑图形的图像，并且生成目标跟踪命令，以便指示自动跟踪摄像机1121在包括可疑图形的较宽范围上获取图像。

接下来，在步骤S1604中，进行结束判定，并且如果不需要执行视频监控，例如当关断了视频监控装置1100的电源时，视频监控装置1100结束处理，否则返回到步骤S1601。

下面将说明如上所示配置的视频监控系统的操作。

图18是示出根据本实施例的视频监控系统的操作的顺序图。

首先，自动跟踪摄像机1121获取监控目标的图像，生成包括有关水平方向分量、垂直方向分量和对角方向分量的信息以及通过运动预测补偿生成的运动向量的视频流，获得运动对象检测结果，并且通过通信网络1110将它们发送到视频监控装置1100(步骤S1701)。

视频监控装置1100对所接收的视频流进行解码，并且使用有关运动对象检测结果的信息来识别目标对象。然后，视频监控装置1100将用于跟踪目标对象的目标跟踪命令发送到自动跟踪摄像机(步骤S1702)。

一旦接收到该命令，自动跟踪摄像机1121就控制图像拾取部件并且跟踪目标。然后，自动跟踪摄像机1121将此时的视频流等发送到视频监控装置1100(步骤S1703)。

此后，重复步骤S1702和步骤S1703。总是将来自自动跟踪摄像机1121的视频流等发送到视频监控装置1100，而不管是否存在来自视频监控装置1100的命令。

如上所述，为了通过通信网络将视频从自动跟踪摄像机发送到视频监控装置，根据本实施例的视频监控系统需要对视频进行编码并且创建具有压缩数据的视频流。此时，在生成视频流的过程中，本发明可以同时检测运动对象，并且将结果信息报告给视频监控装置，因此视频监控装置不再需要再次从所接收的视频流检测运动对象。这减轻了视频监控装置的处理。

此外，根据实施例2，在视频监控系统中，由此接收由远处的自动跟踪摄像机捕获的图像，并且视频监控装置执行视频的监控和跟踪，自动跟踪摄像机可以共享某些部件和处理，执行变成视频流的视频编码处理，其中该视频流包括有关所捕获图像的水平方向分量、垂直方向分量和对角方向分量的信息以及通过运动预测补偿和运动对象检测处理生成的运动向量，从而可以同时且高速地执行运动对象的准确检测和视频编码，而且减小系统的总体规模。

此外，根据实施例2，自动跟踪摄像机可以根据基于运动对象的检测结果而确定的、来自视频监控装置的命令，控制摇镜头/倾斜/变焦的图像拾取功能，因此有可能高效地监控运动对象或可疑图形等。

此外，根据实施例2，视频监控装置基于与上述视频流一起输入的运动对象的检测结果，仅仅识别运动对象区域的图像，因此，有可能减轻图像识别处理的负荷并且提高图像识别的准确度。此外，这使得有可能创建能够控制更多自动跟踪摄像机并且执行更高效的监控的视频监控系统。

(实施例3)

实施例3是根据本发明的用于检测运动对象的方法和装置。

对于如同在实施例1的情况下的、由基本层和扩展层组成的视频流，本实施例将描述用于仅使用扩展层的视频流来检测运动对象的方法。在本实施例中讨论的扩展层的视频流中，假定作为在ISO/IEC 14496-2修改版2中定义的MPEG-4FGS(精细粒度可伸缩编码)的FGST(FGS时间可伸缩性)，在扩展层的视频流的帧的开头包括运动向量信息。

图19是示出根据实施例3的运动对象检测装置1900的配置的方框图，其中应用了本发明的用于检测运动对象的方法和装置。

在图19中，运动对象检测装置1900装备有流输入部件1901、运动信息提取部件1902、边缘信息提取部件1903、运动对象检测部件1904、以及检测结果输出部件1905。

不同于实施例1，在本实施例中，流输入部件1901仅仅接收扩展层的视频流。

运动信息提取部件1902对应于运动信息提取部件，边缘信息提取部件1903对应于边缘信息提取部件，并且运动对象检测部件1904对应于运动对象检测部件。

这里，运动信息提取部件从所输入的扩展层的视频流提取运动信息，并且将它输出到运动对象检测部件。边缘信息提取部件从所输入的扩展层的视频流提取边缘信息，并且将它输出到运动对象检测部件。运动对象检测部件从所输入的边缘信息和运动信息检测运动对象。

接下来，下面将说明如上所述配置的运动对象装置1900的操作。

图20是示出根据图19所示的实施例3的运动对象装置1900的操作的流程图。通过使CPU(未示出)执行存储在存储装置(未示出)(例如，ROM、闪存等)中的控制程序的软件，也可以用软件执行图20的流程图所示的操作。

首先，流输入部件1901从运动对象检测装置1900的外部接收扩展层的视频流，并且将它输出到运动信息提取部件1902和边缘信息提取部件1903(步骤S2001)。

接下来，运动信息提取部件1902在从流输入部件1901输入的扩展层中提取运动信息，并且将它输出到运动对象检测部件1904(步骤S2002)。

接下来，边缘信息提取部件1903在从流输入部件1902输入的扩展层中提取边缘信息，并且将它输出到运动对象检测部件1904(步骤S2003)。

这里，根据在MPEG-4FGS中定义的FGST，将帧的整个区域的运动向量存储在一个帧的扩展层的开头，并且在此后存储有关位平面的信息。因此，流输入部件1901也可以仅仅输入运动向量的视频流，运动信息提取部件1902可以生成运动信息，并且只有当帧中存在运动时，流输入部件1901才可以输入位平面的视频流，并且将它输出到边缘信息提取部件1903。从而，当帧中没有运动时，有可能省略流输入处理、边缘提取处理和运动对象检测处理，并且减轻处理负荷。

接下来，运动对象检测部件1904使用从运动信息提取部件1902输入的运动信息和从边缘信息提取部件1903输入的边缘信息来检测运动对象，如同实施例1的情况一样生成运动对象检测结果，并且将它输出到检测结果输出部件1905(步骤S2004到步骤S2006)。

接下来，输出运动对象检测的结果。更具体地说，检测结果输出部件1905将从运动对象检测部件1904输入的运动对象的区域的坐标输出到外部(步骤S2007)。

接下来，执行结束判定处理。例如，流输入部件1901判定是否存在后继的视频流，然后，如果运动对象检测装置1900不再需要执行运动对象检测，则运动对象检测装置1900结束处理，否则返回到步骤S2001(步骤S2008)。

如上所述，根据实施例3，仅仅输入扩展层的视频流，运动信息提取部件1902提取运动信息，边缘信息提取部件1903提取边缘信息，因此有可能高速地并且使用更少的视频流检测对象的轮廓。

根据本发明的运动对象检测装置采用这样的配置，其包括：运动信息提取部件，从使用分层编码和运动预测补偿编码进行视频编码的视频流，提取运动信息，其中分层编码通过将视频划分成多个层来对其进行编码；边缘信息提取部件，从视频流提取边缘信息；以及运动对象检测部件，使用运动信息和边缘信息来检测运动对象，并且输出检测结果。

根据该配置，有可能检测对象轮廓而无需对任何视频流进行解码，从运动信息检测运动对象，并且以高准确度和低处理负荷、高速地检测运动对象。

此外，在根据本发明的运动对象检测装置中，边缘信息提取部件从视频流提取通过对图像进行位平面编码而获得的位平面信息当中从最高位平面到第N(N：自然数)位平面的位平面信息，作为边缘信息。

根据该配置，通过提取直到特定位平面的信息，有可能高速地检测特定强度或更大强度的边缘并且因此检测对象的轮廓。此外，有可能仅仅使用等于或高于特定位位置的位平面来检测对象的轮廓，而不需要低于特定位位置的位平面，并且即使以低通信速度通过通信网络接收视频流，也有可能以低位速率实现高准确度检测。

此外，在根据本发明的运动对象检测装置中，将视频流划分成多个区域，当区域内部的位平面信息的总代码长度等于或大于预定第一值时，运动对象检测部件判定该区域是运动对象的轮廓区域。

根据该配置，有可能仅仅通过确认在图像的某一区域中直到阈值位位置的位平面的代码量，判定存在于区域内部的边缘的数目，并且高速地检测对象轮廓。

此外，在根据本发明的运动对象检测装置中，当区域内部的位平面信息的总代码长度等于或小于预定第二值时，运动对象检测部件判定该区域是运动对象的轮廓区域。

根据该配置，由于对象轮廓是线，因此当某一区域包括太多水平方向分量、垂直方向分量和对角方向分量时，有可能确定包括例如条纹图案而非运动对象轮廓的区域，因此防止错误的检测。

此外，在根据本发明的运动对象检测装置中，运动信息提取部件从被判定为运动对象的轮廓区域的区域提取运动向量，并且当运动向量的幅值等于或大于预定第三值时，运动对象检测部件判定该区域是运动对象的轮廓区域。

根据该配置，有可能判定不动的对象不是运动对象，因此提高检测运动对象的准确度。

此外，在根据本发明的运动对象检测装置中，运动信息提取部件从被判定为运动对象的轮廓区域的区域提取第一运动向量，选择相邻于该区域的区域，从所选区域提取第二运动向量，运动对象检测部件计算第一运动向量和第二运动向量之间的差值向量的幅值，作为测量值，并且当测量值等于或小于预定第四值时，判定所选区域是运动对象的内部区域。

根据该配置，由于视频中的运动对象的轮廓区域具有不同于周围区域的速度，因此与运动对象的轮廓不同的区域不被判定为运动对象的区域，从而有可能提高检测运动对象的准确度。

此外，在根据本发明的运动对象检测装置中，运动信息提取部件选择多个区域，从各个所选区域提取运动向量，并且运动对象检测部件针对每个所选区域确定第一运动向量和所选区域的运动向量之间的差值向量的幅值，并且计算所选区域的差值向量的幅值的总值，作为测量值。

根据该配置，由于视频中的运动对象的轮廓区域具有不同于周围区域的速度，因此有可能判定与运动对象的轮廓不同的多个区域不是运动对象的区域，并且提高检测运动对象的准确度。

此外，在根据本发明的运动对象检测装置中，当被判定为运动对象的内部区域的区域中的运动向量和相邻于该区域的区域的运动向量之间的差值向量的幅值等于或小于预定第五值时，运动对象检测部件判定该区域是运动对象区域的内部区域。

根据该配置，有可能检测以该对象不被判定为运动对象的某一速度运动的运动对象的区域，并且提高检测运动对象的准确度。

此外，在根据本发明的运动对象检测装置中，运动对象检测部件判定由被判定为运动对象的轮廓区域的区域或运动对象的内部区域围绕的区域是运动对象的内部区域。

根据该配置，有可能将被判定为轮廓的运动对象的内部检测为运动对象的区域，并且提高检测运动对象的准确度。

此外，在根据本发明的运动对象检测装置中，当与被判定为第一运动对象的轮廓区域或内部区域相邻的、被判定为第二运动对象的轮廓区域或内部区域的区域的数目等于或超过预定第六值时，所述运动对象检测部件重新判定作为第一运动对象、被判定为第一运动对象的轮廓区域或内部区域。

根据该配置，有可能判定太小的区域不是运动对象，从而减少运动对象检测中的错误检测。

根据本发明的运动对象检测方法是用于从视频流检测运动对象的方法，包括以下步骤：从使用分层编码和运动预测补偿编码进行视频编码的视频流提取运动信息，其中分层编码通过将视频划分成多个层来对其进行编码；从视频流提取边缘信息；以及使用所提取的运动信息和边缘信息检测运动对象，这些步骤由检测运动对象的运动对象检测装置执行。

根据该方法，有可能检测对象轮廓而无需对任何视频流进行解码，从运动信息检测运动对象，并且以高准确度和低处理负荷、高速地检测运动对象。

根据本发明的运动对象检测程序旨在通过使计算机执行以下步骤来从视频流检测运动对象：从使用分层编码和运动预测补偿编码进行视频编码的视频流提取运动信息，其中分层编码通过将视频划分成多个层来对其进行编码；从视频流提取边缘信息；以及使用所提取的运动信息和边缘信息检测运动对象。

根据该程序，有可能检测对象轮廓而无需对任何视频流进行解码，从运动信息检测运动对象，并且以高准确度和低处理负荷、高速地检测运动对象。

根据本发明的视频解码装置包括：视频解码部件，对通过分层编码和运动预测补偿编码而被编码的视频流进行解码，其中分层编码通过将视频划分成多个层来对其进行编码；以及运动对象检测部件，从在视频解码部件对视频流进行解码时所提取的运动信息和边缘信息，检测运动对象。

根据该配置，视频解码装置和运动对象检测装置可以共享某些处理和部件，同时且高速地执行视频解码和运动对象检测，并且减小装置的总体规模。

此外，在本发明的视频解码装置中，将视频流划分成多个区域，并且当区域内部的位平面信息的总代码长度等于或大于预定第一值时，运动对象检测部件判定该区域是运动对象的轮廓区域。

根据该配置，仅仅通过确认水平方向分量、垂直方向分量和对角方向分量的某一区域的、直到阈值位位置的位平面的代码量，就有可能判定存在于区域内的边缘的数目，并且高速地检测对象的轮廓。

此外，在本发明的视频解码装置中，当区域内的位平面信息的总代码长度等于或小于预定第二值时，运动对象检测部件判定该区域是运动对象的轮廓区域。

在本发明的视频解码装置中，视频解码部件生成加重由运动对象检测部件检测的运动对象的视频。

根据该方法，管理者可以容易地检测运动对象。

在本发明的视频解码装置中，视频解码部件生成由边缘分量组成的视频，并且仅仅加重和显示由运动对象检测部件检测的运动对象的区域。

这样，即使基本层的位速率由于通信速度的限制而非常低，并且只能生成非常差图像质量的视频，单独的轮廓也可以相当有助于细节的识别。

此外，在由轮廓组成的视频中，仅仅运动对象是十分引人注意的，并且对于同时监控多个监控视频的管理者，更容易检测异常或可疑图形，或者在处理能力受限的环境中，例如，当显示多个摄像机视频时，从以低处理负荷进行监控的角度而言，有可能使得更容易看见重要的区域。

本发明的视频编码装置包括：视频编码部件，生成使用分层编码和运动预测补偿编码而被编码的视频流，其中分层编码通过将视频划分成多个层来对其进行编码；以及运动对象检测部件，在视频编码部件对视频进行编码时提取视频的运动信息和边缘信息，并且检测运动对象。根据该配置，视频编码部件和运动对象检测部件可以共享某些处理或部件，同时且高速地执行视频编码和运动对象检测，并且减小装置的总体规模。

本发明的图像拾取装置包括：图像拾取部件，输入视频；根据本发明的视频编码装置，对由该图像拾取部件输入的视频进行编码；图像拾取控制部件，基于由运动对象检测部件输出的运动对象检测结果而控制用于图像拾取部件的图像拾取功能；以及输出部件，输出视频流和运动对象的检测结果。

该配置使得有可能在生成视频流以便向远处进行视频传输的过程中检测运动对象，因此在视频监控等期间继续高速地检测、获取作为运动对象的可疑图形等的图像，并且传输视频并高效地执行视频监控。

此外，在本发明的图像拾取装置中，图像拾取控制部件控制图像拾取部件，以便将由运动对象检测部件输出的运动对象区域的面积相对于输入视频的总面积保持为恒定比例。

该配置使得有可能在视频中包括运动对象及其周围情形，并且实现对被聚焦运动对象的高效监控。

本发明的视频监控系统包括根据本发明的图像拾取装置、以及视频监控装置，其中视频监控装置对从该图像拾取装置接收的视频流进行解码并且使用运动对象的检测结果，识别所检测的运动对象的区域内的图像。

该配置允许在生成视频流以便向远处进行视频传输的过程中检测运动对象，从而使得有可能省略除了运动对象之外的区域的图像识别处理并且以低处理负荷、高速地执行图像识别，因此在视频监控期间，继续高速地检测并且获取作为运动对象的可疑图形等的图像。

注意，本发明中的图像识别不限于运动对象的检测，但是它涉及使用图像的自动机械判定部件，包括图形、面部、对象的识别或个人认证。

此外，在本发明的视频解码装置中，通过将视频流分层为基本层和扩展层来对其进行编码，运动信息提取部件从基本层的视频流提取运动信息，并且边缘信息提取部件从扩展层的视频流提取边缘信息。

根据该配置，当运动信息表示没有运动时，有可能停止诸如提取边缘信息的处理并且减轻处理负荷，并且当边缘信息表示没有边缘时，有可能停止诸如提取运动信息的处理并且减轻处理负荷，从而高速地检测对象的轮廓。

此外，在本发明的视频解码装置中，通过将视频流分层为基本层和扩展层来对其进行编码，运动信息提取部件从扩展层的视频流提取运动信息，并且边缘信息提取部件从扩展层的视频流提取边缘信息。

根据该配置，有可能仅仅使用扩展层的视频流来执行运动对象的检测处理，并且高速地并使用更少的视频流来检测对象的轮廓。

本申请是基于2004年5月31日提交的日本专利申请No.2004-161053和2005年2月14日提交的日本专利申请No.2005-035627，在此将其全文引作参考。

工业应用性

本发明适用于从通过对视频进行编码而生成的视频流检测运动对象的运动对象检测装置，并且适于高速地检测运动对象而无需对视频流进行解码。

Claims

1.一种运动对象检测装置，包括：

运动信息提取部件，从使用分层编码和运动预测补偿编码进行视频编码的视频流提取运动信息，其中分层编码通过将视频划分成多个层来对其进行编码；

边缘信息提取部件，从视频流提取边缘信息；以及

运动对象检测部件，使用运动信息和边缘信息来检测运动对象，并且输出检测结果。

2.根据权利要求1所述的装置，其中所述边缘信息提取部件从视频流提取通过对图像进行位平面编码而获得的位平面信息当中从最高位平面到第N(N：自然数)位平面的位平面信息，作为边缘信息。

3.根据权利要求2所述的装置，其中将视频流划分成多个区域，并且当区域内部的位平面信息的总代码长度等于或大于预定第一值时，所述运动对象检测部件判定该区域是运动对象的轮廓区域。

4.根据权利要求3所述的运动对象检测装置，其中当区域内部的位平面信息的总代码长度等于或小于预定第二值时，所述运动对象检测部件判定该区域是运动对象的轮廓区域。

5.根据权利要求3所述的运动对象检测装置，其中所述运动信息提取部件从被判定为运动对象的轮廓区域的区域提取运动向量，并且当运动向量的幅值等于或大于预定第三值时，所述运动对象检测部件判定该区域是运动对象的轮廓区域。

6.根据权利要求3所述的运动对象检测装置，其中

所述运动信息提取部件从被判定为运动对象的轮廓区域的区域提取第一运动向量，选择相邻于该区域的区域并从所选区域提取第二运动向量，以及

所述运动对象检测部件计算第一运动向量和第二运动向量之间的差值向量的幅值，作为测量值，并且当测量值等于或小于预定第四值时，判定所选区域是运动对象的内部区域。

7.根据权利要求6所述的运动对象检测装置，其中

所述运动信息提取部件选择多个区域，并且从各个所选区域提取运动向量，以及

所述运动对象检测部件针对每个所选区域确定第一运动向量和所选区域的运动向量之间的差值向量的幅值，并且计算所选区域的差值向量的幅值的总值，作为测量值。

8.根据权利要求6所述的运动对象检测装置，其中当被判定为运动对象的内部区域的区域中的运动向量和相邻于该区域的区域的运动向量之间的差值向量的幅值等于或小于预定第五值时，所述运动对象检测部件判定该区域是运动对象区域的内部区域。

9.根据权利要求3所述的运动对象检测装置，其中所述运动对象检测部件判定由被判定为运动对象的轮廓区域的区域或运动对象的内部区域围绕的区域是运动对象的内部区域。

10.根据权利要求3所述的运动对象检测装置，其中当与被判定为第一运动对象的轮廓区域或内部区域相邻的、被判定为第二运动对象的轮廓区域或内部区域的区域的数目等于或超过预定第六值时，所述运动对象检测部件重新判定作为第一运动对象、被判定为第一运动对象的轮廓区域或内部区域。

11.一种用于从视频流检测运动对象的运动对象检测方法，包括以下步骤：

从使用分层编码和运动预测补偿编码进行视频编码的视频流提取运动信息，其中分层编码通过将视频划分成多个层来对其进行编码；

从视频流提取边缘信息；以及

使用所提取的运动信息和边缘信息检测运动对象，

这些步骤由检测运动对象的运动对象检测装置执行。

12.一种运动对象检测程序，用于通过使计算机执行以下步骤来从视频流检测运动对象：

从视频流提取边缘信息；以及

使用所提取的运动信息和边缘信息检测运动对象。

13.一种视频解码装置，包括：

视频解码部件，对通过分层编码和运动预测补偿编码而被编码的视频流进行解码，其中分层编码通过将视频划分成多个层来对其进行编码；以及

运动对象检测部件，从在所述视频解码部件对视频流进行解码时所提取的运动信息和边缘信息，检测运动对象。

14.根据权利要求13所述的视频解码装置，其中将视频流划分成多个区域，并且当区域内部的位平面信息的总代码长度等于或大于预定第一值时，所述运动对象检测部件判定该区域是运动对象的轮廓区域。

15.根据权利要求14所述的视频解码装置，其中当区域内的位平面信息的总代码长度等于或小于预定第二值时，所述运动对象检测部件判定该区域是运动对象的轮廓区域。

16.根据权利要求15所述的视频解码装置，其中所述视频解码部件生成加重由所述运动对象检测部件检测的运动对象的视频。

17.根据权利要求13所述的视频解码装置，其中所述视频解码部件生成由边缘分量组成的视频，并且加重和显示由所述运动对象检测部件检测的运动对象的区域。

18.一种视频编码装置，包括：

视频编码部件，生成使用分层编码和运动预测补偿编码而被编码的视频流，其中分层编码通过将视频划分成多个层来对其进行编码；以及

运动对象检测部件，在所述视频编码部件对视频进行编码时提取视频的运动信息和边缘信息，并且检测运动对象。

19.一种图像拾取装置，包括：

图像拾取部件，输入视频；

根据权利要求18所述的视频编码装置；

图像拾取控制部件，基于由所述运动对象检测部件输出的运动对象检测结果而控制用于所述图像拾取部件的图像拾取功能；以及

输出部件，输出视频流和运动对象的检测结果。

20.根据权利要求19所述的图像拾取部件，其中所述图像拾取控制部件控制所述图像拾取部件，以便将由所述运动对象检测部件输出的运动对象区域的面积相对于输入视频的总面积保持为恒定比例。

21.一种视频监控系统，包括：

根据权利要求19所述的图像拾取装置；以及

视频监控装置，对从图像拾取装置接收的视频流进行解码，并且使用运动对象的检测结果，识别所检测的运动对象的区域内的图像。

22.根据权利要求1所述的视频解码装置，其中通过将视频流分层为基本层和扩展层来对其进行编码，所述运动信息提取部件从基本层的视频流提取运动信息，并且所述边缘信息提取部件从扩展层的视频流提取边缘信息。

23.根据权利要求1所述的视频解码装置，其中通过将视频流分层为基本层和扩展层来对其进行编码，所述运动信息提取部件从扩展层的视频流提取运动信息，并且所述边缘信息提取部件从扩展层的视频流提取边缘信息。