CN101116108B

CN101116108B - 用于获取图像序列数据的信息组分提取

Info

Publication number: CN101116108B
Application number: CN2005800473362A
Authority: CN
Inventors: 金会律; 崔珉硕; 金铉哲
Original assignee: Hanyang Hak Won Co Ltd
Current assignee: Hanyang Hak Won Co Ltd
Priority date: 2005-01-27
Filing date: 2005-09-27
Publication date: 2010-05-12
Anticipated expiration: 2025-09-27
Also published as: KR20060086700A; US20080031523A1; JP4792471B2; JP2008536345A; WO2006080654A1; KR100679124B1; US7995870B2; CN101116108A

Abstract

本发明公开了一种用于获取图像序列数据的提取信息组分的方法和记录所述方法的记录介质。根据本发明的实施例，将包括在图像序列中的图像帧转换为n个只包括与背景相分离的物体的帧，并提取相应的n个形状描述符。按照时间顺序排列所述n个形状描述符，生成形状序列，并通过沿时间轴对所述形状序列进行频率变换，获得具有频率信息的变换系数。利用所获得的变换系数中低频区域的系数，提取形状序列描述符。通过本发明，可以捕获表示物体运动的视频数据作为图像序列，并且通过从每个图像序列中提取信息组分可以区分视频数据间的相似性。

Description

用于获取图像序列数据的信息组分提取

技术领域

本发明涉及信息组分提取，特别涉及一种用于获取图像序列数据的提取信息组分的方法和一种记录所述方法的记录介质。

背景技术

随着诸如数码相机和可携式摄像机的成像设备的普及，产生了数量快速增长的多媒体数据，例如数字图像和视频数据。因此，对所产生的多媒体数据的管理和获取也日益复杂。

为了克服这一难点，正在广泛地研究通过多媒体数据的内容而不是生成数据的人所记录的注释来获取多媒体数据的方法。

在这些方法中，基于内容的多媒体数据获取方法从多媒体数据中提取形状、颜色、结构和运动信息，记录它们的特性，并且根据所记录的特性来确定多个多媒体数据间的相似性，以获取具有相同特性的多媒体数据。

如上所述，随着获取多媒体数据的需求的增加，国际标准化组织和国际电工委员会的联合技术委员会1(ISO/IEC JTC1)正在制定一个标准，该标准用于与MPEG-7有关的基于内容的多媒体数据获取技术。

目前，使用形状、颜色、结构和运动来描述多媒体数据的特性。

同时，运动信息对视频数据的获取非常重要。描述物体运动特性的运动描述符用构成视频数据的序列来表示，在提取运动描述符后，所述视频数据获取方法通过测量用户输入的查询视频数据和存储在数据库中的视频数据的运动描述符之间的相似性，来获取相似的视频数据。此时，所述运动描述符包括描述照相机的运动的照相机运动、描述物体路线的运动轨迹、描述整个图像运动的参数运动和定量表示图像运动活度的运动活度。其中，采用运动描述符的视频获取方法的效率取决于运动描述符对视频数据特性的描述的优劣。

即，在视频数据中，物体的运动和运动信息对于确定视频内容具有重要作用。例如，对于确定游泳比赛中跳水场景的内容、花样滑冰中旋转场景的内容和体操比赛中翻腾场景的内容，运动员的运动和运动信息是最重要的部分。

但是，如果使用传统的MPEG-7运动描述符，虽然可以表示物体的整体运动信息，却不可能分析和表示细节运动的内容。例如，行走的人和行走的动物是两个不同的内容，但是，如果仅使用运动描述符则无法对其进行区分。在使用运动轨迹的情况下，因为只表示移动物体的轨迹，因此无法对物体类型及其运动进行区分。在使用参数运动的情况下，则无法表示出诸如人体运动的非刚性变形。

在为了解决前述问题而提出的获取视频数据的传统方法中，使用了形状变化描述符，允许用户通过识别图像序列来获取所希望得到的图像序列，即使在所述图像序列数据中只是物体的一部分产生了运动，或者在少量帧中物体的局部形状频繁地发生变化。

为了准确区分物体的运动，例如举起手、放下手、坐下和起立，需要运动的连续信息.但是，传统视频数据获取方法的形状变化描述符不使用运动的连续信息，因此不能精确地区分每个运动.

发明内容

技术问题

为了解决前述问题，本发明旨在提供一种提取信息组分的方法和记录所述方法的记录介质，用于通过捕获将物体运动表示为连续图像帧(即图像序列)的视频数据以及从每个图像序列中提取信息组分，获取能够区分视频数据之间相似性的图像序列数据。此处，用于获取图像序列数据的信息组分包括形状序列和形状序列描述符，其将物体的运动识别为物体随时间的形状变化信息。

同时，本发明旨在提供一种用于获取图像序列数据的提取信息组分的方法和记录所述方法的记录介质，能够通过利用物体的运动变化以及物体的运动序列来区分各个运动，改进视频数据获取的效率。

技术方案

为了实现上述目标，本发明的一个方面提供了一种提取形状序列描述符的方法，该方法用于对图像序列进行基于内容的获取，所述图像序列用多个帧来表示物体的运动。所述方法包括下述步骤：将包括在图像序列中的图像帧转换为n(自然数)个只包括与背景相分离的物体的帧；利用所述物体提取与所述n个帧相对应的n个形状描述符；通过按照时间顺序排列所述n个形状描述符，生成形状序列；通过沿时间轴对所述形状序列进行频率变换，获得具有频率信息的变换系数；和，利用所述变换系数中低频区域的系数，提取形状序列描述符。本方面还提供了一种能够实现所述方法的系统、装置和记录介质。

为了生成所述形状序列，本方法之前包括沿时间轴归一化所述n个形状描述符的步骤。

在本方法中，根据角半径变换(ART)从所述物体提取所述形状描述符，所述ART由公式来定义。此处，F_nm可以是作为所述ART的第n和第m阶系数的复数；f(ρ，θ)可以是极坐标下的图像函数；而V_nm(ρ，θ)可以是基函数，其可以表示为径向函数和法向函数的乘积。

所述形状序列可以被生成为与所述复数的实数部分和虚数部分相对应的多个。

利用离散傅立叶变换(DFT)、离散余弦变换(DCT)和离散小波变换(DWT)中的一种方法，沿时间轴对所述形状序列进行频率变换，以获得所述变换系数。

通过所述形状序列描述符的相似性计算，确定多个图像序列间的相似性，并且根据公式

进行所述形状序列描述符的计算。此处，Q和S表示被比较的形状序列描述符，而Q(i，j)和S(i，j)是两个被比较的连续形状序列描述符的第i列和第j行的值。

附图说明

图1示出了根据本发明的优选实施例用于获取图像序列数据的提取信息组分的方法流程图；

图2示出了根据本发明优选实施例划分的多个静止图像的示意图；

图3示出了根据本发明优选实施例生成形状序列的过程；

图4示出了根据本发明的优选实施例与包括多个静止图像的多媒体数据相对应的实数部分和虚数部分的形状序列；

图5示出了根据本发明优选实施例生成形状序列描述符的过程；

图6示出了根据本发明优选实施例由多媒体数据生成形状序列描述符的过程；

图7和图8分别示出了根据本发明和传统技术用于对获取物体运动的效率进行测试的视频片段的示例；

图9是示出根据本发明和传统技术获取物体运动的效率的表格；

图10是示出根据本发明和传统技术获取物体运动的性能的曲线图；

图11是示出根据本发明和传统技术获取物体运动的平均性能的曲线图；

图12-14是示出根据本发明和传统技术识别物体运动的性能的曲线图；

图15是示出根据本发明和传统技术识别物体运动的性能的表格；和

图16是示出根据本发明和传统技术识别物体运动的平均性能的表格。

具体实施方式

本发明涉及一种用于获取图像序列数据的提取信息组分的方法和记录所述方法的记录介质，特别涉及一种提取信息组分的方法和记录所述方法的记录介质，其用于通过捕获将物体的运动表示为连续图像帧(即图像序列)的视频数据以及从每个图像序列中提取信息组分，获取能够区分视频数据之间相似性的图像序列数据。在本发明中，用于获取图像序列数据的信息组分包括形状序列和形状序列描述符，其用于将物体的运动识别为物体随时间的形状变化信息。

为了充分理解本发明、本发明的操作优点和通过实施本发明而实现的目标，应该参考示出本发明优选实施例的附图及其说明。

下面，根据附图对优选实施例进行说明。在对本发明进行说明时，为了便于理解，不考虑附图序号而对同样的内容采用了同样的附图标记。此外，在下述描述中使用的序号(例如第一、第二)，仅是用于识别同样或者相似对象的手段。

图1示出了根据本发明优选实施例用于获取图像序列数据的提取信息组分的方法流程图；图2示出了根据本发明优选实施例划分的多个静止图像；图3示出了根据本发明优选实施例生成形状序列的过程；图4示出了根据本发明优选实施例与包括多个静止图像的多媒体数据相对应的实数部分和虚数部分的形状序列；图5示出了根据本发明优选实施例生成形状序列描述符的过程。

图1所示的下列过程可以用软件程序的形式实现，也可以用信息组分提取装置的形式实现，来执行提取信息组分的方法。本领域普通技术人员通过下列描述应该能够理解所述信息组分提取装置的结构，因此不再单独提供对信息组分提取装置的描述。

如图1所示，提取信息组分的过程开始于将输入的多媒体数据(即，视频、动画或者任何其它图像序列)划分为分立的静止图像的步骤，如步骤110所示。

图2示出了通过上述步骤被划分为分立静止图像的多媒体数据的状态.如图2所示，由210a、220a、230a和240a表示的多媒体数据，可以被划分为显示一系列连续运动的一组静止图像，由210b、220b、230b和240b表示.即，多媒体数据中的每个帧可以被转换为只包括与背景相分离的物体的信息的帧.

然后，执行用每个图像序列中的形状描述符来提取物体形状信息的步骤，由步骤120表示。通过提取和列出能够描述每个静止图像帧中物体静止形状的特征向量，可以获得包含在图像序列中的关于物体的形状特征向量的序列，由此可以完成步骤120。

形状描述符是表明物体运动的特征量的描述符，并且可以根据图像区域的像素数据使用图像的形状信息。

本发明使用的形状描述符可以通过下述步骤来提取：将包含在多媒体数据中的分立帧转换为与背景相分离的并且只包括物体信息的帧；为了提取物体的形状信息，从物体信息中提取形状描述符。

下面，针对所述形状描述符的一个实施例，对使用ART(角半径变换)来提取形状描述符(例如形状特征向量)的方法进行说明。

ART是一种正交酉变换，在该变换中，单位圆的基是极坐标中的正弦函数。它能够描述旋转不变的形状，并且由于其正交性而不含冗余信息。可以如下述公式1定义ART：

【公式1】

F_{nm} = < V_{nm} (ρ, θ), f (ρ, θ) > = {&Integral;}_{0}^{2 π} {&Integral;}_{0}^{1} V_{nm}^{*} (ρ, θ) f (ρ, θ) ρdρdθ

此处，F_nm是第n和第m阶的系数，并且使用该值的大小可以表示图像的特征量。但是，当n＝0和m＝0时，此值不作为描述符使用，而是用于归一化每个系数值。f(ρ，θ)是极坐标下的图像函数。V_nm(ρ，θ)是基函数，可以将其表示为径向函数和法向函数的乘积，并且可以表示为下述公式2：

【公式2】

V_nm(ρ，θ)＝A_m(θ)R_n(ρ)

此处，A_m(θ)是构成ART基函数的角函数，R_n(ρ)是构成ART基函数的径向函数。为了表示所述旋转不变的特性，必须将A_m(θ)表示为如下述公式3：

【公式3】

A_{m} (θ) = \frac{1}{2 π} e^{jmθ}

此处，A_m(θ)是径向基函数，当使用余弦函数和正弦函数时，其分别被表示为ART-C和ART-S。

上述公式2中的R_n(ρ)可以具有不同的类型，并且根据所述类型可以表示为如公式4中所示的ART-C。

【公式4】

ART - C : R_{n}^{C} (ρ) = \{\begin{matrix} 1 & , n = 0 \\ 2 \cos (π n_{ρ}) & , n &NotEqual; 0 \end{matrix}

从每个帧中提取的ART系数表明在原始图像中包括了多少ART基的分量，并由此通过对ART系数和ART基函数的乘积进行组合，可以恢复出原始图像。理论上，要采用无限多个ART系数和ART基函数乘积的组合来获得与原始图像完全相同的图像。但是实际上，通过组合20到30个所述信息就可以获得与原始图像非常相似的图像。

由公式1计算出的ART系数的绝对值具有旋转不变性，如公式5所示.即，与ART系数的公式6相同，所述ART系数是从原始图像和旋转α角度的图像中提取的.但是，获得旋转图像的值的绝对值会得到原始图像的值，如公式7所示，因此ART的大小具有旋转不变的特性.

【公式5】

f^α(ρ，θ)＝f(ρ，α+θ)

【公式6】

F_{nm}^{α} = F_{nm} e^{jmα}

【公式7】

| | F_{nm}^{α} | | = | | F_{nm} | |

图3示出了根据本发明优选实施例生成形状序列的过程。如图3所示，通过根据与背景相分离的物体信息310进行角半径变换，由构成多媒体数据的静止图像生成了一维数据形状描述符320。所建立的形状描述符用与ART系数的大小相对应的颜色(即ART系数的视觉信息)来显示。

如图3所示，形状序列可以用作为ART变换后系数的复数的大小来显示，但是如图4所示，与包括在相关的分立帧中的物体信息410相对应的复数的实数部分420和虚数部分430也能够被分成分立的形状序列。

然后，使用步骤120中生成的形状描述符320，在步骤130中生成形状序列。换句话说，通过对由上述步骤生成的形状描述符320沿时间轴进行排列，生成形状序列330，其为二维信息。在不考虑运动速度的情况下，沿时间轴对形状描述符320进行归一化使其具有预定的时间间隔，由此生成形状序列330。针对生成形状序列330的归一化方法，可以沿时间轴使用诸如线性插值的方法。

然后，在步骤140中，确定是否需要生成形状序列描述符。

如果需要生成形状序列描述符，则在步骤150中，沿时间轴对形状序列进行频率变换获得变换系数。通过上述步骤生成(提取)的形状序列，可以直接用来表示物体实时的运动形状和获取多媒体数据。但是，因为形状序列相对大大，所述获取过程可能需要太长的时间，因此可以使用通过变换产生的、能够正确表示信号特性的系数。换句话说，通过在对所提取的形状序列中的列进行频率变换后只采用低频系数生成形状序列描述符，可以用来表示物体的运动形状或者多媒体数据的获取。此处，生成形状序列描述符的频率变换方法可以是诸如离散傅立叶变换(DFT)、离散余弦变换(DCT)、离散小波变换(DWT)或者其它各种频率变换方法。

然后，在步骤160中，通过在频率变换的变换系数中提取低频区域的一些系数，生成形状序列描述符。

图5示出了根据本发明优选实施例生成形状序列描述符的过程。

即，作为ART变换后的系数的复数中包括实数部分和虚数部分，形状序列420对应于实数部分而形状序列430对应于虚数部分，沿时间轴对形状序列420和430进行频率变换，生成频率变换后的形状序列510、520。

随后，通过只从频率变换后的形状序列510、520中提取低频区域，生成对应于实数部分的形状序列描述符530和对应于虚数部分的形状序列描述符540，该实数部分和虚数部分包括在作为ART变换后的系数的复数中.

对运动识别和多媒体数据获取所需要的形状序列描述符之间的相似性的计算，可以被定义为对两个描述符分量差值的绝对值进行求和，如下述公式8所示：

【公式8】

Dis \tan ce (Q, S) = \underset{i}{Σ} \underset{j}{Σ} | | Q (i, j) - S (i, j) | |

此时，Q和S表示被比较的形状序列描述符，而Q(i，j)和S(i，j)是两个被比较的连续形状序列描述符的第i列(即时间轴)和第j行(即，具有与物体相对应的ART系数的坐标轴)的值。

图6示出了根据本发明优选实施例从多媒体数据生成形状序列描述符的过程。

图1-5所描述的步骤被显示为图6中的一系列步骤。

如图6所示，单个多媒体数据可以被划分成一系列分立的帧310，而通过ART变换可以将分立的帧310生成为形状描述符320。

可以对生成的形状描述符320沿时间轴进行归一化，以形成形状序列330，其沿时间轴进行频率变换从而被变换为频率变换后的形状序列610。

随后，通过只提取频率变换后的形状序列610的低频区域，生成形状序列描述符620。

运动识别和多媒体数据获取所需的形状序列描述符之间的相似性可以用上述公式8来计算。所计算的值越小，则两个多媒体数据越相似。

图7和图8分别示出了根据本发明和传统技术用于测试获取物体运动的效率的视频片段示例。图9是示出根据本发明和传统技术获取物体运动的效率的表格。图10是示出根据本发明和传统技术获取物体运动的性能的曲线图。图11是示出根据本发明和传统技术获取物体运动的平均性能的曲线图。图12-14是示出根据本发明和传统技术识别物体运动的性能的曲线图。图15是示出根据本发明和传统技术识别物体运动的性能的表格。图16是示出根据本发明和传统技术识别物体运动的平均性能的表格。

图7和8所示(即，测试中使用的)数据集是MPEG-7核心实验数据集部分-B，而此相关的数据集包括110个视频片段，描述了5个人的22种运动。

使用图7和8所示的数据集，采用具有Hu矩的时间模板、具有ART描述符的时间模板、形状变化描述符和形状序列描述符，对物体运动的获取性能和识别率进行比较，结果示于图9-15。提取ART描述符和形状变化描述符的方法，在本申请人先前的专利申请KR10-2002-0034258中进行了详细描述，因此不在此进行描述。此外，显然先前专利申请中描述的技术实质的基本问题可以同样地或者类似地被使用，因此不在此重复对其的描述。

决定使用归一化调整后的检索秩(NMRR)作为对根据本发明和传统技术获取性能进行比较的标准，并且对识别率定义如下。

识别率用来衡量对特定运动的查询能否正确地确定相关运动，因此需要记录关键运动。可是，由于数据量较小，所以通过下述方法来执行识别测试。

由于每个运动有5个数据，将第一个运动记录为关键运动，而对余下的4个数据进行查询来计算是否正确地识别了相关运动.换句话说，对第一个人的22个运动进行记录，而对余下的4个人的运动依次进行查询，来计算所述识别.通过此方法，可以计算公式9的识别率.

【公式9】

识别率＝正确识别的数量/(4×100)

此外，通过将此公式应用于全部22个运动，可以计算识别率的平均值。

但是，仅使用上述测试方法可能产生由模型的选择带来的误差。在这种情况下，可以变换模型(例如，将第二个人的数据记录为标准模型)，而对余下的四个人进行查询来测试识别性能。更进一步，通过变换模型来计算识别率，并将平均值定义为最终识别率。

参照图9-11，在图中示出了对应于上述测试方法的测试结果，根据本发明的采用形状序列描述符的方法得到了最佳的获取性能。

此外，参照图12-16，在图中示出了物体运动识别率的测试结果，根据本发明的采用形状序列描述符的方法得到了最佳的运动识别性能。

用于描述本发明的附图和公开内容是本发明的示例，不应该解释为限制或约束在所附权利要求中公开的本发明的保护范围。任何与本发明相关的领域的普通技术人员应该理解，可能存在大量的变更和等同实施例。本发明准确的保护范围应该只由所附权利要求限定。

工业适用性

如上所述，一种根据本发明用于获取图像序列数据的提取信息组分的方法和记录所述方法的记录介质，能够捕获将物体运动表示为连续图像帧(即图像序列)的视频数据，从每个图像序列中提取信息组分，并区分视频数据之间的相似性。此处用于获取图像序列数据的信息组分包括形状序列和形状序列描述符，其将物体的运动识别为物体随时间的形状变化信息。

此外，本发明能够利用物体的运动序列以及物体的形状变化，来区分彼此不同的运动，改进了视频数据获取的性能。

Claims

1.一种提取形状序列描述符的方法，用于对图像序列进行基于内容的获取，所述图像序列用多个帧来表示物体的运动，该方法包括以下步骤：

将包括在图像序列中的图像帧转换为n个只包括与背景相分离的物体的帧，其中n为自然数；

使用所述物体提取与所述n个帧相对应的n个形状描述符；

通过按照时间顺序排列所述n个形状描述符，生成形状序列；

通过沿时间轴对所述形状序列进行频率变换，获得具有频率信息的变换系数；和

利用所述变换系数中低频区域的系数，提取形状序列描述符。

2.根据权利要求1所述的方法，为了生成所述形状序列，之前包括沿时间轴归一化所述n个形状描述符的步骤。

3.根据权利要求1所述的方法，其中，根据角半径变换(ART)从所述物体提取所述形状描述符，所述ART由下式定义

F_{nm} = < V_{nm} (ρ, θ), f (ρ, θ) > = {&Integral;}_{0}^{2 π} {&Integral;}_{0}^{1} V_{nm}^{*} (ρ, θ) f (ρ, θ) ρdρdθ

其中，F_nm是作为所述ART的第n和第m阶系数的复数，所述f(ρ，θ)是极坐标下的图像函数，所述V_nm(ρ，θ)是基函数，表示为径向函数和法向函数的乘积。

4.根据权利要求3所述的方法，其中，所述形状序列被生成为多个，以与所述复数的实数部分和虚数部分相对应。

5.根据权利要求1所述的方法，其中，利用离散傅立叶变换(DFT)、离散余弦变换(DCT)和离散小波变换(DWT)中的一种方法，沿时间轴对所述形状序列进行频率变换，以获得所述变换系数。

6.根据权利要求1所述的方法，其中，通过所述形状序列描述符的相似性计算，确定多个图像序列间的相似性，并根据下式进行所述形状序列描述符的计算

Dis \tan ce (Q, S) = \underset{i}{Σ} \underset{j}{Σ} | | Q (i, j) - S (i, j) | |

其中，Q和S表示被比较的形状序列描述符，Q(i，j)和S(i，j)是两个被比较的连续形状序列描述符的第i列和第j行的值。