CN102292724B

CN102292724B - 匹配加权信息提取装置

Info

Publication number: CN102292724B
Application number: CN201080005086.7A
Authority: CN
Inventors: 大网亮磨; 岩元浩太
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-01-23
Filing date: 2010-01-20
Publication date: 2015-06-17
Anticipated expiration: 2030-01-20
Also published as: EP2383665A4; KR101347933B1; KR20110112820A; WO2010084738A1; JPWO2010084738A1; EP2383665A1; JP5644505B2; US20110274317A1; EP2383665B1; CN102292724A; US8873799B2

Abstract

该匹配加权信息提取装置具有匹配加权信息提取机构。上述的匹配加权信息提取机构将所输入的影像或者从影像中提取的多维特征量中的至少任一个在时间方向的变化与上述维进行关联分析。然后上述匹配加权信息提取机构根据时间方向的变化幅度计算出上述每一维的匹配用加权信息作为匹配加权信息。

Description

匹配加权信息提取装置

技术领域

本发明涉及一种在匹配影像检索用影像标识符时使用的加权信息的提取装置、方法以及程序，其中影像检索是指从大量的动态影像中检测类似或者相同的动态影像区间。

背景技术

在非专利文献1中记载了利用加权信息的动态影像特征量提取·匹配装置的一个例子。图12是表示在非专利文献1中记载的动态影像特征量提取装置的框图。

块单位特征量提取机构1000从所输入的第一影像中以块为单位提取特征量，并向匹配机构1030输出第一特征量。块单位特征量提取机构1010从所输入的第二影像以块为单位提取特征量，并向匹配机构1030输出第二特征量。加权系数计算机构1020基于输入的分析用影像计算出各块的权重值，并向匹配机构1030输出加权系数。匹配机构1030利用从加权系数计算机构1020输出的加权系数，对从块单位特征量提取机构1000输出的第一特征量、从块单位特征量提取机构1010输出的第二特征量进行匹配后输出匹配结果。

下面对图12所示装置的操作进行说明。

在块单位特征量提取机构1000中，将所输入的第一影像的各帧分割为块单位，计算出用于从各块识别影像的特征量。具体地，判断每个块的边界类型，将其类型作为各块的特征量进行计算。然后针对每个帧构成由各块的边界类型构成的特征量矢量。针对各帧计算出该特征量矢量，得到的特征量作为第一特征量输出到匹配机构1030。

块单位特征量提取机构1010的操作也和块单位特征量提取机构1000相同，由所输入的第二影像计算出第二特征量，将得到的第二特征量输出到匹配机构1030。

另一方面，在加权系数计算机构1020中预先利用分析用影像计算出帧内的各块中插入字幕的概率。然后基于计算出的概率计算各块的加权系数。具体地为了提高对字幕重叠的鲁棒性，计算加权系数时使得字幕重叠的概率越低权重越高。将得到的加权系数输出到匹配机构1030。

在匹配机构1030中，利用从加权系数计算机构1020输出的加权系数，对从块单位特征量提取机构1000输出的第一特征量和从块单位特征量提取机构1010输出的第二特征量进行匹配。具体地对每一个帧比较位于同一位置的块的特征量，如果相同则计分为1，不相同则计分为0。将得到的块单位的计分利用加权系数加权计算出总和，计算出帧的匹配分数(帧单位的相似度)。对各帧进行上述操作，计算出第一影像、第二影像的匹配结果。

通过这种方式，字幕重叠的影响较大处的影响得到抑制，使得能够进行动态图像的匹配，即使是有字幕重叠的情况下也能够达到高的匹配精度。

并且，在专利文献中记载了利用块单位的平均值、DCT系数等图像的特征量和在前后帧之间求出的运动矢量信息对动态图像进行检索的装置。在专利文献1中记载的动态图像检索装置中，首先从所输入的图像中针对各帧从各帧的亮度、色差信息、色彩信息等物理性动态图像特征量信息值、其平均值、其总和值或者其值的差分值中至少提取一项。然后，将提取的值在时间轴上排列后从其全部排列中以一定间隔或者不规则间隔的方式提取的值作为动画识别信息。或者，从被压缩的动态图像数据中提取帧的DCT系数和运动补偿信息，求出DCT系数的平均值、其值的总和或者差分值，从运动补偿信息中求出运动矢量、前后帧之间的平均运动矢量、总运动矢量、差分矢量或者整个帧的运动矢量等中的至少一项。然后，将求出的值在时间轴上排列之后从其全部排列中以一定间隔或者不规则间隔的方式提取的值作为动画识别信息。

现有技术文献

专利文献

专利文献1：日本特开2000-194727号公报

非专利文献

非专利文献1：Kota Iwamoto，Eiji Kasutani，Akio Yamada，《ImageSignature Robust to Caption Superimposition for Video SequenceIdentification》，Proceedings of International Conference on ImageProcessing(ICIP2006)，2006。

非专利文献2：Eiji Kasutani，Ryoma Oami，Akio Yamada，TakamiSato and Kyoji Hirata《Video Material Archive System for Efficient VideoEditing Based on Media Identification》，Proceedings of InternationalConference on Multimedia and Expo(ICME2004)，pp.727-730，2004.

发明内容

上述技术的问题在于随时间变化小的场景中难以提高时间方向的识别精度。其理由是，非专利文献1的情况下用字幕重叠的概率确定匹配时的加权，而不进行与随时间变化小的场景的匹配相配合的控制。随时间变化小的场景在很多情况下画面上的大部分不在运动，而只在局部区域内产生运动、亮度变化等图像的变化。这种情况下通过着重匹配该局部区域，就可以在存在编码失真等情况下也能够提高时间方向的识别精度。但是上述方式没有从这种观点出发确定加权系数。因此容易受到占据大部分画面的没有运动的区域中的编码失真的影响，降低了时间方向的识别精度。即使是专利文献1的情况，虽然利用了运动信息，但是由于没有采用独立使用从运动信息求出的特征量和从亮度值、DCT系数求出的特征量并着重匹配局部区域的方法，因此存在同样的问题。

本发明的目的在于提供一种匹配加权信息提取装置，该装置能够解决从随时间变化小的动态图像生成的影像标识符中识别精度下降的问题。

本发明的一个实施方式涉及的匹配加权信息提取装置具有匹配加权信息提取机构，该机构将所输入的影像或者从影像中提取的多维特征量中的至少任一个在时间方向的变化与上述维进行关联分析，根据时间方向的变化幅度针对每一维计算出作为匹配加权信息的匹配用加权信息。

由于本发明具有如上所述的构成，因此即使是随时间变化小的场景，也能够得到提高时间方向的识别精度的效果。

附图说明

图1是表示本发明所涉及的匹配加权信息提取装置的第一实施方式的框图。

图2是表示时间方向变化信息提取机构150的构成例的框图。

图3是用于说明图2中时间方向变化信息提取机构150的处理的图。

图4是表示时间方向变化信息提取机构150的其他构成例的框图。

图5是用于说明图4中时间方向变化信息提取机构150的处理的图。

图6是表示插入了本发明所涉及的第一实施方式的匹配加权信息提取装置的影像标识符提取装置的实施方式的框图。

图7是表示匹配从图6的影像标识符提取装置输出的影像标识符的影像标识符匹配装置的实施方式的框图。

图8是用于说明两个影像的匹配处理的图。

图9是表示本发明所涉及的匹配加权信息提取装置的第二实施方式的框图。

图10是表示插入了本发明涉及的第二实施方式的匹配加权信息提取装置的影像标识符匹配装置的实施方式的框图。

图11是说明特征量的一个例子的图。

图12是用于说明本发明相关技术的框图。

附图标记的说明

100…特征量提取机构

110…匹配加权信息提取机构

120…影像标识符生成机构

150…时间方向变化信息提取机构

160…匹配加权信息计算机构

200…匹配机构

210…加权系数计算机构

220、230…影像标识符分离机构

320、330…匹配加权信息提取机构

350…时间方向变化信息提取机构

360…匹配加权信息计算机构

400…图像间差分计算机构

410、510…时间方向变化信息计算机构

500…运动信息计算机构

具体实施方式

下面参照附图对实施发明的最优方式进行详细说明。

参照图1，示出了本发明的第一实施方式的匹配加权信息提取装置，其由匹配加权信息提取机构110构成。匹配加权信息提取机构110进而由时间方向变化信息提取机构150、匹配加权信息计算机构160构成。

时间方向变化信息提取机构150基于特征量提取参数，从所输入的影像中提取时间方向变化信息并输出到匹配加权信息计算机构160。匹配加权信息计算机构160根据从时间方向变化信息提取机构150输出的时间方向变化信息计算出匹配用匹配加权信息并输出。

再者，匹配加权信息提取装置可以通过计算机实现，在利用计算机实现时，例如采取如下方式。准备存储有程序的磁盘、半导体存储器、其他存储介质，以使计算机具有匹配加权信息提取装置的功能，并在计算机上读取上述程序。计算机根据读取的程序控制自身的操作，在该计算机上实现时间方向变化信息提取机构150以及匹配加权信息计算机构160。

下面对图1所示的匹配加权信息提取装置的操作进行说明。

首先，如果将帧或者半帧等影像画面的构成单位称为图像，则作为本发明对象的视觉特征量是由每幅图像计算出的多维特征量矢量。即，把图像看作一幅静止画面，将表示其色彩、图案、形状等特征的物理量当作视觉特征量。而且，视觉特征量不是通过转换整个画面得到的，而是从画面内的部分区域中计算出的特征量。即，特征量矢量的各维通过特征量提取参数与画面内的特定区域相对应，并存储有从该区域中提取的特征量的值。例如，特征量矢量的各维是将画面分割为块时从各个块中提取的特征量。或者，也可以从事先确定的任意形状的区域中求出特征量的各维的值。其中，具体地例如特征量矢量的各维为从画面内特定的块中提取的特征量时，特征量提取参数为描述提取其特征量的特定块的信息(块的坐标值、块的索引号等)。或者各种形状的局部区域与特征量矢量的各维相对应时，特征量提取参数为描述其局部区域的信息(表示局部区域的位置、尺寸、形状的信息)。

在图1中影像被输入到时间方向变化信息提取机构150中。在时间方向变化信息提取机构150中，利用特征量提取参数计算出与特征量的各维相对应的区域中时间方向上图像的变化量。利用作为现时对象的图像和其前后图像计算出每一个区域中的变化量。对于时间方向变化信息提取机构150中变化量的具体计算方法将在后面叙述。求出的描述图像变化量的信息作为时间方向变化信息输出到匹配加权信息计算机构160。

在匹配加权信息计算机构160中，根据从时间方向变化信息提取机构150输入的时间方向变化信息计算出匹配加权信息。即，根据针对各维求出的时间方向的变化量，确定并输出匹配时使用的描述特征量各维的加权幅度的信息。时间方向的变化越大的区域其对影像识别贡献的可能性就越高，因此变化越大所实施的加权越重要。例如利用对时间方向的变化量而言单调增加的函数来确定加权的程度。作为匹配加权信息，可以是确定加权幅度的系数本身，或者也可以是将加权幅度从轻到重划分为若干个等级后指定该等级的索引的信息。例如，在新闻中播音员说话的场景中，播音员脸附近以外的部分基本上不会动。这种情况下由于只有和播音员的脸相对应的区域的维在时间方向的变化相比画面中其他区域大，因此计算出与脸的区域(特别是对应于嘴、眼睛的区域)相对应的特征量的维的权重高的匹配加权信息。

另外，匹配加权信息可以针对每一幅图像计算，也可以汇总几幅图像进行计算输出。例如，镜头内有运动的部分只限定于特定区域的情况下，可以对该镜头的整体计算并输出匹配加权信息。更具体地，将镜头内某一幅图像作为处理对象求出的匹配加权信息可以针对于镜头内其他图像使用。通过这种方式能够减少用于计算匹配加权信息的计算量。或者针对镜头内的全部或者多个图像计算出匹配加权信息，利用其代表值(平均，中间值等)描述镜头整体的匹配加权信息，也可以针对镜头内的全部图像使用。通过这种方式能够减少匹配加权信息的信息量。

但是，输出匹配加权信息的单位不限定于镜头，也可以隔着多幅图像等以固定的时间间隔进行输出。或者也可以从时间方向变化信息计算出能够适用相同的匹配加权信息的时间区间，并针对该时间区间所包含的图像计算出总的匹配加权信息并输出。这种情况下，由于总的图像数量每回都在变化，因此需要同时记述其图像数量。能够适用相同匹配加权信息的时间区间的计算可以通过对时间方向变化信息在图像之间的变化进行阈值处理的方式进行。即，对时间区间开始图像的时间方向变化信息和目前图像的时间方向变化信息进行比较，如果该变化的幅度超过了阈值，则将其前一图像为止的区间看作一个整体，并计算出针对该区间的匹配加权信息。针对上述区间的匹配加权信息可以是区间内任意一个图像的匹配加权信息，或者也可以是区间内图像的匹配加权信息的代表值。通过这种方式，不管作为处理对象的影像是什么样的，都能够在时间方向保持高精度识别的状态下减少匹配加权信息的信息量。

并且，多个特征量矢量的维对应于相同区域的情况下，可以将其汇总表示为一个加权信息。例如，在ISO/IEC 15938-3中规定的EdgeHistogram情况下，每5个柱(bin)对应于一个相同的区域。这种情况下也可汇总描述每5个柱的加权信息。

下面参照图2对时间方向变化信息提取机构150的构成例进行说明。

参照图2，示出了时间方向变化信息提取机构150的构成例，其由图像间差分计算机构400、时间方向变化信息计算机构410构成。

图像间差分计算机构400从所输入的影像计算出图像间差分信息并输出到时间方向变化信息计算机构410。时间方向变化信息计算机构410利用从图像间差分计算机构400输出的图像间差分信息和特征量提取参数计算并输出时间方向变化信息。

下面对图2所示的时间方向变化信息提取机构150的操作进行说明。

首先，影像被输入到图像间差分计算机构400中。在图像间差分计算机构400中求出图像之间像素值的差分。差分的计算可以以像素为单位进行，也可以按能将某些像素集中的区域(例如块)为单位计算出差分。例如也可采用如下方法：求出对应于各区域的代表值(像素值的平均、中间值等)，取图像间位于相同位置的区域的代表值和差分。通过这种方法可以降低影像上重叠的噪音的影响。并且，像素值的差分可以是亮度值之间的差，作为像素值也可以利用R、G、B的色彩成分求出这些成分中的至少一个差分作为像素值的差分。当然，色彩空间不仅限于RGB，也可以是HSV或者L^*a^*b^*等任意的色彩空间。并且作为差分不仅限于简单地减去像素值，也可以是进行绝对值运算，求出差分的绝对值。计算出的图像间差分数据作为图像间差分信息输出到时间方向变化信息计算机构410。

在时间方向变化信息计算机构410中，由图像间差分信息和特征量提取参数计算出特征量的对应于各维的时间方向变化量。为此，首先在作为处理对象的图像中计算出运动物体相对应的区域中变大的值。该值可以取作为处理对象的图像和前一个图像之间、作为处理对象的图像和后一个图像间计算出的差分值的乘积。

在图3中表示了该方式。在图3中T图像是作为处理对象的图像，T-1图像、T+1图像分别表示处理对象图像的前一个、后一个图像。而且，在这些图像中长方形的斜线物体是静止的，只有黑色的圆物体在运动。这种情况下在上述的图像间差分计算机构400中，计算处理对象即T图像和前一个T-1图像之间的差分。这时如图所示，只出现由于圆物体的运动而产生的差分。但是，差分值自身具有变成T图像中圆物体的位置以及T-1图像中该物体位置两者中的较大值的倾向。同样地，通过计算出后一个T+1图像和T图像的差分，以使在T图像中圆物体的位置和T+1图像中圆物体的位置处的差分变大。然后计算出两个差分影像的乘积(product)。在两个差分影像中差分值都增加的位置只有T图像中圆物体的位置，由此可以只增加T图像的运动物体区域的差分。在这里对利用处理对象的图像的前一个、后一个图像进行计算的方法进行了说明，此外也可以利用若干张之前的图像、若干张之后的图像进行同样的计算。即，利用T-m图像、T+n图像也同样能够只增加运动物体区域的差分。然后，将上述得到的结果集中在用于各维的特征量提取的区域内，以计算出各维的时间方向变化量。

作为集中的方法单纯地只在区域内进行加法运算的情况下，可以用[式1]计算出时间方向变化量。

[式1]

D (i) = \underset{x &Element; R (i)}{Σ} | f_{T - 1} (x) - f_{T} (x) | | f_{T + 1} (x) - f_{T} (x) |

[式1]中，f_T(x)表示T图像在位置x处的像素值、R(i)表示用于计算出第i个维的区域(像素的集合)、D(i)表示第i个维的时间方向变化量。其中，在这里使用了单纯地在区域内进行加法运算的方法，此外可以取区域内的平均，也可以平方后再进行加法运算，或者也可以利用中间值或最大值等其他统计量求出时间方向变化量。并且还可以利用整个区域内的像素值求出时间方向变化量。例如还可以每隔一个像素计算出时间方向变化量。

将描述针对于各维的、用上述方法计算出的时间方向变化量的信息作为时间方向变化信息输出。该输出可以是上述的变化量D(i)本身，也可以使其量化为几个等级，将该量化指数作为时间方向变化信息输出。并且没有必要针对全部图像计算出时间方向变化信息，隔若干个图片计算即可。这时可以对利用多个帧计算出的时间方向变化量取平均，将得到的平均值作为和若干个图像相对应的时间方向变化信息。

由于基本上只要取图像之间的差分即可，因此图2所示的时间方向变化信息提取机构150具有能减小处理负荷的特点。

下面参照图4对时间方向变化信息提取机构150的其他构成例进行说明。

参照图4，示出了时间方向变化信息提取机构150的其他构成例，其由运动信息计算机构500、时间方向变化信息计算机构510构成。

运动信息计算机构500以影像作为输入计算出运动矢量，并将运动矢量信息输出到时间方向变化信息计算机构510。时间方向变化信息计算机构510利用从运动信息计算机构500输出的运动矢量信息和特征量提取参数计算并输出时间方向变化信息。

下面对图4所示的时间方向变化信息提取机构150的操作进行说明。

首先，影像被输入到运动信息计算机构500中。在运动信息计算机构500中对当前的对象图像与之前(或者之后)的图像进行运动估计，计算出运动矢量。作为运动矢量的计算方法，可以使用现有的基于梯度法的方法、基于块匹配的方法等任意一个运动矢量估计法。并且运动可以以像素为单位计算出，也可以将图像分割为多个小块，以块为单位求出运动。描述由此计算出的运动矢量场的信息作为运动矢量信息输出。运动矢量信息可以是直接描述在图像内求出的每个运动矢量的信息，也可以是对只有0以外的运动矢量被计算的区域的运动与用于指定区域的信息进行共同描述的信息。计算出的运动矢量信息输出到时间方向变化信息计算机构510。

在时间方向变化信息计算机构510中根据表示区域的特征量提取参数将计算出的运动矢量集中起来，计算出时间方向变化量，其中该区域用于计算出特征量的各维。在图5中表示了该过程。在图5中表示了T图像和T-1图像的状态。对此如图所示，通过运动估计处理，在相当于圆物体运动的部分计算出运动矢量。所以由特征量提取参数求出对应于各维的区域，并计算出区域内的运动量。例如，在区域内计算出运动矢量长度之和。用数学表达式表示则为[式2]。

[式2]

D (i) = \underset{x &Element; R (i)}{Σ} | v (x) |

其中，v(x)表示在位置x处的运动矢量。其他符号和[式1]相同。其中，在这里单纯地在区域内使用加法运算求出了时间方向变化量，此外还可以取区域内的平均，也可以平方后进行加法运算，或者也可以利用中间值或最大值等其他的统计量求出时间方向变化量。并且还可以利用区域内的全部运动矢量求出时间方向变化量。例如可以适当间隔规定的图像计算出时间方向变化量。

图4所示的时间方向变化信息提取机构150计算出了运动，因此一般而言相比图2的情况处理量增加，但是由于计算出了实际的运动，因此相比图2的情况可以更高精度地计算出时间方向上存在运动的区域。

以上是对于本发明的第一实施方式的匹配加权信息提取装置的说明。

[本发明的第一实施方式的效果]

根据本实施方式，即使是随时间的变化较小的场景也能够提高时间方向的识别精度。其理由是，即使是随时间的变化较小的场景情况下，通过提高产生运动、亮度变化等图像变化的区域相对应的特征量的权重，能够减小由于编码失真等原因导致的特征量的变化对匹配产生的影响。例如，假设播音员在播音室播报新闻场景的连续图像分别为图像A、图像B两张。图像A和图像B的差别只在于播音员的嘴的部分，其他部分是完全相同的图像。给定一张和图像A完全相同的图像C，然后自动判断该图像C和图像A、B中的哪一幅图像更类似。这时如果图像A～C中完全不存在编码失真，则图像C和图像A之间的距离为0。另一方面，由于有运动的嘴部分的权重变大，因此图像C和图像B的距离会变得足够大。

在这里考虑例如图像A的背景部分存在编码失真的情况。由于该编码失真引起图像C和图像A的距离变大，但是由于没有运动的背景部分的权重较小，因此图像C和图像A之间的距离为图像C和图像B之间的距离以下。

并且在本实施方式中，针对连续的多幅图像中的一张计算出匹配加权信息，将该计算出的匹配加权信息作为上述多幅图像的匹配加权信息，因此可以减少计算出匹配加权信息时的计算量的同时还能减少匹配加权信息的信息量。

而且在本实施方式中，针对所有连续的多幅图像或者对其中的一部分计算出每幅图像的匹配加权信息，将该计算出的每幅图像的匹配加权信息的代表值作为上述多幅图像的匹配加权信息，因此能够减少匹配加权信息的信息量。

并且在本实施方式中，根据图像在时间方向上的图像变化的幅度判断能适用相同的匹配加权信息的时间区间，然后再确定该时间区间内的针对于图像的匹配加权信息，因此在确保时间方向上的高识别精度的状态下，作为处理对象的影像不管是什么样的影像都能够减少匹配加权信息的信息量。

再有，在本实施方式中通过求出图像之间位于相同位置的区域之间的像素值代表值的差分，以计算出图像间的像素值差分，因此能够消除影像上重叠的噪音的影响。

下面对利用了本发明的第一实施方式的影像标识符提取装置以及通过该提取装置产生的影像标识符之间的匹配装置进行说明。

参照图6，示出了利用了本发明的第一实施方式的匹配加权信息提取装置的影像标识符提取装置，其由特征量提取机构100、匹配加权信息提取机构110、影像标识符生成机构120构成。其中图6所示的影像标识符提取装置能够通过程序控制的计算机实现。

特征量提取机构100利用输入的特征量提取参数，从所输入的影像中提取视觉特征量，并将视觉特征量输出至影像标识符生成机构120。匹配加权信息提取机构110利用输入的特征量提取参数，从所输入的影像计算出匹配加权信息并将匹配加权信息输出至影像标识符生成机构120。影像标识符生成机构120集成从特征量提取机构100输出的视觉特征量和从匹配加权信息提取机构110输出的匹配加权信息，生成并输出影像标识符。

下面对图6所示的影像标识符提取装置的操作进行详细说明。

首先，影像被输入到特征量提取机构100中。原来的图像被编码的情况下，先通过解码器解码之后以帧或者半帧构成的图像单位输入数据。

在特征量提取机构100中计算出每个图像的特征量矢量。将图像看作一幅静止画面，提取表示该色彩、图案、形状等特征的视觉特征量的矢量。在这里视觉特征量不是通过转换整个画面得到的，而是从画面内的部分区域计算出的特征量。即，特征量矢量的各维是通过特征量提取参数和画面内的特定区域相对应，并存储有从该区域提取的特征量的值。例如，特征量矢量的各维分别是将画面分割为块时从各个块中提取的特征量。对每个图像计算出的特征量矢量作为视觉特征量输出到影像标识符生成机构120。

并且，影像也被输入到匹配加权信息提取机构110中。匹配加权信息提取机构110按照本发明的第一实施方式中叙述的方式操作，计算出的匹配加权信息输出到影像标识符生成机构120。

在影像标识符生成机构120中综合了从特征量提取机构100输出的视觉特征量和从匹配加权信息提取机构110输出的匹配加权信息，生成并输出影像标识符。其中，以两者能够在匹配时分离的形式生成多重化的影像标识符。作为多重化的方法，可以使每幅图像的视觉特征量和匹配加权信息交错并多重化，或者先只把匹配加权信息多重化，然后把视觉特征量多重化(或者相反顺序)。或者也可以每隔一定的区间(例如每个计算出匹配加权信息的时间区间单位)使匹配加权信息和视觉特征量多重化。

下面，对利用图6所示影像标识符提取装置产生的影像标识符的匹配装置的实施方式进行说明。

参照图7，示出了对利用图6所示的影像标识符提取装置生成的影像标识符进行匹配的影像标识符匹配装置的实施方式，其由影像标识符分离机构220、影像标识符分离机构230、加权系数计算机构210、和匹配机构200构成。其中图7所示的影像标识符匹配装置能够通过程序控制的计算机实现。

影像标识符分离机构220从所输入的第一影像标识符分离第一视觉特征量和第一匹配加权信息，分别输出到匹配机构200和加权系数计算机构210。影像标识符分离机构230也同样地从所输入的第二影像标识符分离第二视觉特征量和第二匹配加权信息，分别输出到匹配机构200和加权系数计算机构210。加权系数计算机构210根据从影像标识符分离机构220输出的第一匹配加权信息和从影像标识符分离机构230输出的第二匹配加权信息求出加权系数(有时记为加权系数)，并输出到匹配机构200。匹配机构200利用从加权系数计算机构210输出的加权系数，对从影像标识符分离机构220输出的第一视觉特征量和从影像标识符分离机构230输出的第二视觉特征量进行匹配，并输出匹配结果。

下面对图7所示的影像标识符匹配装置的操作进行说明。

首先，第一影像标识符被输入到影像标识符分离机构220中。在影像标识符分离机构220中，从第一影像标识符中分离第一视觉特征量和第一匹配加权信息。这时，在影像标识符生成机构120中利用与多重化时使用的方法相对应的分离方法进行分离。分离产生的第一视觉特征量输出到匹配机构200，第一匹配加权信息被输出到加权系数计算机构210。

第二影像标识符被输入到影像标识符分离机构230中。影像标识符分离机构230的操作和影像标识符分离机构220相同，分离产生的第二视觉特征量被输出到匹配机构200，第二匹配加权信息被输出到加权系数计算机构210。

在加权系数计算机构210中，由第一匹配加权信息和第二匹配加权信息计算出相对于特征量各维的加权系数。从第一匹配加权信息和第二匹配加权信息计算加权系数时有多种方法，其方法只要满足以下条件即可：两匹配加权信息对应于小的权重值时加权系数变小，至少一个加权匹配信息所对应的权重值变大时加权系数增加。例如从第一、第二匹配加权信息求出的权重分别为w₁(i)、w₂(i)时，加权系数w(i)可以利用[式3]计算。

[式3]

w(i)＝max(w₁(i)，w₂(i))

更为一般地可以使用[式4]。

[式4]

w(i)＝|w₁(i)^p+w₂(i)|^1/p

其中，p为任意的自然数，p趋近于无限大时返回到[式3]。对特征量的各维计算出该加权系数，并输出到匹配机构200。

在匹配机构200中对第一视觉特征量和第二视觉特征量进行匹配。这时，可以通过表示两个特征量的类似性的相似度进行比较，也可以通过表示两个特征量差异程度的距离进行比较。利用距离进行比较时，基于利用[式5]计算出的距离d进行比较。

[式5]

d = Σ_{i = 1}^{N} w (i) | v_{1} (i) - v_{2} (i) |

其中，N是特征量的维数，v₁(i)、v₂(i)分别表示第一、第二特征量的第i维的值，w(i)表示第i维所对应的加权系数。对每个图像单位进行该比较，以在一定区间内进行第一影像和第二影像的匹配。例如，通过图像单位的比较求出距离值在阈值范围以内的图像的对数，其值如果比包含在区间内的图像数还多，则判断位于相同的区间，否则判断不是位于同一区间。通过对第一图像和第二图像的任意区间的组合进行上述操作，可以判断出包含在这些图像之间的所有任意长度的同一区间。并且可以用以下方式代替以图像单位对距离进行阈值处理的方式进行判断：在区间内求出距离的总和，然后判断该值是否小于预先设定的阈值。也可以用平均值代替总和。或者也可以在区间内删除异常值后再进行匹配。例如通过使用中间值或M估计的结果代替平均值就能够实现匹配。

作为比较任意长度区间的方法，可以使用非专利文献2中记载的匹配方法。如图8所示，在影像之间的匹配中设置长度为L的图像匹配窗，其在第一图像、第二图像之间滑动，以比较两者。如果判断匹配窗内的区间互为同一区间，则从该位置只延长匹配窗相当于p幅图像的长度，继续进行匹配处理。只要判断是同一区间，则反复延长匹配窗相当于p幅图像的长度，求出最大长度的同一区间。通过这种方式能够有效地求出最大长度的同一区间。

其中，在上述说明中叙述了将距离作为尺度使用的情况，利用相似度也同样能够进行匹配。具体地，基于通过[式6]计算出的相似度S进行比较。

[式6]

S = Σ_{i = 1}^{N} w (i) Sim (v_{1} (i), v_{2} (i))

其中，Sim(x，y)是表示x和y的接近度的函数，x和y的值靠得越近其值越大。例如，如果将x和y之间的距离设为d(x，y)，则可以利用[式7]所示的函数。

[式7]

Sim (x, y) = \frac{1}{1 + d (x, y)}

或者，Sim(x，y)可以是克罗内克符号那种函数，只有当x和y相等时取值为1，否则为0。或者作为相似度利用特征矢量间的角度(余弦值)的情况下，基于通过[式8]计算出的相似度S进行比较。

[式8]

S = \frac{Σ_{i = 1}^{N} w (i) v_{1} (i) v_{2} (i)}{\sqrt{(Σ_{i = 1}^{N} w (i) v_{1} {(i)}^{2}) (Σ_{i = 1}^{N} w (i) v_{2} {(i)}^{2})}}

利用由上述方法求出的相似度，和距离的情况同样地能够进行匹配。

由此计算出第一影像标识符和第二影像标识符的匹配结果。

以上是对利用了本发明的第一实施方式的影像标识符提取装置以及利用该提取装置而生成的影像标识符之间的匹配装置的说明。

下面对本发明的匹配加权信息提取装置的第二实施方式进行说明。

参照图9，示出了本发明的第二实施方式的匹配加权信息提取装置，其由特征量提取机构100和匹配加权信息提取机构320构成。匹配加权信息提取机构320进而由时间方向变化信息提取机构350和匹配加权信息计算机构360构成。其中，图9所示的匹配加权信息提取装置能够通过程序控制的计算机实现。

特征量提取机构100利用输入的特征量提取参数，从所输入的影像中提取视觉特征量，输出到时间方向变化信息提取机构350。时间方向变化信息提取机构350根据从特征量提取机构100输出的视觉特征量求出时间方向变化信息，并输出到匹配加权信息计算机构360。匹配加权信息计算机构360根据时间方向的变化信息计算并输出匹配加权信息，该时间方向的变化信息是从时间方向变化信息提取机构350输出的。

下面对图9所示的匹配加权信息提取装置的操作进行说明。

特征量提取机构100的操作和图6中影像标识符提取装置的特征量提取机构100相同，得到的视觉特征量被输出到时间方向变化信息提取机构350。

在时间方向变化信息提取机构350中对按时间顺序输入的视觉特征量的各维的值在时间方向上如何变化进行分析，并将得到的结果作为时间方向变化信息输出到匹配加权信息计算机构360。例如，在一定的时间区间内针对特征量的各维计算出分散值。分散幅度越大，表示时间方向的变化越大，因此基于分散计算出时间方向变化信息。例如，可以用分散值或者从分散值派生的特征量(标准偏差等)的值直接作为时间方向变化量进行计算。

匹配加权信息计算机构360的操作基本上和图1的匹配加权信息计算机构160相同。但是区别在于：输入的时间方向变化信息的值是从原来的影像计算出的或是基于从影像计算出的特征量计算出的。并且基于时间方向变化信息以下述方式计算出权重：提高使其值产生变化的维的贡献，减小没有使其值变化的维的贡献。

[本发明的第二实施方式的效果]

根据本实施方式，即使是随时间变化较小的场景中由于编码失真造成的影像中产生失真的情况下，也能够提高时间方向的识别精度，还能高精度地检测类似或者同一影像区间。其理由是针对特征量的各维的匹配加权信息和特征量的各维的值在时间方向的变化幅度相对应，因此能够减少由于编码失真等原因产生的特征量的变化对匹配的影响。

下面对利用了本发明的第二实施方式的匹配加权信息提取机构320的影像标识符匹配装置的实施方式进行说明。

参照图10，示出了利用了本发明的第二实施方式的匹配加权信息提取机构320的影像标识符匹配装置的实施方式，其由匹配加权信息提取机构320、330、加权系数计算机构210和匹配机构200构成。其中图10所示的影像标识符匹配装置能够通过程序控制的计算机实现。

匹配加权信息提取机构320、330分别以第一视觉特征量、第二视觉特征量为输入，分别将第一匹配加权信息、第二匹配加权信息输出到加权系数计算机构210。加权系数计算机构210根据从匹配加权信息提取机构320、330输出的第一、第二匹配加权信息，计算出和特征量的各维相对应的加权系数，并输出至匹配机构200。匹配机构200利用从加权系数计算机构210输出的加权系数对第一视觉特征量和第二视觉特征量进行匹配，并输出匹配结果。

下面对图10所示的影像标识符匹配装置的操作进行说明。

第一视觉特征量和第二视觉特征量分别输入到匹配加权信息提取机构320、330中。匹配加权信息提取机构320、330的操作和图9的匹配加权信息提取机构320相同，分别计算出第一、第二匹配加权信息。计算出的第一、第二匹配加权信息输出到加权系数计算机构210。

加权系数计算机构210的操作和图7的匹配装置的加权系数计算机构210相同，计算出的加权系数输出到匹配机构200。

匹配机构200的操作和图7的匹配机构200相同，输出匹配结果。

以上是图10所示影像标识符匹配装置的实施方式的说明。根据本实施方式即使在提取时没有计算出用于匹配的匹配加权信息，也能够在匹配侧计算出加权系数，并用到匹配中。

下面说明本发明的第三实施方式。

图11示出了从图像提取特征量的方式的一个例子。在该方式中将图像内的任意两个区域作为一对预先设定，并将构成一对的两个区域之间的特征量之差作为特征量矢量。其中，用P1、P2、P3、…表示各区域对，由第n对Pn确定的特征量用Vn表示。区域对的取法如图所示，可以组合各种形状和位置的区域。而且，从Pn求出Vn的方法也可以考虑各种方法。例如有以下方法：在各对中计算出用斜线表示的区域和用网格线表示的各区域内的亮度的平均值，用其大小关系确定Vn的值。具体地，计算出从斜线区域内求出的平均亮度值减去网格线区域内求出的平均亮度值的差，该差为正时Vn＝1，为负时Vn＝-1。或者也可以用三个值表示Vn，差的绝对值小于阈值的情况下为0。

使用该特征量时第n维特征量的特征量提取参数是表示区域对Pn的信息。具体地，将确定区域对的形状、位置、大小的信息作为特征量提取参数。

在时间方向变化信息提取机构150中根据该特征量提取参数计算出区域对Pn的时间方向变化信息。例如，区域对P1的情况下提取图11所示的区域对P1所包含的两个长方形区域内的时间方向变化量。即，从根据图3计算出的时间方向变化量或根据图5计算出的运动量中计算出区域对P1所对应的区域内的值。然后将其作为第一维的特征量的时间方向变化信息。

通过这种方式计算出每一维在时间方向的变化信息，在匹配加权信息计算机构160中根据上述结果计算出每一维的匹配加权信息。该计算中可以使用上述的方法。例如，根据时间方向变化信息所表示的第i维的时间方向变化量D(i)，利用[式9]确定权重w(i)。其中，g(x)是单调增加的函数。

[式9]

w(i)＝g(D(i))

以上参照各实施方式对本发明进行了说明，但是本发明不局限于上述实施方式。本领域的技术人员可以理解并在本发明的范围内对本发明的构成或具体内容进行各种变更。

另外，本发明享有基于2009年1月23日在日本提出专利申请的特愿2009-12814专利申请的优先权主张的利益，该专利申请中所记载的内容全部包含于本说明书中。

工业上的可利用性

根据本发明，能适用于从大量的类似或者同一影像中高精度地进行检索。尤其是影像的同一区间检索可以用于以下两个用途中：用于识别网络上流通的违法复制的动态图像；用于识别在实际的电视广播中播放的CM。

Claims

1.一种影像标识符提取装置，其特征在于，具有：

特征量提取机构，其从所输入的影像中提取多维特征量；

匹配加权信息提取机构，该匹配加权信息提取机构针对所述输入的影像或者从影像中提取的所述多维特征量两者中的至少任一个在时间方向的变化对应于上述维进行分析，并且对应于时间方向的变化幅度计算出每一维的匹配用加权信息作为匹配加权信息；对于在时间方向的变化幅度越大的维，该匹配加权信息的权重越大；以及

影像标识符生成机构，其用于生成集成了由上述特征量提取机构提取的特征量和由上述匹配加权信息提取机构提取的匹配加权信息的影像标识符。

2.根据权利要求1所述的影像标识符提取装置，其特征在于，上述匹配加权信息提取机构在与上述多维特征量的各维相对应的区域内，对作为上述所输入的影像的帧或者半帧的图像进行时间方向的图像变化的分析，并对应于图像变化计算出上述匹配加权信息。

3.根据权利要求1所述的影像标识符提取装置，其特征在于，上述匹配加权信息提取机构由上述多维特征量对各维的值在时间方向的变化进行分析，并对应于值的变化计算出上述匹配加权信息。

4.根据权利要求2所述的影像标识符提取装置，其特征在于，按以下方式进行上述时间方向上的图像变化的分析：在计算出匹配加权信息的图像和该图像的前后图像之间计算出图像间像素值差分，并基于该计算出的图像间像素值差分计算出与特征量的各维对应的图像变化。

5.根据权利要求2所述的影像标识符提取装置，其特征在于按以下方式进行上述时间方向上的图像变化的分析：在计算出匹配加权信息的图像和之前或者之后的图像之间进行运动估计处理，并基于估计的运动大小的幅度计算出与特征量的各维对应的图像变化。

6.根据权利要求2所述的影像标识符提取装置，其特征在于，上述匹配加权信息提取机构针对连续的多幅图像内的一幅图像计算出匹配加权信息，将该计算出的匹配加权信息作为上述多幅图像的匹配加权信息。

7.根据权利要求2所述的影像标识符提取装置，其特征在于，上述匹配加权信息提取机构针对连续的多幅图像中的全部或者一部分计算出每幅图像的匹配加权信息，并将计算出的每幅图像的匹配加权信息的代表值作为上述多幅图像的匹配加权信息。

8.根据权利要求2所述的影像标识符提取装置，其特征在于，上述匹配加权信息提取机构基于图像在时间方向的图像变化的幅度，判断能适用同一匹配加权信息的时间区间，并将该时间区间内的图像中的任意一幅图像的匹配加权信息或者上述时间区间内的图像的匹配加权信息的代表值作为上述时间区间内的图像校对加权信息。

9.根据权利要求4所述的影像标识符提取装置，其特征在于，上述图像间像素值差分是指在图像间位于相同位置的区域之间的像素代表值的差分。

10.根据权利要求1所述的影像标识符提取装置，其特征在于，上述特征量的各维为与预先针对该维确定的、图像内的形状不同的两个区域的特征量的差分所对应的值。

11.一种影像标识符匹配装置，其特征在于，具有：

匹配加权信息获取机构，其获取以下两个信息：所输入的第一影像标识符所包含的多维第一特征量的每一维的匹配加权信息，即和该维的时间方向的变化幅度对应的第一匹配加权信息，对于在时间方向的变化幅度越大的维，该第一匹配加权信息的权重越大；所输入的第二影像标识符所包含的多维第二特征量的每一维的匹配加权信息，即和该维的时间方向的变化幅度对应的第二匹配加权信息，对于在时间方向的变化幅度越大的维，该第二匹配加权信息的权重越大；

加权系数计算机构，其根据上述第一匹配加权信息和上述第二匹配加权信息计算出与特征量的各维对应的加权系数；和

匹配机构，其通过利用上述加权系数对上述第一特征量和上述第二特征量进行加权匹配，计算出匹配结果。

12.根据权利要求11所述的影像标识符匹配装置，其特征在于，上述第一影像标识符除上述第一特征量以外还包含上述第一匹配加权信息，上述第二影像标识符除上述第二特征量以外还包含上述第二匹配加权信息，

上述匹配加权信息获取机构具有：第一影像标识符分离机构，其从上述第一影像标识符分离上述第一特征量和上述第一匹配加权信息；和第二影像标识符分离机构，其从上述第二影像标识符分离上述第二特征量和上述第二匹配加权信息。

13.根据权利要求11所述的影像标识符匹配装置，其特征在于，上述匹配加权信息获取机构具有：第一匹配加权信息提取机构，其针对上述第一特征量在时间方向的变化对应于上述维进行分析，并对应于时间方向的变化幅度计算出每一维的匹配用加权信息，作为上述第一匹配加权信息，对于在时间方向的变化幅度越大的维，该第一匹配加权信息的权重越大；和第二匹配加权信息提取机构，其针对上述第二特征量在时间方向的变化对应于上述维进行分析，并对应于时间方向的变化幅度计算出每一维的匹配用加权信息，作为上述第二匹配加权信息，对于在时间方向的变化幅度越大的维，该第二匹配加权信息的权重越大。

14.一种影像标识符提取方法，其特征在于：

从所输入的影像提取多维特征量；

针对所输入的所述影像或者从影像中提取的所述多维特征量两者中的至少任一个在时间方向的变化对应于上述维进行分析，对应于时间方向的变化幅度针对每一维计算出匹配用加权信息作为匹配加权信息，对于在时间方向的变化幅度越大的维，该匹配加权信息的权重越大；以及

生成集成了上述所提取的特征量和上述所提取的匹配加权信息的影像标识符。

15.根据权利要求14所述的影像标识符提取方法，其特征在于，在与上述多维特征量的各维相对应的区域内，对作为上述所输入的影像的帧或者半帧的图像进行时间方向的影像变化的分析，对应于影像变化计算出上述匹配加权信息。

16.根据权利要求14所述的影像标识符提取方法，其特征在于，由上述多维特征量对各维的值在时间方向的变化进行分析，并对应于值的变化计算出上述匹配加权信息。

17.根据权利要求15所述的影像标识符提取方法，其特征在于，按以下方式进行上述时间方向上的图像变化的分析：在计算出匹配加权信息的图像与其前后图像之间计算出图像间像素值差分，并基于该计算出的图像间像素值差分计算出对应于特征量的各维的图像变化。

18.根据权利要求15所述的影像标识符提取方法，其特征在于，按以下方式进行上述时间方向上影像变化的分析：在计算出匹配加权信息的图像和之前或者之后的图像之间进行运动估计处理，并基于估计的运动大小的幅度计算出与特征量的各维对应的图像变化。

19.根据权利要求15所述的影像标识符提取方法，其特征在于，针对连续的多幅图像中的一幅图像计算出匹配加权信息，并将该计算出的匹配加权信息作为上述多幅图像的匹配加权信息。

20.根据权利要求15所述的影像标识符提取方法，其特征在于，针对连续的多幅图像中的全部或者一部分计算出每幅图像的匹配加权信息，并将该计算出的每幅图像的匹配加权信息的代表值作为上述多幅图像的匹配加权信息。

21.根据权利要求15所述的影像标识符提取方法，其特征在于，基于图像在时间方向的图像变化的幅度，判断能适用同一匹配加权信息的时间区间，并将该时间区间内图像中的任意一幅图像的匹配加权信息或者上述时间区间内的图像的匹配加权信息的代表值作为上述时间区间内图像的校对加权信息。

22.根据权利要求17所述的影像标识符提取方法，其特征在于，上述图像间像素值差分是指在图像间位于相同位置的区域之间的像素代表值的差分。

23.根据权利要求14所述的影像标识符提取方法，其特征在于，上述特征量的各维为与预先针对该维确定的、图像内的形状不同的两个区域的特征量的差分对应的值。

24.一种影像标识符匹配方法，其特征在于，获取以下两个信息：所输入的第一影像标识符所包含的多维第一特征量的每一维的匹配加权信息，即和该维的时间方向的变化幅度相对应的第一匹配加权信息，对于在时间方向的变化幅度越大的维，该第一匹配加权信息的权重越大；所输入的第二影像标识符所包含的多维第二特征量的每一维的匹配加权信息，即和该维的时间方向的变化幅度相对应的第二匹配加权信息，对于在时间方向的变化幅度越大的维，该第二匹配加权信息的权重越大，

由上述第一匹配加权信息和上述第二匹配加权信息计算出与特征量的各维对应的加权系数，

通过利用上述加权系数对上述第一特征量和上述第二特征量进行加权匹配，计算出匹配结果。

25.根据权利要求24所述的影像标识符匹配方法，其特征在于，上述第一影像标识符除了上述第一特征量以外还包含上述第一匹配加权信息，上述第二影像标识符除了上述第二特征量以外还包含上述第二匹配加权信息，

在获取上述第一和第二匹配加权信息时，从上述第一影像标识符分离上述第一特征量和上述第一匹配加权信息，

从上述第二影像标识符分离上述第二特征量和上述第二匹配加权信息。

26.根据权利要求24所述的影像标识符匹配方法，其特征在于，在获取上述第一、第二匹配加权信息时，对上述第一特征量在时间方向的变化对应于上述维进行分析，并对应于时间方向的变化幅度计算出每一维的匹配用加权信息作为上述第一匹配加权信息，对于在时间方向的变化幅度越大的维，该第一匹配加权信息的权重越大，

对上述第二特征量在时间方向的变化对应于上述维进行分析，并对应于时间方向的变化幅度计算出每一维的匹配用加权信息作为上述第二匹配加权信息，对于在时间方向的变化幅度越大的维，该第二匹配加权信息的权重越大。