CN102301697A

CN102301697A - 视频签名产生设备

Info

Publication number: CN102301697A
Application number: CN2010800056064A
Authority: CN
Inventors: 大网亮磨; 岩元浩太
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-01-29
Filing date: 2010-01-20
Publication date: 2011-12-28
Anticipated expiration: 2030-01-20
Also published as: EP2423839B1; EP2423839A2; EP2393290B1; EP2393290A1; KR20110110252A; JP4883227B2; JP2012109979A; WO2010087127A1; EP2423839A3; CN102301697B; US20110285904A1; KR101290023B1; EP2393290A4; JPWO2010087127A1

Abstract

本发明提供了一种视频签名产生设备，包括：视觉特征提取单元，基于视频中多个子区域对的特征来提取要用于标识视频的视觉特征；以及确信度值计算单元，计算视觉特征的确信度值，其中，如果所述视频是特定视频，则与所述视频不同于所述特定视频的情况相比，确信度值计算单元计算的确信度值具有较小值。

Description

视频签名产生设备

技术领域

本发明涉及产生用于检索视频的视频签名的设备、方法和程序，能够在多个运动图像中检测相似或相同的运动图像。

背景技术

非专利文献1中描述了一种用于提取和匹配运动图像的特征的示例设备。图9是示出了专利文献1中描述的设备的框图。

块单位特征提取单元1000以块为单位从输入的第一视频中提取特征，并将第一特征输出至匹配单元1030。另一块单位特征提取单元1010以块为单位从输入的第二视频中提取特征，并将第二特征输出至匹配单元1030。加权系数计算单元1020基于输入的学习视频，计算每个块的加权值，并将加权系数输出至匹配单元1030。匹配单元1030使用从加权系数计算单元1020输出的加权系数，将从块单位特征提取单元1000输出的第一特征与从块单元特征提取单元1010输出的第二特征进行比较，并输出匹配结果。

接下来，将描述图9中所示的设备的操作。

块单元特征提取单元1000将输入的第一视频的每个帧分为块，并根据每个块来计算用于标识视频的特征。具体地，块单位特征提取单元1000确定每个块的边缘的类型，并将该类型计算为每个块的特征。然后，针对每一帧，块单位特征提取单元1000形成特征向量，所述特征向量由相应块的边缘类型构成。然后，块单位特征提取单元1000计算每一帧的特征向量，并将所获取的特征输出至匹配单元1030作为第一特征。

块单位特征提取单元1010的操作类似于块单位特征提取单元1000的操作。块单位特征提取单元1010根据输入的第二视频计算第二特征，并将所获取的第二特征输出至匹配单元1030。

另一方面，加权系数计算单元1020使用学习视频，计算字幕预先插入帧中的每个块的概率。然后，基于所计算的概率，加权系数计算单元1020计算每个块的加权系数。具体地，加权系数被计算为使得：叠加字幕的概率越低加权越高，以改进相对于字幕叠加的健壮性。所获取的加权系数输出至匹配单元1030。

匹配单元1030使用从加权系数计算单元1020输出的加权系数，将从块单位特征提取单元1000输出的第一特征与从块单元特征提取单元1010输出的第二特征进行比较。具体地，匹配单元1030将两帧中在相同位置处的块的特征进行比较，并计算块单位的得分，使得如果块的特征相同，则得分为1，如果块的特征不相同，则得分为0。匹配单元1030通过使用加权系数对所获取的块单位的得分进行加权来对其进行求和，，并计算帧的匹配得分(以帧为单位的相似度)。匹配单元1030对各个帧执行这些过程，从而获取第一视频与第二视频之间的匹配结果。

通过这些过程，可以执行运动图像之间的匹配，同时在字幕叠加的影响可能较大的部分中减小字幕叠加的影响，并且即使在字母叠加的情况下也能够实现高匹配精度。

非专利文献1：Kota Iwamoto，Eiji Kasutani，Akio Yamada，″Image Signature Robust to Caption Superimposition for Video Sequence Identification″，Proceedings of International Conference on Image Processing(ICIP2006)，2006

非专利文献2：Eiji Kasutani，Ryoma Oami，Akio Yamada，Takami Sato，and Kyoji Hirata，″Video Material Archive System for Efficient Video Editing Based on Media Identification″，Proceedings of International Conference on Multimedia and Expo(ICME2004)，pp.727-730，2004

发明内容

除了上述字幕叠加之外，还存在其他原因导致运动图像的匹配精度恶化。例如，由于许多视频中通常会出现渐弱为黑帧的场景，这种场景使得匹配精度恶化。此外，由于针对具有几乎均匀值的帧不能稳定地获得特征，这种帧使得匹配精度恶化。因此，如果通过对其中特征具有较低可靠性的视频片段(如包括渐弱为黑帧的场景的相似(几乎相同)的视频片段(即使在独立视频之间也可能出现))或者具有几乎均匀值的帧进行处理来执行匹配，则以与一般片段类似的方式，可能导致过多的检测或检测的遗漏。因此，已经导致了匹配精度恶化的问题。

本发明的目的是提供一种视频签名产生设备，能够解决当视频包括在多个视频中共同出现的视频图案或者不能稳定获得特征的视频图案时导致的视频匹配精度恶化的问题。

根据本发明一方面，一种视频签名产生设备，包括：视觉特征提取单元，基于视频中多个子区域对的特征来提取用于标识视频的视觉特征；以及确信度值计算单元，计算视觉特征的确信度值，其中，如果所述视频是特定视频，则与所述视频不同于所述特定视频的情况相比，确信度值计算单元计算的确信度值具有较小值。

根据本发明，可以防止由于在多个视频中共同出现的视频图案或者不能稳定获得特征的视频图案导致的匹配精度恶化。

附图说明

图1是示出了根据本发明的视频签名产生设备的第一实施例的框图。

图2是示出了根据本发明的视频签名产生设备的第二实施例的框图。

图3是示出了根据本发明的视频签名产生设备的第三实施例的框图。

图4是示出了根据本发明的视频签名产生设备的第四实施例的框图。

图4A是示出了根据本发明的视频签名产生设备的另一实施例的框图。

图5是示出了根据本发明的视频签名匹配设备的实施例的框图。

图5A是示出了根据本发明的视频签名匹配设备的另一实施例的框图。

图6示意了对两个视频执行的匹配过程。

图7是示意了图3所示的公共视频图案学习单元250的操作的流程图。

图8是示意了图4所示健壮性恶化视频图案学习单元350的操作的流程图。

图9是示意了与本发明相关的技术的框图。

具体实施方式

接下来参照附图来详细描述本发明的实施例。

参照图1，示出了根据本发明第一实施例的视频签名提取设备，该设备包括：特征提取单元130、特定视频图案检测单元110以及确信度值计算单元120。

特征提取单元130从输入视频中提取特征，并输出视觉特征。特定视频图案检测单元110从输入视频中检测特定图案，并将特定图案检测结果输出至确信度值计算单元120。确信度值计算单元120基于从特定视频图案检测单元110输出的特定图案检测结果来计算确信度值，并输出确信度值信息。从特征提取单元130输出的视觉特征和从确信度值计算单元120输出的确信度值信息构成输入视频的视频签名。如果明确定义了视觉特征与确信度值信息之间的对应关系，则视觉特征和确信度值信息可以相互独立；或者，如以下描述的实施例，可以使用复用单元将视觉特征和确信度值信息集成。

接下来详细描述第一实施例的操作。

首先，视频输入至特征提取单元130。如果原始视频是编码的，则首先由解码器对视频进行解码，然后以画面为单位来输入数据。

应当注意，画面是构成屏幕的单位，通常由帧或场形成。然而，画面不限于这种配置，并且可以具有任何形式，只要其为构成屏幕的单位。画面可以是通过对屏幕的一部分进行截取来形成的部分图像。例如，在具有黑条的图像的情况下，可以将排除黑条的部分作为画面来处理。应当注意，黑条指示由于4∶3与16∶9之间的宽高比转换而在屏幕的顶部和底部或右侧和左侧插入的边缘区域。

特征提取单元130计算每个画面的特征向量。特征提取单元130将画面视为一个静止图像，并提取指示该画面的如颜色、图案、形状等特征的视觉特征的向量。可以使用通过关于与特征向量的每个维度相对应的局部区域对来计算区域的特征之间的差值(例如，关于区域对中的每个区域，获得区域内的像素值的平均值，并计算区域之间的平均值的差值)并使用通过对差值进行量化而获得的量化值作为每个维度的值而获得的特征向量作为特征。针对每个画面计算的特征向量作为视觉特征输出。

另一方面，输入视频也输入至特定视频图案检测单元110。特定视频图案检测单元110检测不利于标识视频的视频图案，并输出特定图案检测结果。

不利视频图案包括：尽管原先完全不同但是偶然显现为几乎相同的视频图案(场景)。例如，在电影中经常使用的渐弱为黑帧的场景是其代表性示例。称为渐弱(fadeout)的视频编辑技术常用于许多不同视频。利用这种技术，在渐弱之后，场景变为黑色，不论原始视频内容为何，从而在视频之间找不到差异。如上所述，不利视频图案是指在实际上完全不同的多个视频中可能产生的公共视频图案。这些视频图案导致使用任何特征来进行标识时的问题，不论特征的类型如何。

另一方面，还存在根据特征类型而变化的不利视频图案。具体地，存在特征不稳定和缺乏健壮性的情况。例如，如果图像中的特征数目较小，如具有平坦像素值的场景，则一些特征容易受到噪声等的影响，使得健壮性降低。尽管健壮性降低的图像取决于特征，但是存在特征的独有健壮性恶化而与特征无关的视频图案。例如，在与颜色相关的特征的情况下，黑色和白色具有较低健壮性。另一方面，在特征指示图案的情况下，平坦图像具有较低健壮性。

特定视频图案检测单元110检测如上所述不利于标识视频的特定视频图案。检测方法依赖于视频图案。例如，在如上所述的渐弱场景的情况下，可以使用整个图像的亮度值的平均值和指示平坦性的准则来确定不利图案。例如，可以使用亮度值的方差作为指示平坦性的准则。如果方差充分小，并且亮度的平均值等于或小于特定阈值并充分接近于黑色，则可以确定图像为渐弱之后的黑色图像。还可以测量亮度值的时间改变，从而确定渐弱。例如，可以关于屏幕内的时间序列画面获得亮度值的方差值和平均值，如果发生随时间的改变，使得方差逐渐降低至0，并且平均值逐渐降低，则确定场景渐弱为黑色图像。尽管以上描述了渐弱为黑色图像，但是可以以类似方式检测关于其他像素值的渐弱。这意味着，可以通过检查平均值是否收敛于特定值同时以相同方式来检查方差，从而检测渐弱。

检测到的特定图案检测结果可以是指示是否检测到这种图案的二进制值。例如，当检测到不利图案是输出值1，而如果未检测到不利图案则输出值0。还可以根据检测时的确定性(概率)，使用0和1之间的连续值(或者表示利用多个等级阶段来指示的确信度的等级值)。这是针对每个画面来示出的。可以以恒定周期集合地输出检测结果。将特定图案检测结果输出至确信度值计算单元120。

确信度值计算单元120根据从特定视频图案检测单元110输出的特定图案检测结果，关于每个画面的特征来计算确信度值，并输出确信度值。在该情况下，如果特定图案检测结果指示未检测到特定图案，则确信度值计算单元120输出最大值作为确信度值(例如，如果确信度值取从0至1的值，并且1表示最大确信度值，则该单元输出1)。如果特定图案检测结果指示检测到特定图案，或者检测到特定图案的可能性较高，则确信度值计算单元120根据程度来降低确信度值。这意味着，如果检测到特定图案，则将最小等级的值确定为确信度值；如果结果指示检测到特定图案的可能性较高，则根据程度来降低确信度值。针对每个画面执行该过程，将所获得的值作为确信度值输出。还可以以特定周期集合地获得画面的确信度值，并输出确信度值。

应当注意，在图1中，将从特征提取单元130输出的视觉特征而不是视频输入至特定视频图案检测单元110(图1中的虚线)。在该情况下，特定视频图案检测单元110根据输入的特征的来估计特定视频图案，从而检测特定图案。具体地，特定视频图案检测单元110关于被定义为特定视频图案的视频来提取特征，并确定与输入的视觉特征的相似度，从而检测特定图案。在上述渐弱的情况下，例如，特定视频图案检测单元110通过检测视觉特征是否接近于与亮度值在整个屏幕中恒定的情况相对应的特征的值，来计算特定图案检测结果。如果使用亮度值的平均值和方差作为视觉特征，则如上所述，如果方差充分小并且平均值充分小，则确定场景渐弱为黑帧。如上所述，可以根据特征本身获得特定视频图案，并计算确信度值。

如上所述，在第一实施例中，由于检测不利于标识视频的视频图案并且利用特征来产生确信度值以降低对应画面的确信度值，可以在执行匹配时使用确信度值来提高匹配精度。此外，由于对预定的特定视频图案执行检测，可以采用适于特定视频图案的检测方法，从而可以提高检测精度。

接下来，使用附图来描述图2中示出的本发明的第二实施例。

参照图2，示出了根据本发明第二实施例的视频签名提取设备，该设备包括：特征提取单元130、特定视频图案检测单元210以及确信度值计算单元120。

与图1的情况相比，该设备类似于图1所示的设备，只是使用特定视频图案检测单元210来代替特定视频图案检测单元110。特定视频图案检测单元210基于输入的特定视频图案信息，从视频中检测特定图案，并将特定图案检测结果输出至确信度值计算单元120。

接下来描述图2所示的视频签名提取设备的操作。

特征提取单元130和确信度值计算单元120的操作与图1中相同。

将视频和特定视频图案信息输入至特定视频图案检测单元210。特定视频图案信息是描述上述不利于标识的视频图案的信息，例如可以是特定视频本身。特定视频可以是表示视频的一个图像，或者由多个连续图像构成的视频片段，或者从视频片段中获得的多个图像。此外，特定视频图案信息可以是检测特定视频图案所需的视觉特征。应当注意，所述视觉特征不必需与特征提取单元130获得的视觉特征相同。例如，在上述渐弱为黑色图像的情况下，可以使用整个屏幕的亮度值的平均值和方差作为特征。

特定视频图案检测单元210根据输入视频与特定视频图案信息中描述的视频之间的相似度来检测特定视频图案。因此，如果特定视频图案信息是图像本身，则特定视频图案检测单元210根据输入视频的画面和作为特定视频图案信息输入的图像来计算视觉特征，并比较其相似度，从而检测特定图案。在该过程中，可以使用特征之间的距离或者相似度值作为确定相似度的基础。如果距离较小或者相似度值较大，则特定视频图案检测单元210根据程度定义检测的确定性，并将其输出作为特定图案检测结果。

另一方面，如果特定视频图案信息是从图像中提取的特征，则特定视频图案检测单元210从输入图像中提取相同类型的特征，并执行匹配。例如，如果利用边缘直方图的特征来描述特定视频图案信息，则特定视频图案检测单元210根据输入图像计算每个画面的边缘直方图。计算特征之后的操作与输入图像作为特定视频图案信息的情况相似。

应当注意，对特定视频图案检测单元210的输入可以是从特征提取单元130输出的视觉特征而不是视频(图2中的虚线)。在该情况下，特定视频图案检测单元210根据输入特征来估计特定视频图案，从而检测特定图案。如果特定视频图案信息是视频本身，则特定视频图案检测单元210从视频中提取可以用于与从特征提取单元130输出的特征执行匹配的特征，并将其进行比较。如果特定视频图案信息视觉特征，则该视觉特征必须是可以用于与从特征提取单元130输出的特征执行匹配的特征。

如上所述，通过计算与特定视频图案的相似度值或距离，可以检测不利视频图案并计算确信度值。在本方法的情况下，可以仅通过改变作为特定视频图案信息而给定的信息，在不确定每个特定视频图案的检测方法的情况下，处理各种图案。因此，即使在设备制造之后，也可以仅通过改变特定视频图案信息来扩展设备能够支持的视频图案。

接下来使用附图来描述图3所示的本发明的第三实施例。

参照图3，示出了根据本发明第三实施例的视频签名提取设备，该设备包括：特征提取单元130、特定视频图案检测单元210、确信度值计算单元120和公共视频图案学习单元250。与图2的情况相比，该设备类似于图2所示的视频签名提取设备，只是添加了公共视频图案学习单元250，从中输出的特定视频图案信息连接至特定视频图案检测单元210。

接下来描述第三实施例的操作。

特征提取单元130、特定视频图案检测单元210和确信度值计算单元120的操作与图2的情况相同。

将学习视频组输入公共视频图案学习单元250。有利地，在该过程中输入的视频是独立产生并且互相没有导出关系的视频组。这意味着，有利地，这些视频没有关系(如一个视频是通过对另一视频进行编辑而产生之类的关系)。公共视频图案学习单元250从视频组中提取视频片段，所述视频片段彼此几乎一致地相同。具体地，公共视频图案学习单元250针对每个画面计算每个视频的特征，并执行计算在多个视频对上特征之间的距离(相似度值)。因此，尽管视频片段是独立视频，如果找到可以被认为几乎相同的视频片段，则提取这些视频片段作为特定视频图案信息。从而，可以通过学习自动提取特定视频图案，而不是手动确定特定视频图案。应当注意，如上所述，特定视频图案信息可以是从视频中提取的特征，而不是视频本身。在该情况下，公共视频图案学习单元250计算所提取的视频图案的特征，并将其输出作为特定视频图案信息。

图7是示出了公共视频图案学习单元250的操作的流程图。

在步骤S10，从每个输入视频中提取视觉特征。在该步骤中使用的视觉特征提取方法不必需与特征提取单元130所使用的方法相同。

在步骤S20，在所提取的视觉特征之间执行匹配。从而，获得要输入的学习视频的任何两个视频对之间的匹配结果。

然后，在步骤S30，从匹配结果中提取具有较高相似度值(或较小距离)的视频片段。

在步骤S40，输出所提取的视频片段的信息，作为特定视频图案信息。

如上所述输出的特定视频图案信息输入至特定视频图案检测单元210。

利用第三实施例，可以从多个视频中自动提取不利视频图案，具体地，提取在完全不同的多个视频中产生的公共视频图案。

接下来使用附图来描述第四实施例。

参照图4，示出了根据本发明第四实施例的视频签名提取设备，该设备包括：特征提取单元130、特定视频图案检测单元210、确信度值计算单元120以及健壮性恶化视频图案学习单元350。与图3的情况相比，该设备类似于图3所示的视频签名提取设备，只是使用健壮性恶化视频图案学习单元350来替代公共视频图案学习单元250。

接下来描述第四实施例的操作。

将学习视频组输入至健壮性恶化视频图案学习单元350。学习视频组用于学习在特征提取单元130中使用的视觉特征较不健壮的视频图案。在健壮性恶化视频图案学习单元350中，通过与在特征提取单元130中使用的相同的特征提取方法，从视频中提取视觉特征。同时，执行各种改变过程(编码过程、噪声添加、字幕叠加等等)，在这些过程之后，以类似方式执行特征提取。然后，对这些过程之前的视觉特征和这些过程之后的视觉特征进行比较，以检查其如何改变。具体地，计算在这些过程之前和之后，特征之间的距离或相似度值。在该情况下，如果找到相似度值减小或者距离值增大的视频，则提取该视频作为特定视频图案信息。具体地，使用阈值来处理相似度值或距离值，提取相似度值变为小于特定阈值或者距离值变为大于特定阈值的情况。从而，可以通过学习自动提取特定视频图案，而不是手动确定特定视频图案。应当注意，如上所述，特定视频图案信息可以是从视频中提取的特征，而不是视频本身。在该情况下，计算所提取的视频图案的特征，并将其输出作为特定视频图案信息。

图8是示出了健壮性恶化视频图案学习单元350的操作的流程图。首先，在步骤S50，产生改变后的视频。在该步骤中，通过对输入视频应用各种预期改变过程来产生改变后的视频。这些过程可以在以下描述的步骤S60之后执行(在步骤S60在步骤S70之前执行的情况下)。

在步骤S60，从改变之前的视频中提取视觉特征。在该步骤中使用的特征提取方法与特征提取单元130中使用的方法相同。从而，针对每个改变之前的视频计算视觉特征。

在步骤S70，从改变后的视频中提取视觉特征。在该步骤中，针对在步骤S50产生的改变后的视频中的每一个，提取视觉特征。在该步骤中使用的特征提取方法与特征提取单元130中使用的方法相同。从而，针对每个改变后的视频，计算视觉特征。

在步骤S80，对改变之前和之后的视觉特征执行匹配。在该步骤中，在改变之前和之后的对应特征的视觉特征之间执行匹配。在该匹配中，通过将改变之前和之后的画面相关来执行匹配。然后，针对每个画面或者通过以时间序列方式将多个画面置于一起而形成的每个视频片段，输出匹配结果。

然后，在步骤S90，从匹配结果中提取特征之间的距离较大或者特征之间的相似度值较小的视频片段。

最终，在步骤S100，从所提取的视频片段中的视频产生特定视频图案信息，并输出该信息。

按照这种方式输出的特定视频图案信息输入至特定视频图案检测单元210。

利用第四实施例，与第三实施例的情况相同，可以从多个视频中自动提取不利视频图案。

接下来描述图1至4所示的视频签名提取设备产生的视频签名的匹配设备的实施例。

参照图5，示出了对图1至4中示出的视频签名提取设备产生的视频签名执行匹配的视频签名匹配设备的实施例，该视频签名匹配设备包括匹配参数计算单元410和匹配单元400。

匹配参数计算单元410从第一确信度值信息和第二确信度值信息中获得匹配参数，并将其输出至匹配单元400。匹配单元400使用匹配参数来执行第一视觉特征与第二视觉特征之间的匹配，并输出匹配结果。应当注意，第一视觉特征和第一确信度值信息构成第一视频的视频签名，第二视觉特征和第二确信度值信息构成第二视频的视频签名。

接下来描述图5所示的视频签名匹配设备的操作。

首先，将从第一视频获取的第一确信度值信息和第二确信度值信息输入至匹配参数计算单元410。匹配参数计算单元410根据第一确信度值信息和第二确信度值信息，计算用于在第一视频的片段与第二视频的片段之间进行匹配的匹配参数。例如，根据第一确信度值信息和第二确信度值信息，计算用于对每个画面执行匹配的加权系数，作为匹配参数。

尽管存在多种方法以根据第一确信度值信息和第二确信度值信息来计算加权系数，但是如果满足以下条件，则可以使用任何方法：当确信度值中的任一个与较小值相对应时，加权系数减小；当与确信度值信息相对应的加权系数增大时，加权系数增大。例如，如果从第一确信度值信息和第二确信度值信息中获取的第一视频的第k₁个画面的确信度值和第二视频的第k₂个画面的确信度值分别为r₁(k₁)和r₂(k₂)，则可以利用表达式1来计算用于在这些画面之间执行匹配的加权系数w(k₁，k₂)。

[表达式1]

w(k₁，k₂)＝min(r₁(k₁)，r₂(k₂))

匹配单元400对第一视觉特征和第二视觉特征执行匹配。可以使用指示两个特征之间的相似度的相似度值，或者使用指示两个特征之间的差异等级的距离，来对两个特征进行比较。在使用距离来进行比较的情况下，基于表达式2计算的距离d来执行比较。

[表达式2]

d = Σ_{i = 1}^{N} | v_{1} (i) - v_{2} (i) |

应当注意，N表示特征维度数目，v₁(i)和v₂(i)分别表示第一和第二特征的第i维度的值。以画面为单位进行比较，对第一视频和第二视频的特定片段进行比较。在该过程中，使用加权系数w(k₁，k₂)。例如，在利用通过对距离值进行平均而计算的值来执行视频片段之间的匹配的情况下(其中距离值是通过以画面为单位在视频片段中进行比较而获得的)，在计算平均值时，利用加权系数w(k₁，k₂)对根据第一视频的第k₁个画面与第二视频的第k₂个画面之间的比较而计算的距离值d(k₁，k₂)进行加权。因此，在将由从第一视频的第t₁个画面开始的K个画面构成的片段与由从第二视频的第t₂个画面开始的K个画面构成的片段进行比较时，利用表达式3来计算距离值。

[表达式3]

D = \frac{Σ_{k = 0}^{K - 1} w (t_{1} + k, t_{2} + k) d (t_{1} + k, t_{2} + k)}{Σ_{k = 0}^{K - 1} w (t_{1} + k, t_{2} + k)}

如果该值大于阈值，则确定片段互不相同；而如果该值为阈值或更小，则确定片段彼此相同。通过对第一视频和第二视频的任何片段的组合执行该过程，可以确定第一视频和第二视频中包括的具有任何长度的所有相同片段。

备选地，还可以通过以画面为单位执行比较，来获取距离值等于或小于阈值的画面对的数目，并且，如果与片段中包括的画面数目相比，该数目足够大，则可以确定片段相同；如果不足够大，则可以确定片段不同。即使在这种情况下，也可以通过以相同方式进行加权来执行确定。因此，还可以利用表达式4来执行确定。

[表达式4]

n = \frac{Σ_{k = 0}^{K - 1} w (t_{1} + k, t_{2} + k) U (Th - d (t_{1} + k, t_{2} + k))}{Σ_{k = 0}^{K - 1} w (t_{1} + k, t_{2} + k)}

U(x)表示单位阶跃函数，当x≥0时得到1，当x＜0时得到0；Th表示画面的特征之间的距离的阈值(即，如果该距离等于或小于Th，则确定片段相同，否则确定片段不同)。通过对第一视频和第二视频的任何片段的组合执行该过程，可以确定第一视频和第二视频中包括的具有任何长度的所有相同片段。

还可以使用非专利文献2中描述的匹配方法作为对任何长度的片段进行比较的方法。如图6所示，为了在视频之间进行匹配，提供了具有L个画面的长度的匹配窗口，使得该窗口在第一视频和第二视频上分别滑动，并比较两个视频。如果匹配窗口内的片段被确定为相同，则将匹配窗口扩大p个画面的长度，以继续匹配过程。只要两个片段被确定为相同，就重复执行将匹配窗口扩大p个画面的过程，以获得最大长度的相同片段，从而，可以有效地获取最大长度的相同片段。

应当注意，尽管以上描述了使用距离作为准则的情况，但是还可以使用相似度值来执行匹配。在该情况下，使用通过表达式5来计算的相似度值S来具体执行比较。

[表达式5]

S = Σ_{i = 1}^{N} Sim (v_{1} (i), v_{2} (i))

Sim(x，y)是指示x与y之间的接近度的函数，x与y的值越接近，该值变为越大。例如，如果x与y之间的距离为d(x，y)，则可以使用如表达式6所示的函数。

[表达式6]

Sim (x, y) = \frac{1}{1 + d (x, y)}

备选地，Sim(x，y)可以是当x与y匹配时返回1，否则返回0的函数，如Kronecker函数(Kronecker delta)。备选地，如果使用特征向量之间的角度(余弦值)作为相似度值，则基于通过表达式7计算的相似度值S来执行比较。

[表达式7]

S = \frac{Σ_{i = 1}^{N} v_{1} (i) v_{2} (i)}{(\sqrt{Σ_{i = 1}^{N} v_{1} {(i)}^{2}}) (\sqrt{Σ_{i = 1}^{N} v_{2} {(i)}^{2}})}

从而，获得第一视频签名与第二视频签名之间的匹配结果。

此外，要从匹配参数计算单元410输出的匹配参数可以是用于确定是否不考虑对应画面的匹配结果的参数。如果要比较的画面之一具有较低确信度值，则画面之间的匹配结果不很可靠。在这种情况下，可以不使用画面的这种匹配结果来执行视频之间的匹配。例如，当将视频1与视频2进行比较时，如果视频1的第5至第9画面具有较低确信度值，则不使用关于视频1的第5至第9画面的画面之间的匹配结果来执行视频1与视频2的视频片段之间的比较。

备选地，要从匹配参数计算单元410输出的匹配参数可以是用于描述在画面之间执行的匹配过程中将画面确定为不同的次数的参数。在如模拟捕捉之类的改变过程中，不是所有画面都被精确捕捉，一些画面可能丢失。在该情况下，由于丢失的画面，可能不能很好地执行比较，尽管它们是相同的视频。在该情况下，预先决定画面匹配中允许的匹配失败数目，如果数目等于或小于所决定的数目，则匹配继续(这意味着仅当匹配失败的数目超过所决定的数目时才终止匹配)，从而可以成功地比较连续片段。由确信度值来控制画面之间的可允许匹配失败数目(称为 N_th)。例如，在低确信度值的片段中，根据低确信度值的画面的数目，增加N_th的值。按照这种方式，即使具有低确信度值的画面连续，也可以将其作为连续片段来进行比较。

尽管已经描述了本发明的示例实施例，但是本发明不限于这些实施例。本领域技术人员将理解，在不脱离本发明的精神和范围的前提下，可以在其中做出形式和细节上的各种改变。例如，特定视频图案检测单元可以从输入视频和从输入视频中提取的视觉特征中检测特定视频图案。

此外，如图4A所示，本发明的视频签名产生设备可以包括复用单元140，向复用单元140输入从特征计算单元130输出的视觉特征和从确信度值计算单元120输出的确信度值信息，复用单元140输出视频签名。复用单元140通过对从特征计算单元130输出的视觉特征和从确信度值计算单元120输出的确信度值信息进行复用来产生视频签名，并输出所产生的视频签名。复用单元140通过以在比较时可分离的形式来对它们进行复用，从而产生视频签名。可以通过各种方法来执行复用，包括：针对每个画面将视觉特征与确信度值信息交织的方法；首先复用所有确信度值信息，然后复用视觉特征(或者反之)的方法；以及针对每个预定片段来复用确信度值信息和视觉特征的方法(例如以用于计算确信度值信息的时间段为单位)。

此外，如图5A所示，本发明的视频签名匹配设备可以包括解复用单元420和430，将向解复用单元420和430输入用于执行匹配的两个图像的视频签名，解复用单元420和430输出构成视频签名的视觉特征和确信度值信息。解复用单元420从向其输入的第一视频签名中分离出第一视觉特征和第一确信度值信息，并将其分别输出至匹配单元400和匹配参数计算单元410。类似地，解复用单元430从向其输入的第二视频签名中分离出第二视觉特征和第二确信度值信息，并将其分别输出至匹配单元400和匹配参数计算单元410。

此外，关于本发明的视频签名提取设备和视频签名匹配设备，可以利用计算机和程序以及硬件来实现其功能。这种程序以写在计算机可读记录介质(如磁盘、半导体存储器等等)上的形式来提供，在例如计算机启动时读取，并控制计算机的操作，从而允许计算机用作上述示例实施例的视频签名提取设备或视频签名匹配设备。

本申请基于并要求2009年1月29日提交的日本专利申请No.2009-17808的优先权，其全部公开通过引用并入此处。

工业实用性

本发明适用于以高精度从各个视频中检索相似或相同的视频。具体地，关于相同视频片段的检索，本发明适用于标识在网络上分发的合法拷贝的运动图像以及标识在实际电视广播上分发的商业内容。

附图标记说明

110特定视频图案检测单元

120确信度值计算单元

130特征提取单元

140复用单元

210特定视频图案检测单元

250公共视频图案学习单元

350健壮性恶化视频图案学习单元

400匹配单元

410匹配参数计算单元

420、430解复用单元

Claims

1.一种视频签名产生设备，包括：

视觉特征提取单元，基于视频中多个子区域对的特征来提取用于标识视频的视觉特征；以及

确信度值计算单元，计算视觉特征的确信度值，其中，如果所述视频是特定视频，则与所述视频不同于所述特定视频的情况相比，确信度值计算单元计算的确信度值具有较小值。

2.根据权利要求1所述的视频特征产生设备，其中，所述确信度值是表示在使用视觉特征在所述视频与另一视频之间执行匹配时的匹配结果的确定性的值。

3.根据权利要求1或2所述的视频特征产生设备，其中

视觉特征提取单元基于构成所述视频中的每个子区域对的两个子区域的特征之间的差值来提取视觉特征。

4.根据权利要求3所述的视频特征产生设备，其中，子区域的特征是子区域的平均像素值。

5.根据权利要求1至4中任一项所述的视频特征产生设备，其中，所述特定视频是具有平坦像素值的视频。

6.根据权利要求1至5中任一项所述的视频特征产生设备，其中，所述特定视频是整个视频中的亮度值的方差较小的视频。

7.根据权利要求1至6中任一项所述的视频特征产生设备，其中，所述特定视频是整个屏幕中亮度值几乎均匀的视频。

8.根据权利要求1至7中任一项所述的视频特征产生设备，其中，提取视觉特征和计算确信度值是针对每个画面来执行的。

9.根据权利要求8所述的视频特征产生设备，其中，所述画面是帧。

10.根据权利要求3至9中任一项所述的视频特征产生设备，其中，视觉特征提取单元通过量化所述差值来计算视觉特征。

11.根据权利要求1至10中任一项所述的视频特征产生设备，还包括：

复用单元，对视觉特征和确信度值进行复用，并输出复用后的视觉特征和确信度值作为视频签名。

12.一种视频签名匹配设备，使用：

第一视觉特征，根据第一视频中的多个子区域对的特征来计算，并且用于标识视频；

第一确信度值信息，指示第一视觉特征的确信度值，如果第一视频是特定视频，则与第一视频不同于所述特定视频的情况相比，所述第一确信度值信息被计算为取较小值；

第二视觉特征，根据第二视频中的多个子区域对的特征来计算，并且用于标识第二视频；以及

第二确信度值信息，指示第二视觉特征的确信度值，如果第二视频是特定视频，则与第二视频不同于所述特定视频的情况相比，所述第二确信度值信息被计算为取较小值；

所述设备包括：

匹配参数计算单元，基于第一确信度值信息和第二确信度值信息来计算匹配参数；以及

匹配单元，根据匹配参数来执行第一视觉特征与第二视觉特征之间的匹配，并输出匹配结果。

13.根据权利要求12所述的视频签名匹配设备，其中

第一视觉特征是根据构成第一视频中的每个子区域对的两个子区域的特征之间的差值来计算的，第二视觉特征是根据构成第二视频中的每个子区域对的两个子区域的特征之间的差值来计算的。

14.根据权利要求12或13所述的视频签名匹配设备，其中

所述匹配参数是根据第一确信度值和第二确信度值中的较小值来确定的。

15.根据权利要求12至14中任一项所述的视频签名匹配设备，其中

匹配参数计算单元计算指示在计算第一视觉特征与第二视觉特征之间的距离或相似度时使用的权重的值，作为匹配参数；以及

匹配单元通过使用由匹配参数确定的权重来计算第一视觉特征与第二视觉特征之间的距离或相似度，从而获得匹配结果。

16.根据权利要求12至15中任一项所述的视频签名匹配设备，其中

如果第一视觉特征与第二视觉特征之一的确信度值较低，则匹配参数计算单元输出特定参数作为匹配参数；以及

如果匹配参数是所述特定参数，则匹配单元通过消除第一视觉特征与第二视觉特征之间的距离或相似度，来计算匹配结果。

17.根据权利要求12至16中任一项所述的视频签名匹配设备，其中

当针对每个画面来执行第一视觉特征与第二视觉特征之间的匹配时，匹配参数计算单元输出定义针对每个画面的匹配失败次数的可允许值的参数，作为匹配参数；以及

如果针对每个画面的匹配失败次数在可允许值之内，则匹配单元继续匹配，并计算匹配结果。

18.一种匹配设备，利用根据权利要求1至11中任一项所述的视频签名产生设备所产生的视频签名来执行匹配。

19.一种视频签名产生方法，包括：

基于视频中多个子区域对的特征来提取用于标识视频的视觉特征；以及

计算视觉特征的确信度值，其中，如果所述视频是特定视频，则与所述视频不同于所述特定视频的情况相比，计算的确信度值具有较小值。

20.根据权利要求19所述的视频特征产生方法，其中，所述确信度值是表示在使用视觉特征在所述视频与另一视频之间执行匹配时的匹配结果的确定性的值。

21.根据权利要求19或20所述的视频特征产生方法，其中

基于构成所述视频中的每个子区域对的两个子区域的特征之间的差值来提取视觉特征。

22.根据权利要求21所述的视频特征产生方法，其中，子区域的特征是子区域的平均像素值。

23.根据权利要求19至22中任一项所述的视频特征产生方法，其中，所述特定视频是具有平坦像素值的视频。

24.根据权利要求19至23中任一项所述的视频特征产生方法，其中，所述特定视频是整个视频中的亮度值的方差较小的视频。

25.根据权利要求19至24中任一项所述的视频特征产生方法，其中，所述特定视频是整个屏幕中亮度值几乎均匀的视频。

26.根据权利要求19至25中任一项所述的视频特征产生方法，其中，提取视觉特征和计算确信度值是针对每个画面来执行的。

27.根据权利要求26所述的视频特征产生方法，其中，所述画面是帧。

28.根据权利要求21至27中任一项所述的视频特征产生方法，其中，通过量化所述差值来计算视觉特征。

29.根据权利要求19至28中任一项所述的视频特征产生方法，还包括：

对视觉特征和确信度值进行复用，并输出复用后的视觉特征和确信度值作为视频签名。

30.一种视频签名匹配方法，使用：

所述方法包括：

基于第一确信度值信息和第二确信度值信息来计算匹配参数；以及

根据匹配参数来执行第一视觉特征与第二视觉特征之间的匹配，并输出匹配结果。

31.根据权利要求30所述的视频签名匹配方法，其中

32.根据权利要求30或31所述的视频签名匹配方法，其中

33.根据权利要求30至32中任一项所述的视频签名匹配方法，其中

计算指示在计算第一视觉特征与第二视觉特征之间的距离或相似度时使用的权重的值，作为匹配参数；以及

通过使用由匹配参数确定的权重来计算第一视觉特征与第二视觉特征之间的距离或相似度，从而获得匹配结果。

34.根据权利要求30至33中任一项所述的视频签名匹配方法，其中

如果第一视觉特征与第二视觉特征之一的确信度值较低，则输出特定参数作为匹配参数；以及

如果匹配参数是所述特定参数，则通过消除第一视觉特征与第二视觉特征之间的距离或相似度，来计算匹配结果。

35.根据权利要求30至34中任一项所述的视频签名匹配方法，其中

当针对每个画面来执行第一视觉特征与第二视觉特征之间的匹配时，输出定义针对每个画面的匹配失败次数的可允许值的参数，作为匹配参数；以及

如果针对每个画面的匹配失败次数在可允许值之内，则继续匹配，并计算匹配结果。

36.一种匹配方法，利用根据权利要求19至29中任一项所述的视频签名产生方法所产生的视频签名来执行匹配。

37.一种程序，使计算机用作：

38.一种程序，使计算机使用：

以用作：