CN101847158A

CN101847158A - 基于上下文的视频查找器

Info

Publication number: CN101847158A
Application number: CN201010173120A
Authority: CN
Inventors: W·哈格; J·埃金克; T·坎普; F·吉伦; J·阿朗索加西亚
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-03-24
Filing date: 2010-03-24
Publication date: 2010-09-29
Also published as: EP2234024A1; US20100250585A1; EP2234024B1; US8346801B2

Abstract

本发明涉及基于上下文的视频查找器。本发明的实施例涉及一种用于视频检索的方法，该方法通过提供第一音频视频文件，在该第一一音频视频文件中确定音乐的第一段的第一标识符，在音乐数据库中查找该第一标识符的第一元数据，其中所述第一元数据与所述第一标识符相关联，从该音乐数据库中提供音乐的第二段的第二元数据。该音乐的第二段被包含于第二音频视频文件中。进一步地通过以下来实施该方法：通过比较第一和第二元数据来确定该相似性度量，并且根据该相似性度量提供该第二音频视频文件或其标识符。另外的实施例涉及用于视频检索的服务器，用户装置和系统以及计算机程序产品。

Description

基于上下文的视频查找器

本发明的实施例涉及用于视频检索的方法、服务器、用户装置以及系统。该实施例进一步地涉及相应的计算机程序产品。

技术领域

本发明涉及基于上下文的视频查找器(context based video finder)。

背景技术

在线视频社区的流行是视频数据库强劲增长的一个原因。浏览这种大集合对于用户来说经常是耗时的并且繁琐的。因此，用户很难查找到他想观看的偏好的视频。

因而，在巨大的视频数据库里查找感兴趣的视频已成为具有挑战性的任务。

发明内容

实施例的一个目的是提供用于视频检索的一种方法及一种服务器。这一目的是通过依照权利要求1和15的一种方法及一种服务器解决的。

更多的细节将参照附图和随后的说明而变得明显。

附图说明

包括接下来的附图以提供对于实施例的更进一步的理解并且其被纳入并构成本说明书的一部分。这些附图阐明了实施例并且与说明书一起用于解释实施例的原理。通过参考接下来的细节说明，其它实施例以及实施例的很多预期的优点将由于其变得更好理解而容易被领会。附图的各个元件不必相对于彼此成比例。相同的标号表示相应的类似部分

图1显示了用于视频检索的方法的一个实施例；

图2显示了用于视频检索的方法的第二个实施例；

图3显示了用于视频检索的方法的第三个实施例；

图4显示了包括元数据的示例音乐数据库结构；

图5显示了包括视频数据和音频数据的音频视频文件；

图6显示了包括音频视频文件的网页；

图7显示了示例视频数据库结构，引用了(reference)音频视频文件的音乐段；

图8显示了用于视频检索的服务器的一个实施例；

图9显示了用于视频检索的用户装置的一个实施例；以及

图10显示了用于视频检索的系统的一个实施例

具体实施方式

接下来，实施例将被描述。重要的是指出所有下面被描述的实施例可采用任何方式结合，即，没有限制某些描述的实施例不可以与其它相结合。更进一步的，应指出的是贯穿所有附图同样的参考标记表示同样的或相似的元件。

将理解其他实施例可以被利用并且可以进行结构和逻辑的变化而不脱离本发明的范围。因此，以下详细说明不被理解为限制性的并且本发明的范围通过附加的权利要求书所限定。

将理解除非特别注明，这里描述的各个实施例的特征可以彼此结合。

在图1中示出了依据一个实施例的用于视频检索的方法。步骤S100处，作为示例，通过用户和/或应用提供第一音频视频文件。该第一音频视频文件可包含视频数据和音频数据，该音频数据包括至少一个音乐段。

该第一音频视频文件可包括编码的音乐数据。该第音频视频文件的来源可以是视频数据库。该第一音频视频文件也可以通过便携式存储介质(例如，存储棒等等)、和/或通过用户经由图形用户接口，经由互联网、内部网从位于本地或远程的存储器所提供。

在步骤S102，包含于该第一音频视频文件中的音乐的第一段的第一标识符被确定。确定所述第一标识符可能包括确定所述音乐的第一段的音频信号的指纹(fingerprint)。所述指纹可以是第一标识符。

在另一个实施例中，也可能直接提供音乐段，它可用于查找包括该音乐段或至少类似音乐段的视频。

在另一个实施例中，也可能直接提供音乐段的第一标识符，它可用于查找包括该音乐段或至少类似音乐段的视频。在该实施例中，在图1中，块S100将被跳过。

步骤S104处用于在音乐数据库100中查找该第一标识符的元数据，其中所述第一元数据和所述第一标识符是相关联的。查找表(其中指纹与标识符相关联)，也可结合进该音乐数据库100中。该结合使指纹也有可能用作元数据。

描述该音乐的第一段的至少一个属性的至少一个元数据被查找，但是也可能查找多于一个元数据，因此，该音乐的第一段的多于一个属性可被查找。

音乐数据库100中的该元数据与相应的音乐段的标识符相关联。该元数据可以独立于包括该音乐段的原始提供的音频视频文件而确定。该元数据可以基于音乐文件和/或音频视频文件(其独立于所述原始提供的音频视频文件而获得)。例如，音频视频文件中的音乐段可以只包括音乐段中的若干秒，例如一首歌曲。然而该音乐段中的该若干秒可允许确定该音乐段的标识符，例如，指纹。该标识符然后可用于为该音乐段查找元数据。因此，在各自的数据库中，该元数据可与一个或多个标识符相关联，这些标识符是基于用于计算该音乐段的该若干秒的标识符的相同算法而确定。当然，该元数据将随后描述该音乐段的整体(全部长度)。因而，例如，该元数据“每分钟的平均节拍”将涉及全部音乐段而不仅是该音乐段的该若干秒。该元数据因此是更可靠的(“清洁(clean)”元数据)。

因此，因为可以只用音乐段中的一些秒来为该音乐段确定元数据，所以这是优点。这些元数据将随后描述全部音乐。而且，这些“清洁”元数据将用于搜索视频(见下文，及图1中的参考标记S112)，该搜索结果可以被改善。

以上内容将在接下来的示例中进一步阐明：图1中的音乐数据库100可包含标识符(指纹)，这些标识符由“清洁”音频数据(例如来自CD或纯音频文件的全部歌曲)基于用于确定指纹的算法X而确定。而且，对于每一首歌曲，“清洁”元数据可以是确定的，例如每分钟的节拍等等。当确定第一标识符时，指纹将基于例如仅用于包含于第一音频视频文件中的音乐段的若干秒的算法X而计算。该指纹可随后用于查找音乐数据库100中的元数据。最后，由此确定的元数据将用于搜索类似的歌曲并从而用于确定类似的视频(见下文详细描述的图1中的S112)。通过这样的步骤，因为独立于例如由所述用户提供的所述音频视频文件而确定该元数据，总的搜索结果可以被改善。因而，这些是“清洁”元数据，即可靠元数据。同时，在此方法中，基于音频视频文件的音频信号确定的该指纹可被基于从数据库提供的该“清洁”音频信号而确定的另外的指纹所替代。这另外的指纹随后可用作标识在第二音频视频文件中的音乐段的标识符。

关于该术语“指纹”，这可指声学指纹，该声学指纹可以是确定性地(deterministically)自音频信号生成的压缩的数字概要(condensed digitalsummary)，该音频信号可以用于标识音频样本或在音频数据库中快速定位类似的项目。

这里属性意味着元数据的通用术语，该元数据描述同样的属性。例如，艺术家为属性而“U2”可以是音乐的第一段的元数据，以及“王子(Prince)”可以是音乐的第二段的元数据。该音乐段的其他描述信息也可用于检索类似视频。因而，属性涉及元数据，结合图4更详细讨论它们。例子可以是音乐的气氛(mood)、艺术家或每分钟的节拍或任何其他描述元素，如将在下文示出的。进一步指出的是指纹也可以是元数据。

在步骤S106，提供了音乐的第二段的第二元数据，其包含于第二音频视频文件中。该第二元数据的来源可以是已查找第一元数据的相同音乐数据库100，或可选的是另一个音乐数据库。该第二元数据也可以经由互联网、内部网和/或从位于本地或远程的存储器所提供。为音乐的第二段提供的该元数据可以描述已针对音乐的第一段所查找过的至少一个属性。例如当用于音乐的第一段的第一标识符的艺术家被查找时，音乐的第二段的艺术家也被提供。音乐的第二段的元数据也可以描述音乐的第二段的多于一个属性，并且在该元数据描述在步骤S104中已被查找过的相同属性的情况下，视频检索功能的细化(refinement)可以实现。

在步骤S108，相似性度量被确定。该相似性度量描述音乐的第一段和音乐的第二段的相似性。通过比较与音乐的第一段的第一标识符相关联的第一元数据和音乐的第二段的第二元数据而生成该相似性度量。

根据元数据的类型，该比较可以用不同方式实施。如果元数据包括数字，例如在每分钟的节拍的情况下，这些数字可以通过例如确定两数字间的比值而直接比较，因而该相似性度量可以是数字。在元数据是基于类别的其它情况下，例如元数据描述艺术家姓名，该相似性度量可基于更复杂的比较算法。例如可以比较艺术家名字的全部字符串，或比较部分名字，或可以比较相同字母的数目。该相似性度量可以是二进制信息(具有“是”或“否”的含义)。

如下文所讨论，在步骤S112，根据相似性度量提供该第二音频视频文件或其标识符，例如提供给用户和/或应用。该相关性可能源自相似性度量与阈值的比较。

因而，在步骤S110，该相似性度量可与阈值比较。该阈值的类型取决于相似性度量。因此，可通过设定如“是”或“否”，“1”或“0”之类的数字或内容而设定该阈值。也很很明显的是根据相似性值的确定，阈值需要被定义。例如，如果相似性度量的比值是音乐的第一段的第一标识符的每分钟节拍除以音乐的第二段的每分钟节拍，该阈值将设置为偏离值1的值。在此情况下，相似性度量可具有大于或小于值1的值。但是如果该相似性度量总是被定义为较小数字与较大数字的比值，则该阈值可被设置为这样的数，该数大于某数且小于1。更进一步地，相应地可能将阈值设置成上边界条件(upper boundary condition)，使得该相似性值低于该阈值。相应地，该阈值也可以是有“等于”含义的条件阈值。这可例如在相似性度量是字符串的比较的情况下应用。

也可能设置用于视频检索的阈值，其尽可能地与第一音频视频文件不同。例如如果用户已看过他根本不喜欢的电影，他可能有兴趣检索与他不喜欢的该视频不同的视频，即，第一和第二元数据具有相距彼此预定的距离。因而，相似性度量的定义可被设置，使得相似性度量高于阈值的条件仅在第一元数据和第二元数据不同的情况下才满足。

设置和选择阈值方面的这样的广泛灵活性允许定义适应于用户需求或兴趣的搜索并且避免误导视频检索。因而，为确定该相似性度量通过元数据描述的属性并且用户可以选择相似性阈值的定义。然而，为确定该相似性度量通过元数据描述的属性以及相似性阈值的定义也可是预设的，导致用户和管理员更省力，以及用法的更容易使用和视频检索功能的更高自动化水平。

在步骤S112，根据相似性度量，例如提供第二音频视频文件或其标识符(第二标识符)给用户和/或另外的应用或对视频检索功能的任何其他请求者。例如，如果相似性度量满足阈值条件，例如比阈值大，在步骤S112中，提供第二音频视频文件或其标识符(第二标识符)。

如上所述，也可查找描述音乐的第一段的多于一个的元数据。步骤S108中，相应地多于一个的元数据也可被用于相似性度量的确定。步骤S108中，该相似性度量可被压缩(condense)成一个相似性度量。但是，在步骤S110中，多个相似性度量也可以被确定并且与多个阈值比较。该多个相似性度量与多个阈值的比较结果可被压缩成与一个相似性阈值比较的一个相似性度量并且通过相似性距离度量来描述。

如果该相似性度量没有满足阈值条件，该过程在步骤114中止。但是，该方法可被重复应用，因为对于与音乐的第一段的相似性而言，包含于音频视频文件中的各音乐段的元数据的音乐数据库被扫描。这可以通过重复进行步骤S106到S110来实现。用于重复该视频检索的选项也可结合任何随后的实施例而应用。这样的扫描功能的好处在于视频数据库的视频检索功能的自动化以及允许获得相似音频视频文件的列表。该重复视频检索也可用于视频数据库的有效管理，因为视频可以被分组并且不相关视频可被擦除以节省存储容量或该视频数据库可被重新安排以允许较少的时间消耗和/或要求使用视频数据库的较少的计算能力(computational power)。

如上所述，用于确定元数据的音乐文件和/或音频视频文件可以是有用的(独立于原始提供的第一音频视频文件)。因此，查找第一和第二元数据的步骤和确定相似性度量的步骤可先于第一音频视频文件的提供而执行和/或独立于第一音频视频文件的提供而执行。相似性度量的该确定的结果可被存储于包括音乐段的相似性矩阵的相似性数据库，并且因此与音乐的第一和第二段的相应标识符相关联的相似性度量可被直接查找并用于第二音频视频文件的提供步骤。当基于第一音频视频文件搜索第二音频视频文件时，相似性的该(独立的)预计算可节省计算时间。

在提供第二音频视频文件或第二标识符以外，在步骤S112，该相似性度量本身可结合第二音频视频文件或其标识符而提供。将具有有益效果的是信息的接收方就如何以相应的信息继续进行可以具有另外的判定标准。例如，在他具有使用本发明方面的经验的情况下，他可以知道即使有相似性阈值，他也只想以满足了他自己的相似性度量条件的视频来继续。

应用根据图1中示出的实施例的方法可具有以下优点：视频中的音乐可能是视频内容的鲜明特性(very characteristic)，因而，适合用于标识相似的视频。例如，电视系列节目就是这样，电视系列节目具有相同的音乐预告片(trailer)因此在音频数据中有相同的音乐段，但是可能关于其视频数据的内容而变化。

将音乐段的相似性用于视频检索的另一个好处可以是：相比于视频数据的描述信息可以用较少的努力获得描述信息。例如，用于音乐的特征提取方法可以就是这样，因为由于他们在计算上是有效率的且算法具有有限的复杂性所以他们要求较少的计算能力。进一步的，可能有益的是将音乐段的相似性用于视频检索，因为描述音乐段的参数的数目可以保持成小的而不限制区分视频(包含类似或不类似的音乐段)的能力。因此，包含描述信息的元数据的音乐数据库在存储需要方面可能是有限的，并且因此可以实现具有大量音乐段的数据库。应当理解，向音乐数据库增加另外的描述元素允许类似视频的检索的细化并且该音乐数据库的拥有者可根据他的需求设计该音乐数据库。

图2显示了视频检索的方法的另外的实施例。在这一实施例中对于如上所述的步骤S100到S114而言，附加性地，在步骤S116提供置信度量(confidencemeasure)。该置信度量可以描述在第二音频视频文件中正确地标识该音乐的第二段的概率。该置信度量的来源可以是音乐数据库100或另一音乐数据库。该置信度量也可经由互联网、内部网和/或从位于本地或远程的存储器所提供。该置信度量也可包含于如上所述的相似性数据库中，其中，所述标识符也与音频视频文件标识符相关联。

下面更详细地描述该置信度量。

根据置信度量，可以随后确定图2中的步骤S108处的相似性度量。例如如果置信度量很小，这可能表明该音乐段在音频视频文件中被正确标识的概率较小。因此，音频视频文件不包括标识的音乐的第二段的概率较高。当在步骤S108中确定该相似性度量时通过考虑该置信度量，仅具有高置信水平的音乐段可产生高相似性度量。

在确定相似性度量时考虑置信度量具有以下优点：以更高的准确性检索类似的音频视频文件。如果元数据的差异通常不是很大，则这可以改善该视频检索方法选择性。也可具有以下主要优点：如果该音乐的第二段包含于很多音频视频文件中，则置信度量的附加标准可导致对于各个音频视频文件的相似性度量的分级(gradation)。因此，标识于元数据中以包括音乐的第二段的不是所有的各个音频视频文件可被提供给用户。因此，可避免具有大量音频视频文件的用户的优势(overwhelming)，并且可减少数据传输量。如果大的数据库与音乐的第一段的元数据进行比较，因为可再次实现比较的细化，该置信度量的考虑进一步具有节省时间和资源的效果。

置信度量可被定义为独有(exclusive)标准，因为是在比较步骤S106处的其它提供的元数据之前，该置信度量必须高于阈值。只有在该标准被满足的情况下，步骤S108中的比较才可继续。这可具有视频检索过程的加速的效果以及可以减少计算能力需求。其他元数据也可被标识成这样的独有标准。例如如果该音乐的第一段被标识成通过艺术家“王子”来演奏，则仅仅也由艺术家“王子”演奏的音乐段可被选择，并且例如气氛的其它元数据在步骤S108中被比较。

图3中示出了另一个细化选项，示出了视频检索方法的另一个实施例。对于如上所述的S100到S114，附加性地，将协同过滤(collaborative filtering)作为附加输入用于在步骤S108中的相似性度量确定。该相似性度量因此可取决于用户简档与协同过滤信息的相似性。

在步骤S118，用户可提供他的用户简档，这样的简档可包括年龄，观看偏好，兴趣，音乐兴趣，家庭住址，性别等。可在实施方法前或实施方法期间先验地提供该简档。也可基于请求而提供。后者会具备以下优点：在不实施该方法的情况下不必须存储该简档数据，因此，这将允许限制该存储空间和该数据管理工作量。周期性地使用该方法，一旦已录入简档，则保存该简档将引起用户的较少的工作量。

在步骤S120，提供协同过滤信息。该协同过滤信息可以描述关于音乐的第二段的听行为或关于音频视频文件(包含不同用户组和/或不同用户的音乐的第二段)的观看行为。

步骤S108中，相似性度量随后可取决于用户简档和协同过滤信息而确定。例如，如果用户年龄低于35岁，他可能想要具有该第二音频视频文件或仅仅所提供的其标识符，如果包含音乐的第二段的相应第二音频视频文件已经常被年龄也低于35岁的人的用户组观看的话。通过考虑用户简档和协同过滤信息，当在步骤S108中确定该相似性度量时，只有被特定用户组喜欢的音乐段和音频视频文件可导致高相似性度量。

在相似性度量确定中考虑到这种协同过滤信息具有以下优点：其改善了视频检索方法的选择性。其也可具有以下优点：如果该音乐的第二段包含于很多音频视频文件中时，附加标准协同过滤信息导致对于各个音频视频文件的相似性度量的分级。因此，不是所有的各个音频视频文件可被提供给用户。因此，可避免具有大量音频视频文件的用户的优势，并且可进一步减少数据传输量。如果大的数据库与音乐的第一段的元数据进行比较，因为再次实现了比较的细化，这种协同过滤信息细化进一步具有节省时间和资源的效果。

该协同过滤信息细化可被定义为独有标准，因为是在比较步骤S106处提供的元数据之前，用户简档与协同过滤信息的比较必产生正(positive)的结果。只有在该标准被满足的情况下，步骤S108中的比较才可继续。这具有视频检索过程的加速的效果以及减少了计算能力需求。

注意到，可以用两种不同的方式使用该协同过滤信息元数据。在步骤S120，该音乐的第二段的协同过滤信息元数据与各个用户简档相比较。但是，该数据也可独立于特定用户而被使用。因此，可以用与图1中的步骤S104到S114处的任何其它元数据相同的方式使用该协同过滤信息元数据。

图4显示了示例性的音乐数据库100，该音乐数据库带有元数据402，404，406，408，410，412，414，416，418的非终止示例性列表。PM ID 400(标识符)可标识每个音乐段。该元数据描述相应的音乐段并且可描述：流派404，例如摇滚，灵魂，古典，民歌或其他流派；气氛406，例如悲伤，浪漫，戏剧性，欢乐或任何其他气氛；音乐段的标题；与音乐段相关联的艺术家408，例如音乐段的演奏艺术家或作曲家；每分钟的节拍BPM 402；其他低层描述符(low leveldescriptor)。该元数据也可描述音频视频文件中的音乐段。例如时间(temporal)位置410或音乐段的顺序位置412或音乐段的长度414可通过各自的元数据来表示。包含于音乐数据库中的其他元数据可以是协同过滤信息416或置信度量418。

音乐数据库中元数据的布置也可不同于图4中的示例并且该布置仅需要链接相应的信息。

例如该协同过滤数据可群集于音乐数据库或相似性数据库中作为用户组/音乐矩阵，其中该群集包含用户组或听众组倾听或喜欢的音乐。因此通过查找该群集，可标识类似的音乐。

该元数据可限制于一维或替代地可以包括多维表示。这种灵活性允许根据要求和可用的硬件对音乐数据库进行优化设计。

该不同的元数据可通过不同特性而被分组。第一组可被描述成高层描述符。例子可以是标题，艺术家408，流派404或气氛406。第一组的元数据通常不可直接得自音乐的音频信号，但是可直接得自属性，该属性需要与音乐段的音频信号分别标识。这些元数据可允许描述标题和/或艺术家和/或气氛和/或流派的第一和第二元数据之间的比较。

元数据的第二组可被描述成低层描述符。这些元数据可从音频信号音乐中推导出。这些元数据的例子是每分钟的节拍，零交叉率(zero crossing rate)，强度波动或强度峰值的相对位置或任何其他基于非频谱的元数据(例如基于时域的描述符)。这些非频谱相关的元数据具有其要求低计算能力的有益效果。根据项低层描述符项，也可以对诸如梅尔式频率声谱系数(Mel Frequency CepstralCoefficient)之类的基于频谱的描述符进行分组。这些低层描述符可适合于产生音乐段的特性指纹并且允许对于视频检索方法的高细化。第二组的所有这些元数据具有以下有益效果：可以自动地从音乐段的音频信号中提取它们。这些元数据可以允许描述每分钟节拍BPM和/或描述另外的低层描述符的第一和第二元数据的比较。如果低层描述符只在时间域中计算，这可以节省计算能力。

元数据的第三组可以描述为时间相关的和视频特定的描述符。例子是时间位置410或音乐段的顺序位置412，音乐段的长度414或音乐段之间的时间距离。在图5中示意性地示出了音乐段的时间位置和长度。包含于音频视频文件500中的视频文件502中的音乐段506具有t1的时间位置和T1的长度。相应地，与视频文件502一起包含于音频视频文件500中的音乐段508具有t2的时间位置和T2的长度；以及与视频文件502一起包含于音频视频文件500中的音乐段510具有t3的时间位置和T3的长度。关于图4中的顺序位置412，对于与图5中的音频视频文件500相对应的视频中的音乐段而言，音乐数据库100中的元数据将会是对于音乐段506而言是“第一”，对于音乐段508而言是“第二”以及对于音乐段510而言是“第三”。这些时间相关的和视频特定的元数据可以适合于区分不同的音频视频文件(这些音频视频文件在包含于音频视频文件的音频文件中的音乐段中有大的重叠)，因为该信息是非常特定于音频视频文件的。也可结合低层描述符分析从音频视频文件的音频数据中通过由特性指纹来标识音乐段，自动地推导出这些信息。这些元数据可允许对分别描述第一和第二音频视频文件中的音乐的第一和第二段的第一和第二时间位置的第一和第二元数据进行比较，和/或对分别描述包含于第一和第二音频视频文件中的音乐段的时间次序的第一和第二元数据进行比较，和/或对分别描述第一和第二音频视频文件中的音乐的第一和第二段的第一和第二长度的第一和第二元数据进行比较。

另外的元数据组可被描述为环境相关的描述符。例子是置信度量或协同过滤信息。这些特征通过描述音乐段的另外的特性而支持视频检索功能。如果在步骤S106处的元数据供应经由这个音乐数据库100而进行，则该信息优选地也包含于音乐数据库100中。例如该协同过滤信息可仅仅基于例如所有用户的回放统计。

可用于视频检索的其他信息，可包含包括音频视频文件或与音频视频文件相关联的网页信息。在图6中示出了一个例子。音频视频文件500(包含包括至少一个音乐段504的视频数据502和音频数据)被包括于网页600或与网页600相关联。当在步骤S112中提供第二音频视频文件时，该网页600也可被提供给用户。网页600的提供可经由因特网地址602或到其的链接的提供来实现。该网页的这种提供对于用户可以具有以下优点：他可查找连接到他感兴趣的其他音频视频文件的因特网网页。其还具有以下有益效果：数据业务量可被减少为需要被提供的第二音频视频文件的标识符，并且用户被紧接着告知他可以观看该相应视频的位置。

该网页也可包含设计。这设计可用于确定音乐的第一和第二段的相似性度量，方式是通过比较包括包含音乐的第一段的第一音频视频文件的第一网页的设计和包括包含音乐的第二段的第二音频视频文件的第二网页的设计。这样的设计可以是对于该网页的任何视觉元素特征。该视觉元素的示例可以是标志，徽章，背景颜色，图案，文本元素，字体，特定风格元素等等。

如上所述，根据实施例的用于视频检索的方法可用于视频数据库中的音频视频文件检索。这样的视频数据库700显示于图7中。在该视频数据库700中，每一个音频视频文件通过它的索引(index)V ID(标识符)704被标识(被编索引)并且音频视频文件中的音乐段通过它们的索引PM ID(标识符)702被标识。因此，结合上述音乐数据库，在步骤S112处的第二音频视频文件的提供可进一步被自动化，因为在步骤S106处提供的音乐的第二段被链接到视频数据库700中的至少一个音频视频文件；并且分别从该音乐数据库和视频数据库中自动进行在S106处的音乐的第二段的提供和在步骤S112处的第二音频视频文件的提供。

该视频检索也可基于从包含于音频视频文件的音频数据中提取低层描述符或高层描述符。这种信息可被存储为描述符-视频数据库中的元数据，在该描述符-视频数据库中每一个音频视频文件都链接到它的元数据。

在这个实施例中，第一音频视频文件由用户提供，针对该第音频视频文件，该用户有兴趣知道其他类似的视频，一个或更多的低层描述符或高层描述符被从包含于第一音频视频文件中的音频文件中提取出来。这些描述符被与第二音频视频文件的相应描述符相比较。该第二文件的描述符可通过与针对第一音频视频文件所进行的特征提取相同的特征提取而获得，或可在描述符-视频数据库中查找该第二文件的描述符。相似性度量通过比较第一和第二音频文件的描述符而确定并且如果该相似性被发现高于阈值，则该第二音频视频文件被提供给用户。这种视频检索可结合根据如上所述的音乐段标识的视频检索。网页信息，置信度量或协同过滤信息可被用于以与基于音乐段标识的视频检索方法的上述方式相同的方式针对这种基于特征的分析来细化相似性度量确定。

可在相应地适配的装置上进行或可在包含这种装置的网络的系统上进行视频检索的执行。

在图8，显示了用于这样的系统的服务器800。服务器800可包含：通信单元802，适于接收第一音频视频文件；存储器806，适于存储音乐数据库100；以及数据处理器804，适于确定第一音频视频文件中的音乐的第一段的第一标识符，并且查找音乐数据库100中的该第一标识符的第一元数据(其中所述第一元数据与所述第一标识符相关联)，并且从音乐数据库100中查找音乐的第二段的第二元数据(其中该音乐的第二段被包含于第二音频视频文件中)，该数据处理器进一步地适于通过比较第一和第二元数据来确定相似性度量，并且适于根据相似性度量向该通信单元802提供该第二音频视频文件或其标识符。从而该通信单元802可进一步适于发送第二音频视频文件或其标识符给用户。该存储器806可进一步包含视频数据库700。该数据处理器804也可包含若干处理器，这些处理器被优化以进行特定任务，例如音乐段标识和标识符确定，查找元数据或将该相似性度量与阈值相比较。该存储单元可包含相似性度量数据库。

图9显示了相应的用户装置900，其适于与图8中所示的该服务器800通信/协作。这种装置的例子是计算机，笔记本，移动游戏机，PDA，移动电话，无线视频照相机，交互式电视接收机。该用户装置可包含至少一个通信单元904，其适于从服务器800接收第二音频视频文件或其标识符。服务器800因此适于例如从所述用户装置900接收第一音频视频文件，存储音乐数据库100，确定第一音频视频文件中的音乐的第一段的第一标识符，以及查找音乐数据库100中的第一标识符的第一元数据(其中所述第一元数据与所述第一标识符相关联)，并且适于从所述音乐数据库100中查找音乐的第二段的第二元数据(其中该音乐的第二段被包括于第二音频视频文件中)，该数据处理器804进一步适于通过比较第一和第二元数据确定相似性度量，并且根据相似性度量向该通信单元902提供该第二音频视频文件或其标识符，以及例如发送第二音频视频文件或其标识符到用户装置。该用户装置900优选地包含用户接口904，该用户接口允许该用户提供音频视频文件。这可以是DVD播放器，CD播放器，存储器棒接口或甚至是用户可用其键入该音频视频文件的名字的图形用户接口。

图10显示用于视频检索的系统。它可包含至少一个服务器1008、1010，所述服务器包括：通信单元，适于从用户装置1002、1004、1006接收第一音频视频文件或其音频视频标识符；存储器，适于存储音乐数据库；数据处理器，适于确定该第一音频视频文件中的音乐的第一段的第一标识符，并且在该音乐数据库中查找第一元数据的第一标识符(其中所述第一元数据与所述第一标识符相关联)，并且在音乐数据库中查找音乐的第二段的第二元数据(其中该音乐的第二段包括于第二音频视频文件中)，该数据处理器进一步适于通过比较第一和第二元数据确定相似性度量，并且根据相似性度量向该通信单元提供该第二音频视频文件或其标识符，其中该通信单元进一步适于发送该第二音频视频文件或其标识符到该用户装置1002、1004、1006，并且至少一个用户装置1002、1004、1006适于向该服务器1008、1010传送该第一音频视频文件并且进一步适于接收该第二音频视频文件。

该服务器1008、1010可以是与图8中的服务器800相对应的服务器，但是该音乐数据库可作为单独的(一个或多个)数据库1012而被提供，且相应地，该视频数据库可作为单独的(一个或多个)数据库1014而被提供。该音乐数据库和视频数据库可以是一个数据库。

该系统的不同装置可通过通信连接1000而被连接。该通信连接1000也可被配置为仅提供在分层通信结构中的不同装置之间的通信连接。

图8到图10显示了视频检索的装置和系统的示例性设置。视频检索方法的各个任务也可在不同的装置之间不同地划分。这允许最有效地设计系统。也有可能的是所有任务都结合于用户装置中，因此，装置可被设计成独立的装置。

相应于视频检索的方法，计算机程序产品包括计算机程序指令，该指令导致计算机执行视频检索的方法，包括：提供第一音频视频文件，在第一音频视频文件中确定音乐的第一段的第一标识符，在音乐数据库中查找该第一标识符的第一元数据(其中所述第一元数据与所述第一标识符相关联)，从该音乐数据库中提供音乐的第二段的第二元数据(其中该音乐的第二段被包含于第二音频视频文件中)，通过比较第一和第二元数据来确定相似性度量，并且根据该相似性度量提供该第二音频视频文件或其标识符。

这样的计算机程序产品可被提供于相应的计算机可读存储介质上。

还可以有如下的实施例：

用于视频检索的方法，包括：例如由用户提供音频视频文件；在该音频视频文件中确定音乐的第一段的标识符，其中该标识符基于该音乐段的音频信号的特性音频特征(#指纹)而确定；基于查找表独立于音频信号针对标识符确定元数据和/或协同过滤信息，其中在查找表中音乐段的多个标识符与相应的元数据和/或协同过滤信息相关联；提供另外的元数据和/或音乐的多个第二段的另外的协同过滤信息，其中音乐的第二段中的每一个与一组另外的音频视频文件的相应的另外的音频视频文件相关联；为音乐的第二段中的每一个确定相似性度量，该相似性度量指示该音乐的第一段与音乐的相应第二段的相似性，其中通过将该元数据与相应的另外的元数据相比较和/或通过将该防同过滤信息与该另外的协同过滤信息相比较而确定该相似性度量；以及根据该相似性度量例如向该用户提供该组另外的音频视频文件中的至少一个音频视频文件或其标识符。

尽管已在此阐明和描述特定实施例，本领域普通技术人员将理解，多种超网(ultra net)和/或等同的实施方式可以在不脱离所描述的实施例的范围的情况下替换所示出和描述的特定实施例。本申请旨在涵盖这里所讨论的特定实施例的任何适配或变型。因此，本发明旨在仅由权利要求书及其等同内容所限定。

Claims

1.一种用于视频检索的方法，包括：

提供第一音频视频文件；

在该第一音频视频文件中确定音乐的第一段的第一标识符；

在音乐数据库中查找所述第一标识符的第一元数据，其中所述第一元数据与所述第一标识符相关联；

从所述音乐数据库中提供音乐的第二段的第二元数据，其中该音乐的第二段被包含于第二音频视频文件中；

使用微处理器，通过比较第一和第二元数据来确定相似性度量；以及

根据该相似性度量提供该第二音频视频文件或其标识符。

2.如权利要求1所述的方法，其中第一和/或第二元数据描述流派、气氛、标题和/或艺术家。

3.如权利要求1所述的方法，其中第一和/或第二元数据描述每分钟的节拍BPM和/或另外的低层描述符。

4.如权利要求1所述的方法，其中第一和/或第二元数据描述协同过滤信息。

5.如权利要求1所述的方法，进一步包括，

提供指示在该第二音频视频文件中正确地标识该音乐的第二段的概率的置信度量，其中该相似性度量取决于该置信度量。

6.如权利要求1所述的方法，其中该相似性度量取决于用户简档对协同过滤信息的相似性。

7.如权利要求1所述的方法，其中第一和/或第二元数据分别描述在第一和第二音频视频文件中的音乐的第一段和第二段的第一和第二时间位置。

8.如权利要求1所述的方法，其中第一和/或第二元数据分别描述被包含于第一和第二音频视频文件中的音乐段的时间顺序。

9.如权利要求1所述的方法，其中第一和/或第二元数据分别描述在第一和第二音频视频文件中的音乐的第一段和第二段的第一和第二长度。

10.如权利要求1所述的方法，其中该第二音频视频文件被包含于网页中或与该网页相关联，并且该网页被提供给用户。

11.如权利要求10所述的方法，其中该第一音频视频文件被包含于另外的网页中或与该另外的网页相关联，并且该相似性度量通过比较第一和第二网页的设计而确定。

12.如权利要求1所述的方法，其中所述第一标识符和/或所述第二标识符是指纹。

13.如权利要求1所述的方法，其中所述第一元数据基于音乐文件和/或音频视频文件独立于所述第一音频视频文件而确定，该音乐文件和/或音频视频文件独立于由所述用户提供的所述音频视频文件而获得。

14.如权利要求1所述的方法，其中该相似性度量被提供于包括音乐段的相似性矩阵的相似性数据库中。

15.一种服务器，包括：

通信单元，适于接收第一音频视频文件；

存储器，适于存储音乐数据库；

数据处理器，适于：在该第一音频视频文件中确定音乐的第一段的第一标识符，并且在该音乐数据库中查找所述第一标识符的第一元数据，并且从所述音乐数据库中查找音乐的第二段的第二元数据，其中所述第一元数据与所述第一标识符相关联，其中该音乐的第二段被包含于第二音频视频文件中；该数据处理器进一步适于通过比较第一和第二元数据来确定相似性度量，并且根据该相似性度量向该通信单元提供该第二音频视频文件或其标识符，

其中该通信单元进一步适于提供该第二音频视频文件或其标识符。