CN1957396B

CN1957396B - 分析信息信号的设备和方法

Info

Publication number: CN1957396B
Application number: CN2005800147768A
Authority: CN
Inventors: 于斯根·赫勒; 埃里克·阿拉芒; 奥利弗·赫尔莫特; 索尔斯腾·克斯特纳
Original assignee: M2any GmbH
Current assignee: M2any GmbH
Priority date: 2004-05-10
Filing date: 2005-05-09
Publication date: 2010-12-08
Anticipated expiration: 2025-05-09
Also published as: EP1745464A1; DE502005001685D1; KR20070015194A; PT1745464E; DE102004023436A1; JP2007536588A; US20070127717A1; SI1745464T1; DK1745464T3; US8065260B2; WO2005111998A1; DE102004023436B4; CY1107130T1; KR100838622B1; CA2566540A1; CN1957396A; JP4900960B2; ES2296176T3; EP1745464B1; CA2566540C

Abstract

用于分析具有信息单元块序列的信息信号，其中块序列中多个连续的块使用块序列的指纹序列，表示信息实体，提供(12)连续指纹的识别结果，其中识别结果表示信息单元块与预定信息实体相关联。然后，根据连续指纹的识别结果，形成(14)至少两个假定，其中第一假定是块序列与第一信息实体相关联的假设，第二假定是块序列与第二信息实体相关联的假设。然后，对多个假定进行检查(16)以获得检查结果，基于检查结果做出(20)关于信息信号的声明。这实现了信息信号的有意义的和可靠的时间连续的分析。

Description

分析信息信号的设备和方法

技术领域

本发明涉及信号分析，具体涉及用于识别信号内容的信号分析。

背景技术

为了对不断增长的音频和视频材料进行存档、建立易于搜索的数据库或通过多种分发方式来分发这些材料，需要自动信息辨别(recognition)系统以帮助识别音频和视频材料，或更一般地，基于内容来明确地识别信息材料。

一种为了实现此目的的应用被称为“广播监视”。在这种音频-视频监视系统的帮助下，例如，意欲确保仅分发合法的内容或者正确地给音频和视频材料的正当持有者赋予各自的权力。

例如，另一种应用是通过对等网络在伙伴之间交换的音频材料的辨别。

另一种应用是广告业的监视可能性，用于关于是否确实已经广播了预定的广告次数、或是否仅仅广播了部分预定的广告份额、或是否在播送期间干扰了部分广告片(例如，这可以是电视或广播站的职责)，来监视电视或广播站。在这点上要特别注意的是，在好的广播时间和流行的节目中进行电视广告的成本是很高的，以致广告业(特别考虑到这些高成本)对监视可能性具有极大的兴趣，从而他们不只相信广播站的言辞。当前，监视可能性是基于付费的“测试听众”或“测试观众”的，他们连续地观看特定的电视节目并记录例如播送广告片的具体次数，他们还监视在播送期间是否没有干扰或者是否已经正确地播送了完整的广告片，即是否没有出现图像失真等。

这种概念的缺点是明显的。一方面，成本非常高，另一方面，测试听众和/或测试观众的陈述证据的可靠性或力度是有疑问的，特别是如果只是依靠测试看守人的证明而做出相当多的偿付要求时。

多种公知的系统可以用于自动广播监视。例如WO 02/11123 A2或专业公布“Invited Talk：An Industrial-Strength Audio SearchAlgorithm”，Avery Wang，ISMIR 2003，Baltimore，2003年10月公开了用于在强噪声和高失真的环境下辨别音频和音乐信号的系统和方法。第一步是检查参考音频对象的散列值与尚未识别的音频对象的当前确定的散列值之间是否匹配。如果匹配，在分别识别参考音频对象之下，存储尚未识别的音频对象的散列值的相关联时间偏移(即与音频对象开始位置的相对距离)与参考音频对象的散列值的时间偏移。当已经对所有输入的散列值进行处理后，所谓的扫描阶段开始启动。在这个阶段期间，检查每一个参考音频对象时间连续地匹配多少时间偏移对。如果检测到某一数目，那么就假定识别了相应的参考音频对象。当时间偏移对在一个时间偏移作为x坐标、另一个作为y坐标的二维散布图中形成直线时，时间偏移对被认为在时间上连续(即彼此时间相关联)。

在专业公布“Robust Audio Hashing for ContentIdentification”，J.Haitsma、T.Kalker、J.Oostveen，in Proceedingsof the Content-Based Multimedia Indexing，2001，url：citeseer.ist.psu.edu/haitsmaOlrobust.html中，提出了一种内容识别的鲁棒音频散列的系统。对于基于内容的音乐辨别，使用将位序列与来自音频信号的部分相关联的散列函数，即使得在声学上对于人类声音感觉相似的音频信号也产生相似的位序列。对于散列值的计算，首先对音频信号加窗并对其进行变换，最后利用对数带宽将变换结果分为频段。对于这些频段，确定时间和频率方向上的差的符号。由符号产生的位序列组成了散列值。一种散列值是一直对长度为3秒的音频信号进行计算。如果参考散列值与被检查的这部分的测试散列值之间的汉明距离小于阈值s，那么假设实现了匹配且测试部分与参考元素相关联。

为了执行音频材料的辨别，典型地将音频信号分为长度为Δt的小单元。对这些独立的单元中的每一个进行独立的分析，以具有至少某一时间分辨率。

这导致了一些问题。

必须将音频信号的已分析的小时间周期的辨别结果合并起来，从而能够在更长的时间周期中做出关于已辨别的音频信号的明确且正确的声明(statement)。

对于连续音频数据流的分析，应该正确地检测从一种音频元素到另一种音频元素的转变(即从音乐段A到音乐段B的转变)。

还有另一种情况，即存在音乐段的多个版本(具有相同的开始，仅是在某一时间后开始有所不同)。例如考虑歌曲的短版本或最长版本。可选择地，还存在一种情况，即基于同一歌曲的音乐段在开始处不同、具有相同的中间部分且在两个音乐段中至少一个的末端处再次彼此不同。对于向版权持有者支付版税，重要的是例如是否支付较高的收费可以播放最长版本的歌曲、是否支付中等的收费仅可以播放正常版本可以或是否支付较低的收费可以播放短版本的歌曲。在这种情况下，应该能够可靠地区分歌曲的几种版本。

由于在将独立的辨别结果简单地合并时会导致检测错误，上述现有技术是不能够令人满意的。特别地，没有给出关于来自几个不同的音频对象的连续音频数据是否可以分析和怎样分析、以及怎样可以检测在多种音频对象之间的相应转变的信息。此外，虽然特别地在最近的现有技术中提到了参考散列值的不明确，但没有给出确定明确的候选的问题的清楚解决方案。如果认为针对散列值已经识别了音频对象，那么对于紧随其后的散列值，仅检查其是否适合已识别的音频对象。如果不适合，那么进行包括所有参考音频对象的新的搜索。

特别地，对于区分同一个歌曲的不同版本，现有技术中不存在公知的解决方案。

发明内容

本发明的目的是提供用于分析信息信号的可靠概念。

这个目的是由用于分析信息信号的设备、用于分析信息信号的方法来实现的。

本发明基于以下发现，即不仅考虑独立的识别结果自身，而且在某一时间周期上考虑独立的识别结果，来实现可靠的内容识别。例如，对于指纹序列，存在可用于在独立辨别结果的序列中进行辨别的大量信息。根据本发明，基于表示信息信号的块序列的指纹序列来形成至少两个不同的假定(hypothesis)，其中第一假定是块序列与第一信息实体相关联的假设，而第二假定是块序列与第二信息实体相关联的假设。对所述至少两个假定进行检查并对其进行估计，从而基于检查结果做出关于信息信号的声明。例如，声明可以包括确定块序列表示了具有最可能的假定的信息实体。声明可以选择性地或附加地是信息单元以提供最可能假定的指纹结束，作为指纹序列的时间上最后的指纹。

优选地对假定进行检查，因此存在至少两个不同的指纹识别结果，并且存在两个不同的识别结果中每一个的可靠性测量(measure)，其中这个可靠性测量可以是具体的数目。然而也可以隐式地给出这个可靠性测量，从而仅提供两个识别结果，以信号发出例如1/2的可靠性，并且并不显式地给出该数目。

对于估计一个假定是否比其它假定更具可能，有利地合并在时间上连续的各个数目的块的独立辨别的可靠性测量，其中这个合并优选地是相加。然后将提供了最高的合并可靠性测量的假定估计为最可能的假定。

在本发明的优选实施例中，其中有多个参考指纹分别与识别结果相关联地存档的指纹数据库用作提供连续识别结果的装置。利用从要分析的信息信号的块中产生的指纹来进行数据库的搜索，以在数据库中查找与测试指纹匹配的参考指纹。取决于数据库的设计，数据库仅将最佳结果(即具有最小距离测量的结果)作为搜索结果输出，作为识别结果。此外，数据库优选地不仅提供定性的查找结果，也提供定量的查找结果，从而输出了具有相关联的可靠性的多个可能的查找，从而数据库输出了所有具有大于或等于某一阈值(例如20％)的可靠性测量的查找。

在本发明的优选实施例中，当出现尚不存在假定的新的识别结果时，则开始新的假定。对特定数目的块进行该过程，然后对过去进行检查，检查被发现可靠的特定假定是否已经结束，然后将该假定识别为最可能的假定。

本发明的优点是概念工作可靠且仍具有容错能力，特别是关于传输错误的容错能力。例如，不是基于单一的块来尝试做出决定，而是由假定形成来考虑和估计连续的块序列，从而短期传输干扰和/或通常产生的噪声不会使整个辨别过程无效。

另外，本发明的概念自动地提供了对例如广告片的从开始到结束对传输质量的记录。即使假定已经被识别为最可能的假定，即如果确定已经出现了特定的广告片，仍可以基于可靠性测量来跟踪广告片中的质量变化。此外，按照这种方式，作为信息实体例子的广告片的完整时间连续性是可跟踪的和可记录的，尤其是关于以下方面，即没有连续地重复部分广告片，而是以连续的方式从广告片的开始到广告片的结束而传送完整的广告片。

本发明的优点还在于，通过假定形成，自动地检测信息实体的末端和信息实体的开端。这是由于与信息实体的相关联通常是明确的(explicit)。这意味着不可能在特定的时间点上一起重新播放几个信息实体，至少对于极多数目的节目内容，在一个时间点上仅有一个信息实体被包含在信息信号中。假定检查和基于假定检查的假定估计自动地提供了先前的信息实体结束且新的信息实体开始的时间点。这是由于假定中维持的块相关联。因此，指纹序列仍然与块序列相对应，且因此识别结果序列与指纹序列相对应，从而假定关于时间明确地与原始信息信号相关联。

本发明的优点还在于，即使信息实体在部分上具有相同的音频材料(例如同一首歌曲的短版本或长版本)，在两个假定之间也不会出现“平局”的情况。

附图说明

下文将参考附图对本发明的优选实施例进行详细地说明，其中：

图1是本发明的设备的电路框图；

图2是适用于图1中所示的实施例的数据库的电路框图；

图3是针对时间间隔序列的指纹序列的输出结果和相关联假定的示意图；

图4a-4c示出了随后的应用示例的典型方案；

图5a-5d示出了多种错误估计的示意图；

图6是本发明优选实施例的电路框图；

图7a-7c示出了图4a-4c中所示的输出场景的本发明概念的功能性示意图；

图8是具有信息单元的信息信号、信息单元的块和具有多个块的信息实体的示意图；

图9是用于建立指纹数据库的公知场景；以及

图10是用于通过加载根据图9的指纹数据库来进行音频识别的公知场景。

具体实施方式

图1示出了根据本发明优选实施例的用于分析信息信号的设备的电路框图。图8中的800示出了典型的信息信号。信息信号800包括时间上连续的信息单元块序列802，其中独立的信息单元804可以是例如音频采样、视频象素或视频变换系数等。通常，序列802的多个块共同形成了信息实体806。在图8中所示的实施例中，第一组六个块形成了第一信息实体，块7、8、9、10形成了第二信息实体。图8中示出了从块11开始到块n的第三信息实体。信息实体可以是例如音乐段、话语段、视频图像，或例如也可以是视频图像部分。然而，如果信息信号还包括文本数据，那么信息实体也可以是例如文本或文本页。

图1中所示的设备被设计为使用指纹序列FA1、FA2、FA3、...、FAi来操作。取决于实施方式，该指纹序列从块802的序列产生，或者如果在分析之前已经产生了指纹或是可能与信息信号一同提供了指纹，则该指纹序列从例如存储器中取得。要注意的是，例如如音频编码所公知的，也可以将块交叠技术用于块的形成。

无论怎样，用于分析信息信号的设备使用块序列的指纹序列来操作，从而块序列802由指纹序列FA1、FA2、FA3，FA4、...、FAi来表示。指纹序列被馈入用于提供连续指纹的识别结果的装置12中的指纹输入装置。用于提供连续识别结果的装置12操作用于提供连续指纹的连续识别结果，其中识别结果表示信息单元块与预定信息实体的相关联。例如，假设歌曲具有对应于大约6个块的时间长度，6个块提供不同的指纹，但是在提供装置12中所有这些6个块表示部分预定信息实体，即所述歌曲。

取决于实施方式，提供装置12将提供指纹的一个或多个识别结果。一个或多个识别结果被提供给用于根据连续指纹的识别结果来形成至少两个假定的装置14。具体地，第一假定表示块序列与第一信息实体的相关联的假设，第二假定是块序列与第二信息实体的相关联的假设。多个假定H1、H2，...被提供给用于对假定进行检查的装置16，其中装置16被设计为根据可调整的检查算法来操作，最后在检查结果输出18处提供检查结果。

然后将线路18上的检查结果提供给用于做出关于信息信号的声明的装置20。用于做出关于信息信号的声明的装置20被设计用于基于检查结果来输出关于信息信号的信息，并可以具有多种设置。

所有设置的共同点是基于检查结果18来做出关于信息信号的声明。关于信息信号的多种声明的示例是确定块序列表示具有最可能的假定的信息实体。可选择的声明是信息实体以提供最可能假定的指纹结束，作为时间最后的指纹。可以由装置20做出的可选择的声明是确定信息实体本身是否存在于信息信号中。

装置14、16和20特别地提供了本发明的后处理，即形成至少两个假定、检查假定并基于检查结果做出声明，因此不仅可以识别未知(即要分析的)信息信号中的信息段，而且除了识别段自身之外，还可以检测第一段(即第一信息实体)的末端，并且检测跟随在第一信息实体后的第二信息实体的开端。

然而，关于广告片监视，本发明的后处理的概念也提供了检测特定段是否出现在信息信号中的可能性。在这里，从信息信号所获取的指纹仅与一组指纹进行比较，即与表示了预定信息实体的指纹组(某一广告片)进行比较。因此这个声明不应该主要被看作识别信息实体或检测信息实体的末端和随后的信息实体的开端，而是检测某一信息实体是否出现在要分析的未知信息信号中。

图2示出了用于提供连续指纹的识别结果的装置12的具体优选实施方式。在优选实施例中，装置12包括数据库，该数据库包括与识别结果(即IDk)相关联地存储的多个参考指纹FArj，如图2中所示。在优选实施例中，指纹FAi是一个接一个地被处理的，即在时间上按顺序处理。通过输入线路24将指纹FAi存储到数据库中。在数据库中，将存储的指纹FAi与所有参考指纹FArj相比较。在优选实施例中，数据库不是确定输入指纹与存储的参考指纹是否匹配的定性数据库，而是提供输出结果的距离测量和/或可靠性测量的定量数据库。在图2中所示的优选实施例中，数据库22可以在其输出26处提供例如结果表28中所示的结果。因此，例如数据库可以宣称对于示例x，指纹FAi指示了具有可靠性ZV1为60％的识别结果IDx(即音乐段)。然而同时，数据库也将宣称指纹FAi指示了具有可靠性为50％的识别结果Idy的段。最后，数据库还可以输出指纹FAi，FAi指示了具有可靠性测量ZV3为例如40％的另一个识别IDz。

取决于实施方式，可以将整个结果表28提供给图1中用于形成至少两个假定的装置14。然而，可选择地，数据库22自身可以做出决定并总是向用于形成至少两个假定的装置14仅提供最可能的值(在这种情况下是结果IDx)。在这种情况下，不需要将可靠性测量ZV1也提供给用于形成至少两个假定的装置14。而是，可以省略其它的可靠性测量ZVi的通信。然而，可选择地，同时还提供可靠性测量的用于提供识别结果的装置12也可以被设计用于按照与块相关联的相应顺序，不将可靠性测量ZVi提供给用于形成至少两个假定的装置14，而是将其提供给用于检查假定的装置16，因为这个装置16仅需要可靠性测量来查找例如最可能的假定。

从图2中的数据库22可以看出，例如ID1的识别结果具有多个相关联的指纹FArl1、FArl2、FArl3，这指示了由ID1标识的段具有多个块。然而，取决于实施方式，也可以为具有标识符ID1的段存储单个的长指纹，但单个的长指纹仍旧由独立指纹FArl1、FArl2、FArl3、...组成。然后数据库可以将所提供的指纹FAi(取决于块的长度并通常比长指纹短得多)与数据库的每一行中的长指纹进行相关联，以确定存储的长参考指纹的一部分是否与在线路24上提供的参考指纹FAi相匹配。这里，将自动获得可靠性测量的结果，也就是说，仅通过相关联结果的定量估计而得到。

此外，根据图2，参考由识别结果ID108和ID109指定的最后两行。ID108指定了长版本的音乐段，将参考图4a进行说明；而ID109标识短版本的同一音乐段，如图4b所示。

正如已经讨论的，可以设计数据库22(即用于提供连续指纹的识别结果的装置12的实施方式)，使其总是仅提供最可能的识别结果。然而，可选择地，也可以定义数据库22总是仅提供可能性高于最小阈值(例如阈值5％)的识别结果。这将产生表中的行的数目随着指纹而变化的结果。然而，还可选择地，也可以实施数据库22使其针对每一个输入指纹FAi向用于形成至少两个假定的装置14提供确定数目(例如“前十”，即最可能的十个候选)的最可能的候选。

接下来，将基于图3说明数据库22的实施方式，在图3中数据库总是将三个最可能的识别结果与相关联的可靠性值一同提供给用于形成假定的装置14，即它包括了“前三”的实施方式。图3示出了对于指纹FA1，提供了分别具有可靠性测量40％、60％或30％的识别结果ID1、ID2、ID3。对于时间间隔Δt2，即对于指纹FA2来说，还传送了识别结果ID1、ID2、ID3，但是这些识别结果分别具有不同的概率(即分别具有不同的可靠性测量)，图3中仅以百分数作为实例而示出。对所有的输入指纹FA1至FA8执行这个过程。将这些识别结果提供给如图1所示的用于形成至少两个假定的装置14。用于形成至少两个假定的装置14被设计用于当用于提供识别结果的装置12提供了新的识别结果时启动新的假定。这能够从图3中看出：在时间Δt1处假定H1、 H2、H3分别随ID1、ID2和ID3而启动；在时间间隔Δt7中新的假定随ID108、ID109和ID1再次启动，并且在时间间隔Δt8中为ID8启动了假定H4，这是由于ID8在示出的例子中第一次出现。

因此用于形成至少两个假定的装置14操作用于针对每一个新的指纹，观察是否出现了新的识别结果以启动新的假定，并且当元素已经包括在早先已经启动的假定的“前三”或“前x”中时，在时间周期Δti中继续早先已经启动的假定(虽然具有较低的可能性)，为新启动的假定提供识别结果。这个过程持续一定时间。然后，例如在预定时间处或由用户触发等，用于检查假定的装置16将检查过去形成的假定，并且对于图3中示出的情况，将时间周期Δt1至Δt6的假定H1、H2、H3的可靠性测量相加。然后，用于检查至少两个假定的装置16将确定该段最可能是ID1(即在时间周期Δt1至Δt6中，假定H1是最可能的假定)，因为可靠性测量值达到了420，而第二假定的可靠性测量值仅达到了230，第三假定的可靠性测量值仅达到了135。

在图3中的情况下，所有三个假定在同一时间启动且所有三个假定在同一时间结束。然而这不是必需的。例如，假定H1可以结束得早些，例如在时间Δt5处。在这种情况下，ID1的可靠性测量将减少90，达到330。在这种情况下，结果是假定H1仍然是最可能的假定，虽然假定H2在较长的时间周期上出现，但总之具有较少的可能性。图3中所示的例子还示出了假定H1最终“获胜”，尽管在Δt1中假定H1比假定H2的可能性要小。

图3还示出了假定可以由于某些原因而具有“缺陷(hole)”，例如由于传输信道的干扰等，在时间间隔Δt4中仅给ID2和ID3而没有给ID1提供合理的可能性。在那种情况下，ID1的可靠性值将减少60，这样总的可靠性将是360而不是420，从而在这个情况中假定H1仍是最可能的假定。

因此，上述场景示出了：本发明的概念基于后处理，利用假定来进行工作，其一方面考虑序列，另一方面考虑独立的指纹识别处理的可靠性测量，关于传输错误、数据库中的有问题的功能性以及可能对于一些信息实体(例如音乐段、视频图像、文本等)并不如期望地那么不同的指纹来说，本发明的概念格外地鲁棒。

在优选实施例中，假定优选地是以存储列表的形式存储的协议(图3：H1、H2、H3、...)，一方面包括对其做出假定的信息实体的指示，另一方面包括对其做出假定的指纹和/或信息单元块的指示。优选地，协议还包含块和/或指纹的可靠性测量。

图3还示出了第一信息实体仅在时间周期Δt1至Δt6上延伸，新的信息实体从Δt7开始。具体地，这一点可以从以下事实看出：所有三个假定在同一时间结束和/或即使假定H3包括了Δt7，具有非常高的可能性(也就是具有可能性90和85的ID108和ID109)的完全不同的识别值出现了，并“取代”了先前时间周期的“明显的获胜者”。

在图3的末端，示出了可以作为示例给出的多种声明，即时间周期Δt1至Δt6中的信息实体是由ID1标识的音乐段。可选择地，声明也可以是信息实体在Δt6与Δt7之间发生变化。然而，可选择地，声明也可以是由ID1标识的音乐段被包含在信息信号中。

下一步，首先基于图9和10，结合本发明，对怎样有利地使用数据库系统进行更加一般地讨论。本发明基于识别音频材料(例如音乐)的系统。系统经历两个操作阶段。在图9所示的训练阶段，辨别系统学习(learn)了稍后将要进行识别的段。在图10所示的识别阶段，可以辨别先前训练的音频段。

为了识别音乐段或任意其它音频信号，从中提取出紧密的和唯一的数据组，该数据组也被称为指纹或签名。在块特征提取900中完成这个提取过程。在训练或学习阶段，根据一组己知的音频对象来产生这种指纹并将其存储在指纹数据库902中。优选地，特征提取装置900被设计用于使用SFM特征作为特征，其中SFM的含义是“频谱平滑度”。当然，也可以使用其它的指纹产生系统和/或特征提取结果。然而已经得知的是，音调相关联的特征(特别是SFM特征)一方面具有特别好的独特性，另一方面具有特别好的致密性。为此，首先将每一个块进行时间/频率变换，然后根据下面的等式，利用从时间/频率变换产生的值，计算块的SFM。

SFM = \frac{{[Π_{n = 0}^{N - 1} X (n)]}^{\frac{1}{N}}}{\frac{1}{N} Σ_{n = 0}^{N - 1} X (n)}

在这个等式中，X(n)表示具有索引n的频谱成分的绝对值的平方，其中N是频谱中频谱系数的总数。从等式中可以看出，SFM等于频谱成分的几何平均与频谱成分的算术平均的商。公知的是，几何平均总是小于或最大等于算术平均，因此SFM具有范围在0和1之间的值。在这个范围内，接近于0的值指示音调信号，接近于1的值指示具有平坦的频谱曲线的噪声状信号。要注意的是，算术平均和几何平均仅当X(n)相同时才相等，这对应于完全的无调的音乐(即噪声状或脉冲状信号)。然而，如果在极端的情况下仅有一个频谱成分具有非常高的值而其它频谱成分X(n)具有非常小的值，那么SFM将具有接近于0的值，指示很有音调的信号。

例如，在WO 03/007185中讨论了SFM概念和其它特征提取概念以产生指纹。

在图10所示的识别阶段，典型地也具有在训练阶段中出现的同一特征提取900。具体地，通过比较器904，将在时间周期Δt中在音频输入处从音频对象提取的指纹与指纹数据库902的参考指纹进行比较，其中比较器通常被包括于用于提供识别结果的装置12中，如图1所示。接下来，在基于特定标准检测到匹配的情况下，在时间周期Δt中获得辨别结果。如果因此基于特定标准检测到匹配，那么未知指纹和来自未知音频对象的部分可以与数据库中的参考材料(即具有多个可靠性值的识别结果IDi、IDi+1...的列表)相关联。

根据本发明，在输入处的未知音频对象不仅与参考数据库中一个参考音频对象正确地相关联(即仅在时间Δt中)，而且可以连续地操作而不中断输入处的数据流。根据本发明，执行了来自音频对象的多个部分与来自参考数据库的正确音频对象的相关联。因而获得了在输入处的已识别的音频对象的连续序列(即协议)。

下一步，图4a至5d示出了对连续的音频数据流进行连续的分析的特殊难点。必须将音频对象分为长度为Δtx的部分(即独立的块)，以便能够与数据库中音频数据流部分的参考元素进行相关联。独立的音频数据流部分的相关联并不总是不明确的(implicit)，并且仅当与前一个和后一个相关联结合时才变得不明确。如果做出了独立的相关联且仅在另一步骤中组合它们，那么结果是不完善的辨别协议，如下文所示。

图4a示出了音乐段XY的长版本，图4a中也用长指纹来表示，其中标识结果ID108与这个指纹相关联。图4b示出了同一音乐段XY的短版本。因此，ID109指示短版本的音乐段XY，而ID108指示长版本的这个音乐段。由于短版本比长版本要短，图4b中的指纹也比图4a中的指纹短。由于以上下放置的方式示出了两个块，音乐段与指纹ID108和ID109包含相同的音频材料和/或相同的指纹数据。因此ID109是ID108的子集。图4c示出了长版本在时间周期Δt0中具有开始部分，而该部分未出现在短版本中。在t1至t5之间的中间部分，长版本和短版本是相同的，而在时间t5和t7之间长版本还具有未在由ID109识别的短版本中出现的音乐部分。

接下来，将基于图5a至5d，对在简单组合(即没有假定形成)的情况下独立的识别怎样产生了不完善的识别协议做出说明。假设在时间t0处在系统的输入处接收到音乐段ID108。此外，设定数据库操作用于在时间周期Δtx中识别图5a中示出的元素。要注意的是，虽然可以在时间周期Δt1至Δt4中输出ID108和ID109，图5a中的识别基本上是正确的。最后，这些区域中的识别结果的确定是不明确的，因为数据库在没有干扰时将输出ID108和ID109，并且由于计算的差异，通常将选择最可能的值，从而由于某些噪声，两个识别结果ID108和ID109中的一个将总是具有稍微高的可靠性测量。在图5b所示的辨别协议中，因为未在任何时间播放由ID109标识的段而只是播放了由ID108标识的段，所以造成了错误的识别。

接下来，图5c和5d示出了另一个选择。假定数据库输出图5c所示的情况。在辨别协议中，再次给出了错误的组合，即ID109出现在T1和T5之间，而这当然是错误的。而是，从t0至t7播放了长版本的音乐段(即ID108)。

另外，可以想到其它的错误的辨别协议，在时间周期Δtx中，音频数据流部分的独立辨别的不明确可能产生这些错误的辨别协议。

根据本发明，现在进入图6所示的主要概念，其中在时间周期Δtx中获得的辨别结果(即图1中的装置12的输出信号，取决于实施方式，该装置12可以将装置900、904和902相结合)经过后处理，这个后处理实质上对应于图1中用于形成至少两个假设的装置和用于检查假设的装置。然后使用后处理(即使用在后处理中获得的检查结果)，以辨别序列和/或辨别协议的形式做出关于信息信号的声明。

在后处理阶段，假设从时间周期Δtx的己识别参考音频对象到时间周期Δtx+1的任意其它参考音频对象的转变的可能性是相等的。根据这个假设，针对独立辨别的连续音频部分，形成了首先同时考虑的多个假定。要注意的是，当独立的辨别与同一个参考音频信号相关联且在时间上连续地相连时，组合独立的辨别以形成假定。由考虑了时间上的进程的各个最可能的假定的组合产生了辨别协议。下面，详细说明优选的算法。

首先，根据每一个已辨别的参考音频对象的时间周期Δtx(其中x＝N、N+1、N+2、...；其中t_N是各个假定的开始时间)的独立辨别，来形成连续音频部分的多个假定。

如果独立的识别以连续的方式在时间上连续，那么将独立的辨别进行组合以形成假定。

时间连续性是用于确定是否连续已经存在的假定或启动新的假定的另一个元素。例如考虑以下场景，即段中的某一吉他独奏在段的短版本中位于段的开始处，而在段的长版本中位于段的中间处。

在优选实施例中，数据库(即用于提供识别结果的装置)不仅输出指纹识别，还输出时间值，该时间值由数据库中具有长度的识别指纹和仅与数据库中部分(长)指纹匹配的输入(短)指纹产生。

在上述场景中，数据库可能给吉他独奏(短版本和长版本)提供两个ID结果，但是具有两个不同的时间索引。短版本的ID结果的时间索引小于长版本的时间索引。基于时间索引，用于形成假定的装置能够继续假定(如果在时间索引和假定中的最后时间索引之间存在时间连续性)或开始新的假定(如果当前获得的时间索引和假定的最后时间索引中没有连续性)。

如果后继元素具有比设置的时间距离Ta更大的时间距离，或者后继元素在时间上在前一元素之前，那么关于参考音频对象的每一次时间间断会产生新的假定。

对于假定检查，对于每一个假定，进行独立辨别的置信度测量(即可靠性值和/或真实性测量)的相加。

在时间周期Δt0处开始，具有最高置信度测量的假定被估计是正确的，并在辨别协议中被采纳。对于跟随第一假定的下一个时间周期，具有最高置信度测量的假定再一次被估计是正确的，并在辨别协议中被采纳。

对于上面的例子，结果是图7a至7c所示的过程。对于时间周期Δt0，例如图2所示的数据库仅提供一个识别结果，即具有高于阈值的可能性和/或可靠性测量的ID108。在时间间隔Δt1中(即对于在时间间隔Δt1上延伸的信息单元块)，数据库提供两个具有高于阈值的可靠性测量的结果。对于在时间t2至t5之间的块，同样获得两个结果。对于时间周期t5至t7，数据库再次仅提供有高于阈值的可靠性测量的单个识别结果。

用于形成至少两个假定的装置14(图1)被设计用于基于识别结果ID108，在时间t0启动第一假定，并且基于新的识别结果ID109，在时间t1启动新的假定(即第二假定)。

在时间t7之后的一段时间，考虑图7a所示具有假定H1和H2的假定情况，基于假定检查，计算每一个假定的独立辨别的置信度测量(即X_H1和X_H2)的函数，如图7b所示。

假设在t1与t5之间识别结果ID108与ID109具有相同的可能性，那么在图7a所示的实施例中只有第一假定H1将获胜，这是因为虽然在t1和t5之间假定H1与假定H2相同，假定H1应用于时间周期Δt0、时间周期Δt1和时间周期Δt6中，即H1为独立辨别提供了可靠性测量，而H2没有。对于辨别协议，这意味着图7c所示的正确的情况，即在时间t0至t7中播放由ID108指定的段。

因此在t0开始，选择了假定H1，因为直到t7为止都没有出现具有较高置信度测量的假定。舍弃了假定H2，其中，原则上在已经选择了作为最可能的一个假定后，可以舍弃与被选择的假定同时存在的所有假定。

根据本发明，正确地记录了序列，在这个例子中，在音频输入处实际播放了元素ID108。

要注意的是，在确定假定的末端时存在多种可能性。例如，与假定的情况无关，如果出现具有某一最小长度的暂停，那么可以从音频信号自身来确定信息实体的末端。然而，如果在两个信息实体之间存在衰落或是两个段彼此很快地跟随以致没有发现明显的暂停，那么这个标准将不起作用，因此优选地，基于过去考虑的假定来确定信息实体的末端。例如，当不再具有带有高于某一最小阈值的可靠性值的任何识别结果的两个或多个块被提供给用于形成假定的装置14时，认为假定已经结束。可选择地，例如对于图3所示的情况，可以简单地对过去的预定数目的块的假定的值进行相加，以便在末端处，即在例如20块的特定数目的块之后，查看对于特定块，哪一些假定具有最高的值，因此得以幸存并“超过”其它假定。在图3所示的例子中，这意味着信息实体是ID1或ID2或ID3的假定在时间周期Δt7和Δt8还将持续，然而其中，在ID1的辨别中将不会有任何改变，因为新的假定(即ID108、ID109、ID4和ID8的假定)实质上仅在后面启动(即对于Δt7和Δt8或上面的块)，因此仅在很晚实现或根本没有实现这样高的组合的可靠性值。

上述讨论表明不需要主动地确定假定的结束，假定的结束可以自动地从对过去(即已开始的假定)的分析中得到。优选地，一旦具有高于有效阈值的可靠性测量的新的识别结果出现，就启动新的假定，其中在某一时间对过去的假定进行检查以查看哪个假定存在了某一时间周期，其中不需要为此目的而明确地确定假定的结束，因为它是一个自动的结果。

取决于环境，本发明的方法可以以硬件或软件来实施。本发明可以在数字存储介质上实现，特别是具有可以电学地被读出的控制信号的软盘或CD，它们可以与可编程计算机系统协作，从而执行本发明的方法。通常，本发明也可以是具有存储在机器可读载体上的程序代码的计算机程序产品，当计算机程序产品在计算机上运行时，可以执行本发明的方法。换句话说，本发明可以实现为具有程序代码的计算机程序，当计算机程序运行在计算机上时，该程序代码用于执行本发明的方法。

Claims

1.用于分析具有信息单元(804)块序列(802)的信息信号的设备，其中，块序列的多个连续块使用块序列的指纹序列(FAi)，表示信息实体(806)，从而块序列由指纹序列表示，所述设备包括：

用于提供连续指纹的识别结果(IDi)的装置(12)，其中，识别结果表示信息单元块与预定信息实体的相关联，以及其中，存在每一个识别结果的可靠性测量，其中提供装置(12)被设计用于产生第一指纹的第一识别结果，以及针对随后的块，产生不同于第一识别结果的第二识别结果；

用于根据连续指纹的识别结果来形成至少两个假定的装置(14)，其中，第一假定是块序列与第一信息实体相关联的假设，第二假定是块序列与第二信息实体相关联的假设，其中，形成装置(14)被设计用于响应第一识别结果，启动第一假定或继续已经存在的第一假定，以及响应第二识别结果，启动第二假定或继续已经存在的第二假定；

用于通过组合假定的可靠性测量来检查所述至少两个假定以获得检查结果(18)的装置(16)；以及

用于基于检查结果来做出关于信息信号的声明的装置(20)。

2.根据权利要求1所述的设备，其中，检查装置(16)被设计用于关于施加到假定上的可能性信息来检查假定。

3.根据权利要求1或2所述的设备，其中，用于做出声明的装置(20)被设计用于确定：块序列表示具有最可能的假定的信息实体，或者信息实体以提供最可能的假定的指纹结束，作为指纹序列的最后一个指纹，或者信息实体是否出现在信息信号中。

4.根据权利要求1所述的设备，其中，提供装置(12)被设计用于产生指纹的两个不同的识别结果。

5.根据权利要求4所述的设备，其中，提供装置(12)被设计用于产生两个不同识别结果中每一个的可靠性测量。

6.根据权利要求4所述的设备，其中，形成装置(14)被设计用于将两个识别结果中的第一个与第一假定相关联，并且将两个识别结果中的第二个与第二假定相关联。

7.根据权利要求3所述的设备，其中，检查装置(16)被设计用于确定具有较高的组合可靠性测量的假定。

8.根据权利要求1所述的设备，其中，形成装置(14)被设计用于当预定数目的块既未获得指示第一信息实体的识别结果也未获得指示第二信息实体的识别结果时，结束第一或第二假定。

9.根据权利要求1所述的设备，其中，形成装置(14)被设计用于当检测到的事件出现在信息信号中时，结束第一或第二假定。

10.根据权利要求9所述的设备，其中，存在事件检测器，所述事件检测器被设计用于检测信息单元块中的能量等级低于阈值等级作为事件。

11.根据权利要求1所述的设备，其中，提供装置(12)被设计用于仅输出最可靠的识别结果，带有或不带有每一个指纹的可靠性测量；输出预定数目的最可靠的指纹，每一个都带有或不带有指纹的可靠性测量；或者仅输出具有高于阈值的可靠性测量的识别结果，带有或不带有指纹的可靠性测量。

12.根据权利要求1所述的设备，其中，检查装置(16)被设计用于将属于假定的明确的或不明确的可靠性测量相加，以获得组合的可靠性测量。

13.根据权利要求1所述的设备，其中，提供装置(12)被设计

用于利用指纹在数据库中执行搜索，数据库中存储有参考信息实体的指纹，以及

用于提供多个识别结果以及每一个识别结果的距离测量，作为每一个识别结果的可靠性测量的指示。

14.根据权利要求13所述的设备，其中，提供装置(12)被设计用于当识别结果的距离测量与阈值的关系指示出距离小于阈值距离时，针对尚不存在假定的每一个识别结果，启动新的假定。

15.根据权利要求1所述的设备，其中，检查装置(16)被设计用于响应于决定，结束所有连续指纹的假定，这些假定是为由最可能的假定所包含的指纹而形成的。

16.根据权利要求1所述的设备，其中，信息信号包括音频信号，其中信息单元是时域或频域中的音频采样，并且信息实体包括音乐段、话语序列或噪声部分。

17.根据权利要求1所述的设备，其中，由时间/频率转换和/或时间/频率转换的结果的频谱平滑度的计算来确定块的指纹。

18.根据权利要求1所述的设备，其中，产生块的指纹，从而指纹具有小于块的数据量的数据量。

19.根据权利要求1所述的设备，

其中，用于提供识别结果的装置(12)被设计用于除了识别结果外还提供识别结果的新的时间索引，以及

其中，用于形成假定的装置(14)被设计用于如果在假定中的当前时间索引与新的时间索引之间存在连续性则继续假定，或者如果没有连续性则启动假定。

20.用于分析具有信息单元(804)块序列(802)的信息信号的方法，其中，块序列的多个连续块使用块序列的指纹序列(FAi)，表示信息实体(806)，从而块序列由指纹序列表示，所述方法包括：

提供(12)连续指纹的识别结果(IDi)，其中，识别结果表示信息单元块与预定信息实体的相关联，其中存在每一个识别结果的可靠性测量，其中在提供步骤(12)中，产生第一指纹的第一识别结果，并且针对随后的块，产生不同于第一识别结果的第二识别结果；

根据连续指纹的识别结果，形成(14)至少两个假定，其中第一假定是块序列与第一信息实体相关联的假设，第二假定是块序列与第二信息实体相关联的假设，其中形成步骤(14)包括：

响应于第一识别结果，启动第一假定或继续已经存在的第一

假定；响应于第二识别结果，启动第二假定或继续已经存在的第二假定；

通过组合假定的可靠性测量来检查(16)所述至少两个假定，以获得检查结果(18)；以及

基于检查结果，做出(20)关于信息信号的声明。