CN101971249A - 用于计算音频信号的指纹、用于同步、以及用于表征测试音频信号的装置和方法 - Google Patents

用于计算音频信号的指纹、用于同步、以及用于表征测试音频信号的装置和方法 Download PDF

Info

Publication number
CN101971249A
CN101971249A CN2009801053183A CN200980105318A CN101971249A CN 101971249 A CN101971249 A CN 101971249A CN 2009801053183 A CN2009801053183 A CN 2009801053183A CN 200980105318 A CN200980105318 A CN 200980105318A CN 101971249 A CN101971249 A CN 101971249A
Authority
CN
China
Prior art keywords
fingerprint
value
sound signal
sequence
piece
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009801053183A
Other languages
English (en)
Other versions
CN101971249B (zh
Inventor
塞巴斯蒂安·沙雷
沃尔夫冈·菲泽尔
马提亚斯·诺伊辛格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN101971249A publication Critical patent/CN101971249A/zh
Application granted granted Critical
Publication of CN101971249B publication Critical patent/CN101971249B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

为了计算音频信号的指纹,把音频信号划分(104a)成连续采样块。对于该连续块,计算(104b)每一个块的一个指纹值,其中比较(806)连续块的指纹采样。基于一个块的指纹值是否大于随后块的指纹值,分配二进制值,其中,关于二进制值序列的信息作为该音频信号的指纹输出(104c)。

Description

用于计算音频信号的指纹、用于同步、以及用于表征测试音频信号的装置和方法
技术领域
本发明涉及音频信号的指纹技术,并且尤其涉及使用用于同步多声道扩展数据与音频信号的指纹来计算指纹,并利用该指纹表征音频信号。
背景技术
目前开发的技术通过减少数据来实现比以往更加有效率的音频信号传输,而且还通过扩展,例如通过使用多声道技术的扩展提高了音频享受。
关于常见传输技术的这种扩展的例子已经被熟知的是“双耳线索编码”(BCC)以及“空间音频编码”。关于此内容,作为例子可以参考J.Herre,C.Faller,S.Disch,C.Ertel,J.Hilpet,A.Hoelzer,K.Linzmeier,C.Spenger,P.Kroon:“Spatial Audio Coding:Next-Generation Efficient and Compatibel Coding Oberflache Multi-Channel Audio”,117th AES Convertion,San Francisco 2004,Preprint 6186。
在连续操作的传输系统中,例如在无线电或互联网中,该方法把所要发送的音频节目分成可以是单声道或者立体声缩混音频信号的音频基本数据或音频信号,以及可以被称为多声道附加信息或多声道扩展数据的扩展数据。多声道扩展数据可以与音频信号一起广播,即以组合方式,或者该多声道扩展数据也可以与音频信号分开广播。作为广播无线电节目的可替代方式,还可以单独将该多声道扩展数据传输到例如用户侧现在已有的缩混声道版本。在这种情况下,音频信号的传输,例如以因特网下载或者购买压缩盘或DVD的形式,在空间和时间上与多声道扩展数据的传输分开进行,其中多声道扩展数据例如可以由多声道扩展数据服务器提供。
基本上,把多声道音频信号分成音频信号和多声道扩展数据具有以下优点。“传统”接收器能够独立于多声道附加数据的内容和版本,在任意时间接收并重放音频基本数据,即,音频信号。该特性被称为逆兼容性。除此之外,较新一代的接收器还可以评估所发送的多声道附加信息,并以可以将完整扩展即多声道声音提供到用户的方式,将多声道附加信息与音频基本数据即音频信号组合起来。
在数字无线电中的示例性应用方案中,借助于这些多声道扩展数据,先前广播的立体声音频信号可以被扩展为多声道格式5.1,而几乎没有额外传输影响。该多声道格式5.1包括5个重放声道,即,左声道L、右声道R、中央声道C、左后声道LS(左环绕)以及右后声道RS(右环绕)。为此,节目提供者在发射器侧从多声道声音源中产生多声道附加信息,例如所述多声道声音源来自于DVD/音频/视频。随后,可以与先前广播的音频立体声信号并行地发送该多声道附加信息,所述音频立体声信号现在包括多声道信号的立体声缩混。
该方法的一个优点是与目前现有的数字无线电传输系统的兼容性。无法对该附加信息评估的传统接收器将能够如之前那样接收并重放双声道声音信号,而没有关于质量的任何限制。
然而,除了目前所接收的立体声声音信号之外,新设计的接收器还可以对多声道信息进行评估和解码,并据此重建原始的5.1多声道信号。
为了允许同时传输作为目前使用的立体声声音信号的补充的多声道附加信息,可以有两种通过数字无线电系统进行兼容广播的方案。
第一种方案是将多声道附加信息与编码后的混缩音频信号进行组合,从而它们可以作为合适和兼容的扩展,被加入到由音频编码器产生的数据流中。在这种情况下,接收器仅仅看到一个(有效的)音频数据流,并且可以再次与相关联的音频数据块同步地,通过相应的前置数据分配器提取并解码多声道附加信息,并将其作为5.1多声道声音输出。
该方案需要现有基础结构/数据路径的扩展,从而使它们现在可以传输包括混缩信号和扩展的数据信号,而不像先前那样仅仅传输立体声音频信号。例如当这是数据减少的示例,即传输混缩信号的比特流时,这是可行的,没有额外的影响,也不存在问题。随后,可以把用于扩展信息的字段插入到该比特流中。
第二种可行的方案是不把多声道附加信息耦合到所使用的音频编码系统中。在这种情况下,多声道扩展数据并不被耦合到实际的音频数据流中。而是,通过特定的但不一定时间同步的附加声道来进行传输,其中该附加声道例如可以是并行的数字附加声道。这种情况例如发生在以未减少的格式,例如作为每AES/EBU数据的PCM数据的格式,通过演播室中现有的普通音频分配基础结构来路由混缩信号即音频信号的时候。这些基础结构的目的是在各种源之间数字地分配音频信号(“交叉切换(Crossbar)”),和/或通过声音调整、动态压缩等处理该音频信号。
在上述第二种可行方案中,可能发生在接收器中混缩音频信号和多声道附加信息之间的时间偏差的问题,这是由于两种信号经过不同的、非同步的数据路径。然而,混缩信号和附加信息之间的时间偏差造成重建的多声道信号的声音质量的恶化,因为随后将在重放侧处理具有多声道扩展数据的音频信号,而该多声道扩展数据实际上并不属于当前音频信号,而是属于该音频信号的之前或之后的部分或者块。
由于无法再从所接收的音频信号和附加信息中来确定时间偏差的数量级,因此无法确保在接收器中的多声道信号的时间校正重建和关联,这导致了质量降低。
这种情况的另一例子是当要将已经运行的双声道传输系统扩展为多声道传输的时候,例如当考虑用于数字无线电的接收器的时候。这里,通常是这样一种情况,通过接收器中现在已有的音频解码器频繁执行混缩信号的解码,该解码器例如表示依照MPEG 4标准的立体声音频解码器。由于音频信号的系统固有数据压缩,该音频解码器的延迟时间并不总是已知的,或者不能总是被准确预测。因此不能可靠地补偿该音频解码器的延迟时间。
在极端的情况下,音频信号还可以通过包括模拟部分的传输链,到达多声道音频解码器。这里,在传输中的特定点发生数字/模拟转换,在进一步的存储/传输之后,其后再次发生模拟/数字转换。这里,也没有可用的关于如何能够执行与多声道附加数据相关的混缩信号的合适延迟补偿的指示。当模拟/数字转换和数字/模拟转换的采样频率稍微不同时,根据这两个采样速率彼此之间的比值,甚至会产生必要补偿延迟的缓慢时间偏移。
德国专利DE 10 2004 046 746 B4公开了一种用于同步附加数据和基本数据的方法和装置。用户基于他的立体声数据而提供指纹。扩展数据服务器基于获得的指纹识别该立体声信号,并且访问数据库以检索该立体声信号的扩展数据。特别是,服务器识别与用户处现有的立体声信号对应的理想立体声信号,并且产生属于扩展数据的理想立体声信号的两个测试指纹。然后,这两个测试指纹被提供到客户端,客户端据此确定压缩/扩展因数以及参考偏差,其中,基于该参考偏差,在开始或结束处扩展/压缩以及关闭附加声道。由此,可以通过使用基本数据和扩展数据产生多声道文件。
通常来讲,指纹技术必须是音频信号所特有的。另一方面,指纹还应当是音频信号的同等的高度压缩的表示。这意味着与音频信号自身相比,指纹可以消耗显著更少的存储空间,因为否则的话生成指纹和使用指纹将是无用的。
另一方面,指纹应当再现音频信号的曲线,以便一方面适用于同步的目的,而另一方面也适用于识别的目的。特别是,对于识别或表征的目的,经常存在这样的情形,音频信号,例如无线电传输并不完全重放音频片段,而是在该片段中的特定时间开始传输,并且甚至可能在片段结束之前停止传输。然而,由于指纹产生可以被看作是特定的有损压缩,因此指纹不必是可解压缩的。
由于指纹信息是附加信息,如上所述,其应当是尽可能压缩但仍然是表示特性的表示法。压缩表示法的另一优点是该表示被压缩的越厉害,则可以越快越容易地处理任何相关,即,其中涉及例如用于同步或表征音频信号的指纹的计算方法。
发明内容
本发明的目的是提供有效的指纹概念。
通过依照权利要求1的用于计算音频信号指纹的装置、依照权利要求15的用于计算音频信号指纹的方法、依照权利要求11的用于同步的装置、依照权利要求16的用于同步的方法、依照权利要求14的用于表征测试音频信号的装置或者依照权利要求17的用于表征测试音频信号的方法、或者依照权利要求18的计算机程序来解决该目的。
本发明基于这样一种知识,通过对音频信号进行块处理来获得良好压缩后的指纹,即,从音频信号的每个块中获得一个指纹值。此外,已经发现逐块获得的该指纹值的轮廓是音频信号的表征。因此,从差分编码的意义上来讲,为连续块执行连续指纹值比较,从而仅仅二进制地表征该变化。如果第一指纹值高于第二指纹值,则分配第一个二进制值,而如果第二指纹值高于第一指纹值,则将分配另一第二个二进制值。作为音频信号的指纹输出该二进制值的序列。优选的,仅仅通过一个单个比特来量化该变化。通过该1比特量化,仅仅向音频信号的每个块提供单一比特的指纹信息,并且音频信号是通过简单比特序列表示的,通过该比特序列,可以执行与相应测试比特序列的快速、有效、和令人惊讶的精确相关。
音频信号具有其特性在块与块之间并不改变太多的属性,因此并不是绝对需要指纹值的完全量化,例如8比特量化或16比特量化。此外,音频信号具有指纹值从一个块到下一块的改变非常能表达该音频信号的属性。通过优选的1比特量化,从一个块到下一块的这种改变被强烈地强调。以这样的方式,音频信号尤其具有指纹值从一个块到下一块并不改变太多的特性。然而,通常被该创造性的1比特量化有效利用的、对于指纹处理目的尤其需要的音频信号的表征信息被嵌入到该微小改变内。
特别是,当指纹值是依赖于能量的或依赖于功率的值,从一个块到下一块的改变相对较小,其中,然而,尤其当在小于5000个采样、特别是小于200个采样和具有超过500采样的块的范围内形成块时,从一个块到下一块的依赖于能量或依赖于功率的值的变化尤其是音频信号的表征。
可以以特别喜好的方式将该创造性的指纹用于多声道扩展数据和音频信号的同步,其中通过基于块的指纹技术有效并可靠地获得同步。
已经发现逐块计算的指纹表示音频信号的较好和有效的特性。然而,为了使音频信号达到小于一个块长度的级别,优选的提供具有在同步期间检测并且可以用于指纹计算的块划分信息的音频信号。
优选的是,音频信号包括可以在同步时间使用的块划分信息。从而,确保了在同步期间从音频信号中获得的指纹是基于与多声道扩展数据相关联的音频信号的指纹相同的块划分或块栅格化。特备是,该多声道扩展数据包括参考音频信号指纹信息序列。该参考音频信号指纹信息提供了再多声道扩展流中所固有的、在多声道扩展数据块和多声道扩展数据所属的音频信号部分或块之间的关联性。
为了同步,从多声道扩展数据中提取参考音频信号指纹,并且将其与同步器所计算的测试音频信号指纹执行相关。相关器仅仅需要实现块相关,这是因为,由于使用块划分信息,所以两个指纹序列所基于的块栅格化已经是相同的。
从而,尽管指纹序列仅仅需要在块级别上相关,然而几乎可以获得多声道扩展数据与音频信号的采样精确同步。
在音频信号中包括的块划分信息可以称为明确边信息,例如在音频信号的报头中。可替代的,即使当存在数字的但是未压缩的传输时,该块划分信息也可以被包括在采样中,该采样例如可以是被形成用于计算在多声道扩展数据中包含的参考音频信号指纹的块的第一采样。可替代的或者额外附加的,块划分信息还可以被直接引入到音频信号自身中,例如通过水印嵌入。伪噪声序列尤其适用于此,然而,可以使用水印嵌入的不同方式把块划分信息引入到音频信号中。这种水印实现方式的一个优点是任何模拟/数字或数字/模拟转换都不是决定性的。此外,存在对数据压缩具有强壮性的水印,该水印甚至可以承受压缩/解压缩乃至串联(tandem)/编码级,并且可以用作同步目的的可靠块划分信息。
除此之外,还优选的是,逐块地把参考音频信号指纹直接嵌入到多声道扩展数据的数据流中。在该实施例中,通过使用具有与多声道扩展数据分开存储的数据指纹的指纹,来获得合适的时间偏差。代之以,对于多声道扩展数据的每一块,该指纹被嵌入在该块自身中。然而,可替代的,参考音频信号指纹信息可以与从单独的源中发起的多声道扩展数据相关联。
附图说明
下面将参考相应的附图详细讨论本发明的优选实施例。其中:
图1是依照本发明的实施例的用于处理音频信号以提供具有多声道扩展数据的同步输出信号的装置的框图;
图2是图1中指纹计算器的详细示意图;
图3a是依照本发明的实施例的用于同步的装置的框图;
图3b是图3a中的补偿器的详细示图;
图4a是具有块划分信息的音频信号的示意图;
图4b是具有块方式嵌入的指纹的多声道扩展数据的示意图;
图5是用于产生具有水印的音频信号的水印嵌入器的示意图;
图6是用于提取块划分信息的水印提取器的示意图;
图7是对例如测试块划分中的30个块执行相关后的结果示意图;
图8是示出差值指纹计算可选方案的流程图;
图9是具有用于处理的创造性装置的多声道编码器方案;
图10是具有创造性同步器的多声道解码器方案;
图11a是图9中的多声道扩展数据计算器的详细示图;以及
图11b是可以由图11a所示的结构产生的具有多声道扩展数据的块的详细示图。
具体实施方式
图1显示了用于处理音频信号的装置的示意图,其中以100示出具有块划分信息的音频信号,而以102示出的音频信号可以不包括块划分信息。图1的用于处理音频信号的装置可以用在编码器方案中,该编码器方案将参考图9详细描述,该用于处理音频信号的装置包括指纹计算器104,用于为多个连续块计算对于音频信号的每个块的一个指纹,以获得参考音频信号指纹信息序列。指纹计算器被实现为使用预定的块划分信息106。例如,可以通过块检测器108,从具有块划分信息的音频信号100中检测该预定的块划分信息106。一旦已经检测到该块划分信息106,指纹计算器104能从音频信号100中计算该参考指纹序列。
如果指纹计算器104获得不具有块划分信息的音频信号102,则指纹计算器将选择任一块划分,并首先执行块划分。通过块划分信息110向块划分信息嵌入器112发出信号以通知该块划分,该块划分信息嵌入器112被实现为把块划分信息110嵌入到不具有块划分信息的音频信号102中。在输出侧,块划分信息嵌入器提供具有块划分信息的音频信号114,其中该音频信号可以通过输出接口116输出,或者可以通过与通过输出接口116的输出独立的不同路径单独存储或输出,例如通过以118示出的路径。
指纹计算器104被实现为计算参考音频信号指纹信息序列120。该参考音频信号指纹信息序列被提供到指纹信息嵌入器122。指纹信息嵌入器把参考音频信号指纹信息120嵌入到多声道扩展数据124中,其中多声道扩展数据124可以被单独提供,或者可以通过多声道扩展数据计算器126直接计算,多声道扩展数据计算器126在输入侧接收多声道音频信号128。在输出侧,指纹信息嵌入器122提供具有相关参考音频信号指纹信息的多声道扩展数据,其中这些数据被标识为130。指纹信息嵌入器122被实现为直接把参考音频信号指纹信息嵌入到多声道扩展数据中,比如在块级别上。可替代地或者可额外附加地,指纹信息嵌入器122还基于与多声道扩展数据块的关联性,存储或提供参考音频信号指纹信息序列,其中该多声道扩展数据块与音频信号块一起表示多声道音频信号的较好近似值,或多声道音频信号128。
输出接口116被实现为输出一输出信号132,该输出信号132包括具有唯一关联性的参考音频信号指纹信息序列和多声道扩展数据,比如在嵌入的数据流内。可替代地,输出信号还可以是不具有参考音频信号指纹信息的多声道扩展数据块序列。然后在单独的指纹信息序列中提供指纹信息,其中,例如通过块序列号把每个指纹“连接”到多声道扩展数据块。还可以提供指纹数据与块的可替代的关联性,例如通过序列的暗示性信号通知。
此外,输出信号132还可以包括具有块划分信息的音频信号。在应用的特定情况中,例如在广播中,具有块划分信息的音频信号沿着单独路径118行进。
图2显示了指纹计算器104的详细示意图。在图2所示的实施例中,指纹计算器104包括块形成装置104a、下行流指纹计算器104b以及指纹后置处理器104c,以提供参考音频信号指纹信息序列120。块形成装置104a被实现为当其实际执行第一块形成时,将提供用于存储/嵌入110的块划分信息。然而,如果音频信号已经具有块划分信息,则块形成装置104a可被控制为依据所述预定的块划分信息106执行块形成。
独立于块划分信息的使用,通过例如如图2所示的用于计算音频信号的指纹的装置,来获得特别好的、特性的、并且有效的指纹。块形成装置104表示用于把音频信号划分成连续采样块的装置。此外,指纹值计算104b有效用作计算连续块中第一块的第一指纹值以及连续块中第二块的第二指纹值的装置。
图3a中的指纹相关器312表示用于比较的装置,如图8中的806所示意,其中将第一指纹值与第二指纹值进行比较。用于比较的装置806的优选实现方式包含差值形成,如将根据图8所描述的,然后,基于差值结果的符号,可以确定第一指纹值大于还是小于第二指纹值。
依照本发明,图2中的指纹后置处理器104c被实现为优选执行1比特量化814,或者一般而言,用于当第一指纹值大于第二指纹值时,分配第一个二进制值,或者当第一指纹值小于第二指纹值时,分配不同的第二个二进制值。
最后,用于计算指纹的创造性装置包括用于把关于二进制值序列的信息作为音频信号的指纹输出的装置,其中该装置例如可以以图1中的输出接口116的形式来实现,或者可以作为任何其它数据流或比特流写入器来操作。
优选的,这两个二进制值,即所述第一个二进制值和第二个二进制值互补。在图8所示的优选的1比特量化例子(块108,114)中,所述第一个二进制值例如是0或1,而所述第二个二进制值也是0或1,其中所述第二值与第一值互补。优选的,执行1比特量化,其中为音频信号的每个块精确产生1个比特。
然后,通过块814产生的比特序列成为测试指纹或参考指纹。
图2中的块划分装置104a被实现为形成交叠的连续相邻块,或者形成交叠(例如具有50%交叠)的块。此外,块形成装置104a被实现为向音频信号块提供具有至少500个采样或者更多并且其长度优选小于5000个采样的时间采样。特别优选的,使用在1000至2500个采样之间的范围内的块,其中尤其当使用基于频率的测量进行指纹值计算时,例如,优选为1024个采样或2048个采样。选择越长的块,则每个音频信号的指纹信息所需的比特越少。然而,增加块长度,会降低指纹的意义,这就是为什么优选上述块长度,块长度可能与例如44.1KHz的音频采样频率有关,然而,只要一个块包括大约10ms到大约100ms的音频信号的时间周期,则关于不同采样率的各个块长度也能提供合理的结果。
如已经基于图3所描述的,创造性的指纹优选可以用于同步,其中在没有块划分信息的情况下已经获得了在一个块长度的数量级上的准确性,其可以通过增加块划分信息把准确性提高到一个采样的范围。在块准确同步足够的应用中,在不具有块划分信息的情况下已经能够获得满意的结果。而且,对于表征或标识音频信号的指纹应用,并不一定非得获得测试指纹和参考指纹之间的采样准确同步。
在本发明的一个实施例中,如图4a所示,向音频信号提供水印。特别是,图4a显示了具有采样序列的音频信号,其中示意地示出块划分为块i、i+1、i+2。然而,即使在图4a所示的实施例中,音频信号自身并不包括这样一种明确的块划分。而是,将水印400嵌入在音频信号中,从而每个音频采样包括水印的一部分。对于采样402,在404自动表示水印的该部分。特别是,嵌入水印400,从而可以基于水印来检测块结构。为此,水印例如是已知的周期性的伪噪声序列,如图5的500所示。这种已知的伪噪声序列具有等于块长度或者大于块长度的周期长度,然而,优选的是,周期长度等于块长度,或者在块长度的数量级上。
关于水印嵌入,首先如图5所示,执行音频信号的块形成502。然而,通过时间/频率转换器504把音频信号块转换到频域。相似的,通过时间/频率转换器506把已知伪噪声序列500变换到频域。之后,心理声学模块508计算音频信号块的心理声学遮蔽阈值,其中如心理声学中已知的,当波段的信号能量低于该波段的遮蔽阈值的值时,则在音频信号中遮蔽该波段中的信号,即,该波段中的信号是听不到的。基于该信息,对伪噪声序列的频谱图执行频谱加权510。然后,在组合器512之前,频谱加权后的伪噪声序列具有如下频谱,该频谱具有对应于心理学遮蔽阈值的轮廓。然后在组合器512中逐个频谱值地对该信号与音频信号的频谱进行组合。因此,在组合器512的输出端,存在具有引入的水印的音频信号块,不过其中水印被音频信号遮蔽。通过频率/时间转换器514,音频信号块被转换回时域,并且存在图4a中所示的音频信号,不过该信号现在具有显示块划分信息的水印。
应当注意,存在多种不同的水印嵌入策略。因此,例如可以通过时域的双重操作执行频谱加权510,从而时间/频率转换器506并不是必须的。
此外,在与音频信号组合之前,频谱加权后的水印也可以被变换到时域,从而组合512发生在时域,其中在这种情况下,只要可以在不变换的情况下计算遮蔽阈值,时间/频率转换器504并不是绝对需要的。明显的,还可以执行与音频信号或者音频信号的变换长度独立使用的遮蔽阈值的计算。
优选的是,所述已知的伪噪声序列的长度等于一个块的长度。然后,用于水印提取的相关性可以尤其有效并且清楚地起到作用。然而,只要伪噪声序列的周期长度等于或大于块长度,可以使用更长的伪噪声序列。此外,可以使用不具有白谱的水印,这仅仅实现为在特定频段,例如较低频谱段或者在中心频谱段包括频谱部分。从而,可以进行控制,例如通过在MPEG 4标准中已知的在数据速率节省传输中的“频谱段复制”技术,例如不仅仅在已被消除或参数化的上部波段中引入水印。
关于使用水印的可替代方式,例如也可以当存在数字声道的时候执行块划分,其中可以标记图4中的音频信号的每个块,从而例如块的第一个采样值获得标记。可替代的,例如,可以在音频信号的报头中提示块划分,其用于计算指纹,并且还用于根据原始多声道音频声道计算多声道扩展数据。
为了举例说明计算多声道扩展数据的方案,下面参考图9。图9显示了编码器一侧的方案,其用于降低多声道音频信号的数据速率。示例性地示出了5.1方案,然而可以使用7.1,3.0或者其他方案。对于同样已知的空间音频对象编码,使用了图9所示的基本二进制结构,在这种空间音频对象编码中,对音频对象编码而不是对音频声道编码,并且多声道扩展数据实际上是能够用于重建对象的数据。具有多个音频声道或音频对象的多声道音频信号被提供到混缩器900以提供混缩音频信号,其中音频信号例如是单声道混缩或者立体声混缩。此外,在各个多声道扩展数据计算器902中执行多声道扩展数据计算。这是,例如依照BCC技术或者依照在MPEG环境中已知的标准,计算多声道扩展数据。还可以在音频信号102中发生音频对象的扩展数据计算,其也被称为多声道扩展数据。图1所示的用于处理音频信号的装置是已知的两个块900、902的下行流,其中依照图1,图9所示的用于处理的装置904例如接收作为单声道混缩或立体声混缩的没有块划分信息的音频信号102,并且还通过线124接收多声道扩展数据。因此,图1中的多声道扩展数据计算器126对应于图9中的多声道扩展数据计算器902。在输出侧,用于处理的装置904例如提供具有嵌入的块划分信息的音频信号118以及图1中以132示出的具有多声道扩展数据、以及相关联的或者嵌入的参考音频信号指纹信息的数据流。
图11a显示了多声道扩展数据计算器902的详细示意图。特别是,首先,在各个块形成装置910中执行块形成,以获得多声道音频信号的原始声道的块。之后,在时间/频率转换器912中对每一块执行时间/频域转换。时间/频率转换器可以是执行子带滤波、一般变换或者特别是FFT形式的变换的滤波器组。已知的可替代的变换还有MDCT等等。之后,在多声道扩展数据计算器中对每个波带、每个块以及例如也对每个声道计算由ICC指示的声道和参考声道之间的各自的相关性参数。此外,在参数计算器914为每个波带、块以及声道计算各自的能量参数ICLD。应当注意,当块划分信息已经存在时,块形成装置910使用块划分信息106。可替代的,当执行第一块划分时,块形成装置910还可以确定块划分信息自身,并且输出块划分信息,并将其用于控制例如图1中的指纹计算器。与图1中的标号相似,输出的块划分信息也通过110表示。通常,可以确保,以与图1中计算指纹的块形成同步的方式执行用于计算多声道扩展数据的块形成。从而确保可以实现多声道扩展数据与音频信号的采样精确同步。
由参数计算器914计算的参数数据被提供到数据流格式器916,该数据流格式器916可以与图1中的指纹信息嵌入器等同地实现。此外,数据流格式器916接收以918指示的混缩信号每个块的指纹。然后,利用指纹和接收的参数数据915,数据流格式器产生具有嵌入的指纹信息的多声道扩展数据130,图11b示意性地示出了其中的一个块。特别是,在960处的,在可选提供的同步字950之后输入该块的指纹信息。然后,在指纹信息960之后,是参数计算器940计算的参数915,也就是例如在图11b所示的每个声道和波带的ICLD参数首次出现的序列中,之后是每个声道和波带的ICC参数。特别是通过ICLD的索引来指示该声道,其中索引“1”例如代表左信号,索引“2”代表中央声道,索引“3”代表右声道,索引“4”代表左后声道(LS)以及索引“5”代表右后声道(RS)。
通常,这将产生图4b中所示的具有多声道扩展数据的数据流,其中,对于一个块,音频信号(即,立体声混缩信号或者单声道混缩信号,或统称为混缩信号)的指纹一直位于多声道扩展数据124之前。在一种实现方式中,用于一个块的指纹信息也可以在传输方向上的在多声道扩展数据之后的位置或者在多声道扩展数据之间的某些地方插入。可替代的,还可以在单独的数据流中,或者例如在通过明确的块标识符而与多声道扩展数据相关联的单独的表中,或者在与各个块的多声道扩展数据的顺序相关的指纹顺序暗示性地提供关联性的表中,传输指纹信息。还可以使用不具有明确嵌入的其它关联性。
图3a显示了用于同步多声道扩展数据和音频信号114的装置。特别是,音频信号114包括块划分信息,如图1所示。此外,参考音频信号指纹信息与多声道扩展数据相关联。
具有块划分信息的音频信号被提供到块检测器300,块检测器300实现为检测音频信号中的块划分信息,并且把检测出的块划分信息302提供到指纹计算器304。此外,指纹计算器304接收音频信号,其中这里,不具有块划分信息的音频信号是足够的,然而,其中指纹计算器还可以实现为使用具有块划分信息的音频信号进行指纹计算。
现在,指纹计算器304为多个连续块计算音频信号的每个块的一个指纹,以便获得测试音频信号指纹序列306。特别是,指纹计算器304实现为使用块划分信息302计算测试音频信号指纹序列306。
创造性的同步装置或者创造性的同步方法还基于指纹提取器308,其用于当将参考音频信号指纹信息120提供到指纹提取器308的时候,从中提取参考音频信号指纹序列310。
测试指纹序列306和参考指纹序列308都被提供到指纹相关器312,指纹相关器312实现为使这两个序列相关。依据相关结果314,其中获得作为块长度(ΔD)的整数(x)的偏差值,则补偿器316被控制为降低、或最好的情况是消除多声道扩展数据132和音频信号114之间的时间偏差。在补偿器316的输出端,以同步的形式输出音频信号和多声道扩展数据两者,从而将其提供用于将参考图10进行讨论的多声道重建。
图3a中的同步器在图10中显示为1000,如参考图3a所示意的,同步器1000包括非同步形式的音频信号114以及多声道扩展数据,并且在输出侧向上混器1102提供同步形式的音频信号和多声道扩展数据。上混器1102,也被称为“上混”块,现在可以基于同步的音频信号和多声道扩展数据计算重建的多声道音频信号L’、C’、R’、LS’以及RS’。这些重建的多声道音频表示已经在图9的块900的输入端示出的原始多声道音频信号的近似值。可替代的,图10中块1102的输出端的重建后的多声道音频信号还表示重建音频对象、或者已经在特定位置修正过的重建音频对象,如从音频对象编码中所知的。现在,重建后的多声道音频信号具有最大的可获得音频质量,这是由于已经以采样精确的方式获得多声道扩展数据与音频信号的同步。
图3b显示了补偿器316的特定实现方式。补偿器316具有两个延迟块,其中一个块320可以是具有最大延迟的固定延迟块,而第二块322可以是具有可被控制处于等于零的延迟和最大延迟Dmax之间的可变延迟的块。基于相关结果314来进行控制。指纹相关器312提供一个块长度(Δd)的整数(x)中的相关偏差控制。由于已经根据在音频信号中包括的块划分信息在指纹计算器304自身中执行了指纹计算,因此依照本发明,可以获得采样精确同步,不过指纹相关器仅必须执行基于块的相关。尽管已经逐块地计算了指纹,即,仅仅以相对粗糙的方式表示音频信号的时间曲线、并相应地表示多声道扩展数据的时间曲线,还是能获得采样精确相关,这仅仅是因为指纹计算器304的块划分已经在同步器中与已经被用于逐块地计算多声道扩展数据的块划分同步,该指纹计算器304主要用于计算在多声道扩展数据流中嵌入的或者与多声道扩展数据流相关联的指纹。
关于补偿器316的实现方式,应当注意也可以使用两个可变延迟,从而相关结果314对两个可变延迟级都进行控制。而且,用于同步目的的补偿器内的可替代实现方式选项可以用于消除时间偏差。
下面,通过参考图6,图示出了当块划分信息作为水印引入到音频信号时,图3a中块检测器300的详细实现方式。图6中的水印提取器可以与图5中的水印嵌入器相似地构造,但是并不必须以完全相似的方式构造。
在图6所示的实施例中,具有水印的音频信号被提供到块形成器600,块形成器600从音频信号中产生连续块。然后,将一个块提供到时间/频率转换器602以对该块进行变换。基于该块的频谱表示,或者通过单独的计算,心理声学模块604能够计算遮蔽阈值,通过使用该遮蔽阈值,使得音频信号块在预滤波器606中进行预滤波。模块604和预滤波器606的实现方式有助于提高水印的检测准确率。也可以省略模块604和预滤波器606,从而时间/频率转换器602的输出直接耦合到相关器608。相关器608实现为在转换器502中的对于音频信号块的时间/频率转换之后,对已知的已经在图5的水印嵌入中使用的伪噪声序列500进行相关。
对于块600中的块形成,预先确定测试块划分,其中测试块划分并不必须与最终的块划分对应。而是,相关器608现在在几个块,例如在二十个乃至更多块上执行相关。从而在相关器608中在不同的延迟值处,将已知噪声序列的频谱与每个块的频谱相关,从而在几个块之后产生相关结果610,相关结果610可以如图7所示。控制612可以监视相关结果610并执行峰值检测。为此,控制612检测对于用于相关的更大数量的块越来越明显的峰值700。一旦检测到相关峰值700,仅仅需要确定已经显示出相关结果的x坐标,即偏差Δn。在本发明的实施例中,该偏差Δn指示测试块划分已经与在水印嵌入中实际使用的块划分偏离的采样数量。通过关于测试块划分和相关结果700的这种认知,控制612现在依照图7所示的公式确定校正后的块划分614。特别是,从测试块划分中减去偏差值Δn以计算校正后的块划分614,然后通过图3a中的指纹计算器304保持该校正后的块划分614以计算测试指纹。
关于图6中的示例性水印提取器,应当注意的是,可替代的,可以在时域而不是在频域执行提取,即,可以省略预滤波,并且可以采用替代方式计算延迟,即采样偏差值Δn。可替代选项例如是测试几个测试块划分,并且使用在一个或几个块之后提供最佳相关结果的测试块划分。而且,非周期水印可以用作相关性测量,即,非周期序列,其可以比一个块长度短。
因此,为了解决关联性问题,在本发明的优选实施例中优选具有发射器侧和接收器侧的特定过程。在发射器侧,可以执行从相应(单声道或者立体声)混缩音频信号中计算时间变量和合适的指纹信息。此外,这些指纹可以作为同步帮助,被规则地输入到发送的多声道附加数据流中。这可以作为逐块组织的空间音频编码边信息内的数据字段执行,或者以如下方式执行:将指纹信号作为数据块的第一或最后信息来发送,以便容易地添加或移除。此外,水印,例如已知的噪声序列,可以被嵌入到要被发送的音频信号中。这有助于接收器确定帧相位并消除帧间偏差。
在接收侧,优选为两级同步。在第一级,从接收的音频信号中提取水印,并且确定噪声序列的位置。此外,根据噪声序列位置可以确定帧边界,并且可以相应地划分音频数据流。在这些帧边界或者块边界内,可以在与发射器内曾计算过的几乎相同部分上计算特性音频特征,即,指纹,这提高了随后的相关结果的质量。在第二级中,从相应的立体声音频信号或者单声道音频信号、或者一般而言从混缩信号中计算时间变量和合适的指纹信息,其中该混缩信号也可以具有两个以上声道,只要混缩信号中的声道具有比在混缩之前的原始音频信号中的声道或一般而言的音频对象更小的数量。
此外,可以从多声道附加信息中提取指纹,并且多声道附加信息和接收信号之间的时间偏差可以通过合适的并且也是已知的相关方法执行。整体时间偏差包括多声道附加信息和接收的音频信号之间的帧相位以及偏差。此外,可以通过下行流主动调节的延迟补偿级,对音频信号和多声道附加信息进行同步,以进行随后的多声道解码。
为了获得多声道附加数据,例如把多声道音频信号划分成固定大小的块。在各个块中,嵌入接收器已知的噪声序列,或者嵌入一般而言的水印。在相同的栅格中,同时或者至少同步地逐块计算指纹,以获得多声道附加信息,该多声道附加信息适合于尽可能清楚地表征信号的时间结构。
关于此方案的一个实施例是使用例如以对数形式(即,以与分贝相关的表示方式)的音频块的当前混缩音频信号的能量内容。在这种情况下,指纹是关于音频信号的时间包络的量值。为了降低要发送的信息数量,并且提高测量值的准确性,该同步信息也可以表示与先前块的能量值的差值,其随后经历合适的熵编码(例如哈夫曼编码)、自适应缩放比例以及量化。
通过参考图8、并且一般而言参考图2,下面讨论用于计算指纹的优选实施例。
在块划分步骤800中的块划分之后,以连续块呈现音频信号。之后,依照图2的块104b执行指纹值计算,其中如步骤802中所示,该指纹值例如可以是每个块的一个能量值。当音频信号是立体声音频信号时,依照下面的等式计算当前块中的混缩音频信号的能量计算:
E monosum = Σ i = 0 1152 S left ( i ) 2 + S right ( i ) 2
特别是,数值i的信号值Sleft(i)表示音频信号的左声道的时间采样。Sright(i)是音频信号的右声道的第i个采样。在所示的实施例中,块长度是1152个音频采样,这就是为什么来自左和右混缩声道两者的1153个音频采样(包括对于i=0的采样)中的每一个都被平方并求和。如果音频信号是单声道音频信号,则省略求和。如果音频信号是具有例如三个声道的信号,则对来自三个声道的平方后的采样进行求和。此外,优选的是在计算之前移除混缩音频信号的(无意义)稳定分量。
在步骤804,由于随后的对数表示方式,执行能量的最小限制。对于与分贝相关的能量估计,提供最小能量偏差Eoffset,从而在零能量的情况下产生有用的对数计算。这种以dB为单位的能量量值以16比特的音频信号分辨率描述从0到90(dB)的数值范围。因此,在块804,将实现下面的等式:
E(db)=10log(Emonosum+Eoffset)
优选的,为了精确确定多声道附加信息和接收的音频信号之间的时间偏差,并不使用绝对能量级值,而是使用信号包络的斜率或陡度。因此,对于图3a中指纹计算器312的相关性量值,使用能量包络的陡度。从技术上讲,依照下面的等式,通过能量值与先前块的差值形成来计算信号偏差数:
Edb(diff)=Edb(current_block)-Edb(previous_block)
(注:current block:当前块,previous_block:先前块)
从上面的等式中可以清楚,Edb(diff)是以dB表示的两个先前块的能量值的差值,而Edb是当前块或者先前块的以dB为单位的能量。在步骤806中执行能量的差值形成。
应当注意,例如仅仅在编码器中,也就是在图1的指纹计算器104中执行该步骤,从而在多声道扩展数据中嵌入的指纹包括差分编码值。
可替代的,差分形成的步骤806还可以仅仅在解码器侧,即图3a的指纹计算器304上实现。在这种情况下,发送的指纹仅仅包括非差分编码指纹,并且依照步骤806的差值形成仅仅在解码器中执行。这种可选方案通过桥接差值形成块806的点状信号流线808表示。后面这种可选方案808具有如下优点:指纹仍然包括有关混缩信号的绝对能量的信息,但是仅具需要稍微更高的指纹字长度。
块802、804、806属于依照图2的104b的指纹值计算,而随后的步骤808(根据放大因数缩放)、810(量化)、812(熵编码)或者还包括块814中的1比特量化,都属于依照指纹在后置处理器104c的指纹后置处理。
当依照块808缩放能量(信号包络)以进行最佳调制时,可以确保:在该指纹的随后量化中,既最大化地利用了数值范围,又以提高了低能量值的分辨率。因此,引入了额外的缩放或放大。该缩放或放大可以作为固定或静态加权量来实现,或者可以通过适配于包络信号的动态放大调节来实现。还可以使用静态加权量与适配的动态放大调节的组合。特别是,遵照下面的等式:
Escaled=Edb(diff)*Aamplification(t)
Escaled表示缩放后的能量。Edb(diff)表示通过块806中的差值形成计算的以db为单位的差值能量,Aamplification是放大因数,特别是当该放大因数是动态放大调节时,其可以取决于时间t。放大因数将取决于包络信号,其中对于较大的包络,放大因数变小,而对于较小的包络,放大因数变大,从而获得具有尽可能一致的可用数值范围的调制。特别是可以通过测量所发送的音频信号的能量,在指纹计算器304中再现放大因数,从而并不需要明确地发送该放大因数。
在块810中,对由块808计算的指纹进行量化。执行此步骤是为了准备用于输入到多声道附加信息中的指纹。该降低的指纹分辨率已经显示了关于延迟检测的比特需求和可靠性之间的良好折衷。特别是,通过饱和特性曲线,可以把>255的超出范围限定为最大值255,例如可以如下面的等式所示:
E quantized = Q 8 bits [ Saturation 255 0 ( E scaled ) ]
Equantized是量化后的能量值,并且表示具有8比特的量化索引。Q8bits是把最大值255的量化索引分配到>255的值的量化操作。应当注意,还可以使用具有大于8比特的更精细量化,或者少于8比特的更粗糙量化,其中更粗糙量化降低了对额外比特的需求,而具有更多比特的精细量化则增加了对额外比特的需求,但是也增加了准确率。
之后,在块812,可以发生指纹的熵编码。通过估算指纹的静态特性,可以进一步降低量化指纹的比特需求。一种合适的熵方法例如是哈夫曼编码。统计上来讲,可以通过不同的码长度表示指纹值的不同频率,并且因此,平均来讲,能够降低用于表示指纹的比特需求。
然后,把熵编码块812的结果写入扩展声道数据流,如813所示。可替代的,如811所示,可以把非熵编码的指纹作为量化值写入比特流。
作为步骤802中计算每个块的能量的替代方式,可以如块818所示,计算不同指纹值。
作为块能量的替代方式,可以计算功率密度谱的峰值因数(PSD峰值)。该峰值因数通常是作为块中信号的最大值XMax与块中信号Xn(例如频谱值)的算术平均之间的商来计算的,如下面的等式所示例性地示出的:
y = XMax Σ i = 1 n X n n
此外,为了获得更加健壮的同步性,可以使用另一方法。不采用通过块808、810和812实现的后置处理,而可以把1比特量化用作替代的指纹后置处理104c(图2),如块814所示意。这里,附加地,在编码器中,在依照802或818的指纹的计算和差值形成之后直接执行1比特量化。已经显示,这可以提高相关的准确性。实现这种1比特量化,以使得当新值大于旧值(斜率为正)时,指纹等于1,以及当斜率为负时,指纹等于-1。当新值小于旧值时获得负斜率。
该创造性的优选的1比特量化极大地简化了指纹相关器312中的相关计算。基于测试指纹和参考指纹是比特序列的事实,可以把相关简化为简单的XOR运算,以及随后对XOR运算的逐比特结果求和。因此,当测试音频信号指纹值序列和参考音频信号指纹序列都是1比特值序列时,其中每个1比特表示音频采样中的一个块,则图3a中的指纹相关器312被实现为通过逐比特XOR运算将测试音频信号指纹序列的比特序列以及参考音频信号指纹的比特序列组合起来,并对获得的比特结果求和。该求和的结果表示第一相关值。所述比特序列具有例如32比特的长度或在10比特到100比特之间的长度。
此外,指纹相关器312被实现为同样通过逐比特的XOR运算将通过偏差值偏移后的测试音频信号指纹序列或参考音频信号指纹序列的比特序列与各自不同的序列组合起来,并且对获得的比特结果进行求和,由此产生第二相关值。对于给出最大相关值的偏差值,可以确定测试指纹和参考指纹已经相匹配。因此,该偏差值表示相关结果,这是因为对于该特定偏差值已经给出了最大相关结果。
除了改善了同步性结果之外,这种量化还对发送指纹所需的带宽具有影响。尽管前面需要为指纹引入至少8比特以提供足够准确的值,然而这里,单个比特就足够了。由于已经在发射器中确定了该指纹及其1比特副本,因此由于以最大分辨率提供了实际的指纹,因而可以实现差值的更加准确的计算,并且因此在发射器和接收器两侧均可以考虑指纹之间的最小变化。此外,已经发现,大部分连续指纹仅仅存在微小差异。而这种差异将可以在差值形成之前通过量化消除掉。
根据该实现方式并且当逐块准确率足够时,无论是否存在具有附加信息的音频信号,都可以使用1比特量化来作为特定的指纹后置处理,这是因为基于差值编码的1比特量化本身已经是健壮的并且准确的指纹方法,其还可以用于同步以外的其它目的,例如标识或分类的目的。
如基于图11a所示,在多声道音频数据的帮助下执行多声道附加数据的计算。随后,通过把采用计算后的指纹形式的新增加的同步信息适当地嵌入到比特流中,来顺序地扩展计算后的多声道附加信息。
优选的字标记指纹混合方案允许同步器检测混缩信号与附加数据的时间偏差,并且实现时间校正适配,即在+/-一个采样值的数量级上的音频信号和多声道扩展数据之间的延迟补偿。于是,在接收器中近乎完全地重建多声道关联性,即几个采样远离了几乎难察觉的时间差值,这不会对重建的多声道音频信号的质量产生可注意到的影响。
通过指纹计算器104或者指纹计算器304在具有或不具有块划分信息的情况下计算的该创造性指纹可被用于表征测试音频信号。因此,分别提供了装置104或304以从测试音频信号中获得测试音频指纹序列。
此外,提供了相关器,例如相关器312,以便对二进制值的序列与在参考数据库中提供的差值参考指纹进行相关,其中对于每个参考指纹,参考数据库包括有关与参考指纹相关联的音频信号的信息。
基于这些差值的相关,也就是基于1比特频率序列中的测试音频信号指纹与参考数据库的差值参考指纹之间的相关性,可以获得关于测试音频信号的信息。
关于测试音频信号的信息例如是音频信号的标识,例如是片段名,可能是作者,可以在什么CD或哪个声音载体上找到该片段,以及在哪里可以订购该片段。音频信号的可替代表征是把测试音频信号例如标识为具有特定风格时期或特定风格的音频信号,或者标识为来自特定波带的音频信号。可以通过不仅仅在性质上,还在数量上确定参考指纹如何与测试指纹相关,或者确定两种指纹之间的距离,来作出该表征。例如当发生相关以消除参考指纹和测试指纹之间的偏差时,可以发生指纹序列的这种匹配,或者计算指纹序列间的定量距离。
根据情况,可以以硬件或软件实现该创造性的方法。该实现方式可以在数字存储介质上实现,尤其是具有电子可读控制信号的盘片、CD或者DVD上,这种电子可读控制信号与可编程计算机系统协同工作,从而执行该方法。因此,通常,本发明还包括具有存储在机器可读载体上的程序代码的计算机程序产品,所述程序代码用于当在计算机上运行该计算机程序产品时执行该创造性方法。换言之,本发明可以作为具有程序代码的计算机程序,该程序代码用于当在计算机上运行计算机程序时执行该方法。

Claims (18)

1.一种用于计算音频信号的指纹的装置,包括:
装置(104a),用于把所述音频信号划分成连续采样块;
装置(104b),用于计算所述连续块的第一块的第一指纹值以及所述连续块的第二块的第二指纹值;
装置,用于比较(806)所述第一指纹值和所述第二指纹值;
装置,用于当所述第一指纹值大于所述第二指纹值时,分配(814)第一个二进制值,以及当所述第一指纹值小于所述第二指纹值时,分配(814)第二个不同的二进制值;以及
装置(104c),用于把关于二进制值序列的信息作为所述音频信号的指纹输出。
2.如权利要求1所述的装置,其中所述用于分配(814)的装置被实现为将与所述第一个二进制值互补的二进制值作为第二个不同的值。
3.如权利要求2所述的装置,其中所述第一个二进制值和所述第二个二进制值是精确的1个比特。
4.如权利要求3所述的装置,其中所述用于分配(814)的装置被实现为把第一比特值分配为第一个二进制值,以及把与所述第一值互补的第二比特值分配为第二个不同值。
5.如之前任意一个权利要求所述的装置,其中所述用于输出的装置(116)被实现为把比特序列作为指纹输出。
6.如之前任意一个权利要求所述的装置,其中所述用于比较(806)的装置被实现为计算所述第一指纹值和所述第二指纹值之间的差值;以及
其中所述用于分配(814)的装置被实现为当差值大于0时,分配所述第一个二进制值,以及当差值小于0时,分配所述第二个二进制值。
7.如之前任意一个权利要求所述的装置,其中所述用于划分的装置(104a)被实现为提供相邻或交叠的块作为连续块。
8.如之前任意一个权利要求所述的装置,其中所述用于计算的装置(104b)被实现为计算所述块的依赖于能量或依赖于功率的数量作为第一或第二指纹值。
9.如之前任意一个权利要求所述的装置,其中所述用于计算的装置(104b)被实现为对每个块的时间采样进行平方和求和,以获得所述块的第一或第二指纹值。
10.如权利要求1-8中任意一个所述的装置,其中所述用于计算的装置(104b)被实现为计算所述块的功率谱的峰值因数作为第一或第二指纹值。
11.一种用于同步多声道扩展数据(132)与音频信号(114)的装置,其中所述多声道扩展数据与参考音频信号指纹信息相关联,该装置包括:
依照权利要求1-10中任意一个所述的指纹计算器(304);
指纹提取器(308),用于从与所述多声道扩展数据(132)相关联的所述参考音频信号指纹信息中提取参考音频信号指纹序列;
指纹相关器(312),用于对所述测试音频信号指纹序列以及所述参考音频信号指纹序列进行相关;以及
补偿器(316),用于基于相关结果(314)减小或消除所述多声道扩展数据(132)和所述音频信号之间的时间偏差。
12.如权利要求11所述的装置,其中所述参考音频信号指纹信息包括二进制值序列,并且
其中所述指纹提取器(308)被实现为从所述多声道扩展数据中提取所述二进制值序列。
13.如权利要求11或12所述的装置,其中所述测试音频信号指纹序列和所述参考音频信号指纹序列都是1比特值的序列,其中每一个比特与音频采样的一个块相关联,并且
其中所述指纹相关器(312)被实现为
通过逐比特XOR运算对所述测试音频信号指纹序列的比特序列与所述参考音频信号指纹的比特序列进行组合,并对获得的比特结果进行求和,以获得第一相关值,
通过逐比特XOR运算对通过偏差值偏移后的所述测试音频信号指纹序列的比特序列或者所述参考音频信号指纹序列的比特序列与各自不同的序列进行组合,并对获得的比特结果进行求和,以获得第二相关值,以及
将该偏差值选择为已产生最大相关值的相关结果。
14.一种用于表征测试音频信号的装置,包括:
如权利要求1到10中任意一个所述的用于计算测试指纹的装置;
用于对关于二进制值序列的信息与参考数据库中的差值参考指纹进行相关的装置,其中所述参考数据库包括关于每个参考指纹的音频信号的信息,所述信息与所述参考指纹相关联;以及
基于所述相关来提供关于所述测试音频信号的信息的装置。
15.一种用于计算音频信号的指纹的方法,包括:
把所述音频信号划分(104a)成连续采样块;
计算(104b)所述连续块的第一块的第一指纹值以及所述连续块的第二块的第二指纹值;
比较(806)所述第一指纹值和所述第二指纹值;
当所述第一指纹值大于所述第二指纹值时,分配(814)第一个二进制值,以及当所述第一指纹值小于所述第二指纹值时,分配(814)第二个不同的二进制值;以及
把关于二进制值序列的信息作为所述音频信号的指纹输出(104c)。
16.一种同步多声道扩展数据(132)与音频信号(114)的方法,其中所述多声道扩展数据与参考音频信号指纹信息相关联,该方法包括:
依照权利要求15计算(304)指纹;
从与所述多声道扩展数据(132)相关联的所述参考音频信号指纹信息中提取(308)参考音频信号指纹序列;
对所述测试音频信号指纹序列以及所述参考音频信号指纹序列进行相关(312);以及
基于相关结果(314)减小(316)或消除所述多声道扩展数据(132)和所述音频信号之间的时间偏差。
17.一种用于表征测试音频信号的方法,包括:
依照权利要求15计算测试指纹,其中获得作为测试指纹的二进制值序列;
对关于二进制值序列的信息与参考数据库中的差值参考指纹进行相关,其中对于每个参考指纹,所述参考数据库包括关于与所述参考指纹相关联的音频信号的信息;以及
基于所述相关来提供关于所述测试音频信号的信息。
18.一种包含程序代码的计算机程序,所述程序代码用于当在计算机上运行所述程序时执行依照权利要求15、16或17的方法。
CN2009801053183A 2008-02-14 2009-02-10 用于计算音频信号的指纹、用于同步、以及用于表征测试音频信号的装置和方法 Active CN101971249B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102008009025A DE102008009025A1 (de) 2008-02-14 2008-02-14 Vorrichtung und Verfahren zum Berechnen eines Fingerabdrucks eines Audiosignals, Vorrichtung und Verfahren zum Synchronisieren und Vorrichtung und Verfahren zum Charakterisieren eines Testaudiosignals
DE102008009025.5 2008-02-14
PCT/EP2009/000917 WO2009100875A1 (de) 2008-02-14 2009-02-10 Vorrichtung und verfahren zum berechnen eines fingerabdrucks eines audiosignals, vorrichtung und verfahren zum synchronisieren und vorrichtung und verfahren zum charakterisieren eines testaudiosignals

Publications (2)

Publication Number Publication Date
CN101971249A true CN101971249A (zh) 2011-02-09
CN101971249B CN101971249B (zh) 2013-03-13

Family

ID=40821819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009801053183A Active CN101971249B (zh) 2008-02-14 2009-02-10 用于计算音频信号的指纹、用于同步、以及用于表征测试音频信号的装置和方法

Country Status (8)

Country Link
US (1) US8634946B2 (zh)
EP (1) EP2240928B1 (zh)
JP (1) JP5302977B2 (zh)
CN (1) CN101971249B (zh)
AT (1) ATE514161T1 (zh)
DE (1) DE102008009025A1 (zh)
HK (1) HK1149842A1 (zh)
WO (1) WO2009100875A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239306A (zh) * 2013-06-08 2014-12-24 华为技术有限公司 多媒体指纹哈希矢量构建方法及其装置
CN110223701A (zh) * 2012-08-03 2019-09-10 弗劳恩霍夫应用研究促进协会 用于从缩混信号产生音频输出信号的解码器和方法

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010135623A1 (en) * 2009-05-21 2010-11-25 Digimarc Corporation Robust signatures derived from local nonlinear filters
EP2458890B1 (en) * 2010-11-29 2019-01-23 Nagravision S.A. Method to trace video content processed by a decoder
US8586847B2 (en) * 2011-12-02 2013-11-19 The Echo Nest Corporation Musical fingerprinting based on onset intervals
EP2648418A1 (en) 2012-04-05 2013-10-09 Thomson Licensing Synchronization of multimedia streams
CN103000180A (zh) * 2012-11-20 2013-03-27 上海中科高等研究院 环绕声矩阵编解码系统及其实现方法
CN105229731B (zh) 2013-05-24 2017-03-15 杜比国际公司 根据下混的音频场景的重构
ES2636808T3 (es) 2013-05-24 2017-10-09 Dolby International Ab Codificación de escenas de audio
KR20150009757A (ko) * 2013-07-17 2015-01-27 삼성전자주식회사 영상처리장치 및 그 제어방법
US9244042B2 (en) * 2013-07-31 2016-01-26 General Electric Company Vibration condition monitoring system and methods
DE102014102163B4 (de) * 2014-02-20 2017-08-03 Denso Corporation Übertragungstechnik für analog erfasste Messwerte
KR102086047B1 (ko) * 2015-12-11 2020-03-06 한국전자통신연구원 시간 영역을 기반으로 오디오 신호에 데이터를 삽입하거나 오디오 신호로부터 데이터를 추출하는 방법 및 장치
CN107666638B (zh) * 2016-07-29 2019-02-05 腾讯科技(深圳)有限公司 一种估计录音延迟的方法及终端设备
US10237608B2 (en) * 2016-09-13 2019-03-19 Facebook, Inc. Systems and methods for evaluating synchronization between content streams
US20180144755A1 (en) * 2016-11-24 2018-05-24 Electronics And Telecommunications Research Institute Method and apparatus for inserting watermark to audio signal and detecting watermark from audio signal
JP7380382B2 (ja) 2020-03-30 2023-11-15 沖電気工業株式会社 測距計

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7461002B2 (en) * 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
JP4425126B2 (ja) * 2002-04-25 2010-03-03 ランドマーク・デジタル・サービシーズ・エルエルシー ロバストかつインバリアントな音声パターンマッチング
US7382905B2 (en) * 2004-02-11 2008-06-03 Microsoft Corporation Desynchronized fingerprinting method and system for digital multimedia data
CN101002500A (zh) * 2004-08-12 2007-07-18 皇家飞利浦电子股份有限公司 音频源选择
DE102004046746B4 (de) 2004-09-27 2007-03-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zum Synchronisieren von Zusatzdaten und Basisdaten
WO2006060278A1 (en) * 2004-11-30 2006-06-08 Agere Systems Inc. Synchronizing parametric coding of spatial audio with externally provided downmix
DE102005014477A1 (de) * 2005-03-30 2006-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und zum Erzeugen einer Multikanal-Darstellung
US7516074B2 (en) 2005-09-01 2009-04-07 Auditude, Inc. Extraction and matching of characteristic fingerprints from audio signals
GB2431837A (en) 2005-10-28 2007-05-02 Sony Uk Ltd Audio processing
US20070217626A1 (en) * 2006-03-17 2007-09-20 University Of Rochester Watermark Synchronization System and Method for Embedding in Features Tolerant to Errors in Feature Estimates at Receiver
WO2007144813A2 (en) * 2006-06-13 2007-12-21 Koninklijke Philips Electronics N.V. Fingerprint, apparatus, method for identifying and synchronizing video

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110223701A (zh) * 2012-08-03 2019-09-10 弗劳恩霍夫应用研究促进协会 用于从缩混信号产生音频输出信号的解码器和方法
CN110223701B (zh) * 2012-08-03 2024-04-09 弗劳恩霍夫应用研究促进协会 用于从缩混信号产生音频输出信号的解码器和方法
CN104239306A (zh) * 2013-06-08 2014-12-24 华为技术有限公司 多媒体指纹哈希矢量构建方法及其装置

Also Published As

Publication number Publication date
US20110112669A1 (en) 2011-05-12
DE102008009025A1 (de) 2009-08-27
WO2009100875A1 (de) 2009-08-20
HK1149842A1 (en) 2011-10-14
ATE514161T1 (de) 2011-07-15
CN101971249B (zh) 2013-03-13
EP2240928B1 (de) 2011-06-22
EP2240928A1 (de) 2010-10-20
JP5302977B2 (ja) 2013-10-02
JP2011512554A (ja) 2011-04-21
US8634946B2 (en) 2014-01-21

Similar Documents

Publication Publication Date Title
CN101971249B (zh) 用于计算音频信号的指纹、用于同步、以及用于表征测试音频信号的装置和方法
CN101952885B (zh) 用于同步多声道扩展数据与音频信号以及用于处理音频信号的装置和方法
JP5273858B2 (ja) データストリームおよびマルチチャネル表現を生成するための装置および方法
KR102219752B1 (ko) 채널 간 시간 차를 추정하기 위한 장치 및 방법
RU2325046C2 (ru) Аудиокодирование
JP4431568B2 (ja) 音声符号化
TWI396187B (zh) 用於將以物件為主之音訊信號編碼與解碼之方法與裝置
CN1758338B (zh) 用于低比特率音频编码应用的高效可标度参数立体声编码
JP4794448B2 (ja) オーディオエンコーダ
CN1822508B (zh) 对数字信号进行编码和解码的方法和设备
KR20070001139A (ko) 오디오 분배 시스템, 오디오 인코더, 오디오 디코더 및이들의 동작 방법들
AU2008321318A1 (en) Methods and apparatus to perform audio watermarking and watermark detection and extraction
JP2005049889A (ja) オーディオ信号コーディング中にノイズ置換を信号で知らせる方法
JP2011232754A (ja) オーディオ透かしデコーディングを遂行する方法、装置及び製造物品
US8271291B2 (en) Method and an apparatus for identifying frame type
JP2006003580A (ja) オーディオ信号符号化装置及びオーディオ信号符号化方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant