CN102959622A

CN102959622A - 水印信号提供及水印嵌入

Info

Publication number: CN102959622A
Application number: CN2011800205966A
Authority: CN
Inventors: 斯特凡·瓦布尼克; 约尔格·皮克尔; 伯特·格文博希; 伯恩哈德·格里; 恩斯特·埃伯莱因; 乔瓦尼·德尔加尔多; 斯特凡·克雷格洛; 赖因哈德·兹茨曼; 托比亚斯·布利姆; 尤利娅内·博尔苏姆; 马尔科·布雷林
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2010-02-26
Filing date: 2011-02-22
Publication date: 2013-03-06
Anticipated expiration: 2031-02-22
Also published as: AU2011219829B2; EP2539890A1; WO2011104233A1; MY152708A; RU2012140842A; ZA201207154B; PL2539890T3; JP2013520693A; KR101411101B1; EP2362385A1; ES2443878T3; CN102959622B; CA2791046A1; SG183485A1; AU2011219829A1; JP5548278B2; CA2791046C; MX2012009778A; US20130218314A1; RU2624549C2

Abstract

描述了一种水印信号提供器（2400），用于提供当被添加到音频信号（2430）时适于隐藏在音频信号中的水印信号（2440），使得水印信号表示水印数据（2450）。该水印信号提供器包括：心理声学处理器（2410），用于确定音频信号的掩蔽阈值；以及调制器（2420），用于根据样本成型函数的叠加生成水印信号，样本成型函数以水印数据的时间离散表示型态的样本时间间隔（Tb）彼此隔开，每个样本成型函数分别用时间离散表示型态的相应样本幅度加权，该相应样本与取决于掩蔽阈值的相应幅度权重相乘，调制器被配置为使得：样本时间间隔短于样本成型函数的时间延伸；该相应幅度权重还取决于在时间上与相应样本相邻的时间离散表示型态的样本。

Description

水印信号提供及水印嵌入

技术领域

本发明涉及用于提供水印信号的水印信号提供器以及使用水印信号的水印嵌入。

背景技术

在许多技术应用中，需要在表示有用数据或“主数据”（例如，音频信号、视频信号、图形、测量量等）等的信息或信号中包括附加信息。在许多情况下，需要包括附加数据，使得附加数据以不被该数据的用户感知的方式结合到主数据（例如，音频数据、视频数据、静态图像数据、测量数据、文本数据等）。此外，在一些情况下，需要包括附加数据，使得附加数据不能容易地从主要数据（例如，音频数据、视频数据、静态图像数据、测量数据等）中去除。

在需要实施数字权利管理的应用中，尤其如此。然而，有时只是需要在有用数据中添加实质上不可感知的边信息（side information）。例如，在一些情况下，理想的是将边信息添加到音频数据，使得边信息提供关于音频数据源、音频数据的内容、与音频数据相关的权利等的信息。

为了将附加数据嵌入到有用数据或“主数据”中，可以使用所谓的“水印”的概念。在例如音频数据、静态图像数据、视频数据、文本数据等的多种不同的有用数据的文献中，已经讨论了水印概念。

在下文中，将给出其中讨论了水印概念的一些参考。然而，为了获得更详细的信息，读者还应关注与水印相关的宽领域的文本文献以及应用。

DE 196 40 814C2描述了一种用于将非可听数据信号（non-audibledata signal）引入到音频信号中的编码方法以及用于对以非可听形式包括在音频信号中的数据信号进行解码的方法。用于将非可听数据信号引入到音频信号中的编码方法包括将音频信号转换为频谱域。编码方法还包括确定音频信号的掩蔽阈值和伪噪声信号的供应。编码方法还包括提供数据信号并将伪噪声信号和该数据信号相乘，以获得频分数据信号。编码方法还包括将频分数据信号和掩蔽阈值加权并将音频信号和加权的数据信号叠加。

另外，WO 93/07689描述了用于通过向节目的声音信号添加听不见的编码消息，自动识别由电台或电视频道广播或者记录在介质上的节目的方法和设备，其中，上述消息识别广播频道或电台、节目和/或提取日期。在该文献描述的实施方式中，将由模拟数字转换器将声音信号传输至数据处理器，该数据处理器能够分离频率分量，并使得能够以预定方式改变一些频率分量中的能量以形成编码的识别消息。数据处理器的输出通过数字模拟转换器连接至音频输出端，用于广播或记录声音信号。在该文献描述的另一实施方式中，采用模拟带通，以从声音信号分离频带，使得可以这样改变分离的频带中的能量以对声音信号编码。

US 5,450,490描述了用于在声音信号中包括具有至少一个码频率分量的码的设备和方法。评估音频信号中各频率分量屏蔽人类听觉的码频率分量的能力，并且基于这些评估，为码频率分量分配幅度。还描述了用于检测编码的音频信号中的码的方法和设备。基于预期码幅度或包括码分量的频率的音频频率范围中的噪声幅度，检测编码的音频信号中的码频率分量。

WO 94/11989描述了用于编码/解码广播或记录的片段并监控其观众接触率的方法和设别。描述了用于将广播或记录的片段信号中的信息编码和解码的方法和设备。在文献描述的实施方式中，观众监控系统使用扩频编码将广播或记录的片段的音频信号部分中的标识信息编码。监控装置经由麦克接收广播或记录的信号的声学再生版本，将标识信息从音频信号部分解码而不管显著的环境噪声并存储该信息，自动提供该观众的日志，该日志随后将被上传到中心装置。单独的监控装置将另外的信息从广播信号解码，其与中心装置的观众日志信息匹配。该监控器可以使用拨号电话线同时向中心装置发送数据，并通过使用扩频技术编码并用来自第三方的广播信号调制的信号从中心装置接收数据。

WO 95/27349描述了用于在音频信号中包括码并解码的设备和方法。描述了用于在音频信号中包括具有至少一个码频率分量的码的设备和方法。评估音频信号中各频率分量屏蔽人类听觉的码频率分量的能力，并且基于这些评估，为码频率分量分配幅度。还描述了用于检测编码的音频信号中的码的方法和设备。基于预期码幅度或包括码分量的频率的音频频率范围中的噪声幅度，检测编码的音频信号中的码频率分量。

然而，当将水印信息插入到音频信号的时间/频率频谱中时，难以在掩蔽阈值（masking threshold）以下隐藏水印信息或者难以在尽可能多的能量向水印信息的分配之间找到最佳平衡，因此增大了解码器侧的提取，并且当再生加水印的音频信号时，保持水印信息被不可听地嵌入。

发明内容

鉴于该情况，本发明的目的在于提供一种用于提供水印信号的机制以及用于使用该水印信号进行水印嵌入的机制，其能够实现水印信号的可提取性和不可听性之间的更好平衡。

该目的是通过根据权利要求1的水印信号提供器、根据权利要求8的水印嵌入器、根据权利要求9或10的方法、以及根据权利要求11的计算机程序来实现的。

根据本发明实施方式，一种水印信号提供器，用于提供当被添加到音频信号时适于隐藏在音频信号中的水印信号，使得水印信号表示水印数据，该水印信号提供器包括：心理声学处理器，用于确定音频信号的掩蔽阈值；以及调制器，用于根据以水印数据的时间离散表示型态的样本时间间隔彼此隔开的样本成型函数的叠加，来生成水印信号，每个样本成型函数均用与时间离散表示型态的相应样本来幅度加权，该时间离散表示型态与取决于掩蔽阈值的相应幅度权重相乘，该调制器被配置为使得样本时间间隔短于样本成型函数的时间延伸；并且相应幅度权重还取决于在时间上与相应样本相邻的时间离散表示型态的样本。

本发明基于以下发现：通过选择不仅取决于掩蔽阈值、还取决于与相邻样本相邻的水印数据的时间离散表示型态的样本的用于将叠加地形成水印信号的样本成型函数幅度加权的幅度权重，可以实现水印信号的可提取性和不可听性之间的更好平衡。这样，在相邻的样本位置处的样本成型函数可以彼此重叠，即，样本时间间隔可以短于样本成型函数的时间延伸，并且尽管如此，可以通过在设置幅度权重时考虑与当前加权的样本相邻的时间离散表示型态的样本，来补偿这种相邻的样本成型函数之间的干涉。此外，由于样本成型函数被使得具有较长的时间延伸，因此可以使得其频率响应较窄，即，当在混响环境中再生加水印的音频信号时，使得水印信号抗混响的可提取性更强。换句话说，相应幅度权重不仅取决于掩蔽阈值，还取决于与相应样本相邻的水印数据的时间离散表示型态的样本，这使得能够补偿相邻的样本成型函数之间的音频干涉，否则，这将导致干扰掩蔽阈值。

附图说明

后续将参照附图来描述根据本发明的实施方式，在附图中：

图1示出了根据本发明实施方式的水印插入器的示意性框图；

图2示出了根据本发明实施方式的水印解码器的示意性框图；

图3示出了根据本发明实施方式的水印生成器的详细示意性框图；

图4示出了用于本发明实施方式的调制器的详细示意性框图；

图5示出了用于本发明实施方式的心理声学处理模块的详细示意性框图；

图6示出了用于本发明实施方式的心理声学模块处理器的示意性框图；

图7示出了由块801输出的音频信号的功率频谱在频率上的曲线表示；

图8示出了由块802输出的音频信号的功率频谱在频率上的曲线表示；

图9示出了幅度计算的示意性框图；

图10a示出了调制器的示意性框图；

图10b示出了时间频率要求（time-frequency claim）的系数的位置的曲线表示；

图11a和图11b示出了同步模块的实现替代方案的示意性框图；

图12a示出了找到水印的时间对准的问题的曲线表示；

图12b示出了识别消息开始的问题的曲线表示；

图12c示出了同步序列在全消息同步模式中的时间对准的曲线表示；

图12d示出了同步序列在部分消息同步模式中的时间对准的曲线表示；

图12e示出了同步模块的输入数据的曲线表示；

图12f示出了识别同步瞬时干扰（synchronization hit）的概念的曲线表示；

图12g示出了同步签名相关器（synchronization signature correlator）的示意性框图；

图13a示出了用于时间解扩的实例的曲线表示；

图13b示出了比特和扩展序列之间的逐元素（element-wise）相乘的实例的曲线表示；

图13c示出了同步签名相关器在时间平均后的输出的曲线表示；

图13d示出了用同步签名的自相关函数过滤的同步签名相关器的输出的曲线表示；

图14示出了根据本发明实施方式的水印提取器的示意性框图；

图15示出了选择时频域表示型态作为候选消息的示意表示；

图16示出了分析模块的示意性框图；

图17a示出了同步相关器的输出的曲线表示；

图17b示出了解码消息的曲线表示；

图17c示出了从加水印后的信号中提取的同步位置的曲线表示；

图18a示出了有效载荷、具有Viterbi（维特比）终止序列的有效载荷、维特比编码的有效载荷、以及维特比编码有效载荷的重复编码版本的曲线表示；

图18b示出了用于嵌入加水印后的信号的子载波的曲线表示；

图19示出了非编码消息、编码消息、同步消息和水印信号的曲线表示，其中，同步序列应用于这些消息；

图20示出了所谓的“ABC同步”概念的第一步的示意表示；

图21示出了所谓的“ABC同步”概念的第二步的曲线表示；

图22示出了所谓的“ABC同步”概念的第三步的曲线表示；

图23示出了包括有效载荷和CRC部分的消息的曲线表示；

图24示出了根据本发明实施方式的水印信号提供器的示意性框图；

图25示出了根据本发明实施方式的水印嵌入器的示意性框图。

具体实施方式

1.水印信号提供

以下，将参照图24描述水印信号提供器2400。水印信号提供器2400包括心理声学处理器2410和调制器2420。心理声学处理器2410被配置为接收音频信号2430，水印信号提供器2400将为音频信号2430提供水印信号2440。调制器2420被配置为使用由心理声学处理器2410提供的掩蔽阈值，以生成水印信号2440。特别地，调制器2420被配置为根据样本成型函数的重叠，来生成水印信号2440，这些样本成型函数以将由水印信号2440表示的水印数据2450的时间离散表示型态的样本时间间隔彼此隔开。特别地，调制器2420在生成水印信号2440时使用掩蔽阈值，使得当水印信号2440被添加到音频信号2430以获得加水印的音频信号时，水印信号2440适于隐藏在音频信号2430中。

如下面更详细的描述的，实际上，水印数据的时间离散表示型态可以为时间/频率离散表示型态，并且可以通过使用在时域和/或频域中的扩展而从水印数据2450导出。到分配了时间离散表示型态的样本的格栅位置（grid position）的时间或时间/频率格栅可以在时间上固定，特别地，独立于音频信号2430。该叠加又可以被解释为具有在提到的格栅的格栅位置处排列的样本的时间/离散表示型态的卷积，样本通过幅度权重被加权，幅度权重又不仅取决于掩蔽阈值，还取决于在时间上相邻的时间离散表示型态的样本。

幅度权重对掩蔽阈值的相关性可以如下：从掩蔽阈值的各时间块导出用于与特定时间块处的时间离散表示型态的特定样本相乘的幅度权重，掩蔽阈值本身又取决于时间和频率。因此，在水印数据的时间/频率离散表示型态的情况下，每一样本均与对应于掩蔽阈值的幅度权重相乘，掩蔽阈值在水印信号表示型态样本的相应时间/频率格栅位置处被采样。

此外，能够使用用于从水印数据2450检索时间离散表示型态的时间差分表示型态的时间差分编码。

调制器2420被配置为根据样本成型函数的叠加来生成水印信号2440，使得每一个样本成型函数通过与相应幅度权重相乘的时间离散表示型态的相应样本来幅度加权，该相应幅度权重取决于由心理声学处理器2410确定的掩蔽阈值，特别地，调制器2420被配置为使得样本时间间隔短于样本成型函数的时间延伸，并使得相应幅度权重还取决于与相应样本相邻的时间离散表示型态的样本。

如下文更加详细概括的，样本时间间隔短于样本成型函数的时间延伸的事实导致了在时间上相邻的样本成型函数之间的干扰，从而增加偶然干扰掩蔽阈值的风险。然而，掩蔽阈值的这种干扰通过使幅度权重也取决于与当前样本相邻的时间离散表示型态的样本来补偿。

在下文概括的水印系统的实施方式中，刚提到的相关性由幅度权重的迭代设置来实现。特别地，心理声学处理器2410可以确定独立于水印数据的掩蔽阈值，同时调制器2420可以被配置为通过基于独立于水印数据的掩蔽阈值初步确定幅度权重，来迭代地设置幅度权重。调制器2420然后可以被配置为检查样本成型函数的叠加是否干扰掩蔽阈值，样本成型函数通过与初步确定的幅度权重相乘的水印表示型态的样本来幅度加权。如果干扰掩蔽阈值，则调制器2420可改变初步确定的幅度权重，以获得另一叠加。调制器2420可以重复包括具有连续叠加的检查和干扰，直到履行相应的中断条件，诸如幅度加权保持它们在某一特定变化阈值中的值。在上述提到的检查中，时间离散表示型态的相邻样本由于样本成型函数的叠加和时间延伸超过样本时间间隔而导致时间离散表示型态彼此影响/干涉，用于生成的孔迭代处理（hole iterative process）取决于水印数据表示型态的这些相邻样本。

应当注意，在以下概括的实施方式中，使用水印数据在时域中的扩展以揭示刚提及的时间离散表示型态。然而，这种时间扩散可以舍弃。该扩展应用于还在以下实施方式中使用的频率扩展。

2.水印嵌入器

图25示出了使用图24的水印信号提供器2400的水印嵌入器。具体地，图25的水印嵌入器通常用参考标号2500表示并除了包括水印信号提供器2400以外还包括相加器2510，该相加器将由水印信号提供器2400输出的水印信号2440与音频信号2430相加，以获得加水印的音频信号2530。

3.系统描述

以下，将描述用于水印传输的系统，其包括水印插入器和水印解码器。自然地，水印插入器和水印解码器可以彼此独立地使用。

对于系统的描述，这里选择了自顶向下方法。首先，区分编码器和解码器。然后，在章节3.1至3.5中，详细地描述了每个处理块。

在分别描述了编码器侧和解码器侧的图1和图2中可以看到系统的基本结构。图1示出了水印插入器100的示意性框图。在编码器侧，基于与心理声学处理模块102交换的信息104、105，根据二进制数据101a在处理块101（也被指定为水印生成器）中生成水印信号101b。从块102提供的信息通常保证水印是听不见的。然后，由水印生成器101生成的水印被添加到音频信号106。然后，可以传输、存储、或进一步处理加水印后的信号107。在例如音频视频文件的多媒体文件的情况下，需要将适当的延迟添加到视频流，以不失去音频视频同步。在多信道音频信号的情况下，如在该文献中说明的，单独处理每个信道。在章节3.1和3.2中分别详细说明了处理块101（水印生成器）和102（心理声学处理模块）。

在图2中描述了解码器侧，图2示出了水印解码器200的示意性框图。例如由麦克记录的水印音频信号200a被使得可用于系统200。还被指定为分析模块的第一块203在时间/频率域中解调并转换数据（例如，加水印后的音频信号）（从而获得水印音频信号200a的时频域表示型态204），并将其传递到同步模块201，该同步模块分析输入信号204并执行时间同步，即，确定（例如，相对于时频域表示型态的编码水印数据的）编码数据的时间对准。该信息（例如，由此产生的同步信息205）被提供给对数据解码（并随后提供二进制数据202a，其表示水印音频信号200a的数据内容）的水印提取器202。

3.1水印生成器101

图3中详细描述了水印生成器101。待隐藏在音频信号106中的二进制数据（表示为±1）被提供给水印生成器101。块301在等长度M_p的数据包中组织数据101a。出于信令的目的，向每个数据包添加（例如，附加）开销比特（overhead bit）。假设M_s表示其数量。在章节3.5中将详细描述其使用。值得注意的是，在下文中，有效载荷比特连同信令开销比特的每个数据包均为表示的消息。

长度为N_m=M_s+M_p的每个消息301a都被移交至处理块302，即，信道编码器，其负责对这些比特编码以用于防止误差。该模块的可能实施方式由卷积编码器（convolutional encoder）连同交织器（interleaver）组成。卷积编码器的比率极大地影响水印系统防止误差的总程度。另一方面，交织器保护免受噪声突发。交织器的操作的范围可以限于一个消息，但其还可以延伸至多个消息。假设R_c表示码比，例如，1/4。每个消息的编码比特数为N_m/R_c。信道编码器例如提供编码的二进制消息302a。

下一处理模块303在频域中执行扩展。为了实现足够大的信噪比的信号，在N_f个仔细选择的子带中扩展并传输信息（例如，二进制消息302a的信息）。一开始确定其在频率中的确切位置，并且这对于编码器和解码器都是已知的。在章节3.2.2中给出了该重要系统参数的选择的细节。由大小为N_f×1的扩展序列c_f来确定频率的扩展。块303的输出303a由N_f个比特流组成，每个子带一个比特流。通过将输入比特与扩展序列c_f的第i个分量相乘来获得第i个比特流。最简单的扩展由将比特流复制到每个输出流，即，使用所有比特流的扩展序列来组成。

也被指定为同步方案插入器的块304将同步信号添加到比特流。当解码器不知道比特或数据结构的时间对准（即，不知道每个消息何时开始）时，稳健同步是重要的。同步信号由每个都为N_f个比特的N_s个序列组成。这些序列为相乘的逐元素并周期性地与比特流（或比特流303a）相乘。例如，假设a、b和c是N_s=3个同步序列（也被指定为同步扩展序列）。块304将a乘以第一扩展比特，将b乘以第二扩展比特，并将c乘以第三扩展比特。对于以下的比特，定期地重复该过程，即，将a乘以第四比特，将b乘以第三比特等。因此，获得了结合的信息同步信息304a。仔细地选择同步序列（也被指定为同步扩展序列），以使假同步的风险最小化。在章节3.4中给出了更多细节。此外，应当注意的是，序列a、b、c…可以被看作是一序列同步扩展序列。

块305在时域中执行扩展。输入端处的每个扩展比特（即，长度N_f的向量）在时域中重复N_t次。与频率下的扩展相类似，发明人定义了大小为N_t×1的扩展序列c_t。第i个时间重复与c_t的第i个分量相乘。

块302至305的操作可以如下放在数学方面中。假设大小为1×N_m=R_c的m为302的编码消息、输出。块303的输出303a（可以被看作扩展信息表示型态R）为：

大小N_f×N_m/R_c的c_f·m （1）

块304的输出304a（可以被看作结合信息同步表示型态C）为：

大小N_f×N_m/R_c的Sο(c_f·m) （2）

其中，ο表示Schur逐元素乘积（Schur element-wise product），并且

S=大小N_f×N_m/R_c的[...a b c...a b...] （3）

305的输出305a为

大小N_f×N_t·N_m/R_c的

其中，◇和T分别表示Kronecker乘积和转置。请记住，二进制数据被表示为±1。

块306执行比特的差分编码。该步骤给出了抵抗由于移动或本地振荡器不匹配导致的相移的系统附加稳健性。在章节3.3中给出了关于该问题的更多细节。如果b(i；j)是在块306的输入端处的第i个频带以及第j个时间块的比特，则输出比特b_diff(i；j)为：

b_diff(i,j)=b_diff(i,j-1)·b(i,j) （5）

在流开始时，即，对于j=0，b_diff(i，j–1)被设置为1。

块307根据在其输入端给出的二进制信息306a执行实际调制，即，生成水印信号波。在图4中给出了更详细的图表。N_f个并行输入，即，401至40N_f包含不同子带的比特流。每个子带流的每个比特通过位成型块（411至41N_f）来处理。位成型块的输出为时域中的波形。如下计算基于输入比特b_diff(i，j)针对第j个时间块和第i个子带生成的由s_i；j(t)表示的波：

s_i，j(t)=b_diff(i,j)γ(i,j)·g_i(t-j,T_b) (6）

其中，γ(i；j)是由心理声学处理单元102提供的加权因子，T_b为比特时间间隔，g_i(t)为第i个子带的比特形成函数（bit forming function）。根据用余弦在频率下调制的基带函数

来获得比特形成函数：

g_{i} (t) = g_{i}^{T} (t) \cdot \cos (2 π f_{i} t) - - - (7)

其中，f_i为第i个子带的中心频率，并且标号T表示转置器。对于每个子带，基带函数可以不同。如果选择相同，则解码器处的更有效实现是可能的。更多细节参见章节3.3。

在由心理声学处理模块（102）控制的迭代处理中重复用于每个比特的比特成型。为了微调权重γ(i，j)以在保持水印不被听到的同时为水印分配尽可能多的能量，迭代是必要的。在章节3.2中给出了更多细节。

在第i个比特成型滤波器41i的输出端处的完整波为：

S_{i} (t) = \underset{j}{Σ} S_{i, j} (t) - - - (8)

尽管主要能量集中在比特间隔内，但对于远大于T_b的时间间隔，比特形成基带函数

通常不为零。在图12中可以看出一个实例，在图12中，对于两个相邻的比特绘制了相同的比特形成基带函数。在附图中，使T_b=40ms。T_b的选择以及函数的形状都对系统有很大的影响。实际上，较长的符号提供了较窄的频率响应。这在回响环境中特别有益。实际上，在这种场景下，加水印后的信号经由多个传播路径到达麦克风，每个传播路径都以不同的传播时间为特征。所得到的信道表现出强频率选择性。在时域中进行解释，当具有可与比特间隔相比的延迟的回声产生建设性的干扰时，较长的符号是有益的，这意味着，回声增大了接收到信号的能量。尽管如此，较长的符号也有一些缺陷；较大的重叠可能导致符号间干扰（ISI）并且肯定更难以隐藏在音频信号中，使得心理声学处理模块将允许相比于较短的符号更少的能量。

通过将比特形滤波器的所有输出相加获得水印信号：

\underset{j}{Σ} S_{i} (t) - - - (9)

3.2心理声学处理模块102

如图5所示，心理声学处理模块102由3部分组成。第一级为将时间音频信号转换到时域/频域中的分析模块501。该分析模块可以在不同的时间/频率分辨率中执行并行分析。在分析模块之后，时间/频率数据被传输至心理声学模块（PAM）502，其中，根据心理声学的考虑来计算水印信号的掩蔽阈值（参见E.Zwicker H.Fastl，“Psychoacoustics Facts andmodels”）。该掩蔽阈值指示可以隐藏在用于每个子带和时间块的音频信号中的能量数。心理声学处理模块102中的最后一个块描绘了幅度计算模块503。该模块确定将在水印信号的生成中使用的幅度增益，使得满足掩蔽阈值，即，嵌入的能量小于等于由掩蔽阈值定义的能量。

3.2.1时间/频率分析501

块501通过重叠变换来执行音频信号的时间/频率变换。当执行多个时间/频率分辨率时，可以实现最佳音频量。重叠变换的一个有效实施方式是基于窗口化时间块的快速傅立叶变换（FFT）的短时间傅立叶变换（STFT）。窗口长度决定时间/频率分辨率，使得较长的窗口产生较短的时间和较高的频率分辨率，而较短的窗口反之亦然。另一方面，在其他方面中，窗口的形状确定频率泄漏。

对于所提出的系统，发明人通过分析具有两个不同分辨率的数据来实现听不到的水印。第一滤波器组（first filter bank）以T_b的跳距（即，比特长度）为特征。跳距是两个相邻时间块之间的时间间隔。窗口长度大约为T_b。请注意，窗口形状不必与用于比特成型的窗口形状相同，并且一般地，应当模拟人听觉系统。许多出版物研究了该问题。

第二滤波器组应用较短的窗口。由于其时间结构一般比T_b更精细，当在语音中嵌入水印时，实现较高的时间分辨率特别重要。

输入音频信号的采样率不重要，只要其足够大而不会走样的情况下描述水印信号。例如，如果水印信号中包含的最大频率分量为6kHz，则时间信号的采样率必须至少为12kHz。

3.2.2心理声学模块502

心理声学模块502具有确定掩蔽阈值的任务，即，可以掩藏在每个子带和时间块的音频信号中的能量量，从而保持加水印的音频信号与原来的信号不可区分。

在两个极限之间，即，

和

之间定义第i个子带。通过定义N_f个中心频率f_i并使得对于i=2，3，…，N_f，

通过由Zwicker在1961年提出的Bark scale来给出对中心频率的适当选择。子带对于越高的中心频率而变得越大，该系统的一种可能实现使用以适当方式排列的在1.5kHz至6kHz范围内的9个子带。

对于每个子带和每个时间块的每个时间/频率分辨率，可以单独执行以下的处理步骤。处理步骤801执行频谱平滑。实际上，需要平滑调素（tonalelement）以及功率频谱中的缺口。这可以以多种方式来执行。可以计算音调测量，并然后用来驱动自适应平滑滤波器。可选地，在该块的较简单实现中，可以使用类似中值的滤波器。中值滤波器考虑了值的向量，并输出其中值。在中值滤波器中，可以选择对应于分位数差（different quantile）50%的值。在Hz中定义滤波器宽度并且被应用为在较低频率开始并在最高可能频率下结束的非线性活动平均。在图7中示出了801的操作。红色曲线为该平滑的输出。

一旦执行了平滑，则由仅考虑频率掩蔽（frequency masking）的块802来计算阈值。在该情况下，还有不同的可能性。一种方法是使用每个子带的最小值来计算掩蔽能量E_i。这是有效地操作掩蔽的信号的等效能量。根据该值，可以简单地乘以一定的比例因子，以获得掩蔽能量J_i。这些因子对于每个子带和时间/频率分辨率是不同的，并且经由经验心理声学实验来获得。在图8中示出了这些步骤。

在块805，考虑时间掩蔽。在该情况下，分析同一子带的不同时间块。根据经验得出的后掩蔽配置文件（postmasking profile）来修改掩蔽能量J_i。发明人考虑两个相邻时间块，即，k–1和k。对应的掩蔽能量为J_i(k–1)和J_i(k)。例如，后掩蔽配置文件定义了掩蔽能量E_i可以在时间k时掩蔽能量J_i并在时间k+1时掩蔽α·J_i能量。在该情况下，块805比较J_i(k)（由当前时间块掩蔽的能量）和α·J_i(k+1)（由前一时间块掩蔽的能量），并选择最大值。后掩蔽配置文件可以在文献中找到并已经经由经验心理声学实验所获得。值得注意的是，对于大的T_b，即，>20ms，仅对具有较短时间窗口的时间/频率分辨率应用后掩蔽。

总之，在块805的输出端处，具有针对两个不同的时间/频率分辨率所获得的每个子带和时间块的掩蔽阈值。已经通过考虑频率和时间掩蔽现象获得了阈值。在块806中，合并不同时间/频率分辨率的阈值。例如，一个可能的实现是，806考虑对应于其中分配了比特的时间和频率间隔的所有阈值，并选择最小值。

3.2.3幅度计算块503

参照图9，503的输入是执行来自所有心理声学刺激的计算的心理声学模块502的阈值505。在幅度计算器503中，执行与阈值的额外计算。首先，发生幅度映射901。该块仅将掩蔽阈值（通常被表示为能量）转换为可以用于缩放在章节3.1中定义的比特成型函数的幅度。之后，运行幅度自适应块（amplitude adaptation block）902。该块迭代地自适应用于使水印生成器101中的比特成型函数增倍的幅度γ(i，j)，使得实际上满足掩蔽阈值。实际上，如已经讨论的，比特成型函数通常延伸长于T_b的时间间隔。因此，使满足点i、j处的掩蔽阈值增倍的正确幅度γ(i，j)不一定满足点i、j-1的要求。当预回声变得可以听到时，这在强起始点处特别重要。另一个需要避免的情形是不同比特尾部的不期望的叠加，这将导致听得到的水印。因此，块902分析由水印生成器生成的信号，以检查是否已经满足了阈值。如果没有，则其相应地修改幅度γ(i，j)。

这终结了编码器侧。以下的部分涉及在接收器（还被指定为水印解码器）执行的处理步骤。

3.3分析模块203

分析模块203是水印提取过程的第一级（或块）。其目的是将加水印后的音频信号200a转换回N_f个比特流（还被指定为204），每个光谱频带i一个比特流。如分别在章节3.4和3.5中描述的，这些进一步由同步模块201和水印提取器202处理。应注意的是，是软比特流，即，例如，它们可以取任何实际值并且尚未对比特做出硬性决定。

分析模块由图16中示出的三个部分构成：分析滤波器组1600、幅度标准化块1604、以及差分解码1608。

3.3.1分析滤波器组1600

通过图10a中详细示出的分析滤波器组1600来将加水印后的音频信号转换到时频域中。滤波器组的输入是接收的加水印后的音频信号r(t)。其输出是在时间瞬间j的第i个分支或子带的复系数

这些值含有关于在中心频率f_i和时间j·Tb时的信号的幅度和相位的信息。

滤波器组1600由N_f个分支构成，每个频谱子带i一个分支。每个分支都被分成用于相位中分量的上子分支和用于子带i的正交分量的下子分支。尽管在水印生成器处的调制以及由此产生的加水印后的音频信号是纯粹实际值的，但需要在接收器处的信号的复杂值分析，这是因为，在接收器处不知道由信道和同步偏差引入的调制星座图（modulationconstellation）的旋转。在下文中，考虑滤波器组的第i个分支。通过将相位中和正交子分支相结合，可以将复杂值基带信号

定义为：

b_{i}^{AFB} (t) = r (t) \cdot e^{- j 2 π f_{i} t} * g_{i}^{R} (t) - - - (10)

其中，*表示卷积，并且

是子带i的接收器低通滤波器的脉冲响应。通常，

(t)等于调制器307中的子带i的基带比特形成函数

以满足匹配的滤波器条件，但其他脉冲响应也是可以的。

为了获得比率为1=T_b的系数

必须对连续的输出

进行采样。如果接收器知道比特的正确时序，用比率1=T_b进行采样将是足够的。然而，由于还不知道比特同步，因此用比率N_os/T_b执行采样，其中，N_os是分析滤波器组过采样系数。通过选择足够大的N_os（例如，N_os=4），可以假设，至少一个采样周期与理想的比特同步足够接近。在同步处理期间做出关于最佳过采样层的决定，因此在此期间保持所有的过采样数据。在章节3.4中详细描述了该处理。

在第i个分支的输出处，具有系数

其中，j表示比特数或时刻，并且k表示单个比特中的过采样位置，其中，k=1；2；....，N_os。

图10b给出了时频平面上的系数位置的示例性概述。过采样系数是N_os=2。矩形的高度和宽度分别表示由对应系数

表示的信号部分的带宽和时间间隔。

如果将子带频率f_i选择为特定间隔Δf的倍数，则可以使用快速傅立叶变换（FFT）来有效地实施分析滤波器组。

3.3.2幅度标准化1604

不失一般性的且为了简化描述，在下文中，假设已知比特同步并且N_os=1。即，在正交化块1604具有复杂系数

由于在接收器处没有信道状态信息可用（即，传播信道未知），因此使用等增益合并（EGC）方案。由于时间和频率分散的信道，不仅在中心频率f_i和时刻j附近发现发送比特b_i(j)的能量，在相邻的频率和时刻下也发现发送比特b_i(j)的能量。因此，为了更精确的加权，计算频率f_i±nΔf下的额外系数并将其用于系数的标准化。如果n=1，例如，则有：

b_{i}^{norm} (j) = \frac{b_{i}^{AFB} (j)}{\sqrt{1 / 3 \cdot ({| b_{i}^{AFB} (j) |}^{2} + {| b_{i - Δf}^{AFB} (j) |}^{2} + {| b_{i + Δf}^{AFB} (j) |}^{2})}} - - - (11)

n>1的标准化是上述公式的直接扩展。还可以以相同的方式选择通过考虑一个以上的时刻来将软比特标准化。针对每个子带i和每个时刻j来执行标准化。在提取过程的后续步骤中完成EGC的实际合并。

3.3.3差分解码1608

在差分解码块1608的输入端处，具有幅度标准化复杂系数其含有关于在频率f_i和时刻j下的信号分量的相位的信息。当在转置器处对比特差分地编码时，则必须在此执行逆操作。通过首先计算两个连续系数的相位差然后取实部来获得软比特

由于信道通常在每个子带中引入不同的相位旋转，因此这需要为每个子带单独执行。

3.4同步模块201

同步模块的任务是找到水印的时间对准。将解码器同步到编码数据的问题是两方面的。在第一步骤，分析滤波器必须与编码数据对准，即，在调制器的合成中使用的比特成型函数

必须与用于分析的滤波器对准。在图12a中示出了该问题，其中，分析滤波器与合成滤波器相同。在顶部处，可以看到三个比特。为了简单起见，全部三个比特的波形都不是按比例绘制的。不同比特之间的时间偏移为T_b。底部示出了解码器的同步问题：可以在不同时刻下应用滤波器，然而，只有被标记为红色的位置（曲线1299a）是正确的，并允许提取具有信噪比SNR和信号干扰比SIR的第一比特。实际上，错误的对准将导致SNR和SIR的退化。将该第一对准问题称为“比特同步”。一旦已经实现了比特同步，则可以以最佳方式来提取比特。然而，为了正确地将消息解码，需要知道新消息在哪个比特开始。在图12b中示出了该问题，并被称为消息同步。在解码比特流中，只有被标记为红色的开始位置（位置1299b）是正确的并允许将第k个消息解码。

首先，发明人仅专注于消息同步。章节3.1中解释的同步签名由连续且周期性地嵌入在水印中的预定顺序的Ns个序列组成。同步模块能够恢复同步序列的时间对准。根据大小N_s，可以区分分别在图12c和12d中示出的两个操作模式。

在全消息同步模式（图12c）中，有N_s=N_m/R_c。为了简单起见，在附图中，发明人假设N_s=N_m/R_c=6且没有扩时（time spreading，时间扩展），即，N_t=1。为了说明的目的，在消息的下面示出了同步签名。实际上，如章节3.1所示，根据编码比特和频率扩展序列来进行调制。在该模式下，同步签名的周期与消息之一相同。因此，同步模式可以通过找到同步签名的时间对准来识别每个消息的开始。发明人将新同步签名开始的时间位置称为同步瞬时干扰。然后，将同步瞬时干扰传递到水印提取器202。

在图12d中描述了第二可选模式，即，部分消息同步模式（图12d）。在该情况下，有N_s<N_m=R_c。在附图中，已经取N_s=3，使得对于每个消息，三个同步序列重复两次。请注意，消息的周期不必是同步签名的周期的倍数。在该操作模式中，并不是所有同步瞬时干扰都对应于消息的开始。同步模块没有区分瞬时干扰的手段，并且这个任务被提供给水印提取器202。

在图11a和图11b中描述了同步模块的处理块。通过分析同步签名相关器1201的输出，同步模块立刻执行比特同步和消息同步（全部或部分）。通过分析模块来提供时间/频率域204中的数据。如章节3.3描述的，当比特同步还不可用时，块203通过因子N_os对数据进行过采样。在图12e中给出了输入数据的说明。对于该实例，取N_os=4、N_t=2和N_s=3。换句话说，同步签名由3个序列（用a、b、c表示）组成。在具有扩展序列c_t=[1 1]^T的情况下，扩时在时域中简单地重复每个比特两次。所提取的同步瞬时干扰用箭头表示，并对应于每个同步签名的开始。同步签名的周期为N_t·N_os·N_s=N_sbl，其例如是2·4·3=24。由于同步签名的周期性，同步签名相关器（1201）任意地按大小为N_sbl的块（被称为搜索块）划分时间轴，N_sbl的下标表示搜索块长度。每个搜索块必须含有（或通常含有）图12f中示出的一个同步瞬时干扰。每个N_sbl比特都为候选的同步瞬时干扰。块1201的任务是计算每个块的每个候选的似然测量（likelihood measure）。然后，将该信息传递到用于计算同步瞬时干扰的块1204。

3.4.1同步签名相关器1201

对于每个N_sbl候选同步位置，同步签名相关器计算似然测量，似然测量越大，则越有可能已经找到时间对准（比特以及部分或全部消息同步）。在图12g中描述了该处理步骤。

因此，可以获得与不同位置选择相关联的可能值序列1201a。

块1301执行时间解扩，即，将每N_t个比特乘以时间扩展序列c_t然后将每一结果相加。这针对N_f个频率子带中的每一个来执行。图13a示出了实例。取与前一章节中描述的相同的参数，即，N_os=4、N_t=2和N_s=3。对候选同步位置进行标记。根据该比特，通过N_os偏移，块1301取得N_t·N_s，且时间用序列c_t扩展，使得剩下N_s个比特。

在块1302中，比特与N_s个扩展序列按元素相乘（见图13b）。

在块1303中，执行频率解扩，即，将每个比特与扩展序列c_f相乘，然后沿频率相加。

此时，如果同步位置是正确的，则将具有N_s个解码比特。由于比特对于接收器是已知的，因此块1304通过取N_s个值的绝对值以及和来计算似然测量。

块1304的输出原则上是查找同步签名的不相干相关器。事实上，当选择小的N_s时，即，部分消息同步模式，可以使用相互正交的同步序列（例如，a、b、c）。这样，当相关器未正确地与签名对齐时，其输出将非常小，理想地为零。当使用全消息同步模式时，建议使用尽可能多的正交同步序列，然后通过仔细选择它们被使用的顺序来提供签名。在该情况下，可以应用与以良好的自相关函数来查找扩展序列时相同的理论。当相关器只是轻微地不对准时，则即使在理想情况下，校准器的输出也将不会是零，但无论如何，相比于精确对准都将较小，因为分析滤波器不能以最佳方式来捕获信号能量。

3.4.2同步瞬时干扰计算1204

该块分析同步签名相关器的输出，以确定同步位置在何处。由于系统抵抗高达T_b/4的失准是相当稳健的，并且T_b通常取大约40ms，因此可以随时间来整合1201的输出，以实现更稳定的同步。沿具有指数衰减脉冲响应的时间应用的IIR滤波器给出了该可能实现。可选地，可以应用传统的FIR活动平均滤波器。一旦已经执行了平均化，则执行沿不同N_t·N_s的第二相关（“不同位置选择”）。事实上，我们想要利用关于同步函数的自相关函数是已知的信息。这对应于最大似然估计器。在图13c中示出了该思想。曲线示出了块1201在时间整合后的输出。确定同步瞬时干扰的一种可能是找到该函数的最大值。在图13d中，我们看到，用同步签名的子相关函数来过滤相同的函数（黑色）。所得到的函数用红色绘制。在该情况下，最大值更为明显，并且给出了同步瞬时干扰的位置。对于高SNR而言，这两种方法相当类似，但是在较低的SNR体制下，第二种方法执行得更好。一旦已经找到了同步瞬时干扰，则将其传递到将数据解码的水印提取器202。

在一些实施方式中，为了获得稳健的同步信号，用短同步签名以部分消息同步模式来执行同步。为此，需要进行许多解码，增大误报消息检测的风险。为了防止这样，结果，在一些实施方式中，可以以较低的比特率将信令序列插入到消息中。

该方法是对由比消息短的同步签名产生的问题的解决方案，该问题在增强的同步的以上描述中已经得到解决。在该情况下，解码器不知道新消息在何处开始并且试图在多个同步点解码。为了区分合法消息和误报（false positive），在一些实施方式中，使用了信令字（即，牺牲有效载荷以嵌入已知的控制序列）。在一些实施方式中，使用合理性检查（可选或另外地）以在正交消息和误报之间区分。

3.5水印提取器202

在图14中描述了构成水印提取器202的部分。其具有两个输入，即，分别是来自块203和201的204和205。同步模块201（参见章节3.4）提供了同步时间戳，即，候选消息开始的时域中的位置。在章节3.4中给出了该问题的更多细节。另一方面，分析滤波器组块203提供了准备好进行解码的时间/频率域中的数据。

第一处理步骤，数据选择块1501从输入端204选择被标识为待解码的候选消息的部分。图15图形化地示出了该程序。输入204由N_f个实值流构成。由于时间对准一开始就对于解码器是已知的，因此分析块203以高于1/T_b Hz的比率来执行频率分析（过采样）。在图15中，已经使用了过采样因子4，即，每T_b秒输出大小为N_f×1的4个因子。当同步块201识别了候选消息时，其传递指示候选消息的起始点的时间戳205。选择块1501选择用于解码所需的信息，即，大小为N_f×N_m/R_c的矩阵。该矩阵1501a被提供给块1502用于进一步处理。

块1502、1503、1504执行与章节3.4中说明的块1301、1302、和1303相同的操作。

本发明的可选实施方式由通过使同步模块还传递待解码的数据来避免在1502至1504中完成的计算构成。从实施的角度来看，仅仅是如何实现缓冲的问题。一般地，重新进行计算允许发明人具有较小的缓冲。

信道解码器1505执行块1302的逆操作。在该模块的可能实施方式中，如果信道编码器由卷积编码器连同交织器构成，则信道解码器将例如用已知的Viterbi算法来执行解交织和卷积解码。在该块的输出端处，具有N_m个比特，即，候选消息。

块1506，即，信令和真实性块，确定输入后续消息是否的确为消息。若要做到这一点，不同的策略都是可行的。

基本思想是使用信令字（例如，CRC序列）来区分真消息和假消息。然而，这减小了可用作有效载荷的比特数。可选地，可以使用真实性检查。例如，如果消息含有时间戳，则连续消息必须具有连续的时间戳。如果解码的消息具有不是正确顺序的时间戳，可将其丢弃。

当已经正确地检测了消息时，系统可以选择应用前看和/或回看机制。假设已经实现了比特和消息同步。假定用户还没有切换频道，则系统及时“回看”并试图使用相同的同步点将过去的消息解码（如果还没有解码）（回看方法）。当系统开始时，这特别有用。此外，在不好的情况下，可以采用2个消息来实现同步。在该情况下，第一消息没有机会。通过回看选项，可以保存仅由于向后同步而没有接收到的“好”消息。前看与此相同，但是是在以后起作用。如果现在具有消息，则知道下一消息应当在何处，并且可以无论如何都试图将其解码。

3.6同步细节

为了有效负载的编码，例如，可以使用Viterbi算法。图18a示出了Viterbi编码的有效负载的有效负载1810、Viterbi终止序列1820、Viterbi编码的有效负载1830、以及重复编码版本1840的曲线表示。例如，有效负载长度可以是34个比特，并且Viterbi终止序列可以包括6个比特。例如，可以使用1/7的Viterbi码率，Viterbi编码有效负载可以包括(34+6)*7=280个比特。此外，通过使用1/2的重复编码，Viterbi编码的有效负载1830的重复编码版本1840可以包括280*2=560个比特。在该实例中，考虑到42.66ms的比特时间，消息长度均为23.9s。信号可以通过如由图18b中示出的频谱指示的从1.5kHz至6kHz的9个子载波（例如，根据临界频带来放置）嵌入。可选地，可以使用0kHz和20kHz之间的频率范围中的其他数量的子载波（例如，4、6、12、15、或2和20之间的数）。

图19示出了用于同步（还被称为ABC同步）的基本概念1900的示意性说明。其示出了非编码消息1910、编码消息1920、以及同步序列（synch序列）1930、以及将同步应用于彼此跟随的多个消息1920的示意性说明。

结合该同步概念（在图19至图23中所示）的解释所提到的同步序列或synch序列可以等于之前提到的同步签名。

此外，图20示出了通过与synch序列相关所发现的同步的示意性说明。如果同步序列1930短于该消息，则将在单个消息内找到一个以上的同步点1940（或对准时间块）。在图20示出的消息中，在每个消息中发现了4个同步点。因此，对于发现的每个同步，可以起动Viterbi解码器（Viterbi解码序列）。这样，对于每个同步点1940，如图21所示，可以获得消息2110。

如图22所示，基于这些消息，可以通过CRC序列（循环冗余校验序列）和/或真实性检查来识别真消息2210。

CRC检测（循环冗余校验检测）可以使用已知的序列来识别误报的真消息。图23示出了添加到有效负载末端的CRC序列的实例。

误报（基于错误的同步点所生成的消息）的概率可以取决于CRC序列的长度以及开始的Viterbi解码器的数量（单个消息中的同步点的数量）。为了在不增大误报的概率的情况下增大有效负载的长度，可以利用真实性（真实性测试）或者可以增大同步序列（同步签名）的长度。

4.概念和优势

在下文中，将描述上述系统的被认为有创新性的一些方面。此外，将描述这些方面与现有技术状态之间的关系。

4.1连续同步

一些实施方式允许连续同步。表示为同步签名的同步信号经由与发送和接收侧都已知的序列（也被指定为同步扩展序列）相乘而连续且并行地嵌入到数据。

一些传统系统使用特殊符号（不同于用于数据的那些），而根据本发明的一些实施方式不使用这种特殊符号。其他经典方法包括嵌入与数据时间复用的比特（前导）序列，或者嵌入与数据频率复用的信号。

然而，已经发现，使用专用于同步的子带是不理想的，由于信道可能在这些频率下具有缺口，因此使得同步是不可靠的。相比于其中前导或特殊符号与数据时间复用的其他方法，本文描述的方法是更有利的，因为这里描述的方法允许连续地跟踪同步的变化（例如，由于移动引起）。

此外，水印信号的能量是不变的（例如，通过将水印倍增地引入到扩展信息表示型态中），并且可以独立于心理声学模型和数据率来设计同步。可以独立于数据率完全随意地设计同步签名的决定了同步的稳健性的时间长度。

另一经典方法包括嵌入与数据码复用的同步序列码。相比于该经典方法，本文描述的方法的优点在于数据能量不代表相关性计算中的干扰因素，由此带来了更多的稳健性。此外，当使用码复用时，可用于同步的正交序列的数量减小，而一些序列对于数据而言是必要的。

总而言之，本文描述的连续同步方法相比于传统概念带来了大量的优点。

然而，在根据本发明的一些实施方式中，可以应用不同的同步概念。

4.2 2D扩展

所提出的系统的一些实施方式执行时域和频域扩展，即，二维扩展（简单被表示为2D扩展）。已经发现，相对于1D系统，这是有利的，因为通过例如在时域中添加冗余可以进一步减小误码率。

然而，在根据本发明的一些实施方式中，可以应用不同的扩展概念。

4.3差分编码和差分解码

在根据本发明的一些实施方式中，通过差分调制，带来了对本地振荡器的移动和频率不匹配的增大了的稳健性（相比于传统系统）。已经发现，事实上，Doppler（多普勒）效应（移动）和频率不匹配导致了BPSK星座的旋转（换句话说，关于比特的复平面的旋转）。在一些实施方式中，通过使用差分编码或差分解码，避免了BPSK星座的这种旋转的不利影响。

然而，在根据本发明的一些实施方式中，可以应用不同的编码概念或解码概念。此外，在一些情况下，可以省略差分编码。

4.4比特成型

在根据本发明的一些实施方式中，比特成型带来了系统性能的显著提高，这是因为，使用适于比特成型的滤波器可以增大检测的可靠性。

根据一些实施方式，相对于水印对比特成型的使用带来了水印处理的提高的可靠性。已经发现，如果比特成型函数长于比特间隔，可以获得特别好的结果。

然而，在根据本发明的一些实施方式中，可以应用不同的比特成型概念。此外，在一些实施方式中，可以省略比特成型。

4.5心理声学模型（PAM）和滤波器组（FB）合成之间的交互

在一些实施方式中，心理声学模型与调制器交互，以微调倍增比特的幅度。

然而，在一些实施方式中，可以省略该交互。

4.6前看和回看特征

在一些实施方式中，应用所谓的“回看”和“前看”方法。

以下，将简要地总结这些概念。当正确地将消息解码时，假设已经实现了同步。假定用户没有切换频道，在一些实施方式中，及时执行回看，并且尝试使用相同的同步点来将过去的消息解码（如果还没有解码）（回看方法）。当系统开始时，这特别有用。

在不好的条件下，可以用2个消息来实现同步。在该情况下，第一消息在传统系统中没有机会。借助于在本发明的一些实施方式中使用的回看选项，可以保存（或解码）仅由于向后同步而没有接收到的“好”消息。

前看是相同的，但是在未来起作用。如果现在有消息，则知道下一消息应当在何处，并且可以尝试无论如何将其解码。因此，可以将重叠消息解码。

然而，在根据本发明的一些实施方式中，可以省略前看特征和/或回看特征。

4.7增大的同步稳健性

在一些实施方式中，为了获得稳健的同步信号，通过短同步签名以部分消息同步模式来执行同步。为此，需要完成许多解码，从而增大了误报消息检测的风险。为了防止这种情况，在一些实施方式中，结果，可以以较低的比特率将采样序列插入消息中。

然而，在根据本发明的一些实施方式中，可以应用用于改善同步稳健性的不同概念。此外，在一些情况下，可以省略用于增大同步稳健性的任何概念的使用。

4.8其他提高

以下，将提出并讨论上述系统相对于北京技术的一些其他一般提高：

1.低计算复杂度

2.由于较好的心理声学模块产生的较好的音频质量

3.由于窄带多载波信号产生的回响环境中的更大稳健性

4.在一些实施方式中避免了SNR估计。这允许更好的稳健性，尤其在低SNR体制中。

出于以下原因，根据本发明的一些实施方式要好于使用非常窄的宽带（例如，8Hz）的传统系统：

1.8Hz的带宽（或类似的非常窄的带宽）需要非常长的时间符号，这是因为心理声学模块允许非常少的能量来使其听不到；

2.8Hz（或类似的非常窄的带宽）使得其对时间变化多普勒谱敏感。因此，如果例如在手表中实施，这种窄带系统通常不够好。

出于以下原因，根据本发明的一些实施方式比其他技术好：

1.输入回声的技术在回音的房间中完全失效。相反，在本发明的一些实施方式中，避免了引入回声。

2.在其中使用例如在时间和频率中的二维扩展的上述系统的比较实施方式中，仅使用时间扩展的技术具有较长的消息持续时间。

根据本发明的一些实施方式比在DE196 40 814中描述的系统好，这是因为，克服了根据所述文献的系统的以下缺点中的一个或多个：

根据DE196 40 814的解码器中的复杂度非常高，使用长度为2N（N=128）的滤波器

根据DE196 40 814的系统包括长消息时序时间

在根据DE196 40 814的系统中，仅以相对高的扩展增益（例如，128）在时域扩展

在根据DE196 40 814的系统中，信号在时域生成，变换到谱域，变换回时域，并叠加到音频，这使得系统非常复杂

5.应用

本发明包括修改音频信号以隐藏数字数据的方法以及能够恢复该信息且修改的音频信号的感知质量保持与原始的不可区分的对应解码器。

以下给出了本发明的可能应用的实施方式

1.广播监控：在电台或电视节目的音频信号中隐藏含有关于例如台和时间的信息的水印。纳入由测试对象佩带的小装置中的解码器能够恢复水印，因此收集用于广告代理的有价值信息，即，何人在何时观看何节目。

2.审计：水印可以隐藏在例如广告中。通过自动监控某台的传输，可以确切地知道何时广播广告。类似地，可以检索关于不同电台的编程机制的统计信息，例如，某音乐片段播放的频率等。

3.元数据嵌入：所提出的方法可以用于隐藏关于音乐片段或节目的数字信息，例如，片段的命名和作者或节目的持续时间等。

总结上述实施方式并将图1至23的实施方式与图24和25的实施方式相比较，这些实施方式描述了一种水印信号提供器2400、101b，用于提供当被添加到音频信号时适于隐藏在音频信号2430、106中的水印信号2440，使得水印信号表示水印数据2450、101a，水印信号提供器包括用于确定音频信号的掩蔽阈值的心理声学处理器2410、101a，以及101中的调制器2420、307，用于从由等式8以及例如图12a中示出的样本成型函数

表示的叠加来生成水印信号，其中，样本成型函数以水印数据的时间离散表示型态b_diff(i，j)的样本时间间隔（即，等长度M_p的上述数据包）彼此隔开，每个样本成型函数都用时间离散表示型态的相应样本b_diff(i，j)来幅度加权，每个样本与取决于掩蔽阈值的相应幅度权重γ(i；j)相乘，调制器被配置为使得样本时间间隔T_b短于图12a中示意性示出的样本成型函数的时间延伸；并且相应幅度权重γ(i；j)还取决于在时间上与相应样本相邻的时间离散表示型态的样本。

特别地，心理声学处理器可以被配置为确定独立于水印数据2450的掩蔽阈值，并且调制器可以被配置为通过以下项迭代地生成水印信号：基于独立于水印数据的掩蔽阈值初步地确定初步幅度权重γ(i；j)，并检查使用初步幅度权重作为相应幅度权重的样本成型函数的叠加是否干扰了掩蔽阈值。如果干扰了掩蔽阈值，则改变初步幅度权重以获得使用改变的幅度权重作为相应幅度权重的样本成型函数的叠加。如上面已经给出的，在检查中，由于样本成型函数的叠加和时间延伸超过了样本时间间隔而导致时间离散表示型态的相邻样本彼此影响/干扰，用于生成水印信号的孔迭代过程和最终使用的幅度加权分别依赖于水印数据表示型态的这些相邻样本。换句话说，检查促使了最终使用的幅度权重γ(i；j)对样本b_diff(i，j±1的相关性，并且使得在水印信号的水印可提取性和不可听性之间有良好的平衡。当但，可以迭代地重复检查、叠加、和改变的过程。

刚刚提到的对水印数据表示的相邻样本的相关性可以可选地通过非迭代地设置幅度加权来实现。例如，调制器可以基于(i，j)处的掩蔽阈值以及相邻水印样本b_diff(i，j±1)来分析性地确定幅度权重γ(i；j)。

可以使用时间扩展器305在时间上扩展水印数据，以获得时间离散表示型态。此外，可以使用频率扩展器303在频域上扩展水印数据，以获得时间离散表示型态。可以使用时间/频率分析器501以大约是样本时间间隔的第一窗口长度而通过重叠变换将音频信号从时域转换到频域。时间/频率分析器可以被配置为也使用短于第一窗口长度的第二窗口长度而通过重叠变换将音频信号从时域转换到频域。

当时间离散表示型态由时间离散子带组成时，调制器可以被配置为根据以样本时间间隔隔开的样本成型函数的等式8和9，根据叠加为每个时间离散子带生成水印信号，其中，每个样本成型函数都用相应时间离散子带的相应样本幅度加权，相应时间离散子带与取决于掩蔽阈值的相应幅度权重相乘，相应时间离散子带的叠加的样本成型函数

包括在相应时间离散子带i的中心频率f_i下的载波频率。

此外，上述实施方式描述了水印嵌入器2500、100，其包括水印信号提供器2400和用于将水印信号和音频信号相加以获得加水印的音频信号的相加器2510。

6.实施替代方案

尽管已经在设备的上下文中描述了一些方面，很显然，这些方面还代表对应方法的描述，其中，块或装置对应于方法步骤或方法步骤的特征。类似地，在方法的上下文中描述的方面还代表对应设备的对应块或项或特征的描述。一些或全部的方法步骤可以通过（或使用）硬件设备来执行，例如，微处理器、可编程计算机、或电子电路。在一些实施方式中，最重要方法步骤的一个或多个可以由这种设备来执行。

本发明的编码水印信号或其中嵌入了水印信号的音频信号可以存储在数字存储介质上或者可以在传输介质（诸如无线传输介质或诸如互联网的有线传输介质）上传输。

根据特定实施需求，可以在硬件或软件中实施本发明的实施方式。可以使用上面存储了与可编程计算机系统协作（或者能够协作）使得执行各方法的电可读控制信号的数字存储介质（例如，软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM、或FLASH存储器）来执行该实施。因此，数字存储介质可以是计算机可读的。

根据本发明的一些实施方式包括具有电可读控制信号的数据载体，电可读控制信号能够与可编程计算机系统协作，使得执行这里描述的方法之

一般地，本发明的实施方式可以实施为具有程序代码的计算机程序产品，当计算机程序产品在计算机上运行时，程序代码被操作为用于执行方法之一。程序代码例如可以存储在机器可读载体上。

其他实施方式包括存储在机器可读载体上的用于执行本文描述的方法之一的计算机程序。

换句话说，因此，本发明方法的实施方式是计算机程序，其具有用于当在计算机上运行计算机程序时执行这里描述的方法之一的程序代码。

本方法的另一实施方式由此是数据载体（或数字存储介质，或计算机可读介质），包括（即，上面存储了）用于执行本文描述的方法之一的计算机程序。

本方法的另一实施方式因此是表示用于执行本文描述的方法之一的计算机程序的数据流或信号序列。数据流或信号序列可以例如被配置为经由数据通信连接（例如，经由互联网）传输。

另一实施方式包括被配置为或适于执行这里描述的方法之一的处理装置，例如，计算机或可编程逻辑装置。

另一实施方式包括其上安装了用于执行本文描述的方法之一的计算机程序的计算机。

在一些实施方式中，可编程逻辑装置（例如，场编程门阵列）可以用于执行本文描述的方法的功能的一些或全部。在一些实施方式中，场可编程门阵列可以与微处理器协作，以执行本文描述的方法之一。一般地，优选地通过任意的硬件设备来执行该方法。

上述实施方式仅用于说明本发明的原理。应当理解，对于本领域普通技术人员来说，本文描述的配置和细节的修改和变化将是显而易见的。因此，它们旨在仅由所附专利权利要求的范围来限定，而不是通过描述和说明本文的实施方式所给出的具体细节来限定。

Claims

1.一种水印信号提供器（2400），用于提供当被添加到音频信号（2430；106）时适于隐藏在所述音频信号中的水印信号（2440；101b），使得所述水印信号表示水印数据（2450；101a），所述水印信号提供器包括：

心理声学处理器（2410；102），用于确定所述音频信号的掩蔽阈值；以及

调制器（2420；307），用于根据以所述水印数据的时间离散表示型态的样本时间间隔（T_b）彼此隔开的样本成型函数的叠加，来生成所述水印信号，每个所述样本成型函数分别用所述时间离散表示型态的相应样本来幅度加权，所述相应样本与取决于所述掩蔽阈值的相应幅度权重相乘，所述调制器被配置为使得：

所述样本时间间隔短于所述样本成型函数的时间延伸；以及

所述相应幅度权重还取决于在时间上与所述相应样本相邻的所述时间离散表示型态的样本。

2.根据权利要求1所述的水印信号提供器，其中，所述心理声学处理器被配置为确定独立于所述水印数据的所述掩蔽阈值，并且所述调制器被配置为通过以下项来迭代地生成所述水印信号：

基于独立于所述水印数据的所述掩蔽阈值，初步确定初步幅度权重；

检查使用所述初步幅度权重作为所述相应幅度权重的所述样本成型函数的叠加是否干扰所述掩蔽阈值；以及

如果使用所述初步幅度权重作为所述相应幅度权重的所述样本成型函数的叠加干扰了所述掩蔽阈值，则改变所述初步幅度权重，以获得使用改变了的幅度权重作为所述相应幅度权重的所述样本成型函数的叠加。

3.根据权利要求1或2所述的水印信号提供器，还包括用于在时间上扩展所述水印数据以获得所述时间离散表示型态的时间扩展器（305）。

4.根据权利要求1至3中任一项所述的水印信号提供器，还包括用于在频域中扩展所述水印数据以获得所述时间离散表示型态的频率扩展器（303）。

5.根据以上任一权利要求所述的水印信号提供器，其中，所述心理声学处理器包括用于使用大约为所述样本时间间隔的第一窗口长度而通过重叠变换将所述音频信号从所述时域转换到频域的时间/频率分析器（501）。

6.根据权利要求5所述的水印信号提供器，其中，所述时间/频率分析器被配置为也使用短于所述第一窗口长度的第二窗口长度而通过所述重叠变换将所述音频信号从所述时域转换到所述频域。

7.根据以上任一权利要求所述的水印信号提供器，其中，所述时间离散表示型态由时间离散子带组成，其中，所述调制器被配置为针对每个时间离散子带根据以所述样本时间间隔隔开的样本成型函数的叠加，来生成所述水印信号，其中，每个所述样本成型函数分别用所述相应时间离散子带的相应样本来幅度加权，所述相应样本与取决于所述掩蔽阈值的相应幅度权重相乘，用于所述相应时间离散子带的叠加的所述样本成型函数包括在所述相应时间离散子带的中心频率处的载波频率。

8.一种水印嵌入器，包括：

根据上述权利要求中任一项所述的水印信号提供器，用于提供当被添加到音频信号时适于隐藏在所述音频信号中的水印信号，使得所述水印信号表示水印数据，以及

相加器，用于将所述水印信号和所述音频信号相加以获得加水印的音频信号。

9.一种用于提供当被添加到音频信号（106）时适于隐藏在所述音频信号中的水印信号（101b）的方法，使得所述水印信号表示水印数据（101a），所述方法包括：

确定所述音频信号的掩蔽阈值；以及

根据以所述水印数据的时间离散表示的样本时间间隔（T_b）彼此隔开的样本成型函数的叠加，来生成所述水印信号，每个所述样本成型函数分别用所述时间离散表示型态的相应样本来幅度加权，所述相应样本与取决于所述掩蔽阈值的相应幅度权重相乘，所述生成被执行为使得：

所述样本时间间隔短于所述样本成型函数的时间延伸；以及

10.一种水印嵌入方法，包括

根据权利要求9提供当被添加到音频信号时适于隐藏在所述音频信号中的水印信号，使得所述水印信号表示水印数据；

将所述水印信号和所述音频信号相加，以获得加水印的音频信号。

11.一种计算机程序，存储有用于当在计算机上运行时执行根据权利要求9或10所述的方法的指令。