CN102859587B

CN102859587B - 水印生成器、水印解码器、用于根据二进制消息数据提供水印信号的方法、用于根据水印信号提供二进制消息数据的方法

Info

Publication number: CN102859587B
Application number: CN201180020757.1A
Authority: CN
Inventors: 斯特凡·瓦布尼克; 约尔格·皮克尔; 伯特·格文博希; 伯恩哈德·格里; 恩斯特·埃伯莱因; 乔瓦尼·德尔加尔多; 斯特凡·克雷格洛; 赖因哈德·兹茨曼; 托比亚斯·布利姆; 马尔科·布雷林; 尤利娅内·博尔苏姆
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2010-02-26
Filing date: 2011-02-22
Publication date: 2014-11-05
Anticipated expiration: 2031-02-22
Also published as: US9350700B2; CN102859587A; AU2011219835A1; BR112012021022B1; RU2012140702A; MX2012009861A; WO2011104239A1; EP2362387A1; JP2013520694A; EP2522014A1; EP2522014B1; PL2522014T3; KR20120128145A; MY162294A; CA2790648C; HK1178667A1; RU2586844C2; US20130227295A1; AU2011219835B2; CA2790648A1

Abstract

一种水印生成器（2400），用于根据二进制消息数据（2410）提供水印信号（2420），包括信息处理器（2430），被配置为根据二进制消息数据的消息单位提供第一时频域表示型态（2432），第一时频域表示型态的值表示二进制消息数据。水印生成器还包括差分编码器（2440），被配置为根据第一时频域表示型态导出第二时频域表示型态（2442），使得第二时频域表示型态包括多个值，其中，第二时频域表示型态的两个值之间的差表示第一时频域表示型态的对应值，以获得第一时频域表示型态的值的差分编码。水印生成器还包括被配置为基于第二时频域表示型态提供水印信号的水印信号提供器（2450）。

Description

水印生成器、水印解码器、用于根据二进制消息数据提供水印信号的方法、用于根据水印信号提供二进制消息数据的方法

技术领域

根据本发明的实施方式涉及用于根据二进制消息数据来提供水印信号的水印生成器。根据本发明的另一实施方式涉及用于根据加水印后的信号来提供二进制消息数据的水印解码器。根据本发明的又一实施方式涉及用于根据二进制消息数据来提供水印信号的方法。根据本发明的又一实施方式涉及根据加水印后的信号来提供二进制消息数据的方法。本发明的其他实施方式涉及相应的计算机程序。

根据本发明的一些实施方式涉及稳健的低复杂度的音频水印系统。

背景技术

在许多技术应用中，需要在表示有用数据或“主数据”（例如，音频信号、视频信号、图形、测量量等）等的信息或信号中包括附加信息。在许多情况下，需要包括附加数据，使得附加数据以不被该数据的用户感知的方式结合到主数据（例如，音频数据、视频数据、静态图像数据、测量数据、文本数据等）。此外，在一些情况下，需要包括附加数据，使得附加数据不能容易地从主要数据（例如，音频数据、视频数据、静态图像数据、测量数据等）中去除。

在需要实施数字权利管理的应用中，尤其如此。然而，有时只是需要在有用数据中添加实质上不可感知的边信息（side information）。例如，在一些情况下，理想的是将边信息添加到音频数据，使得边信息提供关于音频数据源、音频数据的内容、与音频数据相关的权利等的信息。

为了将附加数据嵌入到有用数据或“主数据”中，可以使用所谓的“水印”的概念。在例如音频数据、静态图像数据、视频数据、文本数据等的多种不同的有用数据的文献中，已经讨论了水印概念。

在下文中，将给出其中讨论了水印概念的一些参考。然而，为了获得更详细的信息，读者还应关注与水印相关的宽领域的文本文献以及应用。

DE196 40 814C2描述了一种用于将非可听数据信号（non-audibledata signal）引入到音频信号中的编码方法以及用于对以非可听形式包括在音频信号中的数据信号进行解码的方法。用于将非可听数据信号引入到音频信号中的编码方法包括将音频信号转换为频谱域。编码方法还包括确定音频信号的掩蔽阈值和伪噪声信号的供应。编码方法还包括提供数据信号并将伪噪声信号和该数据信号相乘，以获得频分数据信号。编码方法还包括将频分数据信号和掩蔽阈值加权并将音频信号和加权的数据信号叠加。

另外，WO93/07689描述了用于通过向节目的声音信号添加听不见的编码消息，自动识别由电台或电视频道广播或者记录在介质上的节目的方法和设备，其中，上述消息识别广播频道或电台、节目和/或提取日期。在该文献描述的实施方式中，将由模拟数字转换器将声音信号传输至数据处理器，该数据处理器能够分离频率分量，并使得能够以预定方式改变一些频率分量中的能量以形成编码的识别消息。数据处理器的输出通过数字模拟转换器连接至音频输出端，用于广播或记录声音信号。在该文献描述的另一实施方式中，采用模拟带通，以从声音信号分离频率带，使得可以这样改变分离的频率带中的能量以对声音信号编码。

US5,450,490描述了用于在声音信号中包括具有至少一个码频率分量的码的设备和方法。评估音频信号中各频率分量屏蔽人类听觉的码频率分量的能力，并且基于这些评估，为码频率分量分配幅度。还描述了用于检测编码的音频信号中的码的方法和设备。基于预期码幅度或包括码分量的频率的音频频率范围中的噪声幅度，检测编码的音频信号中的码频率分量。

WO94/11989描述了用于编码/解码广播或记录的片段并监控其观众接触率的方法和设别。描述了用于将广播或记录的片段信号中的信息编码和解码的方法和设备。在文献描述的实施方式中，观众监控系统使用扩频编码将广播或记录的片段的音频信号部分中的标识信息编码。监控装置经由麦克接收广播或记录的信号的声学再生版本，将标识信息从音频信号部分解码而不管显著的环境噪声并存储该信息，自动提供该观众的日志，该日志随后将被上传到中心装置。单独的监控装置将另外的信息从广播信号解码，其与中心装置的观众日志信息匹配。该监控器可以使用拨号电话线同时向中心装置发送数据，并通过使用扩频技术编码并用来自第三方的广播信号调制的信号从中心装置接收数据。

WO95/27349描述了用于在音频信号中包括码并解码的设备和方法。描述了用于在音频信号中包括具有至少一个码频率分量的码的设备和方法。评估音频信号中各频率分量屏蔽人类听觉的码频率分量的能力，并且基于这些评估，为码频率分量分配幅度。还描述了用于检测编码的音频信号中的码的方法和设备。基于预期码幅度或包括码分量的频率的音频频率范围中的噪声幅度，检测编码的音频信号中的码频率分量。

然而，在已知的水印系统中，如果水印信号受到多普勒偏移（Dopplershift）的影响会出现可靠性问题，例如，多普勒偏移会因为接收水印信号的设备的移动而发生，或者在水印生成器侧和水印解码器侧的本地振荡器不匹配的情况下发生。

鉴于这种情况，本发明的目的是创建水印概念和水印检测概念，如果多普勒频率偏移影响水印信号或者在水印生成器和水印解码器的本地振荡器之间有频率偏差，则其能够实现提高了的可靠性。

发明内容

本发明的目的是通过如下来实现的：根据权利要求1的水印生成器、根据权利要求7或权利要求8的水印解码器、根据权利要求13的用于根据二进制消息数据来提供水印信号的方法、根据权利要求14的用于根据加水印后的信号来提供二进制消息数据的方法、以及根据权利要求15的计算机程序。

根据本发明的实施方式创建了用于根据二进制消息数据提供水印信号的水印生成器。水印生成器包括信息处理器，被配置为根据二进制消息数据的信息单位（例如，比特）来提供第一时频域表示型态，第一时频域表示型态的值表示二进制消息数据。水印生成器还包括差分编码器，被配置为从第一时频域表示型态导出第二时频域表示型态，使得第二时频域表示型态包括多个值，其中，第二时频域表示型态的两个值之间的差表示第一时频域表示型态的对应值，以获得第一时频域表示型态的值的差分编码。水印生成器还包括水印信号提供器，被配置为基于第二时频域表示型态来提供水印信号。

本发明的思想在于，如果将相邻的时频域值（例如，与相邻的频率带或比特间隔相关联）编码，使得这些相邻的信号部分的特征（该特征由第二时频域表示型态的值表示）之间的差允许唯一地得出第一时频域表示型态的对应值，则水印信号相对于利用例如多普勒效应的退化特别稳健。换句话说，时频域中的差分编码例如通过提供其水印音频内容由第二时频域表示型态确定的时频域音频信号，而能够生成稳健的加水印后的信号。

因此，通过差分调制实现了抗本地振荡器的移动和频率不匹配的提高了的鲁棒性。实际上，例如由将水印音频信号提供到水印解码器的信号传感器的移动所引起的多普勒效应以及频率不匹配，导致了调制星座的旋转，例如，二进制相移键控（BPSK）星座。可以通过差分编码，减小或完全消除该多普勒偏移或频率不匹配的不利影响。因此，差分编码具有基于第二时频域表示型态所提供的水印信号相对于复平面中的比特旋转不敏感的效果。

在优选实施方式中，信息处理器被配置为提供第一时频域表示型态，使得第一时频域表示型态的值表示二进制模式的二进制消息数据。在该情况下，差分编码器被配置为导出第二时频域表示型态，使得如果第一时频域表示型态的对应值取第一值，在第二时频域的两个连续值之间有相变，并且使得如果第一时频域表示型态的对应值取不同于第一值的第二值，则在第二时频域的两个连续值之间没有相变。

在优选实施方式中，水印信号提供器被配置为基于第二时频域表示型态来提供音频信号，使得水印信号的水印频率分量响应于第一时频域表示型态的第一值包括阶梯式或平滑的相变，并且使得水印信号的水印频率分量响应于第一时频域表示型态的不同于第一值的第二值包括时间上恒定的相位。

在优选实施方式中，水印信号提供器被配置为响应于第二时频域表示型态的第一值提供第一比特成型波形，并响应于第二时频域表示型态的第二值提供第二比特成型波形。水印信号提供器被配置为响应于在第一时频域表示型态中存在第一值，在水印信号中包括同一比特成型波形的时间偏移版本的加权或非加权叠加，并且响应于在第一时频域表示型态中存在不同于第一值的第二值，在水印信号中包括第一比特成型波形和第二比特成型波形的时间偏移版本的加权或非加权叠加。该实施方式带来了以下优势：如果比特成型波形明显不同，则同一比特成型波形的时间偏移版本的和（或叠加）可以容易地与第一比特成型波形和第二比特成型波形的和（或叠加）区分。由于连续比特成型波形受到经由其传输水印信号的信道的影响，因此以相同或至少大致相同的方式，可以简单地得出第一时频域表示型态的值，这是因为，两个相同（或大致相同）的比特成型波形的接收能够得出第一时频域表示型态的值在第一状态（例如，+1）中的结论。类似地，任何两个明显不同的比特成型波形的接收允许得出第一时频域表示型态的值在第二状态（例如，–1）中的结论。

在优选实施方式中，第二比特成型波形为第一比特成型波形的逆形式。这允许借助于最小过滤的努力和/或相关性努力而容易地得出第一时频域表示型态的值。

本发明的优选实施方式创建了用于根据加水印后的信号提供二进制消息数据的水印解码器。水印解码器包括时频域表示型态提供器，被配置为提供加水印后的信号的第一时频域表示型态。水印解码器还包括差分解码器，被配置为根据第一时频域表示型态导出第二时频域表示型态，使得第二时频域表示型态的值取决于第一时频域表示型态的两个对应（并且优选地相邻）值之间的相位差。水印解码器还包括同步确定器，被配置为基于第二时频域表示型态获得同步信息。水印解码器还包括水印提取器，被配置为使用同步信息从加水印后的信号的第一时频域表示型态或者从加水印后的信号的第二时频域表示型态提取二进制消息数据。

根据本发明的另一实施方式创建了一种用于根据加水印后的信号来提供二进制消息数据的水印解码器。水印解码器包括差分解码器和被配置为提供加水印后的信号的第一时频域表示型态的时频域表示型态提供器。差分解码器被配置为根据第一时频域表示型态导出第二时频域表示型态，使得第二时频域表示型态的值取决于第一时频域表示型态的两个对应值之间的相位差。水印解码器还包括被配置为从第二时频域表示型态提取二进制消息数据的水印提取器。

本发明的这些实施方式基于以下发现：通过评估第一时频域表示型态的相邻值之间的相位差，可以提高水印解码的可靠性，其中，第一时频域表示型态例如表示多个时间间隔的不同频率带中的水印信号的幅度或能量以及相位。已经发现，第一时频域表示型态的相邻（例如，时间上相邻或频率相邻）值之间的差通常相对于多种典型的信道失真（例如，信道的足够满的编码、多普勒频率偏移等）很稳健，其中，例如，该差可以使用滤波器组或使用傅立叶变换或MDCT变化从水印音频信号导出。因此，可以以可靠的方式获得第二时频域表示型态，并且第二时频域表示型态因此对经由其传输水印信号的信道不敏感。因此，上述水印解码器提供了程度非常高的可靠性。

在优选实施方式中，时频域提供器被配置为针对多个频率带或多个时间间隔提供软比特系数，该软比特系数描述了各频率带和时间间隔中的水印信号的幅度和相位。差分解码器被配置为基于第一时频域表示型态的两个对应值或者其预处理版本，确定与给定频率带和给定时间间隔相关联的第二时频域表示型态的值。使用第一时频域表示型态的两个值以获得第二时频域表示型态的一个值，可以评估第一时频域表示型态的两个值之间的相位差。该处理可以基于实际值和/或复杂值来完成。因此，通过使用第一时频域表示型态的两个值以获得第二时频域表示型态的值，可以大致补偿不会对第一时频域表示型态的相邻值有强烈不同影响的信道的任何慢变化。

在优选实施方式中，水印解码器包括被配置为用比特形成函数对水印信号或者其下混版本进行卷积的分析滤波器组。在该情况下，水印解码器被配置为对卷积结果进行时间采样，以获得第一时频域表示型态的时间离散值。水印解码器被配置为根据同步信息以子比特间隔分辨率调整用于对卷积结果进行采样的时序，以使信噪比最大化并使符号干扰比最小化。已经发现，这种分析滤波器组的输出非常适于作为用于差分解码的第一时频域表示型态。此外，已经发现，即使在用于对卷积结果进行采样的时序有轻微不对准时，差分解码也提供了用于第一时频域表示型态的合理结果。

在优选实施方式中，差分解码器被配置为单独地为不同的频率带导出第二时频域表示型态，使得单独地补偿不同频率带中的水印信号的不同相位旋转。同步确定器或水印解码器被配置为联合处理与给定的时间部分和不同频率带相关的第二时频域表示型态的一组值，以获得同步信息或二进制消息数据的一个比特。已经发现，差分解码允许甚至不使用信道相关器，以及甚至不用知道信道状态，就能可靠地联合处理第二时频域表示型态的值。

根据本发明的实施方式创建了便携式水印评估装置。水印评估装置包括被配置为提供电麦克信号的麦克风以及上述水印解码器。水印解码器被配置为接收麦克信号作为水印信号。已经发现，在评估通过麦克接收的音频信号的便携式水印评估装置中，本发明的水印解码器的应用可以特别有利，因为水印解码器对于典型信道失真（例如，多普勒偏移、传输功能无效等）特别不敏感。

根据本发明的其他实施方式创建了用于根据二进制消息数据提供水印信号的方法以及用于根据加水印后的信号提供二进制消息数据的方法。此外，一些其他实施方式创建了用于执行上述方法的计算机程序。方法和计算机程序基于与上述设备相同的发现。

附图说明

后续将参照附图来描述根据本发明的实施方式，在附图中：

图1示出了根据本发明实施方式的水印插入器的示意性框图；

图2示出了根据本发明实施方式的水印解码器的示意性框图；

图3示出了根据本发明实施方式的水印生成器的详细示意性框图；

图4示出了用于本发明实施方式的调制器的详细示意性框图；

图5示出了用于本发明实施方式的心理声学处理模块的详细示意性框图；

图6示出了用于本发明实施方式的心理声学模块处理器的示意性框图；

图7示出了由块801输出的音频信号的功率频谱在频率上的曲线表示；

图8示出了由块802输出的音频信号的功率频谱在频率上的曲线表示；

图9示出了幅度计算的示意性框图；

图10a示出了调制器的示意性框图；

图10b示出了时间频率要求（time-frequency claim）的系数的位置的曲线表示；

图11a和图11b示出了同步模块的实现替代方案的示意性框图；

图12a示出了找到水印的时间对准的问题的曲线表示；

图12b示出了识别消息开始的问题的曲线表示；

图12c示出了同步序列在全消息同步模式中的时间对准的曲线表示；

图12d示出了同步序列在部分消息同步模式中的时间对准的曲线表示；

图12e示出了同步模块的输入数据的曲线表示；

图12f示出了识别同步瞬时干扰（synchronization hit）的概念的曲线表示；

图12g示出了同步签名相关器（synchronization signature correlator）的示意性框图；

图13a示出了用于时间解扩的实例的曲线表示；

图13b示出了比特和扩展序列之间的逐元素（element-wise）相乘的实例的曲线表示；

图13c示出了同步签名相关器在时间平均后的输出的曲线表示；

图13d示出了用同步签名的自相关函数过滤的同步签名相关器的输出的曲线表示；

图14示出了根据本发明实施方式的水印提取器的示意性框图；

图15示出了选择时频域表示型态作为候选消息的示意表示；

图16示出了分析模块的示意性框图；

图17a示出了同步相关器的输出的曲线表示；

图17b示出了解码消息的曲线表示；

图17c示出了从加水印后的信号中提取的同步位置的曲线表示；

图18a示出了有效载荷、具有Viterbi（维特比）终止序列的有效载荷、维特比编码的有效载荷、以及维特比编码有效载荷的重复编码版本的曲线表示；

图18b示出了用于嵌入加水印后的信号的子载波的曲线表示；

图19示出了非编码消息、编码消息、同步消息和水印信号的曲线表示，其中，同步序列应用于这些消息；

图20示出了所谓的“ABC同步”概念的第一步的示意表示；

图21示出了所谓的“ABC同步”概念的第二步的曲线表示；

图22示出了所谓的“ABC同步”概念的第三步的曲线表示；

图23示出了包括有效载荷和CRC部分的消息的曲线表示；

图24示出了根据本发明实施方式的水印生成器的示意性框图；

图25示出了根据本发明实施方式的水印解码器的示意性框图；

图26示出了根据本发明实施方式的水印解码器的示意性框图；

图27示出了根据本发明实施方式的便携式水印评估装置的示意性框图；

图28示出了用于根据二进制消息数据来提供水印信号的方法的流程图；以及

图29示出了根据加水印后的信号来提供二进制消息数据的方法的流程图。

具体实施方式

1.水印生成

1.1根据图24的水印生成器

以下，将参照图24描述水印生成器2400，图24示出了这种水印生成器的示意性框图。水印生成器2400被配置为接收二进制消息数据2410并基于此来提供水印信号2420。水印生成器2400包括信息处理器2430，其被配置为根据二进制消息数据2410的信息单位（例如比特）来提供第一时频域表示型态2432，第一时频域表示型态的值表示二进制消息数据2410。水印生成器2400还包括差分编码器2440，被配置为根据第一时频域表示型态2432导出第二时频域表示型态2442，使得第二时频域表示型态2442表示多个值，其中，第二时频域表示型态2442的两个值之间的差表示第一时频域表示型态2432的对应值，以获得第一时频域表示型态2432的值的差分编码。水印生成器2400还包括被配置为基于第二时频域表示型态2442来提供水印信号2420的水印信号提供器2450。

水印生成器2400可以由下面的章节3中更详细的描述的特征和功能来补充。

1.2根据图28的用于根据二进制消息数据来提供水印信号的方法

以下，将参照图28说明根据二进制消息数据来提供水印信号的方法，图26示出了这种方法的流程图。

图28的方法2800包括根据二进制消息数据的消息单位提供第一时频域表示型态（其值表示二进制消息数据）的步骤2810：。方法2800还包括步骤2820：从第一时频域表示型态来导出第二时频域表示型态，使得第二时频域表示型态包括多个值，其中，第二时频域表示型态的两个值之间的差表示第一时频域表示型态的对应值，以获得第一时频域表示型态的值的差分编码。方法2800还包括基于第二时频域表示型态来提供水印信号的步骤2830。

自然地，方法2800可以由相对于本发明的设备描述的任何特征和功能来补充。

2.水印解码

2.1根据图25的水印解码器

以下，将参照图25描述水印解码器2500，图25示出了这种水印解码器的示意性框图。

水印解码器2500被配置为根据加水印后的信号2510提供二进制消息数据2520。水印解码器2500包括被配置为提供水印信号2510的第一时频域表示型态2532的时频域表示型态提供器2530。水印解码器2500还包括差分解码器2540，被配置为根据第一时频域表示型态2532导出第二时频域表示型态2542，使得第二时频域表示型态2542的值取决于第一时频域表示型态2532的两个对应（并且优选地相邻）值之间的相位差。水印解码器2500还包括被配置为根据第二时频域表示型态2542获得同步信息2552的同步确定器2550。水印解码器2500还包括被配置为使用同步信息2552从水印信号的第一时频域表示型态2532中或从水印信号2510的第二时频域表示型态2542中来提取二进制消息数据2520的水印提取器2560。

自然地，水印解码器2500可以由本文关于水印解码描述的任何特征和功能来补充。

2.2根据图26的水印解码器

以下，将参照图26描述水印解码器2600，图26示出了这种水印解码器的示意性框图。

水印解码器2600被配置为接收加水印后的信号2610并基于此来提供二进制消息数据2620。水印解码器2600包括被配置为提供水印信号2610的第一时频域表示型态2632的时频域表示型态提供器2630。水印解码器2600还包括差分解码器2640，被配置为根据第一时频域表示型态2632导出第二时频域表示型态2642，使得第二时频域表示型态的值取决于第一时频域表示型态2632的两个对应（并且优选地时间上相邻或频率相邻）值之间的相位差。水印解码器2600还包括被配置为从第二时频域表示型态2642中提取二进制消息数据2620的水印提取器2650。

自然地，水印解码器2600可以由本文关于水印解码描述的任何手段和功能来补充。

2.3.根据图27的水印评估装置

以下，将参照图27描述便携式水印评估装置2700，图27示出了这种装置2700的示意性框图。

便携式水印评估装置2700包括被配置为提供电麦克信号2712的麦克风2710。便携式水印评估装置2700还包括水印解码器2720，其可以与本文描述的水印解码器相同。水印解码器2720被配置为接收麦克信号2712作为加水印后的信号，以基于此提供二进制消息数据2722。

自然地，水印解码器2720可以由本文关于水印解码描述的任何手段和功能来补充。

2.4根据图29的用于根据水印信号来提供二进制消息数据的方法

以下，将参照图29描述根据加水印后的信号来提供二进制消息数据的方法2900，图29示出了这种方法的流程图。

方法2900包括提供加水印后的信号的第一时频域表示型态的步骤2910。方法2900还包括步骤2920：根据第一时频域表示型态导出第二时频域表示型态，使得第二时频域表示型态的值取决于第一时频域表示型态的两个对应（并且优选地相邻）值之间的相位差。

方法2900还包括使用第二时频域表示型态来确定同步信息的步骤2930，该同步信息被用于提供二进制消息数据或从加水印后的信号提取二进制消息数据。

方法2900可以由本文相对于水印解码描述的任何特征和功能来补充。

3.系统描述

以下，将描述用于水印传输的系统，其包括水印插入器和水印解码器。自然地，水印插入器和水印解码器可以彼此独立地使用。

对于系统的描述，这里选择了自顶向下方法。首先，区分编码器和解码器。然后，在章节3.1至3.5中，详细地描述了每个处理块。

在分别描述了编码器侧和解码器侧的图1和图2中可以看到系统的基本结构。图1示出了水印插入器100的示意性框图。在编码器侧，基于与心理声学处理模块102交换的信息104、105，根据二进制数据101a在处理块101（也被指定为水印生成器）中生成水印信号101b。从块102提供的信息通常保证水印是听不见的。然后，由水印生成器101生成的水印被添加到音频信号106。然后，可以传输、存储、或进一步处理加水印后的信号107。在例如音频视频文件的多媒体文件的情况下，需要将适当的延迟添加到视频流，以不失去音频视频同步。在多信道音频信号的情况下，如在该文献中说明的，单独处理每个信道。在章节3.1和3.2中分别详细说明了处理块101（水印生成器）和102（心理声学处理模块）。

在图2中描述了解码器侧，图2示出了水印解码器200的示意性框图。例如由麦克记录的水印音频信号200a被使得可用于系统200。还被指定为分析模块的第一块203在时间/频率域中解调并转换数据（例如，加水印后的音频信号）（从而获得水印音频信号200a的时频域表示型态204），并将其传递到同步模块201，该同步模块分析输入信号204并执行时间同步，即，确定（例如，相对于时频域表示型态的编码水印数据的）编码数据的时间对准。该信息（例如，由此产生的同步信息205）被提供给对数据解码（并随后提供二进制数据202a，其表示水印音频信号200a的数据内容）的水印提取器202。

3.1水印生成器101

图3中详细描述了水印生成器101。待隐藏在音频信号106中的二进制数据（表示为±1）被提供给水印生成器101。块301在等长度M_p的数据包中组织数据101a。出于信令的目的，向每个数据包添加（例如，附加）开销比特（overhead bit）。假设M_s表示其数量。在章节3.5中将详细描述其使用。值得注意的是，在下文中，有效载荷比特连同信令开销比特的每个数据包均为表示的消息。

长度为N_m=M_s+M_p的每个消息301a都被移交至处理块302，即，信道编码器，其负责对这些比特编码以用于防止误差。该模块的可能实施方式由卷积编码器（convolutional encoder）连同交织器（interleaver）组成。卷积编码器的比率极大地影响水印系统防止误差的总程度。另一方面，交织器保护免受噪声突发。交织器的操作的范围可以限于一个消息，但其还可以延伸至多个消息。假设R_c表示码比，例如，1/4。每个消息的编码比特数为N_m/R_c。信道编码器例如提供编码的二进制消息302a。

下一处理模块303在频域中执行扩展。为了实现足够大的信噪比的信号，在N_f个仔细选择的子带中扩展并传输信息（例如，二进制消息302a的信息）。一开始确定其在频率中的确切位置，并且这对于编码器和解码器都是已知的。在章节3.2.2中给出了该重要系统参数的选择的细节。由大小为N_f×1的扩展序列c_f来确定频率的扩展。块303的输出303a由N_f个比特流组成，每个子带一个比特流。通过将输入比特与扩展序列c_f的第i个分量相乘来获得第i个比特流。最简单的扩展由将比特流复制到每个输出流，即，使用所有比特流的扩展序列来组成。

也被指定为同步方案插入器的块304将同步信号添加到比特流。当解码器不知道比特或数据结构的时间对准（即，不知道每个消息何时开始）时，稳健同步是重要的。同步信号由每个都为N_f个比特的N_s个序列组成。这些序列为相乘的逐元素并周期性地与比特流（或比特流303a）相乘。例如，假设a、b和c是N_s=3个同步序列（也被指定为同步扩展序列）。块304将a乘以第一扩展比特，将b乘以第二扩展比特，并将c乘以第三扩展比特。对于以下的比特，定期地重复该过程，即，将a乘以第四比特，将b乘以第三比特等。因此，获得了结合的信息同步信息304a。仔细地选择同步序列（也被指定为同步扩展序列），以使假同步的风险最小化。在章节3.4中给出了更多细节。此外，应当注意的是，序列a、b、c...可以被看作是一序列同步扩展序列。

块305在时域中执行扩展。输入端处的每个扩展比特（即，长度N_f的向量）在时域中重复N_t次。与频率下的扩展相类似，发明人定义了大小为N_t×1的扩展序列c_t。第i个时间重复与c_t的第i个分量相乘。

块302至305的操作可以如下放在数学方面中。假设大小为1×N_m=R_c的m为302的编码消息、输出。块303的输出303a（可以被看作扩展信息表示型态R）为：

大小N_f×N_m/R_c的c_f·m （1）

块304的输出304a（可以被看作结合信息同步表示型态C）为：

大小N_f×N_m/R_c的Sο(cf·m) （2）

其中，ο表示Schur逐元素乘积（Schur element-wise product），并且

S=大小N_f×N_m/R_c的[...a b c...a b...] （3）

305的输出305a为

大小N_f×N_t·N_m/R_c的

其中，◇和T分别表示Kronecker乘积和转置。请记住，二进制数据被表示为±1。

块306执行比特的差分编码。该步骤给出了抵抗由于移动或本地振荡器不匹配导致的相移的系统附加稳健性。在章节3.3中给出了关于该问题的更多细节。如果b(i；j)是在块306的输入端处的第i个频率带以及第j个时间块的比特，则输出比特b_diff(i；j)为：

b_diff(i,j)=b_diff(i,j-1)·b(i,j) （5）

在流开始时，即，对于j=0，b_diff(i,j–1)被设置为1。

块307根据在其输入端给出的二进制信息306a执行实际调制，即，生成水印信号波。在图4中给出了更详细的图表。N_f个并行输入，即，401至40N_f包含不同子带的比特流。每个子带流的每个比特通过位成型块（411至41N_f）来处理。位成型块的输出为时域中的波形。如下计算基于输入比特b_diff(i,j)针对第j个时间块和第i个子带生成的由s_i；j(t)表示的波：

s_i,j(t)=b_diff(i,j)γ(i,j)·g_i(t-j,T_b) （6）

其中，γ(i;j)是由心理声学处理单元102提供的加权因子，T_b为比特时间间隔，g_i(t)为第i个子带的比特形成函数（bit forming function）。根据用余弦在频率下调制的基带函数来获得比特形成函数：

g_{i} (t) = g_{i}^{T} (t) \cdot \cos (2 πfit) - - - (7)

其中，f_i为第i个子带的中心频率，并且标号T表示转置器。对于每个子带，基带函数可以不同。如果选择相同，则解码器处的更有效实现是可能的。更多细节参见章节3.3。

在由心理声学处理模块（102）控制的迭代处理中重复用于每个比特的比特成型。为了微调权重γ(i，j)以在保持水印不被听到的同时为水印分配尽可能多的能量，迭代是必要的。在章节3.2中给出了更多细节。

在第i个比特成型滤波器41i的输出端处的完整波为：

S_{i} (t) = \underset{j}{Σ} S_{i, j} (t) - - - (8)

尽管主要能量集中在比特间隔内，但对于远大于T_b的时间间隔，比特形成基带函数通常不为零。在图12中可以看出一个实例，在图12中，对于两个相邻的比特绘制了相同的比特形成基带函数。在附图中，使T_b=40ms。T_b的选择以及函数的形状都对系统有很大的影响。实际上，较长的符号提供了较窄的频率响应。这在回响环境中特别有益。实际上，在这种场景下，加水印后的信号经由多个传播路径到达麦克风，每个传播路径都以不同的传播时间为特征。所得到的信道表现出强频率选择性。在时域中进行解释，当具有可与比特间隔相比的延迟的回声产生建设性的干扰时，较长的符号是有益的，这意味着，回声增大了接收到信号的能量。尽管如此，较长的符号也有一些缺陷；较大的重叠可能导致符号间干扰（ISI）并且肯定更难以隐藏在音频信号中，使得心理声学处理模块将允许相比于较短的符号更少的能量。

通过将比特形滤波器的所有输出相加获得水印信号：

\underset{i}{Σ} S_{i} (t) - - - (9)

3.2心理声学处理模块102

如图5所示，心理声学处理模块102由3部分组成。第一级为将时间音频信号转换到时域/频域中的分析模块501。该分析模块可以在不同的时间/频率分辨率中执行并行分析。在分析模块之后，时间/频率数据被传输至心理声学模块（PAM）502，其中，根据心理声学的考虑来计算水印信号的掩蔽阈值（参见E.Zwicker H.Fastl，“Psychoacoustics Facts andmodels”）。该掩蔽阈值指示可以隐藏在用于每个子带和时间块的音频信号中的能量数。心理声学处理模块102中的最后一个块描绘了幅度计算模块503。该模块确定将在水印信号的生成中使用的幅度增益，使得满足掩蔽阈值，即，嵌入的能量小于等于由掩蔽阈值定义的能量。

3.2.1时间/频率分析501

块501通过重叠变换来执行音频信号的时间/频率变换。当执行多个时间/频率分辨率时，可以实现最佳音频量。重叠变换的一个有效实施方式是基于窗口化时间块的快速傅立叶变换（FFT）的短时间傅立叶变换（STFT）。窗口长度决定时间/频率分辨率，使得较长的窗口产生较短的时间和较高的频率分辨率，而较短的窗口反之亦然。另一方面，在其他方面中，窗口的形状确定频率泄漏。

对于所提出的系统，发明人通过分析具有两个不同分辨率的数据来实现听不到的水印。第一滤波器组（first filter bank）以T_b的跳距（即，比特长度）为特征。跳距是两个相邻时间块之间的时间间隔。窗口长度大约为T_b。请注意，窗口形状不必与用于比特成型的窗口形状相同，并且一般地，应当模拟人听觉系统。许多出版物研究了该问题。

第二滤波器组应用较短的窗口。由于其时间结构一般比T_b更精细，当在语音中嵌入水印时，实现较高的时间分辨率特别重要。

输入音频信号的采样率不重要，只要其足够大而不会走样的情况下描述水印信号。例如，如果水印信号中包含的最大频率分量为6kHz，则时间信号的采样率必须至少为12kHz。

3.2.2心理声学模块502

心理声学模块502具有确定掩蔽阈值的任务，即，可以掩藏在每个子带和时间块的音频信号中的能量量，从而保持加水印的音频信号与原来的信号不可区分。

在两个极限之间，即，和之间定义第i个子带。通过定义N_f个中心频率f_i并使得对于i=2，3，...，N_f，通过由Zwicker在1961年提出的Bark scale来给出对中心频率的适当选择。子带对于越高的中心频率而变得越大，该系统的一种可能实现使用以适当方式排列的在1.5kHz至6kHz范围内的9个子带。

对于每个子带和每个时间块的每个时间/频率分辨率，可以单独执行以下的处理步骤。处理步骤801执行频谱平滑。实际上，需要平滑调素（tonalelement）以及功率频谱中的缺口。这可以以多种方式来执行。可以计算音调测量，并然后用来驱动自适应平滑滤波器。可选地，在该块的较简单实现中，可以使用类似中值的滤波器。中值滤波器考虑了值的向量，并输出其中值。在中值滤波器中，可以选择对应于分位数差（different quantile）50%的值。在Hz中定义滤波器宽度并且被应用为在较低频率开始并在最高可能频率下结束的非线性活动平均。在图7中示出了801的操作。红色曲线为该平滑的输出。

一旦执行了平滑，则由仅考虑频率掩蔽（frequency masking）的块802来计算阈值。在该情况下，还有不同的可能性。一种方法是使用每个子带的最小值来计算掩蔽能量E_i。这是有效地操作掩蔽的信号的等效能量。根据该值，可以简单地乘以一定的比例因子，以获得掩蔽能量J_i。这些因子对于每个子带和时间/频率分辨率是不同的，并且经由经验心理声学实验来获得。在图8中示出了这些步骤。

在块805，考虑时间掩蔽。在该情况下，分析同一子带的不同时间块。根据经验得出的后掩蔽配置文件（postmasking profile）来修改掩蔽能量J_i。发明人考虑两个相邻时间块，即，k–1和k。对应的掩蔽能量为J_i(k–1)和J_i(k)。例如，后掩蔽配置文件定义了掩蔽能量E_i可以在时间k时掩蔽能量J_i并在时间k+1时掩蔽α·J_i能量。在该情况下，块805比较J_i(k)（由当前时间块掩蔽的能量）和α·J_i(k+1)（由前一时间块掩蔽的能量），并选择最大值。后掩蔽配置文件可以在文献中找到并已经经由经验心理声学实验所获得。值得注意的是，对于大的T_b，即，>20ms，仅对具有较短时间窗口的时间/频率分辨率应用后掩蔽。

总之，在块805的输出端处，具有针对两个不同的时间/频率分辨率所获得的每个子带和时间块的掩蔽阈值。已经通过考虑频率和时间掩蔽现象获得了阈值。在块806中，合并不同时间/频率分辨率的阈值。例如，一个可能的实现是，806考虑对应于其中分配了比特的时间和频率间隔的所有阈值，并选择最小值。

3.2.3幅度计算块503

参照图9，503的输入是执行来自所有心理声学刺激的计算的心理声学模块502的阈值505。在幅度计算器503中，执行与阈值的额外计算。首先，发生幅度映射901。该块仅将掩蔽阈值（通常被表示为能量）转换为可以用于缩放在章节3.1中定义的比特成型函数的幅度。之后，运行幅度自适应块（amplitude adaptation block）902。该块迭代地自适应用于使水印生成器101中的比特成型函数增倍的幅度γ(i,j)，使得实际上满足掩蔽阈值。实际上，如已经讨论的，比特成型函数通常延伸长于T_b的时间间隔。因此，使满足点i、j处的掩蔽阈值增倍的正确幅度γ(i,j)不一定满足点i、j–1的要求。当预回声变得可以听到时，这在强起始点处特别重要。另一个需要避免的情形是不同比特尾部的不期望的叠加，这将导致听得到的水印。因此，块902分析由水印生成器生成的信号，以检查是否已经满足了阈值。如果没有，则其相应地修改幅度γ(i,j)。

这终结了编码器侧。以下的部分涉及在接收器（还被指定为水印解码器）执行的处理步骤。

3.3分析模块203

分析模块203是水印提取过程的第一级（或块）。其目的是将加水印后的音频信号200a转换回N_f个比特流（还被指定为204），每个光谱频率带i一个比特流。如分别在章节3.4和3.5中描述的，这些进一步由同步模块201和水印提取器202处理。应注意的是，是软比特流，即，例如，它们可以取任何实际值并且尚未对比特做出硬性决定。

分析模块由图16中示出的三个部分构成：分析滤波器组1600、幅度标准化块1604、以及差分解码1608。

3.3.1分析滤波器组1600

通过图10a中详细示出的分析滤波器组1600来将加水印后的音频信号转换到时频域中。滤波器组的输入是接收的加水印后的音频信号r(t)。其输出是在时间瞬间j的第i个分支或子带的复系数这些值含有关于在中心频率f_i和时间j·Tb时的信号的幅度和相位的信息。

滤波器组1600由N_f个分支构成，每个频谱子带i一个分支。每个分支都被分成用于相位中分量的上子分支和用于子带i的正交分量的下子分支。尽管在水印生成器处的调制以及由此产生的加水印后的音频信号是纯粹实际值的，但需要在接收器处的信号的复杂值分析，这是因为，在接收器处不知道由信道和同步偏差引入的调制星座图（modulationconstellation）的旋转。在下文中，考虑滤波器组的第i个分支。通过将相位中和正交子分支相结合，可以将复杂值基带信号定义为：

b_{i}^{AFB} (t) = r (t) \cdot e^{- j 2 π f_{i} t} * g_{i}^{R} (t) - - - (10)

其中，*表示卷积，并且是子带i的接收器低通滤波器的脉冲响应。通常，等于调制器307中的子带i的基带比特形成函数以满足匹配的滤波器条件，但其他脉冲响应也是可以的。

为了获得比率为1=T_b的系数必须对连续的输出进行采样。如果接收器知道比特的正确时序，用比率1=T_b进行采样将是足够的。然而，由于还不知道比特同步，因此用比率N_os/T_b执行采样，其中，N_os是分析滤波器组过采样系数。通过选择足够大的N_os（例如，N_os=4），可以假设，至少一个采样周期与理想的比特同步足够接近。在同步处理期间做出关于最佳过采样层的决定，因此在此期间保持所有的过采样数据。在章节3.4中详细描述了该处理。

在第i个分支的输出处，具有系数其中，j表示比特数或时刻，并且k表示单个比特中的过采样位置，其中，k=1；2；....，N_os。

图10b给出了时频平面上的系数位置的示例性概述。过采样系数是N_os=2。矩形的高度和宽度分别表示由对应系数表示的信号部分的带宽和时间间隔。

如果将子带频率f_i选择为特定间隔Δf的倍数，则可以使用快速傅立叶变换（FFT）来有效地实施分析滤波器组。

3.3.2幅度标准化1604

不失一般性的且为了简化描述，在下文中，假设已知比特同步并且N_os=1。即，在正交化块1604具有复杂系数由于在接收器处没有信道状态信息可用（即，传播信道未知），因此使用等增益合并（EGC）方案。由于时间和频率分散的信道，不仅在中心频率f_i和时刻j附近发现发送比特b_i(j)的能量，在相邻的频率和时刻下也发现发送比特b_i(j)的能量。因此，为了更精确的加权，计算频率f_i±nΔf下的额外系数并将其用于系数的标准化。如果n=1，例如，则有：

b_{i}^{norm} (j) = \frac{b_{i}^{AFB} (j)}{\sqrt{1 / 3 \cdot ({| b_{i}^{AFB} (j) |}^{2} + {| b_{i - Δf}^{AFB} (j) |}^{2} + {| b_{i + Δf}^{AFB} (j) |}^{2})}} - - - (11)

n>1的标准化是上述公式的直接扩展。还可以以相同的方式选择通过考虑一个以上的时刻来将软比特标准化。针对每个子带i和每个时刻j来执行标准化。在提取过程的后续步骤中完成EGC的实际合并。

3.3.3差分解码1608

在差分解码块1608的输入端处，具有幅度标准化复杂系数其含有关于在频率f_i和时刻j下的信号分量的相位的信息。当在转置器处对比特差分地编码时，则必须在此执行逆操作。通过首先计算两个连续系数的相位差然后取实部来获得软比特

由于信道通常在每个子带中引入不同的相位旋转，因此这需要为每个子带单独执行。

3.4同步模块201

同步模块的任务是找到水印的时间对准。将解码器同步到编码数据的问题是两方面的。在第一步骤，分析滤波器必须与编码数据对准，即，在调制器的合成中使用的比特成型函数必须与用于分析的滤波器对准。在图12a中示出了该问题，其中，分析滤波器与合成滤波器相同。在顶部处，可以看到三个比特。为了简单起见，全部三个比特的波形都不是按比例绘制的。不同比特之间的时间偏移为T_b。底部示出了解码器的同步问题：可以在不同时刻下应用滤波器，然而，只有被标记为红色的位置（曲线1299a）是正确的，并允许提取具有信噪比SNR和信号干扰比SIR的第一比特。实际上，错误的对准将导致SNR和SIR的退化。将该第一对准问题称为“比特同步”。一旦已经实现了比特同步，则可以以最佳方式来提取比特。然而，为了正确地将消息解码，需要知道新消息在哪个比特开始。在图12b中示出了该问题，并被称为消息同步。在解码比特流中，只有被标记为红色的开始位置（位置1299b）是正确的并允许将第k个消息解码。

首先，发明人仅专注于消息同步。章节3.1中解释的同步签名由连续且周期性地嵌入在水印中的预定顺序的Ns个序列组成。同步模块能够恢复同步序列的时间对准。根据大小N_s，可以区分分别在图12c和12d中示出的两个操作模式。

在全消息同步模式（图12c）中，有N_s=N_m/R_c。为了简单起见，在附图中，发明人假设N_s=N_m/R_c=6且没有扩时（time spreading，时间扩展），即，N_t=1。为了说明的目的，在消息的下面示出了同步签名。实际上，如章节3.1所示，根据编码比特和频率扩展序列来进行调制。在该模式下，同步签名的周期与消息之一相同。因此，同步模式可以通过找到同步签名的时间对准来识别每个消息的开始。发明人将新同步签名开始的时间位置称为同步瞬时干扰。然后，将同步瞬时干扰传递到水印提取器202。

在图12d中描述了第二可选模式，即，部分消息同步模式（图12d）。在该情况下，有N_s<N_m=R_c。在附图中，已经取N_s=3，使得对于每个消息，三个同步序列重复两次。请注意，消息的周期不必是同步签名的周期的倍数。在该操作模式中，并不是所有同步瞬时干扰都对应于消息的开始。同步模块没有区分瞬时干扰的手段，并且这个任务被提供给水印提取器202。

在图11a和图11b中描述了同步模块的处理块。通过分析同步签名相关器1201的输出，同步模块立刻执行比特同步和消息同步（全部或部分）。通过分析模块来提供时间/频率域204中的数据。如章节3.3描述的，当比特同步还不可用时，块203通过因子N_os对数据进行过采样。在图12e中给出了输入数据的说明。对于该实例，取N_os=4、N_t=2和N_s=3。换句话说，同步签名由3个序列（用a、b、c表示）组成。在具有扩展序列c_t=[1 1]^T的情况下，扩时在时域中简单地重复每个比特两次。所提取的同步瞬时干扰用箭头表示，并对应于每个同步签名的开始。同步签名的周期为N_t·N_os·N_s=N_sbl，其例如是2·4·3=24。由于同步签名的周期性，同步签名相关器（1201）任意地按大小为N_sbl的块（被称为搜索块）划分时间轴，N_sbl的下标表示搜索块长度。每个搜索块必须含有（或通常含有）图12f中示出的一个同步瞬时干扰。每个N_sbl比特都为候选的同步瞬时干扰。块1201的任务是计算每个块的每个候选的似然测量（likelihood measure）。然后，将该信息传递到用于计算同步瞬时干扰的块1204。

3.4.1同步签名相关器1201

对于每个N_sbl候选同步位置，同步签名相关器计算似然测量，似然测量越大，则越有可能已经找到时间对准（比特以及部分或全部消息同步）。在图12g中描述了该处理步骤。

因此，可以获得与不同位置选择相关联的可能值序列1201a。

块1301执行时间解扩，即，将每N_t个比特乘以时间扩展序列c_t然后将每一结果相加。这针对N_f个频率子带中的每一个来执行。图13a示出了实例。取与前一章节中描述的相同的参数，即，N_os=4、N_t=2和N_s=3。对候选同步位置进行标记。根据该比特，通过N_os偏移，块1301取得N_t·N_s，且时间用序列c_t扩展，使得剩下N_s个比特。

在块1302中，比特与N_s个扩展序列按元素相乘（见图13b）。

在块1303中，执行频率解扩，即，将每个比特与扩展序列c_f相乘，然后沿频率相加。

此时，如果同步位置是正确的，则将具有N_s个解码比特。由于比特对于接收器是已知的，因此块1304通过取N_s个值的绝对值以及和来计算似然测量。

块1304的输出原则上是查找同步签名的不相干相关器。事实上，当选择小的N_s时，即，部分消息同步模式，可以使用相互正交的同步序列（例如，a、b、c）。这样，当相关器未正确地与签名对齐时，其输出将非常小，理想地为零。当使用全消息同步模式时，建议使用尽可能多的正交同步序列，然后通过仔细选择它们被使用的顺序来提供签名。在该情况下，可以应用与以良好的自相关函数来查找扩展序列时相同的理论。当相关器只是轻微地不对准时，则即使在理想情况下，校准器的输出也将不会是零，但无论如何，相比于精确对准都将较小，因为分析滤波器不能以最佳方式来捕获信号能量。

3.4.2同步瞬时干扰计算1204

该块分析同步签名相关器的输出，以确定同步位置在何处。由于系统抵抗高达T_b/4的失准是相当稳健的，并且T_b通常取大约40ms，因此可以随时间来整合1201的输出，以实现更稳定的同步。沿具有指数衰减脉冲响应的时间应用的IIR滤波器给出了该可能实现。可选地，可以应用传统的FIR活动平均滤波器。一旦已经执行了平均化，则执行沿不同N_t·N_s的第二相关（“不同位置选择”）。事实上，我们想要利用关于同步函数的自相关函数是已知的信息。这对应于最大似然估计器。在图13c中示出了该思想。曲线示出了块1201在时间整合后的输出。确定同步瞬时干扰的一种可能是找到该函数的最大值。在图13d中，我们看到，用同步签名的子相关函数来过滤相同的函数（黑色）。所得到的函数用红色绘制。在该情况下，最大值更为明显，并且给出了同步瞬时干扰的位置。对于高SNR而言，这两种方法相当类似，但是在较低的SNR体制下，第二种方法执行得更好。一旦已经找到了同步瞬时干扰，则将其传递到将数据解码的水印提取器202。

在一些实施方式中，为了获得稳健的同步信号，用短同步签名以部分消息同步模式来执行同步。为此，需要进行许多解码，增大误报消息检测的风险。为了防止这样，结果，在一些实施方式中，可以以较低的比特率将信令序列插入到消息中。

该方法是对由比消息短的同步签名产生的问题的解决方案，该问题在增强的同步的以上描述中已经得到解决。在该情况下，解码器不知道新消息在何处开始并且试图在多个同步点解码。为了区分合法消息和误报（false positive），在一些实施方式中，使用了信令字（即，牺牲有效载荷以嵌入已知的控制序列）。在一些实施方式中，使用合理性检查（可选或另外地）以在正交消息和误报之间区分。

3.5水印提取器202

在图14中描述了构成水印提取器202的部分。其具有两个输入，即，分别是来自块203和201的204和205。同步模块201（参见章节3.4）提供了同步时间戳，即，候选消息开始的时域中的位置。在章节3.4中给出了该问题的更多细节。另一方面，分析滤波器组块203提供了准备好进行解码的时间/频率域中的数据。

第一处理步骤，数据选择块1501从输入端204选择被标识为待解码的候选消息的部分。图15图形化地示出了该程序。输入204由N_f个实值流构成。由于时间对准一开始就对于解码器是已知的，因此分析块203以高于1/T_b Hz的比率来执行频率分析（过采样）。在图15中，已经使用了过采样因子4，即，每T_b秒输出大小为N_f×1的4个因子。当同步块201识别了候选消息时，其传递指示候选消息的起始点的时间戳205。选择块1501选择用于解码所需的信息，即，大小为N_f×N_m/R_c的矩阵。该矩阵1501a被提供给块1502用于进一步处理。

块1502、1503、1504执行与章节3.4中说明的块1301、1302、和1303相同的操作。

本发明的可选实施方式由通过使同步模块还传递待解码的数据来避免在1502至1504中完成的计算构成。从实施的角度来看，仅仅是如何实现缓冲的问题。一般地，重新进行计算允许发明人具有较小的缓冲。

信道解码器1505执行块1302的逆操作。在该模块的可能实施方式中，如果信道编码器由卷积编码器连同交织器构成，则信道解码器将例如用已知的Viterbi算法来执行解交织和卷积解码。在该块的输出端处，具有N_m个比特，即，候选消息。

块1506，即，信令和真实性块，确定输入后续消息是否的确为消息。若要做到这一点，不同的策略都是可行的。

基本思想是使用信令字（例如，CRC序列）来区分真消息和假消息。然而，这减小了可用作有效载荷的比特数。可选地，可以使用真实性检查。例如，如果消息含有时间戳，则连续消息必须具有连续的时间戳。如果解码的消息具有不是正确顺序的时间戳，可将其丢弃。

当已经正确地检测了消息时，系统可以选择应用前看和/或回看机制。假设已经实现了比特和消息同步。假定用户还没有切换频道，则系统及时“回看”并试图使用相同的同步点将过去的消息解码（如果还没有解码）（回看方法）。当系统开始时，这特别有用。此外，在不好的情况下，可以采用2个消息来实现同步。在该情况下，第一消息没有机会。通过回看选项，可以保存仅由于向后同步而没有接收到的“好”消息。前看与此相同，但是是在以后起作用。如果现在具有消息，则知道下一消息应当在何处，并且可以无论如何都试图将其解码。

3.6同步细节

为了有效负载的编码，例如，可以使用Viterbi算法。图18a示出了Viterbi编码的有效负载的有效负载1810、Viterbi终止序列1820、Viterbi编码的有效负载1830、以及重复编码版本1840的曲线表示。例如，有效负载长度可以是34个比特，并且Viterbi终止序列可以包括6个比特。例如，可以使用1/7的Viterbi码率，Viterbi编码有效负载可以包括(34+6)*7=280个比特。此外，通过使用1/2的重复编码，Viterbi编码的有效负载1830的重复编码版本1840可以包括280*2=560个比特。在该实例中，考虑到42.66ms的比特时间，消息长度均为23.9s。信号可以通过如由图18b中示出的频谱指示的从1.5kHz至6kHz的9个子载波（例如，根据临界频率带来放置）嵌入。可选地，可以使用0kHz和20kHz之间的频率范围中的其他数量的子载波（例如，4、6、12、15、或2和20之间的数）。

图19示出了用于同步（还被称为ABC同步）的基本概念1900的示意性说明。其示出了非编码消息1910、编码消息1920、以及同步序列（synch序列）1930、以及将同步应用于彼此跟随的多个消息1920的示意性说明。

结合该同步概念（在图19至图23中所示）的解释所提到的同步序列或synch序列可以等于之前提到的同步签名。

此外，图20示出了通过与synch序列相关所发现的同步的示意性说明。如果同步序列1930短于该消息，则将在单个消息内找到一个以上的同步点1940（或对准时间块）。在图20示出的消息中，在每个消息中发现了4个同步点。因此，对于发现的每个同步，可以起动Viterbi解码器（Viterbi解码序列）。这样，对于每个同步点1940，如图21所示，可以获得消息2110。

如图22所示，基于这些消息，可以通过CRC序列（循环冗余校验序列）和/或真实性检查来识别真消息2210。

CRC检测（循环冗余校验检测）可以使用已知的序列来识别误报的真消息。图23示出了添加到有效负载末端的CRC序列的实例。

误报（基于错误的同步点所生成的消息）的概率可以取决于CRC序列的长度以及开始的Viterbi解码器的数量（单个消息中的同步点的数量）。为了在不增大误报的概率的情况下增大有效负载的长度，可以利用真实性（真实性测试）或者可以增大同步序列（同步签名）的长度。

4.概念和优势

在下文中，将描述上述系统的被认为有创新性的一些方面。此外，将描述这些方面与现有技术状态之间的关系。

4.1连续同步

一些实施方式允许连续同步。表示为同步签名的同步信号经由与发送和接收侧都已知的序列（也被指定为同步扩展序列）相乘而连续且并行地嵌入到数据。

一些传统系统使用特殊符号（不同于用于数据的那些），而根据本发明的一些实施方式不使用这种特殊符号。其他经典方法包括嵌入与数据时间复用的比特（前导）序列，或者嵌入与数据频率复用的信号。

然而，已经发现，使用专用于同步的子带是不理想的，由于信道可能在这些频率下具有缺口，因此使得同步是不可靠的。相比于其中前导或特殊符号与数据时间复用的其他方法，本文描述的方法是更有利的，因为这里描述的方法允许连续地跟踪同步的变化（例如，由于移动引起）。

此外，水印信号的能量是不变的（例如，通过将水印倍增地引入到扩展信息表示型态中），并且可以独立于心理声学模型和数据率来设计同步。可以独立于数据率完全随意地设计同步签名的决定了同步的稳健性的时间长度。

另一经典方法包括嵌入与数据码复用的同步序列码。相比于该经典方法，本文描述的方法的优点在于数据能量不代表相关性计算中的干扰因素，由此带来了更多的稳健性。此外，当使用码复用时，可用于同步的正交序列的数量减小，而一些序列对于数据而言是必要的。

总而言之，本文描述的连续同步方法相比于传统概念带来了大量的优点。

然而，在根据本发明的一些实施方式中，可以应用不同的同步概念。

4.22D扩展

所提出的系统的一些实施方式执行时域和频域扩展，即，二维扩展（简单被表示为2D扩展）。已经发现，相对于1D系统，这是有利的，因为通过例如在时域中添加冗余可以进一步减小误码率。

然而，在根据本发明的一些实施方式中，可以应用不同的扩展概念。

4.3差分编码和差分解码

在根据本发明的一些实施方式中，通过差分调制，带来了对本地振荡器的移动和频率不匹配的增大了的稳健性（相比于传统系统）。已经发现，事实上，Doppler（多普勒）效应（移动）和频率不匹配导致了BPSK星座的旋转（换句话说，关于比特的复平面的旋转）。在一些实施方式中，通过使用差分编码或差分解码，避免了BPSK星座的这种旋转的不利影响。

然而，在根据本发明的一些实施方式中，可以应用不同的编码概念或解码概念。此外，在一些情况下，可以省略差分编码。

4.4比特成型

在根据本发明的一些实施方式中，比特成型带来了系统性能的显著提高，这是因为，使用适于比特成型的滤波器可以增大检测的可靠性。

根据一些实施方式，相对于水印对比特成型的使用带来了水印处理的提高的可靠性。已经发现，如果比特成型函数长于比特间隔，可以获得特别好的结果。

然而，在根据本发明的一些实施方式中，可以应用不同的比特成型概念。此外，在一些实施方式中，可以省略比特成型。

4.5心理声学模型（PAM）和滤波器组（FB）合成之间的交互

在一些实施方式中，心理声学模型与调制器交互，以微调倍增比特的幅度。

然而，在一些实施方式中，可以省略该交互。

4.6前看和回看特征

在一些实施方式中，应用所谓的“回看”和“前看”方法。

以下，将简要地总结这些概念。当正确地将消息解码时，假设已经实现了同步。假定用户没有切换频道，在一些实施方式中，及时执行回看，并且尝试使用相同的同步点来将过去的消息解码（如果还没有解码）（回看方法）。当系统开始时，这特别有用。

在不好的条件下，可以用2个消息来实现同步。在该情况下，第一消息在传统系统中没有机会。借助于在本发明的一些实施方式中使用的回看选项，可以保存（或解码）仅由于向后同步而没有接收到的“好”消息。

前看是相同的，但是在未来起作用。如果现在有消息，则知道下一消息应当在何处，并且可以尝试无论如何将其解码。因此，可以将重叠消息解码。

然而，在根据本发明的一些实施方式中，可以省略前看特征和/或回看特征。

4.7增大的同步稳健性

在一些实施方式中，为了获得稳健的同步信号，通过短同步签名以部分消息同步模式来执行同步。为此，需要完成许多解码，从而增大了误报消息检测的风险。为了防止这种情况，在一些实施方式中，结果，可以以较低的比特率将采样序列插入消息中。

然而，在根据本发明的一些实施方式中，可以应用用于改善同步稳健性的不同概念。此外，在一些情况下，可以省略用于增大同步稳健性的任何概念的使用。

4.8其他提高

以下，将提出并讨论上述系统相对于北京技术的一些其他一般提高：

1.低计算复杂度

2.由于较好的心理声学模块产生的较好的音频质量

3.由于窄带多载波信号产生的回响环境中的更大稳健性

4.在一些实施方式中避免了SNR估计。这允许更好的稳健性，尤其在低SNR体制中。

出于以下原因，根据本发明的一些实施方式要好于使用非常窄的宽带（例如，8Hz）的传统系统：

1.8Hz的带宽（或类似的非常窄的带宽）需要非常长的时间符号，这是因为心理声学模块允许非常少的能量来使其听不到；

2.8Hz（或类似的非常窄的带宽）使得其对时间变化多普勒谱敏感。因此，如果例如在手表中实施，这种窄带系统通常不够好。

出于以下原因，根据本发明的一些实施方式比其他技术好：

1.输入回声的技术在回音的房间中完全失效。相反，在本发明的一些实施方式中，避免了引入回声。

2.在其中使用例如在时间和频率中的二维扩展的上述系统的比较实施方式中，仅使用时间扩展的技术具有较长的消息持续时间。

根据本发明的一些实施方式比在DE196 40 814中描述的系统好，这是因为，克服了根据所述文献的系统的以下缺点中的一个或多个：

根据DE196 40 814的解码器中的复杂度非常高，使用长度为2N（N=128）的滤波器

根据DE196 40 814的系统包括长消息时序时间

在根据DE196 40 814的系统中，仅以相对高的扩展增益（例如，128）在时域扩展

在根据DE196 40 814的系统中，信号在时域生成，变换到谱域，变换回时域，并叠加到音频，这使得系统非常复杂

5.应用

本发明包括修改音频信号以隐藏数字数据的方法以及能够恢复该信息且修改的音频信号的感知质量保持与原始的不可区分的对应解码器。

以下给出了本发明的可能应用的实施方式

1.广播监控：在电台或电视节目的音频信号中隐藏含有关于例如台和时间的信息的水印。纳入由测试对象佩带的小装置中的解码器能够恢复水印，因此收集用于广告代理的有价值信息，即，何人在何时观看何节目。

2.审计：水印可以隐藏在例如广告中。通过自动监控某台的传输，可以确切地知道何时广播广告。类似地，可以检索关于不同电台的编程机制的统计信息，例如，某音乐片段播放的频率等。

3.元数据嵌入：所提出的方法可以用于隐藏关于音乐片段或节目的数字信息，例如，片段的命名和作者或节目的持续时间等。

6.实施替代方案

尽管已经在设备的上下文中描述了一些方面，很显然，这些方面还代表对应方法的描述，其中，块或装置对应于方法步骤或方法步骤的特征。类似地，在方法的上下文中描述的方面还代表对应设备的对应块或项或特征的描述。一些或全部的方法步骤可以通过（或使用）硬件设备来执行，例如，微处理器、可编程计算机、或电子电路。在一些实施方式中，最重要方法步骤的一个或多个可以由这种设备来执行。

本发明的编码水印信号或其中嵌入了水印信号的音频信号可以存储在数字存储介质上或者可以在传输介质（诸如无线传输介质或诸如互联网的有线传输介质）上传输。

根据特定实施需求，可以在硬件或软件中实施本发明的实施方式。可以使用上面存储了与可编程计算机系统协作（或者能够协作）使得执行各方法的电可读控制信号的数字存储介质（例如，软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM、或FLASH存储器）来执行该实施。因此，数字存储介质可以是计算机可读的。

根据本发明的一些实施方式包括具有电可读控制信号的数据载体，电可读控制信号能够与可编程计算机系统协作，使得执行这里描述的方法之一。

一般地，本发明的实施方式可以实施为具有程序代码的计算机程序产品，当计算机程序产品在计算机上运行时，程序代码被操作为用于执行方法之一。程序代码例如可以存储在机器可读载体上。

其他实施方式包括存储在机器可读载体上的用于执行本文描述的方法之一的计算机程序。

换句话说，因此，本发明方法的实施方式是计算机程序，其具有用于当在计算机上运行计算机程序时执行这里描述的方法之一的程序代码。

本方法的另一实施方式由此是数据载体（或数字存储介质，或计算机可读介质），包括（即，上面存储了）用于执行本文描述的方法之一的计算机程序。

本方法的另一实施方式因此是表示用于执行本文描述的方法之一的计算机程序的数据流或信号序列。数据流或信号序列可以例如被配置为经由数据通信连接（例如，经由互联网）传输。

另一实施方式包括被配置为或适于执行这里描述的方法之一的处理装置，例如，计算机或可编程逻辑装置。

另一实施方式包括其上安装了用于执行本文描述的方法之一的计算机程序的计算机。

在一些实施方式中，可编程逻辑装置（例如，场编程门阵列）可以用于执行本文描述的方法的功能的一些或全部。在一些实施方式中，场可编程门阵列可以与微处理器协作，以执行本文描述的方法之一。一般地，优选地通过任意的硬件设备来执行该方法。

上述实施方式仅用于说明本发明的原理。应当理解，对于本领域普通技术人员来说，本文描述的配置和细节的修改和变化将是显而易见的。因此，它们旨在仅由所附专利权利要求的范围来限定，而不是通过描述和说明本文的实施方式所给出的具体细节来限定。

Claims

1.一种用于根据二进制消息数据(101a；2410)提供水印信号(101b；2420)的水印生成器(101，2400)，所述水印生成器包括：

信息处理器(303，304，305；2430)，被配置为根据所述二进制消息数据的信息单位来提供第一时频域表示型态(2432)，所述第一时频域表示型态的值表示所述二进制消息数据；以及

差分编码器(306；2440)，被配置为根据所述第一时频域表示型态中导出第二时频域表示型态(306a；2442)，使得所述第二时频域表示型态包括多个值，其中，所述第二时频域表示型态的两个值之间的差表示所述第一时频域表示型态的对应值，以获得所述第一时频域表示的值的差分编码；以及

水印信号提供器(307；2450)，被配置为基于所述第二时频域表示型态来提供所述水印信号。

2.根据权利要求1所述的水印生成器，其中，所述信息处理器进一步被配置为提供所述第一时频域表示型态，使得所述第一时频域表示型态的值表示扩展二进制图样形式的所述二进制消息数据；以及

其中，所述差分编码器进一步被配置为导出所述第二时频域表示型态，使得如果所述第一时频域表示型态的对应值取第一值，则引入了所述第二时频域表示型态的两个连续值之间的相变，并且使得如果所述第一时频域表示型态的对应值取不同于所述第一值的第二值，则在所述第二时频域的两个连续值之间没有相变。

3.根据权利要求2所述的水印生成器，其中，所述信息处理器进一步被配置为提供与所述第二时频域表示型态的第i个频率带和第j个时间块相关联的比特值b_diff(i，j)，使得

b_diff(i，j)＝b_diff(i，j–1)·b(i，j)，

其中，b_diff(i，j–1)表示与所述第二时频域表示型态的第i个频率带和第j–1个时间块相关联的比特值；

其中，b(i，j)表示与所述第一时频域表示型态的第i个频率带和第j个时间块相关联的比特值；以及

其中，所述第一时频域表示型态的二进制状态由值+1和–1来表示。

4.根据权利要求2所述的水印生成器，其中，所述水印信号提供器进一步被配置为基于所述第二时频域表示型态提供结合的音频信号(107)，使得所述水印信号的水印分量响应于所述第一时频域表示型态的第一值包括阶梯式或平滑的相变，并且使得所述水印信号的水印频率分量响应于所述第一时频域表示型态的不同于所述第一值的所述第二值包括时间上恒定的相位。

5.根据权利要求2所述的水印生成器，其中，所述水印信号提供器进一步被配置为响应于所述第二时频域表示型态的第一值提供第一比特成型波形，并响应于所述第二时频域表示型态的第二值提供第二比特成型波形，以及

其中，所述水印信号提供器进一步被配置为响应于在所述第一时频域表示型态中存在第一值，在所述水印信号中包括同一比特成型波形的时间偏移版本的加权或非加权叠加，并且响应于在所述第一时频域表示型态中存在不同于所述第一值的第二值，在所述水印信号中包括所述第一比特成型波形和所述第二比特成型波形的时间偏移版本的加权或非加权叠加。

6.根据权利要求5所述的水印生成器，其中，所述第二比特成型波形为所述第一比特成型波形的逆形式。

7.一种用于根据加水印后的信号(200a；2510)提供二进制消息数据(202a；2520)的水印解码器(200；2500)，所述水印解码器包括：

时频域表示型态提供器(1600；2530)，被配置为提供所述加水印后的信号的第一时频域表示型态(2532)；

差分解码器(1608；2540)，被配置为根据所述第一时频域表示型态导出第二时频域表示型态(2542)，使得所述第二时频域表示型态的值取决于所述第一时频域表示型态的两个对应值之间的相位差；以及

同步确定器(201；2550)，被配置为基于所述第二时频域表示型态获得同步信息(205；2552)；以及

水印提取器(202；2560)，被配置为使用所述同步信息从所述加水印后的信号的所述第一时频域表示型态中或者从所述加水印后的信号的所述第二时频域表示型态中提取所述二进制消息数据。

8.根据权利要求7所述的水印解码器，其中，所述时频域表示型态提供器进一步被配置为针对多个频率带或多个时间间隔，提供软比特系数，所述软比特系数描述了各频率带和时间间隔中的所述水印信号的幅度和相位；

其中，所述差分解码器进一步被配置为基于所述第一时频域表示型态的两个对应值，确定与给定频率带和给定时间间隔相关联的所述第二时频域表示型态的值。

9.根据权利要求7所述的水印解码器，其中，所述水印解码器包括被配置为用第一比特形成函数对所述加水印后的信号或其下混版本卷积的分析滤波器(1600)；

其中，所述水印解码器进一步被配置为对所述卷积结果进行时间采样，以获得所述第一时频域表示型态的时间离散值；以及

其中，所述水印解码器进一步被配置为根据同步信息以子比特间隔分辨率来调整用于对所述卷积结果进行采样的时序，以使信噪比最大化并使符号干扰比最小化。

10.根据权利要求7所述的水印解码器，其中，所述差分解码器进一步被配置为导出独立地用于不同频率带的所述第二时频域表示型态，使得通过所述差分解码器独立地补偿不同频率带中的所述加水印后的信号的不同相位旋转；以及

其中，所述同步确定器或所述水印解码器进一步被配置为联合地处理与给定时间部分和不同频率带相关联的所述第二时频域表示型态的一组值，以获得同步信息或所述二进制消息数据的一个比特。

11.一种用于根据加水印后的信号(200a；2610)提供二进制消息数据(202a；2620)的水印解码器(200；2600)，所述水印解码器包括

时频域表示型态提供器(1600；2630)，被配置为提供所述加水印后信号的第一时频域表示型态(2632)；

差分解码器(1608；2640)，被配置为根据所述第一时频域表示型态导出第二时频域表示型态(2542)，使得所述第二时频域表示型态的值取决于所述第一时频域表示型态的两个对应值之间的相位差；以及

水印提取器(202；2650)，被配置为从所述第二时频域表示型态中提取所述二进制消息数据。

12.一种便携式水印评估装置(2700)，包括：

麦克风(2710)，被配置为提供电麦克信号(2712)；以及

根据权利要求7至11中任一项所述的水印解码器(2720)，其中，所述水印解码器进一步被配置为接收麦克信号作为所述加水印后的信号。

13.一种用于根据二进制消息数据提供加水印后的信号的方法(2800)，所述方法包括：

根据所述二进制消息数据的信息单位，提供(2810)第一时频域表示型态，所述第一时频域表示型态的值表示所述二进制消息数据；

根据所述第一时频域表示型态导出(2820)第二时频域表示型态，使得所述第二时频域表示型态包括多个值，其中，所述第二时频域表示型态的两个值之间的差表示所述第一时频域表示型态的对应值，以获得所述第一时频域表示型态的值的差分编码；以及

基于所述第二时频域表示型态来提供(2830)所述水印信号。

14.一种用于根据加水印后的信号提供二进制消息数据的方法(2900)，所述方法包括：

提供(2810)所述加水印后的信号的第一时频域表示型态；

根据所述第一时频域表示型态导出(2920)第二时频域表示型态，使得所述第二时频域表示型态的值取决于所述第一时频域表示型态的两个对应值之间的相位差；以及

使用(2930)所述第二时频域表示型态来确定同步信息，所述同步信息用于提供所述二进制消息数据或者用于从所述加水印后的信号中提取所述二进制消息数据。

15.一种用于根据二进制消息数据(101a；2410)来提供水印信号(101b；2420)的水印生成器(101；2400)，所述水印生成器包括：

信息处理器(303，304，305；2430)，被配置为将所述二进制消息数据扩展到多个频率带或频率子带，并根据所述二进制消息数据的信息单位来提供第一时频域表示型态(2432)，所述第一时频域表示型态的值表示用于所述多个频率带或频率子带以及时间块的所述二进制消息数据；以及

差分编码器(306；2440)，被配置为根据所述第一时频域表示型态导出第二时频域表示型态(306a；2442)，使得所述第二时频域表示型态包括多个值，其中，所述第二时频域表示型态的值b_diff(i，j)为所述第二时频域表示型态的值b_diff(i，j–1)以及所述第一时频域表示型态的值b(i，j)的函数，并且其中，所述第二时频域表示型态的两个值之间的差表示所述第一时频域表示型态的对应值，以获得所述第一时频域表示型态的值的差分编码；

16.一种用于根据加水印后的信号(200a；2510)提供二进制消息数据(202a；2520)的水印解码器(200；2500)，所述水印解码器包括：

时频域表示型态提供器(1600；2530)，被配置为提供所述加水印后信号的第一时频域表示型态(2532)，其中，所述第一时频域表示型态的值b_i ^norm(j)包括关于在频率f_i和时刻j下的信号分量的相位的信息；

同步确定器(201；2550)，被配置为基于所述第二时频域表示型态来获得同步信息(205；2552)；以及

17.一种用于根据加水印后的信号(200a；2610)提供二进制消息数据(202a；2620)的水印解码器(200；2600)，所述水印解码器包括：

时频域表示型态提供器(1600；2630)，被配置为提供所述加水印后的信号的第一时频域表示型态(2632)，所述第一时频域表示型态的值b_i ^norm(j)包括关于频率f_i和时刻j下的信号分量的相位的信息；

水印提取器(202；2650)，被配置为提取所述第二时频域表示型态的所述二进制消息数据。

18.一种用于根据二进制消息数据提供水印信号的方法(2800)，所述方法包括：

将所述二进制消息数据扩展到多个频率带或频率子带上，以根据所述二进制消息数据的信息单位，提供(2810)第一时频域表示型态，所述第一时频域表示型态的值表示多个频率带或频率子带以及时间块的所述二进制消息数据；

根据所述第一时频域表示型态导出(2820)第二时频域表示型态，使得所述第二时频域表示型态包括多个值，其中，所述第二时频域表示型态的值b_diff(i，j)为所述第二时频域表示型态的值b_diff(i，j-1)和所述第一时频域表示型态的值b(i，j)的函数，并且其中，所述第二时频域表示型态的两个值之间的差表示所述第一时频域表示型态的对应值，以获得所述第一时频域表示型态的值的差分编码；以及

基于所述第二时频域表示型态，提供(2830)所述水印信号。

19.一种用于根据加水印后的信号提供二进制消息数据的方法(2900)，所述方法包括：

提供(2910)所述加水印后的信号的第一时频域表示型态，其中，所述第一时频域表示型态的值b_i ^norm(j)包括关于在频率f_i和时刻j下的信号分量的相位的信息；

使用(2930)所述第二时频域表示型态来确定同步信息，所述同步信息用于提供所述二进制消息数据，或者用于从所述加水印后的信号中提取所述二进制消息数据。