CN1249517A

CN1249517A - 用于在音频数据中插入附加信息的系统

Info

Publication number: CN1249517A
Application number: CN99120214A
Authority: CN
Inventors: 小林诚士; 陈定远; 大嶋良明; 清水周一; 森本典繁
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1998-09-29
Filing date: 1999-09-17
Publication date: 2000-04-05
Anticipated expiration: 2019-09-17
Also published as: US6526385B1; KR20000022748A; JP3274667B2; CN1199180C; JP2000172282A; KR100341197B1; GB2343818B; GB2343818A; GB9922676D0

Abstract

一种用于将象版权信息这样的附加信息插入到音频数据中的方法和系统,该方法和系统还用于保持所插入的信息,并在已经执行了没有彻底恶化音质的音频数据处理之后,将其精确地检测出。为向音频数据中插入附加信息,首先将音频数据转换为频率分量。根据音频数据,对每个频率的修改的电平被确定为可将附加信息插入到音频数据中的电平,并生成用于插入附加信息的掩码。这样,附加信息就被插入了,这种插入使用了掩码,并且是在所得到的来自经变换的音频数据的频率分量的修改电平内。

Description

用于在音频数据中插入附加信息的系统

[发明领域]

本发明涉及一种方法和系统，用于将象版权信息这样的附加信息插入数字音频数据，并用于检测所插入的信息。尤其是，本发明涉及一种方法和系统，用于在其中插入有附加信息的音频数据被如此变换，而使音频数据的音质没有彻底恶化的情况下，能准确检测所插入的附加信号。

[背景技术]

当前，不仅在CD上而且也在互联网上提供有数字化音乐。无论多么频繁地播放这些数据，这种数字音频数据都很稳定，音质不会恶化。但是，由于能很容易地复制大量的这种数据，用于防止数据被非法复制的技术变得日益重要。为防止这种非法复制，可将版权信息插入音频据中，以明确地证实版权的存在，或可嵌入与分配目的相关的信息，以便能追踪非法复制传播的途径。为了不减小音频分量的值，由于信息的插入而引起的音质的改变不应被人的听力觉察到。另外，由于可以利用数字分量来进行诸如象滤波、用MPEG、AC3或ATRAC执行的压缩/解压缩、数字—模拟或模拟—数字变换、修整以及改变播放速度这样的处理，所以插入信息必须能挽救甚至是在音频数据的音质没有彻底恶化的范围内所发生的数据值的改变、丢失、插入和重采样。

在音频数据中插入附加信息的常规检测方法在保密方面很出色。但是，当所插入的附加信息使用了较少修正，以致人不能察觉到时，会在象压缩/解压缩、滤波以及数字—模拟变换这样的数据处理活动中丢失插入信息，这样，这种常规方法有可靠性方面的问题。用于在音频数据中加入附加信息的一般方法是使用PN(伪随机噪声)调制的一种扩展频谱的方法。依据这种方法，在时域内，使用伪随机噪声对附加信息进行调制，所得到的结果被插入。结果，在频域内，与所插入信息相应的分量的频谱可看作是被展宽。在USP 4,979,210、USP5,073,925以及USP 5,319,735中公开了这种方法。

依据上述方法，使用伪随机数Rn调制位数据Bm，所得到的位信息被如下所述插入到音频采样中，其中Rn是由适当的加密技术(例如DES)而产生的+1及-1构成的。[表达式1]

A′_Nm+n＝A_Nm+n+cB_mR_Nm+n其中Bm表示代表一位的+1或-1，n＝0、1、……、N＝1，c表示插入信息的强度。对于插入信息的检测，是通过计算表达式2来检测位信息的。[表达式2]

Bm = \frac{1}{cN} Σ_{m = 0}^{N - 1} A_{Nm + n}^{'} R_{Nm + n}

这是因为可以这样假设，如果序列Rn是随机的，值∑A_Nm+nR_Nm+n将会彼此相消。对于在时域内插入信息，则不能利用人的感知频率，而且也不能防止音质的恶化。这样，如果插入信息具有很小的修正电平，以致人不能凭听觉感知由于插入而引起的音质变化，则插入信息将不会挽救象压缩/解压缩这样的一些后处理的执行。

在另一方面，依据USP 5,687,191中的技术，在插入信息处理中，用多相滤波器将构成时间信号的采样分开，以获得多个频带，在每个频带中，用伪随机噪声对信息进行调制，且该信息被插入。与此相关的优点是对不同的频带可以采用不同的插入强度，还可以利用人类听觉的频率特性。因此，使用这种与其它传统方法不同的方法，可以可靠地并且不会使音质恶化地插入信息。

依据USP 5,613,004和USP 5,687,236同时还有本发明中所公开的方法，可以在经变换的频率分量中插入信息，并且此后可被检测出来。使用这种方法，也为了增加保密性，在频域内的插入和检测装置是被当作一个信号扩展装置提出的。但是，在这些美国专利中，并没有提出具有高的音质并且是牢固的插入和检测装置。使用这些方法，对未经压缩的数字音频采样分成几个不相重叠的区域(称作窗)，并对每个单独的窗使用FFT(快速傅立叶变换)。使用主掩码(primarymask)和卷积掩码(convolutiona1 mask)来确定是否应在FFT装置得到的频率分量中插入一个位信号。主掩码和卷积掩码是伪随机位，且主掩码的大小与频率值相应。每个窗相应于卷积掩码中的特定位置。对于信息是否要插入窗内的频率分量中，取决于在与该频率相对应的位置上主掩码的比特值以及在与该窗相对应的位置上卷积掩码的比特值的逻辑运算结果为真还是为假。

依据USP 5,613,004中所公开的插入方法，映射信息位(由附加信息产生的多余位)被插入到插入频率分量的特定比特位置。在USP5,687,236中，插入经过修改的比特，使这些比特落入相关于原始值而事先确定的电平内。在任一种情况下，一个比特被插入到一个频率分量中，通过使用主掩码和卷积掩码可保持插入信息的安全性。但是，插入信息不能挽救象压缩/解压缩以及象每个频率分量增加随机噪声这样的数据处理的执行。

信息开始的分隔符是由相对较多的比特构成的一种符号，并用于检测被检测比特中的窗的分隔符以及信息起始点。依据这些专利的说明书，在有128个采样的窗中加入64比特，16个窗可获得1024个比特符号。由于使这些符号相同是极不可能的，所以可采用特定的1024个比特符号，作为信息起始的分隔符。为搜寻窗的分隔符和信息起始点，窗起始点被一次移动一个采样，直到信息起始的分隔符被检测到。使用这种方法，如果插入信息很长，将会增加因搜寻信息起始点而强加的负担，而且这种方法不能满足由于在数字至模拟转换中频繁发生的数据的丢失和插入而产生的重新同步的需要。

[本发明所要解决的问题]

因此，本发明的一个目的是提供一种方法和系统，用于将象版权信息这样的附加信息插入到音频数据中，使得由于插入而引起的音质的改变对人来说是不可感知的，并且已在不会使音质极度恶化的电平下执行音频数据处理之后，能保持所插入的信息，并精确地检测到它。

本发明还有一个目的是提供一种方法和系统，由此可将附加信息插入到音频数据内，并可将其检测出，同时可保持高的音质及高的可靠性。

本发明的另一个目的是提供一种方法和系统，用于将音频数据变换为频率分量，并用于将所得到的频域内的数据处理为插入的附加信息。

本发明还有一个目的是提供一种方法和系统，用于在音频数据内插入附加信息，所述方法和系统在象数据的压缩/解压缩以及向单独的频率分量附加随机噪声这样的数据处理过程中，能可靠地抗拒破坏。

本发明的另一个目的是提供一种方法和系统，用于在音频数据中插入附加信息并检测插入的信息，并用来减小由于搜索插入的附加信息而强加上的负担。

本发明还有一个目的是提供一种方法和系统，用于在音频数据中插入附加信息，并用于检测所插入的信息，以及用来应由于在数字至模拟转换中频繁发生的数据的丢失或插入的需要而复制再同步。[发明概述]

为实现本发明的上述目的，依据本发明的一个方面，提供了一个“插入系统”和一个“检测系统”。插入系统用于将象版权信息这样的附加信息插入到未经压缩的数字音频数据中，以便音质的改变对人是不可感知的；检测系统用于甚至是已对音频数据执行了数据压缩/解压缩或修整过程时，检测附加信息是否已被插入，并检测所插入的信息。

对每个信道，未经解压缩的数字音频数据是由一系列被称作采样的整数构成的。对于CD所提供的音频数据，每个信道是由每秒44100个16比特的采样构成的。依据本发明，是在频域插入信息并检测信息的，因此可利用心理声学模型。这样，在本发明的插入系统和检测系统中，音频采样被分为具有恒定长度的片段，且被单独分隔开的采样片段在频域内进行变换。称所要变换的采样片段的每个间隔为帧。

图4中显示了依据本发明的附加信息的插入处理。在步骤410，采用了为每个频率定义插入信号的相位的一个掩码(mask)，以插入比特信息，该比特信息与附加信息、频率分量中的同步信号以及同频域内的音频数据相对应，其中，所述同步信号是从频域内经变换的音频数据的单独的帧中得到的，且频域内的音频数据被逆变换为时域内的音频采样。在插入过程中，若干帧并不彼此重叠，且连续的帧可能不相邻。当要求修整的可靠性时，重复地插入附加信息。

在图5中显示了附加信息的检测处理。在步骤510，执行对音频数据采样的搜索，以发现帧起始点。在步骤520，当确定出附加信息已被插入时，采用检测掩码来检测频率分量中所插入的比特。在步骤530，搜寻重复插入的附加信息的周期已开始的点，并重放所插入的附加信息。

依据本发明，提供了一种方法和系统，用于在每一帧中插入对人来说是听觉不可感知但是却是可靠的信息，并用于检测插入信息；还提供了一种帧同步方法和系统，用于在检测出插入信息之前，搜寻正确的帧起始及结束点；本发明还提供了一种信息同步方法和系统，用于搜寻比特周期起始和结束点，以便能通过使用每帧内所检测出的比特信息而重放出若干比特(信息)。

特别是，为在音频数据内插入附加信息，首先将音频数据变换为频率分量。根据这些音频数据，对每个频率分量进行修改的电平被确定为能在音频数据中插入附加信息的一种，并产生一种用于插入附加信息的掩码。这样，使用这个掩码，在从经变换的音频数据中得到的频率分量的修改电平内，插入附加信息。最后，其中插入了附加信息的经变换的音频数据被逆变换为时域内的音频数据。为检测插入到音频数据内的附加信息，提供了一种同步检测装置，用于将音频数据变换为频率分量，以便产生用于检测附加信息及用于为检测附加信息而获取同步的一个掩码。这样，使用这个掩码，经变换的音频数据内的附加信息被从经变换的音频数据中同步检测出。

[附图的简短说明]

图1是一个方框图，说明了依据本发明的附加信息插入装置。

图2是一个方框图，说明了依据本发明的附加的信息检测装置。

图3是一张图，说明了用于插入/检测附加信息的系统的一个硬件装置的一个例子。

图4是一张流程图，它显示了依据本发明所执行的附加信息插入处理。

图5是一张流程图，它显示了依据本发明所执行的附加信息检测处理。

图6是一张流程图，它显示了为在一帧内插入一个信号而执行的处理。

图7是一张流程图，它显示了为检测插入到一帧内的一个信号而执行的处理。

图8是一张流程图，它显示了为使用相位搜寻帧起始点而执行的处理。

图9是一张流程图，它显示了为由相位对齐的信号的插入，而估测时间压缩/扩展比而执行的处理。

图10是一张图，它显示了传统方法和本发明方法之间的不同，所采用的本发明的方法是插入建立了不同间隔的几组信息。

图11是当用消息插入周期开始的那一帧来说明字节、字和消息时，所经历的过程的一个总体图。

图12是一张图，解释用于通过添加特定比特来估测消息起始点的方法。

图13是一张图，解释当考虑了帧检测可靠性时，用于估测消息起始点的方法。

图14是一张图，解释用于通过添加特定比特来估测消息起始点的方法。

图15是一张图，它显示了使用具有5比特长度的序列，以插入3比特信息的一个例子。

[最佳实施例]

以下，将对用于在音频数据中插入附加信息并用于检测所插入信息的方法和装置给出更详细的说明。

[用于每帧的插入/检测的方法和系统]

一帧被用作在频域内进行变换的采样单元。现在将说明用于为单独的帧插入及检测信息的方法和系统。为有效地利用一个心理声学模型，被认为是合理的帧的采样数大于128，正如USP 5,613,004和USP5,687,236中所述，其实际范围可从512到2048。

在以下说明中，在未经压缩的音频数据的第m帧内的第n个采样被表示为Am(n)，将第m帧变换为频率分量而得到的频率分量k被表示为Fm(k)。当在连续的帧之间没有间隔时，以及当一帧内的采样数是N时，建立了以下关系。[表达式3]

A_m(n)＝A_Nm+n

由于原始采样是一个实数，甚至是在单独的频率分量是由由实部和虚部构成的复数组成的情况下，Fm(k)及Fm(N-k)＝Fm(-k)是共轭复数。换言之，独立频率的数目是一帧内采样数的一半，即N/2。复数被看作是一个二维矢量，通过使用以下表达式正式地定义一个内积。[表达式4]

α·β＝α_xβ_x+α_yβ_y

在以下说明中采用了这个表达式。下标x和y代表一个实部和一个虚部，依据该定义：α·α＝|α|²。

假设插入系统和检测系统共同采用一组复数Mp(k)，这一组复数是与每个频率k相对应的伪随机数，下文中称其为掩码(mask)。但是，由于插入掩码是时域内的一个实数，所以Mp(k)和Mp(-k)是复数共轭的。另外，当Mp(k)仅仅是由具有绝对值为1的复数构成的时，就假定其相位是伪随机指向的。如果Mp(k)是一个纯虚数，则它沿虚轴是伪随机的。这即是，依据上述目的，假定对用Mp(k)所表示的可用范围提供一个合适的限制。[信号插入至一帧中]

图6显示了依据本发明的用于将一个信号插入到一帧内的处理。在步骤610处，将音频采样分为若干帧。在步骤620，单独的帧被转换为频率分量。在步骤630，采用所得到的频率分量来计算心理声学模型，而且对每个频率，都获得一个对人来说是不可感知的修正电平的变化。在步骤640，在由随机数得到的掩码的方向上，在所得到的修正电平处，最大可能地改变频率分量的值，并且比特信息、符号信息和同步信号被嵌入。如果插入信息的可靠性比音质更重要，则计算频率分量和单独掩码之间的内积。当内积小于可靠性所需要的门限值时，则频率分量中的修改量增加，直到它等于该门限值，甚至是在对频率分量的处理量超过心理声学模型的最大修改电平的情况下也是这样。如果音质更重要，且内积大于门限值，则修改量减小，直到它等于门限值。当频率分量已经改变时，在步骤650处，对所得到的频率分量进行逆变换，以将音频采样从频域还原到时域。当由每帧的变换而得到的频率分量Fm(k)如下变换时：[表达式5]

F′_m(k)＝F_m(k)+h_m(k)可插入比特信息和同步信号。由于频率分量是一个复数，所以修改电平hm(k)也是一个复数。为得到频率分布Fm，而计算象声学掩码模型这样的心理声学模型，并且，为每个频率k，获取用于对人来说是不可感知的修改电平hm(k)的频率水平(leve1)。感知不到的水平通常具有两个复杂的空间形状。因此，甚至在修正hm(k)是对人来说不可感知的最大修正的情况下，绝对值|hm(k)|不总是最大值，并且通常位于修正电平的边缘上。声学掩码模型被用来在计算机上模拟这样一种条件，即其中对人不可感知的每个频率的修改电平依据频谱分配而改变，例如是这样一种条件，当存在大量纯噪声时，对在先的和在后频率的修改不能被人所感知。

对掩码方向上的频率分量的插入意味着这些频率分量可以如此改变，以便其由下式所表示的内积具有所需的信号或值：[表达式6]

Xp = (m) = \underset{k}{Σ} C ({F^{'}}_{m}, k) (M_{p} (k) \cdot {F^{'}}_{m} (k))

在这种情况下，C(Fm，k)表示依赖于频率分布Fm和频率k的正的规一化常数(positive norma1ized constant)，并被用于改进统计估测的可靠性。当这些掩码实质上正交时，由于插入而引起的频率分量的改变可被定义如下[表达式7]

h_{m} (k) = a (k) \underset{p}{Σ} b_{p} M_{p} (k)

在这个表达式中，可确定实上述bp与用于内积Xp(m)的所需符号或值成比例，该内积是用各个掩码而得到的；正的常数a(k)可被这样调整，以便它能位于不可感知的修改电平的边缘。由于规一化常数C(F′m，k)依赖于插入结果，所以，继续执行为获取正的常数a(k)所需的处理。

对每帧都执行比特值的插入。因此，如果出于某个原因，例如是所要插入的比特值不同、在帧的A′_m(N-1)和A′_m+1(0)的分隔符上发生了大量的不连续，从而使相邻帧间的修改电平值不同，则听众将所产生的声音看作是噪声。因此，为防止音质的恶化，要限制用于改变频率分量以及掩码的形状的方法，以便修改量在与所有帧的两端都相同。例如，用于频率分量的修改值和掩码被限制为纯虚数。将修改限制为纯虚数，与为时域内每帧中的一个正弦波插入一个信号相同。作为另一个例子，对频率分量和掩码的修改被限制为实数，准备了一对偶数频率(2k，2k′)，以及一对奇数频率(2k+1，2k′+1)。为在帧的两端将它们彼此消去，成对频率的掩码值以及修改值具有相反的符号，甚至是在数值相同的情况下也是这样，正如以下等式所说明的那样。[表达式8]

M_p(2k)+M_p(2k′)＝0以及h_m(2k)+h_m(2k′)＝0[表达式9]

M_p(2k+1)+M_p(2k′+1)＝0以及h_m(2k+1)+h_m(2k′+1)＝0将修改量限制为实数，与为时域内每帧中的余弦波插入一个信号相同。

另外，由于选择了正交掩码，甚至是在依据不同的掩码连续插入信息时，也可以避免插入一个掩码的信息破坏插入到另一个掩码中的信息，还能避免发生检测错误，这种检测错误即嵌入一个掩码中的信息会因为没有被嵌入另一个掩码中，而不会被检测出来。结果，在将音频数据加载到服务器上之前，插入数据的版权信息，在用户通过互联网下载音频数据之后，就插入如用户ID这样的跟踪信息(traceinformation)，以防止服务器和用户之间的相互干扰。例如，在掩码值Mp(k)不为零的频率k被设置在受限区域中，另一个掩码被如此设置，使得与上述域不同的域不为零。这样，可保持正交掩码，而不用依赖于规一化常数C(Fm，k)。此时，不将掩码不为零的频率区域设置为单独的频率区间，而将其设置为若干区间，使这些区域能覆盖大量的频率，以便音质和可靠性可得到改善。依据MPEG压缩处理，关于数据压缩，对不同的频带(比例因子频带)采用不同参数(比例因子)，这样，可为每个频带定义一个用于控制增益的参数。如果仅仅简单地分割频带，并且为每个掩码分配一个单独的区间，则掩码的可靠性会依据数据成分的不同而大不相同。因此，分割频带，以提供比作为压缩处理单元的子频带更小的一个带宽，如此选择这些频带，使得信息插入频带不会集中在低音范围内或集中在高音范围内，且合成了彼此正交的掩码。

如上所述，依据本发明，与传统方法不同的、用于每帧的插入方法的特征在于：

*替代将一比特加入一个频率分量的作法，将信息插入在掩码的方向上变化的大区间内的频率分量中。

*替代事先为每个频率确定改变量的作法，采用由频率变换而得到的频率分布来为每个频率确定不能被人感知的最大修改电平。之后，依据确定出的电平，就确定了对每个频率的修改量。

*对掩码和频率分量的修改量加一个限定，使得时域内每帧两端的修改量接近为零。

*一个频带被分为更小的频带，并将这些频带中的若干频带集合起来，以防止频偏，准备有正交掩码，所以信息不会被其它信息所破坏，由此，可以实现对复合信息的插入。[检测用于一帧的信号]

图7中显示了依据本发明的用于一帧的信号检测处理。在步骤710处，将音频采样分为若干帧。在步骤720处，将这些帧变换为频率分量。在步骤730处，计算频率分量和检测掩码的内积。为改善对插入信息进行检测的可靠性，根据需要，用于一帧的内积被加入到另一帧上，其中在所述另一帧中，通过使用一个适当的符号对所加入的同一信息进行多路复用。这即是，如果信息被用同一符号插入，则它被添加了同一符号，而如果信息被用相反的符号插入，则它被添加了相反的符号。最后，在步骤740，依据内积的符号或依据所得到的最大内积的掩码来检测比特信息。对于每帧，使用以下表达式来计算频率分量Fm(k)和掩码Mp(k)的内积。[表达式10]

X_{p} (m) = \underset{k}{Σ} C (F_{m}, k) (M_{p} (k) \cdot F_{m} (K))

这里，规一化常数C(Fm，k)定义了正数，它是引入的用以改善统计估测的可靠性，它还依赖于频率分布及频率。一般来说，频谱|Fm(k)|不是被均一分配的，其幅度从低频分量到高频分量逐渐变短。一种声音发生器或象音乐曲调这样的数据分量使谱分布频率波动很大。为改善统计估计的可靠性，当频率分量被修改为人所不能感知的最大电平时，统计平均值＜Xp(m)＞的平方大于未插入信息时所得到的统计平均的平方＜Xp(m)²＞。由于建立了以下表达式，[表达式11]

< Xp (m) > = \underset{k}{Σ} C (F_{m}, k) a (k) | M_{p} (k) |^{2}

以及[表达式12]

< Xp {(m)}^{2} > = \underset{k}{Σ} C {(F_{m}, k)}^{2} {(M_{p} (k) \cdot F_{m} (k))}^{2}

所以，可由下式得到改善了统计估测的可靠性的规一化常数[表达式13]

C (Fm, k) = \frac{ca (k) | M_{p} (k) |^{2}}{< {(M_{p} (k) \cdot F_{m} (k))}^{2} >}

此时，建立了下述表达式：[表达式14]

\frac{< X_{p} (m) >^{2}}{< X_{p} {(m)}^{2} >} \leq \underset{k}{Σ} \frac{a {(k)}^{2} | M_{p} (k) |^{4}}{< {(M_{p} (k) \cdot F_{m} (k))}^{2} >}

其中c定义了一个任意常数，a(k)是人所不能感知的最大修改电平。

规一化常数的分母＜(Mp(k)·Fm(k))²＞随主组(primary set)的统计平均值而变化。当采用其中的帧起始点波动的模型时，可以使用表达式15来得到近似值，并获得表达式16。[表达式15]

< {(Mp (k) \cdot Fm (k))}^{2} > = \frac{1}{2} | Mp (k) |^{2} | Fm (k) |^{2}

[表达式16]

C(Fm，k)＝a(k)/|Fm(k)|²但是，由于分母不应该为零，当|Fm(k)|小于a(k)时，它被后者取代，或假设建立了以下等式。[表达式17]

C(Fm，k)＝a(k)/{|Fm(k)|²+a(k)²}由于对表达式的修改或替换而设置的上限是一种适当的近似界限，当考虑这种上限时，在信息被插入之后，压缩/解压缩引起随机修正，这样人不会感到这种频率变化。当进一步采用a(k)与|Fm(k)|成比例的一个简单的听觉模型时，建立了一个表达式，[表达式18]

C(Fm，k)＝1/|Fm(k)|当|Fm(k)|小于门限值时，用后者代替它。为检查所得到的内积的可靠性，首先，计算表达式19，[表达式19]

Sp (m) = \underset{k}{Σ} C {(F_{m}, k)}^{2} {(M_{p} (k) \cdot F_{m} (k))}^{2}

并假设表达式20遵从规一化分布，这样可计算一个非正的误差，[表达式20]

X_{p} (m) = X_{p} (m) / S_{p} {(m)}^{\frac{1}{2}}

即使所有采样Am(n)都在同一时刻改为-Am(n)，音频数据的音质也不改变。这一数据处理被称作极性的反转。当装置连接在一起以便交换数据时，与装置的组合相应而发生极性的反转。因此，如果仅仅依据内积Xp(m)或符号Xp(m)来定义一个比特，则很容易通过极性的反转使音频数据恶化。可采用下述两种方法作为对策：

*一种方法，用于配制一个符号掩码和一个比特掩码，并用来通过将符号掩码的内积乘以比特掩码的内积，用所得结果的符号来检索一个比特值；以及

*一种方法，用来配制用于比特值0的掩码以及用于比特值1的掩码，并依据所得到的具有较大内积的掩码，检索一个比特值。

第二种方法可被看作是对第一种方法的修改。

依据第二种方法，采用两种掩码M0(k)和M1(k)，以插入一比特信息。得到了X₀(m)和X₁(m)的内积，并建立了以下关系。[表达式21]

如果|X₀(m)|＞|X₁(m)|，比特0

如果|X₀(m)|＜|X₁(m)|，比特1特别是，M₀(k)表示用于比特0的掩码，M₁(k)表示用于比特1的掩码。但是这种方法可被看作是采用了符号掩码M_s(k)和比特掩码M_b(k)的几种方法之一。这即是，当建立了表达式22时，[表达式22]

M_s(k)＝M₀(k)+M₁(k)

M_b(k)＝M₁(k)-M₀(k)[表达式23]

X_s(m)＝X₀(k)+X₁(k)

X_b(m)＝X₁(k)-X₀(k)也建立了与符号内积Xs(m)和比特内积Xb(m)相对应的表达式23。这样得到了表达式24。[表达式24]

X_s(m)X_b(m)＝(X₁(m)-X₀(m))(X₀(m)+X₁(m))正如可从这一表达式中看到的那样，可以假定如果Xs(m)是正的，则可以用为负的Xb(m)来定义比特0，用为正的Xb(m)定义比特1，而如果Xs(m)是负的，则可用负的Xb(m)来定义比特1，用为正的Xb(m)来定义比特0。

符号掩码是象掩码Ms(k)这样的一种掩码，它采用了用于那种掩码的内积的符号，以改变对另一个比特掩码的内积的说明。为检测极性的反转，也为了恰当地解释该比特，对一个插入处理使用单独的一个符号掩码就足够了。必须使用用于符号掩码的内积的符号，以改变对另一个比特掩码的内积符号的说明。另外，由于一般来说，在很短的期间内极性不会波动，为改善稳定性，用于符号掩码的信号经过小改动之后被插入，而用于比特掩码的信号经过大改动之后被插入。为每帧累计用于符号掩码的信号，以改善稳定性。假定用于符号掩码的信号总是被插入到相同的方向上，所以可由以下表达式以及连续帧的和m得到信号的内积和分布。[表达式25]

Xs = \underset{m}{Σ} X_{s} (m)

Ss = \underset{m}{Σ} S_{s} (m)

由于所要检测的音频数据可以在时域内波动，或作为极性反转的结果，大量的数据不可能被定义为帧的和。符号掩码的使用可与帧同步掩码一样，或可依据帧是否经过标记的判定来决定。通过执行以下表达式来确定一帧是否经过标记[表达式26]

如果Xs²/Ss＞t²，则帧被标记

如果Xs²/Ss≤t²，则帧未经标记其中，t使用于确定的一个门限值。而当以下表达式遵从规一化分布时，计算相应的非正的误差。[表达式27]

x_{s} = Xs / {S_{s}}^{\frac{1}{2}}

如上所述，符号掩码更有效。

如上所述，依据本发明，不同于已有技术的、用于帧的检测方法的特征在于

*代替仅仅计算频率分量和由伪随机数构成的掩码的简单内积的作法，而用标准化常数乘以这些内积，以得到最终的内积，其中的标准化常数是由频率分布确定的，并依赖于频率。

*代替仅简单地依据内积的符号来定义一比特值的作法，而是采用符号掩码的内积的符号来改变对另一个掩码的比特值的译释。

*对于所有的帧，符号掩码被插入到同一方向上，或者是，具有相反的符号，这样，信息的采集跨越了若干帧，且其检测的可靠性得到改善；以及

*对符号掩码采取累加内积的作法，以确定一个帧是被标记过还是未经标记。[帧同步方法和系统]

对于用来检测每帧信号的处理，假设在插入信息时，音频采样被正确地分成了若干帧。在信息被插入后，音频数据可以在时域内被扩展或被压缩，或可得到修整。因此，在检测处理开始时，以及当确定当前的插入信息的可靠性降低时，必须估测音频数据的时间压缩/扩展率，并需要搜索信息是何时插入到帧起始点的。[使用相位搜索帧起始点的方法]

如果对于每帧，信号插入时都进行了相当大的修改，则移动音频采样的起始点，以便从这些采样中检测到一个临时帧。该帧被转换为频率分量，并推测出插入处理中帧起始点的位置，其中该位置是对于所得到的用于单独的掩码的内积的绝对值的和最大的位置。如果信号插入时进行了很小的修改，以便防止音频由于信息的插入而恶化，则假设，在插入系统中，对连续排列的帧设置相同的间隔，这样，在检测系统中，可采用移动相同的起始点，用在若干不同的帧上。这样，代替使用一个单个的帧确定起始点的方法，可以搜索将一个适当的值同时提供给若干帧的起始点，这种搜索可以是一次移动一个采样，这样，当插入信息时，可准确检测到帧起始点。但是，在任何一种情况下，当一次移动一个音频采样的位置时，在临时起始点处执行FFT，需要大量的计算时间来搜索帧同步的起始点。因此，执行以下处理，以减少计算时间。图8显示了依据本发明的处理，它利用相位搜寻帧起始点。在插入系统中，在步骤810，音频采样被分成临时帧。这样，在步骤820处，多个帧被交叠在一起，在步骤830，它们被转换为频率分量。在步骤840，移动同步信号掩码数据的相位(它可与符号掩码的相同)，并使用相同的掩码，使数据被按同一方向插入到每帧中。在步骤850，计算经过变换的帧和经移动的掩码的内积。在步骤860，内积最大的位置被定义为，当信息被插入时的帧起始点。如果在这一点的内积的绝对值不是最大的，则程序控制返回步骤840。由于同一个信号被插入到同一帧，只要音频采样具有为信号被插入时的宽度的倍数的宽度，即使是在帧分隔符在信号被插入时被从帧分隔符处移开的情况下，检测系统也可仅凭移动掩码的相位而检测出信息(步骤840)。将帧移动了等于时域内的v个采样的距离，意味着在频域内执行了2πkv/N的相移，即用Ms(k)_e ^12πkv/N来代替掩码Ms(k)。这里，j定义了一个虚数单元。

特别是，通过执行以下步骤估测信息被插入时的帧起始点。

(1)依据临时的帧分隔符来采集采样Am(n)，且将用于一帧的数据同步。[表达式28]

A (n) = \underset{m}{Σ} Am (n)

所得到的结果数据通过FFT被转换为频率分量，这样就得到了频率分量f(k)。

(2)代替移动帧分隔符的位置的作法，而是移动同步信号掩码Ms(k)，则在得到最大|Sync(v)|的位置上，为每一组达到“v”的v个采样计算内积。[表达式29]

S_{ync} (v) = \underset{k}{Σ} C (F, k) (M_{s} (k) e^{\frac{j 2 πkv}{N}} \cdot F (k))

这样，假定当信息被插入时，帧分隔符的起始点位于临时分隔符起始点之前的v个采样上。

所得到的Sync(v)可代替符号掩码的内积而出现，其中符号掩码随用于比特掩码的掩码的内积的变换而变化。假定当信号被插入时，临时分隔符位于所估测的位置，所预测的Sync(v)的值为[表达式30]

S_{ync} (v) = \underset{k}{Σ} λ (k) C (F, k) a (k) | M (k) |^{2} \cos (\frac{2 πkv}{N})

其中k(k)定义了由随插入而来的恶化所引起的波动，它在恶化出现减小时更近似地逼近于1。由于在压缩/解压缩期间，经过大修改的插入信息易于丢失，通过计算以下表达式可得到用于Sync(v)的另一个逼近值。[表达式31]

S_{ync} (v) = λ_{effective} Σ_{k = k_{\min}}^{k_{\max}} \cos (\frac{2 πkv}{N})

= \frac{λ_{effetive} \cos (\frac{π (k_{\min} + k_{\max}) v}{N}) \sin (\frac{π (k_{\max} - k_{\min} + 1) v}{N})}{\sin (\frac{πv}{N})}

特别是，一般希望Sync(v)在适当的v附近波动，而且其绝对值为N/(kmax-kmin+1)。因此，那些在同步信号掩码不为零处的频率分布在一个很大的区间内，并且，对该同步信号掩码，至少还应该使用用于比特掩码的频率。[由于插入了具有对齐的相位的信号，由此所使用的用于估测时间压缩/扩展比的方法]

在图9中示出了由于插入了具有对齐的相位的信号而使用的用于估测压缩/扩展比的处理。在用于估测信息被插入时的帧分隔符的位置的处理中，假定在时域内的音频数据不存在压缩或扩展。使用以下方法估测时间压缩/扩展比，以检测音频数据在时域被扩展或减小时的插入信号。插入系统和检测系统被告知存在一个或若干个特定频率。在步骤920处，插入系统对人所不可感知的水平内的频率进行变换，以致，对每帧，频率都具有相同的相位。这样，在步骤930，检测系统改变帧的宽度。在步骤950，检测系统确定频率的相位是否对单独的帧是对齐的，其中所述频率经过了将对帧宽度的修改当作时间压缩/扩展比这样的修改。在步骤960，通过使用对帧宽度的修改来定义时间压缩/扩展比，其中这些帧的频率的相位是对齐的。

假设采样帧宽度N′被定义为A_m ^(N′)(n)＝A_N′m+n，并假定相应的频率分量被定义为[表达式32]

{F_{m}}^{(N^{'})} (k) = Σ_{n = 0}^{N^{'} - 1} {A_{m}}^{(N^{'})} (n) e^{\frac{- j 2 πkn}{N^{'}}}

如果帧宽度N被修改为时域内的帧宽度N′，则在插入处理中的Fm^(N)(k)仅仅被转换为检测处理中的Fm^(N′)(k)。因此，插入系统和检测系统都察觉到特定频率ki，并且插入系统插入信息，以便Fm^(N)(ki)＝|Fm^(N)(ki)|几乎可以和所有帧m相匹配。检测系统修改帧宽度，以获取使在频率ki处表达式33为最大的帧宽度N′。[表达式33]

| \underset{m}{Σ} \frac{F_{m}^{(N^{'})} (k_{i})}{| F_{m}^{(N^{'})} (k_{i}) |} |

检测系统采用比率N′/N来获取时间/扩展比。当存在若干可使两个系统都察觉到的频率ki时，则对表达式34或35中最大的一个计算帧宽度N′。[表达式34]

\underset{i}{Σ} | \underset{m}{Σ} \frac{{F_{m}}^{(N^{'})} (k_{i})}{| {F_{m}}^{(N^{'})} (k_{i}) |} |

[表达式35]

\underset{i}{Π} | \underset{m}{Σ} \frac{{F_{m}}^{(N^{'})} (ki)}{| {F_{m}}^{(N^{'})} (ki) |} |

并使用N′/N来计算时间压缩/扩展比。

现在，将说明对这一处理的一种修改方法。可告知插入系统和检测系统存在有一个或更多个特定频率。插入系统在人所不可感知的修改水平内修改频率。检测系统修改帧的宽度，并确定所述频率的相位对每帧来说是否是对齐的，其中所述频率经过了将帧宽度的改变当作时间压缩/扩展比这样的修改。时间压缩/扩展比定义为相位和幅度对齐得最好时，帧宽度的改变。

假定插入系统和检测系统都可觉察到特定频率ki。插入系统插入信息，以便频率分量Fm^(N)(ki)几乎能与所有帧m相匹配。检测系统改变帧的宽度，以获取帧宽度N′，在该帧宽度内，表达式36在频率ki处有最大值，[表达式36]

\frac{| \underset{m}{Σ} {F_{m}}^{(N^{'})} (ki) |}{\sqrt{\underset{m}{Σ} | {F_{m}}^{(N^{'})} (ki) |^{2}}}

且检测系统采用比率N′/N来得到时间压缩/扩展比。如果两个系统够能察觉到若干频率ki，则用表达式37或38中最大的一个来计算帧宽度N′，且比率N′/N被用于获取时间压缩/扩展比率。[表达式37]

\underset{i}{Σ} | \frac{\underset{m}{Σ} {F_{m}}^{(N^{'})} (ki)}{\sqrt{\underset{m}{Σ} | {F_{m}}^{(N^{'})} (ki) |^{2}}} |

[表达式38]

\underset{i}{Π} | \frac{\underset{m}{Σ} {F_{m}}^{(N^{'})} (ki)}{\sqrt{\underset{m}{Σ} | {F_{m}}^{(N^{'})} (ki) |^{2}}} |

[信息同步方法和系统]

信息(附加信息)必须被重复插入到音频数据中，以便它能继续存在于在任何位置上的音频数据的修整中。因此，当从帧中检索比特信息时，必须估测重复信息位的头和尾的位置。这就是，必须使插入系统中的信息和检测系统中的信息的头准确同步。[采用帧来定义字节、字和信息的译释的方法]

图11是当采用帧来定义对字节、字或一个信息的译释时，排列的总体图。为插入用于所检测到的比特中的字节、字和信息的译释的分隔符，插入系统将一个不同信号以同一方向插入到所有帧中，除了信息插入周期开始的那帧，插入系统或者将一个同步信号按相反方向插入到信息插入周期开始的帧内，或不插入任何信号。当一个同步信号以与其它帧相反的方向被插入到一个帧中，或当没有插入同步信号时，检测系统假定这个帧是信息插入周期开始的那帧。

可通过使用帧同步信号掩码或符号掩码来插入同步信号。在这种情况下，可使用所得到的、用于足够多数目的帧的内积和来确定帧同步信号或符号信号，这样，信息插入周期开始的帧所施加的影响可被忽略。

插入系统更有可能是在帧中而不是在信息插入周期开始的帧中插入同一同步信号，检测系统执行统计估测来确定所检测到的帧的同步信号是否落入一个范围，在该范围中，另一个帧的同步信号是波动的，这样可得到一种可靠的估测。检测系统识别出由插入系统所插入的帧的分隔间距(interval separating)的大小，并在一个帧间隔中搜索与其它帧明显不同的帧。因此，当甚至是在所插入的同步信号具有相对较小的改变，以保持音质的情况下，也可检测到同步信号。只要插入系统和检测系统都能察觉到帧的分隔间距的大小，则在信息插入周期开始的帧中既可插入比特信息，也可不插入比特信息。[用于插入若干种具有不同重复周期的信息的方法]

当准备将具有不同重要性的若干种信息插入到音频数据中时，它们的修整稳定性不需要相同。重要信息应当频繁重复，并能被检测出，甚至是在修整间隔很短的情况下也是如此。

为插入并检测具有不同修整稳定性的若干种信息，插入系统和检测系统都能察觉到用来分开信息的比特单元的长度，以及所划分的数目。在插入处理中，信息被分为与比特单元的长度相对应的长度，从信息中搜寻所分得的比特，且这些比特被排列，以配置出具有相等比特长度(称为同步单元)的信息。信息的第一同步单元的第一比特被插入到信息插入周期开始的帧内，且余下的比特被插入到后续帧中。

例如，假定信息比特为A、B和C，且它们被分为[表达式39]

A₀ A₁

B₀ B₁ B₂

C₀ C₁ C₂ C₃插入系统对按表达式40分开的、且具有不同重复周期的比特进行排列，并均匀地插入所要检测的若干信息集合。[表达式40]A₀B₀C₀A₁B₁C₁A₀B₂C₂A₁B₀C₃A₀B₁C₀A₁B₂C₁A₀B₀C₂A₁B₁C₃A₀B₂C₀A₁B₀C₁A₀B₁C₂A₁B₂C₃……每个ApBqCr的第一比特被插入到信息插入周期开始的帧内。在图10中，显示了当插入具有不同重复周期的信息集合时，本发明的方法和传统方法的方法之间的不同。[通过增加特定比特来估测信息起始点的方法]

假定插入系统和检测系统都察觉到特定比特(称为分隔比特)要比附加信息的比特长，并且特定比特不采用循环移动来匹配自己。“比特不采用循环移动来匹配自己”意味着这些比特是被重复插入的，而且只有在原始分隔符处修整它们，才能再现出原始比特。例如，当分隔符”，”被如下插入到每个重复中00100010，00100010，00100010，00100010，……，便可得到”00100010”，或者，当分隔符被插入到0010，00100010，00100010，00100010，0010……时，也可得到”0010010”。因此，”00100010”不能用作分隔比特。而”00100010”内部包含了重复的”0010，”，一般来说，包含内部循环的比特采用循环移动来匹配自己，并且不能用作分隔比特。另一方面，不包括内部循环的”00100011，”可用作分隔比特，这是由于只有使用特定分隔符，才能从重复比特中搜索到原始比特。

另外，假定插入系统和检测系统都能知晓所采用的用于确定是否已由一个异或(XOR)操作将分隔比特加到所述比特上的方法。例如，对于分隔比特”00100011”，可通过检查最后一个比特的值来确定分隔比特是否已经过XOR操作。确定方法并不是唯一的，在这个例子中，不管用于所有数字的比特为奇数还是偶数，都可用来进行确定。图12是一张图，用于解释使用增加的特定比特来估测信息起始点的方法。

通过执行一个XOR操作而在每隔一帧内加入了分隔比特，同时，插入信息向附加信息的比特中加入一个或更多比特，配置出与分隔比特一样多的扩展比特，并将扩展比特插入音频数据中。采用附加比特来确定是否已添加了分隔比特。

通过使用一个XOR操作，检测系统将移动了等于分隔比特的长度的距离的同一比特加到所检测的比特上，并在所得到的比特中寻找能使所得到的比特与分隔开的比特相吻合的分隔符。如果找到这种分隔符，就将它们定义为分隔符在所检测比特内的位置。如果没有找到这种分隔符，就假设在检测这些比特时，产生了错误。由于已将分隔比特加到分隔开的比特中的每隔一帧上，通过使用一个附加比特来确定没有任何增加的那些比特，且将其定义为搜寻到的比特。

假定”00100011”是分隔比特，并假定插入系统中的附加信息为7位”1101101”。将一个”0”比特加到附加信息上，所得到的扩展比特”11011010”被重复插入。此时，通过一个XOR操作，将分隔比特加到每隔一帧上，并每隔一个插入重复而被插入一次：11011010，11111001，11011010，11111001，11011010，1111001，……。在上面这个例子中，插入分隔符”，”，以便能清楚地看出分割；但实际上，在每帧中只插入一个比特值0或1。

这样，假定由于伴随插入的处理，而使上述序列的前三个比特丢失，检测系统检测下述比特：11010，11111001，11011010，11111001，11011010，11111001，……。这些比特被移动了一个距离，该距离等于分割比特的数目，且通过使用XOR操作，所得到的比特11001，11011010，11111001，11011010，11111001，11011010，……被加上。这样，所合成的比特是00011，00100011，00100011，00100011，00100011，00100011，……。由于所得到的比特与分隔比特”00100011”相吻合，所以只有这个分隔符是正确的。这样，在每个分隔符处，选择具有附加”0”比特的扩展比特，并获取被当作附加信息的比特”1101101”。[当考虑了一帧内所执行的检测的可靠性时，用于估测信息起始点的方法]

图13是这样一张图，它用于说明当考虑了一帧内执行的检测的可靠性时，用来估测信息起始点的方法。为在考虑了一帧内执行的检测的可靠性时，估测出信息的起始点，检测系统对与依据分隔比特的长度而确定的两个相应的帧，计算其比特掩码的内积。用分隔比特内所定义的符号乘以内积。之后，搜寻这样一个分隔符，在该分隔符处，后续帧中的内积的和最大。假定分隔比特被定义为{B(m)}，其长度被定义为M，使用比特掩码而得到的每帧中的内积被定义为Xb(m)。这样，计算表达式41，以得到和为最大处的”v“，且其位置被定义为信息的起始点。[表达式41]

P (v) = Σ_{m = 0}^{M - 1} {(- 1)}^{B (m - v)} X_{b} (m) X_{b} (m + M)

当分隔比特的下标值超过原始范围时，假定范围扩展为B(m+M)＝B(m)，且(-1)⁰＝1以及(-1)¹＝1。依据这一方法，甚至是在个别的帧发生比特误差时，也可得到信息的起始点。

一旦得到信息的起始点，则使用表达式42的符号来计算比特信息。[表达式42]

X (m) = \underset{r}{Σ} {(- 1)}^{p (r) B (m)} X_{b} (γM + m + v)

该等式的计算与循环的计算相关。这里P(r)对于添加了分隔比特的循环是1，而对于未添加分隔比特的循环是零。[通过添加特定比特来估测若干信息的起始点的方法]

为插入具有不同周期的信息集合，通过异或操作而添加经循环移位不能与其自身吻合的特定比特(称作分隔比特段(delimiting bitsegment))，并且该特定比特被插入，这样可检测出信息的起始点。

“不能通过移位使其与自身相吻合的比特”的意思如下。当对具有长度为M的比特{B(m)}执行任意v(0＜v＜M)位的移位时，建立了B(m)≠B(m+M)，m总是表示在0≤m≤m+M≤M-1的范围内。例如”01011011101111”和”010011000111”时不能通过移位而与自身吻合的典型比特。

假定插入系统和检测系统被告知需要在短间隔内重复插入附加信息的比特，并被告知存在比附加信息的比特还要长的分隔比特段，且需要在更长间隔内将其重复插入。插入系统将一比特添加到在短间隔内重复插入的比特上，并配制出与分隔比特段一样长的扩展比特。另外，插入系统将其它比特添加到所获得的比特上，以配制出一个同步比特单元。为顺序插入同步比特单元，通过使用一个异或操作，插入系统在扩展比特内插入分隔比特段。采用附加比特，以确定是否添加了分隔比特段。

通过采用XOR操作，在同一被检测比特被移动等于该比特长度的位之后，检测系统将其加到所合成的比特单元。之后，检测单元搜寻与分隔比特相应的分隔符。如果发现该分隔符，则将其定义为分隔所检测比特的位置。如果未发现该分隔符，就假定在检测比特时发生了错误。由于每隔一个分隔符，分隔比特段就被加到所分隔的比特上，所以采用附加比特来确定未经任何添加的比特，且该比特被定义为搜寻到的比特。

假定”00110111”是一个分隔比特段，且具有短周期的附加信息为7比特”1101101”。插入系统插入一比特”0”，以配置出扩展比特”11011010”。之后，具有长周期的其它附加信息的比特”*******”被连接到扩展比特上，这样，所得到的构成合成单元的比特为”11011010*******”。星号”*”既可以是0也可以是1。当试图插入合成比特单元时，对分隔比特段进行XOR操作，并每隔一个扩展比特，将其插入一次。这样，对于每帧，都插入了11011010*******，11101101*******，11011010*******，11101101*******，……。当在这种情况下插入分隔符”，”时，实际上只能在帧内插入所述比特值0或1。

假定由于伴随以下插入而执行的处理，使来自上述序列的前三个比特丢失，并假设检测系统可检测到以下比特：11010*******，11101101*******，11011010*******，11101101*******，……。当这些比特被移动了等于合成比特单元长度的位数时，就对所得到的比特01101*******，11011010*******，11101101*******，……执行XOR操作，并将其加上。这样，所合成的比特为10111******，00110111*******，00110111*******，……。不管”*******”的值为多少，它都比分隔的部分比特段的长度要短，这样，这一序列既可与比特”00110111”相吻合，也可与通过移位与其自身吻合。因此，很明显只有用于插入的分隔符与”00110111”吻合。这样，当在每个分隔符处选择具有附加“0”比特的扩展比特时，就可发现具有短周期的附加信息的比特为”1101101”。与此相似，与附加信息相连的短比特序列”*******”被检测出来。采用具有相应长度的分隔比特段，以便可检测出附加信息的起始点。在图14中显示了通过添加上述特定比特而估测若干信息的起始点的方法。[插入一个不受循环移位影响的符号]

插入系统和检测系统被告知一个周期内帧的数目，其中该周期是指附加信息被假定重复插入的周期。通过循环移位，使所提供的一组比特有机会彼此相等，这样一组比特被看作是具有相同的值，而具有不同值的比特与不同的附加信息相应。在这种方式中，系统可插入信息，并检测所述插入信息，而不用知道这些比特周期在何处开始。

通过循环移位，不能再现出彼此相等的一组比特，例如是{00000}，{00001}，{00011}，{00101}，{00111}，{01011}，{01111}，{11111}。可使用五比特序列中的任何一个来代表8个状态，即3比特信息。在图15中显示了一个例子，它使用具有5比特长度的上述序列来插入3比特信息。假定S(M)被定义为不能通过循环移位而使再现出的比特彼此相等的比特长度M的比特数目。则[表达式43]

S (p) = 2 + \frac{(2^{p - 2})}{p}

[表达式44]

S (p^{m + 1}) = S (p^{m}) + \frac{({2 p}^{m + 1} - {2 p}^{m})}{p^{m}}

对于质数p建立了表达式43和44。对于相关的质数p和q，建立了表达式45。[表达式45]

S (pq) = S (p) + S (q) + \frac{(2^{pq} - 2^{p} - 2^{q})}{(pq)}

现在，将参照附图1至3来说明本发明的最佳实施例。图1是一个方框图，它显示了依据本发明的一个附加信息插入装置。一个输入控制框110将所接收到的音频信号当作采样值传送给频率变换框120，其中所述采样值是按时间序列排列的。当输入信号为模拟的时，它被转换为数字信号。当输入信号是数字的时，其格式被译码，且音频采样被传送到框120。

频率变换框120计算一个音频信号的频率分量。框120接收来自框110的数字音频信号，并计算信号间隔内的频率分量。

心理声学模型计算框130使用人的听力反应来计算难以识别的修改的水平。框130接收来自框120的经过变换的音频信号，并为每个频率分量计算其对听力的影响。

伪随机数发生框160产生了由0和1构成的伪随机数。所产生的伪随机数被传送到一个附加信息插入掩码发生框170。

附加信息插入掩码发生框170使用所接收到的伪随机数产生一个用来插入附加信息的掩码。框170使伪随机数与相位的方向相关，并在复数平面内产生一个二维矢量(掩码)，它对每个频率定义了插入信号的相位。

附加信息180被当作比特信息传送到附加信息插入框140中。作为需要，用于检测信息同步的一个比特被插入到所述若干比特中，且这些比特被反转。

附加信息插入框140在一个音频信号内插入不可感知的附加信息。基于从框130得到的心理声学模型，在框170得到的掩码的方向上，框140在不可感知的电平内，向框120所传送的音频信号中加入用于时间压缩/解压缩检测的一个信号和一个同步信号。结果，音频信号的频率分量的统计值是一个依据附加信息180所载的比特信息而定义的标志。

频率逆变换框190对上述音频信号进行逆变换。框190对在框140插入了附加信息的音频信号进行逆变换，并计算按时间顺序排列的音频采样。

输出控制框150输出作为音频数据的音频采样。框150对被框190接收到的音频采样执行DA变换，或将头信息当作文件加到音频采样上，并输出这样得到的音频信号。

图2是一个方框图，它显示了依据本发明的一个附加信息插入装置。一个输入控制框210向频率变换框220传送所接收到的作为采样值的音频信号，其中采样值是按时间序列排列的。当输入信号是模拟的时，它被转换为数字信号。当输入信号是数字的时，其格式被转换，并将音频采样传送到框220。

频率变换框220计算一个音频信号的频率分量。框220接收来自框210的数字音频信号，并对每一个间隔计算频率分量。

当假设附加信息被插入到音频信号中时，附加信息同步检测框250计算所接收到的音频信号的时间压缩/扩展比，并检测附加信息插入处理单元(一帧)的起始点。框250测量同步信号的时间压缩/扩展比，以检测在框220变换的音频信号的时间压缩/扩展比。这样，当旋转所接收到的来自附加信息检测掩码发生框280的附加信息检测掩码时，框250计算掩码和需补偿时间压缩/扩展比的音频信号的内积。通过利用在内积为最大时的掩码的旋转角，框250检测帧起始点的移动。

伪随机数发生框270产生由0和1构成的伪随机数。所产生的伪随机数被传送到一个附加信息检测掩码发生框280中。

附加信息检测掩码发生框280利用所接收到的伪随机数来产生一个用于检测附加信息的掩码。框280将伪随机数与相位方向相关，并在复数平面上产生一个二维矢量(一个掩码)，它为每个频率定义了插入信号的相位。

附加信息检测框260检测插入到音频信号中的附加信息。框260将传送来的音频信号的内积当作统计值进行计算，以用于在框250得到的时间压缩/扩展比，以及同步的帧和在框280处得到的附加信息检测掩码。如果由于所得到的统计特性，而必须再次执行帧的同步，则重新同步信号被传送到框250，以检测附加信息的同步。

附加信息存在检测框230利用所得到的统计值来确定附加信息是否已被插入到音频信号中。为确定信息是否是被有意地插入到音频信号内，则框230确定由框260得到的统计值是否足够大。

附加信息再现框240将所检测到的比特信息当作附加信息而再现。当框230确定附加信息已被插入时，框240将附在统计值后的符号与比特相关联，并将其转换为比特信息。之后，框240检查所检测到的比特信息，以检测附加信息的一个起始比特，并依据起始比特移动所检测到的比特信息。当为信息的同步而插入/反转比特时，框240删去/反转这些比特，并再现出附加信息。

在图3中显示了用在依据本发明的一个系统上的通用硬件装置，该装置用于插入/检测附加信息。系统100包括一个中央处理装置(CPU)1和一个存储器4。CPU 1和存储器4通过总线2以及一个IDE控制器25而连接到一个硬盘驱动器13(或连接到例如为MO、CD-ROM 26或一个DVD 32这样的存储媒体驱动器)，上述这些驱动器是一种辅助的存储器设备。与此类似，CPU 1和存储器4通过总线2以及一个SCSI控制器27而连接到一个硬盘驱动器30(或连接到象MO 28、CD-ROM 29或一个DVD 31这样的存储媒体驱动器)，上述这些驱动器是一种辅助存储器设备，而软盘驱动器20是通过一个软盘控制器19与总线2相连的。

将软盘插入到软盘驱动器20，则可将用于计算机程序的代码或数据存储在软盘或硬盘驱动器13(或M0、CD-ROM 26或DVD 32上)，以及存储在ROM 14中，其中的计算机程序同操作系统相互作用，并向CPU 1发送一条用于插入或检测信息的指令，以实现本发明。通过将这一计算机程序调入存储器4来实现对它的运行。用于计算机程序的代码可被压缩，或可被分为若干段，以便能存储在若干存储器中。

系统100还包括用户接口硬件部件，例如是用来输入数据的打点设备(一只鼠标或一个操纵杆)7和一个键盘6，以及用来向用户提供可视数据的显示设备12。另外，一个打印机可通过并行口16与系统100连接，或者是一个调制解调器通过一个串行口15与系统100连接。为了和其它计算机进行通信，系统100可通过一个串行口15以及一个调制解调器、或通过一个通信适配器18(以太网或令牌环网卡)与网络相连。可通过通信适配器18从外部网上取回所要插入的附加信息，或可通过网络在外部发送再现出的外部信息。远程无线电收发机连接到串行口15，或连接到并行口16，以便使用红外线或电线而与系统100交换数据。

扩音器23用于通过放大器22来接收由音频控制器21执行的D/A转换(数字/模拟转换)所产生的音频信号，并将该信号输出为声音。音频控制器21对通过话筒24接收的音频信息执行A/D(模拟/数字)转换，以便能向系统100引入外部音频数据，作为所要插入的附加信息。

如上所述，很容易理解本发明的系统100可由普通个人计算机(PC)、工作站、笔记本PC或掌上电脑PC、网络计算机、电视机或其它与计算机组合的电子家用设备、具有通信功能的游戏机来提供，可由具有通信功能的象电话、传真设备、便携式电话、PHS或PDA这样的通信终端来提供，也可由上述部件的组合装置来提供。但是，需注意，这些部件仅仅是举个例子，且并不都是本发明所需的。图1和2中的附加信息插入/检测框可由专用硬件设备构成。

[本发明的优点]

依据本发明，提供了一种将例如为版权信息这样的附加信息插入到音频数据中的方法和系统，使得由于插入而引起的音质的改变对人来说是不可感知的，该方法和系统还用于保持所插入的信息，并在对音频数据执行了没有彻底恶化音质的处理之后，能精确地将其检测出。因此，分布在CD上的或通过互联网的有版权的音乐录音可得到保护，可以安全地提供象以数字数据形式这样的被高品质记录的音乐，这样可稳定地提供音乐文化。

Claims

1.一种用于在音频数据中插入附加信息的系统，包括：

(1)用于将所述音频数据变换为频率分量的装置；

(2)根据所述音频数据的、用于确定对可被插入的所述附加信息内每个频率分量进行修改的电平的装置；

(3)用于产生一个用来插入所述附加信息的掩码的装置；

(4)使用所述插入掩码的装置，以便在所确定的修改电平内适用，该电平的确定是用于所述经变换的音频数据，以及用于向所述经变换的音频数据加入脉冲波形；以及

(5)为获取音频数据的一个装置，用于对已被插入的所述附加信息内的所述经修改的音频数据进行逆变换。

2.依据权利要求1的系统，其特征在于用来对所述音频数据进行变换的装置(1)构成了这样一种装置，该装置用于将输入的音频数据分为由若干音频采样构成的若干帧，并用于在所述帧内进行变换。

3.依据权利要求2的系统，其特征在于用来确定对每个频率分量进行修改的电平的所述装置(2)，用于分析所述经变换的音频数据的频率分量的分布，以确定对人的听力察觉不到的每个频率分量进行修改的所述电平。

4.依据权利要求3的系统，其特征在于所述插入掩码是一种伪随机矢量，该伪随机矢量产生于一个伪随机数，而该伪随机数是由一个伪随机数发生器产生的，所述伪随机矢量确定了每个频率分量的修改方向。

5.依据权利要求4的系统，其特征在于用于插入所述附加信息的所述装置(4)是这样一种装置，该装置用于通过改变所述频率修改电平内的频率分量而插入附加信息，在所述频率修改电平内，为插入附加信息而修改频率分量，这样，依据所述附加信息，通过用所述帧内的所述经变换的音频数据的频率分量乘以所述伪随机矢量而得到的内积具有特定的符号或构成了特定的值。

6.依据权利要求4的所述系统，其特征在于用于插入所述附加信息的所述装置(4)是这样一种装置，该装置用于通过尽最大可能地在所述频率修改电平内修改频率分量而插入附加信息，其中在所述频率修改电平内，为加入附加信息而改变频率分量，这样依据所述附加信息，通过用所述帧内的经所述变换的音频数据乘以所述伪随机矢量而得到的内积具有特定符号或构成特定值。

7.依据权利要求1的所述系统，其特征在于用于对所述变换为频率分量的音频数据进行逆变换的所述装置(5)是这样一种装置，它用于将包括了为插入附加信息而改变的频率分量的频率分量变换为若干音频采样。

8.依据权利要求5的系统，进一步包括，用于限制所述插入掩码的产生以及限制每帧内所述频率分量的改变的装置，这样在两个连续帧内，在执行了逆变换之后所得的第一帧内的最后一个采样值，实质上等于执行了逆变换之后所得的第二帧内的第一采样值。

9.依据权利要求5的所述系统，其特征在于用来插入所述附加信息的所述装置(4)包括用于插入许多项信息的一种装置，这种插入是通过将一帧内的频率分量分为许多组小的频带，以便对每一组频带的频率范围几乎相同，以及通过在所有内积为零时使用多重正交插入掩码而实现的。

10.依据权利要求5的所述系统，其特征在于用于插入所述附加信息的所述装置(4)，还包括用于插入一个同步信号的装置，其中所述用于插入所述同步信息的所述装置包括用来改变所述帧内的相位或频率分量的幅度，以使所述相位或所述幅度能在每帧内是吻合的。

11.依据权利要求5的所述系统，其特征在于用于插入所述附加信息的所述装置(4)包括这样一种装置，它用来通过沿着由所述插入掩码指定的方向修改频率分量，而向所述帧插入同步信号，或者通过沿着由所述插入掩码指定的相反方向修改频率分量，而插入帧同步信号，或在与重复插入的附加信息的起始点相应的分隔帧内什么也不插入。

12.依据权利要求5的所述系统，其特征在于用来插入所述附加信息的所述装置(4)包括这样一种装置，用于将许多附加信息分为若干比特单元，并用于向分隔帧内插入这些单元的第一比特，以及在后续帧中保持这些比特。

13.依据权利要求5的所述系统，其特征在于用来插入所述附加信息的所述装置(4)包括用于重复插入附加信息的装置，其中所述重复插入装置将附加信息分为所述比特序列，并将一个或更多比特加到所述比特序列上，以形成扩展比特，并插入扩展比特，其中在每隔一个重复插入的周期中，使用异或操作将分隔比特加到所插入的扩展比特上。

14.依据权利要求5的所述系统，其特征在于用来插入所述附加信息的所述装置(4)包括这样一种装置，用于将分隔比特加到附加信息的比特上，并用于使用一个异或操作，以在每隔一个重复插入的周期中，插入扩展比特。

15.依据权利要求5的所述系统，其特征在于用来插入所述附加信息的所述装置(4)，包括用于插入具有代码字比特的附加信息的装置，通过循环移位，使得这些代码字比特变为彼此相等。

16.一种用于检测被插入到音频数据内的附加信息的系统，包括：

(1)用于将所述音频数据变换为频率分量的装置；

(2)用于产生检测掩码的装置；

(3)用于使所述经变换的音频数据同步，以检测附加信息的装置；以及

(4)用来使用所述检测掩码，以便同步地检测出在所述经变换的音频数据比特中的、属于所述附加信息的比特。

17.依据权利要求16的所述系统，其特征在于用来将所述音频数据变换为频率分量的所述装置(1)是一种用来变换所述音频数据的装置，它形成了这样一种装置，用来将音频数据分成许多由若干音频采样构成的帧，并用来变换所述帧内的音频数据。

18.依据权利要求16的所述系统，其特征在于所述检测掩码是一种由随机数发生器生成的伪随机数所产生的伪随机矢量。

19.依据权利要求16的所述系统，其特征在于用于检测的所述检测掩码实质上与一个插入掩码相同。

20.依据权利要求18的所述系统，其特征在于用于检测所述附加信息的所述装置(4)是这样一种装置，它用于通过将所述频率分量乘以所述伪随机矢量而计算出内积，其中所述频率分量是由帧内的所述音频采样变换成的，上述装置还用于检测附加信息，这种检测是通过对所述内积使用所得到的符号和矢量而实现的。

21.依据权利要求19的所述系统，其特征在于所述内积是用基于频率分布而确定的一个频率相关常数乘以由倍增频率分量而产生的内积，并乘以所述伪随机矢量而计算出的，其中的频率分量是由帧内的所述音频采样转换成的。

22.依据权利要求20的所述系统，其特征在于用来检测所述附加信息的所述装置(4)，包括用来依据所得到的内积而改变另一个检测掩码的值的装置。

23.依据权利要求19的所述系统，其特征在于用于检测所述附加信息的所述装置(4)，通过获取具有相同符号或交替使用相反符号的所述帧的所述内积和，而改善了用于附加信息的检测的可靠性。

24.依据权利要求23的所述系统，其特征在于用来检测所述附加信息的所述装置(4)，包括为确定音频数据是经标记的或未经标记的，而使用在就所述内积的全部的绝对值是否大于一个门限值而作出决定时所得到的结果的装置。

25.依据权利要求18的系统，其特征在于所述同步检测装置是这样一种装置，它用于将通过覆盖所述许多帧而得到的一帧内的音频数据转换为频率分量，该装置还用于计算所得到的经变换的音频数据以及其相位得到移动的掩码的内积，并且还用于通过在所述内积为最大的绝对值处使用相位移动而确定出帧边界，该帧边界是在插入时使用的。

26.依据权利要求20的系统，其特征在于所述附加信息检测装置事先包括在插入处理中使用的一个特定的频率分量、相位、幅度、帧分隔同步信号、用来分开附加信息比特的每个分开的比特单元的长度、所分开的段的数目，或使用信息同步来分隔比特的信息。

27.依据权利要求20的所述系统，其特征在于用来将所述音频数据转换为频率分量的所述装置(1)包括这样一种装置，它用于改变帧的宽度，用于检测在插入处理时所修改的频率分量的相位或幅度，对每帧是否是对齐的，以确定时间压缩/扩展比，该装置还用于依据对每帧来说相位和幅度的对齐都为最佳状态时帧宽度的改变，来确定所述时间/扩展比。

28.依据权利要求20的所述系统，其特征在于用于将所述音频数据转换为频率分量的所述装置(1)，包括这样一些装置，用于移动所述起始点，以获取信息被插入时的频率分量的相位，还用于确定在信息被插入时的帧边界的起始点。

29.依据权利要求20的所述系统，进一步包括：

(5)用于从所述附加信息的比特中确定出一个表示附加信息重复周期的一个起始点或结束点的同步信号，以便再现所述附加信息，其中，所述确定装置包括这样一种装置，它用于确定作为附加信息重复分隔帧的、所得内积的符号与在其它连续帧内得到的其它的符号不同的一个帧，或确定所得到的内积小于所述门限的帧。

30.依据权利要求20的所述系统，其特征在于用来检测所述附加信息的所述装置(4)包括这样一种装置，用于使用所述分隔比特来标明构成重复地插入附加信息的比特的分隔位置，以及用于再现构成所述附加信息的比特。

31.依据权利要求20的所述系统，其特征在于用来检测所述附加信息的所述装置(4)包括这样一种装置，用于利用分隔比特脉冲图形，而搜寻重复插入的附加信息比特的起始点，并用于利用所找到的没有添加扩展比特的比特，而再现出附加信息。

32.依据权利要求20的所述系统，其特征在于用来检测所述附加信息的所述装置(4)，包括这样一种装置，用于对同一代码字，与通过比特的循环移位而相等再现出的比特图案相关，并用于通过将附加信息和所述代码字相对应，而再现所述附加信息，而无需在所述附加信息已被插入的情况下，告知附加信息重复周期的起始点。

33.一种用于向音频数据中插入附加信息的方法，包括以下步骤：

(1)将所述音频数据变换为频率分量；

(2)根据所述音频数据，对其中可插入所述附加信息的每个频率分量确定修改的电平；

(3)产生用于插入所述附加信息的掩码；

(4)使用所述插入掩码，该插入掩码适合于在修改电平内使用，该修改电平是被确定的用于所述经变换的音频数据，并用于向所述经变换的音频数据添加脉冲图形；以及

(5)为获取音频数据，对其中已插入所述附加信息的所述经修改的音频数据进行逆变换。

34.一种用于检测已插入到音频数据内的附加信息的方法，包括以下步骤：

(1)将所述音频数据变换为频率分量；

(2)产生一个检测掩码；

(3)将所述经变换的音频数据同步，以检测附加信息；以及

(4)使用所述检测掩码，以便在所述经变换的音频数据中同步地检测属于所述附加信息的比特。

35.一种用于存储用来在音频数据中插入附加信息的一个程序的存储媒体，所述程序包括：

(1)用于将所述音频数据变换为频率分量的一个函数；

(2)一个函数，用来依据所述音频数据，对其中可插入所述附加信息的每个频率分量确定修改电平；

(3)用来产生用于插入所述附加信息的掩码的函数；

(4)用来使用所述插入掩码的一个函数，其中所述插入掩码适合在修改电平内使用，而修改电平是被确定出的用于经变换的音频数据，并用于向所述经变换的音频数据添加图形；以及

(5)一个函数，用于获取所述音频数据，对其中已插入所述附加信息的所述经修改的音频数据执行逆变换。

36.一种用来存储一个用于检测已插入到音频数据内的附加信息的一个程序的存储媒体，所述程序包括：

(1)用于将所述音频数据变换为频率分量的一个函数；

(2)用于产生一个检测掩码，并用于使所述经变换的音频数据同步，以检测附加信息的一个函数；以及

(3)一个函数，用于使用所述检测掩码，以在所述经变换的音频数据中同步检测属于所述附加信息比特。