CN100481941C - 在载体信号中嵌入二进制有效数据片断的设备和方法 - Google Patents

在载体信号中嵌入二进制有效数据片断的设备和方法 Download PDF

Info

Publication number
CN100481941C
CN100481941C CNB2004800132753A CN200480013275A CN100481941C CN 100481941 C CN100481941 C CN 100481941C CN B2004800132753 A CNB2004800132753 A CN B2004800132753A CN 200480013275 A CN200480013275 A CN 200480013275A CN 100481941 C CN100481941 C CN 100481941C
Authority
CN
China
Prior art keywords
stave
valency
indicating value
signal
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB2004800132753A
Other languages
English (en)
Other versions
CN1792096A (zh
Inventor
吉哈德·舒勒
拉尔夫·盖格
尤尔根·考勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN1792096A publication Critical patent/CN1792096A/zh
Application granted granted Critical
Publication of CN100481941C publication Critical patent/CN100481941C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/32101Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N1/32144Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title embedded in the image data, i.e. enclosed or integrated in the image, e.g. watermark, super-imposed logo or stamp
    • H04N1/32149Methods relating to embedding, encoding, decoding, detection or retrieval operations
    • H04N1/32154Transform domain methods
    • H04N1/32187Transform domain methods with selective or adaptive application of the additional information, e.g. in selected frequency coefficients
    • H04N1/32192Transform domain methods with selective or adaptive application of the additional information, e.g. in selected frequency coefficients according to calculated or estimated visibility of the additional information in the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0021Image watermarking
    • G06T1/0028Adaptive watermarking, e.g. Human Visual System [HVS]-based watermarking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/32101Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N1/32144Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title embedded in the image data, i.e. enclosed or integrated in the image, e.g. watermark, super-imposed logo or stamp
    • H04N1/32149Methods relating to embedding, encoding, decoding, detection or retrieval operations
    • H04N1/32154Transform domain methods
    • H04N1/32187Transform domain methods with selective or adaptive application of the additional information, e.g. in selected frequency coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/238Interfacing the downstream path of the transmission network, e.g. adapting the transmission rate of a video stream to network bandwidth; Processing of multiplex streams
    • H04N21/2389Multiplex stream processing, e.g. multiplex stream encrypting
    • H04N21/23892Multiplex stream processing, e.g. multiplex stream encrypting involving embedding information at multiplex stream level, e.g. embedding a watermark at packet level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/835Generation of protective data, e.g. certificates
    • H04N21/8358Generation of protective data, e.g. certificates involving watermark
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/08Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2201/00General purpose image data processing
    • G06T2201/005Image watermarking
    • G06T2201/0051Embedding of the watermark in the spatial domain
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2201/00General purpose image data processing
    • G06T2201/005Image watermarking
    • G06T2201/0052Embedding of the watermark in the frequency domain
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2201/00General purpose image data processing
    • G06T2201/005Image watermarking
    • G06T2201/0061Embedding of the watermark in each block of the image, e.g. segmented watermarking
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00086Circuits for prevention of unauthorised reproduction or copying, e.g. piracy
    • G11B20/00884Circuits for prevention of unauthorised reproduction or copying, e.g. piracy involving a watermark, i.e. a barely perceptible transformation of the original data which can nevertheless be recognised by an algorithm
    • G11B20/00891Circuits for prevention of unauthorised reproduction or copying, e.g. piracy involving a watermark, i.e. a barely perceptible transformation of the original data which can nevertheless be recognised by an algorithm embedded in audio data

Abstract

为了把二进制载荷嵌入到载体信号中,利用整型变换算法把该载体信号的时间离散值序列转换成频域,以获得二进制谱表示值。确定这些二进制谱表示值的、结合价低于信号极限结合价的位,并根据载荷设置这些位。谱表示值的信号极限结合价小于该谱表示值的最主要位的结合价,因此只要保证合适的距离就可以实现心理声学透明的信息插入。产生包含插入信息的修改后的谱表示,最后再利用整型后向变换算法把其转换回时域。为了提取该载荷,再次利用整型前向变换算法把包含插入信息的时间离散信号转换成谱表示。接着确定信号极限结合价信息,以识别出没有包含有关载体信号的信息、而是包含关于载荷信号的信息的那些二进制谱表示值的位,并提取出这些位。

Description

在载体信号中嵌入二进制有效数据片断的设备和方法
技术领域
本发明涉及一种在载体信号中嵌入载荷并从该载体中提取出载荷,其中该载体信号可以是音频信号、视频信号或者是包含音频和/或视频信号的多媒体信号。
背景技术
在数字信号中嵌入附属信息的技术中有各种不同的应用和/或方法。在这一技术中的各种已知的概念都包括在关键词水印之内。
WO 97/33391描述了一种用于在音频信号中插入不可闻的数据信号的编码方法。其中,为了能利用心理声学模式确定该音频信号的屏蔽门限,要通过傅立叶变换或改进的离散余弦变换把不可闻的数据信号即将插入的音频信号转换成频域信号。即将插入的数据信号与一个伪噪声信号相乘,以创建一个频率展开数据信号。接着把该频率展开数据信号和该心理声学屏蔽门限加权,使得该扩频数据信号总是低于该屏蔽门限。最后,该加权数据信号添加在该音频信号上,于是就产生了一个音频信号,其中数据信号被不可闻地插入该信号中。另一方面,该数据信号可以用来确定一个发送机的范围。或者该数据信号也可以用于为音频信号贴标签,从而可以很容易识别可能出现的盗版,因为每个声音载体(例如以压缩磁盘的形式)在出厂时就被打上一个独立的标签。上述数据信号的其他可能的应用还有对音频设备进行远程控制,这与电视的“VPS”方法类似。
EP 1149480 B1描述了一种在音频信号中插入信息的方法和设备,以及一些用于确定插在一个音频信号中的信息的方法和设备。这里,首先对该信息进行处理使得即将插入该音频信号的信息至少分布在两个信息信道上。一个信息信道包含副本信息——通常用一个相对少的数据来表示,用于防止非法复制。更多的用于标识该音频信号的信息则被插入另一个信息信道。这两个信道可以彼此独立地解码。不同的展开序号和每个信道相关联,使得每个信道可以独立于其他信道进行解码。
这样的水印系统的主要指标在于:对音频质量的影响,在压力下的健壮性(从而使得在非法干扰下水印仍是安全的),以及水印数据率。这三个目标互相对立,例如,高健壮性就意味着数据率的损失和音频质量的损失。而且,高数据率将导致健壮性的下降或导致插入音频信息的信号的音频质量下降。
在专业文献“New High Data Rate Audio Watermarking based onSCS(scalar costa scheme)”(S.Siebenhaar等,AES会议论文5645,2002年10月5日至8日,洛杉矶,CA,美国)中描述了一种音频水印方法,其中先把音频信号分段,再对其进行窗口化,然后将其转换到频域上。接着执行SCS水印嵌入过程,从而可以把上述结果变换回时域,再对其进行窗口化,如果有必要的话还要考虑块重叠,最后再次获得包含水印的音频信号。该SCS算法体现在对这些谱值的级进行抖动量化。
该SCS算法还进一步改进,把人类听觉特性考虑进去,从而实现该SCS算法的心理声学加权。
专业文献“A New Surround-Stereo-Coding Technique”(W.TenKate,L.Van De Kerkhof和F.Zijderveld,Journal Audio EngineeringSociety,第40卷,第5期,1992年5月,376页至382页)也描述了如何把不可闻的信息加入音频信号。更确切地说,利用一个滤波器组对音频信号进行滤波,接着对该信号进行下采样。更确切地说,在每个子带里的采样划分为一些连续的时间窗口组。接着,计算每个块的功率谱,然后用该值计算屏蔽门限。心理声学屏蔽门限确定了可添加的信号的最大功率。这一值的确定是子带敏感的。接着,利用该计算出来的屏蔽门限对待插入的数据加权,并将其添加到各个子带中,最后把一个包含下游滤波器组的上采样滤波器作用其上,以获得包含嵌入信息的音频信号。
专业文献“A High Rate Buried Data Chanel for Audio CD”(M.Gerzon,AES预印文件3551,第94届AES会议,1993年3月16日至19日,柏林)描述了一种以大约每秒360kBit或更高的高速数据率把一个信道嵌入一个音频CD而又不会显著影响CD质量的技术。新的数据信道可用来提供高质量的数据约减相关音频信道,甚至还可提供数据压缩视频或计算机数据,同时还能保持与现有的音频CD播放器的兼容性。更确切地说,这些音频字的一些(大约每信道4个)最低有效位(LSB)被其它数据所替代。接着,利用与噪声形式的可去除抖动相关的心理声学噪声形成技术,把产生的附加噪声可被听见的概率减少到主观可辨别的水平,这与传统CD的噪声水平相等。更确切说来,使用了一种伪随机编码/解码进程,该进程只对该音频采样的LSB数据流进行操作,而不必使用额外的同步信号来使携带插入信息的已添加的LSB数据随机化。由于这只是一个伪随机序列,所以在提取方可以利用这一伪随机序列逆向恢复该随机化过程。
专业文献“Lossless Data Hiding Based on Integer WaveletTransform”(G.Xuan等,IEEE工作组,2002年12月,St.Thomas,维京群岛,第1-4页)公开了一种能实现高数据率的数据嵌入的算法,其构建在整型小波变换的基础上,此变换能从嵌入数据的图像中恢复原始图像。这一水印还进一步被处理使得可见的干扰不会因为插入数据而产生。为此,原始图像在预处理后就被提交给一个整型小波变换以获得小波系数。整型小波变换已经包括在JPEG 2000中。这一技术主要建立在抬升机制的应用上。该技术主要基于如下事实:小波系数的位级中的位可以被压缩从而留出空间来把数据写进这些被位级的压缩而清除的空间里。为此,压缩后的小波系数表达式是源于用于压缩的原始小波系数的,与原始小波系数表达式相比,该表达式需要的位数更少,于是原始表达式和压缩后的表达式不相同的位数便用来插入需要隐藏的数据。接着执行一个逆向的整型小波变换,以获得最终的带水印的图像。特别地,为了无损压缩二进制0和1,采用算术编码对选择的位级进行压缩。
如前所述,各种在音频信号中嵌入数据的方法所追寻的目标就是要调和不可闻性、健壮性和高数据率之间的矛盾。在某些场合对健壮性不作要求,但却要求保证高数据率,例如,只有接线传输的场合或是数据块只传送到一个声音载体上,而不会有自由空间传输发生,此时就可以考虑牺牲健壮性来保证高数据传输率。对那些嵌入的信息不是用于防止非法复制等的应用(例如把附属信息插入音频信号中不是为了追踪非法分配,而是作为一个附加的服务给该音频信号的消费者提供更多信息和/或数据)来说也有相同的需求。
此外,需要实现这样一个概念:其实现简单、同时至少保证在解码方的计算时间不会太长。特别地,解码器将经常在消费者手中,由于考虑其在市场上的价格竞争力,所以往往不能提供特别高的计算和存储资源。
发明内容
本发明的目标是提供一种把二进制载荷嵌入载体信号中的高效的概念。
这一目标可以通过以下方案来实现:
用于把二进制载荷嵌入由第一个离散值序列构成的载体信号中的设备,该设备包括:利用一种前向整型变换算法将所述的第一离散值序列转换成一个谱表示的装置,所述的算法被配置为提供一个代表升序排列的频率的整型二进制谱表示值的集合,其中待修改的谱表示值包含多个位,并且待修改的谱表示值的每个位与不同的结合价相关联,其中在该谱表示值的所有位中具有最高结合价的位是该谱表示值的最主要位,而该谱表示值的其余所有位的结合价都低于这个最主要位;为谱表示值确定信号极限结合价的装置,其中信号极限结合价比谱表示值的相应的最主要位的结合价低至少一个结合价级;根据二进制载荷对该谱表示值中那些结合价等于或小于信号极限结合价的位进行置位的装置,以获得修改后的谱表示值,其中那些结合价大于信号极限结合价的位对于载荷嵌入是不可用的;以及利用一种后向整型变换算法将一个整型二进制谱表示值的集合转换成第二离散值序列的装置,在所述整型二进制谱表示值集合中包含那些修改后的谱表示值,而不是待修改的谱表示值,从而使载荷嵌入到第二个值序列中。
把二进制载荷嵌入由第一个离散值序列构成的载体信号中的方法,此方法包括:利用一个前向整型变换算法把第一个离散值序列转换成一个谱表示,以提供一个代表升序排列的频率的整型二进制谱表示值的集合,其中待修改的谱表示值包括多个位,并且待修改的谱表示值的每个位与不同的结合价相关联,其中在该谱表示值的所有位中具有最高结合价的设置位是该谱表示值的最主要位,并且该谱表示值的其余所有位的结合价都低于最主要位;为谱表示值确定信号极限结合价,其中所述信号极限结合价比谱表示值的相应的最主要位的结合价低至少一个结合价级;根据二进制载荷对该谱表示值中那些结合价等于或小于信号极限结合价的位进行置位,以获得修改后的谱表示值,其中那些结合价大于信号极限结合价的位对于载荷嵌入是不可用的;以及利用一个后向整型变换算法把一个整型二进制谱表示值的集合转换成第二个离散值序列,其中所述的集合中包含那些修改后的谱表示值,而不是待修改的谱表示值,从而使载荷嵌入到第二个值序列中。
从修改后的载体信号中提取载荷的设备,该载体信号由已经插入载荷的第二个离散值序列组成,其中载荷是通过对整型二进制谱表示值的集合中的谱表示值的多个位进行置位而插入的,其中所述谱表示值由多个位组成,其中不同的结合价与该谱表示值的每个位相关联,其中在该谱表示值的所有位中具有最高结合价的设置位是该谱表示值的最主要位,并且该谱表示值的其余所有位的结合价都低于最主要位,其中该整型谱表示值的集合是通过一个前向整型变换算法把第一个离散值序列转换成一个谱表示而生成的,其中该变换算法被配置为提供代表升序排列的频率的整型二进制谱表示值的集合,并且该谱表示值的设置位是其结合价小于或等于信号极限结合价的位,该设备包括:利用前向整型变换算法转换第二个采样序列的装置,以获得代表升序排列的频率的整型二进制谱表示值的提取集合;用于提供关于所述谱表示值的信号极限结合价的信息的装置;以及用于仅提取谱表示值中那些结合价小于或等于与该谱表示值相关联的信号极限结合价的位的装置,其中提取出来的位表示二进制载荷。
从由插入载荷的第二个离散值序列组成的修改后的载体信号中提取载荷的方法,其中通过对来自整型二进制谱表示值的集合的谱表示值的位进行置位来插入载荷,其中所述谱表示值包括多个位,其中不同的结合价与所述谱表示值中的每个位相关联,其中在该谱表示值的所有位中具有最高结合价的设置位是该谱表示值的最主要位,并且该谱表示值的其余所有位的结合价都低于最主要位,其中该整型谱表示值的集合是通过一个前向整型变换算法把第一个离散值序列转换成一个谱表示而生成的,其中该变换算法被配置为提供代表升序排列的频率的整型二进制谱表示值的集合,并且该谱表示值的设置位是其结合价小于或等于信号极限结合价的位,该方法包括:利用前向整型变换算法转换第二个采样序列,以获得代表升序排列的频率的整型二进制谱表示值的提取集合;提供关于与所述谱表示值相关联的信号极限结合价的信息;以及仅提取谱表示值中那些结合价小于或等于与所述谱表示值相关联的信号极限结合价的位,其中提取出来的位表示二进制载荷。
本发明主要基于如下发现:如果可以利用一个整型变换算法把一个时间离散信号(后文也被引用为载体信号)转换成一个谱表示,其中该谱表示包含整型二进制谱表示的值,那么该信号就可以被有效地处理,以获得信息。为此,可以采用任何整型变换算法,例如整型小波变换或整型MDCT—在相关技术中该变换又被称作IntMDCT(整型修正离散余弦变换)。适合本发明的整型变换可以从二进制离散值中提供整型二进制谱表示值,且可以利用相应的后向变换算法把这些值重新转换到时域上,于是结果又将是整型二进制时间离散值。
前向整型变换和后向整型变换具备无损操作(即没有舍入误差)的性质。本发明是建立在这一性质的基础上的,这是因为插入即将插入载体信号的信息是在谱域中利用将插入信息的谱表示值的低值位,即根据信息来置位和/或不置位。
为此,本发明提供了为一个谱表示值确定信号极限结合价的方法,此方法可以(为信息提取者)重复设置信号极限结合价。为使插入的信息不会引起载体信号较大“失真”,一个谱表示值的谱极限结合价至少要比与该二进制表达式相关的被考虑的谱表示值的最主要位的结合价低一个结合价级。最好能确定该信号极限结合价到谱表示值的最主要位的结合价之间的距离,从而使载体信号是音频信号时插入信息产生的伪能量低于心理声学屏蔽门限。对于整型二进制谱表示值集合中的其他谱表示值,当由于心理声学的影响(例如预屏蔽或后屏蔽等)谱表示值不论在何情况下都是“屏蔽”时,该信号极限结合价可以很好地位于最高有效位之上。
根据本实施例,更复杂或更不复杂的模式可以用于确定这一信号极限结合价,其中最简单的模式在于信号极限结合价总是一些预先确定数量的、低于被考虑的谱表示值的最主要位的结合价的结合价级,但是其仍不得不牺牲数据率。虽然这一方法有数据率低的缺陷,但是它具备如下优点:把载荷嵌入载体信号的信号极限结合价可以被确定,而且载荷提取者也可以确定该信号极限结合价,而不必传输附属信息和/或对每个谱表示的值进行进一步的计算。
确定信号极限结合价的更高级的方法在于:根据载体信号本身或转换后的载体信号(例如能反映载体信号的值的序列的整型二进制谱表示值的集合)计算心理声学屏蔽门限。此时,在提取方需要执行相应的计算以再次确定信息插入的谱表示值的信号极限结合价,而不必传输附属信息。
根据本发明,接着要为每个谱表示值确定一定数目的位用来插入信息。信息的插入可以利用如下方法实现:利用一个位流表述载荷对该谱表示值(其结合价(重要性)小于或等于信号极限结合价)的对应位进行置位和/或不置位。在整型谱表示值集的谱表示值“充满”载荷后,利用逆向整型变换算法来重新生成一个时间离散值的序列。该后向整型变换算法可以根据前向整型变换算法调整,使得该后向变换可以再次无损执行,即没有舍入误差。因为效率的原因,特别是由于其特殊的适用性,IntMDCT由于具备处理前向和后向变换没有舍入误差的性质而被优选选择。
本发明的优点在于:它能以高数据率在时间离散载体信号中嵌入载荷。因此,当本发明应用在音频CD或应用在通过互联网传送的CD兼容的音频数据上时,它可用来把任何载荷印在音频数据(例如音频信号本身的压缩版本或其他形式(例如JPEG压缩图像数据格式)的附加数据——其可以描述执行者的图片等)中,而又不会使其被监听者听见。当然,音乐文本或其他任何附属信息也可以根据本发明印在载体信号上。
本发明所述构思的另一个优点在于:本发明的信息嵌入不会影响载体信号的格式(即诸如音频数据的CD兼容格式)。因此嵌入信息前的原始载体信号和嵌入者输出的嵌入信息后的载体信号都与播放设备(例如,CD播放器或DVD播放器)兼容。
本发明的另一个优点在于:效果和载荷传输速率可以互相调节,因为在需要较高数据率时可以采用更复杂的方法来计算屏蔽门限,而当数据率不是决定性因素,集成载荷提取者的解码器形式的终端产品的价格才是决定性因素时,就可以使用简单的方法来确定谱数据值的信号极限结合价。
在这一点上,值得注意的是解码器是编码/解码系统的产品,其大量生产,从而不得不降低成本以获得市场上的竞争力。而且,通常情况下,这一目标甚至要求免费或只是以象征性的价格发布该解码器,因此需要制定一个新的编码/解码标准,并最好由相应的编码数据(例如音乐、视频等)来承担解码器的成本。特别地,在这样一种情况下,关键在于至少(具有中高数据率的)“精简”版的解码器可以提供一种对计算时间和存储空间几乎没什么要求的、用于确定信号极限结合价的算法,从而可以以极低的成本来生产解码器。
本发明的优点在于:它的版本兼容性很好,于是,具有不太高的数据率的初级版本可以免费发布,然后为了获得更高的数据率,就要提供升级版本,该版本更高效地计算信号极限结合价以取得更高的数据率,然而对这样的升级来说,就可以制定一定的价格,由消费者来支付,因为他/她已经逐渐了解该“初级版本”的优点了。
本发明的另一个优点在于可以利用已有的模块(例如,用于计算心理声学屏蔽门限或进行前向和后向转换的模块),于是新的模块(例如确定信号极限结合价的装置或置位的装置)就可以根据载荷很容易地实现,从而使因本发明的概念引起的开发和测试工作量将非常有限。
附图说明
下面将根据以下附图详细阐述本发明的优选实施例:
图1是一个用于把载荷嵌入载体信号的本发明设备的电路框图;
图2是一个用于从修改后的载体信号中提取出载荷的本发明设备的电路框图;
图3是几个按结合价排序的谱表示值的示例性范图,用于说明本发明一个实施例中如何确定信号极限结合价;
图4是和图3相同的图例,但它是用于描述通过插入一个监听门限来提高数据率的附加措施;
图5是本发明概念在使用音频信号作为载体信号的一个实例中的应用场景;
图6是根据使用音频信号作为载体信号的一个实例本发明的提取器的应用场景;
图7a是一个包含MDCT和50%重叠的已知的编码器的示例性电路框图;
图7b是一个对图7a产生的值进行解码的已知的解码器的示例性电路框图;
图8是一个优选装置的电路框图,此装置用来处理时间离散音频采样,以获得一些整数值,整型谱值则是这些整数值的平均数;
图9是在给定的循环和两个DCT-IV操作中MDCT和逆向MDCT的分解示例性范图;
图10是一个用于描述在循环和DCT-IV操作中包含50%重叠的MDCT的分解的范图。
具体实施方式
图1描述了一个根据本发明的用于把载荷嵌入一个由二进制离散值序列组成的载体信号中的设备。如图1所示,时间离散载体信号是通过输入110作用于该设备上的。用于转换的装置112最好设计为利用对应的窗口化处理(最好在这些包含一定数量的值的序列之间有50%的重叠)对时间离散信号分组,并将之转换成一个谱表示。装置112被设计为使用一个前向整型变换算法(最好是IntMDCT算法).由于该前向整型变换算法,就能在转换装置112的输出端114处提供一个整型二进制谱表示值的集合。接着转换装置112提供一些谱表示值。一个谱表示值设计为二进制的形式,包含一些位,其中该谱表示值的每个位与另一个二进制结合价关联。二进制结合价是一些诸如20,21,22,23,24,...,2i,...,2n的值。具有结合价20的位被引用为最低有效位(LSB),而具有结合价2n的位则被引用为最高有效位(MSB)。并且,并不是每个谱表示的值都足够大使得MSB可以设置在其中。为此,每个谱表示值包含一个在该谱表示值的所有位中具有最高结合价的设置位。假设这个位是具有结合价2i的位,那么就把它作为该谱表示值的最主要位,且其结合价比该谱表示值的其他所有有意义的位更高,因为那些位的结合价更低(其位于结合价i-1到结合价0之间的范围,即LSB)。
本发明设备还包括用于确定一个谱表示值的信号极限结合价。一个谱表示值的信号极限结合价可以根据实现的形式按不同的方法来确定。为防止载体信号的信息内容因为插入的二进制载荷而产生较大或完全的失真,至少对一组谱表示值中的一个谱表示值来说,信号极限结合价应当比谱表示值的最主要位的结合价低一个结合价级。然而,对于不同种类的载体信号来说,有可能出现如下情形:对其他谱表示值来说,信号极限结合价等于最主要位的结合价或者甚至高于另一个谱表示值的最主要位的结合价,这一情形将在后文阐述。用于确定信号极限结合价的最简单的方法在于:装置116在与被考虑的谱表示值的最主要位的结合价存在一个预定义的距离的基础上操作,如图所示,可以通过一个控制输入116a把这个预定义的距离提供给该装置116。
如果该载体信号是一个音频信号,那么预定义结合价只要是3就足够使插入该载体信号的载荷听不见了,因此就可以在该嵌入设备的输出118获得包含插入信息的修改后的时间离散信号,该信号从心理声学上说是透明的,例如修改后的信号几乎或完全不能和通过输入端输入的原始信号被一个人类监听者区分开来。谱表示值的结合价距离为3意味着:该谱表示值描述的频带中,插入该载体信号的载荷的能量和该载体信号本身的能量相比,每个谱表示值都将低18dB。
另一种或附加的用于确定谱表示值的信号极限结合价的装置可以按如下设计:根据时域(线116b)中的时间离散信号或频域(116b)中的时间离散信号,对每个谱表示值或至少对一组谱表示值(最好是描述关键频段的组)计算心理声学屏蔽门限。如果已经确定每个谱表示值的心理声学屏蔽门限,就使谱表示值的信号极限结合价等于该心理声学屏蔽门限。但是,如果只是对一个几个谱表示值的频段确定了心理声学屏蔽门限,那么就要对几个谱表示值一起确定信号极限结合价,从而使因插入载体信号的信息而造成的插入该频段的整个“伪能量”少于或等于心理声学屏蔽门限。
对于视频信号,则用心理光学屏蔽门限代替心理声学屏蔽门限。心理光学屏蔽门限可以在空间频域内用类似的方法指定。特别是可以为每个色平面指定心理光学屏蔽门限,例如当该视频信号包含三个基本色平面的谱系数时,就可以这样做。
如果载体信号是其它可以从时域转换到谱域上的冗余信息信号,则可以使用其它对应的模式来确定谱表示值的信号极限结合价,从而使插入该载体信号的二进制载荷几乎不会或完全不会对修改后的载体信号引起可辨别的信息损失。
转换装置的输出端114中的整型二进制谱表示值的集合以及装置116输出的信号极限结合价信息都提供给装置120,该装置120被设计为:根据通过载荷输入122提供给装置120的待插入的二进制信息,用等于或小于已经确定的信号极限结合价对谱表示值的位进行置位。装置120被设计为:根据一个预先确定的模式,把载荷载入整型二进制谱表示值的集合中的连续谱表示值里,其中“载入”算法最好是预先指定的,这样就不必和提取器进行显式通信(例如,通过附属信息或一个额外的信令信道通信)。最好仔细设计信号极限结合价和“载入”算法的设计,使得信令信息不是必要的,这样图1所示的设备输出的包含插入信息的时间离散信号就有和输入端110提供的原始时间离散信号相同的兼容性,那么在输出端118输出的包含插入信息的时间离散信号(假定其是音频信号)就一定和原始的时间离散信号一样适用于一个CD播放器,也可以一样容易地被播放,而不管CD播放器是否提取嵌入的载荷。
下面再通过另一个转换装置126把作用在置位比特的装置120的输出端124上的谱表示值的集合后向变换回时域,其中转换装置126被设计为执行一个整型后向变换算法,其中该算法可以从整型修改后的谱表示值中生成整型(修改后的)时间离散值。装置126执行的后向转换算法与装置112执行的前向转换算法相适应,从而不会因为执行前向变换和后向变换而产生舍入误差,否则可能会产生信息损失,因为向前舍入或向后舍入都可能使低位发生改变,而根据本发明大多数信息恰好就插入在这些位上。
于是,在转换装置126的输出端上再次获得一个二进制离散值(这些值合在一起表示了当前已修改的载体信号的一个临时部分)的序列。把由本发明设备的块处理相继产生的块排列在一起,就再次获得修改后载体信号的,该信号仍然和原本期望的播放器设备兼容,通过下文(参考图2)所述的提取器则又可以从中提取出这些二进制载荷。
图2描述了一个具有创造性的提取器,其包含一个输入端130,用来输入包含插入信息的时间离散信号。图2所示的设备专门设计为从一个修改后的载体信号(该信号包含另一个采样序列,二进制载荷则嵌入在这些采样中)中提取载荷,其中载荷是同过对一个谱表示值的位进行置位的方式来插入的,该谱表示值则是一个整型二进制谱表示值的集合中的一个值,并由一些位组成,其中另一个结合价与该谱表示值的每个位都关联,而在该谱表示值的这些位中具有最高结合价的设置位则是该谱表示值的最主要位,该谱表示值的其余所有位的结合价都比最主要位的结合价低。
特别地,整型谱表示值的集合是利用一个前向整型变换算法把一个离散值序列转换成一个谱表示来生成的,其中该前向整型变换算法设计用来提供一个源于该离散值序列的整型谱表示值的集合。该谱表示值的设置位是那些结合价小于或等于谱表示值的信号极限结合价的位。
更具体地说,图2所示的提取器还包括一个装置132,此装置利用一个前向整型变换算法把另一个采样序列转换成一个谱表示,以获得一个整型二进制谱表示值的提取集。本发明的提取器还包括装置134,用来提供有关转换装置132输出的谱表示值的一个组中的一个谱表示值的信号极限结合价的信息。装置134还设计为可以以一种或更多不同的方法来提供关于该信号极限结合价的信息。一种方法是像输入端134a描述的那样使用一个预先指定的信号极限结合价。另一种方法是像输入端134b描述的那样根据通过输入端130提供的数据确定一个谱表示值的信号极限结合价。第三种方法则是像输入端134c描述的那样利用修改后的谱表示值来运行方法134。接着,装置134就可以把关于谱表示值的信号极限结合价的信息提供给一个信息提取装置136,该装置可以被设计为丢弃一个谱表示值中所有高于该信号极限结合价的位,并把一个谱表示值中的保留位和下一个谱表示值的保留位排列在一起,从而可以在输出138又获得一个已提取出的载荷流。
根据本发明,接下来就可以在频域中嵌入附加数据了,最好能因心理声学屏蔽效果而使该载体信号(例如一个音频信号)的修改是不可闻的。最好在频域中采用一个完美重构整型变换(例如IntMDCT)来表示该音频信号。它使整型音频采样表示为整型谱值这一变换使可逆转的。其优点在于:通过插入载荷修改该整型谱后,可以通过到时域的后向变换再次获得整型采样。本发明不要求也不期望对整型采样进行附加的无损舍入,因为这可能导致信息损失。这样,修改后的整型谱在经过后向变换后就可被精确重构到(量化)时域上。
作为嵌入概念(即图1中装置116和装置120的功能)的最简单的变量,执行IntMDCT的转换装置112的块长度常数最好是假定的。例如,可以假定块长度是256个谱列。于是整型二进制谱表示值的集合就包括256个谱列。这表示在音质信号的良好频域分辨率和暂态信号的良好时间分辨率之间的折中。
如上所述,用于确定信号极限结合价的装置116可以使用预先指定的变量。于是对每个谱列(即每个谱表示值)来说,设置一个固定的信噪比就足以保持透明的音频质量。二进制表达式中的谱表示值可以考虑是一个绝对值。由于心理声学屏蔽效果,还可以设定一定数量的、低于不为0的最高位(即最主要位)的位,以满足透明音频质量的要求。假设信噪比是18dB,就需要三个位。这意味着:在这一概念中,最主要位和结合价紧随其后的两个位不能用于嵌入载荷。但是所有结合价比最主要位结合价至少小3的位都可以用来嵌入信息,而不会导致最后结果的失真。例如,如果一个谱列位的最主要位在位置8上,那么在本例中就有5个位可以用来嵌入附加数据。下面根据图3和图4举例说明两个不同变量值下的情况。
图3描述了已经获得的五个谱表示值:140-148,它们表示以递增方式排列的频率(如图3中箭头150所示)。在图3中,假定每个谱表示值是一个8位的数字。谱表示值140的最主要位的结合价是6。谱表示值142的最主要位的结合价是3。谱表示值144的最主要位的结合价却是7,而谱表示值146的最主要位的结合价是5,谱表示值148的最主要位的结合价是2。
图3还进一步描述了预先指定信号极限结合价的模式,从而使信号极限结合价应距离相应的谱表示值的最主要位3个结合价级。谱表示值140的信号极限结合价是3,而谱表示值142的信号极限结合价是0。谱表示值144的信号极限结合价是4,谱表示值146的信号极限结合价是2,而谱表示值148却没有信号极限结合价,因为它的最主要位结合价只有2,这意味着没有载荷可以嵌入谱表示值148中,从而不会对信号的透明性造成负面影响。如图3中的双箭头152所示,通过输入134a提供给提取器和/或通过116a提供给嵌入器的信息有3个结合价级。
于是可以运行图1中用于置位的装置120,根据图3所示的实施例中的载荷,将所有等于该组谱表示值的信号极限结合价的位进行置位,以及将所有结合价比该信号极限结合价更低的位置位。图3中的载荷置位序列是1001,1,10100,001。该载荷的解码器将把这些位解释成诸如一个数据流的位,这些位和谱表示值的几个块一起表示出了一个音频信号、视频信号、文本信息或类似信息。
需要注意的是,图3所述的本发明的构思的这个简单变量是建立在一个与信号无关的心理声学模式的基础上的,该模式对每个谱列要求有三个结合价级和/或三个位的距离152。
然而,在本发明的一个优选实施例中,却使用了信号自适应心理声学模式。值得注意的是,在通过信号嵌入过程修改不重要位后,还可以通过提取器计算出每个谱列的心理声学重要位的个数,从而无需传输并行的附属信息。例如,可以通过如下方式实现:只把每个谱列的最主要位用于心理声学模式的计算,并在嵌入过程中至少不改变最主要位,尽管对心理声学模式来说这是可能的。这样,对更小的、被强屏蔽的谱值来说,就有更多的位可以用来嵌入附加数据,随后将参考图4描述这一过程。
需要注意的是,只用一个谱表示值的最主要位来计算心理声学屏蔽门限意味着心理声学屏蔽门限依据的每个谱表示值是实际谱表示值的一个近似版本。但由于心理声学屏蔽效果会随着谱表示值的能量的增加(例如提高谱表示值的振幅)而增强,所以使用近似的谱表示值是有好处的,这是因为尽管对某些谱表示值来说可能会提供更少的嵌入载荷,但无论如何都可以保证心理声学透明性。更确切地说,这意味着根据一组近似谱表示值计算出来的屏蔽门限无论如何都低于非近似的谱所具有的屏蔽门限。
对比图3和图4可以发现:在选择的例子中,谱表示值142完全被两个相邻的更大的谱表示值140和144屏蔽了,具有谱表示值146的结合价3的位至少也不能用于心理声学整体标记,于是也被屏蔽了。对于谱表示值148的最低三位也是这样。因此,嵌在图4所示谱中的载荷将表示为如下载荷序列:1001,1001,10100,1001,110。
对比图3和图4还可以发现:使用用于确定例中所示的谱的一个谱值的信号极限结合价的装置116的简单预定义版本只能嵌入13个信息位,而当该装置116运行在心理声学模式的基础上时,就可以插入20个信息位。这说明本发明概念具有可升级的优点,因为通过在嵌入过程中付出更多代价(提取过程也是一样),就可以显著提高嵌入数据的比率。
还需要注意的是,图4所示的例子中,只有谱表示值140和144的信号极限结合价比各自最主要位的结合价低距离152。而对谱表示值142来说,信号极限结合价与该谱值的最主要位结合价相符,这意味着该谱表示值被完全屏蔽了。对谱表示值146来说,信号极限结合价是3,因此只比其最主要位结合价(对谱表示值146来说,该值是5)低2个结合价级。最后,对谱表示值148来说,信号极限结合价也等于其最主要位结合价(即等于结合价2)。
对非常安静的音频信号段来说,还可以设计一个安静门限,也就是静极限结合价,该值独立于这样一个谱表示值的最主要位,例如,静极限结合价与谱表示值的最主要位无关,总是等于结合价3。如图4所示的例子中,这意味着谱表示值148的结合价为3的位也可以用来插入信息。因此,一组谱表示值的一个谱表示值的静极限结合价在经过图1的装置112的转换后也可以高于这个谱表示值的最主要位结合价。为防止在音频信号的安静段中嵌入的附加数据的比率非常低,也为了能保证一定的最小数据比率,固定安静门限最好设定为定义一个极限门限,低于该门限信息不管怎样都可以插入。最好还要根据频率设计这个固定安静门限值,从而使其对不同谱表示值表示的不同频率来说是不同的值。例如,较低频率的安静门限的结合价比较高频率的更低,这对那些非常高的频率的谱表示值来说可能尤其重要,因为这么高的频率无论如何都只能被非常少的监听者辨别出来。至于安静门限关于频率的曲线可以参见相关基础心理声学文献。
如前所述,提供给图1中的嵌入器的信号是一个离散值的流。转换装置112生成一些来自这个给定的值序列的采样的连续序列,再利用前向整型变换算法把这些序列转换成一个谱表示。如前所述,最好采用整型MDCT,该算法利用叠加(overlapping)和加法(addition)(在本技术领域中这些运算也被视为交迭(overlap)和添加(add))来工作。最好使用50%的叠加,这样每个被相继处理的采样序列就有50%的重叠,例如:假如一个块长度是2048个采样,那么第一个块就是采样1到采样2048,而第二个块则是采样1024到采样3072,依此类推。于是可以说,每1024个新采样的“附加物”就要生成一个包含1024个整型二进制谱表示值的整型二进制谱表示值的集合,这点将在后文结合图7a、图7b、图8、图9和图10详细阐述。最后,利用装置126,修改后的谱表示值的后向变换再次提供了一个时间离散值的流,如果没有嵌入附加的同步信息(出于兼容性的考虑应避免这一点),这个流就不能指示最初使用哪个块分割方法来执行该短期变换。
因此,图2所示的提取器必须能在没有同步信息的条件下首先信息嵌入器原本执行的块分割法。从音频信号中提取载荷必须采用与嵌入过程相同的变换和相同的心理声学模式,以获得相同的二进制表示和相同的该二进制表示的分割法,利用该分割法把二进制表示分割成心理声学重要位和表示嵌入的附加数据的不重要位,除了上述事实外,在提取器中的嵌入信号不包含任何同步信息的实施例中,还应知道在执行嵌入动作前把该变换逐块作用在该原始音频信号上的时间偏移。当音频信号被截短,又或者可能在信号的任意位置开始提取附加数据时,也会产生这样的问题。因此,图2所示的提取设备还包括用于确定作用在嵌入过程中的块栅格(它在图2所示设备的输入端130的上行方向上)的方法。依据本发明,最好在嵌入载荷时插入一点冗余信息(譬如一个校验和),从而能把块栅格正确的已提取出的数据与具有一定概率的块栅格错误的已提取出的数据区分开来。
例如,如果使用256个时间离散值的块长度,其中该信息是已知的或是可以交互式确定的,那么最好从携带插入信息的时间离散信号的某个值开始提取载荷。譬如,如果块长度是256个采样,且假设有10 x 256个块的载荷被提取出,并且由于发现块偏移而有一个采样的偏移,那么正确的校验和应该在256个采样的空间内出现10次。这意味着载荷嵌入者把彼此具有预先指定的关系(例如,总是两倍的关系或二分之一的关系或总是小于1的关系等)的相同的二进制数字和/或不同的二进制数字嵌入在嵌入过程生成的谱表示值的每个块中。这个二进制数字可能与插入的数据(例如该数字作为校验和或哈希值等时)相关,也可能不相关(作为同步字等时)。
具体说来,该过程是这样的:从包含插入信息的时间离散信号的一个已确定的值开始,例如处理10个连续的块和考虑其校验和。如果期望每个块的校验和是相同的,而实际获得的校验和是不同的,这就意味着该块栅格不是偶然遇到的。此时,要重复整个过程,但是这次不把以前使用的采样作为起始点,而是把一个比以前使用的采样大1个顺序数的采样作为起始点。再次考虑这一新的测试块栅格获得的校验和。如果这些校验和仍然不相同,则再次重复相同的过程,但这次从比起始采样大2个顺序数的采样开始。重复执行这一过程,直至在N(譬如N等于10)个连续的块上处理的校验和彼此之间具有预先确定的关系。在极端的条件下,如果假定是最坏条件(即整个校验过程开始的起始值只比实际的块栅格大一个顺序数字),那么这一过程就不得不重复255次。
具有错误的偏移的单个块可能偶然会提供正确的校验和。但是,如下情形几乎不可能发生:这样一个“不必要的碰撞”在一行中出现N次,从而可以伪装一个确定的周期性的块结构。这一必然性会随N的增大而提高。于是载荷只要把极低的冗余用来发现这个块结构就足够了,因为只需粗略地确定校验和就可以了。
为了发现块结构还可能要插入一个导音(pilot tone)。这意味着一个或多个谱列比听觉门限低一个固定的值。例如,包含最高频率的频带可用于此。于是正确的值只在找到正确的块栅格时才在解码器中出现。对这一过程来说,总是检查该导音谱表示值,而不是校验和。如果一个块原本有256个采样,那么在最坏条件下,这一过程也不得不重复执行255次。找到块结构后,就可以按照已知的块结构转换所有其它块,从而可以提取出附加数据。
如现有技术所述,一个固定的变换长度是在声音信号的良好频率分辨率和暂态信号的良好时间分辨率之间的折中。交换块长度能更好地适应因向音频信号中嵌入附加数据而增加的误差,它在听觉自适应音频编码中非常普遍。如果载荷嵌入器的设计采用信号自适应块交换算法,那么该提取器只有在如下条件下才能正常工作:这一信息(例如作为附属信息)传送给提取器;或者提取器被设计为可以发现实际使用的块结构(例如在载荷中插入冗余信息)。为此,提取器将用所有可能在本发明的一个实施例中的当前块中出现的变换长度和窗口形式来执行该变换。然后,提取器必须根据校验和(例如,它是被插入的)判断哪一个是执行嵌入过程所使用的变换的变量(即块长度和窗口形式)。
接下来,将根据图5讨论本发明概念的优先应用数据(field)。应用数据一般是音频CD和/或生成与CD播放器兼容的音频数据(也记作PCM采样音频数据)。依据本发明,具有高数据率的附加数据可以插入该音频数据中,而不会引起可听见的变化和兼容性的问题。上述找到嵌入过程中的块结构的方法也使重放一个音频磁道的任意部分时(例如,在使用一个CD播放器的快进或随机播放模式后)可以同步提取附加数据。
而且,一个音频CD还包含一些错误保护机制,这些机制在读出未加工的数据时可以校正某些差错,从而可以精确地重构出原始音频采样。只要这一错误校正是成功的,就执行了一个“自动”校正插入在音频数据中的载荷的操作,于是可以从已校正的音频采样中重新提取出载荷。但是,如果错误校正不再可行,那么某些CD播放器就会执行一些能减少可闻性错误的差错掩藏机制。于是自然也不再能够精确地提取出载荷。因此,如果出现这样的错误,也不能丝毫无误地提取出附加数据。为了仍保证附加数据的可靠传输,在这种情况下,最好在把附加数据嵌入音频数据中之前采用一种与可预见的差错相适应的错误保护方法对附加数据进行编码。为此,可以采用相关技术领域中已有的任何前向错误保护方法,这些方法允许载荷提取具有最大可调节位误差率,并能同水印提取器里的维特比解码器等协同工作,甚至在因为传输信道(例如CD或一个接线信道)的差错产生信噪比时也是如此。
在一些优选实施例中,优选把以下附加数据传送给音频CD。附加数据和/或载荷的变量是视频数据。利用现代视频编码方法(例如MPEG-4视频),可以在保证良好质量的同时对视频数据进行压缩,使其可以嵌入在未经压缩的音频信号(即PCM采样序列)里,这一过程也包含本发明的嵌入构思。
音频数据还可以嵌在音频载体信号里。现代音频编码方法(例如MP3或AAC)能提供较高音频质量,并具有128kbit/s或更低的数据率。因此,压缩后的音频数据可以插进具有本发明概念的未压缩的音频数据。例如,最好把压缩后的(这对诸如便携式播放器设备来说是必需的)音频数据也直接置于音频CD里。于是音频CD播放器可以实现为能够把音频数据传送给便携式播放器设备,而不必不得不自己花费较高的计算代价去压缩这些数据。一旦处于音频CD的主控处理过程中,就可以把音频信号的压缩后版本插入该音频数据中。提取过程的复杂性明显小于用于自己生成压缩音频数据的完整编码过程的复杂性。
下面根据图5和图6说明上述系统。例如,图5表示一个图1所示的嵌入器160。一方面,该嵌入器通过输入端110接收CD PCM采样,通过输入端112接收待插入的、二进制格式的信息。图5还包括一个音频处理器162,其能根据嵌入器160的输入端110的CD PCM采样生成表示原始CD PCM采样的压缩版本的、待插入的信息。在输出侧(即输出端118上),嵌入器提供了一个包含心理声学透明地被嵌入的其自身的压缩版本的音频信号。接着把这一信息提供给一个CD刻录器164,刻录器同时接收一个改写CD(blank CD)166的命令,该命令用于把作用于输入端118上的包含自嵌其中的自身压缩版本的音频信号烧到CD里,然后在CD刻录器的输出端168可以获得该CD。
图5的流程生成的CD再输入一个提取器170中,该提取器可能是一个CD播放器的一部分,也可能在一个多用途计算机中实现。图6所示的提取器170是按照图2所述实现的。提取器170对未压缩的音频数据并不感兴趣,而只是要从CD和/或与CD兼容的数据流中提取出压缩后的音频信号,该音频信号在其输出端138输出,并作为二进制数据流出现。依据本发明,最好把这一表示压缩后的音频信号的数据流加载到一个具有有限存储容量的便携式播放器(例如,固态播放器172)里。固态播放器172包括一个音频解码器,该解码器用于对作用在输出端138上的压缩音频信号进行解码和/或解压缩,且播放器172可能会再次产生这一信号(如图6的输出端174所示)。这一概念的优点在于:提取器170可以设计成复杂度比完整的音频编码器小得多,这即意味着有如下优点:这样的设备的价格明显比一个完整的音频编码器低。例如在某些场合,购买者购买了一个CD并希望在他/她的固态播放器上播放该CD。他/她可能不得不在家里对CD和/或该数据流(例如,该数据流通过互联网获得)上的信号完全进行编码并把该信号加载到他/她的固态播放器上。依据本发明,只从CD里提取音频信号的压缩后版本所付出的代价明显小于完全编码过程,其中这一代价可以理解为更低的价格。
下面将讨论整型变换算法的一个例子:IntMDCT变换算法,“Audio Coding Based on Integer Transforms”(第111届AES会议,纽约,2001年)描述了这一算法。IntMDCT特别有用,因为它具有MDCT的吸引人的特性,例如,音频信号的良好谱表示,关键采样和块重叠。
在详细讨论优选的IntMDCT之前,首先根据图7a和7b说明传统的MDCT。为了实现良好的频率选择性,现代音频编码器通常使用块重叠。图7a描述了一个例子。首先,假设通过装置402获得2048个时间离散音频采样,并对其进行窗口化。窗口体现在装置402有一个长为2N的窗口,并在输出侧提供一个包含2N个窗口采样的块。为了实现窗口重叠,利用装置404形成另一个包含2N个窗口采样的块。在图7a中,装置404和装置402分开描述只是为了说明得更清楚。但是,提供给装置404的2048个采样并不是直接跟在第一个窗口后面的时间离散音频采样,而是包含被装置402进行窗口化的采样的后半部分,另外只包含1024个“新的”采样。图7a中该重叠通过装置406象征性地表示,该方法能产生一个50%的重叠。接着,利用装置408和/或装置410把装置402输出的2N个窗口采样和装置404输出的2N个窗口采样一起提交给MDCT算法。装置408根据已知的MDCT算法为第一个窗口提供N个谱值,而装置410也提供N个谱值,但是是为第二个窗口,而且第一个窗口和第二个窗口之间有50%的重叠。
如图7b所示,在解码器中,把第一个窗口的N个谱值提供给装置412,此装置执行一个逆向的改进的离散余弦变换。第二个窗口的N个谱值进行相同的操作。再把它们提供给装置414,此装置也执行一个逆向改进的离散余弦变换。装置412和装置414每个都能分别为第一个窗口提供2N个采样和为第二个窗口提供2N个采样。
如图7b,在装置416中指定了TDAC(时域混迭消除),在此应考虑如下事实:两个窗口是重叠的。特别地,第一个窗口的后半部分的一个采样y1(即索引为N+k)与第二个窗口的前半部分的一个采样y2(即索引为k)相加,于是就可以在输出侧(即解码器里)得到N个已解码的临时采样结果。
需要注意的是,利用装置416的功能(也被称作加法功能),可以考虑自动在图7a示意的解码器里执行的窗口化操作,这就必须在图7b所示的解码器里执行非显式的“反向窗口化”。
如果假定装置402或404实现的窗函数为w(k),其中索引k表示时间索引,则必须满足以下条件:平方窗口权重w(k)加上平方窗口权重w(N+k)等于1,其中k是从0到N-1。如果使用的是正弦窗口,该窗口的权重是正弦函数的第一个半波,那么这一条件总能满足,这是因为对任何角度来说正弦的平方和余弦的平方之和总是等于1。
图8描述了本发明优选设备进行如下过程的概略图:处理表示一个音频信号的时间离散采样,以获得一些整数值,Int-MDCT整型变换算法则根据这些值进行操作。时间离散采样被图8所示的设备进行窗口化,并可选择地被转换成一个谱表示。在输入端10提供给该设备的时间离散采样被一个窗口w进行窗口化,窗口的长度与2N个时间离散采样相对应,从而在输出端12获得一些整型窗口采样,这些采样适宜被一个变换、特别是执行整型DCT的装置14转换成一个谱表示。整型DCT设计如下:根据N个输入值生成N个输出值,这与图7a所示的MDCT功能408(因为MDCT等式的缘故只能从2N个窗口采样里生成N个谱值)恰好相反。
为了对时间离散采样进行窗口化,装置16选择最初的两个时间离散采样来表示时间离散采样的向量。被装置16选择的时间离散采样在该窗口的第一个四分之一角里。另一个时间离散采样则在该窗口的第二个四分之一角里,更详细的讨论可以参考图10。装置16生成的向量于是提供了一个维数为2×2的循环矩阵,其中这一操作不会直接被执行,而是利用几个称作抬升矩阵的方法来执行。
抬升矩阵具备如下性质:只包含一个元素,该元素与窗口w有关,且不等于“0”或“1”。
在专业文献“Factoring Wavelet Transforms Into Lifting Steps”(Ingrid Daubechies和Wim Sweldens,预印文件,贝尔实验室,朗讯科技,1996)中描述了抬升步骤中小波变换的因子化过程。一般说来,抬升机制是具有相同滤波器的完美重构滤波器对之间的一种简单关系。每对互补滤波器可以被因子化为抬升步骤。特别地这一过程可以应用在Givens循环里。假设多相位矩阵是一个Givens循环,那么应用如下步骤:
cos α - sin a sin a cos α = 1 cos α - 1 sin a 0 1 1 0 sin α 1 1 cos α - 1 sin a 0 1 - - - ( 1 )
等式右边的三个抬升矩阵每个主对角线元素都是“1”。而且,在每个抬升矩阵里,另一个对角线上的一个元素为0和另一个元素与该循环角度α有关。
接着该矩阵与第三个抬升矩阵(即在上述等式最右边的抬升矩阵)相乘,以获得第一个结果矩阵。图8中装置18说明了这一过程。接着,如图8所示,利用装置20用任何映射整数集合中的实数集的舍入函数把第一个结果矩阵进行舍入。装置20的输出端则获得已舍入的第一个结果矩阵。接着把已舍入的第一个结果矩阵输入装置22,使之与中间的(即第二个)抬升矩阵相乘,以获得第二个结果矩阵,再在装置24中对该矩阵进行舍入,以获得已舍入的第二个结果矩阵。再把已舍入的第二个结果矩阵输入装置26,使之与上述等式中最左边的(即第一个)抬升矩阵相乘,以获得第三个结果矩阵,该矩阵最后被装置28舍入,以在输入端12最终获得整型窗口采样,如果期望获得采样的谱表示,则必须通过装置14处理以在谱输出端30获得整型谱值。
装置14最好实现为整型DCT。
长为N的类型4的离散余弦变换(DCT-IV)可以表示为如下等式:
X t ( m ) = 2 N Σ k = 0 N - 1 x ( k ) cos [ π 4 N ( 2 k + 1 ) ( 2 m + 1 ) ]
DCT-IV的系数形成一个N×N的正规正交矩阵。根据专业文献P.P.Vaidyanathan“Multirate System And Filter Bannks”(PrenticeHall,Englewood Cliffs,1993),每个正交N×N矩阵可以分解成N(N-1)/2个Givens循环。需要注意的是还有其它分解方法。
关于各种不同DCT算法的分类,可参考H.S.Malvar,“SignalProcessing With Lapped Transforms”,Artech House,1992。通常说来,各种DCT算法的不同之处在于其基函数。本文中优选的DCT-IV则包括一些非对称基函数(即余弦四分之一波,余弦四分之三波,余弦四分之五波,余弦四分之七波等),而类型II(DCT-II)的离散余弦变换则包含一些x轴对称和点对称的基函数。第0个基函数包含一个直流成分,第一个基函数是一个余弦波的一半,第二个基函数是整个余弦波,依此类推。因为DCT-II特别强调了直流成分,它只用于视频编码而不用于音频编码,因为直流成分和音频编码无关,但和视频编码有关。
接下来讨论Givens循环的循环角度α是如何和窗函数相关的。
窗口长度为2N的MDCT可以简化为长为N的类型IV离散余弦变换。这可以通过如下方法实现:在时域里显式执行TDAC操作,然后应用DCT-IV。在50%重叠的条件下,块t的窗口的左半部分与前一块(即t-1)的右半部分重叠。相邻两个块t-1和t的重叠部分在时域中(即在变换前)进行如下预处理(即在图的输入端10和输入端12之间处理):
x ~ t ( k ) x ~ t - 1 ( N - 1 - k ) = w ( N 2 + k ) - w ( N 2 - 1 - k ) w ( N 2 - 1 - k ) w ( N 2 + k ) x t ( N 2 + k ) x t ( N 2 - 1 - k ) - - - ( 3 )
标记波浪线的值是图8的输出端12的值,而在上个等式中那些没有标记波浪线的x值则是输入端10的值和/或紧随选择装置16的值。变化索引k的范围是0至N/2-1,其中w代表窗函数。
根据窗函数w的TDAC条件,应用下式:
w ( N 2 + k ) 2 + w ( N 2 - 1 - k ) 2 = 1 - - - ( 4 )
如前所述,对某个角度αk,k=0,......,N/2-1,时域中的该预处理可以写作Givens循环。
Givens循环的角度α和窗函数w有如下关系:
α=arctan[w(N/2-1-k)/w(N/2+k)]                   (5)
需要注意的是,任意一个窗函数w只要满足这一TDAC条件就能被采用。
下面参考图9描述一个级联的编码器和解码器。首先利用图8的装置16选择完全通过一个窗口进行窗口化的时间离散采样x(0)到x(2N-1),于是可以选择采样x(0)和采样x(N-1)(即来自第一个四分之一窗口的采样和来自第二个四分之一窗口的采样)来形成装置16所输出的向量。图例中的交叉箭头表示抬升乘法和随后的各个装置18、20、22、24和26、28的舍入,从而能在DCT-IV块的输入端获得整型窗口采样。
当第一向量按照上述所述方法进行处理后,接着从采样x(N/2-1)和x(N/2)(即又是来自第一个四分之一窗口的采样和来自第二个四分之一窗口的采样中选择第二个向量,并再次利用图8所述的算法进行处理。类似地,可以对所有其它来自该窗口的第一个和第二个四分之一区域中的采样对进行处理。对第一个窗口的第三和第四个四分之一区域执行相同的处理。于是就在输出端12得到2N个窗口整型采样,再把这些采样提供给图9所示的DCT-IV变换。特别是要把第二和第三个四分之一区域的整型窗口采样提供给DCT。该窗口的第一个四分之一区域的窗口整型采样在前一个DCT-IV中和前一个窗口的第四个四分之一区域的窗口整型采样一起处理。类似地,在图9中,窗口整型采样的第四个四分之一区域和下一个窗口的第一个四分之一区域一起提供给DCT-IV变换。于是图9所示的中心整型DCT-IV变换32就能提供N个整型谱值y(0)到y(N-1)。现在就可以对这些谱值进行诸如简单的熵编码的操作,而不用必要的内插量化,因为窗口化和变换产生了整型输出值。
图9的右半部分则描述了一个解码器。解码器由后向变换和与编码器相反的“逆向窗口化”操作组成。如图9所述,已知逆向DCT-IV可以用于DCT-IV的反向变换。如图9所述,解码器DCT-IV34的输出值和前一个变换和/或后一个变换的对应值一起被逆向处理,从而能从这些整型窗口采样中再次生成时间离散音频采样x(0)至x(2-N1),并在装置34和/或前一个变换和后一个变换的输出端输出。
输出侧的操作可以利用反向Givens循环来执行,即以相反的方向分别通过块26、28和22、24和18、20。下面将根据等式1的第二个抬升矩阵详细描述这一操作。当(在编码器里)通过把已舍入的第一个结果向量和第二个抬升矩阵相乘(装置22)得到第二个结果向量时,将产生如下表达式:
Figure C200480013275D00321
等式6右边的x,y都是整数。但是xsinα并不一定是整数。因此,必须如下式所述引入舍入函数γ:
Figure C200480013275D00322
这一操作通过装置24来执行。
(解码器里的)逆向映射定义如下:
Figure C200480013275D00323
由于舍入操作前面是减号,所以显然可以对抬升步骤的取整近似步骤进行反向操作,而不会引入任何误差。对三个抬升步骤中的每个步骤都应用该近似可以产生对该Givens循环的取整近似。通过以相反的顺序依次执行逆向舍入抬升步骤(即在解码器中从底向顶执行图8的算法),(编码器中的)舍入循环可以在(解码器中)还原,而不会引入任何误差。
如果舍入函数γ是点对称的,那么该逆向舍入循环等价于如下包含角度-α的舍入循环:
cos α sin a - sin a cos α - - - ( 9 )
此时,只要用表达式“-sinα”代替表达式“sinα”就可以从等式(1)直接得到用于解码器的抬升矩阵(即逆向Givens循环)。
接着,根据图10再次描述包含重叠窗口40至46的一般MDCT的分解。对窗口40至46来说,每个窗口都有50%的重叠。首先,每个窗口都会在窗口的第一和第二个四分之一区域里和/或窗口的第三和第四个四分之一区域里执行Givens循环,箭头48对这一过程作了示例性的描述。接着循环后的值(即窗口整型采样)输入至一个N到N的DCT中,使得窗口的第二和第三个四分之一区域以及下一个窗口的第四和第一个四分之一区域总是可以利用谱表示形式的DCT-IV算法一起被转换。
因此,一般的Givens循环就分解为一些抬升矩阵,相继执行这些矩阵,其中执行完每个抬升矩阵乘法后,插入一个舍入步骤,使得浮点数在产生之后立即被取整,从而使每个结果向量与抬升矩阵相乘前,结果向量都只包含整数。
于是输出值总还是整数,这里最好也使用整数输入值。这并不是限制条件,因为当任意一个规范的PCM采样存储在一个CD里时,都是整数值,其取值范围是依据位宽度而变化的,即与时间离散数字输入值是16位的值还是24位的值有关。不管怎样,如前所述,整个过程是可逆的,这可以通过按相反的顺序执行逆向循环来实现。因此,这是能完美重构(即无损变换)的MDCT的取整近似。
示出的变换能提供整型输出值而不是浮点值。它可提供完美重建使得先后执行前向和后向变换后不会产生误差。根据本发明的优选实施例,该变换是改进的离散余弦变换的替代。当然只要转至循环的分解以及循环到的分解是可行的,也可以和整数一起执行其它变换方法。
整型MDCT包含一些MDCT最有用的属性。它具有重叠结构,从而可以获得比非重叠块变换更好的频率选择。由于TDAC函数已经在变换前在窗口化时考虑到,所以可以保持关键采样,从而使表示一个音频信号的谱值的总数等于输入采样的总数。
与普通的提供浮点采样的MDCT相比,上述优选整型变换说明:普通MDCT相比,噪声只在谱域内提高,而在谱域中几乎没有信号级,因此和重要信号级相比,这一噪声提高并不明显。但是建议使用有效的硬件实现该整型处理过程,因为只使用了一些乘法步骤,这一步骤可以毫不费力地分解为转换/加法步骤,这些步骤可以利用硬件简单、快速地实现。当然,软件实现也是可行的。
本发明的嵌入构思和/或本发明的提取构思可以用硬件或软件实现,这取决于实际条件。这一实现可以在数字存储介质中完成,特别是磁盘或包含可以电读取的控制信号的CD,这些介质可以和计算机系统协同工作,从而执行相应的方法。一般说来,本发明也可以和一个程序代码共存于一个计算机程序产品中,其中该程序代码存储在一个机器可读的载体上,用于在该计算机程序产品在一个计算上运行时执行本发明的嵌入方法或本发明的提取方法。换句话说,本发明代表一个包含程序代码的计算机程序,用于在该计算机程序在一台计算机上运行时执行嵌入和/或提取方法。

Claims (28)

1.用于把二进制载荷(122)嵌入由第一个离散值序列构成的载体信号(110)中的设备,该设备包括:
利用一种前向整型变换算法将所述的第一离散值序列转换成一个谱表示(114)的装置(112),所述的算法被配置为提供一个代表升序排列的频率的整型二进制谱表示值的集合,其中待修改的谱表示值包含多个位,并且待修改的谱表示值的每个位与不同的结合价相关联,其中在该谱表示值的所有位中具有最高结合价的位是该谱表示值的最主要位,而该谱表示值的其余所有位的结合价都低于这个最主要位;
为谱表示值确定信号极限结合价的装置(116),其中信号极限结合价比谱表示值的相应的最主要位的结合价低至少一个结合价级;
根据二进制载荷(122)对该谱表示值中那些结合价等于或小于信号极限结合价的位进行置位的装置(120),以获得修改后的谱表示值(124),其中那些结合价大于信号极限结合价的位对于载荷嵌入是不可用的;以及
利用一种后向整型变换算法将一个整型二进制谱表示值的集合转换成第二离散值序列(118)的装置(126),在所述整型二进制谱表示值集合中包含那些修改后的谱表示值,而不是待修改的谱表示值,从而使载荷(122)嵌入到第二个值序列(118)中。
2.权利要求1所述的设备,其中用于确定的装置(116)被配置为对多个二进制谱表示值确定各自的信号极限结合价,其中每个二进制谱表示值的信号极限结合价比对应谱表示值的最主要位的结合价低相同数目(152)的结合价级。
3.权利要求1或2所述的设备,其中信号极限结合价比最主要位的结合价低三个或更多个结合价级(152)。
4.如权利要求1所述的设备,其中用于确定的装置(116)进一步被配置为确定该谱表示值的静极限结合价,而不必考虑谱表示值的最主要位的结合价,所述静极限结合价比谱表示值的位的最低结合价高出预定数目的结合价级,这样用于置位的装置(120)就可以用一个小于或等于该静极限结合价的结合价来置位,而不用考虑为相应的谱表示值所确定的信号极限结合价。
5.如权利要求1所述的设备,其中载体信号(110)是一个音频信号,并且用于确定的装置(116)被配置为把心理声学模式作为信号极限结合价来确定一个谱表示值的结合价,该结合价高于一个结合价级,且等于或小于该谱表示值的心理声学屏蔽极限的最主要位的结合价。
6.权利要求5所述的设备,其中用于确定的装置(116)被配置为设置谱表示值的信号极限结合价,使其比该谱表示值的心理声学屏蔽极限的最主要位低一个结合价级。
7.权利要求5所述的设备,其中用于确定的装置(116)被配置为利用心理声学模式计算心理声学屏蔽门限,其中只有最主要位或附加的具有更低结合价的预定数量的位被用于计算心理声学屏蔽门限,而且
其中用于置位的装置(120)被配置为不对谱表示值的最主要位或附加的具有更低结合价的预定数量的该谱表示值的位进行操作。
8.如权利要求1所述的设备,其中信息信号由几个离散值的序列组成,其中用于置位的装置(120)进一步被配置为在整型二进制谱表示值的集合中插入一些冗余位,这些冗余位包括一个指示序列开始或结束的指示位。
9.权利要求8所述的设备,其中所述冗余位表示校验和,而且在多个连续的整型二进制谱表示值的集合中,插入的校验和彼此之间具有预定的关系。
10.如权利要求1所述的设备,其中用于将所述第一离散值序列转换成一个谱表示的装置(112)被配置为转换一个至少包含128个、至多包含2048个离散值的序列。
11.权利要求8所述的设备,其中用于置位的装置(120)被配置为把一个置位模式用作冗余位,将利用置位装置(120)把设置位插入具有比一个或多个谱表示值的极限结合价更低的结合价的位中,其中这个谱表示值的频率和/或这些谱表示值的频率高于二进制谱表示值的平均频率。
12.权利要求8所述的设备,其中用于将所述第一离散值序列转换成一个谱表示的装置(112)被配置为根据载体信号的信息内容改变第一个序列的长度,其中用于置位的装置(120)被配置为在每个块中插入冗余位。
13.如权利要求1所述的设备,其中载体信号是一个与音频CD兼容的音频信号。
14.如权利要求1所述的设备,还包括:对原始载荷进行冗余编码的装置,用来获得二进制形式的待插入的信息,其中该载荷和原始载荷表示同样的信息,但是比原始载荷的数据冗余度更高。
15.如权利要求1所述的设备,其中载荷是已压缩的视频数据、音频数据或载体信号本身的压缩版本。
16.如权利要求1所述的设备,其中前向整型变换算法和后向整型变换算法都包括一个IntMDCT算法。
17.把二进制载荷(122)嵌入由第一个离散值序列构成的载体信号(110)中的方法,此方法包括:
利用一个前向整型变换算法把第一个离散值序列转换(112)成一个谱表示(114),以提供一个代表升序排列的频率的整型二进制谱表示值的集合,其中待修改的谱表示值包括多个位,并且待修改的谱表示值的每个位与不同的结合价相关联,其中在该谱表示值的所有位中具有最高结合价的设置位是该谱表示值的最主要位,并且该谱表示值的其余所有位的结合价都低于最主要位;
为谱表示值确定(116)信号极限结合价,其中所述信号极限结合价比谱表示值的相应的最主要位的结合价低至少一个结合价级;
根据二进制载荷(122)对该谱表示值中那些结合价等于或小于信号极限结合价的位进行置位(120),以获得修改后的谱表示值(124),其中那些结合价大于信号极限结合价的位对于载荷嵌入是不可用的;以及
利用一个后向整型变换算法把一个整型二进制谱表示值的集合转换(126)成第二个离散值序列(118),其中所述的集合中包含那些修改后的谱表示值,而不是待修改的谱表示值,从而使载荷(122)嵌入到第二个值序列(118)中。
18.从修改后的载体信号(130)中提取载荷的设备,该载体信号由已经插入载荷的第二个离散值序列组成,其中载荷是通过对整型二进制谱表示值的集合中的谱表示值的多个位进行置位而插入的,其中所述谱表示值由多个位组成,其中不同的结合价与该谱表示值的每个位相关联,其中在该谱表示值的所有位中具有最高结合价的设置位是该谱表示值的最主要位,并且该谱表示值的其余所有位的结合价都低于最主要位,其中该整型谱表示值的集合是通过一个前向整型变换算法把第一个离散值序列转换成一个谱表示而生成的,其中该变换算法被配置为提供代表升序排列的频率的整型二进制谱表示值的集合,并且该谱表示值的设置位是其结合价小于或等于信号极限结合价的位,该设备包括:
利用前向整型变换算法转换第二个采样序列的装置(132),以获得代表升序排列的频率的整型二进制谱表示值的提取集合(133);
用于提供关于所述谱表示值的信号极限结合价的信息的装置(134);以及
用于仅提取谱表示值中那些结合价小于或等于与该谱表示值相关联的信号极限结合价的位的装置(136),其中提取出来的位表示二进制载荷。
19.权利要求18所述的设备,其中所述用于提供关于信号极限结合值的信息的装置(134)被配置为提供存储在用于提取的设备中的信号极限结合价数据(134a),其中存储的信号极限结合价数据是预先设置或作为附属信息包含在修改后的载体信号(130)中的。
20.权利要求19所述的设备,其中附属信息不是嵌入到修改后的载体信号中的。
21.权利要求18所述的设备,其中嵌入载荷时使用了一个静极限结合价,该值比该谱表示值的位的最低结合价高一定数目的结合价级,而不考虑该谱表示值的最主要位的结合价,
其中用于提供的装置(134)被配置为提供一个谱表示值的静极限结合价。
22.权利要求18所述的设备,其中嵌入载荷时利用一个心理声学模式来计算信号极限结合价,
其中用于提供的装置(134)被配置为利用相同的心理声学模式来确定关于一个谱表示值的信号极限结合价的信息。
23.权利要求22所述的设备,其中嵌入载荷时利用一个心理声学模式来计算信号极限结合价,其中只有最主要位或附加的一些预先确定数量的、具有更低结合价的位用于确定该屏蔽门限,
其中用于提供的装置(134)被配置为只使用最主要位或附加的一些预先确定数量的、具有更低结合价的、属于每个谱表示值的整型二进制谱表示值的提取集合(133)的位来计算一个谱表示值的信号极限结合价。
24.权利要求18所述的设备,其中在嵌入信息时插入冗余位,
并且其中用于提取的设备还包括用于确定嵌入信息时使用的块栅格的装置,其中该用于确定块栅格的装置被配置为迭代地驱动用于转换的装置(132)、用于提供的装置(134)以及用于提取的装置(136),从而能提取出冗余位,以及
其中用于确定块栅格的装置被进一步配置为:如果一个块栅格里暂时连续的块的校验和彼此之间具有预先确定的关系时就把该块栅格标识为正确的块栅格。
25.权利要求24所述的设备,其中在嵌入信息时可以使用不同的块长度,且用于确定块栅格的方法还配置为促使用于转换的装置(132)测试不同的块长度,从而可以在许多块提取出的校验和之间具有确定关系时可以把该块长度和块栅格标识为正确的块长度和块栅格。
26.权利要求18所述的设备,其中载体信号是一个音频信号,其中载荷包括该音频信号的压缩版本,该设备还包括:
一个为用于从修改后的载体信号提取载荷的设备和用于播放该压缩音频信号的设备提供接口连接的接口。
27.权利要求26所述的设备,其中接口是播放该压缩音频信号的便携式设备使用的接口。
28.从由插入载荷的第二个离散值序列组成的修改后的载体信号(130)中提取载荷的方法,其中通过对来自整型二进制谱表示值的集合的谱表示值的位进行置位来插入载荷,其中所述谱表示值包括多个位,其中不同的结合价与所述谱表示值中的每个位相关联,其中在该谱表示值的所有位中具有最高结合价的设置位是该谱表示值的最主要位,并且该谱表示值的其余所有位的结合价都低于最主要位,其中该整型谱表示值的集合是通过一个前向整型变换算法把第一个离散值序列转换成一个谱表示而生成的,其中该变换算法被配置为提供代表升序排列的频率的整型二进制谱表示值的集合,并且该谱表示值的设置位是其结合价小于或等于信号极限结合价的位,该方法包括:
利用前向整型变换算法转换(132)第二个采样序列,以获得代表升序排列的频率的整型二进制谱表示值的提取集合(133);
提供(134)关于与所述谱表示值相关联的信号极限结合价的信息;以及
仅提取(136)谱表示值中那些结合价小于或等于与所述谱表示值相关联的信号极限结合价的位,其中提取出来的位表示二进制载荷。
CNB2004800132753A 2003-05-15 2004-04-28 在载体信号中嵌入二进制有效数据片断的设备和方法 Expired - Lifetime CN100481941C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10321983.8 2003-05-15
DE10321983A DE10321983A1 (de) 2003-05-15 2003-05-15 Vorrichtung und Verfahren zum Einbetten einer binären Nutzinformation in ein Trägersignal

Publications (2)

Publication Number Publication Date
CN1792096A CN1792096A (zh) 2006-06-21
CN100481941C true CN100481941C (zh) 2009-04-22

Family

ID=33440865

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004800132753A Expired - Lifetime CN100481941C (zh) 2003-05-15 2004-04-28 在载体信号中嵌入二进制有效数据片断的设备和方法

Country Status (9)

Country Link
US (1) US7587311B2 (zh)
EP (1) EP1604527B1 (zh)
JP (1) JP4644672B2 (zh)
KR (1) KR100709460B1 (zh)
CN (1) CN100481941C (zh)
AT (1) ATE345648T1 (zh)
DE (2) DE10321983A1 (zh)
HK (1) HK1082134A1 (zh)
WO (1) WO2004102969A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2423451A (en) * 2005-02-16 2006-08-23 Ishce Ltd Inserting a watermark code into a digitally compressed audio or audio-visual signal or file
KR100799303B1 (ko) * 2006-06-21 2008-01-29 한국전자통신연구원 캡쳐링에 강인한 웨이블릿 기반 오디오 워터마크 삽입,추출 장치 및 방법과 이를 적용한 저작권 관리시스템
MX2009010182A (es) * 2007-03-23 2009-10-12 Thomson Licensing Modificar una corriente de bits codificada.
CA2689634C (en) * 2007-06-14 2016-08-23 Thomson Licensing Modifying a coded bitstream
KR20110138367A (ko) * 2009-03-13 2011-12-27 코닌클리케 필립스 일렉트로닉스 엔.브이. 보조 데이터의 삽입 및 추출
WO2012070866A2 (ko) * 2010-11-24 2012-05-31 엘지전자 주식회사 스피치 시그널 부호화 방법 및 복호화 방법
US20120197648A1 (en) * 2011-01-27 2012-08-02 David Moloney Audio annotation
KR101525185B1 (ko) 2011-02-14 2015-06-02 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 트랜지언트 검출 및 품질 결과를 사용하여 일부분의 오디오 신호를 코딩하기 위한 장치 및 방법
BR112012029132B1 (pt) * 2011-02-14 2021-10-05 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V Representação de sinal de informações utilizando transformada sobreposta
JP5625126B2 (ja) 2011-02-14 2014-11-12 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スペクトル領域ノイズ整形を使用する線形予測ベースコーディングスキーム
PL3239978T3 (pl) 2011-02-14 2019-07-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodowanie i dekodowanie pozycji impulsów ścieżek sygnału audio
CA2827249C (en) 2011-02-14 2016-08-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing a decoded audio signal in a spectral domain
JP2013076871A (ja) * 2011-09-30 2013-04-25 Oki Electric Ind Co Ltd 音声符号化装置及びプログラム、音声復号装置及びプログラム、並びに、音声符号化システム
CN105122357B (zh) 2013-01-29 2019-04-23 弗劳恩霍夫应用研究促进协会 频域中基于lpc进行编码的低频增强

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09214636A (ja) * 1996-02-07 1997-08-15 Tateba Syst Kk データ埋め込み音声通信方法及び装置
EP0875107B1 (de) * 1996-03-07 1999-09-01 Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung E.V. Codierverfahren zur einbringung eines nicht hörbaren datensignals in ein audiosignal, decodierverfahren, codierer und decodierer
JP4226687B2 (ja) * 1998-05-01 2009-02-18 ユナイテッド・モジュール・コーポレーション 電子透かし埋め込み装置及びオーディオ符号化装置
CA2269651A1 (en) * 1998-05-12 1999-11-12 Lucent Technologies, Inc. Transform domain image watermarking method and system
US6345100B1 (en) * 1998-10-14 2002-02-05 Liquid Audio, Inc. Robust watermark method and apparatus for digital signals
JP2000209097A (ja) * 1999-01-14 2000-07-28 Sony Corp 信号処理装置とその方法、信号記録装置、信号再生装置および記録媒体
DE19938095A1 (de) 1999-08-12 2001-03-01 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Einbringen von Informationen in ein Audiosignal und Verfahren und Vorrichtung zum Ermitteln von in einem Audiosignal eingebrachten Informationen
JP4110690B2 (ja) * 1999-10-18 2008-07-02 ヤマハ株式会社 データ生成方法、記録装置、記録媒体、および再生装置
JP3507743B2 (ja) * 1999-12-22 2004-03-15 インターナショナル・ビジネス・マシーンズ・コーポレーション 圧縮オーディオデータへの電子透かし方法およびそのシステム
DE10129239C1 (de) * 2001-06-18 2002-10-31 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Einbetten eines Wasserzeichens in ein Audiosignal
US7006656B2 (en) * 2001-10-15 2006-02-28 The Research Foundation Of Suny Lossless embedding of data in digital objects

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
High Capacity Reversible Data Embedding andContentAuthenticcation. Jun,Tian,ED.2003 IEEE International Conference On Acoustics, Speech, and Signal Processing.(ICASSP),第1卷. 2003
High Capacity Reversible Data Embedding andContentAuthenticcation. Jun,Tian,ED.2003 IEEE International Conference On Acoustics, Speech, and Signal Processing.(ICASSP),第1卷. 2003 *

Also Published As

Publication number Publication date
HK1082134A1 (en) 2006-05-26
US20060095253A1 (en) 2006-05-04
CN1792096A (zh) 2006-06-21
US7587311B2 (en) 2009-09-08
ATE345648T1 (de) 2006-12-15
KR20060028633A (ko) 2006-03-30
EP1604527A1 (de) 2005-12-14
DE10321983A1 (de) 2004-12-09
EP1604527B1 (de) 2006-11-15
KR100709460B1 (ko) 2007-04-18
JP2007504513A (ja) 2007-03-01
JP4644672B2 (ja) 2011-03-02
DE502004002013D1 (de) 2006-12-28
WO2004102969A1 (de) 2004-11-25

Similar Documents

Publication Publication Date Title
US7587311B2 (en) Device and method for embedding binary payload in a carrier signal
US6345100B1 (en) Robust watermark method and apparatus for digital signals
CN101036183B (zh) 用于立体声兼容的多声道音频编码/解码的方法和设备
US6209094B1 (en) Robust watermark method and apparatus for digital signals
US6493457B1 (en) Electronic watermarking in the compressed domain utilizing perceptual coding
US6320965B1 (en) Secure watermark method and apparatus for digital signals
US6330673B1 (en) Determination of a best offset to detect an embedded pattern
WO2000022605A1 (en) Efficient watermark method and apparatus for digital signals
WO2002049363A1 (en) Method and system of digital watermarking for compressed audio
JP2002505758A (ja) オーディオ信号内にエコーによるデータ隠しを行うための方法及び装置
JP3814611B2 (ja) 時間離散オーディオサンプル値を処理する方法と装置
CN106415713B (zh) 用于对音频透明无损地加水印的方法
Kumsawat A genetic algorithm optimization technique for multiwavelet-based digital audio watermarking
Kuo et al. Covert audio watermarking using perceptually tuned signal independent multiband phase modulation
Hu et al. Effective blind speech watermarking via adaptive mean modulation and package synchronization in DWT domain
US20070003057A1 (en) Method of bit stream processing
CN101290773B (zh) 自适应的mp3数字水印嵌入和提取方法
KR20060023976A (ko) 비트-스트림 워터마킹
Masmoudi et al. A semi-fragile digital audio watermarking scheme for MP3-encoded signals using Huffman data
Bibhu et al. Secret key watermarking in WAV audio file in perceptual domain
KR20120006050A (ko) 혼합 신호를 형성하기 위한 방법 및 장치, 신호를 분리하기 위한 방법 및 장치, 그리고 이에 대응하는 신호
CN102222504A (zh) 数字音频多层水印植入及提取方法
US6009434A (en) System and method for tree ordered coding of sparse data sets
US20030161469A1 (en) Method and apparatus for embedding data in compressed audio data stream
JPH09135176A (ja) 情報符号化装置および方法、情報復号化装置および方法、並びに情報記録媒体

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Munich, Germany

Patentee after: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.

Address before: Munich, Germany

Patentee before: Franhofer transportation Application Research Co.,Ltd.

CX01 Expiry of patent term

Granted publication date: 20090422