CN101950561B - 水印嵌入方法和装置 - Google Patents

水印嵌入方法和装置 Download PDF

Info

Publication number
CN101950561B
CN101950561B CN201010501205XA CN201010501205A CN101950561B CN 101950561 B CN101950561 B CN 101950561B CN 201010501205X A CN201010501205X A CN 201010501205XA CN 201010501205 A CN201010501205 A CN 201010501205A CN 101950561 B CN101950561 B CN 101950561B
Authority
CN
China
Prior art keywords
data stream
compressed
watermark
audio
media data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201010501205XA
Other languages
English (en)
Other versions
CN101950561A (zh
Inventor
韦努高博·斯里尼瓦桑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nielsen Co US LLC
Original Assignee
Nielsen Co US LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nielsen Co US LLC filed Critical Nielsen Co US LLC
Publication of CN101950561A publication Critical patent/CN101950561A/zh
Application granted granted Critical
Publication of CN101950561B publication Critical patent/CN101950561B/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K1/00Secret communication
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H20/00Arrangements for broadcast or for distribution combined with broadcast
    • H04H20/28Arrangements for simultaneous broadcast of plural pieces of information
    • H04H20/30Arrangements for simultaneous broadcast of plural pieces of information by a single channel
    • H04H20/31Arrangements for simultaneous broadcast of plural pieces of information by a single channel using in-band signals, e.g. subsonic or cue signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H2201/00Aspects of broadcast communication
    • H04H2201/50Aspects of broadcast communication characterised by the use of watermarks

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Image Processing (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

公开了用于嵌入水印的方法和装置。在示例方法中,识别与压缩数字数据流(240)相关联的一个或更多个帧。对该一个或更多个帧中的每个帧进行解包以确定多个变换系数组(320)。修改该多个变换系数组(320)以嵌入水印(230)。

Description

水印嵌入方法和装置
本申请是申请日为2004年6月14日、申请号为200480020200.8、国际申请号为PCT/US2004/018953、发明名称为“水印嵌入方法和装置”的专利申请的分案申请。
技术领域
本发明总体上涉及媒体测量,更具体来说,涉及用于在压缩数字数据流中嵌入水印的方法和装置。
背景技术
在现代电视或无线电广播站中,一般使用压缩数字数据流承载要传输的视频和/或音频数据。例如,美国的用于数字电视(DTV)广播的高级电视制式委员会(ATSC)标准,其采用用于承载视频内容的活动画面专家组(MPEG)标准(如MPEG-1、MPEG-2、MPEG-3、MPEG-4等)和用于承载音频内容的数字音频压缩标准(如AC-3,也被称为Dolby
Figure BSA00000295416900011
)(即,ATSC标准:数字音频压缩(AC-3),修订版A,2001年8月)。AC-3压缩标准基于这样一种感知数字音频编码技术,即,该技术在使感知失真最小化的同时减少了再现原音频信号所需的数据量。具体来说,AC-3压缩标准认识到人耳无法感知比特定谱频率处的掩蔽能量要小的该特定谱频率处的谱能量变化。该掩蔽能量是取决于音频段的音调和类噪声特性的音频段特性。可以使用不同的公知心理声学模型来确定特定谱频率处的掩蔽能量。此外,AC-3压缩标准提供了用于数字电视(DTV)、高清晰度电视(HDTV)、数字多功能盘(DVD)、数字电缆以及卫星传输的多声道数字音频格式(例如,5.1声道格式),该多声道数字音频格式使得可以对特殊声音效果(例如,环绕声)进行广播。
现有电视或无线电广播站采用水印技术把水印嵌入根据诸如AC-3压缩标准和MPEG高级音频编码(AAC)压缩标准等的压缩标准而压缩的视频和/或音频数据流内。典型地,水印是用于唯一地标识广播商和/或节目的数字数据。典型地,在一个或更多个接收点(例如,家庭或其他媒体消费点)处使用解码操作提取水印,由此,可以将该水印用于评估单个家庭和/或家庭组的收看特性,以生成收视率信息。
然而,许多现有水印技术被设计成与模拟广播系统一起使用。具体来说,现有加水印技术将模拟节目数据转换成解压缩的数字数据流,将水印数据插入解压缩数字数据流中,并在传输之前将加水印的数据流转换成模拟格式。随着正在向全数字广播环境(其中通过广播网络把压缩视频和音频流传输到本地联播台)的转变,可能需要将水印数据直接嵌入或插入压缩数字数据流中。现有加水印技术可以将压缩数字数据流解压缩成时域样本,将水印数据插入这些时域样本中,并将这些加水印的时域样本再压缩成加水印的压缩数字数据流。这种解压/压缩可能导致压缩数字数据流中的媒体内容的质量劣化。此外,现有解压/压缩技术需要附加设备并导致在某些情况下可能无法接受的广播音频分量的延迟。此外,本地联播台所采用的用于从它们的父网络接收压缩数字数据流并通过复杂拼接(splicing)设备插入本地内容的方法不允许在对数字数据流进行再压缩之前把压缩数字数据流转换成时域(解压缩)信号。
附图说明
图1是一示例媒体监视系统的框图表示;
图2是一示例水印嵌入系统的框图表示;
图3是与图2的示例水印嵌入系统相关联的示例解压缩数字数据流的框图表示;
图4是可用于实现图2的示例水印嵌入系统的示例嵌入装置的框图表示;
图5示出了与图4的示例嵌入装置相关联的示例压缩数字数据流;
图6示出了可用于实现图2的示例水印嵌入系统的示例量化查找表;
图7示出了可以使用图2的示例水印嵌入系统来压缩然后处理的另一示例解压缩数字数据流;
图8示出了与图7的示例解压缩数字数据流相关联的示例压缩数字数据流;
图9示出了其中可以对图2的示例水印嵌入系统进行配置以嵌入水印的一种方式;
图10示出了其中可以实现图9的修改过程的一种方式;
图11示出了其中可以处理数据帧的一种方式;
图12示出了其中可以将水印嵌入压缩数字数据流中的一种方式;
图13示出了可用于实现图2的示例水印嵌入系统的示例编码频率指数表;以及
图14是可用于实现图2的示例水印嵌入系统的示例处理器系统的框图表示。
具体实施方式
总体上,本文公开了用于将水印嵌入压缩数字数据流中的方法和装置。可以将这里公开的方法和装置用于把水印嵌入压缩数字数据流中而不必预先对压缩数字数据流进行解压缩。因此,这里公开的方法和装置无需对压缩数字数据流进行多次解压/压缩循环,由于多次解压/压缩循环可能显著劣化压缩数字数据流中的媒体内容质量,因此,这一般对于例如电视广播网络的联播台来说是不可接受的。
在进行广播之前,例如,可以将这里公开的方法和装置用于对改进型离散余弦变换(MDCT)系数组(其与根据诸如AC-3压缩标准的数字音频压缩标准而格式化的压缩数字数据流相关联)进行解包(unpack)。可以修改解包出的MDCT系数组的尾数以嵌入水印,该水印不可感知地增大了压缩数字数据流。当接收到压缩数字数据流时,接收装置(如在媒体消费点处的机顶电视计量装置)可以从解压缩的模拟输出(例如,从电视机喇叭发出的输出)提取嵌入的水印信息。可以将提取的水印信息用于识别与在媒体消费点处当前正在消费(如收看、收听等)的媒体相关联的媒体源和/或节目(如广播站)。接着,可以按公知的方式将该源和节目识别信息用于生成收视率信息和/或任何其他信息,这些信息可用于评估与单个家庭和/或家庭组相关联的收看特性。
参照图1,使用受众测量系统计量示例广播系统100,该示例广播系统100包括业务提供商110、电视120、遥控装置125以及接收装置130。可以按任何公知方式连接广播系统100的多个部分。例如,将电视120置于位于住有一个或更多个人的家庭中的收看区150中,将这些人称为家庭成员160,这些人中的一些或所有人已同意参与受众测量调查研究。接收装置130可以是连接到电视120的机顶盒(STB)、磁带录像机、数字录像机、个人录像机、个人计算机、数字视频盘播放器等。收看区150包括电视120所在的区域,位于收看区150中的一个或更多个家庭成员160可以从收看区150收看电视120。
在所例示的示例中,将计量装置140构造成根据从接收装置130传送到电视120的视频/音频输出信号识别收看信息。计量装置140通过网络170把该收看信息以及其他调谐和/或人口统计数据提供给数据收集设备180。可以使用硬件和无线通信链路(例如包括因特网、以太网连接、数字用户线(DSL)、电话线、蜂窝电话系统、同轴电缆等)的任何期望的组合实现网络170。可以将数据收集设备180设计成处理并且/或者存储从计量装置140接收的数据以生成收视率信息。
业务提供商110可以通过任何业务提供商实现,例如有线电视业务提供商112、射频(RF)电视业务提供商114和/或卫星电视业务提供商116。电视120接收由业务提供商110通过多个频道发送的多个电视信号,并且可以使电视120适合于处理和显示按任何格式提供的电视信号,该格式为如国家电视标准委员会(NTSC)电视信号格式、高清晰度电视(HDTV)信号格式、高级电视制式委员会(ATSC)电视信号格式、逐行倒相(PAL)电视信号格式、数字视频广播(DVB)电视信号格式、无线电工商业协会(ARIB)电视信号格式等。
用户操作的遥控装置125使得用户(例如,家庭成员160)可以将电视120调谐到期望的频道并接收在该期望频道上发送的信号,并使得电视120处理并呈现或放出在该期望频道上发送的信号中所包含的节目或媒体内容。电视120执行的处理例如可以包括:提取经由接收信号传递的视频和/或音频分量、使得在与电视120相关联的屏幕/显示器上显示视频分量以及使得由与电视120相关联的喇叭发出音频分量。包含在电视信号中的节目内容例如可以包括电视节目、电影、广告、视频游戏、网页、静态图像和/或由业务提供商110当前提供的或将来要提供的其他节目内容的预演。
尽管图1所示的多个部分被示为广播系统100内的多个独立部分,但是可以把由这些结构中的某些结构执行的功能集成在单个单元内,或者可以使用两个或更多个独立部分来实现这些功能。例如,尽管电视120和接收装置130被示为独立结构,但是可以将电视120和接收装置130集成在单个单元(如集成数字电视机)中。在另一示例中,可以将电视120、接收装置130和/或记录装置140集成在单个单元中。
为了评估单个家庭成员160和/或家庭组的收看特性,水印嵌入系统(如图2的水印嵌入系统200)可以把用于唯一地识别广播商和/或节目的水印编码到来自业务提供商110的广播信号中。可以在业务提供商110处实现水印嵌入系统,使得由业务提供商110发送的多个媒体信号(例如,电视信号)中的每一个都包括一个或更多个水印。根据家庭成员160的选择,接收装置130可以调谐到期望的频道并接收在期望的频道上发送的媒体信号,并使得电视120处理并呈现在期望的频道上发送的信号中所包含的节目内容。计量装置140可以根据从接收装置130传送到电视120的视频/音频输出信号识别水印信息。因此,计量装置140可以通过网络170向数据收集设备180提供该水印信息和其他调谐和/或人口统计数据。
在图2中,示例水印嵌入系统200包括嵌入装置210和水印源220。将嵌入装置210构造成把来自水印源220的水印信息230插入压缩数字数据流240中。可以根据音频压缩标准(如AC-3压缩标准和/或MPEG-AAC压缩标准,可以使用这两者中的任何一个来通过使用来自多个音频信号块中每一块的预定数量个数字化样本来处理音频信号块)对压缩数字数据流240进行压缩。可以按例如48千赫(kHZ)的速率对压缩数字数据流240的源(未示出)进行采样,以形成如下所述的音频块。
典型地,音频压缩技术(诸如基于AC-3压缩标准的音频压缩技术)使用交叠音频块和MDCT算法将音频信号转换成压缩数字数据流(如图2的压缩数字数据流240)。根据样本音频信号的动态特性可以使用两个不同的块大小(即,短块和长块)。例如,可以使用AC-3短块以使音频信号的瞬变段的前回声最小化,而可以使用AC-3长块以实现用于音频信号的非瞬变段的高压缩增益。根据AC-3压缩标准,AC-3长块对应于512时域音频样本块,而AC-3短块对应于256个时域音频样本。根据在AC-3压缩标准中使用的MDCT算法的交叠结构,在AC-3长块的情况下,通过把前一(旧)块的256个时域样本与当前(新)块的256个时域样本连接起来以获得512个时域样本,从而创建512个时域样本的音频块。然后使用MDCT算法对AC-3长块进行变换以生成256个变换系数。根据同一标准,从一对连续的时域样本音频块类似地获得AC-3短块。然后使用MDCT算法对AC-3短块进行变换以生成128个变换系数。然后使与两个相邻短块对应的该128个变换系数交错以生成一组256个变换系数。因此,对AC-3长块或AC-3短块中的任何一个的处理都得到相同数量个MDCT系数。根据作为另一示例的MPEG-AAC压缩标准,短块含有128个样本,长块含有1024个样本。
在图3的示例中,解压缩数字数据流300包括多个256样本时域音频块310,通常如A0、A1、A2、A3、A4以及A5所示。MDCT算法对音频块310进行处理以生成MDCT系数组320,例如如MA0、MA1、MA2、MA3、MA4以及MA5(其中未示出MA5)所示。例如,MDCT算法可以对音频块A0和A1进行处理以生成MDCT系数组MA0。将音频块A0与A1连接起来以生成512样本音频块(如AC-3长块),使用MDCT算法对该512样本音频块进行MDCT变换以生成包括256个MDCT系数的MDCT系数组MA0。类似地,可以对音频块A1和A2进行处理以生成MDCT系数组MA1。因此,音频块A1是交叠音频块,因为它被用于生成MDCT系数组MA0和MA1两者。按类似的方式,使用MDCT算法对音频块A2和A3进行变换以生成MDCT系数组MA2,对音频块A3和A4进行变换以生成MDCT系数组MA3,对音频块A4和A5进行变换以生成MDCT系数组MA4等。因此,音频块A2是用于生成MDCT系数组MA1和MA2的交叠音频块,音频块A3是用于生成MDCT系数组MA2和MA3的交叠音频块,音频块A4是用于生成MDCT系数组MA3和MA4的交叠音频块等。多个MDCT系数组320一起形成了压缩数字数据流240。
如下详细描述的,图2的嵌入装置210可以将来自水印源220的水印信息或水印230嵌入或插入压缩数字数据流240中。例如,水印230可以用于唯一地识别广播商和/或节目,使得可以生成媒体消费信息(如收看信息)和/或收视率信息。因此,嵌入装置210生成了要传输的加水印的压缩数字数据流250。
在图4的示例中,嵌入装置210包括识别单元410、解包单元420、修改单元430以及再打包单元440。尽管以下根据AC-3压缩标准对嵌入装置210的操作进行描述,但是可以将嵌入装置210实现为通过另外或其他压缩标准(如MPEG-AAC压缩标准)来操作。结合图5更详细地描述嵌入装置210的操作。
首先,将识别单元410构造成识别与压缩数字数据流240相关联的一个或更多个帧510,这些帧中的一部分帧例如被示为图5中的帧A和帧B。如前所述,压缩数字数据流240可以是根据AC-3标准压缩的数字数据流(以下称为“AC-3数据流”)。尽管AC-3数据流240可以包括多个声道,但是,为简明起见,以下示例将AC-3数据流240描述成只包括一个声道。在AC-3数据流240中,各帧510包括多个MDCT系数组520。根据AC-3压缩标准,例如,各帧510包括6个MDCT系数组(即,6个“audblk(音频块)”)。例如,帧A包括MDCT系数组MA0、MA1、MA2、MA3、MA4以及MA5,帧B包括MDCT系数组MB0、MB1、MB2、MB3、MB4以及MB5。
还将识别单元410构造成识别与各帧510相关联的报头信息,例如,与AC-3数据流240相关联的声道数。尽管示例AC-3数据流240如上所述只包括一个声道,但是以下结合图7和8对具有多个声道的示例压缩数字数据流进行描述。
参照图5,将解包单元420构造成对MDCT系数组520进行解包以确定压缩信息,例如原压缩过程的参数(即,音频压缩技术压缩音频信号或音频数据以形成压缩数字数据流240的方式)。例如,解包单元420可以确定使用了多少位来表示MDCT系数组520内的各MDCT系数。此外,压缩参数可以包括用于限制AC-3数据流240可被修改的程度的信息,以确保通过AC-3数据流240传送的媒体内容具有足够高的质量级。嵌入装置210随后使用解包单元420所识别的压缩信息将期望的水印信息230嵌入/插入到AC-3数据流240中,从而确保按与信号中提供的压缩信息相一致的方式执行水印插入。
如在AC-3压缩标准中详细描述的那样,压缩信息还包括与各MDCT系数相关联的尾数和幂。AC-3压缩标准采用技术来减少用于表示各MDCT系数的位数。心理声学掩蔽是可被这些技术利用的一个因子。例如,在特定频率k(如音调)处或跨越靠近该特定频率k的频带(如类噪声特性)存在的声能Ek产生了掩蔽效应。即,如果在频率k处或跨越靠近该频率k的频带的频谱区中的能量变化小于给定能量阈值ΔEk,那么人耳无法感知该能量变化。由于人耳的该特性,可以利用与ΔEk有关的步长对与频率k相关联的MDCT系数mk进行量化,而不存在给音频内容带来任何人类可感知变化的风险。对于AC-3数据流240,将各MDCT系数mk表示成尾数Mk和幂Xk,使得mk=Mk·2-X k。根据在AC-3压缩标准中公布的已知量化查找表(如图6的量化查找表600)可以确定用于表示MDCT系数组520的各MDCT系数的尾数Mk的位数。在图6的示例中,量化查找表600给出了MDCT系数的由四位数表示的尾数码或位模式和对应的尾数值。如下详细描述的,可以改变(如增大)尾数Mk以表示MDCT系数的修改值,以将水印嵌入AC-3数据流240中。
回到图5,将修改单元430构造成对各MDCT系数组520执行逆变换以生成时域音频块530,例如如TA0’、TA3”、TA4’、TA4”、TA5’、TA5”、TB0’、TB0”、TB1’、TB1”以及TB5’所示(未示出TA0”到TA3’和TB2’到TB4”)。修改单元430执行逆变换操作以生成与多个256样本时域音频块(将这些256样本时域音频块连接起来以形成AC-3数据流240的MDCT系数组520)相关联的前一(旧)时域音频块(被表示为主块(prime block))组和当前(新)时域音频块(被表示为双主块(double-prime block))组。例如,修改单元430对MDCT系数组MA5执行逆变换以生成时域块TA4”和TA5’,对MDCT系数组MB0执行逆变换以生成TA5”和TB0’,对MDCT系数组MB1执行逆变换以生成TB0”和TB1’等。按此方式,修改单元430生成经重构的时域音频块540,该经重构的时域音频块540提供了对被压缩的原时域音频块的重构,以形成AC-3数据流240。为了生成经重构的时域音频块540,修改单元430可以例如根据如以下文献所描述的公知的Princen-Bradley时域混叠抵消(TDAC)技术添加时域音频块:Princen等人,Analysis/Synthesis FilterBank Design Based on Time Domain Aliasing Cancellation,Institute ofElectrical and Electronics Engineers(IEEE)Transactions on Acoustics,Speech and Signal Processing,Vol.ASSP-35,No.5,pp.1153-1161(1996)。例如,通过使用Princen-Bradley TDAC技术添加主时域音频块TA5’和双主时域音频块TA5”,修改单元430可以重构时域音频块TA5(即,TA5R)。类似地,通过使用Princen-Bradley TDAC技术添加主音频块TB0’和双主音频块TB0”,修改单元430可以重构时域音频块TB0(即,TB0R)。按此方式,重构用于形成AC-3数据流240的原时域音频块以使得可以将水印230直接嵌入或插入AC-3数据流240中。
还将修改单元430构造成将水印230插入经重构的时域音频块540中以生成加水印的时域音频块550,例如如TA0W、TA4W、TA5W、TB0W、TB1W以及TB5W所示(未示出块TA1W、TA2W、TA3W、TB2W、TB3W以及TB4W))。为了插入水印230,修改单元430通过把两个相邻的经重构的时域音频块连接起来生成可修改时域音频块,以创建512样本音频块。例如,修改单元430可以把经重构的时域音频块TA5R与TB0R(各为256样本音频块)连接起来以形成512样本音频块。然后修改单元430可以把水印230插入由经重构的时域音频块TA5R和TB0R形成的512样本音频块中,以生成加水印的时域音频块TA5W和TB0W。可以使用诸如在美国专利No.6,272,176、No.6,504,870以及No.6,621,881中描述的编码过程将水印230插入经重构的时域音频块540中。因此通过引用将美国专利No.6,272,176、No.6,504,870以及6,621,881的全部公开并入于此。
在美国专利No.6,272,176、No.6,504,870以及No.6,621,881中所描述的示例编码方法和设备中,可以将水印插入512样本音频块中。例如,各512样本音频块承载水印230的一位嵌入或插入数据。具体来说,可以修改或增大指数为f1和f2的谱频率分量以插入与水印230相关联的数据位。例如,为了插入二进制“1”,可以增强或增大与指数f1相关联的第一谱频率处的功率以使其成为在频率邻域内的谱功率最大值(如由指数f1-2、f1-1、f1、f1+1、f1+2定义的频率邻域)。此时,衰减或增大与指数f2相关联的第二谱频率处的功率以使其成为在频率邻域内的谱功率最小值(如由指数f2-2、f2-1、f2、f2+1、f2+2定义的频率邻域)。相反,为了插入二进制“0”,衰减与指数f1相关联的第一谱频率处的功率以使其成为局部谱功率最小值,而增强与指数f2相关联的第二谱频率处的功率以使其成为局部谱功率最大值。
回到图5,根据加水印的时域音频块550,修改单元430生成加水印的MDCT系数组560,例如如MA0W、MA4W、MA5W、MB0W以及MB5W所示(未示出块MA1W、MA2W、MA3W、MB1W、MB2W、MB3W以及MB4W)。按照上述示例,修改单元430根据加水印的时域音频块TA5W和TB0W生成加水印的MDCT系数组MA5W。具体来说,修改单元430将加水印的时域音频块TA5W与TB0W连接起来以形成512样本音频块,并将该512样本音频块转换成加水印的MDCT系数组MA5W,如以下更加详细描述的,该加水印的MDCT系数组MA5W可以用于修改原MDCT系数组MA5。
MDCT系数组520与加水印的MDCT系数组560之间的差别表示由于嵌入或插入水印230而产生的AC-3数据流240的变化。如结合图6所描述的那样,例如,修改单元430可以根据对应的加水印的MDCT系数组MA5W中的系数与原MDCT系数组MA5中的系数之间的差别,修改MDCT系数组MA5中的尾数值。量化查找表(如图6的查找表600)可以用于确定与加水印的MDCT系数组560的MDCT系数相关联的新尾数值,以替代与MDCT系数组520的MDCT系数相关联的旧尾数值。由此,新尾数值表示由于嵌入或插入水印230而产生的AC-3数据流240的变化或增大。需要特别指出的是,在本示例实现中,MDCT系数的幂未改变。改变该幂可能需要重新计算基本的压缩信号表示,从而要求对该压缩信号进行真正的解压/压缩循环。如果只对尾数进行修改不足以完全反映加水印的MDCT系数与原MDCT系数之间的差,那么合适的话将受到影响的MDCT尾数设置为最大或最小值。在存在这种编码限制的情况下,加水印过程中所包含的冗余使得可以对正确的水印进行解码。
返回到图6,示例量化查找表600包括在-0.9333到+0.9333范围内的示例尾数Mk的15级量化的尾数码和尾数值。尽管示例量化查找表600给出了与MDCT系数相关联的使用4位表示的尾数信息,但是AC-3压缩标准提供了与每个MDCT系数的其他适当位数相关联的量化查找表。为了例示其中修改单元430可以修改包含在MDCT系数组MA5中的尾数为Mk的特定MDCT系数mk的一种方式,假设原尾数值为-0.2666(即,-4/15)。使用量化查找表600,将与MDCT系数组MA5中的特定MDCT系数mk对应的尾数码确定为0101。加水印的MDCT系数组MA5W包括尾数值为WMk的加水印的MDCT系数wmk。此外,假设加水印的MDCT系数组MA5W中的对应加水印的MDCT系数wmk的新尾数值是-0.4300,该值在尾数码0011与0100之间。换句话说,在本示例中,水印230导致在原尾数值-0.2666与加水印的尾数值-0.4300之间产生了-0.1667的差。
为了将水印230嵌入或插入AC-3数据流240中,修改单元430可以使用加水印的MDCT系数组MA5W来修改或增大MDCT系数组MA5中的MDCT系数。接着上述示例,由于与对应的加水印的MDCT系数wmk相关联的加水印的尾数WMk在尾数码0011与0100之间(因为对应于加水印的MDCT系数wmk的尾数值是-0.4300),因此尾数码0011或尾数码0100均可以代替与MDCT系数mk相关联的尾数码0101。对应于尾数码0011的尾数值是-0.5333(即,-8/15),对应于尾数码0100的尾数值是-0.4(即,-6/15)。在本示例中,由于对应于尾数码0100的尾数值-0.4最接近于期望的加水印的尾数值-0.4300,因此修改单元430选择尾数码0100而非尾数码0011来代替与MDCT系数mk相关联的尾数码0101。结果,与加水印的MDCT系数wmk的加水印的尾数WMk对应的新尾数位模式0100代替原尾数位模式0101。类似地,按上述方式可以修改MDCT系数组MA5中的各MDCT系数。如果加水印的尾数值在尾数值量化范围以外(即,大于0.9333或小于-0.9333),那么合适的话选择正极限值1110或负极限值0000作为新尾数码。此外,如上所述,尽管可以如上所述地修改与MDCT系数组的各MDCT系数相关联的尾数码,但是与MDCT系数相关联的幂保持不变。
将再打包单元440构造成对与要传输的AC-3数据流240的各帧相关联的加水印的MDCT系数组560进行再打包。具体来说,再打包单元440识别出AC-3数据流240的帧内的各MDCT系数组的位置,使得可以把对应的加水印的MDCT系数组用于修改MDCT系数组。例如,为了重建加水印的帧A,再打包单元440可以识别出MDCT系数组MA0到MA5的位置,并根据在对应识别位置处的对应加水印的MDCT系数组MA0W到MA5W修改MDCT系数组MA0到MA5。利用这里所描述的解包、修改以及再打包过程,AC-3数据流240仍然是压缩数字数据流,同时把水印230嵌入或插入了AC-3数据流240中。结果,在不进行可能劣化AC-3数据流240中的媒体内容质量的附加解压/压缩循环的情况下,嵌入装置210将水印230插入了AC-3数据流240中。
为简单起见,结合图5描述了包括单个声道的AC-3数据流240。然而,如下所述,可以将这里所公开的方法和装置应用于具有与多个声道(如5.1声道(即,5个全带宽声道))相关联的音频块的压缩数字数据流。在图7的示例中,解压缩的数字数据流700可以包括多个音频块组710。各音频块组710可以包括与多个声道720和730相关联的音频块,这些声道720和730例如包括前左声道、前右声道、中央声道、环绕左声道、环绕右声道以及低频效果(LFE)声道(例如,重低音声道)。例如,音频块组AUD0包括与前左声道相关联的音频块A0L、与前右声道相关联的音频块A0R、与中央声道相关联的音频块A0C、与环绕左声道相关联的音频块A0SL、与环绕右声道相关联的音频块A0SR以及与LFE声道相关联的音频块A0LFE。类似地,音频块组AUD1包括与前左声道相关联的音频块A1L、与前右声道相关联的音频块A1R、与中央声道相关联的音频块A1C、与环绕左声道相关联的音频块A1SL、与环绕右声道相关联的音频块A1SR以及与LFE声道相关联的音频块A1LFE。
可以按与以上结合图5和6描述的方式类似的方式对与音频块组710中的特定声道相关联的各音频块进行处理。例如,可以对与图8的中央声道810相关联的多个音频块(例如如A0C、A1C、A2C以及A3C所示)进行变换以生成与压缩数字数据流800相关联的MDCT系数组820。如上所指出的,可以根据把前一(旧)256样本音频块与当前(新)256样本音频块连接起来而形成的512样本音频块导出各MDCT系数组820。然后MDCT算法可以对时域音频块810(如A0C到A5C)进行处理以生成MDCT系数组(如M0C到M5C)。
根据压缩数字数据流800的MDCT系数组820,识别单元410如上所述识别出多个帧(未示出)以及与各帧相关联的报头信息。该报头信息包括与压缩数字数据流800相关联的压缩信息。对于各帧,解包单元420对MDCT系数组820进行解包以确定与MDCT系数组820相关联的压缩信息。例如,解包单元420可以识别出由原压缩过程用来表示各MDCT系数组820中的各MDCT系数的尾数的位数。如以上结合图6所描述的那样,可以将这种压缩信息用于嵌入水印230。然后修改单元430生成经逆变换的时域音频块830,例如如TA0C”、TA1C’、TA1C”、TA2C’、TA2C”以及TA3C’所示。时域音频块830包括前一(旧)时域音频块(被表示为主块)组和当前(新)时域音频块(被表示为双主块)组。通过例如根据Princen-Bradley TDAC技术添加对应的主块和双主块,可以重构被压缩以形成AC-3数字数据流800的原时域音频块(即,经重构的时域音频块840)。例如,修改单元430可以添加时域音频块TA1C’和TA1C”以重构时域音频块TA1C(即,TA1CR)。类似地,修改单元430可以添加时域音频块TA2C’和TA2C”以重构时域音频块TA2C(即,TA2CR)。
为了插入来自水印源220的水印230,修改单元430将两个相邻的经重构的时域音频块连接起来以创建512样本音频块(即,可修改时域音频块)。例如,修改单元430可以将经重构的时域音频块TA1CR与TA2CR(均为256样本短块)连接起来以形成512样本音频块。然后修改单元430将水印230插入由经重构的时域音频块TA1CR和TA2CR形成的512样本音频块以生成加水印的时域音频块TA1CW和TA2CW。
根据加水印的时域音频块850,修改单元430可以生成加水印的MDCT系数组860。例如,修改单元430可以将加水印的时域音频块TA1CW与TA2CW连接起来以生成加水印的MDCT系数组M1CW。修改单元430根据多个加水印的MDCT系数组860中的对应一个修改MDCT系数组820。例如,修改单元430可以使用加水印的MDCT系数组M1CW来修改原MDCT系数组M1C。然后修改单元430可以针对与各声道相关联的音频块重复上述过程以将水印230插入压缩数字数据流800中。
图9是示出其中可以将图2的示例水印嵌入系统构造成把水印嵌入或插入压缩数字数据流中的一种方式的流程图。利用存储在机器可访问介质(如易失性或非易失性存储器)或其他大容量存储装置(例如,软盘、CD以及DVD)的任何组合上的许多不同编程代码中的任何编程代码,可以将图9的示例过程实现为机器可访问指令。例如,可以在以下机器可访问介质中实现该机器可访问指令:可编程门阵列、专用集成电路(ASIC)、可擦除可编程只读存储器(EPROM)、只读存储器(ROM)、随机存取存储器(RAM)、磁介质、光介质和/或任何其他合适类型的介质。此外,尽管图9例示了特定次序的动作,但是也可以按其他时间顺序执行这些动作。而且,所给出并结合图2到5描述的流程图900仅仅是作为用于将系统构造成把水印嵌入压缩数字数据流中的一种方式的示例。
在图9的示例中,该过程开始于识别单元410(图4)识别与压缩数字数据流240(图2)相关联的帧(如帧A(图5))(块910)。所识别的帧可以包括通过交叠和连接多个音频块而形成的多个MDCT系数组。例如,根据AC-3压缩标准,一帧可以包括6个MDCT系数组(即,6个“audblk”)。此外,识别单元410(图4)还识别与该帧相关联的报头信息(块920)。例如,识别单元410可以识别与压缩数字数据流240相关联的声道数。
然后解包单元420对该多个MDCT系数组进行解包以确定与用于生成压缩数字数据流240的原压缩过程相关联的压缩信息(块930)。具体来说,解包单元420识别各MDCT系数组的各MDCT系数mk的尾数Mk和幂Xk。然后可以按与AC-3压缩标准相适应的方式对MDCT系数的幂进行分组。解包单元420(图4)还确定用于表示各MDCT系数的尾数的位数,使得可以如以上结合图6所描述的那样可以使用由AC-3压缩标准指定的合适的量化查找表来修改或增大所述多个MDCT系数组。然后控制进行到块940,以下结合图10对该块940进行更详细的描述。
如图10所示,修改过程940这样开始:利用修改单元430(图4)对MDCT系数组执行逆变换以生成经逆变换的时域音频块(块1010)。具体来说,修改单元430生成与用于生成对应的MDCT系数组的各256样本原时域音频块相关联的前一(旧)时域音频块(例如,被表示为图5中的主块)和当前(新)时域音频块(被表示为图5中的双主块)。如结合图5所描述的那样,例如,修改单元430可以根据MDCT系数组MA5生成TA4”和TA5’,根据MDCT系数组MB0生成TA5”和TB0’,根据MDCT系数组MB1生成TB0”和TB1’。对于各时域音频块,修改单元430例如根据Princen-Bradley TDAC技术添加对应的主块和双主块以重构时域音频块(块1020)。根据上述示例,可以添加主块TA5’和双主块TA5”以重构时域音频块TA5(即,经重构的时域音频块TA5R),而可以添加主块TB0’和双主块TB0”以重构时域音频块TB0(即,经重构的时域音频块TB0R)。
为了插入水印230,修改单元430使用经重构的时域音频块生成可修改时域音频块(块1030)。修改单元430使用两个相邻的经重构的时域音频块生成可修改的512样本时域音频块。例如,修改单元430可以通过将图5的经重构的时域音频块TA5R与TB0R连接起来生成可修改时域音频块。
通过实现编码过程,例如在美国专利No.6,272,176、No.6,504,870和/或6,621,881中所描述的一个或更多个编码方法和装置,修改单元430将来自水印源220的水印230插入可修改时域音频块中(块1040)。例如,修改单元430可以将水印230插入通过使用经重构的时域音频块TA5R和TB0R而生成的512样本时域音频块中,以生成加水印的时域音频块TA5W和TB0W。根据这些加水印的时域音频块和压缩信息,修改单元430生成加水印的MDCT系数组(块1050)。如上所指出的,两个加水印的时域音频块(其中各块均包括256个样本)可以用于生成加水印的MDCT系数组。例如,可以把加水印的时域音频块TA5W与TB0W连接起来然后把它们用于生成加水印的MDCT系数组MA5W。
如以上结合图6描述的那样,根据与压缩数字数据流240相关联的压缩信息,修改单元430计算与加水印的MDCT系数组MA5W中的各加水印的MDCT系数相关联的尾数值。按此方式,修改单元430可以使用加水印的MDCT系数组修改或增大原MDCT系数组以将水印230嵌入或插入压缩数字数据流240中(块1060)。按照以上示例,修改单元430可以根据图5的加水印的MDCT系数组MA5W代替原MDCT系数组MA5。例如,修改单元430可以将MDCT系数组MA5中的原MDCT系数置换为来自加水印的MDCT系数组MA5W中的对应加水印的MDCT系数(其具有增大的尾数值)。另选地,修改单元430可以计算在与原MDCT系数和对应加水印的MDCT系数相关联的尾数码之间的差(即,ΔMk=Mk-WMk)并根据该差ΔMk修改原MDCT系数。在任一情况下,在修改了原MDCT系数组之后,修改过程940结束并且控制返回到块950。
回到图9,再打包单元440对压缩数字数据流的帧进行再打包(块950)。再打包单元440识别MDCT系数组在帧内的位置,使得可以在原MDCT系数组的位置处替换为经修改的MDCT系数组以重建该帧。在块960处,如果嵌入装置210确定需要处理压缩数字数据流240的其他帧,那么控制返回到块910。而如果已处理完压缩数字数据流240的所有帧,那么过程900结束。
如上所指出的,典型地,公知的加水印技术将压缩数字数据流解压缩成解压缩的时域样本,将水印插入该时域样本,并将加水印的时域样本再压缩成加水印的压缩数字数据流。与之对照的是,在这里所描述的示例解包、修改以及再打包过程中,数字数据流240保持压缩状态。结果,在不进行可能劣化压缩数字数据流500中的内容质量的附加解压/压缩循环的情况下,将水印230嵌入了压缩数字数据流240中。
为了进一步说明图9和10的示例修改过程,图11示出了其中可以处理数据帧(如AC-3帧)的一种方式。示例帧处理过程1100这样开始:嵌入装置210读取所获得的帧(如AC-3帧)的报头信息(块1110)并将MDCT系数组计数初始化成0(块1120)。在处理的是AC-3帧的情况下,每个AC-3帧都包括具有压缩域数据的6个MDCT系数组(如图5的MA0、MA1、MA2、MA3、MA4以及MA5,在AC-3标准中也被称为“audblk”)。因此,嵌入装置210确定MDCT系数组计数是否等于6(块1130)。如果MDCT系数组计数尚不等于6,则表示至少还有一个MDCT系数组需要处理,嵌入装置210提取与该帧的MDCT系数相关联的幂(块1140)和尾数(块1150)(如以上结合图6所描述的原尾数Mk)。嵌入装置210计算出与在块1220处读取的码符号相关联的新尾数(如以上结合图6所描述的新尾数WMk)(块1160),并根据该新尾数修改与该帧相关联的原尾数(块1170)。例如,可以根据该新尾数与原尾数之差(但是限制在与原尾数的位表示相关联的范围之内)修改原尾数。嵌入装置210使MDCT系数组计数加1(块1180)并且控制返回到块1130。尽管将以上图11的示例过程描述成包括6个MDCT系数组(如MDCT系数组计数的阈值为6),但是也可以使用利用了更多或更少个MDCT系数组的过程。在块1130处,如果MDCT系数组计数等于6,那么已处理完所有MDCT系数组,从而已嵌入了水印并且嵌入装置210对帧进行了再打包(块1190)。
如上所指出的,已知很多用于将人耳不可感知的水印(如不可听码)嵌入解压缩音频信号中的方法。例如,在Jensen等人的美国专利No.6,421,445中描述的一种公知方法,通过引用将其全部公开内容并入于此。具体来说,如Jensen等人所述,码信号(如水印)可以包括按10个不同频率组合的信息,这些频率可以由解码器使用音频样本序列(例如,如下详细描述的12,288个音频样本序列)的傅立叶谱分析而检测到。例如,可以按48千赫(kHz)的速率对音频信号进行采样以输出可被处理(如使用傅立叶变换)的12,288个音频样本的音频序列,以获得对经解压缩的音频信号的相对高分辨率(如3.9Hz)的频域表示。然而,根据Jensen等人公开的方法的编码过程,在整个音频样本序列上具有常数幅值的正弦码信号是不可接受的,因为人耳可以感知到正弦码信号。为了满足掩蔽能量限制(即,为了确保正弦码信号信息保持不可被感知),使用掩蔽能量分析在整个12,288个音频样本的序列上对正弦码信号进行合成,该掩蔽能量分析用于确定各音频样本块内的局部正弦幅值(例如,其中每个音频样本块都可以包括512个音频样本)。由此,根据该掩蔽能量分析,局部正弦波形在12,288个音频样本序列上可以是(相位)相干,但是具有变化的幅值。
然而,与Jensen等人公开的方法相比,可以将这里所描述的方法和装置用于按这样的方式把水印或其他码信号嵌入压缩音频信号中,即,使得在解包、修改以及再打包过程中包含有压缩音频信号的压缩数字数据流保持压缩状态。图12示出了其中可以将水印(如Jensen等人公开的水印)插入压缩音频信号的一种方式。该示例过程1200开始于将帧计数初始化为0(块1210)。可以对表示各音频声道的总共12,288个音频样本的8个帧(如AC-3帧)进行处理,以将一个或更多个码符号(例如,图13所示并且由Jensen等人描述的一个或更多个符号“0”、“1”、“S”以及“E”)嵌入音频信号中。尽管这里所描述的压缩数字数据流包括12,288个音频样本,但是该压缩数字数据流可以具有更多或更少个音频样本。嵌入装置210(图2)可以从水印源220读取水印230以将一个或更多个码符号插入帧序列中(块1220)。嵌入装置210可以获得这些帧中的一个帧(块1230)并进行到上述帧处理操作1100以对获得的帧进行处理。因此,示例帧处理操作1100结束,并且控制回到块1250以使帧计数加1。嵌入装置210确定该帧计数是否为8(块1260)。如果帧计数不是8,则嵌入装置210返回去获得该序列中的另一帧并重复如以上结合图11所描述的示例帧处理操作1100来处理另一帧。而如果帧计数为8,则嵌入装置210返回到块1210以将帧计数重新初始化为0并重复过程1200以处理另一帧序列。
如以上指出的,可以将码信号(如水印230)嵌入或插入压缩数字数据流(如AC-3数据流)。如图13的示例表1300所示和由Jensen等人描述的那样,码信号可以包括与频率指数f1到f10对应的10个正弦分量的组合以表示4个码符号“0”、“1”、“S”以及“E”中的一个。例如,码符号“0”可以表示二进制值0,码符号“1”可以表示二进制值1。此外,码符号“S”可以表示消息的开始,码符号“E”可以表示消息的结束。尽管图13只示出了4个码符号,但是也可以使用更多或更少个码符号。此外,表1300列出了与各符号的10个正弦分量大致所在的中心频率对应的变换位(transform bins)。例如,512样本中心频率指数(如10、12、14、16、18、20、22、24、26以及28)与压缩数字数据流的低分辨率频域表示相关联,12,288样本中心频率指数(如240、288、336、384、432、480、528、576、624以及672)与压缩数字数据流的高分辨率频域表示相关联。
如以上所指出的,可以使用与表1300所示的频率指数f1到f10相关联的10个正弦分量形成各码符号。例如,用于插入或嵌入码符号“0”的码信号包括分别与频率指数237、289、339、383、429、481、531、575、621以及673对应的10个正弦分量。类似地,用于插入或嵌入码符号“1”的码信号包括分别与频率指数239、291、337、381、431、483、529、573、623以及675对应的10个正弦分量。如示例表1300所示,频率指数f1到f10中的每一个都具有位于或靠近12,288样本中心频率指数中每一个的唯一频率值。
使用这里描述的方法和装置可以在时域中对与频率指数f1到f10相关联的10个正弦分量中的每一个进行合成。例如,用于插入或嵌入码符号“0”的码信号可以包括正弦曲线c1(k)、c2(k)、c3(k)、c4(k)、c5(k)、c6(k)、c7(k)、c8(k)、c9(k)以及c10(k)。可以在时域中将第一正弦曲线c1(k)合成为如下样本序列:
Figure BSA00000295416900191
对于k=0到12287。但是,按此方式生成的正弦曲线c1(k)在整个12,288样本窗口上将具有常数幅值。相反地,为了生成其幅值可以随音频块变化的正弦曲线,可以如下计算与第一正弦曲线c1(k)相关联的512样本音频块(如长AC-3块)中的样本值:
Figure BSA00000295416900201
对于m=0到511和p=0到46,其中w(m)是在上述AC-3压缩中使用的窗口函数。本领域的技术人员将理解,可以直接使用前一公式来计算c1p(m),或者可以预先计算c1(k)并提取合适的段以生成c1p(m)。在任一情况下,c1p(m)的MDCT变换都包括一组MDCT系数值(如256个实数)。接着前一示例,对于对应于符号“0”的c1p(m),与512样本频率指数9、10以及11相关联的MDCT系数值可以具有很大的量级,这是因为c1p(m)与12,288样本中心频率指数240(其对应于512样本中心频率指数10)相关联。对于c1p(m)的情况,相对于与512样本频率指数9、10以及11相关联的MDCT系数值来说,将忽略与其他512样本频率指数相关联的MDCT系数值。通常,把与c1p(m)(以及其他正弦分量c2p(m),...,c10p(m))相关联的MDCT系数值除以如下归一化因子Q:
Figure BSA00000295416900202
其中512是与各块相关联的样本数。该归一化使得12,288样本中心频率指数240处的单位幅值的时域余弦波可以生成512样本中心频率指数10处的单位幅值MDCT系数。
接着前一示例,对于与码符号“0”相关联的c1p(m),码频率指数237(如,与关联于码符号“0”的频率指数f1对应的频率值)使得512样本中心频率指数10具有相对于512样本频率指数9和11的最高MDCT量级,这是因为512样本中心频率指数10对应于12,288样本中心频率指数240并且码频率指数237接近于12,288样本中心频率指数240。类似地,与码频率指数289对应的第二频率指数f2可以在512样本频率指数11、12以及13中生成具有很大MDCT量级的MDCT系数。码频率指数289可以使得512样本中心频率指数12具有最高MDCT量级,这是因为512样本中心频率指数12对应于12,288样本中心频率指数288并且码频率指数289接近于12,288样本中心频率指数288。类似地,与码频率指数339对应的第三频率指数f3可以在512样本频率指数13、14以及15中生成具有很大MDCT量级的MDCT系数。码频率指数339可以使得512样本中心频率指数14具有最高MDCT量级,这是因为512样本中心频率指数14对应于12,288样本中心频率指数336并且码频率指数339接近于12,288样本中心频率指数336。根据在10个频率指数f1到f10中的每一个处的正弦分量,表示实际加水印的码信号的MDCT系数将对应于从9到29的范围内的512样本频率指数。某些512样本频率指数(如9、11、13、15、17、19、21、23、25、27以及29)可能受到来自两个相邻码频率指数的能量溢出的影响,其中溢出量是根据掩蔽能量分析而应用于各正弦分量的权重的函数。因此,在压缩数字数据流的各512样本音频块中,可以如下所述地计算MDCT系数以表示码信号。
在压缩AC-3数据流中,例如,各AC-3帧包括具有6个MDCT系数(例如,图5的MA0、MA1、MA2、MA3、MA4以及MA5)的MDCT系数组,其中每个MDCT系数都对应于512样本音频块。如以上结合图5和6描述的,将每个MDCT系数表示成其中Xk是幂,Mk是尾数。尾数Mk是尾数步长sk与整数值Nk之积。可以将尾数步长sk和幂Xk用于形成量化步长
Figure BSA00000295416900212
参照图6的查找表600,例如,当原尾数值为-0.2666(即,-4/15)时,尾数步长sk是2/15,整数值Nk是-2。
为了将码信号插入压缩AC-3数据流中,确定对k=9到29的尾数组Mk进行了修改。例如,考虑k=9到29的尾数组Mk的子集,其中与加水印的MDCT系数wm9、wm10以及wm11对应的MDCT系数量级C9、C10以及C11分别是-0.3、0.8以及0.2(具有基于局部掩蔽能量的变化幅值)。此外,假设与512样本中心频率指数11相关联的码MDCT量级C11是具有整个尾数组(Ck,k=9到29)的最低绝对量级(如绝对值0.2)的MDCT系数。由于码MDCT量级C11具有最低绝对量级,因此将码MDCT量级C11的值用于对MDCT系数m9、m10以及m11(以及组m9到m29中的其他MDCT系数)的值进行归一化和修改。首先,将C11归一化为1.0然后将其用于进行归一化,例如,将C9和C10归一化为C9=-0.3/C11=-1.5以及C10=0.8/C11=4.0。然后,使与原MDCT系数m11对应的尾数整数值N11增大1,因为1是最小量(由于尾数步长量化),利用该最小值可以修改m11以反映与C11对应的水印码的添加。最后,如下相对于N11修改与原MDCT系数m9和m10对应的尾数整数值N9和N10因此,可以把经修改的尾数整数值N9、N10以及N11(以及把经类似修改的尾数整数N12到N29)用于修改对应的原MDCT系数以嵌入水印码。而且,如上所述,对于任何MDCT系数,最大改变受其尾数整数值Nk的上限和下限的限制。例如,参照图6,表600示出了下限值-0.9333到上限值+0.9333。
由此,前述示例例示了如何可以将局部掩蔽能量用于确定待嵌入压缩音频信号数字数据流中的码符号的码量级。此外,在这里所描述的方法和装置的编码过程中,在不对MDCT系数执行解压缩的情况下修改了压缩数字数据流的8个连续帧。
图14是可用于实现这里所公开的方法和装置的示例处理器系统2000的框图。处理器系统2000可以是台式计算机、膝上型计算机、笔记本计算机、个人数字助理(PDA)、服务器、因特网设备或任何其他类型的计算设备。
图14所示的处理器系统2000包括芯片组2010,该芯片组2010包括存储控制器2012和输入/输出(I/O)控制器2014。如所公知的,芯片组一般提供存储器和I/O管理功能,以及可由处理器2020访问或使用的多个通用和/或专用寄存器、计时器等。使用一个或更多个处理器来实现处理器2020。另选地,可以将其他处理技术用于实现处理器2020。处理器2020包括高速缓存2022,其可以使用第一级统一高速缓存(L1)、第二级统一高速缓存(L2)、第三级统一高速缓存(L3)和/或任何其他合适的结构来实现,以存储数据。
常规上,存储控制器2012用于执行使得处理器2020可以通过总线2040访问包括易失性存储器2032和非易失性存储器2034的主存储器2030并与其通信的功能。可以通过同步动态随机存取存储器(SDRAM)、动态随机存取存储器(DRAM)、RAMBUS动态随机存取存储器(RDRAM)和/或任何其他类型的随机存取存储装置实现易失性存储器2032。可以使用闪存、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)和/或任何其他期望类型的存储装置实现非易失性存储器2034。
处理器系统2000还包括连接到总线2040的接口电路2050。可以使用任何类型的公知接口标准(如以太网接口、通用串行总线(USB)、第三代输入/输出接口(3GIO)接口和/或任何其他合适类型的接口)实现接口电路2050。
将一个或更多个输入装置2060连接到接口电路2050。输入装置2060允许用户把数据和命令输入到处理器2020中。例如,可以通过键盘、鼠标、触敏显示器、跟踪板、跟踪球、等点(isopoint)和/或语音识别系统实现输入装置2060。
还将一个或更多个输出装置2070连接到接口电路2050。例如,可以通过媒体呈现装置(如发光显示器(LED)、液晶显示器(LCD)、阴极射线管(CRT)显示器、打印机和/或扬声器)实现输出装置2070。因此,除其他装置以外,典型地,接口电路2050包括图形驱动卡。
处理器系统2000还包括用于存储软件和数据的一个或更多个大容量存储装置2080。这种大容量存储装置2080的示例包括软盘及其驱动器、硬盘驱动器、光盘及其驱动器以及数字多功能盘(DVD)及其驱动器。
接口电路2050还包括通信装置(如调制解调器或网络接口卡)以便于通过网络与外部计算机交换数据。处理器系统2000与网络之间的通信链路可以是任何类型的网络连接,如以太网连接、数字用户线(DSL)、电话线、蜂窝电话系统、同轴电缆等。
在常规方式中,一般通过I/O控制器2014控制对输入装置2060、输出装置2070、大容量存储装置2080和/或网络的访问。具体来说,I/O控制器2014执行使得处理器2020可以通过总线2040和接口电路2050与输入装置2060、输出装置2070、大容量存储装置2080和/或网络通信的功能。
尽管将图14所示的多个部分被示为处理器系统2000内的独立块,但是可以把由这些块中的某些块执行的功能集成在单个半导体电路内或者可以使用两个或更多个独立集成电路来实现这些功能。例如,尽管将存储控制器2012和I/O控制器2014示为芯片组2010内的独立块,但是可以将存储控制器2012和I/O控制器2014集成在单个半导体电路内。
这里所公开的方法和装置特别适合于与根据AC-3标准实现的数据流一起使用。但是,可以将这里所公开的方法和装置应用于其他数字音频编码技术。
此外,尽管针对示例电视系统给出了本公开,但是应当明白,很容易将所公开的系统应用于许多其他媒体系统。因此,尽管本公开描述了示例系统和过程,但是所公开的示例并非这些系统的唯一实现方式。
尽管这里描述了某些示例方法、装置以及制造品,但是本专利的覆盖范围并不限于此。相反,本专利覆盖完全落在所附权利要求的范围(在文字上或者在等价物原理方面)之内的所有方法、装置以及制造品。例如,尽管本公开描述了包括在硬件上执行的软件以及其他部分的示例系统,但是应当注意,这些系统仅仅是示例性的而不应被视为限制性的。具体来说,认为可以将任何或所有公开的硬件和软件组件只实现为专用硬件、只实现为固件、只实现为软件或者实现为硬件、固件和/或软件的某一组合。

Claims (13)

1.一种用于在压缩媒体数据流中嵌入媒体识别信息的方法,该方法包括以下步骤:
根据所述压缩媒体数据流来重构非压缩媒体数据流,所述非压缩媒体数据流与所述压缩媒体数据流是分离的;
将所述媒体识别信息嵌入所述非压缩媒体数据流中,以确定加水印的非压缩媒体数据流;以及
修改与关联于所述压缩媒体数据流的第一变换系数相对应的第一尾数值,以将所述媒体识别信息嵌入所述压缩媒体数据流中而无需解压缩所述压缩媒体数据流,所述第一尾数值的修改是基于所述第一变换系数与对应的第二变换系数之差来进行的,所述第二变换系数是根据所述加水印的非压缩媒体数据流而生成的。
2.根据权利要求1所述的方法,其中,所述压缩媒体数据流包括压缩音频数据流,而所述非压缩媒体数据流包括时域音频数据流。
3.根据权利要求1所述的方法,其中,所述媒体识别信息包括表示节目或源识别信息中的至少一个的水印。
4.根据权利要求1所述的方法,其中,所述第一、第二变换系数包括各自的第一、第二经修改的离散余弦变换MDCT系数。
5.根据权利要求1所述的方法,其中,根据所述压缩媒体数据流来重构非压缩媒体数据流的步骤包括以下处理:
确定所述压缩媒体数据流的逆变换,以生成第一、第二逆变换数据块;以及
将所述第一、第二逆变换数据块组合以形成所述非压缩媒体数据流。
6.根据权利要求1所述的方法,其中,将所述媒体识别信息嵌入所述非压缩媒体数据流中以确定加水印的非压缩媒体数据流的步骤包括以下处理:
增大所述非压缩媒体数据流的第一频率分量并减小所述非压缩媒体数据流的第二频率分量,以表示与所述媒体识别信息相关联的第一数据值;以及
减小所述非压缩媒体数据流的所述第一频率分量并增大所述非压缩媒体数据流的所述第二频率分量,以表示与所述媒体识别信息相关联的第二数据值。
7.根据权利要求1所述的方法,其中,将所述媒体识别信息嵌入所述非压缩媒体数据流以确定加水印的非压缩媒体数据流的步骤包括以下处理:
确定多个码信号分量,以表示与所述媒体识别信息相关联的数据值;以及
基于所确定的掩蔽能量,将所述多个码信号分量与所述非压缩媒体数据流进行组合。
8.根据权利要求1所述的方法,其中,修改与关联于所述压缩媒体数据流的所述第一变换系数相对应的第一尾数值的步骤包括以下处理:
确定与根据所述加水印的非压缩媒体数据流生成的所述第二变换系数相关联的第二尾数值;
基于与所述第一尾数值相关联的压缩信息来量化所述第二尾数值;以及
用量化后的第二尾数值来替换所述第一尾数值。
9.根据权利要求1所述的方法,其中,所述第一变换系数还包括所述第一尾数值和第一指数值,并且其中,所述第一指数值未被修改而嵌入所述媒体识别信息。
10.根据权利要求9所述的方法,其中,当仅所述第一尾数值的修改不足以说明所述第一变换系数与所述第二变换系数之差时,基于与所述第一尾数值相关联的压缩信息,将所述第一尾数值设置为最小值或最大值中的至少一个。
11.一种用于确定识别信息的方法,该方法包括以下步骤:
提取嵌入在所呈现的媒体内容中的识别信息,所述识别信息被嵌入在与所呈现的媒体内容相对应的所广播的压缩音频数据流中,通过以下步骤将所述识别信息嵌入到所述压缩音频数据流中而无需解压缩所述压缩音频数据流:
修改与关联于所述压缩音频数据流的第一变换系数相对应的第一尾数值,以将所述识别信息嵌入所述压缩音频数据流中,所述第一尾数值的修改是基于所述第一变换系数与对应的第二变换系数之差来进行的,所述第二变换系数是根据也嵌入了所述识别信息的、所述压缩音频数据流的分离非压缩版本而生成的。
12.根据权利要求11所述的方法,其中,所述识别信息包括表示节目或源识别信息中的至少一个的水印。
13.根据权利要求11所述的方法,该方法还包括以下步骤:
在接收装置处对所广播的压缩音频数据流进行解压缩,以生成与所呈现的媒体内容相对应的非压缩音频数据流;以及
从与所述非压缩音频数据流相对应的模拟音频信号中提取所述识别信息,所述模拟音频信号是由所述接收装置的扬声器或模拟输出中的至少一个提供的。
CN201010501205XA 2003-06-13 2004-06-14 水印嵌入方法和装置 Expired - Fee Related CN101950561B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US47862603P 2003-06-13 2003-06-13
US60/478,626 2003-06-13
US57125804P 2004-05-14 2004-05-14
US60/571,258 2004-05-14

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN2004800202008A Division CN1823482B (zh) 2003-06-13 2004-06-14 水印嵌入方法和装置

Publications (2)

Publication Number Publication Date
CN101950561A CN101950561A (zh) 2011-01-19
CN101950561B true CN101950561B (zh) 2012-12-19

Family

ID=33555503

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201010501205XA Expired - Fee Related CN101950561B (zh) 2003-06-13 2004-06-14 水印嵌入方法和装置
CN2004800202008A Expired - Fee Related CN1823482B (zh) 2003-06-13 2004-06-14 水印嵌入方法和装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN2004800202008A Expired - Fee Related CN1823482B (zh) 2003-06-13 2004-06-14 水印嵌入方法和装置

Country Status (8)

Country Link
EP (1) EP1639518B1 (zh)
CN (2) CN101950561B (zh)
AU (2) AU2004258470B2 (zh)
CA (1) CA2529310C (zh)
HK (2) HK1090476A1 (zh)
TW (1) TWI342515B (zh)
WO (2) WO2005002200A2 (zh)
ZA (1) ZA200510074B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8787615B2 (en) 2003-06-13 2014-07-22 The Nielsen Company (Us), Llc Methods and apparatus for embedding watermarks
US8972033B2 (en) 2006-10-11 2015-03-03 The Nielsen Company (Us), Llc Methods and apparatus for embedding codes in compressed audio data streams
US9191581B2 (en) 2004-07-02 2015-11-17 The Nielsen Company (Us), Llc Methods and apparatus for mixing compressed digital bit streams

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030131350A1 (en) 2002-01-08 2003-07-10 Peiffer John C. Method and apparatus for identifying a digital audio signal
WO2004038538A2 (en) 2002-10-23 2004-05-06 Nielsen Media Research, Inc. Digital data insertion apparatus and methods for use with compressed audio/video data
CA2562137C (en) 2004-04-07 2012-11-27 Nielsen Media Research, Inc. Data insertion apparatus and methods for use with compressed audio/video data
EP2337021B1 (en) * 2008-08-14 2018-08-22 Sk Telecom Co., LTD Apparatus and method for data transmission in audible frequency band
US8989883B2 (en) 2010-03-25 2015-03-24 Verisign, Inc. Systems and methods for providing access to resources through enhanced audio signals
US8355910B2 (en) * 2010-03-30 2013-01-15 The Nielsen Company (Us), Llc Methods and apparatus for audio watermarking a substantially silent media content presentation
EP2782361A4 (en) * 2011-10-25 2015-07-08 Trigence Semiconductor Inc DIGITAL ACOUSTIC SYSTEM
CN102664013A (zh) * 2012-04-18 2012-09-12 南京邮电大学 基于能量选择的离散余弦变换域的音频数字水印方法
EP2680259A1 (en) 2012-06-28 2014-01-01 Thomson Licensing Method and apparatus for watermarking an AC-3 encoded bit stream
US9818415B2 (en) * 2013-09-12 2017-11-14 Dolby Laboratories Licensing Corporation Selective watermarking of channels of multichannel audio
CN105787444B (zh) * 2016-02-24 2019-03-22 北方工业大学 基于v系统的信号去噪方法
CN108053831A (zh) * 2017-12-05 2018-05-18 广州酷狗计算机科技有限公司 音乐生成、播放、识别方法、装置及存储介质
CN108766449B (zh) * 2018-05-30 2020-10-27 中国科学技术大学 一种音频信号的可逆水印实现方法
CN110708376B (zh) * 2019-09-30 2020-10-30 广州竞远安全技术股份有限公司 一种海量压缩文件的处理转发系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6373960B1 (en) * 1998-01-06 2002-04-16 Pixel Tools Corporation Embedding watermarks into compressed video data
US6505223B1 (en) * 1998-03-04 2003-01-07 Koninklijke Philips Electronics N.V. Watermark detection

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6611607B1 (en) * 1993-11-18 2003-08-26 Digimarc Corporation Integrating digital watermarks in multimedia content
US5682463A (en) * 1995-02-06 1997-10-28 Lucent Technologies Inc. Perceptual audio compression based on loudness uncertainty
US5687191A (en) * 1995-12-06 1997-11-11 Solana Technology Development Corporation Post-compression hidden data transport
US7299189B1 (en) * 1999-03-19 2007-11-20 Sony Corporation Additional information embedding method and it's device, and additional information decoding method and its decoding device
DE69931932T2 (de) * 1999-12-04 2007-05-31 Deutsche Thomson-Brandt Gmbh Verfahren und Vorrichtung zum Dekodieren und Einfügen eines Wasserzeichens in einen Datenstrom
US6738744B2 (en) * 2000-12-08 2004-05-18 Microsoft Corporation Watermark detection via cardinality-scaled correlation
GB0119569D0 (en) * 2001-08-13 2001-10-03 Radioscape Ltd Data hiding in digital audio broadcasting (DAB)

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6373960B1 (en) * 1998-01-06 2002-04-16 Pixel Tools Corporation Embedding watermarks into compressed video data
US6505223B1 (en) * 1998-03-04 2003-01-07 Koninklijke Philips Electronics N.V. Watermark detection

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8787615B2 (en) 2003-06-13 2014-07-22 The Nielsen Company (Us), Llc Methods and apparatus for embedding watermarks
US9202256B2 (en) 2003-06-13 2015-12-01 The Nielsen Company (Us), Llc Methods and apparatus for embedding watermarks
US9191581B2 (en) 2004-07-02 2015-11-17 The Nielsen Company (Us), Llc Methods and apparatus for mixing compressed digital bit streams
US8972033B2 (en) 2006-10-11 2015-03-03 The Nielsen Company (Us), Llc Methods and apparatus for embedding codes in compressed audio data streams
US9286903B2 (en) 2006-10-11 2016-03-15 The Nielsen Company (Us), Llc Methods and apparatus for embedding codes in compressed audio data streams

Also Published As

Publication number Publication date
TW200517949A (en) 2005-06-01
HK1150090A1 (en) 2011-10-28
CA2529310A1 (en) 2005-01-27
AU2004258470A2 (en) 2005-01-27
CN1823482A (zh) 2006-08-23
CA2529310C (en) 2012-12-18
AU2010200873B2 (en) 2012-09-06
CN101950561A (zh) 2011-01-19
AU2004258470A1 (en) 2005-01-27
HK1090476A1 (en) 2006-12-22
EP1639518A4 (en) 2011-09-28
EP1639518B1 (en) 2018-12-26
TWI342515B (en) 2011-05-21
WO2005008582A2 (en) 2005-01-27
CN1823482B (zh) 2010-12-01
WO2005008582A3 (en) 2005-12-15
WO2005002200A3 (en) 2005-06-09
AU2004258470B2 (en) 2009-12-10
EP1639518A2 (en) 2006-03-29
AU2010200873A1 (en) 2010-04-01
ZA200510074B (en) 2006-12-27
WO2005002200A2 (en) 2005-01-06

Similar Documents

Publication Publication Date Title
US9286903B2 (en) Methods and apparatus for embedding codes in compressed audio data streams
CN1993700B (zh) 用于进行压缩数字位流的混合的方法及装置
CN101950561B (zh) 水印嵌入方法和装置
US9202256B2 (en) Methods and apparatus for embedding watermarks
AU2012261653B2 (en) Methods and apparatus for embedding watermarks
AU2011203047B2 (en) Methods and Apparatus for Mixing Compressed Digital Bit Streams
JP2003029797A (ja) 符号化装置、復号化装置および放送システム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1150090

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1150090

Country of ref document: HK

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121219