CN101160616B - 用于产生、处置或解码数字比特流的处理方法 - Google Patents
用于产生、处置或解码数字比特流的处理方法 Download PDFInfo
- Publication number
- CN101160616B CN101160616B CN2006800121334A CN200680012133A CN101160616B CN 101160616 B CN101160616 B CN 101160616B CN 2006800121334 A CN2006800121334 A CN 2006800121334A CN 200680012133 A CN200680012133 A CN 200680012133A CN 101160616 B CN101160616 B CN 101160616B
- Authority
- CN
- China
- Prior art keywords
- metadata
- bit stream
- bit
- dialnorm
- correct
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012795 verification Methods 0.000 title claims abstract description 71
- 230000008859 change Effects 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims description 37
- 238000005259 measurement Methods 0.000 claims description 36
- 230000008569 process Effects 0.000 claims description 16
- 238000012937 correction Methods 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 12
- 238000013144 data compression Methods 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 57
- 238000007906 compression Methods 0.000 description 49
- 230000006835 compression Effects 0.000 description 49
- 238000012545 processing Methods 0.000 description 29
- 238000010586 diagram Methods 0.000 description 15
- 230000008878 coupling Effects 0.000 description 14
- 238000010168 coupling process Methods 0.000 description 14
- 238000005859 coupling reaction Methods 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 239000012634 fragment Substances 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 238000003801 milling Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000012856 packing Methods 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000000593 degrading effect Effects 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012857 repacking Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
一种数字比特流,包括:代表音频的数据比特、预期对于音频而言正确的元数据以及元数据校验信息,其中,全部或部分元数据对于音频而言可能不正确。所述元数据校验信息可用于检测元数据对于音频而言是否正确,以及如果不正确,则对其进行改变以使其正确。可用于检测并改变元数据的元数据校验信息可包括元数据正确版本的副本或数据压缩的副本。
Description
技术领域
本发明涉及音频信号处理,尤其涉及对音频系统中采用的元数据进行校验和纠正。本发明尤其用于称为Dolby Digital(AC-3)、DolbyDigital Plus和Dobly E的音频编码系统。Dolby、Dolby Digital、DolbyDigital Plus和Dobly E是杜比实验室认证公司(Dolby LaboratoriesLicensing Corporation)的商标。本发明的各方面还可与其它类型的音频编码(诸如MPEG-4AAC)一起使用。
背景技术
在以下的参考文献中阐述Dolby Digital的细节:
ATSC Standard A52/A:Digital Audio Compression Standard(AC-3),Revision A,Advanced Television Systems Committee,20 Aug.2001.在环球网上,可在http://www.atsc.org/standards.html找到A/52A文献。
Craig C.Todd等人的“Flexible Perceptual Coding for AudioTransmission and Storage”,96th Convention of the Audio EngineeringSociety,1994年2月26日,预印3796;
Steve Vernon的“Design and Implementation of AC-3 Coders”,IEEE Trans.Consumer Electronics,Vol.41,No.3,1995年8月。
Mark Davis的“The AC-3 Multichannel Coder”,AudioEngineering Society预印3774,95th AES Convention,1993年10月。
Bosi等人的“High Quality,Low-Rate Audio Transform Codingfor Transmission and Multimedia Applications”,Audio EngineeringSociety预印3365,93th AES Convention,1992年10月。
第5,583,962、5,632,005、5,633,981、5,727,119和6,021,386号美国专利。
在以下文献中阐述Dolby Digital Plus的细节:“Introduction toDolby Digital Plus,an Enhancement to the Dolby Digital CodingSystem”,AES Convention Paper 6196,117th AES Convention,2004年10月28日。
在以下文献中阐述Dolby E编码的细节:“Efficient Bit Auocation,Quantization,an d Coding in an Audio Distribution System”,AES预印5068,107th AES Conference,1999年8月;以及“Professional AudioCoder Optimized for Use with Video”,AES预订5033,107th AESConference,1999年8月。
在以下文献中阐述MPEG-2AAC编码的细节:ISO/IEC 13818-7:1997(E)“Information technology-Generic coding of moving picturesand associated audio information-,Part 7:Advanced Audio Coding(AAC),”International Standards Organization(1997年4月);Karlheinz Brandenburg的“MP3 and AAC Explained”,AES 17thInternational Conference on High Quality Audio Coding,1999年8月;以及Bosi等人的“ISO/IEC MPEG-2 Advanced Audio Coding”,AES预印4382,101st AES Convention,1996年10月。
在以下文献中阐述了包括Dolby编码器、MPEG编码器等的各种感知编码器的概况:Karlheinz Brandenburg和Marina Bosi的“Overview of MPEG Audio:Current and Future Standards forLow-Bit-Rate Audio Coding”,J.Audio Eng.Soc.,Vol.45,No.1/2,1997年1月/2月。
上述引用的所有参考文献通观引用全部合并于此。
尽管本发明不限于在AC-3中使用,但是为了方便,将在AC-3系统的环境中描述本发明。AC-3是用于在包括数字电视、DVD视频和DVD音频的应用中传送音频的数字音频数据压缩系统。AC-3比特流包括两种关键分量:音频内容和元数据。使用感知音频编码来压缩1到6个声道的音频内容。在AC-3中的各种类型的元数据中,存在若干音频元数据参数,其特别用于改变传送到收听环境的节目的声音。这些将在下面进行描述。
AC-3系统在二进制信息帧中传送包括数据压缩的音频的比特流。每帧包含数字音频的1536个样点的音频内容和元数据。对于48kHz的采样率,意味着32毫秒的数字音频或者音频的每秒31.25帧的速率。每帧中包含的比特数量取决于正在传送的声道数量以及应用于所述声道的数据压缩量。例如,DVD视频盘通常以每秒448,000比特的数据率或1792字节(1字节有8比特)的帧大小来传送6个声道的音频。
将每个AC-3帧划分成片段。所述片段包括:(1)同步信息(SI),其包含同步字(SW)、两个纠错字中的第一纠错字(CRC1);(2)比特流信息(BSI),其包含多数元数据;(3)6个音频块(AB0-AB5),其包含数据压缩的音频内容;(4)无用比特(W),其包含任何在音频内容被压缩之后剩下的未使用比特;(5)辅助(AUX)信息,其包含更多元数据;以及(6)所述两个纠错字中的第二纠错字(CRC2)。上述项在稍后进一步描述的图9中示出。在以上引用的AC-3参考文献以及以下对图9的描述中详细描述了AC-3帧,其包括感知音频数据压缩以及伴随的元数据。
如上所述,在AC-3中,存在若干音频元数据参数,其特别用于改变传送到收听环境的节目的声音。这些将在下面进行描述。这些元数据参数中的以下三个参数涉及重放信号电平以及动态范围:DIALNORM、COMPR和DYNRNG。DIALNORM参数影响音频重放信号电平,而相关的COMPR和DYNRNG参数有时在下面被称为“动态范围压缩”参数-影响音频重放信号的电平。根据解码模式,在解码中使用COMPR和DYNRNG参数之一或者不使用两者中的任何一个,但是不会全部使用这两个参数。尽管当用户没有设置值时存在默认的DIALNORM值,但是DIALNORM通常由用户来设置(该参数不会自动产生)。例如,用户或“内容创建者”可利用AC-3编码器外部的处理或装置进行响度测量,随后将结果传递到编码器。因此,依靠用户来正确地设置DIALNORM参数值。COMPR和DYNRNG参数尽管涉及DIALNORM参数,但是通常响应于多个动态范围压缩简档(profile)之一(或者不存在简档,这将导致应用DIALNORM但是允许再现全动态范围)以及用户设置的DIALNORM参数值在编码期间自动计算COMPR和DYNRNG参数。每个这种简档包含标准音频动态压缩参数信息,所述信息包括上升时间常数和释放时间常数,以及压缩率。在收听环境中影响声音的其它元数据参数包括各种缩混(downmixing)参数:CLEV、CMIXLEV、SLEV、SURMIXLEV、MIXLEVEL和MIXLEVEL2。这种缩混元数据提供用于解码器将原始的5.1声道缩混为较少数量的再现声道(例如,1或2个声道)的指令。
DIALNORM参数允许在解码任何AC-3比特流时均匀地再现口语对话。将普通口语对话的主观声级(level)用作参考。因此,再现系统增益变为收听者期望的用于对话的再现声压级别和DIALNORM值两者的函数。尽管原则上,可在解码(在数字域或模拟域进行)之后将DIALNORM值应用于时域以调整重放增益,但是AC-3解码器通常在解码器内将DIALNORM值用于数字域中以对增益进行缩放,这引起对重放增益的调整。
尽管存在用于方便且容易地测量音频内容中对话的声级的有用工具(例如,Dolby LM100响度仪),并且AC-3提供用于传达对话的声级的元数据(使用DIALNORM参数),但是在没有将压缩音频完全解码为PCM并且没有利用被认可的测量技术执行响度测量的情况下,不存在校验AC-3比特流中的DIALNORM值是否被正确设置以及是否域音频的真实对话响度值匹配的方法。在Smithers等人于2004年7月1日提交的第10/884,177号题为“Method for Correctingthe Playback Loudness and Dynamic Range of AC-3(Dolby Digital)Compressed Audio Information”的美国专利申请中描述了所述全解码方式。所述申请通过引用全部合并于此。
存在几种导致AC-3比特流中的DIALNORM参数会不正确的不同原因。首先,如上所述,如果内容创建者没有设置DIALNORM值,则每个AC-3编码器具有默认的DIALNORM值,该DIALNORM值在产生比特流期间被使用。所述默认值通常被选为-27dB,该值可能与音频的实际对话响度声级非常不同。其次,即使内容创建者测量响度并相应地设置了DIALNORM参数,但是所使用的响度测量算法或仪器可能不符合所推荐的AC-3响度测量方法,这将导致不正确的DIALNORM值。第三,即使通过由内容创建者测量并正确设置的DIALNORM值创建了AC-3比特流,但是在比特流的传输和/或存储期间,其可能已经变为不正确的值。例如,在电视广播应用中,经常使用不正确的DIALNORM元数据信息来解码、修改随后重新编码AC-3比特流。因此,尽管DIALNORM值总是包含在AC-3比特流中,但是其可能不正确或者不准确,因此,会给收听体验带来质量上的负面影响。
因此,需要一种用于校验AC-3比特流中的DIALNORM参数是否由内容创建者正确地设置并且是否在分配和传输期间没有改变的方法。优选地,这种校验不应改变AC-3比特流的标准语法,从而比特流保持与现有AC-3解码器的兼容(即,保持向后兼容性)。
附图说明
图1是根据本发明各方面的用于产生比特流的配置的功能示意框图。
图2是用于比特流中的元数据校验数据的格式示例的抽象表示。
图3实际上是示出图4的流程图中的判断步骤的细节的判断流程图。
图4实际上是与确保比特流具有正确的元数据和匹配元数据校验数据相关的用于理解本发明各方面的判断流程图。
图5是用于实施图4的步骤404到413的各个子集的配置的功能示意框图。
图6a是用于实施图4的步骤408到410的子集的配置的功能示意框图。
图6b是用于实施图4的步骤408和411到413的子集的配置的功能示意框图。
图7是示出用于实施重新打包比特流功能的配置或图6a的装置的功能示意框图。
图8实际上是用于理解本发明中与知道校验数据的解码有关的各方面的判断流程图。
图9a是示出AC-3串行编码的比特流的帧的示意图。该图不是按照比例显示的。
图9b是更详细地示出AC-3串行编码的比特流的SI部分的示意图。该图不是按照比例显示的。
图9c是更详细地示出AC-3串行编码的比特流的比特流头部信息(BSI)部分的示意图。该图不是按照比例显示的。
图9d是更详细地示出AC-3串行编码的比特流的音频块部分的示意图。该图不是按照比例显示的。
图9e是AC-3编码器或编码功能的功能示意框图。
图10a是示出三种示例性音频项的DIALNORM声级和动态范围的假设图。
图10b是示出三种示例性音频项在重放期间的DIALNORM声级和动态范围的假设图。
图11a是示出关于三种示例性音频项的动态范围控制参数的效果的假设图。
图11b是示出关于三种示例性音频项在重放期间的DIALNORM和动态范围控制参数的效果的假设图。
发明内容
可将本发明看作具有若干方面,所有这些方面均涉及音频元数据校验信息。所述方面中的某些包括以下项:
(1)编码的音频比特流,其具有正确的元数据以及校验所述元数据的至少一部分的正确性的信息;
(2)如下处理方法或装置,其产生编码的音频比特流,所述编码的音频比特流具有正确的元数据以及校验所述元数据的至少一部分的正确性的信息;
(3)如下处理方法或装置,其确保编码的音频比特流具有正确的元数据,并且还包含校验所述元数据的至少一部分的正确性的信息;以及
(4)如下处理方法或装置,其无论编码的音频比特流的所有元数据是否正确均对所述编码的音频比特流进行解码,产生并替代纠正的元数据,如果存在校验所述元数据的至少一部分的正确性的信息,则考虑该信息。
在权利要求以及说明书和附图中阐述本发明的其它方面。
应注意到:音频元数据校验信息不承担提供比特差错检查和/或纠正的功能。携带校验信息的比特流通常具有某种比特差错检查和/或纠正,例如,AC-3比特流中的CRC码字。在本发明的各方面中,元数据因为以下原因可能不正确:例如,元数据开始没有被正确设置,或者即使开始被正确设置,但是由于人为干预或其它原因在传输或存储期间被改变,但是元数据的不正确并不是由于传输或存储中的比特差错所引起。事实上,因为音频元数据校验信息的目的在于在元数据不正确的情况下将所述元数据改变为正确的值,所以元数据校验信息的目的不在于进行比特差错检测或纠正。比特差错纠正仅仅纠正元数据的比特差错,但是尽管没有了比特差错,元数据本身的不正确仍旧没有被纠正。换言之,音频元数据校验信息涉及作为代表元数据的比特的基础的信息的正确性,而不是所述比特本身的正确性。
尽管在这里描述的本发明各方面的示例中,编码的音频比特流是Dolby Digital(AC-3)编码的比特流,元数据的集合为DIALNORM以及相关的动态范围控制元数据,并且校验信息相应于正确的DIALNORM元数据,但是本发明的各方面可应用于其它编码系统以及所述编码系统的比特流中的其它元数据。可使用本发明的各方面的其它音频编码系统包括:例如,Dolby E系统和MPEG-4AAC系统。关于Dolby Digital,元数据可以是除DIALNORM以及相关的动态范围控制元数据之外的缩混元数据(在这种情况下,校验信息还涉及缩混元数据),或者替代DIALNORM以及相关的动态范围控制元数据的缩混元数据(在这种情况下,作为替代,校验信息涉及缩混元数据)。
在编码的音频比特流中,可按照所述比特流向后兼容现有或旧有处理和装置的方式携带校验信息。在这里描述的本发明各方面的示例中,在上述AC-3无用比特中携带校验信息,在其它方式中所述无用比特将不携带有用信息并且通常被标准AC-3解码器忽略。其它音频编码系统具有“无用”比特或者可用并且通常被标准解码器忽略的类似比特(有时称为“空”比特、“填充”比特等),例如,诸如MPEG-4AAC中的数据流元素的附加数据字段、用户定义的数据片段。然而,某些编码系统中的所述比特不会被编码/解码操作破坏,当本发明各方面在AC-3编码系统中时,上述特征为本发明各方面的有用特征。在Truman等的第6,807,528B1号题为“Adding Data to a CompressedData Frame”美国专利中公开了在编码比特流中的“无用”比特或类似比特中携带数据的技术,该专利通过引用全部合并于此。
还可通过将校验信息“隐藏”的方式在编码的音频比特流中携带所述校验信息。例如,在无用比特中携带的校验信息可被加密。隐藏校验数据的好处在于某些故意改变编码的音频比特流中的DIALNORM的人将难以改变或者无法改变校验信息。
尽管不是每个AC-3帧均具有足够的未使用数据比特来传递附加信息,但是当DIALNORM值在整个节目期间恒定时就不存在问题-这是因为至少某些AC-3帧具有足够的未使用数据比特以用于校验数据就足够了。
或者,作为在可被编码的无用比特中携带校验信息的替代方式,可使用诸如在以下专利中描述的技术将校验信息隐秘(steganographically)编码为比特流:Watson等人在2001年8月15日提交的(PCT)题为“Modulating One or More Parameters of anAudio or Video Perceptual Coding System in Response toSupplemental Information”的第10/344,388号美国专利申请,其于2004年2月5日作为US 2004/0024588A1公开。所述申请通过引用全部合并于此。隐秘编码的优点在于其保持向后兼容性,还隐藏所述数据。然而,缺点在于:对比特流进行解码和重新编码不会擦除或“清除”校验信息(如以下进一步所讨论的)。
最简单的形式的校验数据可以是正确的DIALNORM值(连同适当的组帧或同步和标识数据)的副本,其中,能够用于检测并改变元数据的元数据校验信息包括所述元数据的正确版本的副本或数据压缩的副本。因为AC-3比特流中的未使用比特通常被设置为空值或随机值,但是与DIALNORM校验数据格式匹配的AC-3比特流中存在未使用数据比特的可能性很低。此外,如通常情况,当每个编码的AC-3节目仅使用一个恒定DIALNORM值时,包含在未使用数据比特中的DIALNORM校验信息也是恒定的固定值。在这种情况下,检查一系列AC-3帧中DIALNORM校验数据的多个实例降低了未使用数据比特在校验数据比特出错的可能性。
如果实时连续地对AC-3比特流执行DIALNORM测量、元数据产生和校验数据插入,则整个节目期间的恒定DIALNORM值不会出现。在这种情况下,可通过分析一系列AC-3帧(其会包含各种DIALNORM元数据值)和检查置于未使用数据比特中的DIALNORM校验字段在它们存在时匹配于DIALNORM值,而执行校验。为了减少未使用数据字段中的随机数据匹配DIALNORM参数值的可能性,会需要最少数量的匹配DIALNORM和DIALNORM校验数据字段。
本发明的另一方面在于优选地仅允许已认可的处理或装置将DIALNORM校验数据写入AC-3比特流。这样处理确保了校验数据的有效性。因此,尽管由于上述原因而无法保证DIALNORM元数据参数值的正确性是正确的,但是可在确保精确性的情况下使用DIALNORM校验数据。此外,因为DIALNORM校验数据被置于AC-3比特流的其它未使用数据比特中,所以克服了正确的DIALNORM参数被破坏的问题。如果包含有效校验数据的AC-3比特流被解码和重新编码,则即使使用相同的AC-3DIALNORM元数据值,作为重新编码的结果替代DIALNORM校验数据的作为结果生成的未使用数据比特将保持正确的可能性较高。这确保校验的AC-3比特流的任何附加处理将“清除”校验数据(如以下所解释的,除非已认可的具有响度测量的AC-3编码器和校验能力被用于重新处理)。
本发明的这些和其它方面将被更好地理解为用于实现本发明的以下方式。
具体实施方式
产生具有正确的DIALNORM和匹配校验数据的AC-3比特流
本发明的该方面涉及创建具有正确的DIALNORM参数值和具有匹配DIALNORM校验数据的AC-3比特流。
图1示出包括两个部件的配置100,所述两个部件为:改进型AC-3编码功能或改进型AC-3编码器(“改进型AC-3编码”)102和对话声级测量功能或对话声级测量器(“测量对话的声级”)104。PCM音频101被应用于改进型AC-3编码102和测量对话的声级104两者。改进型AC-3编码可以与标准AC-3编码器或编码功能相同,只是改进型AC-3编码还能够接受DIALNORM校验数据并按照上述某种适合的方式将DIALNORM校验数据插入AC-3比特流。改进型AC-3编码提供包括DIALNORM校验数据的向后兼容的AC-3比特流输出。测量对话的声级104分析输入的PCM,计算正确的DIALNORM值,并将其发送(经由103)到改进型AC-3编码102。
在普通AC-3编码中,可用未使用比特的数量直接与音频的复杂性有关(即,按照期望的比特率对音频进行编码的难度)。因为每个AC-3音频帧可用的比特数量是固定的,所以越难对音频进行编码,用于达到某个等级的质量的比特越多,因此,用于编码处理且可用于携带DIALNORM校验数据的比特越少。所以,更易于进行编码的音频信号将具有更多可用于存储DIALNORM校验数据的未使用数据比特。因此,对改进型AC-3编码器而言可选但是有用的改进在于能够指定编码处理在编码期间不使用的最少数量的数据比特的能力。假设需要少量的比特来传达DIALNORM校验数据(如以下所描述的),故意保留一些未使用数据比特对于编码的音频信号的影响很小,或者没有影响。
测量对话的声级
可通过首先隔离主要包含讲话的音频内容的片段来执行对于对话的响度声级的测量。所述方法在以下专利中进行描述:Vinton等人的第10/233,073号题为“Controlling Loudness of Speech in SignalsThat contain Speech and Other Types of Audio Information”的美国专利,其于3月4日作为US 2004/0044525A1公开。所述申请通过引用全部合并于此。然而,可使用其它方法。随后将主要作为讲话的音频片段传递到响度测量算法。在AC-3中,所述算法为标准A权重功率测量。还可使用其它响度测量,包括:B权重或C权重功率测量,或者基于响度的心理声学模型的响度测量。相对于音频数字全标度(full-scale)正弦波形(0dB FS)来计算功率测量。
对于讲话片段的隔离不是必需的,然而,这一处理提高了测量的精度并在收听者看来提供了更加令人满意的结果。因为并非所有的音频内容均包含讲话,所以当存在讲话时,整个音频内容的响度测量可足够接近音频的对话声级。
如果对于连续比特流而不是有限长度的比特流操作该方法,则可连续更新所述测量,并且所述测量可代表对话的声级(例如,仅代表最后几秒钟)。如果对于预先存储的有限长度的比特流(诸如存储在硬盘上的音频文件)操作该方法,则可分析整个节目,并计算单个DIALNORM值。
改进型AC-3编码102
使用改进型AC-3编码对输入音频PCM进行编码,所述改进型AC-3编码使用计算的DIALNORM值来设置比特流DIALNORM以及有关的动态范围压缩元数据参数。所述改进型AC-3编码可以与普通AC-3编码相同,只是在改进型AC-3编码中,如上所述的附加响度测量功能或装置104明确并正确地测量DIALNORM参数值并将其提供给编码器,以便所述DIALNORM参数值被包括在比特流中。改进编码器还创建DIALNORM校验数据并将其插入AC-3的其它未使用数据比特,原因在于在该示例中,已认可的DIALNORM测量处理已经提供客观测量。由改进型AC-3编码102产生的AC-3比特流优选地符合在以上引用的A/52A文献中定义的AC-3比特流的标准,使得与现有AC-3解码器向后兼容。
如果改进型AC-3编码还具有指定最少数量的未使用数据比特的能力,则其可通过改变每个AC-3帧中可用于音频编码的比特总数的值来实现。例如,如果可用于AC-3编码处理的比特数量通常为N_TOTAL_ENCODE_BITS,并且期望至少拥有N_TOTAL_VERIFICATION_BITS,则可用的编码比特的新的总数将为(N_TOTAL_ENCODE_BITS-N_TOTAL_VERIFICATION_BITS),并且按照通常情况进行音频编码处理。
DIALNORM校验数据的格式
为了容易地识别DIALNORM校验数据并在不经过解码的情况下从AC-3比特流读取所述DIALNORM校验数据,数据具有预先定义的格式将是有用的。图2概述用于按照字节对齐的方式来存储DIALNORM校验数据的适合格式,其使得从未解码的AC-3比特流定位并读取数据变得简单(在实时AC-3比特流或存储为数字文件的AC-3比特流的情况下)。所述格式并非决定性的,可使用其它格式。如图2所示,用于DIALNORM校验数据的示例格式包括若干连续的字节。第一字节是预先定义的DIALNORM校验头部字节。该头部字节可采用任何值,然而,优选的是非零值(与AC-3SYNCWORD类似但不相同),这是因为在其它AC-3比特流中,未使用数据比特被初始化到0值。在该示例中的DIALNORM校验头部之后,数据字节用于传递DIALNORM校验和附加可选数据。因为标准AC-3DIALNORM值包括5比特,所以一个数据字节提供三个附加数据比特,两个数据字节提供11个附加数据比特。在图2的示例中示出对两个DIALNORM校验数据字节的使用。这些字节可用于存储诸如所使用的响度算法类型或版本的信息或其它信息。图2所示的最后字节是循环冗余校验(CRC)数据字节,使用DIALNORM校验头部和数据字节来计算所述CRC数据字节。该字节的用处在于其大大减少了AC-3比特流中未使用数据比特(包含具有有效DIALNOMR校验头部字节、两个中间数据字节和CRC字节的比特序列)经过对全部四个字节进行CRC检查的可能性。
如先前所讨论的,如果改进型AC-3编码器预留足够的未使用数据比特来包含DIALNORM校验数据,则在图2概述的结构中,对于每个1792字节的AC-3数据帧仅需要四个字节或32比特,这仅相应于总数据的0.2%。
确保AC-3比特流具有正确的DIALNORM和匹配校验数据
本发明的另一方面在于确保AC-3比特流中的DIALNORM值正确并且比特流具有匹配DIALNORM校验信息。本发明的这一方面在图4的示例性流程图中阐述。如以下所解释的,可采用所有图4处理或图4处理的子集。例如,所述处理或采用所述处理的步骤的装置可用于在由内容创建者创建比特流之后以及对于收听者进行比特流的最终解码之前,传输或存储所述比特流。应理解:图4的步骤及其子集可代表一个或多个处理的各部分,或者可以是在一个或多个装置中执行的功能。
可对代表有限长度音频项的音频的比特流执行图4的步骤。例如,音频项包括以数字形式存储在文件服务器等的电视节目或广告。如这里所使用的,“音频项”是连续的音频信息段;例如,30秒的电视广告或整个电影(运动图像)。然而,图4的步骤还可用于测量和更新AC-3帧的连续实时的比特流,例如,代表电视台或声道的音频的连续AC-3比特流。
测试DIALNORM校验数据的存在(图3和图4的步骤401)
如图4所示,执行第一步骤(步骤401)以确定AC-3DIALNORM校验数据是否存在于编码的AC-3比特流中。图3示出用于执行所述检查的的示例性流程图。如图3所示,输入是可按照逐帧为基础来处理的AC-3音频比特流。因为已知未使用数据比特在AC-3帧中的位置,所以不必对整个帧或比特流执行彻底的搜索-搜索可开始于未使用比特片段的开端。尽管DIALNORM校验数据包括连续的数据字节,但是所述数据可以是与其它AC-3帧数据对齐的字节,也可以不是与其它AC-3帧数据对齐的字节。因此,图3的处理中的第一步骤(步骤301)“从比特流读取数据”可要求逐比特地读取数据并从每一个读取的比特构建连续的数据字节。
在图3的示例中的步骤303,将从AC-3帧读取的每个数据字节与预先定义的DIALNORM校验头部字节进行比较。如果字节不匹配,则读取更多数据并执行另一字节比较。如果所述字节值匹配头部值,则读取所述匹配字节之后的连续的数据字节。如果匹配校验头部字节的字节靠近AC-3帧的末尾(如步骤302所确定的),并且三个字节的后续数据不可用,则中断数据搜索。四个字节(包括如图2概述的匹配校验头部字节)用于在步骤304计算CRC检查。如果CRC检查通过(步骤305),则DIALNORM校验数据存在,并且如以下进一步所述,可从数据字节检索DIALNORM校验信息。
测试DIALNORM校验数据是否匹配AC-3DIALNORM数据(402)
如图4的步骤401所示,当DIALNORM校验数据存在时(步骤401的输出为“是”),进行下一步骤(步骤402)以确定所述校验数据是否匹配AC-3DIALNORM值。如图9所示,按照以下进一步所讨论的,普通DILANORM数据的位置和格式是已知的,并且可从AC-3比特流容易地读取。用于确定普通DIALNORM和校验DILANORM值是否匹配的测试是简单的数值比较。如果所述值匹配,则普通DIALNORM值是正确的,并且不需要进一步分析或处理。如果所述两个值之差的绝对值小于阈值,则可认为所述值足够“匹配”。如果期望的话,则可将所述阈值设置为等于0,但是在优选的实现中,选择阈值以在以下各项之间进行权衡:元数据参数的精确性、实现本发明所需的计算资源的成本、以及DIALNORM值与校验值之差会在重放期间使音频信息的质量降级的可能性。阈值3(3dB)可能适合于许多应用。可对AC-3比特流输出进行存储、传输或解码。
利用DIALNORM校验数据纠正普通AC-3DIALNORM数据(步骤403)
当DIALNORM校验数据被从AC-3比特流提取并且与普通AC-3DIALNORM元数据不匹配时(步骤402的输出为“否”),随后,利用校验DIALNORM值来更新DIALNORM元数据(即,将DIALNORM元数据设置或产生为与校验DIALNORM值相同)(403)。因为普通DIALNORM值已经被确定为不正确并且应该被更新,所以有关的AC-3动态范围压缩元数据可能也不正确。因此,应该分析动态范围压缩信息,如果它正确,则仅更新DIALNORM元数据参数。如果动态范围压缩信息不正确,则也应该将其更新。以下结合图4的步骤409到413以及图6a、图6b和图9c来进一步解释所述分析和更新的细节。
没有在AC-3比特流中的校验数据
DIALNORM元数据正确(步骤404-407)
如图4的示例所示,如果DIALNORM校验数据没有包含在AC-3比特流之内(步骤401的输出为“否”),则在不应用DIALNORM参数以及有关的动态范围控制参数的情况下(因为这些元数据参数可能不正确)将AC-3比特流解码为PCM,从而解码的音频内容与用于创建比特流的编码器的输入位于相同声级(步骤404)。随后,测量对话的响度以确定正确的DIALNORM声级(步骤405)。所述测量可通过上述测量对话的声级104的装置或功能来实现。在步骤405测量对话的声级之后,在步骤406将测量的值与AC-3DIALNORM元数据进行比较(以下给出所述比较的细节)。如步骤406的“是”输出之后所示,如果普通DIALNORM元数据正确,则仅需要的动作为将DIALNORM校验数据格式化并将其存储在AC-3比特流中(步骤407)。
如上所述,可用的未使用数据比特的数量取决于音频的复杂性,并且某些AC-3帧可能不具有足够的未使用数据比特以将DIALNORM校验数据存储在每一帧中。可进行以下两种选项:将校验数据仅存储在具有足够的未使用数据比特的AC-3帧中(在这种情况下,可将DIALNORM校验数据插入原始的输入AC-3比特流中,而不是插入通过对步骤404解码的AC-3比特流重新编码产生的AC-3比特流中);或者对通过步骤404的AC-3解码产生的音频进行重新编码,预留足够数量的未使用数据比特来保证校验数据适合每一帧。
对步骤404的AC-3解码以及步骤405的响度测量的替换选择在于通过不需要对AC-3比特流进行完整解码的技术来获得响度的近似。所述技术对诸如AC-3比特流的比特流进行部分解码,以便基于子带指数(subband exponent)的幅度来获得对编码的音频频谱的粗略估计,该技术公开于Brett Graham Crockett、Michael JohnSmithers、Alan Jeffrey Seefeldt于本申请的同一天提交的代理人案号为DOL 157的美国临时专利申请中。所述Crockett等人的DOL 157号申请通过引用全部合并于此。
图5示出用于实施图4的步骤404到413的各个子集的配置的示例。如图5所示,通过改进型AC-3解码功能或解码器(“AC-3解码器”)502将AC-3帧501解码为数字音频503。在通过AC-3解码器502对AC-3帧进行解码期间,尽管如下所述,DIALNORM参数以及动态范围压缩信息被恢复以进行潜在的其它用途,但是所述DIALNORM参数以及动态范围压缩信息被省略以便进行音频解码,从而解码的音频503与用于创建比特流的编码器的输入位于相同电平并具有相同的动态范围。对话声级测量功能或对话声级测量器(“测量对话的声级”)504接收解码的音频503并计算对话的声级505。测量对话的声级504可以是与以上结合图1描述的测量对话的声级104相同的功能或装置。AC-3解码器502可执行如上所述的步骤404,测量对话的声级504可执行如上所述的步骤405。比特更新功能或更新器(“更新比特流”)506将对话的声级与出现在每一帧中的DIALNORM参数进行比较。以下给出所述比较的更多细节。此外,根据步骤406和步骤408的判决,可执行步骤407、步骤408-410(参见图6a及其下面的描述)或步骤408和411-413(参见图6b及其下面的描述)。当执行步骤407时,将DIALNORM校验信息插入输入的AC-3比特流,保留原始DIALNORM和有关的动态范围控制信息。在执行步骤407时,更新比特流506还在AC-3帧中搜索未使用数据比特。对具有足够数量的未使用数据比特的AC-3帧进行改进,从而未使用比特被更新为包含DIALNORM校验数据。或者,由AC-3解码502产生的解码的音频可被重新编码,预留足够数量的未使用数据比特来保证校验数据适合每一帧(在这种情况下,更新比特流506包括诸如图1的改进型AC-3编码102的改进型AC-3编码器)。
更具体地说,在执行步骤406时,更新比特流506将测量的对话的声级与如DIALNORM参数指示的对话的声级进行比较。DIALNORM参数具有包括-31dB到-1dB,以1dB为增量的范围。如果测量的对话的声级位于所述范围之内并且不同于来自所述比特流的DIALNORM的值,则利用测量的声级(例如,进行最接近1dB的取整)来有条件地更新DIALNORM参数(当确定是否存在足够的未使用比特可用于携带校验信息时,所述更新为“有条件”的)。如果所述两个值之差的绝对值小于阈值,则可认为测量的对话的声级不同于所述比特流中的DIALNORM的值。如果期望的话,则可将所述阈值设置为等于0,但是在优选的实现中,选择阈值以在以下各项之间进行权衡:元数据参数的精确性、实现本发明所需的计算资源的成本、以及DIALNORM值与测量的对话声级之差会在重放期间使音频信息的质量降级的可能性。阈值3(3dB)可能适合于许多应用。除了更新比特流以包含正确的DIALNORM参数之外,更新比特流506还搜索每一AC-3帧中的未使用数据比特。如果某帧包含足够数量的未使用数据比特,则用DIALNORM校验数据来替换所述未使用数据比特,这表示已经进行精确的已认可的响度测量处理,避过那且嵌入AC-3比特流中的DIALNORM值是正确的。
没有在AC-3比特流中的校验数据
DIALNORM元数据不正确
在DIALNORM参数范围之内的响度(步骤408-410)
如图4的示例所示,如果检验信息不存在(步骤401的输出为“否”)并且现有AC-3DIALNORM值不正确(步骤406的输出为“否”),则应该确定测量的响度声级是否位于DIALNORM参数的有效范围之内(步骤408)。当测量的对话的声级505位于如AC-3比特流中所允许的DIALNORM参数的有效范围之外时,DIALNORM参数不具有足够的范围来传递所述声级。也就是说,测量的声级小于-31dB或大于-1dB。如果DIALNORM参数具有足够的范围来传递所述声级(步骤408的输出为“是”),则如下执行步骤409和410,所述步骤409和410的进一步细节结合图6a和图7示出。
图6a示出当DIALNORM的值被改变并且DIALNORM校验数据被插入时,如何确定新的动态范围压缩信息(步骤409)以及如何更新和重新打包比特流(步骤410)。如上所述,图6a的示例时用于执行步骤408-410的图5的更新比特流507的变型。图6a的部件可被描述如下。
提取DIALNORM 602
如图5和图6a所示,从AC-3比特流提取DIALNORM参数的值-将未解码的比特流501应用于DIALNORM提取装置或功能602(“提取DIALNORM”602)。
确定动态范围压缩简档604
如图6a所示,动态范围压缩简档确定装置或功能(“确定动态范围压缩简档”604)接收从未解码的比特流提取的DIALNORM参数以及AC-3解码(图5的502)的输出,并确定动态范围压缩简档。AC-3帧中的动态范围压缩元数据代表可在解码期间应用于音频内容的增益改变。所述元数据作为两种不同的参数存在。比特流信息(BSI)中的COMPR参数具有-48.14dB到+47.88dB的范围,并且是应用于整个音频帧的缩放比例。每个音频块(AB)中的DYNRNG参数具有-24.06dB到+23.94dB的范围,并且提供用于独立地对每个块进行缩放的手段。根据解码模式,这些参数之一用于解码器,或者所述参数均不用于解码器,而这些参数不会都用于解码器。
如上所述,使用DIALNORM参数以及多个动态范围压缩简档之一,或者使用DIALNORM参数而不使用多个动态范围压缩简档中的任何一个在编码期间计算COMPR和DYNPNG参数。每个简档包含标准音频动态范围压缩参数信息,所述信息包括上升时间常数和释放时间常数,以及压缩率。
因为DIALNORM被改变,所以比特流中的COMPR和DYNRNG的值可能不再正确。可在比特流中保留COMPR和DYNRNG不变,但是重放时的音频会表现出剧烈和恼人的增益波动并/或导致解码器过载(或数字限幅)。更好的方式为更新COMPR和DYNRNG参数。最好在知道用于计算它们的原始值的动态范围压缩简档的情况下实现所述更新。因为关于简档的信息不存在于比特流中,所以可选择任意简档(同时包括禁用动态范围压缩),或者可从比特流中的原始COMPR和DYNRNG值推导所述简档。推导简档会更接近地匹配内容创建者关于动态范围压缩的原始意图。
在确定动态范围压缩简档604中,解码的音频503和原始DIALNORM值603被共同用来计算多组COMPR和DYNRNG值-一组用于已知存在于AC-3编码器中的每个简档。COMPR和DYNRNG值的组合最接近地匹配原始比特流中的COMPR和DYNRNG值的简档的索引号被输出为606。
如果对连续的帧流操作所述方法,则简档索引可被连续地更新。例如,其可代表先前几秒的帧中最可能的简档。
估计的动态范围压缩简档可以与原始使用的简档不同。因此,如上所示,可期望仅当测量的对话的声级与DIALNORM值之差的绝对值大于阈值时彩更新DIALNORM和动态范围压缩信息。
计算新的动态范围信息607
功能或装置(“计算新的动态范围信息”)607计算新的动态范围信息。对话的实际声级505(图5)的测量被取整并变为新的DIALNORM值。向最接近1dB取整虽然不是必需的,但是可被使用。使用简档索引606,计算解码的音频503(不需要向其应用旧的DIALNORM和动态范围压缩)、新的DIALNORM值(取整的505)、一组新的COMPR和DYNRNG值608。
重新打包比特流609
比特流重新打包器或重新打包功能(“重新打包比特流”)609接收未解码的AC-3比特流501、COMPR和DYNRNG值608以及测量的对话声级505。如上所述,对话的实际声级505的测量被取整(例如,向最接近1dB取整,尽管这不是必需的),并变为新的DYNRNG值。在未解码的AC-3比特流501中更新新的DYNRNG值以及新的COMPR和DYNRNG值。此外,如果如重新打包比特流609中所确定的,存在足够的未使用数据比特,则DYNRNG校验数据用于替换某些或所有未使用数据比特。新更新的AC-3比特流作为新的比特流610被输出。
在以下会描述的图7的示例中阐述重新打包比特流609的细节。
确定可用空间701
功能或装置(“确定可用空间”)701识别所有的未使用数据比特,所述未使用数据比特可用于更新COMPR和DYNRNG值并用于包括新的DYNRNG校验数据。COMPR和DYNRNG参数两者均需要AC-3比特流中的8比特。所述参数的每次出现具有有条件的“存在”标记。COMPR参数具有COMPRE标记,该标记如果被设置为1,则指示在比特流中跟随有COMPR参数。类似地,每个DYNRNG参数具有DYNRNGE标记,该标记如果被设置为1,则指示在比特流中跟随有DYNRNG参数。如果帧的第一块中的DYNRNGE标记被设置为0,则解码器假设初始DYNRNG值为0dB。如果帧的块1到块5中的任何块中的DYNRNGE标记被设置为0,则解码器重新使用来自先前块的DYNRNG值。COMPR和DYNRNG参数在每一帧中的这种有条件的存在表示由COMPR和DYNRNG使用的比特总数可变化。
因为新的COMPR和DYNRNG值所需的比特总数可能待遇由旧的COMPR和DYNRNG值使用的比特总数(因为COMPR和DYNRNG的存在和值取决于DIALNORM值),所以有必要确定帧中是否存在任何未使用的比特。这些未使用比特可用于新的DIALNORM校验数据以及在AC-3帧之内移动信息,以便为新的COMPR和DYNRNG值所需的附加比特留出空间。
减少动态范围压缩信息703
功能或装置(“减少D.R.C信息”)703接收未使用数据比特702的表示并计算新的动态范围信息608,以便如果用于这些值的比特总数大于未使用比特加上由旧的COMPR和DYNRNG值使用的比特总数的总和,则减少新的COMPR和DYNRNG值所需的比特数量。功能或装置703的输出是新的COMPR和DYNRNG值,其可能已经根据所述比特要求被调整。
对于每个AC-3帧存在约束。图9a示出两个帧边界,第5/8帧边界以及音频块1与音频块2之间的帧边界(AB1-AB2)。所述约束在于:当帧被编码时,AB1-AB2边界不能被进一步编码为超过第5/8帧边界的比特流。如果音频块0和1中的新的DYNRNG值所需的比特数量大于音频块0和1中未使用的跳过数据比特加上音频块0和1中的旧的DYNRNG值使用的比特数量的总和,则遵循:为附加比特留出空间会将AB1-AB2边界推过第5/8帧边界。如果出现这种情况,则应该减少块0和1中的新的DYNRNG值所需的比特数量。可按照各种方式来执行这一处理。
适合的方法为首先分析音频块0和1的新的DYNRNG值和DYNRNGE标记。如果只有块0中的新的DYNRNGE标记被设置为1,则将这一标记设置为0,并将块0和块1的新的DYNRNG值设置为等于0。如果只有块1中的新的DYNRNGE标记被设置为1,则将这一标记设置为0,并将块1的新的DYNRNG值设置为等于块0的DYNRNG值。如果块0和1中的新的DYNRNGE标记被设置为1,则执行两种比较。如果块0的DYNRNG的新值与0dB之间的绝对差小于块0和1的DYNRNG的新值之间的绝对差,则将块0的新的DYNRNGE标记设置为0,并将块0的DYNRNG的新值设置为0。否则,将块1的新的DYNRNGE标记设置为0,并且将块0和1的新的DYNRNG值设置为来自块0和1的DYNRNG的最小值。这将新的DYNRNG字所需的比特数量减少了8比特。如果块0或1的DYNRNGE标记之一被设置为1,并且需要进一步减少比特,则重复上述处理。在任何比特减少完成之后,将块1的新的DYNRNG值与块2的新的DYNRNG值进行比较。如果所述值相等,则将块2的新的DYNRNGE标记设置为0。如果新的DYNRNG值不相等,则将块2的新的DYNRNGE标记被设置为1。
查看6个块的整个帧;如果新的COMPR和DYNRNG值所需的比特总数多余未使用比特加上由旧的COMPR和DYNRNG值使用的比特总数的总和,则有必要减少新的参数所需的比特数量。可按照各种方式来执行这一处理。
适合的方法为查看帧中的6个音频块中的新的DYNRNG值和DYNRNGE标记,并将所述块组合为区,其中,每个区代表DYNRNGE标记被设置为1的块、或者块0的DYNRNGE标记被设置为0的情况下的第一块加上DYNRNGE标记被设置为0的任何后续块。应遵循:区的数量可低至1,其中,所有块不具有被设置为1的DYNRNGE标记或者第一块仅具有被设置为1的存在标记;或者区的数量可高至6,其中,每个块具有被设置为1的DYNRNGE标记。将每个区的DYNRNG的值与每个邻近区中的DYNRNG的值进行比较。随后,通过以下处理将具有最接近的DYNRNG值的一对邻近的区组合为一个区:首先将两个区中的DYNRNG值设置为任一区的最小值,然后将第二区的DYNRNGE标记设置为0。这将新的COMPR和DYNRNG信息所需的比特总数减少了8比特。重复所述处理,直到新的COMPR和DYNRNG值所需的比特总数小于或等于未使用比特加上由旧的COMPR和DYNRNG值所需的比特总数的总和。
如上所示,AC-3帧中的所有未使用数据比特可用于更新的DYNRNG和COMPR参数,从而不保留未使用比特以用于DIALNORM校验数据。如先前所讨论的,期望这一结果,并且该结果不减少将DIALNORM校验数据插入存在足够的未使用数据比特的那些帧的实用性。
更新DIALNORM、动态范围压缩和DIALNORM校验信息705
装置或功能(“更新DIALNORM、D.R.C和DIALNORM校验信息”)705接收未解码的AC-3比特流501、已根据比特要求调整的新的COMPR和DYNRNG值704和测量的对话声级505,并更新比特流的DIALNORM参数、动态范围参数,将DIALNORM校验信息插入比特流。
因为帧已经具有DIALNORM参数,所以可将新的DIALNORM值写入它在BSI中的预定位置。然而,对COMPR和DYNRNG参数的更新可能涉及移动AC-3帧的各个部分以便未新的值留出空间。如果新的COMPR和DYNRNG值所需的比特总数大于由旧的值使用的比特总数,则需要减少某些SKIPD字段的长度,并且可减少无用比特(W)的长度。然而,如果所需的新的比特的总数较少,则增加无用比特(W)的长度。如果在这些参数更新之后存在足够数量的未使用数据比特,则将DIALNORM校验数据置于未使用数据比特的位置。
为了更新COMPR参数,如果旧的COMPRE标记被设置为1,则可利用新的COMPR值重写旧的COMPR值。然而,如果旧的COMPRE标记被设置为0,并且新计算的COMPRE值被设置为1,则应该将COMPRE参数之后的所有二进制数据移动8位以便为新的COMPR值留出空间。随后,将帧中的COMPRE标记设置为1,并将新的COMPR值写入新创建的8位空间。如果旧的COMPRE标记被设置为1并且新的COMPRE标记被设置为0,则将帧中的COMPRE设置为0,并应该将COMPRE参数之后的所有二进制数据移动8位,这是因为COMPR参数不再存在于帧中。
为了更新每个音频块中的DYNRNG参数,如果旧的COMPRE标记被设置为1,则可利用新的DYNRNG值重写旧的DYNRNG值。然而,如果旧的DYNRNGE标记被设置为0,并且新的DYNRNGE标记被设置为1,则应该将DYNRNGE参数之后的所有二进制数据移动8位以便为新的DYNRNG值留出空间。随后,将帧中的DYNRNGE标记设置为1,并可将新的DYNRNG值写入新创建的8位空间。如果旧的DYNRNGE标记被设置为1并且新的DYNRNGE标记被设置为0,则将帧中的DYNRNGE标记设置为0,并应该将DYNRNGE参数之后的所有二进制数据移动8位,这是因为DYNRNG参数不再存在于比特流中。
SKIPL参数以字节来指示SKIPD字段的长度。为了减少SKIPD字段的长度,应该将SKIPD字段右侧的二进制数据移动8位的整数倍。随后更新SKIPL参数以反映SKIPD字段的新长度。有时候,SKIPD字段可包含没有在AC3标准(例如,参见以上已用的A52/A文献)中正式定义的可选信息。如果SKIPD字段中的第一比特等于1,则在SKIPD字段中跟随有负载数据的信息,否则,SKIPD字段中的比特均被设置为0。如果存在信息并且需要缩短SKIPD字段,则仅可将SKIPD字段缩短至所述信息。这允许信息被保留在AC-3帧之内。
在修改和更新未使用数据比特之后,可将DIALNORM校验数据插入未使用比特中。如先前所讨论的,所述数据可采取几种形式,包括具有足够的同步和标识数据信息的双帧DIALNORM参数。这允许DIALNORM校验解码器处理搜索未使用数据比特,识别是否存在DIALNORM校验数据,并将其与嵌入AC-3比特流中的标准DIALNORM参数进行比较。
更新CRC 707
更新的AC-3比特流包括DIALNORM校验信息,将所述更新的AC-3比特流应用于纠错字产生装置或功能(“更新CRC”)707。当AC-3帧中的数据已经改变时,应该重新计算两个检错字CRC1和CRC2。如果只有最多到达第5/8帧边界的数据被改变,则仅需要重新计算CRC1。同理,如果只有从第5/8帧边界到帧的末端的数据被改变,则仅需要重新计算CRC2。
没有在AC-3比特流中的校验数据
DIALNORM元数据不正确,DIALNORM范围不足以传达声级
如图4的示例所示,如果校验信息不存在(步骤401的输出为“否”)并且现有AC-3DIALNORM值不正确(步骤406的输出为“否”),则应该确定测量的响度声级是否位于DIALNORM的有效范围帧内(步骤408)。如上所述,当测量的对话的声级505位于如AC-3比特流中所允许的DIALNORM参数的有效范围之外时,DIALNORM参数不具有足够的范围来传递声级。也就是说,测量的声级低于-31dB或大于-1dB。在这种情况下,步骤408的输出为“否”。如上所述,一种用于纠正这种情况的方式为利用最接近的有效值来更新帧中的DIALNORM参数。然而,这会在DIALNORM值与测量的对话的声级之间留下一些误差。如以下参照图6b的示例所描述的,最小化上述差错的适合的替代选择为执行图4的步骤411、412和413。如上所述,图6b是用于执行步骤411、412和413的图5的更新比特流507的变型。可如下描述不同于图6a的图6b的部件。图6a和图6b共有的部件保有相同的各自的标号。
调整增益611
将解码的音频503应用于可调整增益改变器或增益改变功能(“调整增益”)611。可将适合的增益改变应用于音频以减少测量的对话声级与DIALNORM值之间的误差(步骤411)。例如,如果测量的对话声级为-36dB,则可将DIALNORM设置为最接近的有效值,即,-31dB,从而将音频增加5dB,即,从-36dB增加到-31dB。
改进型AC-3编码629
然后,使用改进型AC-3音频编码对调整增益的音频进行重新编码,将其连同新的DIALNORM和动态范围压缩信息608(步骤412)应用于改进型AC-3编码器或编码功能(“改进型AC-3编码”)629。改进型AC-3编码的特征在于“改进”,这是因为其意识到DIALNORM校验数据能力的应用,并且在编码处理之后和最终比特流打包之前,将所述数据插入未使用数据比特。这种重新编码保留来自原始比特流501帧的所有原始BSI(除了DIALNORM、动态范围压缩信息和DIALNORM校验)以及AUX元数据,并包括计算新的检错字。
图6b的其它功能和装置可以与上述图6a的相应功能和装置相同。
由于对音频内容的解码和重新编码,所以实施步骤411、412和413会导致某些声音质量的损失。因此,如果测量的对话声级与最接近的DIALNORM值之间的绝对误差大于阈值,则可期望仅对内容重新编码。阈值3(3dB)可能适合于许多应用。
图4的子集
如上所述,可采用所有图4的处理或图4处理的子集,或者采用所述处理的步骤的装置。
图4处理的一种有用且花费不多的子集为采用步骤401到403。如果校验信息存在于比特流中(401为“是”),则步骤402和403如上所述进行操作,以保留AC-3比特流不变或将DIALNORM值设置为校验值。如果比特流中不存在校验信息(401的输出为“否”),则可保留DIALNORM不变或将其设置成等于默认值。
图4处理的另一有用子集为采用步骤401以及步骤404到407。所述子集用于不存在校验数据时,并且当现有DIALNORM正确时,期望添加校验信息。如果校验信息存在于比特流中(401为“是”),则可保留比特流不变。如果校验信息不存在(401的输出为“否”),则步骤404、405和406确定现有DIALNORM正确(406的输出为“是”)还是不正确(406的输出为“否”)。如果现有DIALNORM正确,则可将校验信息添加到比特流。如果现有DIALNORM不正确,则可将DIALNORM设置为默认值。
图4处理或装置的另一有用但花费较多的子集为采用步骤401到406。当存在校验信息时(401的输出为“是”)仅描述操作,但是当校验信息不存在时(401的输出为“否”),步骤404、405和406确定现有DIALNORM正确(406的输出为“是”)还是不正确(406的输出为“否”)。如果现有DIALNORM正确,则可保留比特流不变。如果现有DIALNORM不正确,则可将DIALNORM设置为默认值。
知道校验数据的(Verification-Data-Aware)解码
本发明的另一方面在于适当地对AC-3比特流进行解码,不考虑其是否具有正确的DIALNORM和匹配校验数据,但是当存在校验数据时,所述解码处理使用所述校验数据。这可被称为“知道校验数据的”解码。在图8的示例性流程图中阐述本发明的该方面。如以下所解释的,可采用所有图8处理或图8处理的子集。例如,采用所述处理的步骤的这种处理或装置可用于对比特流进行解码。与图4中的步骤大致相应的图8中的步骤采用相应的标号(例如,“801”和“401”)。应理解:图8的步骤或其子集可代表一个或多个处理的各部分,或者可以是在一个或多个装置中执行的功能。
测试DIALNORM校验数据的存在(801)
如图8所示,执行第一步骤(步骤801)以确定AC-3DIALNORM校验数据是否存在于AC-3比特流中。可按照与上述图4的步骤401相同的方式执行这一步骤(包括图3所示的步骤401的细节)。
测试DIALNORM校验数据是否匹配AC-3DIALNORM数据(802)
如图8的步骤801所示,当DIALNORM校验数据存在时(步骤801的输出为“是”),进行下一步骤(步骤802)以确定所述校验数据是否匹配AC-3DIALNORM值。可按照与上述图4的步骤402相同的方式来执行这一步骤。如果所述值匹配,则普通DIALNORM值是正确的,并且如步骤814所示,可使用AC-3比特流的现有DIALNORM以及有关的动态范围元数据对应用于所述处理的AC-3比特流(步骤801的输入)进行解码,从而提供解码的AC-3音频比特流。如以上结合步骤402的描述所解释的,可通过所述值是否位于阈值之内来确定所述值是否“匹配”。
利用DIALNORM校验数据纠正普通AC-3DIALNORM数据(步骤803)
当DIALNORM校验数据被从AC-3比特流提取并且与普通AC-3DIALNORM元数据不匹配时(步骤802的输出为“否”),随后,利用校验DIALNORM值来更新DIALNORM元数据(803)。因为普通DIALNORM值已经被确定为不正确并且应该被更新,所以有关的AC-3动态范围压缩元数据可能也不正确。因此,应该分析动态范围压缩信息,如果它正确,则仅更新DIALNORM元数据参数。如果动态范围压缩信息不正确,则也应该将其更新。以下结合图4的步骤409到413以及图6b在此解释所述分析和更新的细节。
没有在AC-3比特流中的校验数据
DIALNORM元数据正确
如图8的示例所示,如果DIALNORM校验数据没有包含在AC-3比特流之内(步骤801的输出为“否”),则可在不应用DIALNORM参数以及有关的动态范围控制参数的情况下(因为这些元数据参数可能不正确)将AC-3比特流解码为音频(例如,PCM编码的音频)(步骤804),从而解码的音频内容与用于创建比特流的编码器的输入位于相同声级。接着,测量解码的音频的DIALNORM声级(步骤805)。所述DIALNORM的测量可以与上述测量对话的声级104所执行的测量相同。在步骤805测量对话的声级之后,在步骤806将测量的值与输入AC-3比特流的AC-3DIALNORM元数据值进行比较。如步骤806的“是”输出之后所示,如果所述DIALNORM值正确(步骤806的输出为“是”),则将输入AC-3比特流的原始DIALNORM值和有关的原始动态范围压缩信息应用于步骤804中由AC-3解码产生的解码的音频,以便提供已经应用正确的DIALNORM和动态范围压缩参数值的解码的AC-3音频比特流。
没有在AC-3比特流中的校验数据
DIALNORM元数据不正确
当现有DIALNORM元数据不正确时(步骤806的输出为“否”),有必要将DIALNORM值设置为步骤805测量的DIALNORM值,并从所述测量的DIALNORM参数值来确定新的动态范围压缩信息。这可在步骤815中实现,步骤815可以与步骤412相同。随后,可在步骤816将测量的DIALNORM值以及通过步骤815确定的动态范围压缩信息应用于通过步骤804产生的解码的数字或模拟音频。
图8的子集
如上所述,可采用所有图8的处理或图8处理的子集,或者采用所述处理的步骤的装置。
图8处理的一种有用且花费不多的子集为采用步骤801到803以及步骤814。如果校验信息存在于比特流中(801为“是”),则步骤802、803以及814如上所述进行操作,以对AC-3比特流进行解码。如果比特流中不存在校验信息(801的输出为“否”),则可使用比特流的现有DIALNORM值和有关的动态范围压缩参数值或者通过使用默认DIALNORM值和有关的动态范围压缩参数值对所述比特流进行解码。
图8处理的另一有用但花费较多的子集为采用除步骤815以外的所有步骤。该子集避免了确定与测量的DIALNORM有关的动态范围压缩信息所需的计算。所进行的操作正如结合图8所描述的,只是当步骤806确定现有DIALNORM不正确时,可通过将DIALNORM和有关的动态范围参数值设置为默认值对输入AC-3比特流进行解码。
附加背景技术
AC-3比特分配以及未使用数据比特
图9e示出简化的AC-3编码器框图。PCM音频采样被输入频域变换功能902。使用具有50%重叠的512点改进离散余弦变换(MDCT)来对输入数据加窗以避免块处理和边缘伪像。在瞬态信号的情况下,通过使用块切换技术来实现改进的时间性能(减少瞬态预噪声),在所述块切换技术中,计算两个265点的变换来代替512点的变换。将来自功能902的变换系数应用于块浮点处理904,所述904将每个变换系数分为指数和尾数对。利用由比特分配功能908分配的可变数量的比特在尾数量化功能906中量化变换系数尾数,所述比特分配功能908相应于块浮点指数对参数比特分配模型进行操作。
AC-3比特分配模型使用心理声学掩蔽的原理来选择分配到给定频带中的每个尾数的比特数量。根据掩蔽的范围,某些尾数可接收非常少的比特,或者甚至根本不接收比特。这减少了代表源音频所需的比特数量,其代价为增加(尽管不可听)噪声。
与某些其它的编码系统不同,AC-3没有已压缩的音频比特流将比特分配结果传递到解码器。相反,所采用的是参数逼近(parametricapproach),其中,音频编码器基于变换系数指数以及较少的根据键信号的参数来构建它的掩蔽模型。将这些参数从比特分配功能908传递到比特流打包功能910,已经由比特流传递到解码器,所需要的比特要比发送未处理的比特分配值所需的比特少很多。产生编码的音频比特流的比特流打包功能910还接收指数和量化的尾数以将其包括在比特流中。在解码器,基于接收的指数以及比特分配参数来重新构建比特分配。所述配置构建混合式向后/向前自适应比特分配。
由于以下两个主要特点,AC-3的编码效率随着源声道数量的增加而提高:全局比特池和高效联结。全局比特池技术允许比特分配器基于随需模式在音频声道之间分发可用比特。如果一个或多个声道在特定蚀刻处于非活动状态,则剩余声道接收比其它情况下接收的比特更多的比特。
在AC-3音频压缩系统中,比特分配处理采用有限搜索。在搜索的每次反复中,变化信噪比(SNR)参数以控制比特的分配。这还影响其它参数的值。在搜索的末尾,如果使用的比特数量超过分配的比特数量,则使用最后的合法分配。通常,该分配不能使用所有可用比特,从而留下未使用比特或无用比特。
如先前所讨论的,AC-3串行编码的音频比特流由通常如图9a所示被构建的帧序列构成。每个AC-3帧代表所有编码的声道中1536个PCM采样的恒定时间间隔,并且包含6个编码的音频块(AB0到AB5),所述音频块均代表256个新的音频采样。每个AC-3帧具有固定的大小(范围从64比特到1920比特的比特数量中的几种大小中的一个),所述固定的大小取决于PCM采样率(32kHz、44.1kHz或48kHz)和编码的音频比特率(范围从32kbps到640kbps的离散值)。位于每一帧的开端的同步信息(SI)头部包含捕获和保持同步所需的信息。比特流信息(BSI)头部跟在SI字段之后,并包含描述编码的音频服务的参数。SI和BSI字段描述比特流配置,包括:采样率、数据率、编码的音频声道数量以及若干其它系统级的元素。在编码的音频块(AB0到AB5)之后的是辅助数据(AUX)字段。在每一帧的末尾是检错字段,其包括用于检错的CRC字(循环冗余纠错码字)。此外,另一CRC字位于SI头部中。
尽管图9a中的比特流元素的宽度大致给出每个元素中的典型比特数量,但是该附图不是按照比例显示的。块AB0显示为比其它块宽,这是因为每一帧必须独立于其它帧,块AB1到AB5可共享块AB0携带的信息而不必重复所述信息,从而允许块AB1到AB5携带比块AB0少的比特。除了可进行共享之外,音频块还具有可变长度,这是因为在每个块中可分配给量化尾数的比特数量可变。
如以上引用的第6,807,528号美国专利中所解释的,每当编码器中的比特分配功能没有采用所有可用比特来对音频信号进行编码时,帧中存在未使用比特。如果最终比特分配不足以使用所有可用比特或者输入音频不需要所有可用比特,则出现上述情况。因为应该将这些未使用比特置于帧中的某些位置,以便所述帧具有强制的固定大小,所以编码器将伪比特或空比特出入比特流,以便填满比特的长度。所述空比特被插入一个或多个音频块中的“跳过字段”(如图9d所示)以及AUX字段。每个跳过字段按照8比特的字节来接受空比特,而aux字段最多接收7个空比特以便提供对帧长度的“精细调整”并确保最终CRC字出现在帧的最后16比特中。实际上,空比特是随机的比特。所述空比特是不携带有用信息的无用比特。本发明的一方面在于使用某些或所有所述空比特的值以携带与某些包含在比特流之内的AC-3参数有关的负载信息的比特(特别是图9c所示的DIALNORM参数)。
解码器跳过或忽略掉过字段和AUX字段中的空比特。尽管AC-3解码器能够识别空比特并忽略它们,但是空比特的数量以及它们在比特流中的位置不是事先已知的(它们的数量和位置在帧之间变化,即,跳过字段具有可变大小,它们在块AB1到AB5的开始位置有所变化,类似地,AUX字段具有可变大小,它的开始位置也变化),也不能够仅仅通过对AC-3比特流的检测就分辨出它们的数量和位置(空比特是随机的,并且在比特流中无法与其它数据相区分)。
每个音频块(AB0到AB5)开始于“固定数据”,所述固定数据由事先已知其字大小(比特长度)的比特流元素构成(即,这些固定数据元素具有预先分配的比特数量,并且比特分配处理不向其分配比特)。固定数据是参数和标记的集合,包括:块切换标记、联结信息、指数和比特分配参数。在固定数据之后是“跳过字段”数据,其在跳过字段不包括空比特的情况下具有1比特的最小大小,在跳过字段包含空比特的情况下具有522比特的最大大小。作为跳过字段的最少内容的1比特字指示跳过字段是否包括空比特。如果包括空比特,则接着由9比特字指示空比特字节的数量。其后跟随有空字节。在跳过字段子后为尾数数据。尾数数据的大小可变并由比特分配来确定。
通过以下规则来确定特定音频块是否包含具有空比特的跳过字段:1)SYCINFO字段(即,SYNCWORD、第一CRC字段、采样频率码字和帧大小码字)、BSI字段、音频块0(AB0)和音频块1(AB1)的组合大小从不超过帧的5/8;2)音频块5(AB5)尾数数据、AUX数据字段和检错字段的组合大小从不超过帧的最后3/8。5/8和3/8的配置用于减少等待时间(第一CRC字应用于帧的开始5/8,允许更快的解码)。原则上,如果不是5/8和3/8配置,则可将所有空比特插入AUX字段,不需要一个或多个跳过字段。
AUX数据字段具有两个功能。以上所述的AUX数据字段的一种功能在于提供对于帧长度的精细调整,并确保帧的最后16比特用于第二CRC字。最多将7个空比特插入AUX数据。AUX字段的第二功能是可选的并且独立于第一功能,所述第二功能为携带附加信息(“auxdata”),其代价为使用本可分配给音频块中的尾数的比特。AUX数据字段的最后比特指示是否存在任何可选auxdata。如果该比特指示存在auxdata,则之前的14比特字指示auxdata的长度,接下来的先前比特为auxdata。如果存在空比特,则其位于AUX字段中的auxdata数据之前。如果aux字段不具有auxdata,则存在空比特的话,空比特位于AUX数据字段末尾的单个比特之前,该单个比特指示是否存在auxdata。因此,无论是否存在auxdata,在AUX字段中可以存在或不存在空比特。如果不存在未使用比特(在给定帧中不存在未使用比特,而在许多连续的帧中出现这种情况的可能性极低)或者空比特的数量不能被8整除,则AUX字段中不存在空比特,因此,所有的空比特在一个或多个跳过字段中携带。
在标准AC-3编码配置中,在AUX字段和/或AUX字段和一个或多个跳过字段中的空比特是未使用比特或无用比特(即,它们不携带有用信息)。根据本发明的各方面,如以上所讨论的,用携带信息的元数据校验比特来替换某些或所有所述未使用比特,同时保留与现有AC-3编码器和解码器的完全兼容并避免任何编码的音频信号的降级。
新的携带信息的比特优选地符合已知或预定的格式或语法,从而可通过元数据参数(例如DIALNORM)校验解码器处理来恢复所述携带信息的比特。可在任何有效AC-3编码器创建AC-3比特流之后实现元数据(DIALNORM)校验比特对无用比特的替换。例如,可采用传统的非改进型AC-3编码器来产生标准AC-3比特流。分析所产生的比特流,以识别每一帧中某些或所有未使用比特的位置。随后,用携带信息的比特(DIALNORM校验数据比特)来替换某些或所有识别的未使用比特,所述携带信息的比特被嵌入由未使用比特先前占据的位置。因为某些数据被改变(某些或所有空比特被改变),所以重新计算用于整个帧的校验和,并用新的CRC字来替换应用于整个帧的第二CRC字,如果所述帧的开始3/8中的数据被改变,则重新计算用于该帧的所述部分的校验和,也用新的CRC字来替换应用于帧的开始3/8的第一CRC字。
或者,不用遵循标准编码的携带信息的比特来替换某些后所有AC-3比特流中的未使用比特,包括附加分析和元数据校验能力的改进型AC-3编码器可在编码处理期间将携带信息的比特插入帧的某些或所有未使用比特位置而不是随机的空比特。
不管在编码处理之前还是之后对AC-3比特流进行改进,所产生的改进比特流对于传统AC-3解码器而言是相同的。接收改进比特流的非改进型AC-3解码器按照其在相同的比特位置忽略或跳过空比特的相同方式来忽略携带信息的比特。可在改进型AC-3解码器或专用AC-3元数据分析处理中恢复替换未使用比特的携带信息的比特,所述改进型AC-3解码器或专用AC-3元数据分析处理识别帧中未使用比特的位置,检测未使用比特位置中的数据,并报告对AC-3比特流执行的元数据校验分析的结果。在任何情况下,对替换AC-3比特流中的未使用比特的校验数据的恢复和分析不会扰乱比特流的提示。因此,本发明的各方面可通过以下两种方式来保持音频质量:不使用其它情况下会被用于音频的比特,并且可避免对比特流进行解码和重新编码的需要(尽管如上所述,这种处理可能是必要和有用的)。
AC-3对话声级以及压缩元数据参数
如上所述,包括在AC-3帧元数据中的是指示包含在压缩音频中的讲话或对话的响度声级的参数。该参数被称为DIALNORM,并且该参数的目的在于在音频项被编码或进行数据压缩之前,测量所述项中的对话或讲话的主要声级。该测量随后用于在包含压缩音频项的比特流的每一帧中设置DIALNORM参数。在重放所述比特流期间,AC-3解码器使用DIALNORM参数来修改所述项的重放声级或响度,从而对话的感知响度处于一致的声级上。
图10a示出包含三种不同的音频项的示例。数字声级是数据压缩的音频内容相对于数字实比正弦波形的声级(0dB FS)。示出用于每一项的最大和最小声级,连同对话的预定声级。用于每一项的DIALNORM参数是对话的声级,其按照1dB为单位进行取整、图10b示出在重放期间,解码器如何对每一项的声级进行缩放,使得每一项的对话的声级或响度相同或非常近似。对于AC-3系统,每一项的对话被缩放的参考声级为-31dB FS。随后,可在重放系统中将所述参考数字声级校准到期望的声压级别。
在AC-3中对DIALNORM参数的使用通过减少存在于不同音频项之间的剧烈响度差来向收听者提供更加一致和可预见的收听体验,其中,所述不同音频项由不同的人在不同收听环境中为了不同的目的而创建。然而,由于以上讨论的原因,DIALNORM参数可能不正确。
动态范围压缩
在AC-3帧元数据中还包括参数,所述参数如果在重放期间应用于音频,则用于减少音频内容的动态范围。也就是说,使得音频的较响部分变得较安静,并使得音频的较安静部分变得较响。这些动态范围压缩参数被称为COMPR和DYNRNG,并且在对AC-3比特流进行编码期间被自动计算。参见图9。
减少音频的动态范围的能力可用于多种情况。例如,当在深夜观看电影时,通常有必要在降低的重放音量下来收听,从而不会打扰睡着的家庭成员或邻居。因为电影易于具有非常大的动态范围,所以降低的重放音量导致电影的大部分过于安静以致收听不到。动态范围压缩的使用有助于增加安静的部分,使得它们能够被听到,并减少最响的部分,使得它们对人的打扰较轻。
参照由DIALNORM参数指示的对话的声级来计算动态范围压缩参数。这保证对话的平均声级不变而只有音频的较响或较轻柔部分被改变。
图11示出包含三种不同的音频项的示例。图11a示出未处理音频项的平均对话声级和动态范围。图11b示出在重放期间,动态范围压缩以及DIALNORM参数的应用如何在所有三种项之间导致一致的平均对话声级以及减少的动态范围输出信号。
因为动态范围压缩参数的计算与对话声级相关,所以它们的使用依赖于内容创建者正确地测量并设置DIALNORM参数。如果在由DIALNORM指示的对话的声级与音频内容中对话的实际声级之间存在差错,则由于压缩,对话很可能表现出不希望得到的可听动态增益改变。
DIALNORM2、COMPR2和DINRNG2
在多数情况下,AC-3系统对于所有的声道使用单个对话声级以及单组动态范围信息参数。然而,AC-3包括允许两个声道独立操作的操作模式;也就是说,每个声道具有独立的对话声级和动态范围信息。在该模式下,所述两个声道中的第二声道使用DIALNORM2、COMPR2和DYNRNG2参数(见图9)。因为按照与DIALNORM、COMPR和DYNRNG完全相同的方式来解释和使用DIALNORM2、COMPR2和DYNRNG2,所以在该文档中仅描述前者的操作。
实现
可利用硬件或软件、或者两者的组合(例如,可编程逻辑阵列)来实现本发明。除非另外说明,否则作为本发明的一部分所包括的算法或处理并非必然涉及任何特定的计算机或其它设备。具体说来,各种通用机器可通过根据这里的教导写入的程序来使用,或者可更加方便地构建更加专用的设备(例如,集成电路)来执行需要的方法步骤。因此,可通过在一个或多个可编程计算机系统上运行的一个或多个计算机程序来实现本发明,所述一个或多个可编程计算机系统均包括:至少一个处理器、至少一个数据存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入装置或端口和至少一个输出装置或端口。将程序代码应用于输入数据以执行这里所述的功能并产生输出信息。按照已知的方式将输出信息应用于一个或多个输出装置。
可按照任何期望的计算机语言(包括机器语言、汇编语言或高级程序语言、逻辑语言或面向对象的编程语言)来实现每个所述的程序以与计算机系统通信。在任何情况下,所述语言可以是编译或解释的语言。
应认识到:在示例性附图中示出的某些步骤或功能执行多个子步骤,并且还可显示为多个步骤或功能,而不是一个步骤或功能。还应认识到:在这里的各个示例中示出和描述的各个装置、功能、步骤和处理还可被显示为按照不同于所述各个附图中显示的方式进行组合或分离。例如,当通过计算机软件指令序列来实现示例性附图中的各个功能和步骤时,可通过在适合的数字信号处理硬件上运行的多线程软件指令序列来实现所述各个功能和步骤,在这种情况下,附图中所示的示例中的各个装置和功能可相应于软件指令部分。
每个所述计算机程序被优选地存储或下载到通用或专用可编程计算机可读取的存储介质或装置(例如,固态存储器或介质、或者磁介质或光介质),以便当计算机系统读取存储介质或装置时,配置并操作计算机来执行这里所述的过程。还可考虑将本发明的系统实现为配置有计算机程序的计算机可读存储介质,其中,将存储介质配置为促使系统按照特定的预先定义的方式来执行这里所述的功能。
已经描述了本发明的若干实施例。然而,将理解到:在不脱离本发明的精神和范围的情况下,可进行各种改进。例如,这里描述的某些步骤可以不按顺序发生,因此可按照不同于所描述的顺序来执行这些步骤。
Claims (10)
1.一种响应于音频而产生数字比特流的处理方法,所述处理方法包括:
产生对于音频而言正确的元数据,
产生元数据校验信息,元数据校验信息能够用于检测元数据对于音频而言是否正确,并且如果不正确,则对其进行改变以使其正确,以及
组装数字比特流,所述数字比特流包括:代表音频的数据比特、元数据以及元数据校验信息。
2.如权利要求1所述的处理方法,其中,所述产生元数据的步骤基于音频的响度的测量来产生元数据。
3.如权利要求1所述的处理方法,其中,能够用于检测并改变元数据的元数据校验信息包括所述元数据的正确版本的副本或数据压缩的副本。
4.如权利要求1所述的处理方法,其中,元数据校验信息被加密。
5.如权利要求1所述的处理方法,其中,代表元数据校验信息的比特替换比特流中不携带任何信息的多个比特中的全部比特或一些比特。
6.如权利要求1所述的处理方法,其中,元数据校验信息在比特流中被隐秘编码。
7.一种用于处置数字音频比特流的处理方法,所述数字音频比特流包括:代表音频的数据比特、预期对于音频而言正确的元数据,其中,全部或部分元数据对于音频而言可能不正确,并且所述数字音频比特流可包括代表元数据校验信息的数据比特,所述元数据校验信息能够用于检测对于音频而言不正确的元数据,并且如果不正确,则对其进行改变以使其正确,所述处理方法包括:
确定元数据校验信息是否存在于比特流中,以及
如果存在元数据校验信息,则确定其是否证实至少一部分元数据的正确性,
如果元数据校验信息证实所述正确性,则保留比特流不变,
如果元数据校验信息没有证实所述正确性,则纠正所述至少一部分元数据,
如果不存在元数据校验信息,则确定至少一部分元数据是否正确,
如果所述至少一部分元数据正确,则保留比特流不变,以及
如果所述至少一部分元数据不正确,则将所述至少一部分元数据设置为等于默认值。
8.一种用于处置数字音频比特流的处理方法,所述数字音频比特流包括:代表音频的数据比特、预期对于音频而言正确的元数据,其中,全部或部分元数据对于音频而言可能不正确,并且所述数字音频比特流可包括代表元数据校验信息的数据比特,所述元数据校验信息能够用于检测对于音频而言不正确的元数据,所述处理方法包括:
确定元数据校验信息是否存在于比特流中,以及
如果存在元数据校验信息,则保留比特流不变,
如果不存在元数据校验信息,则确定至少一部分元数据是否正确,
如果所述至少一部分元数据正确,则将用于所述至少一部分元数据的元数据校验信息插入比特流中,以及
如果所述至少一部分元数据不正确,则将所述至少一部分元数据设置为等于默认值。
9.一种用于对数字音频比特流进行解码的处理方法,所述数字音频比特流包括:代表音频的数据比特、预期对于音频而言正确的元数据,其中,全部或部分元数据对于音频而言可能不正确,并且所述数字音频比特流可包括代表元数据校验信息的数据比特,所述元数据校验信息能够用于检测元数据对于音频而言是否正确,并且如果不正确,则对其进行改变以使其正确,所述处理方法包括:
确定元数据校验信息是否存在于比特流中,
如果存在元数据校验信息,则确定其是否证实至少一部分元数据的正确性,
如果所述元数据校验信息证实所述正确性,则使用具有所述正确性的所述元数据对比特流进行解码,
如果元数据校验信息没有证实所述至少一部分元数据的正确性,则使用它来纠正元数据并使用纠正的元数据对比特流进行解码,以及
如果元数据校验信息没有存在于比特流中,则使用比特流中的元数据对比特流进行解码,或者使用默认元数据对比特流进行解码。
10.一种用于对数字音频比特流进行解码的处理方法,所述数字音频比特流包括:代表音频的数据比特、预期对于音频而言正确的元数据,其中,全部或部分元数据对于音频而言可能不正确,并且所述数字音频比特流可包括代表元数据校验信息的数据比特,所述元数据校验信息能够用于检测元数据对于音频而言是否正确,并且如果不正确,则对其进行改变以使其正确,所述处理方法包括:
确定元数据校验信息是否存在于比特流中,
如果存在元数据校验信息,则确定其是否证实至少一部分元数据的正确性,
如果所述元数据校验信息证实所述正确性,则使用具有所述正确性的所述元数据对比特流进行解码,
如果元数据校验信息没有证实所述至少一部分元数据的正确性,则使用它来纠正元数据并使用纠正的元数据对比特流进行解码,
如果元数据校验信息没有存在于比特流中,则确定所述至少一部分元数据是否正确,
如果所述至少一部分元数据正确,则使用正确的所述元数据对比特流进行解码,以及
如果所述至少一部分元数据不正确,则利用被设置为等于默认值的所述至少一部分元数据对比特流进行解码。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US67136105P | 2005-04-13 | 2005-04-13 | |
US60/671,361 | 2005-04-13 | ||
PCT/US2006/011202 WO2006113062A1 (en) | 2005-04-13 | 2006-03-23 | Audio metadata verification |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101160616A CN101160616A (zh) | 2008-04-09 |
CN101160616B true CN101160616B (zh) | 2011-12-07 |
Family
ID=36655019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006800121334A Active CN101160616B (zh) | 2005-04-13 | 2006-03-23 | 用于产生、处置或解码数字比特流的处理方法 |
Country Status (17)
Country | Link |
---|---|
US (1) | US20090063159A1 (zh) |
EP (1) | EP1878010B1 (zh) |
JP (1) | JP5166241B2 (zh) |
KR (1) | KR101253225B1 (zh) |
CN (1) | CN101160616B (zh) |
AU (1) | AU2006237491B2 (zh) |
BR (1) | BRPI0609300A2 (zh) |
CA (1) | CA2604817C (zh) |
DK (1) | DK1878010T3 (zh) |
ES (1) | ES2527552T3 (zh) |
HK (1) | HK1113429A1 (zh) |
IL (1) | IL186047A (zh) |
MX (1) | MX2007012734A (zh) |
MY (1) | MY147064A (zh) |
PL (1) | PL1878010T3 (zh) |
TW (1) | TW200638335A (zh) |
WO (1) | WO2006113062A1 (zh) |
Families Citing this family (56)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7711123B2 (en) | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
US7610205B2 (en) | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
US7461002B2 (en) | 2001-04-13 | 2008-12-02 | Dolby Laboratories Licensing Corporation | Method for time aligning audio signals using characterizations based on auditory events |
ATE430360T1 (de) | 2004-03-01 | 2009-05-15 | Dolby Lab Licensing Corp | Mehrkanalige audiodekodierung |
US7508947B2 (en) | 2004-08-03 | 2009-03-24 | Dolby Laboratories Licensing Corporation | Method for combining audio signals using auditory scene analysis |
MX2007015118A (es) | 2005-06-03 | 2008-02-14 | Dolby Lab Licensing Corp | Aparato y metodo para codificacion de senales de audio con instrucciones de decodificacion. |
US8144881B2 (en) | 2006-04-27 | 2012-03-27 | Dolby Laboratories Licensing Corporation | Audio gain control using specific-loudness-based auditory event detection |
JP4193865B2 (ja) * | 2006-04-27 | 2008-12-10 | ソニー株式会社 | デジタル信号切換え装置及びその切換え方法 |
JP4175390B2 (ja) * | 2006-06-09 | 2008-11-05 | ソニー株式会社 | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
US7934264B2 (en) * | 2007-07-27 | 2011-04-26 | International Business Machines Corporation | Methods, systems, and computer program products for detecting alteration of audio or image data |
PL2232700T3 (pl) | 2007-12-21 | 2015-01-30 | Dts Llc | System regulacji odczuwanej głośności sygnałów audio |
WO2010053728A1 (en) * | 2008-10-29 | 2010-05-14 | Dolby Laboratories Licensing Corporation | Signal clipping protection using pre-existing audio gain metadata |
US9179235B2 (en) * | 2008-11-07 | 2015-11-03 | Adobe Systems Incorporated | Meta-parameter control for digital audio data |
US8527267B2 (en) * | 2008-12-04 | 2013-09-03 | Linear Accoustic, Inc. | Adding additional data to encoded bit streams |
TWI384459B (zh) * | 2009-07-22 | 2013-02-01 | Mstar Semiconductor Inc | 音框檔頭之自動偵測方法 |
US8538042B2 (en) | 2009-08-11 | 2013-09-17 | Dts Llc | System for increasing perceived loudness of speakers |
TWI525987B (zh) * | 2010-03-10 | 2016-03-11 | 杜比實驗室特許公司 | 在單一播放模式中組合響度量測的系統 |
WO2012006171A2 (en) * | 2010-06-29 | 2012-01-12 | Georgia Tech Research Corporation | Systems and methods for detecting call provenance from call audio |
US8948406B2 (en) * | 2010-08-06 | 2015-02-03 | Samsung Electronics Co., Ltd. | Signal processing method, encoding apparatus using the signal processing method, decoding apparatus using the signal processing method, and information storage medium |
US20120033819A1 (en) * | 2010-08-06 | 2012-02-09 | Samsung Electronics Co., Ltd. | Signal processing method, encoding apparatus therefor, decoding apparatus therefor, and information storage medium |
TWI716169B (zh) * | 2010-12-03 | 2021-01-11 | 美商杜比實驗室特許公司 | 音頻解碼裝置、音頻解碼方法及音頻編碼方法 |
TWI574565B (zh) * | 2011-03-31 | 2017-03-11 | Sony Corp | A transmitting apparatus, a transmitting method, a receiving apparatus, a receiving method, a computer-readable medium, and a broadcasting system |
US9620131B2 (en) * | 2011-04-08 | 2017-04-11 | Evertz Microsystems Ltd. | Systems and methods for adjusting audio levels in a plurality of audio signals |
JP5719966B2 (ja) | 2011-04-08 | 2015-05-20 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 2つのエンコードされたビットストリームからのオーディオストリームの混合において使用するためのメタデータの自動設定 |
US8965774B2 (en) * | 2011-08-23 | 2015-02-24 | Apple Inc. | Automatic detection of audio compression parameters |
WO2013078056A1 (en) | 2011-11-22 | 2013-05-30 | Dolby Laboratories Licensing Corporation | Method and system for generating an audio metadata quality score |
JP5909100B2 (ja) * | 2012-01-26 | 2016-04-26 | 日本放送協会 | ラウドネスレンジ制御システム、伝送装置、受信装置、伝送用プログラム、および受信用プログラム |
US9312829B2 (en) | 2012-04-12 | 2016-04-12 | Dts Llc | System for adjusting loudness of audio signals in real time |
EP2680259A1 (en) * | 2012-06-28 | 2014-01-01 | Thomson Licensing | Method and apparatus for watermarking an AC-3 encoded bit stream |
FR2996388B1 (fr) * | 2012-10-01 | 2015-10-30 | Sigfox | Procede de transmission d'une information utile entre deux terminaux et procede de generation d'une table d'association utilisee dans le cadre de la transmission |
MX339611B (es) * | 2013-01-21 | 2016-05-31 | Dolby Laboratories Licensing Corp | Codificador y decodificador de audio con metadatos de limite y sonoridad de programa. |
US9841941B2 (en) * | 2013-01-21 | 2017-12-12 | Dolby Laboratories Licensing Corporation | System and method for optimizing loudness and dynamic range across different playback devices |
CN103943112B (zh) * | 2013-01-21 | 2017-10-13 | 杜比实验室特许公司 | 利用响度处理状态元数据的音频编码器和解码器 |
WO2014114781A1 (en) * | 2013-01-28 | 2014-07-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for normalized audio playback of media with and without embedded loudness metadata on new media devices |
US9559651B2 (en) * | 2013-03-29 | 2017-01-31 | Apple Inc. | Metadata for loudness and dynamic range control |
TWM487509U (zh) * | 2013-06-19 | 2014-10-01 | 杜比實驗室特許公司 | 音訊處理設備及電子裝置 |
US20150025894A1 (en) * | 2013-07-16 | 2015-01-22 | Electronics And Telecommunications Research Institute | Method for encoding and decoding of multi channel audio signal, encoder and decoder |
CN105556837B (zh) | 2013-09-12 | 2019-04-19 | 杜比实验室特许公司 | 用于各种回放环境的动态范围控制 |
EP3522157B1 (en) * | 2013-10-22 | 2021-09-22 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Concept for combined dynamic range compression and guided clipping prevention for audio devices |
WO2015180866A1 (en) | 2014-05-28 | 2015-12-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Data processor and transport of user control data to audio decoders and renderers |
US9286383B1 (en) | 2014-08-28 | 2016-03-15 | Sonic Bloom, LLC | System and method for synchronization of data and audio |
EP4044180A1 (en) * | 2014-10-01 | 2022-08-17 | Dolby International AB | Decoding an encoded audio signal using drc profiles |
EP4060661B1 (en) * | 2014-10-10 | 2024-04-24 | Dolby Laboratories Licensing Corporation | Transmission-agnostic presentation-based program loudness |
US20160337429A1 (en) * | 2015-05-15 | 2016-11-17 | Spotify Ab | Method and device for resumed playback of streamed media |
US10338794B2 (en) | 2015-05-15 | 2019-07-02 | Spotify Ab | Playback of media streams in dependence of a time of a day |
US9837086B2 (en) * | 2015-07-31 | 2017-12-05 | Apple Inc. | Encoded audio extended metadata-based dynamic range control |
US11130066B1 (en) | 2015-08-28 | 2021-09-28 | Sonic Bloom, LLC | System and method for synchronization of messages and events with a variable rate timeline undergoing processing delay in environments with inconsistent framerates |
FR3044814A1 (fr) * | 2016-04-21 | 2017-06-09 | Continental Automotive France | Systeme et procede de controle du volume sonore dans un systeme multimedia |
US20170311005A1 (en) * | 2016-04-26 | 2017-10-26 | Szu-Tung Lin | Method of wireless audio transmission and playback |
US10210881B2 (en) * | 2016-09-16 | 2019-02-19 | Nokia Technologies Oy | Protected extended playback mode |
US10091349B1 (en) | 2017-07-11 | 2018-10-02 | Vail Systems, Inc. | Fraud detection system and method |
US10623581B2 (en) | 2017-07-25 | 2020-04-14 | Vail Systems, Inc. | Adaptive, multi-modal fraud detection system |
TWI702594B (zh) * | 2018-01-26 | 2020-08-21 | 瑞典商都比國際公司 | 用於音訊信號之高頻重建技術之回溯相容整合 |
EP4221264A1 (en) | 2018-04-09 | 2023-08-02 | Dolby International AB | Methods, apparatus and systems for three degrees of freedom (3dof+) extension of mpeg-h 3d audio |
US11250867B1 (en) * | 2019-10-08 | 2022-02-15 | Rockwell Collins, Inc. | Incorporating data into a voice signal with zero overhead |
KR102453919B1 (ko) | 2022-05-09 | 2022-10-12 | (주)피플리 | 인공지능 기반 문화 콘텐츠 관련 가이드 음원의 검증 방법, 장치 및 시스템 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1379952A (zh) * | 1999-09-03 | 2002-11-13 | 托马斯·W·米耶 | 数字信息的编码 |
CN1393882A (zh) * | 2001-06-22 | 2003-01-29 | 汤姆森许可贸易公司 | 存取元数据的简化方法和装置 |
US6807528B1 (en) * | 2001-05-08 | 2004-10-19 | Dolby Laboratories Licensing Corporation | Adding data to a compressed data frame |
Family Cites Families (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59221047A (ja) * | 1983-05-30 | 1984-12-12 | Victor Co Of Japan Ltd | デイジタル信号伝送における同期信号検出回路 |
JPH0681058B2 (ja) * | 1983-09-26 | 1994-10-12 | パイオニア株式会社 | デ−タ送受信方式 |
CA1235189A (en) * | 1985-01-14 | 1988-04-12 | Haruhiko Akiyama | Error correction encoding system |
US4953112A (en) * | 1988-05-10 | 1990-08-28 | Minnesota Mining And Manufacturing Company | Method and apparatus for determining acoustic parameters of an auditory prosthesis using software model |
MY110584A (en) * | 1992-10-09 | 1998-08-29 | Koninklijke Philips Electronics Nv | Method of and device for correction errors and erasures in digital information |
GB2272615A (en) * | 1992-11-17 | 1994-05-18 | Rudolf Bisping | Controlling signal-to-noise ratio in noisy recordings |
JP2611667B2 (ja) * | 1994-07-27 | 1997-05-21 | 日本電気株式会社 | 異種フレーム形式混在通信システム |
JP2671821B2 (ja) * | 1994-09-28 | 1997-11-05 | 日本電気株式会社 | データ伝送装置 |
US5646997A (en) * | 1994-12-14 | 1997-07-08 | Barton; James M. | Method and apparatus for embedding authentication information within digital data |
JP2768297B2 (ja) * | 1995-03-23 | 1998-06-25 | 日本電気株式会社 | データ転送方法とその装置 |
US5699369A (en) * | 1995-03-29 | 1997-12-16 | Network Systems Corporation | Adaptive forward error correction system and method |
CA2175394C (en) * | 1995-05-19 | 2001-07-03 | Ichiro Okajima | Terminal, network, and communication system |
US5828677A (en) * | 1996-03-20 | 1998-10-27 | Lucent Technologies Inc. | Adaptive hybrid ARQ coding schemes for slow fading channels in mobile radio systems |
US6427012B1 (en) * | 1997-05-19 | 2002-07-30 | Verance Corporation | Apparatus and method for embedding and extracting information in analog signals using replica modulation |
US6185309B1 (en) * | 1997-07-11 | 2001-02-06 | The Regents Of The University Of California | Method and apparatus for blind separation of mixed and convolved sources |
US6088826A (en) * | 1997-08-21 | 2000-07-11 | Advanced Micro Devices Inc. | Method for checking data for errors in data communication systems |
US6141788A (en) * | 1998-03-13 | 2000-10-31 | Lucent Technologies Inc. | Method and apparatus for forward error correction in packet networks |
GB2340351B (en) * | 1998-07-29 | 2004-06-09 | British Broadcasting Corp | Data transmission |
US6188987B1 (en) * | 1998-11-17 | 2001-02-13 | Dolby Laboratories Licensing Corporation | Providing auxiliary information with frame-based encoded audio information |
JP2000235458A (ja) * | 1999-02-15 | 2000-08-29 | Sharp Corp | 補助記憶装置およびこの補助記憶装置を搭載した情報処理装置 |
JP2002539487A (ja) * | 1999-03-10 | 2002-11-19 | ディジマーク コーポレイション | 信号処理方法及び装置 |
JP3728578B2 (ja) * | 1999-03-31 | 2005-12-21 | 富士通株式会社 | マルチキャリア伝送における不均一誤り保護方法並びにその符号器及び復号器 |
JP3699863B2 (ja) * | 1999-07-12 | 2005-09-28 | 株式会社日立コミュニケーションテクノロジー | エラー訂正符号装置、エラー訂正符号復号装置および伝送装置 |
WO2001039370A2 (en) * | 1999-11-29 | 2001-05-31 | Syfx | Signal processing system and method |
US6748441B1 (en) * | 1999-12-02 | 2004-06-08 | Microsoft Corporation | Data carousel receiving and caching |
US6678855B1 (en) * | 1999-12-02 | 2004-01-13 | Microsoft Corporation | Selecting K in a data transmission carousel using (N,K) forward error correction |
US6553511B1 (en) * | 2000-05-17 | 2003-04-22 | Lsi Logic Corporation | Mass storage data integrity-assuring technique utilizing sequence and revision number metadata |
JP2002006885A (ja) * | 2000-06-19 | 2002-01-11 | Sharp Corp | 条件付きデジタル情報の記録再生装置と再生方法とそれに用いられる記録媒体 |
CA2418722C (en) * | 2000-08-16 | 2012-02-07 | Dolby Laboratories Licensing Corporation | Modulating one or more parameters of an audio or video perceptual coding system in response to supplemental information |
AUPQ952700A0 (en) * | 2000-08-21 | 2000-09-14 | University Of Melbourne, The | Sound-processing strategy for cochlear implants |
US6928433B2 (en) * | 2001-01-05 | 2005-08-09 | Creative Technology Ltd | Automatic hierarchical categorization of music by metadata |
US20040037421A1 (en) * | 2001-12-17 | 2004-02-26 | Truman Michael Mead | Parital encryption of assembled bitstreams |
US7707221B1 (en) * | 2002-04-03 | 2010-04-27 | Yahoo! Inc. | Associating and linking compact disc metadata |
GB2403835B (en) * | 2002-04-29 | 2005-11-23 | Sony Electronics Inc | Apparatus and method for providing supplemental enhancement information associated with multimedia data |
US7551745B2 (en) * | 2003-04-24 | 2009-06-23 | Dolby Laboratories Licensing Corporation | Volume and compression control in movie theaters |
US7617438B2 (en) * | 2004-04-15 | 2009-11-10 | International Business Machines Corporation | Method and apparatus for supporting checksum offload in partitioned data processing systems |
JP4320033B2 (ja) * | 2004-05-11 | 2009-08-26 | 日本電信電話株式会社 | 音声パケット送信方法、音声パケット送信装置、および音声パケット送信プログラムとそれを記録した記録媒体 |
US7617109B2 (en) * | 2004-07-01 | 2009-11-10 | Dolby Laboratories Licensing Corporation | Method for correcting metadata affecting the playback loudness and dynamic range of audio information |
-
2006
- 2006-03-22 TW TW095109832A patent/TW200638335A/zh unknown
- 2006-03-23 KR KR1020077023402A patent/KR101253225B1/ko active IP Right Grant
- 2006-03-23 DK DK06748775.1T patent/DK1878010T3/en active
- 2006-03-23 AU AU2006237491A patent/AU2006237491B2/en active Active
- 2006-03-23 EP EP06748775.1A patent/EP1878010B1/en active Active
- 2006-03-23 PL PL06748775T patent/PL1878010T3/pl unknown
- 2006-03-23 CN CN2006800121334A patent/CN101160616B/zh active Active
- 2006-03-23 ES ES06748775.1T patent/ES2527552T3/es active Active
- 2006-03-23 US US11/918,367 patent/US20090063159A1/en not_active Abandoned
- 2006-03-23 BR BRPI0609300-0A patent/BRPI0609300A2/pt not_active Application Discontinuation
- 2006-03-23 WO PCT/US2006/011202 patent/WO2006113062A1/en active Application Filing
- 2006-03-23 JP JP2008506487A patent/JP5166241B2/ja active Active
- 2006-03-23 MX MX2007012734A patent/MX2007012734A/es active IP Right Grant
- 2006-03-23 CA CA2604817A patent/CA2604817C/en active Active
- 2006-04-07 MY MYPI20061584A patent/MY147064A/en unknown
-
2007
- 2007-09-18 IL IL186047A patent/IL186047A/en active IP Right Grant
-
2008
- 2008-03-27 HK HK08103411.7A patent/HK1113429A1/zh unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1379952A (zh) * | 1999-09-03 | 2002-11-13 | 托马斯·W·米耶 | 数字信息的编码 |
US6807528B1 (en) * | 2001-05-08 | 2004-10-19 | Dolby Laboratories Licensing Corporation | Adding data to a compressed data frame |
CN1393882A (zh) * | 2001-06-22 | 2003-01-29 | 汤姆森许可贸易公司 | 存取元数据的简化方法和装置 |
Non-Patent Citations (1)
Title |
---|
Wade Trappe et al..KEY DISTRIBUTION FOR SECURE MULTIMEDIA MULTICASTS VIA DATA EMBEDDING.《Proceedings. (ICASSP"01). 2001 IEEE International Conference on Acoustic, Speech, and Signal Processing, 2001.》.2001,第3卷1449-1452. * |
Also Published As
Publication number | Publication date |
---|---|
MY147064A (en) | 2012-10-15 |
AU2006237491B2 (en) | 2011-09-08 |
IL186047A0 (en) | 2008-02-09 |
WO2006113062A1 (en) | 2006-10-26 |
HK1113429A1 (zh) | 2008-10-03 |
AU2006237491A1 (en) | 2006-10-26 |
KR20080009078A (ko) | 2008-01-24 |
CA2604817A1 (en) | 2006-10-26 |
BRPI0609300A2 (pt) | 2010-03-23 |
TW200638335A (en) | 2006-11-01 |
KR101253225B1 (ko) | 2013-04-16 |
CA2604817C (en) | 2015-06-16 |
EP1878010B1 (en) | 2014-11-05 |
DK1878010T3 (en) | 2015-01-12 |
JP5166241B2 (ja) | 2013-03-21 |
PL1878010T3 (pl) | 2015-03-31 |
EP1878010A1 (en) | 2008-01-16 |
IL186047A (en) | 2013-11-28 |
US20090063159A1 (en) | 2009-03-05 |
JP2008536193A (ja) | 2008-09-04 |
MX2007012734A (es) | 2008-01-11 |
ES2527552T3 (es) | 2015-01-26 |
CN101160616A (zh) | 2008-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101160616B (zh) | 用于产生、处置或解码数字比特流的处理方法 | |
JP4726898B2 (ja) | オーディオ情報の再生音量とダイナミックレンジに影響を与えるメタデータを修正する方法 | |
CN102792588B (zh) | 用于在单个回放模式中结合响度测量的系统 | |
EP2958106B1 (en) | Methods and apparatus for embedding codes in compressed audio data streams | |
EP3123469B1 (en) | Audio encoder device and an audio decoder device having efficient gain coding in dynamic range control | |
EP2783366B1 (en) | Method and system for generating an audio metadata quality score | |
CN105556837A (zh) | 用于各种回放环境的动态范围控制 | |
CN101926181B (zh) | 用于处理音频信号的方法和装置 | |
CN102754151A (zh) | 用于对便携式装置内的音频信号的响度进行非破坏性标准化的系统和方法 | |
CN102971788A (zh) | 音频信号无缝播放的方法及编码器和解码器 | |
CN101950561B (zh) | 水印嵌入方法和装置 | |
US20110311063A1 (en) | Embedding and extracting ancillary data | |
EP1614103B1 (en) | Updating of a buried data channel |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |