本专利申请要求2000年3月2日提交的、题目为“Techniques forAccommodating Primary Content(Pure Voice)Audio and SecondaryContent Remaining Audio Capability in the Digital AudioProduction Process(在数字音频产生过程中用于包容主要内容(纯话音)音频和次要剩余音频能力的技术)”的临时申请No.60/186,357的权益,该专利申请整体地在此引用,以供参考。
优选实施例说明
VRA调节可被用作为用于各种形式的听力障碍的补救方法。音频技术专家将很快指出,对于几乎所有的形式的听力障碍的最佳解决方案是允许听力有障碍的收听者接收感兴趣的声音信号(通常是话音),而不受背景声音的“污染”。所以,可以预期VRA特性能改进听力有障碍的个人的生活。然而,最近的研究发现实际上在所有的人口分段中优选的信号(例如,体育播音员的话音)与其余音频信号(例如,观众的背景噪声)的最佳混合有重大的离散性。对于“收听音频信息方面的差异性”的这种需要的证明,是与整个地球上数以百万计的人类的总的差异性相一致的。
这个发现是在数字音频的来临使得有可能发送大量高质量音频信息以及音频控制信息(或中间数据)到收听者这一时刻得出的。不幸地,至今在任何媒体形式中,还没有把VRA特性引入到数字音频中。在这个领域中的工作只限于提到的所谓的“听力障碍有关的业务”,它被配置为ATSC AC3数字音频标准的任选部分。参阅“A-54:A Guideto the Use of the AC3(A-54:AC3使用指南)”,ATSC报告,1995,它包含很短的段落,描述听力有障碍的用户如何希望只接收声音内容的专门准备的信号以作为AC3比特流的一部分,以及把调节的音量的声音内容与作为ATSC规定的比特流的一部分正常地发送的其他音频通道(主音频业务)进行混和。众所周知,在A54文件中提到的AC3音频格式是基于杜比(Dolby)实验室压缩算法,被数字音频专家称为“感知的编码”压缩格式。感知编码算法被设计成丢弃一定百分数的原始音频信号内容,以便减小归档的文件的贮存容量需求以及减小在实时广播中(诸如HDTV)必须发送的信息量。丢弃的音频数据假设为不受收听者注意的,因为算法试图只消除耳朵反正不能听见的那些数据。不幸地,感知编码算法遇到有关在一定的音频内容被丢弃后能否保持最终收听质量的由来已久的争论。
在任何音频节目中提供VRA能力的一个根本理由是增强最终用户的理解和收听乐趣,这些最终用户当前被迫试图理解或欣赏话音和其余音频的已经混合好的比值。当纯话音是通过损失非常大的压缩算法(诸如,AC3)被提供时,话音质量必然被降低。AC3感知编码算法与大约12∶1的压缩比有关,这意味着原先的音频内容,对于每12个原先的信息比特只保持1比特。这意味着将VRA特性包括进来的主要目的由于压缩算法有这样大的损失而使声音质量受到可感知的损失从而被可论证地丧失掉。
所以,在所有无损失的、或相对较小的损失的数字音频编码译码器中对于包括VRA的技术有压倒性需要,以使得最终用户能够成为在VRA调节方面对于他愿意接受的话音质量作出最后决定的人。
在讨论确保在任何数字音频设置中VRA能力能透明传递到消费者(作为最终收听者)的实施例之前,讨论这样的基础结构是有帮助的,由此可以使得新的“纯话音”内容可被内容提供者以标准化方式接触到。透明的传递是指提供VRA能力给最终收听者,而不管被使用来存储/发送音频节目到最终收听者的重放设备的特定的音频格式(例如,MP3,DTS,真实音频等)。
这种基础结构寻求确保处理过程由发起音频节目的所有方以使得艺术上优点损失最小来进行。这可包括电影、音乐录音、体育节目、无线电节目等等的音频内容的演员、音乐人、体育广播员、导演、和制作者。为了提供能起作用的基础结构,引入新的术语是有帮助的,它进一步阐述和支持先前讨论的话音对其余音频说明。
在本文件的其余部分中使用的新的术语并不打算驳斥或否定“纯话音”和“其余音频”先前的规定。相反,引入新的规定是为了方便基础结构,由此各种音频节目的制作者可以识别适用于编码、压缩和译码处理的这些信号。另外,这个讨论弄清了制作者或次要内容提供者可以用来制作“纯话音”信号和“其余音频信号”的几个可能性。
纯话音/其余音频内容的一个实施例被规定为包括“主要内容纯话音音频”和“次要内容其余音频”内容。这两个标签的理由涉及到最终收听者打算使用的VRA功能,以及音频节目的原作者希望在创建由最终收听者在重放时混合的两个信号时保持技术上的自由。首先,考虑最终收听者打算使用VRA功能。他们希望能够调节音频节目的主要部分,以使得他们能更好地欣赏节目或更好地理解节目。在某些情形下,调节将是明显的。例如,体育播音员的话音,或裁判的宣告,非常雄辩地是体育节目的音频内容中的主要的信息。背景,或其余音频,是观众噪声,它也存在于音频内容中。某些收听者可能希望调节观众噪声到更高的电平,以便感觉更多地介入在比赛中,而其他的收听者可能被观众噪声打扰。所以,看来可以直接了当地说,主要内容纯话音音频信息等同于播音员或裁判的话音,而次要内容其余音频信号是观众的噪声。
在主要内容纯话音与次要内容其余音频之间的区别对于许多其他情形并不容易作出。拿电影的声轨作为例子,在电影中可能有一次有几个人谈话的情形。有时,当这种情形发生时,观众能够以完全理解和欣赏该画移过该情景,即使他/她只听见一个话音。但很可能有别的情景,这时不可避免地要一次听清所有的话音才能保持影片画面的情节。在后一种情形下,所有的话音的混合必须被看作为主要内容纯话音,以便观众欣赏该情景下电影的整个艺术。所以,由制作音频节目的制作者保持很大的艺术许可的程度,因为他们决定节目的哪些部分可以提供给收听者以便用于最终VRA调节。
甚至有可能主要内容纯话音信号是由非话音的音频声音组成的,如果制作者/艺术家感觉非话音的音频在节目的这个时候是必不可少的话。例如,警报响起的声音对于观众理解为什么演员突然离开一个地区是必须的。所以,主要内容纯话音信号在音频节目的所有的时刻并不严格地都看作为话音信号,而要明白这个信号也包含其他声音的短暂段落。
这促发第三个定义,称为“主要内容音频(PCA)”信息。这对于传输的目的也是重要的。本领域技术人员熟知,有可能使用比起通常的音频所使用的算法更经济的压缩算法来压缩仅仅是语音的音频内容。这关系到仅有语音的音频内容的带宽较小。所以,制作者规定信号是“主要内容纯话音(PCPV/PCA)”还是“主要内容音频(PCA)”,对于编码处理的效率和质量是重要的。这还可被提供给编码器作为随音频节目发展而需要改变的参量,以允许在信号被规定为PCPV/PCA时只有语音的编码,以及在节目被标记为PCA时的那些时刻期间被切换到更通常的编码器算法。
PCPV/PCA/SCRA信号制作的另一个重要的特性是在节目的各个点对于任何的或所有的那些信号中的空间信息的潜在需要。几乎肯定有这样的情景,其中重要的是,与电影中话音内容通常是在中间相比,收听者则需要听见来自周围位置的信息。如果没有提供该能力,则节目失去某些艺术优点,并且很可能失去对内容的可欣赏性。对任何重要的空间信息的包容,可通过信号的多通道重放而达到。所以,本发明也寻求描述在其中需要贮存、压缩和译码声音内容纯话音的多通道的那些情形下能够进行的方法。
在过去15年中数字音频技术的发展已引出在产生、编码、和译码“数字声音”的处理方面的多种方法。最重要的是要指出,数字音频信号的多通道的创建、贮存、处理、传递、和重放现在已实践了许多年。事实上,数字音频的最近趋势是不断增加可被传递到重放设备的音频通道的数目。例如,被编排在最近的MPEG-4数字音频标准(ISO###)的主要的新的特性之一是在编码、比特流、和译码处理过程中包容多到64个数字音频通道。
更高数目的音频通道的这种推动并不是这个问题的先决条件。这些实施例的非常重要的卓越的特性是认识到,各种各样的收听者想要(非听力障碍的收听者)或需要(听力有障碍的收听者)配备有新的VRA调节。所以,这种认识导致这样一种需要以便说明数字主带的格式如何与新的编码技术相兼容,这些编码技术已被规划在整个数字音频产生过程中保持PCPV/PCA和SCRA信号的整体性。
保持这种整体性对于确保收听者在重放时最终能够只调节两个信号(话音和其余音频)是重要的。构建PCPV/PCA/SCRA信号的这个动作多半可被看作为同样级别的混合。然而,本发明易于在整个制作过程中保持PCPV/PCA信号,由此给予收听者能只从该信号来理解对话信息的能力。
其他同样重要的观察是,在数字音频自始至终的制作过程中得到PCPV/PCA/SCRA信号所需要的确切技术当前并不存在。所以,下面讨论的某些最重要的实施例是与保持那些信号的整体性的方法有关的。这可以通过使用特别的标题数据和辅助数据通道来完成的,即,(i)“通知”任何编码器:进入的信号具有PCPV/PCA/SCRA信息(即,具有VRA能力的);(ii)指示编码器如何制定比特流,以使得PCPV/PCA/SCRA内容以已知的方式从具有VRA能力的数字主带磁带/文件传递到译码器;以及(iii)向译码器提供以下信息即在重放设备处如何构建、重新构建和或重放PCPV/PCA/SCRA信号。
在描述本发明的实施例之前,使用以上提供的新描述的术语来弄清楚VRA调节的原先的意向也可能是有帮助的。回想起本发明提供的解决方案之一是创建两个独特的音频信号,被称为纯话音和其余音频或PCPV/PCA/SCRA,以及方便地将可以独立地调节每个信号的音量传送给最终收听者。所以,本发明寻求规定新的制作过程,由此最终收听者最后被给予能够仅仅对这两个信号进行音量调节。
从前面的例子可以看到,会出现这样的时候,即PCPV/PCA信号是通过把来自已记录的信息的多通道的音频内容(主要是话音内容音频,如果不是唯一的话)混合在一起而被构建的。然而,非常重要的是,读者要理解,最终结果是仅仅创建两个单独的信号,即PCPV/PCA信号和SCRA信号。正如在本文件中后面显示的实施例所说明的,在这两个信号最终为最终收听者所构建的制作过程中可以有多个位置。例如,制作者可能希望在记录过程期间组合它们,从而使它们处在第一原版磁带上。
另一个方法可以是在节目上记录来自各个歌手/演员的多个话音轨道,然后,组合它们,以便在后期记录的混合进程中创建PCPV/PCA信号。另一个可能性可以是创建具有大量通道的数字磁带,然后沿着数据通道传送,该通道指示译码器如何对那些通道的任何确定的混合产物进行下混频,以便在节目重放期间的任何时刻创建单个PCPV/PCA或SCRA信号。但所有这些发明性方法的最终结果是,只给予最终收听者以能够进行VRA调节的两个信号。
所以,非常显然需要由音频节目的音响工程师以特定的方式对PCPV/PCA/SCRA信号进行处理。此时,在数字录制主带时,编码算法或译码算法中没有建立起各种工业规定的方法,它们将专门使能同时进行透明地(而且完全分开地)传递主要内容(纯话音)的音频和次要内容的剩余音频到最终用户以便用于VRA调节。以下的实施例描述已开发的方法,以便确保内容提供者、次要提供者和最终收听者能对多种音频编码译码器在记录和扬声器重放之间的任何级中充分利用VRA调节。下面详细地描述能进行VRA处理的多种归挡的形式。
下面给出能够由最终收听者进行最后VRA调节的示例性实施例的说明。为了更好地理解这些实施例,第一步是阐明数字音频传递的现有的状态,以便显示出在最后的重放设备处明显省略了PCPV/PCA/SCRA信号,这些设备包括电视、VCR重放器,DVD重放器,CD重放器,或任何其他音频重放设备。概略地,这是在图1上显示的。图上显示典型的音频产生过程,从节目源110部分开始,它应当构成音频节目。然后各个单元通过使用线性的未压缩的音频格式典型地记录在DAT记录器115上。这可称为未压缩的、未混合的数字主带。
接着,有时有混合器/编辑器120,它执行混合和编辑处理,以便创建要被传递到电视观众130,电影观众135或多种其他音频应用的音频通道。例如,该音频内容将包含左右立体声通道,或所谓的5.1通道,包括L,R,C,LS,和RS,或7.1通道,它加上两个附加环绕扬声器。最近的标准,诸如MPEG4,提供甚至更多的数目的音频通道的能力,但现在还在没有大于7.1的其他应用的广泛的实践。130和135的格式将被称为混合的、未压缩的数字主带125。
下一个步骤是在音频编码译码器150中重放未压缩的音频,其中音频多半要经受一定量的压缩和比特流合成。这时,有可能构建压缩的、混合的、数字主带145。制作过程最典型地是作出压缩的、混合的、数字主带145的副本,并发布该副本的版本以和图上所示的另两个主磁带版本作对比。重放设备155然后重放立体声5.1,7.1通道等等,取决于译码器150设置。
为了理解下面给出的本发明的实施例,重要的是指出当前的实践没有提供通过使用数字主磁带配置的、用于PCPV/PCA/SCRA信号的贮存和创建的装置。所以,实施例的以下的分段给出各种方法以构建数字主带,它包容用于最后VRA目的那些信号的制作。
具有VRA能力的数字录制主带实施例
图2A和2B上显示对于创建音频节目的具有VRA能力的数字主磁带或文件的不同版本所需要的实施步骤。“具有VRA能力”是指明显地包括PCPV/PCA和SCRA信号,或包括足够的“VRA辅助数据”的数字主磁带或文件,以使得这两个信号之一或二者可以通过使用从数字主带复制的辅助数据和其他数据在译码器级别上被构建。参照图2A,注意所有的音频节目,不管它们是音乐,电影,电视节目,电影等等,利用话筒把所有类型的音频信息变换成实时电信号(在图2A上表示为“实况”),把它们发送到扬声器,或把它们作为模拟的或DAT记录器205的轨道被存储。该音频信息可以按照节目210的艺术家和或制作者的计划用来得出主要内容音频信号(PCPV/PCA)212,和次要内容剩余音频信号(SCRA)214。
“得出的音频”标签是指艺术处理过程,它与硬件的分量相反,它可以利用一个、两个、或多个音频轨道205。在图2A上,这两个信号然后与来自所有音频源的(包括被使用来得出PCPV/PCA和SCRA信号的那些源)、所有可分开地提供的音轨在DAT记录器的输入节点217处进行重新组合,以便创建用于音频节目215的两个通道的、未混合的、未压缩的、具有VRA能力的数字主带。注意,输入节点217并不严格地把信号相加在一起,而只是把它们简单地组合在单个数字主磁带215上。数字主带215的构建优选地要使用未压缩的或相对较少损失的压缩的数字音频格式以便保持原先的音频信号的质量,诸如线性PCM格式或最佳PCM格式,但并不限于这些特定的格式。(线性PCM格式是熟知的、用于数字音频文件的未压缩的音频格式。)
用于VRA目的的数字主带的整体部分之一是创建特别的“标题”信息,它将主磁带标识为具有VRA能力的和特定的辅助数据,这些数据规定了有关记录过程、所包括的通道的类型、每个通道的标签,两个信号的空间重放指令,以及由音频编码器230和或重放设备225和245中的译码器所需要的其他重要的信息的某些细节。标题信息和VRA辅助数据是本实施例的特性。词组“音频编码译码器”是指其中出现数字信息的压缩的编码过程,某些传输方法是指通过比特流处理送到译码器(通常是基于MPEG的ISO标准),而最后的译码是把压缩信号改变回模拟形式,以便在音频扬声器中重放。对于某些实施例,VRA标题和复制数据信息可以作为在压缩编码级上所引入的分开的比特流而提供,这与在数字主带上进行创建和贮存相反。在下面的章节中将更加详细地讨论辅助数据和标题信息的实施例。
一旦图2A上具有VRA能力的数字主带的未压缩的版本完成时,主磁带的数字信息可被复制以供发布,在具有VRA能力的重放器225上重放以前它是作为未压缩的音频文件格式220而发布的,该重放器225可以对用于该音频节目的未压缩的数字格式的PCPV/PCA/SCRA信号进行译码。例如,传统的CD音频使用未压缩的线性PCM数据文件进行重放。这可能需要CD重放器具有认识音频信息是否为具有VRA能力的设备,并具有包容PCPV/PCA/SCRA信号的设备。
作为第二替换例,数字主文件内容可以通过使用任意数目的音频编码译码器230被压缩,这些音频编码译码器被使用来使通过率和贮存需要最小化。重要的是要指出,音频编码译码器的编码器功能的输出可以在中间步骤被使用,这时音频文件235的压缩的版本被归档240,如图2A所示,或重新产生多个副本中。另外,为了清楚起见,我们指出,从不具有VRA能力的数字主带到这样的压缩的归档文件的当前这种实施相应于熟知的媒体形式,诸如超级CD或DVD音频。
压缩的具有VRA能力的数字主带的归档的版本也可以放置在CD媒体后DVD音频媒体上。然而,把PCPV/PCA和或SCRA通道包括在具有VRA能力的数字主带的归档的版本上,必须具有本发明中描述的特性,以便确保话音和其余音频信号的正确的重放。具体地,压缩的、具有VRA能力的、归档的文件240可被做成可被特定的具有VRA能力的重放设备245使用,它对PCPV/PCA/SCRA音频信号译码并实行VRA调节。
第二替换例,在通过编码译码器的编码处理进行的压缩后,是用于通过各种各样的广播装置直接被发送到重放设备的信息,该重放设备被配置来按照由编码译码器使用的特定的压缩算法对具有VRA能力的数字音频信息进行译码。例如,传输可以是到PC调制解调器的ISDN传输,其中可兼容的能够VRA的译码器将接收音频信息和实行VRA调节。
图2B是VRA能力所需要的音频处理稍微不同的实施例。在这个配置中的差别在于,数字主带155还没有包含PCPV/PCA或SCRA信号260。而是,数字主带255可包含”n”个以同样的方式记录的、非改变的音频轨道,这种方式在目前录音工业中是传统的。艺术家-制作者得出的PCPV/PCA和SCRA信号260在普通的(即,不具有VRA能力的)数字主带255的下游通过由艺术特色和音频节目的内容规定的混合过程而被创建。
这些信号的混合的实施是通过使用在以下的章节中讨论的、具有VRA能力的编码处理而完成的。这时,来自数字主带255的未改变的音轨和PCPV/PCA/SCRA信号260被具有VRA能力的音频编码译码器265编码,以及重放设备280以对于图2A实施例讨论的同样的方式使用这些信号。对于本实施例,决不存在具有VRA能力的数字主带的未压缩的版本。如果音频节目的制作者希望把规定和混合独特的PCPV/PCA/SCRA信号这种另外的任务传送到次要的音频提供者的话,这个方法可能是优选的。
第三个可能的实施例是由于这样一种知识的推动,即最好是规定SCRA信号的内容作为将被存储在数字主带上的非PCPV/PCA通道的某个组合。这显示于图3。对于这种情形,只有PCPV/PCA信号创建未压缩的数字主带之前被创建,它连同其他音频信息一起被存储在主带上。对于本实施例,特定的VRA辅助信息(数据)也将以数字形成包括在主带内,其中该信息规定如何从存储在数字主带的非PCPV/PCA音频通道的某些组合来构建SCRA通道。该信息将被提供给任何下游编码处理过程,以便发送到具有VRA能力的译码器。具有VRA能力的译码器然后负责通过使用在辅助数据中规定的下混合参量而实时地创建SCRA通道。(有各种各样的方式规定SCRA通道制作,这些将在后面描述能够进行VRA的音频编码译码器的特性的章节中讨论)总结图3的讨论,未压缩的数字主带音频内容320然后创建”1个通道的、具有VRA能力的”数字主带。
为了进一步解释,应当指出,下混合的作用显然不是新的,它每天被使用于音频工程。相反,这里描述的创新是关系到VRA辅助数据的创建和传输,它能构建次要内容其余音频进一步与PCPV/PCV信号相组合,以方便进行两个信号的VRA调节。
图3显示具有VRA能力的数字音频主磁带或文件的实施例的不同的方面。注意,音频数据可以在同一个磁带上与视频数据混和,所以,具有VRA能力的数字音频主磁带不一定必须是只有音频的磁带格式。所以,整个数字主带讨论同样很好地应用于用于电影,预先记录的电视节目,或音乐记录的数字主带。
图3所示的实施例被称为“后混合”的具有VRA能力的数字主磁带315。正如这个实施例显示的,PCPV/PCA信号是通过混和来自任意数目的音频通道的音频内容(在图上它们可被看作为模拟信号)而创建的,而SCRA信号的创建是在信号被数字化为分开的通道之前,通过混和被看作为“其余音频”的其他音频内容,连同对于左,右,左环绕,右环绕,中置,和低频效果通道被创建的音频内容而实现。八个信息轨道通过使用未压缩的音频格式(例如,但不限于线性PCM)被存储在数字磁带上。
图3所示的另一个实施例被称为“预混合”的具有VRA能力的数字主带磁带320。在这个结构中,具有VRA能力的数字主带的制作只需要PCPV/PCA和SCRA信号在数字记录作主带之前已经混合。如图显示的,这时有”n”个通道,其中n是指可以处在数字主带的任意大的数目的音频通道。这个结构对于某些类型的数字主带可能是必须的,这些数字主带以后必须用于下混合处理过程,以用来创建用于音频节目的立体声或环绕通道声音。然而,主要内容纯话音和其余音频事先被混合,以及按那样方式存储在数字主带上。
应当明白,有具有VRA能力的数字主磁带(文件)的多个实施例,如图4A-E所示。具有VRA能力的数字主带的所有的版本将配备有专门的标题文件,它识别主带为具有VRA能力的。标题格式在下一节中讨论。图4A上显示预混合的、未压缩的、n通道具有VRA能力的数字主带。对于这个事例,数字主带包含了在制作期间被记录的、”n”个音频通道。通过这n个通道的某些组合,就有可能规定PCPV/PCA信号和SCRA信号的构建(图4B和4C)。
为了完成这一点,VRA辅助数据通道可被创建和被存储在主带,它在制作期间译码结尾时提供这些指令。所以,这个数字主带可被看作为“0通道、未压缩的、预混合的、具有VRA能力的数字主带”。术语0通道是指,在主带上没有一个音轨是明显地包含PCPV/PCA或SCRA信号的。这里的本质的观点是,磁带具有足够的信息,使得控制重放设备的最终收听者即使没有明显地存储的这些信号最终仍能够进行VRA调节。
图4A-E也显示其他可能的实施例的一般的示意图。最明显的实施例显示于图4D和4E。数字主带的这些版本可被分别看作为“1通道,后混合的,未压缩的,具有VRA能力的数字主带”,(图4E),以及“2通道,后混合的,未压缩的,具有VRA能力的数字主带”,(图4D)。在后混合的版本中,除了单独的PCPV/PCA信号(1通道版本)或PCPV/PCA和SCRA这两个信号以外,我们能找到典型的立体声信号,5.1混合通道,或7.1混合通道,或更高的数目的空间通道。在这种情形下,也可以有VRA辅助数据通道,以便指示译码器有关特定的重放特性,这些特性应当被使用来在音频节目进行时提供两个信号的任一个信号的空间位置。
图4D和4E是只有PCPV/PCA信号连同VRA辅助数据一起存储的其他实施例。对于这个事例,辅助数据将规定如何构建SCRA信号,重放PCPV/PCA和SCRA信号,以及后面描述的其他功能。
为了结束这个录制数字主带的讨论,显然,数字音频领域的技术人员可识别除了图2A,2B,3和4A-E上明显地显示的以外的其他的实施例。例如,可以直截了当地认为上述的所有的实施例的压缩的版本是由本发明直接规定的。重要的差别在于,所有的具有VRA能力的数字主带版本也包含某种标题,它识别具有VRA能力的主带包含辅助数据信号,它规定某些性质,以用于PCPV/PCA/SCRA信号的构建技术或重放技术。所以,图上显示的数字主带格式不应被看作为本发明所打算的具有VRA能力的数字主带结构的唯一可能。
至今,从以上的说明已经能明白:内含具有VRA能力的过程因其整体优点在三个不同的领域改进了数字音频处理技术:
(1)处理过程,主要内容纯话音音频信号借助于此过程被构建,以便提供能够改进听懂度和/或欣赏音频节目的话音内容,在理解节目的内容或有抒情味的意义方面很少和/或没有损失;所述处理过程也包括构建次要内容其余音频信号,它使得能够改进的理解艺术优点和/或享受音频节目,但在听懂度上并不提供明显的改进,也不改进对音频节目的内容或有抒情味的意义的理解。
使用未压缩的或无损的/相对较少损失的压缩的音频格式创建所谓0通道,1通道,和2通道“具有VRA能力的”数字主带磁带,所述格式被应用来保持最佳话音质量和最佳其余音频质量,这些其余音频质量在使用基于牺牲音频质量的极度压缩的音频格式(>8∶1)以制作具有VRA能力的主带和或传输的情况下可能被恶化。
在用来制作数字音频传输和或归档的音频文件贮存的任意数目的无损的和相对较少的损失的音频编码译码器中,主要内容纯话音和次要内容其余音频通道,VRA标题,和或VRA辅助数据的包容。
既然规定了录制数字主带过程,下面描述的特定的实施例将集中在某些音频编码译码器的某些特性上,这些特性使它们在运行(包括编码/压缩和译码)中能够包括PCPV/PCA和SCRA信号,这些运行被认为是比起与AC3类别中的编码译码器有关的损失来说是无损的和相对较少损失的。
具有VRA能力的音频节目的数字录制主带特性
向最终收听者提供VRA调节能力的欲望理想地应当与节目的音频内容的艺术目标相兼容。所以,本发明的一个特性是寻求描述一个过程,通过这个过程,两个目标(提供VRA能力与允许艺术家保持音频节目的艺术特许)是相兼容的。保持艺术优点几乎肯定需要对于主要和次要内容的一定程度的规划,接着是随节目按时间次序进行而改变对某些音频信号的混合。特定的混合和记录定做的主要内容纯话音通道和次要内容其余音频通道在任何类型的音频节目中都是崭新的。
所以,本发明的这个录制数字主带方面涉及到这种情形,其中在数字主带中包括PCPV/PCA/SCRA信号以及需要相应地在主带上录下特定的“标题文件”和或“辅助数据”内容,它描述有关在具有VRA能力的数字主带上这样的PCPV/PCA和SCRA通道方面的基本信息(位置、采样速率、格式、重放参量等等)。
至今,数字音频的进展大多数涉及到声音的空间定位方面的新方向,它依赖于增加通道的数目。这个使用数字音频的多通道围绕声,比起过去几年的更传统的立体声传输,已导致贮存和传输音频通道数目的增加。具有VRA能力的音频文件和传输将把贮存和传输的需要提升到甚至更高,因为对于PCPV/PCA和SCRA信息需要额外通道。将规定创新的具有VRA能力的音频编码译码器以便使额外的通过量负担最小化。另外,在数字主带上VRA格式的存在将需要由任何的音频编码译码器来“识别”成是具有VRA能力的音频文件,这样的编码译码器用来压缩/传输/译码从数字记录的主带传送过来的比特流。有两个根本的理由必须把数字主带标记为具有VRA能力的。首先,PCPV/PCA通道需要在特定的扬声器位置重放,所以,该通道必须在时间上对准辅助数据,它描述精确的时间/空间重放程序过程。其次,如图3所示,可能需要由译码器构建SCRA通道。用于创建该信号的指令也将被编入VRA辅助数据之内。我们指出,在VRA辅助数据进入译码处理时也有创新的方式以便包容VRA辅助数据。例如,在用于具有VRA能力的音频文件中它可被引入作为在n通道的比特流中嵌入的信息,或作为不同的通道传送。
在音频编码译码器中PCPV/PCA和或SCRA信号的包容
下面描述的实施例通过使用早先对“具有VRA能力的”数字主磁带所规定的音频信息,使得主要内容纯话音信号和次要内容其余音频信号能够达到最终收听者。在前一节中录制数字主带的讨论描述了PCPV/PCA和SCRA通道以未压缩的或压缩的音频格式的贮存和数字“标签”。存储在主带上的音频的未压缩的格式和相对较少的损失的压缩(压缩比<8∶1)是必须的,以便没有问题地在音频制作过程的录制主带结尾时保持原先的音频信号的保真度。众所周知,数字音频压缩使得能够更有效地贮存和传输音频数据。音频压缩技术的许多形式引起了一系列编码器和译码器的复杂性,压缩的音频质量,和不同的数据压缩量。现在,本发明的这个方面关系到三个部分:基于无损压缩和相对较少损失的压缩算法的编码方法,由VRA辅助数据提供的辅助数据信息的使用,以及在未压缩的具有VRA能力的数字主带上存在的标题文件(或所谓的“数字标签”)的编码。ISO MPEG II和MREG IV标准依赖于相对较少损失的压缩算法(即,<8∶1),所以MPEG音频格式将被使用来显示一定的特性,它包括VRA编码器和VRA译码器。也将明白,在本节中描述的实施例也将应用于其他音频格式。这里还应指出,传统的技术没有教导如在本文件中先前详细地描述的所谓的PCPV/PCA,SCRA,和VRA信号的存在和特定的数据操纵所规定的VRA编码或VRA译码的使用。
用于压缩的具有VRA能力的数字信号的实施例将以无损压缩的一般的情形来描述。术语无损压缩是指:在对接收的压缩信号译码后,无论如何没有数据损失,从而有可能重新创建在未压缩的数字音频主带上的原始的音频信号。传统的技术不包括那些被设计来鉴别在到来的PCM数据流中存在PCPV/PCA信号还是SCRA信号的音频编码译码器的存在,也不包括利用只有话音的信号(即,PCPV/PCA信号)的低带宽的音频编码译码器的存在。
所以,在以下的实施例中提供的说明提供多种独特的特性,包括:能对具有VRA能力的未压缩的数字音频文件自动识别的编码译码器的使用;对使用专门设计用于语音信号的音频压缩算法的PCPV/PCA通道的不同的处理,使用更一般的音频压缩算法进行压缩并在译码器重新混合的其他被压缩的音频轨道在时间上同步,使用无损压缩算法的具有VRA能力的数字音频信息的压缩,使用比起AC3算法保持更多的数字数据的有损压缩算法(这里规定平均压缩比小于或等于8∶1)的具有VRA能力的数字音频信息的压缩,在1通道具有VRA能力的数字主带的情况下对于SCRA通道的制作指令,由VRA译码器使用来分配PCPV/PCA和SCRA通道信息给特定的扬声器的重放位置技术说明,以及在各种各样的已有的音频编码译码器中引用PCPV/PCA和SCRA通道的具有VRA能力的编码器的特殊性能。
图5显示说明基于通用的无损压缩算法的本发明的这个部分的关键概念的基本方框图。(无损压缩算法的一个例子是子午线无损合并(MLP)算法。)对于本例,未压缩的具有VRA能力的数字主带510被用作为到VRA音频编码译码器520的输入。这里的区别在于必须有分别在编码译码器520编码和译码结束时所使用的具有VRA能力的编码器530和具有VRA能力的译码器535。具有VRA能力的译码器535的输出,也就是编码译码器520的输出,将是话音和其余音频,它们可被最终收听者独立地调节。接着,讨论音频编码译码器520中的具有VRA能力的部件。
具有VRA能力的编码器
图6显示具有VRA能力的编码器的概念性实施例。这个说明依赖于先前的、1通道,n压缩的,预混合的具有VRA能力的数字主带610的说明。然而,该说明的本质将保持相同,而不论在音频编码译码器的输入端引入具有VRA能力的数字主带是哪种格式。图6打算说明的是预混合的PCPV/PCA信号连同“n个通道”的其他音频信息是一起被发送到编码器的无损压缩算法630的。处在VRA辅助数据620中的预记录的信息也可被发送到编码器。软件接口也可用来在制作过程中在混合/编码/压缩级处创建VRA辅助数据640的所有的或附加的部分。这个特性允许制作者把VRA编制任务传送到可能转包任务的次要提供者。
最后,压缩的和可能混合的音频与辅助数据以压缩的格式被存储或被发送到译码器,以作为在编码器过程的一部分而被创建的ISO比特流。PCPV/PCA信号和SCRA信号,如果是在这一级被预混合的话,将以数字音频领域的任何的技术人员当前实践的方式被构建成基于MPEG的比特流标准。图7是类似于图6的图(特性的说明不再重复)。例外的是,数字主带现在是具有VRA能力的2通道格式。除了在编码译码器的输入端处存在SCRA以外,其描述特性是与对于图6的讨论的特性相同的。
图8-11是依赖于以下的项目的某些组合的具有VRA能力的编码器的四个不同的实施例的特定的结构:一般音频信号的无损或相对较少的压缩的算法,只有语音的压缩算法,VRA标题和附加数据信息的精确处理,以及某些形式的具有VRA能力的数字主带的输入。应当强调的是,这些各种各样的特性的各种组合实在太多而无法在这里提及,但它们都符合在本发明中列出的打算的和总的具有VRA能力的音频产生过程。
首先参照图8,2通道、后混合的、未压缩的、具有VRA能力的数字主带810被显示为加到具有VRA能力的译码器的输入。左,右,中置,左环绕,右环绕,SCRA,和PCPV/PCA信号已被混合用于这种格式的数字主带,然后被“通用的”音频编码译码器的压缩算法820压缩。算法820可以是基于感性的,或基于冗余度的,或导致压缩而不关系到带宽的任何其他技术。
VRA辅助数据也被压缩算法运算,然后通过使用基于标准的程序过程被安排在ISO比特流中。可以使用例如,MPEG-2 AAC(高级音频编码译码器,ISO/IEC 13818-7)来经由标准支持的15个嵌入的数据流之一来传递VRA辅助数据。有其他的方式来安排辅助数据,这些方式是本领域技术人员熟知的。编码译码器800的输出可被使用来存储2通道主带的压缩的版本,该主带用于发布供重放之用。替换地,比特流可被直接发送到重放设备(诸如,PC机中媒体重放器)的译码器。
图9所示的处理过程类似于先前的图8的处理过程,但有两个不同点。首先,PCPV/PCA信号用只有语音的编码译码器920压缩,而其他音频信号通过使用通用的压缩算法820压缩。语音编码可以使用几个已知的语音编码译码器的任一个来进行,诸如G.722编码译码器或代码激发的线性预测(CELP)编码译码器。在使用只有语音的编码译码器920的PCPV/PCA信号的压缩与使用通用编码译码器的其他音频信号的压缩之间的这个差别将有助于减小对于具有VRA能力的比特流和贮存需求所需要的带宽。
应当指出,所揭示的具有VRA能力的编码器是这种方式的,其中包括积累的信息(PCPV/PCA,SCRA,VRA辅助数据),由此使得音频格式能够进行VRA,以及减小对于具有VRA能力的音频传输的带宽需求的二约束的压缩方法。这个图上的第二个重要的不同点是存在附加的“n个音频通道”。这个实施例包容这样的情形,其中可能需要附加音频通道,以便在重放时增强PCPV/PCA或SCRA信号。这些附加信号被通用压缩算法压缩,以及任何特定的重放需求由辅助数据流规定。
图10和11显示导致1通道、未压缩的、混合的、具有VRA能力的数字主带的压缩的两个具有VRA能力的编码器结构。正如以前一样,可能希望使用只有语音的用于PCPV/PCA信号的编码译码器(见图10)或编码器可被组装成供图11所示的所有信号用的通用音频压缩算法。
图12显示用于具有VRA能力的编码译码器的一定的概念性结构的第二表示。这个表示的本质在下述方面类似于图9和10的实施例,即处在PCPV/PCA信号中的话音信息通过使用只有语音的压缩算法被压缩,而SCRA信号通过使用更一般的、更宽带的音频压缩算法被压缩。参照图12,单元1210和1220是(分别)在压缩以前PCPV/PCA和SCRA信号的数字表示且多半是传统的LPCM格式。注意,数字形式也可提供作为所示的WAV文件,或未压缩的音频文件的某些其他形式。两个音频流被看作为在这一级中并行的,这是与先前的音频压缩结构的重要的不同点。
相反,传统的音频压缩过程是要把串行的、单通道音频流(话音和非话音分量)馈送到压缩算法。有可能认识到串行的比特流何时主要是话音或主要是非话音,并随着串行比特流的内容在主要是话音与主要是非话音之间变化,启用变化的采样速度,甚至不同的压缩算法。
因此,传统的技术是与图12上阐述的实施例非常不同的。在图12上,两个并行比特流在所有的时间都被馈送到两个不同的压缩算法;正如并行安排的压缩单元1250和1260所表示的。只有语音的压缩单元1250包括本领域技术人员已知的任何压缩算法。PCPV/PCA信息被输入到该压缩单元1250,以及处在1220中的SCRA信号以与压缩单元1250的只对话音的压缩完全并行(在PCPV与SCRA之间时间同步)地输入到通用音频压缩单元1260。
音频也被看作为与任何相关的视频内容(例如,主要的活动图象的相应的视频与音频内容)在时间上同步和与视频帧同步的。压缩单元1250和1260的输出然后以特定的方式与1285复用,以使得交错的VRA音频可作为中间文件被存储,或通过某些数字媒体1295被传输。去复用过程1290分解不同的PCPV/PCA信息和SCRA信息,分别由解压单元1270和1280进行相应解压。最后,解压的PCPV和SCRA信息根据需要可被归档,或更可能地,在这一级,将被直接发送到重放设备用于分开的音量控制,类似于图13的下面讨论的说明。
也在图12上,建立的VRA编码译码器实际上与任何其他的只有话音的或通用音频压缩和解压算法相兼容。我们强调,压缩单元1250和1260可以以它们各自的只有话音和通用音频压缩的类别使用算法,这是由于复用器1285的独特的运行,它包容了PCPV和SCRA信号的并行输入结构。而且,复用器1285也可包括用于PCPV/PCA信号和/或SCRA信号的加密单元或算法,以便提供这些部分的安全传输。信号的加密可以使用本领域技术人员熟知的任何技术。
VRA辅助数据通道的创建,内容和功能
辅助通道本身将包含有关主要内容纯话音(PCPV)音频信号和次要内容其余音频(SCRA)信号的各种各样的信息。这些特性,它们的功能,以及该数据被创建的方式,在以下的报告中讨论:
具有VRA能力的节目的存在-多半被包括在标题文件中,这个信息可用单个比特表示,表明接通或关断。如果该比特是1,则具有VRA能力的节目通过使用先前描述的VRA音频格式(即,PCPV和SCRA音频存在)被创建。如果音频工程师使用VRA制作技术的话,这个比特由一个软件或硬件开关在制作级别设置。否则,音频节目被看作为基于传统的混合实施。
PCPV和SCRA通道的数目-这个信息前面可以放置一个这样的标记,表示存在一个以上通道。如果它是这样表示的话,则提供另一个关于在每个PCPV节目和SCRA节目中可提供的空间通道的数目的信息。对这个数目的设置这里没有特别的限制,但多半取决于重放硬件(例如,5扬声器=5个可提供的通道)。这些数目告诉译码器存在多少音频通道用于译码(例如,3个PCPV通道和5.1 SCRA通道)。音频制作工程师根据给予每个情景的艺术解释将规定对译码器构建两个音频节目(PCPV和SCRA)的每个节目所需要的通道的数目。为了节省带宽,包含PCPV个SCRA的通道数目的数字字可以作为时间的函数而变化,如果可提供的音频通道的数目在一个节目内或在节目之间可以改变的话。
作品混合数据-有关如何构建PCPV/PCA和SCRA信号的幅度和空间信息都可被编码为这个数据块的一部分。这个信息,在重放时与译码的音频节目相组合,将创建原始的作品的混合。(虽然,本发明的最后目的是允许最终收听者调节VRA,但在用户的调节应用之前需要提供标准的重放指令。换句话说,最终用户的任何调节将在产品混合级别上作为开始点来运行。)接着,例如,如果前面的数据(PCPV和SCRA通道的数目)告诉译码器两个节目的每个节目之一是可使用的(一个PCPV通道和一个SCRA通道),则作品的混合数据可表明两个信号都应当在中置扬声器上以1.0的PCPV电平和1.2的SCRA电平重放。
所以,制作者的原先的意图通过使用在制作过程中混合级所执行的实际音量电平和平衡调节而得以实现。替换地,由于本发明,最终收听者现在收到了超越原先作品的混合能力并创建他自己的话音与其余音频的混合。为了无接缝地集成这个作品的混合数据(它不单包括所有的PCPV和SCRA通道的幅度信息,也包括所有的通道的空间信息),有可能设计这样一种软件算法,它能检测空间定位控制和幅度控制的旋钮位置,并把该信息直接传送到VRA辅助数据通道作为时间的函数。
继续讨论先前的例子,制作者在节目进行的某一期间可能降低SCRA音频,这时SCRA比起PCPV应当更柔和。这个动作和以后的新的电平由算法检测,并被记录在数据文件中,它被变换成VRA辅助数据文件格式。幅度产生混合数据也允许用户分别对于PCPV和SCRA信号自动地确定在不同的节目之间的一致性。这将允许话音保持在广告与节目以及其余音频之间的恒定的SPL上(如果没有这个信息的话,其余音频会遮蔽话音)。
还应当指出,如果制作者创建PCPV和SCRA信号(多通道或不是多通道),以便当创建线性相加在一起的精确的作品混合音时,不需要发送所有的幅度和空间位置信息,以用于在译码器端重新创建产品混合。如果这个数据不包括在VRA辅助通道内,则译码器将自动按约定成为产品混合音的线性组合,导致原始节目的确切的作品混合重放。
PCPV和SCRA特定的中间数据-有各种各样的中间数据可用来进一步增强用双节目音频(PCPV和SCRA)所提供的重放特性。首先,为了使得译码器在重放期间同时调整PCPV和SCRA信号的电平,在存在过渡时,可以包括电平信息。这只涉及信号强度检测器,它把它的输出变换成与PCPV和SCRA信号的实际音频在时间上同步的数据文件。然后译码过程可利用这个数据自动地互相相对地控制每个信号的音量电平,这样,在某些类型的节目过渡期间,SCRA不会遮蔽PCPV。PCPV和SCRA两者通道的动态范围信息也可以通过类似的处理过程被编码。这允许用户在重放时分开地控制两个信号(SCRA和PCPV)的每个信号的动态范围,由此使得耳语声音足够响到能够听见或使得爆炸声足够柔和到不打扰(压缩)。这个问题的关键是两个信号可被独立地控制。或者是节目提供者在制作期间将负责输入这个信息作为辅助数据比特流的一部分,或者是软件驱动的算法可确定在所有时间的信号强度,以及自动产生这样的数据。
VRA辅助数据通道包括在标准中间数据比特流中
以上详细地讨论的辅助数据比特流的内容可作为中间数据的新的部分包括在任何传统的CODEC(编码译码器)中。典型地,市面上销售的CODEC发送两种类型的信息:音频和中间数据(有关音频的信息)。在这里讨论的实施例中,详细地描述对于具有VRA控制能力地重现音频所需要的音频的格式和中间数据的格式。
用于包括VRA辅助数据的方法将是与CODEC有关的。严格地说,存在无数的CODEC,所以存在有无数的特定的方式,用来使得辅助数据包括在特定的CODEC的中间数据部分。然而,由于大多数中间数据格式具有放置附加数据的位置,而这也正是典型地存储VRA辅助数据的位置。所以,这意味着译码器必须是“知道VRA的”并在原先的CODEC的中间数据流的预定空出的位置中找到VRA辅助数据。所以,VRA标题数据的另一个基本特性是核实VRA辅助数据放置在CODEC的中间数据中的方式。
在这时,重要的是强调具有VRA能力的音频编码译码器的中间数据的独特差别在于包括在辅助数据中信息会告知创建两个独特地需要的、分开的信号:PCPV和SCRA。传统的技术只能创建遵从现有技术的音频格式的(诸如Dolby Pro-Logic或5.1)、用于整个音频节目的中间数据(例如,动态范围信息)。然而,有可能利用传统的中间数据结构的某些方面,以便能够进行具有VRA能力的音频的制作。例如,如果有必要发送PCPV和SCRA通道的动态范围信息,则把表示SCRA动态范围的标记包括在中间数据文件中与传统技术的音频格式有关的动态范围设置值的同一个位置是有用的。然后,只需要把PCPV的动态范围信息固定在原先的中间数据通道的空闲的标题位置。
在具有VRA能力的音频编码译码器中使用的特定的压缩算法
用于减小通过量与贮存需求的压缩算法的实施方案由数字音频工程师和公司广泛地开发。对于早先介绍的VRA实施例,已经讨论,可能必须利用比起AC3格式压缩损失更小的压缩算法。也已讨论,早先介绍的实施例是与Dolby HI Associated Service(杜比HI联合业务公司)很大的不同的。下面给出说明。
结合专门应用到Dolby数字CODEC的VRA制作技术中通用CODEC的使用
这里揭示的主要实施例是与任何特定的CODEC的压缩技术无关的。作为一个例子,考虑制作者能产生多通道环绕声节目,包括两个环绕音频的通道,三个前置音频的通道,以及一个较小带宽的重低音通道。这是被称为5.1环绕声的音频格式。这个节目可被任何的CODEC编码,它可包括Dolby数字,DTS,MPEG,或任何其他编码/译码方案。音频格式本身对于编码方案是独立的。同样地,单通道节目可以由任何这样的CODEC被编码和译码。
本发明的注意点并不是CODEC本身,而是音频格式。所有的现有的音频格式限于只给最终用户提供空间信息。这里建议的音频格式通过在音频格式中除了包括空间信息以外还包括内容信息,而向用户提供调节多通道话音对多通道其余音频的比值、频率内容、动态范围、归一化等等。
在
电视标准指南中(它讨论了杜比数字(AC-3)CODEC)描述的现有的技术中有两个不同的差别。作为该标准的固有的部分,许可单通道话音结合多通道其余音频被发送。作为附加实施例,也许可二通道话音和二通道其余音频。实际上,这对于制作者是非常大的限制,以及这不可避免地需要把所有相关的话音放置在单通道中以重新制作原先的节目。另外,在这个实施方案中话音只在单通道上被重放。大多数多通道节目要求:次要内容其余音频与主要内容纯话音都是多通道节目(由于关键的话音和其余音频段并不限于单个空间位置)。所以,从现有技术看来,显然,这里揭示的实施例具有两个明显的优点:
多通道能力-VRA音频格式许可多通道PCPV和多通道SCRA从而允许制作者实践所必要的所有的艺术认同,而同时仍旧允许用户选择想要的比值。
CODEC依赖性-VRA格式被设计成与任何CODEC特点无关地运行,因此可以使用任何CODEC。在电视标准指南中的与听力障碍有关的业务只在杜比数字(Dolby Digital)技术条件中拟定的那样工作。
所以,在本文件中规定的VRA音频格式可以结合杜比数字作为CODEC使用。规定的VRA音频格式包括所需要的辅助数据,以便在用户的控制下重放多通道PCPV和多通道SCRA。辅助数据可被包括在任何音频CODEC(包括,但并不限于Dolby Digital)的中间数据部分中,以及PCPV和SCRA的音频信息可以按照CODEC技术条件本身被压缩(或不压缩),这里对于AC-3的情况,压缩方案根据音频节目内容可能导致大的损失和高的压缩比。
与CODEC无关的特性是在软件平台上支持VRA实施特性的一个重要的特性。重要的是提供在多通道设置下控制话音对其余音频的能力给用户。虽然AC-3包括用于完成这一个目标的单通道机制,但其他CODEC可能或实际上并不包括。本发明允许制作者在选择与其一起工作的CODEC时“调整重放音场的声级”。CODEC可以根据压缩和解压算法的性能而不是根据执行VRA的能力来选择。这允许所有的CODEC都能提供VRA功能给最终用户。
所以,具有VRA能力的编码译码器可被做成实际上与任何现有的音频压缩算法相兼容。所以,本发明包括根据必要的VRA辅助数据,PCPV/PCA信号和可能SCRA信号,来创建多种具有VRA能力的压缩格式。根据这一点,显然,以下的数字音频格式通过使用先前描述的实施例将支持产生具有VRA能力的版本,以及可用作为压缩算法,以便用作为以上描述的VRA音频编码译码器的一部分:
-具有VRA能力的DTS-压缩
-最佳化的具有VRA能力的PCM压缩
-具有VRA能力的子午线无损合并的压缩
-具有只有语音的编码译码器附件的MP3压缩
-具有VRA能力的Dolby Digital,AC3-压缩
-具有VRA能力的MPEG-2压缩
-具有VRA能力的MPEG-4压缩
有多种其他压缩算法可使用于具有VRA能力的编码译码器中,这些是本领域技术人员熟知的。在这些算法中包容VRA能力,必须是基于能识别到来的VRA信息,接着能专门地处理VRA通道和辅助数据。有多种方法在标准化比特流级别上完成这一点,但那些方法对于数字精通音频标准的任何人都是简单明确的。把PCPV/PCA/SCRA信号和辅助数据包括在任何的这些压缩算法中,正是这里所揭示的本发明的许多方面中的一个方面。
具有VRA能力的译码器
有多个功能性说明,来说明具有VRA能力的译码器在VRA音频制作过程的重放阶段所需要的特性。这些说明在下面给出。
VRA标题识别:译码器将被配备来识别用于VRA比特数据的不同的比特图案。特定的标题数值将确定译码器如何适应到来的具有VRA能力的比特流。这个特性可以由本领域技术人员以各种各样的方式来完成。例如,有可能使用比特掩蔽技术,逻辑运算,或其他方法来表示进入的比特流的VRA能力。
模式切换:译码器将被编程以便在多通道音频重放(例如,5.1音频或7.1音频)的传统译码软件或VRA重放模式(其中PCPV/PCA和SCRA信号将包括重放信号,被发送到附着在重放设备上的扬声器)之间切换。
规定信号路由:译码器将利用VRA辅助数据中的信息来确定用于PCPV/PCA和SCRA信号的适当的空间-时间重放信息。
后向兼容性:译码器将能够也包容不具有VRA能力的音频节目的重放。这将通过使用先前讨论的VRA标题识别功能的逻辑输出来完成。
有关译码和重放特性的更多的细节在下面进行描述。
在重放位置上VRA辅助数据、PCPV和SCRA通道的最终用户控制和最终功能
正如以上详细地讨论的,VRA辅助数据包含有关通过CODEC被发送或被记录的PCPV和SCRA通道的各种各样的信息。除了在辅助数据中被传递到最终用户的信息以外,有几个译码器专用功能(这在现有技术中不存在的),这些功能可以由于PCPV和SCRA通道分开地被传递而被实施。在以下列出的项目中具体参照译码器的运行详细地阐述两种类型的功能(辅助数据控制和PCPV/SCRA译码器控制)。
VRA辅助通道识别-作为VRA辅助通道标题文件的一部分而存在,译码器将通过轮询特定的比特来识别VRA辅助通道的存在。如果比特是零(关断),则译码器认识到,没有VRA辅助数据,因此没有分开的PCPV或SCRA通道。译码器可继续对另一个音频格式进行译码(诸如立体声)。如果译码器认识到,标识比特是1(接通),则译码器能够分开地对PCPV和SCRA通道译码(如果最终用户想要的话),以及遵从由CODEC提供原先被使用来记录或广播数据的技术条件。标识比特仅仅使得译码器知道到来的数据是具有VRA能力的(即,包含PCPV和SCRA分量),以及可以改变用于任何节目。
制作/用户混合-这个特性表示用户输入,而不是被包含在VRA辅助数据通道本身中的一条信息。用户具有选项,以选择制作混合或用户混合。如果选择用户混合,则可以应用各种各样的音频控制功能(下面讨论)。制作混合设置多半被看作为大多数译码器设置的缺省设置。
如果选择制作混合,则译码器从嵌入在CODEC的中间数据部分的VRA辅助通道中的它们规定的位置上收集在每个PCPV和SCRA通道上的放大数据和空间位置数据。这个放大和空间位置数据表示在创建音频节目时音频制作工程师的原先的意图(以及如在编码特性一节中所讨论的那样被创建)。对于空间信息的每个通道和两个信号(PCPV和SCRA)的每个信号,放大数据要进行乘法运算。
如果需要空间位置信息(例如,如果有单个话音轨道,它可以从一个扬声器位置移动到另一个扬声器位置),则该信息被加到适当的通道作为重新定位命令。由于PCPV相对于SCRA的放大和位置将随时间改变(取决于制作者的活动),译码器将总是轮询辅助通道数据和不断地更新加到每个PCPV和SCRA信号和相关的通道的设置值。
还应当指出,如果PCPV和SCRA通道是加重制作的,以使得在每个PCPV和SCRA信号各个通道的简单相加就能导致精确的制作混合,则在VRA辅助数据通道中不需要发送放大或空间位置信息。如果这个数据不存在,则译码器(当处在制作混合模式时)将自动实现(各个通道的)线性组合以实现制作混合。这个功能的最终用户控制可以是通过软菜单(各个通道的)软件驱动的,或是由简单的扳动开关(它改变在产品和用户混合选择之间的位置)硬件驱动的。
用户的声级/空间混合-如果选择以上提到的用户混合选择,则制作混合失效,这时最终用户选择具有对PCPV和SCRA信号的完全控制。最基本的调节(或许最有用的)是互相独立地控制PCPV和SCRA信号的电平与空间定位和它们相关的通道的能力。
取决于音频格式,每个PCPV和SCRA通道可以包含多个与空间有关的通道。由于所有的空间通道是独立的,以及(以VRA音频格式)PCPV和SCRA信号是独立的,所以将通过译码器硬件和/或软件,用户就具有调节每个独立的信号的幅度(通过乘法)和空间位置(通过重新定位)的能力。提供这种功能给最终用户并不需要任何附加带宽,即,不需要辅助数据。幅度和空间定位是在两个信号(PCPV和SCRA)和它们的独立的通道上作为重放硬件或软件的一部分(音量旋钮和位置调节)而不是译码器本身上执行的。这个硬件可以和编码器包括在单个单元内,或它可以作为与译码器分开的附加单元运行。
以上的说明代表可被最终用户作出的最通用的调节组合,最终用户的希望是控制在两个信号(PCPV和SCRA)的每个信号内的多个通道中每个通道的整个空间位置和幅度。然而,最通用的调节能力对于标准用户多半太复杂。由此,描述另一个实施例,它允许最终用户通过简易的(用户友好的)机制调节话音对其余音频的比值,这个机制作为整体部分可提供在任何具有VRA能力的消费者电子设备中。
图1 3显示VRA格式译码器1310,它接收数字比特流和把信号译码为它的两个音频部分:PCPV 1320和SCRA 1330信号。正如早先指出的,这些信号的每一个包含多个通道,在最终用户调节后被相加在一起,形成总的节目。在先前的段落中的实施例讨论了每个这些多通道的最终用户调节。
替换地,图13所示的实施例显示单个调节机制1340,它将控制所有的PCPV通道和所有的SCRA通道的总的电平,由此影响想要的VRA比值。这是在数字域中完成的,首先使用平衡式模拟电位器来产生两个电压它们表示话音与其余音频的希望要的电平。
例如,当旋钮被顺时钟方向旋转时,在左面的可变电阻(被连接到旋钮)向上移动而趋向于电源电压和远离信号地。这使得电位器触头的电压增加。模拟-数字变换器1350读出电压,以及给它赋予一个数字值。然后把它与所有的PCPV信号相乘(不管有多少个已被译码)。同样地,当电位器逆时钟方向移动时,在右面的可变电阻向电源电压移动(以及远离地),产生在触头上的电压的增加。
这个电压被变换成一个数字值,以及与所有的已译码的其余音频(SCRA)信号相乘。使用单个旋钮的这种安排允许用户简单地和容易地控制话音与其余音频的独立的电平,由此达到想要的收听比值。在相乘以后,每个PCPV通道被加到每个SCRA(以各中置值相加,各左面值相加上等相应的方式),在被译码的那样多的通道中形成总的音频节目。最后,以类似的方式在总的音频信号上施加进一步的电平调节,但只使用单个电位器(主音量控制),以后,所调节的总的节目音频通过用于每个空间通道的数字-模拟变换器1360被发送到放大器和扬声器。
用户均衡控制-提供PCPV和SCRA信号的进一步的最终用户调节的更先进的特性是分开地调节PCPV和SCRA信号的频率加权因子的能力。这对于衰减高频的特定类型的听力障碍的个人可能是有用的。PCPV(话音)信号的简单的电平调节,在耳朵在较低的频率上开始饱和之前,不一定能提供所需要的听懂度的增加。通过允许PCPV信号对频率相关的调节(也称为均衡),可以对于某些类型的节目达到改进的听懂度。另外,在SCRA信号中非常低频率的信息(诸如爆炸)可能掩盖PCPV通道中语音的格式。SCRA信号的与频率相关的电平控制(与PCPV信号无关)在改进语音听懂度的同时,可以保持在SCRA通道中关键的中间频率的音频分量。同样,这可以通过与译码过程分开的硬件来实施,只要PCPV和SCRA通道是通过使用VRA音频格式被编码和译码的,因此不需要在辅助通道中发送额外的信息。
PCPV和SCRA专用的中间数据-在编码器讨论中包括了各种各样的中间数据,它们可被使用来进一步增强对于双节目音频(PCPV和SCRA)所提供的重放特性。不像以上讨论的电平的,空间的,和均衡的调节,这些特性确实需要在中间数据中存在编码的VRA辅助数据作为比特流的一部分。这些特性包括信号电平,动态范围压缩,和归一化。
作为编码过程的一部分发送的信号电平将独立地和作为时间的函数提供有关PCPV和SCRA通道的电平的数据(在译码位置)。然后,这个数据被使用来独立地和同时地控制PCPV和SCRA通道的电平,以便在存在音频瞬变时保持用户选择的VRA比值。例如,SCRA通道的信号电平数据可表示,在某一个段期间爆炸将压倒PCPV(话音),以及通过除法,将表示有多大。
所以,译码过程可以使用该信息通过重放硬件自动地调节SCRA的信号电平适当的量,以便保持用户选择的VRA比值。这防止用户在整个节目期间老是要调节相对电平。
接着,在比特流中存在的动态范围信息将允许用户独立地为PCPV和SCRA信号选择不同的重放范围。用户选择想要的压缩或扩展作为100%全动态范围的函数,以及它在各个信号组合之前加到每个信号上。
最后,与电平信息稍微不同的归一化信息逐个节目地提供PCPV和SCRA信号的RMS或信号强度度量。这个数据可以只作为辅助数据标题文件被发送,并可应用到整个节目。如果用户选择,这个信息可被使用来归一化在所有的节目中的PCPV信号以及在节目中SCRA信号的电平。这确保:(A)从一个节目到另一个节目所听见的对话(PCPV)将保持在恒定的电平(SPL),以及(B)从一个节目到另一个节目所听见的爆炸(SCRA)将保持在恒定的电平(SPL)。
所有的这些功能只对于PCPV和SCRA信号在使用VRA音频格式编码时才是可能的。如果它们单独被加到制作混合,则不能实现同样的效果,因为制作混合包含的PCPV(话音)和SCRA(其余音频)是完全合并的而不是分开的。
归档的实施例
下面描述的实施例是为了说明各种各样的归档的结构而给出的,它可被使用来存储VRA信息,以使得最终用户最后将从VRA调节获益。这里列出的归档的实施例的共同的主题是,每个实施例代表一种归档的数字音频媒体的形式,它当前并不包容PCPV/PCA信号和/或SCRA信号和/或VRA标题和/或VRA辅助数据,但所有的列出的媒体具有修正的潜力,这样,它们可以成为具有VRA能力的归档的数字音频媒体。对于以下描述的归档的媒体,“具有VRA能力的声轨”的标签是指具有作为特定的通道被存储的PCPV/PCA/SCRA信号和/或具有足够的VRA辅助数据的声轨,使得这两个信号或其中之一可以通过使用先前介绍的VRA译码器来构建和重放。我们再次指出,这样的具有VRA能力的声轨的定义本身是一个发明,并由先前描述的实施方案所需要的各种
实施例打下基础。
-具有作为两个分开的轨道被存储在CD上的PCPV/PCA和SCRA信号的LPCM版本的CD。注意,这个实施例将牺牲立体声定位。
-具有除了在CD媒体上可找到的传统的立体声信号以外存储着PCPV/PCA信号的最佳化的LPCM版本的CD。
-具有DTS VRA能力的声轨的DVD电影。
-具有LPCM VRA能力的声轨的DVD电影。
-具有MLP VRA能力的声轨的DVD电影。
-具有MPEG-4 VRA能力的声轨的DVD电影。
-具有MPEG-2 VRA能力的声轨的DVD电影。
-具有Dolby Digital(杜比数字)VRA能力的声轨的DVD电影。
-具有VRA能力的格式的DVD音频光盘。
-具有VRA能力的格式的超级音频CD。
重新编排现有的音频主磁带以便制作具有VRA能力的版本
为具有大量话音内容的电影或其他音频节目提供VRA调节的一个预期的好处在于为收听者提高语音的听懂度。这对于听力障碍的个人是特别实在的。现在严格说有几千部影片存在模拟格式对数字格式的问题。同样真实的是,这些影片没有一部是被创建成具有VRA能力的。所以,需要“重新编排”这些不具有VRA能力的模拟声轨,以使能连同现有的VRA辅助数据产生PCPV/PCA/SCRA信号。这种新的信息然后被存储在以上给出的任何具有VRA能力的数字主带格式。本发明将导致可提供给听力障碍群体的范围更广泛的具有VRA能力的影片。
视频点播的具有VRA能力的声轨归档和数据库
数字音频和流动的视频/音频的到来提供了新的机会,被称为“视频点播”。视频点播(VOD)系统允许用户通过ISDN线或调制解调器下载他/她选择的电影或其他节目,用于在用户的数字电视机(或使用具有机顶变换盒的模拟电视机)上一次性重放。目前,在具有VRA能力的声轨的VOD数据库中没有影片。随着VRA调节硬件变为集成在将来的消费者电子设备中,VOD用户多半喜爱预订具有VRA能力的声轨。所以,这些设备关系到满足该预期的需要。第一个发明是VOD数据库,它包括具有VRA能力的声轨的影片。这些具有VRA能力的视频然后被听力障碍收听者或其他喜欢使用VRA调节的观看者下载。
本发明的另一个相关的方面是创建新的音轨档案,而不用相应的视频信息,其中新的档案包含只有音频的具有VRA能力的声轨。具有VRA能力的电影的只有音频部分的档案将在VOD数据库的贮存需求方面提供巨大的节省。具有VRA能力的声轨(不带视频)将以先前实现具有VRA能力的系统的实施例讨论的相同的方式创建并加上一个别的特点。这些具有VRA能力的声轨将通过使用互相关信号处理技术和/或时间同步方法做到与原先的活动图象或节目的音频内容在时间上同步,如果不具有VRA能力的的声轨具有可利用的时间标记的话。这两个方法用来将具有VRA能力的音频信息与存在于原先的影片中的不具有VRA能力的音频信息进行相关。在相关运算被最佳化后,影片可以通过关断原先的声轨和接通具有VRA能力的声轨而被重放。
MP3具有VRA能力的音乐归档
MPEG-2层III(MP3)的使用成为非常流行地用于音乐记录,它从归档的数据库流到某些互联网媒体重放设备。能够进行具有VRA能力的数字音频文件的系统部件的先前的定义同样很好地应用于MP3格式。所以,本发明涉及到处在特定的数据库中由收听者下载(商业地或其他)的具有VRA能力的MP3记录的创建。
在图14上,方框图的上半段显示从制作者传递音频节目到用户的当前的技术状态。在前期制作和后期制作期间,各种各样的音频段是以多轨道记录格式1405提供给工程师的,它可包括近话筒记录,远话筒声音,声音效果,笑声轨道,和任何其他可能进入以形成整个音频节目的声音。声音工程师然后取每个这些分量,相加,加效果,空间定位,和或组合声音分量,以便与现有的音频格式1415相一致。这些现有的音频格式1415可包括单通道,立体声,Pro-Logic,5.1,7.1,或工程师遵从的任何其他音频格式。
一旦节目制作成想要的格式,就把它传送到编码方案1420,它可包括中间数据。在这一级可以采用任何数目的编码方案,它可包括未压缩的、无损压缩、或有损压缩技术。某些通用的编码方案包括杜比数字,MPEG-2层3(用于音频),子午线无损合并,或DTS。这样的编码器的输出是数字比特流,它或者被广播或者被记录以便重放或广播。在接收数字比特流后,译码器1425将产生音频,以及如果使用的话,产生中间数据。注意,编码器1420和译码器1425的组合在文献和本文件中常常被称为CODEC(即,编码器-译码器)。中间数据1430被认为是有关音频数据的数据,以及可包括这样一些数据,诸如动态范围信息、可提供的独立通道的数目、和在音频数据上使用的压缩的类型。
图14的下部代表这里讨论的本发明的实施例。从多轨道记录开始,VRA制作技术1435被用来(遵从这里揭示的技术条件)形成新的音频格式,它与先前的所有的格式很大地不同。VRA格式本身具有如图所示的它自己的中间数据,作为VRA音频数据代码1445。
另外,先前的格式集中在空间性,用于从音频轨道产生音频通道,而这个新的格式集中于在制作级别上从主带音频轨道产生CONTENT(内容)和SPATIAL(空间)两个通道。特别是,在重放处将内容部分与空间位置的想要的制作混合(由声音工程师驱动)能通过VRA产生技术创建辅助数据流而得以保持和控制。这时,辅助数据,PCPV(主要内容纯话音)和SCRA(次要内容其余音频)可被任何的标准的CODEC使用,和传统的技术相类似。CODEC1450,1455没有对音频的内容和格式,和/或包含在中间数据中的信息作出技术说明,而是对它接收的任何数据编码,并在重现处以同样方式将它译码。一旦音频数据(PCPV和SCRA)和辅助数据(经过CODEC中间数据)被接收和被译码,则最终用户就控制辅助通道标识1470和控制数据1465(如果它存在以及被识别),然后PCPV和SCRA通道通过那些最终用户调节1460被控制。如果存在以且被原先的CODEC所需要,则附加的中间数据可被使用来进一步控制重放1480,而不影响VRA音频格式和相关的重现的性能。
虽然各种实施例在这里被具体地显示和描述,但将会看到,本发明的修正和变化是包括在以上的说明中的并处在附属权利要求的权限内,而不背离本发明的精神和想要的范围。具体地,本发明包括:
-具有VRA能力的编码译码器:它接受PCPV/PCA信号和SCRA信号的并行输入结构,使用任何只有语音的压缩算法压缩PCPV/PCA信号,使用任何通用音频压缩算法压缩SCRA信号,而不损失在两个音频信号与任何伴随的视频之间的原先的时间对准和视频帧同步,复用两个压缩的比特流,连同规定特定的压缩算法和这些信号使用的合并方法的相应的相关数据,所述复用的比特流或者作为具有VRA能力的文件被存储,或者被发送到相应的去复用器,它把PCPV/PCA和SCRA信号分开,为它们规定路由到适当的解压算法,然后把两个信号发送到贮存媒体或适当的音量控制和重放设备,以便为最终用户进行VRA调节。
-VRA编码译码器,它与被使用来压缩PCPV/PCA和SCRA信号的特定的只对话音的压缩和通用音频压缩算法是无关的。
-VRA编码过程,它识别具有VRA能力的数字主带或具有VRA能力的归档的音频文件的数据标题,以及通过使用只对话音的压缩和通用音频压缩来自动进行PCPV/PCA和SCRA信号的并行压缩。
-许多可用的、“只有语音”的压缩和“通用音频”压缩算法。
-具有VRA能力的译码器,它识别到来的VRA复用器有关的数据,以及用来去复用和解压VRA比特流为分开的PCPV和SCRA信号。
-具有VRA能力的译码器,它被编程为在多通道重放与VRA重放模式的传统的译码软件之间切换,其中PCPV/PCA和SCRA信号包括重放信号,被发送到附着于重放设备的扬声器。
-具有VRA能力的译码器,它利用VRA辅助数据信息来确定用于PCPV/PCA和SCRA信号的适当的空间-时间重放信息。
-具有VRA能力的译码器,它识别VRA辅助数据的存在,通过规定标识比特(接通或关断)来确定到来的音频是否具有VRA能力的。
-正如上述的具有VRA能力的编码译码器,其中PCPV/PCA和SCRA信号在音频压缩步骤以后被加密,以及在解压步骤之前被解密。
-具有VRA能力的编码译码器,它利用辅助数据和或辅助数据通道,所述VRA辅助数据这样地产生,以便通过在辅助数据中特定的比特图案识别编码译码器为具有VRA能力的;识别在空间音频重放结构中所用的PCPV/PCA和SCRA通道的数目,所述多通道空间重放在辅助数据中不同的位置上是可改变的,以表示在音频节目的不同的时间上有不同的空间重放;识别制作混合数据,以便实现VRA重放和由最终收听者进行的音量调节过程;包括PCPV/PCA和SCRA特定的中间数据。
-VRA辅助数据可以作为中间数据的一部分引入到任何其他编码译码器,而不会损失这里规定的VRA辅助数据特异性。
-与具有VRA能力的编码译码器结合而使用的特定的压缩算法相兼容的VRA辅助数据的创建。
-结合AC3电视音频格式的VRA辅助数据的使用,以便实现PCPV信号的多通道和/或空间分布的重放和SCRA信号的多通道和/或空间分布的重放。
-现有的影片、电影和电视声轨的音频主磁带的重新制作,以创建具有VRA能力的声轨版本。
-具有VRA能力意味着PCPV信号作为分开的音频信息位于声轨贮存媒体中。
-具有VRA能力意味着SCRA信号作为分开的音频信息位于声轨贮存媒体中。
-重新制作意味着组合在原始声轨音频主带上存在的一个或多个话音轨道的某些艺术组合,以便创建能由具有VRA能力的重放设备以后进行调节的主要内容纯话音音轨。
-重新制作意味着组合在原始的声轨音频主磁带上存在的一个或多个话音轨道的某些艺术组合,以便创建能由具有VRA能力的重放设备以后进行调节的次要内容其余音频音轨。
-重新制作意味着使用新创建的PCPV和SCRA信息,和构建在归档的权利要求中揭示的具有VRA能力的数字主带音频贮存媒体。
-创建数字数据库,或归档的系统,它包含具有VRA能力的影片声轨,用于通过卫星、互联网、或其他数字传输装置发送具有VRA能力的电影,影片,或电视节目到具有VRA能力的重放设备。
-数字数据库,包括视频点播的影片,电影,网络电视,数字电视,或其他节目。
-数字数据库可包含单个影片实体,其中现有的声轨使用在本文件中各处所揭示的装置而具有VRA能力。
-数字数据库可只包含具有VRA能力的声轨,具有适当的时间同步和视频帧同步,使得具有VRA能力的声轨可以与用作替换的原先的节目声轨独立地被发送,以便在音频重放时选择声轨。
-创建数字数据库,或归档的系统,它包含具有VRA能力的音乐音频(例如,WAV,MP3,或其他),所述具有VRA能力的音乐音频通过被指定为主要内容纯话音音频的话音轨道的某些混和以及被指定为次要内容其余音频的乐器的某些混和而创建。
-数字数据库可只包含被指定的PCPV音频信息,时间同步的原先的音乐记录或数字文件,以方便在重放时实行PCPV话音的替换。
-记录媒体包含或把这里讨论的任何特性记录在其上。