CN1172536C - 在视频/音频应用中使用时间对准的编码音频块以便于音频切换的方法和装置 - Google Patents
在视频/音频应用中使用时间对准的编码音频块以便于音频切换的方法和装置 Download PDFInfo
- Publication number
- CN1172536C CN1172536C CNB998037516A CN99803751A CN1172536C CN 1172536 C CN1172536 C CN 1172536C CN B998037516 A CNB998037516 A CN B998037516A CN 99803751 A CN99803751 A CN 99803751A CN 1172536 C CN1172536 C CN 1172536C
- Authority
- CN
- China
- Prior art keywords
- audio
- information
- video
- piece
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/236—Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/236—Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
- H04N21/23602—Multiplexing isochronously with the video sync, e.g. according to bit-parallel or bit-serial interface formats, as SDI
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
- H04N21/2335—Processing of audio elementary streams involving reformatting operations of audio signals, e.g. by converting from one coding standard to another
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/236—Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
- H04N21/23614—Multiplexing of additional data and video streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/236—Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
- H04N21/2368—Multiplexing of audio and video streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/242—Synchronization processes, e.g. processing of PCR [Program Clock References]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/434—Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
- H04N21/4341—Demultiplexing of audio and video streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/434—Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
- H04N21/4342—Demultiplexing isochronously with video sync, e.g. according to bit-parallel or bit-serial interface formats, as SDI
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/434—Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
- H04N21/4348—Demultiplexing of additional data and video streams
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Television Signal Processing For Recording (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Television Systems (AREA)
- Time-Division Multiplex Systems (AREA)
Abstract
一个音频信号处理器在载有已编码音频信息的各块的各序列中形成诸间隙或诸保护带,并且令诸保护带在时间上对准于视频信息。所形成的诸保护带容许处理过程中的变化或各种电路延迟,使得带有已嵌入的音频信息的不同的视频信息流的按路由传送或切换都不会导致任何已编码音频块的丢失。
Description
技术领域:
本发明一般地涉及在视频/音频应用中的音频信号处理。更具体地说,本发明涉及用于对由诸间隙或诸保护带来分隔的各块的各序列进行编码的块编码方法,它使得在信号处理延迟中的正常变化不致破坏视频与音频信息的对准关系。
背景技术:
目前已经建立了几种国际标准,它们对将数字音频信息嵌入到各视频信息帧的各个方面作出了规定。例如,由动画与电视工程师协会(SMPTE)发布的SMPTE 259M标准就规定了一种串行数字接口(SDI),在其中,可以将多达4个通道的数字音频信息嵌入到分量的与复合的串行数字视频信号之中。SMPTE 272M标准对于如何将数字音频信息嵌入到各视频信息帧的附属的数据空间中去,给出了一种充分的定义。
数字音频信息本身的串行传输已成为各项国际标准的主题。例如,由音频工程师协会(AES)发布的AES3标准(ANSIS4.40),就规定了用线性脉冲编码调制(PCM)格式来表示的双通道数字音频信息的串行传输。根据此项标准,针对两个通道的PCM诸样本被交织并且以成对的方式被传输。
在差不多所有的记录和广播应用中,一种共同的活动就是对已嵌入的视频/音频信息流进行编辑或剪切,并将已剪切的各段信息流拼接起来以形成一段新的单独的信息流。类似的活动通过将多段信息流加以合并或者通过在多段信息流之间进行切换,来产生一段信息流。通常视频信息是主要的同步参考,因此,一个编辑或剪切点通常对准于一个视频帧。
诸如AES11这样的标准定义了用于在演播室操作中对数字音频设备进行同步的推荐的实例。AES11旨在控制由于抖动或处理延迟所引起的定时不确定性,并且提供用于将视频帧信息对准于AES3数字音频信息流的双样本的各帧。遵循此项标准的各种设备和方法能够保证在一段给定的时间间隔内,已同步的诸信号都具有相同的帧数,并且含有具有一种共同的定时关系的诸样本。不幸的是,现在还没有一种能规定介于视频信息与较长时间间隔的音频信息之间的对准关系的标准或实例。其结果是,来自不同的制造商的设备,甚至来自同一制造商而在定时关系以及在处理延迟方面有所不同的设备,都会在音频与视频信息的相互对准上引入大量的不确定性。
在使用例如在AES3标准中所定义的音频信息的线性表示的应用中,在对准上的不确定性是不重要的。由于各编辑点受到限制,它们仅出现在音频信息的各双样本帧之间,所以在视频/音频对准方面的任何不确定性都不会导致音频信息的丢失。它仅影响到声音与图像在呈现于一个人面前时的相对定时关系,而这是难以觉察的。
然而,越来越多的应用项目使用降低比特率的编码技术来将较多数目的音频通道嵌入到视频/音频数据流中去。通常这些技术被应用于128个音频样本以上的样本块,以便产生已编码的各信息块。典型地这些样本块代表着跨越3到12ms的音频信息。由这些编码过程所产生的每一个已编码的信息块代表着最小的信息单位,通过它,一段原始音频信息的一个合理地精确的复制品得以恢复。分割频带编码技术通过将基于心理声学的编码施加到一组音频信号的频率子带表示来降低比特率。可以通过采用多个带通滤波器或者一种或多种变换,来产生频率子带表示。为了便于讨论起见,在本文中从采用一个滤波器阵列的角度来说明这些分割频带编码技术。
由于处于一个已编码块的边界以内的一个编辑点将导致该块的一部分从剩余的信号中被切除,所以在这些块编码应用中,上述的在对准关系上的不确定性是重要的。在已恢复的信号中,一段典型地为3ms以上宽度的信号丢失将宣告一个已编码块的部分丢失。对于人类的听觉系统来说,这样一种丢失似乎是可觉察的。
通过使用一种后处理方法就能避免这个问题,在上述方法中,通过对已编码的音频信号采用一种解码过程,必要时对已恢复的PCM表示进行编辑,并且通过对已编辑的PCM音频信息采用一种编码过程来产生一种新的已编码的表示。由于在解码/重新编码过程中所导致的附加成本以及在音质方面的下降,所以这种解决方案是没有吸引力的。此外,由于在阅读下文后方能更好地理解的原因,因为解码/重新编码过程会在音频信息流中引入附加的延迟,所以后处理方法是没有吸引力的。
发明内容:
本发明的一个目标就是提供用于处理已嵌入的视频/音频信息流的方法与装置,它允许进行类似编辑和切换这样的活动,同时避免上述问题的出现。
根据本发明的一个方面,这里提供一种用于处理音频信息的方法,其特征在于,包括以下步骤:接收一种载有所述音频信息的输入音频信号,接收视频帧参考点,它们表示针对一序列的视频帧的时间参考点,通过向所述输入音频信号施加一个块编码过程,以降低比特率的形式从所述音频信息中产生已编码音频信息块,并且时间压缩所述已编码音频信息块,和将所述经过时间压缩的各块组合为一组已编码的音频流,它包括所述经过时间压缩的各块的多个序列,借助于一个在时间上对准于一个各自的视频帧参考点的间隙,使得在一个各自的序列中的一个起始块跟在一个领先序列中的一个终了块相隔离。
根据本发明的另一方面,这里提供一种用于处理音频信息的装置,其特征在于,包括:用于接收一个载有所述音频信息的输入音频信号的装置,用于接收各视频帧参考点的装置,所述的参考点表示针对一序列视频帧的时间参考点,通过向所述输入音频信号施加一个块编码过程以降低比特率的形式从所述音频信息中产生已编码的各音频信息块并且时间压缩所述已编码的音频信息块的装置,和将所述的时间压缩块组合为已编码的音频流的装置,所述音频流包括多个序列的经时间压缩的已编码块,利用一个在时间上对准于一个各自的视频帧参考点的间隙,使得在一个各自的序列中的一个起始块与在一个在先序列中的一个终了块相隔离。
通过参考下文的讨论的附图将能更好地理解本发明的特征及其优选实施例,附图中相同的参考数字对应于相同的部件。下文的讨论和附图的内容仅作为实例并且这不应当被理解为对本发明的范围施加各种限制。
附图说明:
图1是用于记录和用于按路由传送多组视频/音频数据流的一个系统的一个实施例的一份功能性的方框图。
图2A到2C是跟视频帧各参考点之间具有不同的对准关系的假想的各音频信号的图形表示。
图3是用于对已嵌入音频信息的各视频信号进行处理的一种装置的一个实施例的一份功能性的方框图。
图4是根据本发明的不同的诸方面的一个编码音频信号处理器的一个实施例的一份功能性的方框图。
图5A到5C是根据本发明进行处理的、并且跟视频帧各参考点之间具有不同的对准关系的假想的各音频信号的图形表示。
图6是被窗口函数加权的重叠的音频信息块的一种图形表示。
具体实施方式:
一个系统的纵览
图1表示用于记录和用于按路由传送多组视频/音频数据流的一个系统的一个实施例,并且表示能有利地使用本发明的各个方面的一个系统的一个实例。为了简明起见,这份图以及所有其他各图都不表示用于传送用以同步该设备的主时钟信号的各信号路径。在这里的讨论中,假定例如那些沿着路径21,22,23和24所产生的诸信号都符合于SMPTE 259M和SMPTE 272M标准,然而,在实施本发明的过程中,并不要求特定的标准或信号格式。例如,在本系统的一个可供选择的实施例中,每一个传送各自的视频信息与音频信息的单独的各信号沿着路径21到24以及路由器31(包括用于单独地按路由传送视频和音频信息的电路)而被产生。在这样一个实施例中,在SDI嵌入器12以及路由器31之间,插入了一个SDI去嵌入器。在这里所说明的这个可供选择的实施例是为了表明在实施本发明的过程中,不要求特定的信号格式。
视频磁带录像机(VTR)16从路径1接收视频信息以及从路径2接收音频信息,并将这种视频/音频信息记录在磁带上。其后,VTR16读出记录在磁带上的视频/音频信息,并沿着路径21产生一组载有已嵌入音频信息的视频信息的回放信号。按照类似的方式,VTR17记录分别从路径3和4接收的视频和音频信息,并且其后,沿着路径22产生一组载有已嵌入音频信息的视频信息的回放信号。
VTR16,VTR17以及VTR18包括诸如一个串行数字接口(SDI)嵌入器这样的电路,用以在回放时将音频信息嵌入到视频信息之中。
SDI嵌入器11分别从路径5和6接收视频与音频信息,并且沿着路径14产生一组载有已嵌入音频信息的视频信息的信号。VTR18,它包括一个诸如SDI去嵌入器这样的电路,从视频/音频数据信号中抽取音频信息,并将已分离的视频与音频信息记录到磁带上。其后,VTR16从磁带中恢复视频与音频信息,并且使用诸如一个SDI嵌入器那样的电路,沿着路径23产生一组载有已嵌入音频信息的视频信息的回放信号。然而,若用一部数字数据记录器来取代VTR18,则由于该视频/音频数据流本身可以被记录和回放,所以在该记录器中就不需要嵌入器和去嵌入器。
SDI嵌入器12分别从路径7和8接收视频与音频信息,并沿着路径24产生一组载有已嵌入音频信息的视频信息的信号。
SDI路由器31从路径21,22,23和24接收各视频/音频信号,并沿着路径34将这些信号按路由传送或切换到回放/记录装置41。由SDI路由器31所接收的信号的数目并不重要。
回放/记录装置41表示一部使用通过路径34的信号的任意设备。例如,它可能是一部像VTR那样的记录装置,或者是一部像电视机那样的回放装置。而且,回放/记录装置41可以被定位于远离SDI嵌入器31的地方,在这种情况下,路径34代表着一条通信或广播信道。
视频/音频对准关系的偏移
在VTR16、17、18以及在SDI嵌入器11和12中的电路延迟可以改变视频信息与音频信息的相互对准关系。其结果是,例如,在回放信号21中的视频/音频信息的对准关系相对于分别从路径1和2所接收的视频与音频信息之间的对准关系来说,可能发生偏移。在来自不同的制造商的设备之间,在对准关系上的变化量是不同的,在来自同一制造商的不同台(件)的设备中,也会发生改变,甚至,例如,在给定的一台设备中,(该变化量)作为各缓冲存储器的初始化状态的一个函数,也会发生改变。
参看图2A,信号111表示跟视频帧诸参考点101和102之间具有特定的对准关系的音频信息。这些视频帧参考点中的每一个表示在一个各自的视频帧中的一个特定的参考点。例如,对于NTSC制式视频信息来说,一个公共参考点跟在每一帧中的第10行的视频信息相重合。对于PAL制式视频信息来说,一个公共参考点跟每一帧中的第1行相重合。在实行本发明的过程中,不要求特定的对准关系。
在图2B,信号121代表着与信号111所载运的信息相同的信息,但它相对于后者来说有所延迟。其结果是,介于信号121与视频帧各参考点之间的对准关系,相对于信号111的对准关系来说发生了偏移。在图2C中,信号131代表着与信号111所载运的信息相同的信息,但它相对于后者来说有所超前。其结果是,介于信号131与视频帧各参考点之间的对准关系,以相反于信号121的对准关系的偏移的方式发生偏移。
参看图1,假设图2A所示的音频信息以及对准关系通过路径1/2,3/4,5/6和7/8来传输,例如图2A到图2C所示那样的在对准关系上的不同的偏移将同样地出现在沿着路径21到24所产生的诸信号之中。进一步地假设图2A到图2C所示的对准关系也分别地出现在沿路径21到23所产生的诸信号之中。当SDI路由器31在从这3条路径中所接收的诸信号中进行切换时,在沿着路径34所通过的信号中所嵌入的音频信息将出现一段小的不连续。若音频信息被表示为一种线性形式,例如PCM,则由于这种不连续仅持续几个样本,所以这种不连续可能不会被一个人类听者所感知。然而,要辨别介于两种具有不同音频内容的信号之间的不连续性将是特别困难的。
编码的效果
如上所述,人们对于将较大数目的音频通道嵌入到一个视频/音频数据流中去的兴趣日益增长。当这些较大数目的音频通道的信息容量超过音频信息可用的空间的容量时,就需要使用某种形式的带宽或比特率压缩。这种压缩的一个例子就是基于心理声学原理的音频编码。
这些编码技术通常被应用于各音频样本块,以产生已编码的各信息块。这些样本块典型地代表着跨越3到12ms的一段时间间隔的音频信息。由这些编码过程所产生的每一个编码信息块代表着最小的信息单位,通过它,一段原始音频信息的一个合理地精确的复制品得以恢复。
在图2A中,已编码的各信息块的一个序列被表示为一个脉冲序列。这些块所载运的信息是信号111中的音频信息的一种编码表示。脉冲的形状和大小是不重要的。该脉冲序列仅被指望提供一系列的块,这些块载运着对应于各音频样本块的已编码的信息,它们互相邻接或者,最好是,互相重叠。在图2A所示的实例中,跨越介于相邻的视频帧各参考点的时间间隔的音频信息由6个已编码的信息块来表示。在专利文献WO-A99/21187中,公开了在视频/音频应用中用于改进音频编码质量的各种考虑。
当块编码技术被应用于图1的系统中时,SDI路由器31从路径21到24所接收的诸信号含有以块的形式进行编码的音频信息。如上所述,在已编码的各信息块以及各视频帧参考点之间,可能出现在对准关系上的变化着的偏移。这被图示为,例如,介于视频帧各参考点101以及112,122和132各块之间的不同的对准关系,分别如图2A,2B和2C所示。如上所述,假设在沿着路径21到23所产生的诸信号中,分别地出现如图2A到图2C所示的对准关系,当SDI路由器31在视频帧参考点101出现的瞬间,从图2B所示的经由路径22所接收的信号,切换到图2C所示的经由路径23所接收的信号,则在切换点上,将有大量的音频信息不能从沿路径23按路由传送的信号中被恢复。因为,一方面,整个块都被要求恢复音频信息,但是,另一方面,该块在切换点后面的部分正在丢失,所以,在块123中,在切换点之前所载运的音频信息不能被恢复。类似地,由于块133中在切换点之前的部分正在丢失,所以在块133中,在切换点后面所载运的音频信息也不能被恢复。
对于图1所示的系统的类型来说,这个问题是不一样的。例如,在一部单独的VTR上进行磁带编辑或音频配音时,也会出现这样的问题。
正如将在下文中充分地说明的那样,本发明通过在已编码的音频流中形成诸保护带或诸间隙来克服这个问题,因此,在不丢失音频信息的前提下,能够容许在视频/音频对准关系上的相当可观的变化。
编码信号处理器
图3表示一个视频/音频信号处理器,它可以通过多种方式被装入到例如图1所示的一个系统之中。在所示的实施例中,从输入信号路径61-1,61-2和61-3接收载有已嵌入音频信息的视频信息的多组信号。在图中示出了3条输入信号路径;然而,本发明的诸实施例可以具有实质上为任意数目的输入信号的信号路径。信号分配器62代表着宽范围的信号分配过程,包括切换,合并,编辑,拼接以及存储/检索。为了简单起见,本文的图解和讨论假定信号分配器62接收多组视频/音频信号,并且以某种方式处理和/或分配这些信号,以便沿着路径63产生一组载有已嵌入音频信息的视频信息的单独的信号。去格式化器64从路径63接收视频/音频信息,从中抽取所嵌入的音频信息,并令其沿着路径65传送。视频信息可以沿着路径69传送。音频信号处理器66从路径65接收音频信息,并对该音频信息施加一个块编码过程,以便沿着路径67产生已编码的各信息块。格式化器68从路径67接收已编码的各信息块,并沿着路径70产生一组输出信号,后者包括已编码的各信息块的多个序列,并且在一个序列的一个起始块以及一个领先的序列的一个终了块之间具有间隙或保护带。使用一组参考信号,例如一个主时钟信号,使得间隙或保护带从时间上跟视频信息对准。
如上所述,这些图没有示出用以载运对该设备进行同步的各主时钟信号的各信号路径。在一个优选实施例中,音频信号处理器66形成对准于主时钟信号的各音频样本块。这样的对准关系示于图2A,在图中,介于相邻的各样本块之间的各边界跟视频帧各参考点101和102相重合;但是,也可以使用其他的各种对准关系。
参看图5A,块112-2的序列载运着代表信号区段111-2的已编码信息,它是信号111介于视频帧各参考点101和102之间的部分的一种假想的时间压缩表示。类似地,块112-1的序列载运着代表信号区段111-1的已编码信息,并且块112-3的序列载运着代表信号区段111-3的已编码信息。音频信号处理器66以及格式化器68产生载有音频信息的一段已编码的信息的各块的各序列,在其中,例如,介于序列112-1的终了块以及序列112-2的起始块之间已经形成了一个保护带或间隙。
在图5A到图5C中也示出了在图2A到图2C中所示的在对准关系上的偏移。在这些图中,在序列122-1,122-2,122-3,132-1,132-2,以及132-3中的已编码信息载运着分别代表各信号区段121-1,121-2,121-3,131-1,131-2和131-3的已编码信息。正如从图5B和5C所能看到的那样,由于在视频帧各参考点101和102之间,可能的各切换点出现在一个保护带之内,所以在对准关系上的偏移不会导致音频信息的丢失。
图3所示的信号处理器可以被纳入到例如一个SDI路由器之中,以便处理含有已嵌入的AES3或PCM音频信息的各视频信号。一个省略了信号分配器62的实施例可以被纳入到一部VTR或SDI嵌入器之中。另一个省略了去格式化器64的实施例也可以被纳入到一部VTR或一个SDI嵌入器的各输入电路之中。
图4表示一个编码音频信号处理器的一个实施例,它适于纳入到图3所示的实施例之中,并且也具有独立的效用,这将在下面加以说明。根据这个实施例,音频信号处理器66包括多个滤波器阵列71,72和73。响应于从路径65-1所接收的信号,滤波器阵列71沿着路径75-1到75-3产生多个频率子带信号。响应于从路径65-2所接收的信号,滤波器阵列72沿着路径76-1到76-3产生多个频率子带信号。响应于从路径65-3所接收的信号,滤波器阵列73沿着路径77-1到77-3产生多个频率子带信号。滤波器阵列71,72和73可以通过多种方式来安装,包括各带通滤波器的一个阵列,各频带分割滤波器的一个级联集,以及一种或多种时域到频域的转换。仅示出3个滤波器阵列,并且每一个滤波器阵列仅示出3组子带信号,然而,一个实施例可以包括更多的滤波器阵列,其中的每一个可以产生24个以上的子带信号,每一个子带信号又代表着具有等于或小于人类听觉系统的临界带宽的带宽的各频率子带。编码器79对各子带信号施加一个块编码过程,并沿着路径67产生各块的一个序列,后者代表着经由路径65-1,65-2和65-3所接收的音频信息的一种编码形式。
在实施本发明的过程中,分割频道编码并不重要。也可以使用其他的编码方式,例如逐块压缩-扩展的PCM或增量调制。
在一个实用的实施例中,一个编码音频信号处理器以线性PCM的形式接收8个通道的音频信息,或者,换另一种方式,接收4路AES3数据流,并且使用8个滤波器阵列以及一个编码器以实施一次块编码过程,以便产生具有各保护带的已编码的各信息块,传送上述各块所需的空间或带宽不大于在线性PCM方式下为传送两个通道的音频信息或者,换另一种方式,传送一组AES3数据流,所需的空间或带宽。
重叠的各块和窗口函数
在各图中用以表示各信息块的脉冲序列表现为:相邻的各块互相邻接但不互相重叠。虽然在实施本发明的过程中,不要求特定的各块的安排,但是各优选的实施例处理互相重叠的各块。一般来说,重叠的各音频信息块被一个窗口函数加权或调制,使得在相邻的各块中互相重叠的各样本之和基本上等于一个常数。
图6表示各块的一个序列。在序列中的起始块141跟相邻的块142发生重叠。在该序列之中的所有各块都用一个包络来表示,该包络具有一个窗口函数的形状,该窗口函数被用来对时域中的对应的音频信息进行加权处理。在该序列中的终了块146跟领先的块以及在图中没有示出的一个后继的块相重叠,重叠的量以及窗口函数的选择对编码性能有重大影响,但在实施本发明的过程中,不要求特定的窗口函数或者重叠量。在各优选实施例中,重叠量等于块长的一半,并且从凯撒-贝塞尔函数导出该窗口函数。
如上所述,音频信号处理器86产生对准于视频帧各参考点的音频信息。在产生由各音频信息块组成的各序列的各实施例中,可以这样来进行对准,使得一个视频帧参考点实质上跟该序列的任何块中的任何点相重合。在图6所示的实例中,起始块141的起点跟视频帧参考点100相重合。
在某些应用中,精确的重合点可以随着不同的视频帧而有所不同。例如,在将数字音频信息与NTSC制式视频信息相组合的各项应用中,由于音频采样率不是视频的帧频的整数倍,所以连续的各视频帧可以具有变化着的音频样本数。
在上面所参照的专利文献WO-A99/21187中,讨论了关于块长、窗口函数以及视频/音频对准关系的各种考虑。
Claims (8)
1.一种用于处理音频信息的方法,其特征在于,包括以下步骤:
接收一种载有所述音频信息的输入音频信号,
接收视频帧参考点,它们表示针对一序列的视频帧的时间参考点,
通过向所述输入音频信号施加一个块编码过程,以降低比特率的形式从所述音频信息中产生已编码音频信息块,并且时间压缩所述已编码音频信息块,和
将所述经过时间压缩的各块组合为一组已编码的音频流,它包括所述经过时间压缩的各块的多个序列,借助于一个在时间上对准于一个各自的视频帧参考点的间隙,使得在一个各自的序列中的一个起始块跟在一个领先序列中的一个终了块相隔离。
2.根据权利要求1所述的方法,其特征在于,所述的块编码过程是将所述音频信息编码成为一种含有较小冗余度和/或较小的感知无相关性的形式。
3.根据权利要求2所述方法,其特征在于,所述的块编码过程包括:
向所述的输入音频信号施加一个带通滤波器阵列,或施加一种或多种变换,以产生所述输入音频信号的多个频率子带的表示物,和
根据心理声学原理,通过自适应地将各比特分配到所述各频率子带表示,来产生所述已编码的各音频信息块。
4.根据权利要求1所述的方法,其特征在于,还包括以下步骤:向所述的音频信息的各重叠块施加所述的块编码过程。
5.一种用于处理音频信息的装置,其特征在于,包括:
用于接收一个载有所述音频信息的输入音频信号的装置,
用于接收各视频帧参考点的装置,所述的参考点表示针对一序列视频帧的时间参考点,
通过向所述输入音频信号施加一个块编码过程以降低比特率的形式从所述音频信息中产生已编码的各音频信息块并且时间压缩所述已编码的音频信息块的装置,和
将所述的经过时间压缩的已编码的音频信息块组合成为已编码的音频流的装置,所述音频流包括多个序列的经时间压缩的已编码块,利用一个在时间上对准于一个各自的视频帧参考点的间隙,使得在一个各自的序列中的一个起始块与在一个在先序列中的一个终了块相隔离。
6.根据权利要求5所述的装置,其特征在于,所述的块编码过程是将所述音频信息编码成为一种含有较小冗余度和/或较小的感知无相关性的形式。
7.根据权利要求6所述的装置,其中所述块编码过程包括:
向所述输入音频信号施加一个带通滤波器阵列或施加一种或多种变换,以产生所述输入音频信号的多个频率子带表示,以及
根据心理声学原理,通过自适应地将各比特分配到所述各频率子带表示,来产生所述已编码的各音频信息块。
8.根据权利要求5所述的装置,其特征在于,用于产生所述已编码音频信息块的装置向所述音频信息的各重叠块施加所述的块编码过程。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/042,367 US6085163A (en) | 1998-03-13 | 1998-03-13 | Using time-aligned blocks of encoded audio in video/audio applications to facilitate audio switching |
US09/042,367 | 1998-03-13 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1292979A CN1292979A (zh) | 2001-04-25 |
CN1172536C true CN1172536C (zh) | 2004-10-20 |
Family
ID=21921528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB998037516A Expired - Lifetime CN1172536C (zh) | 1998-03-13 | 1999-03-11 | 在视频/音频应用中使用时间对准的编码音频块以便于音频切换的方法和装置 |
Country Status (17)
Country | Link |
---|---|
US (1) | US6085163A (zh) |
EP (1) | EP1062816B1 (zh) |
JP (1) | JP4402834B2 (zh) |
KR (1) | KR100675562B1 (zh) |
CN (1) | CN1172536C (zh) |
AR (2) | AR014716A1 (zh) |
AT (1) | ATE247363T1 (zh) |
AU (1) | AU760400B2 (zh) |
BR (1) | BR9909247B1 (zh) |
CA (1) | CA2323564C (zh) |
DE (1) | DE69910360T2 (zh) |
DK (1) | DK1062816T3 (zh) |
ES (1) | ES2203101T3 (zh) |
HK (1) | HK1036721A1 (zh) |
MY (1) | MY125807A (zh) |
TW (1) | TW473702B (zh) |
WO (1) | WO1999046938A1 (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6188987B1 (en) * | 1998-11-17 | 2001-02-13 | Dolby Laboratories Licensing Corporation | Providing auxiliary information with frame-based encoded audio information |
US6690428B1 (en) * | 1999-09-13 | 2004-02-10 | Nvision, Inc. | Method and apparatus for embedding digital audio data in a serial digital video data stream |
US8503650B2 (en) * | 2001-02-27 | 2013-08-06 | Verizon Data Services Llc | Methods and systems for configuring and providing conference calls |
US7277427B1 (en) * | 2003-02-10 | 2007-10-02 | Nvision, Inc. | Spatially distributed routing switch |
CN101036329B (zh) * | 2004-10-07 | 2011-06-08 | 汤姆逊许可公司 | 音频/视频路由器 |
EP2052548B1 (en) | 2006-12-12 | 2012-02-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream |
EP2744193B1 (en) | 2006-12-20 | 2018-07-04 | GVBB Holdings S.A.R.L | Embedded audio routing switcher |
AU2008291065A1 (en) * | 2007-12-19 | 2009-07-09 | Interactivetv Pty Limited | Device and method for synchronisation of digital video and audio streams to media presentation devices |
EP2242047B1 (en) * | 2008-01-09 | 2017-03-15 | LG Electronics Inc. | Method and apparatus for identifying frame type |
TWI675367B (zh) | 2009-05-27 | 2019-10-21 | 瑞典商杜比國際公司 | 從訊號的低頻成份產生該訊號之高頻成份的系統與方法,及其機上盒、電腦程式產品、軟體程式及儲存媒體 |
US11657788B2 (en) | 2009-05-27 | 2023-05-23 | Dolby International Ab | Efficient combined harmonic transposition |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4532556A (en) * | 1983-05-20 | 1985-07-30 | Dolby Laboratories Licensing Corporation | Time-base correction of audio signals in video tape recorders |
US5632005A (en) * | 1991-01-08 | 1997-05-20 | Ray Milton Dolby | Encoder/decoder for multidimensional sound fields |
JP3329076B2 (ja) * | 1994-06-27 | 2002-09-30 | ソニー株式会社 | ディジタル信号伝送方法、ディジタル信号伝送装置、ディジタル信号受信方法及びディジタル信号受信装置 |
EP0734021A3 (en) * | 1995-03-23 | 1999-05-26 | SICAN, GESELLSCHAFT FÜR SILIZIUM-ANWENDUNGEN UND CAD/CAT NIEDERSACHSEN mbH | Method and apparatus for decoding of digital audio data coded in layer 1 or 2 of MPEG format |
US5819215A (en) * | 1995-10-13 | 1998-10-06 | Dobson; Kurt | Method and apparatus for wavelet based data compression having adaptive bit rate control for compression of digital audio or other sensory data |
US5860060A (en) * | 1997-05-02 | 1999-01-12 | Texas Instruments Incorporated | Method for left/right channel self-alignment |
US5946352A (en) * | 1997-05-02 | 1999-08-31 | Texas Instruments Incorporated | Method and apparatus for downmixing decoded data streams in the frequency domain prior to conversion to the time domain |
-
1998
- 1998-03-13 US US09/042,367 patent/US6085163A/en not_active Expired - Lifetime
-
1999
- 1999-03-11 BR BRPI9909247-6B1A patent/BR9909247B1/pt active IP Right Grant
- 1999-03-11 CA CA002323564A patent/CA2323564C/en not_active Expired - Lifetime
- 1999-03-11 WO PCT/US1999/005249 patent/WO1999046938A1/en active IP Right Grant
- 1999-03-11 DE DE69910360T patent/DE69910360T2/de not_active Expired - Lifetime
- 1999-03-11 EP EP99913844A patent/EP1062816B1/en not_active Expired - Lifetime
- 1999-03-11 AT AT99913844T patent/ATE247363T1/de active
- 1999-03-11 JP JP2000536202A patent/JP4402834B2/ja not_active Expired - Lifetime
- 1999-03-11 AU AU31830/99A patent/AU760400B2/en not_active Expired
- 1999-03-11 MY MYPI99000901A patent/MY125807A/en unknown
- 1999-03-11 ES ES99913844T patent/ES2203101T3/es not_active Expired - Lifetime
- 1999-03-11 KR KR1020007008721A patent/KR100675562B1/ko not_active IP Right Cessation
- 1999-03-11 CN CNB998037516A patent/CN1172536C/zh not_active Expired - Lifetime
- 1999-03-11 DK DK99913844T patent/DK1062816T3/da active
- 1999-03-12 AR ARP990101085A patent/AR014716A1/es active IP Right Grant
- 1999-03-15 TW TW088103917A patent/TW473702B/zh not_active IP Right Cessation
-
2000
- 2000-01-17 AR ARP000100199A patent/AR021444A2/es active IP Right Grant
-
2001
- 2001-10-18 HK HK01107287A patent/HK1036721A1/xx unknown
Also Published As
Publication number | Publication date |
---|---|
DE69910360D1 (de) | 2003-09-18 |
CA2323564A1 (en) | 1999-09-16 |
TW473702B (en) | 2002-01-21 |
CN1292979A (zh) | 2001-04-25 |
WO1999046938A1 (en) | 1999-09-16 |
MY125807A (en) | 2006-08-30 |
BR9909247B1 (pt) | 2014-08-26 |
DE69910360T2 (de) | 2004-06-24 |
KR100675562B1 (ko) | 2007-01-29 |
HK1036721A1 (en) | 2002-01-11 |
KR20010040826A (ko) | 2001-05-15 |
BR9909247A (pt) | 2000-11-28 |
AR014716A1 (es) | 2001-03-28 |
CA2323564C (en) | 2008-05-13 |
ES2203101T3 (es) | 2004-04-01 |
AU760400B2 (en) | 2003-05-15 |
EP1062816A1 (en) | 2000-12-27 |
JP2002507101A (ja) | 2002-03-05 |
US6085163A (en) | 2000-07-04 |
ATE247363T1 (de) | 2003-08-15 |
JP4402834B2 (ja) | 2010-01-20 |
DK1062816T3 (da) | 2003-11-03 |
AU3183099A (en) | 1999-09-27 |
EP1062816B1 (en) | 2003-08-13 |
AR021444A2 (es) | 2002-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1142346B1 (en) | Encoding auxiliary information with frame-based encoded audio information | |
EP1472889B1 (en) | Audio coding | |
US8275625B2 (en) | Adaptive variable bit rate audio encoding | |
EP0565947B1 (en) | Procedure for including digital information in an audio signal prior to channel coding | |
CN1172536C (zh) | 在视频/音频应用中使用时间对准的编码音频块以便于音频切换的方法和装置 | |
CN1829333B (zh) | 产生要记录的信息信号的方法 | |
CN1179870A (zh) | 一种用于对数字式通用盘设备和多路复现装置之间的非pcm位流编码,传送和解码的方法和设备 | |
MX9801215A (es) | Un metodo y aparato para codificar sistemas de corrientes de bits para su conexion sin suturas. | |
US6480234B1 (en) | Method and apparatus for synchronously encoding audio signals with corresponding video frames | |
RU2258266C2 (ru) | Носитель записи, несущий стереофонический сигнал и сигнал данных, и устройство и способ для записи и воспроизведения стереофонического сигнала и сигнала данных на/с носителе(я) | |
KR100306930B1 (ko) | 디지털 데이터전송장치 및 그 전송방법 | |
MXPA00008964A (en) | Method of embedding compressed digital audio signals in a video signal using guard bands | |
JPH08307822A (ja) | ディジタル信号の記録再生装置 | |
CN1158177A (zh) | 记录/再现数字信息信号和至少一个数字辅助信号的各种记录/再现方式 | |
EP0776519A1 (en) | Recording/reproducing apparatus of the helical scan type | |
JPH11341433A (ja) | デジタルデータ伝送装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: GR Ref document number: 1036721 Country of ref document: HK |
|
CX01 | Expiry of patent term |
Granted publication date: 20041020 |
|
CX01 | Expiry of patent term |