CN100579236C - 音频编解码方法和装置 - Google Patents

音频编解码方法和装置 Download PDF

Info

Publication number
CN100579236C
CN100579236C CN02827225A CN02827225A CN100579236C CN 100579236 C CN100579236 C CN 100579236C CN 02827225 A CN02827225 A CN 02827225A CN 02827225 A CN02827225 A CN 02827225A CN 100579236 C CN100579236 C CN 100579236C
Authority
CN
China
Prior art keywords
audio
frame
piece
length
overlapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN02827225A
Other languages
English (en)
Other versions
CN1615659A (zh
Inventor
J·F·阿普雷亚
T·博特泽
P·H·A·迪尔伦
L·M·范德克霍夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1615659A publication Critical patent/CN1615659A/zh
Application granted granted Critical
Publication of CN100579236C publication Critical patent/CN100579236C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Cereal-Derived Products (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

公开一种音频编码方案或编码音频和视频数据的一种数据流。该方案在数字电视广播的夹层编码中具有特别的应用。通过在编码时在一个限定序列中提供长度F可变的音频帧,其中长度=F(j),该方案具有一个平均有效音频帧长度
Figure 02827225.0_AB_0
,该长度
Figure 02827225.0_AB_0
等于在整数M个图像帧之上图像帧长度1/fV。通过根据在M帧的一个序列之后重复的一个算法改变在相邻帧之间的重叠长度,可以改变音频帧的长度。还公开了用于这种方案的编码器和解码器。

Description

音频编解码方法和装置
发明背景
技术领域
本发明涉及把音频信号编码成数据流,以使得其能够在与另一数据流的同步的点上被编辑。本发明尤其但不限定地应用于一个数字电视传输方案,要求在相关的图像帧边界上在压缩域中音频的非破坏性接合(splice)。
数字电视(DTV)系统允许经过一个具有有限带宽的信道广播几个节目。每一节目都具有视频和音频内容。一些节目可以包含高质量的多路音频(例如,可由家庭影院系统再生的5路音频)。DTV制作站点、网络和联播台通常使用磁带录像机和传输线来传送所有的音频内容。大部分的这种基础结构具有的能力仅用于两个未压缩的音频通道,所以多个通道在记录或传输之前通常被稍作压缩和格式化。在发射(即广播到最终用户)之前,节目数据流被强压缩。
在DTV产品的采集(contribution)和分配阶段,原始数据流必须被接合,用于节目编辑或节目切换(例如,用于将本地信息内容插入到实况广播网络馈送中)。在内容数据流中的图像帧边界上执行这种接合。
广播数据流的音频内容必须满足几个要求。DTV观众可以预期接收的节目具有高感知音频质量,尤其当这些节目将被使用例如家庭影院系统中的高质量再生设备再生时。例如,应该没有任何可听到的由于多个编码和解码级的级联引起的假象(artefact),并且在节目切换期间应该没有可察觉到的声音中断。最重要地,再生的节目必须口型同步(lip sync);即,音频数据流必须与对应的视频数据流同步。为了以合理的成本实现这些目的,即,利用现有的(两路)基础结构来实现这些目的,必须在压缩域中接合该音频节目。
背景技术
一种现有的夹层(mazzanine)编码方案包括在Dolby DigitalBroadcast Implementation Guidelines Part(杜比数字广播实施准则部分)No.91549(杜比实验室的1998年版本2)中限定的杜比E(r.t.m.),用于通过AES-3对分配多达8个信道的编码音频和复用的元数据。很快将要被引入的(NAB 1999)DP571杜比E编码器和DP572杜比E解码器将允许以最小的静噪或低频干扰来编辑和切换编码的音频信号。而且,它们将实现级联而没有可听到的劣变。杜比E使用20比特取样大小并且提供比特率的在2∶1和5∶1之间的一个降低。
英国广播公司和其它机构通过ACTS ATLANTIC项目正在建议一种用于切换和编辑MPEG-2视频比特流的灵活方法。这种无缝级联方案使用具有补充信息的解码和再编码来避免级联劣变。但是,该方案局限于具有MPEG-2层II和AES/EBU接口的应用。而且,该音频数据被允许相对于引入时间偏移的编辑点滑动。因此,连续的编辑能够导致在音频和视频信息之间一个大的时间偏移。
贯穿该广播链,视频和音频流必须被保持在口型同步中。即,音频必须与对应的视频保持同步。在发射之前,分配站点可以接合(例如交换、编辑或混合)音频和视频流(例如,用于包含本地内容)。在接合之后,如果图像帧和音频帧边界不重合,对于大多数的音频编码方案来说是这种情况,由于该音频相对于该视频的滑动而不可能自动地保证口型同步。在极端情况下,当不采用特殊措施时,这将导致音频假象,例如静噪或低频干扰。低频干扰可能是尝试解码一个非适应音频流的结果,而静噪则可被用于避免这些低频干扰。本发明的一个目标是提供一种用于音频流的编码方案,该音频流能够被接合而不引入例如静音、低频干扰或滑动的音频假象。
本发明的另一目标是提供一种编码方案,能够以最低的音质损耗来进行级联压缩和解压缩。
发明内容
根据第一方面,本发明提供用于一个数据流的音频编码方案,编码音频和视频数据,通过在编码中在限定的一个序列F(j)中提供长度F可变的音频帧,该方案具有等于在整数M个图像帧上图像帧长度1/fv的一个平均有效音频帧长度F。
该方案保证至少在每一个图像帧上编辑该数据流而不劣变音频信息。该帧长度F最好可通过改变在连续音频帧之间的重叠O来调整。
在实现本发明的方案中,值F(j)可根据j、限定一个帧序列的F(j)的周期性循环地重复。每一序列通常有M个图像帧和N个音频帧,每一音频帧包括k个块。在该序列中的帧之间的全部重叠OT例如可以等于OT=p×O+q×(O+1),其中O是块中的重叠长度。
在本发明范围之内的一方案中,仅重叠对应于一个特定图像帧的音频帧。在这样的一个方案中,p和q的值可以满足下列等式:
p=(N-M)×(O+1)-OT和q=(N-M)-p。
在一个可选方案中,仅重叠对应于一个特定视频序列的音频帧。在这样的一个方案中,p和q的值可以满足下列等式:
p=(N-1)×(O+1)-OT和q=(N-1)-p。
在一个进一步的可选方案中,任何相邻的音频帧被重叠。在这样的一个首选方案中,p和q的值可以满足下列等式:
p=N×(O+1)-OT和q=N-p。
该后一方案可以提供针对图像帧M序列的最佳重叠值,以使得
∃ n ∈ ℵ + : n × t = M ( f A f V ) .
把一个视频序列定义为fV图像帧/秒速率上一个(并且可能是有限的)整数(即,M)的图像帧,每一图像帧包括相等整数N的(压缩的)音频帧,每一个音频帧包括整数k的块,每一个块表示每秒fA取样的取样速率的一个整数t的音频取样。通过使得图像帧数之间除法的余数乘以音频和视频频率之间的商数,并且使得每一(压缩)音频块的音频取样的数量等于零,保证M是一个整数。因此,N也是一个整数。结果,重叠块的总数也是一个整数,并且每个单一重叠也是如此。在大多数情况下,要求重叠块的数量是一个整数。取样的块是由基础编解码器处理的最小的信息单元。
根据第二方面,本发明提供用于传送编码音频和视频数据的数据流的音频编码方案,在该方案中N个准视频匹配帧的音频取样在具有半可变重叠的帧中被编码,从而音频帧的有效长度与一个M图像帧序列的长度一致,其中M和N是正整数。
本发明提供利用根据任何一个在前的本发明方面的方案编码的数据流。这样的数据流可以包括音频帧,每一音频帧都被标记,以指示该音频帧的大小。可以类似地标记块来指示该块是否为冗余块。
根据另一方面,本发明提供一个音频编码器(这可以例如实现为一个软件成分或硬件电路),用于根据本发明第一方面编码音频流;并且进一步提供一个音频解码器,用于根据本发明第一方面解码音频流。
根据本发明此方面的一个音频解码器通过对每一块应用一组块运算符(operatof)的一个或者多个来改变数据流中块的冗余状态而操作。这可以利用包括下列一个或多个运算符的一组运算符来实现:NOP,不改变块状态的运算符;DROP(丢弃),把第一非冗余块从首部重叠改变成冗余块的运算符;APPEND(附加),把第一冗余块从尾部重叠改变成非冗余块的运算符;以及SHIFT(移位),这是DROP和APPEND两个运算符的组合的运算符。
具体地说,本发明提供一种音频编码器,用于编码数据流的音频,编码音频数据和视频数据,其中该编码器产生可变长度的音频帧,通过使得音频帧可变重叠在编码时在一个限定序列F(j)中具有长度F,使得一个平均有效音频帧长度F等于在整数M图像帧之上图像帧长度的1/fV
这样一个音频编码器可以把一个数据流编码成在一个序列中具有长度O的一个短重叠和总数为q的长重叠,该编码器使用在N个音频帧之后重复的一种算法来计算首部重叠。
根据更进一步的方面,本发明提供一个音频解码器(这可以实现为例如一个软件成分或一个硬件电路),用于解码传送已编码音频和视频数据的数据流,该解码器计算在一个可能循环移位的序列F(j)中的一个输入帧F的预期帧长度,调整该输入帧的实际长度以使得其等于该预期帧长度,确定在一个接收帧之内的任何块是否为冗余块或非冗余数据块,把非冗余块映射到子带音频取样上。
在实现本发明的系统中,通常没有例如取样速率变换的额外的音频操作。而且,正确解码已接收数据流所需的全部信息通常都在编码器上被添加,并且不需要在编辑期间修改此信息。因此,可以使用现存的基础结构来完成编辑而不作任何修改。而且,为了使得解码有可能,需要添加非常少的额外信息到该数据流。最后,但不是最少,当使用MPEG作为发射格式时,也可以方便地使用一个MPEG类似的格式来传输。
附图说明
现将仅以实例的方式并且参照附图来详细描述本发明的实施例,其中:
图1是在DTV广播中牵涉的一个典型链的示意图;
图2是表示一个典型DTV制作站点的主要组成部分的示意图;
图3是表示一个典型DTV网络站点的主要组成部分的示意图;
图4是表示在根据本发明一个实施例的第一方案编码的一个数据流中的音频和图像帧的排列的示意图;
图5是表示在根据本发明一个实施例的第二方案编码的一个数据流中的音频和图像帧的排列的示意图;
图6是表示在根据本发明一个实施例的第三方案编码的一个数据流中的音频和图像帧的排列的示意图;
图7示出根据MPEG-2层II的实施本发明的一个数据流的比特分配,用于IEC61937中的NTSC和48kHz音频;和
图8是利用本发明的一个实施例编码的数据流中的块的排列的示意图。
具体实施方式
在下面的描述中,贯穿使用以下符号:
fA,fV     音频采样频率,图像帧速率
tA,tv     音频,图像帧持续时间长度
s          每一音频帧的取样
k          每一音频帧的取样的块
t          每一块的取样
O,OT,O   短的、总的和平均重叠
M,N       每一序列的视频、音频帧的数量
p          每一序列的短重叠的数量
q          每一序列的长重叠的数量
j          帧索引
F(j),G(j) 帧的有效长度
H(j),T(j) 帧的首部、尾部重叠
X(j),X(j) 累积的有效长度,累积的平均有效长度
F          平均有效长度
b          短帧的长度
B          视频序列中块的总数
Figure C0282722500081
         相位
    {1,2,3,...,∞}
Q       零填充
A(j)    附加操作转换
OP(j)   运算符
ε(j)   同步差错
δ      总的同步差错
u,v    辅助变量
首先参考图1,典型的DTV广播系统是牵涉采集(contribution)级10、分配级12和发射级14的一个链。
在采集级中,在一个或者多个制作站点20上产生内容,并且通过分配网络22传输到一个广播网站点24。广播网24制作包括该内容的节目流,并且经过一个分配网络30把该节目流分配到联播台,例如,直达户的卫星广播器32、地面广播器34或有线电视供应商36。用户40随后能从联播台之一的输出接收该节目流。
在制作站点中,几个类型的内容可以被产生并被存储在不同的媒体上。例如,第一演播室50可以产生实况内容,而第二演播室52可以产生记录的内容(例如商业广告)。在每种情况下,该内容包括视频和音频成分。来自每一个演播室50的输出由分别的编码器54类似地进行处理,并且产生编码该音频和视频内容的基本数据流。来自第一演播室50的将要被实况广播的内容随后被利用一个无线电链路(在适当的处理之后)发送到分配网络22。对于第二演播室的内容来说,时间不是关键的,所以这可以被记录在磁带56上并且以一个适当的方式被发送到分配网络22。编码器54及其产生的基本数据流是本发明方面的实施例。
如图3所示,在网络站点24内,来自各种信源的内容通过一个接合器60被接合,以构成一个节目输出。从类似类型的基本数据流中获得至接合器60的输入,诸如通过无线电链路从制作单元20、磁带56或本地演播室64的各种信源获得基本数据流。接合器60的输出同样是一个基本数据流,这是在任何给定时间选择的一个输入数据流。接合器60能够被操作以便在输入数据流之间切换,其切换方式保证输出数据流的音频和视频成分能够被无缝地再生。接合器60的输出随后由打包器62处理,以形成一个传输流。随后,调制该传输数据流,以便利用一个无线电链路发送到联播台,从而分配到用户。
在实施本发明的一个基本数据流之内编码的视频内容通常将包括扫描图像帧的序列。这样的帧可以是逐行扫描图像帧,其中每一帧都是一个完全的静止画面。在这种情况下,图像帧具有帧速率fV并且具有持续时间tv=1/fV。另外,这些帧可以是隔行扫描帧,其中每一个帧都由两个连续的隔行扫描场建立,以上述介绍的表示法,该场频是2fV。帧速率和扫描类型由该数据流计划用于的电视制式所定义。基本电视标准PAL和NTSC从使用这些标准的国家的主频率中得到帧速率。由于彩色的引入,NTSC被利用系数1000/1001修改。另外,影片使用24Hz,其可以利用相同的系数进行修改。而且,计算机监视器能够运行在高达96Hz的帧速率上。在下表1中给出fV的典型值。
Figure C0282722500101
表1
音频信号是在频率fA,例如48kHz上取样的一个时间连续的脉码调制(PCM)信号。fA的实例值在下表2中给出。
Figure C0282722500102
表2
除这些频率之外,还有可能找到利用系数1000/1001修改的44.1和48kHz(例如44.056、44.144、47.952和48.048kHz),用于在上拉和下拉影片到NTSC转换中使音频一致。另外,对于影片到PAL的变换来说,可以应用24/25系数(例如42.336、45.937、46.08和50kHz)。而且,DAB可以使用24和48kHz;DVD音频可以使用44.1、88.2、176.4、48、96和192kHz;DVD视频可以使用48和96kHz。DAT被指定用于32、44.1和48kHz;特殊版本也可以使用96kHz。最后,以非常低比特率压缩的音频可以要求较低的采样频率(例如,16、22.05和24kHz)。
取样宽度通常是16、20或24比特。
在压缩之前,音频数据流被分割成持续时间tA=s/fA的音频帧,其中s是每一音频帧的取样的数量(例如,在MPEG-2层II中,s=1152取样;在AC-3中,s=1536采样)。在各种编码方案中使用的帧速率的实例在下表3中示出。
Figure C0282722500111
表3
在音频编码器内,音频帧被进一步分成t取样的k个块(例如在MPEG-2层II中,有36个块,每个块具有32个采样)。这些块是将要被处理的最小音频单元。这可被表示成s=k×t。下面的表4提供了在各种编码方案中使用的帧细分的实例。
Figure C0282722500112
表4
贯穿该广播链,视频和音频流必须保持在口型同步中。即,音频必须与对应的视频保持同步。在发射之前,分配站点可以接合(例如,切换、编辑或混合)音频和视频流(例如,用于包含本地内容)。
在接合之后,如果图像和音频帧边界不重合,对于大部分的音频编码方案来说是这种情况,则不可能自动地保证口型同步。在极端情况下,当不采用特殊措施时,这将导致音频假象,例如静噪或滑动。
虽然本发明的各种实施例能够执行涉及现存标准(例如,MPEG-1和MPEG-2)的编码,但是本发明的实施例不一定与这些现存标准后向兼容。
实施例的基础
在本实施例的编码方案中,在N个准视频匹配帧中的音频取样具有与M个图像帧序列一致的半可变重叠。当根据本发明一个实施例进行编码时,每一个图像帧都包括相等整数数目的音频帧。因此,可以在图像帧边界上实现编辑。当解码时,可以丢弃冗余的取样。
设定一个音频帧被划分成k个具有t个取样的块,则在块中的总重叠OT可以由下式来计算:
O T = ( k × N ) - ( M t × f A f V ) 公式1
公式1中M、N、k和t是正整数,而fA和fV以Hz为单位表示频率,使得fA/fV是一个有理数。
为了提供在解码器重建滤波器中在编辑的音频数据流之间的交叉衰落,选择总重叠OT与整数块一致,如由下式给定:
OT=p×O+q×(O+1)    公式2
其中p、q和O是非负整数。
在本发明的各个实施例中,各种方案都能够用来通过音频帧扩展总重叠。即,通过强加不同的限制,可以给出用于这些实施例的不同的实施方案。在此处涉及到三个这样的方案,如:
方案1-在图像帧内的重叠;
方案2-在图像帧序列内的重叠;和
方案3-贯穿整个视频流的重叠。
能够显示出,方案3总是提供在两个相邻音频帧之间最小可能的重叠,常常每一序列具有最小数量的图像帧。因此,对于许多应用来说,此方案将比其它方案优选。但是,根据具体应用,可能不总是这种情况。
方案1
当重叠仅存在于一个图像帧之内时,如图4那样,在数据块中的平均重叠O由下式给出:
O ‾ = O T N - M 公式3
其可以实现为
p=(N-M)×(O+1)-OT    公式4
长度O块的重叠,以及
q=(N-M)-p    公式5
长度(O+1)块的重叠。
方案2
当重叠仅存在于一个序列之内时,如图5那样,块中的平均重叠O由下式给出:
O ‾ = O T N - 1 公式6
其可以实现为:
p=(N-1)×(O+1)-OT    公式7
长度O块的重叠,和
q=(N-1)-p            公式8
长度(O+1)块的重叠。
方案3
当重叠仅存在于序列之内时,如图6那样,块中的平均重叠O由下式给出:
O ‾ = O T N 公式9
其可以实现为:
p=N×(O+1)-OT    公式10
长度O块的重叠,和
q=N-p            公式11
长度(O+1)块的重叠。
重叠长度O可以表示成:
公式12
针对最后方案,其能够被写为:
Figure C0282722500142
公式13
M的选择要满足:
∃ n ∈ ℵ + : n × t = M ( f A f V ) 公式14
并且每一图像帧的音频帧的速率N/M可被写成:
Figure C0282722500144
公式15
交叉衰落
按照ISO/IEC 11172″Coding of moving pictures andassociated audio for digital storage media at up to about 1.5Mbit/s(用于高达大约1.5M比特/秒的数字存储媒体的运动图像和相关音频的编码)″部分3中定义MPEG-1解码器中的重建滤波器:音频(1993-08)是一个重叠滤波器组。如果在子带域(即,块)中完成接合,则导致在解码时大约512音频取样的交叉衰落。
根据常用编码标准的实施方案
各种编码方案都已被认为是用于本发明实施例的基础。具体地说,已经考虑了MPEG-1和MPEG-2、层I和II,但这决不是可能方案的专门列举。在此必须说明,实现本发明的方案使用类似于现存标准的编码方案,但由于重叠,本发明使用的编码方案与这些标准出现偏离。
如精通本技术领域的人士所熟悉的那样,MPEG-2是用于编码与MPEG-1反向兼容的多信道音频的一个标准方案。另一方面,对多信道的一个非反向兼容的MPEG-1标准的扩展可以提供实施方案简易。而且,层II比层I更效率。另一方面,由于层I具有较少块数目,它提供较少的编码冗余度。在本发明的实施例中,根据MPEG-1层I的一个方案可以提供低冗余度和实施方案简易的最佳组合。
MPEG-2层II
当使用MPEG-2层II作为该编码方案的基础时,k=36和t=32。
表5示出当该实施例是根据如上所述的方案1时用于音频采样频率和图像帧速率的各种组合的重叠序列的某些实例。
Figure C0282722500151
表5:MPEG-2层II和方案1
表6示出当该实施例基于如上所述的方案2时用于音频采样频率和图像帧速率的各种组合的重叠序列的某些实例。
Figure C0282722500161
表6:MPEG-2层II和方案2
表7示出当该实施例基于如上所述的方案3时用于音频采样频率和图像帧速率的各种组合的某些重叠序列。
表7:MPEG-2层II和方案3
MPEG-2层I
当使用MPEG-2层I作为编码方案时,K=12和t=32。通过使用方案3,获得表8所示出的序列。
Figure C0282722500181
表8:MPEG-2层I和方案3
应该指出,平均冗余度比使用层II时的情况少得多。
MPEG-1
能够被用于实施例的另一简化方案是使用MPEG-1作为该编码方案的基础。在此情况中,MPEG-1的双通道(例如,立体声)的上限能够被扩展到n个通道。因此,每一个通道都能够具有根据总体比特可用性和根据每一通道的音频内容的一个比特分配。
算法
在下面部分中,描述适用于根据方案3计算重叠的算法。
编码
用于创建一个实施例数据流的一种编码器创建一个具有预定结构的帧序列。每一个帧j具有在下表9中示出的结构,其中k是块的总数,H(j)是首部重叠中块的数量,而T(j)是在尾部重叠中块的数量。
H(j) k-[H(j)+T(j)] T(j)
表9
注意,T(j)=H(j+1)。
已知N,O和q的值,该编码器可以使用下面算法来计算确切的首部重叠。
while(new frame){
   if(counter>=N||counter=0){
       overlap=O+1;
       counter=counter%N;
   }
   else overlap=0;
   return(overlap);
   counter=counter+q;
}
在MPEG-2层II、fV=24Hz和fA=48kHz的情况下,从表7得到N=4,O=4和q=3。这产生下列的首部重叠序列:5,4,5和5,或其任何循环移位。
每一音频帧都必须被标记以指示其大小。在上述方案中,首部重叠可以仅为O或O+1长。因此,有可能使用一个1比特标记来区别短和长帧。
在一个视频序列中帧j的有用大小F(j)由下式给出:
F(j)=k-H(j+1)    公式16
每一数据块都必须被标记以指示其冗余度。在上述方案中,块可以仅是冗余的或非冗余的。因此,有可能使用一个1比特标记来区别冗余和非冗余的块。
记录和传输
虽然冗余信息必须被编码,但是无需全部发送。这将节省在发送流中的比特速率。一个视频序列内要被记录或发送的块的最小总数Bmin由下式给出:
Figure C0282722500191
公式17
可能需要每一音频帧的一个额外冗余块来允许编辑编码的数据流。在此情况中,在一个视频序列内被记录或发送的块的最大总数BMAX由下式给出:
Figure C0282722500201
公式18
可以在块中定义一个相位
Figure C0282722500202
来指示相对于在该视频序列中的第一图像帧的该编码数据流的相对开始。对于的一个合适的选择是:
Figure C0282722500204
公式19
而且,该编码器将产生零填充Q以便根据IEC61937标准完成该数据流。填充的长度不仅根据有效负载长度,而且还得考虑图像边界,以避免一个累积误差被引进该编码的数据流中。
编辑
通过相加、删除或附加帧,可以在图像帧边界上执行根据本实施例编码的数据流的编辑。通过使用可在该解码器中得到的信息(例如fA和fV的值)或由该编码器产生的信息(例如大小标记),该解码器校正可能由于编辑产生的错误。不需要把附加信息作为编辑的结果记录或发送。而且,可以通过在该解码器中的一个重建滤波器组提供在该编辑点上的交叉衰落。
解码
用于解码数据流的解码器计算用于当前帧j的预期有用的大小F(j)。而且,它从输入帧读出一个大小标记,以确定实际的有用大小G(j)。
在一个音频帧中的数据块可以具有两个状态之一:冗余的或非冗余的。非冗余块被记录、发送和解码成子带取样。冗余块(例如在尾部重叠中的第一冗余块)可被记录和发送,以便于解码处理。但是,冗余块从不解码成子带取样。
为了修改一个重叠块的状态,定义四个运算符:NOP,DROP,APPEND和SHIFT。
NOP:NOP运算符不改变块的状态。
DROP:DROP运算符把第一非冗余块从首部重叠改变成冗余块。
APPEND:APPEND运算符把第一冗余块从尾部重叠改变成非冗余块。
SHIFT:该移位运算符是DROP和APPEND两个运算符的一个组合。
在采用本发明的一个数据流中的帧解码成子带取样被称为映射。只有非冗余块被映射成子带取样。如果输入帧大于预期帧,则应用运算符DROP。反之,如果输入帧小于预期帧,则应用运算符APPEND。当实际大小等于预期大小时,解码器注意以前帧。如果该以前帧已经被附加或移位,则应用运算符SHIFT,否则输入帧不被修改地进行映射。
同步差错
实现本发明的一个数据流基于在编码之时通过在一个限定的序列F(j)中长帧(即标记帧)和短帧的交替建立等于图像帧长度1/fV的一个平均有效音频帧长度F。不论在编辑之后输入帧的实际长度G(j)如何,在解码之时为了再生先前限定的长和短帧的序列F(j)所需的冗余度是通过在编辑点上重叠这些帧而获得的。在编辑之时,块中由于交换帧产生的同步差错ε(j)可以表示为:
Figure C0282722500211
公式20
任何时候可以写成:
j×p=u+N×v    公式21
其中u∈{0,1,2,...,N-1}以及v∈{0,1,2,...,p}。
通过替代,得到如下公式:
ϵ ( j ) = u N , 公式22
其中0≤εMAX<1-1/N。在解码时,通过使用如上所述的运算符NOP、DROP、APPEND和SHIFT而适当地放弃那些冗余度。而且,输入帧G(j)可能由于一个DROP或SHIFT操作而被延迟一个块。因此,能够表示出由于该处理引入的总的同步差错δ被约束如下:
公式23
具有限制:
-1≤δMAX<1    公式24
级联
有损耗编码和解码的几个级联级别可以使信号劣变。但是,以采集和分配时低压缩速率的使用、涉及压缩信号的元数据和专用技术的使用能够被用来保持此劣变不被最终用户所察觉。该技术领域的技术人员知道适用于MPEG编码的方法(例如在1996 11月8-11日101次AES大会由Warner R.Th.ten Kate发表的文章″Maintaining AudioQuality in Cascaded Psychoacoustic Coding″中所述的),这些方法可与本发明的实施例一起用于保持贯穿整个DTV广播链的音频信号的质量。
本发明的实例
块排列
根据本发明实施例编码的用于基于MPEG-2层II和方案3重叠的影片和专业音频的音频帧序列表示在表10中。根据本发明的另一实施例,在解码数据流之后的块的全部可能安排表示在图8中。参数如下(参考上述的符号列表):
图像帧速率fV=24Hz,图像帧长度tv=41.67ms;
音频采样频率fA=48kHz,音频帧长度tA=24ms;
k=36块,t=32取样;
M=2图像帧,N=4音频帧;
重叠:OT=19块,O=4.75块,O=4块,O+1=5块;
p=1短重叠,q=3长重叠;
b=31块,b+1=32块;
Bmin=125,BMAX=129,
Figure C0282722500221
块;
εMAX=0.75块, δ ∈ [ 0,0.75 ) ⇐ Δt = 0 [ - 1 , - 0.25 ) ⇐ Δt = - 1
j 1 2 3 4
  H(j)   5   4   5   5
  F(j)   32   31   31   31
表10
系统对IEC61937标准的应用
用于发送实施本发明的数据流的一个合适标准是IEC61937标准(‘Interface for non-linear PCM encoded audio bitstreamsapplying IEC 60958’(用于应用IEC 60958的非线性PCM编码音频比特流的接口))。在图7所示出的数据流分配中,对于先前实例:
·IEC61937帧具有(16/32)×3.072M比特/秒/fV的长度。对于fV=24Hz来说,它对应于64,000比特。
·前同步信号:Pa=F872h,同步字1;Pb=4E1Fh,同步字2;Pc=脉冲串信息;Pd=比特数<65536,长度码。
·数据脉冲串的重复周期是IEC60958帧的数量。
·在编辑一个VTR磁带之后音频和视频之间的相对定时精度和由于切换器系统间隙引入的延迟确定了两帧之间需要的最小间隙。这个所谓的接合间隙可以利用零帧填充来获得。
这能够被概括为:
·填充=接合间隙+脉冲串间距;接合间隙=磁带+切换不准确;脉冲串间距=每4096×IEC60958帧的4×IEC60958个″0″子帧。
·脉冲串-有效负载:系统帧=(N/M)×[系统子帧-首部重叠];N=4;M=2;N/M=2。
如果实施本发明的数据流基于384k比特/秒上用于5.1信道的MPEG-2层II,则系统至多需要45,504比特(2×[(1,152-4×32)×384/48+(2,047-4×32/1,152×2,047)×8]+0)。
相反,如果实施本发明的数据流基于用于6信道的每信道192k比特/秒上的MPEG-1层II的一个6信道型式,则至多需要49,152比特(2×(1,152-4×32)×6×192/48+0)。如果考虑LFE信道仅需要每帧12个取样,则有效的比特率将是大约每信道230k比特/秒。

Claims (17)

1.一种用于传送音频和视频数据的数据流的音频编码方法,通过在编码时在限定的序列F(j)中提供长度F可变的音频帧,该方法具有等于在整数M个图像帧之上图像帧长度1/fV的平均有效音频帧长度F,其中通过改变在连续的音频帧之间的重叠O来调整帧长度F。
2.根据权利要求1的音频编码方法,其中该值F(j)根据j周期性地重复,F(j)的周期性限定帧序列。
3.根据权利要求2的音频编码方法,每一序列具有M个图像帧和N个音频帧,每一音频帧包括k个块,每一个块具有t个取样。
4.根据权利要求3的音频编码方法,其中在序列中的帧之间的总重叠OT等于OT=p×O+q×(O+1),其中O是块中的重叠长度,其中:
Figure C028272250002C1
5.根据权利要求4的音频编码方法,其中只有对应于特定图像帧的音频帧重叠。
6.根据权利要求5的音频编码方法,其中p=(N-M)×(O+1)-OT,和q=(N-M)-p。
7.根据权利要求4的音频编码方法,其中只有对应于特定视频序列的音频帧重叠。
8.根据权利要求7的音频编码方法,其中p=(N-1)×(O+1)-OT,和q=(N-1)-p。
9.根据权利要求4的音频编码方法,其中任何相邻的音频帧重叠。
10.根据权利要求9的音频编码方法,其中p=N×(O+1)-OT,和q=N-p。
11.根据权利要求10的音频编码方法,其中:
∃ n ∈ ℵ + : n × t = M × ( f A f V ) .
12.根据权利要求1的音频编码方法,其中该数据流编码音频和视频数据,在该方法中利用半可变重叠在帧中编码N个准视频匹配帧的音频取样,从而音频帧的有效长度与M个图像帧的序列的长度一致,其中M和N是正整数。
13.一种音频编码器,用于编码传送音频和视频数据的数据流的音频,其中该编码器包括用于根据权利要求1-12之中任何一项权利要求的音频编码方法来编码音频的装置。
14.一种音频解码器,用于解码传送音频和视频数据的数据流中的音频,其中该解码器包括用于解码根据权利要求1-12之中任何一项权利要求的音频编码方法编码的音频的装置。
15.根据权利要求14的音频解码器,其中用于解码的装置用于:计算输入帧的预期的有效帧长度;调整输入帧的实际长度,以使之等于预期的帧长度;确定在接收的帧内的任何块是冗余块还是非冗余块;将非冗余块映射到子带取样。
16.根据权利要求15的音频解码器,其中用于解码的装置适用于通过把一组块运算符之中的一个或者多个运算符应用于每一个块来修改该数据流中块的重叠状态。
17.根据权利要求16的音频解码器,其中用于解码的装置适用于提供该组运算符,以包括以下的一个或多个:NOP,不改变块的状态的运算符;DROP,将第一非冗余块从首部重叠改变成冗余块的运算符;APPEND,将第一冗余块从尾部重叠改变成非冗余块的运算符;和SHIFT,这是DROP和APPEND运算符组合的运算符。
CN02827225A 2002-01-18 2002-12-12 音频编解码方法和装置 Expired - Fee Related CN100579236C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP02075215 2002-01-18
EP02075215.0 2002-01-18

Publications (2)

Publication Number Publication Date
CN1615659A CN1615659A (zh) 2005-05-11
CN100579236C true CN100579236C (zh) 2010-01-06

Family

ID=8185547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN02827225A Expired - Fee Related CN100579236C (zh) 2002-01-18 2002-12-12 音频编解码方法和装置

Country Status (9)

Country Link
US (1) US7840412B2 (zh)
EP (1) EP1472889B1 (zh)
JP (1) JP4467984B2 (zh)
KR (1) KR100933469B1 (zh)
CN (1) CN100579236C (zh)
AT (1) ATE396588T1 (zh)
AU (1) AU2002353343A1 (zh)
DE (1) DE60226777D1 (zh)
WO (1) WO2003061299A1 (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7764713B2 (en) * 2005-09-28 2010-07-27 Avaya Inc. Synchronization watermarking in multimedia streams
US8102878B2 (en) * 2005-09-29 2012-01-24 Qualcomm Incorporated Video packet shaping for video telephony
US8842555B2 (en) * 2005-10-21 2014-09-23 Qualcomm Incorporated Methods and systems for adaptive encoding of real-time information in packet-switched wireless communication systems
US8406309B2 (en) * 2005-10-21 2013-03-26 Qualcomm Incorporated Video rate adaptation to reverse link conditions
US8548048B2 (en) * 2005-10-27 2013-10-01 Qualcomm Incorporated Video source rate control for video telephony
US8514711B2 (en) * 2005-10-21 2013-08-20 Qualcomm Incorporated Reverse link lower layer assisted video error control
US8599841B1 (en) 2006-03-28 2013-12-03 Nvidia Corporation Multi-format bitstream decoding engine
US8593469B2 (en) * 2006-03-29 2013-11-26 Nvidia Corporation Method and circuit for efficient caching of reference video data
US7884742B2 (en) * 2006-06-08 2011-02-08 Nvidia Corporation System and method for efficient compression of digital data
US8700387B2 (en) * 2006-09-14 2014-04-15 Nvidia Corporation Method and system for efficient transcoding of audio data
JP4775208B2 (ja) * 2006-09-21 2011-09-21 ソニー株式会社 再生方法、再生プログラムおよび再生装置
KR101370478B1 (ko) * 2007-01-10 2014-03-06 퀄컴 인코포레이티드 멀티미디어 전화 통신을 위한 컨텐트- 및 링크-의존 코딩 적응 구조
CN101231850B (zh) * 2007-01-23 2012-02-29 华为技术有限公司 编解码方法及装置
US8797850B2 (en) 2008-01-10 2014-08-05 Qualcomm Incorporated System and method to adapt to network congestion
US8295379B2 (en) * 2009-12-08 2012-10-23 Futurewei Technologies, Inc. System and method for non-uniform bit allocation in the quantization of channel state vectors
US20110158310A1 (en) * 2009-12-30 2011-06-30 Nvidia Corporation Decoding data using lookup tables
WO2013122385A1 (en) * 2012-02-15 2013-08-22 Samsung Electronics Co., Ltd. Data transmitting apparatus, data receiving apparatus, data transreceiving system, data transmitting method, data receiving method and data transreceiving method
WO2013122387A1 (en) 2012-02-15 2013-08-22 Samsung Electronics Co., Ltd. Data transmitting apparatus, data receiving apparatus, data transceiving system, data transmitting method, and data receiving method
WO2013122386A1 (en) 2012-02-15 2013-08-22 Samsung Electronics Co., Ltd. Data transmitting apparatus, data receiving apparatus, data transreceiving system, data transmitting method, data receiving method and data transreceiving method
TWI557727B (zh) * 2013-04-05 2016-11-11 杜比國際公司 音訊處理系統、多媒體處理系統、處理音訊位元流的方法以及電腦程式產品
CN110751942A (zh) * 2018-07-20 2020-02-04 北京京东金融科技控股有限公司 一种识别特征声音的方法和装置
CN110210230B (zh) * 2019-05-14 2021-10-22 深圳市腾讯网域计算机网络有限公司 提高系统安全性的方法、装置、电子设备及存储介质
CN114339397B (zh) * 2021-12-23 2023-08-11 北京百度网讯科技有限公司 一种多媒体编辑信息确定方法、装置、设备及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US622660A (en) * 1899-04-11 Bowling-alley
EP0829875B1 (en) * 1995-05-31 2002-09-18 Sony Corporation Method and device for encoding audio signal and method and device for decoding audio signal
AU6077196A (en) * 1996-02-01 1997-08-07 Mitsubishi Denki Kabushiki Kaisha Multimedia information processing system
US6181383B1 (en) 1996-05-29 2001-01-30 Sarnoff Corporation Method and apparatus for preserving synchronization of audio and video presentation when splicing transport streams
US6262777B1 (en) 1996-11-15 2001-07-17 Futuretel, Inc. Method and apparatus for synchronizing edited audiovisual files
JP2001509354A (ja) * 1997-01-21 2001-07-10 サーノフ コーポレイション 接続点の存在を示す情報ストリームシンタックス
US5913190A (en) * 1997-10-17 1999-06-15 Dolby Laboratories Licensing Corporation Frame-based audio coding with video/audio data synchronization by audio sample rate conversion
US6124895A (en) * 1997-10-17 2000-09-26 Dolby Laboratories Licensing Corporation Frame-based audio coding with video/audio data synchronization by dynamic audio frame alignment
US6188987B1 (en) * 1998-11-17 2001-02-13 Dolby Laboratories Licensing Corporation Providing auxiliary information with frame-based encoded audio information
US6226608B1 (en) * 1999-01-28 2001-05-01 Dolby Laboratories Licensing Corporation Data framing for adaptive-block-length coding system
EP1215663A1 (en) 2000-12-15 2002-06-19 BRITISH TELECOMMUNICATIONS public limited company Encoding audio signals

Also Published As

Publication number Publication date
WO2003061299A1 (en) 2003-07-24
AU2002353343A1 (en) 2003-07-30
DE60226777D1 (de) 2008-07-03
US7840412B2 (en) 2010-11-23
EP1472889B1 (en) 2008-05-21
KR20040075090A (ko) 2004-08-26
ATE396588T1 (de) 2008-06-15
EP1472889A1 (en) 2004-11-03
KR100933469B1 (ko) 2009-12-23
CN1615659A (zh) 2005-05-11
US20050117056A1 (en) 2005-06-02
JP4467984B2 (ja) 2010-05-26
JP2005515511A (ja) 2005-05-26

Similar Documents

Publication Publication Date Title
CN100579236C (zh) 音频编解码方法和装置
RU2679379C2 (ru) Декодер для декодирования мультимедийного сигнала и кодер для кодирования вторичных мультимедийных данных, содержащих метаданные или управляющие данные для первичных мультимедийных данных
CN1961351B (zh) 可缩放的无损音频编解码器和创作工具
JP5032314B2 (ja) オーディオ符号化装置、オーディオ復号化装置およびオーディオ符号化情報伝送装置
CN1829333B (zh) 产生要记录的信息信号的方法
US7362906B2 (en) Computational graceful degradation method using priority information in multiple objects case
CN1938760B (zh) 多通道编码器
CN102971788B (zh) 音频信号的样本精确表示的方法及编码器和解码器
JP6728154B2 (ja) オーディオ信号のエンコードおよびデコード
CN101771869A (zh) 一种音视频编解码装置及方法
CN101292428A (zh) 用于编码/解码的方法和装置
CN100536574C (zh) 一种快速播放多媒体信息的系统和方法
US8613038B2 (en) Methods and apparatus for decoding multiple independent audio streams using a single audio decoder
EP1021044A1 (en) Method and apparatus for encoding or decoding audio or video frame data
JP4248026B2 (ja) 符号化された形式と符号化されない形式のディジタル情報信号を交互に伝送する伝送装置
US6810198B1 (en) Record and playback device
EP1020998A2 (en) Method and apparatus for encoding or decoding audio or video frame data
WO1998059492A1 (fr) Transmetteur de donnees numeriques et procede de transmission associe
TWI241488B (en) Method for reducing buffering demand of digital audio decoder
Smith This paper is concerned with the application of ATLANTIC switching techniques to edit-conforming during post-production, and to presentation within the broadcast chain. In this respect a number of important issues have been addressed within the ATLANTIC project; those discussed in this paper include
Mailhot Accomodating Pre-Compressed Digital Audio in the Modern Television Plant
Joss Professional Applications for DCC
JP2001145060A (ja) 記録再生装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100106

Termination date: 20171212

CF01 Termination of patent right due to non-payment of annual fee