CN1196611A - 可变规模语音编码/解码的方法和装置 - Google Patents

可变规模语音编码/解码的方法和装置 Download PDF

Info

Publication number
CN1196611A
CN1196611A CN97123480A CN97123480A CN1196611A CN 1196611 A CN1196611 A CN 1196611A CN 97123480 A CN97123480 A CN 97123480A CN 97123480 A CN97123480 A CN 97123480A CN 1196611 A CN1196611 A CN 1196611A
Authority
CN
China
Prior art keywords
bit
data
coding
quantization
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN97123480A
Other languages
English (en)
Other versions
CN1110145C (zh
Inventor
朴成熙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN1196611A publication Critical patent/CN1196611A/zh
Application granted granted Critical
Publication of CN1110145C publication Critical patent/CN1110145C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M1/00Analogue/digital conversion; Digital/analogue conversion
    • H03M1/12Analogue/digital converters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提出了一种可变规模语音编码/解码方法和装置。所提出的编码方法包括下列步骤:(a)对输入语音信号进行信号处理和按每个预定编码频带量化;(b)在预定层规模内对与底层相应的量化数据编码;(c)在预定层规模内对与已编码底层的下一增强层相应的量化数据和属于已编码层但尚未编码的剩下的量化数据编码;以及(d)相继对所有各层执行层编码步骤。

Description

可变规模语音编码/解码的方法和装置
本发明属语音编码/解码技术领域,具体地说本发明涉及通过在一个比特流中表示以一个底层为基础的各个增强层的数据对分层比特流进行编码/解码的可变规模的(scalable)语音编码解码的方法和装置。
通常,含有信息的波形是一个连续的模拟信号。为了将这波形表示成离散信号,就需要进行模拟-数字(A/D)变换。
为了进行A/D变换,需要两个过程:(1)采样过程,将在时间上连续的信号变换成离散信号;(2)幅度量化过程,将可能的幅度数限制为一个有限值,也就是说,将输入幅度X(n)限制为属于t时刻可能幅度的有限集中的一个元Y(n)。
由于近来数字信号处理技术的开发,已经提出和广泛使用通过采样和量化将模拟信号变换成数字的PCM(脉冲编码调制)数据、将经变换的信号存入诸如高密盘或数字语音带那样的记录/存储媒体以后根据用户需要再重放所存储的信号这样的语音信号存储/恢复方法。这种数字存储/恢复方法解决了语音质量降低的问题,与传统的模拟方法相比大大改善了语音的质量。然而,在有大量数字数据的情况下,这种方法在存储和发送数据上仍存在着问题。
为了减少数字数据量,已经采用了DPCM(差分脉冲编码调制)或ADPCM(自适应差分脉冲编码调制)来压缩数字语音信号。然而,这种方法具有一个缺点,对于不同的信号类型效率相差非常大。最近由ISO(国际标准化组织)标准化的MPEG(动画专家组)/语音技术和由杜比开发的AC-2/AC-3技术利用了一个人类心理声学模型来减少数据量。
在诸如MPEG-1/语音、MPEG-2/语音或AC-2/AC-3那样的传统的语音信号压缩方法中,时域信号被变换成频域信号,组合成一些具有恒定长度的块。然后,经变换的信号用人类心理声学模型进行标量量化。这种量化虽然简单,但即使输入的样点是统计独立的情况下也并不是最佳的。当然,如果输入的样点是相互统计相关的,这种量化就更不合适。然后,进行编码,包括诸如熵编码之类的无损编码或自适应量化。因此,与简单的PCM数据存储方法相比,这种编码过程相当复杂。比特流包括压缩信号用的辅助信息和经量化的PCM数据。
MPEG/语音标准或AC-2/AC-3方法提供了与高密盘几乎相同的语音质量,但比特率为64-384Kbps,仅是经典数字编码比特率的1/6-1/8。因此,MPEG/语音标准在存储和发送诸如数字语音广播(DAB)、互联网电话或点播放音(AOD)中的语音信号上起着重要的作用。
在这些传统的技术中,编码器中给定了一个固定的比特率,因此需要搜索适合给定比特率的最佳状态再进行量化和编码,从而可以得到相当好的效果。然而,随着多媒体技术的出现,对于具备有低比特率编码效果的多功能编码解码器(Codec)的呼声越来越高。其中之一就是可变规模语音编码解码器(Scalable audio codec)。这种可变规模语音编码解码器可以将在高比特率编码的比特流变成低比特率的比特流,只恢复其中的某些部分。这样,在网络负荷过重时或者在解码器的性能不好或用户有所请求的情况下,可以只用部分比特流来合理恢复信号,只是在性能上由于比特率较低而稍有一些降低。
按照普通的语音编码技术,为编码装置给定了一个固定的比特率,搜索到对于给定比特率的最佳状态后进行量化和编码,从而形成符合这个比特率的比特流。一个比特流含有的只是对于一个比特率的信息。也就是说,比特率信息包含在一个比特流的头标中,使用的是一个固定比特率。因此,可以使用一个在规定的比特率呈现最佳效果的方法。例如,在一个比特流用一个工作在比特率为96Kbps的编码器形成的情况下,用一个与这个编码器相应的比特率为96Kbps的解码器可以恢复出质量最佳的声音。
按照这种方法,形成比特流并不考虑其他比特率,所形成的比特流具有适合给定比特率的规模,而不是其他比特流。实际上,如果这样形成的比特流要通过一个通信网发送,就需要将这比特流分成一系列时隙发送。在一个传输信道负荷过重时,由于传输信道带宽狭窄接收端接收到的可能仅是传输发送的部分时隙,从而不能正确恢复数据。此外,由于比特流并不是按照它的重要性来形成的,因此只是恢复部分比特流会导致质量严重下降。在语音数字数据的情况下,可能产生刺耳的声音。
例如,在一个广播台形成比特流向各用户广播时,这些用户可能请求不同的比特率。或者,这些用户可能具有不同性能的解码器。在这种情况下,如果为了满足用户的请求广播台发送仅由一个固定比特率支持的数据流的话,就需要分别向各用户发送比特流,这在比特流的传输和形成上都是相当不经济的。
然而,如果一个语音比特流具有一些不同层的比特率,那么就能恰当地满足不同的用户请求和给定的环境。为此,如图1所示,先对低层进行编码,然后再解码。然后,将经解码所得信号与原信号之差再输入下一层的编码器进行处理。也就是说,首先对底层编码,产生一个比特流,再对原信号与编码信号之差进行编码,产生一个下一层的比特流,这样反复进行。这种方法增大了编码器的复杂程度。此外,为了恢复原信号,解码器也要以相反的次序重复这个过程,从而增大了解码器的复杂程度。因此,随着层数的增多,编码器和解码器就越来越复杂。
为了解决上述问题,本发明的一个目的就是提出一种可变规模语音编码/解码的方法和装置,通过在一个比特流内表示一些不同层比特率的数据可以按照传输信道的状态、解码器的性能或用户的请求控制比特流的规模和解码器的复杂程度。
为了达到这个目的,所提出的将语音信号编码成一个具有一个底层和预定数目的增强层的分层数据流的可变规模语音编码方法包括下列步骤:(a)对输入的语音信号进行信号处理和按各预定的编码频带进行量化;(b)在预定的层规模内对与底层相应的量化数据进行编码;(c)在预定的层规模内对与已编码底层的下一个增强层相应的量化数据和属于已编码层而尚未编码的剩下的量化数据进行编码;以及(d)相继对所有各层执行层编码步骤,其中步骤(b)、(c)和(d)各包括下列步骤:(e)用预定的相同数目的数字表示与一个需编码的层相应的量化数据;以及(f)对由组成所表示的数字数据的幅度数据的最高有效数字组成的最高有效数字序列进行编码。
步骤(e)和(f)是从低频率到高频率依次执行的。
编码步骤(b)、(c)和(d)是用一种预定的编码方法对包括至少量化步长信息和分配给每个频带的量化比特信息的辅助信息以及量化数据执行的。
步骤(e)和(f)中的数字是比特,而步骤(f)中的编码是通过以预定个数的比特为单位组合组成比特序列的各比特实现的。
预定的编码方法是无损编码,而无损编码是霍夫曼编码或算术编码。
在量化数据是由符号数据和幅度数据组成时,步骤(f)包括下列步骤:(i)用一种预定的编码方法对由组成所表示的数字数据的幅度数据的最高有效数字组成的最高有效数字序列进行编码;(ii)对与已编码的最高有效数字序列中的非零数据相应的符号数据进行编码;(iii)用一种预定的编码方法对数字数据的未编码的幅度数据中的最高有效数字序列进行编码;(iv)对与在步骤(iii)中编码的数字序列中的非零幅度数据相应的符号数据中的未编码的符号数据进行编码;以及(v)对数字数据的各数字执行步骤(iii)和(iv)。
步骤(e)是将数字数据表示为具有相同数目的比特的二进制数据,而数字都是比特。
各编码步骤是通过以预定个数的比特为单位组合组成相应的幅度数据和符号数据的比特序列的各比特实现的。
量化是通过下列步骤实现的:将输入的时域语音信号变换成频域信号;将经时/频映射变换的信号组合成一些预定子频带的信号和计算每个子频带的掩蔽门限;以及量化每个预定编码频带的信号,使得每个频带的量化噪声都小于掩蔽门限。
按照本发明的另一表现形态,所提出的将语音信号编码成具有预定数目的分层比特率的数据的可变规语音编码装置包括:一个量化部,其作用是对输入的语音信号进行信号处理和按每个编码频带进行量化;一个比特构组部,其作用是对与一个底层相应的辅助信息和量化数据进行编码,对与这个底层的下一层相应的辅助信息和量化数据进行编码,这样依次对所有各层进行编码,从而产生相应的比特流,其中比特构组部通过用具有预定相同个数的比特的二进制数据表示量化数据将它分割成一些由比特构成的组,再用一种预定的编码方法对比特分割的数据从最高有效比特序列到最低有效比特序列进行编码来实现编码。
在数字数据包括符号数据和幅度数据时,比特构组部对比特分割的数据中具有相同重要性(有效位)的比特的幅度数据进行收集和编码对符号数据中与非零幅度数据相应的未编码的符号数据进行编码,这样的对幅度和符号数据的编码都是从各MSB到较低有效比特依次进行的。
在比特构组部按重要性对比特进行收集和编码时,编码是通过以预定比特数为单位组合这些比特来实现的。
此外,本发明还提出了一种对编码成具有分层比特率的语音数据进行解码的可变规模语音解码方法,这种方法包括下列步骤:通过分析组成数据流的各比特的重要性,按照生成具有分层比特率的数据流中的各层的次序,从高位有效比特到低位有效比特对具有至少量化步骤信息和分配给每个频带的量化比特信息的辅助信息以及量化数据进行解码;将解码得到的量化步长和量化数据恢复成具有原来幅值的信号;以及将解量化得到的信号变换成时域信号。
解码步骤中的数据都是比特,而数据流是比特流。
按重要性解码的步骤是以由预定个数的比特组成的向量为单位进行的。
在量化数据由符号数据和幅度数据组成时,解码步骤包括下列步骤:通过分析组成数据流的各比特的重要性,按照生成具有分层比特率的数据流中的各层的次序,从高位有效比特到低位有效比特对具有至少量化步长信息和分配给每个频带的量化比特信息的辅助信息以及量化数据进行解码;以及对量化数据的符号数据进行解码,将解码得到的符号数据与解码得到的幅度数据合并在一起。
解码步骤是用算术解码或霍夫曼解码实现的。
相应,本发明提出了一种对编码成具有分层比特率的语音数据进行解码的可变规模语音解码装置,这种装置包括:一个比特流分析部,其作用是通过分析组成比特流的各比特的重要性,按照生成分层比特流中的各层的次序,从高位有效比特到低位有效比特对具有至少量化步长位息和分配给每个频带的量化比特信息的辅助信息以及量化数据进行解码;一个量化部,其作用是将解码得到的量化步长和量化数据恢复成具有原来幅度的信号;以及一个频/时映射部,其作用是将解量化得到的信号变换成时域信号。
本发明的以上目的和优点通过以下结合附图对本发明的优选实施例的详细说明就会更加清楚,在这些附图中:
图1为一个简单的可变规模编码/解码装置(codec)的方框图;
图2为本发明所提出的编码装置的方框图;
图3示出了本发明所提出的比特流结构的示意图;以及
图4为本发明所提出的解码装置的方框图。
下面将结合附图详细说明本发明的优选实施例。
图2为本发明所提出的可变规模语音编码装置的方框图,这个装置包括量化部230和比特构组部240。
对输入的语音信号进行信号处理和按预定编码频带进行量化的量化部230包括时/频映射部200、心理声感部210和量化部220。时/频映射部200将输入的时域语音信号变换成频域信号。人耳所感觉的信号特性差异在时域上并不很大。然而,按照人类心理声学模型,对每个频带的感觉却有很大的不同。因此,通过对于不同的频带分配不同的量化比特数可以增强压缩效果。
心理声感部210将经时/频映射部200变换的信号用各预定子频带的信号组合,利用各信号之间相互作用所产生的掩蔽现象计算出每个子频带的掩蔽门限。
量化部220量化每个预定编码频带的信号,使得每个频带的量化噪声都小于掩蔽门限。也就是说,对每个频带的各频率信号进行标量量化,使得每个频带的量化噪声都小于掩蔽门限而不能察觉。所执行的是使在每个频带所产生的噪声与由心理声感部210计算得的掩蔽门限之比NMR(噪声掩蔽比)小于或等于0dB的量化。NMR值小于或等于0dB意味着掩蔽门限高于量化噪声。也就是说,听不到量化噪声。
比特构组部240对与具有最低比特率的底层相应的辅助信息和量化数据进行编码,再对与底层的下一层相应的辅助信息和量化数据进行编码,这样对所有各层都执行这个过程,从而产生相应的比特流。对各层的量化数据和编码是通过以下步骤实现的:通过将每个量化数据表示为由预定相同个数的比特组成的二进制数据,将每个量化数据分割成一些比特组;以及用一种预定的编码方法对比特分割的数据从最高有效比特序列到最低有效比特序列依次进行编码。在数字数据包括符号数据和幅度数据的情况下,比特构组部240收集比特分割的数据中具有相同重要性(即处在同一有效位)的比特的每个幅度数据加以编码,然后对与已编码的幅度数据中的非零幅度数据相应的符号数据进行编码。这里,对符号数据和幅度数据的编码过程都是从MSB到较低有效比特依次进行的。
下面将说明这种编码装置的工作情况。输入语音信号受到编码形成相应的比特流。为此,在时/频映射部200用MDCT(改进的离散余弦变换)或子频带滤波将输入信号变换成频哉信号。心理声感部210用一些适当的子频带组合频率信号,得出掩蔽门限。子频带主要用于量化,因此称为量化频带。量化部220执行标量量化,使得每个量化频带的量化噪声幅度小于掩蔽门限,这样的噪声虽然是可闻的,但由于掩蔽现象而感觉不到。如果执行满足这样条件的量化,那么就对于各频带就分别产生相应的量化步长值和量化频率值。
就人类心理声学来说,在较低的频率可以容易感觉出接近的频率分量的差异。然而,随着频率的增加,可感觉的频率差异间隔越来越大。如表1所示,较低频率的量化频带具有较窄的带宽,而较高频率的量化频带具有较宽的带宽。
表1
量化频带 编码频带 始标 终标
0 0 0 7
1 8 15
2 16 23
3 1 24 35
4 36 47
5 2 48 59
6 60 71
7 3 72 83
8 84 99
9 4 100 115
10 116 131
11 5 132 147
12 148 163
13 6 164 195
14 7 196 227
15 8 228 259
16 9 260 291
17 10 292 323
18 11 324 354
19 12 356 387
20 13 388 419
21 14 420 451
22 15 452 483
23 16 484 515
24 17 516 555
25 18 556 599
26 19 600 634
27 20 644 687
然而,为了便于编码,对于编码来说,并不用表1中所示的量化频带,而是用带宽与量化频带接近的编码频带。换句话说,如表1所示,对于比较窄的带宽,几个量化频带合成一个编码频带,而对于比较宽的带宽,一个量化频带就构成一个编码频带。因此,所有编码频带控制成具有差不多的带宽。
1.取决于数据重要性的编码
各量化值的符号分别存储,而绝对值就是取为表示成正值的数据。在每个编码频带的各量化频率值中,搜索出一个具有最大绝对值的值,从而确定表示每个频带中的信号所需的相应量化比特数。
通常,一个1比特的MSB(最高有效比特)的重要性远大于一个1比特的LSB(最低有效比特)。然而,按照传统的方法,编码并不考虑这重要性。因此,如果只使用整个比特流中的前面那部分,那么前面这部分包含了大量重要性不如包含在没有使用的后面那部分中的信息。
由于上述原因,在本发明中,对各频带的量化信号从各MSB到LSB依次进行编码。也就是说,各量化信号用二进制记数表示,而各频率分量的量化值以比特组为单位从低频分量到高频分量依次处理。首先,得到各频率分量的MSB,然后退一比特对次高有效比特编码,直至LSB。这样,最重要的信息首先编码,安排在所产生的比特流的前部。
假设8个用二进制记数各由4个比特表示的量化值如下:
LSB    MSB
0:    1001
1:    1000
2:    0101
3:    0010
4:    0000
5:    1000
6:    0000
7:    0100
按传统方法,首先对最低频率分量的1001编码,然后对1000、0101、0010依次编码(也就是横向对每个频率分量依次编码)。然而,按照本发明,最低频率分量MSB的1和其他频率分量MSB的0,1,0,0,…依次组合成比特组加以处理。例如,在以4个比特为单位编码的情况下,就先对1010编码,再对0000编码。如果各MSB都已编码,就取各次高有效比特值0001,0000,依次直至各LSB加以编码。这里,编码方法可以是无损编码,例如霍夫曼编码或算术编码等。
2.包括符号比特的编码
通常符号比特是MSB。因此,在从MSB起进行编码时,符号比特就看作最重要的信息加以编码。在这种情况下,可能会出现低效编码。也就是说,由于从MSB到次高比特量化为1的值认为是零,因此相应的符号值是没有意义的。例如,如果一个量化值用5个比特表示为00011,而在编码中只用3个高位比特,那么这个量化值就恢复为00000。因此,即使这个值有一个符号比特,这个信息也是没有用的。然而,要用到5个比特中的4个比特,这个量化值成为00010。因此,这个符值就很有意义了,因为在高位比特中首次出现的1这个值意味着这个量化值解码后是一个不为零的值。
在从各MSB起表示各频率分量中,如果首次碰到的是1而不是0,就在其他值编码前先对这个符号值编码,决定符号值是正还是负。例如,在对MSB编码中,首先对1010编码,然后确定是否需要对符号比特编码。此时,由于在第一和第三频率分量中的非零值首先编了码,因此依次对这两个分量的符号比特进行编码,然后再对0000编码。为了对各LSB编码,对1100编码后,确定是否需要对符号比特编码。在这个情况下,由于这两个1中的第一个1相应的频率分量的符号比特已经在MSB出现1时编了码,因此不需要编码。然而这两个1中的第二个1相应的频率分量在高位没有出现过1,因此需要对符号比特编码。这个符号比特编码后,再对LSB的0100进行编码。
3.改进的编码方法
在应用上述编码方法中,在低比特率的情况下,象下面那样改变编码次序就更为有效。通常,人类的听觉系统对频率分量的分布情况非常敏感,无论是正的还是负的。在这里所提出的编码方法中,只是对符号比特尚未编码、要恢复为零的那些频率分量进行编码,而推迟对符号比特编了码的那些频率分量的编码。在以这种方式完成了符号编码后,再用上面所述的编码方法对推迟的数据进行编码。这种编码方法将用前面所列举的例子详细说明如下。
首先,由于MSB中没有一个频率分量是具有一个已编码的符号比特,因此这些MSB全部加以编码。接着的高位有效比特是0001,0000,…。其中,对于0001,第一个的0和第三个的0不用编码,因为它们的符号比特已在MSB中编了码,于是对第二和第四比特的0和1编码。这里,由于在高位比特中没有1,因此对第四比特1的频率分量的符号比特编码。对于0000,由于在高位比特中没有已编码的符号比特,这四个比特全加以编码。以这种方式,对符号比特编码直至各个LSB,然后再对剩下的未编码信息用前面所述的编码方法从高位有效比特起依次进行编码。
4.可变规模比特流格式
在本发明中,语音信号被编码成由一个底层和几个增强层组成的分层比特流。底层具有最低的比特率,而各增强层具有比底层高的比特率。越高的增强层,比特率也越高。
在底层的前部表示的只是各个MSB,因此只是编了码的所有各频率分量分布概况。随着在较低比特中表示的比特的增多,所表现的信息越来越详细。由于是按照比特率增加的次序,也就是说随着层的增强对更详细的信息数据值编码的,因此可以从更高的层得到更高的语音质量。
下面将说明格式化使用这种所示数据的可变规模比特流的方法。首先,在底层需要用到的辅助信息中,对每个量化频带的量化比特信息编码。各量化值的信息从各MSB到LSB、从低频分量到高频分量依次编码。如果某个频带的量化比特少于当前正在加以编码的频带的比特,就不予编码。在频带的比特等于当前正在加以编码的频带的比特时,就予以编码。这里,如果在对各层的信号编码中没有频带限制,那么就会产生刺耳的声音。这是因为在不考虑频带从MSB到LSB进行编码的情况下,在恢复低比特率层信号时信号出现反复通断。因此,最好按照比特率适当限制频带。
底层编码后,就对下一个增强层的辅助信息和语音数据量化值进行编码。以这种方式对所有各层的数据进行编码。这样编码的信息集在一起,形成相应的比特流。
如上所述,用这种编码装置形成的比特流具有一种分层结构,较低比特率层的比特流包含在较高比特率层的比特流中,如图3所示。传统上,辅助信息首先编码后对剩下的信息进行编码形成比特流。然而在本发明中,如图3所示,每一层的辅助信息分开编码。而且,传统上所有的量化数据的样点值为单位依次编码,而在本发明中,量化数据用二进制数据表示,在比特量限额内从二进制数据的MSB起加以编码,形成相应的比特流。
下面将更为详细地说明这种编码装置的工作情况。在本发明中,在一个具有如图3所示的分层结构的比特流内列有从较重要的信号分量起对各层这些比特率的信息编码得到的信息。利用这样形成的比特流,可以根据用户的请求或者按照传输信道的状态通过简单地重新排列包含在具有最高比特率的比特流中的低比特率比特流形成具有低比特率的比特流。也就是说,编码装置实时形成的比特流或存储在媒体内的比特流可以根据用户的请求重新排列成适合所要求的比特率进行发送。此外,如果用户的硬件性能欠佳或者用户希望解码器不很复杂,那么即使是适当的比特流,也可以只恢复其中部分比特流,从而满足了用户的需要。
例如,在形成一个可变规模比特流中,底层比特率为16Kbps,顶层比特率为64Kbps,而各增强层的比特率间隔为8Kbps,也就是说这个比特流具有比特率为16、24、32、40、48、56和64Kbps这七层。由于编码装置形成的比特流具有图3所示的分层结构,因此顶层64Kbps的比特流含有各增强层(16、24、32、40、48、56和64Kbps)的相应比特流。如果用户请求的是顶层数据,那么就发送顶层的比特流,不需要作任何处理。而如果用户请求的是底层(16Kbps)数据,那么只要发送前面的比特流就可以了。
各层按相应的比特率具有不同的有限带宽,如表2所示,最终的量化频带是不同的。输入数据是以48KHz采样的PCM数据,一个帧的幅度是1024。对于比特率为64Kbps的情况,一个帧的可用比特数平均为1365.333(=64000bit/s*(1024/48000))。
表2
比特率(Kbps) 16 24 32 40 48 56 64
限用频带(长块) 0-12 0-19 0-21 0-23 0-25 0-27 0-27
限用频带(短块) 0-4 0-7 0-8 0-9 0-10 0-11 0-11
带宽 4KHz 8KHz 10KHz 12KHz 14KHz 16KHz 16KHz
类似,可以按照各比特率计算出一个帧可用的比特数,如表3所示。
表3
比特率(Kbps) 16 24 32 40 48 56 64
比特/帧 336 512 680 848 1024 1192 1365
量化前,利用心理声学模型,首先根据输入数据产生当前正在处理的帧的块类型(是长块、起始块、短块还是终止块)、各处理频带的相应SMR值、短块的划分信息和与心理声学模型时/频同步的受时间延迟的PCM数据,送至时/频映射部。用ISO/IEC11172-3的模型2来计算心理声学模型。
时/频映射部按照应用心理声学模型输出的块类型利用MDCT将时域数据变换成频域数据。此时,在长/起始/终止块的情况下块长度为2048,而在短块的情况下块长度为256,MDCT执行8次。上面使用的是与在传统的MPEG-2NBC[13]中所用的相同的过程。
变换成频域的数据用一个增加的步长进行量化,使得表1所示的量化频带的SNR值小于心理声学模型的输出值SMR。这里,执行的是标量量化,基本的量化步长为21/4。所执行的量化使NMR等于或小于0dB。这里,所得到的输出是各处理频带的相应量化步长的信息。为了对量化信号编码,搜索各编码频带的量化信号相应最大绝对值,然后计算编码所需的最大量化比特。
对于比特流的同步信号来说,通过在比特流前加12个比特,以产生比特流开始的信息。然后对所有比特流的幅值编码。对编码比特流中最高比特率的比特流的信息进行编码。这信息用来产生较低比特率的比特流。在请求的是较高比特率时,可以不同发送另外的比特。接着,需要对块类型编码。以下的编码过程可以稍有不同,这取决于块的类型。为进对一个帧的输入信号编码,按照信号的特征,可以变换一个长块,也可以变换八个短块。由于块的长度这样改变,编码也就稍有不同。
首先,在长块的情况下,由于底层的带宽是4KHz,因此处理的频带一直包括到第12量化频带。现在从分配给每个编码频带的比特信息得出最大量化比特值,用前面所述的编码方法从最大量化比特值起加以编码。然后,对接着的这些量化比特依次编码。如果某个频带的量化比特少于当前正加以编码的频带的比特,就不予编码。在频带的量化比特等于当前正在加以编码的频带的比特时,就加以编码。在首次对一个频带编码时,对这个量化频带的量化步长信息进行编码,再对与各量化频率分量的量化比特相应的值进行采样后进行编码。由于底层的比特率为16Kbps,全部比特限额为336比特。因此,不断计算所用的总比特量,一旦比特量超过336,立即终止编码。为了对量化比特或量化步长信息编码,求得量化比特或量化步长的最小值和最大值,再求得这两个值之差,从而得到所需的比特数。在实际中,对辅助信息编码前,表示各比特所需的最小值和幅度首先用算术编码加以编码,存入比特流。在以后真正进行编码时,对最小值与辅助信息之差编码。然后,对接着的各量化信号依次编码。
类似,通过划分一个长块而形成的8个长度为长块的1/8的短块经过时/频映射和量化,对所得到的量化数据进行无损编码。这里,量化并不是对8个子块各个分开进行的。而是,利用心理声感部发出的8块为3段的信息,收集这些段中的各量化频带(如表2所示),象长块中的一个频带那样进行处理。因此,可以得到这三段中的每个频带的量化步长信息。为了使底层的带宽与长块情况下一致,频带限制为在1/4以内的这些频带。由于短块具有8个子块,如表2所示,因此每个子块以4个样点为单位划分成一些编码频带。8个子块的这些编码频带加以组合,从32个量化信号中得出量化比特信息。首先,对限用频带内的量化比特信息编码。然后,得出频带限制分量中的最大量化比特,象在长块中那样用上述编码方法进行编码。如果某个频带的量化比特小于当前正加以编码的,就不予编码。如果某个频带的量化比特成为等于当前正加以编码的,就加以编码。在对一个频带编码时,首先对这个量化频带的量化步长信息编码,然后对量化频率分量中与这些量化比特相应的值进行采样,加以编码。
表4
编码频带 量化频带 始标 终标
0 0 0 3
1 1 4 7
2 2 8 11
3 3 12 15
4 4 16 19
5 5 20 23
6 6 24 27
7 28 31
8 7 32 35
9 36 39
10 8 40 43
11 44 47
12 9 48 51
13 52 55
14 56 59
15 10 60 63
16 64 67
17 68 71
18 11 72 75
19 76 79
20 80 83
21 84 87
形成底层(16Kbps)的全部比特流后,就形成下一层(24Kbps)的比特流。由于这层的带宽为8KHz,因此需要对第19频带以内的各频率分量编码。由于第12频带以内的辅助信息已经记录,因此只需记录第13频带至第19频带的辅助信息。在底层中,通过将每个频带的尚未编码的各量化比特与一个新增加的频带的各量化比特进行比较,得到相应的最大量化比特。以与底层中所用的相同方式从最大量化比特起依次进行编码。当所用的总比特量大于在24Kbps可用的比特量时,立即终止编码,准备形成下一层比特流。以这种方式就可以相继形成其余各层32、40、48、56和64Kbps的比特流。这样形成的比特流具有与如图3所示相同的结构。
下面将详细说明一种对这种编码装置所产生的比特流进行解码的解码装置。图4为这种解码装置的方框图,这种解码装置包括比特流分析部400、能量化部410和频/时映射部420。
比特流分析部400通过分析组成比特流的各比特的重要性,按照产生具有分层结构的比特流的次序,从最高有效比特到最低有效比特对各层的至少具有量化比特和量化步长的辅助信息以及量化数据进行解码。解量化部410将解码得到的量化步长和量化数据恢复成具有原来幅度的信号。频/时映射部420将解量化得到的信号变换成时域信号,供用户复现。
下面将说明这种解码器的工作情况。对由编码装置产生的这样的比特流的解码次序与编码次序相反。解码过程简述如下。首先,对底层辅助信息中的每个量化频带的量化比特信息解码。在解码得到的这些量化比特中,求得最大值。然后象在编码过程中那样,对各量化值从各MSB到LSB和从低频分量到高频分量依次进行解码。如果某个频带的量化比特小于当前正加以解码的,就不予解码。而如果某个频带的量化比特成为等于当前正加以解码的,就加以解码。在对量化值解码期间首先对某个量化频带的信号解码时,由于这个量化频带的步长信息存储在比特流中,因此首先对这信息解码,然后再继续对与量化比特相应的这些值解码
在完成对底层比特流的解码后,对下一层的辅助信息和语音数据的量化值进行解码。以这种方式,可以对所有各层的数据进行解码。以与编码相反的次序,解码过程得到的经量化的数据通过图4中所示的解量化部410和频/时映射部420恢复成为原来的信号。
如上所述,按照本发明,为了满足各种用户请求,可以形成灵活的比特流。也就是说,按照用户的请求,可以将各层这些比特率的信息合并在一个比特流中而没有交叠冗余,从而提供具有良好语音质量的比特流。而且在传输终端和接收终端之间不需要用变换器。此外,任何传输信道状态和各种用户请求都能适应。
由于比特流是可变规模的,因此一个比特流可以含有具有几个比特率的不同比特流。这样,很简单就可以产生各层的比特流。而且,在本发明中,一旦执行了使得NMR小于或等于0dB的量化后,就不再需要比特控制器。因此,编码装置并不复杂。
而且,由于编码是按量化比特的重要性进行的,而不是对每一层先处理上一层的量化信号与原信号之差再进行编码,从而减小了编码装置的复杂程度。
此外,由于各频带的辅助信息在整个比特流始终只使用一次,因此可以改善语音质量。如果降低比特率,由于限用频带,因此大大减小了主要导致复杂的编码和解码的滤波器的复杂程度。这样也就减小了编码和解码装置的复杂程度。此外,还可以按照用户解码器的性能和传输信道的带宽/拥塞情况或者根据用户请求控制比特率或设备的复杂程度。

Claims (28)

1.一种将语音信号编码成一个具有一个底层和数目预定的增强层的分层数据流的可变规模语音编码方法,所述方法包括下列步骤:
(a)对输入的语音信号进行信号处理和按每个预定编码频带进行量化;
(b)在预定的层规模内对与底层相应的量化数据进行编码;
(c)在预定的层规模内对与已编码底层的下一个增强层相应的量化数据和属于已编码层而尚未编码的剩下的量化数据进行编码;以及
(d)相继对所有各层执行编码步骤,其中步骤(b)、(c)和(d)各包括下列步骤:
(e)用预定的相同数目的数字表示与一个需编码的层相应的量化数据;以及
(f)对由组成所表示的数字数据的幅度数据的最高有效数字组成的最高有效数字序列进行编码。
2.按权利要求1所述的可变规模语音编码方法,其中所述步骤(e)和(f)是从低频率到高频率依次执行的。
3.按权利要求1所述的可变规模语音编码方法,其中所述编码步骤(b)、(c)和(d)是用一种预定的编码方法对具有至少量化步长信息和分配给每个频带的量化比特信息的辅助信息以及量化数据执行的。
4.按权利要求1或3所述的可变规模语音编码方法,其中所述步骤(e)和(f)中的数字都是比特。
5.按权利要求4所述的可变规模语音编码方法,其中所述步骤(f)中的编码是通过以预定个数的比特为单位组合组成比特序列的各比特实现的。
6.按权利要求4所述的可变规模语音编码方法,其中所述预定编码方法是无损编码。
7.按权利要求5所述的可变规模语音编码方法,其中所述预定编码方法是无损编码。
8.按权利要求6或7所述的可变规模语音编码方法,其中所述无损编码是霍夫曼编码。
9.按权利要求6或7所述的可变规模语音编码方法,其中所述无损编码是算术编码。
10.按权利要求1所述的可变规模语音编码方法,其中所述量化数据由符号数据和幅度数据组成时,步骤(f)包括下列步骤:
(i)用一种预定的编码方法对由组成所表示的数字数据的幅度数据的最高有效数字组成的最高有效数字序列进行编码;
(ii)对与已编码的最高有效数字序列中的非零数据相应的符号数据进行编码;
(iii)用一种预定的编码方法对数字数据的未编码的幅度数据中的最高有效数字序列进行编码;
(iv)对与在步骤(iii)中编码的数字序列中的非零幅度数据相应的符号数据中的未编码的符号数据进行编码;以及
(v)对数字数据的各数字执行步骤(iii)和(iv)。
11.按权利要求10所述的可变规模语音编码方法,其中所述步骤(e)是将数字数据表示为具有相同个数的比特的二进制数据,而数字都是比特。
12.按权利要求10所述的可变规模语音编码方法,其中所述编码步骤是通过以预定个数的比特为单位组合组成相应的幅度数据和符号数据的比特序列的各比特实现的。
13.按权利要求11或12所述的可变规模语音编码方法,其中所述预定编码方法是算术编码。
14.按权利要求10所述的可变规模语音编码方法,其中所述编码步骤(b)、(c)和(d)是用一种预定的编码方法对具有至少量化步长信息和分配给每个频带的量化比特信息的辅助信息以及量化数据执行的。
15.按权利要求1或10所述的可变规模语音编码方法,其中所述量化通过下列步骤实现:
将输入的时域语音信号变换成频域信号;
将经时/频映射变换的信号组合成一些预定子频带的信号,并计算出每个子频带的掩蔽门限;以及
量化每个预定编码频带的信号,使得每个频带的量化噪声都小于掩蔽门限。
16.一种将语音信号编码成具有预定数目的分层比特率的数据的可变规模语音编码装置,所述装置包括:
一个量化部,其作用是对输入的语音信号进行信号处理和按每个编码频带进行量化;以及
一个比特构组部,其作用是对与一个底层相应的辅助信息和量化数据进行编码,对与这个底层的下一层相应的辅助信息和量化数据进行编码,这样依次对所有各层进行编码,从而产生相应的比特流,所述比特构组部通过用具有预定相同个数的比特的二进制数据表示量化数据,将它分割成一些由比特构成的组,再用一种预定的编码方法对比特分割的数据从最高有效比特序列到最低有效比特序列进行编码来实现编码。
17.按权利要求16所述的可变规模语音编码装置,其中所述比特构组部在数字数据由符号数据和幅度数据组成时,对比特分割的数据中具有相同重要性的比特的幅度数据进行编码,对符号数据中与非零幅度数据相应的未编码的符号数据进行编码,这样的对幅度数据和符号数据的编码都是从各MSB到较低有效比特依次进行的。
18.按权利要求16或17所述的可变规模语音编码装置,其中所述比特构组部在按重要性对各比特进行收集和编码时是通过以预定个数的比特为单位组合这些比特进行编码的。
19.按权利要求16或17所述的可变规模语音编码装置,其中所述比特构组部用霍夫曼编码或算述编码进行编码。
20.按权利要求16或17所述的可变规模语音编码装置,其中所述比特构组部从低频分量到高频分量依次进行编码。
21.按权利要求16或17所述的可变规模语音编码装置,其中所述量化部包括:
一个时/频映射部,其作用是将输入的时域语音信号变换成频域信号;
一个心理声感部,其作用是将经时/频映射变换的信号组合成一些预定子频带的信号,并计算出每个子频带的掩蔽门限;以及
一个量化部,其作用是量化每个预定编码频带的信号,使得每个频带的量化噪声都小于掩蔽门限。
22.一种对编码成具有分层比特率的语音数据进行解码的可变规模语音解码方法,所述方法包括下列步骤:
通过分析组成数据流的各比特的重要性,按照生成具有分层比特率的数据流中的各层的次序,从高位有效比特到低位有效比特对具有至少量化步长信息和分配给每个频带的量化比特信息的辅助信息以及量化数据进行解码;
将解码得到的量化步长和量化数据恢复成具有原来幅值的信号;以及
将解量化得到的信号变换成时域信号。
23.按权利要求22所述的可变规模语音解码方法,其中所述解码步骤中的数据都是比特,而数据流是比特流。
24.按权利要求23所述的可变规模语音解码方法,其中所述按重要性解码的步骤是以由预定个数的比特组成的向量为单位进行的。
25.按权利要求23或24所述的可变规模语音解码方法,其中所述解码步骤在量化数据由符号数据和幅度数据组成时包括下列步骤:
通过分析组成数据流的各比特的重要性,按照生成具有分层比特率的数据流中的各层的次序,从高位有效比特到低位有效比特对具有至少量化步长信息和分配给每个频带的量化比特信息的辅助信息以及量化数据进行解码;以及
对量化数据的符号数据进行解码,将解码得到的符号数据与解码得到的相应幅度数据合并在一起。
26.按权利要求23所述的可变规模语音解码方法,其中所述解码步骤用算术解码实现。
27.按权利要求23所述的可变规模语音解码方法,其中所述解码步骤用霍夫曼解码实现。
28.一种对编码成具有分层比特率的语音数据进行解码的可变规模语音解码装置,所述装置包括:
一个比特流分析部,其作用是通过分析组成比特流的各比特的重要性,按照生成分层比特流中的各层的次序,从高位有效比特到低位有效比特对具有至少量化步长信息和分配给每个频带的量化比特信息的辅助信息以及量化数据进行解码;
一个解量化部,其作用是将解码得到的量化步长和量化数据恢复成具有原来幅度的信号;以及
一个频/时映射部,其作用是将解量化得到的信号变换成时域信号。
CN97123480A 1997-04-02 1997-12-30 可变规模语音编码/解码的方法和装置 Expired - Fee Related CN1110145C (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
KR12232/1997 1997-04-02
KR19970012232 1997-04-02
KR12232/97 1997-04-02
KR61298/97 1997-11-19
KR1019970061298A KR100261253B1 (ko) 1997-04-02 1997-11-19 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
KR61298/1997 1997-11-19

Publications (2)

Publication Number Publication Date
CN1196611A true CN1196611A (zh) 1998-10-21
CN1110145C CN1110145C (zh) 2003-05-28

Family

ID=26632641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN97123480A Expired - Fee Related CN1110145C (zh) 1997-04-02 1997-12-30 可变规模语音编码/解码的方法和装置

Country Status (10)

Country Link
US (3) US6122618A (zh)
EP (1) EP0884850A3 (zh)
JP (1) JP3354864B2 (zh)
KR (1) KR100261253B1 (zh)
CN (1) CN1110145C (zh)
BR (1) BR9705602A (zh)
ID (1) ID19830A (zh)
IL (3) IL158352A (zh)
MY (1) MY123835A (zh)
RU (1) RU2194361C2 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009152723A1 (zh) * 2008-06-20 2009-12-23 华为技术有限公司 嵌入式编解码方法和装置
US8363675B2 (en) 2006-03-24 2013-01-29 Samsung Electronics Co., Ltd. Method and system for transmission of uncompressed video over wireless communication channels
CN107516531A (zh) * 2012-12-13 2017-12-26 松下电器(美国)知识产权公司 语音声响编码装置和解码装置、语音声响编码和解码方法

Families Citing this family (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000064963A (ko) * 1997-02-21 2000-11-06 엠. 제이. 엠. 반 캄 비디오 이미지를 기록 및 재생하는 방법 및 장치
KR100261253B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
US6091773A (en) 1997-11-12 2000-07-18 Sydorenko; Mark R. Data compression method and apparatus
KR100335611B1 (ko) * 1997-11-20 2002-10-09 삼성전자 주식회사 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치
KR100335609B1 (ko) * 1997-11-20 2002-10-04 삼성전자 주식회사 비트율조절이가능한오디오부호화/복호화방법및장치
WO1999042996A1 (fr) * 1998-02-19 1999-08-26 Sony Corporation Appareil et procede d'enregistrement / reproduction, et processeur de donnees
AUPP273298A0 (en) * 1998-03-31 1998-04-23 Lake Dsp Pty Limited Room impulse response compression
GB9909606D0 (en) * 1999-04-26 1999-06-23 Telemedia Systems Ltd Networked delivery of profiled media files to clients
US6446037B1 (en) 1999-08-09 2002-09-03 Dolby Laboratories Licensing Corporation Scalable coding method for high quality audio
DE19947877C2 (de) * 1999-10-05 2001-09-13 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Einbringen von Informationen in einen Datenstrom sowie Verfahren und Vorrichtung zum Codieren eines Audiosignals
US6639943B1 (en) 1999-11-23 2003-10-28 Koninklijke Philips Electronics N.V. Hybrid temporal-SNR fine granular scalability video coding
US7792681B2 (en) * 1999-12-17 2010-09-07 Interval Licensing Llc Time-scale modification of data-compressed audio information
US6842735B1 (en) * 1999-12-17 2005-01-11 Interval Research Corporation Time-scale modification of data-compressed audio information
CA2312333A1 (en) * 2000-06-21 2001-12-21 Kimihiko E. Sato Multimedia compression, coding and transmission method and apparatus
JP4470304B2 (ja) * 2000-09-14 2010-06-02 ソニー株式会社 圧縮データ記録装置、記録方法、圧縮データ記録再生装置、記録再生方法および記録媒体
KR100887165B1 (ko) * 2000-10-11 2009-03-10 코닌클리케 필립스 일렉트로닉스 엔.브이. 멀티미디어 오브젝트를 코딩하는 방법 및 장치, 비트 스트림을 제어 및 수신하는 방법, 비트 스트림을 제어하는 제어기, 비트 스트림을 수신하는 수신기, 및 멀티플레서
JP4505701B2 (ja) * 2000-10-31 2010-07-21 ソニー株式会社 情報処理装置および情報処理方法、プログラム記録媒体
DE10102159C2 (de) * 2001-01-18 2002-12-12 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erzeugen bzw. Decodieren eines skalierbaren Datenstroms unter Berücksichtigung einer Bitsparkasse, Codierer und skalierbarer Codierer
DE10102155C2 (de) * 2001-01-18 2003-01-09 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erzeugen eines skalierbaren Datenstroms und Verfahren und Vorrichtung zum Decodieren eines skalierbaren Datenstroms
DE10102154C2 (de) * 2001-01-18 2003-02-13 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erzeugen eines skalierbaren Datenstroms und Verfahren und Vorrichtung zum Decodieren eines skalierbaren Datenstroms unter Berücksichtigung einer Bitsparkassenfunktion
US20020133246A1 (en) * 2001-03-02 2002-09-19 Hong-Kee Kim Method of editing audio data and recording medium thereof and digital audio player
US6996522B2 (en) 2001-03-13 2006-02-07 Industrial Technology Research Institute Celp-Based speech coding for fine grain scalability by altering sub-frame pitch-pulse
US8391482B2 (en) * 2001-05-04 2013-03-05 Hewlett-Packard Development Company, L.P. Signal format that facilitates easy scalability of data streams
US7333929B1 (en) 2001-09-13 2008-02-19 Chmounk Dmitri V Modular scalable compressed audio data stream
US7272555B2 (en) * 2001-09-13 2007-09-18 Industrial Technology Research Institute Fine granularity scalability speech coding for multi-pulses CELP-based algorithm
ES2268112T3 (es) 2001-11-14 2007-03-16 Matsushita Electric Industrial Co., Ltd. Codificacion y descodificacion de audio.
AU2003234763A1 (en) * 2002-04-26 2003-11-10 Matsushita Electric Industrial Co., Ltd. Coding device, decoding device, coding method, and decoding method
GB2388502A (en) * 2002-05-10 2003-11-12 Chris Dunn Compression of frequency domain audio signals
US20030236674A1 (en) * 2002-06-19 2003-12-25 Henry Raymond C. Methods and systems for compression of stored audio
KR100552169B1 (ko) * 2002-10-15 2006-02-13 에스케이 텔레콤주식회사 이동통신 시스템의 비디오 스트리밍 압축 장치
KR100908116B1 (ko) * 2002-12-12 2009-07-16 삼성전자주식회사 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치
KR100908117B1 (ko) 2002-12-16 2009-07-16 삼성전자주식회사 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치
KR100528325B1 (ko) * 2002-12-18 2005-11-15 삼성전자주식회사 비트율 조절이 가능한 스테레오 오디오 부호화 및복호화방법 및 그 장치
KR100917464B1 (ko) * 2003-03-07 2009-09-14 삼성전자주식회사 대역 확장 기법을 이용한 디지털 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치
KR100923300B1 (ko) * 2003-03-22 2009-10-23 삼성전자주식회사 대역 확장 기법을 이용한 오디오 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치
KR100923301B1 (ko) * 2003-03-22 2009-10-23 삼성전자주식회사 대역 확장 기법을 이용한 오디오 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치
US7640157B2 (en) * 2003-09-26 2009-12-29 Ittiam Systems (P) Ltd. Systems and methods for low bit rate audio coders
KR101106026B1 (ko) * 2003-10-30 2012-01-17 돌비 인터네셔널 에이비 오디오 신호 인코딩 또는 디코딩
KR100571824B1 (ko) * 2003-11-26 2006-04-17 삼성전자주식회사 부가정보 삽입된 mpeg-4 오디오 bsac부호화/복호화 방법 및 장치
KR100629997B1 (ko) * 2004-02-26 2006-09-27 엘지전자 주식회사 오디오 신호의 인코딩 방법
DE102004009955B3 (de) * 2004-03-01 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln einer Quantisierer-Schrittweite
EP1741093B1 (en) * 2004-03-25 2011-05-25 DTS, Inc. Scalable lossless audio codec and authoring tool
US7392195B2 (en) * 2004-03-25 2008-06-24 Dts, Inc. Lossless multi-channel audio codec
US7536302B2 (en) * 2004-07-13 2009-05-19 Industrial Technology Research Institute Method, process and device for coding audio signals
EP1780896A4 (en) * 2004-07-28 2009-02-18 Panasonic Corp REPLAY DEVICE AND SIGNAL DECODING DEVICE
KR100829558B1 (ko) * 2005-01-12 2008-05-14 삼성전자주식회사 스케일러블 오디오 데이터 산술 복호화 방법 및 장치와스케일러블 오디오 비트스트림 절단 방법
KR100707186B1 (ko) * 2005-03-24 2007-04-13 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법 및 기록 매체
US20060235683A1 (en) * 2005-04-13 2006-10-19 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Lossless encoding of information with guaranteed maximum bitrate
US7991610B2 (en) * 2005-04-13 2011-08-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Adaptive grouping of parameters for enhanced coding efficiency
KR100818268B1 (ko) 2005-04-14 2008-04-02 삼성전자주식회사 오디오 데이터 부호화 및 복호화 장치와 방법
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
KR100803205B1 (ko) 2005-07-15 2008-02-14 삼성전자주식회사 저비트율 오디오 신호 부호화/복호화 방법 및 장치
US8036274B2 (en) 2005-08-12 2011-10-11 Microsoft Corporation SIMD lapped transform-based digital media encoding/decoding
KR100738077B1 (ko) * 2005-09-28 2007-07-12 삼성전자주식회사 계층적 오디오 부호화 및 복호화 장치와 방법
KR100754389B1 (ko) * 2005-09-29 2007-08-31 삼성전자주식회사 음성 및 오디오 신호 부호화 장치 및 방법
CA2624339C (en) * 2005-10-12 2014-12-02 Thomson Licensing Region of interest h.264 scalable video coding
US20070094035A1 (en) * 2005-10-21 2007-04-26 Nokia Corporation Audio coding
KR100888474B1 (ko) 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
KR100793287B1 (ko) 2006-01-26 2008-01-10 주식회사 코아로직 비트율 조절이 가능한 오디오 복호화 장치 및 그 방법
US8260620B2 (en) * 2006-02-14 2012-09-04 France Telecom Device for perceptual weighting in audio encoding/decoding
JP5058152B2 (ja) * 2006-03-10 2012-10-24 パナソニック株式会社 符号化装置および符号化方法
KR101322392B1 (ko) * 2006-06-16 2013-10-29 삼성전자주식회사 스케일러블 코덱의 부호화 및 복호화 방법 및 장치
KR101016224B1 (ko) 2006-12-12 2011-02-25 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 인코더, 디코더 및 시간 영역 데이터 스트림을 나타내는 데이터 세그먼트를 인코딩하고 디코딩하는 방법
FR2910752B1 (fr) * 2006-12-22 2009-03-20 Commissariat Energie Atomique Procede de codage spatio-temporel pour systeme de communication multi-antenne de type uwb impulsionnel
JP4871894B2 (ja) 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
KR100889750B1 (ko) * 2007-05-17 2009-03-24 한국전자통신연구원 오디오 신호의 무손실 부호화/복호화 장치 및 그 방법
KR101505831B1 (ko) * 2007-10-30 2015-03-26 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 방법 및 장치
US8369638B2 (en) 2008-05-27 2013-02-05 Microsoft Corporation Reducing DC leakage in HD photo transform
US8447591B2 (en) 2008-05-30 2013-05-21 Microsoft Corporation Factorization of overlapping tranforms into two block transforms
ES2379761T3 (es) 2008-07-11 2012-05-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Proporcinar una señal de activación de distorsión de tiempo y codificar una señal de audio con la misma
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
US8275209B2 (en) 2008-10-10 2012-09-25 Microsoft Corporation Reduced DC gain mismatch and DC leakage in overlap transform processing
CN101902283B (zh) * 2009-05-26 2014-06-18 鸿富锦精密工业(深圳)有限公司 编码调制方法及系统
KR20100136890A (ko) * 2009-06-19 2010-12-29 삼성전자주식회사 컨텍스트 기반의 산술 부호화 장치 및 방법과 산술 복호화 장치 및 방법
TWI491179B (zh) * 2009-06-24 2015-07-01 Hon Hai Prec Ind Co Ltd 編碼調制系統及方法
EP2446435B1 (en) * 2009-06-24 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages
US9159330B2 (en) * 2009-08-20 2015-10-13 Gvbb Holdings S.A.R.L. Rate controller, rate control method, and rate control program
EP4120263B1 (en) 2010-01-19 2023-08-09 Dolby International AB Improved subband block based harmonic transposition
JP2013528832A (ja) * 2010-11-12 2013-07-11 ポリコム,インク. マルチポイント環境におけるスケーラブルオーディオ処理
FR2969360A1 (fr) * 2010-12-16 2012-06-22 France Telecom Codage perfectionne d'un etage d'amelioration dans un codeur hierarchique
US10199043B2 (en) * 2012-09-07 2019-02-05 Dts, Inc. Scalable code excited linear prediction bitstream repacked from a higher to a lower bitrate by discarding insignificant frame data
EP2840811A1 (en) 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder
KR102244612B1 (ko) * 2014-04-21 2021-04-26 삼성전자주식회사 무선 통신 시스템에서 음성 데이터를 송신 및 수신하기 위한 장치 및 방법
WO2018174402A1 (ko) * 2017-03-21 2018-09-27 엘지전자 주식회사 영상 코딩 시스템에서 변환 방법 및 그 장치
CN116095314A (zh) 2017-06-29 2023-05-09 杜比实验室特许公司 整合的图像整形和视频编码
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5109417A (en) * 1989-01-27 1992-04-28 Dolby Laboratories Licensing Corporation Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio
US5367608A (en) * 1990-05-14 1994-11-22 U.S. Philips Corporation Transmitter, encoding system and method employing use of a bit allocation unit for subband coding a digital signal
US5632005A (en) * 1991-01-08 1997-05-20 Ray Milton Dolby Encoder/decoder for multidimensional sound fields
US5442458A (en) * 1991-12-18 1995-08-15 Eastman Kodak Company Method and associated apparatus for encoding bitplanes for improved coding efficiency
CA2090052C (en) * 1992-03-02 1998-11-24 Anibal Joao De Sousa Ferreira Method and apparatus for the perceptual coding of audio signals
JP3259428B2 (ja) * 1993-03-24 2002-02-25 ソニー株式会社 ディジタル画像信号のコンシール装置及び方法
KR950008637B1 (ko) * 1993-04-08 1995-08-03 삼성전자주식회사 부밴드 코딩시스템의 신호처리장치
KR100269213B1 (ko) * 1993-10-30 2000-10-16 윤종용 오디오신호의부호화방법
JP2655063B2 (ja) * 1993-12-24 1997-09-17 日本電気株式会社 音声符号化装置
US5732391A (en) * 1994-03-09 1998-03-24 Motorola, Inc. Method and apparatus of reducing processing steps in an audio compression system using psychoacoustic parameters
JP3277677B2 (ja) * 1994-04-01 2002-04-22 ソニー株式会社 信号符号化方法及び装置、信号記録媒体、信号伝送方法、並びに信号復号化方法及び装置
JPH08328599A (ja) * 1995-06-01 1996-12-13 Mitsubishi Electric Corp Mpegオーディオ復号器
KR100261253B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
US6016111A (en) * 1997-07-31 2000-01-18 Samsung Electronics Co., Ltd. Digital data coding/decoding method and apparatus
KR100335609B1 (ko) * 1997-11-20 2002-10-04 삼성전자 주식회사 비트율조절이가능한오디오부호화/복호화방법및장치

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8363675B2 (en) 2006-03-24 2013-01-29 Samsung Electronics Co., Ltd. Method and system for transmission of uncompressed video over wireless communication channels
WO2009152723A1 (zh) * 2008-06-20 2009-12-23 华为技术有限公司 嵌入式编解码方法和装置
CN101609679B (zh) * 2008-06-20 2012-10-17 华为技术有限公司 嵌入式编解码方法和装置
CN107516531A (zh) * 2012-12-13 2017-12-26 松下电器(美国)知识产权公司 语音声响编码装置和解码装置、语音声响编码和解码方法
US10685660B2 (en) 2012-12-13 2020-06-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Voice audio encoding device, voice audio decoding device, voice audio encoding method, and voice audio decoding method
CN107516531B (zh) * 2012-12-13 2020-10-13 弗朗霍弗应用研究促进协会 语音声响编码装置和解码装置、语音声响编码和解码方法

Also Published As

Publication number Publication date
EP0884850A2 (en) 1998-12-16
US6438525B1 (en) 2002-08-20
BR9705602A (pt) 1999-03-16
JP3354864B2 (ja) 2002-12-09
CN1110145C (zh) 2003-05-28
US6148288A (en) 2000-11-14
JPH10285043A (ja) 1998-10-23
KR19980079475A (ko) 1998-11-25
IL158102A (en) 2009-09-22
MY123835A (en) 2006-06-30
IL158102A0 (en) 2005-11-20
RU2194361C2 (ru) 2002-12-10
EP0884850A3 (en) 2000-03-22
KR100261253B1 (ko) 2000-07-01
IL122711A0 (en) 1998-08-16
US6122618A (en) 2000-09-19
ID19830A (id) 1998-08-06
IL158352A (en) 2009-02-11

Similar Documents

Publication Publication Date Title
CN1110145C (zh) 可变规模语音编码/解码的方法和装置
CN1154085C (zh) 可变规模语音编码/解码的方法和装置
CN101055720B (zh) 对音频信号编码和解码的方法和设备
CN1135721C (zh) 音频信号编码方法及其有关设备
CN1262990C (zh) 利用谐波提取的音频编码方法和设备
CN103187065B (zh) 音频数据的处理方法、装置和系统
CN1684523A (zh) 用于编码/解码具有辅助信息的音频比特流的方法和设备
RU97122037A (ru) Способ и устройство для масштабируемого кодирования/декодирования аудиосигнала
CN1527995A (zh) 编码设备和解码设备
CN1756086A (zh) 多通道音频数据编码/解码方法和设备
CN1248824A (zh) 音频信号编码装置和方法以及解码装置和方法
CN1527306A (zh) 使用带宽扩展技术编码和/或解码数字数据的方法和装置
CN101030377A (zh) 提高声码器基音周期参数量化精度的方法
CN1735928A (zh) 用于可变速率音频编解码的方法
CN1525436A (zh) 可伸缩地编解码音频数据的方法和装置
CN101162584A (zh) 使用带宽扩展技术对音频信号编码和解码的方法和设备
CN106373583A (zh) 基于理想软阈值掩模irm的多音频对象编、解码方法
CN1252678C (zh) 可缩放的立体声音频编码/解码方法及装置
CN101105940A (zh) 音频编解码的量化方法、反变换方法及音频编解码装置
RU2214047C2 (ru) Способ и устройство для масштабируемого кодирования/декодирования аудиосигналов
CN1138254C (zh) 一种基于小波变换的音频信号压缩编/解码方法
CN1154084C (zh) 一种基于伪小波滤波的音频编/解码方法
CN1273955C (zh) 采用带宽扩展技术编码和/或解码音频数据的方法和装置
CN1290078C (zh) 采用带宽扩展技术编码和/或解码音频数据的方法和装置
CN101308657B (zh) 一种基于先进音频编码器的码流合成方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20030528

Termination date: 20151230

EXPY Termination of patent right or utility model