CN102511062A - 用于改进数字音频信号的分级编码/解码的增强编码/解码中的比特分配 - Google Patents

用于改进数字音频信号的分级编码/解码的增强编码/解码中的比特分配 Download PDF

Info

Publication number
CN102511062A
CN102511062A CN2010800396761A CN201080039676A CN102511062A CN 102511062 A CN102511062 A CN 102511062A CN 2010800396761 A CN2010800396761 A CN 2010800396761A CN 201080039676 A CN201080039676 A CN 201080039676A CN 102511062 A CN102511062 A CN 102511062A
Authority
CN
China
Prior art keywords
coding
decoding
bit
frequency band
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010800396761A
Other languages
English (en)
Other versions
CN102511062B (zh
Inventor
D.维雷特
P.伯塞特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of CN102511062A publication Critical patent/CN102511062A/zh
Application granted granted Critical
Publication of CN102511062B publication Critical patent/CN102511062B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Spectroscopy & Molecular Physics (AREA)

Abstract

本发明涉及一种用于改进数字音频信号的分级编码/解码的增强编码/解码中的二进制分配的方法,所述分级编码/解码包括第一频带中的核心编码/解码和第二频带中的频带扩展编码/解码。根据本发明的方法对于要对于增强编码/解码分配的预定数目的比特,向用于校正在第一频带中并且根据第一编码/解码模式的核心编码/解码的编码/解码分配第一数目比特(nbit_enhanced(j)),并向用于改进在第二频带中并且根据第二编码/解码模式的扩展编码/解码的增强编码/解码分配第二数目比特(nb_sin)。本发明还涉及用于实现该方法的分配模块、包括该模块的编码器、解码器。

Description

用于改进数字音频信号的分级编码/解码的增强编码/解码中的比特分配
技术领域
本发明涉及用于声音数据的处理的二进制分配的方法。
本处理特别适于诸如音频信号(语音、音乐等)的数字信号的传输和/或存储。
本发明更具体地应用到生成所谓“分级”二进制流的分级编码(或“可伸缩”编码),因为其包括核心比特率以及一个或多个改进层(48、56和64k比特/秒的根据G.722标准化的编码典型地是比特率可伸缩的,而UIT-TG.729.1和MPEG-4CELP编解码器在比特率和带宽两者方面是可伸缩的)。
背景技术
其后详细描述分级编码,其具有通过将与要编码的音频信号相关的信息分派(apportion)为分级子集而提供可变比特率的能力,使得可按照从音频演奏(rendition)的质量的观点出发的重要性等级来使用该信息。确定该等级所考虑的标准是编码的音频信号的质量的优化标准(或更少降级的标准)。分级编码特别适于异构网络或展示(exhibit)时变可用比特率的网络上的传输,或适于以展示变化容量的终端为目的地的传输。
可如下描述分级(或“可伸缩”)音频编码的基本概念。
二进制流包括基本层以及一个或多个改进层。基本层由保证最小编码质量的称为“核心编解码器”的固定比特率编解码器生成。该层必须由解码器接收以维持可接受质量级别。改进层工作以改进质量。然而,可以发生这样的情况,即它们并非全部由解码器接收。
分级编码的主要益处在于其然后通过简单“二进制流的截断(truncation)”而允许比特率的改编。层的数目(也就是说,二进制流的可能截断次数)定义编码的粒度。如果二进制流包括(2到4的等级的)几层,则人们提及“高粒度”编码,而如果其允许例如1到2k比特/秒的等级的增加,则人们提及“细粒度”编码。
下面更具体地描述电话频带中以及宽频带中的一个或多个改进层中利用CELP类型核心编码器的比特率和带宽可伸缩编码的技术。这样的系统的示例在具有细粒度的从8到32k比特/秒的标准UIT-T G.729.1中给出。其后总结G.729.1编码/解码算法。
关于G.729.1编码器的提示
G.729.1编码器是UIT-T G.729编码器的扩充。其需要(entail)用于产生具有用于会话服务的从8到32k比特/秒的比特率的其频带范围从窄频带(50-4000Hz)到宽频带(50-7000Hz)的信号的、修改的G.729核心分级编码器。该编解码器与使用G.729编解码器的现有基于IP传送语音的设备兼容。
图1中示意性示出了G.729.1编码器。首先通过QMF(“正交镜像滤波器”)滤波将按照16kHz采样的宽频带输入信号sWB分解为两个子带。通过低通滤波LP(块100)和抽选(块101)获得低频带(0-4000Hz),并通过高通滤波HP(块102)和抽选(块103)获得高频带(4000-8000Hz)。滤波器LP和HP具有长度64。
低频带在按照8和12k比特/秒进行窄带CELP编码(块105)之前,由消除低于50Hz的分量的高通滤波器(块104)进行预处理,以获得信号sLB。该高通滤波考虑将有用频带定义为覆盖间隔50-7000Hz的事实。窄带CELP编码是包括作为第一级的没有预处理滤波器的修改G.729编码和作为第二级的附加固定CELP字典的级联CELP编码。
高频带首先被预处理(块106),以补偿由于高通滤波器(块102)与抽选(块103)组合而导致的声音失真(aliasing)。高频带其后通过消除高频带的3000与4000Hz之间的分量(也就是说,原始信号中的7000与8000Hz之间的分量)的低通滤波器(块107)而滤波,以获得信号sHB。其后进行参数频带扩展(块108)。
根据图1的G.729.1编码器的重要特征如下:基于CELP编码器(块105)的输出来计算(块109)低频带的误差信号dLB,并在块110进行(G.729.1标准的“时域声音失真去除”类型的TDAC的)预测变换编码。参考图1,特别看出,向低频带上的误差信号和高频带上的滤波后的信号两者施加TDAC编码。
可通过块111将附加参数传送到对应的(homologous)解码器,该块111进行用于“帧擦除隐蔽”的名为“FEC”的处理,以重构擦除的帧为目的(如果存在的话)。
编码块105、108、110和111所生成的各种二进制流最终在多路复用块112中被多路复用和构造为分级二进制序列(train)。针对20ms的样本(或帧)的每一块(即,每帧320个样本),来进行编码。
G.729.1编解码器所以具有三个编码步骤的架构,包括:
-级联CELP编码、
-TDBWE(“时域带宽扩展”)类型的模块108所进行的参数频带扩展、和
-在MDCT(“修改离散余弦变换”)类型的变换之后施加的预测TDAC变换编码。
关于G.729.1解码器的提示
图2中图示了G.729.1解码器。描述每一20ms帧的比特在块200中被解多路复用。
8和12k比特/秒的层的二进制流由CELP解码器(块201)使用,以生成窄频带合成(0-4000Hz)。与14k比特/秒的层关联的二进制流的那部分由频带扩展模块(块202)解码。与14k比特/秒以上的比特率关联的二进制流的那部分由TDAC模块(块203)解码。前回声(pre-echoes)和后回声(post-echoes)的处理由块204和207以及增强(块205)和低频带的后处理(块206)进行。按照16kHz采样的宽频带输出信号
Figure BDA0000141190780000031
经由一组合成QMF滤波器(块209、210、211、212和213)合并反声音失真(块208)而获得。
其后详细提供变换编码层的描述。
关于G.729.1编码器中的基于TDAC变换的编码器的提示
图3中图示了G.729.1编码器中的TDAC类型的变换编码。
滤波器WLB(z)(块300)是感知加权滤波器,具有向低频带误差信号dLB施加的增益补偿。MDCT变换其后被计算(块301和302)以获得:
-感知滤波的差信号的MDCT谱
-高频带的原始信号的MDCT谱SHB
这些MDCT变换(块301和302)被施加到按照8kHz采样的20ms的信号(160个系数)。来自于熔解(fusion)块303的谱Y(k)由此包括2×160,即320个系数。其被定义如下:
该谱被划分为十八个子带,子带j被分配用nb_coef(j)表示的系数的数目。其后在表1中规定子带的分割。
由此,子带j包括系数Y(k),其中sb_bound(j)≤k<sb_bound(j+1)。
要注意的是,与7000Hz-8000Hz频带对应的系数280-319没有被编码;它们在解码器处被设置为零,因为编解码器的通带是50-7000Hz。
  J   sb_bound(j)   nb_coef(j)
  0   0   16
  1   16   16
  2   32   16
  3   48   16
  4   64   16
  5   80   16
  6   96   16
  7   112   16
  8   128   16
  9   144   16
  10   160   16
  11   176   16
  12   192   16
  13   208   16
  14   224   16
  15   240   16
  16   256   16
  17   272   8
  18   280   -
表1:TDAC编码中的子带的限制和尺寸
根据公式在块304中计算谱包络{log_rms(j)}j=0,..,17
log _ rms ( j ) = 1 2 log 2 [ 1 nb _ coef ( j ) Σ k = sb _ bound ( j ) sb _ bound ( j + 1 ) - 1 Y ( k ) 2 + ϵ rms ] , j = 0 , . . . , 17
其中εrms=2-24
谱包络在块305中按照可变比特率编码。该块305产生通过简单标量量化而获得的表示为rms_index(j)(其中j=0,......,17)的量化后的整数值:
rms_index(j)=round(2·log_rms(j))
其中符号“round”指定向最接近的整数的凑整(rounding),并具有约束:
-11≤rms_index(j)≤+20。
该量化后的值rms_index(j)被传送到比特分配块306。
谱包络自己的编码进一步由块305执行,分别用于低频带(rms_index(j),其中j=0,......,9)和用于高频带(rms-index(j),其中j=10,......,17)。在每一频带中,可根据给定标准来选定两类编码,并且,更精确地,值rms_index(j):
-可通过所谓“差分霍夫曼”编码来编码,
-或者可通过自然二进制编码来编码。
将比特(0或1)传送到解码器,以指示已选定的编码的模式。
基于来自块305的量化后的谱包络,在块306处确定向每一子带分配的用于其量化的比特数目。
所执行的比特分配使得二次(quadratic)误差最小化,同时附加每一子带分配的比特的整数数目和不超过的最大比特数目的约束。子带的谱内容其后通过球矢量量化(块307)来编码。
块305和307所生成的各种二进制流其后在多路复用块308处被多路复用和构造为分级二进制序列。
关于G.729.1解码器中的基于变换的解码器的提示
图4中图示了G.729.1解码器中的基于TDAC类型变换的解码的步骤。
按照与编码器(图3)对称的方式,解码的谱包络(块401)使得可能恢复比特的分配(块402)。包络解码(块401)基于块305(多路复用的)所生成的二进制序列来重构谱包络的量化值(rms_index(j),其中j=0,......,17),并从其推导出解码后的包络:
rms_q(j)=21/2rms_index(j)
每一子带的谱内容通过球矢量逆量化(块403)而恢复。基于频带扩展块(图2的块202)所输出的信号的MDCT变换,来外推(块404)由于缺少比特的充分“预算”而导致的未传送的子带。
在作为谱包络的函数的该谱的升级(块405)以及后处理(块406)之后,将MDCT谱分离为两个(块407):
-与感知滤波的低频带解码的差信号的谱
Figure BDA0000141190780000051
对应的前160个系数,
-与高频带解码的原始信号的谱
Figure BDA0000141190780000052
对应的后160个系数。
这两个谱通过表示为IMDCT(块408和410)的逆MDCT变换而变换为时间信号,并且向由该逆变换产生的信号
Figure BDA0000141190780000061
施加逆感知权重(表示为WLB(z)-1的滤波器)(块409)。
其后更具体地描述比特向子带的分配(图3的块306或图4的块402)。
块306和402基于值rms_index(j),其中j=0,......,17进行相同操作。所以,其后仅描述块306的操作。
二进制分配的目的在于在每一子带之间分派某一(可变)比特预算,该预算被表示为nbits_VQ,其中nbits_VQ=351-nbits_rms,其中nbits_rms是谱包络的编码所使用的比特数目。
该分配的结果是向每一子带分配的比特的整数数目,其被表示为nbit(j)(其中j=0,......,17),具有总体约束:
Σ j = 0 17 nbit ( j ) ≤ nbits _ VQ .
在G.729.1标准中,值nbit(j)(其中j=0,......,17)进一步受到以下事实的约束,该事实是必须从其后表2中规定的值的缩减集中选定nbit(j)。
Figure BDA0000141190780000063
表2:在TDAC子带中分配的比特数目的可能值
G.729.1标准中的分配取决于与子带能量相关的每一子带的“感知重要性”,其被表示为ip(j)(j=0,......,17),如下定义:
ip ( j ) = 1 2 log 2 ( rms _ q ( j ) 2 × nb _ coef ( j ) ) + offset
其中offset=-2。
由于值rms_q(j)=21/2rms_index(j),所以该公式简化为以下形式:
Figure BDA0000141190780000065
基于每一子带的感知重要性,如下计算分配nbit(j):
nbit ( j ) = arg min r ∈ R nb _ coef ( j ) | nb _ coef ( j ) × ( ip ( j ) - λ opt ) - r |
其中λopt是通过二分法(dichotomy)优化的参数,以通过最佳近似该阈值nbits_VQ来满足总体约束
Figure BDA0000141190780000071
现在正在讨论用于将诸如上述G.729.1类型或G.718类型核心编码器扩展到超宽带(用于“超宽带”的SWB)的新提案(initiative)。
例如在作者为M.Tammi、L.Laaksonen、A.
Figure BDA0000141190780000072
H.Toukomaa、名称为“Scalable Superwideband Extension for Wideband Coding(用于宽带编码的可伸缩超宽带扩展)”,ICASSP,2009的文献中描述了可能扩展方案。
该文献描述了超宽带编码/解码系统,其包括G.729.1或G.718类型的核心编码级和频带扩展级。
核心编码执行范围从0到7kHz的频带的编码,而扩展频带执行范围从7到14kHz的频带中的编码。
第一扩展编码层基于取决于两种编码模式的参数模型:一般(generic)模式和正弦模式。
一般模式使用MDCT域中的移项(transposition)过程,用于基于低频(0-7kHz)来人工生成高频(7-14kHz)MDCT系数。使得可能对高频带进行编码的低频带是针对用于使得规格化(normalize)的相关性最大化的标准而选择的。
通常使用正弦模式,特别用于谐波或音调(tonal)信号。在该模式中,选择最高能量的分量。然后传送它们的位置、它们的振幅和它们的符号。
利用4k比特/秒的比特率来传送该第一层。在该文章中,提出了用于改进7-14kHz频带的第二层,其是基于使得可能对输入信号的MDCT谱进行最佳近似的额外(extra)正弦波的编码的。该第二扩展层的比特分配坚决(onceand for all)是固定的。
由此,该文献中呈现的扩展编码仅改进范围从7到14kHz的扩展频带中的信号。不修改核心编码的从0到7kHz的频带。
然而,可发生的是,核心频带的某些频率子带不接收充分比特率。
在向核心编码子带分配0比特的情况下,解码器然后直接使用来自用于4-7kHz频带的第一频带扩展编码层TDBWE的合成信号,以填充未分配的频带。
然而,事实证明,当将编码器与7-14kHz频带扩展模块组合时,这些频带有时可处罚(penalize)所感知的质量。
实际上,高频率的添加有时增加来自低频率的缺陷的感知。
由此,频带扩展可加强(accentuate)核心层编码缺陷。
所以存在不仅对于扩展频带上而且对于整个频带上的编码后的信号的质量的总体改进的需求。
发明内容
本发明改进该情况。
为此目的提出了一种用于增强数字音频信号的分级编码/解码的改进编码/解码中的二进制分配的方法,该方法包括第一频带中的核心编码/解码和第二频带中的频带扩展编码/解码。该方法使得,
对于为了改进编码/解码而要分配的预定数目比特,向用于校正在第一频带中并且根据第一编码/解码模式的核心编码/解码的编码/解码分配第一数目比特(nbit_enhanced(j)),并且向用于改进在第二频带中并且根据第二编码/解码模式的扩展编码/解码的编码/解码分配第二数目比特(nb_sin)。
由此,根据本发明一个实施例的分配方法使得可能在执行用于核心编码的频带扩展编码的改进的同时分配附加比特,以便也校正第一频带中的核心编码。
这使得可能获得用于核心编码的改进编码和用于扩展频带的改进编码之间的好折衷。按照适应性方式获得该折衷,以便最佳适应要编码的信号和实现的编码格式。
由此改进编码的信号的总体质量。
其后提到的各具体实施例可独立地或彼此组合地添加到上面定义的分配方法的步骤。
在特定实施例中,该方法包括以下步骤:
-针对第一频带的每一频率子带,获得用于核心编码/解码的所分配的比特数目(nbit(j));
-在其中用于核心编码/解码的所分配的比特数目不超出预定阈值的频率子带中,每个子带分配多个比特,所述多个比特构成用于校正核心编码/解码的编码/解码的第一数目比特;
-作为第一数目的所分配的比特和预定数目的要分配的比特的函数,对于用于改进扩展编码/解码的编码/解码分配第二数目的分配比特。
由此,对于已仅接收非常少比特分配的核心编码的频率子带,根据本发明一个实施例的分配使得可能分配用于这些频率子带的附加比特,以便改进这些子带中的核心编码,并在还保证扩展编码的改进的同时这么做。
在特定实施例中,最小比特数目在每一频率子带中对于第一数目比特的分配是固定的。
由此,每一频率子带具有受保证的关联比特率以及因此受保证的编码。
按照简单方式,预定阈值固定为0。
在变型实施例中,预定阈值大于0,并且如果分配比特的第一数目大于比特的预定数目,则减小该阈值的值。
该分配较好地适于信号,然后执行核心编码的最大校正,以便对分配的比特率进行最佳优化。通过改编阈值进行该优化。
在特定实施例中,该方法包括:接收在来自第一频带扩展层的信号和原始信号之间的差所引起的残余信号的音调信息,并且在音调残余信号的情况下,用于改进频带扩展的编码/解码的分配比特的第二数目大于第一数目。在变型中,例如通过检测谱中的能量峰值,而对原始信号直接计算该音调信息。
由此,该频带扩展改进层适于其不得不编码的信号的类型。根据该扩展编码模式的编码特别适于音调类型的信号,由此将优先权给予该编码模式。
在本发明的特别改编的应用中,核心编码/解码是G.729.1标准化编码/解码类型,第一编码/解码模式是变换编码/解码,而第二编码/解码模式是参数编码/解码。
本发明还涉及在用于改进数字音频信号的分级编码器/解码器的编码器/解码器中用于二进制分配的模块,所述分级编码器/解码器包括用于在第一频带中进行核心编码/解码的模块和用于在第二频带中进行频带扩展编码/解码的模块。该分配模块包括:
-用于对于要针对改进编码器/解码器分配的预定数目比特、向用于校正在第一频带中并且根据第一编码/解码模式的核心编码器/解码器的编码/解码模块分配第一数目比特(nbit_enhanced(j))的部件,和
-用于向用于改进在第二频带中并且根据第二编码/解码模式的扩展编码器/解码器的编码/解码模块分配第二数目比特(nb_sin)的部件。
本发明涉及包括根据本发明的分配模块的分级编码器。
本发明还涉及包括根据本发明的分配模块的分级解码器。
最后,本发明涉及计算机程序,其包括代码指令,当代码指令由处理器运行时,所述代码指令用于根据本发明的分配方法的步骤的实现。
附图说明
通过阅读仅作为非限制性示例给出的以下描述并且参考附图,本发明的其他特性和优点将更清楚得显而易见,其中:
-图1图示了先前描述的G.729.1类型编码器的结构;
-图2图示了先前描述的G.729.1类型解码器的结构;
-图3图示了在G.729.1类型的编码器中包括的先前描述的TDAC编码器的结构;
-图4图示了在G.729.1类型的解码器中包括的诸如先前描述的TDAC解码器的结构;
-图5图示了其中可实现本发明的频带扩展G.729.1编码器的结构;
-图6图示了其中可实现本发明的频带扩展G.729.1解码器的结构;
-图7图示了改进编码器,其包括实现根据本发明一个实施例的分配方法的根据本发明的用于分配比特的模块;
-图8图示了根据本发明的分配模块的硬件实施例的示例。
具体实施方式
现在描述本发明对于G.729.1编码器的扩展(特别是超宽带)的可能应用。
参考图5,现在描述根据一个实施例的包括本发明的G.729.1类型的核心编码器的超宽带扩展。
诸如所提出的这样的编码器包括模块515所编码的频率的扩展(该频带在从[50Hz-7kHz]到[50Hz-14kHz]的范围中使用)、以及TDAC编码模块(块510)进行的并且诸如随后参考图7描述的G.729.1的基本层的改进。
诸如图5中提出的编码器包括与图1中提出的G.729.1核心编码相同的模块、以及向多路复用模块512提供扩展信号的用于频带扩展的附加模块515。
该扩展编码模块515在范围从7到14kHz的频带中操作,该频带相对于核心编码的范围从0到7kHz的第一频带被称为第二频带。
对于全频带原始信号SSWB计算该频带扩展,而通过抽选(块516)和低通滤波(块517)来获得用于核心编码器的输入信号。在这些块的输出端,获得宽带输入信号SWB
模块515包括基于参数模型的第一扩展编码层,该参数模型取决于两种编码模式:一般模式和正弦模式,所述编码模式取决于原始信号SWB是音调的还是非音调的,如M.Tammi、L.Laaksonen、A.
Figure BDA0000141190780000111
H.Toukomaa的名为″Scalable Superwideband Extension for Wideband Coding″,ICASSP,2009的文献中描述的。
它还包括这样的编码层,用于通过正弦模式的编码来改进该第一编码层,并且根据诸如参考图7描述的比特分配方法来执行其比特分配。
因此,扩展模块515接收来自TDAC编码器510的信息,特别是在核心编码的频率子带中分配的比特数目。
在可能实施例中,将诸如随后参考图7描述的分配模块合并到扩展模块515中。
在另一实施例中,将该模块合并到TDAC模块510中。在另一实施例中,该模块独立于两个模块510和515,并将比特分配结果传递到这两个相应模块。
由此,根据本发明,用于分配比特的模块向用于校正第一频带中并且根据第一编码模式(在该情况下,变换编码)的核心编码的编码分配第一数目的比特。根据要对于改进编码分配的预定数目比特来执行该分配。
该模块向用于改进第二频带中并且根据第二编码模式(这里,正弦参数编码)的扩展编码的编码分配第二数目的比特。
当核心编码的模型和频带扩展的模型不同时,这两个模型之间的比特率分配可变得困难。实际上,一般将存在用于核心的波形编码模型(例如,尝试对原始信号进行最佳编码的变换编码器)。对于频带扩展,更通常地使用参数模型,它们的目的在于感知地表现高频率,然而无需努力对波形进行如实(faithfully)编码。
在该情况下的这两个模型之间的比特率分配可以是困难的。用于核心编码器和频带扩展的改进标准是不同的,并难以比较它们。
随后将参考图7来详细描述该分配。
由此,TDAC编码模块510接收比特的附加分配,以便在某些数目子带中执行核心编码校正。除了核心编码的信号之外,它向多路复用模块提供用于核心编码校正编码的附加比特。
按照相同的方式,参考图6描述超宽模式中的G.729.1解码器。它包括与参考图2描述的G.729.1解码器相同的模块。
然而,它包括用于频带扩展的附加模块614,用于根据由参考图7描述的分配模块所定义的分配,来从解多路复用模块600接收频带扩展信号以及用于扩展编码的改进信号。该解码器还包括一组合成滤波器(块616、615),使得可能获得超宽带输出信号
Figure BDA0000141190780000121
除了编码的核心信号之外,TDAC解码模块603从多路复用模块接收用于根据由参考图7描述的分配模块所定义的比特分配来校正核心编码的附加比特。
由此描述的解码器所以受益于诸如参考图7描述的改进编码器所实现的改进编码。
在一个实施例中,不能在解码器处重新计算二进制分配,该信息然后在对应改进层中传送。
在另一实施例中,解码器可通过在核心编码器的校正和频带扩展之间分派比特率,而执行与编码器处相同的二进制分配计算。分配模块取决于核心编码器的二进制分配,并可选地取决于来自第一频带扩展层的信息项(即,音调指示)。
参考图7描述的分配模块实现根据本发明的分配方法。
该模块可按照与编码器相同的方式而合并到TDAC解码器模块603中、合并到扩展模块614中或独立。
图7呈现了根据本发明的用于分配比特的模块701,并采用根据本发明的用于分配比特的方法的主要步骤。
图7中呈现的块306对应于用于分配用于核心编码(并且诸如在图3的TDAC编码器中描述的,用于G.729.1核心编码)的比特的块。
该核心分配块在核心频带的每一频率子带中传递关于核心编码的比特分配的信息项nbit(j)。
该信息由用于联合分配比特的模块701接收。作为用于改进编码的可用比特率的函数,模块701分配第一数目的比特nbit_enhanced(j),以便执行第一频带中的变换类型的核心编码的校正,并分配用于正弦参数类型的编码的第二数目的比特nb_sin,用于改进第二频带中的扩展编码。
更具体地,模块701接收对于第一频带的每一子带的核心编码分配的多个比特。
将每一子带的该比特数目与预定阈值进行比较。在其中所分配的比特数目低于阈值的频率子带中,模块701分配预定义值的最小比特数目,例如9个比特。
分配相对于用于改进编码的授权比特率(例如4k比特/秒的授权比特率)的剩余可用比特,用于扩展编码改进编码,即,诸如参考图5描述的第二扩展编码层。
按照简单的方式,阈值可固定为0。由此,仅还没有接收到任何比特率的频率子带具有比特的附加分配,以校正这些子带中的核心编码。
在变型实施例中,预定阈值大于0。执行第一试验,其中对于具有低于该阈值的分配的子带分配最小数目比特。在许多子带具有低于该阈值的分配的情况下,可发生的是,超出可用比特率。在该情况下,阈值减小,以便执行第二试验。可例如通过二分法实现该减小,直到发现使得可能每一子带分配最小数目比特的阈值为止。
然后分配剩余数目比特用于频带扩展正弦编码。它对应于可对于扩展编码改进编码所编码的正弦波的数目。
分配模块701所以将每个子带的比特的第一分配nbit-enhanced(j)提供到用于校正核心编码的编码块703,该编码块703执行来自G.729.1核心编码的TDAC编码器的球矢量量化的残余信号
Figure BDA0000141190780000131
和原始信号sHB的球矢量量化。
校正编码块703由此向多路复用块704传递根据所分配的用于该编码的比特数目的用于核心编码的校正信号。
分配模块701向用于改进频带扩展编码的编码块702传递比特的第二分配nb_sin。
该编码块接收第一频带扩展层的信号
Figure BDA0000141190780000132
以及原始信号SSWB,并对由这两个信号的差计算导致的残余信号进行编码。
在变型实施例中,模块701还接收关于残余信号的音调的信息项。例如在上面引用的文献ICASSP 2009中给出该音调计算。
根据分配方法所确定的比特分配,将来自块702的编码后的改进信号传送到多路复用块704。
图7中图示的改进编码例如被合并到诸如参考图5描述的超宽带G.729.1编码器中。
分配模块例如位于频带扩展模块515中。它接收来自TDAC 510的核心编码分配信息。它向执行块703的球矢量量化的TDAC编码器传送所分配的第一数目的比特。它向用于扩展模块515的第二编码层传送用于块702的正弦模式编码的所分配的第二数目比特。
在变型实施例中,将用于分配比特的该模块合并在图5的TDAC模块510中。它向TDAC编码器的量化块传递第一数目的比特,并向块702的用于改进编码的扩展模块515传递所分配的第二数目比特。
在另一变型中,分配模块独立于模块510和515,并分别向这两个模块发送(dispatch)所分配的第一数目比特和所分配的第二数目比特。
这里已在超宽带G.729.1编码器中的实施例的方面描述了本发明。
它可非常明显地合并到G.718类型的宽带编码器中、或合并到具有第一频带中的核心编码和第二频带中的改进编码的任何其他分级编码器中。
该图7呈现了改进编码级。对于改进编码,可执行相同操作。分配模块701然后给出比特数nbit_enhanced(j)用于例如在图6的TDAC解码模块603中进行的核心解码的改进解码(SVQ解码),并给出比特数nb_sin用于例如在图6的扩展解码模块614所进行的扩展层改进解码(正弦解码)。
现在参考图8来描述诸如参考图7呈现和描述的分配模块的硬件实施例的示例。
由此,图8图示了与包括储存器和/或工作存储器MEM的存储块BM合作的包括处理器PROC的分配模块。
该模块包括能够接收核心编码器的第一频带的每一子带的多个比特nbit(j)的输入模块。
存储块BM可有利地包括计算机程序,该计算机程序包括用于实现在本发明的含义内的分配方法的步骤的代码指令,当这些指令由处理器PROC运行时,对于要对于改进编码/解码分配的预定数目的比特,特别是以下步骤,:
-向用于校正在第一频带中并且根据第一编码/解码模式的核心编码/解码的编码/解码分配第一数目比特;
-向用于改进在第二频带中并且根据第二编码/解码模式的扩展编码/解码的编码/解码分配第二数目比特。
典型地,图7的描述采用诸如此的计算机程序的算法的步骤。该计算机程序也可被存储在可由分配模块或合并该模块的编码器的读取器可读取的存储介质上,或可下载到后者的存储空间中。
该分配模块包括输出模块,能够传送用于核心编码校正编码所分配的第一数目比特nbit_enhanced(j)和用于扩展编码改进编码的第二数目比特nb_sin。
该分配模块可合并到G.729.1类型的超宽带分级编码器/解码器中或更一般地合并到具有频带扩展的任何分级编码器/解码器中。

Claims (11)

1.一种用于增强数字音频信号的分级编码/解码的改进编码/解码中的二进制分配的方法,所述改进编码/解码包括第一频带中的核心编码/解码和第二频带中的频带扩展编码/解码,其特征在于,
对于要对于改进编码/解码分配的预定数目的比特,向用于校正在第一频带中并且根据第一编码/解码模式的核心编码/解码的编码/解码分配第一数目比特(nbit_enhanced(j)),并向用于改进在第二频带中并且根据第二编码/解码模式的扩展编码/解码的编码/解码分配第二数目比特(nb_sin)。
2.根据权利要求1的方法,其特征在于,该方法包括以下步骤:
-针对第一频带的每一频率子带,获得用于核心编码/解码的所分配的比特数目(nbit(j));
-在其中用于核心编码/解码的所分配的比特数目不超出预定阈值的频率子带中,针对每个子带分配多个比特,所述多个比特构成用于校正核心编码/解码的编码/解码的第一数目比特;
-作为第一数目的所分配的比特和预定数目的要分配的比特的函数,对于用于改进扩展编码/解码的编码/解码分配第二数目的分配比特。
3.根据权利要求2的方法,其特征在于,最小比特数目在每一频率子带中对于第一数目比特的分配是固定的。
4.根据权利要求2的方法,其特征在于,该预定阈值固定为0。
5.根据权利要求3的方法,其特征在于,该预定阈值大于0,并且如果分配比特的第一数目大于比特的预定数目,则减小该阈值的值。
6.根据权利要求2的方法,其特征在于,该方法包括:接收在来自第一频带扩展层的信号和原始信号之间的差所引起的残余信号的音调信息的步骤,并且在音调残余信号的情况下,用于改进频带扩展的编码/解码的分配比特的第二数目大于该第一数目。
7.根据权利要求1的方法,其特征在于,该核心编码/解码是G.729.1标准化编码/解码类型,第一编码/解码模式是变换编码/解码,而第二编码/解码模式是参数编码/解码。
8.一种在用于改进数字音频信号的分级编码器/解码器的编码器/解码器中的二进制分配的模块,所述分级编码器/解码器包括用于第一频带中的核心编码/解码的模块和用于第二频带中的频带扩展编码/解码的模块,
其特征在于,该模块包括:
-用于对于要针对改进编码器/解码器分配的预定数目比特、向用于校正在第一频带中并且根据第一编码/解码模式的核心编码器/解码器的编码/解码模块分配第一数目比特(nbit_enhanced(j))的部件,和
-用于向用于改进在第二频带中并且根据第二编码/解码模式的扩展编码器/解码器的编码/解码模块分配第二数目比特(nb_sin)的部件。
9.一种分级编码器,其特征在于,该编码器包括根据权利要求8的分配模块。
10.一种分级解码器,其特征在于,该解码器包括根据权利要求8的分配模块。
11.一种计算机程序,包括代码指令,当代码指令由处理器运行时,所述代码指令用于根据权利要求1到7之一的分配方法的步骤的实现。
CN2010800396761A 2009-07-07 2010-06-25 用于改进数字音频信号的分级编码/解码的增强编码/解码中的比特分配 Expired - Fee Related CN102511062B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0954688A FR2947945A1 (fr) 2009-07-07 2009-07-07 Allocation de bits dans un codage/decodage d'amelioration d'un codage/decodage hierarchique de signaux audionumeriques
FR0954688 2009-07-07
PCT/FR2010/051308 WO2011004098A1 (fr) 2009-07-07 2010-06-25 Allocation de bits dans un codage/décodage d'amélioration d'un codage/décodage hiérarchique de signaux audionumériques

Publications (2)

Publication Number Publication Date
CN102511062A true CN102511062A (zh) 2012-06-20
CN102511062B CN102511062B (zh) 2013-07-31

Family

ID=41531495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010800396761A Expired - Fee Related CN102511062B (zh) 2009-07-07 2010-06-25 用于改进数字音频信号的分级编码/解码的增强编码/解码中的比特分配

Country Status (8)

Country Link
US (1) US8965775B2 (zh)
EP (1) EP2452337B1 (zh)
KR (1) KR101703810B1 (zh)
CN (1) CN102511062B (zh)
CA (1) CA2766777C (zh)
FR (1) FR2947945A1 (zh)
WO (1) WO2011004098A1 (zh)
ZA (1) ZA201200906B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111133510A (zh) * 2017-09-20 2020-05-08 沃伊斯亚吉公司 用于在celp编解码器中高效地分配比特预算的方法和设备

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8924222B2 (en) * 2010-07-30 2014-12-30 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coding of harmonic signals
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
US9767822B2 (en) * 2011-02-07 2017-09-19 Qualcomm Incorporated Devices for encoding and decoding a watermarked signal
CN102737636B (zh) * 2011-04-13 2014-06-04 华为技术有限公司 一种音频编码方法及装置
NO2669468T3 (zh) * 2011-05-11 2018-06-02
CN102509547B (zh) * 2011-12-29 2013-06-19 辽宁工业大学 基于矢量量化的声纹识别方法及系统
CN105976824B (zh) * 2012-12-06 2021-06-08 华为技术有限公司 信号解码的方法和设备
CN105247613B (zh) 2013-04-05 2019-01-18 杜比国际公司 音频处理系统
CN104217727B (zh) * 2013-05-31 2017-07-21 华为技术有限公司 信号解码方法及设备
FR3007563A1 (fr) * 2013-06-25 2014-12-26 France Telecom Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
RU2636697C1 (ru) 2013-12-02 2017-11-27 Хуавэй Текнолоджиз Ко., Лтд. Устройство и способ кодирования
CN111312277B (zh) 2014-03-03 2023-08-15 三星电子株式会社 用于带宽扩展的高频解码的方法及设备
KR20240046298A (ko) * 2014-03-24 2024-04-08 삼성전자주식회사 고대역 부호화방법 및 장치와 고대역 복호화 방법 및 장치
WO2015151451A1 (ja) * 2014-03-31 2015-10-08 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、復号装置、符号化方法、復号方法、およびプログラム
US9847087B2 (en) 2014-05-16 2017-12-19 Qualcomm Incorporated Higher order ambisonics signal compression

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040086878A (ko) * 2003-03-22 2004-10-13 삼성전자주식회사 대역 확장 기법을 이용한 오디오 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치
CN101263553A (zh) * 2005-07-13 2008-09-10 法国电信公司 分级编码/解码设备
US20090138272A1 (en) * 2007-10-17 2009-05-28 Gwangju Institute Of Science And Technology Wideband audio signal coding/decoding device and method

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2849727B1 (fr) * 2003-01-08 2005-03-18 France Telecom Procede de codage et de decodage audio a debit variable
US7343291B2 (en) * 2003-07-18 2008-03-11 Microsoft Corporation Multi-pass variable bitrate media encoding
US8032359B2 (en) * 2007-02-14 2011-10-04 Mindspeed Technologies, Inc. Embedded silence and background noise compression
JP4871894B2 (ja) * 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
JP4708446B2 (ja) * 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040086878A (ko) * 2003-03-22 2004-10-13 삼성전자주식회사 대역 확장 기법을 이용한 오디오 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치
CN101263553A (zh) * 2005-07-13 2008-09-10 法国电信公司 分级编码/解码设备
US20090138272A1 (en) * 2007-10-17 2009-05-28 Gwangju Institute Of Science And Technology Wideband audio signal coding/decoding device and method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MIKKO TAMMI ET AL: "Scalable superwideband extension for wideband coding", 《ACOUSTICS,SPEECH AND SIGNAL PROCESSING,2009.IEEE INTERNATIONAL CONFERENCE ON,IEEE,PISCATAWAY,NY,USA》, 19 April 2009 (2009-04-19), pages 161 - 164, XP031459191 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111133510A (zh) * 2017-09-20 2020-05-08 沃伊斯亚吉公司 用于在celp编解码器中高效地分配比特预算的方法和设备
CN111133510B (zh) * 2017-09-20 2023-08-22 沃伊斯亚吉公司 用于在celp编解码器中高效地分配比特预算的方法和设备

Also Published As

Publication number Publication date
EP2452337A1 (fr) 2012-05-16
WO2011004098A1 (fr) 2011-01-13
FR2947945A1 (fr) 2011-01-14
US20120185256A1 (en) 2012-07-19
EP2452337B1 (fr) 2013-05-29
CA2766777A1 (fr) 2011-01-13
KR20120061826A (ko) 2012-06-13
CN102511062B (zh) 2013-07-31
CA2766777C (fr) 2015-12-15
KR101703810B1 (ko) 2017-02-16
ZA201200906B (en) 2012-10-31
US8965775B2 (en) 2015-02-24

Similar Documents

Publication Publication Date Title
CN102511062B (zh) 用于改进数字音频信号的分级编码/解码的增强编码/解码中的比特分配
JP4950210B2 (ja) オーディオ圧縮
CN102576536B (zh) 数字音频信号的增强的编码/解码方法和装置
JP5863868B2 (ja) 適応的正弦波パルスコーディングを用いるオーディオ信号の符号化及び復号化方法及び装置
KR101425944B1 (ko) 디지털 오디오 신호에 대한 향상된 코딩/디코딩
JP6980871B2 (ja) 信号符号化方法及びその装置、並びに信号復号方法及びその装置
KR101061404B1 (ko) 가변 레이트로 오디오를 인코딩 및 디코딩하는 방법
US20080140393A1 (en) Speech coding apparatus and method
US20070078646A1 (en) Method and apparatus to encode/decode audio signal
KR102105305B1 (ko) 계층형 정현파 코딩을 이용한 오디오 신호의 인코딩 및 디코딩 방법 및 장치
KR20060090995A (ko) 스펙트럼 부호화 장치, 스펙트럼 복호화 장치, 음향 신호송신 장치, 음향 신호 수신장치 및 이들의 방법
KR20070012194A (ko) 혼합 구조의 스케일러블 음성 부호화 방법 및 장치
CN101162584A (zh) 使用带宽扩展技术对音频信号编码和解码的方法和设备
CN104392726B (zh) 编码设备和解码设备
CN111710342A (zh) 编码装置、解码装置、编码方法、解码方法及程序
KR101387808B1 (ko) 가변 비트율을 갖는 잔차 신호 부호화를 이용한 고품질 다객체 오디오 부호화 및 복호화 장치
Yu et al. A scalable lossy to lossless audio coder for MPEG-4 lossless audio coding
US20120123788A1 (en) Coding method, decoding method, and device and program using the methods
US20100280830A1 (en) Decoder
KR100765747B1 (ko) 트리 구조 벡터 양자화를 이용한 스케일러블 음성 부호화장치
US20070027684A1 (en) Method for converting dimension of vector
De Meuleneire et al. Algebraic quantization of transform coefficients for embedded audio coding
Jia et al. An embedded speech and audio coding method based on bit-plane coding and SQVH
MXPA98010783A (en) Audio signal encoder, audio signal decoder, and method for encoding and decoding audio signal

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130731

Termination date: 20170625

CF01 Termination of patent right due to non-payment of annual fee