CN102779518A

CN102779518A - 用于双核编码模式的编码方法和系统

Info

Publication number: CN102779518A
Application number: CN2012102640751A
Authority: CN
Inventors: 王磊; 闫建新
Original assignee: Shenzhen Rising Source Technology Co ltd
Current assignee: Guangdong Guangsheng Research And Development Institute Co ltd
Priority date: 2012-07-27
Filing date: 2012-07-27
Publication date: 2012-11-14
Anticipated expiration: 2032-07-27
Also published as: CN102779518B

Abstract

本发明涉及用于双核编码模式的编码方法和系统。该方法包括：判断输入信号是类音乐信号还是类语音信号；对所述输入信号进行环绕声编码，并判断所述输入信号是否为立体声信号或者多声道信号；对所述输入信号进行环绕声参数提取后进行增强频带复制；对增强频带复制后的所述输入信号进行第一比特控制或第二比特控制；对于经历第一比特控制的所述输入信号进行频域编码，对经历第二比特控制的所述输入信号进行线性预测域编码；对所述输入信号进行量化编码，最后通过多路复用对获得的所有编码数据和边信息进行多路复用。实施本发明的用于双核编码模式的编码方法及系统，可以提高混合信号的编码质量。

Description

用于双核编码模式的编码方法和系统

技术领域

本发明涉及音频和语音信号编码方法及应用该方法的系统，更具体地，涉及一种用于双核编码模式的编码方法和系统。

背景技术

目前流行的感知编码器在比特率控制中一般采用两类方法。一类是基于恒定比特率（Constant Bit Rate，CBR）的算法，例如,Dolby-AC3、MPEG-1中的层1和层2、3GPP的AMRWB+、以及应用到中国移动多媒体广播（China MobileMultimedia Broadcasting，CMMB)中的广晟音频编码（Digital Rise Audio，DRA）(中国国家标准GB/T22726-2008)。CBR的优点是延迟固定，在解码端不会产生上溢和下溢，同时编码端的比特控制算法简单；缺点是当音频信号为非平稳信号时，可能出现编码质量不稳定的情况。另一类是基于平均比特率（AverageBit Rate，ABR）的算法，例如，MPEG-1中的层3（即目前在互联网上广泛流行的MP3）、MPEG-2中的AAC、3GPP的EAACPlus(在AAC编码基础上加上SBR和参数立体声（Parametric Stereo,PS）)、以及最近MPEG(运动图像专家组)中的语音音频统一编码的音频编码(Unified Speech and Audio Coding,USAC)。ABR的优点是可以使编码质量平稳；缺点是增大了延迟，需要在编码端精心设计比特控制算法以便在解码端不产生上溢和下溢。正是CBR和ABR各自的优、缺点决定了这两类算法有着各自的应用领域。例如，CBR一般应用在广播等需要实时转播的场合；而ABR一般应用在网络传输下载以及DVD中的伴音等场合。由于ABR拥有较为广泛的用途，因此目前流行的编码器都提供对ABR支持。

图1示出了现有技术的用于双核编码模式的USAC编码器100的框图，其具体实现过程如下：

首先，将输入的一帧脉码调制(Pulse Code Modulation,PCM）样本经由一个信号通路输入到信号分类器模块101，判断该帧信号是类语音信号还是类音乐信号，并输出结果(将在下文中更详细地讨论)。

该PCM样本经由另一个信号通路输入到MPEG环绕声（MPEG Surround）编码模块102，在其中，如果该帧信号是立体声信号或者是多声道信号，则进行环绕声参数提取；否则不进行环绕声参数提取，即，直通该信号。然后，经受或未经受环绕声参数提取的音频/语音信号进入增强频带复制(Spectral BandReplication,SBR)（eSBR）模块103，在该模块中对输入的PCM样本的高频部分进行参数编码，并对整个信号进行2倍下采样。

根据信号分类器模块101的判断结果，信号进入两个分支之一：一个分支是频域编码模块105所在的分支(频域FD分支)，另一个分支是线性预测编码模块106所在的分支(线性预测域LPD分支)。具体地，如果信号分类器101输出的是类音乐信号，则下采样后的低频时域信号进入频域编码模块105进行频域编码；否则，下采样后的低频时域信号在线性预测编码模块106中，或者以代数码激励线性预测（Algebraic Code Excited Linear Prediction,ACELP）进行时域编码，或者以变换域码激励（Transform Coded Excitation,TCX）进行频域编码。

通过先进音频编码（Advanced Audio Coding,AAC）频域编码和TCX频域编码的谱系数通过量化和编码模块107进行量化编码；最后通过多路复用模块108对所有编码数据(例如，谱系数)及边信息(例如，信号分类判决结果)进行复用，得到USAC码流。

USAC编码的LPD分支(对于本文，也可称之为LPC分支)是用CBR编码的，即每帧编码所用比特相同；而FD分支(对于本文，也可称之为FD分支)是用ABR编码的，即每帧编码所用比特可以不同。

其中，FD分支的ABR编码的基本原理是通过感知熵来进行比特控制的，在标准ISO/IEC13818-7中实现比特控制算法的步骤如下:

步骤1，通过心理声学模型计算感知熵pe。其中心理声学模型可以是MPEG提供的模型1和模型2，或者通过J.D.Johnston的文章“estimation of perceptualentropy using noise masking criteria”，IEEE,1988得到；

步骤2，利用公式（1）计算平均比特mean_bits：

mean_bits = \frac{bit_rate \cdot 1024}{sampling_rate} - - - (1)

其中，bit_rate为编码比特率，sampling_rate为信号的采样频率；

步骤3，根据感知熵利用公式（2）计算比特分配：

bit_allocation=pew1*PE+pew2*sqrt(PE)（2）

其中，PE为步骤1得出的感知熵，pew1在缓变信号中为0.3，快变信号为0.6；pew2在缓变信号中为0.6，快变信号中为24。最后将bit_allocation限制为3到3000。

步骤4，利用上述步骤得出的变量根据公式（3）计算该帧所要增加的比特more)bits：

more_bits=bit_allocation-(mean_bits-side_info_bits)（3）

其中，side_info_bits为边信息所用的比特数。

步骤5，利用公式（4）计算该帧可用的比特数：

ifmore_bits>0:

available_bits=mean_bits+min(more_bits,bitreservoir_state[frame])

ifmore_bits<0:

available_bits＝mean_bits+max(more_bits,bitreservoir_state[frame]max_bit_reservoir) （4）

其中，bit_reservoir_state〔frame〕为当前帧frame时比特池中剩余的比特数；max_bit_reservoir为最大比特池容量，AAC中定义为6144*声道数。

发明内容

本发明要解决的技术问题在于，针对现有技术的因FD分支的ABR没有进行比特池控制，有可能对一些信号比特池的比特数会很快用光，在编码后面的帧时比特池中没有比特可用，造成编码质量的不平稳，以及LPC分支简单用CBR编码，不能充分考虑全局主观质量等问题，本发明特给出了以下技术方案。

根据本方面的第一方面，提供了一种用于双核编码模式的编码方法，包括以下步骤，a判断输入信号是类音乐信号还是类语音信号；b对所述输入信号进行环绕声编码，并判断所述输入信号是否为立体声信号或者多声道信号；c基于所述步骤b的判断结果对所述输入信号进行环绕声参数提取后进行增强频带复制；d基于所述步骤a的判断结果对增强频带复制后的所述输入信号进行第一比特控制或第二比特控制；e对于经历第一比特控制的所述输入信号进行频域编码，对经历第二比特控制的所述输入信号进行线性预测域编码；f将经历所述步骤e的所述输入信号进行量化编码，最后通过多路复用对获得的所有编码数据和边信息进行多路复用。

在一个实施例中，在所述步骤d中，当所述输入信号为类音乐信号时，对所述类音乐信号进行第一比特控制，当所述输入信号为类语音信号时，对所述类语音信号进行第二比特控制。在一个优选实施例中，所述第一比特控制包括ABR比特控制，所述第二比特控制包括pABR比特控制。

在另一优选实施例中，所述ABR比特控制基于感知熵和比特池饱和度进行比特控制。所述pABR比特控制基于比特池饱和度进行比特控制。更进一步地，所述pABR比特控制是比特率跃迁式比特控制。在再一优选实施例中，所述pABR比特控制包括3、4或5种码率。在另一优选实施例中，所述pABR比特控制所使用的跃迁阈值存在如下关系：从高码率向某个码率发生跃迁所需的阈值要稍高于从低码率跃迁至同一码率所需的阈值。

根据本方面的第二方面，提供了一种用于双核编码模式的编码系统，其特征在于，包括：信号分类器模块，用于判断输入信号是类音乐信号还是类语音信号；MPEG环绕声编码模块，用于对所述输入信号进行环绕声编码，并判断所述输入信号是否为立体声信号或者多声道信号；耦合到所述MPEG环绕声编码模块的增强SBR模块，用于在所述输入信号为立体声信号或者多声道信号时，对所述输入信号进行环绕声参数提取后进行增强频带复制；耦合到所述增强SBR模块的第一比特控制模块，用于在所述输入信号为类音乐信号时，对所述输入信号进行第一比特控制；耦合到所述增强SBR模块的第二比特控制模块，用于在所述输入信号为类语音信号时，对所述输入信号进行第二比特控制；耦合到所述第一比特控制模块的频域编码模块，用于对于经历第一比特控制的所述输入信号进行频域编码；耦合到所述第二比特控制模块的线性预测域编码模块，用于对于经历第二比特控制的所述输入信号进行频域编码；耦合到所述第一比特控制模块和所述第二比特控制模块的量化和编码模块，用于对经历所述第一比特控制或第二比特控制的所述输入信号进行量化编码；耦合到所述量化和编码模块的多路复用模块，用于多路复用获得的所有编码数据和边信息。

在本发明的一个优选实施例中，所述第一比特控制模块为ABR比特控制模块，所述第二比特控制模块为pABR比特控制模块。

实施本发明的用于双核编码模式的编码方法及系统，可以提高混合信号（语音＋音乐）的编码质量。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是现有技术用于双核编码模式的USAC编码器的框图；

图2是根据本发明一个实施例的、实现比特控制的、用于双核编码模式的编码系统框图；

图3是根据本发明一个实施例的、pABR编码原理示意图；

图4A和4B是根据本发明一个实施例的、如何基于比特池饱满度发动跃迁的示意图。

具体实施方式

图2示出了用于根据本发明的示例性实施例的、实现比特控制的、用于双核编码模式的编码系统200框图。与图1的双核编码模式编码器100相比，本发明在频域编码模块205(对应于频域编码模块105)之前增加一个第一比特控制模块209和/或在线性预测域编码模块206（对应于线性预测域编码模块106）之前增加一个第二比特控制模块210。在本实施例中，第一比特控制模块209是ABR比特控制模块209，第二比特控制模块210是pABR比特控制模块210。

其中，ABR比特控制模块209根据例如感知熵以及比特池饱满度等的比特控制参数进行比特控制。ABR比特控制的原理是对容易编码的帧用较少的比特（少于平均比特），将剩余的比特存入比特池；对较难编码的帧用较多的比特（多于平均比特），多余的比特从比特池中提取。ABR比特控制的效率在于综合考虑比特率、比特池状态、音频内容和允许比特变化的范围等因素，以确定当前帧所需的比特数。ABR比特控制模块209的一个具体实现可以参照专利申请“用于DRA的ABR码率控制技术”（申请日2009年3月31日、专利申请号：200910081254.X、公开号：CN101853662A、公开日2010年10月6日），该专利申请的全部内容以引用方式并入本文。

根据本发明的一个具体实施例，pABR编码原理示意图如图3所示。因为语音编码器一般都是对某一码率进行CBR编码，所以本发明列出了几个典型码率，分别了12kbps，16kbps，24kbps，32kbps和48kbps五种，在图3中以五个同心圆分别表示各个码率。pABR编码的原理就如同量子跃迁一样，从一个码率编码模式跳跃到相邻的另一个码率编码模式：具体地，当比特池中的比特过少时，从高码率编码模式跃迁到低码率编码模式；反之，当比特池中的比特过多时，从低码率编码模式跃迁到高码率编码模式。下面将通过3个具体实施例来说明其具体实现，其中，用1表示比特池为满状态，用0表示比特池为空状态：

在实施例1中，编码音乐类信号，此时进入FD分支(205)，不会进入LPD分支，所以pABR不会起到控制作用。对于此类信号，可以按照专利“用于DRA的ABR码率控制技术”（申请日2009年3月31日、专利申请号：200910081254.X、公开号：CN101853662A、公开日2010年10月6日），在ABR比特控制模块209中对码率进行控制。

在实施例2中，编码语音类信号，此时进入LPD分支(206)，不会进入FD分支。这时pABR比特控制模块209开始起作用。例如，当MPEG环绕声模块202和增强频带复制模块203占用很多比特，使得比特池饱满度下降时；或者当该帧语音为比较复杂的浊音信号等需用更多比特，使得比特池饱满度下降时，都可以通过pABR比特控制得到更加平稳的主观质量。

在实施例3中，将结合图4A和图4B，给出编码混合类信号的实现方法。如图4A中右下方所示，假定开始时采用32kbps编码码率开始编码，这时比特池饱满度为1。进一步假定该信号开始比较难编码(不论是音乐信号还是语音信号)，则将超支比特（即，每帧需要的比特大于平均比特），这时比特池饱满度下降。当比特池饱满度下降到一定程度时：例如当下降到2/3(对应图4A中下方偏右的位置)并且进入语音编码器分支时，pABR比特控制将起到作用，使编码码率从32kbps编码模式跃迁到24kbps编码模式；进一步地，例如当饱满度继续下降到1/3(对应图4A中下方偏左的位置)并且进入语音编码分支，则pABR比特控制将编码码率从24kbps编码模式跃迁到16kbps编码模式。通过上述控制，可以使比特池的饱满度上升。当比特池饱满度上升到一定程度时：例如，当比特池饱满度上升到1/2时，则从16kbps编码模式跃迁到24kbps编码模式；进一步地，当比特池饱满度继续上升到5/6时，则从24kbps编码模式跃迁到32kbps编码模式。通过上述控制，可以得到更加平稳的主观质量。图4A只是一个具体实施例，以上具体数值以及跃迁区域可以根据经验进行改变。优选地，从高码率向某个码率(例如，24kbps)发生跃迁所需的阈值(例如，从32kbps编码模式跃迁到24kbps编码模式可能对应2/3)要稍高于从低码率跃迁至同一码率所需的阈值(例如，从16kbps编码模式跃迁到24kbps编码模式对应的1/2)。

图4B是另一个跃迁区域进一步细分的实施例。该实施例可以实现更加精细的比特控制。例如，一开始用32kbps编码码率开始编码，这时比特池饱满度为1，如果该信号从一开始是音乐信号或语音信号而且比较难编码，则将超支比特（即每帧需要的比特大于平均比特），这时比特池饱满度下降。当比特池饱满度下降时，在下降到3/4并且进入语音编码器分支时，pABR比特控制将编码码率从32kbps编码模式跃迁到24kbps编码模式；如果下降到1/2并且进入语音编码分支，则pABR比特控制将编码码率从24kbps编码模式跃迁到16kbps编码模式；如果下降到1/4并且进入语音编码分支，则pABR比特控制将编码码率从16kbps编码模式跃迁到12kbps编码模式。通过上述控制，可以使比特池的饱满度上升。当比特池饱满度上升时，如果比特池饱满度上升到3/8时，则从12kbps编码模式跃迁到16kbps编码模式；如果比特池饱满度上升到5/8时，则从16kbps编码模式跃迁到24kbps编码模式；如果比特池饱满度上升到7/8时，则从24kbps编码模式跃迁到32kbps编码模式。同样，从高码率向某个码率发生跃迁所需的阈值要稍高于从低码率跃迁至同一码率所需的阈值。

应该理解的是，通过本发明的教导，本领域普通技术人员可根据实际编码系统所需要的码率的种类数和具体数值，设计出适于实用的、类似于上述图4A-4B的跃迁图谱。

尽管本发明的实施例以USAC编码为例给出，但是任何双核编码器或多核编码器都可使用本发明来改善编码效果。因此，尽管本说明书参照上述各个实施例对本发明已进行了详细的说明，但是，本领域普通技术人员应当理解，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种用于双核编码模式的编码方法，包括：

a判断输入信号是类音乐信号还是类语音信号；

b对所述输入信号进行环绕声编码，并判断所述输入信号是否为立体声信号或者多声道信号；

c基于所述步骤b的判断结果对所述输入信号进行环绕声参数提取后进行增强频带复制；

d基于所述步骤a的判断结果对增强频带复制后的所述输入信号进行第一比特控制或第二比特控制；

e对于经历第一比特控制的所述输入信号进行频域编码，对经历第二比特控制的所述输入信号进行线性预测域编码；

f将经历所述步骤e的所述输入信号进行量化编码，最后通过多路复用对获得的所有编码数据和边信息进行多路复用。

2.根据权利要求1所述的方法，其特征在于，在所述步骤d中，当所述输入信号为类音乐信号时，对所述类音乐信号进行第一比特控制，当所述输入信号为类语音信号时，对所述类语音信号进行第二比特控制。

3.根据权利要求1或2所述的方法，其特征在于，所述第一比特控制包括ABR比特控制，所述第二比特控制包括pABR比特控制。

4.根据权利要求3所述的方法，其特征在于，所述ABR比特控制基于感知熵和比特池饱和度进行比特控制。

5.根据权利要求3所述的方法，其特征在于，所述pABR比特控制基于比特池饱和度进行比特控制。

6.根据权利要求5所述的方法，其特征在于，所述pABR比特控制是比特率跃迁式比特控制。

7.根据权利要求6的所述方法，其特征在于，所述pABR比特控制包括3、4或5种码率。

8.根据权利要求6的方法，其特征在于，所述pABR比特控制所使用的跃迁阈值存在如下关系：从高码率向某个码率发生跃迁所需的阈值要稍高于从低码率跃迁至同一码率所需的阈值。

9.一种用于双核编码模式的编码系统，其特征在于，包括：

信号分类器模块，用于判断输入信号是类音乐信号还是类语音信号；

MPEG环绕声编码模块，用于对所述输入信号进行环绕声编码，并判断所述输入信号是否为立体声信号或者多声道信号；

耦合到所述MPEG环绕声编码模块的增强SBR模块，用于在所述输入信号为立体声信号或者多声道信号时，对所述输入信号进行环绕声参数提取后进行增强频带复制；

耦合到所述增强SBR模块的第一比特控制模块，用于在所述输入信号为类音乐信号时，对所述输入信号进行第一比特控制；

耦合到所述增强SBR模块的第二比特控制模块，用于在所述输入信号为类语音信号时，对所述输入信号进行第二比特控制；

耦合到所述第一比特控制模块的频域编码模块，用于对于经历第一比特控制的所述输入信号进行频域编码；

耦合到所述第二比特控制模块的线性预测域编码模块，用于对于经历第二比特控制的所述输入信号进行频域编码；

耦合到所述第一比特控制模块和所述第二比特控制模块的量化和编码模块，用于对经历所述第一比特控制或第二比特控制的所述输入信号进行量化编码；

耦合到所述量化和编码模块的多路复用模块，用于多路复用获得的所有编码数据和边信息。

10.根据权利要求9所述的用于双核编码模式的编码系统，其特征在于，所述第一比特控制模块为ABR比特控制模块，所述第二比特控制模块为pABR比特控制模块。