CN101202042A

CN101202042A - 可扩展的数字音频编码框架及其扩展方法

Info

Publication number: CN101202042A
Application number: CNA2006101658644A
Authority: CN
Inventors: 陈睿
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2006-12-14
Filing date: 2006-12-14
Publication date: 2008-06-18

Abstract

本发明公开了一种可扩展的数字音频编码框架，包括：核心编码器，接收PCM流，对所述PCM流中的音频信号或者语音信号进行单声道和编码，并发送；带宽扩展模块，接收PCM流中的噪声信号，所述带宽扩展模块利用噪声信号中的低频分量来重建高频分量，将引导信息加载到编码后的码流中，发送到码流格式器；立体声模块，接收PCM流中的立体声信号，从所述立体声信号中提取立体声参数，形成辅助的比特流，发送到码流格式器；码流格式器，接收核心编码器、带宽扩展模块、立体声模块的信号，形成输出码流。本发明还公开了一种数字音频编码的扩展方法。

Description

可扩展的数字音频编码框架及其扩展方法

技术领域

本发明涉及一种音视频编码技术，具体说，涉及一种可扩展的数字音频编码框架及其扩展方法。

背景技术

AVS标准是“信息技术先进音视频编码”(Audio and Video codingStandard Workgroup of China)系列标准的简称，其核心是把数字视频和音频数据压缩为原来的几十分之一甚至百分之一以下，AVS包括系统、视频、音频等三个主要标准和一致性测试等支撑标准，这是基于我国创新技术和公开技术制定的开放标准，旨在为中国的音视频产业提供完整的信源编码技术方案。无论AVS标准还是其它标准，其物理实现都是一块解码芯片或者编码芯片。

在很多的通用数字音频编码框架中，只定义了单独的音频编码方法，不具备可扩展性，存在通用部分和扩展部分兼容性、统一性不够的问题，特别是在需要进行音频编码框架扩展时，例如从通用音频应用扩展到移动音频应用时，需要定义特定的数字音频编码框架。

发明内容

本发明所解决的技术问题是提供一种可扩展的数字音频编码框架，解决了通用部分和扩展部分兼容性和统一性不够的问题，使得语音和音乐得到较好的编码质量。

技术方案如下：

可扩展的数字音频编码框架包括：

核心编码器，接收PCM流，对所述PCM流中的音频信号或者语音信号进行单声道和编码，并发送；

带宽扩展模块，接收PCM流中的噪声信号，所述带宽扩展模块利用噪声信号中的低频分量来重建高频分量，将引导信息加载到编码后的码流中，发送到码流格式器；

立体声模块，接收PCM流中的立体声信号，从所述立体声信号中提取立体声参数，形成辅助的比特流，发送到码流格式器；

码流格式器，接收核心编码器、带宽扩展模块、立体声模块的信号，形成输出码流。

优选的，所述核心编码器包括：

语音非语音鉴别模块，接收PCM流，鉴别和区分PCM流中的语音信号、音频信号，并将语音信号或者音频信号选择发送；

通用音频编码器，接收所述音频信号，对所述音频信号进行编码并发送；

语音编码器，接收所述语音信号，对所述语音信号进行编码并发送；

第一开关元件，选择导通语音非语音鉴别模块和通用音频编码器，或者选择导通语音非语音鉴别模块和语音编码器；

第二开关元件，选择导通码流格式器和通用音频编码器，或者选择导通码流格式器和语音编码器。

优选的，立体声模块在编码时，立体声信号经左右声道混合得到的单声道信号。

本发明所解决的另一个技术问题是提供一种数字音频编码的扩展方法，使得语音和音乐得到较好的编码质量。

技术方案如下：

数字音频编码的扩展方法包括如下步骤：

(1)在带宽扩展模块中，利用接收到的PCM流中的噪声信号进行带宽扩展，并发送；

(2)在立体声模块中，利用接收到的PCM流中的立体声信号，从所述立体声信号中提取立体声参数，形成辅助的比特流，并发送；

(3)在核心编码器中，将接收到的PCM流中的音频信号或者语音信号进行编码，并发送；

(4)码流格式器接收带宽扩展模块、立体声模块、核心编码器的输入信号，进行组合编码形成输出流。

进一步，步骤(3)具体为：

(31)语音非语音鉴别模块接收PCM流，鉴别和区分PCM流中的语音信号、音频信号，并将语音信号或者音乐信号选择发送；

(32)当语音非语音鉴别模块发送音频信号时，第一开关元件选择导通语音非语音鉴别模块和通用音频编码器；当语音非语音鉴别模块发送语音信号时，第一开关元件选择导通语音非语音鉴别模块和语音编码器；

(33)通用音频编码器对接收到的音频信号进行编码，经第二开关元件发送到所述码流格式器；或者，语音编码器对接收到的语音信号进行编码，经第二开关元件发送到所述码流格式器。

本发明解决了通用部分和扩展部分兼容性和统一性不够的问题，，带宽扩展和立体声技术可以方便的与核心编码器融合，使得语音和音频得到较好的编码质量。同时，继承了通用音频的优点，使得码流的兼容性和统一性得到保证。

附图说明

图1是可扩展的数字音频编码框架的结构框图；

图2是通过复制产生高频的频率-能量曲线图；

图3是对高频部分进行包络调整的频率-能量曲线图；

图4是立体声信号的输入生产波形图。

具体实施方式

下面参照附图，对本发明的优选实施例作详细描述。

如图1所示，可扩展的数字音频编码框架整体上包括核心编码器110、带宽扩展模块120、立体声模块130、码流格式器140。PCM流同时进入核心编码器110、带宽扩展模块120、立体声模块130。

核心编码器110对进入的PCM流中的音乐信号或者语音信号进行单声道和编码，并发送到码流格式器140，在码流格式器140中形成输出码流。核心编码器110包括三个子模块，分别是语音非语音鉴别模块111、通用音频编码器112、语音编码器113。

随着移动通信的发展，语音通信向音频通信发展，音频通信媒体除了语音信号，还有音乐信号。这样，原有的语音通信编解码器不能满足新的需求，同时语音激活检测必须演变成语音/非语音鉴别，即必须能够区分音乐、语音、噪声，以便下一步分别处理。

语音非语音鉴别模块111接收PCM流，鉴别和区分PCM流中的语音信号、音频信号，并将语音信号或者音频信号选择发送到通用音频编码器112或者语音编码器113。

通用音频编码器112和语音编码器113是通用音频扩展框架的核心编码器，用来进行单声道和一定带宽条件下的语音和音频信号编码。按照信号的形式和提供的数据率，能够建立不同的源模型和感觉模型。语言编码方法主要是充分利用了在人类发声中语言产生的特殊模型，任意音频信号的编码方法主要充分利用了人耳的掩蔽效应。

通用音频编码器112接收音频信号，对音频信号进行编码并发送到码流格式器140。语音编码器113接收语音信号，对语音信号进行编码并发送到码流格式器140。

当语音非语音鉴别模块111发送音频信号时，第一开关元件114导通语音非语音鉴别模块111和通用音频编码器112，第二开关元件115选择导通码流格式器140和通用音频编码器112；当语音非语音鉴别模块111发送语音信号时，第一开关元件114导通语音非语音鉴别模块111和语音编码器113，第二开关元件115选择导通码流格式器140和语音编码器113。

如图2和图3所示，带宽扩展模块120将频谱从低频到高频直接复制，然后，利用原来高频包络信息对复制的高频进行调整。

带宽扩展模块120接收音频信号中的噪声信号，带宽扩展模块120利用噪声信号中的低频分量来重建高频分量，将引导信息加载到编码后的码流中，发送到码流格式器140。

在低于每通道64Kbps的码率下，各种感知编码器都不同程度地出现了质量的下降，或产生带限。为克服先前的感知编码器的这一缺陷，带宽扩展模块120改善了在低码率下语音和音频编码器的表现，提高了音频感知编码器在低码率下的带限上限使得其能够达到或超过15KHz，并且能够改进窄带语音编码器的质量使得能够原先只能用于广播语音的通道能够传输12KHz频带范围的音乐。

带宽扩展模块120使得在压缩算法中高效地对音频中的高频部分编码成为可能。带宽扩展模块120利用分析低频分量来重建高频分量，为了能够准确重建，一些引导信息以极低的码率被加载到编码后的码流中。这种高频分量的重建对于谐波和类噪声成分非常有效，并且他还允许进行时域和频域的修整。这样对全频带进行处理，就可以明显地提高几乎两倍的编码器效率。

带宽扩展技术利用分析低频分量来重建高频分量，为了能够准确重建，需要进行以下处理：

立体声模块130接收PCM流中的立体声信号，从立体声信号中提取立体声参数，形成辅助的比特流，发送到所述码流格式器140。

立体声模块130通过提取表述输入信号立体声声像的参数，可以同样提高两倍左右的编码效率。在编码时，只有一个从立体声信号经降混音的单声道信号被编码，从立体声信号中提取的立体声参数和带宽扩展参数一样，嵌入为一个辅助的比特流。在解码时，首先单声道的信号被解码出来，立体声信号通过嵌入的立体声参数来重构。

如图4所示，在编码时，立体声信号经左右声道混合得到单声道信号，从立体声信号中提取立体声参数，嵌入为一个极低的辅助比特流。在解码时，混合单声道的信号首先被解码出来，立体声信号通过立体声参数来重构。

下列指标用来描述立体声声像：

1、通道间强度差异，主要描述左右通道的能量强度差异。

2、通道间互相关，主要描述左右通道的互相关或相干。

3、通道间相位差异，主要描述左右通道的相位差异。

当有PCM流进入可扩展的数字音频编码框架时，工作过程如下：

在带宽扩展模块120中，利用接收到的噪声信号进行带宽扩展，并发送码流格式器115；在立体声模块130中，利用接收到的立体声信号，从立体声信号中提取立体声参数，形成辅助的比特流，并发送到码流格式器115。

在核心编码器110中，将接收到的信号中的音频信号或者语音信号进行编码，并发送到码流格式器115，具体如下：

(1)语音非语音鉴别模块111接收PCM流，鉴别和区分PCM流中的语音信号、音频信号，并将语音信号或者音乐信号选择发送。

(2)当语音非语音鉴别模块111发送音频信号时，第一开关元件114选择导通语音非语音鉴别模块111和通用音频编码器112；当语音非语音鉴别模块发送的音频信号为语音信号时，第一开关元件114选择导通语音非语音鉴别模块111和语音编码器113。

(3)通用音频编码器112对接收到的音频信号进行编码，经第二开关元件115发送到码流格式器140；语音编码器113对接收到的语音信号进行编码，经第二开关元件115发送到码流格式器140。

(4)码流格式器140接收带宽扩展模块、立体声模块、核心编码器的输入信号，进行组合编码形成输出流。

Claims

1.一种可扩展的数字音频编码框架，包括：

其特征在于，还包括：

2.根据权利要求1所述的可扩展的数字音频编码框架，其特征在于，所述核心编码器包括：

3.根据权利要求1所述的可扩展的数字音频编码框架，其特征在于，立体声模块在编码时，立体声信号经左右声道混合得到的单声道信号。

4.一种数字音频编码的扩展方法，包括如下步骤：

5.根据权利要求4所述的数字音频编码的扩展方法，其特征在于，步骤(3)具体为：