CN1284319C

CN1284319C - 一种多通道amr声码器的实现方法和设备

Info

Publication number: CN1284319C
Application number: CN02114531.8A
Authority: CN
Inventors: 陈新富; 张正阳; 何剑峰; 孙健
Original assignee: Xian Datang Telecom Co Ltd
Current assignee: Xian Datang Telecom Co Ltd
Priority date: 2002-04-22
Filing date: 2002-04-22
Publication date: 2006-11-08
Anticipated expiration: 2022-04-22
Also published as: CN1428953A

Abstract

一种多通道AMR声码器的实现方法和设备，其采用专用数字信号处理器作为声码器进行实时的语音编码和解码处理的硬件平台；把工作速率、VAD方法和是否采取DTX方式作为编码器主函数的输入参数，将其传递给有关函数，在这些函数内部根据参数值选择不同的分支，完成所要求的处理，以达到单片TMS320C6203支持16个话路语音的编码和解码，性能和理论值接近；其把每个通道的所有状态变量包含在一个结构中并给每个通道分配独立永久的内存空间，而中间结果所占的内存空间则采用临时共享的方式，这样各个话路就可独立调整工作模式和对应状态变量而不会影响其他话路。

Description

一种多通道AMR声码器的实现方法和设备

技术领域

本发明是关于一种多通道AMR(Adaptive Multi-Rate)声码器的实现方法和设备，特别是一种基于TMS320C6000系列研制开发的具有数字信号处理的多通道AMR声码器的实现方法和设备。

技术背景

语音编码技术经过几十年的发展，已经可以实现在4.8kbps甚至更低的速率上提供接近长途语音质量的声码器。窄带语音通信仍然是2.5G、3G移动通信的一项最基本业务。3G网络的传输模式为ATM(AsynchronousTransfer Mode)，它可以根据具体应用的带宽要求进行灵活的分配，达到异源数据的复用目的。3GPP于1999年公布了WCDMA(Wide-Code DivisionMultiple Access)的语音编码标准-AMR编码标准，并向3GPP(3rdGeneration Partnership Project)成员发布了相应的C语言源代码。AMR声码器是WCDMA系统MSC(Mobile Switch Center)设备中关键技术之一，它实现语音的多种低速率编码和解码，支持内嵌语音激活检测(Voice ActivityDetector，简称VAD)和舒适噪音再生，编码的语音降低了对无线频谱带宽的要求，实现多路语音传输的带宽复用，在MSC中发挥媒体网关(MediaGateway)的作用，保证了基于ATM的第三代移动通信网与现有的网络资源PSTN/ISDN(Public Service Telephone Network/Integrated ServicesDigital Network)的互通性。

3GPP公布的源代码只提供了AMR声码器的实现模板，即使业界性能最高的DSP芯片—德州仪器公司TMS320C6000系列也不能完成一路语音的编码和解码处理，即该源代码离实际应用还相差很远。

AMR声码器实现途径主要有基于CPU(Central Processing Unit)方式和基于FPGA/ASIC(Field Programmable Gate Array/Application SpecificIntegrated Circuit)方式两类，其中基于CPU芯片方式又可以分为基于通用CPU和DSP两种。由于FPGA/ASIC是一种基于电路硬件实现的方法，在定型以后修改比较复杂，另外该方式受集成电路制造工艺的影响，单芯片实现多路的难度很大，使得该方式对减小体积、降低成本及算法升级、控制、统计和维护等应用要求都不利。通用的CPU由于其结构不适合密集数学运算，处理速度和数据的吞吐率不高，不满足大容量应用场合的要求。

不同位置的移动用户的电磁环境不同，使得每个用户所能达到的信息速率也相差很大，为了满足移动环境的这些条件，AMR声码器提供了8种不同速率的工作模式。传统的声码器要求编码器和解码器必须以相同的模式，这样使得其中一个用户的通话质量下降。该方式也可以在交换机上进行一次解码和编码处理以达到速率匹配的目的，但是声码器技术是一种有损处理技术，即每次编码和解码降低了语音质量，同时该方式还造成交换机上的设备浪费。由于移动用户在不断的运动，其所能达到的信道速率也随之改变，为了达到最佳的通话质量，WCDMA系统要求不影响通话的条件下动态的配置声码器的工作模式，其他公司开发的类似软件(Telogy公司)在更改声码器工作模式时要求对声码器重新初始化，这就造成通话中断的问题。

由于3G采用了CDMA的多址技术使其成为了一个自干扰系统，系统的用户容量决定于系统的即时业务量，统计数据表明人们在说话过程中大约40％的时间在听对方讲话或思考，此时没有必要发送任何信息，如果能利用这个特点，在用户没有说话时不向信道(系统)发送信息或以比较低的速率发送信息，就可以减少系统内的干扰，提高系统容量。该项技术需要顽健的语音激活检测技术和其他相关技术的支持。2G和2.5G的声码器由于其本身的缺陷和GSM系统的特点，不具备该功能。

发明内容

本发明的主要目的是提供一种基于TMS320C6000系列的多通道AMR声码器的实现方法和设备，其可支持多通道并行处理，各个通道可独立动态更新配置工作模式，且编码器和解码器可非对称配置；可支持内嵌语音激活检测功能、非连续发送(Discontinuous Transmission，简称DTX)功能、以及内嵌误码消除(Error Concealment Unit，简称ECU)功能；应用程序接口灵活方便，通过人机界面或上层应用程式控制通道工作模式。

本发明的目的可通过以下措施来达到：

本发明的实现是采用专用数字信号处理器(Digital Signal Processor，简称DSP)作为声码器进行实时的语音编码和解码处理的硬件平台；在软件上采取C语言、线性汇编语言和手工汇编语言混合编程的方法，设计出支持单路多模式AMR声码器软件和支持多通道AMR声码器软件。其中，支持单路多模式AMR声码器软件的实现方法是把工作速率(Mode)、VAD方法和是否采取DTX方式作为编码器主函数的输入参数，并把它传递给有关的函数，在这些函数内部根据参数的值选择不同的分支，完成所要求的处理，以达到单片TMS320C6203支持16个话路语音的编码和解码，性能和理论值接近。支持多通道AMR声码器软件的实现方法是采用结构的方法，把每一个通道的所有状态变量包含在一个结构中并给每一个通道分配独立的永久的内存空间，而中间结果所占的内存空间则采用临时共享的方式，这样各个话路就可以独立调整工作模式和对应状态变量而不会影响其他的话路，同时平均每路占用的内存又很小，具有很高的性价比。

一种多通道AMR声码器的实现方法，包括单路多模式AMR声码器发送端和接收端的处理，其特征在于：

(一).在发送端

1).首先，将PSTN送来的经A率压缩编码的8bits格式的原始语音数据通过数据格式转换模块(1)转化为13bits的线性数据，送至语音编码模块(3)；

2).语音编码模块(3)根据用户所选择的工作速率，每隔20ms抽取相应的特征参数，并把部分特征参数送到语音激活检测模块(2)；

3).语音激活检测模块(2)根据这些特征参数判断当前帧信号是语音还是背景噪声，并把语音激活检测结果送给非连续发送控制处理模块(5)；

4).非连续发送控制处理模块(5)据根用户是否采用非连续发送，对语音激活检测结果进行调整，如果没有采用非连续发送，则非连续发送控制处理模块(5)强制任何时候的语音激活检测结果均为语音；

5).非连续发送控制处理模块(5)把调整后的语音激活检测结果反馈给语音编码模块(3)，语音编码模块(3)根据语音激活检测结果进行处理，如果当前帧信号是语音，语音编码模块(3)采用与工作速率所对应的码书和量化方法对特征参数进行量化和编码，得到语音帧信息比特；如果当前帧信号是背景噪声，语音编码模块(3)把相应的特征参数送给背景噪声参数估计和编码模块(4)，进行背景噪声参数估计，并用与背景噪声所对应的码书和量化方法对参数进行量化和编码，得到背景噪声帧信息比特；

6).上述信息比特最终均送至非连续发送控制处理单元(5)，非连续发送控制处理单元(5)根据语音激活检测结果得到帧类型，并将其和特征参数量化编码结果一起送到CRC校验和成帧单元模块(6)；

7).CRC校验和成帧单元模块(6)对参数进行CRC校验，并把帧类型和信息比特及其CRC结果组成一帧信号送至信道单元；

(二).在接收端

1).接收到的一帧信号先由解帧和CRC校验模块(7)完成解帧和CRC校验，根据解帧和校验结果得到帧类型、错帧指示和信息比特参数，并将这些参数一起送到非连续发送控制和处理模块(5)；

2).非连续发送控制和处理模块(5)根据这些参数进行不同的处理：若错帧指示等于(BFI＝1)，且当前帧为语音帧，则把误码语音帧信息比特送给误码消除模块(8)，误码消除模块(8)根据以前的结果进行误码消除，得到修正后的参数，送到语音解码模块(9)；若非连续发送(BFI＝0)，且当前帧为语音帧，则语音帧信息比特正确，并送到语音解码模块(9)；若当前帧为背景噪声或无数据帧或有误码的背景噪声帧，则将参数送至背景噪声再生模块(10)，由其根据以前的背景噪声参数和当前帧的背景噪声参数，得到修正后当前帧的背景噪声参数，并送到语音解码模块(9)，语音解码模块(9)依据特征参数合成和发送端在听觉上相似的语音或背景噪声，送出13bits线性码语音信号到数据格式转换模块(1)；

3).最后，经过数据格式转换模块(1)的转换，语音或背景噪声重新被压缩成A率8bits格式的语音数据进入PSTN网传输。

上所述的多通道AMR声码器的实现方法，其特征在于：所述的专用数字信号处理器DSP的程序采取C语言、线性汇编语言和手工汇编语言混合编程的方法，其指标为单片TMS320C6203支持16个话路语音的编码和解码。

上述的多通道AMR声码器的实现方法，其特征在于：所述的选择语音激活检测方法以及非连续发送方式，是把工作速率、语音激活方法和是否采取非连续发送方式作为编码器主函数的输入参数。

上述的多通道AMR声码器的实现方法，其特征在于：所述的选择语音激活检测方法以及非连续发送方式，是单独生成各模块，形成不同速率、不同语音激活检测方法、不同发送模式的多个独立声码器实现方法.

上述的多通道AMR声码器的实现方法，其特征在于：所述的所有话路处理中间结果的临时内存空间为共享，状态结果的内存空间则绑定于各自的通道上；采用结构的方法，把每一个通道的所有状态变量包含在一个结构中，每一个通道占用独立的永久的内存空间，而中间结果所占的内存空间则采用临时共享的方式，其中PCM数据接口程序完成多路64kbps数据的输入和输出，配置控制接口程序，完成管理控制处理器对每个通道及设备的管理和控制，数据包接口程序完成数据包的输入、输出和相应的成帧、解帧、CRC计算和校验。

上述多通道AMR声码器实现方法的多通道AMR声码器，其特征在于：它采用专用数字信号处理器DSP作为声码器进行实时的语音编码和解码处理的硬件平台；包括单路多模式AMR声码器发送端处理装置和接收端处理装置，其特征在于：所述的发送端处理装置包括

(一).可将PSTN送来的经A率压缩编码的8bits格式的原始语音数据转化为13bits线性数据的数据格式转换模块(1)，其输出端接至语音编码模块(3)；所述语音编码模块(3)的一路输出接至语音激活检测模块(2)；该语音激活检测模块(2)的语音激活检测结果输出端接非连续发送控制处理模块(5)；所述非连续发送控制处理模块(5)的语音激活检测结果反馈输出端接语音编码模块(3)，所述语音编码模块(3)的背景噪声参数输出经背景噪声参数估计和编码模块(4)接至非连续发送控制处理单元(5)，所述非连续发送控制处理单元(5)的输出接至可将帧类型和信息比特及CRC结果组成一帧信号送至信道单元的CRC校验和成帧单元模块(6)；

(二).所述的接收端处理装置包括可接收信道单元帧信号的解帧和CRC校验模块(7)，其输出接非连续发送控制和处理模块(5)；所述非连续发送控制和处理模块(5)的误码语音帧信息比特输出经误码消除模块(8)接语音解码模块(9)；所述非连续发送控制和处理模块(5)的语音帧信息比特输出端直接接入语音解码模块(9)；所述非连续发送控制和处理模块(5)的背景噪声帧信息比特输出经背景噪声再生模块(10)接语音解码模块(9)；所述语音解码模块(9)的输出接数据格式转换模块(1)。

上述的多通道AMR声码器，其特征在于：所述的每个通道分别分配有用于AMR帧包交互的数据交互内存和用于对通道初始化以及动态更新通道的控制信息交互内存。

上述的多通道AMR声码器，其特征在于：所述的AMR声码器的上层处理器为协议处理器。

本发明与现有技术相比具有如下优点：

本发明是一种基于TMS320C6000系列的多通道AMR声码器的实现方法及设备；其可支持多通道并行处理，各个通道可独立动态更新配置工作模式，且编码器和解码器可非对称配置；具有支持内嵌语音激活检测功能、非连续发送功能以及内嵌误码消除功能；应用程序接口灵活方便，可通过人机界面或上层应用程式控制通道的工作模式；

采用专用数字信号处理器(Digital Signal Processor，简称DSP)作为声码器进行实时的语音编码和解码处理的硬件平台；采取C语言、线性汇编语言和手工汇编语言混合编程的方法，设计出支持单路多模式AMR声码器软件和支持多通道AMR声码器软件。可达到单片TMS320C6203支持16个话路语音的编码和解码，性能和理论值接近。

支持多通道AMR声码器软件的实现方法是采用结构的方法，把每一个通道的所有状态变量包含在一个结构中，并给每一个通道分配独立的永久的内存空间，而中间结果所占的内存空间则采用临时共享的方式，这样各个话路就可以独立调整工作模式和对应状态变量而不会影响其他的话路，同时平均每路占用的内存又很小，大大减少了硬件的体积和成本。

附图图面说明如下：

图1是本发明单路多模式AMR声码器发送端处理流程图；

图2是本发明单路多模式AMR声码器接收端处理流程图；

图3是本发明多通道AMR声码器实现方法原理图；

图4是本发明多通道AMR声码器硬件结构示意图；

图5是本发明DSP侧控制处理流程图；

图6是本发明上层处理器侧控制处理流程图。

具体实施方式

单路多模式AMR声码器实现方法

图1、2所示分别为单路多模式AMR声码器发送和接收端的处理流程。在发送端，PSTN送来的经过A率压缩编码的8bits格式的原始语音数据由数据格式转换模块1转化为13bits的线性数据，并把它送给语音编码模块3，语音编码模块3根据用户所选择的工作速率，每隔20ms抽取相应的特征参数，并把部分特征参数送到VAD模块2，VAD模块2根据这些特征参数判断当前帧信号是语音还是背景噪声，并把VAD结果送给DTX控制和处理模块5，DTX控制和处理模块5据根据用户是否采用DTX，对VAD结果进行调整，如果没有采用DTX，则DTX控制和处理模块5强制任何时候的VAD结果均为语音，DTX控制和处理模块5把调整后的VAD结果反馈给语音编码模块3，语音编码模块3根据VAD结果进行不同的处理：如果当前帧信号是语音，语音编码模块3采用与工作速率所对应的码书和量化方法对特征参数进行量化和编码，得到语音帧信息比特；如果当前帧信号是背景噪声，语音编码模块把相应的特征参数送给背景噪声参数估计和编码模块4，背景噪声参数估计和编码模块4在此基础上完成背景噪声参数估计，并用与背景噪声所对应的码书和量化方法对参数进行量化和编码，得到背景噪声帧信息比特；以上信息比特最终都送到DTX控制和处理单元5，DTX控制和处理单元5根据VAD结果得到帧类型，并把它和特征参数量化编码结果一起送到CRC校验和成帧单元模块6，CRC校验和成帧单元模块6对重要性不同的参数进行不同的传输错误保护，即CRC校验，并把帧类型和信息比特及其CRC结果组成一帧信号送给信道单元。

在接收端，接收到的一帧信号先由解帧和CRC校验模块7完成解帧和CRC校验，它根据解帧和校验结果得到帧类型，错帧指示(Bad FrameIndicator--BFI)和信息比特等参数，并把这些参数一起送到DTX控制和处理模块5，DTX控制和处理模块5根据这些参数进行不同的处理：如果BFI＝1且当前帧为语音帧，则把误码语音帧信息比特送给误码消除模块8，误码消除模块8根据以前的结果完成一定程度的误码消除，得到修正后的参数送到语音解码模块9；如果BFI＝0且当前帧为语音帧，则语音帧信息比特正确，并送到语音解码模块9；如果当前帧为背景噪声或无数据帧或有误码的背景噪声帧，则把参数送给背景噪声再生模块10，由其根据以前的背景噪声参数和当前帧的背景噪声参数，得到修正后当前帧的背景噪声参数并送到语音解码模块9，语音解码模块9依据特征参数合成和发送端在听觉上相似的语音或背景噪声，送出13bits线性码语音信号到数据格式转换模块1。最后，经过数据格式转换模块1的转换，语音或背景噪声重新被压缩成A率8bits格式的语音数据进入PSTN网传输。

AMR声码器是一个支持速率为12.2，10.2，7.95，7.40，6.70，5.90，5.15，4.75声码器集合，同时用户可以根据需要选择VAD1或VAD2作为语音激活检测方法以及是否使能非连续发送方式，为了支持以上功能可以采取的方法有：(1)把所有模块单独开发，形成不同速率、不同语音激活检测方法、不同发送模式的多个独立声码器软件；(2)把工作速率(Mode)，语音激活方法(VAD)和是否采取连续发送方式(DTX)作为编码器主函数的输入参数，并把它传递给有关的函数，在这些函数内部根据参数的值选择不同的分支，完成所要求的处理，用一个软件覆盖各种情况，其中方法(1)的前期工作量较大，函数开发比较简单，效率较高，代码总量很大，灵活性很差，而方法(2)的开发难度比较大，效率相对较低，但是代码总量很小，灵活性很好。AMR声码器的工作速率是由上层处理器根据网络的情况动态的决定的，即要求AMR声码器软件必须支持动态调整工作模式，由于调整工作模式时某些参数必须作为状态变量予以保留，以保证编码和解码的连续性，对此方法(1)的代价较大，而(2)则可以很容易的实现，我们选用方法(2)进行软件的开发。

衡量DSP程序好坏的一个重要指标是算法的效率，DSP程序可以用C语言，线性汇编语言和手工汇编语言开发，我们在前言中已经指出了三者的优缺点，为了兼顾效率、移植性和开发周期，我们采取C语言、线性汇编语言和手工汇编语言混合编程的方法，对不同性质的函数采用不同的方法开发，通过使用所掌握的多项DSP程序开发技巧，完成了单路多模式AMR声码器软件的开发，其指标为单片TMS320C6203支持16个话路语音的编码和解码，性能和理论值接近。

2.多通道AMR声码器实现方法

图3所示为多通道AMR声码实现原理。在媒体网关和交换机的应用场合，为了减少硬件的体积和价格，一般希望选择能处理多个话路的DSP作为硬件平台，从AMR声码器的原理可知，每一个话路进行编码或解码处理时都需要保留中间结果的临时内存空间和保留状态结果的永久内存空间。为了降低硬件成本，一般希望占用的内存越少越好，由上可知，话路处理中间结果的临时内存空间所有话路可以共享，状态结果的内存空间则必须绑定到各自的通道上。我们采用结构的方法，把每一个通道的所有状态变量包含在一个结构中并给每一个通道分配独立的永久的内存空间，而中间结果所占的内存空间则采用临时共享的方式，这样各个话路就可以独立调整工作模式和对应状态变量而不会影响其他的话路，同时平均每路占用的内存又很小，具有很高的性价比。其原理图如图3所示，其中PCM数据接口程序完成多路64kbps数据的输入和输出功能，配置控制接口程序完成管理控制处理器对每个通道及本设备的管理和控制功能，数据包接口程序完成数据包的输入输出和相应的成帧、解帧、CRC计算和校验等功能，算法池中为各种算法。

3.多通道AMR声码器硬件实现原理

如图4所示，为了使上层处理器灵活地控制每个通道，在设计时分别为每个通道分配了数据交互内存和控制信息交互内存，其中控制信息交互用于对通道的初始化以及动态地更新通道的工作模式，数据交互主要用于AMR帧包的交互，这样每个通道就可以独立的由上层处理器动态地决定工作模式，独立地和上层处理器进行AMR帧包的交换。图4中，除了PCM格式数据接口的标准E1总线，数据包接口的TI公司生产的DSP所专有的主处理器接口(HPI)以外，其他部件均位于DSP内部，由此可知它是一个通用的DSP处理平台，只要变换AMR的算法，其就可应用到其他设备中。如加载G.729算法则可以应用在IP电话网关中，这样一个由软件定义的通用硬件平台可以减少硬件设计的工作量。

4.程序接口实现原理

AMR声码器的上层处理器一般为协议处理器，它进行语音压缩包的协议转换，从而使得AMR声码器的工作可以不依赖于特定的应用环境，对不同的应用环境具有非常好的适应性。AMR声码器仅仅提供协议处理器一个最小的交互接口。尽管这个接口非常简单，但是接口的功能是完备的，协议处理器上可以对这个接口进行扩充，开发定制的驱动程序，最后以库函数的形式，提供特定的API接口，方便上层的调用，由此可达到核心的编解码算法和接口程序相互独立的目的。

交互协议最小应当支持下面2个方面：(1)语音包的输入和输出机制；(2)协议处理器对语音编解码模式的控制机制。DSP侧的控制处理流程如图5所示，上层处理器侧的控制处理流程如图6所示。

Claims

1.一种多通道AMR声码器的实现方法，包括单路多模式AMR声码器发送端和接收端的处理，其特征在于：

(一).在发送端

(二).在接收端

2).非连续发送控制和处理模块(5)根据这些参数进行不同的处理：若错帧指示等于1，且当前帧为语音帧，则把误码语音帧信息比特送给误码消除模块(8)，误码消除模块(8)根据以前的结果进行误码消除，得到修正后的参数，送到语音解码模块(9)；若错帧指示等于0，且当前帧为语音帧，则语音帧信息比特正确，并送到语音解码模块(9)；若当前帧为背景噪声或无数据帧或有误码的背景噪声帧，则将参数送至背景噪声再生模块(10)，由其根据以前的背景噪声参数和当前帧的背景噪声参数，得到修正后当前帧的背景噪声参数，并送到语音解码模块(9)，语音解码模块(9)依据特征参数合成和发送端在听觉上相似的语音或背景噪声，送出13bits线性码语音信号到数据格式转换模块(1)；

2.如权利要求1所述的多通道AMR声码器的实现方法，其特征在于：所述的专用数字信号处理器DSP的程序采取C语言、线性汇编语言和手工汇编语言混合编程的方法，其指标为单片TMS320C6203支持16个话路语音的编码和解码。

3.如权利要求1或2所述的多通道AMR声码器的实现方法，其特征在于：所述的选择语音激活检测方法以及非连续发送方式，是把工作速率、语音激活方法和非连续发送方式作为编码器主函数的输入参数。

4.如权利要求3所述的多通道AMR声码器的实现方法，其特征在于：所述的选择语音激活检测方法以及非连续发送方式，是单独生成各模块，形成不同速率、不同语音激活检测方法、不同发送模式的多个独立声码器实现方法。

5.如权利要求4所述的多通道AMR声码器的实现方法，其特征在于：所述的所有话路处理中间结果的临时内存空间为共享，状态结果的内存空间则绑定于各自的通道上；采用结构的方法，把每一个通道的所有状态变量包含在一个结构中，每一个通道占用独立的永久的内存空间，而中间结果所占的内存空间则采用临时共享的方式，其中PCM数据接口程序完成多路64kbps数据的输入和输出，配置控制接口程序，完成管理控制处理器对每个通道及设备的管理和控制，数据包接口程序完成数据包的输入、输出和相应的成帧、解帧、CRC计算和校验。

6.一种采用如权利要求1所述多通道AMR声码器实现方法的多通道AMR声码器，其特征在于：它采用专用数字信号处理器DSP作为声码器进行实时的语音编码和解码处理的硬件平台；包括单路多模式AMR声码器发送端处理装置和接收端处理装置，其特征在于：所述的发送端处理装置包括

7.如权利要求6所述的多通道AMR声码器，其特征在于：所述的每个通道分别分配有用于AMR帧包交互的数据交互内存和用于对通道初始化以及动态更新通道的控制信息交互内存。

8.如权利要求7所述的多通道AMR声码器，其特征在于：所述的AMR声码器的上层处理器为协议处理器。