CN101587710A

CN101587710A - 一种基于音频突发事件分类的多码本编码参数量化方法

Info

Publication number: CN101587710A
Application number: CNA2009100883687A
Authority: CN
Inventors: 王晶; 谢湘; 匡镜明
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2009-07-02
Filing date: 2009-07-02
Publication date: 2009-11-25
Anticipated expiration: 2029-07-02
Also published as: CN101587710B

Abstract

本发明公开了一种基于音频突发事件分类的多码本编码参数量化方法，属于音频编码技术领域。本方法首先对输入的音频信号逐帧进行暂态检测，然后对检测出的暂态帧进行突发事件分类，最后对得到的音频突发事件的编码参数，进行基于突发事件分类码本的矢量量化，由此实现了音频突发事件的分类和音频突发事件编码参数的量化过程。本发明方法提高了对突发事件编码参数的量化效果，改善了突发事件的编码音质。

Description

一种基于音频突发事件分类的多码本编码参数量化方法

技术领域

本发明属于音频编码技术领域，涉及一种音频编码参数量化方法。

背景技术

音频编码技术通常分为两类，一类为基于线性预测技术的混合编码；另一类为基于变换的感知音频编码，它们编码原理与应用背景不相同，其目的都是为了保证在较低的编码速率下获得较好的编码音质。基于线性预测技术的编码器通常基于语音信号产生的激励/合成模型，对语音信号能较好编码，例如ITU-T的语音编码标准G.729以及3GPP的AMR系列编码器对语音信号采用代数码本激励线性预测(ACELP，Algebraic Code Excitation Liner Predictive)编码模型，比较重要的编码参数为线谱频率(LSF，Linear Spectrum Frequency)系数。基于变换的感知音频编码通常基于心理声学模型采用变换域编码方法，较适合对音乐信号编码，例如MPEG提出的MP3、AAC系列音频编码标准采用改进的离散余弦变换(MDCT，ModifiedDiscrete Cosine Transform)，比较重要的编码参数为MDCT变换系数。

音频信号包括语音、音乐及语音和音乐的混合信号。其中，音频信号种类很多，从时域波形的瞬变和缓变上可分为暂态和稳态信号，现有的音频编码器对暂态信号用特殊的编码方式来避免预回声失真。2003年MPEG提出高级音频编码标准MPEG-4AAC+(标准号：ISO/IEC 14496-3)，基于MDCT变换，对检测出的暂态帧进行长窗到短窗的切换来提高时间分辨率，并通过引入时域噪声整形(TNS，Time NoiseShaping)模块消除暂态编码预回声。2004年3GPP提出支持音乐的语音编码标准AMR-WB+(标准号：TS 26.290)，通过闭环或开环算法选择适合输入音频特性的最佳编码模式，语音和暂态音频一般选择基于短帧处理的ACELP编码，其它类型音频选择基于FFT的变换激励TCX(Transform Excitation)编码。我国公开号分别为CN101308651A和CN101308656A(公开日：2008年11月19日)的专利“音频暂态信号的检测方法”和“音频暂态信号的编解码方法”，在时域上检测输入帧是否为暂态，对暂态部分时域采样点进行伸缩处理后进行时-频变换编码。

如上所述，现有的音频编码技术仅对暂态突发信号进行检测和编码，并采用和稳态信号相同的矢量量化码本对编码参数进行量化，但是在某些音频编码和传输场合，尤其是安防监控音频编码领域，往往对异常音频事件感兴趣，要求在一些特定音频突发事件发生后对监控音频信号进行最高质量编码，还原的音效可以清晰辨别监控现场的声音，区分出特定人的语音特征，作为辨认的证据。我国授权公开号为CN1524258A(公开日：2004年8月25日)的专利“把音频信号分割成听觉事件”，公开了一种通过计算音频信号的连续时间组的频谱内容把音频信号分成被感知为独立的并且不同的听觉事件的方法，并确定事件的发生边界和位置，目的是从频谱差别上提供一种听觉场景分析信息，划分出诸如瞬变和寂静信号的边界，并不特别区分音频编码帧的突发事件类别。

音频突发事件是一些特殊的音频暂态信号，例如枪声、敲击声、爆破声、尖叫声等，具有时间上的突发性和音频特征的区分性，需要对这类音频事件进行高质量编码。对突发音频事件的高效编码已经成为安防监控领域的重要研究课题，为此我国音视频标准化AVS工作组从2007年6月正式启动制定适合安防监控需要的AVS标准(简称AVS-S)，11月音频组拟定了AVS-S音频编解码框架错误！未找到引用源。，目前正向研究机构和组织征集相关技术提案。随着我国对安全保障和监控系统的重视力度提升，面向突发事件的音频编码技术将有越来越大的用武之地，从而实现音频监控信息的高效重现和突发音频事件的有效处理，也为打击犯罪、保障社会良好秩序提供可靠依据。

发明内容

本发明的目的是为了解决现有音频编码器无法对音频突发事件做到准确分类和编码的问题，提供一种基于音频突发事件分类的多码本编码参数量化方法，进行基于多码本的参数量化，实现了音频突发事件的分类和音频突发事件编码参数的量化过程。

为了实现上述目的，本发明方法的基本思路是：根据音频突发事件在时域上的突发性和特征上的区分性特点，首先对输入音频信号先进行暂态检测，再对暂态帧进行突发事件分类，从而判断出音频突发事件的类型。然后，对音频突发事件的编码参数进行基于突发事件分类码本的矢量量化。

本发明方法是通过下述技术方案实现的。

步骤一、对输入的音频信号逐帧进行暂态检测。

步骤二、对由步骤一测出的暂态帧进行突发事件分类。

对由步骤一得到的暂态帧，采用基于GMM的模式识别方法进行突发事件分类。若从暂态帧中提取的PLP感知加权线性预测特征和事先已通过训练得到的某一类音频突发事件的GMM参考模型的匹配似然度最大，则判别该暂态帧所属的音频信号为此类音频突发事件。

步骤三、对由步骤二的得到的音频突发事件的编码参数进行基于突发事件分类码本的矢量量化。

事先对每类音频突发事件的编码参数进行LBG训练，得到每类事件对应的参数码本。根据判别出的音频突发事件类型信息，选择相对应的事件参数码本进行编码参数的矢量量化。

至此，就完成了基于音频突发事件分类的多码本编码参数量化。

有益效果

本发明方法，采用暂态检测和模式识别分类相结合的两级判别方法对输入音频帧进行突发事件分类，充分利用了突发事件的瞬变特点和特征上的区分特点，先进行暂态和非暂态的粗划分，再进行突发事件的细分类，从而提高了分类的准确性，而且相比仅对暂态信号进行检测的音频编码器增加了突发事件分类信息，有利于对音频突发事件进行有针对性的编码和处理。通过对每类突发事件的编码参数训练得到一套参数码本，基于分类的多码本对突发事件编码参数进行矢量量化，相比现有编码器对所有帧的音频编码参数采用相同码本进行量化的方法，提高了对突发事件编码参数的量化效果，从而改善突发事件的编码音质。在音频编码领域，该方法能发挥很大的作用，并获得很好的经济效益。

附图说明

图1为本发明方法的流程框图；

图2为本发明实施例提供的两级判别法突发事件分类过程示意图；

图3为发明实例提供的基于多码本的编码参数矢量量化过程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述。

假定由音频编码器输入了16kHz采样的音频信号，分析帧长为32ms，每帧采样点个数为N＝512，编码参数为MDCT变换系数，更广泛的，若采用其它编码方式，则待量化的编码参数为其他形式的参数矢量，所需要检测出的特定音频突发事件有枪击声、敲击声、爆破声、尖叫声4类，本发明方法步骤如图1所示，具体如下：

步骤一、对输入的音频信号的每一帧(即长时帧)，采用基于时域能量比的方法，检测出暂态音频。

首先，计算短时帧与长时帧的能量比：对输入的每帧音频信号的采样点x₁、x₂、......、x_N，用窗长为L＝8个样点的矩形滑动窗将长时帧划分为交叠长度为p＝4个样点的短时帧，短时帧间呈50％叠接。

然后，分别计算长时帧的总能量

E_{long} = Σ_{n = 0}^{N - 1} {| x (n) |}^{2}

和每个短时帧的能量

E_{short} (k) = Σ_{n = kp - L / 2}^{k + L / 2} {| x (n) |}^{2},

k＝0，1，...，N/p。

之后，进行门限判决：计算本帧内每个短时帧能量和长时帧总能量之比，若某一能量比超过了预设的门限值R_thr＝0.18，即E_short(k)/E_long＞R_thr，则判别该长时帧为暂态帧，否则，判别其为非暂态帧。

步骤二、对由步骤一得到的暂态帧，采用基于GMM的模式识别方法进行突发事件分类，如图2所示。

事先进行特征模型训练，得到某一类音频突发事件的GMM参考模型：针对每一类特定音频突发事件的训练语料，提取所有分析帧的5阶感知加权线性预测(PLP，Perceptual Linear Predictive)特征参数，用每类的PLP特征矢量来训练相应的高斯混合参考模型(GMM，Gaussian Mixed Model)，从而为4类特定音频突发事件建立4个GMM，形成特征模型库。

在执行本步骤时，基于GMM训练得到的特征模型库对暂态帧进行特征模型匹配：对步骤一检测出的每个暂态帧提取5阶PLP特征参数，通过最大似然准则判别每一暂态帧与4类训练得到的GMM参考模型的匹配程度，如果某一暂态帧与某一类的PLP特征的似然度最大，则判别其为该类突发事件，并输出当前音频帧的事件类型索引。

步骤三、对由步骤二的得到的音频突发事件的编码参数进行基于突发事件分类码本的矢量量化。如图3所示。

事先对每类音频突发事件的编码参数进行LBG训练，得到每类事件对应的参数码本：针对每一类特定音频突发事件的训练语料，对所有输入分析帧进行MDCT变换编码得到待量化的MDCT谱系数矢量，利用LBG码本训练算法得到每一类突发事件对应的谱系数码本，从而为4类特定音频突发事件建立了4类矢量量化码本，形成多码本库。

在执行本步骤时，根据经步骤二判别出的突发事件类型索引，选择与其相对应的事件参数码本进行编码参数的矢量量化：根据步骤二输出的突发事件类型索引，在4类已经训练好的谱系数编码参数码本库中，选择相对应的该类码本进行矢量量化，输出参数矢量的码字索引。

Claims

1、一种基于音频突发事件分类的多码本编码参数量化方法，其特征在于包括以下步骤：

步骤一、对输入的音频信号逐帧进行暂态检测；

步骤二、对由步骤一检测出的暂态帧进行突发事件分类；

步骤三、对由步骤二的得到的音频突发事件的编码参数，进行基于突发事件分类码本的矢量量化。

2、如权利要求1所述的一种基于音频突发事件分类的多码本编码参数量化方法，其特征在于所述步骤二中：

对由步骤一得到的暂态帧，采用基于GMM的模式识别方法进行突发事件分类；若从暂态帧中提取的PLP感知加权线性预测特征和事先已通过训练得到的某一类音频突发事件的GMM参考模型的匹配似然度最大，则判别该暂态帧所属的音频信号为此类音频突发事件。