CN108461088B

CN108461088B - 基于支持向量机在语音解码端重构子带清浊音度参数的方法

Info

Publication number: CN108461088B
Application number: CN201810232462.4A
Authority: CN
Inventors: 李晔; 马晓凤; 姜竞赛; 郝秋赟; 张鹏
Original assignee: Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2018-03-21
Filing date: 2018-03-21
Publication date: 2019-11-19
Anticipated expiration: 2038-03-21
Also published as: CN108461088A

Abstract

本发明的基于支持向量机在语音解码端重构子带清浊音度参数的方法，首先利用语音样本的5个子带清浊音度参数、声道参数、基音参数和能量参数训练出5个子带清浊音判决的支持向量机模型，在低速率声码器的解码端，利用线谱频率参数、基音周期参数、能量参数与子带清浊音度参数的相关性，对子带清浊音度参数进行重构。摒弃传统编码器中对子带清浊音度参数量化编码传输的方法，在声码器中引入支持向量机，利用线谱频率参数、基音周期参数和能量参数将子带清浊音度参数直接恢复出来，在不明显降低各子带清浊音判决准确率的前提下，节省的量化比特数，可用来量化其他更加重要的参数，整体上可以进一步提升合成语音的质量。

Description

基于支持向量机在语音解码端重构子带清浊音度参数的方法

技术领域

本发明涉及一种重构子带清浊音度参数的方法，更具体的说，尤其涉及一种基于支持向量机在语音解码端重构子带清浊音度参数的方法。

背景技术

语音编码在通信系统、语音存储回放系统、具有语音功能的消费类产品中有广泛的应用。近些年来国际电信联盟（ITU）、一些区域组织和国家相继制定了一系列语音压缩编码标准，在编码速率为2.4kb/s到16kb/s上得到了令人满意的语音质量。目前国内外的研究主要集中在2.4kb/s以下速率高质量语音压缩编码上，主要用于无线通信、保密通信、大容量语音存储回放等。其中，混合激励线性预测编码模型得到了广泛采用，表现优异。在混合激励线性预测编码模型中，解码端采用了多带激励信号合成，合成过程需要依靠表征各子带清浊音判决结果的子带清浊音度参数。目前，解码端获取子带清浊音度参数的方法如下：

（1）对输入语音信号样点按时间顺序分帧；

（2）按帧提取子带清浊音度参数；

（3）对子带清浊音度参数进行矢量量化，将其量化索引值进行编码传输，量化码本的训练方法可参照杨行峻等人著《语音信号数字处理》矢量量化一章中所采用的LBG算法；

（4）解码端根据索引值搜索码本得到子带清浊音度参数；送入激励信号合成端生成激励信号。

低速率语音编码中，量化比特数有限，是宝贵的资源。子带清浊音度参数需要进行量化传输，从而占用了可观的量化比特数。而实验证明，在混合激励线性预测编码模型中，子带清浊音度参数同其他语音编码参数间仍然具有一定的相关性。在现有的语音编码技术中，没有充分利用这种相关性来进一步提高语音编码的效率。

发明内容

本发明为了克服上述技术问题的缺点，提供了一种基于支持向量机在语音解码端重构子带清浊音度参数的方法。

本发明的基于支持向量机在语音解码端重构子带清浊音度参数的方法，包括支持向量机模型训练阶段和子带清浊音度参数恢复阶段；其特征在于：支持向量机模型训练阶段，首先采集足够长的语音信号并对其进行分帧，然后提取分帧的5个子带清浊音度参数、声道参数、基音参数和能量参数，以形成支持向量机模型的训练数据，然后通过迭代的方式训练出5个子带清浊音判决的支持向量机模型；子带清浊音度参数恢复阶段，编码端采集语音信号并分帧，然后提取分帧的声道参数、基音参数和能量参数并对其量化编码和传输，解码端根据接收到的索引值反量化后得到声道参数、基音参数和能量参数，并利用训练好的5个子带清浊音判决的支持向量机模型重构子带清浊音度参数，以形成高质量的语音信号。

本发明的基于支持向量机在语音解码端重构子带清浊音度参数的方法，所述支持向量机模型训练阶段通过以下步骤来实现：

a).语音信号采集，以频率f对语音信号进行采集，将采集的语音信号以Nbit进行量化，以形成足够长度的线性PCM文件，作为训练语音集；

b).语音信号分帧，将步骤a)中获取的训练语音集按时间顺序以帧长Tms进行分帧，记分帧集合为M={m1、m2、…、mn}，n为总帧数；

c).提取子带清浊音度参数，从步骤b)中的每个分帧中提取5个子带清浊音度参数，记分帧Mi的5个子带清浊音度参数为Vi={vi1、vi2、…、vi5}，并记录Mi中每个子带清浊音度参数的判决结果，i=1,2,…n；

d).提取语音参数，提取每帧的声道参数Lsf、基音参数P、能量参数G，并进行归一化处理；记归一化处理后分帧Mi的声道参数、基音参数和能量参数分别为Lsfi、Pi、Gi，i=1,2,…n；

e).训练支持向量机模型，以{ vi1、Lsfi、Pi、Gi}、{ vi2、Lsfi、Pi、Gi}、{ vi3、Lsfi、Pi、Gi}、{ vi4、 Lsfi、Pi、Gi}、{ vi5、Lsfi、Pi、Gi}，i=1,2,…n，分别作为5个子带清浊音判决的支持向量机模型的训练数据，5个子带的清浊音判决结果作为对应支持向量机模型的标定值，对5个子带清浊音判决的支持向量机模型进行训练，经过多次迭代，得到训练好的 5个子带清浊音判决的支持向量机模型；

所述子带清浊音度参数恢复阶段通过以下步骤来实现：

1).语音采集和分帧，编码端以频率f对输入的语音信号进行采样，并将采样后的语音信号按时间顺序进行分帧，设得到的帧数为m；

2).语音参数的提取，编码端按帧从步骤1)获取的每个分帧中提取声道参数Lsf、基音参数P、能量参数G；

3).编码和传输，编码端按帧对获取的声道参数、基音参数和能量参数进行量化编码，并将量化编码得到的参数索引传输到解码端，直至所有帧的参数索引传输完毕；

4).反量化，在解码端根据索引值反量化得到各帧的参数，记得到的第j帧的声道参数为、基音参数为、能量参数为，j=1,2,…，m；

5).重构清浊音度参数，在解码端，根据训练得到的5个子带清浊音判决的支持向量机模型，利用声道参数为、基音参数为、能量参数为，依次送入每个子带清浊音判决对应的支持向量机模型，计算出第j帧的5个子带清浊音度参数，最后将5个子带清浊音度参数送入激励信号合成端生成激励信号，以获取高质量的语音信号。

本发明的基于支持向量机在语音解码端重构子带清浊音度参数的方法，步骤a)和步骤1)中采用诸如8kHz的频率f进行信号采集，步骤a)中以诸如16bit的长度对语音信号进行量化，步骤b)和步骤1)中以诸如20ms或25ms的帧长对语音信号进行分帧。

本发明的基于支持向量机在语音解码端重构子带清浊音度参数的方法，步骤e)中，5个子带清浊音判决的支持向量机模型的核函数选择径向基函数。

本发明的基于支持向量机在语音解码端重构子带清浊音度参数的方法，步骤5)中，首先利用第一子带清浊音判决的支持向量机模型判别第1子带为清音还是浊音，若为清音，则后面4个子带皆为清音，无需再重复判别；若第一子带为浊音，则利用其余四个训练好的子带清浊音判决的支持向量机模型，分别判别剩余4个子带为清音还是浊音。

本发明的有益效果是：本发明的基于支持向量机在语音解码端重构子带清浊音度参数的方法，摒弃传统声码器中对子带清浊音度参数量化编码传输的方法，在低速率声码器的解码端引入支持向量机，利用线谱频率参数、基音周期参数、能量参数与子带清浊音度参数的相关性，对子带清浊音度参数进行重构，在不明显降低各子带清浊音判决准确率的前提下，节省的量化比特数，可用来量化其他更加重要的参数，整体上可以进一步提升合成语音的质量。

附图说明

图1为本发明中支持向量机模型训练阶段的流程图；

图2为本发明中子带清浊音度参数恢复阶段的流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

如图1所示，给出了本发明中支持向量机模型训练阶段的流程图，其通过以下步骤来实现：

步骤a)中，可按8khz频率采样、16bit量化，并经过高通滤波去除工频干扰，以形成线性PCM语音样点。步骤b)中可采用帧长25ms或20ms进行分帧，也就是200个或160个语音样点构成一帧，但不限于此。

步骤c)和步骤d）中，可按美国政府2400b/s混合激励的线性预测（MELP）语音编码算法标准所描述的方法提取5个子带清浊音度参数BPVC、声道参数Lsf、基音参数P、能量参数G。语音信号的5个子带分别为0～500Hz，500～1000Hz，1000～2000Hz，2000～3000Hz，3000～4000Hz。

e).训练支持向量机模型，以{ vi1、Lsfi、Pi、Gi}、{ vi2、Lsfi、Pi、Gi}、{ vi3、Lsfi、Pi、Gi}、{ vi4、 Lsfi、Pi、Gi}、{ vi5、Lsfi、Pi、Gi}，i=1,2,…n，分别作为5个子带清浊音判决的支持向量机模型的训练数据，5个子带的清浊音判决结果作为对应支持向量机模型的标定值，对5个子带清浊音判决的支持向量机模型进行训练，经过多次迭代，得到训练好的 5个子带清浊音判决的支持向量机模型。

该步骤中，将得到的训练数据转化成支持向量机可以识别的格式，采用开源库LIBSVM工具，设定好支持向量机的各种参数，其中核函数选择径向基函数对输入的训练数据进行多次迭代，得到训练好的5个支持向量机模型。

如图2所示，给出了本发明中子带清浊音度参数恢复阶段的流程图，其通过以下步骤来实现：

该步骤中，也是按8khz频率采样，对输入语音信号样点按时间顺序分帧并经过高通滤波去除工频干扰，以形成满足要求的语音样点。如果帧长为25ms，也就是200个语音样点构成一帧，但各参数的选择不限于此。

该步骤中，按美国政府2400b/s混合激励的线性预测（MELP）语音编码算法标准所描述的方法提取声道参数Lsf、基音参数P、能量参数G。

首先利用第一子带清浊音判决的支持向量机模型判别第1子带为清音还是浊音，若为清音，则后面4个子带皆为清音，无需再重复判别；若第一子带为浊音，则利用其余四个训练好的子带清浊音判决的支持向量机模型，分别判别剩余4个子带为清音还是浊音，得到子带清浊音度参数后送入激励信号合成端生成激励信号。

本发明的基于支持向量机在语音解码端重构子带清浊音度参数的方法，摒弃传统编码器中对子带清浊音度参数量化编码传输的方法，在声码器中引入支持向量机，利用线谱频率参数、基音周期参数和能量参数将子带清浊音度参数直接恢复出来，在不明显降低各子带清浊音判决准确率的前提下，节省的量化比特数，可用来量化其他更加重要的参数，整体上可以进一步提升合成语音的质量。

Claims

1.一种基于支持向量机在语音解码端重构子带清浊音度参数的方法，包括支持向量机模型训练阶段和子带清浊音度参数恢复阶段；其特征在于：支持向量机模型训练阶段，首先采集足够长的语音信号并对其进行分帧，然后提取分帧的5个子带清浊音度参数、声道参数、基音参数和能量参数，以形成支持向量机模型的训练数据，然后通过迭代的方式训练出5个子带清浊音判决的支持向量机模型；子带清浊音度参数恢复阶段，编码端采集语音信号并分帧，然后提取分帧的声道参数、基音参数和能量参数并对其量化编码和传输，解码端根据接收到的索引值反量化后得到声道参数、基音参数和能量参数，并利用训练好的5个子带清浊音判决的支持向量机模型重构子带清浊音度参数，以形成高质量的语音信号；

所述支持向量机模型训练阶段通过以下步骤来实现：

e).训练支持向量机模型，以{ vi1、Lsfi、Pi、Gi}、{ vi2、Lsfi、Pi、Gi}、{ vi3、Lsfi、Pi、Gi}、{ vi4、 Lsfi、Pi、Gi}、{ vi5、Lsfi、Pi、Gi}，i=1,2,…n，分别作为5个子带清浊音判决的支持向量机模型的训练数据，5个子带的清浊音判决结果作为对应支持向量机模型的标定值，对5个子带清浊音判决的支持向量机模型进行训练，经过多次迭代，得到训练好的5个子带清浊音判决的支持向量机模型；

所述子带清浊音度参数恢复阶段通过以下步骤来实现：

2.根据权利要求1所述的基于支持向量机在语音解码端重构子带清浊音度参数的方法，其特征在于：步骤a)和步骤1)中采用8kHz的频率f进行信号采集，步骤a)中以16bit的长度对语音信号进行量化，步骤b)和步骤1)中以20ms或25ms的帧长对语音信号进行分帧。

3.根据权利要求1或2所述的基于支持向量机在语音解码端重构子带清浊音度参数的方法，其特征在于：步骤e)中，5个子带清浊音判决的支持向量机模型的核函数选择径向基函数。

4.根据权利要求1或2所述的基于支持向量机在语音解码端重构子带清浊音度参数的方法，其特征在于：步骤5)中，首先利用第一子带清浊音判决的支持向量机模型判别第1子带为清音还是浊音，若为清音，则后面4个子带皆为清音，无需再重复判别；若第一子带为浊音，则利用其余四个训练好的子带清浊音判决的支持向量机模型，分别判别剩余4个子带为清音还是浊音。