CN101261836B

CN101261836B - 基于过渡帧判决及处理的激励信号自然度提高方法

Info

Publication number: CN101261836B
Application number: CN2008101051378A
Authority: CN
Inventors: 崔慧娟; 唐昆; 计哲; 李晔
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2008-04-25
Filing date: 2008-04-25
Publication date: 2011-03-30
Anticipated expiration: 2028-04-25
Also published as: CN101261836A

Abstract

基于过渡帧判决及处理的激励信号自然度提高方法属于低速率语音压缩编码技术领域。若当前帧前后各60个样点的平均能量比值小于1/32，则被判定为过渡帧，并用子带清浊音矢量的冗余模式进行表示，解码端对参数进行解量化，根据解码得到的子带清浊音矢量判决当前帧是否为过渡帧，若判定为非过渡帧，再判决当前帧是否为浊音帧且前一帧是否为清音帧，若是，则在合成激励信号时，解码端当前帧参数不与前一帧参数进行插值。这种方法可以提高合成语音的自然度。该方法适用于SELP 2.4kbps声码器。

Description

基于过渡帧判决及处理的激励信号自然度提高方法

技术领域

本发明属于语音编码技术领域，特别针对于SELP 2.4kbps声码器技术。

背景技术

语音编码在通信系统、语音存储回放系统、具有语音功能的消费类产品中有广泛的应用。近些年来国际电信联盟(ITU)、一些区域组织和一些国家相继制定了一系列语音压缩编码标准，在编码速率为2.4kb/s到16kb/s上得到了令人满意的语音质量。目前国内外的研究主要集中在2.4kb/s以下速率高质量语音压缩编码上，主要用于无线通信、保密通信、大容量语音存储回放等。低速率语音编码中激励信号的合成非常重要，SELP声码器采用混合激励信号，用基音周期参数、能量参数、余量谱幅度参数以及子带清浊音判决参数描述激励信号的特征，合成语音清晰自然。目前SELP 2.4kbps声码器技术中激励信号合成的主要步骤如下：

步骤(1)对输入语音信号样点按时间顺序分帧；

步骤(2)对当前帧提取基音周期参数；

步骤(3)对当前帧提取能量参数；

步骤(4)对当前帧提取余量谱幅度参数；

步骤(5)对当前帧提取5个子带清浊音判决参数；

步骤(6)将步骤(2)、步骤(3)、步骤(4)以及步骤(5)求取的特征参数进行量化，将量化索引传递给解码端；

步骤(7)解码端根据步骤(6)发送的量化索引进行解量化，得到合成激励信号所需的参数；

步骤(8)对步骤(7)中求取的特征参数进行插值。若前一帧和当前帧为浊音帧，并且基音周期的变化率小于22.5％，则对解码端参数采用逐点的线性插值；否则采用分段插值；

步骤(9)根据步骤(8)中插值后的参数合成激励信号。

上述已有技术对子带清浊音判决参数采用5bit量化，每个子带的清浊音特性用1bit表示，当某个子带为浊音时将其清浊音判决参数置为1，否则置为0。由于当第一个子带为清音时，后四个子带也必为清音，因此子带清浊音判决参数中有部分模式是不存在的，即子带清浊音判决参数的量化存在一定的冗余。

如图1所示，在子带清浊音判决参数的量化上，原有技术采用简单的每个子带清浊音判决参数1bit量化共5bit量化的方式，这会使编码后的码流存在一定的冗余度，没有充分的利用比特信息。

发明内容

本发明的目的是为克服已有技术的不足之处，提出一种基于过渡帧判决及处理的激励信号自然度提高方法，能够比较充分的利用子带清浊音判决参数量化的冗余度，提高清浊音过渡时合成语音的自然度。

本发明提出的基于过渡帧判决及处理的激励信号自然度提高方法，包括以下步骤：

在编码端，依次按以下步骤执行：

步骤(1)对输入语音信号样点按时间顺序分帧；

步骤(2)对当前帧提取基音周期参数；

步骤(3)对当前帧提取能量参数；

步骤(4)对当前帧提取余量谱幅度参数；

步骤(5)对当前帧提取5个子带清浊音判决参数；

步骤(6)求取当前帧前后各60个样点的平均能量，当后60个样点的平均能量大于前60个样点平均能量的32倍时，判定当前帧为过渡帧；

步骤(7)若当前帧为过渡帧，并且步骤(5)中求取的子带清浊音判决参数为除10000以外的其他模式，则将第一个子带的清浊音判决参数置为0，即，假设步骤(5)中求取的模式为11100，则修改为01100；

步骤(8)将步骤(2)、步骤(3)和步骤(4)求取的特征参数以及步骤(7)修正的清浊音判决参数进行量化，将量化索引传递给解码端；

在解码端，依次按以下步骤执行：

步骤(1′)解码端根据步骤(8)发送的量化索引进行解量化，得到合成激励信号所需的参数：若清浊音判决参数中第一个子带的清浊音判决参数为0，并且后四个子带的清浊音判决参数不全为0，解码端自动将第一个子带的清浊音判决参数置为1，并判定当前帧为过渡帧；

步骤(2′)将步骤(1′)修正的第一个子带的清浊音判决参数作为当前帧的全带清浊音判决参数；

步骤(3′)对步骤(1′)中所得到的参数进行插值。若前一帧和当前帧为浊音帧，并且基音周期的变化率小于22.5％，则对解码端所得参数采用逐点的线性插值；若前一帧为清音帧且当前帧为浊音帧，并且当前帧不为过渡帧，则不进行插值；否则采用分段插值；

步骤(4′)根据步骤(3′)中插值后的参数合成激励信号。

本发明的特点是对分帧后的语音信号采用过渡帧判决的方法，并且根据当前帧是否为过渡帧来修正子带清浊音判决参数。原有的技术对各个子带的清浊音判决参数采用简单的1bit量化，它没有考虑到子带清浊音判决参数中一些不存在的模式，因此增加了量化的冗余度。本发明利用了子带清浊音判决参数的冗余度，根据当前帧前后各60个样点的平均能量比值判定当前帧是否为过渡帧，根据当前帧是否为过渡帧来决定是否修正子带清浊音判决参数。解码端根据接收到的子带清浊音判决参数判定当前帧是否为过渡帧，并对第一个子带的清浊音判决参数进行修正，根据当前帧是否为过渡帧而采用不同的插值方案。

本方法可以降低参数量化的冗余度，提高清浊音过渡时合成语音的自然度。该方法主要针对于SELP 2.4kbps声码器。

附图说明

图1为已有技术的激励信号合成方法流程框图。

图2为本发明提出的激励信号合成方法流程框图。

具体实施方式

本发明提出的基于过渡帧判决及处理的激励信号自然度提高方法结合附图及实施例进一步说明如下：

本发明的方法流程如图2所示，包括以下步骤：

在编码端，依次按以下步骤执行：

步骤(1)对输入语音信号样点按时间顺序分帧；

步骤(2)对当前帧提取基音周期参数；

步骤(3)对当前帧提取能量参数；

步骤(4)对当前帧提取余量谱幅度参数；

步骤(5)对当前帧提取5个子带清浊音判决参数；

在解码端，依次按以下步骤执行：

步骤(4′)根据步骤(3′)中插值后的参数合成激励信号。

本发明上述方法各步骤的具体实施例分别详细说明如下：

上述方法步骤(1)对输入语音信号样点按时间顺序分帧的实施例是按8khz频率采样、已经过高通滤波去除工频干扰的语音样点。同原有的SELP 2.4kbps声码器一样，每25ms，也就是200个语音样点构成一帧。

上述方法步骤(2)的实施例为：按美国政府2400b/s混合激励的线性预测(MELP)语音编码算法标准所描述的方法求取当前帧的基音周期参数Pitch。

上述方法步骤(3)的实施例为：按美国政府2400b/s混合激励的线性预测(MELP)语音编码算法标准所描述的方法求取当前帧的能量参数RMS。

上述方法步骤(4)的实施例为：按美国政府2400b/s混合激励的线性预测(MELP)语音编码算法标准所描述的方法求当前帧的余量谱幅度参数，记为矢量R，其维数为n。

R＝[r₁，r₂，L，r_n]，n＝10

上述方法步骤(5)的实施例为：按美国政府2400b/s混合激励的线性预测(MELP)语音编码算法标准所描述的方法对当前帧提取5个子带的清浊音参数，子带为清音用“0”表示，子带为浊音用“1”表示，得到5个子带清浊音判决参数，记为[Vbp₁，Vbp₂，Vbp₃，Vbp₄，Vbp₅]。

上述方法步骤(6)的实施例为：计算当前帧前后各60个样点的平均能量，公式表示如下：

用一个过渡帧标志位traflag来表征当前帧是否为过渡帧。若E₂/E₁＞32，判定当前帧为过渡帧，并将traflag置为1；反之将其置为0。

上述方法步骤(7)的实施例为：若过渡帧判决标志位traflag＝1，并且Vbp₂+Vbp₃+Vbp₄+Vbp₅≠0，则令Vbp₁＝0。

上述方法步骤(8)的实施例为：按美国政府2400b/s混合激励的线性预测(MELP)语音编码算法标准所描述的方法对当前帧的特征参数进行量化，发送量化索引。

上述方法步骤(1′)的实施例为：按美国政府2400b/s混合激励的线性预测(MELP)语音编码算法标准所描述的方法根据量化索引对当前帧的特征参数进行解量化。若Vbp₁＝0，并且Vbp₂+Vbp₃+Vbp₄+Vbp₅≠0，则令Vbp₁＝1，traflag＝1；反之，令traflag＝0。

上述方法步骤(2′)的实施例为：令Vbp＝Vbp₁，其中Vbp为全带清浊音判决参数。

上述方法步骤(3′)的实施例为：若Vbp_old＝Vbp_new＝1，且|Pitch_old-Pitch_new |＜0.225×Pitch_new，则对解码端的Pitch、RMS、R以及[Vbp₁，Vbp₂，Vbp₃，Vbp₄，Vbp₅]参数采用逐点的线性插值；若Vbp_old＝0，Vbp_new＝1，且traflag＝0，则不进行插值；否则采用分段插值。

逐点的线性插值采用如下计算公式

par(k)＝par_old+(par_new-par_old)·k/(N-1)

分段插值采用如下计算公式

par (k) = \{{par}_{old} \begin{matrix} {par}_{old} & 0 \leq k < 75 \\ [1 - (k - 75) / 50] + {par}_{new} (k - 75) / 50 & 75 \leq k < 125 \\ {par}_{new} & 125 \leq k < 200 \end{matrix}

不进行插值时，有：par(k)＝par_new

其中，par_old为前一帧的参数，par_new为当前帧的参数，par(k)为插值后的参数，N为语音样点的个数，这里取200。

上述方法步骤(4′)的实施例为：按美国政府2400b/s混合激励的线性预测(MELP)语音编码算法标准所描述的方法，利用子带清浊音判决、基音周期参数、余量谱幅度参数和能量参数进行激励信号合成。

Claims

1.基于过渡帧判决及处理的激励信号自然度提高方法，其特征在于，所述方法在编、解码端依次按以下步骤实现：

在编码端，依次按如下步骤执行：

步骤(1)对输入的8khz频率采样的语音信号样点按时间顺序分帧，每帧200个样点；

步骤(2)对当前帧提取基音周期参数；

步骤(3)对当前帧提取能量参数；

步骤(4)对当前帧提取余量谱幅度参数；

步骤(5)对当前帧提取5个子带清浊音判决参数，子带清音用“0”表示，子带浊音用“1”表示；

步骤(7)若当前帧为过渡帧，并且步骤(5)中求取的子带清浊音判决参数为除10000以外的其他模式，则将第一个子带的清浊音判决参数置为0；

在解码端，依次按如下步骤执行：

步骤(1′)解码端根据步骤(8)发送的量化索引进行解量化，得到合成激励信号所需的参数，若清浊音判决参数中第一个子带的清浊音判决参数为0，并且后四个子带的清浊音判决参数不全为0，解码端自动将第一个子带的清浊音判决参数置为1，并判定当前帧为过渡帧；

步骤(3′)对步骤(1′)中所得到的参数进行插值，若前一帧和当前帧为浊音帧，并且基音周期的变化率小于22.5％，则对解码端所得参数采用逐点的线性插值，如公式(1)所示；若前一帧为清音帧且当前帧为浊音帧，并且当前帧不为过渡帧，则不进行插值，即立刻使用本帧解码得到的参数值；否则采用分段插值，如公式(2)所示；

par(k)＝par_old+(par_new-par_old)·k/(N-1) (1)

par (k) = \{{par}_{old} \begin{matrix} {par}_{old} & 0 \leq k < 75 \\ [1 - (k - 75) / 50] + {par}_{new} (k - 75) / 50 & 75 \leq k < 125 \\ {par}_{new} & 125 \leq k < 200 \end{matrix} - - - (2)

其中，N为每帧的合成语音样点，取值200，par_old为前一帧的参数，par_new为当前帧的参数，par(k)为插值后的参数，k表示合成语音样点；

步骤(4′)根据步骤(3′)中插值后的参数合成激励信号。