CN1971707A

CN1971707A - 一种进行基音周期估计和清浊判决的方法及装置

Info

Publication number: CN1971707A
Application number: CNA2006101617273A
Authority: CN
Inventors: 邓昊; 冯宇红; 张晨
Original assignee: Vimicro Corp
Current assignee: Vimicro Corp
Priority date: 2006-12-13
Filing date: 2006-12-13
Publication date: 2007-05-30
Anticipated expiration: 2026-12-13
Also published as: CN1971707B

Abstract

本发明公开了一种进行基音周期估计和清浊判决的方法，该方法包括以下步骤：A.对当前语音信号帧进行滤除高次谐波分量、去除共振峰结构的预处理，得到预处理语音信号帧；B.对所得到的预处理语音信号帧进行基音周期估计和清浊判决，得到所述当前语音信号帧的基音周期估值和清浊判决结果。本发明还公开了一种进行基音周期估计和倍数检测的装置，该装置包括：预处理模块和基音周期估计/清浊判决模块。应用本发明能够提高语音信号处理中基音周期估值和清浊判决结果的准确度。

Description

一种进行基音周期估计和清浊判决的方法及装置

技术领域

本发明涉及语音信号处理技术，特别涉及一种进行基音周期估计和清浊判决的方法及装置。

背景技术

在语音信号处理技术领域中，语音信号的离散时域生成模型被广泛应用于参数语音编码、语音合成和变调(pitch scaling)等应用中。

图1为现有通用的语音信号离散时域生成模型示意图。参见图1，该模型包括三个部分：激励源110、声道模型120和辐射模型130，其中，激励源110包括浊音激励单元111和清音激励单元112两个分支，以及一个浊音/清音开关113。

图1所示模型中，浊音激励单元111，用于根据输入的基音频率产生浊音的激励；这里，所输入的基音频率即基音周期的倒数，是根据输入语音信号得到的基音周期估计值；清音激励单元112，用于产生清音的激励，清音的激励为随机噪声，即与基音频率无关；

浊音/清音开关113，用于根据清浊判决的结果接通浊音激励单元111或清音激励单元112；这里，清浊判决的结果是判断输入语音信号是浊音信号还是清音信号的判决结果；

声道模型120给出了离散时域的声道传输函数；

辐射模型130负责与唇形有关的处理。

由图1所示模型可见，基音周期估计和清浊判决的准确性对于各种语音应用的最终效果起着至关重要的作用。

基音周期估计和清浊判决一般同步进行，而且，由于语音信号具有短时平稳性，基音周期估计和清浊判决一般针对每个语音信号帧，分帧进行。目前，通常都利用浊音信号的时域波形相似性，通过计算输入语音信号帧的归一化自相关来进行基音周期估计和清浊判决。下面简要介绍现有技术中典型的进行基音周期估计和清浊判决的方法，该方法包括以下步骤：

步骤1：对输入语音信号进行分帧，帧长取为10～20毫秒(ms)左右，得到当前语音信号帧。

步骤2：计算包含当前语音信号帧的一段语音信号的归一化自相关；

通常，在计算自相关时，所用到的信号不止是当前语音信号帧这一段，而是以当前所分析的语音信号帧为中心的数帧信号减处理延时进行计算。假设，以s(n)表示输入语音信号在第n个样本点的幅值、R(τ)表示信号延时长度为τ时的归一化自相关值，则可以根据

R (τ) = \frac{Σ_{n = 0}^{N - 1} s (n) s (n + τ)}{Σ_{n = 0}^{N - 1} s^{2} (n)} - - - (1)

计算输入语音信号s(n)的归一化自相关R(τ)。(1)式中，N为计算自相关时使用的信号样本点长度，一般应至少包含两个基音周期，当信号采样频率为8千赫兹(kHz)时，N的典型值为320，即上式中n的取值范围为0～319；∑表示求和操作；τ表示计算自相关时的信号延时长度，即当前语音信号帧的基音周期待选值，取值范围为20～140ms，τ与基音周期估值的动态范围对应。本步骤中，按照(1)式分别计算信号延时长度τ的取值为20～140ms之间的各基音周期待选值的归一化自相关R(20)～R(140)。

步骤3：求R(20)～R(140)中的最大值，记为R(τ_max)＝max{R(τ)|τ＝20～140}，其中，τ_max表示R(20)～R(140)中最大值所对应的τ的值。

步骤4：由于从理论上来说，对于浊音帧，τ的取值越接近于基音周期P，则R(τ)越大；而对于清音帧，无论τ取为何值，R(τ)均较小，因此，可以根据R(τ_max)，

进行基音周期估计和清浊判决。(2)式中，R_Th为预先设定的阈值，典型值为0.65，p′表示实际基音周期P的估值，(2)式表示R(τ_max)小于预先设定的阀值时，判定该语音帧为清音帧，否则为浊音帧。

至此，得到基音周期估值和清浊判决结果。

在实际应用中，由于输入语音信号中存在共振峰结构，基音周期估值将可能被误估为实际值的倍数或分数；而上述方法没有对输入语音信号进行任何去除共振峰结构的处理，因此，上述方法将导致所估算的基音周期估值不准确。此外，由于上述方法过于简单，在清浊音的过渡部分，无法准确进行基音周期估计和清浊判决，导致使用上述方法得到的基音周期估值和清浊判决结果的准确度很差。

发明内容

有鉴于此，本发明的主要目的在于提供一种进行基音周期估计和清浊判决的方法，以提高语音信号处理中基音周期估值和清浊判决结果的准确度。

本发明的另一个目的在于提供一种进行基音周期估计和清浊判决的装置，以提高语音信号处理中基音周期估值和清浊判决结果的准确度。

为达到上述目的，本发明的技术方案具体是这样实现的：

一种进行基音周期估计和清浊判决的方法，该方法包括以下步骤：

A、对当前语音信号帧进行滤除高次谐波分量、去除共振峰结构的预处理，得到预处理语音信号帧；

B、对所得到的预处理语音信号帧进行基音周期估计和清浊判决，得到所述当前语音信号帧的基音周期估值和清浊判决结果。

其中，步骤B所述对所得到的预处理语音信号帧进行基音周期估计和清浊判决可以为：

根据前一语音信号帧的基音周期估值和清浊判决结果，对所得到的预处理语音信号帧进行基音周期估计和清浊判决。

进一步地，在所述步骤B之后可以包括：

C、当所述当前语音信号帧的清浊判决结果为浊音帧时，将所得到的基音周期估值作为基音周期初估值，并对所述基音周期初估值进行基音周期倍数检测，将所述基音周期倍数检测的结果作为当前语音信号帧的基音周期估值。

其中，步骤A所述预处理可以为：对所述当前语音信号帧进行频谱展平，并采用线性相位低通滤波器滤除经所述频谱展平处理过的所述当前语音信号帧的高频部分。

其中，所述步骤B可以包括：

B1、计算所述预处理语音信号帧的归一化自相关；

B2、根据所述前一语音信号帧的基音周期估值和清浊判决结果确定所述当前语音信号帧的基音周期待选值的范围，并确定所述范围对应的归一化自相关值中的最大值，以及所述最大值对应的基音周期待选值；

B3、根据所述前一语音信号帧的清浊判决结果确定所述当前语音信号帧的清浊判决阀值；

B4、根据所述归一化自相关值中的最大值以及所述当前语音信号帧的清浊判决阀值，确定当前语音信号帧的清浊判决结果；

B5、根据所确定的当前语音信号帧的清浊判决结果以及所述归一化自相关值中的最大值对应的基音周期待选值，确定当前语音信号帧的基音周期估值。

其中，步骤B2所述确定所述当前语音信号帧的基音周期待选值的范围可以为：

当所述当前语音信号帧为第一个语音信号帧时，或者当所述前一语音信号帧为清音帧时，将所述基音周期候选值的范围确定为20到140毫秒之间；

否则，将小于所述前一语音信号帧的基音周期估值、且大于等于20的整数确定为所述基音周期候选值范围的最小值，将大于所述前一语音信号帧的基音周期估值、且小于等于140的整数确定为所述基音周期候选值范围的最大值。

进一步地，可以预先设置基音周期变化率因子；

所述最小值可以为：所述前一语音信号帧的基音周期估值减所述前一语音信号帧的基音周期估值与所述基音周期变化率因子之积所得到的值；

所述最大值可以为：所述前一语音信号帧的基音周期估值加所述前一语音信号帧的基音周期估值与所述基音周期变化率因子之积所得到的值。

进一步地，在所述步骤B3之前可以包括：设置第一阀值和第二阀值，其中，第一阀值大于第二阀值，且第一阀值和第二阀值的取值均在0到1之间；

所述步骤B3可以为：若前一语音信号帧的清浊判决结果为清音帧，则将第一阀值作为当前语音信号帧的清浊判决阀值；若前一语音信号帧的清浊判决结果为浊音帧，则将第二阀值作为当前语音信号帧的清浊判决阀值。

其中，所述步骤B4可以为：

若所述归一化自相关值中的最大值小于所述清浊判决阀值，则判定当前语音信号帧为清音帧；否则，判定当前语音信号帧为浊音帧。

其中，所述步骤B5可以为：

若所述当前语音信号帧为清音帧，则将所述基音周期估值确定为0；若所述当前语音信号帧为浊音帧，则将所述基音周期估值确定为所述归一化自相关值中的最大值对应的基音周期待选值。

其中，步骤C所述基音周期倍数检测可以包括：

C1、设置当前基音周期下限、基音周期暂定认可估值、分频数，并设定基音周期检测下限、第一补偿因子和第二补偿因子的值；

其中，当前基音周期下限表示所述当前语音信号帧的基音周期估值下限，其值根据前一语音信号帧的基音周期估值估算得到；

基音周期暂定认可估值表示在对所述基音周期初估值进行所述基音周期倍数检测的过程中，暂时被认可的基音周期估值；

基音周期检测下限表示执行所述基音周期倍数检测的检测范围下限；

第一补偿因子的值小于1，第二补偿因子的值大于1；

C2、对所述当前语音信号帧的基音周期初估值与所述分频数之商取整，得到所述基音周期初估值的分数值，判断所述基音周期初估值的分数值是否大于等于所述基音周期检测下限，当所述判断的结果为是时，继续执行步骤C3；否则，将所述基音周期暂定认可估值确定为所述当前语音信号帧的基音周期估值，结束本发明方法流程；

C3、若所述基音周期初估值的分数值大于等于所述当前基音周期下限，则将所述第一补偿因子的值确定为补偿因子；否则，将所述第二补偿因子的值确定为补偿因子；

C4、将信号延时长度取为所述基音周期暂定认可估值的归一化自相关值与所述补偿因子之积、与信号延时长度取为所述基音周期初估值的分数值的归一化自相关值作比较，当前者大于后者时，将所述基音周期初估值的分数值作为所述基音周期暂定认可估值；

C5、增大分频数，继续执行步骤C2。

其中，步骤C1所述基音周期下限可以为：小于所述前一语音信号帧的基音周期估值、且大于等于20的整数。

进一步地，可以预先设置基音周期变化率因子；

所述小于所述前一语音信号帧的基音周期估值、且大于等于20的整数可以为：所述前一语音信号帧的基音周期估值减所述前一语音信号帧的基音周期估值与所述基音周期变化率因子之积所得到的值。

其中，步骤C1所述基音周期暂定认可估值的初值可以为：所述基音周期初估值。

其中，步骤C1所述分频数的初值可以为2；

步骤C5所述增大分频数可以为：将所述分频数加1。

一种进行基音周期估计和清浊判决的装置，该装置包括：预处理模块和基音周期估计/清浊判决模块；

所述预处理模块，用于对当前语音信号帧进行滤除高次谐波分量、去除共振峰结构的预处理，并将所得到的预处理语音信号帧发送给所述基音周期估计/清浊判决模块；

所述基音周期估计/清浊判决模块，用于对来自于所述预处理模块的预处理语音信号帧进行基音周期估计和清浊判决，得到所述当前语音信号帧的基音周期估值和清浊判决结果。

进一步地，所述基音周期估计/清浊判决模块可以包括：归一化自相关计算单元和基音周期估计/清浊判决单元；

所述归一化自相关计算单元，用于计算来自于所述预处理模块的预处理语音信号帧的归一化自相关值，并将计算结果发送给所述基音周期估计/清浊判决单元；

所述基音周期估计/清浊判决单元，可以用于根据来自于所述归一化自相关计算单元的归一化自相关值，进行基音周期估计和清浊判决。

其中，所述基音周期估计/清浊判决单元，可以进一步用于接收前一语音信号帧的基音周期估值和清浊判决结果反馈，并根据所述前一语音信号帧的基音周期估值和清浊判决结果进行所述基音周期估计和清浊判决。

进一步地，所述装置可以包括倍数检测模块；

所述倍数检测模块，可以用于对来自于所述基音周期估计/清浊判决模块的基音周期估值进行基音周期倍数检测，得到当前语音信号帧的基音周期估值。

其中，所述基音周期初估/清浊判决单元，用于根据来自于所述归一化自相关计算单元的归一化自相关值，以及来自于所述倍数检测模块的前一语音信号帧的基音周期估值和清浊判决结果反馈，进行当前语音信号帧的基音周期初估和清浊判决，并将当前语音信号帧的基音周期初估值和清浊判决结果发送给所述倍数检测模块；

所述倍数检测模块，可以进一步用于接收来自于所述基音周期初估/清浊判决单元的基音周期初估值和清浊判决结果，以及来自于所述归一化自相关计算单元的所述归一化自相关值，并将前一语音信号帧的基音周期估值和清浊判决结果反馈给所述基音周期初估/清浊判决单元；

所述归一化自相关计算单元，可以进一步用于将所述归一化自相关值发送给所述倍数检测模块。

由上述技术方案可见，本发明技术方案在计算归一化自相关之前，先对当前语音信号帧进行了频谱展平预处理，消除了语音信号中的共振峰结构，如此，可以有效避免由于共振峰的影响而将基音周期估值误估为实际值的倍数或分数，同时也能够提高清浊判决的准确度。

进一步的，本发明对基音周期估值进行了倍数检测，以防止将基音周期估计为实际值的倍数，这样，也能够有效提高基音周期估计和清浊判决的准确度。

此外，本发明在确定归一化自相关值中的最大值时，充分利用了语音信号的连续性，采用了根据前一语音信号帧的基音周期估值缩小当前语音信号帧的基音周期待选值范围的方式，同时，根据前一语音信号帧的清浊判决结果，适当调整清浊判决的阀值，如此，不仅提高了基音周期估值和清浊判决结果的准确度，而且保证了合成语音或解码语音的特性平稳。

附图说明

图1为现有通用的语音信号离散时域生成模型示意图。

图2为本发明实施例一中基音周期估计和清浊判决方法的示例性流程图。

图3为本发明实施例二中基音周期估计和清浊判决方法的流程示意图。

图4为本发明实施例三中基音周期估计和清浊判决装置的结构示意图。

图5为本发明实施例四中基音周期估计和清浊判决装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明作进一步详细说明。

本发明的主要思想是：在计算归一化自相关之前，先对输入语音信号帧进行频谱展平预处理，消除语音信号中的共振峰结构；然后，对所得到的预处理语音信号帧进行基音周期估计和清浊判决，得到当前语音信号帧的基音周期估值和清浊判决结果。

本发明对输入语音信号进行频谱展平预处理得到预处理语音信号之后，对预处理语音信号帧进行基音周期估计和清浊判决的方式有以下四种，下面分别予以介绍：

第一种方式是：首先，计算预处理语音信号帧在信号延时长度取为20～140ms之间的归一化自相关；然后，确定所得到的归一化自相关值中的最大值；最后，比较预先设定的某个阀值与所得到的归一化自相关值中最大值的相对大小，当前者大于后者时，判定当前语音信号帧为清音帧；否则，判定当前语音信号帧为浊音帧，并将归一化自相关值中最大值所对应的信号延时长度确定为当前帧的基音周期估值。

第二种方式是：首先，计算预处理语音信号帧在信号延时长度取为20～140ms之间的归一化自相关；然后，根据前一语音信号帧的基音周期估值确定当前语音信号帧的基音周期待选值的范围，并确定该范围对应的归一化自相关值中的最大值，以及该最大值对应的基音周期待选值；最后，根据前一语音信号帧的清浊判决结果确定当前语音信号帧的清浊判决阀值，并比较该清浊判决阀值与所得到的归一化自相关值中最大值的相对大小，当前者大于后者时，判定当前语音信号帧为清音帧，否则，判定当前语音信号帧为浊音帧，并将归一化自相关值中最大值对应的基音周期待选值确定为基音周期估值。

相对于第一种方式，第二种方式充分利用了语音信号的连续性，采用了根据前一语音信号帧的基音周期估值缩小当前语音信号帧的基音周期待选值范围的方式，同时，根据前一语音信号帧的清浊判决结果，适当调整清浊判决的阀值，如此，不仅提高了基音周期估值和清浊判决结果的准确度，而且保证了合成语音或解码语音的特性平稳。

第三种方式是在第一种方式的基础上，对所得到的基音周期估值进行倍数检测。具体而言，当采用第一种方式确定清浊判决结果为浊音帧时，将所得到的基音周期估值作为基音周期初估值和基音周期暂定认可估值，并依次判断对该基音周期初估值进行除以2、除以3等操作所得到的分数值是否超出预先设定的基音周期检测下限，若超出基音周期检测下限，则将该基音周期暂定认可估值作为最终的基音周期估值，否则，根据该分数值是否超出预先设定的当前基音周期下限，确定不同的补偿因子，并将信号延时长度取为基音周期暂定认可估值的归一化自相关值与所述补偿因子之积、与信号延时长度取为该分数值的归一化自相关值作比较，当前者大于后者时，将该分数值作为新的基音周期暂定认可估值，增加分频数，并进行下一轮的判断；这里，补偿因子可以预先设置，设置补偿因子的原则是：在分数值没有超出当前基音周期下限时，使得分数值越小、该分数值被确定为最终的基音周期估值的概率越大。

第四种方式是在第二种方式的基础上，对所得到的基音周期估值进行倍数检测。这种方式与第三种方式类似，不同之处在于，本方式中，将采用第二种方式所得到的基音周期估值作为基音周期初估值和基音周期暂定认可估值，进行倍数检测，其具体实施方式请参照第三种方式进行，在此不再赘述。

由上述分析可见，在上述四种方式中，以第四种方式为最佳，因此，在下面的实施例中将主要以第四种方式为例进行说明，其他几种方式的实施请参照下面给出的实施例进行。

本发明可适用于采用各种信号采样率的场景中，由于在实际应用中，以信号采样率8kHz最为普遍，因此，下面的实施例中，默认情况下均以信号采样率为8kHz的情况为例进行说明，对于其他采样速率的情况，参照本发明所提供是实施例作相应修改即可。

实施例一：

下面通过一个示例性流程，说明如何采用本发明方法进行基音周期估计和清浊判决。

图2为本发明实施例一中基音周期估计和清浊判决方法的示例性流程图。参见图2，该方法包括以下步骤：

步骤201：对当前语音信号帧进行滤除高次谐波分量、去除共振峰结构的预处理，得到预处理语音信号帧。

在执行本步骤之前，可以按照现有技术对输入语音信号进行分帧，得到帧大小合适的当前语音信号帧。本步骤中，可以首先对当前语音信号帧进行频谱展平处理，然后采用线性相位低通滤波器滤除经频谱展平处理过的语音信号帧的高频部分，这样，就能够滤除输入语音信号中的高次谐波分量、去除当前语音信号帧中的共振峰结构，使得基音周期估值和清浊判决结果的准确度更高。

步骤202：根据前一语音信号帧的基音周期估值和清浊判决结果，对所得到的预处理语音信号帧进行基音周期初估和清浊判决，得到当前语音信号帧的基音周期初估值和清浊判决结果。

本步骤中，可以首先按照现有技术中的公式(1)，对所得到的预处理语音信号帧计算归一化自相关，其中，N取值为320，τ的取值范围是20～140。

然后，确定归一化自相关的最大值以及与该最大值对应的基音周期待选值。由于相邻浊音帧之间的基音周期是缓慢变化的，本发明在确定归一化自相关的最大值时，可以根据前一语音信号帧的基音周期估值适当缩小当前语音信号帧的基音周期待选值的范围：

例如，对于浊音帧，可以将小于前一语音信号帧的基音周期估值、且大于等于20的整数确定为该基音周期候选值范围的最小值，将大于前一语音信号帧的基音周期估值、且小于等于140的整数确定为该基音周期候选值范围的最大值；较佳地，可以根据预先设定的基音周期变化率因子，将前一语音信号帧的基音周期估值减前一语音信号帧的基音周期估值与基音周期变化率因子之积所得到的值作为最小值，并将前一语音信号帧的基音周期估值加前一语音信号帧的基音周期估值与基音周期变化率因子之积所得到的值作为最大值；

对于当前语音信号帧为第一个语音信号帧，或者前一语音信号帧为清音帧的情况，将基音周期候选值的范围设为最大范围，即20到140ms之间，且包括20ms和140ms；

然后从缩小的范围所对应的归一化自相关值中选择最大值，进行基音周期初估和清浊判决，以提高基音周期估值和清浊判决结果的准确度；

再根据前一语音信号帧的清浊判决结果，适当调整当前语音信号帧的清浊判决阀值，使得当前语音信号帧与前一语音信号帧的清浊判决结果相同的概率大于当前语音信号帧与前一语音信号帧的清浊判决结果不相同的概率；

最后，根据归一化自相关值中的最大值以及当前语音信号帧的清浊判决阀值，确定当前语音信号帧清浊判决结果，并根据所确定的当前语音信号帧的清浊判决结果以及归一化自相关值中的最大值对应的基音周期待选值，确定当前语音信号帧的基音周期初估值，即比较清浊判决阀值与归一化自相关值中最大值的相对大小，当前者大于后者时，判定当前语音信号帧为清音帧，否则，判定当前语音信号帧为浊音帧，并将归一化自相关值中最大值对应的基音周期待选值确定为基音周期估值。

本发明应用于语音合成或语音编码时，本步骤中根据前一语音信号帧的清浊判决结果适当调整当前语音信号帧的清浊判决阀值的操作，可以保证合成语音或解码语音的特性平稳。

步骤203：对所得到的基音周期初估值进行基音周期倍数检测，得到当前语音信号帧的基音周期估值。

由于对大多数语音信号而言，在信号采样率为8kHz时，基音周期长度的取值通常在40～80ms之间，而且，对于多数应用来说，将基音周期估计为实际值的倍数比将基音周期估计为实际值的分数，给应用系统性能带来的负面影响要大得多，因此，本步骤中采用对基音周期初估值进行基音周期倍数检测的方式来防止将基音周期估计为实际值的倍数。

本步骤中进行基音周期倍数检测的方式是：将步骤202所得到的基音周期初估值作为基音周期暂定认可估值，并依次判断对该基音周期初估值进行除以2、除以3等操作所得到的分数值是否超出预先设定的基音周期检测下限，若超出基音周期检测下限，则将该基音周期暂定认可估值作为最终的基音周期估值，否则，根据该分数值是否超出预先设定的当前基音周期下限，确定不同的补偿因子，并将信号延时长度取为基音周期暂定认可估值的归一化自相关值与所述补偿因子之积、与信号延时长度取为该分数值的归一化自相关值作比较，当前者大于后者时，将该分数值作为新的基音周期暂定认可估值，增加分频数，并进行下一轮的判断；这里，补偿因子可以预先设置，设置补偿因子的原则是：在分数值没有超出当前基音周期下限的前提下，使得分数值越小、该分数值被确定为最终的基音周期估值的概率越大。

本步骤中的基音周期倍数检测能够有效防止将基音周期估计为实际值的倍数，能够提高基音周期估计和清浊判决的准确度。

至此，得到当前语音信号帧的基音周期估值和清浊判决结果，结束本发明基音周期估计和清浊判决方法的示例性流程。

下面结合附图，通过一个更具体的实施例说明本发明基音周期估计和清浊判决方法的具体实施方式。

实施例二：

图3为本发明实施例二中基音周期估计和清浊判决方法的流程示意图。参见图3，该方法包括以下步骤：

步骤301：对当前语音信号帧进行预处理，得到预处理语音信号帧。

在执行本步骤之前，可以按照现有技术对输入语音信号进行分帧，得到帧大小合适的当前语音信号帧。本步骤中，首先对当前语音信号帧进行频谱展平，然后采用线性相位低通滤波器滤除经频谱展平处理过的语音信号帧的高频部分，以滤除输入语音信号中的高次谐波分量、去除输入语音信号中的共振峰结构。

常用的频谱展平方式主要有两种：对当前语音信号帧进行线性预测编码(LPC)逆滤波或中心削波，下面分别予以介绍。假设，以s(n)表示当前输入语音信号帧、s_w(n)表示经频谱展平处理之后所得到的语音信号帧、s′(n)表示经本步骤预处理之后得到的预处理语音信号帧。

LPC逆滤波方式中，首先对当前输入语音信号帧s(n)进行10阶LPC分析，求得s(n)的LPC系数，记为α_i，其中，i＝1～10；

然后，将LPC预测残差信号作为s_w(n)，即有如下关系：

s_w (n) = s (n) - Σ_{i = 1}^{10} a_{i} \cdot s (n - i)

如此，得到了采用LPC逆滤波对当前输入语音信号帧进行频谱展平之后的语音信号帧。

对当前语音信号帧进行中心削波处理的方式中，按照如下所示的式(3)：

s_w (n) = {\begin{matrix}  \end{matrix} \begin{matrix} s (n) - C_{L} & s (n) > C_{L} \\ 0 & | s (n) | \leq C_{L} \\ s (n) + C_{L} & s (n) < {- C}_{L} \end{matrix} - - - (3)

将中心削波处理后得到的信号帧作为对当前语音信号帧进行频谱展平之后的语音信号帧。(3)式中，C_L表示削波电平，是预先设置的一个常量。

关于LPC逆滤波和中心削波的原理和实施方式请参照现有技术的有关方式进行，在此不再赘述。

本步骤中，较佳地可以使用通带截止频率为900Hz的线性相位低通滤波器，滤除经频谱展平处理过的语音信号帧中的高频部分，这里，低通滤波器h(k)的系数可以通过matlab等软件附带的滤波器设计工具得到。例如，设其抽头数为N，则有：

s^{'} (n) = Σ_{k = 0}^{N - 1} h (k) s_w (n - k) - - - (4)

步骤302：对所得到的预处理语音信号帧计算归一化自相关。

本步骤中，可以采用与现有技术相同的方式计算预处理语音信号帧的归一化自相关。以s′(n)表示预处理语音信号帧在第n个样本点的幅值、R(τ)表示信号延时长度为τ时的归一化自相关值，则可以根据：

R (τ) = \frac{Σ_{n = 0}^{N - 1} s^{' (n)} s^{' (n + τ)}}{Σ_{n = 0}^{N - 1} s^{'^{2}} (n)} - - - (5)

计算预处理语音信号帧s′(n)的归一化自相关R(τ)。(5)式中，N为计算自相关时使用的信号样本点长度，按照现有技术，一般应至少包含两个基音周期，信号采样频率为8kHz时，N的典型值为320，即上式中n的取值范围为0～319；

∑表示求和操作；

τ表示计算自相关时的信号延时长度，即当前语音信号帧的基音周期待选值，取值范围为20～140ms，τ与基音周期估值的动态范围对应。

本步骤中，按照(5)式分别计算信号延时τ的取值为20～140ms之间的各基音周期待选值的归一化自相关R(20)～R(140)。

步骤303：根据计算得到的归一化自相关、前一语音信号帧的基音周期估值和前一语音信号帧的清浊判决结果，进行基音周期初估和清浊判决，得到当前语音信号帧的基音周期初估值和清浊判决结果。

本步骤中，首先需要确定归一化自相关值的最大值，这里，对于前一语音信号帧为清音帧或者当前语音信号帧是第一个语音信号帧的情况，直接将基音周期候选值的范围设为最大范围，即20到140ms之间，且包括20ms和140ms；对于前一语音信号帧为浊音帧的情况，可以利用相邻浊音帧之间的基音周期是缓慢变化的这一特性，根据前一语音信号帧的基音周期估值适当缩小当前语音信号帧的基音周期待选值的范围。具体而言，其实施方式为：

设前一语音信号帧的基音周期估值为p′_pre，则可以将当前语音信号帧的基音周期待选值范围设置为p_min到p_max之间，其中，p_min表示当前语音信号帧基音周期候选值的最小值、p_max表示当前语音信号帧基音周期候选值的最大值，p_min和p_max的取值分别为：

p_min＝p′_pre*(1-β)」 (6.a)

(6.b)

(6.a)式和(6.b)式中，β表示基音周期变化率因子，其典型值为0.25；

表示向下取整；

表示向上取整。

在具体应用中，可以根据实际需要，对p_min和p_max采取其他方式取整，p的值也可以取为其他值；而且，p_min和p_max也可以用其他方式确定。

然后，搜索R(p_min)～R(p_max)，找到最大值，并将最大值记为R(τ_max)，即：

R(τ_max)＝max{R(τ)|p_min～p_max} (7)

(7)式中，max表示求最大值。

再根据前一语音信号帧的清浊判决结果确定当前语音信号帧的清浊判决阀值。假设以voice_flag_pre表示前一语音信号帧的清浊判决结果：voice_flag_pre取值为0表示前一语音信号帧的清浊判决结果为清音帧，voice_flag_pre取值为1表示前一语音信号帧的清浊判决结果为浊音帧；以R_Th表示当前语音信号帧的清浊判决阀值；

以Th1和Th2表示预先设定的两个阀值，其中，0＜Th1＜1、0＜Th2＜1、且Th1＞Th2，则本步骤中的清浊判决阀值是根据：

R_Th = {\begin{matrix} Th 1 & voice_flag_pre = 0 \\ Th 2 & voice_flag_pre = 1 \end{matrix} - - - (8 . a)

确定的。(8.a)式中，Th1的典型值为0.70，Th2的典型值为0.60，当然Th1和Th2可以设置为其他值，只要满足Th1＞Th2这一关系即可。因为，只要Th1＞Th2，就可以使得当前语音信号帧与前一语音信号帧的清浊判决结果相同的概率大于当前语音信号帧与前一语音信号帧的清浊判决结果不相同的概率，如此，不仅可以充分利用语音信号的连续性，提高清浊判决的准确度，而且可以保证合成语音或解码语音的特性平稳。

最后，比较R(τ_max)与R_Th，得到清浊判决结果和基音周期初估值。假设以voice_flag表示当前语音信号帧的清浊判决结果：voice_flag取值为0表示当前语音信号帧的清浊判决结果为清音帧，voice_flag取值为1表示当前语音信号帧的清浊判决结果为浊音帧，则可以按照如下所示的式(8.b)确定清浊判决结果：

voice_flag

= {\begin{matrix} 0 & R (τ_{\max}) < R_Th \\ 1 & R (τ_{\max}) &GreaterEqual; R_Th \end{matrix} - - - (8 . b)

假设以p′_t表示当前语音信号帧的基音周期初估值，则p′_t可以按照如下所示的式(9)确定：

p^{'}_t = {\begin{matrix} 0 & voice_flag = 0 \\ τ_{\max} & voice_flag = 1 \end{matrix} - - - (9)

(9)式中，以p′_t取值为0表示当前语音信号帧为清音帧。

步骤304：对所得到的基音周期初估值进行基音周期倍数检测，得到基音周期估值。

本步骤对基音周期初估值进行基音周期倍数检测，以防止将基音周期估计为实际值的倍数。

由于在实际应用中，对于清音帧，无论信号延时长度取为何值，与该信号延时长度相对应的归一化自相关值均较小，因此，本步骤中的倍数检测主要针对浊音帧，而根据步骤303，当清浊判决的结果为清音帧时，当前语音信号帧的基音周期初估值为0，因此，在进行基音周期倍数检测之前，首先判断当前语音信号帧的基音周期初估值是否为0，当为0时，无需进行基音周期倍数检测。

具体而言，本步骤中的基音周期倍数检测可以按照如下步骤进行：

第1步：设置当前基音周期下限、基音周期暂定认可估值、分频数，并设定基音周期检测下限、第一补偿因子和第二补偿因子的值；

其中，当前基音周期下限表示当前语音信号帧的基音周期估值下限，其值根据前一语音信号帧的基音周期估值估算得到，其值可以为小于前一语音信号帧的基音周期估值、且大于等于20的任意整数，例如，可以根据前一语音信号帧的基音周期估值以及基音周期变化率因子估算当前基音周期下限；

基音周期暂定认可估值表示在对基音周期初估值进行基音周期倍数检测的过程中，暂时被认可的基音周期估值，在倍数检测结束后，基音周期暂定认可估值将作为最终的基音周期估值；可以将其初值设为当前语音信号帧的基音周期初估值；

分频数的初值可以设为2，基音周期初估值与分频数之商即为基音周期初估值的某个分数值；

基音周期检测下限表示执行基音周期倍数检测的检测范围下限，只有当基音周期初估值的某个分数在该下限定义的检测范围内时，才需要继续执行基音周期倍数检测的后续步骤；

第一补偿因子和第二补偿因子可以根据实际需要设定，只要满足：第一补偿因子的值小于1、且第二补偿因子的值大于1即可；如此，在后续的基音周期倍数检测过程中，当分数值没有超出当前基音周期下限时，可以使得分数值越小、该分数值被确定为最终的基音周期估值的概率越大，同时使得基音周期的估值具有一定的连续性。

第2步：对当前语音信号帧的基音周期初估值与分频数之商取整，得到该基音周期初估值的分数值，判断基音周期初估值的分数值是否大于等于基音周期检测下限，当基音周期初估值的分数值大于等于基音周期检测下限时，即当基音周期初估值的分数在检测范围内时，继续执行第3步，否则，将基音周期暂定认可估值确定为当前语音信号帧的基音周期估值，结束本步骤中倍数检测的流程；

第3步：如果该基音周期初估值的分数值大于等于当前基音周期下限，则将第一补偿因子的值确定为补偿因子，使得在第4步的判断中，该分数值被确定为基音周期暂定认可估值的概率增加；否则，将第二补偿因子的值确定为补偿因子，，使得在第4步的判断中，该分数值被确定为基音周期暂定认可估值的概率降低；

第4步：将信号延时长度取为基音周期暂定认可估值的归一化自相关值与补偿因子之积，与信号延时长度取为该基音周期初估值的分数值的归一化自相关值作比较，当前者小于后者时，将该基音周期初估值的分数值作为基音周期暂定认可估值；

第5步：增大分频数，继续执行第2步。

循环执行上述5个步骤的操作，直至循环条件不满足为止，即直至基音周期初估值的某个分数值小于基音周期检测下限为止；这样，最终确定的基音周期估值就是基音周期暂定认可估值。

上述基音周期倍数检测也可以用伪代码来表示。例如，若以步骤303所确定的p_min表示：根据前一语音信号帧的基音周期估值所设定的当前基音周期下限；

以p_pre表示基音周期暂定认可估值，并将p_pre的初值置为步骤303所确定的τ_max的值；

以p′_t表示当前语音信号帧的基音周期初估值，其值为τ_max；

以div_num表示分频数，并将分频数的初值置为2；

以p_div表示基音周期初估值的分数值，其值为对当前语音信号帧的基音周期初估值与分频数之商取整，设其初值为int[p′_t/div_num]，其中int[]表示取整操作；

以P_TH表示基音周期检测下限，用于定义检测范围，表示当基音周期初估值的某个分数在该下限定义的检测范围内时，对其进行基音周期倍数检测；由于对大多数语音信号而言，基音周期的取值在40～80ms之间，因此，本实施例中，将基音周期下限设为20；

以FAC_1表示第一补偿因子，其典型值值为0.80；以FAC_2表示第二补偿因子，其典型值为1.2；不管FAC_1和FAC_2的取值如何变化，只要满足FAC_1＜FAC_2即可，如此，可以保证较小的基音周期候选者更有可能被确定为最终的基音周期估值，同时使得基音周期的估值具有一定的连续性；以comp_fac表示补偿因子；

以p_est表示最终确定的基音周期估值；

则本步骤中的基音周期倍数检测可以用伪代码表示如下：

P_TH＝20；FAC_1＝0.8；FAC_2＝1.2；β＝0.25；

p_min＝p′_pre*(1-β)」；

div_num＝2；//div_num为整数，且div_num≥2

p_pre＝p′_t＝τ_max；

p_div＝int[p′_t/div_num]；

while(p_div＞＝P_TH)//判断基音周期初估值的分数是否在检测范围内

{

/*确定补偿因子的值*/

if(p_div＞＝p_min) comp_fac＝FAC_1；

else comp_fac＝FAC_2；

/*比较归一化自相关，确定是否选用基音周期初估值的分数值更新基音周期暂定认可估值*/

if(comp_fac*R(p_pre)＜R(p_div))

p_pre＝p_div；

++div_num；//增加分频数

p_div＝int[p′t/div_num]；//更新基音周期初估值的分数

}

p_est＝pre；//确定最终的基音周期估值

上述伪代码中，将分频数的初值设为2，并在每一轮判断之后，令分频数递增1，可以比较全面地分析基音周期初估值的所有符合条件的分数的情况，使最终的基音周期估值更加准确；

此外，设置了两个不同的补偿因子，小于1的补偿因子可以使判决成立的可能性增加，则以p_div更新p_pre的概率增加；大于1的补偿因子可以使判决不成立的可能性增加，则维持p_pre、拒绝以p_div更新p_pre的概率增加，因为此时p_div已经小于由前一帧基音周期估值确定的检测范围的下限p_min，表明p_div是正确估值的可能性较低，可见，维持p_pre不变将提高最终的基音周期估值的准确性。

由于对大多数语音信号而言，将基音周期估计为实际值的倍数比将基音周期估计为实际值的分数，给应用系统性能带来的负面影响要大得多，因此，本步骤中对基音周期初估值进行基音周期倍数检测之后，可以有效防止将基音周期估计为实际值的倍数，能够提高基音周期估计和清浊判决的准确度。

至此，得到当前语音信号帧的基音周期估值和清浊判决结果，结束本实施例基音周期估计和清浊判决方法的流程。

由上述实施例可见，本实施例在计算归一化自相关之前，先对当前语音信号帧进行了频谱展平预处理，消除了语音信号中的共振峰结构，如此，可以有效避免由于共振峰的影响而将基音周期估值误估为实际值的倍数或分数，同时也能够提高清浊判决的准确度；

而且，本实施例的基音周期估计分两步进行，先对基音周期进行初估得到基音周期初估值，然后对基音周期初估值进行基音周期估值的倍数检测，这样，可以防止将基音周期估计为实际值的倍数，同时能够有效提高基音周期估计和清浊判决的准确度；

此外，本实施例充分利用了语音信号的连续性，采用了根据前一语音信号帧的基音周期估值缩小基音周期初估时的当前语音信号帧的基音周期待选值范围，同时，根据前一语音信号帧的清浊判决结果，适当调整清浊判决的阀值，如此，不仅提高了基音周期估值和清浊判决结果的准确度，而且保证了合成语音或解码语音的特性平稳。

下面通过两个装置实施例对本发明的基音周期估计和清浊判决装置进行说明。

实施例三：

本实施例中的基音周期估计和清浊判决装置对应于本发明基音周期估计和清浊判决的第一种方式。

图4为本发明实施例三中基音周期估计和清浊判决装置的结构示意图。参见图4，该装置包括：预处理模块410和基音周期估计/清浊判决单元。

图4所示装置中，预处理模块410，用于对当前语音信号帧进行滤除高次谐波分量、去除共振峰结构的预处理，并将所得到的预处理语音信号帧发送给基音周期估计/清浊判决模块420；

基音周期估计/清浊判决模块420，用于对来自于预处理模块410的预处理语音信号帧进行基音周期估计和清浊判决，得到所述当前语音信号帧的基音周期估值和清浊判决结果。

由上述本实施例可见，本实施例的预处理模块可以在进行基音周期估计和清浊判决之前，先对当前语音信号帧进行频谱展平预处理，消除语音信号中的共振峰结构，如此，可以有效避免由于共振峰的影响而将基音周期估值误估为实际值的倍数或分数，同时也能够提高清浊判决的准确度。

本实施例的基音周期估计/清浊判决模块420可以进一步划分为归一化自相关计算单元和基音周期估计/清浊判决单元，并且，为了对基音周期进行倍数检测，可以在图4所示装置中增加进行基音周期倍数检测的模块，在下面的实施例四中将对这种装置的具体实施方式进行说明。

实施例四：

图5为本发明实施例四中基音周期估计和清浊判决装置的结构示意图。参见图5，该装置包括：预处理模块510、基音周期估计/清浊判决模块520和倍数检测模块530，其中，基音周期估计/清浊判决模块520中进一步包括归一化自相关计算单元521和基音周期估计/清浊判决单元522。

图5所示装置中，预处理模块510，用于对当前语音信号帧进行滤除高次谐波分量、去除共振峰结构的预处理，并将所得到的预处理语音信号帧发送给基音周期估计/清浊判决模块520中的归一化自相关计算单元521；

基音周期估计/清浊判决模块520中的归一化自相关计算单元521，用于计算来自于预处理模块510的预处理语音信号帧的归一化自相关值，并将计算结果发送给基音周期估计/清浊判决单元522和倍数检测模块530；

基音周期估计/清浊判决模块520中的基音周期估计/清浊判决单元522，接收到来自于归一化自相关计算单元521的归一化自相关值之后，根据来自于倍数检测模块530的前一语音信号帧的基音周期估值和清浊判决结果反馈，进行当前语音信号帧的基音周期估计和清浊判决，并将当前语音信号帧的基音周期初估值和清浊判决结果发送给倍数检测模块530；更具体地，基音周期估计/清浊判决模块520可以根据来自于倍数检测模块530的前一语音信号帧的基音周期估值反馈，缩小当前语音信号帧的基音周期待选值的范围；

倍数检测模块530，用于根据来自于归一化自相关计算单元521的归一化自相关值、对来自于基音周期估计/清浊判决单元522的基音周期初估值进行基音周期倍数检测，确定当前语音信号帧的基音周期估值。

由上述实施例可见，本实施例的预处理模块可以在计算归一化自相关之前，先对当前语音信号帧进行频谱展平预处理，消除语音信号中的共振峰结构，如此，可以有效避免由于共振峰的影响而将基音周期估值误估为实际值的倍数或分数，同时也能够提高清浊判决的准确度；

而且，本实施例的基音周期估计分两步进行，先由基音周期估计/清浊判决模块对基音周期进行估计得到基音周期初估值，然后由倍数检测模块对基音周期初估值进行倍数检测，这样，可以防止将基音周期估计为实际值的倍数，同时能够有效提高基音周期估计和清浊判决的准确度；

此外，本实施例充分利用了语音信号的连续性，从倍数检测模块向基音周期估计/清浊判决模块反馈前一语音信号帧的基音周期估值和清浊判决结果，这样，基音周期估计/清浊判决模块可以根据前一语音信号帧的基音周期估值和清浊判决结果，进行基音周期估计和适当调整清浊判决的阀值，如此，不仅提高了基音周期估值和清浊判决结果的准确度，而且保证了合成语音或解码语音的特性平稳。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1、一种进行基音周期估计和清浊判决的方法，其特征在于，该方法包括以下步骤：

2、根据权利要求1所述的方法，其特征在于，步骤B所述对所得到的预处理语音信号帧进行基音周期估计和清浊判决为：

3、根据权利要求1或2所述的方法，其特征在于，在所述步骤B之后，进一步包括：

4、根据权利要求3所述的方法，其特征在于，步骤A所述预处理为：对所述当前语音信号帧进行频谱展平，并采用线性相位低通滤波器滤除经所述频谱展平处理过的所述当前语音信号帧的高频部分。

5、根据权利要求3所述的方法，其特征在于，所述步骤B包括：

B1、计算所述预处理语音信号帧的归一化自相关；

6、根据权利要求5所述的方法，其特征在于，步骤B2所述确定所述当前语音信号帧的基音周期待选值的范围为：

7、根据权利要求6所述的方法，其特征在于，进一步预先设置基音周期变化率因子；

所述最小值为：所述前一语音信号帧的基音周期估值减所述前一语音信号帧的基音周期估值与所述基音周期变化率因子之积所得到的值；

所述最大值为：所述前一语音信号帧的基音周期估值加所述前一语音信号帧的基音周期估值与所述基音周期变化率因子之积所得到的值。

8、根据权利要求5所述的方法，其特征在于，所述步骤B3之前进一步包括：设置第一阀值和第二阀值，其中，第一阀值大于第二阀值，且第一阀值和第二阀值的取值均在0到1之间；

所述步骤B3为：若前一语音信号帧的清浊判决结果为清音帧，则将第一阀值作为当前语音信号帧的清浊判决阀值；若前一语音信号帧的清浊判决结果为浊音帧，则将第二阀值作为当前语音信号帧的清浊判决阀值。

9、根据权利要求5所述的方法，其特征在于，所述步骤B4为：

10、根据权利要求5所述的方法，其特征在于，所述步骤B5为：

11、根据权利要求3所述的方法，其特征在于，步骤C所述基音周期倍数检测包括：

第一补偿因子的值小于1，第二补偿因子的值大于1；

C5、增大分频数，继续执行步骤C2。

12、根据权利要求11所述的方法，其特征在于，步骤C1所述基音周期下限为：小于所述前一语音信号帧的基音周期估值、且大于等于20的整数。

13、根据权利要求12所述的方法，其特征在于，进一步预先设置基音周期变化率因子；

所述小于所述前一语音信号帧的基音周期估值、且大于等于20的整数为：所述前一语音信号帧的基音周期估值减所述前一语音信号帧的基音周期估值与所述基音周期变化率因子之积所得到的值。

14、根据权利要求11所述的方法，其特征在于，步骤C1所述基音周期暂定认可估值的初值为：所述基音周期初估值。

15、根据权利要求11所述的方法，其特征在于，步骤C1所述分频数的初值为2；

步骤C5所述增大分频数为：将所述分频数加1。

16、一种进行基音周期估计和清浊判决的装置，其特征在于，该装置包括：预处理模块和基音周期估计/清浊判决模块；

17、根据权利要求16所述的装置，其特征在于，所述基音周期估计/清浊判决模块进一步包括：归一化自相关计算单元和基音周期估计/清浊判决单元；

所述基音周期估计/清浊判决单元，用于根据来自于所述归一化自相关计算单元的归一化自相关值，进行基音周期估计和清浊判决。

18、根据权利要求17所述的装置，其特征在于，所述基音周期估计/清浊判决单元，进一步用于接收前一语音信号帧的基音周期估值和清浊判决结果反馈，并根据所述前一语音信号帧的基音周期估值和清浊判决结果进行所述基音周期估计和清浊判决。

19、根据权利要求16或17所述的装置，其特征在于，所述装置进一步包括倍数检测模块；

所述倍数检测模块，用于对来自于所述基音周期估计/清浊判决模块的基音周期估值进行基音周期倍数检测，得到当前语音信号帧的基音周期估值。

20、根据权利要求19所述的装置，其特征在于，所述基音周期初估/清浊判决单元，用于根据来自于所述归一化自相关计算单元的归一化自相关值，以及来自于所述倍数检测模块的前一语音信号帧的基音周期估值和清浊判决结果反馈，进行当前语音信号帧的基音周期初估和清浊判决，并将当前语音信号帧的基音周期初估值和清浊判决结果发送给所述倍数检测模块；

所述倍数检测模块，进一步用于接收来自于所述基音周期初估/清浊判决单元的基音周期初估值和清浊判决结果，以及来自于所述归一化自相关计算单元的所述归一化自相关值，并将前一语音信号帧的基音周期估值和清浊判决结果反馈给所述基音周期初估/清浊判决单元；

所述归一化自相关计算单元，进一步用于将所述归一化自相关值发送给所述倍数检测模块。