CN103337244B

CN103337244B - 一种孤立音节基频曲线中的野值修改方法

Info

Publication number: CN103337244B
Application number: CN201310186080.XA
Authority: CN
Inventors: 毛峡; 魏鹏飞
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2013-05-20
Filing date: 2013-05-20
Publication date: 2015-08-26
Anticipated expiration: 2033-05-20
Also published as: CN103337244A

Abstract

本发明提出了一种修改孤立音节基频曲线中的野值的方法，该方法为：提出了孤立音节基频曲线分段模型；设计了一种逐点修改第一类野值与移除第二类野值的算法，该算法首先通过统计的方法确定修改第一类野值的修改起始点，然后利用半频，倍频及其相关组合对修改起始点与修改结束点之间的基频曲线进行基频值修改；其次，移除首尾部分的第二类野值，通过Viterbi分割将基频曲线分割为若干段并设计了最终基频曲线决策，得到最终基频曲线。设计了3组评价实验，包括主观评测实验，客观参数评价实验与音节声调识别对比实验。实验结果表明，修改后的基频曲线比原始基频曲线更光滑且更符合基频变化的趋势。

Description

一种孤立音节基频曲线中的野值修改方法

(一)技术领域：

本发明涉及一种修改孤立音节基频曲线中野值的方法，属于信息技术领域。

(二)背景技术：

基频是语音处理领域一维很重要的声学特征。准确地检测基频意义重大，但该问题一直未能得到很好解决，目前还没有一种方法能在任何情况下准确可靠地检测出不同话者的基频曲线。这是由于语音信号自身的复杂性：声门激励信号并不是一个完整的周期序列；声道响应强烈影响音源的谐波结构，使得检测出仅与声带振动相关的音源信息困难；基因周期变化范围大，且受发音方式与情感状态影响。在检测得到的基频曲线中，主要存在两类基频野值，第一类野值大多发生在半频、倍频，甚至三倍频处，可由其相应的半频，倍频或其相关组合进行修正；第二类野值是由于音节分割无法100％准确分离有音部分与无音部分而产生的随机分布的基频值，这类错误主要分布在基频曲线的首尾段。基于此，本发明提出了逐点修改第一类野值与移除第二类野值的方法，并对修改完成的曲线进行了评价。

(三)发明内容：

本发明的目的在于提供一种修改基频曲线中野值的方法，本发明针对存在于基频曲线中的第一类野值与第二类野值的特点，提出了一种利用半频，倍频或其相关组合逐点修正第一类野值和移除第二类野值的方法。该方法首先利用统计的方法确定第一类野值的修改起始点与修改结束点，然后逐点修改其间的基频值。对于第二类野值，首先用Viterbi算法对基频曲线进行分段，分段数目由修改起始点与修改结束点确定，并对分段后的结果进行最终基频曲线的决策，对于1分段情况则整个基频曲线就是最终基频曲线；对于3分段情况，中间段为最终的最终基频曲线；对于2分段情况，分别用-1与1代表第一部分与第二部分，并利用FISHER比率选取相应的声学特征训练支持向量机(SVM)对两部分进行分类获得最终基频曲线。

本发明提出一种修改基频曲线中野值的方法，其流程图见图1：其中包括以下内容：

首先，提出了一种孤立音节基频曲线分段模型，将孤立音节的基频曲线划分为正常基频值，第一类野值与第二类野值三部分；其中，第一类野值是由于语音信号本身的复杂性产生的，由于语音信号并非完全周期性的信号，因此各种基频提取方法得到的基频曲线均存在错误，而这些错误大多发生在倍频，半频，甚至三倍频处；第二类野值是由于音节分割无法100％准确分离有音部分与无音部分而产生的随机分布的基频值，这类错误主要分布在基频曲线的首尾段

其次，基于基频曲线分段模型，提出了一种逐点修改第一类野值与移除第二类野值的方法，具体步骤如下：

步骤一：确定逐点修改第一类野值的修改起始点与修改结束点，最佳的修改起始点与修改结束点是有音部分与无音部分的分界点，但由于无法100％准确确定分界点，因此，修改起始点与修改结束点的确定应符合以下原则：(1)修改起始点应位于理论起始分界点之后，修改结束点应位于理论结束分界点之前；(2)修改起始点的基频值为正常基频值；修改起始点与修改结束点确定步骤如下：

步骤1.1：对所有孤立音节的基频曲线做一阶差分得到一阶差分基频曲线；正常基频值在一节差分基频曲线中表现为接近0的值，基频野值在一阶差分基频曲线中表现为邻近的远远大于0值的值，图2为一个4声孤立音节的基频曲线，图3为该音节的一阶差分基频曲线；

步骤1.2：对一阶差分基频曲线的基频值做归一化处理，并对所有归一化后的一阶差分基频曲线在0到1的基频值区间内，以0.1为步长做频数统计；

步骤1.3：对0～0.8区间内的频数分布用不同曲线(指数曲线，多项式曲线，高斯曲线和幂分布曲线)拟合，对0.7～1区间内频数分布用高斯曲线进行拟合，计算不同曲线拟合情况下的交点的平均值，为0.75，计算0.75前的一阶差分基频值的频数占一阶差分基频值总频数的百分比，得到阈值85％，图4展示了一阶差分基频的频数分布情况与曲线拟合结果；

步骤1.4：量化每个孤立音节的一阶差分基频曲线的基频值，基频值大小位于前85％的点量化为0，基频值大小位于后15％的点量化为1，并计算每个孤立音节中85％对应的基频值大小，得到量化阈值t，图5为量化后的一阶差分基频曲线；

步骤1.5：对量化后的一阶差分基频曲线做一阶差分得到二阶差分基频曲线，设定“n_frame”为帧长，“1”为帧移，分别从二阶差分基频曲线的起始点进行前向判断，从二阶差分基频曲线的结束点进行后向判断，若一帧中的基频值均为“0”，则记录该帧起始点，若一帧中的基频值存在“1”，则移动帧移长度，判断下一帧，直到出现一帧中的基频值均为0，记录该帧起始点，起始点与结束点的确定方法流程如图6所示；

步骤1.6：由步骤1.5得到的临界点b₁与b₂，b₁为由二阶差分基频曲线的起始点开始判断得到的起始点，b₂为由二阶差分基频曲线的结束点开始判断得到的起始点，判断b₁与b₂的大小，若b₁大于b₂，从前向开始修改，b₁为修改起始点，b₂为修改结束点，若b₁小于b₂，从后向开始修改，b₂为修改起始点，b₁为修改结束点；

步骤二：逐点修改b₁与b₂之间的基频值，方法流程图如图7所示，具体修改步骤如下：

步骤2.1：确定待修改基频点F0(j)的修改候选值：

●Fp(j)：第j个点的原始基频值；

●Mp(j)：第j个点的倍频值；

●Hp(j)：第j个点的半频值；

●第j-1个点的原始基频值与第j+1个点的原始基频值的均值；

●第j-1个点的原始基频值与第j+1个点的倍频值的均值；

●第j-1个点的原始基频值与第j+1个点的半频值的均值；

步骤2.2：确定待修改基频点F0(j)的修改值的取值范围：

●范围range₁：由参数c₀确定的理想修改值范围，c₀为修改起始点与修改结束点之间的一阶差分基频值的均值的模值；

●范围range₂：由参数t确定的保证修改值为正常值的取值范围；

步骤2.3：由步骤2.1与2.2中确定的F0(j)的修改候选值与修改范围计算逐点修改过程中用到的相关参数如下：

●初始化：Δ₀＝F0(j-1)-F0(j-2)

●一阶差分集合A:

Δ₁＝Fp(j)-F0(j-1)

Δ₂＝Sp(j)-F0(j-1)

Δ₃＝Hp(j)-F0(j-1)

Δ_{4} = \frac{F 0 (j - 1) + F p (j + 1)}{2} - F 0 (j - 1)

Δ_{5} = \frac{F 0 (j - 1) + S p (j + 1)}{2} - F 0 (j - 1)

Δ_{6} = \frac{F 0 (j - 1) + H p (j + 1)}{2} - F 0 (j - 1)

●二阶差分模值集合B:

ε₁＝|Δ₁-Δ₀|

ε₂＝|Δ₂-Δ₀|

ε₃＝|Δ₃-Δ₀|

ε₄＝|Δ₄-Δ₀|

ε₅＝|Δ₅-Δ₀|

ε₆＝|Δ₆-Δ₀|

●取值集合R₁：集合B中小于c₀的元素的集合；

●取值集合R₂：集合A中小于t的元素的集合；

步骤2.4：为了保证首帧F0(j-1)与F0(j-2)为正常的基频值，计算新的修改起始点b₁'为“b₁+n_frame-2”；从新的起始点开始，计算步骤2.3中所有的参数，判断取值集合R₁是否为空集，若不为空集则判断ε₁是否在R₁中，若在，则令ε等于ε₁，否则令R₁中的最小值等于ε，计算新的基频值为“ε+Δ₀+F0(j-1)”；若R₁为空集，则进入步骤2.5；

步骤2.5：判断取值集合R₂是否为空集，若不为空集则判断Δ₁是否在R₂中，若在，则令Δ₁等于b，否则令R₂中的最小值等于b，计算新的基频值为“b+F0(j-1)”，若为空集，则计算新的基频值为“t+F0(1,j-1)”；

步骤2.6：计算得到新的F0(j)后，判断j是否小于等于n-2，若成立，则令j＝j+1并重复步骤2.4～2.6；若不成立，则令Fp(n)＝F0(n-1)+F0(n-1)-F0(n-2)；

步骤2.7：计算修改完毕的一阶差分基频的平均值的模值f₀，比较f₀与c₀，若f₀不等于c₀，则重复2.4～2.7，若f₀等于c₀，则结束修改；

步骤三：移除首尾段存在的第二类野值，具体修改步骤如下：

步骤3.1：根据步骤1.6中得到的修改起始点与修改结束点的值确定基频曲线分段数目：若修改起始点为1，修改结束点为n，n为基频曲线的总点数，则分段数目为1，不存在第二类野值；若修改起始点为1，修改结束点不为n，或者修改起始点不为1，修改结束点为n，则分段数目为2，首部或尾部存在一段第二类野值；若修改起始点不为1，修改结束点不为n，则分段数目为3，首部和尾部均存在第二类野值；

步骤3.2：根据3.1中的分段原则，利用Viterbi算法对基频曲线进行分段，对于1分段情况，则整个基频曲线就是最终基频曲线；对于3分段情况，中间段为最终基频曲线；对于2分段情况，分别用-1与1代表第一部分与第二部分，并利用FISHER比率选取相应的声学特征训练支持向量机(SVM)对两部分进行分类获得最终基频曲线。如图8所示，上图为音节的能量曲线，下图为音节的基频曲线。

表1特征和FISHER比率

选取FISHER比率大于0.5的4维特征(η，σ，γ)作为最终的分类特征组合。为了验证特征组合的有效性，选取236个样本并用该特征组合训练SVM，利用训练完成的SVM识别另外236个样本，得到97.6％的识别率。

最后，为了验证基频曲线的修改效果，设计了3组评价实验，具体步骤如下：

步骤一：邀请20名志愿者对修改后的基频曲线的光滑程度与波动程度进行主观评价，其中光滑程度描述的是曲线是否有突变，波动程度描述的是曲线是否按照一定趋势变化；评价分为五个等级{-1,-0.5,0,0.5,1}，数值越大代表曲线越光滑，波动越少；每名志愿者分别对同一基频曲线的修改前与修改后进行评价，每名志愿者评价50个音节，取20名志愿者的评价值的平均值作为被评价音节的最终结果，图9为主观评价结果统计图。

步骤二：客观评测实验：分别计算孤立音节基频曲线修改前后的相对标准偏差(RSD)与二阶差分的方差(δ_sec-order)，计算公式如式(1)与式(2)所示：其中相对标准偏差用于描述基频曲线的光滑度，二阶差分的方差用于描述波动程度，计算结果如表2所示。

R S D = \sqrt{\frac{Σ_{i = 1}^{n} {(F 0 (i) - μ)}^{2}}{n - 1}} / μ - - - (1)

δ_{\sec - o r d e r} = \sqrt{\frac{Σ_{i = 1}^{n} {(F 0 {(i)}^{''} - μ_{\sec - o r d e r})}^{2}}{n - 1}} - - - (2)

表2客观参数评测结果

步骤三：设计一组音节声调识别的对比实验：A实验用未修改的基频曲线提取声学特征训练3726个音节获得4种声调的隐马尔可夫模型，然后识别2484个音节的声调，得到4种声调的平均识别率P1；B实验用修改后的基频曲线提取声学特征训练3726个音节获得4种声调的隐马尔可夫模型，然后识别2484个音节的声调，得到4种声调的平均识别率P2，比较P1与P2，图10为4种声调的识别率对比结果图；

步骤四：根据步骤一至步骤三的实验结果，总结结论。

本发明的优点及积极效果为提出了一种修改基频曲线中野值的方法。该方法首先利用统计的方法确定第一类野值的修改起始点与修改结束点，然后逐点修改其间的基频值。对于第二类野值，首先用Viterbi算法对基频曲线进行分段，分段数目有修改起始点与修改结束点确定，并对分段后的结果进行目标基频曲线的决策，得到最终的基频曲线。由主观评测实验、客观参数评价实验及音节声调识别的对比实验的结果表明，经过修改的基频曲线更加光滑，波动更少。

(四)附图说明：

图1为基频曲线中野值修改的总体流程图；

图2为一个4声孤立音节的基频曲线；

图3为图2中4声孤立音节的一阶差分基频曲线；

图4为一阶差分基频的频数分布情况与曲线拟合结果；

图5为图2中4声孤立音节的一阶差分基频曲线量化结果；

图6为修改起始点与修改结束点的确定方法流程图；

图7为逐点修改第一类野值的方法流程图；

图8上图为孤立音节的能量曲线，下图为孤立音节的基频曲线；

图9为主观评价结果统计图；

图10利用不同方法得到的4种声调的识别率对比结果图；

(五)具体实施方式：

下面结合附图，对本发明所述的技术方案作进一步阐述。

首先，提出了一种孤立音节基频曲线分段模型，将孤立音节的基频曲线划分为正常基频值，第一类野值与第二类野值三部分；其中，第一类野值是由于语音信号本身的复杂性产生的，由于语音信号并非完全周期性的信号，因此各种基频提取方法得到的基频曲线均存在错误，而这些错误大多发生在倍频，半频，甚至三倍频处；第二类野值是由于音节分割无法100％准确分离有音部分与无音部分而产生的随机分布的基频值，这类错误主要分布在基频曲线的首尾段。

其次，基频曲线分段模型，提出了一种逐点修改第一类野值与移除第二类野值的方法，具体步骤如下：

步骤一：确立逐点修改第一类野值的修改起始点与修改结束点，最佳的修改起始点与修改结束点是有音部分与无音部分的分界点，但由于无法100％准确确定分界点，因此，修改起始点与修改结束点的确定应符合以下原则：(1)修改起始点应位于理论起始分界点之后，修改结束点应位于理论结束分界点之前；(2)修改起始点的基频值为正常基频值；修改起始点与修改结束点确定步骤如下：

步骤1.2：对一阶差分的基频曲线的基频值做归一化处理，并对所有归一化后的一阶差分的基频曲线在0到1的基频值区间内，以0.1为步长做频数统计；

步骤1.6：由步骤1.5得到临界点b₁与b₂，b₁为由二阶差分基频曲线的起始点开始判断得到的起始点，b₂为由二阶差分基频曲线的结束点开始判断得到的起始点，判断b₁与b₂的大小，若b₁大于b₂，从前向开始修改，b₁为修改起始点，b₂为修改结束点，若b₁小于b₂，从后向开始修改，b₂为修改起始点，b₁为修改结束点；

步骤2.1：确定待修改基频点F0(j)的修改候选值：

●Fp(j)：第j个点的原始基频值；

●Mp(j)：第j个点的倍频值；

●Hp(j)：第j个点的半频值；

●第j-1个点的原始基频值与第j+1个点的原始基频值的均值；

●第j-1个点的原始基频值与第j+1个点的倍频值的均值；

●第j-1个点的原始基频值与第j+1个点的半频值的均值；

步骤2.2：确定待修改基频点F0(j)的修改值的取值范围：

●初始化：Δ₀＝F0(j-1)-F0(j-2)

●一阶差分集合A:

Δ₁＝Fp(j)-F0(j-1)

Δ₂＝Sp(j)-F0(j-1)

Δ₃＝Hp(j)-F0(j-1)

Δ_{4} = \frac{F 0 (j - 1) + F p (j + 1)}{2} - F 0 (j - 1)

Δ_{5} = \frac{F 0 (j - 1) + S p (j + 1)}{2} - F 0 (j - 1)

Δ_{6} = \frac{F 0 (j - 1) + H p (j + 1)}{2} - F 0 (j - 1)

●二阶差分模值集合B:

ε₁＝|Δ₁-Δ₀|

ε₂＝|Δ₂-Δ₀|

ε₃＝|Δ₃-Δ₀|

ε₄＝|Δ₄-Δ₀|

ε₅＝|Δ₅-Δ₀|

ε₆＝|Δ₆-Δ₀|

●取值集合R₁：集合B中小于c₀的元素的集合；

●取值集合R₂：集合A中小于t的元素的集合；

步骤3.2：根据3.1中的分段原则，利用Viterbi算法对基频曲线进行重分段，Viterbi算法的实现参数如下：

●O＝(o₁o₂o₃...o_N):代表基频曲线的观察值序列；

●o_j＝(logF0_j,ΔlogF0_j):观察值向量；

●I,(1≤I≤5):基频曲线被划分为I段连续部分；

●

p (o_{j} | Φ_{i}) = \frac{1}{2 π | {\overset{&OverBar;}{Σ}}_{i} |^{1 / 2}} \exp [- \frac{1}{2} {(o_{j} - {\overset{&OverBar;}{μ}}_{i})}^{t} \times {\overset{&OverBar;}{Σ}}_{i}^{- 1} (o_{j} - {\overset{&OverBar;}{μ}}_{i})] :

用于决定o_j点属于哪一部分，每部分的中心服从概率密度函数为p(o_j|Φ_i)的多元高斯函数，其中参数Φ_i包括均值μ_i与协方差矩阵Σ_i,μ_i和Σ_i可由第i部分的n_i个观察值的最大似然估计得到，计算公式如式(1)和(2)所示。.

μ_{i} = \frac{1}{n_{i}} Σ_{k = 1}^{n_{i}} o_{k} - - - (1)

Σ_{i} = \frac{1}{n_{i}} Σ_{k = 1}^{n_{i}} (o_{k} - μ_{i}) (o_{k} - {μ_{i}}^{t}) - - - (2)

●

A = {(\begin{matrix} \frac{1}{2} & \frac{1}{2} & 0 & ... & 0 \\ 0 & \frac{1}{2} & \frac{1}{2} & ... & 0 \\ ... & ... \\ 0 & 0 & ... & 1 \end{matrix})}_{I \times I} :

转移概率矩阵；

●a_ij:由状态i转移到状态j的转移概率；

●T(i,j)＝max(T(i-1,j-1)a_ijp(o_j|Φ_i)),i∈(1,2...I),j∈(1,2...n):状态转移递推公式。

对于1分段情况，则整个基频曲线就是最终基频曲线；对于3分段情况，中间段为最终基频曲线；对于2分段情况，分别用-1与1代表第一部分与第二部分，并利用FISHER比率选取相应的声学特征训练支持向量机(SVM)对两部分进行分类获得最终基频曲线。如图8所示，上图为音节的能量曲线，下图为音节的基频曲线。点线表示音节的边界，虚线为第一部分c₁与第二部分c₂的分界线，A、B和C为相应c₁与c₂的起始点与结束点，t₁与t₂为音节起始与末尾对应的帧数。备选的声学特征如下：

●归一化长度：

第一部分：

, t_{c_{1}} = \frac{t_{1} - t_{0}}{t_{2} - t_{0}}

第二部分：

t_{c_{2}} = \frac{t_{2} - t_{1}}{t_{2} - t_{0}}

●c_i帧长：n_i.

●c₁归一化帧长：dur₁＝t_B1-t_A1.

c₂归一化帧长：dur₂＝t_C1-t_B1

●c₁和c₂的能量：

\begin{matrix} P_{c_{1}} = Σ_{j = t_{0}}^{t_{1}} P_{j} & p_{c_{2}} = Σ_{j = t_{1}}^{t_{2}} P_{j} \end{matrix}

P为对应帧的能量.

●c₁和c₂的能量斜率

\begin{matrix} {ΔP}_{c_{1}} = \frac{p_{t_{1}} - p_{t_{0}}}{n_{1} - 1} & {Δp}_{c_{2}} = \frac{p_{t_{2}} - p_{t_{1}}}{n_{2} - 1} \end{matrix}

●分段能量比率：

\begin{matrix} η_{c_{1}} = \frac{Σ_{j = t_{0}}^{t_{1}} P_{j}}{Σ_{i = t_{0}}^{t_{2}} P_{I}} & η_{c_{2}} = \frac{Σ_{j = t_{1}}^{t_{2}} P_{j}}{Σ_{i = t_{0}}^{t_{2}} P_{I}} \end{matrix}

●c₁和c₂的拟合斜率比率：

\begin{matrix} {Δk}_{c_{1}} = \frac{k_{w h o l e} - k_{c_{1}}}{k_{w h o l e}} & {Δk}_{c_{2}} = \frac{k_{w h o \overset{&OverBar;}{l} e} k_{c_{2}}}{k_{w h o l e}} \end{matrix}

k为拟合斜率。

●c₁和c₂均值比率：

\begin{matrix} μ_{c_{1}} = \frac{\frac{1}{n_{1}} Σ_{i = t_{A}}^{t_{B}} F 0 (i)}{\frac{1}{n_{2}} Σ_{j = t_{A}}^{t_{C}} F 0 (j)} & μ_{c_{2}} = \frac{\frac{1}{n_{1}} Σ_{i = t_{B}}^{t_{C}} F 0 (i)}{\frac{1}{n_{2}} Σ_{j = t_{A}}^{t_{C}} F 0 (j)} \end{matrix}

●均值：

●方差：

●c₁和c₂的自相关系数：

\begin{matrix} r_{c_{1}} \frac{Σ_{i = t_{0}}^{t_{1}} (t_{i} - \overset{&OverBar;}{t}) (F 0 (i) - \overset{&OverBar;}{F 0})}{\sqrt{Σ_{i = t_{0}}^{t_{1}} {(t_{i} - \overset{&OverBar;}{t})}^{2}} \sqrt{Σ_{i = t_{0}}^{t_{1}} {(F 0 (i) - \overset{&OverBar;}{F 0})}^{2}}} & r_{c_{2}} = \end{matrix} \frac{Σ_{i = t_{0}}^{t_{1}} (t_{i} - \overset{&OverBar;}{t}) (F 0 (i) - \overset{&OverBar;}{F 0})}{\sqrt{Σ_{i = t_{0}}^{t_{1}} {(t_{i} - \overset{&OverBar;}{t})}^{2}} \sqrt{Σ_{i = t_{0}}^{t_{1}} {(F 0 (i) - \overset{&OverBar;}{F 0})}^{2}}}

表1特征和FISHER比率

步骤一：邀请20名志愿者对修改后的基频曲线的光滑程度与波动程度进行主观评价，其中光滑程度描述的是曲线是否有突变，波动程度描述的是曲线是否按照一定趋势变化；评价分为五个等级{-1,-0.5,0,0.5,1}，数值越大代表曲线越光滑，波动越少；每名志愿者分别对同一基频曲线的修改前与修改后进行评价，每名志愿者评价50个音节，取20名志愿者的评价值的平均值作为被评价音节的最终结果，图9为主观评价结果统计图，其中X坐标为平滑度，Y坐标为波动程度，圆圈代表原始基频曲线的评价值，叉号代表修改后的基频曲线的评价值。由图可以看出，大量的圆圈集中在第三区间而少部分的圆圈分布在第一区间，这说明大部分的原始基频曲线中存在野值使得基频曲线不光滑且有波动。但是，全部的叉号均位于第一区间内，也就是说经过修改后的基频曲线变得更加光滑且波动更少。特别的，有三点的评价值在修改前后是一致的，这是因为原始的基频曲线中不存在野值。

步骤二：客观评测实验：分别计算孤立音节基频曲线修改前后的相对标准偏差(RSD)与二阶差分的方差(δ_sec-order)，计算公式如式(3)与式(4)所示：其中相对标准偏差用于描述基频曲线的光滑度，二阶差分的方差用于描述波动程度，计算结果如表2所示。

R S D = \sqrt{\frac{Σ_{i = 1}^{n} {(F 0 (i) - μ)}^{2}}{n - 1}} / μ - - - (3)

δ_{\sec - o r d e r} = \sqrt{\frac{Σ_{i = 1}^{n} {(F 0 {(i)}^{''} - μ_{\sec - o r d e r})}^{2}}{n - 1}} - - - (4)

表2客观参数评测结果

由表2的结果可以看出修改后的基频曲线的相对标准偏差(RSD)与二阶差分的方差(δ_sec-order)均有所减小，这说明修改后的基频曲线更加光滑，波动更少。

步骤三：设计一组音节声调识别的对比实验：A实验用未修改的基频曲线提取声学特征训练3726个音节获得4种声调的隐马尔可夫模型，然后识别2484个音节的声调，得到4种声调的平均识别率P1；B实验用修改后的基频曲线提取声学特征训练3726个音节获得4种声调的隐马尔可夫模型，然后识别2484个音节的声调，得到4种声调的平均识别率P2，比较P1与P2，图10为4种声调的识别率对比结果图；由图10可以看出实验B利用修改后的基频曲线进行声调识别比实验A里用未修改的基频曲线进行声调识别提高了5.2％的识别率。这是由于经过基频野值修改后的基频曲线更加光滑与标准。

Claims

1.一种基于孤立音节基频曲线分段模型逐点修改第一类野值与移除第二类野值的方法，其特征在于：

步骤1.1：对所有孤立音节的基频曲线做一阶差分得到一阶差分基频曲线；正常基频值在一节差分基频曲线中表现为接近0的值，基频野值在一阶差分基频曲线中表现为邻近的远远大于0值的值；

步骤1.3：对0～0.8区间内的频数分布用不同曲线拟合，对0.7～1区间内的频数分布用高斯曲线进行拟合，计算不同曲线拟合情况下的交点的平均值，为0.75，计算0.75前的一阶差分基频值的频数占一阶差分基频值总频数的百分比，得到阈值85％；

步骤1.4：量化每个孤立音节的一阶差分基频曲线的基频值，基频值大小位于前85％的点量化为0，基频值大小位于后15％的点量化为1，并计算每个孤立音节中85％对应的基频值大小，得到量化阈值t；

步骤1.5：对量化后的一阶差分基频曲线做一阶差分得到二阶差分基频曲线，设定“n_frame”为帧长，“1”为帧移，从二阶差分基频曲线的起始点进行前向判断，同时从二阶差分基频曲线的结束点进行后向判断，若一帧中的基频值均为“0”，则记录该帧起始点，若一帧中的基频值存在“1”，则移动帧移长度，判断下一帧，直到出现一帧中的基频值均为0，记录该帧起始点；

步骤1.6：由步骤1.5得到两个临界点b₁与b₂，b₁为由二阶差分基频曲线的起始点开始判断得到的起始点，b₂为由二阶差分基频曲线的结束点开始判断得到的起始点，判断b₁与b₂的大小，若b₁大于b₂，从前向开始修改，b₁为修改起始点，b₂为修改结束点，若b₁小于b₂，从后向开始修改，b₂为修改起始点，b₁为修改结束点；

步骤二：逐点修改b₁与b₂之间的基频值，具体修改步骤如下：

步骤2.1：确定待修改基频点F0(j)的修改候选值：

·Fp(j)：第j个点的原始基频值；

·Mp(j)：第j个点的倍频值；

·Hp(j)：第j个点的半频值；

·第j-1个点的原始基频值与第j+1个点的原始基频值的均值；

·第j-1个点的原始基频值与第j+1个点的倍频值的均值；

·第j-1个点的原始基频值与第j+1个点的半频值的均值；

步骤2.2：确定待修改基频点F0(j)的修改值的取值范围：

·范围range₁：由参数c₀确定的理想修改值范围，c₀为修改起始点与修改结束点之间的一阶差分基频值的均值的模值；

·范围range₂：由参数t确定的保证修改值为正常值的取值范围；

·初始化：Δ₀＝F0(j-1)-F0(j-2)

·一阶差分集合A:

Δ₁＝Fp(j)-F0(j-1)

Δ₂＝Sp(j)-F0(j-1)

Δ₃＝Hp(j)-F0(j-1)

Δ_{4} = \frac{F 0 (j - 1) + Fp (j + 1)}{2} - F 0 (j - 1)

Δ_{5} = \frac{F 0 (j - 1) + Sp (j + 1)}{2} - F 0 (j - 1)

Δ_{6} = \frac{F 0 (j - 1) + Hp (j + 1)}{2} - F 0 (j - 1)

·二阶差分模值集合B:

ε₁＝|Δ₁-Δ₀|

ε₂＝|Δ₂-Δ₀|

ε₃＝|Δ₃-Δ₀|

ε₄＝|Δ₄-Δ₀|

ε₅＝|Δ₅-Δ₀|

ε₆＝|Δ₆-Δ₀|

·取值集合R₁：集合B中小于c₀的元素的集合；

·取值集合R₂：集合A中小于t的元素的集合；

步骤3.2：根据3.1中的分段原则，利用Viterbi算法对基频曲线进行分段，对于1分段情况，则整个基频曲线就是最终的目标基频曲线；对于3分段情况，中间段为最终的目标基频曲线；对于2分段情况，分别用-1与1代表第一部分与第二部分，并利用FISHER比率选取相应的声学特征训练支持向量机(SVM)对两部分进行分类获得最终的目标基频曲线。

2.如权利要求1所述的基于孤立音节基频曲线分段模型逐点修改第一类野值与移除第二类野值的方法，对所述的基频曲线效果进行验证：

步骤一：邀请20名志愿者对修改后的基频曲线的光滑程度与波动程度进行主观评价，其中光滑程度描述的是曲线是否有突变，波动程度描述的是曲线是否按照一定趋势变化；评价分为五个等级{-1,-0.5,0,0.5,1}，数值越大代表曲线越光滑，波动越少；每名志愿者分别对同一基频曲线的修改前与修改后进行评价，每名志愿者评价50个音节，取20名志愿者的评价值的平均值作为被评价音节的最终结果。

步骤二：客观评测实验：分别计算孤立音节的基频曲线修改前后的相对标准偏差与二阶差分的方差，其中相对标准偏差用于描述基频曲线的光滑度，二阶差分的方差用于描述波动程度；

步骤三：设计一组音节声调识别的对比实验：A实验用未修改的基频曲线提取声学特征训练3726个音节获得4种声调的隐马尔可夫模型，然后识别2484个音节的声调，得到4种声调的平均识别率P1；B实验用修改后的基频曲线提取声学特征训练3726个音节获得4种声调的隐马尔可夫模型，然后识别2484个音节的声调，得到4种声调的平均识别率P2，比较P1与P2；

步骤四：根据步骤一至步骤三的实验结果，总结结论。