CN108830232A

CN108830232A - 一种基于多尺度非线性能量算子的语音信号周期分割方法

Info

Publication number: CN108830232A
Application number: CN201810640530.0A
Authority: CN
Inventors: 朱成华; 卢光明; 武克斌; 张大鹏; 钟德才
Original assignee: Zhejiang Midpoint Artificial Intelligence Technology Co Ltd
Current assignee: Zhejiang Midpoint Artificial Intelligence Technology Co Ltd
Priority date: 2018-06-21
Filing date: 2018-06-21
Publication date: 2018-11-16
Anticipated expiration: 2038-06-21
Also published as: CN108830232B

Abstract

本发明涉及一种基于多尺度非线性能量算子TKEO（Teager‑Kaiser energy operator）的语音信号周期分割算法，首先在TKEO算子的基础上定义aTKEO算子，再将aTKEO算子扩展至带尺度参数L的算子，通过最大值融合、乘积融合和均值融合策略实现融合，最后根据三种融合策略对应的GCI提取算法实现语音信号周期分割；本算法无须预知基频信息，无短时平稳假设和线性假设，对多种声音类型鲁棒，同时运算复杂度低，速度快、运算精度高。

Description

一种基于多尺度非线性能量算子的语音信号周期分割方法

技术领域

本发明属于语音信号周期分割技术领域，特别涉及一种基于多尺度非线性能量算子的语音信号周期分割方法。

背景技术

人的声音中包括丰富的生物医学信息，由于其具有直接性、非侵入式、自动化等优点，使其在语义理解，健康分析等方面引起广泛关注，尤其在情感分析方面拥有广阔的应用前景。

声音的产生伴随着声带的振动，与情感相关的声音特征中，基频、语速、流畅度等特征的提取，依赖于准确的周期分割。利用声门闭合时刻进行周期分割是比较常用的周期分割方法。

声门闭合时刻（Glottal closure instant, GCI）是指每次声带振动中声门闭合的时刻，GCI 是每个周期的关键特征点，相邻 GCI 之间的语音波形即构成一个完整周期。因此提取 GCI 可用来将语音信号分割为多个单周期信号，即进行周期分割。

传统的GCI提取算法假设声音信号具有平稳特点，以线性模型来模拟发声过程，然而真实的声音具有局部突变、非线性的特点。而且传统的GCI提取算法需预先获知基频信息，故不具有独立性。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷，提供一种基于多尺度非线性能量算子TKEO（Teager-Kaiser energy operator）的语音信号周期分割算法，本发明的算法不仅准确率较高，对多种声音类型鲁棒，而且还具有较低的计算复杂度。

其技术方案如下：

S1、多尺度非线性能量算子TKEO表示为：

Y[x(n)]= x(n)2-x(n-1)x(n+1)

其中x(n)为离散语音信号，n代表采样点；

S2、定义绝对TKEO算子aTKEO（absolute TKEO）：

|Y[x(n)]|= |x(n)2-x(n-1)x(n+1)|

S3、将 aTKEO 扩展至带尺度参数 L 的算子RaTKEO，定义如下：

|YL[x(n)]|=| x(n)2-x(n-L)x(n+ L)|

其中，参数L为正整数；

S4、分别采用最大值融合、乘积融合和均值融合三种融合策略得到以下三个融合值：

p₁(n)=max(|Y1[x(n)]|,|Y2[x(n)]|,…,|YM[x(n)]|)

p₂(n)=(|Yk[x(n)]| /k)

p₃(n)=|Yk[x(n)]|

其中，M为尺度数，k为尺度，p₁(n)表示采用最大值融合时的融合值，最大融合策略对应的声门闭合时刻(GCI) 提取算法为 GMATmax； p₂(n)表示采用乘积融合时的融合值，乘积整合策略对应的GCI提取算法为GMATprod； p₃(n)表示采用均值融合时的融合值；均值融合策略对应的GCI提取算法为GMATmean；

S5、采用下述高通滤波器检测幅度陡增时刻：

其中j为循环变量，代表计算平均幅度时的窗口大小，q₁ (n)、q₂ (n)、q₃ (n)分别表示采用GMATmax、GMATprod 和GMATmean方法时，幅度陡增后与陡增前的平均幅度差值，分别利用 q₁(n)、q₂(n)、q₃(n) 中的过零点切割出幅度为正的区域，将信号分割成多个区域，且每个区域内包含一个 GCI真值，这个区域则为我们分割出来的一个周期；

S6、根据GMATmax、GMATprod 和GMATmean方法测出的周期Tmax、Tprod、Tmean，从检测率、漏检率、误检率、检测准确度、检测偏差五个方面评估三种尺度算法的可靠性与准确性，根据对性能要求的不同选择合适的尺度进行周期分割。

本发明与现有技术相比，有以下优点：

1、本发明的语音信号周期分割算法无须预知基频信息，具有独立性，无短时平稳假设和线性假设，使其更适用于情绪语音的 GCI 提取；

2、对多种声音类型鲁棒，同时运算复杂度低，速度快、运算精度高；

3、另外，该算法还可用于一般的 GCI 应用中，如语音合成和语音压缩等。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于多尺度非线性能量算子TKEO（Teager-Kaiser energyoperator）的语音信号周期分割算法的流程图。

图2为本发明TEKO算子与二阶导数算子、局部均值加权的二阶导数算子的幅度变化曲线对比图。

具体实施方式

下面对本发明的实施例进行详细说明。为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

如图1所示，本发明基于多尺度非线性能量算子TKEO（Teager-Kaiser energyoperator）的语音信号周期分割算法的流程图。

多尺度非线性能量算子TKEO表示为：

Y[x(n)]= x(n)2-x(n-1)x(n+1)

其中x(n)为离散语音信号，n代表采样点。

GCI时间往往对应于奇异点，其对其对应幅度应和前后相邻点有较大差异；根据TKEO表达式可以得知，与非GCI时刻相比，GCI时刻对应的TKEO绝对值相对较大。在此基础上，我们定义绝对绝对TKEO算子如下，并在后文中称之为aTKEO（absolute TKEO）算子：

|Y[x(n)]|= |x(n)2-x(n-1)x(n+1)|

在上述计算过程中，每个时刻的 TKEO 绝对值仅利用了样本点三个时刻的幅度进行计算；当直接用于 GCI 检测时，其鲁棒性还有待进一步增强。基于下述两个原因，可以采用多尺度策略来解决这一问题。一方面，多尺度分析方法扩大了局部分析的范围，使得算法结果与多个点的幅值相关，其鲁棒性得以增强。另一方面，奇异点的属性常在多个尺度中均有体现，因此采用多尺度分析时更能凸显奇异点的特征。

将 aTKEO 扩展至带尺度参数 L 的算子，简称为RaTKEO，定义如下：

|YL[x(n)]|=| x(n)2-x(n-L)x(n+ L)|

这里参数L为正整数。显然，样本点 x(n - L) （或 x(n +L) ）与 x(n) 的时间距离等于尺度参数 L。

特别地，aTKEO 的尺度参数等于 1。

假设多尺度分析中共最采用 M个尺度，则还需将这M个RaTKEO 的结果进行融合。可以采用用最大值融合、乘积融合和均值融合等融合策略；其中最大值融合是指逐点进行大值滤波，并将滤波结果作为融合的输出；乘积融合则是将 M个RaTKEO逐点相乘的结果作为输出，为了避免下溢出现象，可将其中的相乘转换到对数域的相加来实现；均值融合则对每个时刻点均进行均值滤波，并输出滤波结果。这三种融合方法可分别表示如下：

p₁(n)=max(|Y1[x(n)]|, |Y2[x(n)]|,…,|YM[x(n)]|)

p₂(n)=(|Yk[x(n)]| /k)

p₃(n)=|Yk[x(n)]|

上述式子中，尺度为 k 的 RaTKEO 算子被赋予权重 1/k，从而使得越靠近 GCI 的时刻点权重越高。若p2(n)的计算公式中经对数计算后存在负无穷大幅值时，则用 p2(n) 的均值对该点重新赋值。这里将这三种策略所对应的 GCI 提取算法分别称为 GMATmax、GMATprod 和 GMATmean。除去融合策略的不同，这三种算法的其他步骤完全一致。这里以GMATprod 为例说明提取 GCI 的后续步骤。

由于 p2 (n) 包络的波动性，若与其他周期内的点相比时，GCI 时刻附近的 p2(n) 幅值则不一定高。因此，对 p2 (n) 采用全局阈值的方法并不能准确提取 GCI。

为解决该问题，采用了下述高通滤波器：

其中j为循环变量，代表计算平均幅度时的窗口大小，q₁ (n)、q₂ (n)、q₃ (n)分别表示采用GMATmax、GMATprod 和GMATmean方法时，幅度陡增后与陡增前的平均幅度差值，分别利用 q₁(n)、q₂(n)、q₃(n) 中的过零点切割出幅度为正的区域，将信号分割成多个区域，且每个区域内包含一个 GCI真值,这个区域则为我们分割出来的一个周期。

S51、采用GMATmax方法时，对分割中的每个区域，检测 q₁ (n)幅度最高时的时刻，并记为 n11，同时检测该区域内 p1 (n) 中幅度最高的三个点，并将这三个点中与 n11 时间距离最近的点记为 n12；将 n11 与 n12 的平均值作为该区域内的 GCI 值。

S52、采用GMATprod方法时，对分割中的每个区域，检测 q₂ (n)幅度最高时的时刻，并记为 n21，同时检测该区域内 p2 (n) 中幅度最高的三个点，并将这三个点中与 n21时间距离最近的点记为 n22；将 n21 与 n22 的平均值作为该区域内的 GCI 值。

S53、采用GMATmean方法时，对分割中的每个区域，检测 q₃ (n)幅度最高时的时刻，并记为 n31，同时检测该区域内 p3 (n) 中幅度最高的三个点，并将这三个点中与 n31时间距离最近的点记为 n32；将 n31 与 n32 的平均值作为该区域内的 GCI 值。

S6、由GCI真值分别求出使用GMATmax、GMATprod 和GMATmean方法测出的周期Tmax、Tprod、Tmean，从检测率、漏检率、误检率、检测准确度、检测偏差五个方面评估三种尺度算法的可靠性与准确性，根据对性能要求的不同选择合适的尺度进行周期分割。

图2为为本发明TEKO算子与二阶导数算子，局部均值加权的二阶导数算的幅度变化曲线图。

图2中分别描述了二阶导数算子，局部均值加权的二阶导数算子，以及本发明中TKEO算子的幅度变化曲线图。

从曲线图中可以看出，相比于局部均值加权的二阶导数算子，本发明中TKEO算子曲线仅仅只有GCI真值附近有较大的峰值，但在其他处的幅值都相对较低，同时，相比二阶导数算子，局部均值加权的二阶导数算子，在同一时刻，TKEO算子的结果具有更大的峰值，具有很高的运算精度。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变换或改进，这些都属于本发明的保护范围。

Claims

1.一种基于多尺度非线性能量算子的语音信号周期分割方法，其特征在于，包括以下步骤：

S1、多尺度非线性能量算子TKEO表示为：

Y[x(n)]= x(n)2-x(n-1)x(n+1)

其中x(n)为离散语音信号，n代表采样点；

S2、定义绝对TKEO算子aTKEO（absolute TKEO）：

|Y[x(n)]|=|x(n)2-x(n-1)x(n+1)|

S3、将 aTKEO 扩展至带尺度参数 L 的算子RaTKEO，定义如下：

|YL[x(n)]|=| x(n)2-x(n-L)x(n+ L)|

其中，参数L为正整数；

p₁(n)=max(|Y1[x(n)]|,|Y2[x(n)]|,…,|YM[x(n)]|)

p₂(n)=(|Yk[x(n)]| /k)

p₃(n)=|Yk[x(n)]|

S5、采用下述高通滤波器检测幅度陡增时刻：

2.根据权利要求1所述的基于多尺度非线性能量算子的语音信号周期分割方法，其特征在于：样本点 x(n - L) 或 x(n +L) 与 x(n) 的时间距离等于尺度参数 L。

3.根据权利要求1所述的基于多尺度非线性能量算子的语音信号周期分割方法，其特征在于：步骤S5中，采用GMATmax方法时，对分割中的每个区域，检测 q₁ (n)幅度最高时的时刻，并记为 n11，同时检测该区域内 p1 (n) 中幅度最高的三个点，并将这三个点中与n11 时间距离最近的点记为 n12。

4.根据权利要求3所述的基于多尺度非线性能量算子的语音信号周期分割方法，其特征在于：将 n11 与 n12 的平均值作为该区域内的 GCI 值。

5.根据权利要求1所述的基于多尺度非线性能量算子的语音信号周期分割方法，其特征在于：步骤S5中，采用GMATprod方法时，对分割中的每个区域，检测 q₂ (n) 幅度最高时的时刻，并记为 n21，同时检测该区域内 p2 (n) 中幅度最高的三个点，并将这三个点中与n21 时间距离最近的点记为 n22。

6.根据权利要求5所述的基于多尺度非线性能量算子的语音信号周期分割方法，其特征在于：将 n21 与 n22 的平均值作为该区域内的 GCI 值。

7.根据权利要求1所述的基于多尺度非线性能量算子的语音信号周期分割方法，其特征在于：步骤S5中，采用GMATmean方法时，对分割中的每个区域，检测 q₃ (n)幅度最高时的时刻，并记为 n31，同时检测该区域内 p3 (n) 中幅度最高的三个点，并将这三个点中与n31 时间距离最近的点记为 n32。

8.根据权利要求7所述的基于多尺度非线性能量算子的语音信号周期分割方法，其特征在于：将 n31 与 n32 的平均值作为该区域内的 GCI 值。