CN104867493A

CN104867493A - 基于小波变换的多重分形维数端点检测方法

Info

Publication number: CN104867493A
Application number: CN201510169332.7A
Authority: CN
Inventors: 罗斌; 赵彤洲
Original assignee: Wuhan Institute of Technology
Current assignee: Wuhan Institute of Technology
Priority date: 2015-04-10
Filing date: 2015-04-10
Publication date: 2015-08-26
Anticipated expiration: 2035-04-10
Also published as: CN104867493B

Abstract

本发明公开了一种基于小波变换的多重分形维数端点检测方法，该方法包括以下步骤：使用小波变换对语音信号进行去噪处理，得到小波重构去噪后的语音信号；对小波重构之后的语音信号进行分帧处理；计算语音信号的多重分形维数，得到每一个帧窗口的多重分形维数；分别计算每一个帧窗口的多重分形维数与语音段的多重分形维数和非语音段的多重分形维数的相关性；绘制两个相关性函数的曲线图，两曲线的交汇处即为语音信号的起始点和结束点。本发明方法能在低信噪比的情况下有效进行语音信号的端点检测。

Description

基于小波变换的多重分形维数端点检测方法

技术领域

本发明涉及语音识别技术领域，尤其涉及一种基于小波变换的多重分形维数端点检测方法。

背景技术

语音识别技术作为21世纪科技的主要研究方向之一。实际生活中，语音信号往往伴有噪声或其它干扰，而语音处理系统的处理对象是有效的语音信号，这就需要采用一定技术从混杂信号中分割出有效的语音段。针对语音通信，找到有效语音的始末位置，并对其有效语音进行编码、传输，可以很大程度节省系统资源；而对于语音识别，特别是大词量的连续语音识别，语音段和音节的分割对后续的识别过程非常有益。现阶段，国内外的一些语音识别系统中已经应用了不同端点检测技术，也有许多研究者对实际应用中的端点检测进行了研究。LU Lie等人提出基于时域特征参数检测方法。这种算法基于以下原理：在信噪比较高的情况下，噪声和语音的区分点区域，由于信号帧的变化较剧烈，选取的参数是一个小于1的正数；而在噪声区间或者语音区间，由于信号不同，帧间的能量较平稳，变化不大，选取参数为0值。Rabiner等人提出基于LPC欧氏距离测度的方法，其算法主要思路是：先对这三种语音各自进行训练，得到各自的频域特性；然后利用LPC的测度和能量的非线性组合来对这三种语音进行检测。

但是，现有解决方案存在如下一些问题：在低信噪比的情况下,一些端点检测算法的效果就会显著失效。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷，提供一种基于小波变换的多重分形维数端点检测方法。

本发明解决其技术问题所采用的技术方案是：基于小波变换的多重分形维数端点检测方法,包括以下步骤：

1)使用小波变换对语音信号进行去噪处理，得到小波重构去噪后的语音信号；

2)对小波重构之后的语音信号进行分帧处理；

3)计算语音信号的多重分形维数，得到每一个帧窗口的多重分形维数；

4)分别计算每一个帧窗口的多重分形维数与和的相关性，记语音段的相关性函数为R(X¹,x),非语音段的相关性函数为R(X²,x)；其中表示语音段的多重分形维数，取值为表示非语音段的多重分形维数，取值为

D_{q}^{X_{2}} = [1.5139,1.7324,1.1734];

5)绘制两个相关性函数R(X¹,x)和R(X²,x)的曲线图，两曲线的交汇处即为语音信号的起始点和结束点。

按上述方案，所述步骤1)中小波重构语音信号，选择合适的阈值T，大于尺度T的噪音和语音信号被平滑处理。

按上述方案，所述步骤1)中阈值T的选取过程如下，在给定一个初始值之后，根据对重构之后的信号与噪音进行相关性分析自适应调整阈值T的大小。

按上述方案，所述步骤3)中语音信号多重分形维数的计算方法如下：

(3.1)对不同语音信号X(t)进行数据采集，设采样点数为M，采样频率为f，则采样间隔采样信号表示为X(k),k＝1,2,3…M；

(3.2)对分形维数集合进行网格划分，在ε网格划分中，取网格宽度为ε_j＝2jΔt，其中j为网格划分的种类数；则网格的行数和列数可以表示为s(j)＝MΔt/ε_j；

定义m行n列的网格为mn网格，落入mn网格内的数据点数为N_mn，则mn网格覆盖信号的概率为P_mn(ε_j)＝N_mn/M，结合General信息熵可得到：其中q为给定参数，K_q为General信息熵值；

(3.3)改变网格尺度ε大小，可计算出一系列的General信息熵K_q(ε_j)值，从而在lgε_j-K_q(ε_j)图上得到无标度区范围，在该区间内进行一次曲线拟合则可获得广义维度值D_q；

(3.4)在无标度区区间内进行一次曲线拟合则可获得广义维度值D_q；

设x(j)＝K_q(ε_j),y(j)＝lgε_j，拟合直线为y(j)＝-D_qx(j)+b；建立最小二乘法拟合函数为使得拟合函数获得最小值的条件为：

\{\begin{matrix} \frac{&PartialD; f}{&PartialD; D_{q}} = 2 Σ_{j = 1}^{n} [y (j) + D_{q} x (j) - b] x (j) = 0 \\ \frac{&PartialD; f}{&PartialD; b} = - 2 Σ_{j = 1}^{n} [y (j) + D_{q} x (j) - b] = 0 \end{matrix}\}

此时，广义维数为

D_{q} (ϵ_{j}) = \frac{Σ_{j = 1}^{n} x (j) y (j) - Σ_{j = 1}^{n} x (j) Σ_{j = 1}^{n} y (j)}{Σ_{j = 1}^{n} {[x (j)]}^{2} - {[Σ_{j = 1}^{n} x (j)]}^{2}} .

按上述方案，所述步骤4)中相关性的计算公式为：

R (i, x) = \frac{1}{\sqrt{Σ_{q = 0}^{n} {(D_{q}^{i} - D_{q}^{x})}^{2}}}

其中表示第i个帧窗口所对应的多重分形维数，x为语音信号的状态空间{X¹,X²}中某一种状态。

按上述方案，语音段的多重分形维数和非语音段的多重分形维数通过训练获得，具体过程如下：

(4.1)语音信号具有分形特性，通常实际生活中没有完全纯净的语音信号，我们将非纯净的语音信号定义在两个状态空间：语音段X₁和非语音段X₂，则有Z＝{X₁,X₂}。

(4.2)对不同语音信号X(t)进行数据采集，设采样点数为M，采样频率为f，则采样间隔采样信号表示为X(k),k＝1,2,3…M；

(4.3)人为标记语音信号的语音段和非语音段，得到语音段样本空间Y₁和非语音段样本空间Y₂。

(4.4)依据步骤3.2)至3.4)所述多重分形维数的计算方法，得到样本空间Y₁和Y₂的多重分形维数集合：和其中N和M分别表示语音段和非语音段的样本数；

(4.5)语音段的多重分形维数和非语音段的多重分形维数可近似表示为：

D_{q}^{X_{1}} = [Σ_{i = 1}^{N} D_{1}^{i} / N, Σ_{i = 1}^{N} D_{2}^{i} / N, . . ., Σ_{i = 1}^{N} D_{n}^{i} / N]

D_{q}^{X_{2}} = [Σ_{j = 1}^{N} D_{1}^{j} / M, Σ_{j = 1}^{N} D_{2}^{j} / M, . . ., Σ_{j = 1}^{N} D_{n}^{j} / M] .

本发明产生的有益效果是：在低信噪比的情况下有效进行语音信号的端点检测。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例的语音端点检测的流程图。

图2为采样原始语音信号。

图3为小波重构去噪后的语音信号。

图4为多重分形维数相关性的拟合曲线。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，基于小波变换的多重分形维数端点检测方法,包括以下步骤：

1)使用小波变换对语音信号进行去噪处理，得到小波重构去噪后的语音信号；图2为为采样原始语音信号，图3为小波重构去噪后的语音信号。

2)对小波重构之后的语音信号进行分帧处理；

具有分形特性的语音信号在一定范围尺度经过小波变换之后会表现出等价标度不变性。具体证明过程如下：J(x)表示一个基本的小波，函数f(x)∈L²(R)的连续小波变换定义为

{WT}_{x} (a, b) = \frac{1}{\sqrt{a}} &Integral; f (x) J^{*} [\frac{x - b}{a}] dx

结合2)中提到的特性，语音信号进过小波变换之后可以表示如下：

\begin{matrix} {WT}_{x} (β_{T}, β_{x_{0}}) = \frac{1}{\sqrt{β_{T}}} &Integral; f (x) J^{*} [\frac{x - β_{x_{0}}}{β_{T}}] dx \\ = \frac{1}{\sqrt{β_{T}}} &Integral; β^{U} f (x) J^{*} [\frac{β_{x} - β_{x_{0}}}{β_{x_{T}}}] d β_{x} \\ = β^{U + \frac{1}{2}} | T | - \frac{1}{2} &Integral; f (x) J^{*} [\frac{x - x_{0}}{T}] dx \\ = β^{U + \frac{1}{2}} {WT}_{x} (T, x_{0}) \end{matrix}

语音信号f(x)具有等价的标度指数。因此，只要保证在一定的尺度内，在经过小波重构之后的语音信号也可以计算出真实的多重分形维数。

具体如下：(3.1)对不同语音信号X(t)进行数据采集，设采样点数为M，采样频率为f，则采样间隔采样信号表示为X(k),k＝1,2,3…M；

(3.2)将语音信号的分形维数视为一个集合空间，采用覆盖法，对其进行网格划分，在ε网格划分中，取网格宽度为ε_j＝2jΔt，其中j为网格划分的种类数；则网格的行数和列数可以表示为s(j)＝MΔt/ε_j；

设x(j)＝K_q(ε_j),y(j)＝lgε_j，拟合直线为y(j)＝-D_qx(j)+b；建立最小二乘法拟合函数为

使得拟合函数获得最小值的条件为：

\{\begin{matrix} \frac{&PartialD; f}{&PartialD; D_{q}} = 2 Σ_{j = 1}^{n} [y (j) + D_{q} x (j) - b] x (j) = 0 \\ \frac{&PartialD; f}{&PartialD; b} = - 2 Σ_{j = 1}^{n} [y (j) + D_{q} x (j) - b] = 0 \end{matrix}\}

此时，广义维数为

D_{q} (ϵ_{j}) = \frac{Σ_{j = 1}^{n} x (j) y (j) - Σ_{j = 1}^{n} x (j) Σ_{j = 1}^{n} y (j)}{Σ_{j = 1}^{n} {[x (j)]}^{2} - {[Σ_{j = 1}^{n} x (j)]}^{2}} .

4)分别计算每一个帧窗口的多重分形维数与和的相关性，记语音段的相关性函数为R(X¹,x),非语音段的相关性函数为R(X²,x)；其中表示语音段的多重分形维数，取值为表示非语音段的多重分形维数，取值为相关性的计算公式为：

R (i, x) = \frac{1}{\sqrt{Σ_{q = 0}^{n} {(D_{q}^{i} - D_{q}^{x})}^{2}}}

语音段的多重分形维数和非语音段的多重分形维数通过训练获得，具体过程如下：

D_{q}^{X_{1}} = [Σ_{i = 1}^{N} D_{1}^{i} / N, Σ_{i = 1}^{N} D_{2}^{i} / N, . . ., Σ_{i = 1}^{N} D_{n}^{i} / N]

D_{q}^{X_{2}} = [Σ_{j = 1}^{N} D_{1}^{j} / M, Σ_{j = 1}^{N} D_{2}^{j} / M, . . ., Σ_{j = 1}^{N} D_{n}^{j} / M] .

5)如图4所示，绘制两个相关性函数R(X¹,x)和R(X²,x)的曲线图，两曲线的交汇处即为语音信号的起始点和结束点。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于小波变换的多重分形维数端点检测方法,包括以下步骤：

2)对小波重构之后的语音信号进行分帧处理；

4)分别计算每一个帧窗口的多重分形维数与和的相关性，记语音段的相关性函数为R(X¹,x),非语音段的相关性函数为R(X²,x)；其中表示语音段X₁的多重分形维数；表示非语音段X₂的多重分形维数；

2.根据权利要求1所述的端点检测方法，其特征在于，所述步骤1)中小波重构语音信号，选择合适的阈值T，大于尺度T的噪音和语音信号被平滑处理。

3.根据权利要求2所述的端点检测方法，其特征在于，所述步骤1)中阈值T的选取过程如下，在给定一个初始值之后，根据对重构之后的信号与噪音进行相关性分析自适应调整阈值T的大小。

4.根据权利要求1所述的端点检测方法，其特征在于，所述步骤3)中语音信号多重分形维数的计算方法如下：

\{\begin{matrix} \frac{&PartialD; f}{&PartialD; D_{q}} = 2 Σ_{j = 1}^{n} [y (j) + D_{q} x (j) - b] x (j) = 0 \\ \frac{&PartialD; f}{&PartialD; b} = - 2 Σ_{j = 1}^{n} [y (j) + D_{q} x (j) - b] = 0 \end{matrix}\}

此时，广义维数为

D_{q} (ϵ_{j}) = \frac{Σ_{j = 1}^{n} x (j) y (j) - Σ_{j = 1}^{n} x (j) Σ_{j = 1}^{n} y (j)}{Σ_{j = 1}^{n} {[x (j)]}^{2} - {[Σ_{j = 1}^{n} x (j)]}^{2}} .

5.根据权利要求1所述的端点检测方法，其特征在于，所述步骤4)中相关性的计算公式为：

R (i, x) = \frac{1}{\sqrt{Σ_{q = 0}^{n} {(D_{q}^{i} - D_{q}^{x})}^{2}}}

6.根据权利要求1所述的端点检测方法，其特征在于，语音段的多重分形维数和非语音段的多重分形维数通过训练获得，具体过程如下：

(4.1)语音信号具有分形特性，将非纯净的语音信号定义在两个状态空间：语音段X₁和非语音段X₂，则有Z＝{X₁,X₂}。

(4.4)依据步骤3.2)至3.4)所述多重分形维数的计算方法，得到样本空间Y₁和Y₂的多重分形维数集合：

D_{q}^{Y_{1}} = [D_{q}^{1}, D_{q}^{2}, . . . D_{q}^{N}]

和

D_{q}^{Y_{2}} = [D_{q}^{1}, D_{q}^{2}, . . . D_{q}^{M}],

其中N和M分别表示语音段和非语音段的样本数；

D_{q}^{X_{1}} = [Σ_{i = 1}^{N} D_{1}^{i} / N, Σ_{i = 1}^{N} D_{2}^{i} / N, . . ., Σ_{i = 1}^{N} D_{n}^{i} / N]

D_{q}^{X_{2}} = [Σ_{j = 1}^{N} D_{1}^{j} / M, Σ_{i = 1}^{N} D_{2}^{j} / M, . . ., Σ_{i = 1}^{N} D_{n}^{j} / M] .

7.根据权利要求6所述的端点检测方法，其特征在于，表示语音段的多重分形维数，取值为表示非语音段的多重分形维数，取值为

D_{q}^{X_{2}} = [1.5139,1.7324,1.1734] .