CN101290766A

CN101290766A - 安多藏语语音音节切分的方法

Info

Publication number: CN101290766A
Application number: CNA2007100978476A
Authority: CN
Inventors: 戴玉刚; 武光利; 于洪志; 曹晖; 单广荣; 满正行; 李应兴
Original assignee: Northwest Minzu University
Current assignee: Northwest Minzu University
Priority date: 2007-04-20
Filing date: 2007-04-20
Publication date: 2008-10-22

Abstract

藏语语音的音节切分是藏语语音信息处理的重要组成部分和必要的环节，为藏语语音识别和语音库的制作奠定了基础，现在还没有藏语的语音音节切分的软件。通过提取安多藏语语音的时域参数短时能量和短时过零率，利用特定的算法，实现藏语的音节切分。通过对30例连续的安多藏语语音进行音节切分，切分的准确率达到30.6％。

Description

安多藏语语音音节切分的方法

所属技术领域

安多藏语语音音节切分的方法是属于藏语语音库的制作和藏语语音识别领域，是第一关键技术。

背景技术

众所周知，语言是人类进行相互通信和交流的最方便最快捷的手段，它自然方便、快捷高效。随着电子计算机和人工智能的广泛应用，人和机器之间最好的通信方式是语言通信，而语音是语言的声学表现形式。要使机器听懂人讲话，并能说出话来，需要做许多工作，这就是语音合成和语音识别技术。在高度发达的信息社会中用数字化的方法进行语音的传送、储存、OR识别、合成、增强是整个数字化通信网中最重要、最基本的组成部分之一。

计算机的高速发展为我们更好地驾驭语言提供了可能。语音识别近年来得到了迅猛发展。人们不需要学习许多种计算机语言，只需要把要做的事情告诉给计算机，而计算机就可根据你的指令完成各种任务，工作也会变得更加有成效。如果你要播放影碟，那么你可以告诉计算机“播放影碟”而不用找到播放软件，在“打开”处单击一下，最后还需要在所要打开的文件再单击一下。语音识别使得语音输入代替了键盘输入，实现了人与计算机的直接对话，同时加速了信息的处理过程。

而藏语语音的信息处理，还基本上是一片空白，随着藏族人们生活的提高，藏族同胞急切的需要高科技给他们带来便利，以便更好的促进藏族地区的发展。藏族有统一的书面语，但其口语因地而异，至今尚未形成全民族公认的口头标准语或普通话，藏语分为三大方言，本文数据源采用的安多藏语。

藏语连续语音的自动分割是藏语语音识别和制作藏语音节库所遇到的第一关键技术。首先就要将藏语音节字从语音信号流的背景噪声中分割出来，找出语音的开始和终止。这在许多语音处理领域中是很基本的问题。特别是在孤立单字的自动识别时，找出每个单字的语音信号范围，将声母、韵母分割开是很重要的。确定语音信号的开始和终止的方案可用来减少非实时系统的大量计算，使该系统仅处理语音输入。只有将各音节中的声韵母区分开，才能进行藏语声学参数的分析和识别，才能进行藏语音库的制作。当然，如果不考虑分割的实时性，可以采用人工分割的方法：先将语言信号流的波形打印出来，然后用标尺在波形图上测量，就可以准确得到分割的结果。由于这种人工分割的准确性高，所以各种用计算机自动分割的准确度都是与人工分割结果比较而言的。

发明内容

藏语连续语音音节的自动分割是藏语语音识别和制作藏语音节库所遇到的第一关键技术。这在许多语音处理领域中是很基本的问题。通过藏语语音时域参数短时能量和短时过零率，来判断语音的音节，实现语音的音节切分。

本发明由以下几个部分组成：安多藏语语音时域参数的提取、藏语语音端点检测、音节切分算法的设计、切分结果的实现和显示。

1.安多藏语时域参数的提取

1.1短时能量

设语音信号为S(m)，短时能量的定义：

E_{n} = Σ_{m = n}^{n + N - 1} {[S (m) w (n - m)]}^{2}

若令h(n)＝w²(n)，则

E_{n} = Σ_{m = 0}^{N - 1} x^{2} (m) h (n - m) = x (n) * h (n)

其中窗函数为哈明窗，为：

卷积的一个重要用途就是滤波，所谓滤波，就是通过一定的运算去掉信号中某些不需要的部分，比如高频部分或者低频部分。滤波的过程就是原始信号和滤波器的单位冲激响应的卷积过程。高通滤波器和低通滤波器有着各自自身的单位冲激响应的卷积运算，达到了去掉信号中低频部分或者高频部分的目的。

上式表示，窗口加权的短时能量相当于将“语音平方”信号通过一个线性滤波器的输出，该滤波器的单位取样响应为h(n)。因此，冲激响应h(n)的选择或者说窗函数的选择直接影响着短时能量的计算。若h(n)幅度恒定且序列长度N(即窗长)很长，这样的窗等效为很窄的低通滤波器，此时h(n)对x²(m)的平滑作用非常显著，使得短时能量几乎没有多大变化，无法反映语音的时变特性。反之，若h(n)序列长度N过小，那么等效窗又不能提供足够的平滑，以至于语音振幅瞬时变化的许多细节仍然被保留了下来，从而看不出振幅包络的变化规律。

通常N的选择与语音的基音周期相联系，一般要求窗长为几个基音周期的数量级。因此我们选择的帧长为10～30ms。

1.2短时过零率

短时平均过零率是语音信号时域分析中最简单的一种特征。顾名思义，它是指每帧内信号通过零值的次数。对于离散信号，短时平均过零率实质上就是信号采样点符号变化的次数。短时平均过零率仍然可以在一定程度上反映其频谱性质，可以通过短时平均过零率获得谱特性的一种粗略估计。短时平均过零率的公式为

Z_{n} = \frac{1}{2 N} Σ_{m = n - N + 1}^{n} | sgn [x (m)] - sgn [x (m - 1)] | w (n - m)

其中，sgn[]函数的定义如下，即

sgn | x (n) | = \{\begin{matrix} 1 & x (n) &GreaterEqual; 0 \\ - 1, & x (n) < 0 \end{matrix}

窗函数w(n)为矩形窗，即

根据语音的产生模型可知，发浊音时，声带振动，尽管声道有多个共振峰，但由于声门波引起了频谱的高频衰落，因此浊音能量集中于3kHZ以下。但是对于清音而言，由于声带不振动，由声道的某些部位阻塞气流产生类白噪声，多数能量集中在较高的频率上。高频率对应着高过零率，低频率对应着低过零率，那么过零率与语音的清浊音特性就存在着对应关系。一般的经验结论是，清音和浊音的过零率分布大致为高斯分布，单纯依赖于短时过零率来准确判断清浊音是不可能的，在实际应用中往往是采用语音的多个特征参数来进行综合判决。

可以通过短时平均过零率和短时能量结合起来判断语音起止点的位置，即端点检测。在背景噪声较小的情况下，短时能量比较准确，但当背景噪声较大时，短时平均过零率可以获得较好的检测结果。

2.藏语语音的端点检测

输入为归一化的语音段x和采样率Fs

(1)求原始信号从每点开始的长度为Len内的短时过零率，得到crslt为每点对应的短时过零率

(2)然后进行过零率波形的平滑，其方法是对crslt做fft，去掉过零率波形中的高频，即fft谱中间置零；用ifft恢复平滑后的过零率波形为C2

(3)根据设置的过零率门限zero_threshold，将平滑后的过零率C2中不超过门限的置1

(4)计算原始信号中每点开始的FrameLength短时帧能量，得到E

(5)平滑短时能量谱得到E3，且进行归一化E3＝E3./max(E3)；

(6)根据归一化能量门限energy_threshold，平滑后的过零率中超过门限的置1得到E4

(7)将过零率和归一化能量相与：v＝E4&C3；

对这个v进行每点过零判断，cross2记录v总共的过零次数，pt(cross2)＝n；用来记录每次过零时对应第几个样点

(8)通过v(1)是否为1以及cross2是偶数还是奇数确定端点矩阵T；

3.音节切分算法的设计

音节切分算法：

作为语音音节的分割，必须找到语音信号的起始点和终止点即语音信号的头和尾，同时去掉语音信号间隔.为此给出语音音节自动划分的方法如下：

1)确定短时过零区间

在时间轴t上找出区间使得满足：

①A(x₁)＝0，A(x₂)＝0；

②对任意t₁，t₂∈(x₁，x₂)的有A(t₁)A(t₂)＞0

其中A(t)表示在时刻t的振幅值

2)确定短时过零区间上的能量——短时能量

前面已经说过，能量反映在振幅上，于是短时过零区间[a，b]上的能量——短时能量为：

S = Σ_{k = 1}^{n} {A (t_{k})}^{2}, k = 1,2 . . ., n

3)语音信号的判定

假设存在连续的短时过零区间序列{[a_i，b_i]}，i＝1，2，....，m ，由于短时过零区间[a，b]通常比较短，因此S的值也不会很大。对于非语音信号，短时过零区间不会连续出现许多，m不会很大，因此当短时过零区间序列满足给定的条件时，可以认定为语音信号.这个条件可以从两方面给出：

①给定较大的长度L有

b_m-a₁≥L

即连续的短时过零区间序列可以达到一定的宽度，一般取L＝2000；

②给定一个限制值P有

\frac{1}{m} Σ_{i = 1}^{m} S_{i} / (b_{i} - a_{i}) &GreaterEqual; P

这是限定单个短时过零区间的平均振幅，当时可以认为振幅过小，声音无法听到，P的值视录音效果和方式决定.

4)基于能量分布的音节自动划分方法

①打开录制的WAV文件，指针指向数据段的开始，给人限制值L和P；

②开始搜索短时过零区间[a，b]，直到指针指向数据段结束时转到⑤，如果找到短时过零区间[a_i，b_i]，计算短时能量S，否则结束；

③判断下一短时过零区间与[a_i，b_i]是否连续，如果连续，计算新的短时过零能量并做

S/(b-a)≥P判断，若成立则继续，否则转到②，如果不连续，转到④；

④计算连续的短时过零区间序列长度L，若

b_m-a₁≥L

则记录为一个语音音节，否则到②；

⑤输出语音音节个数及起始点a_i，终止点b_m，结束。

附图说明

图1藏语

(汉语为“春夏秋冬为四季”)的Wave文件显示的部分波形图。

图2藏语

(汉语为“春夏秋冬为四季”)的部分短时平均幅度图。

图3藏语

(汉语为“春夏秋冬为四季”)的部分短时平均过零率图。

图4藏语

(汉语为“春夏秋冬为四季”)的显示的

部分图的音节切分结果，其中红色线为切分标记。

图5语音切分的模块图。

主要功能函数定义如下：

1)void MainProcess()，作用：读取藏语语音数据。

当打开文件时，调用MainProcess()函数，便可将wave文件中需要的数据读入内存，便于我们对语音数据进行处理。

2)double HammingWinFunc(lpLink Link)，作用：给语音加窗并求的语音的短时平均幅度，参数Link为输入的语音数据的头指针。

3)Void GetZero(unsigned int nWinSize，lpLink pInLink，unsigned int nInLen，unsigned int * dataoutzeero)

作用：计算藏语语音的短时平均过零率，参数nWinSize为加窗的窗长，pInLink输入语音信号的头指针，nInLen为输入语音信号的长度，*dataoutzero输出过零率序列。

4)Void SyllablesSegmentation()，作用：通过前面的函数计算语音信号的短时平均过零率与短时平均幅度，通过算法实现藏语语音的音节切分。

5)void Drawzbl(CDC*pDC)，作用：显示切分后的藏语语音。参数*pDC是用来画图的。

具体实施方式

采用软件VC++6.0，读取wave文件，通过wave文件中的数据区的数据，计算短时能量和短时过零率，再通过上述描述的语音音节切分的算法，实现语音的音节切分。

实施例：安多藏语语音的音节切分。

通过对录制的安多藏语连续语音共30例进行切分，切分的准确率达到30.6％。

Claims

藏语语音的音节切分是藏语语音信息处理的重要组成部分和必要的环节，现在还没有藏语的语音音节切分的软件。藏语语音的音节切分是实现藏语语音识别的基础和前提。

1.音节切分需要的参数：

1.1短时能量

设语音信号为S(m)，短时能量的定义：

$E_{n} = Σ_{m = n}^{n + N - 1} {[S (m) w (n - m)]}^{2}$

其中窗函数为哈明窗，为：

窗长为N

短时平均能量特征主要用途如下：

1)可以作为区分清音段和浊音段的特征参数。实验结果表明浊音段的能量E_n明显高于清音段。

2)在信噪比较高的情况下，短时能量还可以作为区分有声和无声的依据。

3)可以作为辅助的特征参数用于语音识别中。

1.2短时平均过零率

短时平均过零率是语音信号时域分析中最简单的一种特征。顾名思义，它是指每帧内信号通过零值的次数。

对于离散信号，短时平均过零率实质上就是信号采样点符号变化的次数。短时平均过零率仍然可以在一定程度上反映其频谱性质，可以通过短时平均过零率获得谱特性的一种粗略估计。短时平均过零率的公式为

$Z_{n} = \frac{1}{2 N} Σ_{m = n - N + 1}^{n} | sgn [x (m)] - sgn [x (m - 1)] | w (n - m)$

其中，sgn[]为符号函数，即

$sgn | x (n) | = \{\begin{matrix} 1 & x (n) &GreaterEqual; 0 \\ - 1, & x (n) < 0 \end{matrix}$

窗函数w(n)为矩形窗，即

N为窗长。

可以通过短时平均过零率和短时能量结合起来判断语音起止点的位置，即端点检测。在背景噪声较小的情况下，短时能量比较准确，但当背景噪声较大时，短时平均过零率可以获得较好的检测结果。

2.端点检测：

输入为归一化的语音段x和采样率Fs

(1)求原始信号从每点开始的长度为Len内的短时过零率，得到crslt为每点对应的短时过零率

(2)然后进行过零率波形的平滑，其方法是对crslt做fft，去掉过零率波形中的高频，即fft谱中间置零；用ifft恢复平滑后的过零率波形为C2

(3)根据设置的过零率门限zero_threshold，将平滑后的过零率C2中不超过门限的置1

(4)计算原始信号中每点开始的FrameLength短时帧能量，得到E

(5)平滑短时能量谱得到E3，且进行归一化E3＝E3./max(E3)；

(6)根据归一化能量门限energy_threshold，平滑后的过零率中超过门限的置1得到E4

(7)将过零率和归一化能量相与：v＝F4&C3；

对这个v进行每点过零判断，cross2记录v总共的过零次数，pt(cross2)＝n；用来记录每次过零时对应第几个样点

(8)通过v(1)是否为1以及cross2是偶数还是奇数确定端点矩阵T；

v(1)＝1则认为起始点为浊音点，v(1)＝0则认为清音或者静默；

v(1)是否为1决定了起点b的设置；

cross2的奇偶决定了起点和终点的配对；

所以分四种情况考虑：

例如：if(v(1)＝0&(mod(cross2，2)＝0))％％Low，even

则b＝pt(n)；e＝pt(n+1)；

依次判断每一对起点终点间距是否大于20ms帧长，如果大于则认为是该起始点成立，间距为一段浊音；

最后可以得到矩阵T，每一列代表一段浊音，第一行代表起点，第二行代表终点

3.音节切分：

音节切分算法：

作为语音音节的分割，必须找到语音信号的起始点和终止点即语音信号的头和尾，同时去掉语音信号间隔.为此给出语音音节自动划分的方法如下：

1)确定短时过零区间

在时间轴t上找出区间使得满足：

①A(x₁)＝0，A(x₂)＝0；

②对任意t₁，t₂ ∈(x₁，x₂)的有A(t₁)A(t₂)＞0

其中A(t)表示在时刻t的振幅值

2)确定短时过零区间上的能量——短时能量

前面已经说过，能量反映在振幅上，于是短时过零区间[a，b]上的能量——短时能量为：

$S = Σ_{k = 1}^{n} {A (t_{k})}^{2}, k = 1,2, . . ., n$

3)语音信号的判定

假设存在连续的短时过零区间序列{[a_i，b_i]}，i＝1，2，....，m，由于短时过零区间[a，b]通常比较短，因此S的值也不会很大。对于非语音信号，短时过零区间不会连续出现许多，m不会很大，因此当短时过零区间序列满足给定的条件时，可以认定为语音信号.这个条件可以从两方面给出：

①给定较大的长度L有

b_m-a₁≥L

即连续的短时过零区间序列可以达到一定的宽度，一般取L＝2000；

②给定一个限制值P有

$\frac{1}{m} Σ_{i = 1}^{m} S_{i} / (b_{i} - a_{i}) &GreaterEqual; P$

这是限定单个短时过零区间的平均振幅，当时可以认为振幅过小，声音无法听到，P的值视录音效果和方式决定.

4)基于能量分布的音节自动划分方法

①打开录制的WAV文件，指针指向数据段的开始，给人限制值L和P；

②开始搜索短时过零区间[a，b]，直到指针指向数据段结束时转到⑤，如果找到短时过零区间[a_i，b_i]，计算短时能量S，否则结束；

③判断下一短时过零区间与[a_i，b_i]是否连续，如果连续，计算新的短时过零能量并做S/(b-a)≥P判断，若成立则继续，否则转到②，如果不连续，转到④；

④计算连续的短时过零区间序列长度L，若

b_m-a₁≥L

则记录为一个语音音节，否则到②；

⑤输出语音音节个数及起始点a_i，终止点b_m，结束。

主要功能函数定义如下：

1)void MainProcess()，作用：读取藏语语音数据。

当打开文件时，调用MainProcess()函数，便可将wave文件中需要的数据读入内存，便于我们对语音数据进行处理。

2)double HammingWinFunc(lpLink Link)，作用：给语音加窗并求的语音的短时平均幅度，参数Link为输入的语音数据的头指针。

3)Void GetZero(unsigned int nWinSize，lpLink pInLink，unsigned int nInLen，unsigned int*dataoutzero)

作用：计算藏语语音的短时平均过零率，参数nWinSize为加窗的窗长，pInLink输入语音信号的头指针，nInLen为输入语音信号的长度，*dataoutzero输出过零率序列。

4)Void SyllablesSegmentation()，作用：通过前面的函数计算语音信号的短时平均过零率与短时平均幅度，通过算法实现藏语语音的音节切分。

5)void Drawzb1(CDC*pDC)，作用：显示切分后的藏语语音。参数*pDC是用来画图的。