CN101419796A

CN101419796A - 自动分割单字语音信号的装置与方法

Info

Publication number: CN101419796A
Application number: CNA200810232545XA
Authority: CN
Inventors: 陈淮琰; 韩召宁; 杨亚冬
Original assignee: Inventec Besta Xian Co Ltd
Current assignee: Inventec Besta Xian Co Ltd
Priority date: 2008-12-02
Filing date: 2008-12-02
Publication date: 2009-04-29

Abstract

本发明涉及一种自动分割单字语音信号的装置与方法，该装置包含接收模块，用来接收单字语音信号，并将单字语音信号划分为多个音框；分析模块，分析音框，产生对应于每一个音框的语音特征；分割模块，根据语音特征，分割单字语音信号为音节，接收模块接入分析模块，分析模块接入分割模块，本发明完全替代了传统的人工切分单字语音的方式，整个过程不需要人工介入，省时省力，效率高，且大大降低了人为带来的失误率。

Description

自动分割单字语音信号的装置与方法

技术领域

本发明涉及一种分割单字语音信号的装置与方法，尤其是一种自动分割单字语音信号的装置与方法。

背景技术

在语言学习过程中，常会借助许多语言学习工具，如电子辞典等，用来增加学习效果与加快学习速度。目前一般的电子辞典都具有发音的功能，也就是说当使用者通过电子辞典查询单字或例句后，可通过发音的功能，而听取正确的单字或例句的发音。如此，将可大幅提升使用者在语言学习上，在听与说方面的能力。因此，有越来越多的厂商日益重视电子辞典的发音功能。

近来电子辞典标榜具有真人发音的功能，已成为各厂商所诉求的特色。而真人发音可通过真人来录制各个单字的声波，而达到真人发音的功能。然而，利用真人来录制所有单字的声波，将耗费掉电子辞典内存非常多的储存空间，进而提升成本的支出。

因此，发展出通过发音合成的方式，而达到接近真人发音的功能，如此可节省内存的空间，也同时提高发音的质量。发音合成的方式一般可分为两种，以英文单字为例说明如下。

第一种方式，依照英文辞典单字表中的音标来决定音节。在合成一个英文单字的语音数据前，必须先将此英文单字分割为单个或多个音节，再由原始录音的数据中获取出与音节相对应的声波，并加以结合即可。

第二种方式，录制所有各种声母、韵母及音调组合的各个音节声波，并储存在内存中。在合成一个英文单字的语音数据前，必须先将此英文单字分割为单个或多个音节，再由录制的数据中获取出与分割后的各个音节相对应的声波，并加以结合即可。

由上述说明可知，不论是哪种发音合成的方式，都必须先将英文单字分割为单个或多个音节，才能进行后续的处理。而传统的作法上，是通过人耳听音而利用手工切分。如此，需投入大量的人力与工时才能完成。另外，手工切分音节的工作枯燥、数量庞大，且采用人耳听音而作音节的切分，极易产生误差。

因此，如何解决传统上人工切分单字语音所衍生的问题，为亟待解决的议题。

发明内容

本发明为解决背景技术中存在的上述技术问题，而提出一种自动分割单字语音信号的装置与方法。

本发明的技术解决方案是：本发明为一种自动分割单字语音信号的装置，其特殊之处在于：该装置包括：接收模块，用来接收单字语音信号，并将单字语音信号划分为多个音框；分析模块，分析音框，产生对应于每一个音框的语音特征；分割模块，根据语音特征，分割单字语音信号为音节，接收模块接入分析模块，分析模块接入分割模块。

上述语音特征包含音框的平均振幅值。

上述语音特征包含音框的平均过零率。

上述语音特征包含音框的倒频谱参数。

上述分析模块根据语音特征产生门坎值，通过分割模块对比语音特征与门坎值。

一种实现上述自动分割单字语音信号装置的方法，其特殊之处在于：该方法包含下列步骤：

1)接收单字语音信号；

2)划分单字语音信号为多个音框；

3)分析音框，产生对应于每一个音框的语音特征；

4)根据语音特征，分割单字语音信号为音节。

上述语音特征包含音框的平均振幅值。

上述语音特征包含音框的平均过零率。

上述语音特征包含音框的倒频谱参数。

上述步骤4)的具体步骤如下：

4.1)根据语音特征产生门坎值，

4.2)通过对比语音特征与门坎值，找出语音信号中的每一个音节的分割点；

4.3根据分割点，将单字语音信号分割为音节。

本发明提供的自动分割单字语音信号的装置与方法，通过语音特征来自动分割单字语音信号为音节，完全替代了传统的人工切分单字语音的方式，整个过程不需要人工介入，省时省力，效率高，且大大降低了人为带来的失误率。

附图说明

图1为自动分割单字语音信号的装置示意图；

图2为多音节单字语音信号的示意图；

图3为多音节单字语音信号的分割示意图；

图4为自动分割单字语音信号的方法流程图。

其中，10-接收模块，20-分析模块，30-分割模块；

具体实施方式

参见图1，自动分割单字语音信号的装置包含：接收模块10、分析模块20及分割模块30。

接收模块10接收单字语音信号，并将单字语音信号划分为多个音框。分析模块20分析多个音框，并产生对应于每一个音框的语音特征。分割模块30根据分析模块20所分析出的语音特征，进而分割单字语音信号为音节。

每个单字的语音信号不会完全相同，但具有一些共同的特性，例如：多音节单字的发音是由各个音节所组成；音节组成在语音信号上有特定的规律可循；利用语音特征可进行音节切分等。因此，本发明提出先将单字语音信号划分为多个音框，然后以每一个音框为单位，利用分析模块20分析出每一个音框的语音特征。

其中，上述所提及的语音特征包含：平均振幅值、平均过零率、倒频谱参数等。下面将针对每个语音特征做简单说明。

语音信号的振幅所指的即为语音信号的大小，如同人类说话一般会有高低起伏，所以语音信号的波形所呈现出来的也会有高低或强弱之分。而振幅便是代表语音信号的大小，而平均振幅值，便是将所有音框的振幅值加总后再做平均，如此可看出单位时间内，某段语音信号与整段语音信号相比的信号强弱分布。

语音信号的平均过零率是指单位时间内信号波形穿过横轴(零轴)的次数。也就是说，语音信号的振幅值在单位时间内，正值和负值之间的跳变次数称为过零率。而将信号按音框进行划分，把所有音框的过零率作统计平均，即称为平均过零率。

因此过零率简单的说，便是语音信号在单位时间过零的次数。而过零率应用广泛，尤其在语音辨识方面。过零率高的区段对应于清音或无声区。相对的，噪声较高，过零率较低的区段对应于浊音。由此可知，通过判断过零率即可区别语音信号中的清音与浊音、有声与无声等。

接着介绍倒频谱参数。在信号的辨识中，最常用的特征参数是信号在频谱(spectrum)上的能量值，例如：高频信号只在高频部分有较大的能量值，相对的低频信号在低频部份的能量较大，而这些在频谱上的能量值便可称为一种特征值。利用傅立叶转换(Fourier Transform)的方法可以把时间轴上的信号转换到频谱上来作处理。然而，针对语音信号而言，另一种称为倒频谱的参数更能代表语音信号的特性，而使辨识率提高。因此，采用倒频谱参数可提升单字语音信号的辨识率。

因此，本发明通过分析语音特征，再通过分割模块30根据语音特征而达到自动分割单字语音信号为单个或多个音节。其中，分析模块20可根据语音特征产生门坎值，利用门坎值可判断是否为音节的分割点。当单字语音信号的音框语音特征低于门坎值时，即表示该音框为音节的分割点。因此，当分析模块20产生门坎值后，分割模块30对比语音特征与门坎值，进而将单字语音信号分割为单个多个音节。

举例说明，参见图2，其中以单字dagoba(舍利子塔)为例作说明。Dagoba具有三个音节，由图2中可清楚看出各个音节之间有明显的语音特征可区分。

参见图3，在此实施例中采用语音特征中的平均振幅值与平均过零率相结合，但不限于此。利用分割模块30将平均振幅值、平均过零率与门坎值作比较，当发现平均振幅值、平均过零率低于门坎值时，即表示为音节的分割点。因此，由图3中可清楚看出Dagoba的单字语音信号，根据其语音特征而被切分为三个音节。

此外，当分割模块30根据语音特征，将单字语音信号分割为单个或多个音节后，可利用储存模块(图中未示)将每一个音节储存起来，以提供后续利用，例如：电子辞典中，发音的合成等。

参见图4，自动分割单字语音信号的方法，包含下列步骤：

步骤S10：接收单字语音信号。

步骤S20：划分单字语音信号为多个音框。

步骤S30：分析音框，产生对应于每一个音框的语音特征。其中，语音特征包含音框的平均振幅值、音框的平均过零率或音框的倒频谱参数等。

步骤S40：根据语音特征，分割单字语音信号为音节。在此步骤中，还可包含储存每一个音节。

此外，可根据语音特征产生门坎值，再通过对比语音特征与门坎值，找出语音信号中的每一个音节的分割点，而进一步将单字语音信号分割为音节。

Claims

1、一种自动分割单字语音信号的装置，其特征在于：该装置包括：接收模块，用来接收单字语音信号，并将单字语音信号划分为多个音框；分析模块，分析音框，产生对应于每一个音框的语音特征；分割模块，根据语音特征，分割单字语音信号为音节，所述接收模块接入分析模块，所述分析模块接入分割模块。

2、根据权利要求1所述的自动分割单字语音信号的装置，其特征在于：所述语音特征包含音框的平均振幅值。

3、根据权利要求1所述的自动分割单字语音信号的装置，其特征在于：所述语音特征包含音框的平均过零率。

4、根据权利要求1所述的自动分割单字语音信号的装置，其特征在于：所述语音特征包含音框的倒频谱参数。

5、根据权利要求1所述的自动分割单字语音信号的装置，其特征在于：所述分析模块根据语音特征产生门坎值，通过分割模块对比语音特征与门坎值。

6、一种实现权利要求1所述的自动分割单字语音信号装置的方法，其特征在于：该方法包含下列步骤：

1)接收单字语音信号；

2)划分单字语音信号为多个音框；

3)分析音框，产生对应于每一个音框的语音特征；

4)根据语音特征，分割单字语音信号为音节。

7、根据权利要求6所述的自动分割单字语音信号的方法，其特征在于：所述语音特征包含音框的平均振幅值。

8、根据权利要求6所述的自动分割单字语音信号的方法，其特征在于：所述语音特征包含音框的平均过零率。

9、根据权利要求6所述的自动分割单字语音信号的方法，其特征在于：所述语音特征包含音框的倒频谱参数。

10、根据权利要求6或7或8或9所述的自动分割单字语音信号的方法，其特征在于：所述步骤4)的具体步骤如下：

4.1)根据语音特征产生门坎值；

4.3)根据分割点，将单字语音信号分割为音节。