CN101419796A - 自动分割单字语音信号的装置与方法 - Google Patents
自动分割单字语音信号的装置与方法 Download PDFInfo
- Publication number
- CN101419796A CN101419796A CNA200810232545XA CN200810232545A CN101419796A CN 101419796 A CN101419796 A CN 101419796A CN A200810232545X A CNA200810232545X A CN A200810232545XA CN 200810232545 A CN200810232545 A CN 200810232545A CN 101419796 A CN101419796 A CN 101419796A
- Authority
- CN
- China
- Prior art keywords
- phonetic feature
- single character
- speech signal
- signal
- sound frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及一种自动分割单字语音信号的装置与方法,该装置包含接收模块,用来接收单字语音信号,并将单字语音信号划分为多个音框;分析模块,分析音框,产生对应于每一个音框的语音特征;分割模块,根据语音特征,分割单字语音信号为音节,接收模块接入分析模块,分析模块接入分割模块,本发明完全替代了传统的人工切分单字语音的方式,整个过程不需要人工介入,省时省力,效率高,且大大降低了人为带来的失误率。
Description
技术领域
本发明涉及一种分割单字语音信号的装置与方法,尤其是一种自动分割单字语音信号的装置与方法。
背景技术
在语言学习过程中,常会借助许多语言学习工具,如电子辞典等,用来增加学习效果与加快学习速度。目前一般的电子辞典都具有发音的功能,也就是说当使用者通过电子辞典查询单字或例句后,可通过发音的功能,而听取正确的单字或例句的发音。如此,将可大幅提升使用者在语言学习上,在听与说方面的能力。因此,有越来越多的厂商日益重视电子辞典的发音功能。
近来电子辞典标榜具有真人发音的功能,已成为各厂商所诉求的特色。而真人发音可通过真人来录制各个单字的声波,而达到真人发音的功能。然而,利用真人来录制所有单字的声波,将耗费掉电子辞典内存非常多的储存空间,进而提升成本的支出。
因此,发展出通过发音合成的方式,而达到接近真人发音的功能,如此可节省内存的空间,也同时提高发音的质量。发音合成的方式一般可分为两种,以英文单字为例说明如下。
第一种方式,依照英文辞典单字表中的音标来决定音节。在合成一个英文单字的语音数据前,必须先将此英文单字分割为单个或多个音节,再由原始录音的数据中获取出与音节相对应的声波,并加以结合即可。
第二种方式,录制所有各种声母、韵母及音调组合的各个音节声波,并储存在内存中。在合成一个英文单字的语音数据前,必须先将此英文单字分割为单个或多个音节,再由录制的数据中获取出与分割后的各个音节相对应的声波,并加以结合即可。
由上述说明可知,不论是哪种发音合成的方式,都必须先将英文单字分割为单个或多个音节,才能进行后续的处理。而传统的作法上,是通过人耳听音而利用手工切分。如此,需投入大量的人力与工时才能完成。另外,手工切分音节的工作枯燥、数量庞大,且采用人耳听音而作音节的切分,极易产生误差。
因此,如何解决传统上人工切分单字语音所衍生的问题,为亟待解决的议题。
发明内容
本发明为解决背景技术中存在的上述技术问题,而提出一种自动分割单字语音信号的装置与方法。
本发明的技术解决方案是:本发明为一种自动分割单字语音信号的装置,其特殊之处在于:该装置包括:接收模块,用来接收单字语音信号,并将单字语音信号划分为多个音框;分析模块,分析音框,产生对应于每一个音框的语音特征;分割模块,根据语音特征,分割单字语音信号为音节,接收模块接入分析模块,分析模块接入分割模块。
上述语音特征包含音框的平均振幅值。
上述语音特征包含音框的平均过零率。
上述语音特征包含音框的倒频谱参数。
上述分析模块根据语音特征产生门坎值,通过分割模块对比语音特征与门坎值。
一种实现上述自动分割单字语音信号装置的方法,其特殊之处在于:该方法包含下列步骤:
1)接收单字语音信号;
2)划分单字语音信号为多个音框;
3)分析音框,产生对应于每一个音框的语音特征;
4)根据语音特征,分割单字语音信号为音节。
上述语音特征包含音框的平均振幅值。
上述语音特征包含音框的平均过零率。
上述语音特征包含音框的倒频谱参数。
上述步骤4)的具体步骤如下:
4.1)根据语音特征产生门坎值,
4.2)通过对比语音特征与门坎值,找出语音信号中的每一个音节的分割点;
4.3根据分割点,将单字语音信号分割为音节。
本发明提供的自动分割单字语音信号的装置与方法,通过语音特征来自动分割单字语音信号为音节,完全替代了传统的人工切分单字语音的方式,整个过程不需要人工介入,省时省力,效率高,且大大降低了人为带来的失误率。
附图说明
图1为自动分割单字语音信号的装置示意图;
图2为多音节单字语音信号的示意图;
图3为多音节单字语音信号的分割示意图;
图4为自动分割单字语音信号的方法流程图。
其中,10-接收模块,20-分析模块,30-分割模块;
具体实施方式
参见图1,自动分割单字语音信号的装置包含:接收模块10、分析模块20及分割模块30。
接收模块10接收单字语音信号,并将单字语音信号划分为多个音框。分析模块20分析多个音框,并产生对应于每一个音框的语音特征。分割模块30根据分析模块20所分析出的语音特征,进而分割单字语音信号为音节。
每个单字的语音信号不会完全相同,但具有一些共同的特性,例如:多音节单字的发音是由各个音节所组成;音节组成在语音信号上有特定的规律可循;利用语音特征可进行音节切分等。因此,本发明提出先将单字语音信号划分为多个音框,然后以每一个音框为单位,利用分析模块20分析出每一个音框的语音特征。
其中,上述所提及的语音特征包含:平均振幅值、平均过零率、倒频谱参数等。下面将针对每个语音特征做简单说明。
语音信号的振幅所指的即为语音信号的大小,如同人类说话一般会有高低起伏,所以语音信号的波形所呈现出来的也会有高低或强弱之分。而振幅便是代表语音信号的大小,而平均振幅值,便是将所有音框的振幅值加总后再做平均,如此可看出单位时间内,某段语音信号与整段语音信号相比的信号强弱分布。
语音信号的平均过零率是指单位时间内信号波形穿过横轴(零轴)的次数。也就是说,语音信号的振幅值在单位时间内,正值和负值之间的跳变次数称为过零率。而将信号按音框进行划分,把所有音框的过零率作统计平均,即称为平均过零率。
因此过零率简单的说,便是语音信号在单位时间过零的次数。而过零率应用广泛,尤其在语音辨识方面。过零率高的区段对应于清音或无声区。相对的,噪声较高,过零率较低的区段对应于浊音。由此可知,通过判断过零率即可区别语音信号中的清音与浊音、有声与无声等。
接着介绍倒频谱参数。在信号的辨识中,最常用的特征参数是信号在频谱(spectrum)上的能量值,例如:高频信号只在高频部分有较大的能量值,相对的低频信号在低频部份的能量较大,而这些在频谱上的能量值便可称为一种特征值。利用傅立叶转换(Fourier Transform)的方法可以把时间轴上的信号转换到频谱上来作处理。然而,针对语音信号而言,另一种称为倒频谱的参数更能代表语音信号的特性,而使辨识率提高。因此,采用倒频谱参数可提升单字语音信号的辨识率。
因此,本发明通过分析语音特征,再通过分割模块30根据语音特征而达到自动分割单字语音信号为单个或多个音节。其中,分析模块20可根据语音特征产生门坎值,利用门坎值可判断是否为音节的分割点。当单字语音信号的音框语音特征低于门坎值时,即表示该音框为音节的分割点。因此,当分析模块20产生门坎值后,分割模块30对比语音特征与门坎值,进而将单字语音信号分割为单个多个音节。
举例说明,参见图2,其中以单字dagoba(舍利子塔)为例作说明。Dagoba具有三个音节,由图2中可清楚看出各个音节之间有明显的语音特征可区分。
参见图3,在此实施例中采用语音特征中的平均振幅值与平均过零率相结合,但不限于此。利用分割模块30将平均振幅值、平均过零率与门坎值作比较,当发现平均振幅值、平均过零率低于门坎值时,即表示为音节的分割点。因此,由图3中可清楚看出Dagoba的单字语音信号,根据其语音特征而被切分为三个音节。
此外,当分割模块30根据语音特征,将单字语音信号分割为单个或多个音节后,可利用储存模块(图中未示)将每一个音节储存起来,以提供后续利用,例如:电子辞典中,发音的合成等。
参见图4,自动分割单字语音信号的方法,包含下列步骤:
步骤S10:接收单字语音信号。
步骤S20:划分单字语音信号为多个音框。
步骤S30:分析音框,产生对应于每一个音框的语音特征。其中,语音特征包含音框的平均振幅值、音框的平均过零率或音框的倒频谱参数等。
步骤S40:根据语音特征,分割单字语音信号为音节。在此步骤中,还可包含储存每一个音节。
此外,可根据语音特征产生门坎值,再通过对比语音特征与门坎值,找出语音信号中的每一个音节的分割点,而进一步将单字语音信号分割为音节。
Claims (10)
1、一种自动分割单字语音信号的装置,其特征在于:该装置包括:接收模块,用来接收单字语音信号,并将单字语音信号划分为多个音框;分析模块,分析音框,产生对应于每一个音框的语音特征;分割模块,根据语音特征,分割单字语音信号为音节,所述接收模块接入分析模块,所述分析模块接入分割模块。
2、根据权利要求1所述的自动分割单字语音信号的装置,其特征在于:所述语音特征包含音框的平均振幅值。
3、根据权利要求1所述的自动分割单字语音信号的装置,其特征在于:所述语音特征包含音框的平均过零率。
4、根据权利要求1所述的自动分割单字语音信号的装置,其特征在于:所述语音特征包含音框的倒频谱参数。
5、根据权利要求1所述的自动分割单字语音信号的装置,其特征在于:所述分析模块根据语音特征产生门坎值,通过分割模块对比语音特征与门坎值。
6、一种实现权利要求1所述的自动分割单字语音信号装置的方法,其特征在于:该方法包含下列步骤:
1)接收单字语音信号;
2)划分单字语音信号为多个音框;
3)分析音框,产生对应于每一个音框的语音特征;
4)根据语音特征,分割单字语音信号为音节。
7、根据权利要求6所述的自动分割单字语音信号的方法,其特征在于:所述语音特征包含音框的平均振幅值。
8、根据权利要求6所述的自动分割单字语音信号的方法,其特征在于:所述语音特征包含音框的平均过零率。
9、根据权利要求6所述的自动分割单字语音信号的方法,其特征在于:所述语音特征包含音框的倒频谱参数。
10、根据权利要求6或7或8或9所述的自动分割单字语音信号的方法,其特征在于:所述步骤4)的具体步骤如下:
4.1)根据语音特征产生门坎值;
4.2)通过对比语音特征与门坎值,找出语音信号中的每一个音节的分割点;
4.3)根据分割点,将单字语音信号分割为音节。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA200810232545XA CN101419796A (zh) | 2008-12-02 | 2008-12-02 | 自动分割单字语音信号的装置与方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA200810232545XA CN101419796A (zh) | 2008-12-02 | 2008-12-02 | 自动分割单字语音信号的装置与方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101419796A true CN101419796A (zh) | 2009-04-29 |
Family
ID=40630561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA200810232545XA Pending CN101419796A (zh) | 2008-12-02 | 2008-12-02 | 自动分割单字语音信号的装置与方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101419796A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104575490A (zh) * | 2014-12-30 | 2015-04-29 | 苏州驰声信息科技有限公司 | 基于深度神经网络后验概率算法的口语发音评测方法 |
CN105161094A (zh) * | 2015-06-26 | 2015-12-16 | 徐信 | 一种语音音频切分手动调整切分点的系统及方法 |
CN106383648A (zh) * | 2015-07-27 | 2017-02-08 | 青岛海信电器股份有限公司 | 一种智能终端语音显示的方法和装置 |
CN107782548A (zh) * | 2017-10-20 | 2018-03-09 | 韦彩霞 | 一种基于对轨道交通工具零部件检测系统 |
CN107799113A (zh) * | 2017-09-26 | 2018-03-13 | 广东欧珀移动通信有限公司 | 音频处理方法、装置、存储介质及移动终端 |
-
2008
- 2008-12-02 CN CNA200810232545XA patent/CN101419796A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104575490A (zh) * | 2014-12-30 | 2015-04-29 | 苏州驰声信息科技有限公司 | 基于深度神经网络后验概率算法的口语发音评测方法 |
CN104575490B (zh) * | 2014-12-30 | 2017-11-07 | 苏州驰声信息科技有限公司 | 基于深度神经网络后验概率算法的口语发音评测方法 |
CN105161094A (zh) * | 2015-06-26 | 2015-12-16 | 徐信 | 一种语音音频切分手动调整切分点的系统及方法 |
CN106383648A (zh) * | 2015-07-27 | 2017-02-08 | 青岛海信电器股份有限公司 | 一种智能终端语音显示的方法和装置 |
CN107799113A (zh) * | 2017-09-26 | 2018-03-13 | 广东欧珀移动通信有限公司 | 音频处理方法、装置、存储介质及移动终端 |
CN107782548A (zh) * | 2017-10-20 | 2018-03-09 | 韦彩霞 | 一种基于对轨道交通工具零部件检测系统 |
CN107782548B (zh) * | 2017-10-20 | 2020-07-07 | 亚太空列(河南)轨道交通有限公司 | 一种基于对轨道交通工具零部件检测系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109599093B (zh) | 智能质检的关键词检测方法、装置、设备及可读存储介质 | |
CN101136199B (zh) | 语音数据处理方法和设备 | |
CN105529028B (zh) | 语音解析方法和装置 | |
CN101751919B (zh) | 一种汉语口语重音自动检测方法 | |
Mitra et al. | Normalized amplitude modulation features for large vocabulary noise-robust speech recognition | |
CN101930735B (zh) | 语音情感识别设备和进行语音情感识别的方法 | |
Zhou et al. | Efficient audio stream segmentation via the combined T/sup 2/statistic and Bayesian information criterion | |
US7089184B2 (en) | Speech recognition for recognizing speaker-independent, continuous speech | |
KR20170087390A (ko) | 음성 웨이크업 방법 및 장치 | |
CN104835498A (zh) | 基于多类型组合特征参数的声纹识别方法 | |
US8326610B2 (en) | Producing phonitos based on feature vectors | |
CN102903361A (zh) | 一种通话即时翻译系统和方法 | |
CN102982811A (zh) | 一种基于实时解码的语音端点检测方法 | |
CN111105785B (zh) | 一种文本韵律边界识别的方法及装置 | |
CN101290766A (zh) | 安多藏语语音音节切分的方法 | |
CN105374352A (zh) | 一种语音激活方法及系统 | |
CN103632663B (zh) | 一种基于hmm的蒙古语语音合成前端处理的方法 | |
CN102013253A (zh) | 基于语音单元语速的差异的语音识别方法及语音识别系统 | |
CN103985390A (zh) | 一种基于伽马通相关图语音特征参数提取方法 | |
CN110459202A (zh) | 一种韵律标注方法、装置、设备、介质 | |
CN101419796A (zh) | 自动分割单字语音信号的装置与方法 | |
CN108091340B (zh) | 声纹识别方法、声纹识别系统和计算机可读存储介质 | |
CN111968622A (zh) | 一种基于注意力机制的语音识别方法、系统及装置 | |
CN111739536A (zh) | 一种音频处理的方法和装置 | |
CN201323053Y (zh) | 自动分割单字语音信号的装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20090429 |