CN107507610B - 一种基于元音基频信息的汉语声调识别方法 - Google Patents

一种基于元音基频信息的汉语声调识别方法 Download PDF

Info

Publication number
CN107507610B
CN107507610B CN201710900785.1A CN201710900785A CN107507610B CN 107507610 B CN107507610 B CN 107507610B CN 201710900785 A CN201710900785 A CN 201710900785A CN 107507610 B CN107507610 B CN 107507610B
Authority
CN
China
Prior art keywords
low
band energy
voice signal
vowel
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710900785.1A
Other languages
English (en)
Other versions
CN107507610A (zh
Inventor
晁浩
刘永利
鲁保云
智慧来
宋成
余琼霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Technology
Original Assignee
Henan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Technology filed Critical Henan University of Technology
Priority to CN201710900785.1A priority Critical patent/CN107507610B/zh
Publication of CN107507610A publication Critical patent/CN107507610A/zh
Application granted granted Critical
Publication of CN107507610B publication Critical patent/CN107507610B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/022Demisyllables, biphones or triphones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种基于元音基频信息的汉语声调识别方法。该方法包括如下步骤:接收音节对应的语音信号,进行预加重,分帧加窗,并对加窗后的语音信号进行快速傅立叶变换,得到时频域上的能量分布;计算语音信号的低频带能量曲线和中频带能量曲线;计算语音信号的低频带能量随时间的变化率曲线;确定低频能量发生跳变的跳变点,获取语音信号中的浊音段;从浊音段中获取候选元音帧;计算候选元音帧的短时过零率,根据短时过零率确定元音段;计算元音段的基频,并获取声调特征;将声调特征输入到预先训练好的声调模型,得到声调类型。

Description

一种基于元音基频信息的汉语声调识别方法
技术领域
本发明涉及语音识别领域,特别涉及一种基于元音基频信息的汉语声调识别方法。
背景技术
声调是汉语音节的三要素之一,人们不仅要凭借不同的声母、韵母来辨别字和词的意义,还需要以不同的声调来区分他们。在汉语连续语音识别系统中,如果能获得准确的声调信息将会有效地提高识别系统的性能。
将声调信息应用到连续语音识别系统中时,一种常见的方式是显式的声调建模。显式的声调建模强调根据声调特征,训练独立于声学模型的声调模型。在语音识别过程中,声调模型的概率得分可以在一遍搜索时加入路径的总得分中,也可以对最优的N条路径(N-best)进行重新打分时加入。
声调建模时最常用的特征为音节的基频轮廓信息。由于音节之间存在协同发音现象,同一种声调的基频轮廓也会随着相邻音节的不同发生变化,进而影响声调识别精度。为了消除协同发音的影响,通常将相邻音节的基频信息同当前音节的基频信息一起用于声调识别。但是这种声调建模方法不仅要提取当前音节的基频,还要提取前后相邻音节的基频,计算复杂度较高,用于一遍搜索时会明显降低语音识别的解码速度。
发明内容
本发明的目的在于针对现有技术中的汉语声调方法计算复杂度较高的缺陷,提出一种利用元音基频信息来识别汉语声调的方法,不仅能够消除协同发音现象的影响,还有效地降低了计算复杂度。
本发明公开了一种基于元音基频信息的汉语声调识别方法,其具体包括以下步骤:
步骤1、接收音节对应的语音信号,对所述语音信号进行预加重,然后分帧加窗,并对加窗后的语音信号进行快速傅立叶变换,得到所述语音信号在时频域上的能量分布;
步骤2、根据所述语音信号在时频域上的能量分布计算所述语音信号的低频带能量曲线和中频带能量曲线;
步骤3、根据所述语音信号的低频带能量曲线计算所述语音信号的低频带能量随时间的变化率曲线;
步骤4、根据所述语音信号的低频带能量随时间的变化率曲线,确定低频能量发生跳变的跳变点,获取所述语音信号中的浊音段;
步骤5、根据所述语音信号的低频带能量曲线和中频带能量曲线从所述浊音段中获取候选元音帧;
步骤6、计算所述候选元音帧的短时过零率,根据短时过零率确定所述语音信号的元音段;
步骤7、计算所述元音段的基频,并根据所述元音段的基频获取声调特征;
步骤8、将所述声调特征输入到预先训练好的声调模型,得到声调类型。
上述技术方案中,步骤1-6检测出当前音节的元音段,步骤7中只提取当前音节中元音段的基频信息,然后利用元音段的基频信息识别声调类型。由于音节中的元音一般位于音节的中央位置,其基频轮廓受前后音节声调类型的影响较小,所以上述技术方案能够有效地消除声调识别时协同发音现象带来的不利影响。此外,由于只计算当前音节中元音的基频,所以还能有效地降低了计算复杂度。
附图说明
图1是根据本发明的一种基于元音基频信息的汉语声调识别方法的流程图;
图2是根据本发明的一个计算语音信号的低频带能量曲线和中频带能量曲线的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
图1为根据本发明的一种基于元音基频信息的汉语声调识别方法的流程图。其中,步骤1中接收的是音节对应的语音信号,音节的边界信息可以通过语音识别系统的强制对齐得到。
步骤101、接收音节对应的语音信号,对语音信号进行预加重,然后分帧加窗,并对加窗后的语音信号进行快速傅立叶变换,得到语音信号在时频域上的能量分布;
步骤102、根据语音信号在时频域上的能量分布计算语音信号的低频带能量曲线和中频带能量曲线;
步骤103、根据语音信号的低频带能量曲线计算语音信号的低频带能量随时间的变化率曲线;
步骤104、根据语音信号的低频带能量随时间的变化率曲线,确定低频能量发生跳变的跳变点,获取语音信号中的浊音段;
步骤105、根据语音信号的低频带能量曲线和中频带能量曲线从浊音段中获取候选元音帧;
步骤106、计算候选元音帧的短时过零率,根据短时过零率确定语音信号的元音段;
步骤107、计算元音段的基频,并根据元音段的基频获取声调特征;
步骤108、将声调特征输入到预先训练好的声调模型,得到声调类型。
其中,步骤101中语音信号的采样频率为16000赫兹,对语音信号加汉宁窗,窗长6ms,帧移1ms,再经过快速傅立叶变换(FFT),得到语音信号在时频域上的能量分布。另外,对语音信号预加重时,预加重系数为0.97。
步骤102中,根据语音信号在时频域上的能量分布计算语音信号的低频带能量曲线和中频带能量曲线,具体可以分为以下几个步骤,如图2所示:
步骤1021、计算每一帧第i个频率点上能量的贡献度ki,具体通过如下公式获取:
Figure BDA0001423092160000041
其中,F表示采样频率,N表示帧长。
步骤1022、计算每一帧的初始低频带能量和初始中频带能量,其中,低频带是0~0.8kHz,所述中频带是0.8~4kHz。所述初始低频带能量通过如下公式获取:
Figure BDA0001423092160000042
所述初始中频带能量通过如下公式获取:
Figure BDA0001423092160000043
其中,elow(t)表示第t帧的初始低频带能量,emid(t)表示第t帧的初始中频带能量,pi(t)表示第t帧中第i个频率点上的能量,B1表示低频带和中频带的分界点,B2表示中频带和高频带的分界点;
步骤1023、采用当前帧前后特定时间范围内的信号对当前帧能量进行平滑,得到平滑后的低频带能量曲线Elow(t)和中频带能量曲线Emid(t),具体通过如下公式获取:
Figure BDA0001423092160000044
Figure BDA0001423092160000045
其中,elow(t+t0)表示第t+t0帧的初始低频带能量,emid(t+t0)表示第t+t0帧的初始中频带能量,M表示平滑时采用的当前帧前后的语音帧数量。人耳感知语音信号时,不同频率点上的能量所作的贡献是不同的,因此步骤1022中计算初始低频带能量和初始中频带能量的方法更切合实际,效果更好。
步骤104中,确定低频能量发生跳变的跳变点,获取语音信号中的浊音段,具体可以分为以下几个步骤:
根据语音信号的低频带能量随时间的变化率曲线,在语音信号的前半部分选择低频带能量变化率最高的语音帧作为正向跳变点;
根据语音信号的低频带能量随时间的变化率曲线,在语音信号的后半部分选择低频带能量变化率最高的语音帧作为负向跳变点;
选择正向跳变点与负向跳变点之间的语音段作为语音信号中的浊音段。
例如:对于一个音节‘fan’,先通过步骤101-步骤103计算该音节对应的语音信号的低频带能量曲线和中频带能量曲线,并计算低频带能量随时间的变化率曲线。
该音节中的清辅音‘f’由于发音时声带不振动,其低频带能量较低,而元音‘a’的低频带能量较高。所以语音信号中声母‘f’和元音‘a’之间的边界区域存在正向跳变点,该正向跳变点表示低频带能量由低到高变化最剧烈的语音帧。此外,浊辅音‘n’发音时声带振动,其低频带能量较高,因此‘n’与该音节后面的静音段之间的边界区域存在负向跳变点,该负向跳变点表示低频带能量由高到低变化最剧烈的语音帧。而正向跳变点与负向跳变点之间的语音段也就是‘an’对应的语音段,该语音段发音时声带振动,也就是浊音段。
在获取浊音段后,对于浊音段内的每一帧,计算中频带能量与低频带能量的比值,如果比值大于1.3,则判定该语音帧为候选元音帧,而中频带能量与低频带能量的比值通过如下公式获取:
Figure BDA0001423092160000051
其中,R(t)表示第t帧的分频带能量比,即中频带能量与低频带能量的比值,Elow(t)表示第t帧的低频带能量和Emid(t)表示第t帧的中频带能量。浊辅音‘n’对应的语音段,其低频带能量较高,而中频带能量较低,而元音‘a’的低频带能量和中频带能量都较高,因此通过分频带能量比去除浊辅音对应的语音帧,保留下来的为候选元音帧。对于每一个候选元音帧,计算其短时过零率,如果短时过零率大于特定阈值,则保留。最终保留下来的候选元音帧形成音节‘fan’中的元音段。然后,采用自相关函数法来提取元音段的基频,并以此提取声调特征,并输入到预先训练好的支持向量机模型中,得到该音节的声调类型。
上述技术方案中,步骤101-106检测出当前音节的元音段,步骤107中只提取当前音节中元音段的基频信息,然后利用元音段的基频信息识别声调类型。由于音节中的元音一般位于音节的中央位置,其基频轮廓受前后音节声调类型的影响较小,所以上述技术方案能够有效地消除声调识别时协同发音现象带来的不利影响。此外,由于只计算当前音节中元音的基频,所以还能有效地降低了计算复杂度。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于元音基频信息的汉语声调识别方法,其特征在于包括如下步骤:
步骤1、接收音节对应的语音信号,对所述语音信号进行预加重,然后分帧加窗,并对加窗后的语音信号进行快速傅立叶变换,得到所述语音信号在时频域上的能量分布;
步骤2、根据所述语音信号在时频域上的能量分布计算所述语音信号的低频带能量曲线和中频带能量曲线;
步骤3、根据所述语音信号的低频带能量曲线计算所述语音信号的低频带能量随时间的变化率曲线;
步骤4、根据所述语音信号的低频带能量随时间的变化率曲线,确定低频能量发生跳变的跳变点,获取所述语音信号中的浊音段;
步骤5、根据所述语音信号的低频带能量曲线和中频带能量曲线从所述浊音段中获取候选元音帧;
步骤6、计算所述候选元音帧的短时过零率,根据短时过零率确定所述语音信号的元音段;
步骤7、计算所述元音段的基频,并根据所述元音段的基频获取声调特征;
步骤8、将所述声调特征输入到预先训练好的声调模型,得到声调类型;
所述步骤2中,根据所述语音信号在时频域上的能量分布计算所述语音信号的低频带能量曲线和中频带能量曲线,具体步骤包括:
步骤21、计算每一帧第i个频率点上能量的贡献度ki,具体通过如下公式获取:
Figure FDA0002531855380000011
其中,F表示采样频率,N表示帧长;
步骤22、计算每一帧的初始低频带能量和初始中频带能量,其中,所述初始低频带能量通过如下公式获取:
Figure FDA0002531855380000021
所述初始中频带能量通过如下公式获取:
Figure FDA0002531855380000022
其中,elow(t)表示第t帧的初始低频带能量,emid(t)表示第t帧的初始中频带能量,pi(t)表示第t帧中第i个频率点上的能量,B1表示低频带和中频带的分界点,B2表示中频带和高频带的分界点;
步骤23、采用当前帧前后特定时间范围内的信号对当前帧能量进行平滑,得到平滑后的低频带能量曲线Elow(t)和中频带能量曲线Emid(t),具体通过如下公式获取:
Figure FDA0002531855380000023
Figure FDA0002531855380000024
其中,elow(t+t0)表示第t+t0帧的初始低频带能量,emid(t+t0)表示第t+t0帧的初始中频带能量,M表示平滑时采用的当前帧前后的语音帧数量;
所述步骤3中,计算所述语音信号的低频带能量随时间的变化率曲线,具体通过如下公式得到:
Figure FDA0002531855380000025
其中,ΔElow(t)表示语音信号的低频带能量随时间的变化率曲线,t表示帧的序号,Len表示时间范围阈值,abs()表示取绝对值;
所述步骤2中,所述低频带是0~0.8kHz,所述中频带是0.8~4kHz;
所述步骤8中,所述预先训练好的声调模型为支持向量机。
2.根据权利要求1所述的基于元音基频信息的汉语声调识别方法,其特征在于,步骤4具体包括:
步骤41、根据所述语音信号的低频带能量随时间的变化率曲线ΔElow(t),在所述语音信号的前半部分选择低频带能量变化率最高的语音帧作为正向跳变点;
步骤42、根据所述语音信号的低频带能量随时间的变化率曲线ΔElow(t),在所述语音信号的后半部分选择低频带能量变化率最高的语音帧作为负向跳变点;
步骤43、选择所述正向跳变点与所述负向跳变点之间的语音段作为语音信号中的浊音段。
3.根据权利要求2所述的基于元音基频信息的汉语声调识别方法,其特征在于,步骤5具体包括:
步骤51、计算所述浊音段中每一帧的分频带能量比,其中所述每一帧的分频带能量比具体通过如下公式得到:
Figure FDA0002531855380000031
R(t)表示第t帧的分频带能量比;
步骤52、选择分频带能量比超过一定阈值的帧作为候选元音帧。
4.根据权利要求3所述的基于元音基频信息的汉语声调识别方法,其特征在于,步骤6中,所述根据短时过零率确定所述语音信号的元音段,具体为:保留短时过零率大于特定阈值的候选元音帧,形成所述语音信号的元音段。
CN201710900785.1A 2017-09-28 2017-09-28 一种基于元音基频信息的汉语声调识别方法 Expired - Fee Related CN107507610B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710900785.1A CN107507610B (zh) 2017-09-28 2017-09-28 一种基于元音基频信息的汉语声调识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710900785.1A CN107507610B (zh) 2017-09-28 2017-09-28 一种基于元音基频信息的汉语声调识别方法

Publications (2)

Publication Number Publication Date
CN107507610A CN107507610A (zh) 2017-12-22
CN107507610B true CN107507610B (zh) 2020-08-07

Family

ID=60700294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710900785.1A Expired - Fee Related CN107507610B (zh) 2017-09-28 2017-09-28 一种基于元音基频信息的汉语声调识别方法

Country Status (1)

Country Link
CN (1) CN107507610B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112309371A (zh) * 2019-07-30 2021-02-02 上海流利说信息技术有限公司 一种语调检测方法、装置、设备及计算机可读存储介质
CN111063371B (zh) * 2019-12-21 2023-04-21 华南理工大学 一种基于语谱图时间差分的语音音节数估计方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10028397A1 (de) * 2000-06-13 2001-12-20 Pact Inf Tech Gmbh Registrierverfahren
CN101642399A (zh) * 2008-12-16 2010-02-10 中国科学院声学研究所 一种基于频率调制信息的人工耳蜗语音处理方法及处理器
CN102938252A (zh) * 2012-11-23 2013-02-20 中国科学院自动化研究所 结合韵律和发音学特征的汉语声调识别系统及方法
CN105167883A (zh) * 2015-09-25 2015-12-23 浙江诺尔康神经电子科技股份有限公司 基于移频处理提高汉语声调识别率的言语处理方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10028397A1 (de) * 2000-06-13 2001-12-20 Pact Inf Tech Gmbh Registrierverfahren
CN101642399A (zh) * 2008-12-16 2010-02-10 中国科学院声学研究所 一种基于频率调制信息的人工耳蜗语音处理方法及处理器
CN102938252A (zh) * 2012-11-23 2013-02-20 中国科学院自动化研究所 结合韵律和发音学特征的汉语声调识别系统及方法
CN105167883A (zh) * 2015-09-25 2015-12-23 浙江诺尔康神经电子科技股份有限公司 基于移频处理提高汉语声调识别率的言语处理方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Automatic context induction for tone model integration in Mandarin speech recognition;Huang Hao,Li Binghu.;《Journal of China Universities of Posts and Telecommunications》;20121231;全文 *
语音识别中基于发音特征的声调集成算法;晁浩; 宋成; 刘志中;;《计算机工程与应用》;20141231;全文 *

Also Published As

Publication number Publication date
CN107507610A (zh) 2017-12-22

Similar Documents

Publication Publication Date Title
CN105118502B (zh) 语音识别系统的端点检测方法及系统
US8063809B2 (en) Transient signal encoding method and device, decoding method and device, and processing system
US8140330B2 (en) System and method for detecting repeated patterns in dialog systems
US9336777B2 (en) Speech processing device, speech processing method, and speech processing program
US8489404B2 (en) Method for detecting audio signal transient and time-scale modification based on same
CN104123934A (zh) 一种构音识别方法及其系统
Yang et al. BaNa: A noise resilient fundamental frequency detection algorithm for speech and music
US20100217584A1 (en) Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program
US11929058B2 (en) Systems and methods for adapting human speaker embeddings in speech synthesis
CN107507610B (zh) 一种基于元音基频信息的汉语声调识别方法
CN109410971B (zh) 一种美化声音的方法和装置
CN112116909A (zh) 语音识别方法、装置及系统
Lightburn et al. A weighted STOI intelligibility metric based on mutual information
CN112489692A (zh) 语音端点检测方法和装置
JP6087731B2 (ja) 音声明瞭化装置、方法及びプログラム
Vlaj et al. Voice activity detection algorithm using nonlinear spectral weights, hangover and hangbefore criteria
Sorin et al. The ETSI extended distributed speech recognition (DSR) standards: client side processing and tonal language recognition evaluation
Kasap et al. A unified approach to speech enhancement and voice activity detection
Dumpala et al. Robust Vowel Landmark Detection Using Epoch-Based Features.
Golipour et al. A new approach for phoneme segmentation of speech signals.
US11270721B2 (en) Systems and methods of pre-processing of speech signals for improved speech recognition
Heese et al. Speech-codebook based soft voice activity detection
Singh et al. A comparative study on feature extraction techniques for language identification
CN107039046B (zh) 一种基于特征融合的语音声效模式检测方法
RU2174714C2 (ru) Способ выделения основного тона

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200807

Termination date: 20210928