CN106023986B - 一种基于声效模式检测的语音识别方法 - Google Patents

一种基于声效模式检测的语音识别方法 Download PDF

Info

Publication number
CN106023986B
CN106023986B CN201610299376.6A CN201610299376A CN106023986B CN 106023986 B CN106023986 B CN 106023986B CN 201610299376 A CN201610299376 A CN 201610299376A CN 106023986 B CN106023986 B CN 106023986B
Authority
CN
China
Prior art keywords
vowel
effect mode
sound effect
spectrum
voice signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610299376.6A
Other languages
English (en)
Other versions
CN106023986A (zh
Inventor
晁浩
智慧来
刘志中
鲁保云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Technology
Original Assignee
Henan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Technology filed Critical Henan University of Technology
Priority to CN201610299376.6A priority Critical patent/CN106023986B/zh
Publication of CN106023986A publication Critical patent/CN106023986A/zh
Application granted granted Critical
Publication of CN106023986B publication Critical patent/CN106023986B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Stereophonic System (AREA)

Abstract

本发明公开了一种基于声效模式检测的语音识别方法。该方法包括如下步骤:接收语音信号;检测所述语音信号的声效模式;从预置的声学模型集中选择所述声效模式对应的声学模型子集;根据所述声学模型子集对所述语音信号进行解码。

Description

一种基于声效模式检测的语音识别方法
技术领域
本发明涉及语音识别领域,特别涉及一种基于声效模式检测的语音识别方法。
背景技术
声音效果(Vocal Effort)简称声效,是正常人的一种发音变化的衡量,而这种发音变化是人出于正常交流的需要,根据交流时双方距离的远近或背景噪声的高低自动调整发音方式所产生的。通常将声效由低到高分为五个量级/模式:耳语、轻声、正常、大声、高喊。在现实的环境中,人们不可能一直都在同一种声效水平下交流:在图书馆或者自习室里需要通过耳语的方式交流;在吵杂的场合需要大声说话对方才能听见;而在嘈杂的工厂车间可能就需要通过高喊的方式才能够交流。
近年来语音识别技术已进入实用的阶段,并取得很好的效果。但是目前的语音识别技术主要还是针对正常声音效果下的语音信号。而声效模式的改变使得语音信号的声学特性发生了变化,因此正常声效模式的语音识别系统在识别其它四种声效模式(特别是耳语模式)的语音信号时识别精度会有较大幅度的下降。
发明内容
本发明的目的在于针对现有技术中的语音识别方法在识别其它四种声效模式的语音信号时精度不高的缺陷,提出一种基于声效模式检测的语音识别方法,首先检测语音信号所属的声效模式,然后根据检测结果选择相对应的声学模型集合来完成对该语音信号的解码工作,从而提高了识别所有声效模式的语音信号时的精度。
本发明公开了一种基于声效模式检测的语音识别方法,其具体包括以下步骤:
步骤1、接收语音信号;
步骤2、检测所述语音信号的声效模式;
步骤3、从预置的声学模型集中选择所述声效模式对应的声学模型子集;
步骤4、根据所述声学模型子集对所述语音信号进行解码。
上述技术方案中,步骤4中预置的声学模型集共包含了5个声学模型子集,每个声学模型子集分别对应一种声效模式,而每一个声学模型子集在训练时使用的是对应声效模式的语料库,这样每个声学模型子集中的声学模型能很好地拟合其对应声效模式语音的声学特性。因此,在识别时先检测出语音信号的声效模式,再利用对应的声学模型子集来进行解码,就可以有效地提高识别的精度。
附图说明
图1是根据本发明的一种基于声效模式检测的语音识别方法的流程图;
图2是根据本发明的一个检测语音信号的声效模式的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
图1为根据本发明的一种基于声效模式检测的语音识别方法的流程图。其中,待识别的语音信号为连续语音,对应一个语句。
如图1所示,所述基于声效模式检测的语音识别方法包括如下步骤:
步骤101:接收语音信号;
步骤102:检测所述语音信号的声效模式;
步骤103:从预置的声学模型集中选择所述声效模式对应的声学模型子集,其中预置的声学模型集共包含5个声学模型子集,分别对应耳语、轻声、正常、大声、高喊这5种声效模式,每一个声学模型子集在训练时使用的是对应声效模式的语料库;
步骤104:根据所述声学模型子集对所述语音信号进行解码,解码时使用维特比算法。
其中,在步骤102中,检测所述语音信号的声效模式具体分为以下几个步骤,如图2所示:
步骤1021、提取语音信号的声强级、帧能量均值和频谱倾斜均值;
步骤1022、根据声强级、帧能量均值和频谱倾斜均值判断语音信号的声效模式是否为耳语,如果是耳语则执行步骤103,否则执行步骤1023;
步骤1023、检测语音信号中的元音,生成元音集合;
步骤1024、将元音集合分别与四种候选声效模式进行语谱匹配,生成每一个候选声效模式的匹配值;其中,所述四种候选声效模式分别为轻声、正常、大声和高喊。
例如:对于一句话“我和你一起去上课”,在步骤1023中检测这句话对应的语音信号中包含的元音,生成元音集合:{o、e、i、i、i、u、ang、e},然后通过如下公式分别计算每一个候选声效模式与该元音集合的匹配值:
其中,VE表示一种候选声效模式,假如为高喊,则MVE表示高喊声效模式的匹配值,Vset表示元音集合{o、e、i、i、i、u、ang、e},v表示所述元音集合Vset中的某个元音,假如当前v的值具体为元音集合Vset中的第一个元音‘o’,D(v,VE)表示反映元音‘o’与高喊声效模式之间语谱差异程度的元音谱距离。
D(v,VE)的计算过程具体如下:
提取元音‘o’的谱特征序列。
获取预置的高喊声效模式的元音模板集合,提取所述元音模板集合中每一个元音模板的谱特征序列;其中,预置的高喊声效模式的元音模板集合包含了6个单元音模板:a、o、e、i、u、ü和13个复元音模板:ai、ei、ao、ou、ia、ie、ua、uo、üe、iao、iou、uai、uei,而每一个元音模板是指该元音在高喊声效模式下的标准发音单元,通过手工切分的方式获得。
通过如下公式确定所述元音谱距离D(v,VE)
其中,cv表示所述元音‘o’的谱特征序列求均值后形成的矢量,cv(i)表示矢量cv的第i个分量,N表示矢量cv包含的分量总数,p表示高喊声效模式VE的元音模板集合中的某一个元音模板,表示元音模板p的谱特征序列求均值后形成的矢量,表示矢量的第i个分量。
在D(v,VE)的计算过程中,提取所述元音‘o’的谱特征序列和提取所述元音模板集合中每一个元音模板的谱特征序列的具体过程如下:
对所述元音‘o’或元音模板对应的语音信号加汉宁窗,其中窗长可以选用为6ms,帧移可以选用1ms,得到语音帧序列。
对所述语音帧序列中的每一个语音帧通过快速傅立叶变换得到该语音帧在时频域上的能量分布。
对于六个频带:0~0.8kHZ、0.8~1.5kHZ、1.2~2.0kHZ、2.0~3.5kHZ、3.5~5.0kHZ、5.0~8.0kHZ,所述语音帧序列中的每一个语音帧分别计算该语音帧在每一个频带上的谱信息熵,将六个频带上的谱信息熵按照频带次序组合起来形成该语音帧的谱信息熵矢量。其中,语音帧在每一个频带上的谱信息熵通过如下公式确定:
其中,i表示所述预置的多个频带中某一个频带的序号,Hi表示该语音帧在第i个频带上的谱信息熵,M表示该语音帧时频域上的能量分布在第i个频带上包含的频率成分的数量,X(k)表示该语音帧时频域上的能量分布在第i个频带上的第k个频率成分,X(j)表示该语音帧时频域上的能量分布在第i个频带上的第j个频率成分。
所述语音帧序列中的每一个语音帧的谱信息熵矢量按照语音帧的顺序排列形成谱信息熵矢量序列,该谱信息熵矢量序列即为谱特征序列。
步骤1025、将匹配值最大的候选声效模式确定为语音信号的声效模式。
上述方案中,每个声学模型子集中的声学模型能很好地拟合其对应声效模式下语音的声学特性。因此,在识别时先检测出语音信号的声效模式,再选择用对应的声学模型子集来进行解码,就可以有效地提高语音识别的精度。此外,在检测语音信号的声效模式过程中,由于耳语的发音机理与其它几种声效模式有着较为明显的差异,所以可以根据语音信号的声强级、帧能量均值和频谱倾斜均值这三种特征来判断当前语音信号是否为耳语。对于其它四种发音方式相近的声效模式,通过将语音信号中的元音与各个声效模式的元音模板集相匹配来检测语音信号的声效模式,使得声效模式检测的精度会更高,也就能够进一步提高后续步骤中语音识别的精度。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于声效模式检测的语音识别方法,其特征在于,包括如下步骤:
步骤1、接收语音信号;
步骤2、检测所述语音信号的声效模式;
步骤3、从预置的声学模型集中选择所述声效模式对应的声学模型子集;
步骤4、根据所述声学模型子集对所述语音信号进行解码;
所述步骤2中检测所述语音信号的声效模式的具体步骤如下:
步骤21、提取所述语音信号的声强级、帧能量均值和频谱倾斜均值;
步骤22、根据所述声强级、所述帧能量均值和所述频谱倾斜均值判断所述语音信号的声效模式是否为耳语,如果是耳语则执行步骤3,否则执行步骤23;
步骤23、检测所述语音信号中的元音,生成元音集合;
步骤24、将所述元音集合分别与多个候选声效模式进行语谱匹配,生成每一个候选声效模式的匹配值;
步骤25、将匹配值最大的候选声效模式确定为所述语音信号的声效模式。
2.根据权利要求1所述的语音识别方法,其特征在于,所述步骤24中每一个所述候选声效模式的匹配值通过如下公式确定:
其中,VE表示该候选声效模式,MVE表示该候选声效模式的匹配值,Vset表示所述元音集合,v表示所述元音集合Vset中的某个元音,D(v,VE)表示反映元音v与该候选声效模式VE之间语谱差异程度的元音谱距离。
3.根据权利要求2中所述的语音识别方法,其特征在于反映元音v与该候选声效模式VE之间语谱差异程度的元音谱距离D(v,VE)的计算过程如下:
步骤41、提取所述元音v的谱特征序列;
步骤42、获取该候选声效模式VE预置的元音模板集合,提取所述元音模板集合中每一个元音模板的谱特征序列;
步骤43、通过如下公式确定所述元音谱距离D(v,VE)
其中,cv表示所述元音v的谱特征序列求均值后形成的矢量,cv(i)表示矢量cv的第i个分量,N表示矢量cv包含的分量总数,p表示该候选声效模式VE的元音模板集合中的某一个元音模板,表示元音模板p的谱特征序列求均值后形成的矢量,表示矢量的第i个分量。
4.根据权利要求3所述的语音识别方法,其特征在于步骤41和步骤42中的所述谱特征序列中的谱特征为12维梅尔频率倒谱系数以及它们的一阶及二阶差分。
5.根据权利要求3所 述的语音识别方法,其特征在于步骤41中所述元音的的谱特征序列和步骤42中所述每一个元音模板的谱特征序列的具体提取步骤为:
步骤61、对所述元音/元音模板对应的语音信号加汉宁窗,得到语音帧序列;
步骤62、对所述语音帧序列中的每一个语音帧通过快速傅立叶变换得到该语音帧的频谱能量分布;
步骤63、获取预置的多个频带,对所述语音帧序列中的每一个语音帧分别计算该语音帧在每一个频带上的谱信息熵,形成该语音帧的谱信息熵矢量;
步骤64、所述语音帧序列中的每一个语音帧的谱信息熵矢量经过顺序排列形成谱信息熵矢量序列。
6.根据权利要求5所 述的语音识别方法,其特征在于步骤63中该语音帧在每一个频带上的谱信息熵通过如下公式确定:
其中,i表示所述预置的多个频带中某一个频带的序号,Hi表示所述该语音帧在第i个频带上的谱信息熵,M表示所述该语音帧的频谱能量分布在第i个频带上包含的频率成分的数量,X(k)表示所述该语音帧的频谱能量分布在第i个频带上的第k个频率成分,X(j)表示所述该语音帧的频谱能量分布在第i个频带上的第j个频率成分。
7.根据权利要求5或6所述的语音识别方法,其特征在于步骤63中所述多个频带具体为6个频带:0~0.8kHZ、0.8~1.5kHZ、1.2~2.0kHZ、2.0~3.5kHZ、3.5~5.0kHZ、5.0~8.0kHZ。
CN201610299376.6A 2016-05-05 2016-05-05 一种基于声效模式检测的语音识别方法 Expired - Fee Related CN106023986B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610299376.6A CN106023986B (zh) 2016-05-05 2016-05-05 一种基于声效模式检测的语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610299376.6A CN106023986B (zh) 2016-05-05 2016-05-05 一种基于声效模式检测的语音识别方法

Publications (2)

Publication Number Publication Date
CN106023986A CN106023986A (zh) 2016-10-12
CN106023986B true CN106023986B (zh) 2019-08-30

Family

ID=57099029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610299376.6A Expired - Fee Related CN106023986B (zh) 2016-05-05 2016-05-05 一种基于声效模式检测的语音识别方法

Country Status (1)

Country Link
CN (1) CN106023986B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107039046B (zh) * 2017-03-21 2020-03-10 河南理工大学 一种基于特征融合的语音声效模式检测方法
CN107610691B (zh) * 2017-09-08 2021-07-06 深圳大学 英语元音发声纠错方法及装置
CN107633843B (zh) * 2017-09-08 2021-01-19 深圳大学 识别人国籍的方法及装置
CN109686378B (zh) 2017-10-13 2021-06-08 华为技术有限公司 语音处理方法和终端
CN107680601B (zh) * 2017-10-18 2019-02-01 深圳势必可赢科技有限公司 一种基于语谱图和音素检索的身份同一性检验方法及装置
CN108172215B (zh) * 2018-01-09 2020-09-25 河南理工大学 结合声效模式检测的语音识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3766124D1 (de) * 1986-02-15 1990-12-20 Smiths Industries Plc Verfahren und vorrichtung zur sprachverarbeitung.
CN1957397A (zh) * 2004-03-30 2007-05-02 先锋株式会社 声音识别装置和声音识别方法
JP6003127B2 (ja) * 2012-03-19 2016-10-05 富士ゼロックス株式会社 言語モデル作成プログラム及び言語モデル作成装置

Also Published As

Publication number Publication date
CN106023986A (zh) 2016-10-12

Similar Documents

Publication Publication Date Title
CN106023986B (zh) 一种基于声效模式检测的语音识别方法
CN104575490B (zh) 基于深度神经网络后验概率算法的口语发音评测方法
Song et al. Noise invariant frame selection: a simple method to address the background noise problem for text-independent speaker verification
US9336777B2 (en) Speech processing device, speech processing method, and speech processing program
KR100631786B1 (ko) 프레임의 신뢰도를 측정하여 음성을 인식하는 방법 및 장치
CN101246685B (zh) 计算机辅助语言学习系统中的发音质量评价方法
CN102332263B (zh) 一种基于近邻原则合成情感模型的说话人识别方法
CN105161092B (zh) 一种语音识别方法和装置
CN102543073B (zh) 一种沪语语音识别信息处理方法
Deshwal et al. Feature extraction methods in language identification: a survey
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN105023573A (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
CN106548775B (zh) 一种语音识别方法和系统
CN109545191B (zh) 一种歌曲中人声起始位置的实时检测方法
Vyas A Gaussian mixture model based speech recognition system using Matlab
CN103985390A (zh) 一种基于伽马通相关图语音特征参数提取方法
CN110189746A (zh) 一种应用于地空通信的话音识别方法
CN111489763B (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
Přibil et al. GMM-based speaker age and gender classification in Czech and Slovak
Venkatesan et al. Binaural classification-based speech segregation and robust speaker recognition system
Hansen et al. Stress compensation and noise reduction algorithms for robust speech recognition
Chen et al. InQSS: a speech intelligibility and quality assessment model using a multi-task learning network
Yusnita et al. Analysis of accent-sensitive words in multi-resolution mel-frequency cepstral coefficients for classification of accents in Malaysian English
Li et al. Voice-based recognition system for non-semantics information by language and gender
CN107039046B (zh) 一种基于特征融合的语音声效模式检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190830

Termination date: 20210505

CF01 Termination of patent right due to non-payment of annual fee