CN111696524B - 一种叠字语音识别方法及系统 - Google Patents

一种叠字语音识别方法及系统 Download PDF

Info

Publication number
CN111696524B
CN111696524B CN202010315390.7A CN202010315390A CN111696524B CN 111696524 B CN111696524 B CN 111696524B CN 202010315390 A CN202010315390 A CN 202010315390A CN 111696524 B CN111696524 B CN 111696524B
Authority
CN
China
Prior art keywords
voice
features
neural network
network model
energy attenuation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010315390.7A
Other languages
English (en)
Other versions
CN111696524A (zh
Inventor
张广学
肖龙源
叶志坚
李稀敏
刘晓葳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Co Ltd
Original Assignee
Xiamen Kuaishangtong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Co Ltd filed Critical Xiamen Kuaishangtong Technology Co Ltd
Priority to CN202010315390.7A priority Critical patent/CN111696524B/zh
Publication of CN111696524A publication Critical patent/CN111696524A/zh
Application granted granted Critical
Publication of CN111696524B publication Critical patent/CN111696524B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种叠字语音识别方法,包括以下步骤:获取待识别语音;提取待识别语音的语音特征,语音特征包括能量衰减特征;将语音特征输入已经训练好的神经网络模型中;神经网络模型判断是否有叠字出现。本发明还公开了一种采用上述方法的叠字语音识别系统。本发明加入了能量衰减特征进行识别,提高叠字的识别率。

Description

一种叠字语音识别方法及系统
技术领域
本发明涉及语音识别技术领域,特别是一种叠字语音识别方法及系统。
背景技术
语音识别技术已应用在生活的方方面面,如会议记录、语言互译、娱乐影音等。然而,对于一些叠字的语音,识别率还有待提高。在语谱图中,有些叠字的发音频域较窄、特征不明显或是辅音发音特征不明显,导致识别过程中会出现多字或是少字现象。
发明内容
本发明为解决上述问题,提供了一种叠字语音识别方法及系统,加入了能量衰减特征进行识别,提高叠字的识别率。
为实现上述目的,本发明采用的技术方案为:
一种叠字语音识别方法,包括以下步骤:
获取待识别语音;
提取所述待识别语音的语音特征,所述语音特征包括能量衰减特征;
将所述语音特征输入已经训练好的神经网络模型中;
所述神经网络模型判断是否有叠字出现。
优选的,提取所述能量衰减特征的方法,包括以下步骤:
提取元音音素的共振峰的频率;
提取所述频率下所述待识别语音的能量衰减曲线,得到能量衰减特征。
优选的,所述能量衰减曲线不包括非元音音素的能量衰减点。
优选的,所述语音特征还包括MFCC特征和I-VECTOR特征。
优选的,所述神经网络模型的构建方法,包括以下步骤:
准备训练语料和所述训练语料对应的文本;
对训练语料的语音进行对齐;
提取所述训练语料的语料语音特征;
将所述语料语音特征输入所述神经网络模型进行训练,直至满足训练结束条件。
优选的,还包括步骤:所述神经网络模型输出识别文本。
优选的,所述神经网络模型为TDNN时延神经网络。
基于同样的发明构思,本发明还提供了一种叠字语音识别系统,包括:
语音输入终端,用于输入所述待识别语音;
识别模块,用于对所述待识别语音的音频数据进行识别,判定待识别语音是否有叠字出现。
本发明的有益效果是:
(1)提高叠字的识别率,减少非叠字的干扰;
(2)去除非元音音素的能量衰减点,加强能量衰减特征的特征性;
(3)使用端到端的网络结构进行识别,直接输出识别文本。
附图说明
图1为本发明一实施例所提供的神经网络模型构建的流程图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合具体实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例一
本实施例提供一种叠字语音识别方法,用于识别语音中的叠字。
首先,需要构建一个神经网络模型,基于该模型进行识别,由于进行音素级别的识别,因此本实施例使用TDNN时延神经网络,来降低语音识别的错误率,提高叠字的识别率。
如图1所示,构建TDNN叠字识别模型包括以下步骤:
1.准备训练语料和对应的文本。
2.提取MFCC特征。在本方法中,使用MFCC特征作为识别的语音特征的优点在于:在提取的过程中,对频谱进行平滑化,并消除谐波的作用,可以突显语音的共振峰,识别时可以排除输入的语音的音调的影响。另外,还可以降低神经网络模型的运算量。
3.将训练语料和对应的文本进行对齐。
4.提取能量衰减特征。
具体包括以下步骤:
a.提取叠字的元音音素的共振峰2~3个。元音音素的共振峰携带的能量最高。
b.提取每个共振峰的频率。
c.提取每个频率下语音的能量衰减曲线,相应的为2~3条。
d.去除非元音音素的能量衰减点,可以排除非元音音素的干扰,突显叠字的元音音素在能量衰减上的识别度,提高提取的能量衰减特征的特征性。
e.得到能量衰减特征。本方法加入了能量衰减特征作为识别叠字的语音特征,来提高识别率。
5.提取IVECTOR特征。I-VECTOR特征具有区分性,自适应说话人和环境,可以减少背景音的干扰。
6.组合MFCC+IVECTOR+能量衰减特征。
7.将组合特征输入TDNN进行训练;
8.生成叠字语音识别模型。
然后,使用训练完成的神经网络模型进行语音中叠字的识别,包括以下步骤:
1.获取待识别语音。
2.提取待识别语音的语音特征,语音特征包括MFCC特征、能量衰减特征和I-VECTOR特征。
3.将语音特征输入已经训练好的神经网络模型中。
4.神经网络模型判断是否有叠字出现,直接输出待识别语音对应的识别文本。从该文本中可以得知待识别的语音中是否包含叠字,以及每处叠字的位置和上下文。
本方法可以提高叠字识别的精确度,避免识别的叠字多字或少字、未识别出叠字以及将非叠字识别为叠字的情况。
实施例二
本实施例提供一种叠字语音识别系统,包括:
音频输入终端,用户通过麦克风等组件输入待识别的语音,该终端提取语音特征,包括通过提取语音的共振峰频率,相应地提取能量衰减特征,并将语音特征传输至识别模块。
识别模块,加载有TDNN叠字识别模型,对上述语音特征进行识别,不仅判断语音中是否有叠字出现,而且直接输出语音的识别文本。
本系统使用端到端的网络结构进行识别,识别速度快,可以提高叠字语音的识别率。将本系统应用于手机上的APP或其他智能设备,可以更好地满足用户对语音识别精确性的要求,提高人机交互的智能化水平,使用户更容易通过语音实现设备控制和信息获取。
本领域技术人员可以理解,实现上述音频数据检测方法实施例中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在1个存储介质中,包括若干指令用以使得1个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (5)

1.一种叠字语音识别方法,其特征在于,包括以下步骤:
获取待识别语音;
提取所述待识别语音的语音特征,所述语音特征包括能量衰减特征;
将所述语音特征输入已经训练好的神经网络模型中;
所述神经网络模型判断是否有叠字出现;
提取所述能量衰减特征的方法,包括以下步骤:提取元音音素的共振峰的频率;提取所述频率下所述待识别语音的能量衰减曲线,得到能量衰减特征;
所述语音特征还包括MFCC特征和I-VECTOR特征;
所述神经网络模型的构建方法,包括以下步骤:准备训练语料和所述训练语料对应的文本;对训练语料的语音进行对齐;提取所述训练语料的语料语音特征;将所述语料语音特征输入所述神经网络模型进行训练,直至满足训练结束条件。
2.根据权利要求1所述的叠字语音识别方法,其特征在于,所述能量衰减曲线不包括非元音音素的能量衰减点。
3.根据权利要求1所述的叠字语音识别方法,其特征在于,还包括步骤:所述神经网络模型输出识别文本。
4.根据权利要求1所述的叠字语音识别方法,其特征在于,所述神经网络模型为TDNN时延神经网络。
5.一种采用如权利要求1~4任一项所述方法的叠字语音识别系统,其特征在于,包括:
语音输入终端,用于输入所述待识别语音;
识别模块,用于提取所述待识别语音的语音特征,所述语音特征包括能量衰减特征;所述语音特征还包括MFCC特征和I-VECTOR特征;将所述语音特征输入已经训练好的神经网络模型中;所述神经网络模型对所述待识别语音的音频数据进行识别,判定待识别语音是否有叠字出现;提取所述能量衰减特征的方法,包括以下步骤:提取元音音素的共振峰的频率;提取所述频率下所述待识别语音的能量衰减曲线,得到能量衰减特征;所述神经网络模型的构建方法,包括以下步骤:准备训练语料和所述训练语料对应的文本;对训练语料的语音进行对齐;提取所述训练语料的语料语音特征;将所述语料语音特征输入所述神经网络模型进行训练,直至满足训练结束条件。
CN202010315390.7A 2020-04-21 2020-04-21 一种叠字语音识别方法及系统 Active CN111696524B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010315390.7A CN111696524B (zh) 2020-04-21 2020-04-21 一种叠字语音识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010315390.7A CN111696524B (zh) 2020-04-21 2020-04-21 一种叠字语音识别方法及系统

Publications (2)

Publication Number Publication Date
CN111696524A CN111696524A (zh) 2020-09-22
CN111696524B true CN111696524B (zh) 2023-02-14

Family

ID=72476547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010315390.7A Active CN111696524B (zh) 2020-04-21 2020-04-21 一种叠字语音识别方法及系统

Country Status (1)

Country Link
CN (1) CN111696524B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112435671B (zh) * 2020-11-11 2021-06-29 深圳市小顺智控科技有限公司 汉语精准识别的智能化语音控制方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880906A (zh) * 2012-07-10 2013-01-16 南京邮电大学 一种基于diva神经网络模型的汉语元音发音方法
CN103928023A (zh) * 2014-04-29 2014-07-16 广东外语外贸大学 一种语音评分方法及系统
CN207323609U (zh) * 2017-02-18 2018-05-08 张民 口吃矫正装置
CN109192210A (zh) * 2018-10-25 2019-01-11 腾讯科技(深圳)有限公司 一种语音识别的方法、唤醒词检测的方法及装置
CN109599125A (zh) * 2019-02-01 2019-04-09 浙江核新同花顺网络信息股份有限公司 一种重叠音检测方法及相关装置
CN110222186A (zh) * 2019-06-13 2019-09-10 出门问问信息科技有限公司 叠字类问题处理方法、处理装置、设备及存储介质
CN110309285A (zh) * 2019-07-01 2019-10-08 出门问问信息科技有限公司 自动问答方法、装置、电子设备和存储介质
CN110415725A (zh) * 2019-07-15 2019-11-05 北京语言大学 使用第一语言数据评估第二语言发音质量的方法及系统
CN110675854A (zh) * 2019-08-22 2020-01-10 厦门快商通科技股份有限公司 一种中英文混合语音识别方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102313028B1 (ko) * 2015-10-29 2021-10-13 삼성에스디에스 주식회사 음성 인식 시스템 및 방법
CN107346659B (zh) * 2017-06-05 2020-06-23 百度在线网络技术(北京)有限公司 基于人工智能的语音识别方法、装置及终端
US10629193B2 (en) * 2018-03-09 2020-04-21 Microsoft Technology Licensing, Llc Advancing word-based speech recognition processing

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880906A (zh) * 2012-07-10 2013-01-16 南京邮电大学 一种基于diva神经网络模型的汉语元音发音方法
CN103928023A (zh) * 2014-04-29 2014-07-16 广东外语外贸大学 一种语音评分方法及系统
CN207323609U (zh) * 2017-02-18 2018-05-08 张民 口吃矫正装置
CN109192210A (zh) * 2018-10-25 2019-01-11 腾讯科技(深圳)有限公司 一种语音识别的方法、唤醒词检测的方法及装置
CN110444210A (zh) * 2018-10-25 2019-11-12 腾讯科技(深圳)有限公司 一种语音识别的方法、唤醒词检测的方法及装置
CN109599125A (zh) * 2019-02-01 2019-04-09 浙江核新同花顺网络信息股份有限公司 一种重叠音检测方法及相关装置
CN110222186A (zh) * 2019-06-13 2019-09-10 出门问问信息科技有限公司 叠字类问题处理方法、处理装置、设备及存储介质
CN110309285A (zh) * 2019-07-01 2019-10-08 出门问问信息科技有限公司 自动问答方法、装置、电子设备和存储介质
CN110415725A (zh) * 2019-07-15 2019-11-05 北京语言大学 使用第一语言数据评估第二语言发音质量的方法及系统
CN110675854A (zh) * 2019-08-22 2020-01-10 厦门快商通科技股份有限公司 一种中英文混合语音识别方法及装置

Also Published As

Publication number Publication date
CN111696524A (zh) 2020-09-22

Similar Documents

Publication Publication Date Title
CN108564940B (zh) 语音识别方法、服务器及计算机可读存储介质
Grézl et al. Adaptation of multilingual stacked bottle-neck neural network structure for new language
US10074363B2 (en) Method and apparatus for keyword speech recognition
CN110827801B (zh) 一种基于人工智能的自动语音识别方法及系统
Ghai et al. Literature review on automatic speech recognition
Metze et al. Models of tone for tonal and non-tonal languages
EP1675102A2 (en) Method for extracting feature vectors for speech recognition
CN107665705A (zh) 语音关键词识别方法、装置、设备及计算机可读存储介质
Aggarwal et al. Performance evaluation of sequentially combined heterogeneous feature streams for Hindi speech recognition system
CN111862954A (zh) 一种语音识别模型的获取方法及装置
CN104462912B (zh) 改进的生物密码安全
US20080243504A1 (en) System and method of speech recognition training based on confirmed speaker utterances
CN112581963A (zh) 一种语音意图识别方法及系统
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
CN111696524B (zh) 一种叠字语音识别方法及系统
CN114550706A (zh) 基于深度学习的智慧校园语音识别方法
CN107910005B (zh) 交互文本的目标业务定位方法及装置
US20080243499A1 (en) System and method of speech recognition training based on confirmed speaker utterances
KR20160061071A (ko) 발음 변이를 적용시킨 음성 인식 방법
CN107251137B (zh) 利用语音改善至少一种语义单元的集合的方法、装置及计算机可读记录介质
Liu et al. An ASR-free fluency scoring approach with self-supervised learning
CN116206592A (zh) 一种语音克隆方法、装置、设备及存储介质
Sharma et al. Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art
CN112216270B (zh) 语音音素的识别方法及系统、电子设备及存储介质
CN115132170A (zh) 语种分类方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant