CN107680583A - 一种语音识别系统及方法 - Google Patents

一种语音识别系统及方法 Download PDF

Info

Publication number
CN107680583A
CN107680583A CN201710917953.8A CN201710917953A CN107680583A CN 107680583 A CN107680583 A CN 107680583A CN 201710917953 A CN201710917953 A CN 201710917953A CN 107680583 A CN107680583 A CN 107680583A
Authority
CN
China
Prior art keywords
model
dwt
module
hmm
control unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710917953.8A
Other languages
English (en)
Inventor
王冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Shuo Wei Intelligent Technology Co Ltd
Original Assignee
Anhui Shuo Wei Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Shuo Wei Intelligent Technology Co Ltd filed Critical Anhui Shuo Wei Intelligent Technology Co Ltd
Priority to CN201710917953.8A priority Critical patent/CN107680583A/zh
Publication of CN107680583A publication Critical patent/CN107680583A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/16Hidden Markov models [HMM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种语音识别系统及方法,包括:语音预处理模块,其包括语音监测模块和信号增强模块,语音监测模块分别与声音输入设备和语音增强模块电性连接;模型处理模块,其包括控制单元、DWT模型处理模块和HMM模型处理模块,控制单元分别与DWT模型处理模块、HMM模型处理模块、MFCC参数特征处理模块和识别结果显示模块电性连接;模型数据库,其包括DWT模型数据库和HMM模型数据库。本发明采用DWT模式识别和HMM模式识别综合识别并配有DWT模型数据库和HMM模型数据库可以区别识别管理员和普通用户的语音;同时通过从DWT模式识别结果中选出优选特征向量经DWT模型训练后存储DWT模型数据库,以避免管理员因为年龄变化或声音渐变而降低语音识别正确率的弊端。

Description

一种语音识别系统及方法
技术领域
本发明涉及语音识别领域,具体涉及一种语音识别系统及方法。
背景技术
随着人工智能走进日常生活中,人们对于语音识别的认识也越来越深,同时对人工智能中语音识别系统的要求也越来越高。现有专利CN103236260A提供了一种语音识别系统,包括:存储单元,用于存储至少一个用户的语音模型;语音采集及预处理单元,用于采集待识别语音信号,对所述待识别语音信号进行格式转换及编码;特征提取单元,用于从编码后的所述待识别语音信号中提取语音特征参数;模式匹配单元,用于将所提取的所述语音特征参数与至少一个所述语音模型进行匹配,确定所述待识别语音信号所属的用户。
虽然现有专利CN103236260A使用MFCC参数,建立说话人的语音特征模型,实现说话人的特征识别算法,能够达到提高说话人检测可靠性。但是在很多现实情况中该专利存在以下弊端:(1)该语音识别系统不能区别管理员和普通用户的特殊语音识别;(2)特定人的语音随着年龄的变化有所改变,原有模型数据库识别正确率降低。
发明内容
本发明的目的在于提供一种语音识别系统及方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种语音识别系统,包括:
语音预处理模块,其包括端点检测模块和信号增强模块,所述端点检测模块分别与声音输入设备和语音增强模块电性连接;
模型处理模块,其包括控制单元、DWT模型处理单元和HMM模型处理单元,所述控制单元分别与所述DWT模型处理单元、HMM模型处理单元、MFCC参数特征提取模块和识别结果显示模块电性连接;
模型数据库,其包括DWT模型数据库和HMM模型数据库,所述DWT模型处理单元与所述DWT模型数据库电性连接,所述HMM模型处理单元与所述HMM模型数据库电性连接。
优选的,所述DWT模型处理模块包括DWT模型训练和DWT模型匹配,所述HMM模型处理模块包括HMM模型训练和HMM模型匹配。
优选的,所述控制单元为ARM单片机,且其上面集成了模式开关电路,用于选择模型训练与模型匹配,还集成了模型选择电路,用于选择所述DWT模型处理模块和HMM模型处理模块。
优选的,所述语音增强模块使用的滤波器是维纳滤波器。
优选的,所述MFCC参数特征提取模块集成了信号放大器和模数转换器。
还提供一种语音识别的方法,包括:
第一步:通过所述声音输入设备输入声音,并对所述声音进行声音预处理包括经过所述端点监测模块和语音增强模块的处理得到语音信号;
第二步:通过所述MFCC特征提取模块利用MFCC特征提取技术对第一步中的语音信号进行特征提取得到特征向量并将特征向量传送给所述控制单元;
第三步:所述控制单元根据模式开关电路选择模型训练和模型匹配,若选择模型训练则执行第四步,若选择模型匹配则执行第五步;
第四步:所述控制单元根据模型开关电路选择所述DWT模型处理模块单元和HMM模型处理单元,若选择所述DWT模型处理单元,第二步中的特征向量经DWT模型处理单元训练后得到DWT模板存储在所述DWT模型数据库,若选择HMM模型处理单元,第二步中的特征向量经HMM模型处理单元训练后得到HMM模板存储到所述HMM模型数据库;
第五步:第二步中的特征向量经DWT模型处理单元匹配后得到的最小距离值与DWT预设值比较,若大于DWT预设值,则执行步骤六,若小于DWT预设值,则执行步骤七;
第六步:将第二步中的特征向量经HMM模式匹配后得到匹配结果,并将结果输出;
第七步:判断第五步中的最小距离值是否符合存储条件,若符合则所述控制单元控制地二步中的特征向量经过DWT模型处理单元训练后存储到所述DWT模型数据库,若不符合直接将匹配结果输出。
与现有技术相比,本发明的有益效果是:
本发明采用DWT模式识别和HMM模式识别综合识别并配有DWT模型数据库和HMM模型数据库可以区别识别管理员和普通用户的语音;同时通过从DWT模式识别结果中选出优选特征向量经DWT模型训练后存储DWT模型数据库,以避免管理员因为年龄变化或声音渐变而降低语音识别正确率的弊端。
附图说明
图1为本发明的语音识别系统构示意图;
图2为本发明的语音识别系统的使用方法流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如附图1所示,一种语音识别系统,包括:语音预处理模块,包括端点检测模块和信号增强模块,端点检测模块分别与声音输入设备和语音增强模块电性连接,模型处理模块,包括控制单元、DWT模型处理单元和HMM模型处理单元,控制单元分别与DWT模型处理单元、HMM模型处理单元、MFCC参数特征提取模块和识别结果显示模块电性连接。模型数据库,包括DWT模型数据库和HMM模型数据库,DWT模型处理单元与DWT模型数据库电性连接,HMM模型处理单元与HMM模型数据库电性连接。DWT模型处理模块包括DWT模型训练和DWT模型匹配,HMM模型处理模块包括HMM模型训练和HMM模型匹配,控制单元为ARM单片机,且其上面集成了模式开关电路,用于选择模型训练与模型匹配,还集成了模型选择电路,用于选择所述DWT模型处理模块和HMM模型处理模块。语音增强模块使用的滤波器是维纳滤波器,MFCC参数特征提取模块集成了信号放大器和模数转换器。
当语音输入设备接收到声音后,将声音信号传送给语音预处理模块,在语音预处理过程中先将声音信号进行端点监测模块获得连续的语音信号,再将语音信号通过语音增模块强去除噪音获得纯净的语音信号,将语音信号进行MFCC参数提取得到特征矢量,特征矢量传送到控制单元,控制单元根据模式选择电路的通断和模型控制电路的通断进行特征矢量训练或者特征向量匹配,若进行特征向量训练则将训练后的模型存储到模型数据库,若进行特征向量匹配则将匹配后的结果输出。
如附图2所示,一种语音识别的方法:
第一步:通过声音输入设备输入声音,并对声音进行声音预处理包括经过端点监测模块和语音增强模块的处理得到语音信号;
第二步:通过MFCC特征提取模块利用MFCC特征提取技术对第一步中的语音信号进行特征提取得到特征向量并将特征向量传送给控制单元;
第三步:控制单元根据模式开关电路选择模型训练和模型匹配,若选择模型训练则执行第四步,若选择模型匹配则执行第五步;
第四步:控制单元根据模型开关电路选择DWT模型处理模块单元和HMM模型处理单元,若选择DWT模型处理单元,第二步中的特征向量经DWT模型处理单元训练后得到DWT模板存储在DWT模型数据库,若选择HMM模型处理单元,第二步中的特征向量经HMM模型处理单元训练后得到HMM模板存储到HMM模型数据库;
第五步:第二步中的特征向量经DWT模型处理单元匹配后得到的最小距离值与DWT预设值比较,若大于DWT预设值,则执行步骤六,若小于DWT预设值,则执行步骤七;
第六步:将第二步中的特征向量经HMM模式匹配后得到匹配结果,并将结果输出;
第七步:判断第五步中的最小距离值是否符合存储条件,若符合则控制单元控制地二步中的特征向量经过DWT模型处理单元训练后存储到DWT模型数据库,若不符合直接将匹配结果输出。
当MFCC参数特征提取模块提取后得到特征向量,控制单元根据模式选择电路的通断和模型控制电路的通断做出判断,若模式选择电路断开则进行训练模式,若模型控制电路断开则选择的为DWT模型训练,则特征向量经过DWT模型训练后得到DWT模型存储到DWT模型数据库;若模型控制电路连通则选择的为HMM模型训练,则特征向量经过HMM模型训练后得到HMM模型存储到HMM模型数据库;若模式选择电路连通则选择匹配模式,则进行DWT模型匹配得到DWT最小距离值及其对应的识别结果,DWT最小距离值小于预设值则判断为管理员语音指令,并对DWT最小距离值做出评估判断是否以该特征向量作为DWT模型基础,若是,则将该特征向量经过DWT模型训练后存储到DWT模型数据库中同时输出该识别结果,若否,则输出该识别结果;若DWT模型匹配得到的DWT最小距离值大于预设值则进行HMM模型匹配得到识别结果,并将识别结果输出。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (6)

1.一种语音识别系统,其特征在于包括:
语音预处理模块,其包括端点检测模块和信号增强模块,所述端点检测模块分别与声音输入设备和语音增强模块电性连接;
模型处理模块,其包括控制单元、DWT模型处理单元和HMM模型处理单元,所述控制单元分别与所述DWT模型处理单元、HMM模型处理单元、MFCC参数特征提取模块和识别结果显示模块电性连接;
模型数据库,其包括DWT模型数据库和HMM模型数据库,所述DWT模型处理单元与所述DWT模型数据库电性连接,所述HMM模型处理单元与所述HMM模型数据库电性连接。
2.根据权利要求1所述的一种语音识别系统,其特征在于,所述DWT模型处理模块包括DWT模型训练和DWT模型匹配,所述HMM模型处理模块包括HMM模型训练和HMM模型匹配。
3.根据权利要求1所述的一种语音识别系统,其特征在于,所述控制单元为ARM单片机,且其上面集成了模式开关电路,用于选择模型训练与模型匹配,还集成了模型选择电路,用于选择所述DWT模型处理模块和HMM模型处理模块。
4.根据权利要求1所述的一种语音识别系统,其特征在于,所述语音增强模块使用的滤波器是维纳滤波器。
5.根据权利要求1所述的一种语音识别系统,其特征在于,所述MFCC参数特征提取模块集成了信号放大器和模数转换器。
6.一种权利要求1所述的一种语音识别的方法,其特征在于包括:
第一步:通过所述声音输入设备输入声音,并对所述声音进行声音预处理包括经过所述端点监测模块和语音增强模块的处理得到语音信号;
第二步:通过所述MFCC特征提取模块利用MFCC特征提取技术对第一步中的语音信号进行特征提取得到特征向量并将特征向量传送给所述控制单元;
第三步:所述控制单元根据模式开关电路选择模型训练和模型匹配,若选择模型训练则执行第四步,若选择模型匹配则执行第五步;
第四步:所述控制单元根据模型开关电路选择所述DWT模型处理模块单元和HMM模型处理单元,若选择所述DWT模型处理单元,第二步中的特征向量经DWT模型处理单元训练后得到DWT模板存储在所述DWT模型数据库,若选择HMM模型处理单元,第二步中的特征向量经HMM模型处理单元训练后得到HMM模板存储到所述HMM模型数据库;
第五步:第二步中的特征向量经DWT模型处理单元匹配后得到的最小距离值与DWT预设值比较,若大于DWT预设值,则执行步骤六,若小于DWT预设值,则执行步骤七;
第六步:将第二步中的特征向量经HMM模式匹配后得到匹配结果,并将结果输出;
第七步:判断第五步中的最小距离值是否符合存储条件,若符合则所述控制单元控制地二步中的特征向量经过DWT模型处理单元训练后存储到所述DWT模型数据库,若不符合直接将匹配结果输出。
CN201710917953.8A 2017-09-27 2017-09-27 一种语音识别系统及方法 Pending CN107680583A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710917953.8A CN107680583A (zh) 2017-09-27 2017-09-27 一种语音识别系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710917953.8A CN107680583A (zh) 2017-09-27 2017-09-27 一种语音识别系统及方法

Publications (1)

Publication Number Publication Date
CN107680583A true CN107680583A (zh) 2018-02-09

Family

ID=61139615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710917953.8A Pending CN107680583A (zh) 2017-09-27 2017-09-27 一种语音识别系统及方法

Country Status (1)

Country Link
CN (1) CN107680583A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036387A (zh) * 2018-07-16 2018-12-18 中央民族大学 视频语音识别方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101354886A (zh) * 2007-07-27 2009-01-28 陈修志 语音识别装置
CN101944359A (zh) * 2010-07-23 2011-01-12 杭州网豆数字技术有限公司 一种面向特定人群的语音识别方法
CN103065629A (zh) * 2012-11-20 2013-04-24 广东工业大学 一种仿人机器人的语音识别系统
CN104078039A (zh) * 2013-03-27 2014-10-01 广东工业大学 基于隐马尔科夫模型的家用服务机器人语音识别系统
CN105374357A (zh) * 2015-11-23 2016-03-02 青岛海尔智能技术研发有限公司 一种语音识别方法、装置及语音控制系统
CN105810192A (zh) * 2014-12-31 2016-07-27 展讯通信(上海)有限公司 语音识别方法及其系统
US20170103776A1 (en) * 2015-10-12 2017-04-13 Gwangju Institute Of Science And Technology Sound Detection Method for Recognizing Hazard Situation

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101354886A (zh) * 2007-07-27 2009-01-28 陈修志 语音识别装置
CN101944359A (zh) * 2010-07-23 2011-01-12 杭州网豆数字技术有限公司 一种面向特定人群的语音识别方法
CN103065629A (zh) * 2012-11-20 2013-04-24 广东工业大学 一种仿人机器人的语音识别系统
CN104078039A (zh) * 2013-03-27 2014-10-01 广东工业大学 基于隐马尔科夫模型的家用服务机器人语音识别系统
CN105810192A (zh) * 2014-12-31 2016-07-27 展讯通信(上海)有限公司 语音识别方法及其系统
US20170103776A1 (en) * 2015-10-12 2017-04-13 Gwangju Institute Of Science And Technology Sound Detection Method for Recognizing Hazard Situation
CN105374357A (zh) * 2015-11-23 2016-03-02 青岛海尔智能技术研发有限公司 一种语音识别方法、装置及语音控制系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036387A (zh) * 2018-07-16 2018-12-18 中央民族大学 视频语音识别方法及系统

Similar Documents

Publication Publication Date Title
CN103456305B (zh) 终端和基于多个声音采集单元的语音处理方法
CN104168353B (zh) 蓝牙耳机及其语音交互控制方法
CN107342076A (zh) 一种兼容非常态语音的智能家居控制系统及方法
CN107767863A (zh) 语音唤醒方法、系统及智能终端
CN108305623A (zh) 电器控制方法及装置
CN104102181B (zh) 智能家居控制方法、装置及系统
CN109767769A (zh) 一种语音识别方法、装置、存储介质及空调
CN107103901B (zh) 人工耳蜗声音场景识别系统和方法
CN110992932B (zh) 一种自学习的语音控制方法、系统及存储介质
CN108670128A (zh) 语音控制扫地机器人的方法和扫地机器人
CN106971741A (zh) 实时将语音进行分离的语音降噪的方法及系统
CN106448654A (zh) 一种机器人语音识别系统及其工作方法
CN110379441A (zh) 一种基于对抗型人工智能网络的语音服务方法与系统
CN107680229B (zh) 基于语音特征和人脸识别的门禁系统的控制方法
CN111105796A (zh) 无线耳机控制装置及控制方法、语音控制设置方法和系统
CN108256458A (zh) 一种针对聋人自然手语的双向实时翻译系统及方法
CN110473536A (zh) 一种唤醒方法、装置和智能设备
CN105182763A (zh) 一种基于语音识别的智能遥控器及实现方法
CN106303874A (zh) 一种数字助听器的自适应验配方法
CN109192214A (zh) 一种语音取号方法、存储介质和机器人
CN101917530A (zh) 电话远程按键语音双模式控制器
CN107395873A (zh) 音量调节方法、装置、存储介质及终端
CN107680583A (zh) 一种语音识别系统及方法
CN107799118A (zh) 语音方位识别方法和装置及系统、家居控制器
CN105869636A (zh) 一种语音识别装置及其方法、一种智能电视及其控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 803, room F1, two, innovation industrial park, No. 2800, new avenue of innovation, Hefei high tech Zone, Anhui

Applicant after: ANHUI SUNWAY INTELLIGENT TECHNOLOGY CO.,LTD.

Address before: 230088, H2, building 374, two innovation industrial park, 2800 innovation Avenue, Hefei hi tech Zone, Anhui

Applicant before: ANHUI SUNWAY INTELLIGENT TECHNOLOGY CO.,LTD.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20180209

RJ01 Rejection of invention patent application after publication