CN108417211A - 一种多功能语音识别控制器 - Google Patents
一种多功能语音识别控制器 Download PDFInfo
- Publication number
- CN108417211A CN108417211A CN201810090860.7A CN201810090860A CN108417211A CN 108417211 A CN108417211 A CN 108417211A CN 201810090860 A CN201810090860 A CN 201810090860A CN 108417211 A CN108417211 A CN 108417211A
- Authority
- CN
- China
- Prior art keywords
- master controller
- identification
- speaker
- meaning
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006870 function Effects 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000035484 reaction time Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Facsimiles In General (AREA)
Abstract
本发明涉及一种多功能语音识别控制器,包括主控制器,所述主控制器外接有孤立词语音识别芯片,所述主控制器还外接有录音模块;所述录音模块和主控制器相连后具有完全的语音识别功能,通过编程实现说话人的识别,用于识别说话人身份;所述孤立词语音识别芯片将识别的语意发送给主控制器;所述录音模块和孤立词语音识别芯片同时获得语音数据并进行识别;所述主控制器根据语意和说话人身份确定说话人是否有权限执行该语意对应的命令,整合这些信息后发送控制指令。本发明通过两个模块分别对语意和说话人身份进行识别,大大减少了反应时间。
Description
技术领域
本发明涉及语音控制技术领域,特别是涉及一种多功能语音识别控制器。
背景技术
随着物联网的快速发展,各种电子产品不断深入到人们的生活中,使人民的生活水平和生活质量得到很大的提高,人们对智能家居产品的实用性和功能多样性要求也越来越高。语音控制是一种比较新颖的控制方式,在以后的智能家居领域将扮演更重要的角色。但是目前的家具控制方式存在很多不便,不能满足人民对智能家居产品的要求。
发明内容
本发明所要解决的技术问题是提供一种多功能语音识别控制器,能够减少反应时间。
本发明解决其技术问题所采用的技术方案是:提供一种多功能语音识别控制器,包括主控制器,所述主控制器外接有孤立词语音识别芯片,所述主控制器还外接有录音模块;所述录音模块和主控制器相连后具有完全的语音识别功能,通过编程实现说话人的识别;所述录音模块和孤立词语音识别芯片同时获得语音数据并进行识别;所述孤立词语音识别芯片将识别的语意发送给主控制器;所述主控制器根据语意和说话人身份确定说话人是否有权限执行该语意对应的命令,整合这些信息后发送控制指令。
所述主控制器还外接存储器,所述存储器包括Nand Flash和SDRAM,所述NandFlash用于存储程序和数据,所述程序用于完成系统的初始化和说话人识别算法,并最终发送控制命令;所述数据包括提前训练的说话人特征矩阵和隐马尔可夫模型数据;所述SDRAM作为主控制器的内存使用。
所述录音模块还与音频播放模块相连,所述音频播放模块在录音模块录音后能播放录音结果,并在产生最终的控制指令后通过语音的形式通知用户命令的执行情况。
所述主控制器还连接有串口模块,所述串口模块与外部设备相连,用于将主控制器的控制指令发送给外部设备。
有益效果
由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果:本发明具有高速的语意识别功能,用户可以将需要识别的孤立词通过编程写入到LD3320中,芯片能自动识别并将结果传送给主控制器。本发明具有说话人识别功能,MCU可以得到录音数据,并根据识别算法识别说话人身份,MCU将两种信息融合发出最终的控制命令。主控制器可以通过声卡WM8976发出语音通知,反馈识别结果,主控制器通过通用的串口与其他设备相连,使其他设备具有了语音识别功能。
附图说明
图1为本发明的系统结构方框图;
图2为外接的孤立词语音识别芯片框图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明的实施方式涉及一种多功能语音识别控制器,包括主控制器,所述主控制器外接有孤立词语音识别芯片,所述主控制器还外接有录音模块;所述录音模块和主控制器相连后具有完全的语音识别功能,通过编程实现说话人的识别,用于识别说话人身份;所述孤立词语音识别芯片将识别的语意发送给主控制器;所述录音模块和孤立词语音识别芯片同时获得语音数据并进行识别;所述主控制器根据语意和说话人身份确定说话人是否有权限执行该语意对应的命令,整合这些信息后发送控制指令。
如图1所示,该多功能语音识别控制器由主控芯片和外部语音识别芯片LD3320组成,各个模块的连接方式也在图中标明。以主控制器MCU为核心,包括外部孤立词语音识别模块、USB模块、录音和放音模块、串口模块以及外设LED等。
外部孤立词语音识别模块具有录音功能,能独立完成语意识别。与主控制器相连的WM8976芯片是一个声卡芯片,具有录音和放音功能。主控制器和LD3320同时完成识别任务,LD3320将结果通过GPIO发送给主控制器,主控制器融合这些信息,发出命令控制给直接相连的外设或者通过串口发送给其它设备。
如图2,LD3320系列芯片是单芯片语音识别芯片,芯片内置了完整的识别引擎和语音识别特征库,因此,用户可以编辑任意内容的关键词语列表来进行识别。芯片内置有AD/DA转换,麦克风接口,音频输出接口,不需要外接RAM或FLASH,单个芯片即可完成声音采集,播放,识别并输出识别结果等功能。
所述的多功能语音识别控制器还包括外接的存储器,包括Nand Flash和SDRAM,Nand Flash存储程序和数据,这些程序完成系统的初始化和说话人识别算法,并最终发送控制命令;数据包括提前训练的说话人特征矩阵和隐马尔可夫模型数据。SDRAM作为内存使用,存储空间大,能够满足说话人识别和存储大量数据的作用。
所述的多功能语音识别控制器还包括与录音模块相连的音频播放模块,该模块在录音后能播放录音结果,在产生最终的控制命令后也可以以语音的形式通知用户命令的执行情况。
所述的多功能语音识别控制器还包括与主控制器相连的串口模块,串口模块提供一个通用的外接接口,与其他设备相连后能进一步扩大本发明的应用范围。
所述外接的孤立词语音识别模块与主控通过USB口连接,同时USB接口也是外接芯片的编程接口;外接模块通过IO口与主控制器连接后发送识别结果。
不难发现,本发明具有以下功能:
一、高速的语意识别功能,用户可以将需要识别的孤立词通过编程写入到LD3320中,芯片能自动识别并将结果传送给主控制器。
二、说话人识别功能,MCU可以得到录音数据,并根据识别算法识别说话人身份,MCU将两种信息融合发出最终的控制命令。
三、主控制器可以通过声卡WM8976发出语音通知,反馈识别结果。
四、主控制器通过通用的串口与其他设备相连,使其他设备具有了语音识别功能。
Claims (4)
1.一种多功能语音识别控制器,包括主控制器,其特征在于,所述主控制器外接有孤立词语音识别芯片,所述主控制器还外接有录音模块;所述录音模块和主控制器相连后具有完全的语音识别功能,通过编程实现说话人的识别;所述孤立词语音识别芯片将识别的语意发送给主控制器;所述录音模块和孤立词语音识别芯片同时获得语音数据并进行识别;所述主控制器根据语意和说话人身份确定说话人是否有权限执行该语意对应的命令,整合这些信息后发送控制指令。
2.根据权利要求1所述的多功能语音识别控制器,其特征在于,所述主控制器还外接存储器,所述存储器包括Nand Flash和SDRAM,所述Nand Flash用于存储程序和数据,所述程序用于完成系统的初始化和说话人识别算法,并最终发送控制命令;所述数据包括提前训练的说话人特征矩阵和隐马尔可夫模型数据;所述SDRAM作为主控制器的内存使用。
3.根据权利要求1所述的多功能语音识别控制器,其特征在于,所述录音模块还与音频播放模块相连,所述音频播放模块在录音模块录音后能播放录音结果,并在产生最终的控制指令后通过语音的形式通知用户命令的执行情况。
4.根据权利要求1所述的多功能语音识别控制器,其特征在于,所述主控制器还连接有串口模块,所述串口模块与外部设备相连,用于将主控制器的控制指令发送给外部设备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810090860.7A CN108417211A (zh) | 2018-01-30 | 2018-01-30 | 一种多功能语音识别控制器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810090860.7A CN108417211A (zh) | 2018-01-30 | 2018-01-30 | 一种多功能语音识别控制器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108417211A true CN108417211A (zh) | 2018-08-17 |
Family
ID=63126573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810090860.7A Pending CN108417211A (zh) | 2018-01-30 | 2018-01-30 | 一种多功能语音识别控制器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108417211A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110473522A (zh) * | 2019-08-23 | 2019-11-19 | 百可录(北京)科技有限公司 | 一种精确分析短语音片段的方法 |
CN111081228A (zh) * | 2019-11-28 | 2020-04-28 | 安普德(天津)科技股份有限公司 | 语音识别算法及芯片 |
CN111292747A (zh) * | 2020-02-07 | 2020-06-16 | 普强时代(珠海横琴)信息技术有限公司 | 一种电话网络用文本自动语音录入系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120136666A1 (en) * | 2010-11-29 | 2012-05-31 | Corpier Greg L | Automated personal assistance system |
CN104734858A (zh) * | 2015-04-17 | 2015-06-24 | 黑龙江中医药大学 | 对数据进行识别的防锁死的usb身份认证系统及方法 |
CN205211412U (zh) * | 2015-12-17 | 2016-05-04 | 天津春荣合陞科技发展有限公司 | 一种智能语音识别身份认证机 |
US20160234569A1 (en) * | 2007-01-05 | 2016-08-11 | At&T Intellectual Property I, Lp | Methods, systems, and computer program products for categorizing/rating content uploaded to a network for broadcasting |
-
2018
- 2018-01-30 CN CN201810090860.7A patent/CN108417211A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160234569A1 (en) * | 2007-01-05 | 2016-08-11 | At&T Intellectual Property I, Lp | Methods, systems, and computer program products for categorizing/rating content uploaded to a network for broadcasting |
US20120136666A1 (en) * | 2010-11-29 | 2012-05-31 | Corpier Greg L | Automated personal assistance system |
CN104734858A (zh) * | 2015-04-17 | 2015-06-24 | 黑龙江中医药大学 | 对数据进行识别的防锁死的usb身份认证系统及方法 |
CN205211412U (zh) * | 2015-12-17 | 2016-05-04 | 天津春荣合陞科技发展有限公司 | 一种智能语音识别身份认证机 |
Non-Patent Citations (1)
Title |
---|
王欢: "嵌入式非特定人车载电器语音控制终端的研究与实现", 《合肥工业大学》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110473522A (zh) * | 2019-08-23 | 2019-11-19 | 百可录(北京)科技有限公司 | 一种精确分析短语音片段的方法 |
CN110473522B (zh) * | 2019-08-23 | 2021-11-09 | 百可录(北京)科技有限公司 | 一种精确分析短语音片段的方法 |
CN111081228A (zh) * | 2019-11-28 | 2020-04-28 | 安普德(天津)科技股份有限公司 | 语音识别算法及芯片 |
CN111292747A (zh) * | 2020-02-07 | 2020-06-16 | 普强时代(珠海横琴)信息技术有限公司 | 一种电话网络用文本自动语音录入系统 |
CN111292747B (zh) * | 2020-02-07 | 2023-08-15 | 普强时代(珠海横琴)信息技术有限公司 | 一种电话网络用文本自动语音录入系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108417211A (zh) | 一种多功能语音识别控制器 | |
CN108469966A (zh) | 语音播报控制方法、装置、智能设备及介质 | |
CN106452997A (zh) | 家用电器及其控制系统 | |
WO2017084185A1 (zh) | 基于语义分析的智能终端控制方法、系统及智能终端 | |
JP6783339B2 (ja) | 音声を処理する方法及び装置 | |
CN206117701U (zh) | 家用电器及其控制系统 | |
CN104980790A (zh) | 语音字幕的生成和装置、播放方法和装置 | |
TW202022851A (zh) | 語音互動方法和裝置 | |
CN109712646A (zh) | 语音播报方法、装置和终端 | |
CN109272991A (zh) | 语音交互的方法、装置、设备和计算机可读存储介质 | |
CN109545194A (zh) | 唤醒词预训练方法、装置、设备及存储介质 | |
CN109360569A (zh) | 一种家庭语音控制系统及其方法 | |
CN109935226A (zh) | 一种基于深度神经网络的远场语音识别增强系统及方法 | |
CN104834738B (zh) | 录音文件存储方法及装置 | |
Gref et al. | Improved transcription and indexing of oral history interviews for digital humanities research | |
CN109686360A (zh) | 一种语音订餐机器人 | |
US20050108011A1 (en) | System and method of templating specific human voices | |
CN209374052U (zh) | 智能语音系统 | |
CN109492126B (zh) | 一种智能交互方法及装置 | |
CN202535490U (zh) | 一种智能语音控制的音箱装置 | |
CN1979462A (zh) | 声控多媒体播放器 | |
AU2048001A (en) | System and method of templating specific human voices | |
CN109922397B (zh) | 音频智能处理方法、存储介质、智能终端及智能蓝牙耳机 | |
US20100222905A1 (en) | Electronic apparatus with an interactive audio file recording function and method thereof | |
CN109065018B (zh) | 一种面向智能机器人的故事数据处理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180817 |