CN108091327A - 一种智能语音设备控制方法 - Google Patents
一种智能语音设备控制方法 Download PDFInfo
- Publication number
- CN108091327A CN108091327A CN201810153077.0A CN201810153077A CN108091327A CN 108091327 A CN108091327 A CN 108091327A CN 201810153077 A CN201810153077 A CN 201810153077A CN 108091327 A CN108091327 A CN 108091327A
- Authority
- CN
- China
- Prior art keywords
- voice
- sound
- speech recognition
- voice data
- equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000000605 extraction Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 239000004568 cement Substances 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010438 heat treatment Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000002618 waking effect Effects 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 235000021168 barbecue Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000009835 boiling Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000010985 leather Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/2803—Home automation networks
- H04L12/2816—Controlling appliance services of a home automation network by calling their functionalities
- H04L12/282—Controlling appliance services of a home automation network by calling their functionalities based on user interaction within the home
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Automation & Control Theory (AREA)
- Computer Networks & Wireless Communication (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本发明涉及语音识别领域,特别是涉及到一种智能语音设备控制方法,由声音采集模块采集外部语音数据并传输给语音识别模块进行识别,语音识别模块中嵌入有语音识别引擎,语音识别引擎采用DNN算法对语音数据进行识别,使用该方法能够锁定声源的声音去掉其他非声源的声音并可不用将客户的语音数据传输至云端,提高语音识别的准确性并避免泄露客户隐私。
Description
技术领域
本发明涉及智能语音识别技术领域,特别是涉及到一种能够利用DNN算法来剔除突发噪音的新型语音除噪方法。
背景技术
随着人们生活水平的提高以及对电器的需求量不断增大,家用电器经过不断地改革和创新,拥有了更多使用的功能,比如微波炉,以往仅单纯的用于加热,到如今,微波炉增加了蒸煮、烧烤、热奶等功能且变得更加智能,市面出现的各种品牌的智能微波炉,主要由控制面板、观察窗、炉门安全锁系统、电源线和插头这四大部分组成,控制面板主要有功能设定、时间设定、重量设定等功能,功能设定主要是通过功能菜单实现,比如直接按清蒸鱼、蒸排骨、煮米饭等按钮,自动实现不同的加热方式,各类不同品牌的智能微波炉使用步骤都大同小异。
语音交互作为最有效的沟通控制方式,可以帮助用户把家中的各种终端设备无缝连接起来,智能语音微波炉就是其中之一,以微波炉为例,随着微波炉功能的增加,为了将微波炉的所有功能都在微波炉控制面板上体现出来,生产厂家不得不将微波炉控制面板上的字体和按钮的面积缩小,或者减少一些不常用的功能,当字体和按钮变小后,在查找和使用微波炉某项功能时会非常不方便,这对视力不好的老年人来说更是个挑战;但如果减少功能,又不能完全满足消费者的需求,智能微波炉面板上的可使用面积和不断增加的智能功能之间产生了矛盾。
现有技术中存在以下不足:
1、随着设备功能的不断增加,功能按钮增多,由于面积有限,按钮的面积只能减小,这样对视力不好的人来说非常不方便;
2、随着设备功能的不断增加,功能按钮增多,由于面积有限,只能减少一部分不常用的功能按钮,这样不能完全满足消费者需求;
3、目前市面上的语音交互大多采用云端识别方式,需要将用户的语音数据上传到云端,这样增加了用户隐私泄漏的风险。
发明内容
为了解决上述现有技术中存在的不足,发明了一种能够使用语音控制设备进行相关操作的智能语音设备控制方法。
一种智能语音设备控制方法,其包括以下步骤:
步骤一 语音采集模块采集外部语音数据并发送给语音识别模块,;
步骤二 所述语音数据经傅立叶变换后输入所述语音识别模块的语音识别引擎;
步骤三 所述语音识别引擎采用DNN(深度神经网络)算法在本地终端对所述语音数据进行识别;
步骤四 所述语音识别模块将步骤三的识别结果发送给设备控制电路;
步骤五 所述设备控制电路根据所述识别结果控制所述设备执行操作;
步骤六 所述设备将执行结果反馈给语音播放模块;
步骤七 所述语音播放模块播放所述执行结果。
作为本发明的优选方案,所述语音识别模块包含有语音识别引擎,所述语音识别引擎使用DNN算法对所述语音数据进行识别,所述DNN算法对所述语音数据的识别包括语音预处理、特征提取、发音字典及语音模型四个过程。
作为本发明的优选方案,所述语音采集模块集成在设备上,所述语音采集模块包含有N个语音采集设备,所述N为大于等于2的整数,所述语音播放模块集成在操作者能听到的位置,所述语音播放模块包含有M个语音播放设备,其中M为大于等于1的整数。
所述DNN算法包括有语音预处理、特征提取、形成发音字典及建立语音模型等四个过程,其中语音预处理过程包括对语音信号或语音数据的采样、反混叠滤波、语音增强和端点检测,特征提取过程的作用是从语音信号或语音数据的波形中提取一组能够描述语音信号或语音数据特征的参数,以便训练和识别,形成发音字典则是根据发音的音素,得到相应的文本集合即为发音字典,建立语音模型则是利用语法知识调整声学模型所识别出的不合逻辑的词语。
为了使音频数据容易被神经网络处理,需要把复杂的声波分解成一个个组成部分,为实现声波分解,需要利用到傅里叶变换,傅立叶变换将复杂的声波分解为简单的声波,然后将每一份频段所包含的能量加在一起,得到的结果便是从低音到高音的一个频谱,再将该频谱输入深度神经网络,对于每个小的音频切片,神经网络都将尝试找出当前正在说的声音所对应的声母或韵母,当通过神经网络跑完我们的整个音频剪辑之后,最终得到一份映射,其中标明了每个音频块和其最有可能对应的声母或韵母,然后将这些基于发音的预测与基于标注的文本数据库的可能性得分相结合,去掉最不可能的结果,留下最实际的结果。
当对设备说出相应的语音指令时,所述语音识别模块对接收到的语音指令进行识别,所述语音识别模块通过对语音指令的识别对声源进行锁定,声源之外的其他声源则进行过滤剔除,降低了外界其他声源对语音识别的干扰,所述语音识别模块将识别到的语音识别结果通过串口发送给设备的控制芯片,所述控制芯片根据预先设定的程序控制所述设备的各个部分进行协调工作,同时
与现有技术相比,本发明的有益效果:
由于在语音识别模块中嵌入了语音识别引擎,语音识别引擎采用独有的DNN算法对语音数据进行识别,该方法的使用可以方便是设备的功能不再受面积的限制,增加了设备的使用功能,方便了视障人群,还保护了客户的隐私。
附图说明
图1为本发明只能语音设备控制方法流程图;
图2为本发明DNN算法框图;
图3为本发明实施例微波炉工作原理图。
具体实施方式
下面结合实施例及具体实施方式对本发明作进一步的详细描述,但不应将此理解为本发明上述主体的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
如图1所示,一种智能语音设备控制方法,其包括以下步骤:
步骤一 语音采集模块采集外部语音数据并发送给语音识别模块;
步骤二 所述语音数据经傅立叶变换后输入所述语音识别模块的语音识别引擎;
步骤三 所述语音识别引擎采用DNN(深度神经网络)算法在本地终端对所述语音数据进行识别;
步骤四 所述语音识别模块将步骤三的识别结果发送给设备控制电路,本实施例中的设备为微波炉,即所述语音识别模块将步骤三的识别结果发送给微波炉控制电路;
步骤五 所述微波炉控制电路根据所述识别结果控制微波炉执行操作;
步骤六 所述微波炉将执行结果反馈给语音播放模块;
步骤七 所述语音播放模块播放所述执行结果。
如图2所示,DNN算法包括语音预处理、特征提取、形成发音字典及建立语音模型等四个过程,其中语音预处理过程包括对语音信号或语音数据的采样、反混叠滤波、语音增强和端点检测,特征提取过程的作用是从语音信号或语音数据的波形中提取一组能够描述语音信号或语音数据特征的参数,以便训练和识别,形成发音字典则是根据发音的音素,得到相应的文本集合即为发音字典,建立语音模型则是利用语法知识调整声学模型所识别出的不合逻辑的词语。。
如图3所示,智能语音微波炉工作时,语音识别模块识别语音数据,并将语音数据的识别结果发送给微波炉控制IC,微波炉控制IC控制微波炉的磁控管、门控及数码显示器件等的正常运行,微波炉运行结束后,通过喇叭播报运行结果,智能语音微波炉设置了数条语音指令和一条唤醒词,语音指令中,包括加热时间、快捷菜单等,当微波炉开机、语音识别系统和电控系统启动成功后,操作者使用唤醒词将语音识别模块唤醒,先使用唤醒词的目的是为了防止误操作,微波炉被唤醒后,操作者对着微波炉说出设定的每一条指令,微波炉都能完全识别并立刻按预先设定的控制流程作出反馈并播报相应的提示音,当A、B两人以不同的角度站在微波炉前时,A通过说唤醒词将微波炉唤醒,语音识别模块对说话人的声音具有锁定功能,一旦语音识别模组识别到A声后,它就会将A的声音进行锁定,此时A可以再连续说数个命令词对微波炉进行控制,此时如果B在旁边讲话,微波炉会把B的声音当成噪声去除掉,这样就算B的讲话中带了微波炉的命令词,微波炉也不会响应其控制,这是为了防止突然的噪音导致无法识别的情况。
Claims (3)
1.一种智能语音设备控制方法,其包括以下步骤:
步骤一 语音采集模块采集外部语音数据并发送给语音识别模块;
步骤二 所述语音数据经傅立叶变换后输入所述语音识别模块的语音识别引擎;
步骤三 所述语音识别引擎采用DNN(深度神经网络)算法在本地终端对所述语音数据进行识别;
步骤四 所述语音识别模块将步骤三的识别结果发送给设备控制电路;
步骤五 所述设备控制电路根据所述识别结果控制设备执行操作;
步骤六 所述设备将执行结果反馈给语音播放模块;
步骤七 所述语音播放模块播放所述执行结果。
2.根据权利要求1所述的一种新型语音除噪方法,其特征在于:所述语音识别模块包含有语音识别引擎,所述语音识别引擎使用DNN算法对所述语音数据进行识别,所述DNN算法对所述语音数据的识别包括语音预处理、特征提取、发音字典及语音模型四个过程。
3.根据权利要求1所述的一种新型语音除噪方法,其特征在于:所述语音采集模块集成在设备上,所述语音采集模块包含有N个语音采集设备,其中述N为大于等于2的整数,所述语音播放模块集成在操作者能听到的位置,所述语音播放模块包含有M个语音播放设备,其中M为大于等于1的整数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810153077.0A CN108091327A (zh) | 2018-02-22 | 2018-02-22 | 一种智能语音设备控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810153077.0A CN108091327A (zh) | 2018-02-22 | 2018-02-22 | 一种智能语音设备控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108091327A true CN108091327A (zh) | 2018-05-29 |
Family
ID=62194479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810153077.0A Pending CN108091327A (zh) | 2018-02-22 | 2018-02-22 | 一种智能语音设备控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108091327A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110570858A (zh) * | 2019-09-19 | 2019-12-13 | 芋头科技(杭州)有限公司 | 语音唤醒方法、装置、智能音箱和计算机可读存储介质 |
CN111462738A (zh) * | 2019-01-18 | 2020-07-28 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
CN111867160A (zh) * | 2020-01-10 | 2020-10-30 | 黑龙江华潮电子科技开发有限公司 | 一种汽车驻车加热ai智能语音控制器 |
CN113628617A (zh) * | 2020-05-09 | 2021-11-09 | 西安电子科技大学青岛计算技术研究院 | 一种基于毫米波雷达的智能语音设备控制方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514879A (zh) * | 2013-09-18 | 2014-01-15 | 广东欧珀移动通信有限公司 | 一种基于bp神经网络的本地语音识别方法 |
CN204390737U (zh) * | 2014-07-29 | 2015-06-10 | 科大讯飞股份有限公司 | 一种家庭语音处理系统 |
CN106383603A (zh) * | 2016-09-23 | 2017-02-08 | 安徽声讯信息技术有限公司 | 一种基于语音鼠标的语音控制系统 |
CN106448664A (zh) * | 2016-10-28 | 2017-02-22 | 魏朝正 | 一种通过语音控制智能家居设备的系统及方法 |
CN106683677A (zh) * | 2015-11-06 | 2017-05-17 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
-
2018
- 2018-02-22 CN CN201810153077.0A patent/CN108091327A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514879A (zh) * | 2013-09-18 | 2014-01-15 | 广东欧珀移动通信有限公司 | 一种基于bp神经网络的本地语音识别方法 |
CN204390737U (zh) * | 2014-07-29 | 2015-06-10 | 科大讯飞股份有限公司 | 一种家庭语音处理系统 |
CN106683677A (zh) * | 2015-11-06 | 2017-05-17 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
CN106383603A (zh) * | 2016-09-23 | 2017-02-08 | 安徽声讯信息技术有限公司 | 一种基于语音鼠标的语音控制系统 |
CN106448664A (zh) * | 2016-10-28 | 2017-02-22 | 魏朝正 | 一种通过语音控制智能家居设备的系统及方法 |
Non-Patent Citations (2)
Title |
---|
解传栋: "资源稀少情况下的语音识别的主动学习方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
韦康博: "《人工智能 比你想象的更具颠覆性的智能革命》", 30 September 2016 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111462738A (zh) * | 2019-01-18 | 2020-07-28 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
CN111462738B (zh) * | 2019-01-18 | 2024-05-03 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
CN110570858A (zh) * | 2019-09-19 | 2019-12-13 | 芋头科技(杭州)有限公司 | 语音唤醒方法、装置、智能音箱和计算机可读存储介质 |
CN111867160A (zh) * | 2020-01-10 | 2020-10-30 | 黑龙江华潮电子科技开发有限公司 | 一种汽车驻车加热ai智能语音控制器 |
CN113628617A (zh) * | 2020-05-09 | 2021-11-09 | 西安电子科技大学青岛计算技术研究院 | 一种基于毫米波雷达的智能语音设备控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108091327A (zh) | 一种智能语音设备控制方法 | |
CN109087669B (zh) | 音频相似度检测方法、装置、存储介质及计算机设备 | |
CN106847281A (zh) | 基于语音模糊识别技术的智能家居语音控制系统及方法 | |
US12080315B2 (en) | Audio signal processing method, model training method, and related apparatus | |
CN110045638B (zh) | 一种烹饪信息的推荐方法、装置及存储介质 | |
CN203882609U (zh) | 基于语音激活检测的唤醒装置 | |
CN104102181B (zh) | 智能家居控制方法、装置及系统 | |
CN105096946B (zh) | 基于语音激活检测的唤醒装置及方法 | |
CN108172220A (zh) | 一种新型语音除噪方法 | |
CN106992008A (zh) | 处理方法及电子设备 | |
JP2014142627A (ja) | 音声識別方法および装置 | |
CN108766441A (zh) | 一种基于离线声纹识别和语音识别的语音控制方法及装置 | |
CN102005070A (zh) | 一种语音识别门禁系统 | |
CN112820291A (zh) | 智能家居控制方法、系统和存储介质 | |
CN111462741B (zh) | 语音数据处理方法、装置及存储介质 | |
CN111105796A (zh) | 无线耳机控制装置及控制方法、语音控制设置方法和系统 | |
CN103886236A (zh) | 声控解锁屏方法和移动终端 | |
CN103106061A (zh) | 语音输入方法和装置 | |
CN113077798B (zh) | 一种居家老人呼救设备 | |
CN108461081A (zh) | 语音控制的方法、装置、设备和存储介质 | |
CN110322596A (zh) | 基于位置识别与语音识别的后备箱开关控制方法及系统 | |
CN113628367A (zh) | 锁具的控制方法及装置、系统、存储介质、电子设备 | |
Wang et al. | Application of speech recognition technology in IoT smart home | |
US9626967B2 (en) | Information processing method and electronic device | |
WO2018023523A1 (zh) | 一种运动及情感识别家居控制系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180529 |