CN109767769A - 一种语音识别方法、装置、存储介质及空调 - Google Patents
一种语音识别方法、装置、存储介质及空调 Download PDFInfo
- Publication number
- CN109767769A CN109767769A CN201910130206.9A CN201910130206A CN109767769A CN 109767769 A CN109767769 A CN 109767769A CN 201910130206 A CN201910130206 A CN 201910130206A CN 109767769 A CN109767769 A CN 109767769A
- Authority
- CN
- China
- Prior art keywords
- data
- voice
- speech
- voice data
- acquisition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000013135 deep learning Methods 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims description 61
- 238000012549 training Methods 0.000 claims description 41
- 238000004378 air conditioning Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 18
- 230000002708 enhancing effect Effects 0.000 claims description 14
- 230000002618 waking effect Effects 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 7
- 241000209140 Triticum Species 0.000 claims description 3
- 235000021307 Triticum Nutrition 0.000 claims description 3
- 230000006399 behavior Effects 0.000 claims 2
- 230000000694 effects Effects 0.000 abstract description 33
- 238000005516 engineering process Methods 0.000 description 57
- 230000006870 function Effects 0.000 description 15
- 230000009467 reduction Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 238000012544 monitoring process Methods 0.000 description 10
- 238000012795 verification Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 230000004044 response Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 5
- 230000010365 information processing Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 235000013399 edible fruits Nutrition 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 230000004807 localization Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 230000005764 inhibitory process Effects 0.000 description 2
- 241000288105 Grus Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000004568 cement Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S13/00—Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
- G01S13/88—Radar or analogous systems specially adapted for specific applications
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F11/00—Control or safety arrangements
- F24F11/50—Control or safety arrangements characterised by user interfaces or communication
- F24F11/56—Remote control
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S13/00—Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
- G01S13/86—Combinations of radar systems with non-radar systems, e.g. sonar, direction finder
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Chemical & Material Sciences (AREA)
- Combustion & Propulsion (AREA)
- Mechanical Engineering (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Electromagnetism (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Circuit For Audible Band Transducer (AREA)
- Air Conditioning Control Device (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
本发明公开了一种语音识别方法、装置、存储介质及空调,该方法包括:获取第一语音数据;根据所述第一语音数据调整第二语音数据的采集状态,并基于调整后的采集状态获取第二语音数据;利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别,以得到与获取的第二语音数据对应的语义信息。本发明的方案,可以解决利用深度学习方法或麦克风阵列方法去除远场语音数据中的混响和噪音,存在远场语音识别效果差的问题,达到提升远场语音识别效果的效果。
Description
技术领域
本发明属于语音控制技术领域,具体涉及一种语音识别方法、装置、存储介质及空调,尤其涉及一种基于微波雷达的远场语音识别方法、装置、存储介质及空调。
背景技术
语音识别技术是目前应用较为成熟的人机交互方式,从最初的手持设备这种近场的语音识别,如Sirfi语音识别以及各种语音助手,到现在,语音识别的应用已经完成向智能硬件、家电设备、机器人等领域上的延伸。但新的人机交互方式对硬件、软件、算法等方面的要求更加苛刻,特别是远场语音识别技术面临巨大的挑战。
随着智能家居系统的不断发展,智能家居如语音空调属于远场语音识别技术。首先,人机之间的语音交互(这里主要指智能硬件、机器人等),区别于传统的有屏手持设备,在传统的语音交互中,因为是近场,语音信号质量相对较高,而且有触摸屏辅助,所以交互链路可以相对简单。通过点击屏幕触发,再通过点击屏幕或者能量VAD(Voice ActivityDetection,语音活动检测)检测,来结束语音信号采集,即可完成一次交互,整个过程通过语音识别、语义理解、语音合成即可完成。
而对于人机之间的交互,由于涉及到远场,环境比较复杂,而且无屏交互,如果要像人与人之间的交流一样自然、持续、双向、可打断,整个交互过程需要解决的问题更多,为完成类似人类的语音交互,是一个需要软硬件一体、云+端相互配合的过程。
目前的语音识别算法的训练数据主要是利用手机上收集的语音进行训练,只适用近场识别。对于复杂的远场语音数据,存在大量的混响和噪音。现有技术主要是利用深度学习方法或麦克风阵列方法去除混响和噪音,在实际应用过程中无法同时感知声源的位置和方向数据,从而只能使用通用方法(例如:前端的麦克风阵列方法和后端的神经网络算法)去处理语音数据,存在远场语音识别率低、响应时间长、降噪效果差等问题。
其中,利用深度学习方法或麦克风阵列方法去除混响和噪音,可以包括:
(1)麦克风阵列方法:主要是在混响的场景下提高音波方向估计的鲁棒性。通过集成多个麦克风来检测波束的方向后,利用波束形成技术抑制周围的非平稳噪声。但由于产品价格和尺寸的限制,麦克风的个数及每个麦克风的间距有限,能够分辨的方向范围较小。
(2)深度学习方法:通过信号处理的手段对混响和噪声的语音数据进行过滤和单一化处理,利用DNN或RNN等算法替代波束形成技术,实现语音增强。但处理效果较差,尤其在噪声很大的环境里远场语音识别效果不好。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的目的在于,针对上述缺陷,提供一种语音识别方法、装置、存储介质及空调,以解决利用深度学习方法或麦克风阵列方法去除远场语音数据中的混响和噪音,存在远场语音识别效果差的问题,达到提升远场语音识别效果的效果。
本发明提供一种语音识别方法,包括:获取第一语音数据;根据所述第一语音数据调整第二语音数据的采集状态,并基于调整后的采集状态获取第二语音数据;利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别,以得到与获取的第二语音数据对应的语义信息。
可选地,其中,该第一语音数据,包括:语音唤醒词;所述语音唤醒词,为用于唤醒语音设备的语音数据;和/或,该第二语音数据,包括:语音指令;所述语音指令,为用于控制语音设备的语音数据;和/或,获取第一语音数据的操作、根据所述第一语音数据调整第二语音数据的采集状态的操作、以及基于调整后的采集状态获取第二语音数据的操作,在语音设备的本地侧执行;和/或,利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别的操作,由语音设备在本地侧接收云端处理后的反馈信息。
可选地,其中,获取第一语音数据,包括:获取由语音采集设备采集得到的第一语音数据;和/或,获取第二语音数据,包括:获取由调整采集状态后的语音采集设备采集得到的第二语音数据;其中,所述语音采集设备,包括:麦克风阵列;在所述麦克风阵列中,设置有用于对一个以上方向上的语音数据进行采集的一个以上麦克风。
可选地,根据所述第一语音数据调整第二语音数据的采集状态,包括:确定发送所述第一语音数据的声源的位置信息;增强获取第一语音数据的语音采集设备对该位置信息上的第二语音数据的采集强度,和/或抑制采集第一语音数据的语音采集设备对除该位置信息以外的其它位置上的第二语音数据的采集强度。
可选地,其中,确定发送所述第一语音数据的声源的位置信息,包括:利用语音采集设备确定发送所述第一语音数据的声源的方向;利用位置定位设备基于该方向对所述声源进行定位,得到所述声源的位置信息;其中,所述位置定位设备,包括:微波雷达模块;所述位置信息,包括:距离和方向;和/或,增强获取第一语音数据的语音采集设备对该位置信息上的第二语音数据的采集强度,包括:在所述语音采集设备包括麦克风阵列的情况下,开启所述麦克风阵列中该位置信息上的麦克风,和/或增加所述麦克风阵列中该位置信息上的麦克风的开启数量;和/或,抑制采集第一语音数据的语音采集设备对除该位置信息以外的其它位置上的第二语音数据的采集强度,包括:关闭所述麦克风阵列上除该位置信息以外的其它位置上的麦克风,和/或减少所述麦克风阵列上除该位置信息以外的其它位置上的开启数量。
可选地,利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别,包括:对采集到的第二语音数据进行预处理,得到语音信息;再利用预设的远场语音识别模型,对预处理后的语音信息进行远场语音识别处理;其中,所述远场语音识别模型,包括:基于LSTM算法进行深度学习训练得到的远场声学模型。
可选地,还包括:收集语音数据及其声源数据;对所述语音数据及其声源数据进行预处理后,利用LSTM模型进行训练,得到基于LSTM的远场语音识别模型。
与上述方法相匹配,本发明另一方面提供一种语音识别装置,包括:获取单元,用于获取第一语音数据;所述获取单元,还用于根据所述第一语音数据调整第二语音数据的采集状态,并基于调整后的采集状态获取第二语音数据;识别单元,用于利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别,以得到与获取的第二语音数据对应的语义信息。
可选地,其中,该第一语音数据,包括:语音唤醒词;所述语音唤醒词,为用于唤醒语音设备的语音数据;和/或,该第二语音数据,包括:语音指令;所述语音指令,为用于控制语音设备的语音数据;和/或,获取第一语音数据的操作、根据所述第一语音数据调整第二语音数据的采集状态的操作、以及基于调整后的采集状态获取第二语音数据的操作,在语音设备的本地侧执行;和/或,利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别的操作,由语音设备在本地侧接收云端处理后的反馈信息。
可选地,其中,所述获取单元获取第一语音数据,包括:获取由语音采集设备采集得到的第一语音数据;和/或,所述获取单元获取第二语音数据,包括:获取由调整采集状态后的语音采集设备采集得到的第二语音数据;其中,所述语音采集设备,包括:麦克风阵列;在所述麦克风阵列中,设置有用于对一个以上方向上的语音数据进行采集的一个以上麦克风。
可选地,所述获取单元根据所述第一语音数据调整第二语音数据的采集状态,包括:确定发送所述第一语音数据的声源的位置信息;增强获取第一语音数据的语音采集设备对该位置信息上的第二语音数据的采集强度,和/或抑制采集第一语音数据的语音采集设备对除该位置信息以外的其它位置上的第二语音数据的采集强度。
可选地,其中,所述获取单元确定发送所述第一语音数据的声源的位置信息,包括:利用语音采集设备确定发送所述第一语音数据的声源的方向;利用位置定位设备基于该方向对所述声源进行定位,得到所述声源的位置信息;其中,所述位置定位设备,包括:微波雷达模块;所述位置信息,包括:距离和方向;和/或,所述获取单元增强获取第一语音数据的语音采集设备对该位置信息上的第二语音数据的采集强度,包括:在所述语音采集设备包括麦克风阵列的情况下,开启所述麦克风阵列中该位置信息上的麦克风,和/或增加所述麦克风阵列中该位置信息上的麦克风的开启数量;和/或,所述获取单元抑制采集第一语音数据的语音采集设备对除该位置信息以外的其它位置上的第二语音数据的采集强度,包括:关闭所述麦克风阵列上除该位置信息以外的其它位置上的麦克风,和/或减少所述麦克风阵列上除该位置信息以外的其它位置上的开启数量。
可选地,所述识别单元利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别,包括:对采集到的第二语音数据进行预处理,得到语音信息;再利用预设的远场语音识别模型,对预处理后的语音信息进行远场语音识别处理;其中,所述远场语音识别模型,包括:基于LSTM算法进行深度学习训练得到的远场声学模型。
可选地,还包括:所述获取单元,还用于收集语音数据及其声源数据;所述识别单元,还用于对所述语音数据及其声源数据进行预处理后,利用LSTM模型进行训练,得到基于LSTM的远场语音识别模型。
与上述装置相匹配,本发明再一方面提供一种空调,包括:以上所述的语音识别装置。
与上述方法相匹配,本发明再一方面提供一种存储介质,包括:所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行以上所述的语音识别方法。
与上述方法相匹配,本发明再一方面提供一种空调,包括:处理器,用于执行多条指令;存储器,用于存储多条指令;其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行以上所述的语音识别方法。
本发明的方案,通过微波雷达技术对的各种周边环境进行自动识别,利用深度学习算法可以提升远场语音识别准确率,用户体验好。
进一步,本发明的方案,通过利用微波雷达技术定位声源位置,根据声源位置调整麦克风阵列的采集状态,并进一步利用基于LSTM深度学习算法训练得到的远场语音识别模型对语音数据进行远场识别,可以保证高识别率,从而满足复杂环境下的使用需求。
进一步,本发明的方案,通过在微波雷达技术的基础,结合LSTM深度学习算法模型,利用声源和语音数据训练出远场语音识别模型,将语音数据准确高效地转化成文本数据,可以提升远场语音识别效果。
进一步,本发明的方案,通过将前端信息处理技术和后端语音识别技术相结合,即:通过结合微波雷达技术获取声源的位置参数,将音频数据和位置数据(如声源的位置参数)相结合,通过适用于长音频数据和音频数据上下文的LSTM算法训练出远场声学模型,可以缩短响应时间短和提升降噪效果。
进一步,本发明的方案,通过利用麦克风阵列对唤醒词语音进行粗略地识别声源方向的基础上,利用微波雷达技术实时精确计算声源的距离和方向,再用边缘计算技术实时调控麦克风阵列的状态,结合声源数据和语音数据,训练并使用基于LSTM的远场声学模型,可以提升远场识别效率和降噪效果,缩短响应时间。
由此,本发明的方案,通过利用微波雷达技术定位声源位置,根据声源位置调整麦克风阵列的采集状态,并进一步利用基于LSTM深度学习算法训练得到的远场语音识别模型对语音数据进行远场识别,解决利用深度学习方法或麦克风阵列方法去除远场语音数据中的混响和噪音,存在远场语音识别效果差的问题,从而,克服现有技术中远场语音识别率低、响应时间长、降噪效果差的缺陷,实现远场识别效率高、响应时间短和降噪效果好的有益效果。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明的语音识别方法的一实施例的流程示意图;
图2为本发明的方法中根据所述第一语音数据调整第二语音数据的采集状态的一实施例的流程示意图;
图3为本发明的方法中确定发送所述第一语音数据的声源的位置信息的一实施例的流程示意图;
图4为本发明的方法中利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别的一实施例的流程示意图;
图5为本发明的方法中训练得到预设的远场语音识别模型的一实施例的流程示意图;
图6为本发明的语音识别装置的一实施例的结构示意图;
图7为本发明的空调的一实施例的基于微波雷达的远场语音识别系统的结构示意图;
图8为本发明的空调的一实施例的基于微波雷达的远场语音识别算法的流程示意图。
结合附图,本发明实施例中附图标记如下:
102-获取单元;104-识别单元。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的实施例,提供了一种语音识别方法,如图1所示本发明的方法的一实施例的流程示意图。该语音识别方法可以包括:步骤S110至步骤S130。
在步骤S110处,获取第一语音数据。
其中,该第一语音数据,可以包括:语音唤醒词,当然该第一语音数据也可以包括语音指令。所述语音唤醒词,为可以用于唤醒语音设备的语音数据。
由此,通过获取多种形式的第一语音数据,可以方便在不同场合下基于第一语音数据调整第二语音数据的采集状态,提升用户使用的便捷性和通用性。
可选地,步骤S110中获取第一语音数据,可以包括:获取由语音采集设备采集得到的第一语音数据。
由此,通过语音采集设备采集第一语音数据的方式获取第一语音数据,使得对第一语音数据的获取便捷且精准。
在步骤S120处,根据所述第一语音数据调整第二语音数据的采集状态,并基于调整后的采集状态获取第二语音数据。
例如:在设备端处理平台上,首先利用麦克风阵列定位唤醒词声源大致方位(例如:通过麦克风阵列通过声波的方向判断唤醒词语音声源位置),再用微波雷达模块对声源进行精确定位,采集距离和方向(即声源的距离和方向)数据;然后根据该数据打开和关闭麦克风阵列模块上相对应位置上的麦克风;最后采集远场的音频数据。
其中,该第二语音数据,可以包括:语音指令,当然该第二语音数据也可以包括下一语音唤醒词。所述语音指令,为可以用于控制语音设备的语音数据。
由此,通过获取多种形式的第二语音数据,可以方便用户的多种语音控制需求,灵活且便捷。
具体地,步骤S110中获取第一语音数据的操作、步骤S120中根据所述第一语音数据调整第二语音数据的采集状态的操作、以及基于调整后的采集状态获取第二语音数据的操作,在语音设备的本地侧执行。
由此,通过在语音设备的本地侧执行获取第一语音数据和第二语音数据、并基于第一语音数据调整第二语音数据的采集状态的操作,可以提升获取的精准性和可靠性,并提升处理效率。
可选地,可以结合图2所示本发明的方法中根据所述第一语音数据调整第二语音数据的采集状态的一实施例流程示意图,进一步说明步骤S120中根据所述第一语音数据调整第二语音数据的采集状态的具体过程,可以包括:步骤S210和步骤S220。
步骤S210,确定发送所述第一语音数据的声源的位置信息。
更可选地,可以结合图3所示本发明的方法中确定发送所述第一语音数据的声源的位置信息的一实施例流程示意图,进一步说明步骤S210中确定发送所述第一语音数据的声源的位置信息的具体过程,可以包括:步骤S310和步骤S320。
步骤S310,利用语音采集设备确定发送所述第一语音数据的声源的方向。
例如:利用麦克风阵列对唤醒词语音进行粗略地识别声源方向,可以包括:语音识别系统是需要先通过语音唤醒词(如:某某空调)来唤醒设备。本发明的方案中可以首先通过麦克风阵列技术获取唤醒词语音声源的大致方向。
步骤S320,利用位置定位设备基于该方向对所述声源进行定位,得到所述声源的位置信息。
其中,所述位置定位设备,可以包括:微波雷达模块,当然该位置定位设备也可以包括其它定位模块,从而,可以在微波雷达定位技术的基础上,解决复杂环境下的远场语音识别问题。所述位置信息,可以包括:距离和方向。
例如:利用微波雷达技术实时精确计算声源的距离和方向,可以包括:微波雷达通过发送装置发出微波信号,信号在遇到物体后会产生反射,通过接收装置收反射回来的微波信号,就可以得到环境里的物体位置、大小、形状等数据。本发明的方案中可以利用该技术获得声源(发出声音的人)的位置数据。
由此,通过语音采集设备确定第一语音数据的声源的方向,进一步基于该方向利用位置定位设备对该声源进行定位从而确定该声源的位置信息,使得对第一语音数据的声源的位置信息的确定精准而可靠。
步骤S220,基于该位置信息,增强获取第一语音数据的语音采集设备对该位置信息上的第二语音数据的采集强度,和/或抑制采集第一语音数据的语音采集设备对除该位置信息以外的其它位置上的第二语音数据的采集强度以调整所述语音采集设备对第二语音数据的采集状态。其中,语音采集设备的采集状态,可以包括:语音采集设备的采集强度。
例如:在远场环境下,采用云(即云端处理平台)和端(即设备处理端或设备端处理平台)相结合的处理方式。在设备处理端,首先利用麦克风阵列对唤醒词语音进行粗略地识别声源方向的基础上,然后利用微波雷达技术实时精确计算声源的距离和方向,再用边缘计算技术实时调控麦克风阵列的状态。
由此,通过基于第一语音数据的声源的位置信息对语音采集设备对第二语音数据的采集强度进行调整,有利于提升对第二语音数据的采集的便捷性和可靠性。
更可选地,步骤S220中增强获取第一语音数据的语音采集设备对该位置信息上的第二语音数据的采集强度、和/或抑制采集第一语音数据的语音采集设备对除该位置信息以外的其它位置上的第二语音数据的采集强度的操作,可以包括以下至少一种调整情形。
第一种调整情形:增强获取第一语音数据的语音采集设备对该位置信息上的第二语音数据的采集强度,可以包括:在所述语音采集设备可以包括麦克风阵列的情况下,开启所述麦克风阵列中该位置信息上的麦克风,和/或增加所述麦克风阵列中该位置信息上的麦克风的开启数量。
第二种调整情形:抑制采集第一语音数据的语音采集设备对除该位置信息以外的其它位置上的第二语音数据的采集强度,可以包括:关闭所述麦克风阵列上除该位置信息以外的其它位置上的麦克风,和/或减少所述麦克风阵列上除该位置信息以外的其它位置上的开启数量。
例如:用边缘计算技术实时调控麦克风阵列的状态,包括:本发明的麦克风阵列里有多个麦克风设备,在通过唤醒词获得声源大致方位的基础上,通过前端设备控制麦克风的状态。例如:麦克风阵列有不同方向上的4个麦克效果,获得了声源的位置在正前方,这时可以增强该方向上的麦克风接收效果(接收音频信号的能力),抑制其他方向上的麦克风接收效果,从而去除其他方向上的噪声。
由此,通过基于第一语音数据的位置信息对语音采集设备在不同位置上的采集强度进行增强或降低,可以提升语音采集设备对第二语音数据采集的精准性和可靠性,进而有利于提升语音识别和语音控制的精准性和可靠性。
可选地,步骤S120中获取第二语音数据,可以包括:获取由调整采集状态后的语音采集设备采集得到的第二语音数据。
由此,通过语音采集设备采集第二语音数据的方式获取第二语音数据,使得对第二语音数据的获取便捷且精准。
其中,所述语音采集设备,可以包括:麦克风阵列。在所述麦克风阵列中,设置有可以用于对一个以上方向上的语音数据进行采集的一个以上麦克风。
由此,通过使用麦克风阵列获取语音数据,获取的方式灵活,且获取的结果可靠。
在步骤S130处,利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别,以得到与获取的第二语音数据对应的语义信息,以控制语音设备按该语义信息执行该第二语音数据。其中,该语义信息,可以包括:语义文本数据。例如:文本数据,可以是通过训练的声学模型将语音数据转化成得到的文本数据。
例如:在云端处理平台上,首先利用人工采集和标注的声源和音频数据库训练LSTM声学模型,得到远场语音识别模型;然后,通过实时采集语音数据,在上述模型上进行实时远场语音识别;最后得到复杂环境下、高准确率的语音文本数据。在复杂场景下,可以基于微波雷达技术,准确高效地进行远场语音识别。
由此,通过基于第一语音数据调整第二语音数据的采集状态后再获取第二语音数据,可以保证对第二语音数据获取的精准性和可靠性;并利用预设的远场语音识别模型对第二语音数据进行远场语音识别,可以提升对第二语音数据进行远场语音识别的效率和效果。
具体地,步骤S130中利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别的操作,由语音设备在本地侧接收云端处理后的反馈信息。
由此,通过云端执行利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别的操作后再将操作结果反馈至语音设备的本地侧,一方面可以提升数据处理的效率和存储可靠性,另一方面可以减轻语音设备的本地侧的数据处理和存储压力,进而提升语音设备进行语音控制的便捷性和可靠性。
可选地,可以结合图4所示本发明的方法中利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别的一实施例流程示意图,进一步说明步骤S130中利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别的具体过程,可以包括:步骤S410和步骤S420。
步骤S410,对采集到的第二语音数据进行预处理,得到语音信息。
步骤S420,再利用预设的远场语音识别模型,对预处理后的语音信息进行远场语音识别处理。该预处理,可以包括:缺失值、标准化、降噪等预处理。
其中,所述远场语音识别模型,可以包括:基于LSTM算法进行深度学习训练得到的远场声学模型。
例如:在图7所示的系统中,麦克风阵列:接收语音数据并判断唤醒词声源大致方位;微波雷达:获得声源的位置参数(方向和距离数据),即获得声源数据;调整麦克风阵列状态:根据声源位置数据增强或抑制相应方向上的麦克风;基于LSTM的远场声学模型:通过声源数据和语音数据训练的声学模型,将语音数据转化成对应的文本数据。
例如:参见图8所示的例子,训练LSTM声学模型后,采集实时语音即对空调的语音进行实时监测,采集语音数据和声源数据;数据预处理:可以与步骤1中训练LSTM声学模型的数据预处理方式相同;基于LSTM的远场声学模型:利用训练LSTM声学模型训练出的LSTM远场声学模型进行语音识别;语音文本数据:根据模型的语音识别结果,得到对应的文本数据。在微波雷达技术的基础,结合LSTM深度学习算法模型,利用声源和语音数据训练出远场语音识别模型,将语音数据准确高效地转化成文本数据,提供满足用户需求、高识别率化的远场语音系统。
由此,通过对采集到的第二语音数据进行预处理,可以提升第二语音数据本身的精准性和可靠性;进而利用预设的远场语音识别模型对预处理后得到的语音信息进行远场语音识别,可以保证对第二语音数据识别的精准性和可靠性。
在一个可选实施方式中,还可以包括:训练得到预设的远场语音识别模型的过程。
下面结合图5所示本发明的方法中训练得到预设的远场语音识别模型的一实施例流程示意图,进一步说明训练得到预设的远场语音识别模型的具体过程,可以包括:步骤S510和步骤S520。
步骤S510,收集语音数据及其声源数据。该语音数据,可以包括:语音唤醒词和/或语音指令。例如:声源数据,可以包括声源的位置参数(方向和距离数据);语音数据,可以是通过调整麦克风阵列状态后的麦克风接收到的语音数据。
步骤S520,对所述语音数据及其声源数据进行预处理后,利用LSTM模型进行训练,得到基于LSTM的远场语音识别模型。其中,收集语音数据及其声源数据的操作、对所述语音数据及其声源数据进行预处理的操作、以及利用LSTM模型进行训练的操作,由语音设备在本地侧接收云端处理后的反馈信息。例如:在云处理端,结合声源数据和语音数据,训练并使用基于LSTM的远场声学模型。
例如:将前端信息处理技术和后端语音识别技术相结合,即:通过结合微波雷达技术获取声源的位置参数,将音频数据和位置数据(如声源的位置参数)相结合,通过适用于长音频数据和音频数据上下文的LSTM算法训练出远场声学模型。通过微波雷达技术对的各种周边环境进行自动识别,利用深度学习算法提升远场语音识别准确率。
例如:参见图8所示的例子,训练LSTM声学模型,具体可以包括:收集上述历史数据(声源和语音的历史记录数据);数据预处理:对数据进行处理缺失值、标准化、降噪等预处理;通过LSTM模型的输入层将数据载入模型中;LSTM模型的中间处理层;文本输出层:将语音数据转化的文本数据输出,得到基于LSTM的远场声学模型。
由此,通过预先收集语音数据及其声源数据并进行预处理后利用LSTM模型进行训练,得到基于LSTM的远场语音识别模型,可以方便利用该远场语音识别模型对第二语音数据进行远场语音识别,且识别效率高、识别效果好。
经大量的试验验证,采用本实施例的技术方案,通过微波雷达技术对的各种周边环境进行自动识别,利用深度学习算法可以提升远场语音识别准确率,用户体验好。
根据本发明的实施例,还提供了对应于语音识别方法的一种语音识别装置。参见图6所示本发明的装置的一实施例的结构示意图。该语音识别装置可以包括:获取单元102和识别单元104。
在一个可选例子中,获取单元102,可以用于获取第一语音数据。该获取单元102的具体功能及处理参见步骤S110。
其中,该第一语音数据,可以包括:语音唤醒词,当然该第一语音数据也可以包括语音指令。所述语音唤醒词,为可以用于唤醒语音设备的语音数据。
由此,通过获取多种形式的第一语音数据,可以方便在不同场合下基于第一语音数据调整第二语音数据的采集状态,提升用户使用的便捷性和通用性。
可选地,所述获取单元102获取第一语音数据,可以包括:所述获取单元102,具体还可以用于获取由语音采集设备采集得到的第一语音数据。
由此,通过语音采集设备采集第一语音数据的方式获取第一语音数据,使得对第一语音数据的获取便捷且精准。
在一个可选例子中,所述获取单元102,还可以用于根据所述第一语音数据调整第二语音数据的采集状态,并基于调整后的采集状态获取第二语音数据。该获取单元102的具体功能及处理还参见步骤S120。
例如:在设备端处理平台上,首先利用麦克风阵列定位唤醒词声源大致方位(例如:通过麦克风阵列通过声波的方向判断唤醒词语音声源位置),再用微波雷达模块对声源进行精确定位,采集距离和方向(即声源的距离和方向)数据;然后根据该数据打开和关闭麦克风阵列模块上相对应位置上的麦克风;最后采集远场的音频数据。
其中,该第二语音数据,可以包括:语音指令,当然该第二语音数据也可以包括下一语音唤醒词。所述语音指令,为可以用于控制语音设备的语音数据。
由此,通过获取多种形式的第二语音数据,可以方便用户的多种语音控制需求,灵活且便捷。
具体地,所述获取单元102获取第一语音数据的操作、所述获取单元102根据所述第一语音数据调整第二语音数据的采集状态的操作、以及基于调整后的采集状态获取第二语音数据的操作,在语音设备的本地侧执行。
由此,通过在语音设备的本地侧执行获取第一语音数据和第二语音数据、并基于第一语音数据调整第二语音数据的采集状态的操作,可以提升获取的精准性和可靠性,并提升处理效率。
可选地,所述获取单元102根据所述第一语音数据调整第二语音数据的采集状态,可以包括:
所述获取单元102,具体还可以用于确定发送所述第一语音数据的声源的位置信息。该获取单元102的具体功能及处理还参见步骤S210。
更可选地,所述获取单元102确定发送所述第一语音数据的声源的位置信息,可以包括:
所述获取单元102,具体还可以用于利用语音采集设备确定发送所述第一语音数据的声源的方向。该获取单元102的具体功能及处理还参见步骤S310。
例如:利用麦克风阵列对唤醒词语音进行粗略地识别声源方向,可以包括:语音识别系统是需要先通过语音唤醒词(如:某某空调)来唤醒设备。本发明的方案中可以首先通过麦克风阵列技术获取唤醒词语音声源的大致方向。
所述获取单元102,具体还可以用于利用位置定位设备基于该方向对所述声源进行定位,得到所述声源的位置信息。该获取单元102的具体功能及处理还参见步骤S320。
其中,所述位置定位设备,可以包括:微波雷达模块,当然该位置定位设备也可以包括其它定位模块,从而,可以在微波雷达定位技术的基础上,解决复杂环境下的远场语音识别问题。所述位置信息,可以包括:距离和方向。
例如:利用微波雷达技术实时精确计算声源的距离和方向,可以包括:微波雷达通过发送装置发出微波信号,信号在遇到物体后会产生反射,通过接收装置收反射回来的微波信号,就可以得到环境里的物体位置、大小、形状等数据。本发明的方案中可以利用该技术获得声源(发出声音的人)的位置数据。
由此,通过语音采集设备确定第一语音数据的声源的方向,进一步基于该方向利用位置定位设备对该声源进行定位从而确定该声源的位置信息,使得对第一语音数据的声源的位置信息的确定精准而可靠。
所述获取单元102,具体还可以用于基于该位置信息,增强获取第一语音数据的语音采集设备对该位置信息上的第二语音数据的采集强度,和/或抑制采集第一语音数据的语音采集设备对除该位置信息以外的其它位置上的第二语音数据的采集强度以调整所述语音采集设备对第二语音数据的采集状态。其中,语音采集设备的采集状态,可以包括:语音采集设备的采集强度。该获取单元102的具体功能及处理还参见步骤S220。
例如:在远场环境下,采用云(即云端处理平台)和端(即设备处理端或设备端处理平台)相结合的处理方式。在设备处理端,首先利用麦克风阵列对唤醒词语音进行粗略地识别声源方向的基础上,然后利用微波雷达技术实时精确计算声源的距离和方向,再用边缘计算技术实时调控麦克风阵列的状态。
由此,通过基于第一语音数据的声源的位置信息对语音采集设备对第二语音数据的采集强度进行调整,有利于提升对第二语音数据的采集的便捷性和可靠性。
更可选地,所述获取单元102增强获取第一语音数据的语音采集设备对该位置信息上的第二语音数据的采集强度、和/或抑制采集第一语音数据的语音采集设备对除该位置信息以外的其它位置上的第二语音数据的采集强度的操作,可以包括以下至少一种调整情形。
第一种调整情形:所述获取单元102增强获取第一语音数据的语音采集设备对该位置信息上的第二语音数据的采集强度,可以包括:所述获取单元102,具体还可以用于在所述语音采集设备可以包括麦克风阵列的情况下,开启所述麦克风阵列中该位置信息上的麦克风,和/或增加所述麦克风阵列中该位置信息上的麦克风的开启数量。
第二种调整情形:所述获取单元102抑制采集第一语音数据的语音采集设备对除该位置信息以外的其它位置上的第二语音数据的采集强度,可以包括:所述获取单元102,具体还可以用于关闭所述麦克风阵列上除该位置信息以外的其它位置上的麦克风,和/或减少所述麦克风阵列上除该位置信息以外的其它位置上的开启数量。
例如:用边缘计算技术实时调控麦克风阵列的状态,包括:本发明的麦克风阵列里有多个麦克风设备,在通过唤醒词获得声源大致方位的基础上,通过前端设备控制麦克风的状态。例如:麦克风阵列有不同方向上的4个麦克效果,获得了声源的位置在正前方,这时可以增强该方向上的麦克风接收效果(接收音频信号的能力),抑制其他方向上的麦克风接收效果,从而去除其他方向上的噪声。
由此,通过基于第一语音数据的位置信息对语音采集设备在不同位置上的采集强度进行增强或降低,可以提升语音采集设备对第二语音数据采集的精准性和可靠性,进而有利于提升语音识别和语音控制的精准性和可靠性。
可选地,所述获取单元102获取第二语音数据,可以包括:所述获取单元102,具体还可以用于获取由调整采集状态后的语音采集设备采集得到的第二语音数据。
由此,通过语音采集设备采集第二语音数据的方式获取第二语音数据,使得对第二语音数据的获取便捷且精准。
其中,所述语音采集设备,可以包括:麦克风阵列。在所述麦克风阵列中,设置有可以用于对一个以上方向上的语音数据进行采集的一个以上麦克风。
由此,通过使用麦克风阵列获取语音数据,获取的方式灵活,且获取的结果可靠。
在一个可选例子中,识别单元104,可以用于利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别,以得到与获取的第二语音数据对应的语义信息,以控制语音设备按该语义信息执行该第二语音数据。该识别单元104的具体功能及处理参见步骤S130。其中,该语义信息,可以包括:语义文本数据。例如:文本数据,可以是通过训练的声学模型将语音数据转化成得到的文本数据。
例如:在云端处理平台上,首先利用人工采集和标注的声源和音频数据库训练LSTM声学模型,得到远场语音识别模型;然后,通过实时采集语音数据,在上述模型上进行实时远场语音识别;最后得到复杂环境下、高准确率的语音文本数据。在复杂场景下,可以基于微波雷达技术,准确高效地进行远场语音识别。
由此,通过基于第一语音数据调整第二语音数据的采集状态后再获取第二语音数据,可以保证对第二语音数据获取的精准性和可靠性;并利用预设的远场语音识别模型对第二语音数据进行远场语音识别,可以提升对第二语音数据进行远场语音识别的效率和效果。
具体地,所述识别单元104利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别的操作,由语音设备在本地侧接收云端处理后的反馈信息。
由此,通过云端执行利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别的操作后再将操作结果反馈至语音设备的本地侧,一方面可以提升数据处理的效率和存储可靠性,另一方面可以减轻语音设备的本地侧的数据处理和存储压力,进而提升语音设备进行语音控制的便捷性和可靠性。
可选地,所述识别单元104利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别,可以包括:
所述识别单元104,具体还可以用于对采集到的第二语音数据进行预处理,得到语音信息。该识别单元104的具体功能及处理还参见步骤S410。
所述识别单元104,具体还可以用于再利用预设的远场语音识别模型,对预处理后的语音信息进行远场语音识别处理。该预处理,可以包括:缺失值、标准化、降噪等预处理。该识别单元104的具体功能及处理还参见步骤S420。
其中,所述远场语音识别模型,可以包括:基于LSTM算法进行深度学习训练得到的远场声学模型。
例如:在图7所示的系统中,麦克风阵列:接收语音数据并判断唤醒词声源大致方位;微波雷达:获得声源的位置参数(方向和距离数据),即获得声源数据;调整麦克风阵列状态:根据声源位置数据增强或抑制相应方向上的麦克风;基于LSTM的远场声学模型:通过声源数据和语音数据训练的声学模型,将语音数据转化成对应的文本数据。
例如:参见图8所示的例子,训练LSTM声学模型后,采集实时语音即对空调的语音进行实时监测,采集语音数据和声源数据;数据预处理:可以与步骤1中训练LSTM声学模型的数据预处理方式相同;基于LSTM的远场声学模型:利用训练LSTM声学模型训练出的LSTM远场声学模型进行语音识别;语音文本数据:根据模型的语音识别结果,得到对应的文本数据。在微波雷达技术的基础,结合LSTM深度学习算法模型,利用声源和语音数据训练出远场语音识别模型,将语音数据准确高效地转化成文本数据,提供满足用户需求、高识别率化的远场语音系统。
由此,通过对采集到的第二语音数据进行预处理,可以提升第二语音数据本身的精准性和可靠性;进而利用预设的远场语音识别模型对预处理后得到的语音信息进行远场语音识别,可以保证对第二语音数据识别的精准性和可靠性在一个可选实施方式中,还可以包括:训练得到预设的远场语音识别模型的过程,具体可以如下:
所述获取单元102,还可以用于收集语音数据及其声源数据。该语音数据,可以包括:语音唤醒词和/或语音指令。该获取单元102的具体功能及处理还参见步骤S510。例如:声源数据,可以包括声源的位置参数(方向和距离数据);语音数据,可以是通过调整麦克风阵列状态后的麦克风接收到的语音数据。
所述识别单元104,还可以用于对所述语音数据及其声源数据进行预处理后,利用LSTM模型进行训练,得到基于LSTM的远场语音识别模型。其中,收集语音数据及其声源数据的操作、对所述语音数据及其声源数据进行预处理的操作、以及利用LSTM模型进行训练的操作,由语音设备在本地侧接收云端处理后的反馈信息。该识别单元104的具体功能及处理还参见步骤S520。例如:在云处理端,结合声源数据和语音数据,训练并使用基于LSTM的远场声学模型。
例如:将前端信息处理技术和后端语音识别技术相结合,即:通过结合微波雷达技术获取声源的位置参数,将音频数据和位置数据(如声源的位置参数)相结合,通过适用于长音频数据和音频数据上下文的LSTM算法训练出远场声学模型。通过微波雷达技术对的各种周边环境进行自动识别,利用深度学习算法提升远场语音识别准确率。
例如:参见图8所示的例子,训练LSTM声学模型,具体可以包括:收集上述历史数据(声源和语音的历史记录数据);数据预处理:对数据进行处理缺失值、标准化、降噪等预处理;通过LSTM模型的输入层将数据载入模型中;LSTM模型的中间处理层;文本输出层:将语音数据转化的文本数据输出,得到基于LSTM的远场声学模型。
由此,通过预先收集语音数据及其声源数据并进行预处理后利用LSTM模型进行训练,得到基于LSTM的远场语音识别模型,可以方便利用该远场语音识别模型对第二语音数据进行远场语音识别,且识别效率高、识别效果好。
由于本实施例的装置所实现的处理及功能基本相应于前述图1至图5所示的方法的实施例、原理和实例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此不做赘述。
经大量的试验验证,采用本发明的技术方案,通过利用微波雷达技术定位声源位置,根据声源位置调整麦克风阵列的采集状态,并进一步利用基于LSTM深度学习算法训练得到的远场语音识别模型对语音数据进行远场识别,可以保证高识别率,从而满足复杂环境下的使用需求。
根据本发明的实施例,还提供了对应于语音识别装置的一种空调。该空调可以包括:以上所述的语音识别装置。
考虑到传统的远场语音识别技术主要利用麦克风阵列和声源定位,可以较好地实现远场距离拾音,解决噪声、混响、回声带来的影响,但对于复杂环境下的人声检测和断句问题,处理效果较差。例如:一般声学模型只能针对音频数据进行降噪和识别处理,在复杂环境下,模型的准确度不够高。
例如:前端的麦克风阵列技术通过增加麦克风数量来提升语音识别效果,但由于产品价格和尺寸的限制,麦克风的个数及每个麦克风的间距都是有限的,并且每个麦克风的功能效果相同,这个会接收到多个方向上的噪音,降低语音识别准确率,故该技术的性价比较低,能够分辨的方向范围较小。
例如:现有的声学模型主要是用来处理一些近场短音频数据,并只能对语音音频数据进行处理,无法感知和获取声源的位置参数(距离和方向),故只能适应特定环境下的语音识别。而且现有的声学模型属于后端语音识别处理技术,没有和前端的信号处理设备或算法紧密结合。
在一个可选实施方式中,本发明的方案,在微波雷达定位技术的基础上,解决复杂环境下的远场语音识别问题。
其中,民用微波雷达及其传感器是一个新兴的高科技产业,在测速、车流量检测、物位计等方面已有广发应用。LSTM(Long Short-Term Memory,长短期记忆网络)是一种时间递归神经网络系统,可以用来处理和预测时间序列中间隔和延迟相对较长的重要事件。
具体地,本发明的方案,将前端信息处理技术和后端语音识别技术相结合,即:通过结合微波雷达技术获取声源的位置参数,将音频数据和位置数据(如声源的位置参数)相结合,通过适用于长音频数据和音频数据上下文的LSTM算法训练出远场声学模型。
其中,长音频是指时间长的音频,是相对于短音频的,现在的大部分技术适用于短音频处理,本发明的方案可以实现长音频的处理,从而可以提取出更多的信息。
在一个可选例子中,在远场环境下,采用云(即云端处理平台)和端(即设备处理端或设备端处理平台)相结合的处理方式。在设备处理端,首先利用麦克风阵列对唤醒词语音进行粗略地识别声源方向的基础上,然后利用微波雷达技术实时精确计算声源的距离和方向,再用边缘计算技术实时调控麦克风阵列的状态。在云处理端,结合声源数据和语音数据,训练并使用基于LSTM的远场声学模型。
可选地,利用麦克风阵列对唤醒词语音进行粗略地识别声源方向,可以包括:语音识别系统是需要先通过语音唤醒词(如:某某空调)来唤醒设备。本发明的方案中可以首先通过麦克风阵列技术获取唤醒词语音声源的大致方向。
可选地,利用微波雷达技术实时精确计算声源的距离和方向,可以包括:微波雷达通过发送装置发出微波信号,信号在遇到物体后会产生反射,通过接收装置收反射回来的微波信号,就可以得到环境里的物体位置、大小、形状等数据。本发明的方案中可以利用该技术获得声源(发出声音的人)的位置数据。
可选地,用边缘计算技术实时调控麦克风阵列的状态,包括:本发明的麦克风阵列里有多个麦克风设备,在通过唤醒词获得声源大致方位的基础上,通过前端设备控制麦克风的状态。例如:麦克风阵列有不同方向上的4个麦克效果,获得了声源的位置在正前方,这时可以增强该方向上的麦克风接收效果(接收音频信号的能力),抑制其他方向上的麦克风接收效果,从而去除其他方向上的噪声。
例如:增强该方向上的麦克风接收效果(接收音频信号的能力),抑制其他方向上的麦克风接收效果,主要可以包括:打开和关闭麦克风阵列中不同方向上的麦克风,也有通过过滤麦克风接收的音频。例如:通过控制开关和过滤某个方向上的麦克风,从而使该方向的上接收少量的音频。
可见,本发明的方案中,远场语音识别是一项技术难点,通过微波雷达技术对的各种周边环境进行自动识别,利用深度学习算法提升远场语音识别准确率。
在一个可选具体实施方式中,可以结合图7和图8所示的例子,对本发明的方案的具体实现过程进行示例性说明。
在一个可选具体例子中,本发明的方案中,主要包含微波雷达定位、深度学习、大数据处理、边缘计算、云计算等方面的相关技术,分为两个功能模块:设备端处理平台和云端处理平台。
具体地,在图7所示的系统中,麦克风阵列:接收语音数据并判断唤醒词声源大致方位;微波雷达:获得声源的位置参数(方向和距离数据),即获得声源数据;调整麦克风阵列状态:根据声源位置数据增强或抑制相应方向上的麦克风;基于LSTM的远场声学模型:通过声源数据和语音数据训练的声学模型,将语音数据转化成对应的文本数据。其中,声源数据,可以包括声源的位置参数(方向和距离数据);语音数据,可以是通过调整麦克风阵列状态后的麦克风接收到的语音数据;文本数据,可以是通过训练的声学模型将语音数据转化成得到的文本数据。
参见图7所示的例子,本发明的方案的实现原理,可以包括:
一方面,在设备端处理平台上,首先利用麦克风阵列定位唤醒词声源大致方位(例如:通过麦克风阵列通过声波的方向判断唤醒词语音声源位置),再用微波雷达模块对声源进行精确定位,采集距离和方向(即声源的距离和方向)数据;然后根据该数据打开和关闭麦克风阵列模块上相对应位置上的麦克风;最后采集远场的音频数据。
另一方面,在云端处理平台上,首先利用人工采集和标注的声源和音频数据库训练LSTM声学模型,得到远场语音识别模型;然后,通过实时采集语音数据,在上述模型上进行实时远场语音识别;最后得到复杂环境下、高准确率的语音文本数据。
其中,主要是标注声源位置数据,是为了在训练中做标记。
在一个可选具体例子中,本发明的方案中,在复杂场景下,可以基于微波雷达技术,准确高效地进行远场语音识别。其中,参见图8所示的例子,本发明的方案中基于微波雷达的远场语音识别的具体过程,可以包括:
步骤1、训练LSTM声学模型,具体可以包括:
步骤11、收集上述历史数据(声源和语音的历史记录数据)。
步骤12、数据预处理:对数据进行处理缺失值、标准化、降噪等预处理。
例如:处理缺失值是对可能缺失的数据项,用总体均值或其他方法进行填充。标准化是通过数据归一化或同量度化让不同数据的同类化,如让音频数据和位置数据可以变成同一类数据。
步骤13、通过LSTM模型的输入层将数据载入模型中。
步骤14、LSTM模型的中间处理层。
其中,中间处理层是神经网络的一个处理过程,这是LSTM算法里固定的操作。例如:中间处理层通过输入、遗忘、输出的方法来更新网络中的细胞状态和细胞间连接的权值。
步骤15、文本输出层:将语音数据转化的文本数据输出,得到基于LSTM的远场声学模型。
步骤2、实时语音:对空调的语音进行实时监测。
步骤3、采集语音数据和声源数据。
步骤4、数据预处理:可以与步骤1中训练LSTM声学模型的数据预处理方式相同。
步骤5、基于LSTM的远场声学模型:利用步骤1中训练LSTM声学模型训练出的LSTM远场声学模型进行语音识别。
步骤6、语音文本数据:根据模型的语音识别结果,得到对应的文本数据。
可见,对于复杂环境下的语音设备使用过程中,需要准确、高效、实时的远场识别技术,解决噪声、混响、回声带来的影响,提高用户体验效果,迫切需要一种智能化、高效化、准确性高、可靠性强的远场识别系统。而目前市场上的远场识别主要是以单一化麦克风阵列和声学模型的形式,进行简单的识别,复杂场景下的识别准确度不高,暂时没有一种针对远场语音的高准确度、可靠的识别方法。而本发明的方案,在微波雷达技术的基础,结合LSTM深度学习算法模型,利用声源和语音数据训练出远场语音识别模型,将语音数据准确高效地转化成文本数据,提供满足用户需求、高识别率化的远场语音系统。
例如:语音转化成文本数据后,对文本数据进行提取和识别,才能控制相应的设备。这是语音识别系统的必备步骤。
由于本实施例的空调所实现的处理及功能基本相应于前述图6所示的装置的实施例、原理和实例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此不做赘述。
经大量的试验验证,采用本发明的技术方案,通过在微波雷达技术的基础,结合LSTM深度学习算法模型,利用声源和语音数据训练出远场语音识别模型,将语音数据准确高效地转化成文本数据,可以提升远场语音识别效果。
根据本发明的实施例,还提供了对应于语音识别方法的一种存储介质。该存储介质,可以包括:所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行以上所述的语音识别方法。
由于本实施例的存储介质所实现的处理及功能基本相应于前述图1至图5所示的方法的实施例、原理和实例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此不做赘述。
经大量的试验验证,采用本发明的技术方案,通过将前端信息处理技术和后端语音识别技术相结合,即:通过结合微波雷达技术获取声源的位置参数,将音频数据和位置数据相结合,通过适用于长音频数据和音频数据上下文的LSTM算法训练出远场声学模型,可以缩短响应时间短和提升降噪效果
根据本发明的实施例,还提供了对应于语音识别方法的一种空调。该空调,可以包括:处理器,用于执行多条指令;存储器,用于存储多条指令;其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行以上所述的语音识别方法。
由于本实施例的空调所实现的处理及功能基本相应于前述图1至图5所示的方法的实施例、原理和实例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此不做赘述。
经大量的试验验证,采用本发明的技术方案,通过利用麦克风阵列对唤醒词语音进行粗略地识别声源方向的基础上,利用微波雷达技术实时精确计算声源的距离和方向,再用边缘计算技术实时调控麦克风阵列的状态,结合声源数据和语音数据,训练并使用基于LSTM的远场声学模型,可以提升远场识别效率和降噪效果,缩短响应时间。
综上,本领域技术人员容易理解的是,在不冲突的前提下,上述各有利方式可以自由地组合、叠加。
以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (17)
1.一种语音识别方法,其特征在于,包括:
获取第一语音数据;
根据所述第一语音数据调整第二语音数据的采集状态,并基于调整后的采集状态获取第二语音数据;
利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别,以得到与获取的第二语音数据对应的语义信息。
2.根据权利要求1所述的方法,其特征在于,其中,
该第一语音数据,包括:语音唤醒词;所述语音唤醒词,为用于唤醒语音设备的语音数据;和/或,
该第二语音数据,包括:语音指令;所述语音指令,为用于控制语音设备的语音数据;
和/或,
获取第一语音数据的操作、根据所述第一语音数据调整第二语音数据的采集状态的操作、以及基于调整后的采集状态获取第二语音数据的操作,在语音设备的本地侧执行;和/或,
利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别的操作,由语音设备在本地侧接收云端处理后的反馈信息。
3.根据权利要求1或2所述的方法,其特征在于,其中,
获取第一语音数据,包括:
获取由语音采集设备采集得到的第一语音数据;
和/或,
获取第二语音数据,包括:
获取由调整采集状态后的语音采集设备采集得到的第二语音数据;
其中,所述语音采集设备,包括:麦克风阵列;在所述麦克风阵列中,设置有用于对一个以上方向上的语音数据进行采集的一个以上麦克风。
4.根据权利要求1-3之一所述的方法,其特征在于,根据所述第一语音数据调整第二语音数据的采集状态,包括:
确定发送所述第一语音数据的声源的位置信息;
增强获取第一语音数据的语音采集设备对该位置信息上的第二语音数据的采集强度,和/或抑制采集第一语音数据的语音采集设备对除该位置信息以外的其它位置上的第二语音数据的采集强度。
5.根据权利要求4所述的方法,其特征在于,其中,
确定发送所述第一语音数据的声源的位置信息,包括:
利用语音采集设备确定发送所述第一语音数据的声源的方向;
利用位置定位设备基于该方向对所述声源进行定位,得到所述声源的位置信息;
其中,所述位置定位设备,包括:微波雷达模块;所述位置信息,包括:距离和方向;
和/或,
增强获取第一语音数据的语音采集设备对该位置信息上的第二语音数据的采集强度,包括:
在所述语音采集设备包括麦克风阵列的情况下,开启所述麦克风阵列中该位置信息上的麦克风,和/或增加所述麦克风阵列中该位置信息上的麦克风的开启数量;
和/或,
抑制采集第一语音数据的语音采集设备对除该位置信息以外的其它位置上的第二语音数据的采集强度,包括:
关闭所述麦克风阵列上除该位置信息以外的其它位置上的麦克风,和/或减少所述麦克风阵列上除该位置信息以外的其它位置上的开启数量。
6.根据权利要求1-5之一所述的方法,其特征在于,利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别,包括:
对采集到的第二语音数据进行预处理,得到语音信息;
再利用预设的远场语音识别模型,对预处理后的语音信息进行远场语音识别处理;
其中,所述远场语音识别模型,包括:基于LSTM算法进行深度学习训练得到的远场声学模型。
7.根据权利要求1-6之一所述的方法,其特征在于,还包括:
收集语音数据及其声源数据;
对所述语音数据及其声源数据进行预处理后,利用LSTM模型进行训练,得到基于LSTM的远场语音识别模型。
8.一种语音识别装置,其特征在于,包括:
获取单元,用于获取第一语音数据;
所述获取单元,还用于根据所述第一语音数据调整第二语音数据的采集状态,并基于调整后的采集状态获取第二语音数据;
识别单元,用于利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别,以得到与获取的第二语音数据对应的语义信息。
9.根据权利要求8所述的装置,其特征在于,其中,
该第一语音数据,包括:语音唤醒词;所述语音唤醒词,为用于唤醒语音设备的语音数据;和/或,
该第二语音数据,包括:语音指令;所述语音指令,为用于控制语音设备的语音数据;
和/或,
获取第一语音数据的操作、根据所述第一语音数据调整第二语音数据的采集状态的操作、以及基于调整后的采集状态获取第二语音数据的操作,在语音设备的本地侧执行;和/或,
利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别的操作,由语音设备在本地侧接收云端处理后的反馈信息。
10.根据权利要求8或9所述的装置,其特征在于,其中,
所述获取单元获取第一语音数据,包括:
获取由语音采集设备采集得到的第一语音数据;
和/或,
所述获取单元获取第二语音数据,包括:
获取由调整采集状态后的语音采集设备采集得到的第二语音数据;
其中,所述语音采集设备,包括:麦克风阵列;在所述麦克风阵列中,设置有用于对一个以上方向上的语音数据进行采集的一个以上麦克风。
11.根据权利要求8-10之一所述的装置,其特征在于,所述获取单元根据所述第一语音数据调整第二语音数据的采集状态,包括:
确定发送所述第一语音数据的声源的位置信息;
增强获取第一语音数据的语音采集设备对该位置信息上的第二语音数据的采集强度,和/或抑制采集第一语音数据的语音采集设备对除该位置信息以外的其它位置上的第二语音数据的采集强度。
12.根据权利要求11所述的装置,其特征在于,其中,
所述获取单元确定发送所述第一语音数据的声源的位置信息,包括:
利用语音采集设备确定发送所述第一语音数据的声源的方向;
利用位置定位设备基于该方向对所述声源进行定位,得到所述声源的位置信息;
其中,所述位置定位设备,包括:微波雷达模块;所述位置信息,包括:距离和方向;
和/或,
所述获取单元增强获取第一语音数据的语音采集设备对该位置信息上的第二语音数据的采集强度,包括:
在所述语音采集设备包括麦克风阵列的情况下,开启所述麦克风阵列中该位置信息上的麦克风,和/或增加所述麦克风阵列中该位置信息上的麦克风的开启数量;
和/或,
所述获取单元抑制采集第一语音数据的语音采集设备对除该位置信息以外的其它位置上的第二语音数据的采集强度,包括:
关闭所述麦克风阵列上除该位置信息以外的其它位置上的麦克风,和/或减少所述麦克风阵列上除该位置信息以外的其它位置上的开启数量。
13.根据权利要求8-12之一所述的装置,其特征在于,所述识别单元利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别,包括:
对采集到的第二语音数据进行预处理,得到语音信息;
再利用预设的远场语音识别模型,对预处理后的语音信息进行远场语音识别处理;
其中,所述远场语音识别模型,包括:基于LSTM算法进行深度学习训练得到的远场声学模型。
14.根据权利要求8-13之一所述的装置,其特征在于,还包括:
所述获取单元,还用于收集语音数据及其声源数据;
所述识别单元,还用于对所述语音数据及其声源数据进行预处理后,利用LSTM模型进行训练,得到基于LSTM的远场语音识别模型。
15.一种空调,其特征在于,包括:如权利要求8-14任一所述的语音识别装置。
16.一种存储介质,其特征在于,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如权利要求1-7任一所述的语音识别方法。
17.一种空调,其特征在于,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如权利要求1-7任一所述的语音识别方法。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910130206.9A CN109767769B (zh) | 2019-02-21 | 2019-02-21 | 一种语音识别方法、装置、存储介质及空调 |
EP19915991.4A EP3923273B1 (en) | 2019-02-21 | 2019-10-09 | Voice recognition method and device, storage medium, and air conditioner |
PCT/CN2019/110107 WO2020168727A1 (zh) | 2019-02-21 | 2019-10-09 | 一种语音识别方法、装置、存储介质及空调 |
PT199159914T PT3923273T (pt) | 2019-02-21 | 2019-10-09 | Método e dispositivo de reconhecimento de voz, meio de armazenamento e ar condicionado |
ES19915991T ES2953525T3 (es) | 2019-02-21 | 2019-10-09 | Método y dispositivo de reconocimiento de voz, medio de almacenamiento y acondicionador de aire |
US17/407,443 US11830479B2 (en) | 2019-02-21 | 2021-08-20 | Voice recognition method and apparatus, and air conditioner |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910130206.9A CN109767769B (zh) | 2019-02-21 | 2019-02-21 | 一种语音识别方法、装置、存储介质及空调 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109767769A true CN109767769A (zh) | 2019-05-17 |
CN109767769B CN109767769B (zh) | 2020-12-22 |
Family
ID=66457008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910130206.9A Active CN109767769B (zh) | 2019-02-21 | 2019-02-21 | 一种语音识别方法、装置、存储介质及空调 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11830479B2 (zh) |
EP (1) | EP3923273B1 (zh) |
CN (1) | CN109767769B (zh) |
ES (1) | ES2953525T3 (zh) |
PT (1) | PT3923273T (zh) |
WO (1) | WO2020168727A1 (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110223686A (zh) * | 2019-05-31 | 2019-09-10 | 联想(北京)有限公司 | 语音识别方法、语音识别装置和电子设备 |
CN110415694A (zh) * | 2019-07-15 | 2019-11-05 | 深圳市易汇软件有限公司 | 一种多台智能音箱协同工作的方法 |
CN110807909A (zh) * | 2019-12-09 | 2020-02-18 | 深圳云端生活科技有限公司 | 一种雷达和语音处理组合控制的方法 |
CN110931019A (zh) * | 2019-12-06 | 2020-03-27 | 广州国音智能科技有限公司 | 公安语音数据采集方法、装置、设备和计算机存储介质 |
CN110992974A (zh) * | 2019-11-25 | 2020-04-10 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
WO2020168727A1 (zh) * | 2019-02-21 | 2020-08-27 | 珠海格力电器股份有限公司 | 一种语音识别方法、装置、存储介质及空调 |
CN111755006A (zh) * | 2020-07-28 | 2020-10-09 | 斑马网络技术有限公司 | 一种定向收声装置和车载语音触发方法 |
CN112562671A (zh) * | 2020-12-10 | 2021-03-26 | 上海雷盎云智能技术有限公司 | 一种服务机器人的语音控制方法和装置 |
CN112700771A (zh) * | 2020-12-02 | 2021-04-23 | 珠海格力电器股份有限公司 | 空调、立体声控识别方法、计算机设备、存储介质及终端 |
WO2021131532A1 (ja) * | 2019-12-27 | 2021-07-01 | アイリスオーヤマ株式会社 | 送風機 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220291328A1 (en) * | 2015-07-17 | 2022-09-15 | Muhammed Zahid Ozturk | Method, apparatus, and system for speech enhancement and separation based on audio and radio signals |
CN111688580B (zh) * | 2020-05-29 | 2023-03-14 | 阿波罗智联(北京)科技有限公司 | 智能后视镜进行拾音的方法以及装置 |
CN112859000B (zh) * | 2020-12-31 | 2023-09-12 | 华为技术有限公司 | 一种声源定位方法以及装置 |
CN113793596A (zh) * | 2021-09-15 | 2021-12-14 | 深圳金贝奇电子有限公司 | 一种基于语音增强技术的耳机远场交互系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8892443B2 (en) * | 2009-12-15 | 2014-11-18 | At&T Intellectual Property I, L.P. | System and method for combining geographic metadata in automatic speech recognition language and acoustic models |
CN104756526A (zh) * | 2012-11-02 | 2015-07-01 | 索尼公司 | 信号处理装置、信号处理方法、测量方法及测量装置 |
CN105825855A (zh) * | 2016-04-13 | 2016-08-03 | 联想(北京)有限公司 | 一种信息处理方法及主终端设备 |
CN108538305A (zh) * | 2018-04-20 | 2018-09-14 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
CN109074816A (zh) * | 2016-06-15 | 2018-12-21 | 英特尔公司 | 远场自动语音识别预处理 |
CN109215656A (zh) * | 2018-11-14 | 2019-01-15 | 珠海格力电器股份有限公司 | 语音遥控装置装置及方法、存储介质、电子装置 |
CN109360579A (zh) * | 2018-12-05 | 2019-02-19 | 途客电力科技(天津)有限公司 | 充电桩语音控制装置以及系统 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6122613A (en) * | 1997-01-30 | 2000-09-19 | Dragon Systems, Inc. | Speech recognition using multiple recognizers (selectively) applied to the same input sample |
US20040003070A1 (en) * | 2002-06-26 | 2004-01-01 | Clarus Systems, Inc. | Centrally controlled end-to-end service quality monitoring system and method in a distributed environment |
CN103095911B (zh) * | 2012-12-18 | 2014-12-17 | 苏州思必驰信息科技有限公司 | 一种通过语音唤醒寻找手机的方法及系统 |
US9747917B2 (en) * | 2013-06-14 | 2017-08-29 | GM Global Technology Operations LLC | Position directed acoustic array and beamforming methods |
WO2018020763A1 (ja) * | 2016-07-26 | 2018-02-01 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
US10431211B2 (en) * | 2016-07-29 | 2019-10-01 | Qualcomm Incorporated | Directional processing of far-field audio |
US10467510B2 (en) * | 2017-02-14 | 2019-11-05 | Microsoft Technology Licensing, Llc | Intelligent assistant |
CN107464564B (zh) * | 2017-08-21 | 2023-05-26 | 腾讯科技(深圳)有限公司 | 语音交互方法、装置及设备 |
CN107862060B (zh) * | 2017-11-15 | 2021-03-23 | 吉林大学 | 一种追踪目标人的语义识别装置及识别方法 |
KR20190084789A (ko) * | 2018-01-09 | 2019-07-17 | 엘지전자 주식회사 | 전자 장치 및 그 제어 방법 |
KR102679107B1 (ko) * | 2018-02-23 | 2024-06-27 | 삼성전자주식회사 | 세탁 기기 및 그의 제어 방법 |
CN109119071A (zh) * | 2018-09-26 | 2019-01-01 | 珠海格力电器股份有限公司 | 一种语音识别模型的训练方法及装置 |
CN109767769B (zh) * | 2019-02-21 | 2020-12-22 | 珠海格力电器股份有限公司 | 一种语音识别方法、装置、存储介质及空调 |
-
2019
- 2019-02-21 CN CN201910130206.9A patent/CN109767769B/zh active Active
- 2019-10-09 EP EP19915991.4A patent/EP3923273B1/en active Active
- 2019-10-09 PT PT199159914T patent/PT3923273T/pt unknown
- 2019-10-09 WO PCT/CN2019/110107 patent/WO2020168727A1/zh unknown
- 2019-10-09 ES ES19915991T patent/ES2953525T3/es active Active
-
2021
- 2021-08-20 US US17/407,443 patent/US11830479B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8892443B2 (en) * | 2009-12-15 | 2014-11-18 | At&T Intellectual Property I, L.P. | System and method for combining geographic metadata in automatic speech recognition language and acoustic models |
CN104756526A (zh) * | 2012-11-02 | 2015-07-01 | 索尼公司 | 信号处理装置、信号处理方法、测量方法及测量装置 |
CN105825855A (zh) * | 2016-04-13 | 2016-08-03 | 联想(北京)有限公司 | 一种信息处理方法及主终端设备 |
CN109074816A (zh) * | 2016-06-15 | 2018-12-21 | 英特尔公司 | 远场自动语音识别预处理 |
CN108538305A (zh) * | 2018-04-20 | 2018-09-14 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
CN109215656A (zh) * | 2018-11-14 | 2019-01-15 | 珠海格力电器股份有限公司 | 语音遥控装置装置及方法、存储介质、电子装置 |
CN109360579A (zh) * | 2018-12-05 | 2019-02-19 | 途客电力科技(天津)有限公司 | 充电桩语音控制装置以及系统 |
Non-Patent Citations (1)
Title |
---|
张宇等: "基于注意力LSTM和多任务学习的远场语音识别", 《清华大学学报(自然科学版)》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11830479B2 (en) | 2019-02-21 | 2023-11-28 | Gree Electric Appliances, Inc. Of Zhuhai | Voice recognition method and apparatus, and air conditioner |
WO2020168727A1 (zh) * | 2019-02-21 | 2020-08-27 | 珠海格力电器股份有限公司 | 一种语音识别方法、装置、存储介质及空调 |
CN110223686A (zh) * | 2019-05-31 | 2019-09-10 | 联想(北京)有限公司 | 语音识别方法、语音识别装置和电子设备 |
CN110415694A (zh) * | 2019-07-15 | 2019-11-05 | 深圳市易汇软件有限公司 | 一种多台智能音箱协同工作的方法 |
CN110992974B (zh) * | 2019-11-25 | 2021-08-24 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
US11620983B2 (en) | 2019-11-25 | 2023-04-04 | Baidu Online Network Technology (Beijing) Co., Ltd | Speech recognition method, device, and computer-readable storage medium |
CN110992974A (zh) * | 2019-11-25 | 2020-04-10 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
CN110931019B (zh) * | 2019-12-06 | 2022-06-21 | 广州国音智能科技有限公司 | 公安语音数据采集方法、装置、设备和计算机存储介质 |
CN110931019A (zh) * | 2019-12-06 | 2020-03-27 | 广州国音智能科技有限公司 | 公安语音数据采集方法、装置、设备和计算机存储介质 |
CN110807909A (zh) * | 2019-12-09 | 2020-02-18 | 深圳云端生活科技有限公司 | 一种雷达和语音处理组合控制的方法 |
WO2021131532A1 (ja) * | 2019-12-27 | 2021-07-01 | アイリスオーヤマ株式会社 | 送風機 |
JP2021107699A (ja) * | 2019-12-27 | 2021-07-29 | アイリスオーヤマ株式会社 | 送風機 |
JP7505734B2 (ja) | 2019-12-27 | 2024-06-25 | アイリスオーヤマ株式会社 | 送風機 |
CN111755006A (zh) * | 2020-07-28 | 2020-10-09 | 斑马网络技术有限公司 | 一种定向收声装置和车载语音触发方法 |
CN111755006B (zh) * | 2020-07-28 | 2023-05-30 | 斑马网络技术有限公司 | 一种定向收声装置和车载语音触发方法 |
CN112700771A (zh) * | 2020-12-02 | 2021-04-23 | 珠海格力电器股份有限公司 | 空调、立体声控识别方法、计算机设备、存储介质及终端 |
CN112562671A (zh) * | 2020-12-10 | 2021-03-26 | 上海雷盎云智能技术有限公司 | 一种服务机器人的语音控制方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
US11830479B2 (en) | 2023-11-28 |
EP3923273A1 (en) | 2021-12-15 |
EP3923273B1 (en) | 2023-06-21 |
EP3923273A4 (en) | 2022-07-13 |
US20210383795A1 (en) | 2021-12-09 |
CN109767769B (zh) | 2020-12-22 |
PT3923273T (pt) | 2023-07-07 |
WO2020168727A1 (zh) | 2020-08-27 |
ES2953525T3 (es) | 2023-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109767769A (zh) | 一种语音识别方法、装置、存储介质及空调 | |
CN102298443B (zh) | 结合视频通道的智能家居语音控制系统及其控制方法 | |
CN107799126B (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
WO2020083110A1 (zh) | 一种语音识别、及语音识别模型训练方法及装置 | |
CN110033758B (zh) | 一种基于小训练集优化解码网络的语音唤醒实现方法 | |
CN110570873B (zh) | 声纹唤醒方法、装置、计算机设备以及存储介质 | |
CN110728308B (zh) | 基于改进Yolov2目标检测和语音识别的交互式导盲系统及方法 | |
CN202110564U (zh) | 结合视频通道的智能家居语音控制系统 | |
CN107767863A (zh) | 语音唤醒方法、系统及智能终端 | |
CN106601230B (zh) | 基于连续混合高斯hmm模型的物流分拣地名语音识别方法、系统及物流分拣系统 | |
CN111128157B (zh) | 一种智能家电的免唤醒语音识别控制方法、计算机可读存储介质及空调 | |
CN106157956A (zh) | 语音识别的方法及装置 | |
CN105632486A (zh) | 一种智能硬件的语音唤醒方法和装置 | |
CN109473119B (zh) | 一种声学目标事件监控方法 | |
CN102932212A (zh) | 一种基于多通道交互方式的智能家居控制系统 | |
CN104658538A (zh) | 一种基于鸟鸣声的移动式鸟类识别方法 | |
CN106407993A (zh) | 一种基于图像识别技术的智能语音机器人系统及方法 | |
CN108297108A (zh) | 一种球形跟随机器人及其跟随控制方法 | |
CN108831447A (zh) | 基于hmm和pnn的语音识别方法、装置及存储介质 | |
CN110970020A (zh) | 一种利用声纹提取有效语音信号的方法 | |
CN117193524A (zh) | 一种基于多模态特征融合的人机交互系统及方法 | |
CN107756412B (zh) | 语音对话机器人的控制方法及终端设备 | |
CN110363074B (zh) | 一种针对复杂抽象化事物的类人化识别交互方法 | |
CN211512572U (zh) | 一种交互式导盲系统 | |
CN107123420A (zh) | 一种语音识别系统及其交互方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |