CN108538305A - 语音识别方法、装置、设备及计算机可读存储介质 - Google Patents
语音识别方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN108538305A CN108538305A CN201810361397.5A CN201810361397A CN108538305A CN 108538305 A CN108538305 A CN 108538305A CN 201810361397 A CN201810361397 A CN 201810361397A CN 108538305 A CN108538305 A CN 108538305A
- Authority
- CN
- China
- Prior art keywords
- voice signal
- signal
- wake
- speech recognition
- microphone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000012545 processing Methods 0.000 claims abstract description 48
- 238000011946 reduction process Methods 0.000 claims abstract description 39
- 230000008569 process Effects 0.000 claims abstract description 22
- 230000002618 waking effect Effects 0.000 claims abstract description 9
- 230000004807 localization Effects 0.000 claims description 14
- 230000005236 sound signal Effects 0.000 claims description 3
- 241000209140 Triticum Species 0.000 claims description 2
- 235000021307 Triticum Nutrition 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 abstract description 27
- 230000006870 function Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000009467 reduction Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
本发明实施例提出一种语音识别方法、装置、设备及计算机可读存储介质。其中,该方法包括:启动麦克风阵列中的部分麦克风采集得到第一语音信号;对所述第一语音信号进行回声消除处理,得到第二语音信号;对所述第二语音信号进行唤醒识别,以确定所述第二语音信号中是否包括唤醒词;在确定所述第二语音信号中包括所述唤醒词的情况下,启动所述麦克风阵列采集得到第三语音信号;对所述第三语音信号进行降噪处理;以及对降噪处理后的信号进行语音识别。由于唤醒状态前大部分前端处理算法都不启动,麦克风阵列也只启动部分麦克风,因此可以大大降低语音识别过程的运算量和功耗。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别方法、装置、设备及计算机可读存储介质。
背景技术
随着远场语音识别技术的快速发展,智能语音交互正在成为重要的交互入口之一,而集成远场语音识别技术的智能硬件产品近来也是全面爆发。智能家居尤其是便携式智能硬件对于低功耗的要求也越来越突出。
根据研究及实际测试表明,在远场语音应用当中,麦克风阵列前端降噪算法对硬件设备的处理器芯片的运算能力有着极大的需求,功耗大。
在当前远场语音前端降噪算法应用中,麦克风阵列一直处于录音状态中,所有前端降噪算法都处于工作状态,语音唤醒引擎和语音识别引擎也一直处于工作状态,大量增加了硬件设备的处理器芯片的运算量,使功耗大大提高。
发明内容
本发明实施例提供一种语音识别方法、装置、设备及计算机可读存储介质,以至少解决现有技术中的以上技术问题中的至少一个。
第一方面,本发明实施例提供了一种语音识别方法,包括:
启动麦克风阵列中的部分麦克风采集得到第一语音信号;
对所述第一语音信号进行回声消除处理,得到第二语音信号;
对所述第二语音信号进行唤醒识别,以确定所述第二语音信号中是否包括唤醒词;
在确定所述第二语音信号中包括所述唤醒词的情况下,启动所述麦克风阵列采集得到第三语音信号;
对所述第三语音信号进行降噪处理;以及
对降噪处理后的信号进行语音识别。
结合第一方面,本发明实施例在第一方面的第一种实现方式中,对所述第三语音信号进行降噪处理,包括:
将所述第三语音信号进行回声消除处理得到第四语音信号;
对所述第四语音信号进行声源定位处理,得到波束成形的角度;
根据所述波束成形的角度对所述第四语音信号进行波束成形处理;
对波束成形处理后的信号进行噪声抑制处理;
对噪声抑制处理后的信号进行去混响处理;以及
对去混响处理后的信号进行非线性处理。
结合第一方面,本发明实施例在第一方面的第二种实现方式中,对所述第二语音信号进行唤醒识别,包括:
将所述第二语音信号发送至语音唤醒引擎中进行唤醒识别。
结合第一方面,本发明实施例在第一方面的第三种实现方式中,对降噪处理后的信号进行语音识别,包括:
将降噪处理后的信号发送至语音识别引擎中进行语音识别。
结合第一方面或第一方面的任意一种实现方式,本发明实施例在第一方面的第四种实现方式中,在启动麦克风阵列中的部分麦克风采集得到第一语音信号之前,所述方法还包括:
将麦克风阵列中的一个麦克风设置为工作状态,其他麦克风设置为非工作状态。
第二方面,本发明实施例提供了一种语音识别装置,包括:
第一启动模块,用于启动麦克风阵列中的部分麦克风采集得到第一语音信号;
回声消除模块,用于对所述第一语音信号进行回声消除处理,得到第二语音信号;
唤醒识别模块,用于对所述第二语音信号进行唤醒识别,以确定所述第二语音信号中是否包括唤醒词;
第二启动模块,用于在确定所述第二语音信号中包括所述唤醒词的情况下,启动所述麦克风阵列采集得到第三语音信号;
降噪处理模块,用于对所述第三语音信号进行降噪处理;以及
语音识别模块,用于对降噪处理后的信号进行语音识别。
结合第二方面,本发明实施例在第二方面的第一种实现方式中,所述降噪处理模块包括:
回声消除子模块,用于将所述第三语音信号进行回声消除处理得到第四语音信号;
声源定位子模块,用于对所述第四语音信号进行声源定位处理,得到波束成形的角度;
波束成形子模块,用于根据所述波束成形的角度对所述第四语音信号进行波束成形处理;
噪声抑制子模块,用于对波束成形处理后的信号进行噪声抑制处理;
去混响子模块,用于对噪声抑制处理后的信号进行去混响处理;以及
非线性子模块,用于对去混响处理后的信号进行非线性处理。
结合第二方面,本发明实施例在第二方面的第二种实现方式中,所述唤醒识别模块还用于:将所述第二语音信号发送至语音唤醒引擎中进行唤醒识别。
结合第二方面,本发明实施例在第二方面的第三种实现方式中,所述语音识别模块还用于将降噪处理后的信号发送至语音识别引擎中进行语音识别。
结合第二方面或第二方面的任意一种实现方式,本发明实施例在第二方面的第四种实现方式中,该装置还包括:
预设模块,用于在启动麦克风阵列中的部分麦克风采集得到第一语音信号之前,将麦克风阵列中的一个麦克风设置为工作状态,其他麦克风设置为非工作状态。
第三方面,本发明实施例提供了一种语音识别设备,包括:
所述设备的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,语音识别设备的结构中包括处理器和存储器,所述存储器用于存储支持语音识别设备执行上述语音识别方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述语音识别设备还可以包括通信接口,用于语音识别设备与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储语音识别设备所用的计算机软件指令,其包括用于执行上述语音识别方法所涉及的程序。
上述技术方案中的一个技术方案具有如下优点或有益效果:先开启麦克风阵列中的部分麦克风采集语音信号进行回声消除,将处理后的信号发送给语音唤醒引擎;当语音唤醒引擎识别到唤醒词后,再启动麦克风阵列录音及其余降噪处理算法。由于唤醒状态前大部分前端处理算法都不启动,麦克风阵列也只启动部分麦克风,因此可以大大降低语音识别过程的运算量和功耗。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1示出根据本发明一实施例的语音识别方法的流程图。
图2示出根据本发明一实施例的语音识别方法中唤醒过程的流程图。
图3示出根据本发明一实施例的语音识别方法中唤醒之后的流程图。
图4示出根据本发明另一实施例的语音识别方法的流程图。
图5出根据本发明另一实施例的语音识别方法的应用示例的示意图。
图6示出根据本发明一实施例的语音识别装置的结构框图。
图7示出根据本发明另一实施例的语音识别装置的结构框图。
图8示出根据本发明一实施例的语音识别设备的结构框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
图1示出根据本发明一实施例的语音识别方法的流程图。如图1所示,该语音识别方法包括以下步骤:
101、启动麦克风阵列中的部分麦克风采集得到第一语音信号。
本发明实施例中,设备的麦克风阵列中可以包括多个麦克风。可以预先设置两种工作状态。第一种工作状态时,只启动部分麦克风,且处理器芯片仅执行回声消除算法,语音唤醒引擎处于工作状态。第二种工作状态时,启动全部麦克风,处理器芯片执行的前端降噪处理算法,语音唤醒引擎和语音识别引擎均处于工作状态。前端降噪处理算法可以包括回声消除、声源定位(Sound location)、波束成形、噪声抑制、去混响和非线性处理等多个过程。其中,回声消除可以采用AEC(Acoustic Echo Control,声学回声控制)算法。
参见图2,在设备上电后,可以默认处于第一种工作状态,启动部分麦克风从声源采集第一语音信号,而不启动全部麦克风,以降低功耗。如果只启动一个麦克风,则可以最大程度的降低功耗。
102、对所述第一语音信号进行回声消除处理,得到第二语音信号。
对于部分麦克风采集的第一语音信号,在第一种工作状态时,可以先进行回声消除处理,而不进行后续的其他前端降噪处理。这样可以进一步降低功耗。
103、对所述第二语音信号进行唤醒识别,以确定所述第二语音信号中是否包括唤醒词。
参见图2,可以将回声消除之后的第二语音信号发送至语音唤醒引擎中进行唤醒识别。语音唤醒引擎可以调取预设的唤醒词。将第二语音信号转换为文本信息,比较文本信息与唤醒词的相似度,以判断第二语音信号中是否包括该唤醒词。唤醒词可以为一个,也可以为多个,在实际应用中可以根据具体需求灵活选择。语音唤醒引擎也可以称为唤醒词识别引擎。
104、在确定所述第二语音信号中包括所述唤醒词的情况下,启动所述麦克风阵列采集得到第三语音信号。
如果语音唤醒引擎识别出第二语音信号中有预设的唤醒词,可以控制麦克风阵列中的全部麦克风启动,再次采集得到第三语音信号。
105、对所述第三语音信号进行降噪处理。
参见图3,处理器芯片可以采用前端降噪处理算法,对全部麦克风再次采集的第三语音信号进行降噪处理。
106、对降噪处理后的信号进行语音识别。
参见图3,处理器芯片可以将降噪处理后的信号发送至语音识别引擎中进行语音识别。其中,语音识别也可以称为ASR(Automatic Speech Recognition,自动语音识别)。
图4示出根据本发明另一实施例的语音识别方法的流程图。在上一实施例的基础上,如图4所示,该语音识别方法的步骤105可以包括:
201、将麦克风阵列采集的第三语音信号进行回声消除处理得到第四语音信号;
202、对所述第四语音信号进行声源定位处理,得到波束成形的角度;
203、根据所述波束成形的角度对所述第四语音信号进行波束成形处理;
204、对波束成形处理后的信号进行噪声抑制处理;
205、对噪声抑制处理后的信号进行去混响处理;
206、对去混响处理后的信号进行非线性处理。
参见图3,对于麦克风阵列的全部麦克风采集的第三语音信号,可以执行全部的前端降噪处理算法。全部的前端降噪处理算法包括回声消除、声源定位、波束成形、噪声抑制、去混响以及非线性处理等算法。先对第三语音信号进行回声消除处理得到第四语音信号。再对第四语音信号进行声源定位处理,得到波束成形的角度。然后根据波束成形的角度对第四语音信号进行波束成形处理、噪声抑制处理、去混响处理和非线性处理。
在一种可能的实现方式中,该方法还包括:
将麦克风阵列中的一个麦克风设置为工作状态,其他麦克风设置为非工作状态。
例如,在初始上电状态,设备默认处于第一种工作状态,只有一个麦克风处于工作状态,其他麦克风为非工作状态,并且只对该麦克风采集的语音信号启动回声消除处理。在唤醒成功后,设备变成第二种工作状态,麦克风阵列的全部麦克风均处于工作状态,并且对麦克风阵列采集的语音启动全部的前端降噪处理算法。在语音识别结束后,设备再次回到第一种工作状态。
本发明实施例,先开启麦克风阵列中的部分麦克风采集语音信号进行回声消除,将处理后的信号发送给语音唤醒引擎;当语音唤醒引擎识别到唤醒词后,再启动麦克风阵列录音及其余降噪处理算法。由于唤醒状态前大部分前端处理算法都不启动,麦克风阵列也只启动部分麦克风,因此可以大大降低语音识别过程的运算量和功耗。
图5出根据本发明另一实施例的语音识别方法的应用示例的示意图。参见图5,以初始状态仅启动一个麦克风,并且由处理器芯片执行前端降噪算法为例,该语音识别方法可以包括以下步骤:
501、在设备上电后,只有麦克风(MIC)阵列其中的一个麦克风处于工作状态,处理器芯片只执行回声消除算法,并且语音唤醒引擎处于工作状态。处理器芯片对该单路MIC采集语音信号做单路回声消除例如AEC处理。
502、将处理后的信号发送给处于工作状态中的语音唤醒引擎。语音唤醒引擎判断是否识别到唤醒词。如果没有识别到唤醒词,就继续保持当前的工作状态,继续由一个MIC录音。当语音唤醒引擎识别到唤醒词后,启动麦克风阵列录音及其余前端算法和语音识别引擎。
503、对多路MIC采集的语音信号进行AEC处理后,输入到声源定位算法模块,经过声源定位算法获得波束成形的准确角度。
504、设置波束成形的角度,对经过回声消除算法的音频信号采用波束成形算法进行处理。再经过噪声抑制、去混响以及非线性处理等算法后,把处理后的音频信号发送到远场语音识别引擎例如ASR语音识别引擎进行语音识别。
505、当语音识别完成后,设备可以再返回到只启动单麦克风、回声消除算法和语音唤醒引擎的工作状态。
本实施例在设备上电后,只使麦克风阵列中的一个麦克风处于工作状态采集语音信号做单路回声消除,将处理后的信号发送给处于工作状态中的语音唤醒引擎。当语音唤醒引擎识别到唤醒词后,得到声源对象例如说话的人的位置信息。然后再启动麦克风阵列录音及其余前端算法和语音识别引擎。由于唤醒状态前大部分前端处理算法都不启动,麦克风阵列也只启动部分麦克风,因此会大大降低处理器芯片的运算量,进而大大降低麦克风阵列和处理器芯片的硬件功耗。
图6示出根据本发明一实施例的语音识别装置的结构框图。如图6所示,该装置包括:
第一启动模块41,用于启动麦克风阵列中的部分麦克风采集得到第一语音信号;
回声消除模块42,用于对所述第一语音信号进行回声消除处理,得到第二语音信号;
唤醒识别模块43,用于对所述第二语音信号进行唤醒识别,以确定所述第二语音信号中是否包括唤醒词;
第二启动模块44,用于在确定所述第二语音信号中包括所述唤醒词的情况下,启动所述麦克风阵列采集得到第三语音信号;
降噪处理模块45,用于对所述第三语音信号进行降噪处理;以及
语音识别模块46,用于对降噪处理后的信号进行语音识别。
图7示出根据本发明另一实施例的语音识别装置的结构框图。如图7所示,在上一实施例的基础上,该装置的降噪处理模块45可以包括:
回声消除子模块,用于将所述第三语音信号进行回声消除处理得到第四语音信号;
声源定位子模块,用于对所述第四语音信号进行声源定位处理,得到波束成形的角度;
波束成形子模块,用于根据所述波束成形的角度对所述第四语音信号进行波束成形处理;
噪声抑制子模块,用于对波束成形处理后的信号进行噪声抑制处理;
去混响子模块,用于对噪声抑制处理后的信号进行去混响处理;以及
非线性子模块,用于对去混响处理后的信号进行非线性处理。
在一种可能的实现方式中,所述唤醒识别模块43还用于:将所述第二语音信号发送至语音唤醒引擎中进行唤醒识别。
在一种可能的实现方式中,所述语音识别模块46还用于将降噪处理后的信号发送至语音识别引擎中进行语音识别。
在一种可能的实现方式中,该装置还包括:
预设模块51,用于在启动麦克风阵列中的部分麦克风采集得到第一语音信号之前,将麦克风阵列中的一个麦克风设置为工作状态,其他麦克风设置为非工作状态。
本发明实施例各装置中的模块的功能可以参见上述方法中的对应描述,在此不再赘述。
图8示出根据本发明一实施例的语音识别设备的结构框图。如图8所示,该语音识别设备包括:存储器910和处理器920,存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的语音识别方法。所述存储器910和处理器920的数量可以为一个或多个。
该语音识别设备还包括:
通信接口930,用于与外界设备进行通信,进行数据交互传输。
存储器910可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器910、处理器920和通信接口930独立实现,则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器910、处理器920及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。
本发明实施例提供了一种计算机可读存储介质,用于存储语音识别设备所用的计算机软件指令,其包括用于执行上述语音识别方法所涉及的程序。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (12)
1.一种语音识别方法,其特征在于,包括:
启动麦克风阵列中的部分麦克风采集得到第一语音信号;
对所述第一语音信号进行回声消除处理,得到第二语音信号;
对所述第二语音信号进行唤醒识别,以确定所述第二语音信号中是否包括唤醒词;
在确定所述第二语音信号中包括所述唤醒词的情况下,启动所述麦克风阵列采集得到第三语音信号;
对所述第三语音信号进行降噪处理;以及
对降噪处理后的信号进行语音识别。
2.根据权利要求1所述的方法,其特征在于,对所述第三语音信号进行降噪处理,包括:
将所述第三语音信号进行回声消除处理得到第四语音信号;
对所述第四语音信号进行声源定位处理,得到波束成形的角度;
根据所述波束成形的角度对所述第四语音信号进行波束成形处理;
对波束成形处理后的信号进行噪声抑制处理;
对噪声抑制处理后的信号进行去混响处理;以及
对去混响处理后的信号进行非线性处理。
3.根据权利要求1所述的方法,其特征在于,对所述第二语音信号进行唤醒识别,包括:
将所述第二语音信号发送至语音唤醒引擎中进行唤醒识别。
4.根据权利要求1所述的方法,其特征在于,对降噪处理后的信号进行语音识别,包括:
将降噪处理后的信号发送至语音识别引擎中进行语音识别。
5.根据权利要求1至4中任一项所述的方法,其特征在于,在启动麦克风阵列中的部分麦克风采集得到第一语音信号之前,所述方法还包括:
将麦克风阵列中的一个麦克风设置为工作状态,其他麦克风设置为非工作状态。
6.一种语音识别装置,其特征在于,包括:
第一启动模块,用于启动麦克风阵列中的部分麦克风采集得到第一语音信号;
回声消除模块,用于对所述第一语音信号进行回声消除处理,得到第二语音信号;
唤醒识别模块,用于对所述第二语音信号进行唤醒识别,以确定所述第二语音信号中是否包括唤醒词;
第二启动模块,用于在确定所述第二语音信号中包括所述唤醒词的情况下,启动所述麦克风阵列采集得到第三语音信号;
降噪处理模块,用于对所述第三语音信号进行降噪处理;以及
语音识别模块,用于对降噪处理后的信号进行语音识别。
7.根据权利要求6所述的装置,其特征在于,所述降噪处理模块包括:
回声消除子模块,用于将所述第三语音信号进行回声消除处理得到第四语音信号;
声源定位子模块,用于对所述第四语音信号进行声源定位处理,得到波束成形的角度;
波束成形子模块,用于根据所述波束成形的角度对所述第四语音信号进行波束成形处理;
噪声抑制子模块,用于对波束成形处理后的信号进行噪声抑制处理;
去混响子模块,用于对噪声抑制处理后的信号进行去混响处理;以及
非线性子模块,用于对去混响处理后的信号进行非线性处理。
8.根据权利要求6所述的装置,其特征在于,所述唤醒识别模块还用于:将所述第二语音信号发送至语音唤醒引擎中进行唤醒识别。
9.根据权利要求6所述的装置,其特征在于,所述语音识别模块还用于将降噪处理后的信号发送至语音识别引擎中进行语音识别。
10.根据权利要求6至9中任一项所述的装置,其特征在于,还包括:
预设模块,用于在启动麦克风阵列中的部分麦克风采集得到第一语音信号之前,将麦克风阵列中的一个麦克风设置为工作状态,其他麦克风设置为非工作状态。
11.一种语音识别设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至5中任一项所述的方法。
12.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至5中任一项所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810361397.5A CN108538305A (zh) | 2018-04-20 | 2018-04-20 | 语音识别方法、装置、设备及计算机可读存储介质 |
US16/214,539 US11074924B2 (en) | 2018-04-20 | 2018-12-10 | Speech recognition method, device, apparatus and computer-readable storage medium |
JP2018233967A JP6914236B2 (ja) | 2018-04-20 | 2018-12-14 | 音声認識方法、装置、デバイス、コンピュータ可読記憶媒体及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810361397.5A CN108538305A (zh) | 2018-04-20 | 2018-04-20 | 语音识别方法、装置、设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108538305A true CN108538305A (zh) | 2018-09-14 |
Family
ID=63478104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810361397.5A Pending CN108538305A (zh) | 2018-04-20 | 2018-04-20 | 语音识别方法、装置、设备及计算机可读存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11074924B2 (zh) |
JP (1) | JP6914236B2 (zh) |
CN (1) | CN108538305A (zh) |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109192203A (zh) * | 2018-09-29 | 2019-01-11 | 百度在线网络技术(北京)有限公司 | 多音区语音识别方法、装置及存储介质 |
CN109270493A (zh) * | 2018-10-16 | 2019-01-25 | 苏州思必驰信息科技有限公司 | 声源定位方法和装置 |
CN109360562A (zh) * | 2018-12-07 | 2019-02-19 | 深圳创维-Rgb电子有限公司 | 回声消除方法、装置、介质以及语音唤醒方法和设备 |
CN109473111A (zh) * | 2018-12-29 | 2019-03-15 | 苏州思必驰信息科技有限公司 | 一种语音赋能装置及方法 |
CN109545230A (zh) * | 2018-12-05 | 2019-03-29 | 百度在线网络技术(北京)有限公司 | 车辆内的音频信号处理方法和装置 |
CN109697984A (zh) * | 2018-12-28 | 2019-04-30 | 北京声智科技有限公司 | 一种降低智能设备自唤醒的方法 |
CN109767769A (zh) * | 2019-02-21 | 2019-05-17 | 珠海格力电器股份有限公司 | 一种语音识别方法、装置、存储介质及空调 |
CN109901113A (zh) * | 2019-03-13 | 2019-06-18 | 出门问问信息科技有限公司 | 一种基于复杂环境的语音信号定位方法、装置及系统 |
CN109949810A (zh) * | 2019-03-28 | 2019-06-28 | 华为技术有限公司 | 一种语音唤醒方法、装置、设备及介质 |
CN110265053A (zh) * | 2019-06-29 | 2019-09-20 | 联想(北京)有限公司 | 信号降噪控制方法、装置及电子设备 |
CN110310640A (zh) * | 2019-07-26 | 2019-10-08 | 上海头趣科技有限公司 | 一种基于语音系统的智能垃圾分类系统 |
CN110610710A (zh) * | 2019-09-05 | 2019-12-24 | 晶晨半导体(上海)股份有限公司 | 一种自学习语音识别系统的构建装置和构建方法 |
CN110992974A (zh) * | 2019-11-25 | 2020-04-10 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
CN111028838A (zh) * | 2019-12-17 | 2020-04-17 | 苏州思必驰信息科技有限公司 | 一种语音唤醒方法、设备及计算机可读存储介质 |
CN111081246A (zh) * | 2019-12-24 | 2020-04-28 | 北京达佳互联信息技术有限公司 | 直播机器人唤醒方法、装置、电子设备及存储介质 |
CN111128164A (zh) * | 2019-12-26 | 2020-05-08 | 上海风祈智能技术有限公司 | 一种语音采集和识别的控制系统及其实现方法 |
CN111145752A (zh) * | 2020-01-03 | 2020-05-12 | 百度在线网络技术(北京)有限公司 | 智能音频装置、方法、电子设备及计算机可读介质 |
CN111179931A (zh) * | 2020-01-03 | 2020-05-19 | 青岛海尔科技有限公司 | 用于语音交互的方法、装置及家用电器 |
CN111369999A (zh) * | 2020-03-12 | 2020-07-03 | 北京百度网讯科技有限公司 | 一种信号处理方法、装置以及电子设备 |
CN111383650A (zh) * | 2018-12-28 | 2020-07-07 | 深圳市优必选科技有限公司 | 一种机器人及其音频数据处理方法 |
CN111429911A (zh) * | 2020-03-11 | 2020-07-17 | 云知声智能科技股份有限公司 | 一种降低噪音场景下语音识别引擎功耗的方法及装置 |
CN111524513A (zh) * | 2020-04-16 | 2020-08-11 | 歌尔科技有限公司 | 一种可穿戴设备及其语音传输的控制方法、装置及介质 |
CN111883160A (zh) * | 2020-08-07 | 2020-11-03 | 上海茂声智能科技有限公司 | 一种定向麦克风阵列拾音降噪方法及装置 |
CN111916068A (zh) * | 2019-05-07 | 2020-11-10 | 北京地平线机器人技术研发有限公司 | 音频检测方法和装置 |
CN112002320A (zh) * | 2020-08-10 | 2020-11-27 | 北京小米移动软件有限公司 | 语音唤醒方法、装置、电子设备和存储介质 |
CN112017682A (zh) * | 2020-09-18 | 2020-12-01 | 中科极限元(杭州)智能科技股份有限公司 | 一种单通道语音同时降噪和去混响系统 |
CN112102848A (zh) * | 2019-06-17 | 2020-12-18 | 华为技术有限公司 | 一种用于识别音乐的方法、芯片和终端 |
CN112185388A (zh) * | 2020-09-14 | 2021-01-05 | 北京小米松果电子有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
CN112599143A (zh) * | 2020-11-30 | 2021-04-02 | 星络智能科技有限公司 | 降噪方法、语音采集设备及计算机可读存储介质 |
CN112908322A (zh) * | 2020-12-31 | 2021-06-04 | 思必驰科技股份有限公司 | 用于玩具车的语音控制方法和装置 |
CN113053368A (zh) * | 2021-03-09 | 2021-06-29 | 锐迪科微电子(上海)有限公司 | 语音增强方法、电子设备和存储介质 |
CN114333884A (zh) * | 2020-09-30 | 2022-04-12 | 北京君正集成电路股份有限公司 | 一种基于麦克风阵列结合唤醒词进行的语音降噪方法 |
CN115019803A (zh) * | 2021-09-30 | 2022-09-06 | 荣耀终端有限公司 | 音频处理方法、电子设备以及存储介质 |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9820039B2 (en) | 2016-02-22 | 2017-11-14 | Sonos, Inc. | Default playback devices |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) * | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
CN109599124B (zh) * | 2018-11-23 | 2023-01-10 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置及存储介质 |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
JP7465700B2 (ja) | 2020-03-27 | 2024-04-11 | 株式会社デンソーテン | 車載装置および車載装置における音声処理方法 |
CN111462743B (zh) * | 2020-03-30 | 2023-09-12 | 北京声智科技有限公司 | 一种语音信号处理方法及装置 |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
CN113053406B (zh) * | 2021-05-08 | 2024-06-18 | 北京小米移动软件有限公司 | 声音信号识别方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160293168A1 (en) * | 2015-03-30 | 2016-10-06 | Opah Intelligence Ltd. | Method of setting personal wake-up word by text for voice control |
CN107274901A (zh) * | 2017-08-10 | 2017-10-20 | 湖州金软电子科技有限公司 | 一种远场语音交互装置 |
CN107316649A (zh) * | 2017-05-15 | 2017-11-03 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音识别方法及装置 |
CN107369445A (zh) * | 2016-05-11 | 2017-11-21 | 上海禹昌信息科技有限公司 | 同时支持语音唤醒以及语音控制智能终端的方法 |
CN107577449A (zh) * | 2017-09-04 | 2018-01-12 | 百度在线网络技术(北京)有限公司 | 唤醒语音的拾取方法、装置、设备及存储介质 |
CN107591151A (zh) * | 2017-08-22 | 2018-01-16 | 百度在线网络技术(北京)有限公司 | 远场语音唤醒方法、装置和终端设备 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3082700B2 (ja) | 1997-03-28 | 2000-08-28 | 日本電気株式会社 | 送話音声信号処理装置 |
JP2003330490A (ja) | 2002-05-15 | 2003-11-19 | Fujitsu Ltd | 音声対話装置 |
US8401178B2 (en) * | 2008-09-30 | 2013-03-19 | Apple Inc. | Multiple microphone switching and configuration |
JP4809454B2 (ja) | 2009-05-17 | 2011-11-09 | 株式会社半導体理工学研究センター | 発話推定による回路起動方法及び回路起動装置 |
JP5634959B2 (ja) | 2011-08-08 | 2014-12-03 | 日本電信電話株式会社 | 雑音/残響除去装置とその方法とプログラム |
US9584642B2 (en) * | 2013-03-12 | 2017-02-28 | Google Technology Holdings LLC | Apparatus with adaptive acoustic echo control for speakerphone mode |
US9595997B1 (en) * | 2013-01-02 | 2017-03-14 | Amazon Technologies, Inc. | Adaption-based reduction of echo and noise |
US9361885B2 (en) * | 2013-03-12 | 2016-06-07 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
EP3084760A4 (en) * | 2013-12-20 | 2017-08-16 | Intel Corporation | Transition from low power always listening mode to high power speech recognition mode |
US9501270B2 (en) * | 2014-03-31 | 2016-11-22 | Google Technology Holdings LLC | System and method for providing customized resources on a handheld electronic device |
US20160306758A1 (en) * | 2014-11-06 | 2016-10-20 | Mediatek Inc. | Processing system having keyword recognition sub-system with or without dma data transaction |
US9633661B1 (en) * | 2015-02-02 | 2017-04-25 | Amazon Technologies, Inc. | Speech-responsive portable speaker |
JP2016167645A (ja) | 2015-03-09 | 2016-09-15 | アイシン精機株式会社 | 音声処理装置及び制御装置 |
US10192546B1 (en) * | 2015-03-30 | 2019-01-29 | Amazon Technologies, Inc. | Pre-wakeword speech processing |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
JP6888553B2 (ja) | 2015-12-11 | 2021-06-16 | ソニーグループ株式会社 | 情報処理装置、情報処理方法およびプログラム |
CN206312567U (zh) | 2016-12-15 | 2017-07-07 | 北京塞宾科技有限公司 | 一种便携式智能家居语音控制系统 |
US11314898B2 (en) * | 2017-02-28 | 2022-04-26 | Samsung Electronics Co., Ltd. | Operating method of electronic device for function execution based on voice command in locked state and electronic device supporting the same |
US10789949B2 (en) * | 2017-06-20 | 2020-09-29 | Bose Corporation | Audio device with wakeup word detection |
US10310082B2 (en) * | 2017-07-27 | 2019-06-04 | Quantenna Communications, Inc. | Acoustic spatial diagnostics for smart home management |
US10304475B1 (en) * | 2017-08-14 | 2019-05-28 | Amazon Technologies, Inc. | Trigger word based beam selection |
US10438588B2 (en) * | 2017-09-12 | 2019-10-08 | Intel Corporation | Simultaneous multi-user audio signal recognition and processing for far field audio |
US10621981B2 (en) * | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10354635B2 (en) * | 2017-11-01 | 2019-07-16 | Bose Corporation | Adaptive nullforming for selective audio pick-up |
-
2018
- 2018-04-20 CN CN201810361397.5A patent/CN108538305A/zh active Pending
- 2018-12-10 US US16/214,539 patent/US11074924B2/en active Active
- 2018-12-14 JP JP2018233967A patent/JP6914236B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160293168A1 (en) * | 2015-03-30 | 2016-10-06 | Opah Intelligence Ltd. | Method of setting personal wake-up word by text for voice control |
CN107369445A (zh) * | 2016-05-11 | 2017-11-21 | 上海禹昌信息科技有限公司 | 同时支持语音唤醒以及语音控制智能终端的方法 |
CN107316649A (zh) * | 2017-05-15 | 2017-11-03 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音识别方法及装置 |
CN107274901A (zh) * | 2017-08-10 | 2017-10-20 | 湖州金软电子科技有限公司 | 一种远场语音交互装置 |
CN107591151A (zh) * | 2017-08-22 | 2018-01-16 | 百度在线网络技术(北京)有限公司 | 远场语音唤醒方法、装置和终端设备 |
CN107577449A (zh) * | 2017-09-04 | 2018-01-12 | 百度在线网络技术(北京)有限公司 | 唤醒语音的拾取方法、装置、设备及存储介质 |
Cited By (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109192203A (zh) * | 2018-09-29 | 2019-01-11 | 百度在线网络技术(北京)有限公司 | 多音区语音识别方法、装置及存储介质 |
CN109270493A (zh) * | 2018-10-16 | 2019-01-25 | 苏州思必驰信息科技有限公司 | 声源定位方法和装置 |
CN109545230B (zh) * | 2018-12-05 | 2021-10-19 | 百度在线网络技术(北京)有限公司 | 车辆内的音频信号处理方法和装置 |
US10785566B2 (en) | 2018-12-05 | 2020-09-22 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and device for processing an audio signal in a vehicle |
CN109545230A (zh) * | 2018-12-05 | 2019-03-29 | 百度在线网络技术(北京)有限公司 | 车辆内的音频信号处理方法和装置 |
US11412326B2 (en) | 2018-12-05 | 2022-08-09 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and device for processing an audio signal in a vehicle |
CN109360562A (zh) * | 2018-12-07 | 2019-02-19 | 深圳创维-Rgb电子有限公司 | 回声消除方法、装置、介质以及语音唤醒方法和设备 |
CN111383650A (zh) * | 2018-12-28 | 2020-07-07 | 深圳市优必选科技有限公司 | 一种机器人及其音频数据处理方法 |
CN109697984B (zh) * | 2018-12-28 | 2020-09-04 | 北京声智科技有限公司 | 一种降低智能设备自唤醒的方法 |
CN109697984A (zh) * | 2018-12-28 | 2019-04-30 | 北京声智科技有限公司 | 一种降低智能设备自唤醒的方法 |
CN111383650B (zh) * | 2018-12-28 | 2024-05-03 | 深圳市优必选科技有限公司 | 一种机器人及其音频数据处理方法 |
CN109473111B (zh) * | 2018-12-29 | 2024-03-08 | 思必驰科技股份有限公司 | 一种语音赋能装置及方法 |
CN109473111A (zh) * | 2018-12-29 | 2019-03-15 | 苏州思必驰信息科技有限公司 | 一种语音赋能装置及方法 |
CN109767769B (zh) * | 2019-02-21 | 2020-12-22 | 珠海格力电器股份有限公司 | 一种语音识别方法、装置、存储介质及空调 |
CN109767769A (zh) * | 2019-02-21 | 2019-05-17 | 珠海格力电器股份有限公司 | 一种语音识别方法、装置、存储介质及空调 |
US11830479B2 (en) | 2019-02-21 | 2023-11-28 | Gree Electric Appliances, Inc. Of Zhuhai | Voice recognition method and apparatus, and air conditioner |
CN109901113A (zh) * | 2019-03-13 | 2019-06-18 | 出门问问信息科技有限公司 | 一种基于复杂环境的语音信号定位方法、装置及系统 |
CN109949810B (zh) * | 2019-03-28 | 2021-09-07 | 荣耀终端有限公司 | 一种语音唤醒方法、装置、设备及介质 |
CN109949810A (zh) * | 2019-03-28 | 2019-06-28 | 华为技术有限公司 | 一种语音唤醒方法、装置、设备及介质 |
CN111916068A (zh) * | 2019-05-07 | 2020-11-10 | 北京地平线机器人技术研发有限公司 | 音频检测方法和装置 |
CN112102848B (zh) * | 2019-06-17 | 2024-04-26 | 华为技术有限公司 | 一种用于识别音乐的方法、芯片和终端 |
CN112102848A (zh) * | 2019-06-17 | 2020-12-18 | 华为技术有限公司 | 一种用于识别音乐的方法、芯片和终端 |
CN110265053A (zh) * | 2019-06-29 | 2019-09-20 | 联想(北京)有限公司 | 信号降噪控制方法、装置及电子设备 |
CN110265053B (zh) * | 2019-06-29 | 2022-04-19 | 联想(北京)有限公司 | 信号降噪控制方法、装置及电子设备 |
CN110310640A (zh) * | 2019-07-26 | 2019-10-08 | 上海头趣科技有限公司 | 一种基于语音系统的智能垃圾分类系统 |
CN110610710B (zh) * | 2019-09-05 | 2022-04-01 | 晶晨半导体(上海)股份有限公司 | 一种自学习语音识别系统的构建装置和构建方法 |
CN110610710A (zh) * | 2019-09-05 | 2019-12-24 | 晶晨半导体(上海)股份有限公司 | 一种自学习语音识别系统的构建装置和构建方法 |
WO2021042969A1 (zh) * | 2019-09-05 | 2021-03-11 | 晶晨半导体(上海)股份有限公司 | 一种自学习语音识别系统的构建装置和构建方法 |
CN110992974A (zh) * | 2019-11-25 | 2020-04-10 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
CN111028838A (zh) * | 2019-12-17 | 2020-04-17 | 苏州思必驰信息科技有限公司 | 一种语音唤醒方法、设备及计算机可读存储介质 |
CN111081246B (zh) * | 2019-12-24 | 2022-06-24 | 北京达佳互联信息技术有限公司 | 直播机器人唤醒方法、装置、电子设备及存储介质 |
CN111081246A (zh) * | 2019-12-24 | 2020-04-28 | 北京达佳互联信息技术有限公司 | 直播机器人唤醒方法、装置、电子设备及存储介质 |
CN111128164B (zh) * | 2019-12-26 | 2024-03-15 | 上海风祈智能技术有限公司 | 一种语音采集和识别的控制系统及其实现方法 |
CN111128164A (zh) * | 2019-12-26 | 2020-05-08 | 上海风祈智能技术有限公司 | 一种语音采集和识别的控制系统及其实现方法 |
CN111179931A (zh) * | 2020-01-03 | 2020-05-19 | 青岛海尔科技有限公司 | 用于语音交互的方法、装置及家用电器 |
CN111145752A (zh) * | 2020-01-03 | 2020-05-12 | 百度在线网络技术(北京)有限公司 | 智能音频装置、方法、电子设备及计算机可读介质 |
CN111145752B (zh) * | 2020-01-03 | 2022-08-02 | 百度在线网络技术(北京)有限公司 | 智能音频装置、方法、电子设备及计算机可读介质 |
CN111179931B (zh) * | 2020-01-03 | 2023-07-21 | 青岛海尔科技有限公司 | 用于语音交互的方法、装置及家用电器 |
CN111429911A (zh) * | 2020-03-11 | 2020-07-17 | 云知声智能科技股份有限公司 | 一种降低噪音场景下语音识别引擎功耗的方法及装置 |
CN111369999A (zh) * | 2020-03-12 | 2020-07-03 | 北京百度网讯科技有限公司 | 一种信号处理方法、装置以及电子设备 |
CN111369999B (zh) * | 2020-03-12 | 2024-05-14 | 北京百度网讯科技有限公司 | 一种信号处理方法、装置以及电子设备 |
CN111524513A (zh) * | 2020-04-16 | 2020-08-11 | 歌尔科技有限公司 | 一种可穿戴设备及其语音传输的控制方法、装置及介质 |
CN111883160A (zh) * | 2020-08-07 | 2020-11-03 | 上海茂声智能科技有限公司 | 一种定向麦克风阵列拾音降噪方法及装置 |
CN111883160B (zh) * | 2020-08-07 | 2024-04-16 | 上海茂声智能科技有限公司 | 一种定向麦克风阵列拾音降噪方法及装置 |
CN112002320A (zh) * | 2020-08-10 | 2020-11-27 | 北京小米移动软件有限公司 | 语音唤醒方法、装置、电子设备和存储介质 |
CN112185388B (zh) * | 2020-09-14 | 2024-04-09 | 北京小米松果电子有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
CN112185388A (zh) * | 2020-09-14 | 2021-01-05 | 北京小米松果电子有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
CN112017682A (zh) * | 2020-09-18 | 2020-12-01 | 中科极限元(杭州)智能科技股份有限公司 | 一种单通道语音同时降噪和去混响系统 |
CN114333884A (zh) * | 2020-09-30 | 2022-04-12 | 北京君正集成电路股份有限公司 | 一种基于麦克风阵列结合唤醒词进行的语音降噪方法 |
CN114333884B (zh) * | 2020-09-30 | 2024-05-03 | 北京君正集成电路股份有限公司 | 一种基于麦克风阵列结合唤醒词进行的语音降噪方法 |
CN112599143A (zh) * | 2020-11-30 | 2021-04-02 | 星络智能科技有限公司 | 降噪方法、语音采集设备及计算机可读存储介质 |
CN112908322A (zh) * | 2020-12-31 | 2021-06-04 | 思必驰科技股份有限公司 | 用于玩具车的语音控制方法和装置 |
CN113053368A (zh) * | 2021-03-09 | 2021-06-29 | 锐迪科微电子(上海)有限公司 | 语音增强方法、电子设备和存储介质 |
CN115019803B (zh) * | 2021-09-30 | 2023-01-10 | 荣耀终端有限公司 | 音频处理方法、电子设备以及存储介质 |
CN115019803A (zh) * | 2021-09-30 | 2022-09-06 | 荣耀终端有限公司 | 音频处理方法、电子设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US11074924B2 (en) | 2021-07-27 |
JP6914236B2 (ja) | 2021-08-04 |
US20190325888A1 (en) | 2019-10-24 |
JP2019191554A (ja) | 2019-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108538305A (zh) | 语音识别方法、装置、设备及计算机可读存储介质 | |
CN107591151A (zh) | 远场语音唤醒方法、装置和终端设备 | |
CN108154140A (zh) | 基于唇语的语音唤醒方法、装置、设备及计算机可读介质 | |
US11587560B2 (en) | Voice interaction method, device, apparatus and server | |
US11295760B2 (en) | Method, apparatus, system and storage medium for implementing a far-field speech function | |
JP2019128939A (ja) | ジェスチャーによる音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体 | |
CN107610698A (zh) | 一种实现语音控制的方法、机器人及计算机可读存储介质 | |
JP7158217B2 (ja) | 音声認識方法、装置及びサーバ | |
CN110968353A (zh) | 中央处理器的唤醒方法、装置、语音处理器以及用户设备 | |
CN108986833A (zh) | 基于麦克风阵列的拾音方法、系统、电子设备及存储介质 | |
CN104038864A (zh) | 带有语音识别的麦克风电路总成和系统 | |
KR102618902B1 (ko) | 전자 장치에 대한 잡음 제거 | |
US20200265843A1 (en) | Speech broadcast method, device and terminal | |
CN109036393A (zh) | 家电设备的唤醒词训练方法、装置及家电设备 | |
CN108335697A (zh) | 会议记录方法、装置、设备及计算机可读介质 | |
CN108665900A (zh) | 云端唤醒方法及系统、终端以及计算机可读存储介质 | |
CN109712623A (zh) | 语音控制方法、装置及计算机可读存储介质 | |
CN112017650A (zh) | 电子设备的语音控制方法、装置、计算机设备和存储介质 | |
DE112019001316T5 (de) | Doppelpipeline-architektur zur aktivierungsphrasendetektion mit sprechbeginndetektion | |
US20190302866A1 (en) | Method, device for processing data of bluetooth speaker, and bluetooth speaker | |
CN113053368A (zh) | 语音增强方法、电子设备和存储介质 | |
CN207764800U (zh) | 翻译设备及翻译系统 | |
CN110956968A (zh) | 语音唤醒以及触发语音唤醒功能的方法及装置、终端设备 | |
CN108962235A (zh) | 语音交互方法及装置 | |
US11366688B2 (en) | Do-not-disturb processing method and apparatus, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180914 |