CN109192203A - 多音区语音识别方法、装置及存储介质 - Google Patents
多音区语音识别方法、装置及存储介质 Download PDFInfo
- Publication number
- CN109192203A CN109192203A CN201811147010.2A CN201811147010A CN109192203A CN 109192203 A CN109192203 A CN 109192203A CN 201811147010 A CN201811147010 A CN 201811147010A CN 109192203 A CN109192203 A CN 109192203A
- Authority
- CN
- China
- Prior art keywords
- voice
- sound area
- microphone
- area
- mould group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000005764 inhibitory process Effects 0.000 claims abstract description 46
- 230000002618 waking effect Effects 0.000 claims description 21
- 230000004044 response Effects 0.000 claims description 20
- 230000005540 biological transmission Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 14
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 4
- 241000209140 Triticum Species 0.000 claims description 3
- 235000021307 Triticum Nutrition 0.000 claims description 3
- 230000002401 inhibitory effect Effects 0.000 claims description 2
- 238000002955 isolation Methods 0.000 abstract description 10
- 230000000694 effects Effects 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 4
- 239000000306 component Substances 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明实施例提出一种多音区语音识别方法、装置及计算机可读存储介质。其中多音区语音识别方法包括:使用麦克风模组收集语音采集环境中的语音,其中,预先为所述麦克风模组中的每个麦克风设置目标音区,所述目标音区是预先设定的所述语音采集环境中的多个独立音区中的一个;判断所述语音是否来自目标音区;对来自除所述目标音区之外的其他音区的语音进行抑制;对抑制后的语音进行识别。本发明实施例使用麦克风模组隔离出不同音区,通过隔离出多个音区实现了语音采集环境内全员使用语音,并且每个音区隔离度能达到15‑20dB,实现了理想的隔离效果。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种多音区语音识别方法、装置及计算机可读存储介质。
背景技术
传统的语音识别技术方案都是围绕一个目标用户进行服务的。例如,传统的车载语音识别技术方案是围绕司机一个人服务的,前端麦克风的角度是对准主驾驶位来设计的。传统的核心垂类导航、音乐、电话等也都是围绕司机来展开设计的。其中,垂类就是垂直领域,特指某个领域,开发者可以根据用户使用场景设定特定领域使得识别结果更准确。比如垂直领域设定为“音乐”,则在语音识别时会优先识别为音乐相关的歌曲名、歌手名或者歌词。
传统的语音识别技术方案的缺陷在于只针对一个目标用户服务,无法实现在语音采集环境中全员使用语音服务。仍以车载语音识别为例,传统的语音识别技术方案只针对司机一个人服务,无法实现车内全员使用语音服务,给车内乘客带来不佳的用户体验。
发明内容
本发明实施例提供一种多音区语音识别方法、装置及计算机可读存储介质,以至少解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种多音区语音识别方法,包括:使用麦克风模组收集语音采集环境中的语音,其中,预先为所述麦克风模组中的每个麦克风设置目标音区,所述目标音区是预先设定的所述语音采集环境中的多个独立音区中的一个;判断所述语音是否来自目标音区;对来自除所述目标音区之外的其他音区的语音进行抑制;对抑制后的语音进行识别。
结合第一方面,本发明实施例在第一方面的第一种实现方式中,对抑制后的语音进行识别,包括:接收来自所述麦克风模组中的多个麦克风的抑制后的语音;从所述多个麦克风的目标音区中选择一个独立音区进行语音识别。
结合第一方面的第一种实现方式,本发明实施例在第一方面的第二种实现方式中,从所述多个麦克风的目标音区中选择一个独立音区进行语音识别,包括:识别所述多个麦克风的目标音区中是否有某个独立音区的语音中出现唤醒词;若识别出某个独立音区的语音中出现唤醒词,则选择出现唤醒词的独立音区作为识别音区,对所述识别音区的语音进行语音识别。
结合第一方面的第二种实现方式,本发明实施例在第一方面的第三种实现方式中,对所述识别音区的语音进行语音识别之后,还包括:判断所述识别音区的识别过程是否结束;若所述识别音区的识别过程已经结束,则重新从所述多个麦克风的目标音区中选择一个独立音区进行语音识别。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式或第一方面的第三种实现方式,本发明实施例在第一方面的第四种实现方式中,所述语音采集环境包括车载环境;所述麦克风模组包括布置于前排顶灯位置的第一麦克风模组和布置于后排扶手箱出风口位置的第二麦克风模组,或者所述麦克风模组包括布置于前排顶灯位置的第一麦克风模组和布置于后排天窗边缘位置的第三麦克风模组。
结合第一方面的第四种实现方式,本发明实施例在第一方面的第五种实现方式中,对抑制后的语音进行识别之前,还包括:接收来自车机系统的所述抑制后的语音,其中,所述抑制后的语音是由所述麦克风模组通过音频总线传输给所述车机系统的。
结合第一方面的第五种实现方式,本发明实施例在第一方面的第六种实现方式中,所述方法还包括:设置所述车机系统的时分传输机制的队列排布方式,以适于传输所述抑制后的语音。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式或第一方面的第三种实现方式,本发明实施例在第一方面的第七种实现方式中,对抑制后的语音进行识别之后,还包括:根据语音识别的结果产生对所述抑制后的语音的响应信息;展示所述语音识别的结果及所述响应信息。
第二方面,本发明实施例提供了一种多音区语音识别装置,包括:语音采集单元,用于使用麦克风模组收集语音采集环境中的语音,其中,预先为所述麦克风模组中的每个麦克风设置目标音区,所述目标音区是预先设定的所述语音采集环境中的多个独立音区中的一个;判断单元,用于判断所述语音是否来自目标音区;抑制单元,用于对来自除所述目标音区之外的其他音区的语音进行抑制;语音识别单元,用于对抑制后的语音进行识别。
结合第二方面,本发明实施例在第二方面的第一种实现方式中,所述语音识别单元包括:接收子单元,用于接收来自所述麦克风模组中的多个麦克风的抑制后的语音;识别子单元,用于从所述多个麦克风的目标音区中选择一个独立音区进行语音识别。
结合第二方面的第一种实现方式,本发明实施例在第二方面的第二种实现方式中,所述识别子单元还用于:识别所述多个麦克风的目标音区中是否有某个独立音区的语音中出现唤醒词;若识别出某个独立音区的语音中出现唤醒词,则选择出现唤醒词的独立音区作为识别音区,对所述识别音区的语音进行语音识别。
结合第二方面的第二种实现方式,本发明实施例在第二方面的第三种实现方式中,所述识别子单元还用于:对所述识别音区的语音进行语音识别之后,判断所述识别音区的识别过程是否结束;若所述识别音区的识别过程已经结束,则重新从所述多个麦克风的目标音区中选择一个独立音区进行语音识别。
结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式或第二方面的第三种实现方式,本发明实施例在第二方面的第四种实现方式中,所述语音采集环境包括车载环境;所述麦克风模组包括布置于前排顶灯位置的第一麦克风模组和布置于后排扶手箱出风口位置的第二麦克风模组,或者所述麦克风模组包括布置于前排顶灯位置的第一麦克风模组和布置于后排天窗边缘位置的第三麦克风模组。
结合第二方面的第四种实现方式,本发明实施例在第二方面的第五种实现方式中,所述语音识别单元包括接收子单元,用于:接收来自车机系统的所述抑制后的语音,其中,所述抑制后的语音是由所述麦克风模组通过音频总线传输给所述车机系统的。
结合第二方面的第五种实现方式,本发明实施例在第二方面的第六种实现方式中,还包括设置单元,用于:设置所述车机系统的时分传输机制的队列排布方式,以适于传输所述抑制后的语音。
结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式或第二方面的第三种实现方式,本发明实施例在第二方面的第七种实现方式中,所述装置还包括:响应单元,用于根据语音识别的结果产生对所述抑制后的语音的响应信息;展示单元,用于展示所述语音识别的结果及所述响应信息。
在一个可能的设计中,多音区语音识别装置的结构中包括处理器和存储器,所述存储器用于存储支持多音区语音识别装置执行上述第一方面中多音区语音识别方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述多音区语音识别装置还可以包括通信接口,用于多音区语音识别装置与其他设备或通信网络通信。
第三方面,本发明实施例提供了一种多音区语音识别装置,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述第一方面中任一所述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述第一方面中任一所述的方法。
上述技术方案具有如下优点或有益效果:使用麦克风模组隔离出不同音区,通过隔离出多个音区实现了语音采集环境内全员使用语音,并且每个音区隔离度能达到15-20dB,实现了理想的隔离效果。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1为本发明一实施例提供的多音区语音识别方法的流程图。
图2为本发明另一实施例提供的多音区语音识别方法的车载环境示意图。
图3为本发明另一实施例提供的多音区语音识别方法的四音区语音识别的信号流通示意图。
图4为本发明另一实施例提供的多音区语音识别方法的语音识别流程图。
图5为本发明另一实施例提供的多音区语音识别方法的时分传输机制的队列排布方式示意图。
图6为本发明一实施例提供的多音区语音识别装置的结构框图。
图7为本发明又一实施例提供的多音区语音识别装置的结构框图。
图8为本发明又一实施例提供的多音区语音识别装置的结构框图。
图9为本发明又一实施例提供的多音区语音识别装置的结构框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
图1为本发明一实施例提供的多音区语音识别方法的流程图。如图1所示,本发明实施例的多音区语音识别方法包括:步骤S110,使用麦克风模组收集语音采集环境中的语音,其中,预先为所述麦克风模组中的每个麦克风设置目标音区,所述目标音区是预先设定的所述语音采集环境中的多个独立音区中的一个;步骤S120,判断所述语音是否来自目标音区;步骤S130,对来自除所述目标音区之外的其他音区的语音进行抑制;步骤S140,对抑制后的语音进行识别。
在语音采集环境中,例如在一个房间内或者在车载环境中,通常情况下会有多个用户都需要语音服务。在这种应用场景中,为了使环境中全体成员都能使用语音服务,可将语音采集环境划分为多个独立音区。具体地,使用麦克风模组收集语音采集环境中的语音信号,并将来自所述多个独立音区的语音信号相互隔离。其中,将来自所述多个独立音区的语音信号相互隔离可包括上述步骤S120和步骤S130。然后执行步骤S140,对抑制后的语音进行识别,也就是识别隔离后的语音信号。
麦克风模组主要由多个数字麦克风、一颗DSP(Digital Signal Processing,数字信号处理)芯片以及一颗A2B(Automotive Audio Bus,汽车音频总线)芯片组成。图2为本发明另一实施例提供的多音区语音识别方法的车载环境示意图。图2中所示的标号如下:1表示多路并行语音引擎;2表示车机系统;3表示麦克风模组;4表示A2B音频总线。图2中所示的麦克风模组主要由两个数字麦克风、一颗DSP芯片以及一颗A2B芯片组成。在图2所示的车载环境中,将全车的空间划分为前后左右四个音区。通过使用麦克风模组,四个音区可以实现独立拾音,且能够自动屏蔽其他音区的声源。例如,在某个音区内有人正在打电话,这时对于其他音区可以正常进行语音识别,不会受到干扰。
具体地,麦克风模组可以隔离出独立音区,依赖的是DSP芯片中运行的波束形成算法。以包括两个麦克风的麦克风模组为例,波束形成算法根据语音到达两个麦克风的相位差,来进行声源定位,也就是判断语音是否来自目标音区。进而在空间角度上对感兴趣区域,也就是目标音区进行加权处理,对不感兴趣方向,也就是除所述目标音区之外的其他音区,则进行抑制,从而做到隔离出不同音区。应用麦克风模组,使得每个音区隔离度能达到15-20dB。因此,在图2的示例中,DSP芯片可以输出两路隔离度高的音区数据。
在一种可能的实现方式中,所述语音采集环境包括车载环境;所述麦克风模组包括布置于前排顶灯位置的第一麦克风模组和布置于后排扶手箱出风口位置的第二麦克风模组,或者所述麦克风模组包括布置于前排顶灯位置的第一麦克风模组和布置于后排天窗边缘位置的第三麦克风模组。在语音采集环境中可设置一个或多个麦克风模组。麦克风模组的主要作用是将车内空间细分为多个音区,可对每个音区独立拾音。麦克风模组使得每个音区之间都具有足够的隔离度,可以隔离来自其他音区的声音。
参见图2,仍以车载环境为例,分别在前排位置和后排位置布置两个麦克风模组。其中,布置于前排位置的麦克风模组中的两个麦克风的目标音区分别是音区1和音区2;布置于后排位置的麦克风模组中的两个麦克风的目标音区分别是音区3和音区4。在一种实施方式中,两个麦克风模组所布置的位置分别位于前排顶灯位置、后排扶手箱出风口位置。在另一种实施方式中,两个麦克风模组所布置的位置分别位于前排顶灯位置、后排天窗边缘位置。为避免麦克风模组对后排扶手箱出风口有遮挡,可以将其布置于后排天窗边缘位置。考虑到波束形成算法的实现原理,合理布置麦克风模组的位置,可以使用较少的设备,尽量实现较多的功能。在以上两种实施方式中,仅使用两个麦克风模组,也就是仅使用二颗DSP芯片,达到了四路识音的效果,成本低,性价比高。
在一种可能的实现方式中,对抑制后的语音进行识别之前,还包括:接收来自车机系统的所述抑制后的语音,其中,所述抑制后的语音是由所述麦克风模组通过音频总线传输给所述车机系统的。
例如,可采用A2B音频总线传输音区数据。A2B音频总线是把一堆音频线、扬声器线、麦克风线等变成一条双绞线。在车载环境中的应用场景中,可根据实际需求采用A2B音频总线在车内布置扬声器和麦克风等音频设备。而且,
A2B音频总线能达到50Mbps带宽,同时支持正向和反向数据传输,例如同时支持32个上游和下游音频通道。因此,使用A2B音频总线不仅可以减少车内线重70%,还能让车内音频设备布置自由度更大。
图3为本发明另一实施例提供的多音区语音识别方法的四音区语音识别的信号流通示意图。参见图2和图3,本发明另一实施例的车载环境的多音区语音识别装置主要由四部分组成:一个以上麦克风模组、A2B音频总线、车机系统、多路并行语音引擎。麦克风模组收集到多路语音信号,将多路语音信号压缩成一路信号后,通过A2B音频总线将压缩后语音信号传输给车机系统。解码模块从车机系统中取到压缩后语音信号后进行解码,分离出四路语音信号分别给多路并行语音引擎。
参见图3,多路并行语音引擎包括引擎A、引擎B、引擎C和引擎D,多个引擎同时进行多路并行作业,例如识别哪个音区的语音中出现唤醒词。多路并行语音引擎识别得出的结果需要经过仲裁模块进行仲裁,选择出其中一路音区将其唤醒,使其获得语音识别的权限。可采取N选一的策略,例如在四路音区中只会选择一路音区进行语音识别。其中的一路音区一旦唤醒后,抑制其他三路音区的声源。其他音区要获得语音识别权限,必须等待这次识别结束后,通过唤醒抢占语音识别的权限。
在一种可能的实现方式中,对抑制后的语音进行识别,包括:接收来自所述麦克风模组中的多个麦克风的抑制后的语音;从所述多个麦克风的目标音区中选择一个独立音区进行语音识别。由于网络带宽等系统资源的限制,仅选择一个独立音区进行语音识别,可以节省系统资源,提高执行效率。
图4为本发明另一实施例提供的多音区语音识别方法的语音识别流程图。如图4所示,在一种可能的实现方式中,从所述多个麦克风的目标音区中选择一个独立音区进行语音识别,包括:步骤S210,识别所述多个麦克风的目标音区中是否有某个独立音区的语音中出现唤醒词;步骤S220,若识别出某个独立音区的语音中出现唤醒词,则选择出现唤醒词的独立音区作为识别音区,对所述识别音区的语音进行语音识别。
再参见图4,在一种可能的实现方式中,对所述识别音区的语音进行语音识别之后,还包括:步骤S230,判断所述识别音区的识别过程是否结束;步骤S240,若所述识别音区的识别过程已经结束,则重新从所述多个麦克风的目标音区中选择一个独立音区进行语音识别。
仍以车载环境为例,全车分为N个独立音区,通过仲裁模块采取N选一的策略,N路音区只会选择一路音区进行语音识别,抑制其他N-1路音区的声源。具体实现方法如下:
1)识别N路音区是否有某个音区的语音信息中有唤醒词出现,例如,有人说:“我在呢”、“你好”、“Hello”等标志着某一轮对话开始的唤醒词。
2)若识别出某个音区的语音信息中出现了唤醒词,则通过仲裁模块选择说唤醒词的这一路音区进行语音识别,使这一路的音区获得语音识别权限。
3)其他音区要获得语音识别权限,必须等待这次识别结束后,通过唤醒抢占语音识别的权限。
例如一轮对话或多轮对话完成后的一段时间内没有语音信息可以识别为该音区本次识别结束了。本次识别结束后返回步骤1)继续识别N路音区是否有某个音区的语音信息中有唤醒词出现,如某个音区有唤醒词出现,则再通过唤醒抢占语音识别的权限。
在一种可能的实现方式中,所述方法还包括:设置所述车机系统的时分传输机制的队列排布方式,以适于传输所述抑制后的语音。
图5为本发明另一实施例提供的多音区语音识别方法的时分传输机制的队列排布方式示意图。如图5所示,仍以全车分为4个独立音区为例,车机系统从A2B芯片拿到四路语料后,需要传递给多路并行语音引擎。而现有技术的车机端一般都只支持左右两路声音通道。本发明实施例中支持四路语料同时传输,需要改造车机系统的时分传输机制。具体地,参见图5,将“LRLRLR”的队列排布方式,改为“12341234”的队列排布方式。队列中每个元素的长度根据相关系统设置而确定。多路并行语音引擎接收到语音信号后,再按照“12341234”的队列方式解码,分离出四路通道数据。
再参见图2,语音信号通过A2B音频总线传输给车机系统,车机系统再传递给多路并行语音引擎。在车机系统中,数据传输采用了TDM(Time-DivisionMultiplexing,时分复用)模式。时分复用是指一种通过不同信道或时隙中的交叉位脉冲,同时在同一个通信媒体上传输多个数字化数据、语音和视频信号等的技术。图2中的“TDM4”表示同时传输四路通道数据。
在一种可能的实现方式中,对抑制后的语音进行识别之后,还包括:根据语音识别的结果产生对所述抑制后的语音的响应信息;展示所述语音识别的结果及所述响应信息。例如在图3中,仲裁模块选择一路音区进行语音识别,可将识别出的相关信息传递给HMI(Human Machine Interface,人机接口)层进行展示。
参见图2和图3,麦克风模组接收到语音信号后,首先由DSP芯片做语音预处理,语音预处理可包括噪音消除、回声消除、时延估计、自动幅度控制等。
DSP输出高隔离度的各音区的语音信号后,通过A2B音频总线传输给车机系统。车机系统再传递给语音引擎。语音引擎将语音信号发送给云服务器。在云端进行在线语音识别,并生成响应内容。例如乘客询问天气情况,则生成有关天气预报的响应信息。
语音引擎接收云端返回的语音识别结果及响应信息,通过音效处理模块进行音效处理后,经过功放器将语音识别结果及响应信息进行HMI展示。HMI展示包括播放声音和/或显示字幕。例如,图2中所示的“To Speakers(展示给说话者)”,就是将识别结果和/或响应信息展示给包括说话者在内的车内成员。
其中,音效处理可包括将调节某些频段的音频信号的增益值以达到理想的声音效果。音效处理模块还用于提取音频信号中的回声信息,根据回声信息产生回声消除反馈信号,将回声消除反馈信号返回给麦克风模组,以使得麦克风模组根据回声消除反馈信号对接收到的语音信号进行调节以更好地消除回声。
图2中的SOC(System on Chip,系统级芯片)包括多路并行语音引擎和音效处理模块。其中,SOC也称为片上系统,是一个有专用目标的集成电路,其中包含完整系统并有嵌入软件的全部内容。它是信息系统核心的芯片集成,是将系统关键部件集成在一块芯片上。
上述技术方案具有如下优点或有益效果:使用麦克风模组通过DSP运行的波束形成算法隔离出不同音区,且每个音区隔离度能达到15-20dB。例如由副驾驶位置所在的音区发出的声音传到主驾驶位置所在的音区之后,声音经过抑制之后其强度仅有原来的1/10。通过隔离出多个音区实现了车内全员使用语音。
图6为本发明一实施例提供的多音区语音识别装置的结构框图。如图6所示,本发明实施例的多音区语音识别装置包括:语音采集单元100,用于使用麦克风模组收集语音采集环境中的语音,其中,预先为所述麦克风模组中的每个麦克风设置目标音区,所述目标音区是预先设定的所述语音采集环境中的多个独立音区中的一个;判断单元200,用于判断所述语音是否来自目标音区;抑制单元300,用于对来自除所述目标音区之外的其他音区的语音进行抑制;语音识别单元400,用于对抑制后的语音进行识别。
图7为本发明又一实施例提供的多音区语音识别装置的结构框图。如图7所示,在一种可能的实现方式中,所述语音识别单元400包括:接收子单元410,用于接收来自所述麦克风模组中的多个麦克风的抑制后的语音;识别子单元420,用于从所述多个麦克风的目标音区中选择一个独立音区进行语音识别。
在一种可能的实现方式中,所述识别子单元420还用于:识别所述多个麦克风的目标音区中是否有某个独立音区的语音中出现唤醒词;若识别出某个独立音区的语音中出现唤醒词,则选择出现唤醒词的独立音区作为识别音区,对所述识别音区的语音进行语音识别。
在一种可能的实现方式中,所述识别子单元420还用于:对所述识别音区的语音进行语音识别之后,判断所述识别音区的识别过程是否结束;若所述识别音区的识别过程已经结束,则重新从所述多个麦克风的目标音区中选择一个独立音区进行语音识别。
在一种可能的实现方式中,所述语音采集环境包括车载环境;所述麦克风模组包括布置于前排顶灯位置的第一麦克风模组和布置于后排扶手箱出风口位置的第二麦克风模组,或者所述麦克风模组包括布置于前排顶灯位置的第一麦克风模组和布置于后排天窗边缘位置的第三麦克风模组。
在一种可能的实现方式中,所述语音识别单元400包括接收子单元410,用于:接收来自车机系统的所述抑制后的语音,其中,所述抑制后的语音是由所述麦克风模组通过音频总线传输给所述车机系统的。
在一种可能的实现方式中,所述装置还包括设置单元,用于:设置所述车机系统的时分传输机制的队列排布方式,以适于传输所述抑制后的语音。
图8为本发明又一实施例提供的多音区语音识别装置的结构框图。如图8所示,在一种可能的实现方式中,所述装置还包括:响应单元500,用于根据语音识别的结果产生对所述抑制后的语音的响应信息;展示单元600,用于展示所述语音识别的结果及所述响应信息。
本发明实施例的多音区语音识别装置中各单元的功能可以参见上述方法的相关描述,在此不再赘述。
在一个可能的设计中,多音区语音识别装置的结构中包括处理器和存储器,所述存储器用于存储支持多音区语音识别装置执行上述多音区语音识别方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述多音区语音识别装置还可以包括通信接口,用于多音区语音识别装置与其他设备或通信网络通信。
图9为本发明又一实施例提供的多音区语音识别装置的结构框图。如图9所示,该装置包括:存储器101和处理器102,存储器101内存储有可在处理器102上运行的计算机程序。所述处理器102执行所述计算机程序时实现上述实施例中的多音区语音识别方法。所述存储器101和处理器102的数量可以为一个或多个。
该装置还包括:
通信接口103,用于与外界设备进行通信,进行数据交互传输。
存储器101可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器101、处理器102和通信接口103独立实现,则存储器101、处理器102和通信接口103可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器101、处理器102及通信接口103集成在一块芯片上,则存储器101、处理器102及通信接口103可以通过内部接口完成相互间的通信。
又一方面,本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述多音区语音识别方法中任一所述的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (18)
1.一种多音区语音识别方法,其特征在于,包括:
使用麦克风模组收集语音采集环境中的语音,其中,预先为所述麦克风模组中的每个麦克风设置目标音区,所述目标音区是预先设定的所述语音采集环境中的多个独立音区中的一个;
判断所述语音是否来自目标音区;
对来自除所述目标音区之外的其他音区的语音进行抑制;
对抑制后的语音进行识别。
2.根据权利要求1所述的方法,其特征在于,对抑制后的语音进行识别,包括:
接收来自所述麦克风模组中的多个麦克风的抑制后的语音;
从所述多个麦克风的目标音区中选择一个独立音区进行语音识别。
3.根据权利要求2所述的方法,其特征在于,从所述多个麦克风的目标音区中选择一个独立音区进行语音识别,包括:
识别所述多个麦克风的目标音区中是否有某个独立音区的语音中出现唤醒词;
若识别出某个独立音区的语音中出现唤醒词,则选择出现唤醒词的独立音区作为识别音区,对所述识别音区的语音进行语音识别。
4.根据权利要求3所述的方法,其特征在于,对所述识别音区的语音进行语音识别之后,还包括:
判断所述识别音区的识别过程是否结束;
若所述识别音区的识别过程已经结束,则重新从所述多个麦克风的目标音区中选择一个独立音区进行语音识别。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述语音采集环境包括车载环境;所述麦克风模组包括布置于前排顶灯位置的第一麦克风模组和布置于后排扶手箱出风口位置的第二麦克风模组,或者所述麦克风模组包括布置于前排顶灯位置的第一麦克风模组和布置于后排天窗边缘位置的第三麦克风模组。
6.根据权利要求5所述的方法,其特征在于,对抑制后的语音进行识别之前,还包括:
接收来自车机系统的所述抑制后的语音,其中,所述抑制后的语音是由所述麦克风模组通过音频总线传输给所述车机系统的。
7.根据权利要求6所述的方法,其特征在于,还包括:
设置所述车机系统的时分传输机制的队列排布方式,以适于传输所述抑制后的语音。
8.根据权利要求1-4中任一项所述的方法,其特征在于,对抑制后的语音进行识别之后,还包括:
根据语音识别的结果产生对所述抑制后的语音的响应信息;
展示所述语音识别的结果及所述响应信息。
9.一种多音区语音识别装置,其特征在于,包括:
语音采集单元,用于使用麦克风模组收集语音采集环境中的语音,其中,预先为所述麦克风模组中的每个麦克风设置目标音区,所述目标音区是预先设定的所述语音采集环境中的多个独立音区中的一个;
判断单元,用于判断所述语音是否来自目标音区;
抑制单元,用于对来自除所述目标音区之外的其他音区的语音进行抑制;
语音识别单元,用于对抑制后的语音进行识别。
10.根据权利要求9所述的装置,其特征在于,所述语音识别单元包括:
接收子单元,用于接收来自所述麦克风模组中的多个麦克风的抑制后的语音;
识别子单元,用于从所述多个麦克风的目标音区中选择一个独立音区进行语音识别。
11.根据权利要求10所述的装置,其特征在于,所述识别子单元还用于:
识别所述多个麦克风的目标音区中是否有某个独立音区的语音中出现唤醒词;
若识别出某个独立音区的语音中出现唤醒词,则选择出现唤醒词的独立音区作为识别音区,对所述识别音区的语音进行语音识别。
12.根据权利要求11所述的装置,其特征在于,所述识别子单元还用于:
对所述识别音区的语音进行语音识别之后,判断所述识别音区的识别过程是否结束;
若所述识别音区的识别过程已经结束,则重新从所述多个麦克风的目标音区中选择一个独立音区进行语音识别。
13.根据权利要求9-12中任一项所述的装置,其特征在于,所述语音采集环境包括车载环境;所述麦克风模组包括布置于前排顶灯位置的第一麦克风模组和布置于后排扶手箱出风口位置的第二麦克风模组,或者所述麦克风模组包括布置于前排顶灯位置的第一麦克风模组和布置于后排天窗边缘位置的第三麦克风模组。
14.根据权利要求13所述的装置,其特征在于,所述语音识别单元包括接收子单元,用于:
接收来自车机系统的所述抑制后的语音,其中,所述抑制后的语音是由所述麦克风模组通过音频总线传输给所述车机系统的。
15.根据权利要求14所述的装置,其特征在于,还包括设置单元,用于:
设置所述车机系统的时分传输机制的队列排布方式,以适于传输所述抑制后的语音。
16.根据权利要求9-12中任一项所述的装置,其特征在于,还包括:
响应单元,用于根据语音识别的结果产生对所述抑制后的语音的响应信息;
展示单元,用于展示所述语音识别的结果及所述响应信息。
17.一种多音区语音识别装置,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
18.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110970147.3A CN113658588A (zh) | 2018-09-29 | 2018-09-29 | 多音区语音识别方法、装置及存储介质 |
CN201811147010.2A CN109192203B (zh) | 2018-09-29 | 2018-09-29 | 多音区语音识别方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811147010.2A CN109192203B (zh) | 2018-09-29 | 2018-09-29 | 多音区语音识别方法、装置及存储介质 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110970147.3A Division CN113658588A (zh) | 2018-09-29 | 2018-09-29 | 多音区语音识别方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109192203A true CN109192203A (zh) | 2019-01-11 |
CN109192203B CN109192203B (zh) | 2021-08-10 |
Family
ID=64906918
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811147010.2A Active CN109192203B (zh) | 2018-09-29 | 2018-09-29 | 多音区语音识别方法、装置及存储介质 |
CN202110970147.3A Pending CN113658588A (zh) | 2018-09-29 | 2018-09-29 | 多音区语音识别方法、装置及存储介质 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110970147.3A Pending CN113658588A (zh) | 2018-09-29 | 2018-09-29 | 多音区语音识别方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN109192203B (zh) |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109712608A (zh) * | 2019-02-28 | 2019-05-03 | 百度在线网络技术(北京)有限公司 | 多音区唤醒测试方法、装置及存储介质 |
CN109920405A (zh) * | 2019-03-05 | 2019-06-21 | 百度在线网络技术(北京)有限公司 | 多路语音识别方法、装置、设备及可读存储介质 |
CN109949810A (zh) * | 2019-03-28 | 2019-06-28 | 华为技术有限公司 | 一种语音唤醒方法、装置、设备及介质 |
CN110010126A (zh) * | 2019-03-11 | 2019-07-12 | 百度国际科技(深圳)有限公司 | 语音识别方法、装置、设备和存储介质 |
CN110021298A (zh) * | 2019-04-23 | 2019-07-16 | 广州小鹏汽车科技有限公司 | 一种汽车语音控制系统 |
CN110033775A (zh) * | 2019-05-07 | 2019-07-19 | 百度在线网络技术(北京)有限公司 | 多音区唤醒交互方法、装置及存储介质 |
CN110070868A (zh) * | 2019-04-28 | 2019-07-30 | 广州小鹏汽车科技有限公司 | 车载系统的语音交互方法、装置、汽车和机器可读介质 |
CN110111782A (zh) * | 2019-02-26 | 2019-08-09 | 百度国际科技(深圳)有限公司 | 语音交互方法及设备 |
CN110139246A (zh) * | 2019-05-22 | 2019-08-16 | 广州小鹏汽车科技有限公司 | 车载蓝牙通话的处理方法和装置、汽车以及机器可读介质 |
CN110211585A (zh) * | 2019-06-05 | 2019-09-06 | 广州小鹏汽车科技有限公司 | 车内娱乐互动方法、装置、车辆和机器可读介质 |
CN110310633A (zh) * | 2019-05-23 | 2019-10-08 | 北京百度网讯科技有限公司 | 多音区语音识别方法、终端设备和存储介质 |
CN110366156A (zh) * | 2019-08-26 | 2019-10-22 | 科大讯飞(苏州)科技有限公司 | 车载蓝牙通讯处理方法、车载音频管理系统及相关设备 |
CN110459234A (zh) * | 2019-08-15 | 2019-11-15 | 苏州思必驰信息科技有限公司 | 用于车载的语音识别方法及系统 |
CN110475180A (zh) * | 2019-08-23 | 2019-11-19 | 科大讯飞(苏州)科技有限公司 | 车载多音区音频处理系统及方法 |
CN110517676A (zh) * | 2019-08-21 | 2019-11-29 | Oppo广东移动通信有限公司 | 一种语音唤醒方法及终端、服务器、存储介质 |
CN110648663A (zh) * | 2019-09-26 | 2020-01-03 | 科大讯飞(苏州)科技有限公司 | 车载音频管理方法、装置、设备、汽车及可读存储介质 |
CN111599366A (zh) * | 2020-05-19 | 2020-08-28 | 科大讯飞股份有限公司 | 一种车载多音区语音处理的方法和相关装置 |
CN111640428A (zh) * | 2020-05-29 | 2020-09-08 | 北京百度网讯科技有限公司 | 一种语音识别方法、装置、设备和介质 |
CN111739533A (zh) * | 2020-07-28 | 2020-10-02 | 睿住科技有限公司 | 语音控制系统、方法与装置以及存储介质、语音设备 |
CN111833899A (zh) * | 2020-07-27 | 2020-10-27 | 腾讯科技(深圳)有限公司 | 一种基于多音区的语音检测方法、相关装置及存储介质 |
CN111986678A (zh) * | 2020-09-03 | 2020-11-24 | 北京蓦然认知科技有限公司 | 一种多路语音识别的语音采集方法、装置 |
CN112002340A (zh) * | 2020-09-03 | 2020-11-27 | 北京蓦然认知科技有限公司 | 一种基于多用户的语音采集方法、装置 |
CN113066504A (zh) * | 2019-12-31 | 2021-07-02 | 上海汽车集团股份有限公司 | 音频传输方法、装置及计算机存储介质 |
CN113302690A (zh) * | 2019-01-15 | 2021-08-24 | 诺基亚技术有限公司 | 音频处理 |
CN115440206A (zh) * | 2022-03-16 | 2022-12-06 | 北京罗克维尔斯科技有限公司 | 多音区语音识别方法、装置、车辆及存储介质 |
CN116132564A (zh) * | 2023-02-24 | 2023-05-16 | 亿咖通(湖北)技术有限公司 | 驾驶座舱蓝牙电话的输出方法、驾驶座舱系统和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104572258A (zh) * | 2013-10-18 | 2015-04-29 | 通用汽车环球科技运作有限责任公司 | 用于在车载计算机系统处处理多个音频流的方法和设备 |
CN104661150A (zh) * | 2013-11-25 | 2015-05-27 | 现代自动车株式会社 | 用于识别语音的装置和方法 |
CN105280183A (zh) * | 2015-09-10 | 2016-01-27 | 百度在线网络技术(北京)有限公司 | 语音交互方法和系统 |
CN107465986A (zh) * | 2016-06-03 | 2017-12-12 | 法拉第未来公司 | 使用多个麦克风检测和隔离车辆中的音频的方法和装置 |
CN107554456A (zh) * | 2017-08-31 | 2018-01-09 | 上海博泰悦臻网络技术服务有限公司 | 车载语音控制系统及其控制方法 |
CN107577449A (zh) * | 2017-09-04 | 2018-01-12 | 百度在线网络技术(北京)有限公司 | 唤醒语音的拾取方法、装置、设备及存储介质 |
CN108538305A (zh) * | 2018-04-20 | 2018-09-14 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104936091B (zh) * | 2015-05-14 | 2018-06-15 | 讯飞智元信息科技有限公司 | 基于圆形麦克风阵列的智能交互方法及系统 |
EP3414759B1 (en) * | 2016-02-10 | 2020-07-01 | Cerence Operating Company | Techniques for spatially selective wake-up word recognition and related systems and methods |
EP3754653A1 (en) * | 2016-06-15 | 2020-12-23 | Cerence Operating Company | Techniques for wake-up word recognition and related systems and methods |
CN108327667A (zh) * | 2018-02-06 | 2018-07-27 | 奇瑞汽车股份有限公司 | 车辆语音控制方法及装置 |
-
2018
- 2018-09-29 CN CN201811147010.2A patent/CN109192203B/zh active Active
- 2018-09-29 CN CN202110970147.3A patent/CN113658588A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104572258A (zh) * | 2013-10-18 | 2015-04-29 | 通用汽车环球科技运作有限责任公司 | 用于在车载计算机系统处处理多个音频流的方法和设备 |
CN104661150A (zh) * | 2013-11-25 | 2015-05-27 | 现代自动车株式会社 | 用于识别语音的装置和方法 |
CN105280183A (zh) * | 2015-09-10 | 2016-01-27 | 百度在线网络技术(北京)有限公司 | 语音交互方法和系统 |
CN107465986A (zh) * | 2016-06-03 | 2017-12-12 | 法拉第未来公司 | 使用多个麦克风检测和隔离车辆中的音频的方法和装置 |
CN107554456A (zh) * | 2017-08-31 | 2018-01-09 | 上海博泰悦臻网络技术服务有限公司 | 车载语音控制系统及其控制方法 |
CN107577449A (zh) * | 2017-09-04 | 2018-01-12 | 百度在线网络技术(北京)有限公司 | 唤醒语音的拾取方法、装置、设备及存储介质 |
CN108538305A (zh) * | 2018-04-20 | 2018-09-14 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113302690A (zh) * | 2019-01-15 | 2021-08-24 | 诺基亚技术有限公司 | 音频处理 |
CN110111782B (zh) * | 2019-02-26 | 2022-04-12 | 阿波罗智联(北京)科技有限公司 | 语音交互方法及设备 |
CN110111782A (zh) * | 2019-02-26 | 2019-08-09 | 百度国际科技(深圳)有限公司 | 语音交互方法及设备 |
CN109712608A (zh) * | 2019-02-28 | 2019-05-03 | 百度在线网络技术(北京)有限公司 | 多音区唤醒测试方法、装置及存储介质 |
CN109920405A (zh) * | 2019-03-05 | 2019-06-21 | 百度在线网络技术(北京)有限公司 | 多路语音识别方法、装置、设备及可读存储介质 |
CN110010126A (zh) * | 2019-03-11 | 2019-07-12 | 百度国际科技(深圳)有限公司 | 语音识别方法、装置、设备和存储介质 |
CN113782019A (zh) * | 2019-03-11 | 2021-12-10 | 百度国际科技(深圳)有限公司 | 语音识别方法、装置、设备和存储介质 |
CN109949810A (zh) * | 2019-03-28 | 2019-06-28 | 华为技术有限公司 | 一种语音唤醒方法、装置、设备及介质 |
CN109949810B (zh) * | 2019-03-28 | 2021-09-07 | 荣耀终端有限公司 | 一种语音唤醒方法、装置、设备及介质 |
CN110021298A (zh) * | 2019-04-23 | 2019-07-16 | 广州小鹏汽车科技有限公司 | 一种汽车语音控制系统 |
CN110070868A (zh) * | 2019-04-28 | 2019-07-30 | 广州小鹏汽车科技有限公司 | 车载系统的语音交互方法、装置、汽车和机器可读介质 |
CN110070868B (zh) * | 2019-04-28 | 2021-10-08 | 广州小鹏汽车科技有限公司 | 车载系统的语音交互方法、装置、汽车和机器可读介质 |
CN110033775A (zh) * | 2019-05-07 | 2019-07-19 | 百度在线网络技术(北京)有限公司 | 多音区唤醒交互方法、装置及存储介质 |
CN110139246A (zh) * | 2019-05-22 | 2019-08-16 | 广州小鹏汽车科技有限公司 | 车载蓝牙通话的处理方法和装置、汽车以及机器可读介质 |
CN110310633A (zh) * | 2019-05-23 | 2019-10-08 | 北京百度网讯科技有限公司 | 多音区语音识别方法、终端设备和存储介质 |
CN110211585A (zh) * | 2019-06-05 | 2019-09-06 | 广州小鹏汽车科技有限公司 | 车内娱乐互动方法、装置、车辆和机器可读介质 |
CN110459234B (zh) * | 2019-08-15 | 2022-03-22 | 思必驰科技股份有限公司 | 用于车载的语音识别方法及系统 |
CN110459234A (zh) * | 2019-08-15 | 2019-11-15 | 苏州思必驰信息科技有限公司 | 用于车载的语音识别方法及系统 |
CN110517676A (zh) * | 2019-08-21 | 2019-11-29 | Oppo广东移动通信有限公司 | 一种语音唤醒方法及终端、服务器、存储介质 |
CN110475180A (zh) * | 2019-08-23 | 2019-11-19 | 科大讯飞(苏州)科技有限公司 | 车载多音区音频处理系统及方法 |
CN110366156A (zh) * | 2019-08-26 | 2019-10-22 | 科大讯飞(苏州)科技有限公司 | 车载蓝牙通讯处理方法、车载音频管理系统及相关设备 |
CN110648663A (zh) * | 2019-09-26 | 2020-01-03 | 科大讯飞(苏州)科技有限公司 | 车载音频管理方法、装置、设备、汽车及可读存储介质 |
CN113066504A (zh) * | 2019-12-31 | 2021-07-02 | 上海汽车集团股份有限公司 | 音频传输方法、装置及计算机存储介质 |
CN111599366B (zh) * | 2020-05-19 | 2024-04-12 | 科大讯飞股份有限公司 | 一种车载多音区语音处理的方法和相关装置 |
CN111599366A (zh) * | 2020-05-19 | 2020-08-28 | 科大讯飞股份有限公司 | 一种车载多音区语音处理的方法和相关装置 |
CN111640428B (zh) * | 2020-05-29 | 2023-10-20 | 阿波罗智联(北京)科技有限公司 | 一种语音识别方法、装置、设备和介质 |
CN111640428A (zh) * | 2020-05-29 | 2020-09-08 | 北京百度网讯科技有限公司 | 一种语音识别方法、装置、设备和介质 |
CN111833899B (zh) * | 2020-07-27 | 2022-07-26 | 腾讯科技(深圳)有限公司 | 一种基于多音区的语音检测方法、相关装置及存储介质 |
CN111833899A (zh) * | 2020-07-27 | 2020-10-27 | 腾讯科技(深圳)有限公司 | 一种基于多音区的语音检测方法、相关装置及存储介质 |
US12051441B2 (en) | 2020-07-27 | 2024-07-30 | Tencent Technology (Shenzhen) Company Limited | Multi-register-based speech detection method and related apparatus, and storage medium |
CN111739533A (zh) * | 2020-07-28 | 2020-10-02 | 睿住科技有限公司 | 语音控制系统、方法与装置以及存储介质、语音设备 |
CN112002340A (zh) * | 2020-09-03 | 2020-11-27 | 北京蓦然认知科技有限公司 | 一种基于多用户的语音采集方法、装置 |
CN111986678A (zh) * | 2020-09-03 | 2020-11-24 | 北京蓦然认知科技有限公司 | 一种多路语音识别的语音采集方法、装置 |
CN111986678B (zh) * | 2020-09-03 | 2023-12-29 | 杭州蓦然认知科技有限公司 | 一种多路语音识别的语音采集方法、装置 |
CN115440206A (zh) * | 2022-03-16 | 2022-12-06 | 北京罗克维尔斯科技有限公司 | 多音区语音识别方法、装置、车辆及存储介质 |
CN116132564A (zh) * | 2023-02-24 | 2023-05-16 | 亿咖通(湖北)技术有限公司 | 驾驶座舱蓝牙电话的输出方法、驾驶座舱系统和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113658588A (zh) | 2021-11-16 |
CN109192203B (zh) | 2021-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109192203A (zh) | 多音区语音识别方法、装置及存储介质 | |
US10785566B2 (en) | Method and device for processing an audio signal in a vehicle | |
WO2020063752A1 (zh) | 远场拾音设备、及远场拾音设备中采集人声信号的方法 | |
CN110475180A (zh) | 车载多音区音频处理系统及方法 | |
CN111816189B (zh) | 一种车辆用多音区语音交互方法及电子设备 | |
CN102030008A (zh) | 情绪咨询系统 | |
CN110010126A (zh) | 语音识别方法、装置、设备和存储介质 | |
CN106231503B (zh) | 一种用于车内分区域控制的音频系统及控制方法 | |
US11587560B2 (en) | Voice interaction method, device, apparatus and server | |
CN109286875A (zh) | 用于定向拾音的方法、装置、电子设备和存储介质 | |
CN108536418A (zh) | 一种无线音箱播放模式切换的方法、装置及无线音箱 | |
CN110310633A (zh) | 多音区语音识别方法、终端设备和存储介质 | |
CN111833875B (zh) | 一种嵌入式语音交互系统 | |
CN102711030A (zh) | 一种用于交通工具的智能音频系统及其音源调校方法 | |
CN109524013A (zh) | 一种语音处理方法、装置、介质和智能设备 | |
CN110211578A (zh) | 音箱控制方法、装置及设备 | |
CN216886473U (zh) | 一种车载音频系统 | |
CN109712608A (zh) | 多音区唤醒测试方法、装置及存储介质 | |
CN110024418A (zh) | 声音增强装置、声音增强方法和声音处理程序 | |
CN209183265U (zh) | 音频处理装置 | |
CN110033775A (zh) | 多音区唤醒交互方法、装置及存储介质 | |
CN108242233A (zh) | 音频数据的播放方法和装置 | |
CN108153508A (zh) | 一种音频处理的方法及装置 | |
CN109618266A (zh) | 双向实时通话音频处理方法及双向实时通话对讲系统 | |
CN107371060A (zh) | 基于电视输出的视频图像合成系统和应用方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20211014 Address after: 100176 Room 101, 1st floor, building 1, yard 7, Ruihe West 2nd Road, economic and Technological Development Zone, Daxing District, Beijing Patentee after: Apollo Intelligent Connectivity (Beijing) Technology Co., Ltd. Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing Patentee before: BAIDU ONLINE NETWORK TECHNOLOGY (BEIJING) Co.,Ltd. |