CN106992002A - 用于改进含噪语音识别的动态声学模型切换 - Google Patents
用于改进含噪语音识别的动态声学模型切换 Download PDFInfo
- Publication number
- CN106992002A CN106992002A CN201710041764.9A CN201710041764A CN106992002A CN 106992002 A CN106992002 A CN 106992002A CN 201710041764 A CN201710041764 A CN 201710041764A CN 106992002 A CN106992002 A CN 106992002A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- acoustic model
- controller
- compartment
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000000694 effects Effects 0.000 claims description 32
- 238000000034 method Methods 0.000 claims description 22
- 238000010183 spectrum analysis Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 9
- 238000013139 quantization Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 3
- 230000007935 neutral effect Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 208000035859 Drug effect increased Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 238000009413 insulation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/40—Bus networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/081—Search algorithms, e.g. Baum-Welch or Viterbi
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
- G10L2021/03646—Stress or Lombard effect
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/40—Bus networks
- H04L2012/40208—Bus networks characterized by the use of a particular bus standard
- H04L2012/40215—Controller Area Network CAN
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/40—Bus networks
- H04L2012/40267—Bus for use in transportation systems
- H04L2012/40273—Bus for use in transportation systems the transportation system being a vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Circuit For Audible Band Transducer (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Computer Networks & Wireless Communication (AREA)
- Quality & Reliability (AREA)
- Control Of Amplification And Gain Control (AREA)
Abstract
本公开涉及一种用于改进含噪语音识别的动态声学模型切换。一种用于车辆的自动语音识别系统包括控制器,所述控制器被配置为:基于车辆的车厢中的周围环境噪声和车辆的操作参数来从声学模型库中选择声学模型。所述控制器还被配置为:将选择的声学模型应用于含噪语音,以改进对所述含噪语音的识别。
Description
技术领域
本公开涉及用于改进语音识别性能的声学模型的动态切换。
背景技术
车载用户体验可通过改进用户如何经由语音与他们的车辆进行交互而被改善。就此而言,期望改进车辆自动语音识别(ASR)系统的能力,以在车辆在变化的操作状况下运行时始终如一地识别语音命令。
传统的声学模型是静态的,并且在各种操作状况下被训练(各种操作状况被认为对于ASR使用情形是典型的)。对于车辆,典型的操作状况包括车辆在停车场怠速、车辆在高速公路上关窗行驶、车辆在高速公路上开窗行驶等。车辆的构造(诸如,车厢中的绝缘量、车辆的燃料经济性结构特性等)也被考虑进去。典型的操作状况具有明显地不同的背景噪声水平,这在构建静态声学模型中内在地提出了挑战。因此,单一的静态声学模型无法在变化的操作状况下很好地工作。
伦巴效应(Lombard Effect)是人类对于周围环境噪声的响应,其中,扬声器作为补偿机制而发出更大的声音。除了在语音的输出音量上增大的伦巴效应之外,语音的频谱密度朝向更高的频率偏移且音素的持续时间增加。频谱上的这些变化比信噪比上的降低对语音识别引擎提出了更多的挑战。因此,存在的问题在于:稳健的声学模型针对中性(neutral)(非伦巴)语音和噪声(伦巴)语音两者同样很好地执行,而不管频谱上的变化如何。
发明内容
一种用于车辆的自动语音识别系统包括控制器。所述控制器被配置为:基于车辆的车厢中的周围环境噪声和车辆的操作参数来从声学模型库中选择声学模型。所述控制器还被配置为:将选择的声学模型应用于含噪语音,以改进对所述含噪语音的识别。
所述自动语音识别系统还可包括:车厢噪声麦克风,被配置为检测车辆的车厢中的周围环境噪声。所述控制器可与所述车厢噪声麦克风进行通信,以接收指示车辆的车厢中的周围环境噪声的信息。
所述控制器可与车辆的控制器局域网(CAN)总线进行通信,以获取指示车辆的操作参数的信息。指示车辆的操作参数的信息可包括指示车辆发动机每分钟转数、车辆速度和车辆暖通空调(HVAC)设置的信息。
所述控制器还可被配置为:通过以下处理来选择声学模型:首先基于车辆的车厢中的周围环境噪声来从所述声学模型库中选择声学模型的子集,随后基于车辆的操作参数来从所述声学模型的子集中选择声学模型。
所述控制器可与车辆的用户穿戴的可穿戴装置进行通信,以从所述可穿戴装置获取情境信息。所述控制器还可被配置为:基于车辆的车厢中的周围环境噪声、车辆的操作参数和所述情境信息来从所述声学模型库中选择声学模型。
所述控制器可与车辆的车厢中的用户麦克风进行通信,以接收所述含噪语音。
声学模型可以是伦巴效应声学模型。
所述控制器还可被配置为:基于车辆的车厢中的周围环境噪声和车辆的操作参数来估计所述含噪语音的伦巴效应,并且基于估计的伦巴效应来从所述声学模型库中选择声学模型。
所述控制器还可被配置为:基于车辆的车厢中的周围环境噪声的分贝水平和频谱分析来估计所述含噪语音的伦巴效应成分,基于车辆的操作参数来估计所述含噪语音的伦巴效应成分,并且基于估计的伦巴效应成分来从所述声学模型库中选择声学模型。
一种用于车辆的自动语音识别方法包括:基于车辆的车厢中的周围环境噪声和车辆的操作参数来从声学模型库中选择声学模型。所述方法还包括:将选择的声学模型应用于含噪语音,以改进对所述含噪语音的识别。
根据本发明的一个实施例,所述自动语音识别方法还包括:从多个车厢噪声麦克风接收指示车辆的车厢中的周围环境噪声的信息。
根据本发明的一个实施例,所述自动语音识别方法还包括:从车辆的控制器局域网(CAN)总线接收指示车辆的操作参数的信息。
根据本发明的一个实施例,所述自动语音识别方法还包括:通过以下处理来选择声学模型:首选基于车辆的车厢中的周围环境噪声来从所述声学模型库中选择声学模型子集,然后基于车辆的操作参数来从所述声学模型子集中选择声学模型。
根据本发明的一个实施例,所述自动语音识别方法还包括:从车辆的用户穿戴的可穿戴装置接收情境信息;进一步基于所述情境信息来选择声学模型。
根据本发明的一个实施例,所述自动语音识别方法还包括:从车辆的车厢中的用户麦克风接收所述含噪语音。
根据本发明的一个实施例,所述自动语音识别方法还包括:从所述用户麦克风接收指示车辆的车厢中的周围环境噪声的信息。
根据本发明的一个实施例,所述自动语音识别方法还包括:基于车辆的车厢中的周围环境噪声和车辆的操作参数来估计所述含噪语音的伦巴效应;基于估计的伦巴效应来从所述声学模型库中选择声学模型。
根据本发明的一个实施例,所述自动语音识别方法还包括:基于车辆的车厢中的周围环境噪声的分贝水平和频谱分析来估计所述含噪语音的伦巴效应成分;基于车辆的操作参数来估计所述含噪语音的伦巴效应成分;基于估计的伦巴效应成分来从所述声学模型库中选择声学模型。
附图说明
图1示出了用于在车辆中使用的自动语音识别(ASR)系统的框图;
图2示出了描述ASR系统的噪声量化操作和声学模型识别操作的框图;
图3示出了描述ASR系统的声学模型选择操作以及将选择的声学模型用于语音识别的操作的框图。
具体实施方式
在此公开本发明的具体实施例;然而,应理解的是,所公开的实施例仅为本发明的示例,其中,本发明可以以多种替代形式来实现。附图无需按比例绘制;可夸大或最小化一些特征以示出特定组件的细节。因此,在此所公开的具体结构和功能细节不应被解释为具有限制性,而仅仅作为用于教导本领域技术人员以多种形式利用本发明的代表性基础。
本公开提供自动语音识别(ASR)系统和方法,所述系统和方法采用伦巴效应声学模型(“声学模型”)的动态切换,以改进语音识别性能。ASR系统和方法利用在被用于将噪声类型与频谱内容的变化相关联的伦巴效应上收集的数据,以适当地调节纯净语音和含噪语音两者。
如上面在背景技术部分中所指出的,不管语音频谱上的变化如何,使得稳健的声学模型针对中性(非伦巴)语音和噪声(伦巴)语音两者同样很好地执行,这是个问题。为了解决该问题,本公开针对车辆提供的ASR系统和方法采用这样一种架构,所述架构通过考虑来自车辆中的车厢噪声的各种输入来估计伦巴效应的影响。按照这种方式,ASR系统和方法实际上可动态地切换到从预先建立的声学模型库中选择的声学模型,其中,针对这种状况以最佳方式对该声学模型库进行训练以与各种类型的含噪语音(中性语音除外)进行最优匹配。
由于嵌入式平台现在包括具有大量随机存取存储器(RAM)的图形处理单元(GPU)以用于大规模并行处理能力,所以将多个声学模型放入单个车辆系统是可行的。本公开的ASR系统和方法从放入车辆系统中的预先训练的声学模型库中动态地选择适当的声学模型,作为车辆参数和周围环境噪声的函数。
本公开提供的ASR系统和方法涉及少数声学模型按照实验室设置来进行训练,在该实验室设置中,资源可用于捕获重要的使用情形。随后实现函数以将给定噪声关联到最佳表示的声学模型。噪声通过若干不同信息进行量化,这些信息包括但不限于:指示车辆参数的信息(诸如,来自车辆的控制器局域网(CAN)总线的关于车辆速度、发动机每分钟转数和暖通空调(HVAC)设置的信息);指示车厢噪声的信息(诸如,来自进行被动噪声分析的车厢噪声麦克风的信息);和/或可穿戴装置提供的情境信息(contextual information)。
作为示例,本公开的车辆中的ASR系统和方法使用车厢噪声分贝水平/频谱分析来预筛选从预先训练的声学模型库中选择的声学模型。因为用于发动机噪声的声学模型可能由于噪声的频谱性质而与用于HVAC的声学模型不同,所以ASR系统和方法随后使用诸如发动机每分钟转数和HVAC设置的车辆参数来进一步减少(pare down)选择。一旦最具代表性的声学模型被识别出,则ASR系统和方法就使用该最具代表性的声学模型来完成语音识别。这种动态切换也可被用于负责不同的扬声器。
现参照图1,示出了用于在车辆中使用的自动语音识别(ASR)系统10的框图。ASR系统10包括控制器12。控制器12与车辆的车厢中的用户麦克风14进行通信。用户麦克风14被配置为检测车辆的车厢中的用户说出的语音(例如,命令)。用户麦克风14向控制器12提供指示语音的电信号。在车辆的正常实际操作状况下,车厢中存在一定量的噪声。因此,用户麦克风14检测到的语音是含噪语音。如在图1中所指示的,用户麦克风14因此向控制器12提供指示含噪语音的电信号16。
控制器12还与一个或更多个车厢噪声麦克风18进行通信。车厢噪声麦克风18位于车厢内的各种位置并且被配置为检测车厢中的噪声。车厢噪声麦克风18向控制器12提供指示车厢噪声的电信号20。
控制器12还与车辆的CAN总线22进行通信。指示车辆参数的电信号在CAN总线22上被传送。控制器12从CAN总线22接收指示车辆参数(诸如,车辆速度、发动机每分钟转数和HVAC设置)的电信号24。
控制器12还与用户穿戴的可穿戴装置26进行通信。控制器12从可穿戴装置26接收指示情境信息的电信号28。
控制器12包括用于执行噪声量化操作的处理器级30(用短语“噪声量化”标出)。处理器级30从车厢噪声麦克风18接收指示车厢噪声的电信号20,从CAN总线22接收指示车辆参数的电信号24,从可穿戴装置26接收指示情境信息的电信号28。处理器级30处理电信号20、24和28,以量化存在于车辆车厢中的噪声。处理器级30产生指示量化的噪声的电信号32。
按照这种方式,处理器级30通过若干不同信息对噪声进行量化,这些信息包括来自进行被动噪声分析的车厢噪声麦克风18的指示车辆车厢噪声的信息、来自CAN总线22的指示车辆参数(诸如,车辆速度、发动机每分钟转数和HVAC设置)的信息和/或来自可穿戴装置26的情境信息。量化的噪声代表伦巴效应的影响。因此,处理器级30通过考虑关于车辆中的车厢噪声的各种输入(即,检测到的车厢噪声、车辆参数和情境信息),来估计伦巴效应的影响。
控制器12还包括用于执行最优声学模型选择操作的处理器级34(用短语“选择最优的声学模型”标出)。处理器级34可访问预先建立的声学模型库36(在图3中示出的)。库36包含放入单个车辆系统中的多个声学模型。库36的声学模型通过按照实验室设置进行训练而被预先建立,以捕获重要的使用情形。因此,库36中的每个声学模型与使用情形中的相应一个使用情形对应。
处理器级34从处理器级30接收指示量化的噪声的电信号32。处理器级34从库36中选择声学模型中的一个作为量化的噪声的函数。该函数将给定的噪声关联到最佳表示的声学模型。也就是说,处理器级34从库36中选择相对于库36中的其他声学模型最佳对应于量化的噪声的声学模型。由于被量化的噪声,处理器级34选择的声学模型是被最佳训练以适应嘈杂的含噪语音的声学模型。按照这种方式,处理器级34从声学模型库36中动态地选择适当的声学模型作为车辆参数和周围环境噪声的函数。处理器级34输出指示选择的声学模型的电信号38。
控制器12还包括用于利用选择的声学模型处理含噪语音的处理器级40(用短语“将选择的声学模型应用于噪音语音”标出)。处理器级40从用户麦克风14接收指示含噪语音的电信号16,并且从处理器级34接收指示选择的声学模型的电信号38。处理器级40将选择的声学模型应用于含噪语音,以改进对含噪语音的识别并输出指示含噪语音的电信号42。
ASR系统10的接收器44(用短语“识别语音”标出)接收指示语音的电信号42。接收器44将语音与命令的列表等进行比较,以便识别语音,随后对识别出的语音进行相应地操作。
如所描述的,控制器12连同用户麦克风14、车厢噪声麦克风18、CAN总线22和可穿戴装置26一起提供了动态切换声学模型系统。控制器12基于各种输入来量化噪声,基于量化的噪声来选择声学模型,并将选择的声学模型应用于含噪语音,以改进对含噪语音的识别。控制器12连续地执行该操作,使得当噪声改变时,控制器选择最适合于改变的噪声的某个其他声学模型,随后将该选择的声学模型应用于含噪语音,以改进对含噪语音的识别。按照这种方式,控制器12采用声学模型的动态切换来改进语音识别性能。
在变型中,用户麦克风14检测车厢中的周围环境噪声,并将指示检测到的周围环境噪声的信息传送到控制器12。按照这种方式,用户麦克风14除了检测车厢中的用户说出的语音之外,用户麦克风14还用作被配置为检测车厢中的周围环境噪声的车厢噪声麦克风。因此,当没有车厢麦克风可用于捕获车厢中的周围环境噪声时,用户麦克风14可用于捕获车厢中的周围环境噪声。
现在参照图2,并继续参照图1,示出了描述ASR系统10的噪声量化操作和声学模型识别操作的框图。如上所述,ASR系统10的控制器12的处理器级30用于执行噪声量化操作。如在图2中示出的,处理器级30包括第一处理器子级30a和第二处理器子级32b。第一处理器子级30a从CAN总线22接收指示车辆参数的电信号24,第二处理器子级32b从车厢噪声麦克风18接收指示车厢噪声的电信号20。
第一处理器子级30a(用短语“噪声估计函数”标出)用于基于车辆参数估计伦巴效应。第一处理器子级30a产生指示基于车辆参数的估计的伦巴效应的电信号32a。第二处理器子级30b(用短语“车厢噪声频谱分析”标出)产生指示基于车厢噪声的估计的伦巴效应的电信号32b。彼此结合的电信号32a和32b指示量化的噪声环境,该量化的噪声环境是处理器级30的噪声量化操作的总输出。
控制器12的处理器级34(在图2中用短语“识别最优声学模型”标出)接收指示基于车辆参数的估计的伦巴效应的电信号32a以及基于车厢噪声的估计的伦巴效应的电信号32b。处理器级34从库36(在图3中示出)中选择声学模型中的一个,作为基于车辆参数和车厢噪声的估计的伦巴效应的函数。更一般地,处理器级34基于量化的噪声从库36中选择声学模型中的一个。按照这种方式,处理器级34从库36中选择与量化的噪声最佳对应的声学模型。
处理器级34输出指示哪个声学模型已被选择的电校准信号46。参照图3,处理器级34将电校准信号46提供给库36,以便控制器12的处理器级40访问选择的声学模型。处理器级40随后将选择的声学模型应用于含噪语音。
在变型中,处理器级34从库36中选择声学模型的操作包括:处理器级34根据基于车厢噪声的估计的伦巴效应来预筛选声学模型,以获取候选声学模型的子集,随后进一步根据基于车辆参数的估计的伦巴效应来减少候选声学模型的子集,以从候选声学模型的子集中选择最合适的声学模型。作为示例,处理器级34根据电信号32b使用车厢噪声分贝水平/频谱分析信息来预筛选从库36中选择的声学模型。处理器级34随后根据电信号32a使用车辆参数信息(诸如,发动机每分钟转数和HVAC设置)来进一步减少选择。由于用于发动机噪声的声学模型可能因噪声的频谱性质而与用于HVAC噪声的声学模型不同,所以处理器级34以这种方式来进一步减少选择。
如描述的,图2连同图3一起示出了ASR系统10首先量化噪声,随后使用查找表类型函数来识别库36中的最优声学模型。
图3中示出的库36中的声学模型用通用标号48标出。声学模型48用短语AM“x”来表示,其中,“x”是唯一标识码。作为示例,声学模型“AM 5”48a是通过电校准信号46而被识别为由控制器12的处理器级34选择的声学模型的声学模型。
图3的框图描述了ASR系统10的声学模型选择操作以及将选择的声学模型用于语音识别的操作。在操作中,处理器级34向库36输出指示选择的声学模型的电校准信号46。进而,处理器级40访问选择的声学模型,并将选择的声学模型应用于含噪语音,以便识别含噪语音。
图3示出了具有在车辆中可用的N个声学模型的库36的ASR系统10,并且示出了ASR系统10如何选择由电校准信号46指定的声学模型中的一个(例如,声学模型48a)并将选择的声学模型应用于含噪语音。如在此描述的,选择的声学模型完全取决于噪声分析。
尽管上面描述了示例性实施例,但并不意在这些实施例描述了本发明的所有可能形式。更确切地,说明书中使用的词语为描述性词语而非限制性词语,并且应理解的是,可在不脱离本发明的精神和范围的情况下做出各种改变。此外,可组合各种实现的实施例的特征以形成本发明的进一步的实施例。
Claims (12)
1.一种用于车辆的自动语音识别系统,包括:
控制器,被配置为:基于车辆的车厢中的周围环境噪声和车辆的操作参数来从声学模型库中选择声学模型,并将选择的声学模型应用于含噪语音,以改进对所述含噪语音的识别。
2.如权利要求1所述的自动语音识别系统,还包括:
多个车厢噪声麦克风,被配置为检测车辆的车厢中的周围环境噪声;
控制器与所述车厢噪声麦克风进行通信,以接收指示车辆的车厢中的周围环境噪声的信息。
3.如权利要求1所述的自动语音识别系统,其中,控制器与车辆的控制器局域网(CAN)总线进行通信,以获取指示车辆的操作参数的信息。
4.如权利要求3所述的自动语音识别系统,其中,指示车辆的操作参数的信息包括指示车辆发动机每分钟转数、车辆速度和车辆暖通空调设置的信息。
5.如权利要求1所述的自动语音识别系统,其中,控制器还被配置为通过以下处理来选择声学模型:首先基于车辆的车厢中的周围环境噪声来从所述声学模型库中选择声学模型的子集,随后基于车辆的操作参数来从所述声学模型的子集中选择声学模型。
6.如权利要求1所述的自动语音识别系统,其中,
控制器与车辆的用户穿戴的可穿戴装置进行通信,以从所述可穿戴装置获取情境信息;
控制器还被配置为:基于车辆的车厢中的周围环境噪声、车辆的操作参数和所述情境信息来从所述声学模型库中选择声学模型。
7.如权利要求1所述的自动语音识别系统,其中,
控制器与车辆的车厢中的用户麦克风进行通信,以接收所述含噪语音。
8.如权利要求1所述的自动语音识别系统,其中,
所述声学模型库中的声学模型因声学模型分别与不同的使用情形对应而彼此不同。
9.如权利要求1所述的自动语音识别系统,其中,
声学模型是伦巴效应声学模型。
10.如权利要求1所述的自动语音识别系统,其中,
控制器还被配置为:基于车辆的车厢中的周围环境噪声和车辆的操作参数来估计所述含噪语音的伦巴效应;
控制器还被配置为:基于估计的伦巴效应,从所述声学模型库中选择声学模型。
11.如权利要求1所述的自动语音识别系统,其中,
控制器还被配置为:基于车辆的车厢中的周围环境噪声的分贝水平和频谱分析来估计所述含噪语音的伦巴效应成分,并且基于车辆的操作参数来估计所述含噪语音的伦巴效应成分;
控制器还被配置为:基于估计的伦巴效应成分来从所述声学模型库中选择声学模型。
12.一种用于车辆的自动语音识别方法,所述方法包括:
基于车辆的车厢中的周围环境噪声和车辆的操作参数来从声学模型库中选择声学模型;
将选择的声学模型应用于含噪语音,以改进对所述含噪语音的识别。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/002,563 US10297251B2 (en) | 2016-01-21 | 2016-01-21 | Vehicle having dynamic acoustic model switching to improve noisy speech recognition |
US15/002,563 | 2016-01-21 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106992002A true CN106992002A (zh) | 2017-07-28 |
Family
ID=58462988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710041764.9A Withdrawn CN106992002A (zh) | 2016-01-21 | 2017-01-20 | 用于改进含噪语音识别的动态声学模型切换 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10297251B2 (zh) |
CN (1) | CN106992002A (zh) |
DE (1) | DE102016125104A1 (zh) |
GB (1) | GB2548681A (zh) |
MX (1) | MX2017000938A (zh) |
RU (1) | RU2017101192A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108022596A (zh) * | 2017-11-28 | 2018-05-11 | 湖南海翼电子商务股份有限公司 | 语音信号处理方法及车载电子设备 |
CN108091341A (zh) * | 2017-11-28 | 2018-05-29 | 湖南海翼电子商务股份有限公司 | 语音信号处理方法及车载电子设备 |
CN109087659A (zh) * | 2018-08-03 | 2018-12-25 | 三星电子(中国)研发中心 | 音频优化方法及设备 |
CN109747533A (zh) * | 2017-11-02 | 2019-05-14 | 福特全球技术公司 | 用于车辆中的倒车辅助的基于加速度计的外部声音监测 |
CN112652304A (zh) * | 2020-12-02 | 2021-04-13 | 北京百度网讯科技有限公司 | 智能设备的语音交互方法、装置和电子设备 |
CN112767965A (zh) * | 2019-11-01 | 2021-05-07 | 上海博泰悦臻电子设备制造有限公司 | 噪声识别模型的生成/应用方法、系统、介质及服务/终端 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10593335B2 (en) * | 2015-08-24 | 2020-03-17 | Ford Global Technologies, Llc | Dynamic acoustic model for vehicle |
US10957317B2 (en) | 2018-10-18 | 2021-03-23 | Ford Global Technologies, Llc | Vehicle language processing |
CN109754803B (zh) * | 2019-01-23 | 2021-06-22 | 上海华镇电子科技有限公司 | 车载多音区语音交互系统及方法 |
CN112581935B (zh) | 2019-09-27 | 2024-09-06 | 苹果公司 | 环境感知语音辅助设备以及相关系统和方法 |
US11501758B2 (en) | 2019-09-27 | 2022-11-15 | Apple Inc. | Environment aware voice-assistant devices, and related systems and methods |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1941079A (zh) * | 2005-09-27 | 2007-04-04 | 通用汽车公司 | 语音识别方法和系统 |
CN103208284A (zh) * | 2012-01-17 | 2013-07-17 | 通用汽车环球科技运作有限责任公司 | 使用声音相关的车辆信息以增强语音识别的方法和系统 |
US20140136187A1 (en) * | 2012-11-15 | 2014-05-15 | Sri International | Vehicle personal assistant |
CN104361887A (zh) * | 2014-11-20 | 2015-02-18 | 哈尔滨工业大学 | 行车噪声环境下的快速声学事件检测系统 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5864809A (en) | 1994-10-28 | 1999-01-26 | Mitsubishi Denki Kabushiki Kaisha | Modification of sub-phoneme speech spectral models for lombard speech recognition |
US5970446A (en) * | 1997-11-25 | 1999-10-19 | At&T Corp | Selective noise/channel/coding models and recognizers for automatic speech recognition |
US6889189B2 (en) * | 2003-09-26 | 2005-05-03 | Matsushita Electric Industrial Co., Ltd. | Speech recognizer performance in car and home applications utilizing novel multiple microphone configurations |
DE10360655A1 (de) * | 2003-12-23 | 2005-07-21 | Daimlerchrysler Ag | Bediensystem für ein Fahrzeug |
EP1760696B1 (en) | 2005-09-03 | 2016-02-03 | GN ReSound A/S | Method and apparatus for improved estimation of non-stationary noise for speech enhancement |
US7676363B2 (en) | 2006-06-29 | 2010-03-09 | General Motors Llc | Automated speech recognition using normalized in-vehicle speech |
KR20100101986A (ko) * | 2009-03-10 | 2010-09-20 | 엘지전자 주식회사 | 텔레매틱스 단말기, 텔레매틱스 단말기의 음성인식방법 및 컴퓨터로 읽을 수 있는 기록매체 |
RU2421827C2 (ru) * | 2009-08-07 | 2011-06-20 | Общество с ограниченной ответственностью "Центр речевых технологий" | Способ синтеза речи |
US8700394B2 (en) | 2010-03-24 | 2014-04-15 | Microsoft Corporation | Acoustic model adaptation using splines |
WO2013187932A1 (en) * | 2012-06-10 | 2013-12-19 | Nuance Communications, Inc. | Noise dependent signal processing for in-car communication systems with multiple acoustic zones |
US20160379630A1 (en) * | 2015-06-25 | 2016-12-29 | Intel Corporation | Speech recognition services |
-
2016
- 2016-01-21 US US15/002,563 patent/US10297251B2/en not_active Expired - Fee Related
- 2016-12-21 DE DE102016125104.6A patent/DE102016125104A1/de not_active Withdrawn
-
2017
- 2017-01-16 RU RU2017101192A patent/RU2017101192A/ru not_active Application Discontinuation
- 2017-01-20 CN CN201710041764.9A patent/CN106992002A/zh not_active Withdrawn
- 2017-01-20 MX MX2017000938A patent/MX2017000938A/es unknown
- 2017-01-20 GB GB1701046.3A patent/GB2548681A/en not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1941079A (zh) * | 2005-09-27 | 2007-04-04 | 通用汽车公司 | 语音识别方法和系统 |
CN103208284A (zh) * | 2012-01-17 | 2013-07-17 | 通用汽车环球科技运作有限责任公司 | 使用声音相关的车辆信息以增强语音识别的方法和系统 |
US20140136187A1 (en) * | 2012-11-15 | 2014-05-15 | Sri International | Vehicle personal assistant |
CN104361887A (zh) * | 2014-11-20 | 2015-02-18 | 哈尔滨工业大学 | 行车噪声环境下的快速声学事件检测系统 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109747533A (zh) * | 2017-11-02 | 2019-05-14 | 福特全球技术公司 | 用于车辆中的倒车辅助的基于加速度计的外部声音监测 |
CN108022596A (zh) * | 2017-11-28 | 2018-05-11 | 湖南海翼电子商务股份有限公司 | 语音信号处理方法及车载电子设备 |
CN108091341A (zh) * | 2017-11-28 | 2018-05-29 | 湖南海翼电子商务股份有限公司 | 语音信号处理方法及车载电子设备 |
CN109087659A (zh) * | 2018-08-03 | 2018-12-25 | 三星电子(中国)研发中心 | 音频优化方法及设备 |
CN112767965A (zh) * | 2019-11-01 | 2021-05-07 | 上海博泰悦臻电子设备制造有限公司 | 噪声识别模型的生成/应用方法、系统、介质及服务/终端 |
CN112652304A (zh) * | 2020-12-02 | 2021-04-13 | 北京百度网讯科技有限公司 | 智能设备的语音交互方法、装置和电子设备 |
CN112652304B (zh) * | 2020-12-02 | 2022-02-01 | 北京百度网讯科技有限公司 | 智能设备的语音交互方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
GB2548681A (en) | 2017-09-27 |
MX2017000938A (es) | 2017-08-11 |
DE102016125104A1 (de) | 2017-07-27 |
US20170213549A1 (en) | 2017-07-27 |
US10297251B2 (en) | 2019-05-21 |
GB201701046D0 (en) | 2017-03-08 |
RU2017101192A (ru) | 2018-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106992002A (zh) | 用于改进含噪语音识别的动态声学模型切换 | |
US10373609B2 (en) | Voice recognition method and apparatus | |
CN108573702B (zh) | 具有域歧义消除的启用语音功能的系统 | |
CN110197670B (zh) | 音频降噪方法、装置及电子设备 | |
KR101922776B1 (ko) | 음성 웨이크업 방법 및 장치 | |
KR102324776B1 (ko) | 차량의 소음원인 진단방법 | |
Latif et al. | Adversarial machine learning and speech emotion recognition: Utilizing generative adversarial networks for robustness | |
CN107910011B (zh) | 一种语音降噪方法、装置、服务器及存储介质 | |
DE102018126133A1 (de) | Generieren von Dialog auf Basis von Verifikationswerten | |
JP6977004B2 (ja) | 車載装置、発声を処理する方法およびプログラム | |
CN105096941A (zh) | 语音识别方法以及装置 | |
CN111325386B (zh) | 交通工具运行状态的预测方法、装置、终端及存储介质 | |
CN108630221A (zh) | 基于量化snr分析和自适应维纳滤波的音频信号质量增强 | |
CN1941079A (zh) | 语音识别方法和系统 | |
KR20160027728A (ko) | 사용자 맞춤형 서비스를 위한 차량 기기 제어 장치 및 방법 | |
US11393473B1 (en) | Device arbitration using audio characteristics | |
CN108597505A (zh) | 语音识别方法、装置及终端设备 | |
CN108320732A (zh) | 生成目标说话人语音识别计算模型的方法和装置 | |
CN111696580B (zh) | 一种语音检测方法、装置、电子设备及存储介质 | |
CN106023986B (zh) | 一种基于声效模式检测的语音识别方法 | |
KR102550598B1 (ko) | 음성 화자 인식 장치 및 그 방법 | |
CN112002307B (zh) | 一种语音识别方法和装置 | |
Loh et al. | Speech recognition interactive system for vehicle | |
JP6791816B2 (ja) | 音声区間検出装置、音声区間検出方法、およびプログラム | |
CN115132197B (zh) | 数据处理方法、装置、电子设备、程序产品及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20170728 |