CN103208284A - 使用声音相关的车辆信息以增强语音识别的方法和系统 - Google Patents
使用声音相关的车辆信息以增强语音识别的方法和系统 Download PDFInfo
- Publication number
- CN103208284A CN103208284A CN2013100192187A CN201310019218A CN103208284A CN 103208284 A CN103208284 A CN 103208284A CN 2013100192187 A CN2013100192187 A CN 2013100192187A CN 201310019218 A CN201310019218 A CN 201310019218A CN 103208284 A CN103208284 A CN 103208284A
- Authority
- CN
- China
- Prior art keywords
- sound
- noise
- parameter
- information
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000005236 sound signal Effects 0.000 claims abstract description 66
- 230000008859 change Effects 0.000 claims description 62
- 230000004044 response Effects 0.000 claims description 59
- 238000012545 processing Methods 0.000 claims description 35
- 230000014509 gene expression Effects 0.000 claims description 32
- 238000005728 strengthening Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 4
- 230000004048 modification Effects 0.000 description 70
- 238000012986 modification Methods 0.000 description 70
- 230000009471 action Effects 0.000 description 53
- 230000006870 function Effects 0.000 description 47
- 238000001228 spectrum Methods 0.000 description 46
- 238000001914 filtration Methods 0.000 description 15
- 238000005259 measurement Methods 0.000 description 13
- 230000015654 memory Effects 0.000 description 11
- 238000003860 storage Methods 0.000 description 9
- 230000008676 import Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000001965 increasing effect Effects 0.000 description 6
- 230000007787 long-term memory Effects 0.000 description 6
- 230000002596 correlated effect Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000002156 mixing Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000036962 time dependent Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010438 heat treatment Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000005352 clarification Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 201000006549 dyspepsia Diseases 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012067 mathematical method Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 206010008190 Cerebrovascular accident Diseases 0.000 description 1
- 206010038743 Restlessness Diseases 0.000 description 1
- 208000006011 Stroke Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005057 refrigeration Methods 0.000 description 1
- 230000009183 running Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Navigation (AREA)
Abstract
本发明涉及使用声音相关的车辆信息以增强语音识别的方法和系统。具体地,在与车辆相关联的处理器中可以接收音频信号。可以由处理器接收表示一个或多个声音的声音相关的车辆信息。声音相关的车辆信息可以或可以不包括音频信号。基于声音相关的车辆信息可以修改语音识别处理或系统。
Description
技术领域
本发明涉及使用例如与声音相关的车辆信息,信号处理,以及其他操作或信息的组合增强车辆语音识别。
背景技术
许多车辆装备有语音对话,语音致动,或语音控制的车辆系统。语音对话系统可以基于言语命令执行功能,提供信息,和/或提供响应。语音对话系统可以将来自麦克风的声音(例如,由车辆乘客发出的言语)处理或转换为音频信号。语音识别可以应用到音频信号,并且识别的言语可以由语义解释器处理。基于言语命令的解释,诸如对话控制系统的系统可以执行动作,产生响应,或执行其他功能。响应可以是例如视频信号,音频信号,文本至语音信号,由车辆系统进行的动作,或对车辆乘客的其他通知的形式。
声音命令的清楚和辨识能力可以影响语音激活车辆系统的功能。然而麦克风在减小声音命令的清晰度的情况下会经常接收与言语和非言语相关的声音的信号。与非言语相关的声音可以包括车辆相关的噪音(例如,发动机噪音,冷却系统噪音等),非车辆相关的噪音(例如,车辆外部的噪音),音频系统声音(例如,音乐,广播相关声音),以及其他声音。非言语相关的声音可能经常大于言语命令,胜过和/或曲解言语命令。因此,如果非言语相关的声音曲解言语命令,则语音识别系统或方法可能不能正确地运作。类似地,系统,例如对话控制系统的精确度在对言语命令产生响应时可以被非言语相关的声音减小。非言语相关的声音,例如,可以曲解或胜过文本至通话响应,音频,以及从语音对话系统和/或其他系统输出的其他信号。因此,需要基于与声音或声学相关的车辆信息以增强语音识别,对话控制,和/或言语提示系统的系统或方法。
发明内容
在与车辆相关的处理器中可以接收音频信号。表示一个或多个声音的声音相关车辆信息可以由处理器接收。声音相关车辆信息可以或可以不包括音频信号。基于声音相关车辆信息可以修改语音识别处理或系统。
本发明还提供了以下方案:
1. 一种方法,包括:
在与车辆相关联的处理器中接收音频信号;
在处理器中接收表示一个或多个声音的声音相关的车辆信息,声音相关的车辆信息不包括音频信号;以及
基于声音相关的车辆信息修改语音识别处理。
2. 如方案1所述的方法,包括基于声音相关的车辆信息确定干扰曲线记录。
3. 如方案2所述的方法,其中基于声音相关的车辆信息修改语音识别处理包括:
基于干扰曲线记录确定滤波器和滤波器参数;以及
应用滤波器至音频信号。
4. 如方案2所述的方法,其中基于声音相关的车辆信息修改语音识别处理包括:
基于干扰曲线记录选择声学模型;以及
使用声学模型解码言语。
5. 如方案2所述的方法,其中基于声音相关的车辆信息修改语音识别处理包括:
基于干扰曲线记录确定自动语音识别模块前端中的滤波器和滤波器参数;以及
将滤波器应用至自动语音识别模块前端中的音频信号。
6. 如方案2所述的方法,其中基于声音相关的车辆信息确定干扰曲线记录包括基于多种类型的声音相关的车辆信息使用逻辑操作确定干扰曲线记录。
7. 如方案1所述的方法,包括:
在增强语音识别功能中基于声音相关的车辆信息测量语音识别修改的成功;以及
基于测量的成功适用语音识别修改。
8. 如方案1所述的方法,包括:
对音频信号中的言语命令产生响应;以及
对车辆乘员输出响应。
9. 一种系统,包括:
存储器;
与车辆相关联的处理器,其用于:
接收音频信号;
接收表示一个或多个声音的声音相关的车辆信息,声音相关的车辆信息不包括音频信号;以及
基于声音相关的车辆信息修改语音识别处理。
10. 如方案9所述的系统,其中处理器用于基于声音相关的车辆信息确定干扰曲线记录。
11. 如方案10所述的系统,其中为了基于声音相关的车辆信息修改语音识别处理,该处理器用于:
基于干扰曲线记录确定滤波器和滤波器参数;以及
应用滤波器至音频信号。
12. 如方案10所述的系统,其中为了基于声音相关的车辆信息修改语音识别处理,该处理器用于:
基于干扰曲线记录选择声学模型;以及
使用声学模型解码言语。
13. 如方案10所述的系统,其中为了基于声音相关的车辆信息修改语音识别处理,该处理器用于:
基于干扰曲线记录确定自动语音识别模块前端中的滤波器和滤波器参数;以及
将滤波器应用至自动语音识别模块前端中的音频信号。
14. 如方案10所述的系统,其中为了基于声音相关的车辆信息确定干扰曲线记录,该处理器用于通过量化声音相关的车辆信息确定干扰曲线记录。
15. 如方案10所述的系统,其中为了基于声音相关的车辆信息确定干扰曲线记录,该处理器用于使用表格确定干扰曲线记录。
16. 如方案9所述的系统,其中处理器用于:
在增强语音识别功能中基于声音相关的车辆信息测量语音识别修改的成功;以及
基于测量的成功适用语音识别修改。
17. 一种方法,包括:
使用一个或多个与车辆相关联的麦克风测量声音;
将表示声音的信号传送至自动语音识别系统;
在控制器接收与引起声音的车辆系统的操作相关的信息;
基于信息计算干扰曲线记录,干扰曲线记录表示噪音类型和噪音水平;以及
基于干扰曲线记录改变语音识别。
18. 如方案17所述的方法,其中基于干扰曲线记录改变语音识别包括:
基于干扰曲线记录选择滤波器和滤波器设置;以及
应用滤波器至信号。
19. 如方案17所述的方法,其中基于干扰曲线记录改变语音识别包括:
基于干扰曲线记录确定声学模型;以及
使用声学模型解码信号中的言语。
20. 如方案17所述的方法,其中基于干扰曲线记录改变语音识别包括:
基于干扰曲线记录选择自动语音识别系统前端中的滤波器;以及
使用自动语音识别系统前端中的滤波器滤波信号。
附图说明
在说明书的总结部分中尤其指出并且清楚地要求保护的是看作本发明的主题。然而,当结合附图阅读时,通过参照以下详细描述可以最佳地理解本发明的组成以及操作方法,以及其目标,特征,和优点。
图1是根据本发明的实施例的具有自动语音识别系统的车辆的示意图;
图2是根据本发明的实施例的自动语音识别系统的示意图;
图3是根据本发明的实施例的语音对话系统的方框图;
图4是根据本发明的实施例的自动语音识别系统的方框图;
图5是根据本发明的实施例的语音对话促使系统的方框图;
图6是根据本发明的实施例的语音对话系统的方框图;以及
图7是根据本发明的实施例的方法的流程图。
将要理解,为简单和清楚地示出,附图中所示的元件不必须按比例绘制。例如,为了清楚,一些元件的尺寸可以相对于其他元件放大。此外,认为合适的话,在附图中附图标记可以重复以表示对应或类似的元件。
具体实施方式
在以下的详细描述中,为了提供本发明的实施例的彻底理解,阐述了许多的细节。然而,本领域技术人员将要理解的是,在没有这些具体细节的情况下可以实施本发明的实施例。在其他示例中,公知的方法,过程,部件,以及电路没有具体描述,以免使本发明不清楚。
除非以其他方式具体地指出,否则从以下讨论中清楚的是,整个说明书讨论中适用的诸如“处理”,“计算”,“存储”,“确定”等术语,表示计算机或计算系统,或类似的电子计算装置的动作和/或处理,其将对表示为计算系统的寄存器和/或存储器内的物理(诸如电子)量的数据进行操作和/或转换为类似表示为计算系统的存储器,寄存器或其他这样的信息存储,传输或显示装置内的物理量的其他数据。
本发明的实施例可以使用声音相关的车辆信息(例如,车辆系统上的信息,其涉及车辆中的声音,但本身不包括声音信号或记录或音频信号或记录),涉及产生或引起声音的车辆系统操作的信号或信息,声学相关的车辆信息,或干扰声音信息(例如,表示窗户位置,发动机每分钟转数(RPM),车辆速度,加热通风与制冷(HVAC)系统风扇设置,音频水平,或其他参数的数据);外部声音测量;以及其他信息以增强语音识别,促进使用,例如语音对话,对话控制,和/或其他的语音对话系统或方法。提示例如可以是从语音对话系统输出到使用者的信息,言语,或其他的音频信号。声音或声学相关的车辆信息本身可以不包括声音信号。例如,声音或声学相关的信息可以表示发动机RPM(例如包括其上的信息),但不是表示发动机产生的声音的信号。声音或声学相关的信息可以表示窗户打开(或打开一定量)的事实(例如包括其上的信息),而不是表示风通过打开的窗户所产生的声音。声音相关的车辆信息可以表示或包括描述车辆或车辆系统的状态的车辆参数。
产生或引起声音的与车辆系统操作相关的声音相关的车辆信息或信号或信息可以用来产生干扰曲线记录(IPR)。干扰曲线记录例如可以包括噪音或声音类型参数,噪音水平或声音强度参数,及其他信息。(在一些实施例中,声音相关的车辆信息可以包括噪声类型参数和/或噪声水平参数。)噪声类型参数例如可以表示或基于一种声音相关的车辆信息(例如,发动机RPM,HVAC风扇设置,窗户位置,音频重放水平,车辆速度,或其他信息)或声音相关车辆信息的类型的组合。例如,噪声类型参数可以包括窗户是否打开或打开多少的指示(但不包括表示风声的信号)。噪声水平参数可以表示声音强度水平相关的车辆信息(例如,HVAC风扇设置高,中,低,或关闭;音频重放水平高,中,低,或关闭;或其他声音相关的车辆信息)或声音相关的车辆信息的组合(例如,打开窗户和阈值速度以上的速度可以表示为风的噪声类型参数和高的噪音水平参数)。例如,噪声水平参数可以包括风扇是否运行或运行多少的指示(但不包括表示风扇的声音的信号)。在一些实施例中,干扰曲线记录可以是或可以包括整数(例如,8位整数或其他类型的整数),百分比,一个范围的值,或其他数据或信息。
在一些实施例中,干扰曲线记录(例如,噪声类型参数,噪声水平参数和/或其他参数)可以用来增强语音识别。干扰曲线记录例如可以由语音识别系统或处理(例如,包括信号处理器,自动语音识别(ASR)系统,或其他系统或方法)使用从而修改或改变声音信号以提高语音识别系统或处理解码。在一个示例中,信号处理器,ASR,或其他系统可以基于干扰曲线记录(例如,噪声类型参数和噪声水平参数),应用预训练的滤波器(例如,Weiner滤波器,梳状滤波器,或其他电子信号滤波器)从而修改或改变输入信号以限制或除去噪音并且提高语音识别。例如,基于噪声类型参数可以应用一种类型的预训练滤波器,并且基于噪声水平参数滤波器设置或参数可以确定和/或应用。滤波器设置或参数例如可以控制或表示滤波器的量或水平或滤波,滤波的频率,或滤波器的其他属性。滤波的水平(例如,滤波的量),滤波的频率,以及滤波器的其他属性例如可以基于可以表示窗户位置(例如,窗户打开了多少的百分比)的噪声水平参数,发动机每分钟转数(RPM),车辆速度,环境控制风扇设置,音频重放水平,或其他车辆参数。例如,如果噪声水平参数表示高水平的噪音而不是低水平的噪音,滤波的更高水平或量而不是低水平可以应用到输入信号中。当然可以使用滤波器水平和噪声水平参数的不同组合。可以使用其他信号处理方法和/或模块。
在一个示例中,基于干扰曲线记录(例如,噪声类型参数和噪声水平参数),ASR或其他系统可以应用预训练声学模型以改进语音识别。基于干扰曲线记录(例如,噪声类型参数,噪声水平参数,和/或其他参数)可以选择一种预训练声学模型(例如,在多个声学模型中)。在一些实施例中,一种声学模型可以对应于一个或多个干扰曲线记录。例如,基于声音相关的车辆信息如果产生了预定的干扰曲线记录,则可以使用预定声学模型。
根据一些实施例,基于干扰曲线记录可以适用语音识别处理的变型。在适用操作中,监督的学习可以用来适用或改变信号修改参数(例如,滤波器参数或其他参数),适用或训练声学模型变换矩阵,适用或改变使用哪个预训练的声学模型,或适用语音对话系统的其他特征。在适用操作中,信号修改参数的效果例如可以通过确定在识别言语中(例如,字,句,以及言语的其他部分)的语音识别系统的ASR或其他部件的成功或有效性进行监控或测量。基于该测量,信号修改参数例如可以适用或改变以改进语音识别和语音对话系统的功能或成功。在一个示例中,基于给定组的噪音类型参数和噪音水平参数可以应用以给定组滤波器参数操作的预定滤波器(例如,Weiner滤波器,梳状滤波器,或其他的滤波器)。基于噪音类型参数和噪音水平参数,适用模块例如可以测量以给定组参数操作的滤波器在增强或改进语音识别中是如何有效或成功的。基于该测量,滤波器参数可以适用或改变以改进或增强语音识别。可以适用其他的信号修改参数。
在一些实施例中,干扰曲线记录(例如,噪音类型参数,噪音水平参数,和/或其他的参数)可以由文本至言语,音频处理,或其他模块或方法进行使用以增强言语提示或语音对话,音频输出,或典型地至乘客的其他的音频信号输出。基于噪音类型参数,噪音水平参数,和/或其他的参数,音频处理模块或其他的系统例如可以增加或减小提示水平,成形或重新成形提示频谱,修改提示程度,或以其他方式改变提示。音频处理模块例如可以增加音频输出音量水平,成形或重新成形音频频谱(例如,音频重放频谱),修改音频重放程度,和/或以其他方式改变音频或声音。基于噪音类型参数,噪音水平参数,和/或其他参数,文本至言语模块或其他系统例如可以修改或改变言语速率,音节持续时间,或其他的言语相关的参数。
根据一些实施例,可以适用基于干扰曲线记录的言语提示,音频输出,或其他音频信号输出的修改。在适用操作中,监督的学习可以用来适用或改变与增加或降低提示水平相关的参数,用于成形或重新成形提示频谱的参数,用来修改提示程度的参数,和/或其他参数。在适用操作中,可以测量用来增加或降低提示水平的参数,用来重新成形提示频谱的参数,用来修改提示程度的参数,和/或其他参数的效果。言语或音频提示的实质或内容可以改变。基于测量,可以适用或改变用来增加或降低提示水平的参数,用来重新成形提示频谱的参数,用来修改提示程度的参数,和/或其他参数以改进或增强提示或音频输出功能。
在一些实施例中,干扰曲线记录(例如,噪音类型参数,噪音水平参数,和/或其他参数)例如可以通过对话控制模块或其他系统或方法使用以增强车辆乘员与语音对话系统的互动。语音对话控制模块或其他系统例如可以基于噪音类型参数,噪音水平参数,和/或其他参数修改对话控制,介绍提示(例如,介绍性的提示),修改音频提示,修改输出言语的实质或内容,修改对话类型,收听并且响应使用者混淆,修改多种形式对话,修改后端应用功能,和/或执行其他操作。
根据一些实施例,可以适用基于干扰曲线记录的语音对话控制的修改。在适用操作中,监督的学习可以用来适用或改变在对话控制中使用的参数,提示介绍,提示修改,对话类型修改,使用者混淆响应,多种形式对话修改,后端应用功能修改,和/或其他的操作。在适用操作中,可以测量在对话控制中使用的参数,提示介绍,提示修改,对话类型修改,使用者混淆响应,多种形式对话修改,后端应用功能修改,和/或其他的操作的效果。基于测量,可以适用或改变在对话控制中使用的参数,提示介绍,提示修改,对话类型修改,使用者混淆响应,多种形式对话修改,后端应用功能修改,和/或其他的操作以改进或增强语音对话系统功能。
根据本发明的实施例的语音对话系统或方法通过基于精确定时的或实时的车辆声音相关的信息,噪声特性的预先理解,以及其他信息,修改或改变自动语音识别,音频提示,对话控制和/或其他操作,可以是尤其有用的。附加地,用来修改或改变自动语音识别,提示,对话控制和/或其他操作的参数可以适用或改变以在语音对话系统的整个寿命中改进语音对话系统的功能。通过本发明的实施例可以实现其他的和不同的优点。
图1是根据本发明的实施例的具有自动语音识别系统的车辆的示意图。车辆10(例如汽车,货车,或其他车辆)可以包括或连接到语音对话系统100。一个或多个麦克风20可以与系统100相关联,并且麦克风20可以接收或记录对话,环境噪声,车辆噪声,音频信号及其他声音。麦克风20可以位于车舱22内部,车舱22外部,或在其他位置。例如,一个麦克风20可以位于车舱22内部并且可以接收或记录言语,非言语相关的声音,噪音,和/或车舱22内部的声音。非言语相关的声音可以包括例如车辆10相关的噪音(例如,发动机噪音,加热通风与制冷(HVAC)系统噪声等),非车辆相关的噪音(例如,车辆外部的噪音),音频系统声音(例如,音乐,广播相关声音),以及其他声音。一个或多个外部麦克风24例如可以位于车舱22的外部(例如,在车身,保险杠,车尾行李箱,挡风玻璃或其他位置上)。
一个或多个传感器可以附着于车辆10或与车辆10相关联。窗户位置传感器60,发动机每分钟转速(RPM)传感器26,车速传感器28(例如,车速表),HVAC传感器30(例如,HVAC风扇设置传感器),音频水平传感器32(例如,音频系统音量水平),外部麦克风24,以及诸如风挡刮水器传感器的其他或不同的传感器可以测量声音相关的车辆信息,车辆参数,车辆状态,车辆外部的噪音,或车辆相关信息。声音相关的车辆信息或干扰声音信息可以例如经由有线链接50(例如,数据总线,控制器区域网(CAN)总线,Flexray,以太网)或无线链接传输至系统100。可以由系统100或其他系统使用声音相关的车辆信息以确定表示声音相关的车辆信息的干扰曲线记录(例如,噪声曲线记录)或其他数据。可以使用其他或不同的传感器或信息。
在本发明的一个实施例中,语音对话系统100可以是或可以包括安装在仪表板上或车辆的控制台中,客舱22中,或车尾行李箱中的计算装置。在替换的实施例中,语音对话系统100可以位于车辆的其他部分中,可以位于车辆的多个部分中,或可以具有远程定位的全部或部分其功能(例如,在远程服务器中或诸如移动电话的便携式计算装置中)。语音对话系统100例如可以执行一个或多个输出语音对话或音频提示至车辆乘客并且输入表示来自车辆乘客的言语的音频信息。
根据一些实施例,扬声器,麦克风,电声换能器,耳机,或其他装置40可以响应于声音命令,语音响应,音频命令,音频警告,信息请求,或其他音频信号输出,广播,或传输音频提示或语音对话。至声音命令的音频提示和/或响应例如可以响应于来自车辆乘客的言语命令,请求,或应答输出。提示例如可以包括关于系统100功能,车辆功能的信息,来自使用者(例如,车辆乘客)的问题请求信息,由使用者请求的信息,或其他信息。在一些实施例中,提示和语音输入可以以其他方式在车辆中使用。
在一些实施例中,显示器,屏幕,或其他图像或视频输出装置42可以输出信息,警告,视频,图像或其他数据至车辆10中的乘客。显示器42上显示的信息例如可以响应于来自车辆10中的驾驶员或其他乘客的信息请求而显示。
在一些实施例中,车辆10可以包括与麦克风20分开或相关联的输入装置或区域44。输入装置或触觉装置44例如可以是触摸屏,键盘,指针装置,转向信号或其他装置。输入装置44例如可以用来使能,停用,或调整语音对话系统100的设置。
尽管论述了各种传感器和输入,在某些实施例中可以仅使用传感器或输入的子集(例如,一个或其他数目)。
图2是根据本发明的实施例的语音对话系统的示意图。语音对话系统100可以包括一个或多个处理器或控制器110,存储器120,长期存储器130,输入装置或区域44,以及输出装置或区域42。输入装置或区域140与输出装置或区域150例如可以组合成可以是系统100的一部分的触屏显示器和输入。
系统100可以包括一个或多个数据库150,其可以包括例如声音或声学相关的车辆信息160(例如,干扰声音信息),干扰曲线记录(IPR)180,语音对话系统实体170,以及其他信息。声音相关的车辆信息160例如可以包括车辆参数,记录的声音,和/或其他信息。数据库150例如可以包括干扰曲线记录180(例如,噪声类型参数、噪声水平参数,和/或其他信息),噪声曲线,噪声曲线记录,和/或表示车辆参数和/或其他信息的其他数据。数据库150可以全部或部分地存储在存储器120,长期存储器130的一个或两者中,或其他装置中。
处理器或控制器110例如可以是中央处理器(CPU),芯片,或任意适当的计算或计算机装置。处理器或控制器110可以包括多个处理器,并且可以包括通用处理器和/或诸如图形处理芯片的专用处理器。处理器110可以执行例如存储在存储器120或长期存储器130中的代码或指令以实施本发明的实施例。
存储器120可以是或可以包括,例如,随机存取存储器(RAM),只读存储器(ROM),动态RAM(DRAM),同步DRAM(SD-RAM),双数据率(DDR)存储芯片,闪速存储器,易失性存储器,非易失性存储器,超高速缓冲存储器,缓冲器,短期存储器单元,长期存储器单元,或其他适当的存储器单元或存储单元。存储器120可以是或可以包括多个存储器单元。
长期存储器130可以是或可以包括,例如,硬盘驱动器,软盘驱动器,光盘(CD)驱动器,可录式光盘(CD-R)驱动器,通用串行总线(USB)装置或其他适当的可移动的和/或固定的存储单元,并且可以包括多个这样的单元或这样的单元的组合。
图3是根据本发明的实施例的语音对话系统的方框图。图3的系统例如可以是图2的系统的一部分,或其他系统的一部分,并且可以将其功能由图2的系统,或由其他系统执行。图3的系统的部件例如可以是专用硬件部分,或可以是由处理器110执行的全部或部分代码。麦克风20或其他输入装置可以接收,记录或测量车辆中声音,噪音,和/或言语。声音可以包括言语,言语命令,语音命令或来自车辆10中的乘客的其他表示。麦克风20可以将包括言语命令的表示输入声音的音频信号或信号200传输或发送至系统100,语音识别系统或处理201,或其他模块或系统。语音识别系统或处理201例如可以包括信号处理器202(例如,语音识别前端),语音识别模件204,以及其他系统或模块。包括言语命令的表示输入声音的音频信号200可以输出到与系统100相关联的自动语音识别系统201,信号处理器或信号处理或增强装置,适用模块,或其他装置。信号处理器202例如可以接收音频信号。信号处理器202例如可以滤波,放大数字化,或以其他方式转换信号200。信号处理器202可以传输信号200至语音识别模件或装置204。自动语音识别(ASR)模块或语音识别模件204可以摘录,识别,或确定来自信号200的字,句,语言,语音,或声音模式。字可以通过例如将音频信号与声学模型,列表,或公知的字,语音和/或句的数据库进行比较而摘录。基于比较,基于最高的相似性和/或匹配的可能性,可能识别的字或句可以排序。ASR模块204可以将表示识别的字或句的信号200输出或传输至语义解释器206。
根据一些实施例,车辆乘客可以输入命令或信息至输入装置44。输入装置44可以传输或输出表示命令或信息的信号至触觉输入识别模块208。触觉输入识别模块208可以识别,解码,摘录,或确定信号中或来自信号的字,句,语言,或语音。触觉输入识别模块208例如可以通过将来自输入44的信号与字,句,语言,或语音的统计的模型,数据库,词典或目录相比较以识别信号中的字,句,语言,或语音。触觉输入识别模块208可以将表示识别的字或句的信号输出或传输至语义解释器206。触觉信号例如可以与来自语义解释器206中的ASR模块204的信号合并或进行比较。
根据一些实施例,语义解释器206可以确定来自ASR模块204,触觉输入识别模块208和/或其他装置或模块的信号输出中的字,句,语言或语音的含义。语义解释器206例如可以是分析程序(例如,语义分析程序)。语义解释器206例如可以将识别的字串与可以表示含义的对话动作进行映射。对话动作例如可以参看应用的实体(例如,应用实体的部件)。例如,使用者可以提供言语命令或字串(例如“为我寻找酒店”)并且语义解释器206可以分析或映射字串至对话动作(例如,信息(类型=酒店))。语义解释器206例如可以使用一种模型,其涉及字至应用实体(例如,应用实体中的对话动作)。模型例如可以被归入语音识别语法(例如,数据库150,存储器120,或其他位置中)和/或其他位置。语音识别模块204可以识别声明中的字并且传输表示字的信号至语义解释器206。对话动作,表示言语命令的信息,和/或其他信息或信号可以输出到对话控制模块210。
在一些实施例中,对话控制模块210可以产生,计算或确定至对话动作的响应。例如,如果对话动作是信息请求(例如,信息(类型=酒店)),对话控制模块210可以确定至提供信息的请求的响应(例如,酒店的位置),请求进一步信息的响应(例如,“你的价格范围是多少?”),或其他响应。对话控制模块210可以结合或关联后端应用212运作。后端应用212例如可以是数据搜索(例如,搜索发动机),导航,立体声或广播控制,音乐检索,或其他类型的应用。
根据一些实施例,反应发生器或响应生成模块214例如可以接收来自对话控制模块210的响应信息。响应生成模块214例如可以公式化或产生文本,短语,或字(例如,公式化句子),用于输出到车辆乘客的响应。
可视示意模块216可以通过响应生成模块214产生显示文本响应输出的图像,系列图像,或视频。可视示意模块216可以输出图像,系列图像,或视频至显示器44或其他装置。
文本至言语模块218可以转换来自响应生成模块214的文本至言语,音频信号输出,或可听信号输出。语音信号可以从文本至言语模块218输出至音频信号处理器220。音频信号处理器220可以从数字至音频转换信号,放大信号,解压缩信号,和/或其他修改或转变信号。音频信号可以输出到扬声器40。扬声器40可以广播响应至车辆乘客。
干扰曲线模块222可以接收声音相关的车辆信息160,车辆参数,接收的声音信号,和/或来自数据总线50或其他源的表示一个或多个声音的其他信息。在一些实施例中,数据总线50可以传输或转换声音相关的车辆信息160至与语音对话系统100相关联的干扰曲线模块222或与系统100相关联的其他模块或装置。
干扰曲线记录(IPR)180可以基于声音相关的车辆信息160通过干扰曲线模块222产生,确定或计算。干扰曲线记录180可以包括噪声水平参数(例如,声音强度参数),噪声或声音类型参数,和/或其他信息。基于声音相关的车辆信息160,接收的声音,和/或表示声音或噪音的其他信息,可以确定噪声水平参数,噪声类型参数、和/或其他参数。例如,声音相关的车辆信息160可以表示或表明加热,通风,和空调(HVAC)系统风扇打开并且以高设置在操作。例如可以产生包括风扇的噪声类型参数(例如,噪声类型=风扇)以及高噪声水平参数(例如,噪声水平=高)的IPR 180以表示指示HVAC风扇在高设置的声音相关的车辆信息160。可以产生包括噪声类型参数,噪声水平参数,以及其他参数的其他参数的其他IPR 180。噪声水平参数和噪声类型参数可以表示车辆中的噪音或声音或车辆中类似存在的噪音或声音,但典型地不包括实际噪音或声音的音频信号或记录。
根据一些实施例,基于噪声水平参数,噪声类型参数,和/或其他参数,修改模块或步骤224可以改变或修改音频信号200,滤波器噪音,和/或以其他方式修改自动语音识别。在一些实施例中,通过应用滤波器至音频信号200,确定在语音识别中使用的声学模型,和/或以其他方式增强信号处理202,语音识别204,或语音识别步骤或处理,修改模块224可以修改音频信号200。
根据一些实施例,干扰曲线记录例如可以通过文本至对话218,音频处理220,或其他模块或方法进行使用以增强从系统100输出的音频言语提示,声频输出,或其他声音或广播。文本至对话218参数或输出可以通过增加或降低言语速度,增加或降低音节持续时间,和/或以其他方式修改从系统100的言语输出(例如,经由扬声器40)可以进行修改。基于干扰曲线记录(例如,噪声类型参数,噪声水平参数,及其他参数)可以修改与音频处理220相关的参数(例如,提示水平,提示频谱,音频重放,或其他参数)。来自系统的音频输出例如可以通过增加提示水平(例如,音量),改变提示音高,成形或重新成形提示频谱(例如,以增加信号噪音比),增强音频重放(例如,立体声重放),和/或以其他方式增强或改变来自系统100的声频输出(例如,经由扬声器40)而修改。
可以使用文本至言语218,音频处理220,和/或其他类型言语提示或声频输出修改224的组合。例如,可以使用Lombard类型或其他类型的言语修改。Lombard类型修改例如可以以人在喧吵环境下,具有背景噪声的环境下,或在沟通很困难的设置中的对话为模型。Lombard类型修改例如可以使用音频处理220,文本至言语218,或其他模块和/或操作修改音频频谱,音高,言语速度,音节持续时间及其他音频特性。
根据一些实施例,基于噪声水平参数,噪声类型参数,和/或其他参数,可以修改和/或改变对话控制210或与言语对话系统100相关联的其他系统或处理。例如通过实施或利用澄清动作(例如,询问使用者输入的清楚的确认,以重复输入,或其他澄清),确定并且输出介绍的音频提示(例如,在窗户下降,高发动机RPM,或基于其他车辆参数时声音识别可能困难,提示使用者使用输出言语),修改提示(例如,控制提示的速度或定时),修改对话类型(例如,提示使用者单一的轨迹或简单的信息而不是复杂信息,强制使用精确的短语,避免混合的主动以及其他修改),监控并且响应使用者混淆,和/或以其他方式修改对话控制210,对话控制210可以修改或改变(例如,通过修改模块224)。在一些实施例中,多种形式对话(例如,结合触觉,视觉或其他对话的语音对话)例如可以修改(例如,通过修改模块224)。例如,通过在言语提示上恢复成,评价,或证实可见显示,通过还原为系统假设的可见显示(例如,对于信息以及其他提示的问题,请求),提示或请求来自使用者的触觉确认(例如,提示使用者从显示在触摸屏或其他输出装置上的响应的清单中选择响应),鼓励使用者触觉形式(例如,减少与语义解释器206相关联的信任水平),基于应用功能的子集的其他形式从言语切换(例如通过触觉装置的简单命令和控制),或其他修改,多种形式对话可以修改。基于干扰曲线记录可以修改后端应用功能(例如,通过修改模块224)。例如,后端应用服务或特征的功能可以锁定,减少,或以其他方式修改(例如,锁定语音搜索,允许广播控制,以及其他服务)。
图4是根据本发明的实施例的自动语音识别系统的方框图。根据一些实施例,干扰曲线模块222可以接收声音相关的车辆信息160,例如包括或表示来自数据总线50的车辆参数以及其他信息。车辆参数例如可以包括窗户位置(例如,打开或关闭,打开一定量等),发动机设置(例如发动机每分钟转数(RPM)),车辆速度,HVAC风扇设置(例如,关闭,低,中,高),音频重放水平,或其他车辆相关参数。根据一些实施例,干扰曲线模块222可以接收来自麦克风的声音相关的车辆信息160(例如,外部麦克风24,内部麦克风20,或其他麦克风)。在一些实施例中,来自麦克风的声音相关的车辆信息160可以包括非言语相关的声音,车辆相关的声音,非车辆相关的声音,基础结构声音,风噪音,路面噪音,来自车舱外的人的言语,环境声音。干扰模块222例如可以基于声音相关的车辆信息160产生干扰曲线记录(IPR)180。
干扰曲线记录180例如可以是表格,数据集,数据库,或其他组信息。每个IPR 180例如可以是声音相关的车辆信息160(例如,车辆参数以及其他声音或信息)的表现。例如IPR 180可以包括噪音水平参数304(例如,声音强度参数),噪音类型参数306(例如,声音类型参数或噪音分类参数),以及表示声音相关的车辆信息160的其他参数。在一些实施例中,噪音水平参数304,噪音类型参数306,以及其他参数可以表示声音相关的车辆信息160的种类的组合(例如,车辆参数,接收的声音,和/或其他声音或信息)。包括噪音水平参数304,噪音类型参数306,和/或其他参数的IPR 180例如可以表示实时的,连续的,或在预定时间段的车辆参数(例如,发动机RPM,HVAC风扇设置,窗户位置等)或车辆相关的声音。当语音对话系统100启动,车辆在任何时间通电,或在其他时间,干扰曲线记录180例如可以连续,实时产生。
噪音类型参数306例如可以是表示或源自包括车辆参数(例如,发动机RPM,窗户位置,HVAC风扇设置,车辆速度,音频重放水平,以及其他参数)的声音相关的车辆信息160和/或其他信息的分类,归类,标签,标记,或信息。基于接收自CAN总线50的信号(例如,声音相关的车辆信息160),噪音或声音类型参数306例如可以确定,产生,或分配。接收自CAN总线50的信号例如可以表示或包括声音相关的车辆信息160,其可以表示车辆参数(例如,车辆窗户位置,发动机RPM,车辆速度,HVAC风扇设置,音频重放水平,以及其他参数)和/或其他信息。噪音类型参数306例如可以表示车辆参数,预先限定的车辆参数的组合,或接收自CAN总线50的其他信息。例如,如果信号接收自CAN总线50显示发动机RPM高于阈值RPM值,发动机的噪音类型参数306(例如,噪音_类型=发动机)可以产生或分配。例如,经由CAN总线50接收的显示HVAC系统在某设置的信号可以导致风扇的噪音或声音类型参数306的产生或分配(例如,噪音_类型=风扇)。例如,显示窗户打开的声音相关的车辆信息160可以导致窗户的噪音类型参数306的分配(例如,噪音_类型=窗户)。可以使用其他的噪音类型参数306确定,分配,以及分类。
噪音水平参数304例如可以源自于车辆参数(例如,包括风扇刻度或输入设置,HVAC系统设置,发动机RPM,车辆速度,音频重放水平,和/或其他的车辆参数)。噪音水平参数304例如可以是声音水平(例如,声音分贝水平(dB))的表示或声音水平或特征的其他测量。噪音水平参数304例如可以是低,中,高或其他参数并且可以表示或定量声音强度的范围。
在一些实施例中,干扰曲线记录180(例如,噪音水平参数304以及噪音类型参数306)可以使用逻辑(例如,使用度量或阈值),数学方法,表格(例如查找表),或其他操作确定,产生,或计算。例如,如果声音相关的车辆信息160显示发动机RPM高于预定阈值,可以确定或产生发动机的噪音类型参数306(例如,噪音_类型=发动机)以及高的噪音水平参数304(例如,噪音_类型=高)。例如,如果来自数据总线的车辆参数显示HVAC风扇在高设置,可以分配等于风扇的噪音类型参数306(例如,噪音_类型=风扇),高的噪音水平参数304(噪音_水平=高),和/或其他的参数。可以使用其他的操作。典型地,噪音类型参数是从清单,例如,发动机,窗户打开,风扇,风,音频,音频等中选出来的离散参数。然而,可以使用其他的噪音类型参数。噪音类型参数和噪音水平参数典型地不包括关于产生的实际噪音的录音或其他的直接信息。
在一些实施例中,多种类型的声音相关的车辆信息160的组合(例如,车辆参数,测量的声音,以及其他声音或信息)在一些实施例中可以以逻辑操作和/或其他的数学操作使用以确定或计算干扰曲线记录180(例如,噪音水平参数304和噪音类型参数306)。例如,如果来自数据总线的声音相关的车辆信息160显示车辆速度大于阈值速度(例如,70英里/小时(mph)或其他速度)以及窗户位置超过阈值(例如,超过25%打开或其他阈值),可以确定,分配,或产生高的噪音水平参数304(例如,噪音_水平=高)和等于风的噪音类型参数306(例如,噪音_类型=风)。可以使用其他的阈值和参数。
在一些实施例中,干扰曲线记录180可以使用量化或其他操作确定,产生,或计算。声音相关的车辆信息160,车辆参数,测量的声音,或其他信息例如可以量化以确定噪音水平参数304值和噪音类型参数306值。例如,发动机RPM值可以量化为8位或其他大小的整数噪音水平参数304值。噪音水平参数304(例如,8位整数表示发动机噪声)例如可以包括与发动机特征相关的信息(例如,发动机基本的频率和谐波)。音频重放水平,例如可以量化为8位或其他大小的整数。每个8位整数例如可以表示干扰曲线记录180(例如,噪音水平参数304)。可以使用其他的量化步骤。
根据一些实施例,修改模块或处理224可以基于干扰曲线记录180修改音频信号200,滤波器信号,以及改进语音对话系统100功能。在一些实施例中,修改模块或处理224可以修改音频信号200,滤波器噪音,音频信号200的修改特征,和/或以其他方式独立于语音识别装置300(例如,在语音识别204之前),依赖于语音识别302(例如,在语音识别204期间,使用例如ASR前端314),或在其他步骤或处理期间,改变声音信号200。
在一些实施例中,音频信号200(例如,来自麦克风20的输出)可以独立于语音识别模块204或在语音识别模块204中接收之前进行修改,滤波或改变。例如,系统100可以包括多个滤波器312(例如,Weiner滤波器,梳状滤波器,模拟,数字,被动,主动,离散时间,连续时间,以及其他类型的滤波器)并且每个滤波器312可以包括滤波器参数320。滤波器312例如可以存储在存储器120,数据库150,长期存储器130,或类似的存储装置中。每个滤波器312和滤波器参数320例如,可以最佳地用于滤波某些噪音水平参数304和噪音类型参数306。音频信号200例如可以在信号处理202期间修改和/或改变。音频信号200可以基于干扰曲线记录180(例如,噪音类型参数306和噪音水平参数304)在信号处理202期间修改。基于噪音类型参数306,修改模块310例如可以确定滤波器312(例如,Weiner滤波器,梳状滤波器,低通滤波器,高通滤波器,带通滤波器,或其他类型的滤波器)或其他模块或装置以滤波,限制,或减少干扰噪音。滤波器参数322(例如,频率,振幅,谐波,调音,或其他参数)例如可以基于噪音水平参数304确定。滤波器312可以应用到信号处理器202或在其他模块或步骤中的输入信号,音频信号200,或其他类型的信号中。
根据一些实施例,如果IPR 180显示风噪音(例如,噪音_类型=风)可能存在,可以通过信号处理器202应用滤波器312(例如,Weiner滤波器)以滤波或减少音频信号200中的风噪音。在一些实施例中,Weiner滤波器参数320可以基于噪音水平参数304(例如,噪音_水平=高,中,低,或关闭),噪音类型参数306,以及其他参数而确定。例如,修改模块224可以包括预定的Weiner滤波器参数320以基于给定的噪音水平参数304在信号处理202期间应用。滤波器312(例如,Weiner滤波器)应用后,信号中减少或限制了风噪音的音频信号200例如可以输出到自动语音识别(ASR)模块204。
根据一些实施例,如果IPR 180显示可能存在发动机噪音(噪音_类型=发动机),在信号处理202期间可以应用时间改变的梳状滤波器312以滤出发动机噪声。随时间变化的梳状滤波器312参数例如可以基于噪音水平参数304(例如,表示发动机噪音的8位整数)而确定。噪音水平参数304(例如,8位整数表示发动机噪声)例如可以包括与发动机特征相关的信息(例如,发动机基本的频率和谐波)。基于噪音水平参数304,随时间变化的梳状滤波器312参数例如可以确定。随时间变化的梳状滤波器参数322例如可以确定从而梳状滤波器与音频信号200的发动机噪声部分中的基本的频率和谐波对齐。具有与音频信号200的发动机噪音部分中的基本的频率和谐波对齐的参数322的随时间变化的梳状滤波器参数322可以在声音信号200转换(例如,信号傅里叶变换)中衰减或减少发动机基本的频率和谐波的强度。具有衰减或减少的基本的发动机频率和振幅的信号200例如可以输出到自动语音识别解码器316中。自动语音识别解码器316可以解释音频信号200中的言语,命令,或其他信息。
根据一些实施例,可以测量在增加的语音识别功能中基于噪音类型参数和噪音水平参数的语音识别修改的成功。基于该测量,可以适用成功的语音识别修改(例如,在学习或监督的学习操作期间)。
根据一些实施例,使用给定干扰曲线记录180(例如,噪音类型参数306和噪音水平参数304)的滤波器参数322(例如,Weiner滤波器,梳状滤波器等)可以在制造期间,在适用处理320期间(例如,学习或监督的学习操作),或其他时间中限定。滤波器参数322例如,可以确定从而滤波器312在除去来自音频信号200的噪音时最有效。在适用处理320期间,与信号200相关的信号200和IPR 180可以在系统100接收(例如,在适用模块320处)。例如,信号200可以包括言语,噪音,以及可能的其他声音。与信号200相关的干扰曲线记录180例如可以在同时或大致同时接收信号200时并行地从数据总线50输出。适用模块320例如可以通过将信号200与(例如,用预定滤波器参数320操作的)来自滤波器312的信号输出进行比较或使用其他方法测量在从信号200除去噪音时滤波器参数322如何有效(例如,基于IPR 180得出或确定)。在改进语音识别中成功或滤波器参数322可以使用其他的方法和/或度量进行测量。适用模块320可以基于测量变化或适用滤波器参数322以更有效地从与给定IPR 180相关的信号200中除去噪音(例如,给定噪音类型参数306和噪音水平参数304)。适用步骤320例如可以是当车辆由驾驶员驾驶时或在其他时间并且滤波器参数322可以基于监督的学习或其他的方法适用时而执行。
例如,在适用处理320期间,车辆可以在窗户打开时以超过预定阈值速度驾驶并且高的噪音水平参数304和风的噪音类型参数306(例如,噪音_类型=风)可以产生。在适用操作320期间,包括言语以及其他噪音(例如,车辆相关的噪音)的信号200可以在系统100处接收(例如,来自麦克风20)。适用模块320例如可以测量在从信号200中除去噪音时滤波器参数322如何有效(例如,基于噪音类型参数306和噪音水平参数304)。在一些实施例中,通过将信号200与来自滤波器312的信号输出进行比较(例如,用预先确定的滤波器参数320操作)或使用其他的方法,可以测量在从信号200中除去噪音时滤波器参数322如何有效。与噪音类型参数306和噪音水平参数304相关的滤波器参数322例如可以适用或改变为更有效的滤波器或从信号200中除去噪音。在一些实施例中,如果在从信号中除去噪音时测量的滤波器参数322是有效的或成功的,与噪音类型参数306和噪音水平参数304相关的滤波器参数322可以不改变或适用。滤波器参数322的成功或有效例如可以通过估计给定滤波器参数322的语音识别204的性能或功能而确定。可以使用其他的方法和度量。
根据一些实施例,修改模块310可以修改语音识别模块204中的模块和/或装置内的音频信号200。音频信号200,例如可以从麦克风20或类似装置接收并且可以包括来自车辆乘员(例如,乘客,驾驶员等)的言语以及其他声音(例如,背景噪音,车辆相关的声音,以及其他声音)。语音识别模块204例如可以包括自动语音识别(ASR)前端314。基于IPR 180,信号可以在ASR前端314修改以滤波出噪音(例如,风噪音,发动机噪音或其他类型的噪音)或以其他方式修改音频信号200。滤波器312(例如,Weiner滤波器)例如可以用于ASR前端314中的信号200以从音频信号200中滤波出风噪音。该类型的滤波器312和滤波器参数322可以基于噪音类型参数306和噪音水平参数304确定。例如,车辆10可以在窗户打开时以超过阈值速度的速度移动并且可以产生风的噪音类型参数306和高的噪音水平参数304。基于风的噪音类型参数306和高的噪音水平参数304,具有预定滤波器参数322的滤波器312(例如,Weiner滤波器)可以应用到ASR前端314中的信号200中。
根据一些实施例,自动语音识别模块204可以包括声学模型318。在声音分析以解码言语期间可以选择在多个声学模型318中的具体的以前产生的声学模型,模型的选择例如取决于干扰曲线记录180(例如,噪音水平参数304和/或噪音类型参数306)。声学模型318可以是或可以包括表示音素,声音,字,句或言语的其他元素以及它们相关的或典型的波形之间关系的统计模型(例如,Hidden Markov Model(HMM)统计模型或其他统计模型)。
根据一些实施例,IPR 180(例如,噪音水平参数304,噪音类型参数306,或其他参数)可以用来确定,选择或挑选在语音识别操作中使用哪个声学模型318。例如,IPR 180(例如,高的噪音水平参数304和窗户的噪音类型参数306)可以显示信号中高的窗户噪音。修改模块310可以基于显示高的窗户噪音的IPR 180,在一些声学模型318中选择或确定最适于解码具有高的窗户噪音的信号中的言语的声学模型318。
在适用操作320,制造,试验,或其他时间期间,可以从言语采样中适用,训练或产生声学模型318。基于噪音水平参数304和噪音类型参数306在适用操作320期间(例如,监督的学习操作)例如可以适用声学模型318。适用模块320例如可以测量声学模型322(例如,基于IPR 180确定的)在从信号200中解码言语时如何有效。可以测量在改进语音识别时声学模型322(例如,包括预定声学模型变换矩阵)的成功以及基于测量可以适用声学模型322。例如可以使用最大似然线性回归或其他的数学方法适用声学模型322以适用或者训练结合预定噪音类型参数306和噪音水平参数304使用的声学模型变换矩阵。
例如,在适用或训练操作期间,车辆10可以在窗户打开的情况下以超过阈值速度驾驶。高的噪音水平参数304和风的噪音类型参数306(例如噪音_类型=风)可以产生并且输出至适用模块320。言语以及其他噪音可以记录(例如,由麦克风20)并且包括言语的信号200可以输出到适用模块320。可以测量基于风的噪音类型参数306(例如,噪音_类型=风)和高的噪音水平参数304(例如,噪音_水平=高)的解码言语中的声学模型318的成功。基于测量,使用最大似然线性回归技术或其他的数学或统计方法可以产生或适用声学模型变换矩阵。当产生显示高的风噪音(例如,风的噪音类型参数306和高的噪音水平参数304)的干扰曲线记录180时,具有适用的声学模型变换矩阵的声学模型318例如可以在随后的系统100操作中使用。
当车辆10由驾驶员驾驶的同时例如可以执行适用320(例如,包括监督的学习),并且声学模型318可以基于监督的学习改变或修改。最适合于在具有高的窗户噪音的信号中解码言语的声学模型318例如可以在具有高的风噪音的监督的学习操作期间已经训练或限定。
图5是根据本发明的实施例的增强语音对话音频提示的方框图。根据一些实施例,干扰曲线记录180(例如,包括噪音类型参数306和噪音水平参数304)可以用来修改音频信号400(例如,从系统100输出)。干扰曲线记录180(例如,噪音类型参数306和噪音水平参数304)可以由文本至言语218,音频处理220,或其他模块或方法使用以提高言语提示,声音输出,或从系统100的广播输出。
根据一些实施例,修改模块224可以基于干扰曲线记录180(例如,噪音类型参数306,噪音水平参数304,以及其他参数)修改与音频处理220相关的参数(例如,提示水平,提示频谱,提示程度,声音型谱,音频水平,或其他参数)。修改模块224例如可以增加提示水平(例如,音量),改变提示频谱,成形和/或重新成形提示频谱(例如,增加信号噪音比),增强音频重放(例如,立体重放),和/或以其他方式增强或改变从系统100的声音输出(例如,经由扬声器40)。例如,如果噪音水平参数304显示信号400中的噪音超过阈值水平(例如,dB水平),可以增加提示水平(例如,来自扬声器40的输出)音频水平407。
在一些实施例中,提示频谱402例如可以修改,成形,或重新成形。提示可以是来自系统100的音频或声音输出,例如,包括对车辆乘员的言语并且提示频谱402例如可以是音频频谱,包括一定范围的频率,强度,声音压力,声音能量,和/或其他声音相关的参数。提示频谱402例如可以修改,成形,或重新成形以增加车辆10中的信号噪音比(例如,在车辆内部中或在车辆乘员的附近)。提示频谱402例如可以修改以增强或放大对应于来自车辆相关的声音中高噪音能量(例如,发动机噪音,风噪音,风扇噪音,以及其他声音)的频谱部分中的提示频谱402(例如,频率频谱,能量频谱,或其他类型的声音相关的频谱)。提示频谱402例如可以放大具有高的噪音能量的频谱的一部分以增加信号噪音比,其可以表示提示声音水平(例如,从系统100的提示输出)与车辆内部中的噪音水平(例如,发动机噪音,风噪音,HVAC风扇噪音,以及其他噪音)的比率。提示频谱402例如可以使用音频处理器模块220,文本至言语模块218,或其他系统或模块进行修改。
在一个实施例中,噪音类型参数306可以显示发动机噪音(例如,噪音_类型参数=发动机)以及噪音水平参数304可以表示发动机噪音的水平。噪音水平参数304例如可以是发动机RPM的量化表现(例如,8位整数或表示发动机RPM的其他整数)。基于噪音水平参数304(例如,发动机RPM的量化表示),修改模块224可以放大或加强提示频谱402的预定部分。例如,噪音类型参数306和噪音水平参数304可以对应于声音频谱的低频率部分(例如,低于1000赫兹(Hz)或其他频率)中的高噪音能量和频谱的高频率部分(例如,高于1000赫兹(Hz)或其他频率)中的低噪声能量。提示频率频谱402的低频率部分(例如,低于1000赫兹或其他频率)可以放大或加强以增加低频率的提示与发动机噪音的比率。
在一些实施例中,音频频谱404(例如,来自立体声,收音机或其他装置)例如可以修改或重新成形。音频频谱404例如可以修改或重新成形以增加车辆中的音频信号与噪音的比率。音频频谱404例如可以使用音频处理模块220和/或其他装置或模块进行修改。音频信号404例如可以修改以加强或放大对应于来自车辆相关的声音中高噪音能量(例如,发动机噪音,风噪音,风扇噪音,以及其他声音)的音频频谱404的部分中的音频频谱404(例如,音频频率频谱,音频能量频谱,或其他类型的声音相关的频谱)。音频频谱404例如可以放大具有高噪音能量的频谱的一部分以增加信号噪音比,其可以表示车辆内部中的音频(例如,来自扬声器40的音频输出)与噪音的比率。
根据一些实施例,音频提示或音频程度406可以基于干扰曲线记录180修改或改变。提示或音频程度406例如可以基于噪音类型参数306和噪音水平参数304修改以增加提示或音频(例如,来自扬声器40的输出)的清晰度和/或可理解性。例如,噪音类型参数306可以显示车辆10中风噪音的存在并且噪音水平参数304可以表示风噪音的水平(例如,风噪音的音量)。基于噪音水平参数304(例如,低,中,高,或其他参数),可以改变(例如,使得更高或更低)提示或音频程度406(例如,与频率相关)。提示或音频程度406的改变例如可以取决于噪音水平参数306的比率或以其他方式与噪音水平参数306相关的。例如,在比柔软的车辆噪音更大的车辆噪音存在时,提示或音频程度406可以进一步改变(例如,与如果噪音水平参数304中或低相比,如果噪音水平参数304高,可以更高的改变)。在一些实施例中,基于噪音类型参数306和噪音水平参数304,提示或音频程度306可以更低地减少或改变。
根据一些实施例,修改模块224通过增加或减少言语速率410,增加或减少音节持续时间412,和/或以其他方式修改从系统100的言语输出(例如,经由扬声器40)例如可以修改文本至言语218输出。言语速率410例如可以基于噪音类型参数306,噪音水平参数304,和/或其他信息修改。言语速率410例如可以修改以减少高噪音条件中提示的言语速率410(例如,如果噪音水平参数306更高或其他值)。降低言语速率410例如可以增加在大声或高噪音环境(例如,在具有大声的车辆相关的声音的车辆中)中语音对话的可理解性。在一些实施例中,言语速率410可以基于噪音类型参数306和噪音水平参数304增加以增加来自系统100的语音对语话频提示的可理解性。
根据一些实施例,提示 音节持续时间412例如可以基于噪音类型参数306,噪音水平参数304,和/或其他信息修改。提示音节持续时间412例如可以包括辅音,元音,和/或与人言语相关的其他音节的发音的持续时间。音节持续时间412例如可以取决于或相对于噪音水平参数304按比例增加。例如,音节持续时间412相对于由噪音类型参数306和噪音水平参数304表示的车辆相关的声音(例如,发动机噪音,HVAC系统噪音,风噪音以及其他声音)增加而增加(例如,音节发音的持续时间可以更长)。
在一些实施例中,可以修改文本至言语218,音频处理220,和/或其他类型的言语提示或声频输出。修改模块224例如可以使用Lombard类型或其他的言语修改。Lombard类型修改可以模拟人言语修改或在高声环境,具有高背景噪音的环境,或其他高噪音水平环境中补偿。Lombard类型修改例如可以包括从包括修改提示信号频谱402,修改提示信号程度406,修改提示信号言语速率410,和修改提示信号音节持续时间412的组中选择出的信号400修改的任何组合。Lombard类型修改例如可以取决于噪音类型参数306,噪音水平参数304,以及其他信息。例如,显示高的风噪音可能存在时,风的噪音类型参数306(例如,噪音_类型=风)和高的噪音水平参数304可以产生。基于噪音类型参数306和噪音水平参数304,可以修改提示频谱402,提示程度406,提示言语速率410,提示音节持续时间412,和/或其他提示参数的预定组合以增加提示的可理解性。在制造,试验,适用320,或其他处理期间例如可以确定噪音类型参数306和噪音水平参数304的应用预定组合的给定组合。预定组合例如可以是最佳地增加言语提示的可理解性,可懂性或清晰度的组合。
根据一些实施例,可以适用320提示修改以改进提示的清晰度和/或可理解性。与预定噪音类型参数306,噪音水平参数304,以及其他参数相关的提示修改224的有效性或影响进行测量和适用或可以基于测量进行改变。提示修改的有效性例如可以通过监控使用者或乘员对修改提示的响应进行测量。例如,提示可以基于噪音类型参数306,噪音水平参数304,和/或其他参数进行修改并且乘员对提示的响应可以测量。例如,提示可以引起或请求来自乘员的响应。如果乘员对提示不作出响应,以不可预知的方式对提示作出响应(例如,提供了混淆的响应),或执行其他动作,可以确定可以适用提示修改224以改进提示的清晰度。在一个示例中,提示修改224例如可以通过使得提示修改224停用而适用。例如,如果确定提示修改224不改进言语提示的清晰度或可理解性,可以停止或停用提示修改224(例如,提示修改模块)。在一个示例中,提示修改224通过改变提示修改参数(例如,频谱,程度,言语速率,音节持续时间,和/或其他提示修改参数)可以修改。例如,提示频谱402修改参数可以适用或改变以改进言语提示的清晰度。提示频谱402修改参数例如可以适合于加强或提高提示频谱402的不同部分中的提示信号400。可以使用其他的适用方法。
图6是根据本发明的实施例的语音对话控制系统的方框图。根据一些实施例,对话控制210或与语音对话系统100的其他系统或处理可以基于噪音类型参数304,噪音水平参数306,和/或其他参数进行修改或改变224。
对话控制动作500可以基于干扰曲线记录180(例如,噪音类型参数306,噪音水平参数304,和/或其他参数)进行修改224。对话控制作用500例如可以通过对话控制210模块操作而执行并且可以包括提示输出到使用者,与输入或输出确定相关的动作,或其他操作。对话控制作用500例如可以包括解释动作502,减少语义解释器信任水平504,以及其他处理或操作。对话控制动作500例如可以基于干扰曲线记录180(例如,噪音类型参数306,噪音水平参数304,和/或其他参数)通过实施解释动作502进行修改。如果噪音类型参数306和噪音水平参数304显示在车辆10附近(例如,在车舱)可能存在高噪音,解释动作502例如可以实施或利用。
根据一些实施例,解释动作502可以包括使用者输入的清楚的确认,音频提示或询问使用者重复输入,或以其他方式提示使用者解释输入。请求使用者输入的清楚确认的音频提示508例如可以是输出(例如,使用扬声器40)。例如,使用者可以询问(例如,输入言语至语音对话系统请求信息)语音对话以寻找餐厅(例如,“最近的餐厅在哪里?”)。如果噪音类型参数306和噪音水平参数304显示存在高水平或噪音(例如,车辆相关的噪音或声音的高水平),语音对话模块210例如可以输出使用者语句的提示请求确认。音频提示508例如可以输出,询问使用者证实使用者正在寻找餐厅(例如,“你是否在说‘最近的餐厅在哪里?’”)。如果噪音类型参数306和噪音水平参数304显示可能存在背景噪音,当使用者输入难以理解,或在其他时间时,每次使用者提供输入时提示508可以输出请求使用者输入的清楚的确认。可以使用其他的解释动作或提示。
根据一些实施例,解释动作502可以包括询问或请求使用者重复输入。对话控制模块210例如可以输出提示,请求使用者重复它们的输入。例如,如果使用者询问语音对话系统100去寻找最近的酒店(例如,“最近的酒店在哪里”)并且噪音类型参数306和/或噪音水平参数304显示可能发生高噪音水平(例如,噪音_水平=高),提示可以输出,请求使用者重复它们的输入。提示508例如可以输出,询问使用者重复他们的语句(例如,“请重复”,“我没有听清楚,请重复”,或其他重复的请求)。如果噪音类型参数306和噪音水平参数304显示可能存在背景噪音,当使用者输入难以理解,或在其他时间时,每次使用者提供输入时提示508可以输出请求使用者重复他们的输入。可以使用其他的解释动作502。
根据一些实施例,可以鼓励解释动作502和/或通过改变语义解释器信任水平504(例如,通过减少信任水平504或以其他方式改变信任水平504)可以增加解释动作502的可能性。信任水平504可以基于噪音类型参数306和噪音水平参数304进行改变或修改。信任水平504例如可以表示来自使用者的字串,短语,或其他言语输入(例如,“为我找酒店”)与语音对话系统实体170中的对话动作相匹配或相对应(例如,通知(类型=酒店))的可能性或确定性。信任水平504例如可以是表示字串与语音对话系统实体170中的对话动作匹配的信任度,可能性,或概率的百分比,数值,或其他参数。信任水平504例如可以与由语义解释器206产生的对话动作相关联。对话动作和相关的信任水平504例如可以从语义解释器206输出到对话控制模块210。对话控制模块210例如可以基于对话动作和相关的信任水平504产生输出到使用者的响应。例如,如果信任水平504低于阈值信任水平506,对话控制模块504可以执行解释动作502(例如,请求使用者输入的清楚的确认,请求使用者重复输入,以及其他解释动作)。如果与对话动作相关的信任水平504高于阈值信任水平506,对话动作可以视为使用者的输入的正确解释(例如,使用者的语音对话转换为字串)并且对话控制模块210例如可以产生响应,执行动作,或以其他方式响应于对话动作。
根据一些实施例,从语义解释器206输出的信任水平504例如可以基于噪音类型参数306,噪音水平参数304,和/或其他信息进行修改或减少。例如,如果噪音水平参数304显示可能存在车辆相关的噪音超过预定阈值(例如,噪音_水平=中,噪音_水平=高,或其他噪音_水平值),可以减少来自语义解释器的信任水平504输入。在一些实施例中,如果噪音类型参数306和/或噪音水平参数304显示对高的噪音水平的缓和在车辆10中可能发生(例如,车辆客舱中),信任水平504例如可以从百分之九十(例如,90%)减少至例如百分之八十(例如,80%)或其他值。可以使用其他的信任水平504。
信任水平504中的减少例如可以是非线性的。无论噪音类型参数306和/或噪音水平参数304显示背景噪音是否可能存在,超过预定边界信任水平的信任水平504例如可以不减少或改变。例如,当低于边界阈值(例如,百分之九十五或其他值)的信任水平504可能减少的同时,超过边界阈值(例如,百分之九十五或其他值)信任水平504(例如,与对话动作相关的)可以不改变或减少。可以使用其他的边界阈值。
根据一些实施例,可以适用320给定干扰曲线记录(例如,噪音类型参数306,噪音水平参数304,以及其他信息)的对话控制动作500的修改。例如,通过测量噪音类型参数306和/或噪音水平参数304与对话控制210成功或功能之间的相互关系,可以适用对话控制动作500(例如,执行解释动作502,减少信任水平504,以及其他修改)的修改。在适用处理320中例如可以确定给定干扰曲线记录180的对话控制210的最佳修改。用于给定干扰曲线记录180的对话控制的最佳修改可以是对使用者最少麻烦的和/或最佳改进系统100功能的修改。例如,噪音类型参数306与噪音水平参数304可以显示高的风噪音可能存在并且语义解释器信任水平504可以基于噪音类型参数306和噪音水平参数304修改224。可以测量具有修改的信任水平504的对话控制210功能(例如,对话控制210的成功或对话控制210成功)。基于对话控制210是否输出对使用者输入的适当的响应,例如可以测量对话控制210功能或成功。例如,如果使用者输入对最近加油站的位置的请求(例如,“最近的加油站在哪里?”),对话控制210响应列出的加油站将被认为是对话成功而来自对话控制210的无关主题音频提示508(例如,“最近的餐厅是餐厅A和餐厅B”)输出将不会认为成功。可以使用其他的成功测量方法。基于对话控制210功能或成功的测量,给定干扰曲线记录180的对话控制动作500可以适用以改进对话控制210系统的功能。例如,当噪音类型参数306和噪音水平参数304显示高的风噪音可能存在时,适用320可以确定解释动作502(例如,使用者输入的清楚的确认,要求使用者重复输入)比减少语义解释器信任水平504更有效。例如,当噪音类型参数306和噪音水平参数304显示高的发动机噪音可能存在时,适用320可以确定减少信任水平504(例如,通过预定信任水平减少参数或量)对使用者是最有效和最少麻烦的。例如,对话控制动作500的修改224(例如,实施解释动作502,减少信任水平504,以及其他修改)例如可以适于使用给定组的噪音类型参数306和噪音水平参数304的最有效和最少麻烦的对话控制动作500。
根据一些实施例,基于干扰曲线记录180(例如,噪音类型参数306,噪音水平参数304,以及其他信息)可以导入和/或修改音频提示508。提示例如可以包括来自系统100的信息输出并且可以响应于使用者输入通过对话控制模块210产生。提示508可以响应于使用者输入从系统100典型地输出以提供信息至使用者,或用于其他功能。在一些实施例中,提示508可以通知使用者由于高的背景噪音语音对话系统100功能和/或性能可能减少或改变。例如提示508可以基于噪音类型参数306和/或噪音水平参数304产生。提示508例如可以设置语音对话系统100性能的使用者的期望(例如,系统100性能可能减少),为使用者准备不同的交互作用类型(例如,通知使用者系统100可以请求使用者解释语句,重复语句,并且执行其他的功能),或以其他方式通知使用者在背景噪音存在时系统100性能可能改变。噪音类型参数306和噪音水平参数304例如可以显示高的风噪音。基于显示高的风噪音的噪音类型参数306和噪音水平参数304,通过对话控制模块210可以产生提示508并且输出至使用者(例如,使用扬声器40)。提示508例如可以设置具有高的风噪音的系统100性能的使用者期望。例如,提示可以是“请注意在高速时窗户打开时声音识别是困难的”或其他的提示508。基于提示508,使用者可以考虑关闭车辆窗户以改进系统100性能。在一些实施例中,提示508可以基于为使用者准备的不同的语音对话交互作用类型的噪音类型参数306和噪音水平参数304。提示508例如可以是“声音识别很困难,我可以请求进一步解释,请原谅,你想去哪里?”或其他提示。基于提示508,使用者的期望可以管理并且使用者例如可以准备或预先警告系统100可能输出进一步解释动作502(例如,请求解释,重复,以及其他解释)和/或系统100功能可能修改(例如,补偿背景噪音的高水平)。
根据一些实施例,基于干扰曲线记录180(例如,噪音类型参数306,噪音水平参数304,以及其他信息)可以修改或控制提示508的速度和/或定时。提示508输出的定时例如可以修改或推迟以在当低背景噪音(例如,车辆相关的声音)可能存在于车辆10中时输出提示508。例如,噪音类型参数306和噪音水平参数304可以显示高的发动机噪音可能存在于车辆中(例如,噪音_类型=发动机并且噪音_水平=高)。高的发动机噪音的噪音类型参数306和噪音水平参数304例如可以显示发动机RPM可能高(例如,驾驶员可能加速车辆10)。基于显示高的发动机噪音的噪音类型参数306和噪音水平参数304,对话控制210可能延迟提示508输出。对话控制210例如可以延迟提示508输出,直到噪音水平参数304显示发动机噪音可能减少为止。在一些实施例中,对话控制210可能在预定一段时间延迟提示508输出。例如可以是车辆加速的典型的或平均时间量的预定一段时间可以基于典型的驾驶员特性(例如,典型的加速时间),或可能是其他时间段。典型的或平均加速时间例如可以在车辆试验,制造期间,或在语音对话适用处理320期间确定。
根据一些实施例,对话类型514可以修改以改变或减少语法困惑510或基于干扰曲线记录180(例如,噪音类型参数306,噪音水平参数304,和/或其他信息)。语法困惑510例如可以是在给定时间由语音识别模块或装置204使用的语音识别语法的复杂度。对话控制模块210例如可以基于干扰曲线记录180确定语法困惑。语法困惑510例如可以通过执行单个口识别,强制使用精确的措辞,避免混合的创造,和/或使用其他的技术或方法进行减少或修改。语法困惑510例如可以基于噪音类型参数306和噪音水平参数304减少或改变。例如,噪音类型参数306和噪音水平参数304可以显示高的风噪音(例如噪音_类型=风,噪音_水平=高)可能存在。基于显示高的风噪音的噪音类型参数306和噪音水平参数304,对话控制210可以通过执行单个口识别,强制使用精确的措辞,避免混合的创造,和/或执行其他的动作减少语法困惑510。
单个口识别例如可以通过减少或修改复杂的提示而减少语法困惑510,该减少或修改复杂的提示请求多个口或类型的信息为请求减少数目或单个口的信息的多个较简单的音频提示。例如,“你喜欢听什么音乐”的复杂的提示可以修改或简化为多个单个口提示“请输入音乐名称”,后面跟随“请输入艺术家”和/或其他的提示。当然可以使用与其他主题相关的其他提示。
在一些实施例中,通过强制使用来自使用者(例如,车辆乘员)的精确的措辞,可以修改对话类型514以减少语法困惑510。来自使用者的精确的措辞可以通过提示使用者提供精确的响应而不是一般的响应而强制使用。例如,其可能引起来自使用者的许多不同的响应的提示508“你想要哪个服务”,可以修改为可以引出来自使用者的具体的或精确的措辞的“请说出一个:a.音乐,b.方向,c.气候控制”的提示。如果噪音类型参数306和/或噪音水平参数304显示车辆中可能存在高的噪音水平(例如,风,发动机,HVAC系统,音频重放或其他噪音)对话控制模块210可以强制使用来自使用者的精确的措辞。当然可以使用与其他追相关的其他提示。
在一些实施例中,对话类型514可以通过减少混合的初始对话类型514进行修改以减少语法困惑510。混合的初始对话类型514例如可以允许使用者响应他们没有问的问题。如果噪音类型参数306和/或噪音水平参数304显示可能存在超过阈值的噪音水平,混合的创造例如可以停止或停用以减少语法困惑510。例如,对话控制210可以输出请求一种信息的提示(例如,“你想寻找什么类型的酒店”),并且混合的创造可以允许使用者提供无关的主题响应(例如,“最近的餐厅在哪里?”)。可以使用与其他主题相关的其他提示508。停止混合的创造例如可以需要使用者响应所问的问题,而不允许使用者改变话题主题。如果使用者提供与问题无关的主题响应,对话控制模块210可以请求使用者响应所问的问题。
根据一些实施例,可以适用320给定干扰曲线记录180(例如,噪音类型参数306,噪音水平参数304,以及其他参数或信息)的对话类型514的修改。对话类型514修改224(例如,改变语法困惑510或其他的对话类型修改)例如可以通过测量基于干扰曲线记录180(例如,噪音类型参数306和/或噪音水平参数304)的对话类型514的修改与对话控制210成功或功能之间的相互关系而适用。可以确定用于给定干扰曲线记录180的对话类型514或语法困惑510减少方法的最佳修改(例如,单个口识别,强制使用精确措辞,避免混合的创造,或其他语法困惑减少方法)。用于给定干扰曲线记录180的对话类型514的最佳修改可以是对使用者最少麻烦,最改进系统100功能,和/或引起对话成功的修改。对话类型514的最佳修改例如可以通过测量在有和没有对话类型514或语法困惑510的修改的情况下对话控制210成功而确定。可以比较与对话类型514或语法困惑510的不同类型的修改相关的测量的对话控制成功以确定最改进对话控制成功的对话类型514或语法困惑510的修改。例如,干扰曲线记录180(例如,噪音类型参数306和噪音水平参数304)可以显示高HVAC相关的噪音可能存在并且语法困惑510可能基于干扰曲线记录180减少或修改224。语法困惑510例如可以通过修改对话类型514以强制使用精确措辞而减少(例如,提示使用者从选项列表中选择(例如,“请说一个:a.音乐,b.方向,或c.油”代替“你想要那种服务?”))。可以测量具有精确措辞的强制使用(例如,减少的语法困惑510)的对话控制210成功(例如,对话控制系统210的成功)。对话控制210功能或成功例如可以基于使用者是否正确地完成对话动作(例如,响应于提示),使用者是否获得正确的对话结果(例如,使用者发现他们寻找的东西),或基于其他的度量或参数而测量。具有精确措辞的强制使用(例如,减少的语法困惑510)的对话控制210成功(例如,对话控制系统210的成功)可以与没有精确措辞的对话控制210成功或具有对话类型514或语法困惑510的其他类型的修改的对话控制成功210进行比较。例如,其确定基于某一干扰曲线记录180(例如,噪音类型参数306和噪音水平参数304)的一种对话类型514修改以减少语法困惑510(例如,单个口识别)可以引起减少的对话控制成功或比另一种对话类型514修改和/或没有修改以减少语法困惑510的更少成功。基于该确定,给定某一干扰曲线记录180的一种对话类型514可能在增加对话成功中较少成功或不成功,该类型的对话类型514修改例如可以停止,适用,和/或由不同类型的对话类型514修改替代。例如,适用320可以确定当噪音类型参数306和噪音水平参数304显示可能存在高的HVAC噪音或其他车辆相关的噪音时通过强制使用精确措辞减少语法困惑510可能比避免混合的创造更有效。例如,适用320可以确定当噪音类型参数306和噪音水平参数304显示可能存在高的HVAC噪音时通过强制使用精确措辞减少语法困惑510可能对使用者最有效和最少麻烦。
根据一些实施例,基于干扰曲线记录180(例如,噪音水平参数304,噪音类型参数306,以及其他信息)对话控制210可以监控(例如,收听)并且响应使用者混淆516。如果噪音类型参数306和噪音水平参数304显示在车辆10中或围绕车辆10可能存在高的噪音水平,对话控制210例如可以修改以监控或收听并且响应使用者的混淆516。为了监控并且响应使用者混淆516,对话控制210例如可以修改以识别来自使用者的解释请求输入。解释请求(例如,由使用者说出)例如可以包括措辞,诸如“重复”,“我听不见你”,“重复该提示”,“不清楚”,“什么?”,或其他措辞。来自使用者的解释请求例如可以由对话控制210响应。对话控制210例如可以通过重复最后的提示输出,改述最后提示,或执行其他动作来响应来自使用者的解释请求。提示508(例如,“最近的餐厅是ABC饭馆”或其他提示)例如可以通过改变提示508中措辞的顺序而改述(例如,“ABC是最近的餐厅”)。可以使用其他的提示。
根据一些实施例,基于干扰曲线记录180(例如,噪音类型参数306,噪音水平参数304,和/或其他信息)可以修改多种形式,多功能,或其他类型的对话。多种形式对话512例如可以包括结合触觉,视觉的语音对话,或其他对话。多种形式对话512例如可以包括请求使用者输入信息至触觉装置(例如,输入装置44或其他装置)的语音对话音频提示。可以使用其他类型的多种形式对话512。
在一些实施例中,如果噪音类型参数306和噪音水平参数304显示在车辆10中或围绕车辆10可能存在高水平的噪音,多种形式的对话512例如可以通过恢复成或证实为在言语提示上的可见显示,通过恢复成或切换为系统假设的可见显示(例如,问题,请求信息,或其他提示),提示或请求来自使用者的触觉确认(例如,从显示在触摸屏或其他输出装置上的响应列表中选择响应),鼓励触觉形式的使用(例如,减少语义解释器的信任),从言语切换到应用功能的子集的其他形式(例如,通过触觉装置的简单命令和控制),或其他修改进行修改。
基于噪音类型参数306和噪音水平参数304,对话控制模块210例如可以通过显示问题,询问信息,以及输出装置42(例如显示屏)上其他类型的提示转换成系统假设的可见显示。例如使用者可以要求触觉确认。对话控制210例如可以要求使用者使用触觉装置,输入装置44(例如,键盘,触摸屏,或其他输入装置)和/或其他装置确认对话提示508(例如,语音对话提示)或来自系统100的其他信息输出进行响应。系统100例如可以使用扬声器40,输出装置42,或其他装置输出语句“请通过输入是确认你说过酒店”,并且使用者可以通过输入响应(例如,按下按钮,输入“是”或其他的响应)至输入装置44或其他装置提供触觉确认。在一些实施例中,对话控制模块210可以要求使用者从选项列表中选择响应。例如,系统100可以提示使用者使用触觉装置,输入装置44(例如,键盘,触摸屏,或其他输入装置),和/或其他装置从一列选项中选择选项。系统100例如可以输出提示“请在触摸屏上选择类别:酒店,餐厅,或加油站”并且使用者可以通过在触觉装置,输入装置44,和/或其他装置上输入选择的选项(例如,酒店,餐厅,或加油站)而响应提示。
根据一些实施例,修改模块224例如可以通过改变语义解释器信任水平504而鼓励或增加触觉对话的使用。例如如果信任水平504低于阈值信任水平506,对话控制模块504可以请求触觉确认,触觉选择,或来自使用者的其他类型的输入。如果与对话动作相关的信任水平504高于阈值信任水平506,对话动作可以视为使用者输入的正确解释,并且系统100可以基于对话控制使用言语(例如,系统100可以不请求触觉确认,触觉选择,或来自使用者的其他类型的输入)。信任水平504例如可以基于干扰曲线记录180(例如,噪音类型参数306,噪音水平参数304,或其他信息)而减少。例如,如果干扰曲线记录180(例如,噪音水平参数304)显示可能存在车辆噪音相关的噪音超过预定阈值(例如,噪音_水平=中,噪音_水平=高,或其他噪音_水平值),可以减少来自语义解释器的信任水平504输入。信任水平504例如可以是与语音识别中的确定性相关或取决于语音识别中的确定性的连续的值(例如,在0%与100%之间或其他数值范围)。基于干扰曲线记录180,信任水平504例如可以从第一信任水平值改变(例如,减小或增加)至第二信任水平值(例如,信任水平值小于第一信任水平值)。信任水平504例如可以根据函数(例如,连续函数)改变(例如,减少或增加)。如果噪音水平参数304显示零或低背景噪音(例如,噪音水平参数=低),信任水平504例如可以是百分之九十五(例如,95%)或任意其他值。如果干扰曲线记录180显示降低至高噪音水平在车辆10中可能存在,信任水平504例如可以从第一值(例如,百分之九十五或其他值)例如减少至第二值(例如,百分之八十或其他值),其例如小于第一值。如果干扰曲线记录180(例如,噪音类型参数306和/或噪音水平参数304)显示高的背景噪音,减少信任水平504可以增加对话控制210可请求触觉确认,来自使用者的选择或其他触觉输入的可能性。
根据一些实施例,多种形式对话可以通过从言语至系统100功能(例如,预定后端应用212功能)的子集的其他形式(例如,触觉输入,视觉输出,和/或其他形式)切换而修改。基于噪音类型参数306,噪音水平参数304,和/或其他信息,一个或多个后端应用212可以从基于言语的形式至非言语的言语形式(例如,触觉或其他形式)进行切换。其他后端应用212例如可以不切换至非言语形式(例如,控制和/或命令可以保持基于言语)。例如,如果噪音类型参数306与噪音水平参数304显示高的发动机噪音(例如,噪音_类型=发动机,噪音_水平=高),当其他后端应用212可不从言语切换至基于触觉的控制的同时,预定后端应用212(例如,收音机,地图,语音搜索,或其他后端应用)功能(例如,控制和命令)可以从基于言语至基于触觉的控制(例如,使用输入装置44)进行切换。例如,如果声音类型参数306和/或声音水平参数304显示背景噪音,语音搜索和/或其他的后台应用212可停止(例如,锁定),并且基于言语的收音机控制和/或其他的后台应用212可以不停止(例如,可保持工作)。如果在车辆试验,制造期间,或适用320期间,声音类型参数306和/或声音水平参数304显示背景噪音,例如可以确定哪个后端应用212切换至其他形式(例如,触觉输入或其他输入模式)或停止。
根据一些实施例,可以适用320给定干扰曲线记录180(例如,噪音类型参数306,噪音水平参数304,以及其他信息)的多种形式对话512的修改。通过测量噪音类型参数306和/或噪音水平参数304与对话控制210成功或功能之间的相关性,例如可以适用320多种形式对话512的修改224(例如,恢复成可见显示,请求触觉确认,鼓励触觉形式的使用,从言语至应用功能子集的其他形式的切换,和/或其他修改)。适用320例如可以确定用于给定干扰曲线记录180的多种形式对话512的最佳修改(例如,恢复成可见显示,请求触觉确认,鼓励触觉形式的使用,从言语至应用功能子集的其他形式的切换和/或其他修改)。用于给定干扰曲线记录180的对话类型514的最佳修改可以是对使用者最少麻烦和/或最佳改进系统100功能的修改。多种形式对话512修改策略或方法的适用320可以类似于对话类型514修改策略的适用,对话控制动作500的适用,以及其他适用320处理或方法。
在一些实施例中,可以适用基于噪音类型曲线306和噪音水平曲线304的对话控制210操作的全部类型的修改224。如在此讨论的,修改224的类型,可以包括对话控制动作500的修改,音频提示508的导入,提示508的修改,对话类型514的修改(例如,以减少语法困惑510),监控并且响应使用者混淆516,多种形式对话512的修改,后端应用212功能的修改,和/或其他类型的修改224。可以测量,估计,或计算基于噪音类型参数306和/或噪音水平参数304的对话成功与对话控制的修改之间的相关性。一种类型的对话控制210修改224的成功例如可以通过确定使用者是否对对话控制提示508提供了可预测的响应(例如,使用者是否响应了有关或无关主题),使用者是否提供了对提示508的任何响应,或使用其他方法进行测量或估计。基于测量的对话控制成功,通过停止,停用,改变或切换对话控制修改224的类型,或以其他方式改变对话控制修改224,可以适用对话控制210处理与操作的修改。对话控制修改224操作例如可以通过变化与给定噪音类型参数306与噪音水平参数304相关的参数而改变。例如,可以改变语义解释器信任水平504,可以改变与提示的速度和定时相关的参数,可以改变或适用其他参数以改进对话控制210成功。可以适用或改变其他参数和操作。
图7是根据本发明的实施例的方法的流程图。在操作600中,音频信号(图3的音频信号)可以接收在与车辆(例如,图3的车辆10)相关联的处理器中(例如图2的处理器110或图3的信号处理器202)。信号处理器202例如可以由处理器110全部或部分地实施。
操作610中,表示或对应于一个或多个声音的声音相关的车辆信息(例如,图2的声音相关的车辆信息160,或与产生或引起声音的车辆系统的操作相关的信号或信息)可以接收在处理器中(例如,图3的干扰曲线模块222)。在一些实施例中声音相关的车辆信息不包括音频信号。干扰曲线模块222例如可以由处理器110全部或部分地实施。
操作620中,干扰曲线记录(例如,图2的干扰曲线记录180)可以基于声音相关的车辆信息确定。干扰曲线记录例如可以包括噪音类型参数(例如,图4的噪音类型参数306),噪音水平参数(例如,图4的噪音水平参数304),和/或其他参数。干扰曲线记录例如可以基于多种类型的与声音相关的车辆信息使用逻辑操作或其他数学操作确定。在一些实施例中,干扰曲线记录可以通过量化声音相关的车辆信息(例如,车辆发动机RPM信息)确定。
操作630中,语音识别处理或系统(例如,在图3的语音识别模块204和/或信号处理器202中)基于声音相关的车辆信息和/或干扰曲线记录可以修改。语音识别例如可以基于干扰曲线记录通过选择或确定信号处理器(例如,信号处理器212),自动语音识别系统前端(例如,图4的ASR前端314),或其他装置中的滤波器(例如,图4的滤波器312)以及滤波器参数(例如,图4的滤波器参数322)进行修改。滤波器例如可以应用于音频信号。可以产生音频信号中的响应至对话命令(例如,由图3的对话控制模块210和/或响应产生器214)并且响应可以输出(例如,经由图2的显示42或扬声器40)至车辆乘员。
可以使用其他或不同系列的操作。
本发明的实施例可以包括用于执行在此处描述的操作的装置。这样的装置可以为所需目的特别地构造,或可以包括通过存储在计算机中的计算机程序有选择地启动或重新配置的计算机或处理器。这样的计算机程序可以存储在计算机可读或处理器可读的非临时存储介质,包括软盘,光盘,CD-ROM,磁性光盘的任意类型的盘,只读存储器(ROM),随机存取存储器(RAM),电可编程只读存储器(EPROM),电可擦除和可编程只读存储器(EEPROM),磁或光学卡,或适于存储电指令的任意其他类型的介质。将要理解,各种编程语言可以用来实施在此处描述的本发明的教导。本发明的实施例可以包括物品,诸如非临时的计算机或处理器可读非临时的存储介质,例如存储器,盘驱动器,或USB闪速存储器编码,包括或存储指令,例如计算机可执行指令,当由处理器或控制器执行时使得处理器或控制器执行在此公开的方法。指令可以使得处理器或控制器执行实现在此公开的方法的处理。
在此公开了不同的实施例。某些实施例的特征可结合其他实施例的特征;因此某些实施例可结合多个实施例的特征。为了示出和描述的目的,已经展现了本发明的实施例的上述描述。不旨在是排他的或将本发明限制为公开的精确形式。本领域技术人员应当理解,在上述教导下可做出许多修改,变化,替换,改变,以及等同形式。因此应当理解所附的权利要求旨在覆盖落入本发明的真实精神内的全部这样的修改和变化。
Claims (10)
1.一种方法,包括:
在与车辆相关联的处理器中接收音频信号;
在处理器中接收表示一个或多个声音的声音相关的车辆信息,声音相关的车辆信息不包括音频信号;以及
基于声音相关的车辆信息修改语音识别处理。
2.如权利要求1所述的方法,包括基于声音相关的车辆信息确定干扰曲线记录。
3.如权利要求2所述的方法,其中基于声音相关的车辆信息修改语音识别处理包括:
基于干扰曲线记录确定滤波器和滤波器参数;以及
应用滤波器至音频信号。
4.如权利要求2所述的方法,其中基于声音相关的车辆信息修改语音识别处理包括:
基于干扰曲线记录选择声学模型;以及
使用声学模型解码言语。
5.如权利要求2所述的方法,其中基于声音相关的车辆信息修改语音识别处理包括:
基于干扰曲线记录确定自动语音识别模块前端中的滤波器和滤波器参数;以及
将滤波器应用至自动语音识别模块前端中的音频信号。
6.如权利要求2所述的方法,其中基于声音相关的车辆信息确定干扰曲线记录包括基于多种类型的声音相关的车辆信息使用逻辑操作确定干扰曲线记录。
7.如权利要求1所述的方法,包括:
在增强语音识别功能中基于声音相关的车辆信息测量语音识别修改的成功;以及
基于测量的成功适用语音识别修改。
8.如权利要求1所述的方法,包括:
对音频信号中的言语命令产生响应;以及
对车辆乘员输出响应。
9.一种系统,包括:
存储器;
与车辆相关联的处理器,其用于:
接收音频信号;
接收表示一个或多个声音的声音相关的车辆信息,声音相关的车辆信息不包括音频信号;以及
基于声音相关的车辆信息修改语音识别处理。
10.一种方法,包括:
使用一个或多个与车辆相关联的麦克风测量声音;
将表示声音的信号传送至自动语音识别系统;
在控制器接收与引起声音的车辆系统的操作相关的信息;
基于信息计算干扰曲线记录,干扰曲线记录表示噪音类型和噪音水平;以及
基于干扰曲线记录改变语音识别。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/351,314 | 2012-01-17 | ||
US13/351,314 US9263040B2 (en) | 2012-01-17 | 2012-01-17 | Method and system for using sound related vehicle information to enhance speech recognition |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103208284A true CN103208284A (zh) | 2013-07-17 |
Family
ID=48693367
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2013100192187A Pending CN103208284A (zh) | 2012-01-17 | 2013-01-17 | 使用声音相关的车辆信息以增强语音识别的方法和系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9263040B2 (zh) |
CN (1) | CN103208284A (zh) |
DE (1) | DE102013200378A1 (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105513592A (zh) * | 2014-10-13 | 2016-04-20 | 福特全球技术公司 | 声学脉冲响应模拟 |
CN105702028A (zh) * | 2016-02-16 | 2016-06-22 | 中山大学 | 一种基于机动车音频信号的交通状态判别系统 |
CN106104676A (zh) * | 2014-07-23 | 2016-11-09 | 宝马股份公司 | 在车辆中的语音识别的改进 |
CN106992002A (zh) * | 2016-01-21 | 2017-07-28 | 福特全球技术公司 | 用于改进含噪语音识别的动态声学模型切换 |
CN108369476A (zh) * | 2015-12-11 | 2018-08-03 | 索尼公司 | 信息处理设备、信息处理方法和程序 |
CN108476072A (zh) * | 2015-12-31 | 2018-08-31 | 哈曼国际工业有限公司 | 用于声音识别的众包数据库 |
CN108538307A (zh) * | 2017-03-03 | 2018-09-14 | 罗伯特·博世有限公司 | 用于为音频信号去除干扰的方法和设备以及语音控制设备 |
CN108550371A (zh) * | 2018-03-30 | 2018-09-18 | 北京云知声信息技术有限公司 | 智能语音交互设备快速稳定的回声消除方法 |
CN109817199A (zh) * | 2019-01-03 | 2019-05-28 | 珠海市黑鲸软件有限公司 | 一种风扇语音控制系统的语音识别方法 |
CN110678921A (zh) * | 2017-05-26 | 2020-01-10 | 伯斯有限公司 | 来自智能扬声器的动态文本到语音响应 |
CN111344782A (zh) * | 2017-11-21 | 2020-06-26 | 思睿逻辑国际半导体有限公司 | 说话人注册 |
CN112292303A (zh) * | 2018-06-21 | 2021-01-29 | 西门子交通有限公司 | 用于借助语音消息控制轨道车辆的方法和设备 |
Families Citing this family (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8181205B2 (en) | 2002-09-24 | 2012-05-15 | Russ Samuel H | PVR channel and PVR IPG information |
US9418674B2 (en) * | 2012-01-17 | 2016-08-16 | GM Global Technology Operations LLC | Method and system for using vehicle sound information to enhance audio prompting |
US9934780B2 (en) | 2012-01-17 | 2018-04-03 | GM Global Technology Operations LLC | Method and system for using sound related vehicle information to enhance spoken dialogue by modifying dialogue's prompt pitch |
US8892046B2 (en) * | 2012-03-29 | 2014-11-18 | Bose Corporation | Automobile communication system |
TWI475557B (zh) * | 2012-10-31 | 2015-03-01 | Acer Inc | 音訊處理裝置 |
US20140278415A1 (en) * | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Voice Recognition Configuration Selector and Method of Operation Therefor |
US10424292B1 (en) | 2013-03-14 | 2019-09-24 | Amazon Technologies, Inc. | System for recognizing and responding to environmental noises |
US9728184B2 (en) | 2013-06-18 | 2017-08-08 | Microsoft Technology Licensing, Llc | Restructuring deep neural network acoustic models |
US9311298B2 (en) | 2013-06-21 | 2016-04-12 | Microsoft Technology Licensing, Llc | Building conversational understanding systems using a toolset |
US9589565B2 (en) * | 2013-06-21 | 2017-03-07 | Microsoft Technology Licensing, Llc | Environmentally aware dialog policies and response generation |
CN105493182B (zh) * | 2013-08-28 | 2020-01-21 | 杜比实验室特许公司 | 混合波形编码和参数编码语音增强 |
US9311930B2 (en) * | 2014-01-28 | 2016-04-12 | Qualcomm Technologies International, Ltd. | Audio based system and method for in-vehicle context classification |
US9324321B2 (en) | 2014-03-07 | 2016-04-26 | Microsoft Technology Licensing, Llc | Low-footprint adaptation and personalization for a deep neural network |
US9516165B1 (en) * | 2014-03-26 | 2016-12-06 | West Corporation | IVR engagements and upfront background noise |
US9529794B2 (en) | 2014-03-27 | 2016-12-27 | Microsoft Technology Licensing, Llc | Flexible schema for language model customization |
US9614724B2 (en) | 2014-04-21 | 2017-04-04 | Microsoft Technology Licensing, Llc | Session-based device configuration |
US9520127B2 (en) | 2014-04-29 | 2016-12-13 | Microsoft Technology Licensing, Llc | Shared hidden layer combination for speech recognition systems |
US10111099B2 (en) | 2014-05-12 | 2018-10-23 | Microsoft Technology Licensing, Llc | Distributing content in managed wireless distribution networks |
US9384335B2 (en) | 2014-05-12 | 2016-07-05 | Microsoft Technology Licensing, Llc | Content delivery prioritization in managed wireless distribution networks |
US9430667B2 (en) | 2014-05-12 | 2016-08-30 | Microsoft Technology Licensing, Llc | Managed wireless distribution network |
US9384334B2 (en) | 2014-05-12 | 2016-07-05 | Microsoft Technology Licensing, Llc | Content discovery in managed wireless distribution networks |
US9874914B2 (en) | 2014-05-19 | 2018-01-23 | Microsoft Technology Licensing, Llc | Power management contracts for accessory devices |
US10037202B2 (en) | 2014-06-03 | 2018-07-31 | Microsoft Technology Licensing, Llc | Techniques to isolating a portion of an online computing service |
US9367490B2 (en) | 2014-06-13 | 2016-06-14 | Microsoft Technology Licensing, Llc | Reversible connector for accessory devices |
US9947318B2 (en) * | 2014-10-03 | 2018-04-17 | 2236008 Ontario Inc. | System and method for processing an audio signal captured from a microphone |
CN105988049B (zh) * | 2015-02-28 | 2019-02-19 | 惠州市德赛西威汽车电子股份有限公司 | 一种噪声抑制的调试方法 |
US9860667B2 (en) * | 2015-09-11 | 2018-01-02 | GM Global Technology Operations LLC | Vehicle sound enhancement |
US20170221480A1 (en) * | 2016-01-29 | 2017-08-03 | GM Global Technology Operations LLC | Speech recognition systems and methods for automated driving |
KR102503684B1 (ko) * | 2016-06-24 | 2023-02-28 | 삼성전자주식회사 | 전자 장치 및 그의 동작 방법 |
US10331795B2 (en) * | 2016-09-28 | 2019-06-25 | Panasonic Intellectual Property Corporation Of America | Method for recognizing speech sound, mobile terminal, and recording medium |
US10462567B2 (en) | 2016-10-11 | 2019-10-29 | Ford Global Technologies, Llc | Responding to HVAC-induced vehicle microphone buffeting |
KR20180087942A (ko) * | 2017-01-26 | 2018-08-03 | 삼성전자주식회사 | 음성 인식 방법 및 장치 |
US10902839B2 (en) | 2017-03-20 | 2021-01-26 | Jaguar Land Rover Limited | Apparatus and method for privacy enhancement |
GB2560884B (en) * | 2017-03-20 | 2020-08-19 | Jaguar Land Rover Ltd | Apparatus and method for privacy enhancement |
GB2565518B (en) * | 2017-03-20 | 2021-07-28 | Jaguar Land Rover Ltd | Apparatus and method for privacy enhancement |
KR102419728B1 (ko) * | 2017-05-30 | 2022-07-13 | 현대자동차주식회사 | 상황 기반 동작 결정 시스템, 상황 기반으로 결정된 동작을 수행 가능한 차량 및 상황 기반 동작 결정 방법 |
US10525921B2 (en) | 2017-08-10 | 2020-01-07 | Ford Global Technologies, Llc | Monitoring windshield vibrations for vehicle collision detection |
US10049654B1 (en) | 2017-08-11 | 2018-08-14 | Ford Global Technologies, Llc | Accelerometer-based external sound monitoring |
US10308225B2 (en) | 2017-08-22 | 2019-06-04 | Ford Global Technologies, Llc | Accelerometer-based vehicle wiper blade monitoring |
US10562449B2 (en) | 2017-09-25 | 2020-02-18 | Ford Global Technologies, Llc | Accelerometer-based external sound monitoring during low speed maneuvers |
US10479300B2 (en) | 2017-10-06 | 2019-11-19 | Ford Global Technologies, Llc | Monitoring of vehicle window vibrations for voice-command recognition |
KR102485342B1 (ko) * | 2017-12-11 | 2023-01-05 | 현대자동차주식회사 | 차량의 환경에 기반한 추천 신뢰도 판단 장치 및 방법 |
DE102018107539A1 (de) * | 2018-03-29 | 2019-10-02 | Faurecia Emissions Control Technologies, Germany Gmbh | Schallerzeugungssystem, Kraftfahrzeug mit einem Schallerzeugungssystem sowie Schallsensoreinheit für ein Schallerzeugungssystem |
US11011162B2 (en) | 2018-06-01 | 2021-05-18 | Soundhound, Inc. | Custom acoustic models |
US11282493B2 (en) * | 2018-10-05 | 2022-03-22 | Westinghouse Air Brake Technologies Corporation | Adaptive noise filtering system |
DE102019205694A1 (de) * | 2019-04-18 | 2020-10-22 | Volkswagen Aktiengesellschaft | Geschwindigkeitsabhängige Rauschunterdrückung bei Audiosignalen in einem Fahrzeug |
FR3100079B1 (fr) * | 2019-08-20 | 2022-03-25 | Psa Automobiles Sa | Dispositif de traitement de signaux sonores à suppression de bruit extérieur, pour un véhicule |
US20230097089A1 (en) * | 2020-03-18 | 2023-03-30 | Nippon Telegraph And Telephone Corporation | Sound source position determination device, sound source position determination method, and program |
US11720620B2 (en) * | 2020-04-09 | 2023-08-08 | Zebra Technologies Corporation | Automated contextualization of operational observations |
KR20210133600A (ko) * | 2020-04-29 | 2021-11-08 | 현대자동차주식회사 | 차량 음성 인식 방법 및 장치 |
US20220199102A1 (en) * | 2020-12-18 | 2022-06-23 | International Business Machines Corporation | Speaker-specific voice amplification |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1339774A (zh) * | 2000-08-23 | 2002-03-13 | 皇家菲利浦电子有限公司 | 通过语音信号控制设备尤其是汽车中的设备的方法 |
US20020177998A1 (en) * | 2001-03-28 | 2002-11-28 | Yifan Gong | Calibration of speech data acquisition path |
CN101354887A (zh) * | 2007-07-25 | 2009-01-28 | 通用汽车公司 | 用在语音识别中的环境噪声注入 |
CN102097096A (zh) * | 2009-12-10 | 2011-06-15 | 通用汽车有限责任公司 | 在语音识别后处理过程中使用音调来改进识别精度 |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4106405C2 (de) | 1990-03-23 | 1996-02-29 | Ricoh Kk | Geräuschunterdrückungseinrichtung für ein Spracherkennungsystem |
US5960397A (en) | 1997-05-27 | 1999-09-28 | At&T Corp | System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition |
JPH11126092A (ja) | 1997-10-22 | 1999-05-11 | Toyota Motor Corp | 音声認識装置および車両用音声認識装置 |
US6420975B1 (en) | 1999-08-25 | 2002-07-16 | Donnelly Corporation | Interior rearview mirror sound processing system |
US6219642B1 (en) | 1998-10-05 | 2001-04-17 | Legerity, Inc. | Quantization using frequency and mean compensated frequency input data for robust speech recognition |
US6324499B1 (en) | 1999-03-08 | 2001-11-27 | International Business Machines Corp. | Noise recognizer for speech recognition systems |
US20030093281A1 (en) | 1999-05-21 | 2003-05-15 | Michael Geilhufe | Method and apparatus for machine to machine communication using speech |
EP1152399A1 (fr) | 2000-05-04 | 2001-11-07 | Faculte Polytechniquede Mons | Traitement en sous bandes de signal de parole par réseaux de neurones |
US20020087306A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented noise normalization method and system |
US7571095B2 (en) | 2001-08-15 | 2009-08-04 | Sri International | Method and apparatus for recognizing speech in a noisy environment |
JP3812887B2 (ja) | 2001-12-21 | 2006-08-23 | 富士通株式会社 | 信号処理システムおよび方法 |
JP3885002B2 (ja) | 2002-06-28 | 2007-02-21 | キヤノン株式会社 | 情報処理装置およびその方法 |
JP4352790B2 (ja) | 2002-10-31 | 2009-10-28 | セイコーエプソン株式会社 | 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物 |
US7966188B2 (en) | 2003-05-20 | 2011-06-21 | Nuance Communications, Inc. | Method of enhancing voice interactions using visual messages |
US6889189B2 (en) | 2003-09-26 | 2005-05-03 | Matsushita Electric Industrial Co., Ltd. | Speech recognizer performance in car and home applications utilizing novel multiple microphone configurations |
US7634095B2 (en) * | 2004-02-23 | 2009-12-15 | General Motors Company | Dynamic tuning of hands-free algorithm for noise and driving conditions |
KR20060131929A (ko) | 2004-03-29 | 2006-12-20 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 공통 대화 관리 시스템에 의한 복수의 애플리케이션을구동하기 위한 방법 |
US8027833B2 (en) * | 2005-05-09 | 2011-09-27 | Qnx Software Systems Co. | System for suppressing passing tire hiss |
US8214219B2 (en) * | 2006-09-15 | 2012-07-03 | Volkswagen Of America, Inc. | Speech communications system for a vehicle and method of operating a speech communications system for a vehicle |
US8738368B2 (en) * | 2006-09-21 | 2014-05-27 | GM Global Technology Operations LLC | Speech processing responsive to a determined active communication zone in a vehicle |
US8762143B2 (en) | 2007-05-29 | 2014-06-24 | At&T Intellectual Property Ii, L.P. | Method and apparatus for identifying acoustic background environments based on time and speed to enhance automatic speech recognition |
EP2116999B1 (en) | 2007-09-11 | 2015-04-08 | Panasonic Corporation | Sound determination device, sound determination method and program therefor |
US8121837B2 (en) | 2008-04-24 | 2012-02-21 | Nuance Communications, Inc. | Adjusting a speech engine for a mobile computing device based on background noise |
US8285545B2 (en) | 2008-10-03 | 2012-10-09 | Volkswagen Ag | Voice command acquisition system and method |
US9123341B2 (en) | 2009-03-18 | 2015-09-01 | Robert Bosch Gmbh | System and method for multi-modal input synchronization and disambiguation |
US8660842B2 (en) * | 2010-03-09 | 2014-02-25 | Honda Motor Co., Ltd. | Enhancing speech recognition using visual information |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US9934780B2 (en) | 2012-01-17 | 2018-04-03 | GM Global Technology Operations LLC | Method and system for using sound related vehicle information to enhance spoken dialogue by modifying dialogue's prompt pitch |
US9418674B2 (en) | 2012-01-17 | 2016-08-16 | GM Global Technology Operations LLC | Method and system for using vehicle sound information to enhance audio prompting |
-
2012
- 2012-01-17 US US13/351,314 patent/US9263040B2/en active Active
-
2013
- 2013-01-14 DE DE102013200378A patent/DE102013200378A1/de not_active Withdrawn
- 2013-01-17 CN CN2013100192187A patent/CN103208284A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1339774A (zh) * | 2000-08-23 | 2002-03-13 | 皇家菲利浦电子有限公司 | 通过语音信号控制设备尤其是汽车中的设备的方法 |
US20020177998A1 (en) * | 2001-03-28 | 2002-11-28 | Yifan Gong | Calibration of speech data acquisition path |
CN101354887A (zh) * | 2007-07-25 | 2009-01-28 | 通用汽车公司 | 用在语音识别中的环境噪声注入 |
CN102097096A (zh) * | 2009-12-10 | 2011-06-15 | 通用汽车有限责任公司 | 在语音识别后处理过程中使用音调来改进识别精度 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106104676A (zh) * | 2014-07-23 | 2016-11-09 | 宝马股份公司 | 在车辆中的语音识别的改进 |
CN105513592A (zh) * | 2014-10-13 | 2016-04-20 | 福特全球技术公司 | 声学脉冲响应模拟 |
CN105513592B (zh) * | 2014-10-13 | 2021-02-02 | 福特全球技术公司 | 声学脉冲响应模拟 |
CN108369476A (zh) * | 2015-12-11 | 2018-08-03 | 索尼公司 | 信息处理设备、信息处理方法和程序 |
CN108369476B (zh) * | 2015-12-11 | 2021-12-28 | 索尼公司 | 信息处理设备、信息处理方法和计算机可读介质 |
CN108476072A (zh) * | 2015-12-31 | 2018-08-31 | 哈曼国际工业有限公司 | 用于声音识别的众包数据库 |
CN106992002A (zh) * | 2016-01-21 | 2017-07-28 | 福特全球技术公司 | 用于改进含噪语音识别的动态声学模型切换 |
CN105702028A (zh) * | 2016-02-16 | 2016-06-22 | 中山大学 | 一种基于机动车音频信号的交通状态判别系统 |
CN108538307A (zh) * | 2017-03-03 | 2018-09-14 | 罗伯特·博世有限公司 | 用于为音频信号去除干扰的方法和设备以及语音控制设备 |
CN110678921A (zh) * | 2017-05-26 | 2020-01-10 | 伯斯有限公司 | 来自智能扬声器的动态文本到语音响应 |
CN111344782A (zh) * | 2017-11-21 | 2020-06-26 | 思睿逻辑国际半导体有限公司 | 说话人注册 |
CN108550371A (zh) * | 2018-03-30 | 2018-09-18 | 北京云知声信息技术有限公司 | 智能语音交互设备快速稳定的回声消除方法 |
CN108550371B (zh) * | 2018-03-30 | 2021-06-01 | 云知声智能科技股份有限公司 | 智能语音交互设备快速稳定的回声消除方法 |
CN112292303A (zh) * | 2018-06-21 | 2021-01-29 | 西门子交通有限公司 | 用于借助语音消息控制轨道车辆的方法和设备 |
CN112292303B (zh) * | 2018-06-21 | 2022-11-25 | 西门子交通有限公司 | 用于控制轨道车辆的方法和设备 |
CN109817199A (zh) * | 2019-01-03 | 2019-05-28 | 珠海市黑鲸软件有限公司 | 一种风扇语音控制系统的语音识别方法 |
Also Published As
Publication number | Publication date |
---|---|
US9263040B2 (en) | 2016-02-16 |
US20130185065A1 (en) | 2013-07-18 |
DE102013200378A1 (de) | 2013-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103208284A (zh) | 使用声音相关的车辆信息以增强语音识别的方法和系统 | |
CN103208286A (zh) | 使用车辆声音信息以增强音频提示的方法和系统 | |
CN103208287A (zh) | 使用声音相关的车辆信息以增强语音对话的方法和系统 | |
CN101354887B (zh) | 用在语音识别中的环境噪声注入方法 | |
JP3479691B2 (ja) | 実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制御方法及びこの方法を実施する装置 | |
US20170162191A1 (en) | Prioritized content loading for vehicle automatic speech recognition systems | |
CN1941079A (zh) | 语音识别方法和系统 | |
CN110097870A (zh) | 语音处理方法、装置、设备和存储介质 | |
CN110767215A (zh) | 一种训练语音识别模型、识别语音的方法及装置 | |
CN112420020B (zh) | 信息处理装置及信息处理方法 | |
Hansen et al. | " CU-move": analysis & corpus development for interactive in-vehicle speech systems. | |
CN112185425B (zh) | 音频信号处理方法、装置、设备及存储介质 | |
US11996099B2 (en) | Dialogue system, vehicle, and method of controlling dialogue system | |
US20230298581A1 (en) | Dialogue management method, user terminal and computer-readable recording medium | |
US11955123B2 (en) | Speech recognition system and method of controlling the same | |
CN115132195B (zh) | 语音唤醒方法、装置、设备、存储介质及程序产品 | |
Seltzer et al. | In-car media search | |
CN115312046A (zh) | 具有语音识别系统的车辆及控制该车辆的方法 | |
CN114203156A (zh) | 音频识别方法、音频识别装置、电子设备和存储介质 | |
US20230238020A1 (en) | Speech recognition system and a method for providing a speech recognition service | |
CN118748017A (zh) | 一种语音交互方法及相关装置 | |
KR20230146898A (ko) | 대화 처리 방법 및 대화 시스템 | |
CN118116375A (zh) | 唤醒车机系统的第三方语音助手的方法及相关设备 | |
CN115083404A (zh) | 一种车载语音降噪方法、装置、电子设备及存储介质 | |
CN114242108A (zh) | 一种信息处理方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20130717 |