CN102054481B - 用于激活和/或进行语音对话的装置、系统和方法 - Google Patents

用于激活和/或进行语音对话的装置、系统和方法 Download PDF

Info

Publication number
CN102054481B
CN102054481B CN201010527304.5A CN201010527304A CN102054481B CN 102054481 B CN102054481 B CN 102054481B CN 201010527304 A CN201010527304 A CN 201010527304A CN 102054481 B CN102054481 B CN 102054481B
Authority
CN
China
Prior art keywords
talker
voice
speaker
signal
voice signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010527304.5A
Other languages
English (en)
Other versions
CN102054481A (zh
Inventor
哈尔罗·赫普肯
卡尔-海因茨·克诺布尔
戴维·肯普夫
汉斯-威廉·吕尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Continental Automotive Technologies GmbH
Original Assignee
Continental Automotive GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Continental Automotive GmbH filed Critical Continental Automotive GmbH
Publication of CN102054481A publication Critical patent/CN102054481A/zh
Application granted granted Critical
Publication of CN102054481B publication Critical patent/CN102054481B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Traffic Control Systems (AREA)
  • Navigation (AREA)

Abstract

本发明涉及用于激活和/或进行语音对话的一种装置、一种系统和一种方法。根据本发明的用于激活和/或进行语音对话的装置具有语音识别单元、讲话者识别单元以及决策单元。该决策单元设计用于取决于语音识别单元和讲话者识别单元的结果激活结果行为。

Description

用于激活和/或进行语音对话的装置、系统和方法
技术领域
本发明涉及用于激活语音对话和/或进行语音对话的一种装置、一种系统和一种方法。
背景技术
语音对话系统用于电子仪器、例如车辆电脑,而不需要对触觉的操作运行进行控制。根据现有技术已知,用于进行语音对话或用于激活语音对话的装置根据指令搜索通过噪声抑制或回波补偿而变得清晰的语音信号。在用于激活语音对话的装置中,根据确定的关键词进行搜索,该关键词用于激活语音对话。在用于进行语音对话的装置中,检查该语音信号是否包含作为指令而存储在集成于语音对话系统中的指令数据库中的单词。如果识别出指令,那么执行属于该命令的行为。
尤其在干扰噪声作用于系统的应用条件下,这样的用于进行语音对话或用于激活语音对话的装置是不可靠的。这尤其在应用于轿车中时是不利的,因为在干扰影响下、例如乘客的谈话,根据现有技术的装置常常由于错误识别的命令而执行不期望的功能。
发明内容
因此本发明的目的在于,特别抗干扰地进行语音对话和/或激活语音对话。
该目的通过一种用于激活语音对话和进行语音对话的其中至少一种的装置来实现。应用在车辆中,该装置包括:
-至少一个用于语音信号的输入端;
-语音识别单元,用于确定包含在所述语音信号中的一个或多个的指令;
讲话者识别单元配置用于根据所述语音信号和至少一个存储的讲话者模型确定当前的讲话者;
决策单元包括:
耦合至所述语音识别单元的语音识别单元连接,该语音识别单元配置为进行基于一个或多个指令的结果行为,和
耦合至所述讲话者识别单元的讲话者识别单元连接,
所述决策单元配置为使得,至少在至少一个指令的情况下,结果行为的激活取决于该至少一个指令是否已经被识别为来自与讲话者模型关联的讲话者;以及
回波补偿单元,接收多声道语音信号,并且基于相对于至少一个输入的多声道信号的分量之间的渡越时间差,去除来自非授权讲话者的一个分量,
其中所述讲话者识别单元配置为通过从所述语音信号中提取讲话者特征并与存储的取决于讲话者的特征比较,并且包括另外的单元,所述另外的单元设计用于讲话者适应,不断确定的细化的取决于讲话者的特征以及用于把所述细化的取决于讲话者的特征存储在存储的所述讲话者模型中,
所述讲话者识别单元配置为,在多个讲话者正在同时讲话的情况下,不把所述语音信号归属于讲话者。
该目的还通过一种用于激活语音对话和/或进行语音对话的方法来实现,包括以下步骤:
-接收语音信号;
-从所述语音信号中识别指令和指令结构中的其中至少一个;
-根据所述语音信号和至少一个存储的讲话者模型识别讲话者;
-随后取决于识别的所述指令和识别的所述讲话者执行结果行为,其中所述语音信号为多声道语音信号;
基于相关于至少一个麦克风的多声道信号的分量之间的渡越时间差,去除来自非授权讲话者的所有分量,
其中识别授权的讲话者包括从所述语音信号中提取讲话者特征并且与存储在讲话者模型中的单个讲话者特征相比较并且
其中讲话者适应进行为连续地简化并补充存储在所述讲话者模型中的所述单个讲话者特征,
其中讲话者识别,在多个讲话者同时讲话的情况下,不把所述语音信号归属于讲话者。
指令分析的可靠性通过如下方式显著提高,即该装置不仅包括用于确定语音信号中是否包含指令的语音识别单元和用于取决于在语音信号中识别的指令而产生输出信号的决策单元,还包括用于根据语音信号和至少一个存储的讲话者模型而识别讲话者的讲话者识别单元,其中这样设计决策单元,即取决于指令的结果行为的执行取决于,至少部分产生语音信号的讲话者是否被讲话者识别单元识别为相应于存储的讲话者模型的讲话者。
语音识别单元可理解为一个设计用于鉴定来自语音信号的指令和/或指令结构的单元。也就是说,根据语音模型和根据存储的指令,分析语言信号中是否包含/包含哪些指令或指令结构。如果包含指令,那么它被识别为相应的有效指令。
在这种情况下,指令不一定只是单个的词。在此更确切地说意味着语音输入的每种形式。例如,概念“指令”也意味着数列/号码序列、句子成分和/或完整的句子。
讲话者识别单元可理解为可以特别设计用于从语音信号中提取讲话者特征并用于把该讲话者特征与之前存储在至少一个讲话者模型中的、取决于讲话者的特征相比较的单元,其中根据比较确定当前的讲话者和对应于讲话者模型的讲话者一致或不一致。有利地这样设计讲话者识别单元,即当语音信号完全来自对应于讲话者模型的讲话者时,也就是说多人同时讲话而信号有利地不对应于任何讲话者时,才确定一致。
待执行的结果行为可以是不同类型的结果行为。
在用于激活语音对话的装置中,结果行为例如可以是双重事件的输出,这作为信息仅包括是否应该进行语言对话的激活的决定。可替换地,该事件可以包括关于引起激活的讲话者的信息,从而产生取决于讲话者的激活信号。
在用于进行语音对话的装置中,作为结果行为的语音输出尤其重要。可以利用它将信息、例如其它选项通知给讲话者。例如如果讲话者要调用关于位于附近的餐馆的信息并使用了与之相应的指令,那么语音对话系统可以要求讲话者从多个可能的餐馆类型中作出选择。
其它的可能的结果行为是控制车辆功能的控制事件。例如可以向用于座位加热的控制系统发送用于提高加热温度的事件。此外,可以输出用于调用位于车辆中的其它系统的信息的控制信号。此外结果行为还可能由控制事件和语音输出组成。本领域技术人员由根据现有技术的用于进行语音对话的装置还已知了其它的可能的输出信号。
此外,本发明还涉及一种方法:其中首先接收语音信号;其中随后识别存在于语音信号中的指令或指令结构;并且其中根据语音信号和至少一个讲话者模型识别讲话者;其中在识别指令和讲话者之后,取决于讲话者和指令的识别的结果执行结果行为。
这样有利地设计决策单元,即当由讲话者识别单元将包含指令的语音信号鉴定为来自授权的讲话者时,那么仅仅执行取决于指令的结果行为。也就是说将讲话者识别单元和语音识别单元的结果与存储在使用者模型中的数据比较,并检查讲话者是否被授权。
根据实施例,可以反馈缺乏授权的情况。这种反馈的优点在于,讲话者可以在未识别或识别之间区分作为未充分授权的讲话者。
重要的是,通过由无资格的讲话者输入的指令不会触发对应于指令的待执行的结果行为,也就是说,来自无资格的讲话者的指令不会导致结果行为或导致与授权的讲话者不同的结果行为。
在一个有利的实施例中,可以不取决于讲话者执行特定的指令。由此例如可以控制不对驾驶员造成妨碍的车辆功能。在这里对于用于进行语音对话的装置来说,对副驾驶座和/或后排座的加热可以作为一个实例,该加热也可以由其他的作为授权的讲话者的人员进行调节。然而有利地,在输入这些指令时不进行语音对话,也就是说,语音对话系统对未识别的讲话者的指令反应为没有语音输出的纯语音控制,以用于控制毫无疑问的车辆功能。在用于激活语音对话的装置中也可以建立不取决于讲话者的指令。因此例如可以这样实现激活,即可接收通过指令分析单元产生的激活信号,可以期望的是具有缩小的功能范围的乘客访问(Passagierzugriff)。例如在这种乘客访问中,进行作为纯语音控制的激活,其丝毫没有输出声学的反馈且仅设计用于执行毫无疑问的车辆功能的控制指令。
在另一有利的实施例中,装置设计为用于激活-和进行语音对话的组合装置。也就是说,在未激活状态中,该装置用于激活语音对话。如果该装置通过关键词由授权的讲话者激活,那么其作为用于进行语音对话的装置工作。
对这样作为组合系统的设计来说尤其可能的是,定义多个不同的关键词。该装置可以通过第一关键词由授权的讲话者这样激活,即该装置仅执行授权的讲话者的随后的其它指令。此外,可以构造第二关键词,这使该装置进入一种状态,在该状态中装置执行任意讲话者的指令。然而有利地,授权的讲话者的指令具有更高的优先权,也就是说,授权的讲话者的指令不会被其他人的随后的指令打断,然而甚至可以中断执行其他人的指令。
在一个有利的实施例中,语音识别单元具有单词识别单元和后续的结构识别单元。单词识别单元设计用于这样识别来自语音信号的单词,即从语音信号中提取语音特征并与储存的语音特征比较。因此结构识别单元通过单词识别单元识别这样检查单词序列,即该单词序列是否包括包含指令的结构。
该装置有利地具有前置于讲话者识别单元和/或指令识别单元的回波补偿单元。该回波补偿单元具有至少一个用于单声道-、立体声-和/或多声道-扬声器信号的输入端。由此可以补偿扬声器信号对语音信号的影响,其方法是计算或估算通过扬声器信号产生的分信号并将其从语音信号中减去。
此外,回波补偿单元可以包括用于补偿由其他人产生的语音分量的子单元。该子单元有利地具有至少一个附加的麦克风输入端。该子单元可以设计用于补偿通过与附加的麦克风输入端相连的其它麦克风接收的、其他人的语音分量的影响。也就是说,该子单元设计用于根据其它麦克风的输出信号,估算或计算其他讲话者的语音分量对语音信号的影响并通过从语音信号中减去来补偿该影响。可替换地,或除了使用其它麦克风以补偿其他讲话者的语音分量之外,为了该目的该子单元还可以设计用于过滤与声音基础频率同步的语音信号。
可替换地或附加地在下面的情况下,即用于语音信号的输入端设计用于多声道-语音信号,或存在多个麦克风输入端,该子单元则可以设计用于根据之前确定的、估算的或给定的、讲话者的地点来实现不同的语音声道的在时间上的联系作用。也就是说,如果使用了多个麦克风,那么从语音信号中减去所有不是来自预期地点的讲话者的语音信号分量。
回波补偿单元设计用于将相应的变得清晰的语音信号传送至讲话者识别单元和/或语音识别单元。
此外,该装置有利地包括尤其可以布置在回波补偿单元之后的噪声抑制单元。
噪声抑制单元设计用于抑制不变的和也有利的是似稳的(也就是说在时间上缓慢变化的)噪声分量。
有利地,噪声抑制单元尤其这样设计用于通过频率特性适应来参数化地匹配语音信号的噪声行为特性,即语音信号的噪声属性匹配于集成在语音识别单元中的语音模型的噪声属性。
通过噪声属性的这样的匹配确保了不会通过噪声抑制而造成经过噪声抑制处理的语音信号与语音识别单元的语音模型的不兼容性。
有利地,讲话者识别单元和/或语音识别单元设计用于使被识别的讲话者向决策单元的输出与通过语音识别单元的被识别的指令的输出同步。通过该同步确保了,结果行为的激活可靠地取决于,讲话者和指令是否在语音信号的相同部段中被识别。
有利地,在讲话者识别单元中集成了另外的单元,该单元设计用于讲话者适应(Sprecheradaption),也就是说用于不断确定细化的取决于讲话者的特征以及用于把该细化的取决于讲话者的特征存储在对应于当前的讲话者的讲话者模型中。有利地,通过该另外的单元可以把取决于时间的变化作为属性存储在讲话者模型中。
尤其有利地,语音识别单元也包括用于讲话者适应的附加单元。由此可以通过语音识别单元与当前的讲话者的匹配而显著地提高指令识别的可靠性。
有利地,并联于讲话者识别单元和语音识别单元布置了用于根据语音信号检测驾驶员的状态的驾驶员状态检测单元,该驾驶员状态检测单元设计用于根据语音信号来检测驾驶员的状态并发送至决策单元,其中驾驶员状态的检测有利地展示了至少关于行驶能力(例如疲劳、吸毒和/或超载)或情绪状况(例如激动、愤怒、精力集中、放松和/或平静)的信息。
有利地,该装置具有至少一个用于存储使用者模型和/或至少一个讲话者模型的存储装置。该存储装置可设计为中央存储单元,其中讲话者识别单元、语音识别单元和决策单元与该中央存储单元连接。可替换地,该装置具有多个存储装置,其中至少一个存储装置分别集成在讲话者识别单元、语音识别单元和/或决策单元中。
有利地,至少一个存储装置具有至少一个用于输入或输出数据的端口,从而能够传输讲话者和/或使用者模型。例如由于购买新车而更换车辆时,这是尤其有利的,这是因为因此可以避免完全重新设定讲话者模型和使用者模型。
在一个特别有利的实施例中,该装置这样设计,即如果通过决策单元来执行结果行为,则也考虑输入的语音信号,以及通过包含在语音信号中的指令至少部分地中断由在前的指令触发的结果行为的执行。部分的中断可以在于,即在继续执行通过在前的指令触发的控制事件期间中断语音输出。因此,讲话者不必完全等待语音输出。由此可以明显加速语音对话,尤其是当已经熟悉该装置的讲话者已经知道了通过语音输出通知的选项时。此外有利的是,当使用者期望的选项已被读出后,可以中断列举可能的选项。
此外有利的是,用于激活语音对话和/或进行语音对话的系统具有至少一个扬声器、至少一个麦克风以及根据本发明的用于激活语音对话或进行语音对话的装置。有利地,至少一个麦克风具有自动的放大适配性(Verstaerkungsanpassung)。
该系统可以用于通过至少一个扬声器输出单声道-、立体声-或多声道-音频信号,以及用于通过至少一个麦克风采集单声道-、立体声-或多声道-语音信号。此外取代或除了单个麦克风之外,还可以包括麦克风阵列。
如果存在多个麦克风,那么这些麦克风有利地这样布置或可这样布置,即麦克风的最大灵敏性的区域相应于其方向特性在授权的讲话者的推测的或确定的停留区域中进行覆盖,以及用于处理麦克风信号的后续单元通过对信号的时间延迟的合计以及其它信号处理方法分离出授权的讲话者的信号,每个授权的讲话者的信号在其声道中提高,并且所有其它讲话者的信号和干扰信号减小(所谓的“beamforming(波束成形)”)。
有利地,该系统包括用于使麦克风自动对准授权的讲话者的跟踪装置。该跟踪装置可以设计用于分析通过麦克风接收的信号的渡越时间延迟从而获得授权的讲话者的位置,并且然后使麦克风对准该位置。
附图说明
下面根据图1至4说明本发明的实施例。附图示出:
图1示出根据本发明的用于激活语音对话的系统的第一实施例;
图2示出根据本发明的用于进行语音对话的系统的第一实施例;
图3示出根据本发明的用于激活语音对话的系统的第二实施例;
图4示出根据本发明的用于进行语音对话的系统的第二实施例。
具体实施方式
图1示出用于激活语音对话的系统1。该系统分析通过麦克风2接收的语音信号8。该语音信号包括:通过使用者进行的声学的语音输入3以及多个干扰信号,即车辆内部空间4中的其他人的语音分量、车辆周围环境5的噪声、通过扬声器6的来自无线电收发设备28的音乐和/或来自语音对话输出27的语音输出信号、以及语音输入和干扰信号的声波反射7。语音信号8被输入到回波补偿单元9中。回波补偿单元9具有用于扬声器信号10的附加的输入端。回波补偿单元利用扬声器信号10计算干扰信号6对语音信号8的影响。此外,回波补偿单元计算声波反射7的通过干扰信号引起的分量以及其对语音信号8的影响。由回波补偿单元补偿了因此是已知的影响,并且从回波补偿单元9发出经回波补偿的语音信号11。
经回波补偿的语音信号11在输入端方面输入噪声抑制单元12中并经历噪声补偿。由此减去信号11的静态背景。此外,补偿似稳的、也就是说缓慢变化的噪声分量。此外,通过频率特性适应来参数化地匹配信号11的噪声行为特性。由此,使信号11的噪声属性匹配关键词识别单元的语音模型的噪声属性。
这样地经噪声补偿的信号15经过第一输出端13和第二输出端16输出。
第一输出端13与讲话者识别单元14连接。讲话者识别单元14设计用于从信号15中提取讲话者特征。该讲话者识别单元把提取的讲话者特征依次与在存储装置17里的讲话者模型中存储的特征这样比较,即分别依次调出讲话者模型并把存储在其中的特征与提取的特征比较。对此重复操作,直到把提取的特征与所有存储的讲话者模型比较。这样确定,提取的特征是否与讲话者模型之一的特征一致。
如果确定了这种一致,那么讲话者识别单元通过输出端23把关于识别的讲话者的信息传输至语音对话激活单元29。
此外,另一个用于讲话者适应的单元20集成在讲话者识别单元14中,该另外的单元设计用于持续细化取决于讲话者的特征。该另外的单元将细化的、取决于讲话者的特征存储在属于讲话者的、存储在存储装置17上的讲话者模型中。
该另外的单元20设计用于,确定讲话者内容特征的取决于时间的变化并将之作为属性存储在存储装置17上的讲话者模型中。
关键词识别单元24与讲话者识别单元14并联地布置。该关键词识别单元设计用于识别,语音信号中是否包含或包含哪些有效的指令或有效的语音指令形式。通过输出端25输出相应确定的指令。
此外,关键词识别单元包含用于讲话者适应的附加单元18。附加单元设计用于对当前的授权的讲话者的关键词识别进行优化。为此,附加单元从语音信号中提取语音特征,并将其与存储在讲话者模型中的单个的语音特征相比较。取决于比较结果对单个的语音特征进行细化和/或补充。由此可以将语音特征的在时间上的变化作为属性进行检测,并存储在讲话者模型中。在识别关键词时会考虑这样确定/补充的单个的语音特征。因为这样用于关键词识别的语音模型可以匹配当前的讲话者,所以可以显著提高关键词识别的可靠性。
在讲话者识别单元14和关键词识别单元24之后布置了语音对话激活单元29。当由关键词识别单元24识别了相应的指令并且同时由讲话者识别单元识别了有权激活的讲话者时,语音对话激活单元设计用于输出一个或多个事件26。
语音对话输出27可激活事件中任一个,并且未示出的语音对话系统可激活另一事件。
图2示出用于进行语音对话的系统30的实施例。该系统取代关键词识别单元24而具有更复杂的语音识别单元31,以及取代语音对话激活单元29而具有语音对话单元32。
语音识别单元31与第一实施例中的关键词识别单元24的区别主要在于,不仅将一些关键词、而且也将多个不同的指令识别为有效,以及不仅识别单词自身、而且也识别了由单词组成的结构。为此,语音识别单元31划分为用于识别单词的单词识别单元19以及用于识别通过单词组成的结构的结构识别单元21。在用于语音对话激活的系统中这种划分也是有利的。用于讲话者适应的附加单元18集成在单词识别单元19中,并在那里起到与在第一实施例中相同的作用。
语音对话单元32也具有相应更大的功能范围。语音对话单元设计用于进行与授权的讲话者进行语音对话,其中语音对话流程适应性地由授权的讲话者控制。例如,使用者可以通过选择菜单的不同选项来控制这种语音对话流程。例如在使用者选择选项之后,他可以到达具有其它选项的其它菜单。除了进行语音对话之外,语音对话单元32还设计用于,根据授权的讲话者的指令来输出用于车辆功能的不同的控制信号。
除了与第一实施例的上述区别之外,在图2中示出的实施例的不同之处还在于,代替一个扬声器6布置了多个扬声器6。然而,如在第一实施例中那样,这些扬声器也仅设计用于输出单声道信号。
与前述实施例的区别还在于,噪声抑制单元具有第三输出端22。该输出端连接至驾驶员状态识别单元39。该驾驶员状态识别单元用于识别驾驶员的状态,如嘶哑、疲劳、醉酒、吸毒或愤怒。
将识别出的驾驶员状态传输到语音对话单元。语音对话单元设计用于在关于结果行为的决策方面对驾驶员状态加以考虑。
与图1的实施例的区别还在于,该系统设计用于干涉,也就是说如果当还在基于前述指令进行语音输出的同时识别出指令,则中止该语音输出。
图3示出了语音对话激活系统的第二实施例。该实施例与图1所示的实例的区别在于,代替扬声器6而设有扬声器组合33。扬声器组合设计用于输出单声道-、立体声-和多声道信号34。相应地,回波补偿单元设计用于补偿多声道信号34。此外,正如在图2中所示的实施例那样,语音对话激活系统包括驾驶员状态识别单元39。
图4示出用于进行语音对话的系统的第二实施例。在该实施例中代替单个麦克风2安装了麦克风阵列35以及一些另外的麦克风36。麦克风阵列以及另外的麦克风这样设计,即它们具有方向特性,也就是说它们优选地接收来自特定的空间区域的声波。通过麦克风阵列35接收了多声道语音信号37,该多声道语音信号取代语音信号8被传输至回波补偿单元。
此外,在此也使用扬声器组合用于输出单声道-、立体声-和多声道信号。
麦克风阵列35可以包括未示出的麦克风跟踪装置,该麦克风跟踪装置使阵列的麦克风自动跟踪授权的讲话者。为此,麦克风跟踪装置分析语音信号相对于阵列的不同麦克风的渡越时间差并因此确定授权的讲话者的地点。
通过麦克风阵列接收的语音信号在输入到回波补偿单元中之前,在连接在麦克风阵列之后的、用于处理麦克风信号的单元中通过信号的时间延迟的相加得出总和来进一步处理。由此将授权的讲话者的信号分离并减小所有其它的讲话者信号和干扰信号。
另外的麦克风36中的任一个对齐每个其它的车辆位置。回波补偿单元包括子单元38,该子单元设计用于根据另外的麦克风36的信号补偿在车辆内部空间中的其他人对信号37的影响。也就是说,该子单元根据另外的麦克风36的信号计算其他人对信号37的可能的影响,并相应地减去该信号分量。
此外,回波补偿单元分析多声道语音信号37的不同声道的渡越时间差,并且去除信号37的所有分量,这些分量相应于其渡越时间差并不从授权的讲话者的地点出发。
附加地,在图4中所示的实施例的不同之处在于,存储装置17与用于连接USB端口、读卡器或光驱的输出端40连接。由此,能够实现使用者模型的输入和/或输出。
当然,扬声器和麦克风的选择不取决于是否存在用于进行语音对话或激活语音对话的系统,也就是说,根据图2或4的具有扬声器/麦克风布置的、用于激活语音对话的系统,或根据图1或3的具有扬声器/麦克风布置的、用于进行语音对话的系统也都是有利的。

Claims (34)

1.一种用于激活语音对话和进行语音对话的其中至少一种的装置,应用在车辆中,所述装置包括:
-至少一个用于语音信号的输入端;
-语音识别单元,用于确定包含在所述语音信号中的一个或多个的指令;
讲话者识别单元配置用于根据所述语音信号和至少一个存储的讲话者模型确定当前的讲话者;
决策单元包括:
耦合至所述语音识别单元的语音识别单元连接,该语音识别单元配置为进行基于一个或多个指令的结果行为,和
耦合至所述讲话者识别单元的讲话者识别单元连接,
所述决策单元配置为使得,至少在至少一个指令的情况下,结果行为的激活取决于该至少一个指令是否已经被识别为来自与讲话者模型关联的讲话者;以及
回波补偿单元,接收多声道语音信号,并且基于相对于至少一个输入的多声道信号的分量之间的渡越时间差,去除来自非授权讲话者的一个分量,
其中所述讲话者识别单元配置为通过从所述语音信号中提取讲话者特征并与存储的取决于讲话者的特征比较,并且包括另外的单元,所述另外的单元设计用于讲话者适应,不断确定的细化的取决于讲话者的特征以及用于把所述细化的取决于讲话者的特征存储在存储的所述讲话者模型中,
所述讲话者识别单元配置为,在多个讲话者正在同时讲话的情况下,不把所述语音信号归属于讲话者。
2.根据权利要求1所述的装置,其中,所述决策单元设计用于把所述讲话者识别单元和所述语音识别单元的结果与存储在讲话者模型中的、针对讲话者的信息相比较和相联系,其中如果所述当前的讲话者未被授权执行所述结果行为,则抑制至少一个取决于指令的结果行为的执行。
3.根据权利要求1所述的装置,其中,所述决策单元这样设计,即不取决于对应于所述讲话者模型的所述讲话者的所述识别来执行一些指令。
4.根据权利要求1所述的装置,其中,所述装置设计为用于进行语音对话和激活语音对话的组合装置。
5.根据权利要求1所述的装置,其中,语音分析单元包括用于识别单词的单词识别单元以及后续的、用于识别构成指令的结构的结构分析单元。
6.根据权利要求1所述的装置,其中,所述回波补偿单元紧邻或非紧邻地前置于所述讲话者识别单元和所述语音识别单元,其中所述回波补偿单元具有一个或多个用于包括单声道-、立体声-和/或多声道-扬声器信号的扬声器信号的输入端,以及所述回波补偿单元设计用于补偿所述扬声器信号对所述语音信号的影响。
7.根据权利要求6所述的装置,其中,所述回波补偿单元具有用于补偿其他人的语音分量的子单元,所述子单元有利地与至少一个用于连接附加的麦克风的输入端连接。
8.根据权利要求1所述的装置,其中,噪声抑制单元紧邻或非紧邻地前置于所述讲话者识别单元和所述语音识别单元的其中至少一个。
9.根据权利要求1所述的装置,其中,所述讲话者识别单元和所述语音识别单元中的其中至少一个设计用于使通过所述讲话者识别单元识别的所述讲话者向所述决策单元的输出与由所述语音识别单元识别的指令的输出同步。
10.根据权利要求1所述的装置,其中,并联于所述讲话者识别单元和所述语音识别单元布置了用于根据所述语音信号检测驾驶员的状态的驾驶员状态检测单元。
11.根据权利要求1所述的装置,其中,所述语音识别单元包括附加单元,所述附加单元设计用于检测所述讲话者的所述讲话者特征的取决于时间的变化作为属性并将所述变化存储在对应于所述讲话者存储的所述讲话者模型中。
12.根据权利要求1所述的装置,其中,所述装置具有至少一个存储装置,所述存储装置设计用于存储使用者模型和所述讲话者模型。
13.根据权利要求12所述的装置,其中,所述至少一个存储装置具有至少一个接口配置用于输出和/或输入存储的所述讲话者模型和所述使用者模型中的至少一个的输入端和/或输出端,使得存储的所述使用者模型和所述讲话者模型中的其中至少一个可转移至另一个车辆或从另一个车辆转移。
14.根据权利要求1所述的装置,其中,所述装置这样设计,即在所述结果行为的执行期间也激活所述装置以用于分析所述语音信号,所述装置这样设计,即在识别来自授权的所述讲话者的指令时,至少部分地中断由在前的指令触发的所述结果行为的所述执行。
15.一种用于激活语音对话和/或进行语音对话的系统,所述系统包括:
-至少一个用于语音信号的输入端;
-语音识别单元,用于确定包含在所述语音信号中的一个或多个的指令;
讲话者识别单元配置用于根据所述语音信号和至少一个存储的讲话者模型确定当前的讲话者;
决策单元包括:
耦合至所述语音识别单元的语音识别单元连接,该语音识别单元配置为进行基于一个或多个指令的结果行为,和
耦合至所述讲话者识别单元的讲话者识别单元连接,
所述决策单元配置为使得,至少在至少一个指令的情况下,结果行为的激活取决于该至少一个指令是否已经被识别为来自与讲话者模型关联的讲话者;以及
回波补偿单元,接收多声道语音信号,并且基于相对于至少一个输入的多声道信号的分量之间的渡越时间差,去除来自非授权讲话者的一个分量,
其中所述讲话者识别单元配置为通过从所述语音信号中提取讲话者特征并与存储的取决于讲话者的特征比较,并且包括另外的单元,所述另外的单元设计用于讲话者适应,不断确定的细化的取决于讲话者的特征以及用于把所述细化的取决于讲话者的特征存储在存储的所述讲话者模型中,
所述讲话者识别单元配置为,在多个讲话者正在同时讲话的情况下,不把所述语音信号归属于讲话者。
16.根据权利要求15所述的系统,其中,所述系统包括这样布置的多个麦克风或至少一个麦克风阵列,即通过所述麦克风的方向特性给定的最佳接收的区域覆盖了在授权的讲话者的推测的停留区域中的至少一些所述麦克风。
17.根据权利要求16所述的系统,其中,所述麦克风设计为自动地对准通过所述麦克风检测的、所述讲话者的位置。
18.一种用于激活语音对话和/或进行语音对话的方法,包括以下步骤:
-接收语音信号;
-从所述语音信号中识别指令和指令结构中的其中至少一个;
-根据所述语音信号和至少一个存储的讲话者模型识别讲话者;
-随后取决于识别的所述指令和识别的所述讲话者执行结果行为,其中所述语音信号为多声道语音信号;
基于相关于至少一个麦克风的多声道信号的分量之间的渡越时间差,去除来自非授权讲话者的所有分量,
其中识别授权的讲话者包括从所述语音信号中提取讲话者特征并且与存储在讲话者模型中的单个讲话者特征相比较并且
其中讲话者适应进行为连续地简化并补充存储在所述讲话者模型中的所述单个讲话者特征,
其中讲话者识别,在多个讲话者同时讲话的情况下,不把所述语音信号归属于讲话者。
19.根据权利要求18所述的方法,其中,识别所述指令和所述指令结构中的至少一个的步骤还包括:
-识别包含在所述语音信号中的单词,
-识别由所述单词构成的所述指令结构。
20.根据权利要求18所述的方法,其中,在识别所述指令之前和在识别所述讲话者之前中的其中至少一个这样进行回波补偿,即从所述语音信号中去除由于在乘客车厢中的反射产生的扬声器信号的叠加,其方法是计算由于所述扬声器信号产生的所述叠加并从所述语音信号中减去所述叠加。
21.根据权利要求20所述的方法,其中,确定所述语音信号的由其他人引起的语音信号分量,并至少部分地从所述语音信号中去除。
22.根据权利要求21中所述的方法,其中,所述语音信号设计为多声道语音信号。
23.根据权利要求22所述的方法,其中,通过所述多声道语音信号的不同声道的不同时间推移的信号的在时间上的联系,提取并分离来自授权的所述讲话者的地点之一的、所述语音信号的所述分量。
24.根据权利要求18所述的方法,其中,所述结果行为的所述执行与识别的所述指令之间的相关性在于,当没有识别所属的所述讲话者时和所属的所述讲话者之一没有授权对所述结果行为进行指示时,抑制所述结果行为的所述执行。
25.根据权利要求18所述的方法,其中,在识别所述指令之一或所述讲话者之一之前进行噪声抑制。
26.根据权利要求18所述的方法,其中,检测所述讲话者特征的取决于时间的变化作为属性并将所述变化存储在所述讲话者模型中。
27.根据权利要求26所述的方法,其中,为了识别指令,包括从所述语音信号中提取语音者特征并把所述讲话者特征与存储在所述讲话者模型中的单个的语音特征比较。
28.根据权利要求27所述的方法,其中,进行讲话者适应,通过所述讲话者适应,持续地细化和补充了存储在所述讲话者模型中的所述单个的语音者特征。
29.根据权利要求28所述的方法,其中,检测所述语音特征的取决于时间的变化作为属性并存储在所述讲话者模型中。
30.根据权利要求29所述的方法,其中,根据所述语音信号检测驾驶员状态。
31.根据权利要求18所述的方法,其中,可通过输入其它语音信号来中断所述结果行为的后续的执行,所述其它语音信号包含授权的所述讲话者的其它指令。
32.根据权利要求18所述的方法,其中,根据所述语音信号确定授权的所述讲话者的地点,以及不取决于包含于所述语音信号中的所述指令而产生用于使至少一个麦克风对准授权的所述讲话者的所述地点的控制信号。
33.根据权利要求32所述的方法,其中,所述结果行为的所述执行包括输出语音对话信号。
34.根据权利要求33所述的方法,其中,所述结果行为的所述执行包括所述控制信号的信号输出,所述控制信号用于控制集成于车辆中的装置的功能。
CN201010527304.5A 2009-10-30 2010-10-29 用于激活和/或进行语音对话的装置、系统和方法 Active CN102054481B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102009051508.9 2009-10-30
DE102009051508.9A DE102009051508B4 (de) 2009-10-30 2009-10-30 Vorrichtung, System und Verfahren zur Sprachdialogaktivierung und -führung

Publications (2)

Publication Number Publication Date
CN102054481A CN102054481A (zh) 2011-05-11
CN102054481B true CN102054481B (zh) 2015-12-16

Family

ID=43434275

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010527304.5A Active CN102054481B (zh) 2009-10-30 2010-10-29 用于激活和/或进行语音对话的装置、系统和方法

Country Status (4)

Country Link
US (1) US9020823B2 (zh)
EP (1) EP2333768A3 (zh)
CN (1) CN102054481B (zh)
DE (1) DE102009051508B4 (zh)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9881616B2 (en) * 2012-06-06 2018-01-30 Qualcomm Incorporated Method and systems having improved speech recognition
US20140112496A1 (en) * 2012-10-19 2014-04-24 Carlo Murgia Microphone placement for noise cancellation in vehicles
TWI557722B (zh) * 2012-11-15 2016-11-11 緯創資通股份有限公司 語音干擾的濾除方法、系統,與電腦可讀記錄媒體
CN103871408B (zh) * 2012-12-14 2017-05-24 联想(北京)有限公司 一种语音识别方法及装置、电子设备
WO2014100236A1 (en) * 2012-12-19 2014-06-26 Visa International Service Association System and method for voice authentication
US10395651B2 (en) 2013-02-28 2019-08-27 Sony Corporation Device and method for activating with voice input
US9552825B2 (en) * 2013-04-17 2017-01-24 Honeywell International Inc. Noise cancellation for voice activation
DE102014204980B4 (de) 2013-07-05 2017-10-05 Ford Global Technologies, Llc Verfahren und Vorrichtung zur Einschränkung oder Zwangsaktivierung von Kraftfahrzeugfunktionen
CN110096253B (zh) * 2013-07-11 2022-08-30 英特尔公司 利用相同的音频输入的设备唤醒和说话者验证
KR102094347B1 (ko) * 2013-07-29 2020-03-30 삼성전자주식회사 자동 청소 시스템, 청소 로봇 및 그 제어 방법
WO2015026329A1 (en) * 2013-08-20 2015-02-26 Intel Corporation Collaborative audio conversation attestation
US9928851B2 (en) 2013-09-12 2018-03-27 Mediatek Inc. Voice verifying system and voice verifying method which can determine if voice signal is valid or not
US9508345B1 (en) 2013-09-24 2016-11-29 Knowles Electronics, Llc Continuous voice sensing
DE102013019208A1 (de) 2013-11-15 2015-05-21 Audi Ag Kraftfahrzeug-Sprachbedienung
US9953634B1 (en) 2013-12-17 2018-04-24 Knowles Electronics, Llc Passive training for automatic speech recognition
KR102210433B1 (ko) * 2014-01-21 2021-02-01 삼성전자주식회사 전자 장치 및 이의 음성 인식 방법
US9437188B1 (en) 2014-03-28 2016-09-06 Knowles Electronics, Llc Buffered reprocessing for multi-microphone automatic speech recognition assist
CN105096936A (zh) * 2014-05-15 2015-11-25 哈尔滨海能达科技有限公司 一种即时按键通话业务控制方法和装置
US9398367B1 (en) * 2014-07-25 2016-07-19 Amazon Technologies, Inc. Suspending noise cancellation using keyword spotting
CN104828095B (zh) * 2014-09-02 2018-06-19 北京宝沃汽车有限公司 检测驾驶员驾驶状态的方法、装置及系统
US9947318B2 (en) * 2014-10-03 2018-04-17 2236008 Ontario Inc. System and method for processing an audio signal captured from a microphone
CN106157955A (zh) 2015-03-30 2016-11-23 阿里巴巴集团控股有限公司 一种语音控制方法及装置
TWI525532B (zh) * 2015-03-30 2016-03-11 Yu-Wei Chen Set the name of the person to wake up the name for voice manipulation
JP6227209B2 (ja) * 2015-09-09 2017-11-08 三菱電機株式会社 車載用音声認識装置および車載機器
US9875081B2 (en) 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
US10542154B2 (en) 2015-10-16 2020-01-21 Panasonic Intellectual Property Management Co., Ltd. Device for assisting two-way conversation and method for assisting two-way conversation
DE102015222105A1 (de) 2015-11-10 2017-05-11 Volkswagen Aktiengesellschaft Audiosignalverarbeitung in einem Fahrzeug
US9961435B1 (en) 2015-12-10 2018-05-01 Amazon Technologies, Inc. Smart earphones
KR102392113B1 (ko) * 2016-01-20 2022-04-29 삼성전자주식회사 전자 장치 및 전자 장치의 음성 명령 처리 방법
DE102016217026A1 (de) 2016-09-07 2018-03-08 Bayerische Motoren Werke Aktiengesellschaft Sprachsteuerung eines Kraftfahrzeugs
KR20180036032A (ko) * 2016-09-30 2018-04-09 삼성전자주식회사 영상처리장치 및 기록매체
US10593328B1 (en) * 2016-12-27 2020-03-17 Amazon Technologies, Inc. Voice control of remote device
CN108447471B (zh) * 2017-02-15 2021-09-10 腾讯科技(深圳)有限公司 语音识别方法及语音识别装置
US11178280B2 (en) * 2017-06-20 2021-11-16 Lenovo (Singapore) Pte. Ltd. Input during conversational session
US10482904B1 (en) 2017-08-15 2019-11-19 Amazon Technologies, Inc. Context driven device arbitration
DE102017220266B3 (de) 2017-11-14 2018-12-13 Audi Ag Verfahren zum Überprüfen eines Onboard-Spracherkenners eines Kraftfahrzeugs sowie Steuervorrichtung und Kraftfahrzeug
US10529331B2 (en) * 2017-12-12 2020-01-07 Intel Corporation Suppressing key phrase detection in generated audio using self-trigger detector
WO2019127057A1 (zh) * 2017-12-26 2019-07-04 海能达通信股份有限公司 组呼的语音信号处理方法、通讯终端以及计算机存储介质
CN108492827B (zh) * 2018-04-02 2019-07-30 百度在线网络技术(北京)有限公司 应用程序的唤醒处理方法、装置及存储介质
KR102531654B1 (ko) 2018-05-04 2023-05-11 삼성전자주식회사 음성 입력 인증 디바이스 및 그 방법
US11289097B2 (en) * 2018-08-28 2022-03-29 Dell Products L.P. Information handling systems and methods for accurately identifying an active speaker in a communication session
WO2020060267A1 (en) * 2018-09-20 2020-03-26 Samsung Electronics Co., Ltd. Cleaning robot and method for performing task thereof
DE102018007582A1 (de) * 2018-09-25 2020-03-26 Daimler Ag Kraftfahrzeug und Verfahren zur Verarbeitung von Schalleinwirkung von außerhalb des Kraftfahrzeugs
KR102623246B1 (ko) * 2018-10-12 2024-01-11 삼성전자주식회사 전자 장치, 전자 장치의 제어 방법 및 컴퓨터 판독 가능 매체.
US11021147B2 (en) 2018-12-12 2021-06-01 Toyota Research Institute, Inc. Vehicles and methods for determining objects of driver focus
CN110033773B (zh) * 2018-12-13 2021-09-14 蔚来(安徽)控股有限公司 用于车辆的语音识别方法、装置、系统、设备以及车辆
CN110450789B (zh) * 2019-08-13 2020-12-15 广州小鹏汽车科技有限公司 一种信息处理方法和装置
CN111933174A (zh) * 2020-08-16 2020-11-13 云知声智能科技股份有限公司 语音处理方法、装置、设备和系统
US20220153177A1 (en) * 2020-11-19 2022-05-19 Lear Corporation Seat voice and sound control
US11557278B2 (en) * 2020-12-10 2023-01-17 Google Llc Speaker dependent follow up actions and warm words

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6236968B1 (en) * 1998-05-14 2001-05-22 International Business Machines Corporation Sleep prevention dialog based car system
US6498970B2 (en) * 2001-04-17 2002-12-24 Koninklijke Phillips Electronics N.V. Automatic access to an automobile via biometrics
EP1610302A1 (de) * 2004-06-22 2005-12-28 Bayerische Motoren Werke Aktiengesellschaft Verfahren zur sprecherabhängigen Spracherkennung in einem Kraftfahrzeug
EP2028061A2 (en) * 2007-08-23 2009-02-25 Delphi Technologies, Inc. System and method of controlling personalized settings in a vehicle

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2049173C (en) * 1990-08-16 1996-06-25 Shoji Fujimoto Speech recognition apparatus
US5165095A (en) * 1990-09-28 1992-11-17 Texas Instruments Incorporated Voice telephone dialing
US5522012A (en) * 1994-02-28 1996-05-28 Rutgers University Speaker identification and verification system
US6073101A (en) * 1996-02-02 2000-06-06 International Business Machines Corporation Text independent speaker recognition for transparent command ambiguity resolution and continuous access control
US6023676A (en) 1996-12-12 2000-02-08 Dspc Israel, Ltd. Keyword recognition system and method
WO2000039789A1 (en) * 1998-12-29 2000-07-06 Alcatel Usa Sourcing, L.P. Security and user convenience through voice commands
JP2003502701A (ja) 1999-06-21 2003-01-21 パルックス アクチエンゲゼルシャフト 自動機械を制御する制御装置
DE19948366A1 (de) * 1999-06-21 2000-12-28 Palux Ag Steuereinrichtung zur Steuerung von Automaten
US6957337B1 (en) * 1999-08-11 2005-10-18 International Business Machines Corporation Method and apparatus for secure authorization and identification using biometrics without privacy invasion
DE19962218C2 (de) * 1999-12-22 2002-11-14 Siemens Ag Verfahren und System zum Autorisieren von Sprachbefehlen
US6721705B2 (en) * 2000-02-04 2004-04-13 Webley Systems, Inc. Robust voice browser system and voice activated device controller
US20020091527A1 (en) * 2001-01-08 2002-07-11 Shyue-Chin Shiau Distributed speech recognition server system for mobile internet/intranet communication
DE10111121B4 (de) * 2001-03-08 2005-06-23 Daimlerchrysler Ag Verfahren zur Sprechererkennung für die Bedienung von Geräten
US20030033143A1 (en) * 2001-08-13 2003-02-13 Hagai Aronowitz Decreasing noise sensitivity in speech processing under adverse conditions
US7031477B1 (en) * 2002-01-25 2006-04-18 Matthew Rodger Mella Voice-controlled system for providing digital audio content in an automobile
JP4195267B2 (ja) * 2002-03-14 2008-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
US7478043B1 (en) * 2002-06-05 2009-01-13 Verizon Corporate Services Group, Inc. Estimation of speech spectral parameters in the presence of noise
US7693720B2 (en) * 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US8068881B2 (en) * 2002-08-09 2011-11-29 Avon Associates, Inc. Voice controlled multimedia and communications system
US7359504B1 (en) * 2002-12-03 2008-04-15 Plantronics, Inc. Method and apparatus for reducing echo and noise
US7415410B2 (en) * 2002-12-26 2008-08-19 Motorola, Inc. Identification apparatus and method for receiving and processing audible commands
US7136462B2 (en) * 2003-07-15 2006-11-14 Lucent Technologies Inc. Network speech-to-text conversion and store
DE10335741A1 (de) * 2003-08-05 2005-03-17 Robert Bosch Gmbh Verfahren zur Ermittlung eines kritischen Fahrverhaltens
DE10339647A1 (de) * 2003-08-28 2005-03-24 Robert Bosch Gmbh Vorrichtung zur Fahrerwarnung
KR20050023941A (ko) 2003-09-03 2005-03-10 삼성전자주식회사 음성 인식 및 화자 인식을 통한 개별화된 서비스를제공하는 a/v 장치 및 그 방법
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
ATE426526T1 (de) * 2003-10-21 2009-04-15 Johnson Controls Tech Co System und verfahren zur auswahl eines benutzersprachprofils fur eine vorrichtung in einem fahrzeug
EP1562180B1 (en) * 2004-02-06 2015-04-01 Nuance Communications, Inc. Speech dialogue system and method for controlling an electronic device
US20060087924A1 (en) * 2004-10-22 2006-04-27 Lance Fried Audio/video portable electronic devices providing wireless audio communication and speech and/or voice recognition command operation
EP1695873B1 (en) * 2005-02-23 2008-07-09 Harman Becker Automotive Systems GmbH Vehicle speech recognition system
DE102005018078A1 (de) * 2005-04-19 2006-10-26 Robert Bosch Gmbh Speichereinrichtung für ein Nutzerprofil
US8825482B2 (en) * 2005-09-15 2014-09-02 Sony Computer Entertainment Inc. Audio, video, simulation, and user interface paradigms
US7693717B2 (en) * 2006-04-12 2010-04-06 Custom Speech Usa, Inc. Session file modification with annotation using speech recognition or text to speech
US20080082338A1 (en) 2006-09-29 2008-04-03 O'neil Michael P Systems and methods for secure voice identification and medical device interface
DE102006047982A1 (de) * 2006-10-10 2008-04-24 Siemens Audiologische Technik Gmbh Verfahren zum Betreiben einer Hörfilfe, sowie Hörhilfe
US7512487B1 (en) * 2006-11-02 2009-03-31 Google Inc. Adaptive and personalized navigation system
JP5156260B2 (ja) * 2007-04-27 2013-03-06 ニュアンス コミュニケーションズ,インコーポレイテッド 雑音を除去して目的音を抽出する方法、前処理部、音声認識システムおよびプログラム
US8219404B2 (en) * 2007-08-09 2012-07-10 Nice Systems, Ltd. Method and apparatus for recognizing a speaker in lawful interception systems
US9302630B2 (en) * 2007-11-13 2016-04-05 Tk Holdings Inc. System and method for receiving audible input in a vehicle
US8649533B2 (en) * 2009-10-02 2014-02-11 Ford Global Technologies, Llc Emotive advisory system acoustic environment

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6236968B1 (en) * 1998-05-14 2001-05-22 International Business Machines Corporation Sleep prevention dialog based car system
US6498970B2 (en) * 2001-04-17 2002-12-24 Koninklijke Phillips Electronics N.V. Automatic access to an automobile via biometrics
EP1610302A1 (de) * 2004-06-22 2005-12-28 Bayerische Motoren Werke Aktiengesellschaft Verfahren zur sprecherabhängigen Spracherkennung in einem Kraftfahrzeug
EP2028061A2 (en) * 2007-08-23 2009-02-25 Delphi Technologies, Inc. System and method of controlling personalized settings in a vehicle

Also Published As

Publication number Publication date
DE102009051508A1 (de) 2011-05-05
DE102009051508B4 (de) 2020-12-03
CN102054481A (zh) 2011-05-11
EP2333768A2 (de) 2011-06-15
US9020823B2 (en) 2015-04-28
EP2333768A3 (de) 2012-07-25
US20110145000A1 (en) 2011-06-16

Similar Documents

Publication Publication Date Title
CN102054481B (zh) 用于激活和/或进行语音对话的装置、系统和方法
US10664667B2 (en) Information processing method, information processing device, and recording medium having program recorded thereon
US9916832B2 (en) Using combined audio and vision-based cues for voice command-and-control
US20120288100A1 (en) Method and apparatus for processing multi-channel de-correlation for cancelling multi-channel acoustic echo
EP2987312B1 (en) System and method for acoustic echo cancellation
US20160127827A1 (en) Systems and methods for selecting audio filtering schemes
CN107331400A (zh) 一种声纹识别性能提升方法、装置、终端及存储介质
US20130297318A1 (en) Speech recognition systems and methods
CN108470034A (zh) 一种智能设备服务提供方法及系统
US20090099849A1 (en) Voice input system, interactive-type robot, voice input method, and voice input program
US9891067B2 (en) Voice transmission starting system and starting method for vehicle
CN108922553A (zh) 用于音箱设备的波达方向估计方法及系统
CN109273020A (zh) 音频信号处理方法、装置、设备和存储介质
EP1475781A2 (en) Voice recognition system and method
WO2024078435A1 (zh) 动态切换音区的方法、语音交互方法、设备、介质及车辆
CN111798860A (zh) 音频信号处理方法、装置、设备及存储介质
CN111599366A (zh) 一种车载多音区语音处理的方法和相关装置
JP2024505968A (ja) 乗員発話検出方法及び装置、電子機器並びに記憶媒体
US20220189450A1 (en) Audio processing system and audio processing device
KR102386040B1 (ko) 음성 입력을 처리하기 위한 방법, 장치 및 명령어들을 갖는 컴퓨터 판독 가능한 저장 매체, 음성 처리 기능을 갖는 자동차, 및 사용자 단말기
CN115083412A (zh) 语音交互方法及相关装置、电子设备、存储介质
KR20190074344A (ko) 대화 시스템 및 대화 처리 방법
CN113535308A (zh) 语言调整方法、装置、电子设备及介质
KR20220125523A (ko) 전자 장치 및 전자 장치에서 레코딩과 음성 입력을 처리하는 방법
US11089420B2 (en) Speech processing system and speech processing method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230118

Address after: Hannover

Patentee after: Continental Automotive Technology Co.,Ltd.

Address before: Hannover

Patentee before: CONTINENTAL AUTOMOTIVE GmbH

TR01 Transfer of patent right