CN101462522B - 交通工具内根据状况的语音识别 - Google Patents

交通工具内根据状况的语音识别 Download PDF

Info

Publication number
CN101462522B
CN101462522B CN200810185367.XA CN200810185367A CN101462522B CN 101462522 B CN101462522 B CN 101462522B CN 200810185367 A CN200810185367 A CN 200810185367A CN 101462522 B CN101462522 B CN 101462522B
Authority
CN
China
Prior art keywords
vehicle
user
voice
vehicle device
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200810185367.XA
Other languages
English (en)
Other versions
CN101462522A (zh
Inventor
R·钱加尔瓦拉彦
T·J·格罗斯特
E·J·阿贝斯卡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motors Liquidation Co
GM Global Technology Operations LLC
Original Assignee
GM Global Technology Operations LLC
General Motors Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GM Global Technology Operations LLC, General Motors Co filed Critical GM Global Technology Operations LLC
Publication of CN101462522A publication Critical patent/CN101462522A/zh
Application granted granted Critical
Publication of CN101462522B publication Critical patent/CN101462522B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control

Landscapes

  • Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Telephonic Communication Services (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

本发明涉及交通工具内根据状况的语音识别。一种在交通工具内根据状况的语音识别方法。监控与多个交通工具功能有关的多个参数,作为当前交通工具状况的指示。基于用户与交通工具的交互,识别至少一种交通工具功能作为用户预期的ASR控制的候选者。所识别的交通工具功能然后用来消除包含在从用户接收到的语音内的可能的命令之间的歧义。

Description

交通工具内根据状况的语音识别
技术领域
本发明涉及语音信号处理,更具体地,涉及用于控制交通工具功能的自动语音识别(ASR)。
背景技术
ASR技术使得配备有麦克风的计算设备能够翻译语音从而提供对传统人机输入设备(例如键盘或键区)的替代。典型的ASR系统包括几个基本元件。麦克风和声接口(acoustic interface)接收来自用户的词的话语(utterance),并将该话语数字化为声学数据。声音预处理器将声学数据解析成承载信息的声学特征。解码器使用声学模型来将声学特征解码成话语假设(hypotheses)。该解码器为每个假设产生置信值(confidence value),以反映每个假设与每个话语的子词(subword)在语音上匹配的程度,并且为每个子词选择最佳的假设。使用语言模型,解码器将子词串联成与用户发出的词对应的输出词。ASR系统的用户向ASR系统说出请求,以控制不同的交通工具设备或者交通工具设备之一的不同功能。
具备ASR能力(ASR-enabled)的交通工具功能控制遇到的一个问题是尽管这样的系统可以正确地解码用户的输入语音,但是它可能会不正确地将认出(recognized)的语音应用于非预期的交通工具功能。换句话说,当前具备ASR能力的交通工具功能控制在消除用于一种交通工具功能的语音和用于某个其他交通工具功能的语音之间的歧义方面有着明显的困难。例如,用户可能说“let me hear some traffic(让我听交通报告/让我听traffic乐队的音乐)”,以使得交通工具无线电设备播放来自19世纪60年代的摇滚乐队Traffic的音乐,但是具备ASR能力的交通工具控制器可能会曲解该请求并且相反使另一个交通工具设备播放路线交通报告。因而,具备ASR能力的交通工具的用户变得对此情况很失望。
发明内容
本发明提供一种在交通工具内根据状况(circumstantial)的语音识别方法。根据一个实施例,该方法包括以下步骤:
(a)监控与多个交通工具功能有关的多个参数,作为当前交通工具状况(circumstances)的指示;以及
(b)当所监控的与所述多个交通工具功能中的至少一个功能有关的多个参数中的至少一个参数符合预定标准时,识别至少一个交通工具功能作为用户预期的ASR控制的候选者。
根据本发明的另一方面,提供了一种在交通工具内基于用户与交通工具的交互的根据状况的语音识别方法。该方法包括以下步骤:
监控与用户交互的多个交通工具设备;
基于用户与交通工具设备的交互识别用于用户预期的ASR控制的交通工具设备;
接收来自于用户的语音;以及
至少部分基于所识别的交通工具设备,消除包含在该语音内的两个或更多个可能的命令之间的歧义。
这些方法使得ASR系统能够增加应用认出的语音来控制用户预期使用的交通工具功能的可能性。
附图说明
下面将结合附图来描述本发明的优选示范性实施例,其中相似的标记指代相似的元件,并且其中:
图1是描述能够与交通工具内的根据状况的语音识别的方法结合使用的远程信息处理系统的示例的框图;
图2是示出能够嵌入到图1的远程信息处理系统中并且用来实现语音识别的示范性方法的示范性自动语音识别架构的框图;
图3是能够使用图1的远程信息处理系统执行的交通工具内的根据状况的语音识别的示范性方法的实施例的流程图;
图4是能够使用自动语音识别系统控制的交通工具控制器和相关交通工具设备的示例的框图;以及
图5是能够使用图1的远程信息处理系统执行的交通工具内的根据状况的语音识别方法的另一个实施例的流程图。
具体实施方式
示范性工作环境如图1所示,并且可以用来实现在此公开的根据状况的语音识别方法。能够使用任何合适的远程信息处理系统来执行该方法,并且优选地,结合诸如系统100的交通工具远程信息处理系统来执行该方法。本领域技术人员应当理解,系统100的整体架构、设置、操作和各个部件在本领域内通常都是已知的。因而,下面对系统的描述仅提供了一个这样的示范性远程信息处理系统的简短概述,但是这里未示出的其他系统和部件也可以支持在此公开的方法。
示范性远程信息处理系统100包括用于运载一个或多个乘员(occupant)或用户的交通工具102和用于提供与交通工具102的双向无线通信的无线通信系统104。另外,系统100可以包括第二通信系统106,用于使无线通信系统104与向交通工具102提供服务的系统100的呼叫中心108进行通信。此外,系统100可以包括与交通工具102和/或呼叫中心108进行通信的网络服务器(未示出)用于向其提供因特网服务。
系统100一般可以促进用于交通工具乘员的一个或多个合适的服务,该一个或多个合适的服务诸如交通工具导航、分段显示驾驶路线(turn-by-turn driving directions)、信息娱乐、紧急服务、交通工具诊断、交通工具系统更新以及免提通话(hands-free telephony)和使用自动语音识别的交通工具交互。为此,系统100处理数据和指令,以及促进位于交通工具102上的硬件和位于远程呼叫中心108中的硬件之间的无线话音和数据传输。例如,系统100使得交通工具乘员能够发起与呼叫中心108的话音通信。另外,系统100使得能够实现交通工具102和网络服务器或呼叫中心108之间的数据通信,用于各种目的,例如发送和/或接收数据(例如话音消息、电子邮件、新闻、因特网内容等等)。
交通工具
在示出的实施例中,将交通工具102描述为客车,应当理解,在不脱离本发明的范围的情况下,可以使用任何其他交通工具,包括摩托车、船舶、飞行器、休闲车(recreational vehicle),以及其他汽车,例如货车、卡车等。各种电子模块可以位于交通工具102内,并且包括一个或多个交通工具系统模块(VSM)110、装载在交通工具上的(onboard)交通工具通信总线112以及由总线112连接到VSM 110的一个或多个交通工具远程信息处理单元114。
VSM 110促进任何合适的装载在交通工具上的功能,例如交通工具诊断、监控、控制、报告和/或其他功能。例如,VSM 110可以用来通过各种交通工具传感器控制引擎操作、监控和展开安全气囊或其他安全设备、和/或诊断交通工具系统。VSM 110宽泛地代表遍及交通工具的与远程信息处理单元114进行交互的任何软件、电子或机电子系统和相关传感器或其他部件。在特定示例中,如果呼叫中心108向交通工具102发送信号以解锁交通工具的门,则远程信息处理单元114指示机电门锁VSM解锁该门。
交通工具通信总线112促进各个交通工具系统(例如VSM 110和/或远程信息处理单元114)之间的交互,并且使用任何合适的网络通信配置,不管是有线的还是无线的。合适的接口可以插入在总线112和各个交通工具系统之间。这里所用的术语“接口”宽泛地指任何合适形式的电子设备或适配器,或者甚至是软件模块或适配器,以使得一台设备能够与另一台设备通信或者控制另一台设备。总线的几个例子包括控制器区域网络(CAN)、面向媒体的系统传输(MOST)、局域互连网络(LI N)、以太网(10baseT、100baseT)、局域网(LAN)、无线区域网络(WAN)和/或任何合适的国际标准化组织(ISO)或者汽车工程师学会(SAE)通信标准。
交通工具远程信息处理单元114促进交通工具102或其乘员与包括呼叫中心108的各种远程位置之间的通信和其他服务。远程信息处理单元114通过交通工具通信总线112与各种VSM 110对接(interface)。远程信息处理单元114可以任何合适的配置实现,但是可以包括处理器116、用来经由一个或多个天线120与交通工具102进行双向无线通信的通信设备118、用来存储计算机程序124和/或一个或多个数据库126的存储器122,和用户接口128。远程信息处理单元114也包括用于在前述设备之间互相通信的任何合适的接口。
尽管在图1中作为分开的单独模块来描述,但是本领域技术人员应当理解,远程信息处理单元114的许多部件可以集成在一起,或者与其他交通工具系统集成和/或共享。例如,存储器122可以被合并到处理器116中或者位于远程信息处理单元114之外并且与诸如交通工具中央处理单元的一个或多个其他交通工具系统共享。尽管VSM 110被示出为与远程信息处理单元114分开,但是这些VSM 110的任何组合可能集成到远程信息处理单元114内。此外,远程信息处理单元114可以包括未示出的附加部件,或者可以省略示出的一些部件。
可以按照本领域技术人员公知的多种方式的任意一种实现远程信息处理处理器116,例如按照控制器、微处理器、微控制器、主处理器、交通工具通信处理器、专用集成电路(ASIC)或其它任何合适的处理器类型的形式。可替换地,处理器116可以与执行通用计算机的功能的中央处理单元(未示出)结合工作。处理器116可以与其它合适的设备和/或模块(未示出)相关,例如提供精确日期和时间信息的实时时钟设备和/或跟踪时间间隔的定时器模块。
处理器116运行存储在存储器122中的该一个或多个程序124以执行各种功能,例如系统监控、数据处理、以及使远程信息处理单元114与VSM 110、交通工具乘员和远程位置进行通信。例如,处理器116可以运行一个或多个控制程序并处理程序和/或数据,以单独或者与呼叫中心108结合实现根据状况的语音识别方法。在另一个示例中,处理器116控制、产生和接受远程信息处理单元114和呼叫中心108之间以及远程信息处理单元114和连接到各种VSM 110的交通工具通信总线112之间传输的信号。在一种模式中,这些信号用于激活VSM 110的编程和操作模式。
远程信息处理存储器122可以是提供处理器116所用的数据和程序的计算机可读存储的任意电子存储设备。存储器122可以包括易失性和/或非易失性存储器存储,例如RAM、NVRAM、硬盘、闪存等,并且可以被实现为一个或多个单独的物理设备。程序124包括一个或多个计算机程序,其作为指令由处理器116运行,以执行远程信息处理单元114的各种功能,例如消息收发、诊断、通信、语音识别等等。例如,驻留在存储器122中并且由处理器116运行的程序124可以用来实现根据状况的语音识别方法。数据库126可以用来存储消息数据、诊断故障代码数据或其它诊断数据、交通工具数据上传(VDU)记录、事件激活表、语音识别数据等等。数据库126可以被实现为数据库表,该数据库表使得能够对存储在数据库126中的数据进行查找,这可以使用公知的索引技术、数据库查询、通过这样的表格的直接串行搜索、和/或其它任何合适的存储和查找技术来完成。
远程信息处理通信设备118和相关天线120向无线通信系统104发送话音和数据并从无线通信系统104接收话音和数据,以使得远程信息处理单元114可以诸如经由第二通信系统106与呼叫中心108进行通信。通信设备118经由蜂窝、卫星和/或其它无线路径提供这样的无线通信,并且可以促进话音和/或数据通信,其中话音和数据信号都可以在话音信道和/或数据信道上被发送和接收。本领域技术人员应当认识到,通信设备118可以通过应用任何合适类型的编码或调制,以通过合并在蜂窝芯片组中的声码器或语音编解码器转换数字数据用于通信,从而在话音信道上发送和接收数据。可以使用任何提供可接受的数据速率和误码率的合适的编码或调制技术。通信设备118可以包括下面讨论的任何其它合适的模块。
通信设备118可以包括通话(telephony)模块,该通话模块包括诸如无线调制解调器和/或移动电话的通信软件和硬件。移动电话可以是任何合适的无线通话设备(例如移动电话),其可以是模拟、数字、双模、双频带、多模式和/或多频带的。移动电话可以包括单独的处理器和存储器和/或标准的蜂窝芯片组。此外,移动电话可以使用任何合适的蜂窝技术,例如高级移动电话系统(AMPS)、码分多址(CDMA)、时分多址(TDMA)、全球移动通信系统(GSM)等,但是也可以利用专有的(proprietary)或其它无线技术来与无线通信系统104进行通信。
远程信息处理用户接口128包括一个或多个输入和输出接口,以从远程信息处理用户接收输入并向远程信息处理用户发送输出。这里所用的术语“用户”包括远程信息处理服务订户、包括驾驶者和乘客的交通工具乘员等。同样,这里所用的术语“用户接口”宽泛地指任何合适形式的电子设备或适配器,或者甚至是软件模块或适配器,其使得交通工具乘员能够与另一台设备通信或者控制另一台设备。用户接口128可以包括遍布交通工具的各个部件,和/或可以被集成为单个单元,例如人机接口(HMI)、多媒体中心等等。多媒体中心可以接收并存储下载的内容(例如音乐、网页、电影、电视节目、视频游戏等)以便当前或延迟回放。
输入接口可以包括一个或多个触觉设备130、一个或多个麦克风132或者任何其它类型的输入技术。首先,触觉输入设备130使得交通工具乘员能够激活远程信息处理单元114的一个或多个功能,并且可以包括一个或多个按钮开关、键区、键盘或位于交通工具102内在交通工具乘员接触范围内的合适的其它输入设备。例如,触觉输入设备130可以用来启动与远程位置(例如呼叫中心108或移动电话)的远程通信和/或启动交通工具更新、诊断等。其次,麦克风132允许交通工具乘员向远程信息处理单元114提供有声(vocal)输入,并且使得能够经由通信设备118与各个远程位置进行有声通信。可以使用合适的模数接口和/或数字信号处理器(例如麦克风132和处理器116之间的声卡(未示出))和存储在存储器122内的话音和语音识别程序和数据翻译来自交通工具乘员的有声输入。
输出接口可以包括一个或多个扬声器134、视觉显示设备或任何其它类型的视觉输出技术,所述视觉显示设备例如液晶显示器、等离子屏幕、触摸屏、抬头(heads-up)显示器等(未示出)。扬声器134使得远程信息处理单元114能够将可听语音、信号、音频文件等传输给交通工具乘客,并且可以是交通工具音频系统的一部分或特定专用于远程信息处理单元114的独立部件。诸如声卡(未示出)的合适的接口可以插入在扬声器134和远程信息处理处理器116之间。
通信系统
通信系统104、106可以被单独实现或者可以被组合为整体系统。同样,利用合适的设备,呼叫中心108可以直接与无线通信系统104进行无线通信,而不需要第二系统106.
无线通信系统104可以包括一个或多个模拟和/或数字蜂窝网络136、无线计算机网络,例如广域网(WAN)、无线局域网(WLAN)、宽带无线区域(BWA)网络、和/或用于在交通工具102与诸如呼叫中心108的各个远程位置之间发送语音和/或数据信号的任何其它合适的无线网络。示范性蜂窝网络136可以被实现为CDMA、GSM或使得交通工具102和第二通信系统106之间能够交换话音和数据的其它蜂窝通信网络。网络136可以包括蜂窝塔(cell tower)、基站和/或移动交换中心(MSC)的任何合适的组合。例如,基站和蜂窝塔可以共同位于相同的地点或者它们可以彼此远离定位,每个基站可以服务于单个蜂窝塔或多个蜂窝塔,并且各个基站可以耦合到单个MSC,还有很多可能的配置,这里就不一一列举了。语音编解码器或声码器可以被合并到系统104中,例如合并到一个或多个基站中,但是根据无线网络的具体架构,它可以被合并到MSC或一些其它网络部件中。
系统104也可以或可替换地通过使用一个或多个卫星138的卫星传输来执行无线通信,以经由地基卫星收发器140使交通工具102与呼叫中心108进行通信。作为示范性实施方式,卫星收发器140和一个(或多个)卫星138可以向交通工具102发送无线电信号。例如,卫星传输可以通过“S”频带内的频谱被广播,该“S”频带由美国联邦通信委员会分配用于基于卫星的数字音频无线电服务(DARS)的国家广播。详细来说,可以使用XMTM牌卫星无线电服务来执行卫星传输。
第二通信系统106可以是陆基(land-based)有线系统,例如公共交换电话网络(PTSN)、网际协议(IP)网络、光网络、光纤网络、电缆网络和/或公用(utility)电力传输线。系统106也可以是与系统104类似的另一种无线通信系统、WAN、WLAN或BWA网络,或者可以是前述示例的任意组合,可以使用或改编这些系统的任一种来进行话音和/或数据通信。
呼叫中心
呼叫中心108通过处理并存储数据以及与交通工具102进行通信,来向交通工具102提供服务。呼叫中心108可以向交通工具远程信息处理单元114提供后端功能,并且可以包括在一个或多个位置的一个或多个固定或移动的数据中心。呼叫中心108可以包括顾问142,用于监控各种交通工具状况,响应服务请求,并且提供交通工具服务,例如与交通工具内安全和保障系统有关的远程交通工具协助。顾问142可以被实现为真人顾问、或者被实现为响应于用户请求的自动机或计算机程序。
呼叫中心108包括例如有线或无线调制解调器的一个或多个话音和/或数据接口144、诸如专用交换分机(private branch exchange,PBX)的交换机和/或路由器。接口144通过通信系统104、106中的一个或者二者在交通工具远程信息处理单元114和呼叫中心108之间例如通过交通工具数据上载(VDU)发送和接收话音和/或数据信号。对于话音上数据(data-over-voice)通信来说,接口144优选地应用某种类型的编码或调制来转换数字数据,以用于与声码器或语音编解码器通信。
呼叫中心108还可以包括一个或多个通信服务管理器146、用来处理数据的一个或多个服务器148、用来存储用户数据的一个或多个合适的数据库150,所述用户数据例如订户简档和认证数据以及任何其它合适的数据。呼叫中心108也可以包括一个或多个有线和/或无线网络152,例如LAN或WLAN,用于将呼叫中心部件与该一个或多个顾问142所用的任何计算机连接在一起。例如,服务器148和数据库150单独地或者与交通工具102的远程信息处理单元114相结合地运行并存储一个或多个控制程序和数据,以实现根据状况的语音识别方法。换句话说,本公开的方法可以由交通工具102的远程信息处理单元114、由呼叫中心108中的计算设备和/或人员或者通过这两者的组合来实现。
示范性ASR系统
一般来说,交通工具乘员与自动语音识别系统(ASR)进行声音交互,用于下述基本目的中的一个或多个:训练该系统理解交通工具乘员的特殊话音;存储离散语音,例如口头名签(nametag)或像数字或关键词的口头控制词;或者识别用于任何合适目的的交通工具乘员的语音,所述目的例如话音拨号、菜单导航、转录、服务请求、交通工具设备或设备功能控制等。一般来说,ASR从人的语音中提取声学数据,将该声学数据与存储的子词数据进行比较和对照,选择可以与其它被选子词串接的合适的子词,并输出所串接的子词或词用于后处理,例如口述或转录、地址簿拨号、存储到存储器、训练ASR模型或者适配参数等。
ASR系统对于本领域技术人员一般是公知的,图2示出了可以用来实现本公开的方法的ASR系统210的详细示范性架构。系统210包括接收语音的设备,例如远程信息处理麦克风132,还包括声接口133,例如远程信息处理用户接口128的声卡,以将语音数字化成声学数据。系统210也包括诸如远程信息处理存储器122之类的用于存储声学数据并且存储语音识别软件和数据库的存储器,以及诸如远程信息处理处理器116之类的用于处理声学数据的处理器。处理器利用存储器并结合下述模块来运行:前端处理器或预处理器软件模块212,用于将语音的声学数据流解析成诸如声学特征的参量表示;解码器软件模块214,用于将声学特征解码以产生与输入语音话语对应的数字子词或词输出数据;以及后处理器软件模块216,用于使用来自解码器模块214的输出数据用于任何合适的目的。
一个或多个模块或模型可以用作到解码器模块214的输入。首先,语法和/或词法模型218可以提供规定哪些词逻辑上可以跟在其它词之后以形成有效语句的规则。广义上讲,语法可以定义系统210在任何给定ASR模式下在任何给定时间预期的词汇总体。例如,如果系统210处于训练命令的训练模式,则一个(或多个)语法模型218可以包括系统210已知的并使用的所有命令。在另一个示例中,如果系统210处于主菜单模式,则活动的(active)一个(或多个)语法模型218可以包括系统210预期的所有主菜单命令,例如呼叫、拨号、退出、删除、目录等。其次,一个(或多个)声学模型220协助选择与来自预处理器模块212的输入对应的最有可能的子词或词。再者,一个(或多个)词模型222和一个(或多个)语句/语言模型224在将被选子词或词放到词或语句上下文时提供规则、句法和/或语义。另外,一个(或多个)语句/语言模型224可以定义系统210在任何给定ASR模式下在任何给定时间预期的语句的总体,和/或能够提供规定哪些语句逻辑上可以跟在其它语句之后以形成有效的扩展语音的规则等。
根据可替换示范性实施例,一些或所有ASR系统210可以驻留在位于远离交通工具102的位置处的计算设备(例如呼叫中心108)上,并且可以利用所述计算设备对ASR系统进行处理。例如,语法模型、声学模型等可以被存储在呼叫中心108中的其中一个服务器148的存储器中和/或数据库150中,并且被传送到交通工具远程信息处理单元114以用于交通工具内的语音处理。相似地,可以使用呼叫中心108中的其中一个服务器148的处理器来处理语音识别软件。换句话说,ASR系统210可以驻留在远程信息处理系统114内或者以任何期望的方式分布于呼叫中心108和交通工具102之间。
首先,从交通工具乘员向麦克风132说的人类语音中提取声学数据,其中麦克风132将话语转换成电信号并且将这样的信号传输给声接口133。麦克风132中的声响应元件作为空气压力中的变化来捕获乘员的语音话语,并且将该话语转换成模拟电信号(例如直流电流或电压)的相应变化。声接口133接收该模拟电信号,该电信号首先被采样使得在离散的时刻捕获模拟信号的值,然后被量化使得模拟信号的幅度在每个采样时刻被转换成连续的数字语音数据流。换句话说,声接口133将模拟电信号转换成数字电信号。数字数据是二进制比特,其被缓冲在远程信息处理存储器122中,然后由远程信息处理处理器116处理或者可以在它们最初被处理器116接收到时实时处理。
其次,预处理器模块212将连续的数字语音数据流变换成离散的声学参数序列。更详细地,处理器116运行预处理器模块212以将数字语音数据分割成例如10-30ms持续时间的重叠语音或声学帧。这些帧对应于声学子词,例如音节、半音节、音素、双音素、音位等等。预处理器模块212也执行语音分析,以从每一帧内的乘员的语音中提取声学参数,例如时变特征矢量。乘员语音内的话语可以被表示为这些特征矢量的序列。例如,并且如本领域技术人员公知的,特征矢量可以被提取并且可以包括例如声调、能量分布曲线、频谱属性和/或可以通过执行帧的傅立叶变换以及使用余弦变换将声谱去相关而得到的倒谱(cepstral)系数。覆盖特定持续时间的语音的声学帧和相应的参数被串接成要被解码的语音的未知测试模式(test pattern)。
然后,处理器运行解码器模块214以处理每个测试模式的输入特征矢量。解码器模块214也被称为识别引擎或分类器,并且使用存储的已知的语音参考模式。就像测试模式一样,参考模式被定义为相关的声学帧和对应参数的串接。解码器模块214将要认出的子词测试模式的声学特征矢量与存储的子词参考模式进行比较和对照,估计它们之间的差别或相似性的程度,以及最终使用判决逻辑来选择最匹配的子词作为认出的子词。一般来说,最匹配的子词是与存储的已知参考模式对应的、与测试模式具有最小的相异性或者是测试模式的可能性最高的子词,所述测试模式是通过本领域技术人员公知的各种技术中的任何一种分析并认出子词来确定的。这样的技术可以包括动态时间规整(time-warping)分类器、人工智能技术、神经网络、自由音位识别器和/或概率模式匹配器(例如隐马尔可夫模型(HMM)引擎)。
本领域技术人员公知HMM引擎用于产生声学输入的多个语音识别模型假设。在通过语音的特征分析最终识别并选择代表声学输入的最有可能的正确解码的识别输出时,考虑该假设。更详细地,HMM引擎例如通过应用贝叶斯定理产生以子词模型假设的“N-best”列表为形式的统计模型,该子词模型假设是根据HMM计算的置信值或者给定一个或另一个子词的情况下声学数据的观察序列的概率而排序的。
对于声学特征矢量的给定观察序列,贝叶斯HMM过程识别与最可能的话语或者子词序列对应的最佳假设,并且其置信值可以取决于各种因素,包括与输入声学数据相关的声学信噪比。HMM也可以包括被称为对角高斯混合(mixture of diagonal Gaussian)的统计分布,其对于每个子词的每个观察的特征矢量生成似然分数(likelihood score),这些分数可以用来对假设的N-best列表进行重新排序。HMM引擎也可以识别并选择其模型似然分数最高的子词。为了识别词,用于子词序列的各个HMM可以被串接以建立词HMM。
语音识别解码器214使用合适的声学模型、语法和算法来处理特征矢量,以产生参考模式的N-best列表。这里所用的术语“参考模式”可与参考的模型、波形、模板、富集(rich)信号模型、样本(exemplar)、假设或者其它类型的参考互换。参考模式可以包括一系列代表词或子词的特征矢量,并且可以基于具体的说话者、说话风格和可听环境条件。本领域技术人员应当认识到,参考模式可以通过ASR系统的合适的参考模式训练产生并且存储在存储器中。本领域技术人员还应当认识到,所存储的参考模式可以被操纵,其中基于ASR系统的参考模式训练和实际使用之间的语音输入信号的差异来适配参考模式的参数值。例如,可以基于来自不同交通工具乘员或不同声学条件的有限量的训练数据,将为一个交通工具乘员或一定的声学条件训练的一组参考模式修改并保存为用于不同的交通工具乘员或不同的声学条件的另一组参考模式。换句话说,参考模式不一定是固定的,并且可以在语音识别期间进行调整。
使用词汇内语法(in-vocabulary grammar)和任何合适的解码器算法和声学模型,处理器从存储器中访问解释测试模式的几个参考模式。例如,处理器可以产生N-best词汇结果或参考模式的列表以及相应的参数值,并将其存储到存储器。示范性参数值可以包括词汇的N-best列表中的每个参考模式的置信分数和相关的分段持续时间(segment duration)、似然分数、信噪比(SNR)值等等。可以按参数值的幅度的降序对词汇的N-best列表进行排序。例如,具有最高置信分数的词汇参考模式是第一最好参考模式,等等。一旦建立了所认出的子词串,则它们可以用来利用来自词模型222的输入构建词,并且利用来自语言模型224的输入构建语句。
最后,后处理器软件模块216接收来自解码器模块214的输出数据,以用于任何合适的目的。例如,后处理器模块216可以用来将声学数据转换成文本或数字,以用于ASR系统的其它方面或其它交通工具系统。在另一个示例中,后处理器模块216可以用来向解码器214或预处理器212提供训练反馈。更详细地,后处理器216可以用来训练解码器模块214的声学模型,或者训练预处理器模块212的适配参数。
根据状况的语音识别方法
这里提供了根据状况的语音识别方法,并且可以使用上述远程信息处理系统100的操作环境下的ASR系统210的架构来将该方法执行为一个或多个计算机程序。本领域技术人员也应当认识到,可以使用其它操作环境下的其它ASR系统来执行该方法。
提供该方法以通过基于语音识别时交通工具内发生的特定状况来提供对认出的语音的较好的歧义消除,从而提高具备ASR能力的交通工具控制器的性能。在任意给定时间交通工具内发生的状况可以提供对用户使用ASR的意图的了解。具体来说,用户自己在交通工具内的动作可以提供对用户意图的特别好的了解。换句话说,该方法评估用户语音正被认出和应用的环境。
一般来说,监控与各种交通工具功能相关的各种参数作为当前交通工具状况的指示。另外,当所监控的与交通工具功能相关的交通工具参数满足预定标准时,该交通工具功能被识别为用户预期的ASR控制的候选者。因而,通过这样的改进可以提高交通工具控制器的性能,因为其能够增加所认出的语音将被应用于用户预期的交通工具功能的可能性。图3示出了示范性的根据状况的语音识别方法300,下面将详细讨论。
在步骤305中,方法300以任何合适的方式开始。例如,可以通过用户按下远程信息处理系统100的远程信息处理单元114的激活按钮130来启动ASR会话,以开始用户输入可以由工作在语音识别模式下的远程信息处理单元114翻译的口头请求的会话。使用扬声器134,远程信息处理单元114可以通过播放声音或提供对来自用户或乘员的命令的口头请求,来确认该按钮激活。根据另一方面,ASR系统210可以连续地和被动地监控用户语音,以使得用户不需要通过手动按钮按压来单独并主动地启动ASR。这种类型的监控和自动ASR激活对本领域技术人员来说是公知的。
在步骤310,监控与多个交通工具功能相关的多个参数作为当前交通工具状况的指示。例如,并且参照图4,可以使用任何交通工具设备410,并且可以监控与这些设备410以任何方式相关的任何参数。这里所用的短语“交通工具功能”可以包括不同的交通工具设备或一个或多个不同的交通工具设备的不同功能。
如图4所示,交通工具设备410可以与任何合适的交通工具控制器412进行通信,该交通工具控制器412可以包括一个或多个合适的处理器414、耦合到处理器414的任何合适类型的存储器416、以及耦合在处理器414与交通工具设备410和ASR系统210之间的合适的输入/输出接口418。交通工具控制器412可以是交通工具携带的任何类型的任何计算设备,例如引擎或传动系控制器、仪表面板控制器等等中的一个或多个。
可以由交通工具控制器412使用任何合适的硬件、软件和/或固件来监控交通工具功能参数。例如,交通工具设备410可以包括集成的传感器(未示出)或单独的传感器(未示出)。在另一个示例,控制器412可以轮询(poll)交通工具设备410的处理器或存储器,以得到指示交通工具功能参数的数据,例如设备的开/关状态,或者与用户与设备的交互相关的数据,例如外部设备的连接/未连接状态、自从用户上次调整设备以来消逝的时间,以及任何其它数据。
示范性交通工具设备可以包括:媒体设备,例如无线电设备、电视机、视频播放器等;气候控制设备,例如空调、加热器、风扇、通风口等;门锁;窗户;镜子;方向盘;座椅;拭窗器;内部和外部灯;时钟;远程通信设备,例如电话、远程信息处理单元等;导航设备,例如全球定位系统(GPS)头、接收器等;信息设备,例如因特网浏览器等;风窗除霜器;座椅加热器;燃料门释放装置(fuel door release);车箱和车盖释放装置(trunk and hood release);旅程计算机;等等,这里就不一一列举了。
示范性的监控的参数可以包括交通工具设备和外部设备之间的连接状态,该外部设备例如以无线方式或其它方式刚刚连接到交通工具无线电设备的MP 3播放器。另外,可以监控由气候控制系统的温度传感器感测的温度值。其它示例参数可以包括设备的开/关信号、音量和/或音量设置、温度和/或温度设置、设备速度和/或速度设置、设备位置和/或位置设置、亮度等级(light level)和/或等级设置、时间和/或时间设置、和/或交通工具位置和/或位置设置,还有很多,这里就不一一列举了。另外,可以仅监控参数自身,或者可以监控作为一些其它参数的函数的参数。例如,可以监控作为时间的函数的参数,例如与连接或断开连接之后消逝的时间相结合的一台电子设备相对于另一台的连接状态。
在步骤315,并且再参照图3,对于用户预期的ASR控制,识别至少一个交通工具功能。例如,来自步骤310的交通工具功能中的一个或多个可以被识别为用户预期的用于ASR控制的功能,例如,当与多个交通工具功能中的至少一个相关的被监控的多个参数中的至少一个满足预定标准时。
在一个详细示例中,当用户最近通过有线方式或者通过将具备无线通信能力的MP3播放器放置在适当靠近具备无线通信能力的交通工具无线电设备的地方等将MP3播放器连接到交通工具无线电设备时,交通工具无线电设备可以被识别为ASR控制的候选者。在这样的情况下,可以推断出如果在连接之后的预定时间量内接收到任何用户语音,则用户想要用声音控制MP3播放器,而不是一些其它的交通工具设备,例如远程信息处理系统或气候控制系统。
在另一个具体示例中,如果交通工具内部温度被监控并且被确定为在一定的高温阈值之上,则空调可以被识别为语音识别控制的候选者。
因而,预定标准可以是设备连接或者其它事件的存在或不存在、设备开或关信号、或者设备的另一个状态信号,例如温度值、风扇设置、窗户打开量等。代替地或附加地,预定标准可以是时间相关的,例如在事件发生之后消逝的时间,该事件例如用户与交通工具设备的交互。该预定标准可以包括单个阈值参数值、值的范围等等。
在步骤320,交通工具内的音频可以被ASR系统以任何合适方式监控以用于用户语音。例如,ASR系统210可以被调整以使得麦克风132被激活并且准备接收用户话语。
在步骤325,可以提示用户说出请求或者可以开始对监听的ASR系统说话。在一个示例中,ASR系统210可以播放记录的提示(例如“准备”),或者可以播放哔哔声、闪烁灯等等。在另一个示例中,ASR系统210可以连续监控用户语音。无论在哪种情况下,用户可以例如通过讲出诸如“拨号”或“播放”或“激活”的命令并接着讲出诸如具体的电话号码或者歌曲的名称或设备功能的变量来输入请求。
在步骤330,ASR系统接收用户语音。例如,ASR系统210可以使用ASR系统210的激活的麦克风132、处理器116和存储器122接收来自用户的话语。一旦接收到,则转换器133可以将模拟用户语音转换成声学数据,该声学数据可以被保存到存储器122中。
在步骤335,接收到的用户语音可以被预处理。例如,来自步骤330的声学数据可以由ASR系统210的预处理器212进行预处理,以从中提取任何合适的声学特征。
在步骤340,预处理后的用户语音被解码。例如,与来自步骤335的用户话语对应的声学特征可以被ASR系统210的解码器214解码,以产生包括识别结果、假设等等的任何合适的输出。更详细地,解码器214可以使用语音识别模型218、220、222和224中的一个或多个来解码预处理后的声学数据。
在具体示例中,模型218、220、222和224每一个都可以包括与多个不同的交通工具功能对应的多个不同的模型版本。更详细地,多个不同的语法模型218可以用于多个不同的交通工具功能,以使得例如无线电专用语法模型可以对应于无线电设备,远程信息处理专用语法模型可以对应于远程信息处理单元,等等。相似地,多个不同的设备专用的声学、词和语句模型可以与相应的交通工具功能相关。
在步骤345,使用认出的语音数据来控制交通工具功能。例如,可以使用在步骤340中解码的语音数据来控制步骤315中识别的交通工具功能。在具体的示例中,可以使用在用户将MP3播放器连接到无线电设备之后的预定时间内接收到的语音数据来控制交通工具无线电设备。在另一个详细示例中,可以使用在交通工具内的温度高于或低于预定极限时接收到的语音数据来控制交通工具气候控制系统。
如上所述,图3的过程可以使用基于识别的、交通工具操作者可能正与其进行交互的交通工具功能而选择的不同的语音识别模型。这可以提供接收到的语音之间的歧义消除,作为语音识别过程本身的一部分。也就是说,通过基于识别的交通工具功能选择语法模型,所选择的具体模型将在适合于所识别的交通工具功能的环境下解释接收到的语音,并且在进行这个的过程中,将自然地帮助消除语音的歧义。
在另一个实施例中,如图5所示,在不考虑任何识别的交通工具功能的情况下执行语音识别;相反,当在语音识别之后需要消除接收到的语音在两个或更多个候选者可能性之间的歧义时使用识别的交通工具功能。方法500开始于步骤505,在其后,在步骤510开始监控交通工具功能参数。当该过程识别可能影响ASR控制的交通工具功能时(例如,识别用户已与其进行交互的交通工具设备),如步骤515所示,其记录该发生以用于随后在操作者开始ASR会话的情况中使用。例如,如果用户将MP 3播放器连接到音频系统,则系统注意到该事件。然后,在步骤520一旦开始ASR会话,则在步骤525用户说出命令,语音识别系统210处理接收到的语音以认出各个词,如步骤530所示。例如,当用户说“letme hear some Traffic”时,ASR系统210处理语音并且识别相关的部分“hear traffic”。此时,基于所识别的(和所存储的)交通工具功能来执行歧义消除,在该示例中该交通工具功能是音乐播放器到音频系统的连接。这如步骤535所示。因而,在该示例中,认出的词“heartraffic”被认为是播放乐队组合Traffic的音乐的命令,而不是获得并且可听地展示当地交通报告的命令。基于该歧义消除,系统然后采取适当的动作,如步骤540所示。该动作可以是例如自动执行所选择的(消除歧义后的)命令,或者在进行之前请求来自用户的对所选择的命令的确认。一旦采取了合适的动作,该过程结束。
应当理解,前面的描述不是对本发明的限定,而是对本发明的一个或多个优选示范性实施例的描述。本发明不限于这里所公开的具体实施例,而是仅由下面的权利要求书来限定。此外,在前面的描述中包含的陈述涉及具体实施例,并且不应当被理解为限制本发明的范围,或者限制权利要求中所用的术语,除了上面明确地定义了术语或短语。对所公开的实施例的各种其它实施例和各种改变和修改对本领域技术人员是显而易见的。例如,接收到的语音的歧义消除可以不仅仅基于识别的交通工具功能或设备,而是可以部分地基于所识别的交通工具功能或设备并基于其它因素。例如,在图3中,识别的交通工具功能可以用来在不同的可用语音识别模型之间选择,但是合适的模型的选择也可以基于其它因素,例如以考虑地方方言。所有这样的其它实施例、改变和修改意图落入所附权利要求书的范围之内。
在该说明书和权利要求书中,当与一个或多个部件或其它条目的列举结合使用时所用的术语“例如”和“诸如”,以及动词“包括”、“具有”和“包含”以及它们的其它动词形式,每一个都应当被理解为开放的,意思是该列举不应当被认为排除其它、另外的部件或条目。应当使用它们最宽的合理的意思理解其它术语,除非它们被用在需要不同解释的语境之下。

Claims (9)

1.一种基于用户与交通工具的交互在该交通工具内根据状况的语音识别方法,该方法包括以下步骤:
经过麦克风来接收来自交通工具中的用户的语音;
预处理所接收到的语音;
使用自动语音识别系统来将该经过预处理的语音解码成认出的语音数据;
使用位于交通工具中的处理器来监控由该用户交互的多个不同的交通工具设备;以及接着
如果该用户已在预定的逝去时间内与所识别的交通工具设备交互,则识别用于用户预期的ASR控制的交通工具设备;以及接着
使用所认出的语音数据控制所识别的交通工具设备。
2.如权利要求1所述的方法,其中,所述经过预处理的语音是通过应用与所识别的交通工具设备有关的至少一个语音识别模型来解码的。
3.如权利要求1所述的方法,其中,识别步骤还包括检测外部设备到所识别的交通工具设备的连接。
4.一种基于用户与交通工具的交互在该交通工具内根据状况的语音识别方法,该方法包括以下步骤:
使用位于交通工具中的处理器来监控由用户交互的多个不同的交通工具设备;以及接着
基于用户与交通工具设备的交互来识别用于用户预期的ASR控制的该交通工具设备;以及接着
经过位于交通工具中的麦克风来接收来自用户的语音,所接收的语音是在用户交互后逝去的时间内接收的;以及
至少部分基于与所识别的交通工具设备的用户交互,消除包含在该语音内的两个或更多个可能的命令之间的歧义。
5.如权利要求4所述的方法,其中,该消除歧义步骤还包括使用至少部分基于所识别的交通工具设备而选择的语音识别模型来认出该语音。
6.如权利要求4所述的方法,其中,该消除歧义步骤还包括使用ASR系统认出该语音,然后至少部分基于与所识别的交通工具设备的用户交互来确定两个或更多个潜在命令中的哪一个是用户预期的。
7.如权利要求4所述的方法,还包括步骤:使用所认出的语音数据来控制所识别的交通工具设备。
8.如权利要求4所述的方法,还包括步骤:在所述消除歧义步骤之前预处理接收到的语音。
9.如权利要求4所述的方法,其中,该监控步骤还包括监控外部设备到所述交通工具设备之一的连接。
CN200810185367.XA 2007-12-21 2008-12-22 交通工具内根据状况的语音识别 Active CN101462522B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/963103 2007-12-21
US11/963,103 US8423362B2 (en) 2007-12-21 2007-12-21 In-vehicle circumstantial speech recognition

Publications (2)

Publication Number Publication Date
CN101462522A CN101462522A (zh) 2009-06-24
CN101462522B true CN101462522B (zh) 2015-09-16

Family

ID=40786055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810185367.XA Active CN101462522B (zh) 2007-12-21 2008-12-22 交通工具内根据状况的语音识别

Country Status (3)

Country Link
US (1) US8423362B2 (zh)
CN (1) CN101462522B (zh)
DE (1) DE102008062542A1 (zh)

Families Citing this family (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US20090271106A1 (en) * 2008-04-23 2009-10-29 Volkswagen Of America, Inc. Navigation configuration for a motor vehicle, motor vehicle having a navigation system, and method for determining a route
US20090271200A1 (en) * 2008-04-23 2009-10-29 Volkswagen Group Of America, Inc. Speech recognition assembly for acoustically controlling a function of a motor vehicle
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US9484027B2 (en) * 2009-12-10 2016-11-01 General Motors Llc Using pitch during speech recognition post-processing to improve recognition accuracy
EP3091535B1 (en) 2009-12-23 2023-10-11 Google LLC Multi-modal input on an electronic device
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
US20110184740A1 (en) * 2010-01-26 2011-07-28 Google Inc. Integration of Embedded and Network Speech Recognizers
US8700405B2 (en) * 2010-02-16 2014-04-15 Honeywell International Inc Audio system and method for coordinating tasks
US8473289B2 (en) 2010-08-06 2013-06-25 Google Inc. Disambiguating input based on context
JP2012047924A (ja) * 2010-08-26 2012-03-08 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
US20120109649A1 (en) * 2010-11-01 2012-05-03 General Motors Llc Speech dialect classification for automatic speech recognition
CN102479510A (zh) * 2010-11-24 2012-05-30 株式会社东芝 用于生成语音标签的方法和装置
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US8296142B2 (en) 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
US9493130B2 (en) * 2011-04-22 2016-11-15 Angel A. Penilla Methods and systems for communicating content to connected vehicle users based detected tone/mood in voice input
US8744421B2 (en) * 2011-11-18 2014-06-03 General Motors Llc Method of initiating a hands-free conference call
US9214157B2 (en) * 2011-12-06 2015-12-15 At&T Intellectual Property I, L.P. System and method for machine-mediated human-human conversation
KR101749143B1 (ko) * 2011-12-26 2017-06-20 인텔 코포레이션 탑승자 오디오 및 시각적 입력의 차량 기반 결정
CN103366734B (zh) * 2012-03-31 2015-11-25 佳能株式会社 声音识别结果检验方法和设备、声音识别及音频监视系统
DE102012213668A1 (de) * 2012-08-02 2014-05-22 Bayerische Motoren Werke Aktiengesellschaft Verfahren und Vorrichtung zum Betreiben eines sprachgesteuerten Informationssystems für ein Fahrzeug
US20140195233A1 (en) * 2013-01-08 2014-07-10 Spansion Llc Distributed Speech Recognition System
US10698577B2 (en) * 2013-03-18 2020-06-30 Dennis Bushmitch Integrated mobile device
US9202459B2 (en) * 2013-04-19 2015-12-01 GM Global Technology Operations LLC Methods and systems for managing dialog of speech systems
JP5769904B2 (ja) * 2013-04-25 2015-08-26 三菱電機株式会社 評価情報投稿装置および評価情報投稿方法
CN103398454B (zh) * 2013-08-06 2016-04-13 四川长虹电器股份有限公司 一种空调系统及控制方法
US20150056951A1 (en) * 2013-08-21 2015-02-26 GM Global Technology Operations LLC Vehicle telematics unit and method of operating the same
JP6543460B2 (ja) 2013-12-18 2019-07-10 ハーマン インターナショナル インダストリーズ インコーポレイテッド 音声認識問い合わせ応答システム
US9311930B2 (en) * 2014-01-28 2016-04-12 Qualcomm Technologies International, Ltd. Audio based system and method for in-vehicle context classification
US11386886B2 (en) * 2014-01-28 2022-07-12 Lenovo (Singapore) Pte. Ltd. Adjusting speech recognition using contextual information
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
CN103839546A (zh) * 2014-03-26 2014-06-04 合肥新涛信息科技有限公司 一种基于江淮语系的语音识别系统
US9257120B1 (en) * 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US11676608B2 (en) 2021-04-02 2023-06-13 Google Llc Speaker verification using co-location information
US11942095B2 (en) 2014-07-18 2024-03-26 Google Llc Speaker verification using co-location information
CN105469786A (zh) * 2014-08-22 2016-04-06 中兴通讯股份有限公司 语音识别的控制方法和装置
US9626703B2 (en) 2014-09-16 2017-04-18 Voicebox Technologies Corporation Voice commerce
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
US9747896B2 (en) 2014-10-15 2017-08-29 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
US9376117B1 (en) 2015-03-23 2016-06-28 Toyota Jidosha Kabushiki Kaisha Driver familiarity adapted explanations for proactive automated vehicle operations
US9688281B2 (en) 2015-03-23 2017-06-27 Toyota Jidosha Kabushiki Kaisha Proactive autocomplete of a user's in-vehicle operations
US9530414B2 (en) * 2015-04-14 2016-12-27 GM Global Technology Operations LLC Speech recognition using a database and dynamic gate commands
JP2018529298A (ja) * 2015-07-23 2018-10-04 トヨタ モーター ヨーロッパ 環境コンテキストにおいて人間のような制御行動をシミュレーションするためのシステム及びコンピュータに基づく方法。
US9697824B1 (en) * 2015-12-30 2017-07-04 Thunder Power New Energy Vehicle Development Company Limited Voice control system with dialect recognition
US10475447B2 (en) 2016-01-25 2019-11-12 Ford Global Technologies, Llc Acoustic and domain based speech recognition for vehicles
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
US9972312B2 (en) * 2016-08-19 2018-05-15 Panasonic Avionics Corporation Digital assistant and associated methods for a transportation vehicle
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US10650621B1 (en) 2016-09-13 2020-05-12 Iocurrents, Inc. Interfacing with a vehicular controller area network
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
US10492013B2 (en) * 2017-09-14 2019-11-26 GM Global Technology Operations LLC Testing of vehicle system module using audio recognition
KR102066451B1 (ko) * 2018-02-02 2020-01-15 주식회사 오비고 차량용 ai 서비스를 제공하는 방법 및 이를 이용한 장치
FR3088473B1 (fr) * 2018-11-09 2021-05-28 Psa Automobiles Sa Procede et dispositif d’assistance a l’utilisation d’un assistant vocal dans un vehicule
DE102018221712B4 (de) 2018-12-13 2022-09-22 Volkswagen Aktiengesellschaft Verfahren zum Betreiben eines interaktiven Informationssystems für ein Fahrzeug, sowie ein Fahrzeug
US11455982B2 (en) 2019-01-07 2022-09-27 Cerence Operating Company Contextual utterance resolution in multimodal systems
CN110795532A (zh) * 2019-10-18 2020-02-14 珠海格力电器股份有限公司 一种语音信息的处理方法、装置、智能终端以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4501012A (en) * 1980-11-17 1985-02-19 Nissan Motor Company, Limited Speech recognition system for an automotive vehicle
CN1897108A (zh) * 2005-07-15 2007-01-17 环隆电气股份有限公司 以限定条件协助辨识的车用声控方法及系统
CN1898721A (zh) * 2003-12-26 2007-01-17 株式会社建伍 设备控制装置、声音识别装置、代理装置、车载设备控制装置、导航装置、音响装置、设备控制方法、声音识别方法、代理处理方法、车载设备控制方法、导航方法、音响装置控制方法和程序
US7170400B2 (en) * 2004-05-20 2007-01-30 Lear Corporation System for customizing settings and sounds for vehicle

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4501012A (en) * 1980-11-17 1985-02-19 Nissan Motor Company, Limited Speech recognition system for an automotive vehicle
CN1898721A (zh) * 2003-12-26 2007-01-17 株式会社建伍 设备控制装置、声音识别装置、代理装置、车载设备控制装置、导航装置、音响装置、设备控制方法、声音识别方法、代理处理方法、车载设备控制方法、导航方法、音响装置控制方法和程序
US7170400B2 (en) * 2004-05-20 2007-01-30 Lear Corporation System for customizing settings and sounds for vehicle
CN1897108A (zh) * 2005-07-15 2007-01-17 环隆电气股份有限公司 以限定条件协助辨识的车用声控方法及系统

Also Published As

Publication number Publication date
US8423362B2 (en) 2013-04-16
US20090164216A1 (en) 2009-06-25
DE102008062542A1 (de) 2009-07-23
CN101462522A (zh) 2009-06-24

Similar Documents

Publication Publication Date Title
CN101462522B (zh) 交通工具内根据状况的语音识别
US7881929B2 (en) Ambient noise injection for use in speech recognition
US8296145B2 (en) Voice dialing using a rejection reference
US9202465B2 (en) Speech recognition dependent on text message content
US8639508B2 (en) User-specific confidence thresholds for speech recognition
US8880402B2 (en) Automatically adapting user guidance in automated speech recognition
US7676363B2 (en) Automated speech recognition using normalized in-vehicle speech
US8600760B2 (en) Correcting substitution errors during automatic speech recognition by accepting a second best when first best is confusable
CN102543077B (zh) 基于语言独立女性语音数据的男性声学模型适应方法
US8738368B2 (en) Speech processing responsive to a determined active communication zone in a vehicle
US8438028B2 (en) Nametag confusability determination
CN102097096B (zh) 在语音识别后处理过程中使用音调来改进识别精度
US7983916B2 (en) Sampling rate independent speech recognition
US8762151B2 (en) Speech recognition for premature enunciation
US9997155B2 (en) Adapting a speech system to user pronunciation
US8744421B2 (en) Method of initiating a hands-free conference call
CN107093427A (zh) 不流畅语言的自动语音识别
US8438030B2 (en) Automated distortion classification
CN105609109A (zh) 混合式自动语音识别
US8386125B2 (en) Adaptive communication between a vehicle telematics unit and a call center based on acoustic conditions
US20120197643A1 (en) Mapping obstruent speech energy to lower frequencies
US8050928B2 (en) Speech to DTMF generation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: GENERAL MOTORS CORPORATION

Free format text: FORMER OWNER: MOTORS LIQUIDATION CO., LTD.

Effective date: 20100506

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20100506

Address after: Michigan

Applicant after: General Motors Corp.

Co-applicant after: GM Global Technology Operations, Inc.

Address before: Michigan

Applicant before: Motors Liquidation Company

Co-applicant before: GM Global Technology Operations, Inc.

C14 Grant of patent or utility model
GR01 Patent grant