CN101272416A - 使用拒绝参考的语音拨号 - Google Patents

使用拒绝参考的语音拨号 Download PDF

Info

Publication number
CN101272416A
CN101272416A CNA2007101857708A CN200710185770A CN101272416A CN 101272416 A CN101272416 A CN 101272416A CN A2007101857708 A CNA2007101857708 A CN A2007101857708A CN 200710185770 A CN200710185770 A CN 200710185770A CN 101272416 A CN101272416 A CN 101272416A
Authority
CN
China
Prior art keywords
recognition result
user
correction
incorrect
pronunciation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007101857708A
Other languages
English (en)
Other versions
CN101272416B (zh
Inventor
J·W·克拉克
R·钱加尔瓦拉彦
T·J·格罗斯特
D·B·费彻尔
J·M·斯保尔丁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motors Liquidation Co
Original Assignee
Motors Liquidation Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motors Liquidation Co filed Critical Motors Liquidation Co
Publication of CN101272416A publication Critical patent/CN101272416A/zh
Application granted granted Critical
Publication of CN101272416B publication Critical patent/CN101272416B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6033Substation equipment, e.g. for use by subscribers including speech amplifiers for providing handsfree use or a loudspeaker mode in telephone sets
    • H04M1/6041Portable telephones adapted for handsfree use
    • H04M1/6075Portable telephones adapted for handsfree use adapted for handsfree use in a vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

本发明涉及使用拒绝参考的语音拨号。一种语音拨号方法,包括以下步骤:从用户接收发音,解码所述发音以确定对于所述发音的识别结果,并且将所述识别结果传达给用户。如果从用户接收到所传达的识别结果是不正确的指示,则将其添加到拒绝参考中。然后,当用户重复理解错误的发音时,拒绝参考可以被用来阻止把不正确的识别结果作为后续识别结果。该方法能够用于单个或多个数字或数字串。

Description

使用拒绝参考的语音拨号
技术领域
本发明涉及自动语音识别(ASR),并且特别是,涉及使用ASR的语音拨号。
背景技术
ASR技术使得安装有麦克风的计算设备能够解译语音并因而提供一种常规人机输入设备例如键盘或电话小键盘的备选方案。例如,很多电信设备安装有免提语音拨号功能以启动电信会话。通过ASR技术启动这种语音拨号功能以检测诸如CALL命令,以及HOME或OFFICE名签的离散语音的出现。此外,用户可以通过说出像DIAL的命令来使用ASR使能的语音拨号以启动电话呼叫,所述命令之后为组成完整电话号码的多个数字。
但是利用这种离散数字拨号,ASR系统通常在识别出用户对每个数字的发音之后立即重复每个单独的数字。尽管这种方式在高噪声环境中可能是可靠的,但它需要足够多的时间来输入冗长的数字字符串。此外,当数字发音没有被正确识别时,这种单独的数字验证过程会使用户变得不耐烦。这是因为当用户停下来要说如CLEAR命令、重复没有识别的数字、然后在重新开始其余的数字之前倾听系统验证时,用户可能会忘记随后要说的数字。
为了解决这种不方便性,一些ASR使能的语音拨号系统允许用户通过说出在任何长度的预定多数字字符串组中的冗长电话号码来发起呼叫,一次一句,其间可以暂停。例如,用户可以通过说出1-3-1-3<暂停><如果需要的话等待验证和修正>6-6-7<暂停><如果需要的话等待验证和修正>8-8-8-8(或8-8 8-8)来拨出电话号码1-313-667-8888。
但是,这些可变长度的拨号方案也有问题。例如,这些语音拨号系统通常需要用户一次仅仅说出一个数字字符串并且需要用户在说出任何后续字符串之前修正这个字符串。换句话说,这种系统不允许用户以一种习惯的,自然的方式来说出电话号码。例如,如果用户说出了包含第一正确识别的字符串的多个数字字符串,然后是没有正确识别的字符串,和后续正确识别的字符串时,用户可能不得不清除所识别的整个号码并从头开始。事实上,这些系统不允许用户输入多个字符串以及然后倒退并跳过正确识别的字符串去修正没有正确识别的字符串。
发明内容
根据本发明的一个方面,提供了一种语音拨号方法,包含以下步骤:
(a)从用户接收发音;
(b)确定对于该发音的识别结果;
(c)将所述识别结果传达给用户;
(d)从用户接收所传达的识别结果是否是不正确的指示;
(e)如果不正确,则利用该不正确的识别结果填充(populate)拒绝参考(rejection reference);
该语音拨号方法还包括以下一个或多个附加步骤:
(f)提示用户替代不正确的识别结果;
(g)从用户接收修正发音以替代该不正确的识别结果;
(h)确定对于修正发音的修正识别结果;
(i)比较所述修正的识别结果和所述拒绝参考;以及
(j)将没有被拒绝参考阻止的修正识别结果传达给用户。
附图说明
本发明的优选实施例将在下文中结合附图来进行描述,其中相同的标记指示相同的部件,并且其中:
图1是用来实施语音拨号的典型方法的远程信息处理系统的例子的方框图;
图2是可被嵌入到图1中的远程信息处理系统中并可被用来执行语音拨号的典型方法的示例ASR结构的方框图;
图3是使用图1和图2中的远程信息处理系统和ASR结构执行的典型语音拨号方法的实施方式的表格;
图4是使用图1和图2中的远程信息处理系统和ASR结构执行的典型语音拨号方法的另一实施方式的表格;
图5A和5B是利用图1和图2中的远程信息处理系统和ASR结构执行的典型语音拨号方法的另一实施方式的表格。
具体实施方式
图1示出了典型的操作环境,该操作环境可以被用来实施现有公开的使用拒绝参考来提高识别正确率的语音拨号方法。该方法可以通过使用任何合适的ASR和/或远程信息处理系统,特别是,结合如系统100的车载远程信息处理系统来实施。本领域技术人员应该理解的是,系统100的整体结构、建立、操作和各个独立部件通常在本领域中是众所周知的。因而,下面的系统简单地描述了一个这种示例性远程信息处理系统,但是这里没有示出的其他系统和部件也可以支持现在所公开的方法。
典型远程信息处理系统100包含携带一个或多个车辆占有者(occupant)或用户的机动车102,以及用于将无线通信提供给车辆102以及提供来自车辆102的无线通信的无线通信系统104。并且,该系统100可以包括第二通信系统106,用于使无线通信系统104与系统100的呼叫中心108通信,其向车辆102提供服务。此外,系统100可以包含与车辆102和/或呼叫中心108通信的web服务器109,用于向那里提供因特网服务。最后,该系统100可以包含和车辆102通信并向其提供维修服务的车辆服务中心111。
系统100通常向车辆占有者提供一个或多个合适的服务,例如车辆导航、转弯路口行驶方向(turn-by-turn driving direction)、电话、信息娱乐片、紧急服务、车辆诊断、车辆系统更新和自动语音识别。为了这个目的,系统100处理数据和指令,以及促进在车辆102中的硬件和远程呼叫中心108中的硬件之间的无线语音和数据传输。例如,系统100可以使得车辆占有者能够启动与呼叫中心108或服务中心111的语音通信。并且,为了各种各样的目的,例如传输和/或接收诸如更新的语音消息、电子邮件、新闻、因特网网页内容之类的数据,系统100能够实现在车辆102和web服务器109之间的电子通信。
机动车
机动车102在所述的实施例中被描述成客车,并可以理解的是,在不脱离本发明范围的情况下可以使用任何其他车辆,包括摩托车、海船、航行器、娱乐车辆和其他汽车,如货车、卡车等。各种电子模块可以被安装在车辆102上,并且包括一个或多个车辆系统模块(VSM)110、车载(on-board)车辆通信总线112、和通过总线112连接到VSM110的一个或多个车辆远程信息处理单元114。
VSM
VSM110提供诸如车辆诊断、监控、控制、报告、和/或其他功能之类的任何适合的车载功能。例如,VSM110可以被用来控制发动机操作、监控和配置气囊或其他安全设备,和/或通过各种车辆传感器诊断车辆系统。VSM110广泛地代表了任何软件、电子、机电子系统,相关的传感器或与远程信息处理单元114相互作用的其他车辆部件。在一个特定的例子中,如果呼叫中心108向车辆102发送信号以打开车门,则远程信息处理单元114命令机电门锁VSM打开车门。
车辆通信总线
车辆通信总线112在例如VSM110和/或远程信息处理单元114之类的各种车辆系统中提供交互作用,并且使用任何适合的有线或无线的网络通信配置。在总线112和各种车辆系统之间可以插入适合的接口。这里使用的术语接口泛指任何合适形式的电子设备或适配器,或甚至是软件模块或适配器,以使得设备的一部分能够与设备的另一部分通信或控制设备的另一部分。总线的一些示例包括控制器区域网络(CAN),面对媒体的系统传输(MOST),本地互相连接网络(LIN),以太网(10baseT,100baseT),局域网(LAN),ISO标准9141,用于高速应用的ISO标准11898,用于低速应用的ISO标准11519,用于高速和更低速应用的SAE标准J1850,和/或无线区域网络。
车辆远程信息处理单元
车辆远程信息处理单元114提供在车辆102或其车辆占有者与各种远程位置(其包括呼叫中心108、web服务器109和/或服务中心111)之间的通信和其他服务。远程信息处理单元114通过车辆通信总线112与各种VSM110对接。远程信息处理单元114可以以任何合适的配置实施,但是可以包含处理器116,和用于通过一个或多个天线120与车辆102无线通信的通信设备118,用于存储计算机程序124的存储器122,和/或一个或多个数据库126,以及用户接口128。远程信息处理单元114也包括用于在前述设备之间互相通信的一个(或多个)任何合适接口。
尽管在图1中表示为单独的模块,但本领域技术人员应当理解的是远程信息处理单元114的很多部件可以被集成在一起,或与其他车辆系统集成和/或共享。例如,存储器122可以被结合到处理器116中或位于远程信息处理单元114的外部并与一个或多个其他车辆系统(例如车辆中央处理单元)共享。尽管VSM110被示出与远程信息处理单元114分离,但将这些VSM110的任何组合集成到远程信息处理单元114内是可能的。此外,远程信息处理单元114可以包括这里没有示出的附加部件,或省略一些这里示出的部件。
远程信息处理处理器
远程信息处理处理器116可以以对于本领域技术人员来说已知的任何不同的方式来实现,如控制器、微处理器、微控制器、主处理器、车辆通信处理器,特定用途集成电路(ASIC)的形式或任何其他合适的处理器类型。可替换地,处理器116还可以与执行普通计算机功能的中央处理单元(未示出)结合来工作。处理器116可以与其他合适的设备和/或模块(未示出)相关联,例如实时时钟设备以提供精确日期和时间信息,和/或与定时器模块相关联以跟踪时间间隔。
处理器116运行存储在存储器122中的一个或多个程序124来实施各种功能,例如系统监控,数据处理,使远程信息处理单元114与VSM110、车辆占有者和远程位置通信。例如,处理器116运行一个或多个控制程序并处理程序和/或数据来单独或结合呼叫中心108实现使用拒绝参考的语音拨号方法。在另一个例子中,处理器116控制、产生和接受在远程信息处理单元114和呼叫中心108之间以及在远程信息处理单元114和连接到不同VSM110的车辆通信总线112之间传送的信号。在一种模式中,这些信号可以用来激活VSM110的程序和操作模式。
远程信息处理存储器
远程信息处理存储器122可以是任何电子存储设备,其为处理器116所使用的数据和程序提供计算机可读存储。存储器122可以包含诸如RAM,NVRAM,硬盘,闪存和/或类似物之类的易失的,和/或不易失的存储器,并且可以作为一个或多个分离的物理设备来实现。程序124包含由处理器116按指令运行的一个或多个计算机程序以来实施远程信息处理单元114的各种功能,例如消息接发、诊断、通信、语音识别和/或各种相似的功能。例如,驻留在存储器122中并且由处理器116执行的程序124可以被用来实现使用拒绝参考的语音拨号方法。数据库126可以用来存储短消息数据,诊断问题码数据或其他诊断数据,车辆数据上载(VDU)记录,事件激活表,语音识别数据,和/或其它相似的数据。数据库126作为数据库表来实现,其能够对数据库126中所存储的数据进行查询,并且这可以使用已知的索引技术、数据库询问、对这些表的直接顺序搜索、和/或其他任何合适的存储和查询技术来完成。
远程信息处理通信设备
远程信息处理通信设备118和相关联的天线120向无线通信系统104发送语音和数据以及从无线通信系统104中接收语音和数据,以便远程信息处理单元114可以例如通过第二通信系统106与呼叫中心108通信。通信设备118通过蜂窝、卫星和/或其他无线路径提供这种无线通信并且可以提供语音和数据通信以及语音上数据(data-over-voice)的通信,其中语音和数据信号都可以在语音信道上被发送和接收。本领域技术人员将意识到,通信设备118可以通过应用任何合适类型的编码或调制以利用结合在蜂窝芯片组中的声码器或语音编解码器转换用于通信的数字数据,来在语音信道上发送和接收数据。可以使用提供可接受的数据率和比特误差率的任何合适编码或调制技术。
通信设备118可以包括任何合适模块,包含卫星接收机以及软件,和/或诸如无线调制解调器和/或嵌入式蜂窝电话之类的蜂窝通信软件以及硬件。蜂窝电话可以是模拟的、数字的、双模的、双带的、多模的和/或多带的,并可以包含单独的处理器和存储器。此外,蜂窝电话可以使用诸如先进蜂窝电话系统(AMPS)、码分多址(CDMA)、时分多址(TDMA)、全球移动通信系统(GSM)之类的任何合适的蜂窝技术,但也可以利用私有的或其他无线技术来与无线通信系统104进行通信。尽管示为单独的部件,通信设备118或其中的部分可以使用微处理器116通过软件来实现;例如,用于无线蜂窝通信的调制解调器可以以这种方式来实现。
通信设备118也可以包括拥有通信和信号处理软件及设备的全球定位系统(GPS)模块,其可以从远程信息处理单元114中分离出来或与远程信息处理单元114集成。例如,这样的GPS模块从无线通信系统104接收位置和时间信息并且传送相应的纬度和经度信息到远程信息处理单元114以使得远程信息处理单元114能够处理、存储和发送位置信息来执行诸如导航、行驶方向和紧急服务之类的服务。
通信设备118可以进一步包括拥有信号处理软件和设备的卫星通信模块,其可以从远程信息处理单元114中分离出来或与远程信息处理单元114集成。例如,卫星通信模块从卫星服务提供者的一个或多个同步卫星中通过一个或多个信道接收卫星无线电广播信号,并产生相应的音频和/或数据输出。除了音乐和娱乐、交通信息、道路建设信息、广告、新闻和当地事件信息外,卫星广播还可以包括消息。由卫星通信模块接收到的卫星无线电广播信号可以作为目标信息信号被监控,并且当该目标信息被检测到时,目标消息和相关信息可以从广播信号中提取出来。
远程信息处理用户接口
远程信息处理用户接口128包含一个或多个输入和输出接口用以从远程信息处理的用户处接收输入以及向远程信息处理用户发送输出。这里的术语用户包括远程信息处理服务订户,包含司机和乘客的车辆占有者等等。并且,这里的术语用户接口泛指任何合适形式的电子设备或适配器、或甚至软件模块或适配器,其使得车辆占有者与设备的另一部分通信或控制设备的另一部分。用户接口128可以包括分布在车辆各处的独立部件,和/或可以被集成为例如人机接口(HMI),信息娱乐中心等等的单个单元。信息娱乐中心可以接收和存储诸如音乐、网页、电影、电视节目、影视游戏之类的内容的下载,所述内容用于现在重放或延迟重放。
输入接口可以包括一个或多个触觉设备130,一个或多个麦克风132,或其他任何形式的输入技术。首先,触觉输入设备130使得车辆占有者激活远程信息处理单元114的一个或多个功能,并可以包括一个或多个按钮开关、小键盘、键盘或位于车辆102中车辆占有者可触及地方的其他合适的输入设备。例如,触觉输入设备130可以用来启动与例如呼叫中心108或蜂窝电话之类的远程位置的通信,和/或启动车辆更新、诊断等。第二,麦克风132允许车辆占有者向远程信息处理单元114提供语音输入,并且通过通信设备118能够与不同的远程位置进行语音通信。车辆占有者的语音输入可以使用合适的模拟到数字接口和/或例如在麦克风132和处理器116之间的声卡(未示出)的数字信号处理器和存储在存储器122中的声音和语音识别程序来解译。
输出接口可以包括一个或多个扬声器134,诸如液晶或等离子屏幕(未示出)之类的可视化显示设备,或任何其他类型的输出技术。扬声器134使得远程信息处理单元114能够传送听得见的语音、信号、音频文件等等给乘客,并且可以是车辆音频系统的一部分或远程信息处理单元114专用的单独部件。合适的接口例如声卡(未示出)可以被插入在扬声器134和远程信息处理处理器116之间。
一个或多个通信系统
通信系统104,106可以被单独地实施或可以被组合成完整系统。并且,利用一些合适的设备,呼叫中心108、web服务器109和/或服务中心111可以直接无线地与无线通信系统104通信而不需要第二系统106。
无线通信系统104可以包括一个或多个模拟或/和数字蜂窝网络136,无线计算机网络,例如广域网(WAN)、无线局域网(WLAN)、宽带无线区域(BWA)网络和/或其他适合用于在车辆102和诸如呼叫中心108、web服务器109和/或服务中心111之类的各个远程位置之间发送语音和/或数字信号的无线网络。蜂窝网络136可以作为CDMA、GSM或使得能够在车辆102和第二通信系统106之间交换语音和数据的其他蜂窝通信网络来实施。网络136可以包括任何合适的小区塔、基站和/或移动交换中心(MSC)的组合。例如,基站和小区塔可以共同位于相同的地址或它们彼此位置相隔较远,每个基站可以服务一个或多个小区塔,并且不同的基站可以耦合到一个MSC上,还有很多可能的布置,这里就不一一列举了。语音编码译码器或声码器可以结合在系统104中,例如在一个或多个基站中,但根据无线网络的特定结构,它也可以结合在MSC或一些其他网络部件内。
系统104也可以或可替换地通过使用一个或多个卫星138的卫星传输来实施无线通信以通过基于地面的卫星收发机140使车辆102与呼叫中心108通信。作为示例性实施例,卫星收发机140和一个或多个卫星138可以向车辆102发送无线电信号。例如,在美国联邦通信委员会分配用于基于卫星的数字音频无线电服务(DARS)国家广播的S带频谱上可以广播卫星传输。更加特别是,卫星传输可以使用XMTM带卫星无线电服务来实施。
第二通信系统106可以是基于陆地的有线系统,例如公共交换电话网络(PTSN),网际协议(IP)网络,光网络、光纤网络、电缆网络和/或效用电力传输线。系统106也可以是另一个无线通信系统,例如系统104、WAN、WLAN或BWA网络,或前述例子的任何组合,其中任何一个系统都可用于或适用于语音和/或数据通信。
呼叫中心
呼叫中心108通过处理和存储数据并且与车辆102通信来向车辆102提供服务。呼叫中心108可以向车辆远程信息处理单元114提供后端功能并且可以包括在一个或多个位置中的一个或多个固定或移动数据中心。呼叫中心108包括咨询台142,用来监控各种车辆情况,响应于服务请求,并且提供车辆服务,例如关于车辆安全和稳定系统的远程车辆帮助。咨询台142可以是人工顾问,或自动机器或运行在计算机上可操作地被布置响应用户请求的程序。
呼叫中心108包括一个或多个语音和/或数据接口144,例如有线或无线调制解调器,例如专用分组交换机(PBX)的交换机和/或路由器。一个或多个接口144通过通信系统104、106中的一个或两个在车辆远程信息处理单元114和呼叫中心108之间发送和接收语音和/或数据信号,例如通过车辆数据上载(VDU)。对于语音上数据通信,一个或多个接口144优选地应用一些类型的编码或调制来利用声码器或语音编解码器转换用于通信的数字数据。
呼叫中心108进一步包括一个或多个通信服务管理器146,用于处理数据的一个或多个服务器148,用于存储用户数据和任何其他适当数据的一个或多个适当数据库150,和一个或多个有线和/或无线网络152,例如LAN或WLAN,用于将呼叫中心部件与一个或多个咨询台142所使用的任何计算机连接在一起。例如,服务器148和数据库150运行和存储一个或多个控制程序和数据以单独地或结合车辆102的远程信息处理单元114实现使用拒绝参考的语音拨号方法。换句话说,所公开的方法可以被车辆102的远程信息处理单元114实现,可以被计算机设备和/或载呼叫中心108的职员实现,或由以上的任何组合来实现。
web服务器
web服务器109和系统100的集成使得车辆占有者能够例如通过使用自动语音识别技术和文本到语音技术(例如VoiceXML)与因特网的网站和其他内容进行交互。例如,车辆占有者可以使用远程信息处理单元114和嵌入式语音识别来例如通过发出像”天气”的命令或通过说出与特定网站地址相关的名称标记来寻求信息。语音识别技术识别出该命令或名称标记并将该请求翻译成恰当的例如XML(可扩展标记语言)的网络语言,和/或将该请求与所存储的用户简档关联来将请求与特定网站相关。web服务器109解释该请求,根据该请求从网站访问和检索合适的信息,并将该信息翻译成VoiceXML并发送相应的语音数据文件到车辆102,在车辆中通过远程信息处理单元114处理该数据文件并通过用户接口128输出给占有者。
web服务器109可以在例如呼叫中心108的任何合适位置或独立的远程位置使用一个或多个计算机服务器来实现。典型web服务器109包括合适的通信接口154(例如调制解调器,交换器和/或路由器),计算机156和数据库158,通过例如以太网LAN的任何合适网络160将它们进行连接。数据库158可以使用单独网络附加存储(NAS)设备来实现或可以存储在计算机156自身上,或可以位于其他任何期望的位置。计算机156具有控制在车辆102和数据库158之间数据交换的服务器应用程序。web服务器109也可以例如通过第二通信系统106或更多直接的路径与呼叫中心108和/或服务中心111进行通信。合适的服务器硬件和软件配置对于本领域技术人员来说都是已知的。
服务中心
服务中心111可以是车辆服务中心,在其中可以执行车辆诊断、维护和修理。服务中心111可以是车辆经销商、车辆修理店等。服务中心111与车辆102例如通过通信系统进行通信以便车辆占有者可以启动与在服务中心111的销售商或服务代表进行电话呼叫。
典型ASR系统
通常,车辆占有者为了一个或多个以下基本目的和自动语音识别系统(ASR)进行声音交互:训练系统理解车辆占有者特定的声音;存储诸如所说的名称标记或所说的控制词语(如数字或关键词)之类的离散语音;或为了例如语音拨号、菜单导航、转录、服务请求等任何合适目的而识别车辆占有者的语音;通常,ASR从人类语音中提取声音数据,比较和对照该声音数据和所存储的子单词数据,选择合适的可以和其他所选子单词连接起来的子单词,并输出连接的子单词或单词,用于后续处理,例如口述或转录,地址薄拨号,存储到存储器,训练ASR模型或适应参数等。
ASR系统对于本领域技术人员来说通常是已知的,并且图2说明了ASR系统210的特定典型结构,其可以用来实施这里所公开的方法。系统210包括接收语音的设备,例如远程信息处理麦克风132;和声学接口133,例如远程信息处理用户接口128的声卡以将语音数字化为声学数据。系统210也包括用于存储声学数据和存储语音识别软件和数据库的存储器,例如远程信息处理存储器122,和用于处理声学数据的处理器,例如远程信息处理处理器116。处理器利用存储器并且结合以下模块起作用:用于将语音的声学数据流分析成例如声学特性的参数表示的前端处理器或预处理器软件模块212;用于解码声学特性来产生对应于输入语音发音的数字子单词或单词输出数据的解码器软件模块214;和为了任何合适目的用于使用来自解码器模块214的输出数据的后处理器软件模块216。
一个或多个模块或模型可以被用作解码器模块214的输入。首先,语法或词典模型218可以提供关于管理哪些单词可以逻辑上跟随其他单词以形成正确句子的规则。在更宽的意义上,语法定义了系统210在任何给定时间在任何给定的ASR模式下期望的总体词汇。例如,如果系统210是在用于训练命令的训练模式下,则语法模型218可以包括系统210已知和使用的所有命令。第二,一个或多个声学模型220帮助选择对应于预处理器模块212的输入最有可能的子单词或单词。第三,一个或多个单词模块222和一个或多个句子/语言模型224在将所选择的子单词或单词放入单词或句子上下文中时提供语法和/或语义。并且,一个或多个句子/语言模型224可以定义系统210在任何给定时间和在任何给定的ASR模式下所期望的总体句子,和/或可以提供管理哪些句子可以逻辑地跟随其他句子以形成正确扩展语音的规则。
根据可替换的示例性实施例,ASR系统210的某些或全部被保留,并且使用远离车辆102的位置(例如,呼叫中心108)上的计算设备来处理。例如,语法模型,声学模型等可以被存储在呼叫中心108中的服务器148和/或数据库150之一的存储器中并且被传送到车辆远程信息处理单元114用于车内语音处理。相似的,语音识别软件可以使用呼叫中心108中的服务器148之一的处理器来进行处理。换句话说,ASR系统210可以以任何所期望方式位于远程信息处理系统114中或分布在呼叫中心108和车辆102中。
提取声学数据
首先,从车辆占有者向麦克风132说入的语音中提取声学数据,麦克风可以将声音转换成电信号并将该信号传送到声学接口133。在麦克风132中的声音响应元件当空气压力变化时捕获车辆占有者的语音并将语音转换为模拟电信号(例如直流或电压)的相应变化。声学接口133接收模拟电信号,其首先被采样以便模拟信号值在离散时刻被捕获,并然后被量化以便模拟信号的振幅在每个采样时刻被转换成连续的数字语音数据流。换句话说,声学接口133将模拟信号转换成数字电信号。数字信号是二进制位,其被缓存在远程信息处理存储器122中并且然后由远程信息处理处理器116处理或当它们最初被处理器116实时接收到时被处理。
预处理
第二,预处理器模块212将连续的数字语音数据流转换为离散的声学参数序列。更特别地,处理器116执行预处理器模块212以将数字语音数据分割成10-30ms持续时间的重叠语音或声学帧。这些帧对应于如音节,半音节,音素,双音素,音位等的声学子单词。预处理器模块212也执行语音分析来从车辆占有者声音的每个帧中提取出例如时变特性向量的声学参数。车辆占有者语音中的发音可以被表示为这些特性向量的序列。例如,如本领域技术人员所知的,特性句量可以被提取并可以包括,例如,语音音调,能量分布图,频谱特性和/或cepstral系数,cepstral系数可以通过执行帧的傅立叶变换并且使用余弦变换来解相关声学频谱来获得。声学帧和覆盖特定语音持续时间的对应参数被连接到待解码的语音的未知测试模式上。
解码
第三,处理器执行解码器模块214来处理每个测试模式的即将到来的特性向量。解码器模块214还称为识别引擎或分类器,并使用存储的已知语音参考模式。像测试模式,参考模式被定义成相关声学帧和对应参数的连接。解码器模块214比较和对比要被识别的子单词测试模式的声学特性向量和存储的子单词参考模式,获取它们之间相差或相似度的幅度,并最后使用确定逻辑来选择最匹配的子单词作为所识别的子单词。通常,最后的匹配子单词是对应于所存储已知参考模式的具有最小相异点或最高的可能性的子单词,使用本领域技术人员公知的任何不同技术确定的测试模式来分析和识别子单词。这种技术可以包括动态时间弯曲分类器,人工智能技术,神经网络,自由语音识别器(freephoneme recognizer),和/或盖然模式匹配器例如隐藏马尔可夫模型(HMM)引擎。
本领域技术人员知道HMM引擎用来产生声学输入的多个语音识别模型假设。所考虑的假定是最后识别和选择该识别输出,其表示通过语音的特性分析的最大似然正确解码声学输入。更加特别是,HMM引擎产生根据HMM计算的置信值或所观测的声学数据序列概率排列的子单词模型假设的“N个最好”列表形式的统计模型,给出一个或另一个如使用贝叶斯定理确定的子单词。贝叶斯HMM过程识别对应于对于给定观测声学特性向量序列的最大可能发声或子单词序列的最好假设,并且它的置信值可以取决于各种因数,该因数包含与进入的声学数据相关的声学信噪比。HMM也可以包括称为对角高斯混合的统计分布,其产生对于每个子单词的每个所观测的特性向量的似然分数,该分数可以用来对假定的N个最好列表重新排序。HMM引擎也可以识别和选择其模型似然分数最高的子单词。为了识别单词,对于子单词序列的单个HMM可以被连接来建立单词HMM。
语音识别解码器214使用合适的声学模型、语法和算法处理特性向量以产生参考模式的N个最好列表。正如这里所使用的,术语参考模式与模型、波形、模版、富裕(rich)信号模型、范本、假设或其他类型参考是可互换的。参考模式可以包括表示单词或子单词的一系列特性向量,并可以基于特定说话者、说话风格、和可听到的环境条件。本领域技术人员可以认识到参考模式通过ASR系统的适当参考模式训练产生并存储在存储器中。本领域技术人员也可以认识到,存储的参考模式可以被操作,其中参考模式的参数值可以基于参考模式训练和真实ASR系统使用之间的语音输入信号差异进行适配。例如,基于从不同车辆占有者或不同声学条件下有限数量的训练数据,用于一个车辆占有者或特定声学条件下所训练的一组参考模式可以被适配并且保存为用于不用车辆占有者或不同声学条件的另一组参考模式。换句话说,参考模式不一定是固定的,但可以在语音识别过程中进行调节。
通过使用词汇语法和任何合适的解码器算法和声学模型,处理器从存储器中获取多个说明测试模式的参考模式。例如,处理器可以产生N个最好词汇结果列表或参考模式以及相应参数值并将其存储到存储器中。示例性参数值可以包括在N个最好词汇列表中的每个参考模式的置信分数和相关片段持续时间,似然分数,信噪比(SNR)值等。N个最好词汇列表可以通过参数值的幅度降序来排序。例如,具有最高置信分数的词汇参考模式是第一最好的参考模式,等等。一旦建立了识别的子单词串,它们可以被用来利用来自单词模型222的输入组建单词,并且利用来自语言模型224的输入组建句子。
后处理
最后,为了任何合适的目的,后处理软件模块216从解码器模块214中接收输出数据。例如,后处理器模块216可以被用来将声学数据转换为ASR系统或其他车辆系统的其他方面所使用的文本或数字。在另一个例子中,后处理器模块216可以被用来向解码器214或预处理器212提供训练反馈。更特别地,后处理器216可以被用来训练用于解码器模块214的声学模型,或训练用于预处理器模块212的适配参数等。
语音拨号方法
这里提供了ASR使能的语音拨号方法,并且在上述远程信息处理系统100的操作环境中使用ASR系统210的结构将该方法实施为一个或多个计算机程序。本领域技术人员也可以认识到,在其他操作环境中使用其他ASR系统也可以实施该方法。
总的来说,提供该方法通过拒绝参考来保持跟踪不正确的识别声音以改进语音拨号中语音识别的性能。拒绝参考可以是拒绝列表,表格,矩阵或其他任何合适的跟踪设备,该跟踪设备可以提供在拨打给定电话号码时被确定为不正确的数字或数字串。拒绝参考可以是与解码器识别结果对照,从而阻止或拒绝不正确的识别结果被采纳并且传达给用户。相应地,可以给用户提供更准确识别结果以提高用户对语音拨号的满意度。
图3示出了语音拨打包含多个数字的电话号码的第一示例性方法300。每个单独的步骤可以以任何合适的方式实施,如使用上述ASR系统210的相应部分。刚开始,用户可以将ASR使能的远程信息处理单元114以任何合适的方式设置成语音拨号模式,例如通过说出合适的如”拨号”等的命令单词。
在步骤305,从用户接收至少一个发音。如这里所使用的,术语发音可以包含表示数字串的发音。也如这里所使用的,短语数字串可以包含一个或多个要拨打的电话号码数字。该数字串可以通过例如“3”或“3-1-3”的数字发音或多个发音“313”,或如“3-13”的数字发音的任何组合来表示。数字串可以包含单个数字或要拨打的整个电话号码。在一个例子中,该发音可以由麦克风132接收并通过转换器133提供给ASR系统210的处理器116和/或存储器122。
在步骤310,对于该发音确定一个或多个识别结果。这可以通过解码发音来识别一个或多个识别结果来完成。例如,解码器(如ASR系统210的解码器214)可以被用来解码发音以产生N个最好识别结果。更特别地,从步骤305的用户发音可以被解码来产生包含3-1-2,3-1-4,3-1-3等的N个最好识别结果列表。本领域技术人员可以认识到任何合适的设备或模块可以被用来将识别结果转换为对应的如312,314,313等的数字结果。例如,这可以通过使用ASR系统210的后处理器216来完成。
在步骤315中,识别结果被传送到用户。例如,步骤310的N个最好识别结果列表中的第一最好识别结果可以被接收并通过ASR使能的远程信息处理系统114呈现给用户。在这个例子中,3-1-2或312被传送给用户。该识别结果可以通过任何合适的输出设备被音频地和/或视觉地传送,例如远程信息处理用户接口128。识别结果也可以被存储为通过远程信息处理单元114在合适时间要拨打的数字串,并可以被存储在任何合适的存储器位置,例如远程信息处理存储器122的任何合适部分。
在步骤320,用户被询问或提供一个机会以指示识别结果是否不正确。因而,系统可以从用户处接收所传送的通信结果是不正确的指示。例如,响应于接收识别错误的数字串,或前述步骤中不正确的识别结果“312”,用户可以说出修正命令如“修正”或“清除上一个输入”或任何其他合适的命令。该指示可以通过麦克风132接收并被ASR系统210处理。
在步骤325,拒绝参考被填充不正确的识别结果。拒绝参考可以是计算机可读文件,或文件的一部分,其被存储在任何合适的易失的和/或非易失的存储器中,例如远程信息处理存储器122。并且或者代替,拒绝参考可以是暂时存储在对应于任何合适存储器地址位置的易失存储器中的数据。在任何情况下,拒绝参考可以被处理器从存储器位置再调用和/或通过处理器使用存储在存储器中的程序或例程而被产生。不正确的识别结果可以通过将理解错误的发音和不正确的识别结果一起存储从而被加入到拒绝参考中,以便无论在哪里系统接收到相同或相似的发音,它可以使用参考拒绝来排除不正确的识别结果作为可能的ASR结果。可替换地,不正确的识别结果可以在没有相关的发音的情况下被存储,并当用户被要求重述理解错误的发音时其可以简单暂时用来排除不正确的识别结果。使用这种可替换的暂时方法,一旦发现正确的识别结果时,不正确的识别结果可以从拒绝参考中删除。并且,对应于不正确识别结果的数字串可以从在步骤315中其被先前存储的存储器中清除。
在步骤330中,可以提示用户替代不正确的识别结果。例如,ASR使能的远程信息处理单元114可以输出例如“好的,再试一次”的声觉和/或视觉通信或其他任何合适的表述以提示用户代替不正确的识别结果。该提示可以包括音频、视频/或文本计算机文件,其可以被存储在任何合适的存储器中,例如远程信息处理存储器122,并且由任何合适的处理器(如远程信息处理处理器116)来执行。
在步骤335中,可以从用户处接收到用来代替不正确识别结果的修正发音。例如,用户可以重复在步骤305用户起初的发音,例如“3-1-3”。发音可以通过麦克风132接收并随后通过转换器133提供给ASR系统210的处理器116和/或存储器122。
在步骤340中,ASR系统210确定对于修正的发音的一个或多个修正的识别结果。这可以通过解码修正的发音来识别一个或多个修正识别结果来完成。例如,解码器214可被用来解码修正发音来产生N个最好修正识别结果。更特别地,步骤335中用户的修正发音可以被解码成包含3-1-2,3-1-4,,3-1-3等的修正识别结果的N个最好列表。本领域技术人员应该意识到,识别结果的N个最好列表可以与先前在步骤310中识别的识别结果的N个最好列表相同也可以不相同。换句话说,当前解码步骤可以基于当前的周围噪声级,更新或不同的语法等产生唯一的N个最好列表。
在步骤345中,一个或多个修正的识别结果可以以任何适当方式与拒绝参考进行对比。例如,步骤340中的N个最好修正识别结果可以与拒绝参考中的数据对照来识别普通数字串。在拒绝参考中存在的数字或数字串在识别结果中的出现将在下一步骤中阻止将该识别结果传送给用户。换句话说,拒绝参考可以用来拒绝一个或多个识别结果。在所给出的特定例子中,在步骤325中数字串312在拒绝参考的出现将阻止在识别结果的N个最好列表中的前面错误识别的数字串的传送与使用。
在步骤350中,没有被拒绝参考阻止的修正识别结果被系统返回然后传送给用户。例如,因为从步骤340产生的识别结果的N个最好列表中的第一最好识别结果“312”被拒绝参考在每个步骤345中阻止,下一个或第二最好识别结果“314”可以被传送给用户。修正的识别结果也可以在任何合适存储位置(例如,远程信息处理存储器122的任何合适部分)中被存储为要拨打的数字串。
在步骤355中,用户又被质询或提供机会来指示现在修正的识别结果是不是还不正确。例如,响应于从前面步骤接收到不正确的修正识别结果“314”,用户可以说“修正”或“清除上一个输入”或任何其他合适的命令。如同所有其他用户语音输入,麦克风132可以接收指示然后由ASR系统210来处理。
在步骤360中,拒绝参考可以被填充不正确的修正识别结果。例如,步骤325的拒绝参考可以被填充在步骤355中指示为不正确的修正识别结果314。并且,对应于不正确的修正识别结果的数字串可以从步骤350中它先前被存储的存储器中清除。
在步骤365中,可以提示用户代替不正确的修正识别结果。例如,远程信息处理系统114可以输出如“好,再试一次”的音频和/或视频通信或任何其他合适的表述来提示用户代替步骤355中指示为不正确的修正识别结果。该提示可以包括音频、视频和/或文本计算机文件,其可以存储在任何合适存储器(例如远程信息处理存储器122)中并且由任何合适处理器(例如远程信息处理处理器116)来执行。
在步骤370中,随后的修正发音可以从用户处接收来代替不正确的修正识别结果。例如,用户可以重复来自步骤305和步骤335的用户先前发音例如“3-1-3”来代替不正确数字串“314”。在步骤375中,后续的修正发音可以被解码来识别对于后续修正发音的识别结果。例如,解码器214可以从步骤370中被用来解码后续修正语音以确认识别结果的第二N个最好列表。在所示的例子中,从步骤370中用户后续修正发音可以被解码成包含“3-1-2”,“3-1-4”,“3-1-3”等的N个最好列表。本领域技术人员可以认识到,识别结果的N个最好列表可以与步骤340和/或310中的识别结果先前定义的N个最好列表相同或也可以不相同。
在步骤380中,一个或多个后续修正的识别结果可以与拒绝参考进行比较,如前面步骤345所描述的一样。例如,在步骤325中数字串“312”和步骤360中数字串“314”在拒绝参考中的出现将阻止识别结果的N个最好列表中数字串“312”和“314”的使用和传达。
在步骤385,没有被拒绝参考阻止的后续修正的识别结果可以被传送给用户。例如,由于步骤375中识别结果的N个最好列表的第一和第二最好识别结果“312”和“314”通过使用拒绝参考而被有效地阻止,下一个或第三最好识别结果“313”可以以任何合适的方式传达给用户。
在步骤390,用户可以如上所述的再次阻止后续的识别结果。但是,在这个例子中,后续识别结果是正确的并且用户因此通过说出另一个数字或数字串来接收该识别结果。例如,用户可以通过说出一个或多个后续数字串例如“667”来接收步骤385中修正的识别结果。
图4说明了语音拨打包含有多个数字的电话号码的第二示例性方法400。该实施例与图3中的实施例在很多方面是很相似的,并且在实施例之间的类似步骤通常在所有附图中表示相似或相应步骤。此外,图3和图4实施例的描述通过相互参考被引入并且通常不重复共同的主题。
在步骤405,从用户处接收多个发音。例如,在用户暂停之前可以接收用户发音“313”并且在用户暂停后接收后续的发音“667”。在ASR系统响应之前说出和接收该发音。
在暂停之间可以定义多个发音。换句话说,完整的电话号码可以包含多个表示数字串的发音,其中发音之间的暂停表示一个发音的结束和后续发音的开始。任何合适的定时器模块都可以测量自从接收最近发音以来已经期满的时间形式的时间间隔。该时间间隔可以通过任何合适设备(如远程信息处理处理器116)被初始化和监控并重置。本领域技术人员可以认识到,这样的设备可以被用来初始化、填充并清除合适的存储器位置(例如,时序存储器位置),用于接收发音。
在步骤410,解码多个发音来确定该多个发音的识别结果。例如,解码器214可以被用来解码发音以产生对于多个发音中每一个的一组N个最好识别结果。更特别地,对于发音“313”的示例性识别结果的N个最好列表可以包括312,313,...一直到第N个最好结果N,并且对于发音“667”的示例性识别结果的N个最好列表可以包括667,767,677,...一直到第N个最好结果N。此外,在任何识别结果被传达给用户之前,该识别结果或根据其产生的N个最好列表可以以任何合适的方式与拒绝参考进行比较来确定普通数字串和拒绝考虑它们和传达给用户。
在步骤415,传达至少一个识别结果给用户。例如,在步骤410中,对于多个发音的每个识别结果N个最好列表中的第一最好识别结果可以被返回给用户。并且,该识别结果可以例如作为要拨打的后续数字串存储在存储器中。本领域技术人员可以认识到,任何合适的设备,如远程信息处理处理器116可以被用来初始化、填充和清除合适存储器位置(例如,例如,时序存储器位置)用于接收该识别结果。
在步骤420,从用户处接收一个或多个所传达的识别结果是不正确的指示。例如,图4中第一“修正”可以指示所识别的结果“312”或所识别的结果“667”中的一个或两个都是不正确的。
在步骤425,多个位置拒绝参考被填充最近传达的识别结果。例如,拒绝参考可以包括对应于发音序列中离散发音的多个数字串位置。更特别地,拒绝参考可以包括对应于第一数字串的第一位置,和对应于第二数字串的第二位置等等。在任何情况下,响应于用户的修正命令,拒绝参考被填充最近所传达的识别结果,其在上面的例子中为“667”。并且,数字串667可以从存储器中清除掉。最后,一个或多个星号代表在数字已被接收或未被输入的数字位置上的通配符。
在步骤430,可以提示用户来替代不正确的识别结果。例如,紧先于最近传达的识别结果的识别结果可以被传达给用户。例如,识别结果“312”,其紧先于最近传达的识别结果“667”,被传达给用户。事实上,这就是告诉用户拨号存储器位置已经清除了“667”数字串并且当前只包含“312”数字串,因而,提示用户来指示对“312”数字串的修正或说出跟随“312”的后续数字串。
在步骤435,用户可以接收识别结果是不正确的指示。例如,图4中的第二”修正”命令指示所识别的数字串“312”是不正确的。在步骤440,拒绝参考被填充不正确的识别结果。例如,在步骤435中指示为不正确的识别结果“312”被添加到拒绝参考中的相应位置中。并且,步骤425中所传达的识别结果从拒绝参考中清除,如图4中删除线所示的。事实上,这允许用户备份并跳过正确的结果667来修正先前识别不正确的数字串发音。
在步骤445,可以提示用户来替代不正确的识别结果。例如,可以提示用户来替代步骤435中指示为不正确的识别结果,如“312”。该指示可以包含“好,再试一次”或其他任何合适的表述或表达。在步骤450中,从用户处接收修正的发音来替代不正确的识别结果。例如,可以接收用户修正的发音“313”。
在步骤455,修正发音被用来确定一个或多个修正的识别结果;又通过解码修正发音来确定对于修正发音的至少一个修正的识别结果。例如,步骤450的修正发音可以被解码来产生识别结果的N个最好列表。
在步骤460,一个或多个修正的识别结果可以以任何合适的方式与拒绝参考进行比较。例如,步骤455中的识别结果的N个最好列表可以与拒绝参考对照来确定共同的数字串并阻止考虑它们和传达给用户。
在步骤465,没有通过拒绝参考阻止的修正识别结果可以被传达给用户。例如,步骤460的一个修正识别结果可以被传达给用户。更特别地,由于步骤460的识别结果的N个最好列表的第一最好识别结果“312”被拒绝参考阻止,下一个或第二最好识别结果“313”可以以任何合适的方式被传达给用户。
在步骤470,用户可以通过说出另一个数字或数字串来接收识别结果。例如,用户可以通过说出一个或多个后续数字串如667来接收步骤465中的修正的识别结果。
在步骤475,第二数字串的发音可以被解码来确定对于发音的至少一个识别结果。例如,该解码器可以产生包含667、767...一直到第N个最好结果N的对于发音667的识别结果的N个最好列表。
在步骤480,识别结果可以以任何方式和拒绝参考进行比较。例如,步骤475的识别结果可以与拒绝参考进行比较,该拒绝参考在步骤440中被修正。
在步骤485,没有被拒绝参考阻止的识别结果可以被传达给用户。例如,步骤480的识别结果可以被传达给用户。由于数字串“667”被从拒绝参考中清除,N个最好结果的第一最好结果“667”可以被返回。
图5A和5B说明了语音拨打包含多个数字的电话号码的第三示例性方法500。该实施例与图3和图4中的实施例在很多方面都很相似,并且在实施例之间的类似步骤通常在所有附图中表示相似或相应步骤。此外,各个实施例的描述通过相互参考被引入并且通常不重复共同的主题。
在步骤505,从用户处接收至少一个表示至少一个数字的发音。例如,在用户暂停之前可以从用户处接收包含一个或多个数字的第一数字串如“313”,并在用户暂停之后接收后续的发音,如“555”。在这个例子中,两个连续的数字串发音快于系统处理和响应第一发音的速度。
在步骤510,至少一个表示至少一个数字的发音被解码来确定对于发音的识别结果。例如,第一和第二数字串发音“313”和“555”可以被解码来产生用于每一个数字串发音的N个最好识别结果列表。此外,在任何识别结果被传达给用户之前,识别结果和/或由该识别结果所产生的N个最好列表可以以任何合适的方式与拒绝参考进行比较以确定共同的数字串并阻止对它们进行考虑和传达给用户。
在步骤515,对于表示至少一个数字的发音的识别结果被传达给用户。例如,在步骤510中每个识别结果的N个最好列表中的第一最好识别结果被传达给用户。并且,该识别结果例如作为要拨打的后续数字串被存储在存储器中。
在步骤520,用户向ASR系统提供所传达的识别结果是不正确的指示。例如,用户接收关于步骤515所传达的一个或多个识别结果是不正确的指示。例如,在图5A和图5B中的第一“修正”命令指示识别结果“318”是不正确的和/或指示识别结果“559”是不正确的。
在步骤525中,多数字位置的拒绝参考被填充最新传达的识别结果。例如,拒绝参考可以包含具有一个或多个行和多个数字位置列的矩阵,所述行对应于一个或多个识别不正确的发音,所述列对应于识别不正确的发音中的离散数字。列数可以对应于要拨打的给定电话号码中数字的个数。行数可以对应于在拨打给定电话号码的会话期间引起的识别不正确发音的个数。换句话说,拒绝参考的大小是可变的。例如,拒绝参考对于10位电话号码可以为10×3大小,尝试拨打该电话号码并且在最后拨打之前可以有三次识别不正确。
此外,多数字位置的拒绝参考可以包含对应于第一数字的第一数字位置,在其开始数字串发音,如“318”中的“3”,和第六数字位置,该第六数字位置对应于第二发音串末尾的第六个数字,如“559”中的“9”,依此类推。在任何情况下,拒绝参考被填充最近传达的识别结果,如上述例子中为“559”。不正确识别结果的每一数字被添加到拒绝参考中多个数字位置的对应数字位置上。因此,数字位置4,5,6分别被填充所识别的数字5,5,9。
在步骤530,可以提示用户替代不正确的识别结果。例如,紧先于最近传达的识别结果的识别结果可以被传达给用户。例如,识别结果“318”,其紧先于最近传达的识别结果“559”,被传达给用户。事实上,这就告知用户拨号存储器位置已经清除“559”数字串并且当前只包含“318”字符串,并因而提示用户既可以指示对“318”数字串的修正或也可以发出跟随“318”的后续数字串。
在步骤535,可以从用户处接收修正发音来替代不正确的识别结果。例如,可以从用户处再次接收包含第二数字串“555”的用户修正发音来替代不正确的识别“559”。如图5A中的例子,用户选择来修正“559”数字串,因为用户还没有意识到“318”识别结果是不正确的。在步骤540中,修正发音可以被解码来确定对于修正发音的修正识别结果。例如,步骤535的修正发音可以被解码来产生修正识别结果的N个最好列表。
在步骤545,修正识别结果的每个所识别的数字可以与拒绝参考的多个数字位置的相应位置进行比较。例如,步骤540的每个N个最好识别结果的每个所识别的数字可以与拒绝参考的每个数字位置对照来确定数字串的共同数字并且阻止考虑该数字串和传达给用户。例如,数字串559被拒绝。
在步骤550,没有被拒绝参考阻止的修正识别结果被传达给用户。例如,步骤540的其中一个修正识别结果可以被传达给用户。更特别地,由于步骤540的识别结果的N个最好列表中第一最好识别结果“559”被拒绝参考阻止,下一个或第二最好识别结果“555”可以以任何合适的方式传达给用户。并且,修正识别结果例如作为将要拨打的后续数字串可以存储在存储器中。
参考图5B,在步骤555中,可以从用户处接收修正发音来替代不正确的识别结果。例如,用户可以意识到第一数字串发音识别不正确,因而可以接收用户的修正发音“修正”等。
在步骤560,拒绝参考被填充最近传达的识别结果。例如,拒绝参考可以被填充最近传达的识别结果,其在上面的例子中为555。因此,数字位置4,5,6分别被填充所识别的数字5,5,5。
在步骤565,可以提示用户来替代不正确的识别结果。例如,紧先于最近传达的识别结果的识别结果可以被传达给用户。更具体地,识别结果“318”,其紧先于最近传达的识别结果“555”,被传达给用户。事实上,这就告诉用户拨号存储器位置已经清除了“555”数字串并当前只包含“318”数字串,并且因此提示用户既可以指示对于“318”数字串的修正或也可以说出跟随“318”的后续数字串。
在步骤570,可以从用户处接收修正发音来替代不正确的识别结果。例如,用户可以修正第一数字串发音,其中用户的修正发音“修正”等可以被接收。如图5B所示的例子,用户可以选择修正“318”数字串,因为用户刚刚意识到“318”识别结果是不正确的。
在步骤575,拒绝参考被填充最近传达的识别结果。例如,拒绝参考可以被填充最近传达的识别结果,其在上面的例子为“318”。相应的,数字位置1,2,3分别被填充识别的数字3,1,8。并且,对应于识别结果的第一数字串可以从在步骤515中其先前被存储的存储器中清除。此外,步骤550所传达的识别结果的每个数字都从拒绝参考中清除,如图5B的删除线所示。
在步骤580,可以提示用户替代不正确的识别结果。例如,可以提示用户来替代步骤570中指示为不正确的识别结果,如“318”。该提示可以包括“好,再试一次”或其他任何合适的表述或表达。
在步骤585,从用户处接收表示至少一个数字的至少一个发音。例如,用户可以改变数字串的长度,并说出新的更长的第一数字串。例如,新的第一数字串可以包括6个数字位置,包括1,2,3,4,5,6,其先前由两个数字串覆盖;即步骤505中的示例性第一和第二数字串。
在步骤590,表示至少一个数字的至少一个发音被解码来确定对于至少一个发音的识别结果。例如,新的第一数字串313555可以被解码来确定包含313555,313559...N的N个最好识别结果列表。此外,在任何识别结果被传达给用户之前,识别结果和根据其产生的N个最好列表可以以任何合适的方式与拒绝参考进行比较来确定共同的数字串并且阻止考虑它们和传达给用户。
在步骤595,对于发音的识别结果被传达给用户。例如,步骤590中识别结果的N个最好列表中的第一最好识别结果被传达给用户。并且,该识别结果例如作为要拨打的第一数字串可以被存储在存储器中。在步骤600,用户可以通过说出另一个数字或数字串来接收识别结果。例如,用户可以通过说出一个或多个如5594的后续数字串来接收步骤595中修正的识别结果。
在步骤605,对于第二数字串的发音可以被解码来确定对于发音的至少一个识别结果。例如,解码器可以确定对于包含5594,5554...N的发音“5594”的识别结果的N个最好列表。此外,在任何识别结果被传达给用户之前,识别结果和/或根据其产生的N个最好列表可以使用上面讨论的任何方法来与拒绝参考进行比较来确定共同数字串以及阻止考虑它们和传达给用户。
在步骤610,对于表示至少一个数字的发音的识别结果可以被传达给用户。例如,步骤605中识别结果的N个最好列表中第一最好识别结果可以被传达给用户。并且,该识别结果例如作为第二或最后要拨打的数字串可以存储在存储器中。如果需要的话,这个识别结果的用户修正可以进行,如上所述的,直到修正的结果被确定。
最后,ASR语法218可以被动态地修改以提高语音拨号正确率。例如,初始语法可以被用于给定期望长度的电话号码,并当电话号码的数字被识别时进行修改。在更具体的例子中,当第一次识别任何给定的十个数字电话号码时,可以应用十个数字电话号码的初始语法。对于对应于要识别的第一数字串的如“313”的第一发音,初始十个数字语法在第一发音的解码过程中被应用。然后,该初始十个数字语法基于刚识别的数字质量可以被修改。
例如,由于第一发音表示十个数字中的三个,初始十个数字语法可以被消减为七个数字语法。该修改有效地消除了所有十个,九个和八个数字号码语法的可能性。因而,例如,当识别到对于后续数字串的后续发音时,应用七个数字语法。七个数字语法可以包括对于单个数字、两数字、三数字、四数字、五数字、六数字、和七数字号码的所有可能组合。然后,例如,如果多于三个数字在后续数字串中被识别出,将应用四个数字语法,依此类推。相应地,在初始数字串发音之后,可能残留号码的全部在电话号码的识别过程中被逐渐减少了。这有效地提高了正确识别表示后续数字串的后续发音的可能性。
应当理解的是,前面的描述不是本发明的一个定义,仅仅是本发明的一个或多个优选示例性实施例的描述。本发明不限制于这里所公开的特定实施例,但只由下面的权利要求书限定。此外,前面的描述中所包含的表述涉及特定实施例并不能解释为限制于本发明的保护范围或权利要求中使用术语的定义,除了上面特别地定义术语或短语。对于所公开的实施例的不同其他实施例和不同的改变和更改对于本领域技术人员来说是显然的。所有其他的实施例、改变和更改均在后附的权利要求书的范围内。
如在说明书和权利要求书中使用的,术语“例如”、“比如”、“如”和动词“包括”、“具有”、“包含”以及它们的其他动词形式,当结合一个或多个部件或其他项目使用时,每个被解释为是开放式的,即列出的内容不被认为是排除其他附加部件或项目。其他的术语使用它们最广义合理的含义被解释,除非它们用在需要不同解释的上下文中。

Claims (20)

1.一种语音拨号方法,包括如下步骤:
(a)从用户接收一个或多个发音;
(b)确定对于所述一个或多个发音的识别结果;
(c)将所述识别结果传达给用户;
(d)从用户接收所传达的识别结果是否是不正确的指示;
(e)如果不正确,则利用该不正确的识别结果填充拒绝参考。
2.如权利要求1所述的方法,进一步包括如下步骤:
(f)提示用户替代该不正确的识别结果;
(g)从用户接收修正发音来替代不正确的识别结果;
(h)确定对于修正发音的修正识别结果;
(i)比较所述修正的识别结果和所述拒绝参考;以及
(j)将没有被拒绝参考阻止的修正识别结果传达给用户。
3.如权利要求2所述的方法,进一步包括:
(k)从用户接收所述修正的识别结果是不正确的指示;
(l)利用所述不正确的修正识别结果填充拒绝参考;
(m)提示用户替代所述不正确的修正识别结果;
(n)从用户接收后续的修正发音来替代所述不正确的修正识别结果;
(o)确定对于后续修正发音的后续修正识别结果;
(p)比较后续修正的识别结果和拒绝参考;以及
(q)将没有被拒绝参考阻止的后续修正识别结果传达给用户。
4.如权利要求1所述的方法,其中接收所述一个或多个发音的步骤(a)包括多个发音,并且填充拒绝参考步骤(e)包括多个位置,其中每个位置对应于所述多个发音中的一个发音。
5.如权利要求4所述的方法,其中所述多个发音被一个或多个用户暂停所隔离。
6.如权利要求4所述的方法,其中所述多个发音表示数字串。
7.如权利要求6所述的方法,其中每个数字串包含至少一个数字。
8.如权利要求1所述的方法,其中接收一个或多个发音的步骤(a)包括多个发音,并且填充拒绝参考步骤(e)包括多个数字位置,其中所述数字位置对应于在所述多个发音中分别识别的数字。
9.如权利要求1所述的方法,其中确定步骤(b)包括产生N个最好识别结果以及根据N个最好的识别结果来确定一个或多个发音的识别结果。
10.如权利要求1所述的方法,其中接收步骤(d)包括从用户接收修正命令。
11.一种语音拨号方法,包括如下步骤:
(a)从用户接收多个发音;
(b)确定对于所述多个发音中的每个发音的至少一个识别结果;
(c)将对于所述多个发音的识别结果传达给用户;
(d)从用户接收至少一个所传达的识别结果是不正确的指示;
(e)利用所述识别结果中最近所传达的识别结果填充多位置的拒绝参考。
12.如权利要求11所述的方法,进一步包括如下步骤:
(f)将紧先于最近所传达的识别结果的识别结果传达给用户;
(g)从用户接收步骤(f)中的所述识别结果是不正确的指示;
(h)利用步骤(f)的所述识别结果填充拒绝参考并从拒绝参考中清除步骤(c)中最近所传达的识别结果;
(i)提示用户替代在步骤(g)中被指示为不正确的修正识别结果;
(j)从用户接收修正发音来替代不正确的识别结果。
13.如权利要求12所述的方法,进一步包括如下步骤:
(k)解码所述修正发音以确定对于所述修正发音的至少一个识别结果;
(l)将步骤(k)中没有被拒绝参考阻止的识别结果传达给用户。
14.如权利要求11所述的方法,其中所述多个发音被用户暂停隔离并且填充多位置拒绝参考的步骤(e)包括多个数字串位置,其中每个数字串位置对应于所述多个发音的一个发音。
15.如权利要求11所述的方法,其中所述多个发音被用户暂停隔离并且填充多位置拒绝参考的步骤(e)包括多个数字位置,其中所述数字位置对应于所述多个发音中分别识别的数字。
16.如权利要求11所述的方法,其中所述识别步骤(b)包括产生N个最好识别结果以及根据N个最好的识别结果来确定所述多个发音的识别结果。
17.如权利要求11所述的方法,其中所述接收步骤(d)包括从用户接收修正命令。
18.一种语音拨号方法,包括如下步骤:
(a)从用户接收表示至少一个数字的发音;
(b)确定对于所述发音的至少一个识别结果;
(c)将步骤(b)中的识别结果传达给用户;
(d)从用户接收所传达的识别结果是不正确的指示;
(e)利用所述不正确的识别结果填充拒绝参考中多个数字位置中的至少一个数字位置。
19.如权利要求18所述的方法,进一步包括如下步骤:
(f)提示用户替代所述不正确的识别结果;
(g)从用户接收修正发音来替代所述不正确的识别结果;
(h)确定对于所述修正发音的至少一个修正的识别结果;
(i)比较每个修正识别结果的每个所识别的数字和拒绝参考中多个数字位置中的各个位置;
(j)将没有被拒绝参考阻止的修正识别结果传达给用户。
20.如权利要求18所述的方法,其中填充步骤(e)包括将不正确的识别结果的每个数字添加到拒绝参考中多个数字位置中的对应数字位置上。
CN2007101857708A 2006-11-28 2007-11-28 使用拒绝参考的语音拨号 Active CN101272416B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/563,809 US8055502B2 (en) 2006-11-28 2006-11-28 Voice dialing using a rejection reference
US11/563809 2006-11-28

Publications (2)

Publication Number Publication Date
CN101272416A true CN101272416A (zh) 2008-09-24
CN101272416B CN101272416B (zh) 2013-02-06

Family

ID=39464788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101857708A Active CN101272416B (zh) 2006-11-28 2007-11-28 使用拒绝参考的语音拨号

Country Status (2)

Country Link
US (2) US8055502B2 (zh)
CN (1) CN101272416B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103578468A (zh) * 2012-08-01 2014-02-12 联想(北京)有限公司 一种语音识别中置信度阈值的调整方法及电子设备
CN108447488A (zh) * 2017-02-15 2018-08-24 通用汽车环球科技运作有限责任公司 增强语音识别任务完成

Families Citing this family (221)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
JP4672686B2 (ja) * 2007-02-16 2011-04-20 株式会社デンソー 音声認識装置及びナビゲーション装置
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US9293130B2 (en) * 2008-05-02 2016-03-22 Nuance Communications, Inc. Method and system for robust pattern matching in continuous speech for spotting a keyword of interest using orthogonal matching pursuit
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US7680661B2 (en) * 2008-05-14 2010-03-16 Nuance Communications, Inc. Method and system for improved speech recognition
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US20100076764A1 (en) * 2008-09-19 2010-03-25 General Motors Corporation Method of dialing phone numbers using an in-vehicle speech recognition system
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8374868B2 (en) * 2009-08-21 2013-02-12 General Motors Llc Method of recognizing speech
US9484027B2 (en) * 2009-12-10 2016-11-01 General Motors Llc Using pitch during speech recognition post-processing to improve recognition accuracy
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE112011100329T5 (de) 2010-01-25 2012-10-31 Andrew Peter Nelson Jerram Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform
JP5633042B2 (ja) * 2010-01-28 2014-12-03 本田技研工業株式会社 音声認識装置、音声認識方法、及び音声認識ロボット
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
CN102237087B (zh) * 2010-04-27 2014-01-01 中兴通讯股份有限公司 语音控制方法和语音控制装置
JP2013529794A (ja) 2010-06-24 2013-07-22 本田技研工業株式会社 車載音声認識システム及び車両外音声認識システム間の通信システム及び方法
JP5158174B2 (ja) * 2010-10-25 2013-03-06 株式会社デンソー 音声認識装置
US9123339B1 (en) * 2010-11-23 2015-09-01 Google Inc. Speech recognition using repeated utterances
CN102479510A (zh) * 2010-11-24 2012-05-30 株式会社东芝 用于生成语音标签的方法和装置
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
KR20130005160A (ko) * 2011-07-05 2013-01-15 한국전자통신연구원 음성인식기능을 이용한 메세지 서비스 방법
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) * 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9190054B1 (en) * 2012-03-31 2015-11-17 Google Inc. Natural language refinement of voice and text entry
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
KR20130135410A (ko) * 2012-05-31 2013-12-11 삼성전자주식회사 음성 인식 기능을 제공하는 방법 및 그 전자 장치
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR101284594B1 (ko) * 2012-10-26 2013-07-10 삼성전자주식회사 영상처리장치 및 그 제어방법, 영상처리 시스템
KR102118209B1 (ko) 2013-02-07 2020-06-02 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
JP6163266B2 (ja) 2013-08-06 2017-07-12 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) * 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
EP3195145A4 (en) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Voice commerce
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
EP3207467A4 (en) 2014-10-15 2018-05-23 VoiceBox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) * 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
EP3089159B1 (en) 2015-04-28 2019-08-28 Google LLC Correcting voice recognition using selective re-speak
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10255921B2 (en) 2015-07-31 2019-04-09 Google Llc Managing dialog data providers
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10339927B2 (en) * 2017-02-16 2019-07-02 GM Global Technology Operations LLC Vehicle control systems and methods for multi-intent queries input by voice
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10580406B2 (en) * 2017-08-18 2020-03-03 2236008 Ontario Inc. Unified N-best ASR results
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10621282B1 (en) * 2017-10-27 2020-04-14 Interactions Llc Accelerating agent performance in a natural language processing system
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
WO2019220725A1 (ja) 2018-05-18 2019-11-21 パナソニックIpマネジメント株式会社 音声認識装置、音声認識方法、及びプログラム
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
KR20220013732A (ko) * 2020-07-27 2022-02-04 삼성전자주식회사 전자 장치 및 이의 제어 방법

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4870686A (en) * 1987-10-19 1989-09-26 Motorola, Inc. Method for entering digit sequences by voice command
US5303299A (en) * 1990-05-15 1994-04-12 Vcs Industries, Inc. Method for continuous recognition of alphanumeric strings spoken over a telephone network
US6922669B2 (en) * 1998-12-29 2005-07-26 Koninklijke Philips Electronics N.V. Knowledge-based strategies applied to N-best lists in automatic speech recognition systems
US7200555B1 (en) * 2000-07-05 2007-04-03 International Business Machines Corporation Speech recognition correction for devices having limited or no display
US20030023439A1 (en) * 2001-05-02 2003-01-30 Gregory Ciurpita Method and apparatus for automatic recognition of long sequences of spoken digits
DE10341305A1 (de) * 2003-09-05 2005-03-31 Daimlerchrysler Ag Intelligente Nutzeradaption bei Dialogsystemen
CN100334870C (zh) * 2004-01-20 2007-08-29 联想(北京)有限公司 一种语音拨号系统和实现方法
US7899671B2 (en) * 2004-02-05 2011-03-01 Avaya, Inc. Recognition results postprocessor for use in voice recognition systems
DE102004028724A1 (de) * 2004-06-14 2005-12-29 T-Mobile Deutschland Gmbh Verfahren zur natürlichsprachlichen Erkennung von Nummern

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103578468A (zh) * 2012-08-01 2014-02-12 联想(北京)有限公司 一种语音识别中置信度阈值的调整方法及电子设备
CN103578468B (zh) * 2012-08-01 2017-06-27 联想(北京)有限公司 一种语音识别中置信度阈值的调整方法及电子设备
CN108447488A (zh) * 2017-02-15 2018-08-24 通用汽车环球科技运作有限责任公司 增强语音识别任务完成

Also Published As

Publication number Publication date
US20120053943A1 (en) 2012-03-01
US8296145B2 (en) 2012-10-23
US8055502B2 (en) 2011-11-08
CN101272416B (zh) 2013-02-06
US20080126091A1 (en) 2008-05-29

Similar Documents

Publication Publication Date Title
CN101272416B (zh) 使用拒绝参考的语音拨号
CN101071564B (zh) 把词表外语音与词表内语音区别开的方法
CN101354887B (zh) 用在语音识别中的环境噪声注入方法
US9558745B2 (en) Service oriented speech recognition for in-vehicle automated interaction and in-vehicle user interfaces requiring minimal cognitive driver processing for same
US8639508B2 (en) User-specific confidence thresholds for speech recognition
US8880402B2 (en) Automatically adapting user guidance in automated speech recognition
US8600760B2 (en) Correcting substitution errors during automatic speech recognition by accepting a second best when first best is confusable
US8438028B2 (en) Nametag confusability determination
CN107819929A (zh) 优选表情符号的识别和生成
CN102097096B (zh) 在语音识别后处理过程中使用音调来改进识别精度
CN102693725A (zh) 依赖于文本信息语境的语音识别
CN106816149A (zh) 车辆自动语音识别系统的优先化内容加载
US20100076764A1 (en) Method of dialing phone numbers using an in-vehicle speech recognition system
CN103124318B (zh) 开始免提会议呼叫的方法
US8626506B2 (en) Method and system for dynamic nametag scoring
DE102010034433B4 (de) Verfahren zum Erkennen von Sprache
CN101462522A (zh) 交通工具内根据状况的语音识别
CN107093427A (zh) 不流畅语言的自动语音识别
CN104426998A (zh) 交通工具远程信息处理单元及其操作方法
CN102543077A (zh) 基于语言独立女性语音数据的男性声学模型适应
CN107818788A (zh) 车辆上的远程语音识别
CN102623006A (zh) 阻塞音语音能量到较低频率的映射
US8050928B2 (en) Speech to DTMF generation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: GENERAL MOTORS CORPORATION

Free format text: FORMER OWNER: MOTORS LIQUIDATION CO., LTD.

Effective date: 20100506

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20100506

Address after: Michigan

Applicant after: General Motors Corp.

Address before: Michigan

Applicant before: Motors Liquidation Company

C14 Grant of patent or utility model
GR01 Patent grant