CN100407291C - 根据用于语音识别的呼叫语境动态地和自适应地选择词汇和声学模型 - Google Patents
根据用于语音识别的呼叫语境动态地和自适应地选择词汇和声学模型 Download PDFInfo
- Publication number
- CN100407291C CN100407291C CN038127636A CN03812763A CN100407291C CN 100407291 C CN100407291 C CN 100407291C CN 038127636 A CN038127636 A CN 038127636A CN 03812763 A CN03812763 A CN 03812763A CN 100407291 C CN100407291 C CN 100407291C
- Authority
- CN
- China
- Prior art keywords
- caller
- call
- vocabulary
- acoustic model
- client
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000003044 adaptive effect Effects 0.000 title abstract description 27
- 238000000034 method Methods 0.000 claims description 28
- 230000005540 biological transmission Effects 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 8
- 230000001105 regulatory effect Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 description 38
- 230000004044 response Effects 0.000 description 21
- 230000009471 action Effects 0.000 description 19
- 230000008569 process Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 10
- 230000006978 adaptation Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000013500 data storage Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
根据用于语音识别的呼叫语境为词汇和声学模型的动态的和适应性的选择提供的一种安排。当接收到来自与顾客相关联的呼叫者的呼叫时,发送与呼叫相关联的相关呼叫信息并将其用为检测呼叫语境。根据该呼叫语境选择至少一个词汇集(230)。根据呼叫语境识别与各选择的词汇相关的声学模型(270)。然后将词汇和声学模型用于(150,170)识别来自呼叫者的呼叫的讲话内容。
Description
保留版权
本专利文件包含受版权保护的信息。版权所有人不反对将出现在美国专利和商标局文件或记录中的专利文件或专利传真,但保留其它所有版权。
背景
本发明的一些方面涉及自动语音处理。本发明的其它方面涉及自适应的自动语音识别。
在越来越面向服务的社会中,产品的选择经常是根据与产品同时提供的附加服务决定的。公司为了吸引顾客在提供这些服务中投入了大量资金。例如:为向制造商购买计算机的顾客提供免费电话号码,使顾客能通过电话请求任何技术支持或提出服务问题。为了促进提供的顾客服务,制造商可以建立 个配备了呼叫选择路由能力(例如:将呼叫路由至可用的代理人)、管理相关信息(例如:顾客简介)的后置数据库系统和可以处理不同类型的问题工作人员的呼叫中心。除了呼叫中心之外还可以配置其它可能的系统配置来促进顾客服务。
维持呼叫中心的成本很高。为了在市场中有效地竞争,必须保持顾客服务的低成本。开发了各种节省成本的策略。一种策略是引入自动呼叫路由能力,这样就不必雇佣将呼叫转接到合适代理人的接线员了。该自动呼叫路由帮助自动翻译与呼叫顾客有关的需求(例如:顾客会有付款问题),然后将顾客的呼叫自动路由至专攻特定领域的代理人(例如:负责处理与付款有关的问题的代理人)。
主要有两种技术用来实现自动呼叫路由。一个是提醒呼叫顾客输入编码的选择。例如:呼叫中心会提醒顾客“订货输入1;付款问题输入2;支持输入3”。有了这一实施,顾客可以用诸如电话之类带按键的设备来输入与希望的服务相应的代码。因为此类解决方案需要呼叫用户的努力,所以它可能会使一些顾客感到麻烦,特别是当选择的数量大到顾客在听完提醒之后难以记住每条服务选择的代码时。
另一种技术是通过声音自动呼叫路由。在此情况下,呼叫中心可提醒呼叫顾客说出请求的服务的种类。因为在此情况下顾客不需要记住每个选择的代码,常常会更方便。为了实现这种解决方案,呼叫中心常常配置从呼叫顾客的语音识别出所语单词的自动语音识别系统。然后将识别出的口语单词用于路由呼叫。由于呼叫中心常常处理可能来自许多不同顾客的呼叫,它常常配置不依赖于说话人的自动语音识别系统(与依赖于说话人的系统相反)。不依赖于说话人的自动语音识别系统虽然比依赖于说话人的语音识别更灵活,但准确度较低。
为了让使用不依赖于说话人的系统的识别失误率最小化,可以使用少于标准的词汇。用这种技术,如果呼叫中心在呼叫的特定阶段提醒呼叫顾客指示三种给出的服务选择中的一个,以识别该顾客将会说什么,可以选择仅三个词的一个词汇集用于识别。例如:如果将“信息”、“接线员”和“付款”提供给顾客选择,可以选择仅仅由这三个词组成的词汇集用于识别用户的选择(与含成千上万单词的自然语词汇集成对照)。使用较少的词汇可以缩小识别的范围,从而提高识别的准确度。用此技术在不同呼叫阶段,可以根据基本应用的要求选择不同的词汇集。
在许多真实系统中,即使在呼叫的不同阶段灵活地选择词汇集,识别的准确度常常不够好。特别是在基本词汇集不够少的时候。不依赖于说话人进行自动语音识别是很困难的。即使是较少的词汇,不同的顾客会用非常不同的语音特征说出同一选择。例如:美国本地人和日本人对“接线员”一词的发音就非常不同。
附图的简要说明
以下将参照附图,根据实施例对本发明进行描述。这些实施例都是非限定性实施例,其中同样的标号在整个附图中的几幅图中代表类似的部分,其中:
图1示出根据本发明的一实施例的使用根据呼叫语境自适应地选择的词汇集和声学模型识别呼叫者的语音的架构;
图2示出根据本发明的一实施例的能使其词汇和声学模型适用于呼叫语境的语音识别机制的内部高等级功能块的框图;
图3示出根据本发明的一实施例的可影响词汇和相关声学模型的适应性选择的呼叫语境的示例性相关信息;
图4示出根据本发明的一实施例的词汇和声学模型之间的示例关系;
图5示出根据本发明的一实施例的使用根据呼叫语境自适应地选择的词汇和声学模型识别呼叫者的语音的过程的流程图;
图6为根据本发明的一实施例的词汇自适应机构在呼叫语境的基础上动态地选择合适词汇的过程的示例流程图;
图7为根据本发明的一实施例的声学模型自适应机构在呼叫语境的基础上相对于一词汇集动态地选择合适的声学模型的过程的示例流程图;
图8为根据本发明的一实施例按照语音识别性能自适应地调节语音识别的声学模型的过程的示例流程图。
详细说明
下述过程由合适地编程的通用计算机单独执行或与专用计算机一起执行。可由单个平台或由分布式处理平台实施此过程。另外,可以以专用硬件的形式或以由通用计算机运行的软件的形式实施此过程和功能性。任何在该过程中处理的或因该过程建立的数据都可以存储在任何已有技术中的传统存储器中。作为示例,可以将该数据存储到临时存储器中,例如:给定计算机系统或子系统的RAM中。另外,另选地,可以将该数据存储到较长期的存储设备中,例如:磁盘、可重写的光盘等等。为了这里本发明的目的,计算机可读媒体可包括任何形式的数据存储机构,包括:已有各种存储器技术以及代表这些数据的这些结构的硬件或电路。
在图1所示的架构100示出根据本发明的一实施例的使用根据呼叫语境自适应地选择的词汇和声学模型来识别呼叫者的语音的架构。架构100包括多个呼叫者(呼叫者1 110a、呼叫者2 110b、...、呼叫者n 110c)、话频响应系统130和语音识别机构140。呼叫者通过网络120与话频响应系统130通信。在通过网络120接收到来自呼叫者的呼叫时,话频响应系统130识别与呼叫相关的信息并将其发送至语音识别机构140。语音识别机构140根据该信息自适应地选择一个或多个对呼叫信息和呼叫者合适的词汇和声学模型,然后将它们用于识别呼叫者在呼叫期间说出的口语单词。
呼叫者可以通过有线或无线设备(可以是电话、蜂窝电话或任何诸如个人数字助理(PDA)或个人电脑之类能传送语音(声音)数据或传送从语音数据转换的特征的通信设备)发出呼叫。网络120代表普通网络,该网络可以对应于,但不限于,局域网(LAN)、广域网(WAN)、因特网、无线网络、或专用网。网络120不仅能传送数据还能将与传送相关的有用信息与传送的数据一起中继至话频响应系统130。例如:网络120可包括开关、路由器和能提取与呼叫者相关的信息并将这些信息附在传送的数据上的PBX。
话频响应系统130代表一声音激活系统,它通过根据呼叫者在呼叫期间说的话采取合适的动作来响应来自呼叫者的话。例如:话频响应系统130可以响应设在呼叫中心的交互式话频响应(IVR)系统。当呼叫者向呼叫中心发出呼叫时,该IVR系统可以根据呼叫者说的话自动将呼叫转向在呼叫中心的合适代理人。例如:如果呼叫者询问付款问题,IVR系统应将呼叫接到经过培训的回答付款问题的代理人。如果呼叫者请求查号辅助,IVR系统就将呼叫接至负责帮助呼叫者找到的所要求的电话号码的代理人。
为了按呼叫者的声音请求作出合适的动作,话频响应系统130依靠语音识别机构140识别呼叫者的讲话中正在说什么。为了提高识别准确度,话频响应系统130会主动提醒呼叫者回答某些问题。例如:当接听一个呼叫时,话频响应系统130会要求呼叫者说出给出的几种帮助类型中他/她要寻求的一种(例如:“预订”、“查号辅助”和“付款”)。
来自呼叫者的回答不仅可以用于指导话频响应系统130作出反应还可以用于为语音识别选择合适的词汇。例如:得知呼叫者请求付款服务,话频响应系统130可以进一步提醒呼叫者提供帐号。得到此语境,语音识别机构140会利用数字词汇(仅由数字组成的词汇,如果已知帐号仅由数字组成)来识别呼叫者的回答中将会说什么。可以根据基本应用来选择特定的词汇。例如:如果已知帐户由数字和字母组成,语音识别机构140会利用数字词汇和字母词汇(仅由字母组成)来形成组合的词汇。词汇的选择还会依赖于语言。例如:如果呼叫者只说西班牙语,则必须使用西班牙语词汇。
可以将语音识别中的特定词汇的使用缩小至需要识别的范围,这样既提高了效率又增加了语音识别机构140的准确度。影响语音识别器的性能的另一个方面包括是否知道呼叫者语音的特征。例如,法国人说英语可能带法法语口音。在此情况下,即使选择了合适的词汇,例如:用英语数字词汇识别法国人说的英语数字会导致识别准确度差。在语音识别中,声音模式捕捉在语境中与口语单词相应的音素的声学实现。不同语言中的词汇可对应于非常不同的声学模型。同样,用不同的口音说出特定语言中的词汇(例如:用法国口音说英语数字)也会产生截然不同的声学模型。
语音识别机构140自适应地选择词汇和相关联的声学模型用于识别。它包括词汇自适应机构150、声学模型自适应机构170和自动语音识别器160。词汇自适应机构150根据与特定呼叫及基本应用相关的信息确定合适的词汇。例如:可以根据已知说话人是说英语的(例如:根据有关顾客的已知信息或自动识别结果)以及呼叫者请求与付款问题有关的服务来选择英语数字词汇。在此情况下,选择英语数字词汇用于识别呼叫者回答问题时将说什么,例如:有关他/她的帐号。因此,可以根据应用需要(例如:回答付款问题需要帐号)和有关特定呼叫者的信息(说带有法语口音的英语)来选择合适的词汇。
声学模型自适应机构170根据选择的词汇(由词汇自适应机构150选择的)和与基本呼叫相关的信息自适应地选择声学模型。例如:假设呼入的电话询问与付款有关的问题且已知呼叫者(例如:与呼叫者ID相关联的顾客简介会揭示)是带法语口音的讲英语的人。在此情况下,词汇自适应机构150选择英语数字词汇。根据词汇选择和已知呼叫语境(例如:有关呼叫者的信息),声学模型自适应机构170可以选择描述用法语口音说出的英语数字的语音特性的特征的声学模型。
如果预先不知道呼叫者的语音特征(例如:口音),声学模型适应机构170可以在传输过程中确定适于特定呼叫者的最佳声学模型。例如:声学模型自适应机构170可以在语音识别期间根据自动语音识别器160的识别性能动态地与合适的声学模型相适应。它可以连续地监控语音识别性能并相应地调节要采用的声学模型。然后存储更新的信息并将其与呼叫信息相关联备用。
当合适地选择了词汇和相应的声学模型后,自动语音识别器160用选择的词汇和声学模型对输入的语音(来自呼叫者)进行语音识别。然后将识别结果发送至话频响应系统130,使其能合适地对呼叫者的声音请求作出反应。例如:如果识别出呼叫者的帐号,话频响应系统130可以停止帐户信息并提示呼叫者指示呼叫者请求的付款信息类型。
话频响应系统130的反应会进一步使语音识别机构140适于选择不同词汇和声学模型以备识别。例如:为了帮助自动语音识别器160识别有关付款问题(来自呼叫者)的类型的将来的答案,词汇自适应机构150可以选择由三个与三类付款问题(例如:“余额”、“银行存款”和“最后付款”)相对应的单词组成的词汇。然后声学模型机构170可以相应地选择三单词词汇中与,例如:法语口音,相对应的声学模型。因此,词汇自适应机构150和声学自适应机构170都适于改变呼叫的语境并在给出呼叫语境的情况下,动态地选择最合适的词汇集声学模型。
图2示出根据本发明的一实施例的语音识别机构140的内部高等级功能方框图。词汇自适应机构150包括应用控制器210、呼叫语境检测机构240、词汇选择机构220和多个可用的词汇230。词汇选择机构220根据由呼叫语境检测机构240检测到的呼叫语境和由应用控制器210确定的应用要求选择合适的词汇。
应用控制器210可根据应用的要求指示词汇类型的选择。例如:如果在一特定应用中的帐号仅由数字组成(由应用控制器210确定),则需要数字词汇来识别说出的帐号。如果在一不同应用中的帐号由数字和字母组成,则需要数字词汇和字母词汇来识别说出的帐号。
与呼叫相关联的呼叫语境(与可与呼叫过程中不同的时间点相关联)可根据语言要求指示词汇的选择。例如:如果应用需要数字词汇,则可以选择需要哪种特定语言的数字词汇。这可以根据呼叫语境来确定。例如:如果呼叫者是说法语的人,则需要法语数字词汇。
呼叫语境检测机构240接收从话频响应系统130发送的或从与呼叫者相关联的顾客简介或网络检索到的信息。例如:话频响应系统130可以发送诸如呼叫者标识码(呼叫者ID)或代表呼叫发出区域的区域代码之类的与呼叫相关的信息。呼叫者ID可以用于检索可提供诸如呼叫者的语言偏好之类的进一步信息的相应的顾客简介。呼叫语境检测机构240用这些信息构造出可与合适的词汇或声学模型选择相关的基本呼叫语境。
图3示出根据本发明的一实施例在呼叫语境中可影响词汇和相关声学模型的选择的示例性相关类型的信息。从话频响应系统130发送的信息可对应于包括,例如,区域代码320、交换码330、或呼叫者ID340在内的地理信息310。可以将这些信息与发出呼叫的物理位置相关联,该位置可从区域代码320、交换码330、或可能最准确地从呼叫者ID 340中识别。当发出呼叫,然后通过网络120将呼叫路由至话频响应系统130时最初可以在本地载波上收集地理信息。
从顾客简介检索到的顾客信息可包括:例如,一个或多个相应的呼叫者ID340、帐号360、...、和语言偏好370。用接收到的呼叫者ID(来自话频响应机构130)可以检索到包含在相关联的顾客简介中的信息。例如:有了呼叫者ID,可以从相关的顾客简介中检索语言偏好370。可以通过不同的方式指示语言偏好370。例如:它可以在建立基本帐户时输入或在与顾客打交道的过程中建立。
不同的呼叫者可以使用同一呼叫者ID。顾客简介可以记录各个可能的呼叫者及他们的语言偏好(图3中未示出)。另选地,顾客简介可以区分女性呼叫者380和男性呼叫者390(例如:在一家庭中)及他们相应的语言偏好,因为女性和男性通常呈现出实质上不同的语音特征,从而可以用截然不同的声学模型来识别他们的讲话。
可以将与呼叫相关的地理信息用于获取更多与词汇和声学模型的选择相关的信息。例如:可以将从话频响应系统130发出的呼叫者ID用于检索提供诸如语言偏好之类的进一步的相关信息的相应的顾客简介。可以用检索到的语言偏好370(与根据应用需要所要求的词汇类型相结合)确定合适的词汇(例如:英语数字词汇)和声学模型(法语口音的英语数字的声学模型)。
当没有呼叫者ID时,不可能直接访问顾客简介。因此,不会知道偏好的语言。在这种情况下,可以用区域代码320或交换码330来推断语言偏好。例如:如果区域代码320对应于德克萨斯州的某一地理区域,则可以推断出与德克萨斯人相应的声学模型可能是合适的。如另一例子,在如果交换码330对应的区域(例如:纽约市的唐人街)中大部分人说带特定口音的英语(即,住在纽约市的唐人街的中国人说带中文口音的英语),则可以认为与推断口音相对应的特定声学模型是适合的。
如上所述,声学模型的选择不仅取决于呼叫者的语音特征还取决于词汇的选择。图4示出根据本发明的一实施例的词汇和声学模型之间的示例关系。词汇集230包括多个词汇集(词汇集1 410、词汇集2 420、...、词汇集n 430)。各词汇在不同的语言中实现。例如:数字词汇集420可包括西班牙语数字词汇集440、英语数字词汇集450、...、和日文数字词汇集460。另外,对于给定语言中的各词汇集,可使用多个与不同口音相对应的声学模型。例如:对于英语数字词汇集450,可以将对应于西班口音(470)、英语口音480和法语口音49的声学模型选择成与呼叫者的语音特征相一致。
为了选择合适的声学模型,声学模型自适应机构170可以根据诸如词汇集的选择(由词汇自适应机构150做出的)和包含在呼叫语境中的信息之类的给定信息、或在传输过程中收集到的信息(例如:从呼叫者的语音中检测到的语音特征)作出选择。参见图2,声学模型自适应机构170包括声学模型选择机构260、自适应机构280和一组可用声学模型270。声音选择机构260从呼叫语境检测机构240接收呼叫语境。可以将包含在呼叫语境中的信息用于确定选择合适的声学模型(见图3)。
当接收到的呼叫语境不提供作出选择所需的信息时,自适应机构280会在呼叫过程中从呼叫者的语音中检测可能与选择相关的语音特征(例如:呼叫者是女性还是男性说话人)。还可以将检测到的语音特征用于与可用于选择的顾客简介相关联的信息。例如:如果检测到女性的声音,话频模式选择机构260可使用该信息来看在顾客简介(用例如呼叫语境中的呼叫者ID访问)中是否有与女性说话人相关联的语言偏好。在这种情况下,选择是根据呼叫者的语音特征在传输过程中动态地确定的。
当没有可用于帮助选择声学模型的信息时,达到在传输过程中自适应的不同的示例性另选的例子是首先根据一些标准选择一组声学模型,然后根据语音识别的在线性能精选。例如:给出了英语数字词汇集,声学模型选择机构260可首先根据英语口音、西班牙口音和法语口音选择声学模型。然后将所有初选的声学模型馈送至自动语音识别器160用于语音识别(例如:对不同口音作平行语音识别)。在识别期间产生性能测量值(例如:识别的得分)并将其发送至自适应机构280以估计初选声学模型的适合度。不再考虑导致较差识别性能的声学模型用于此呼叫的语境中的进一步识别。这种在线适应可以持续到识别出最合适的声学模型为止。
可以将最终的在线适应结果(选择调整达到最佳语音识别性能的声学模型)用于更新基本顾客简介。例如:可以用在线适应结果以及相关联的语音特征来更新原来的没有指示任何语言偏好和口音的基本顾客简介。例如:家庭(对应于呼叫者ID)中的女性说话人(语音特征)具有法语口音。可以在将来将这些顾客简介中的更新过的信息用作与特定类型的说话人相对的默认选择。
图5示出根据本发明的一实施例的使用根据呼叫语境自适应地选择的词汇集和声学模型识别呼叫者的语音的过程的流程图。首先在动作510接收呼叫。然后在动作520将与呼叫相关的信息从话频响应系统130发送至语音识别机构140。在动作530检测呼叫语境并将其用于在动作540选择合适的词汇。根据选择的词汇和检测到的呼叫语境,在动作550识别合适的声学模型。在动作560,自动语音识别器160用这些选择的词汇的声学模型对呼叫者的语音进行语音识别。
图6为词汇自适应机构160根据本发明的一实施例在呼叫语境的基础上动态地选择合适词汇的过程的示例流程图。在动作610接收与呼叫相关的信息。根据呼叫信息,可以在动作620检索顾客简介。在动作630从呼叫信息和顾客简介中检测到呼叫语境并相应地在动作640选择合适的词汇。然后在步骤650将选择的词汇与呼叫语境一起发送至声学模型自适应机构170。
图7为根据本发明的实施例声学模型自适应机构在呼叫语境的基础上相对于一词汇集动态地选择合适的声学模型的过程的示例流程图。首先在动作710接收呼叫语境和选择的词汇。在动作720使用呼叫语境分析相关的顾客信息。必要时,在动作730确定呼叫者的语音特征。在步骤740选择适于给定词汇和呼叫语境(包括在传输过程中检测到的语音特征)的声学模型。
图8为根据本发明的一实施例按照语音识别性能在传输过程中自适应地调节词汇集和语音识别的声学模型的过程的示例流程图。首先在步骤810检索自适应地选择的词汇集和声学模型,然后在动作820将其用于识别来自呼叫者的语音。在识别过程中生成性能测量值,并在步骤830将其用于评估识别性能。如果评估指示在动作840确定的识别期间达到高置信度,则继续将当前的词汇集和声学模型用于正在进行的讲话。否则,在动作850重新选择可提高识别性能的词汇和声学模型。将与重新选择相关的信息(例如:新选择的词汇和声学模型)用于更新基本的顾客简介。该模型自适应过程可以持续到通话结束。
当参照某些所示实施例描述本发明时,所用的词语是描述的词语而非限定的词语。在此方面不偏离本发明的范围和精神的情况下,可以在所附权利要求的范围内作出修改。虽然本发明是参照特定结构、动作和材料进行描述的,本发明不限于所揭示的细节,而是可以以各种形式得以体现,其中一些可与揭示的实施例中的那些非常不同,并扩展到所附权利要求范围内的所有等同的结构、动作和材料。
Claims (7)
1.一种方法,其特征在于,包括:
从与顾客相关联的呼叫者接收呼叫;
发送与该呼叫相关联的呼叫信息;
根据所述呼叫信息检测与呼叫相关联的呼叫语境;
根据所述呼叫语境选择至少一个词汇集,所述至少一个词汇集包括特定语言的多个单词;
相对于基于呼叫语境的特定词汇集识别至少一个表示特定口音的声学模型;及
用至少一个词汇集和至少一个声学模型识别呼叫的语音内容。
2.如权利要求1所述的方法,其特征在于,所述呼叫语境至少包括下列中的一些:
与呼叫相关联的地理信息,包括:
表示呼叫发出的地理区域的区域代码,
表示呼叫发出的地理区域的交换码,或
表示呼叫者发出呼叫的电话的呼叫者标识码;
与顾客相关联的顾客信息,包括:
表示顾客发出呼叫所用帐户的帐号,
与该帐户相关联的呼叫者标识码;
顾客特征;或
用于评估声音特征的在传输过程中的声音采样。
3.如权利要求2所述的方法,其特征在于,所述与顾客相关联的顾客特征至少包括下列中的一些:
至少一个与顾客相关联的呼叫者的性别;
至少一个呼叫者偏好的零种或多种通信语言;或
相对于至少一个呼叫者的偏好语言的讲话口音。
4.如权利要求3所述的方法,其特征在于,所述检测呼叫语境至少包括下列中的一些:
从与呼叫相关联的相关呼叫信息中提取呼叫的地理信息;
从与顾客发出呼叫所用的帐号相对应的顾客简介中标识顾客信息;或
根据顾客的语音识别顾客的特征。
5.如权利要求1所述的方法,其特征在于,还包括:
评估所述识别的性能;
根据所述评估重新选择与所述识别的较佳性能相应的词汇集和声学模型中的至少一些。
6.一种用于自适应地调节词汇集和声学模型选择的方法,其特征在于,包括:
用根据与呼叫者的呼叫相关的呼叫语境选择的至少一个词汇集和至少一个相关联的声学模型对呼叫者的语音进行语音识别;
对至少一个词汇集及与其相关联的每一个声学模型的语音识别的性能进行评估;和
根据评估的语音识别性能重新选择更新的词汇集或更新的声学模型,以使用更新的词汇集和更新的声学模型进行语音识别。
7.如权利要求6所述的方法,其特征在于,还包括:
根据更新的声学模型更新与呼叫者相关联的顾客简介。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/115,936 US20030191639A1 (en) | 2002-04-05 | 2002-04-05 | Dynamic and adaptive selection of vocabulary and acoustic models based on a call context for speech recognition |
US10/115,936 | 2002-04-05 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1659624A CN1659624A (zh) | 2005-08-24 |
CN100407291C true CN100407291C (zh) | 2008-07-30 |
Family
ID=28673872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN038127636A Expired - Fee Related CN100407291C (zh) | 2002-04-05 | 2003-03-26 | 根据用于语音识别的呼叫语境动态地和自适应地选择词汇和声学模型 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20030191639A1 (zh) |
EP (1) | EP1497825A1 (zh) |
CN (1) | CN100407291C (zh) |
AU (1) | AU2003218398A1 (zh) |
TW (1) | TWI346322B (zh) |
WO (1) | WO2003088211A1 (zh) |
Families Citing this family (93)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060143007A1 (en) * | 2000-07-24 | 2006-06-29 | Koh V E | User interaction with voice information services |
US20050197405A1 (en) * | 2000-11-07 | 2005-09-08 | Li Chiang J. | Treatment of hematologic tumors and cancers with beta-lapachone, a broad spectrum anti-cancer agent |
US7389228B2 (en) * | 2002-12-16 | 2008-06-17 | International Business Machines Corporation | Speaker adaptation of vocabulary for speech recognition |
ATE386318T1 (de) * | 2003-03-01 | 2008-03-15 | Robert E Coifman | Verbesserung der transkriptionsgenauigkeit von spracherkennungssoftware |
CA2486125C (en) * | 2003-10-30 | 2011-02-08 | At&T Corp. | A system and method of using meta-data in speech-processing |
CA2486128C (en) * | 2003-10-30 | 2011-08-23 | At&T Corp. | System and method for using meta-data dependent language modeling for automatic speech recognition |
WO2005050958A2 (en) * | 2003-11-14 | 2005-06-02 | Voice Signal Technologies, Inc. | Installing language modules in a mobile communication device |
US20050113021A1 (en) * | 2003-11-25 | 2005-05-26 | G Squared, Llc | Wireless communication system for media transmission, production, recording, reinforcement and monitoring in real-time |
GB0328035D0 (en) * | 2003-12-03 | 2004-01-07 | British Telecomm | Communications method and system |
US8050918B2 (en) * | 2003-12-11 | 2011-11-01 | Nuance Communications, Inc. | Quality evaluation tool for dynamic voice portals |
US7660715B1 (en) * | 2004-01-12 | 2010-02-09 | Avaya Inc. | Transparent monitoring and intervention to improve automatic adaptation of speech models |
DE102004012148A1 (de) * | 2004-03-12 | 2005-10-06 | Siemens Ag | Spracherkennung unter Berücksichtigung einer geografischen Position |
US8392193B2 (en) * | 2004-06-01 | 2013-03-05 | Verizon Business Global Llc | Systems and methods for performing speech recognition using constraint based processing |
US7873149B2 (en) | 2004-06-01 | 2011-01-18 | Verizon Business Global Llc | Systems and methods for gathering information |
US8036893B2 (en) * | 2004-07-22 | 2011-10-11 | Nuance Communications, Inc. | Method and system for identifying and correcting accent-induced speech recognition difficulties |
US7783028B2 (en) * | 2004-09-30 | 2010-08-24 | International Business Machines Corporation | System and method of using speech recognition at call centers to improve their efficiency and customer satisfaction |
EP1844464B1 (en) * | 2005-02-03 | 2013-06-26 | Nuance Communications, Inc. | Methods and apparatus for automatically extending the voice-recognizer vocabulary of mobile communications devices |
US7827032B2 (en) | 2005-02-04 | 2010-11-02 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
US7865362B2 (en) | 2005-02-04 | 2011-01-04 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US8200495B2 (en) | 2005-02-04 | 2012-06-12 | Vocollect, Inc. | Methods and systems for considering information about an expected response when performing speech recognition |
US7949533B2 (en) * | 2005-02-04 | 2011-05-24 | Vococollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US7895039B2 (en) | 2005-02-04 | 2011-02-22 | Vocollect, Inc. | Methods and systems for optimizing model adaptation for a speech recognition system |
US20060282265A1 (en) * | 2005-06-10 | 2006-12-14 | Steve Grobman | Methods and apparatus to perform enhanced speech to text processing |
US8654937B2 (en) * | 2005-11-30 | 2014-02-18 | International Business Machines Corporation | System and method for call center agent quality assurance using biometric detection technologies |
JP4905361B2 (ja) * | 2006-02-06 | 2012-03-28 | 日本電気株式会社 | 音声認識装置、音声認識方法、及び音声認識用プログラム |
CN101390156B (zh) * | 2006-02-27 | 2011-12-07 | 日本电气株式会社 | 标准模式适应装置、标准模式适应方法 |
US7653543B1 (en) | 2006-03-24 | 2010-01-26 | Avaya Inc. | Automatic signal adjustment based on intelligibility |
US8510109B2 (en) | 2007-08-22 | 2013-08-13 | Canyon Ip Holdings Llc | Continuous speech transcription performance indication |
US8234120B2 (en) * | 2006-07-26 | 2012-07-31 | Nuance Communications, Inc. | Performing a safety analysis for user-defined voice commands to ensure that the voice commands do not cause speech recognition ambiguities |
WO2008021461A2 (en) * | 2006-08-15 | 2008-02-21 | Intellisist, Inc. | Managing a dynamic call flow during automated call processing |
US7962342B1 (en) | 2006-08-22 | 2011-06-14 | Avaya Inc. | Dynamic user interface for the temporarily impaired based on automatic analysis for speech patterns |
US7925508B1 (en) | 2006-08-22 | 2011-04-12 | Avaya Inc. | Detection of extreme hypoglycemia or hyperglycemia based on automatic analysis of speech patterns |
US8938392B2 (en) * | 2007-02-27 | 2015-01-20 | Nuance Communications, Inc. | Configuring a speech engine for a multimodal application based on location |
US9208783B2 (en) | 2007-02-27 | 2015-12-08 | Nuance Communications, Inc. | Altering behavior of a multimodal application based on location |
US9973450B2 (en) | 2007-09-17 | 2018-05-15 | Amazon Technologies, Inc. | Methods and systems for dynamically updating web service profile information by parsing transcribed message strings |
TWI349266B (en) * | 2007-04-13 | 2011-09-21 | Qisda Corp | Voice recognition system and method |
US8041344B1 (en) | 2007-06-26 | 2011-10-18 | Avaya Inc. | Cooling off period prior to sending dependent on user's state |
US20130070911A1 (en) * | 2007-07-22 | 2013-03-21 | Daniel O'Sullivan | Adaptive Accent Vocie Communications System (AAVCS) |
US8255224B2 (en) | 2008-03-07 | 2012-08-28 | Google Inc. | Voice recognition grammar selection based on context |
US8571849B2 (en) * | 2008-09-30 | 2013-10-29 | At&T Intellectual Property I, L.P. | System and method for enriching spoken language translation with prosodic information |
JP5377430B2 (ja) * | 2009-07-08 | 2013-12-25 | 本田技研工業株式会社 | 質問応答データベース拡張装置および質問応答データベース拡張方法 |
KR20110006004A (ko) * | 2009-07-13 | 2011-01-20 | 삼성전자주식회사 | 결합인식단위 최적화 장치 및 그 방법 |
US8442827B2 (en) * | 2010-06-18 | 2013-05-14 | At&T Intellectual Property I, L.P. | System and method for customized voice response |
US8417530B1 (en) | 2010-08-20 | 2013-04-09 | Google Inc. | Accent-influenced search results |
WO2012134997A2 (en) * | 2011-03-25 | 2012-10-04 | Educational Testing Service | Non-scorable response filters for speech scoring systems |
US9202465B2 (en) * | 2011-03-25 | 2015-12-01 | General Motors Llc | Speech recognition dependent on text message content |
US9704413B2 (en) | 2011-03-25 | 2017-07-11 | Educational Testing Service | Non-scorable response filters for speech scoring systems |
US9093061B1 (en) * | 2011-04-14 | 2015-07-28 | Canyon IP Holdings, LLC. | Speech recognition with hierarchical networks |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US9711167B2 (en) * | 2012-03-13 | 2017-07-18 | Nice Ltd. | System and method for real-time speaker segmentation of audio interactions |
US9635067B2 (en) | 2012-04-23 | 2017-04-25 | Verint Americas Inc. | Tracing and asynchronous communication network and routing method |
US20130282844A1 (en) | 2012-04-23 | 2013-10-24 | Contact Solutions LLC | Apparatus and methods for multi-mode asynchronous communication |
US20130325453A1 (en) | 2012-05-31 | 2013-12-05 | Elwha LLC, a limited liability company of the State of Delaware | Methods and systems for speech adaptation data |
US9899040B2 (en) * | 2012-05-31 | 2018-02-20 | Elwha, Llc | Methods and systems for managing adaptation data |
US10431235B2 (en) | 2012-05-31 | 2019-10-01 | Elwha Llc | Methods and systems for speech adaptation data |
US8843371B2 (en) * | 2012-05-31 | 2014-09-23 | Elwha Llc | Speech recognition adaptation systems based on adaptation data |
US9495966B2 (en) | 2012-05-31 | 2016-11-15 | Elwha Llc | Speech recognition adaptation systems based on adaptation data |
US9899026B2 (en) | 2012-05-31 | 2018-02-20 | Elwha Llc | Speech recognition adaptation systems based on adaptation data |
US9966064B2 (en) * | 2012-07-18 | 2018-05-08 | International Business Machines Corporation | Dialect-specific acoustic language modeling and speech recognition |
US9093072B2 (en) * | 2012-07-20 | 2015-07-28 | Microsoft Technology Licensing, Llc | Speech and gesture recognition enhancement |
US9734819B2 (en) * | 2013-02-21 | 2017-08-15 | Google Technology Holdings LLC | Recognizing accented speech |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
TWI502582B (zh) * | 2013-04-03 | 2015-10-01 | Chung Han Interlingua Knowledge Co Ltd | 服務點之語音客服系統 |
US9530103B2 (en) * | 2013-04-04 | 2016-12-27 | Cypress Semiconductor Corporation | Combining of results from multiple decoders |
US20140372118A1 (en) * | 2013-06-17 | 2014-12-18 | Speech Morphing Systems, Inc. | Method and apparatus for exemplary chip architecture |
US9305554B2 (en) * | 2013-07-17 | 2016-04-05 | Samsung Electronics Co., Ltd. | Multi-level speech recognition |
US9299340B2 (en) * | 2013-10-07 | 2016-03-29 | Honeywell International Inc. | System and method for correcting accent induced speech in an aircraft cockpit utilizing a dynamic speech database |
US10565984B2 (en) | 2013-11-15 | 2020-02-18 | Intel Corporation | System and method for maintaining speech recognition dynamic dictionary |
DE112013007617B4 (de) * | 2013-11-20 | 2020-06-18 | Mitsubishi Electric Corporation | Spracherkennungsvorrichtung und Spracherkennungsverfahren |
US20150149169A1 (en) * | 2013-11-27 | 2015-05-28 | At&T Intellectual Property I, L.P. | Method and apparatus for providing mobile multimodal speech hearing aid |
US11386886B2 (en) * | 2014-01-28 | 2022-07-12 | Lenovo (Singapore) Pte. Ltd. | Adjusting speech recognition using contextual information |
AU2015213817B2 (en) | 2014-02-06 | 2020-05-21 | Contact Solutions LLC | Systems, apparatuses and methods for communication flow modification |
CN103956169B (zh) * | 2014-04-17 | 2017-07-21 | 北京搜狗科技发展有限公司 | 一种语音输入方法、装置和系统 |
US9858920B2 (en) * | 2014-06-30 | 2018-01-02 | GM Global Technology Operations LLC | Adaptation methods and systems for speech systems |
KR101619262B1 (ko) * | 2014-11-14 | 2016-05-18 | 현대자동차 주식회사 | 음성인식 장치 및 방법 |
US9166881B1 (en) | 2014-12-31 | 2015-10-20 | Contact Solutions LLC | Methods and apparatus for adaptive bandwidth-based communication management |
US10325590B2 (en) * | 2015-06-26 | 2019-06-18 | Intel Corporation | Language model modification for local speech recognition systems using remote sources |
WO2017024248A1 (en) | 2015-08-06 | 2017-02-09 | Contact Solutions LLC | Tracing and asynchronous communication network and routing method |
US10008199B2 (en) | 2015-08-22 | 2018-06-26 | Toyota Motor Engineering & Manufacturing North America, Inc. | Speech recognition system with abbreviated training |
US10063647B2 (en) | 2015-12-31 | 2018-08-28 | Verint Americas Inc. | Systems, apparatuses, and methods for intelligent network communication and engagement |
US9972313B2 (en) * | 2016-03-01 | 2018-05-15 | Intel Corporation | Intermediate scoring and rejection loopback for improved key phrase detection |
CN106205622A (zh) * | 2016-06-29 | 2016-12-07 | 联想(北京)有限公司 | 信息处理方法及电子设备 |
US10714121B2 (en) | 2016-07-27 | 2020-07-14 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
EP3622506B1 (en) * | 2017-05-08 | 2023-09-27 | Telefonaktiebolaget LM Ericsson (publ) | Asr adaptation |
US20190019516A1 (en) * | 2017-07-14 | 2019-01-17 | Ford Global Technologies, Llc | Speech recognition user macros for improving vehicle grammars |
US10468019B1 (en) * | 2017-10-27 | 2019-11-05 | Kadho, Inc. | System and method for automatic speech recognition using selection of speech models based on input characteristics |
CN108198552B (zh) * | 2018-01-18 | 2021-02-02 | 深圳市大疆创新科技有限公司 | 一种语音控制方法及视频眼镜 |
EP3575202A1 (en) * | 2018-06-01 | 2019-12-04 | GE Aviation Systems Limited | Systems and methods for secure commands in vehicles |
CN108777142A (zh) * | 2018-06-05 | 2018-11-09 | 上海木木机器人技术有限公司 | 一种基于机场环境的语音交互识别方法及语音交互机器人 |
US10720149B2 (en) | 2018-10-23 | 2020-07-21 | Capital One Services, Llc | Dynamic vocabulary customization in automated voice systems |
CN109672786B (zh) * | 2019-01-31 | 2021-08-20 | 北京蓦然认知科技有限公司 | 一种来电接听方法及装置 |
US10785171B2 (en) | 2019-02-07 | 2020-09-22 | Capital One Services, Llc | Chat bot utilizing metaphors to both relay and obtain information |
CN112788184A (zh) * | 2021-01-18 | 2021-05-11 | 商客通尚景科技(上海)股份有限公司 | 根据语音输入连接呼叫中心的方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5553119A (en) * | 1994-07-07 | 1996-09-03 | Bell Atlantic Network Services, Inc. | Intelligent recognition of speech signals using caller demographics |
US6049594A (en) * | 1995-11-17 | 2000-04-11 | At&T Corp | Automatic vocabulary generation for telecommunications network-based voice-dialing |
US6125341A (en) * | 1997-12-19 | 2000-09-26 | Nortel Networks Corporation | Speech recognition system and method |
CN1292965A (zh) * | 1998-05-05 | 2001-04-25 | 国际商业机器公司 | 用于在层次数据结构中保持应用偏好的客户/服务器系统 |
CN1311487A (zh) * | 2000-02-29 | 2001-09-05 | 国际商业机器公司 | 用于自动把语境信息和多媒体资源相关联的方法和设备 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2524472B2 (ja) * | 1992-09-21 | 1996-08-14 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 電話回線利用の音声認識システムを訓練する方法 |
US5897616A (en) * | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
US6614885B2 (en) * | 1998-08-14 | 2003-09-02 | Intervoice Limited Partnership | System and method for operating a highly distributed interactive voice response system |
US6442519B1 (en) * | 1999-11-10 | 2002-08-27 | International Business Machines Corp. | Speaker model adaptation via network of similar users |
US20020032591A1 (en) * | 2000-09-08 | 2002-03-14 | Agentai, Inc. | Service request processing performed by artificial intelligence systems in conjunctiion with human intervention |
US20020138274A1 (en) * | 2001-03-26 | 2002-09-26 | Sharma Sangita R. | Server based adaption of acoustic models for client-based speech systems |
-
2002
- 2002-04-05 US US10/115,936 patent/US20030191639A1/en not_active Abandoned
-
2003
- 2003-03-26 AU AU2003218398A patent/AU2003218398A1/en not_active Abandoned
- 2003-03-26 EP EP03714396A patent/EP1497825A1/en not_active Withdrawn
- 2003-03-26 CN CN038127636A patent/CN100407291C/zh not_active Expired - Fee Related
- 2003-03-26 WO PCT/US2003/009212 patent/WO2003088211A1/en not_active Application Discontinuation
- 2003-04-03 TW TW092107596A patent/TWI346322B/zh not_active IP Right Cessation
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5553119A (en) * | 1994-07-07 | 1996-09-03 | Bell Atlantic Network Services, Inc. | Intelligent recognition of speech signals using caller demographics |
US6049594A (en) * | 1995-11-17 | 2000-04-11 | At&T Corp | Automatic vocabulary generation for telecommunications network-based voice-dialing |
US6125341A (en) * | 1997-12-19 | 2000-09-26 | Nortel Networks Corporation | Speech recognition system and method |
CN1292965A (zh) * | 1998-05-05 | 2001-04-25 | 国际商业机器公司 | 用于在层次数据结构中保持应用偏好的客户/服务器系统 |
CN1311487A (zh) * | 2000-02-29 | 2001-09-05 | 国际商业机器公司 | 用于自动把语境信息和多媒体资源相关联的方法和设备 |
Also Published As
Publication number | Publication date |
---|---|
US20030191639A1 (en) | 2003-10-09 |
WO2003088211A1 (en) | 2003-10-23 |
TW200305140A (en) | 2003-10-16 |
EP1497825A1 (en) | 2005-01-19 |
TWI346322B (en) | 2011-08-01 |
AU2003218398A1 (en) | 2003-10-27 |
CN1659624A (zh) | 2005-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100407291C (zh) | 根据用于语音识别的呼叫语境动态地和自适应地选择词汇和声学模型 | |
US9787830B1 (en) | Performing speech recognition over a network and using speech recognition results based on determining that a network connection exists | |
US8494848B2 (en) | Methods and apparatus for generating, updating and distributing speech recognition models | |
EP0735736B1 (en) | Method for automatic speech recognition of arbitrary spoken words | |
US6944594B2 (en) | Multi-context conversational environment system and method | |
KR100383352B1 (ko) | 음성작동서비스 | |
US20080019496A1 (en) | Method And System For Providing Directory Assistance | |
JP4438014B1 (ja) | 有害顧客検知システム、その方法及び有害顧客検知プログラム | |
US20090304161A1 (en) | system and method utilizing voice search to locate a product in stores from a phone | |
US8135589B1 (en) | Performing speech recognition over a network and using speech recognition results | |
US20050141680A1 (en) | Telephone communication with silent response feature | |
GB2317782A (en) | Voice dialling server for branch exchange telephone systems | |
JP2008015439A (ja) | 音声認識システム | |
CN110765242A (zh) | 一种客服信息的提供方法,装置及系统 | |
JP2005109782A (ja) | Ctiサーバ、記録媒体、および電話対応支援システム。 | |
US8213966B1 (en) | Text messages provided as a complement to a voice session | |
KR20010070771A (ko) | 음성 인식을 이용한 자동 교환 시스템 및 방법 | |
KR100349675B1 (ko) | 음성인식시스템에서 인식시간을 이용한 부가정보 안내 방법 | |
JPH03157696A (ja) | 音声応答認識方式 | |
EP1294164A1 (fr) | Navigation adaptative dans un système vocal interactif | |
MXPA97005352A (en) | Automatic generation of vocabulary for dialing via voice based on telecommunication network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20080730 Termination date: 20160326 |