CN101542591A

CN101542591A - 用于提供语音识别的方法和系统

Info

Publication number: CN101542591A
Application number: CNA2007800431458A
Authority: CN
Inventors: 戴维·桑内鲁德
Original assignee: Verizon Business Network Services Inc
Current assignee: Verizon Business Network Services Inc
Priority date: 2006-09-25
Filing date: 2007-09-25
Publication date: 2009-09-23
Anticipated expiration: 2027-09-25
Also published as: US8190431B2; EP2104935A1; US8457966B2; US20080077409A1; WO2009064281A1; US20120143609A1; CN101542591B; HK1132831A1; EP2104935A4

Abstract

公开了一种用于提供语音识别的方法。基于由用户所提供的数据来从用户获取名字。向用户询问用户的名字。接收来自用户的响应于该询问的第一音频输入。使用名字语法数据库将语音识别应用于第一音频输入，以输出被识别的名字。确定该被识别的名字是否与所获取的名字匹配。如果确定没有匹配，则向用户重新询问用户的名字，以用于第二音频输入。使用具有少于名字语法数据库的条目的信任度数据库将语音识别应用于第二音频输入。

Description

用于提供语音识别的方法和系统

相关申请

本申请要求2006年9月25日所提交的美国专利申请序号11/526,395(代理人案号COS06005)的优先权，其内容通过引用并入本文中。

背景技术

对于收集和向用户提供信息二者而言，语音识别在通信系统中起重要的作用。传统地，交互式话音应答(IVR)系统已经依赖于双音多频(DTMF)和语音输入的组合来获得并且处理信息。然而，对于需要输入大量数字、字母和字的复杂事务而言，IVR系统的思想比其概念更加吸引人。即，对于复杂的数据条目而言，典型的DTMF接口已证明是无法行得通的缓慢。比如，组织变得总是依赖于基于话音的系统来扩大DTMF输入。不幸的是，基于话音的系统已经引入了与口语和人类话语的无穷变化的错综复杂相关的新的、更具有挑战性的问题。因此，在将口语话语转换为对应的文本字符串或其它等价符号表示的方面上，实现语音识别技术的IVR系统已经证明是不可接受的不准确。

因此，存在用于提供语音识别的改进的方法的需要。

附图说明

通过示例的方法而不是限制的方法在附图的图中图示本发明，并且其中相同的附图标记指的是类似的元件，并且在附图中：

图1是图示根据本发明实施例的能够提供语音识别来获得名字的通信系统的示图；

图2是根据本发明实施例的示例性交互式话音应答(IVR)单元的示图；

图3是根据本发明实施例的语音识别系统的示图；

图4A和图4B是根据本发明实施例的语音识别过程的流程图；

图5是能够被用于实现本发明各种实施例的计算机系统的示图。

具体实施方式

描述了一种用于提供语音识别的装置、方法和软件。在下面的描述中，为了解释的目的，阐明了许多特定细节，以便于提供本发明的详尽理解。然而，对于一个本领域中普通技术人员来说，显然不使用这些特定细节或使用等价布置也可以实践本发明。在其它实例中，为了避免不必要地混淆本发明，以框图的形式示出熟知的结构和设备。

虽然针于代名词(例如，名字)的语音识别来描述本发明的各种实施例，但是认为这些实施例对使用等价接口和操作的广义语音识别具有适用性。

图1是图示根据本发明实施例的能够提供语音识别来获得名字的通信系统的示图。通信系统100包括利用名字语法数据库103、信任度数据库105的语音识别系统(或逻辑)101。语音识别系统101利用交互式话音应答(IVR)单元(或系统)107来操作，其通过电话网络111从站109接收话音呼叫。电话网络111能够是电路切换系统或分组话音网络(例如，网际协议话音(VoIP)网络)。分组话音网络111能够由支持麦克风和扬声器功能的适当的站109——例如，计算机、工作站或其它设备(例如，个人数字助理(PDA)等)来访问。除了其它功能，IVR系统107采集并且向用户提供数据。图2中更加充分地解释了IVR系统107。由数据存储库113支持数据采集。

为了说明的目的，针于表示名字的音频信号的识别来描述语音识别系统101。用户的名字可论证地是最日常收集的、普遍使用的信息片段。不幸的是，获得用户的名字对于利用双音多频(DTMF)输入接口的常规系统来说是一项困难的任务。例如，随着包含在个人的名字中的字母数量的增加，DTMF接口变得日益地不实用。而且，很多电话设计(特别是蜂窝电话)需要将扬声器和拨号键盘组建在一起，使得用户可以方便地使用拨号键盘并且接听话音询问。因此，语音识别已经被引入以补充DTMF接口。

传统的语音识别接口高度地取决于语法内容和普通的发音规则来实现准确的转换结果。然而，对于用户名字(或任意固有名词)，因为这些类型的字通常不具有能够被用以在可能的转换选择中进行区分的显著的语法内容，所以这些技术证明是不充分的。另外，由于固有名词包含不成比例的大量非标准发音变化，所以即使有的话，普通的发音规则也提供极小的有利价值。因此，不仅通过内容的损失也通过音素本身之间的听觉差别来例示语音的变化性。

另外，独立于被转换的言语类型的一组特有的复杂性妨碍了语音识别技术。例如，由环境背景噪声、麦克风位置以及转换器质量所引入的声音的变化性增加了转换准确度的损失。此外，从物理和情感状态、语速、话音质量和强度、社会语言背景、方言以及声道大小和形状引起的扬声器的变化性也造成识别准确度的损失。

返回图1，以下针于图3更充分地描述的语音识别系统101能够支持包括与人类用户的交互的各种应用，诸如，呼叫流程处理、目录辅助、商务事务(例如，航空票务、股票代理、银行业务、订购等)、浏览/采集信息等。

虽然没有示出，但是IVR系统107能够经由数据网络来访问数据存储库113，该数据网络能够包括本地区域网络(LAN)、广域网络(WAN)、蜂窝或卫星网络、因特网等。另外，那些本领域中普通技术人员将意识到的是，数据存储库113能够被直接链接到或被包括在IVR系统107内。比如，数据存储库113能够是将个性化信息与用户名字相关联的任意类型的信息存储(例如，数据库、服务器、计算机等)。该个性化信息能够包括出生日期、账号(例如，银行、签帐卡、计费代码等)、社会安全号码(SSN)、地址(例如，工作、家庭、网际协议(IP)、介质访问控制(MAC)等)、电话列表(家庭、工作、蜂窝电话等)、以及例如生物识别码、声印(voice print)等任意其它形式的唯一可识别数据的任意一个或其组合。

在本发明的一个实施例中，将数据存储库113配置为允许使用一个或多个以上所列出的个性化信息形式来反向检索用户的名字。此外，能够由任意资源，包括第三方供应商，来自动更新并且维持数据存储库113。

虽然将语音识别系统101示作独立的组件，但是可以认为，语音识别系统101能够与IVR系统107集成。

图2是根据本发明实施例的示例性交互式话音应答(IVR)系统的示图。在该示例中，IVR系统107包括电话接口201、资源管理器203、以及话音浏览器205。IVR系统107利用电话接口201用于通过电话网络111与一个或多个用户进行通信。在可选实施例中，根据用户的访问方法来利用其它接口。此外，虽然将IVR系统示作独立的、分布的实体，但是IVR系统107能够将一些或所有的功能并入单一的网络元件。

如图所示，资源管理器203提供各种语音资源，诸如验证系统207、自动语音识别器(ASR)209、和文本到语音(TTS)引擎211。TTS引擎211将来自话音浏览器205的文本信息(数字信号)转换为语音(模拟信号)，用于向用户进行回放。TTS引擎211通过前端输入和后端输出来完成该转变。该输入通过文本标准化、预处理和/或断词将纯文本转换为其等价的写出字。随后，字被指派标音，并且被划分为韵律单位，例如，短语、分句和/或句子。使用该标音和韵律安排的组合，前端输入向后端输出传送符号语言表示，以用于合成。基于期望的自然性或可理解性的级别，后端输出能够通过下面合成过程的任意一个来生成语音波形：连续式、单位选择、双音、域指定、共振峰、音韵(articulatory)、隐藏式马可夫模型(HMM)以及其它类似方法，以及其任意的混合组合。通过合成过程，后端输出生成向用户传送的实际声音输出。

ASR 209能够有效地作为语音识别系统101，或者替换地为对语音识别系统101的接口；具体的实施例取决于应用。ASR 209有效地将用户的口语(用模拟信号表示)转换为文本或等价的符号形式(数字信号)，用于由话音浏览器205和/或验证系统207进行处理。

作为TTS引擎211的替代或除了TTS引擎211，话音浏览器205能够向用户播放预先记录的声音文件。根据本发明的一个实施例，资源管理器203能够包括模拟到数字和数字到模拟转换器(未示出)，用于例如在站109和话音浏览器205之间发送信号。另外，在可选实施例中，话音浏览器205可以包含实现以上的语音识别和合成逻辑(未示出)，从而从用户的口语话语提取含义，并且直接产生文本的声学演绎。

验证系统能够根据期望的鉴权方法来被链接到电话接口201、ASR209或这两个组件。因此，验证系统207需要用户名、密码、代码或其它唯一身份识别以用于限制对话音浏览器205的访问。以这种方式，需要用户使用通过ASR 209所传送的口语话语或经由电话接口201所传送的DTMF信号来提供该信息。可替换地，通过基于从电话接口201所传送的用户的声印来肯定地识别并且筛选用户，验证系统207能够提供无侵入安全级别。因此，在任意一个实施例中，验证系统207能够保持敏感事务安全。

话音浏览器205例如在呼叫和各种网络应用之间起网关作用。话音浏览器205能够使用麦克风、小键盘和扬声器，而不是常规基于网络的系统的键盘、鼠标和监视器。话音浏览器205处理驻留在服务器(未示出)上的诸如话音扩展标记语言(VoiceXML)、语音应用语言表标签(SALT)、超文本标记语言(HTML)之类的标记语言页、以及其它，诸如用于基于无线应用协议(WAP)的小区电话应用的无线标记语言(WML)和用于手持设备的万维网(W3)平台。由于支持了宽泛级别的标记语言，因此能够将话音浏览器205配置为包括VoiceXML兼容的浏览器、SALT兼容的浏览器、HTML兼容的浏览器、WML兼容的浏览器或任意其它标记语言兼容的浏览器，用于与用户进行通信。正如标准网页服务和应用一样，话音浏览器205能够利用标准化的网络基础设施，即，超文本传输协议(HTTP)、cookies、网页缓存、统一资源定位(URL)、安全HTTP等，用以建立并且保持连接。

图3是根据本发明实施例的语音识别系统的示图。语音识别系统101能够提供来自用户的依赖和/或独立于扬声器声音话语的自动话音识别。因此，语音识别系统101处理通过电话网络111所传送的话音通信，用以确定字或语音模式是否与数据库(例如，名字语法数据库103或信任度数据库105)内所存储的任何语法或词汇匹配。名字语法数据库103由用户名字和那些名字的拼写的可能组合构成。根据本发明的一个实施例，能够根据NUANCE^TM说和拼写名字语法来创建名字语法数据库103。

在可选实施例中，数据库103能够包括任何包含名字和那些名字的拼写的语法数据库、以及辞典数据库、另一个语法数据库、声学模型数据库和/或自然语言定义数据库。辞典数据库包含用于语法数据库中所使用的字的语音发音。除此以外，声学模型数据库定义语音应用利用的语言。

此外，尽管仅示出了一个名字语法数据库103和一个信任度数据库，但是要认识到的是，可以存在多个数据库例如由数据库管理系统(未示出)来控制。在数据库管理系统中，数据被存储在一个或多个数据容器中，每个容器包含记录，并且每个记录内的数据被组织为一个或多个字段。在关系数据库系统中，数据容器被称为表，记录被称为行，并且字段被称为列。在面向对象的数据库中，数据容器被称为对象类，记录被称为对象，并且字段被称为属性。

如图3中所看到的，结合名字语法数据库103来使用被表示为“信任度数据库”的补充语法数据库105，用以产生用户名字的准确识别。在示例性实施例中，能够从主要名字语法数据库103得到信任度数据库105，诸如N-最佳列表(其中N是能够根据特定应用来设置的整数)。N-最佳结果能够包括可能提高识别的期望的名字结果。换言之，N-最佳结果是从与呼叫者的话语良好相关的语法所返回的项的列表。通过匹配的可能性来分类N-最佳列表，并且N-最佳列表包括一个或多个条目。在该过程中，正确的名字被添加到该N-最佳补充语法。根据一个实施例，不存在给予该补充名字语法中任意项的加权或偏好。该包含伪名(decoy)和正确名字的全名语法的较小子集将允许对呼叫者名字的更好识别。根据本发明的一个实施例，能够动态地创建该补充语法数据库。

根据示例性实施例，利用伪名应用311来在N-最佳列表内生成名字的变化，用以提高识别的可能性。将可能包括正确名字的这些生成的名字作为附加条目提供到信任度数据库105中。

将语音识别系统101配置为处理声音话语，用以确定字或语音模式是否与名字语法数据库103和/或信任度数据库105中所存储的任何名字匹配。当针对话音通信的特定话语(或话语集)识别为匹配时，语音识别系统101通过验证系统207和/或话音浏览器发送用于实现的输出信号。因此，认为语音识别系统101能够包括依赖于和/或独立于扬声器的话音识别。另外，能够由能够检测并且将话音通信转换为文本或其它等价符号表示的适当话音识别系统来实现语音识别系统101。

比如，语音识别系统101包括：用于数字化音频输入(例如，语音)的数字转换器301、解析模块303和边缘比较模块305、以及信任度值生成器307和解释生成器309。此外，语音识别系统101使用名字语法数据库103、信任度105来帮助更准确识别用户名字；针于图4A和4B来更充分地描述该过程。

在操作中，数字转换器301从电话接口201接受声学或音频信号(即，用户话语)，并且通过模拟到数字转换器将它们转换为数字信号。一旦被数字化，使用已知方法，例如离散/快速/短时形式的傅里叶变换等，将该信号转换为频域，并且将该信号与频谱帧组合用于进一步处理。由于人耳仅能够感知从20Hz到20kHz范围的可听声音，并且由于人声典型地仅产生500Hz到2kHz范围的话语，所以能够优化数字转换器301以在这些范围内操作。注意，数字转换器301能够包括信号处理组件的主机，即，滤波器、放大器、调制器、压缩器、误差检测器/检验器等，用于调节该信号，例如，移除如环境噪声的信号噪声、消除传输回波等。

在数字转换器301处理模拟信号之后，将相应的数字信号传递到解析模块303，用于使用已知的方法，例如，线性预测编码来提取声学参数。例如，解析模块303能够识别声学特征向量，其包括识别用户话语的语音分类和字边界的声谱系数。要认识到，能够使用其它常规建模技术来提取分类数字信号的独特声音部分的一个或多个特性和/或模式。

一旦被解析，由解析模块303所定义的各种声音特征被输入到边缘比较模块309，用于与识别的字相比较以及被识别为识别的字，所述识别的字即用户的名、中间名和/或姓。因此，边缘比较模块305能够使用任意已知的语音识别方法和/或算法，例如，隐藏式马可夫模型(HMM)，以及名字语法数据库103和信任度数据库105来将用户话语识别为字。在识别字以后，解释生成器309将关联的等价文本或符号表示(下文中全部被称为“值”)传递到话音浏览器205和/或验证系统207，用于适当的处理。

一般说来，语法数据库存储特定语音应用有效接受的用户话语的所有可能的组合和关联值。通过示例的方法，能够如下定义被表示为“YESNOGRAMMAR”的简单语法：

YESNOGRAMMAR

(yes){true}

(no) {false}

]

在这个示例中，语法的内容被包含在[ ]括号内。边缘比较模块305使用( )括号内的项用于与从用户话语所提取的声学特征比较。当声学特征类似地与( )括号内的项比较时，包含在{ }括号内的值被传递到解释生成器309。

边缘比较模块305利用信任度值生成器307来确定测量被识别的话语与语法数据库内的项值的相互关系的信任度级别。高信任度值意指被识别的话语和语法数据库内的项的值之间具有较大的相似度。相反地，低信任度值意指较弱的相似度。在话语不被识别的情况中，即，信任度值生成器307感知与语法内的任何项都没有相似度，边缘比较模块将产生“语法以外”状态，并且需要用户重新输入他们的话语。

使用以上所定义的简单YESNOGRAMMAR，下面解释示例性语音识别过程。首先，IVR系统107询问用户问题，“你去过科罗拉多吗？”如果用户回答“是”，则语音识别系统101识别该话语并且向解释生成器309传递“真”结果，用于向例如话音浏览器205之类的适当的设备输出，用于系统处理。而如果用户回答“可能”，则话语不能与语法YESNOGRAMMAR内的“是”或“否”值比较。比如，会出现无识别情况，并且边缘比较模块会产生“语法以外”状态，并且需要用户重新输入他们的话语。

在这点上，语法被用以将用户限制为那些在语法内所定义的值，即，期望的话语。例如，如果要求用户说出数字标识符，诸如，社会安全号码(SSN)，则由于没有SSN以8或9开始，所以语法会将第一个数字限制为0到7的数字。因此，如果用户说出以8开始的SSN，当语音识别系统101分析该话语并且与限制的语法来比较时，结果将不可避免的是“语法以外”状态。

不幸的是，用户话语不能总是“被分类”为期望的话语。例如，利用以上YESNOGRAMMAR语法的语音识别系统101不会识别代替“是”的等同于“肯定”的口语或代替“否”的等同于“否定”的口语的用户话语。然而，尝试为期望话语提供每个可能的替换话语是不实际的，尤其当期望话语的复杂度增加的时候。

随着对固有名词，或更具体地，对用户名字的语音识别，出现了这种不实际性的锐子集(acute subset)。标题为SURNAME的简单名字语法能够被如下定义：

SURNAMES

(white white) {white}

(brimm brimm) {brimm}

(cage cage) {cage}

(lnngford lang ford) {langford}

(whyte whyte) {whyte}

]

在这个示例中，名字，即语法值，包括名字和该名字的拼写。

由于存在几乎无穷的用户名字的阵列，所以典型的名字语法仅包含很大比率的可能名字。另外，在名字语法内所存储的那些名字典型地被安排或另外被“调音”以说明(account for)名字通用性。尽管这些特征最小化了系统资源淹覆(overwhelming)，并且提供用于常用名字的“良好”覆盖范围，但是说出那些不在语法内的特有名字的用户将最终产生“语法以外”状态。此外，由于语音的类似性和名字语法的“调音”性质，利用常用名字的不常用发音的用户，例如“Whyte”而不是“White”，将呈现错误的名字。这就是语音识别系统101设法解决的不实际性。接下来描述语音识别系统101的操作。

图4是根据本发明实施例的语音识别过程的流程图。在步骤401中，从用户接收数据(例如，账号信息、社会安全号码或其它个性化信息)作为例如应用的一部分或IVR系统107的呼叫流程。通过更容易可识别数据的使用，诸如，账号或社会安全号码，经步骤403，能够获取与账号相关联的名字。接下来，如步骤405中，询问用户的名字。请求用户说出和拼写该名字。

在步骤407中，接收来自用户的响应于名字询问的生成的音频输入。如步骤409中，该过程随后使用主要名字语法数据库，诸如名字语法数据库103，将语音识别应用于音频输入。经步骤411确定是否存在语法以外的状态。如果这种状态发生，则如步骤413中，重新询问用户的名字。这时，该过程应用高信任度数据库，以输出被识别的名字(步骤415)。即，该过程利用高信任度的第二名字语法数据库(例如，信任度数据库105)来输出最后被识别的名字。在一个实施例中，将来自N-最佳列表的名字与账号或社会安全号码相关联的名字相组合，以生成补充名字语法；该过程能够被动态地执行。类似于实际名字的伪名名字也能够被添加到该补充名字语法。能够根据应用来预定义或预先设置信任度级别——即，“高”。

此后，经步骤417，该过程确定被识别的名字是否与获取的名字匹配(如步骤403中所获得的)。如果存在匹配，则经步骤421与用户确认最后被识别的名字。为了确认，例如，该过程能够提供简单的询问，如下：“我听到了<名字>。那是正确的吗？”

如果不匹配，如经步骤419所确定的，则语音识别过程与用户确认最后被识别的名字，并且重新评估名字措词(步骤423)。为了确认，例如，该过程能够提供更直接的询问，如下：“我听到了<名字>。你确定那是该账号的名字吗？”

根据一个实施例，为了安全的目的，不向呼叫者透露期望的结果；呼叫者必须说出期望的结果并且确认。如果名字是不正确的，如步骤425中所确定的，则该过程返回步骤413来重新询问该用户。该过程能够被重复任意次数(例如，3次)；即，重复的数目是可配置的。如果用户超过了重试的最大数目，则呼叫能够以失败事件来结束。当承认名字是正确的时，该过程结束。

为了说明的目的，现在针于三个场景来解释该语音识别过程，该三个场景与使用SSN作为个性化信息的用于报告薪水的应用相关。第一个场景涉及仅使用主要名字语法数据库103，而不需要利用信任度数据库105(表1)。第二个场景描述了其中需要补充语法数据库，例如，信任度数据库105，的情况(表2)。如表3中所示，最后一个场景示出失败的状态。

询问	用户应答
询问	用户应答	首先，说出或键入你的社会安全号码。	555-00-5555
现在，告诉我你的生日。	1976年7月4日	首先，说出或键入你的社会安全号码。	555-00-5555
现在，告诉我你的生日。	1976年7月4日	谢谢，现在说出并且拼写如你的社会安全卡上显示的你的名字。	GeorgeG-E-O-R-G-E
我得到你的名字是<从全名语法识别的名字和拼写>GeorgeG-E-O-R-G-E，对吗？	是	谢谢，现在说出并且拼写如你的社会安全卡上显示的你的名字。	GeorgeG-E-O-R-G-E
我得到你的名字是<从全名语法识别的名字和拼写>GeorgeG-E-O-R-G-E，对吗？	是	接下来，说出并且拼写在你的社会安全卡上显示的你的姓。	Smith，S-M-I-T-H
我得到你的名字是<从全名语法识别的名字和拼写>Smith，S-M-I-T-H，对吗？	是	接下来，说出并且拼写在你的社会安全卡上显示的你的姓。	Smith，S-M-I-T-H
我得到你的名字是<从全名语法识别的名字和拼写>Smith，S-M-I-T-H，对吗？	是	一些人有另一个姓——例如，职务或婚前名字——那可能在他们的社会安全号码下被列出。你有另一个姓吗？请说出是或否。	否
在我检查我们的数据库时请不要挂电话。这可能会花费几秒钟。		一些人有另一个姓——例如，职务或婚前名字——那可能在他们的社会安全号码下被列出。你有另一个姓吗？请说出是或否。	否
在我检查我们的数据库时请不要挂电话。这可能会花费几秒钟。		接下来，我需要<过去的月份><过去的月份的年份>中所赚到的薪水。请用美元和美分来告诉我总薪水。	$279.30
在我向社会安全管理局发送信息的同时不要挂电话。		接下来，我需要<过去的月份><过去的月份的年份>中所赚到的薪水。请用美元和美分来告诉我总薪水。	$279.30
在我向社会安全管理局发送信息的同时不要挂电话。
好的，已经报告那些薪水。谢谢呼叫SSA月薪报告热线。
好的，已经报告那些薪水。谢谢呼叫SSA月薪报告热线。

表1

询问	用户应答
询问	用户应答	首先，说出或键入你的社会安全号码。	777-00-7777
现在，告诉我你的生日。	1976年7月4日	首先，说出或键入你的社会安全号码。	777-00-7777
现在，告诉我你的生日。	1976年7月4日	谢谢，现在说出并且拼写如你的社会安全卡上显示的你的名。	TomasT-O-M-A-S
我听到的名字是<从全名语法识别的名字和拼写>ThomasT-H-O-M-A-S，那是在你的社会安全卡上显示的名字吗？	否	谢谢，现在说出并且拼写如你的社会安全卡上显示的你的名。	TomasT-O-M-A-S
我听到的名字是<从全名语法识别的名字和拼写>ThomasT-H-O-M-A-S，那是在你的社会安全卡上显示的名字吗？	否	我们再试一次，在你告诉我你的姓之后马上也拼写它。像这样，“John，J-O-H-N”。	TomasT-O-M-A-S
我听到的名字是<从动态构建语法识别的名字和拼写>Tomas T-O-M-A-S，对吗？	是	我们再试一次，在你告诉我你的姓之后马上也拼写它。像这样，“John，J-O-H-N”。	TomasT-O-M-A-S
我听到的名字是<从动态构建语法识别的名字和拼写>Tomas T-O-M-A-S，对吗？	是	接下来，说出并且拼写在你的社会安全卡上显示的你的姓。	Smith，S-M-I-T-H
我得到的你的名字是Smith，S-M-I-T-H，对吗？	是	接下来，说出并且拼写在你的社会安全卡上显示的你的姓。	Smith，S-M-I-T-H
我得到的你的名字是Smith，S-M-I-T-H，对吗？	是	一些人有另一个姓——例如，职务或婚前名字——那可能在他们的社会安全号码下被列出。你有另一个姓吗？请说出是或否。	否
在我检查我们的数据库时请不要挂电话。这可能会花费几秒钟。		一些人有另一个姓——例如，职务或婚前名字——那可能在他们的社会安全号码下被列出。你有另一个姓吗？请说出是或否。	否
在我检查我们的数据库时请不要挂电话。这可能会花费几秒钟。		接下来，我需要<过去的月份><过去的月份的年份>中所赚到的薪水。请用美元和美分来告诉我总薪水。	$1207.30
在我向社会安全管理局发送信息的同时不要挂电话。		接下来，我需要<过去的月份><过去的月份的年份>中所赚到的薪水。请用美元和美分来告诉我总薪水。	$1207.30
在我向社会安全管理局发送信息的同时不要挂电话。
好的，已经报告那些薪水。谢谢呼叫SSA月薪报告热线。
好的，已经报告那些薪水。谢谢呼叫SSA月薪报告热线。

表2

询问	用户应答
询问	用户应答	首先，说出或键入你的社会安全号码。	888-00-8888
现在，告诉我你的生日。	1977年7月4日	首先，说出或键入你的社会安全号码。	888-00-8888
现在，告诉我你的生日。	1977年7月4日	谢谢，现在说出并且拼写在你的社会安全卡上显示的你的名字。	KellyK-E-L-L-Y
我听到的名字是<从全名语法识别的名字和拼写>KellyK-E-L-L-Y，那是在你的社会安全卡上显示的名字吗？	否	谢谢，现在说出并且拼写在你的社会安全卡上显示的你的名字。	KellyK-E-L-L-Y
我听到的名字是<从全名语法识别的名字和拼写>KellyK-E-L-L-Y，那是在你的社会安全卡上显示的名字吗？	否	我们再试一次，在你告诉我你的姓之后也马上也拼写它。像这样，“John，J-O-H-N”。	Kellie，K-E-L-L-I-E
我听到的名字是<从动态构建语法识别的名字和拼写>Kellie，K-E-L-L-I-E，那是在你的社会安全卡上显示的名字吗？	是	我们再试一次，在你告诉我你的姓之后也马上也拼写它。像这样，“John，J-O-H-N”。	Kellie，K-E-L-L-I-E
	是	接下来，说出并且拼写在你的社会安全卡上显示的你的姓。	Smith，S-M-I-T-H
我得到的你的名字是Smith，S-M-I-T-H，对吗？	是	接下来，说出并且拼写在你的社会安全卡上显示的你的姓。	Smith，S-M-I-T-H
我得到的你的名字是Smith，S-M-I-T-H，对吗？	是	一些人有另一个姓——例如，职务或婚前名字——那可能在他们的社会安全号码下被列出。你有另一个姓吗？请说出是或否。	否
在我检查我们的数据库时不要挂电话。这可能会花费几秒钟。		一些人有另一个姓——例如，职务或婚前名字——那可能在他们的社会安全号码下被列出。你有另一个姓吗？请说出是或否。	否
在我检查我们的数据库时不要挂电话。这可能会花费几秒钟。		对不起，我们不能处理你的请求。请检查你的信息并且稍后再试一次。

表3

因此，图4A和图4B的语音识别过程能够被用以改进常规的语音识别说出和拼写名字捕捉。该方法允许使用另一条信息或数据组合，诸如，生日日期和账号或社会安全号码，来获得用户的或呼叫者的名字。可以在补充名字语法中获得并且使用该实际的名字，用以帮助识别呼叫者的名字。

这里所描述的用于提供语音识别的过程可以经由软件、硬件(例如，通用处理器、数字信号处理(DSP)芯片、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等)、固件或其组合来实现。以下描述这种用于执行所描述的功能的示例性硬件。

图5图示了其上能够实现根据本发明的实施例的计算机系统500。例如，能够使用计算机系统500来实现这里所描述的过程。计算机系统500包括用于传送信息的总线501或其它通信机制，和被耦合到总线501的用于处理信息的处理器503。计算机系统500也包括被耦合到总线501的用于存储要由处理器503执行的信息和指令的主存储器505，诸如随机访问存储器(RAM)或其它动态储存设备。主存储器505也能够被用于在由处理器503执行指令期间存储临时变量或其它中间信息。计算机系统500可以进一步包括被耦合到总线501的用于存储用于处理器503的静态信息和指令的只读存储器(ROM)507或其它静态存储设备。诸如磁盘或光盘之类的存储设备509被耦合到总线501，用于持续地存储信息和指令。

计算机系统500可以经由总线501被耦合到显示器511，诸如阴极射线管(CRT)、液晶显示器、主动矩阵显示器或等离子显示器，以向计算机用户显示信息。诸如包括字母数字和其它键的键盘的输入设备513被耦合到总线501，以向处理器503传送信息和命令选择。另一类型的用户输入设备是光标控制515，诸如鼠标、跟踪球或光标方向键，以向处理器503传送方向信息和命令选择以及控制显示器511上的光标移动。

根据本发明的一个实施例，响应于处理器503执行主存储器505中所包含的指令的安排，由计算机系统500来执行这里所描述的过程。能够将这种指令从诸如存储设备509的另一个计算机可读取介质读入到主存储器505。包含在主存储器505中的指令安排的执行使得处理器503执行这里所描述的处理步骤。也可以使用多处理安排中的一个或多个处理器来执行包含在主存储器505中的命令。在可选实施例中，作为软件指令的替代或与软件指令相结合的硬接线电路可以被用来实现本发明的实施例。因此，本发明的实施例不限于硬件电路和软件的任何具体组合。

计算机系统500也包括被耦合到总线501的通信接口517。通信接口517耦合到网络链路519，提供双向数据通信，其中网络链路519被连接到本地网络521。例如，通信接口517可以是数字订户线(DSL)卡或调制解调器、综合业务数字网(ISDN)卡、有线电视电缆调制解调器、电话调制解调器或者任意其它通信接口，以向相应类型的通信线提供数据通信连接。如另一个示例，通信接口517可以是本地局域网(LAN)卡(例如，用于以太网^TM或异步传输模式(ATM)网络)，以向兼容LAN提供数据通信连接。也能够实现无线链接。在任意这种实现中，通信接口517发送并且接收承载表示各种类型信息的数字数据流的电、电磁或光信号。另外，通信接口517能够包括外围接口设备，诸如通用串行总线(USB)接口、PCMCIA(个人计算机存储卡国际协会)接口等。虽然图5中描述了单一通信接口517，但是也能够使用多个通信接口。

网络连接519典型地通过一个或多个网络向其它数据设备提供数据通信。例如，网络链路519可以通过本地网络521向主机计算机523提供连接，其具有到网络525(例如，广域网(WAN)或现在被普遍称为“因特网”的全球分组数据通信网络)或到由服务提供商操作的数据设备的连接性。本地网络521和网络525二者使用电、电磁或光信号来传达信息和指令。通过各种网络的信号和在网络链路519上并且通过与计算机系统500传送数字数据的通信接口517的信号是承载信息和指令的载波波形的示例性形式。

计算机系统500能够通过网络(多个网络)、网络链路519和通信接口517来发送消息并且接收包括程序代码的数据。在因特网的示例中，服务器(未示出)可能通过网络525、本地网络521和通信接口517来发送属于实现本发明实施例的应用程序的请求代码。处理器503可以执行正在被接收的同时所发送的代码和/或在存储设备509或其它非易失性存储器中存储的代码，用于稍后的执行。以这种方法，计算机系统500可以以载波波形的形式获得应用代码。

如这里所使用的术语“计算机可读取介质”指的是参与向处理器503提供用于执行的指令的任意介质。这种介质可以表示为很多形式，包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括，例如，光盘或磁盘、诸如存储设备509。易失性介质包括动态存储器，诸如主存储器505。传输介质包括同轴电缆、铜电线和光纤，包括组成总线501的电线。传送介质也能够表示为声波、光波或电磁波的形式，诸如那些在无线电频率和红外线数据通信期间所生成的。计算机可读取介质的常用形式包括，例如，软盘、可折叠磁盘、硬盘、磁带、任意其它磁介质、CD-ROM、CDRW、DVD、任意其它光介质、穿孔卡、纸带、光标示表单、具有孔或其它光学可识别标记的图案的任意其它物理介质、RAM、PROM以及EPROM、FLASH-EPROM、任意其它存储芯片或盒带、载波波形、或从其计算能够读取的其它任意介质。

各种形式的计算机可读取介质都涉及向处理器提供用于执行的指令。例如，用于实现本发明的至少一部分的指令可以最初地承载(bear)在远程计算机的磁盘上。在这种情形中，远程计算机将指令装载到主存储器中，并且使用调制解调器通过电话线来发送该指令。本地计算机系统的调制解调器接收电话线上的数据，并且使用红外发射器来将数据转换为红外信号，并且将红外信号发射到便携式计算设备，诸如个人数字助理(PDA)或膝上型电脑。便携式计算设备上的红外检测器接收由红外信号所承载的信息和指令，并且将数据置于总线上。总线向主存储器传达数据，处理器从该主存储器检索并且执行指令。在由处理器执行之前或之后，由主存储器所接收到的指令能够可选地被存储在存储设备上。

在前面的说明书中，已经参考附图描述了各种优选实施例。然而，显然在不背离下面权利要求中所阐述的本发明的广泛范围的情况下，可以对其作出各种修改和变化，并且可以实现附加实施例。因此，本说明书和附图被认为是说明性的而不是限制性的意思。

Claims

1.一种方法，包括：

基于由用户提供的数据来从所述用户获取名字；

向所述用户询问所述用户的名字；

接收来自所述用户的响应于所述询问的第一音频输入；

使用名字语法数据库将语音识别应用于所述第一音频输入，以输出被识别的名字；

确定所述被识别的名字是否与所述被获取的名字匹配；

如果确定没有匹配，则向所述用户重新询问所述用户的名字；

接收来自所述用户的响应于所述重新询问的第二音频输入；以及

使用具有少于所述名字语法数据库的条目的信任度数据库将语音识别应用于所述第二语音输入。

2.根据权利要求1所述的方法，进一步包括：

向所述用户询问所述数据，其中，所述数据包括业务信息或个人信息中的一个。

3.根据权利要求1所述的方法，进一步包括：

与所述用户确认所述被识别的名字。

4.根据权利要求3所述的方法，其中，通过向所述用户听觉地提供所述被识别的名字来执行所述确认。

5.根据权利要求1所述的方法，进一步包括：

如果在预定数目的重复重新询问所述用户名字之后没有找到与所述被获取的名字的匹配，则确定失败状态。

6.根据权利要求1所述的方法，其中，所述信任度数据库具有从所述名字语法数据库得到的条目，通过信任度级别来分级所述条目。

7.根据权利要求6所述的方法，进一步包括：

使用伪名应用来确定用于所述信任度数据库的附加条目。

8.根据权利要求1所述的方法，进一步包括：

确定所述被获取的名字和与所述第一音频输入或所述第二音频输入相关联的所述被识别的名字之间的比较的信任度级别。

9.一种装置，包括：

语音识别逻辑，被配置为从用户接收第一音频输入，其中所述第一音频输入表示由所述用户响应于询问而提供的说出的名字；其中被获取的所述用户的名字是基于由所述用户提供的数据而预先获取的；所述语音识别逻辑进一步被配置为使用名字语法数据库将语音识别应用于所述第一音频输入，以输出被识别的名字，并且用以确定所述被识别的名字是否与所述被获取的名字匹配，

其中，向所述用户重新询问所述用户说出的名字，以用于第二音频输入，如果确定没有匹配，则所述语音识别逻辑进一步使用具有少于所述名字语法数据库的条目的信任度数据库来将语音识别应用于所述第二音频输入。

10.根据权利要求9所述的装置，其中，向所述用户询问所述数据，并且所述数据包括业务信息或个人信息中的一个。

11.根据权利要求9所述的装置，其中，与所述用户确认所述被识别的名字。

12.根据权利要求11所述的装置，其中，通过向所述用户听觉地提供所述被识别的名字来执行所述确认。

13.根据权利要求9所述的装置，其中，所述语音识别进一步被配置为如果在预定数目的重复重新询问所述用户名字之后没有找到与所述被获取的名字的匹配，则确定失败状态。

14.根据权利要求9所述的装置，其中，所述信任度数据库具有从所述名字语法数据库得到的条目，通过信任度级别来分级所述条目。

15.根据权利要求14所述的装置，其中，使用伪名应用来确定用于所述信任度数据库的附加条目。

16.根据权利要求9所述的装置，其中，所述语音识别逻辑进一步被配置为确定所述被获取的名字和与所述第一音频输入或所述第二音频输入相关联的所述被识别的名字之间的比较的信任度级别。

17.一种系统，包括：

话音应答单元，被配置为基于由所述用户提供的数据来从所述用户获取名字，并且向所述用户询问所述用户的名字；以及

语音识别逻辑，被配置为接收来自所述用户的响应于所述询问的第一音频输入；并且使用名字语法数据库将语音识别应用于所述第一音频输入，以输出被识别的名字；所述语音识别逻辑进一步被配置为确定所述被识别的名字是否与所述被获取的名字匹配；

其中，如果确定没有匹配，则所述话音应答单元进一步被配置为向所述用户重新询问所述用户的名字，以用于第二音频输入，

其中，所述语音识别逻辑进一步被配置为使用具有少于所述名字语法数据库的条目的信任度数据库将语音识别应用于所述第二音频输入。

18.根据权利要求17所述的系统，其中，所述话音应答单元进一步被配置为向所述用户询问所述数据，其中所述数据包括业务信息或个人信息中的一个。

19.根据权利要求17所述的系统，其中，与所述用户确认所述被识别的名字。

20.根据权利要求19所述的系统，其中，通过向所述用户听觉地提供所述被识别的名字来执行所述确认。

21.根据权利要求17所述的系统，其中，所述语音识别逻辑进一步被配置为如果在预定数目的重复重新询问所述用户名字之后没有找到与所述被获取的名字的匹配，则确定失败状态。

22.根据权利要求17所述的系统，其中，所述信任度数据库具有从所述名字语法数据库得到的条目，通过信任度级别来分级所述条目。

23.根据权利要求22所述的系统，其中，使用伪名应用来确定用于所述信任度数据库的附加条目。

24.根据权利要求17所述的系统，其中，所述语音识别逻辑进一步被配置为确定所述被获取的名字和与所述第一音频输入或所述第二音频输入相关联的所述被识别的名字之间的比较的信任度级别。