CN101238508B

CN101238508B - 使用备选列表重述错误识别的词语

Info

Publication number: CN101238508B
Application number: CN200680028638XA
Authority: CN
Inventors: R·L·钱伯斯; D·莫瓦特; F·G·安德鲁; I·多奎尔; R·E·德维尔
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2005-08-05
Filing date: 2006-08-07
Publication date: 2012-05-30
Anticipated expiration: 2026-08-07
Also published as: WO2007019477A1; US20070033037A1; CN101238508A; KR20080031357A; KR101255402B1; US8473295B2

Abstract

在选择所显示词语时，显示所选词语的备选列表。该列表中的每个备选具有关联的符号。然后，解码语音信号以标识可能词语列表，并且显示该可能词语列表，其中每个可能词语具有关联的符号。

Description

使用备选列表重述错误识别的词语

背景

语音识别是语音信号到词语的转换。在语音识别期间，将语音信号与一个或多个模型进行比较以标识所说的词语。

一般而言，语音识别是尝试标识对语音信号提供最高概率的语音单元序列的概率技术。许多识别系统不仅识别最可能的词语序列，而且标识可能由语音信号表示的可能性稍小的备选词序列。

即使是最好的语音识别系统偶尔也会错误地识别词语。当前，依赖于语音识别的应用程序提供用户可更正这些错误的方法。例如，一个简单技术是使用户使用输入设备选择错误词语，然后键入正确词语。

另一错误更正技术使用户使用语音命令选择词语。然后，应用程序提供由语音识别引擎返回的作为所识别的最有可能词语的可能备选词的备选词列表。在这种系统中，每个备选词与一数字相关联，使得用户能够通过说出该数字来选择词语。

为了使这种更正方案发挥作用，用户期望的词语必须出现在备选列表中。如果识别系统没有产生期望词语作为备选，则该更正方案不能用于进行该更正。

用户更正词语的另一种方法是选择错误词语，然后简单地重述他们期望的词语。如果语音识别系统能够在再次读出词语时识别它，则该更正过程十分有效。然而，许多情况下语音识别引擎会再次错误标识该词语，并用另一错误词语代替所选词语。这需要用户再次重述，并可能使用户灰心。

以上讨论仅提供一般背景信息，并非旨在用于帮助确定要求保护主题的范围。

概述

在选择所显示词语时，显示所选词语的备选列表。列表中的每个备选具有关联符号。然后，对语音信号进行解码以标识可能词语列表，且显示该可能词语列表，其中每个可能词语具有关联符号。

提供本概述来以简化形式引入将在以下详细描述中进一步描述的概念精选。本概述不旨在标识要求保护主题的关键特征或本质特征，也不旨在用于帮助确定要求保护主题的范围。

附图简述

图1是计算环境的框图。

图2是移动计算环境的框图。

图3是使用备选列表重述的方法的流程图。

图4是在图3的流程图中使用的元件的框图。

图5是带有所识别文本的显示图像。

图6是带有更正对话框的图5的显示。

图7是带有第二更正对话框的所显示文本的图像。

图8是带有第三对话框的所识别文本的显示。

图9是带有经更正文本的显示。

图10是用于调用备选列表的替换流程图。

详细描述

图1示出在其上可以实现各实施方式的合适计算系统环境100的示例。计算系统环境100只是合适计算环境的一个示例，并不旨在对本发明的使用范围或功能提出任何限制。计算环境100不应被解释为对在示例性操作环境100中示出的组件中任一个或组合有任何依赖或要求。

实施方式可在许多其它通用或专用计算系统环境或配置中操作。适用于各实施方式的公知计算系统、环境和/或配置的示例包括，但不局限于：个人计算机、服务器计算机、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子设备、网络PC、小型计算机、大型计算机、电话系统、包括以上系统或设备中任一个的分布式计算环境等。

各实施方式可在由计算机执行的诸如程序模块的计算机可执行指令的通用上下文中描述。通常，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。某些实施方式还被设计成在其中由通过通信网络链接的远程处理设备执行任务的分布式计算环境中实施。在分布式计算环境中，程序模块位于包括存储器存储设备的本地和远程计算机存储介质中。

参照图1，用于实现某些实施方式的示例性系统包括计算机110形式的通用计算设备。计算机110的组件可包括，但不局限于：处理单元120、系统存储器130以及将包括系统存储器在内的各种系统组件耦合到处理单元120的系统总线121。系统总线121可以是若干类型总线中的任一种，包括存储器总线或存储器控制器、外围总线和使用各种总线架构中任一种的局域总线。作为示例而非限制，这种架构包括工业标准架构(ISA)总线、微信道架构(MCA)总线、增强的ISA(EISA)总线、视频电子技术标准协会(VESA)局域总线以及也被称为附夹板(Mezzanine)总线的外围组件互连(PCI)总线。

计算机110通常包括各种计算机可读介质。计算机可读介质可以是可由计算机110访问的任何可用介质，并且包括易失性和非易失性介质、可移动和不可移动介质。作为示例而非限制，计算机可读介质包括计算机存储介质和通信介质。计算机存储介质包括以任何方法或技术实现的用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括，但不局限于：RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、盒式磁带、磁带、磁盘存储或其它磁性存储设备、或可用于存储所需信息并可由计算机110访问的任何其它介质。通信介质通常具体化为诸如载波或其它传输机制的调制数据信号中的计算机可读指令、数据结构、程序模块或其它数据，并可包括任何信息传输介质。术语“调制数据信号”表示以在信号中编码信息的方式设置或改变其一个或多个特征的信号。作为示例而非限制，通信介质包括诸如有线网络或直接接线连接的有线介质，以及诸如声学、RF、红外线的无线介质和其它无线介质。以上中任一个的组合也应包含在计算机可读介质的范围内。

系统存储器130包括诸如只读存储器(ROM)131和随机存取存储器(RAM)132的易失性和/或非易失性存储器形式的存储介质。包含在诸如启动期间帮助在计算机110内元件之间传递信息的基本例程的基本输入/输出系统133(BIOS)通常存储在ROM 131中。RAM 132通常包含可由处理单元120即时访问和/或正在其上操作的数据和/或程序模块。作为示例而非限制，图1示出操作系统134、应用程序135、其它程序模块136和程序数据137。

计算机110还可包括其它可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例，图1示出从不可移动、非易失性磁性介质读取或向其写入的硬盘驱动器141、从可移动、非易失性磁盘152读取或向其写入的磁盘驱动器151、和从诸如CD ROM或其它光学介质的可移动、非易失性光盘156读取或向其写入的光盘驱动器155。可用于示例性操作环境的其它可移动/不可移动、易失性/非易失性计算机存储介质包括，但不局限于：磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等。硬盘驱动器141通常由诸如接口140的不可移动存储器接口连接到系统总线121，而磁盘驱动器151和光盘驱动器155则通常由诸如接口150的可移动存储器接口连接到系统总线121。

以上描述和图1中示出的驱动器及其关联计算机存储介质为计算机110提供计算机可读指令、数据结构、程序模块和其它数据的存储。例如在图1中，硬盘驱动器141被示为存储操作系统144、应用程序145、其它程序模块146和程序数据147。注意，这些组件可与操作系统134、应用程序135、其它程序模块136和程序数据137相同或不同。在此对操作系统144、应用程序145、其它程序模块146和程序数据147给出不同的附图标记说明至少它们是不同的副本。

用户可通过诸如键盘162、麦克风163和诸如鼠标、跟踪球或触摸垫的定点设备161的输入设备向计算机110输入命令和信息。其它输入设备(未示出)可包括操纵杆、游戏手柄、圆盘式卫星天线、扫描仪等。这些和其它输入设备通常由耦合到系统总线的用户输入接口160连接到处理单元120，但是也可由诸如并行端口、游戏端口或通用串行总线(USB)之类的其它接口和总线结构连接。监视器191或其它类型的显示设备也可经由诸如视频接口190的接口连接到系统总线121。除了监视器之外，计算机还可包括可以通过输出外围接口195连接的诸如扬声器197和打印机196的其它外围输出设备。

计算机110可在使用到诸如远程计算机180的一个或多个远程计算机的逻辑连接的网络化环境中操作。远程计算机180可以是个人计算机、手持式设备、服务器、路由器、网络PC、对等设备或其它公共网络节点，并且通常包括以上相关于计算机110描述的组件中的多个或全部。在图1中所描绘的逻辑连接包括局域网(LAN)171和广域网(WAN)173，但是也可以包括其它网络。这种网络环境在办公室、企业内部计算机网络、内联网和因特网中十分常见。

当在LAN网络环境中使用时，计算机110通过网络接口或适配器170连接到LAN 171。当在WAN网络环境中使用时，计算机110通常包括调制解调器172或用于在诸如因特网的WAN 173上建立通信的任何装置。或为内置或为外置的调制解调器172可经由用户输入接口160或其它适当机制连接到系统总线121。在网络化环境中，相关于计算机110描述的程序模块或其部分可存储在远程存储器存储设备中。作为示例而非限制，图1将远程应用程序185示为驻留在远程计算机180上。应该理解，所示网络连接是示例性的，且可以使用在计算机之间建立通信链路的其它装置。

图2是作为示例性计算环境的移动设备200的框图。移动设备200包括微处理器202、存储器204、输入/输出(I/O)组件206和用于与远程计算机或其它移动设备通信的通信接口208。在一实施方式中，对上述组件进行耦合，以在合适总线210上彼此通信。

存储器204被实现为诸如具有电池备用模块(未示出)的随机存取存储器(RAM)的非易失性电子存储器，使得当移动设备200的总电源关断时存储在存储器204中的信息不会丢失。存储器204的一部分较佳地被分配为用于程序执行的可寻址存储器，而存储器204的另一部分较佳地用作存储以例如模仿盘驱动器上的存储。

存储器204包括操作系统212、应用程序214以及对象存储216。在操作期间，操作系统212较佳地由处理器202从存储器204执行。在一较佳实施方式中，操作系统212是可从微软公司购得的WINDOWS

CE牌操作系统。操作系统212较佳地为移动设备设计，并且实现可由应用程序214通过一组暴露的应用编程接口和方法来使用的数据库特征。对象存储216中的对象可至少部分地响应于对所暴露应用编程接口和方法的调用而由应用程序214和操作系统212维护。

通信接口208表示允许移动设备200发送和接收信息的多种设备和技术。该设备包括例如有线和无线调制解调器、卫星接收器和广播调谐器。移动设备200还可直接连接到计算机以与之交换数据。在这种情形中，通信接口208可以是红外收发器或串行或并行通信连接，所有这些接口都能够发送流信息。

输入/输出组件206包括诸如触敏屏幕、按钮、滚轮和麦克风的各种输入设备，以及包括音频生成器、振动设备和显示器的各种输出设备。以上所列设备是作为示例的，并不需要都在移动设备200上出现。此外，可向移动设备200上附连或在其上找到其它输入/输出设备。

本发明提供用于调用和选择备选列表的新技术。图3提供用于调用和使用备选列表以便更正语音识别错误的一实施方式的流程图。图4提供在图3的方法中使用的元件的框图。

在图3的步骤300中，向语音识别引擎402提供图4的语音信号400，这将产生经识别的词语和备选404。在一实施方式中，给定语音识别模型，向由语音识别引擎402识别的每个词语配备比所识别词语可能性小但是仍有可能的一个或多个备选。

将所识别词语和备选404提供给模式评估方法406，该方法判定所说的话语是表示叙述(dictation)还是命令。如果模式评估方法406判定所识别的词语表示叙述，则模式评估方法406调用文本显示方法407，该文本显示方法生成在显示器410上显示的可显示的所识别文本408。

图5提供包括错误的所显示的已识别文本的示例。具体地，在图5的示例中，用户所说的短句是“I was in awe of him(我敬畏他)”，但是语音识别引擎将其识别为“I was in ore of him”。

在步骤301，用户发出更正所显示叙述中的词语或短语的命令。在一实施方式中，该命令是诸如“更正ore(矿石)”的口头命令，该命令被语音识别引擎402解码以产生所识别词语和备选404。所识别词语和备选可由模式评估方法406进行评估以判定它们是否含有命令。由于所识别词语包含更正文本的命令，则模式评估方法406调用更正方法411，在步骤302该更正方法加亮所选词语或短语，如图6的加亮框600所示。

在某些实施方式中，在步骤304，更正方法411扩展与原始叙述中所选词语或短语一起返回的备选列表。具体而言，在备选列表中以最可能词语开始，更正方法411添加词语的备选表示，诸如大写词语的首字母、诸如将“one(一)”转换成“1”来将词语的文本形式转换成符号、以及添加诸如用于“street(路)”的“st.”来为词语添加缩写。

在步骤306，更正方法411在更正对话框412中显示扩展列表的前n个备选词语。然后在显示器410上显示对话框412。

图6提供对话框602的示例，它提供了备选词的扩展列表中的前n个词语的列表604。在图6的示例中，提供五个备选。在其它实施方式中，提供八个备选。本领域技术人员应该认识到可向用户提供任何数量的备选。

在列表604中，每个备选词已与一符号(具体而言是数字)相关联。在对话框中，指示用户说出靠近期望项目的数字。因此，如果扩展备选列表包括用户期望的备选，则用户可简单地说出该数字来选择该词语。如果未在列表604中看到该词语，对话框602还指示用户再次说出该词语。

在步骤308，用户说出列表中项目的数字或者再次读出该词语。语音识别引擎402对用户的语音进行解码以产生新的一组识别词语和备选404，这些词语和备选被提供给文本评估方法406。在步骤310，文本评估方法406判定所解码的词语是否是指数字。如果所解码的词语是数字，则诸如词语600的所选词语可由备选列表中与该数字相关联的词语或短语代替。然后，将光标移动回到发出更正命令时它所处的位置。

如果在步骤310，所解码的语音信号不是指数字，则在步骤314，通过添加列表中词语的备选表示来扩展配备步骤308提供的新解码词语或短语的备选列表。然后，该过程返回步骤306以在更正对话框中显示新扩展列表的前n个备选词语。

这种对话框的示例在图7中被示为对话框700。在对话框700中，列表702被示为包含词语备选的不同集合。该备选列表已更改，因为用户在重述过程中对词语的发音与其在初始叙述过程中稍有不同。

如图7所示，再次向用户给出陈述数字或重读该词语的选择。如果用户重读该词语，则该词语被解码并且在步骤308基于新发音标识一组新的备选。在步骤310，文本评估方法406判定用户是否陈述了数字。如果用户再次未陈述数字，则在步骤314对新的备选列表进行扩展，该过程返回到步骤306。

在返回到步骤306之后，示出带有新的备选列表802的新对话框，即图8的对话框800。重复步骤306、308、310和314，直到用户选择数字或以其它方式退出对话框为止。如果用户在步骤310选择数字，诸如图8中的数字3，则在步骤312，与该数字相关联的文本将替代所选文本，产生图9的显示，其中已经用词语“awe(敬畏)”代替了词语“ore(矿石)”。然后，将光标移动到更正命令发出之前其所在的点。

如上所述，图3的方法允许用户继续获得备选列表直到他们找到包含期望词语的列表。这改进了用户能够指出他们实际期望在叙述中出现的词语的机会，因为对每个发音总是向用户给出多个项目以供选择。

虽然图3的方法通过涉及单个词语的示例示出，但是本领域技术人员应该认识到，可使用整个短语来代替一个词语。在这种情况下，用户可选择一个以上的词语并且备选列表可包含备选短语列表。通过每次读出该短语，会产生新的备选短语列表直到用户期望的短语出现。

图10提供用于调用备选列表的替换方法。在步骤1000，从用户接收叙述并将其解码成所显示文本。在步骤1002，接收选择词语或短语的命令。在步骤1004，接收表示要代替所选短语的新词语或短语的语音信号。在步骤1006，解码语音信号以标识新的词语或短语。

在步骤1008，将新的词语或短语与所选词语或短语进行比较以判定它们是否匹配。对于单个词语，新词语必须精确匹配。在一实施方式中，如果短语的首词语和末词语相同，则不管短语的其它词语是否匹配，该短语匹配。如果在步骤1008，新的词语或短语与所选词语或短语不匹配，则在步骤1010，用新的词语或短语代替所选词语或短语。如果在步骤1008，新的词语或短语与所选词语或短语匹配，则在步骤1012，通过对对上述备选列表中词语寻找备选表示来扩展在解码步骤1006中与新的词语或短语一起返回的备选列表。注意，对于短语，可不扩展备选列表，使得可向用户提供由语音识别引擎标识的更多短语。

在步骤1014，在诸如图6的更正框602的更正框中示出扩展备选列表的前n个备选词语或短语。然后图10的过程通过在图3的框308继续进行而进入图3所示的循环。

在图10的实施方式中，在检测到语音识别引擎在步骤1008犯了相同错误时向用户提供备选列表。这帮助用户在语音识别引擎在识别语音中继续犯相同错误时获得备选列表，而无需要求用户采取除了再次读出该词语之外的任何动作以使备选列表出现。

虽然在用结构特征和/或方法动作专用的语言对主题进行了描述，但是应该理解，在所附权利要求书中定义的主题没有必要受限于上述具体特征或动作。相反，上述具体特征和动作作为实现权利要求的示例形式而公开。

Claims

1.一种用于更正语音识别错误的方法，包括：

(1)解码初始语音信号以标识一词语以及备选列表中至少一个词语；

(2)接收更正在步骤(1)中所标识的词语的命令；

(3)显示在步骤(1)中所标识的词语的所述备选列表，每个备选具有关联的数字；

(4)接收语音信号；

(5)解码在步骤(4)中所接收的语音信号以标识可能词语列表；

(6)如果在步骤(4)中所接收的语音信号指的是所述备选列表中的数字，则要被更正的在步骤(1)中所标识的词语被所述备选列表中与所述数字关联的词语替换，并退出所述方法；

(7)如果在步骤(4)中所接收的语音信号不是指所述备选列表中的数字，则通过添加所述可能词语列表中词语的备选表示来扩展所述可能词语列表以生成扩展的可能词语列表；以及

(8)向用户显示所述扩展的可能词语列表，每个可能词语具有关联的数字；

(9)接收后续语音信号；

(10)解码所述后续语音信号以标识后续可能词语列表；

(11)如果所述后续语音信号指的是当前显示给用户的一可能词语列表中的数字，则要被更正的在步骤(1)中所标识的词语被当前呈现给所述用户的一可能词语列表中与所述数字关联的词语替换，并退出所述方法；

(12)如果所述后续语音信号不是指当前显示给用户的一可能词语列表中的数字，则通过添加所述后续可能词语列表中词语的备选表示来扩展所述后续可能词语列表以生成扩展的后续可能词语列表；

(13)向用户显示所述扩展的后续可能词语列表，所述扩展的后续可能词语列表中的每个词语具有关联的数字；以及

(14)重复以上第九到第十三个步骤直到用户选择一数字或退出所述方法。

2.如权利要求1所述的方法，其特征在于，对步骤(5)中的可能词语列表排序，最有可能词语处在所述列表第一位。

3.如权利要求2所述的方法，其特征在于，还包括判定步骤(5)中的可能词语列表中的所述最有可能词语是否是所述备选列表中示出的所述数字之一。

4.如权利要求1所述的方法，其特征在于，还包括确定在步骤(1)中所标识的词语的备选表示，以及将在步骤(1)中所标识的词语和在步骤(1)中所标识的词语的所述备选表示置于所述备选列表中。

5.如权利要求1所述的方法，其特征在于，还包括提示用户读出所述备选列表中的数字或者读出未在所述备选列表中示出的词语。

6.如权利要求1所述的方法，其特征在于：

其中，使用由至少两个词语构成的短语来代替步骤(1)到步骤(14)中的词语。

7.一种用于更正语音识别错误的方法，所述方法包括：

接收更正不正确词语的命令；

解码语音信号以标识所述不正确词语的替换词以及备选词列表；

将所述替换词与所述不正确词语进行比较；以及

如果所述替换词是与所述不正确词语相同的词语，则显示所述备选词列表中词语的至少一个，其中显示所述备选词列表中词语的至少一个包括显示多个词语使得每个词语与一符号相关联。

8.如权利要求7所述的方法，其特征在于，还包括如果所述替换词不是与所述不正确词语相同的词语，则用所述替换词代替所述不正确词语。

9.如权利要求7所述的方法，其特征在于，还包括为所述备选词列表中的词语确定备选表示，以及显示所述备选表示。

10.一种用于更正语音识别错误的方法，所述方法包括：

接收更正多个不正确词语的命令；

解码语音信号以标识所述多个不正确词语的替换短语以及备选短语列表；

将所述替换短语的至少一部分与所述多个不正确词语的至少一部分进行比较，其中将所述替换短语的至少一部分与所述多个不正确词语的至少一部分进行比较包括仅比较所述替换短语的首词语与所述多个不正确词语的首词语，以及所述替换短语的末词语与所述多个不正确词语的末词语；

如果所述替换短语的所述部分与所述多个不正确词语的所述部分不同，则用所述替换短语代替所述多个不正确词语；以及

如果所述替换短语的首词语是与所述多个不正确词语的首词语相同的词语并且所述替换短语的末词语是与所述多个不正确词语的末词语相同的词语，则显示来自所述备选短语列表的至少一个短语。

11.一种用于更正语音识别错误的方法，包括：

(1)解码初始语音信号以标识词语和备选列表；

(2)显示在步骤(1)中所标识的词语；

(3)接收在步骤(1)中所标识的词语已被选择的指示；

(4)显示来自步骤(1)中的备选列表的至少一个词语，每个备选具有关联的数字；

(5)解码第二语音信号以标识第二词语和第二备选列表；

(6)如果所述第二语音信号指的是步骤(1)中的备选列表中的数字，则要被更正的所述已被选择的词语被来自步骤(1)中的备选列表中与所述数字关联的词语替换，并退出所述方法；

(7)如果所述第二语音信号不是指步骤(1)中的备选列表中的数字，则通过添加所述第二备选列表中词语的备选表示来扩展所述第二备选列表以生成扩展的第二备选列表；以及

(8)显示所述第二词语和来自所述扩展的第二备选列表的至少一个词语；

(9)接收后续语音信号；

(10)解码所述后续语音信号以标识后续备选列表；

(11)如果所述后续语音信号指的是当前显示给用户的一备选列表中的数字，则要被更正的所述已被选择的词语被当前显示给用户的备选列表中与所述数字关联的词语替换，并退出所述方法；

(12)如果所述后续语音信号不是指当前显示给用户的一备选列表中的数字，则通过添加所述后续备选列表中词语的备选表示来扩展所述后续备选列表以生成扩展的后续备选列表；以及

(13)向用户显示所述扩展的后续备选列表，所述扩展的后续备选列表中的每个词语具有关联的数字；以及

12.如权利要求11所述的方法，其特征在于，显示所述第二词语和来自所述扩展的第二备选列表的至少一个词语包括连同每个所显示词语显示相应的数字。

13.如权利要求11所述的方法，其特征在于：

其中，使用短语来代替步骤(1)到步骤(14)中的词语。

14.如权利要求13所述的方法，其特征在于，还包括接收来自第二备选短语列表的所显示短语之一已被选择的指示，以及用来自所述第二备选短语列表的所选短语代替初始短语。