CN104699236A

CN104699236A - 利用境况解释自然语言语音识别命令

Info

Publication number: CN104699236A
Application number: CN201410527778.8A
Authority: CN
Inventors: 彼得·哈米尔顿·韦特塞尔; 乔纳森·盖瑟·诺克斯; 苏珊娜·玛丽恩·博蒙; 拉塞尔·斯佩格特·范布恩; 罗德·D·沃特曼
Original assignee: Lenovo Singapore Pte Ltd
Current assignee: Lenovo Singapore Pte Ltd
Priority date: 2013-12-05
Filing date: 2014-10-09
Publication date: 2015-06-10
Also published as: US11138971B2; DE102014117504A1; DE102014117504B4; US20150161997A1

Abstract

本发明一般地涉及利用境况解释自然语言语音识别命令，并公开了信息处理方法、信息处理装置以及信息处理产品。根据一个实施方式的信息处理方法包括：在信息处理装置的音频接收器处接收用户语音输入；利用处理器识别包含在所述用户语音输入中的文字；利用所述处理器确定所识别的文字中致使包含在所述用户语音输入中的命令有歧义的至少一个文字；利用所述处理器访问境况数据；基于所述境况数据，利用所述处理器消除所述命令的歧义；以及利用所述处理器根据所述命令进行预定动作。还描述并且要求保护了其他方面。

Description

利用境况解释自然语言语音识别命令

技术领域

本发明涉及信息处理的技术领域，具体地涉及利用境况解释自然语言语音识别命令。

背景技术

例如膝上型计算机、平板计算机、智能电话、桌面计算机、智能电视、导航装置、汽车控制台等信息处理装置(“装置”)可以用于处理语音输入，语音输入例如由诸如麦克风的音频接收器接收。例如，语音识别技术使装置能够将口头的词汇转换为机器文本(例如，通过将数字音频信号转换为机器文本文字)，以用于潜在应用中，例如文字处理文档、搜索应用等。语音识别技术的传统改进主要集中于识别的准确性，即，准确地识别由用户实际说出的一个或多个字。

发明内容

总的来说，本发明的一个方面提供了一种方法，该方法包括：在信息处理装置的音频接收器处接收用户语音输入；利用处理器识别包含在所述用户语音输入中的文字；利用所述处理器确定所识别的文字中致使包含在所述用户语音输入中的命令有歧义的一个文字；利用所述处理器访问境况数据；基于所述境况数据，利用所述处理器消除所述命令的歧义；以及利用所述处理器根据所述命令进行预定动作。

另一个方面提供了一种信息处理装置，该信息处理装置包括：音频接收器；处理器；以及存储装置，所述存储装置存储指令，所述指令能够由所述处理执行，以：在所述信息处理装置的所述音频接收器处接收用户语音输入；识别包含在所述用户语音输入中的文字；确定所识别的文字中致使包含在所述用户语音输入中的命令有歧义的一个文字；访问境况数据；基于所述境况数据，消除所述命令的歧义；以及根据所述命令进行预定动作。

又一个方面提供了一种产品，该产品包括：存储装置，所述存储装置存储有代码，所述代码包括：在信息处理装置的音频接收器处接收用户语音输入的代码；利用处理器识别包含在所述用户语音输入中的文字的代码；利用所述处理器确定所识别的文字中致使包含在所述用户语音输入中的命令有歧义的一个文字的代码；利用所述处理器访问境况数据的代码；基于所述境况数据，利用所述处理器消除所述命令的歧义的代码；以及利用所述处理器根据所述命令进行预定动作的代码。

前述的描述是概要性的说明，从而会包含对细节的简化、概括和省略；因此，本领域的技术人员能够理解，概要仅仅是说明性的并且不意在以任何方式进行限制。

为了更好地理解实施方式以及实施方式的其他和另外的特征和优点，结合附图对以下说明进行参考。本发明的范围将在所附权利要求中指出。

附图说明

图1示出了信息处理装置电路系统的示例。

图2示出了信息处理装置的另一个示例。

图3示出了利用境况来解释自然语言语音识别命令的示例方法。

具体实施方式

容易理解，除所描述的示例实施方式之外，本文附图中总体描述和示出的实施方式的部件可以以多种不同的配置来布置和设计。因此，如在附图中表示的，对示例实施方式的以下更详细的描述并非意在限制实施方式所要求保护的范围，而是仅代表示例实施方式。

在本说明书全文中，对“一个实施方式”或“实施方式”(等)的引用意味着结合实施方式所描述的特定特征、结构或特性包含在至少一个实施方式中。因此，在本说明书全文的各处所出现的短语“在一个实施方式中”或“在实施方式中”等未必都指代同一实施方式。

此外，在一个或多个实施方式中，可以以任何适当的方式对所描述的特征、结构或特性进行组合。在下面的描述中，提供了许多具体的细节，以给出对实施方式的透彻的理解。然而，相关领域的技术人员将认识到，可以在不具有一个或多个具体细节的情况下或使用其他的方法、部件、材料等的情况下实施各种实施方式。在其他的实例中，未详细示出或描述公知的结构、材料或操作，以避免混淆。

语音识别技术是流行的并且结合多种应用使用。例如，诸如因特网搜索应用、文字处理应用、通信应用(聊天、电子邮件、SMS文本等)等的许多装置应用可以获得用户的语音输入，将该语音输入转变为机器可用形式(本文称为机器文本——无论是否将语音信号逐字地转换为文本)以供应用使用。例如，用户可以提供诸如“发送这个文件给我的朋友Jon”的语音输入命令。

当前语音识别技术将如实地并且准确地识别该语音输入。即，传统语音识别将准确地确定用户已经逐字地讲出文字“发送这个文件给我的朋友Jon”。然而，以用户想要的方式作用于该语音输入完全是另一回事。即，必须解析并且理解该语音输入，以使装置执行恰当的动作，例如，确定哪个文件是“这个”文件，哪个目的地与“Jon”相关联，要使用哪种通信模式(例如，电子邮件、文本等)。

因此，实施方式提供了用于利用境况来解释自然语言语音识别命令的机制。在实施方式中，例如，如传统上已知的，对命令的各个文字进行识别。实施方式用以下能力对预先编程的或预先确定的命令的标准执行进行补充(例如，使用某些关键词或触发短语)：对命令中的歧义源(即，其通常致使命令不可执行)进行识别的能力，以及有效利用消除命令的歧义的境况数据(来自多种源)以使得命令可以被执行的能力。

参照附图将会最好地理解所示出的示例实施方式。下面的描述意在仅作为示例，并且简单地示出了某些示例实施方式。

虽然在信息处理装置中可以利用各种其他电路、电路系统或部件，但是对于智能电话和/或平板电路系统100，图1示出的示例包括建立在例如平板或其他移动计算平台中的片上系统设计。软件和(一个或多个)处理器结合在单个芯片110中。处理器包括在本领域中所公知的内部算术单元、寄存器、高速缓冲存储器、总线、I/O端口等。内部总线等依赖于不同的供应商，但是基本上所有的外围装置(120)都可以附接到单个芯片110。电路系统100将处理器、存储器控制和I/O控制器集线器全部组合到单个芯片110中。此外，这种类型的系统100通常不使用SATA或PCI或LPC。公共接口例如包括SDIO和I2C。

存在(一个或多个)电力管理芯片130，例如电池管理单元BMU，该电力管理芯片130对例如经由可再充电电池140供应的电力进行管理，可再充电电池140可以通过连接到电源(未示出)而再充电。在至少一个设计中，单个芯片(例如110)用于提供类似BIOS的功能和DRAM存储器。

系统100通常包括WWAN收发器150和WLAN收发器160中的一个或多个，用于连接到各种网络，例如电信网络和无线互联网装置(如接入点)。另外，附加装置120之一通常是麦克风，麦克风可以包括将声波转换为电音频信号的物理元件。通常，系统100将包括用于数据输入和显示/表示的触摸屏幕170。系统100通常还包括各种存储器装置，例如闪存180和SDRAM190。

图2描绘了信息处理装置电路、电路系统或部件的另一示例的框图。图2所描绘的示例可以对应于计算系统，例如由位于北卡罗来纳州莫里斯维尔的联想(美国)公司销售的THINKPAD系列个人计算机或其他装置。根据本文的描述可以看出，实施方式可以包括其他特征或仅仅包括图2中示出的示例的特征中的某些特征。

图2的示例包括所谓的芯片组210(一起工作的一组集成电路或芯片，芯片组)，该芯片组210具有可以根据制造商(例如INTEL、AMD、ARM等)而变化的架构。INTEL是因特尔公司在美国和其他国家的注册商标。AMD是超微半导体公司在美国和其他国家的注册商标。ARM是ARM控股有限公司在美国和其他国家的未注册商标。芯片组210的架构包括核与存储器控制组220以及I/O控制器集线器250，该I/O控制器集线器250经由直接管理接口(DMI)242或链路控制器244交换信息(例如数据、信号、命令等)。在图2中，DMI242是芯片到芯片的接口(有时被称为“北桥”与“南桥”之间的链路)。核与存储器控制组220包括经由前端总线(FSB)224交换信息的一个或多个处理器222(例如单核或多核的)和存储器控制器集线器226；注意，组220的部件可以被集成在芯片中，该芯片代替传统的“北桥”式架构。一个或多个处理器222包括本领域所公知的内部算术单元、寄存器、高速缓冲存储器、总线、I/O端口等。

在图2中，存储器控制器集线器226与存储器240对接(例如为可被称为“系统存储器”或“存储器”的一类RAM提供支持)。存储器控制器集线器226还包括用于显示装置292(例如CRT、平板、触摸屏等)的LVDS接口232。块238包括可以经由LVDS接口232(例如串行数字视频、HDMI/DVI、显示端口)支持的一些技术。存储器控制器集线器226还包括可以支持独立显卡236的PCI-Express接口(PCI-E)234。

在图2中，I/O集线器控制器250包括SATA接口251(例如用于HDD、SDD等的280)、PCI-E接口252(例如用于无线连接282)、USB接口253(例如用于诸如数字化仪、键盘、鼠标、照相机、电话、麦克风、存储装置、其他连接装置等的装置284)、网络接口254(例如LAN)、GPIO接口255、LPC接口270(用于ASIC271、TPM272、超级I/O273、固件集线器274、BIOS支持275、以及诸如ROM277、闪存278和NVRAM279的各种类型的存储器276)、电力管理接口261、时钟发生器接口262、音频接口263(例如用于扬声器294)、TCO接口264、系统管理总线接口265以及可以包括BIOS268和启动代码290的SPI闪存266。I/O集线器控制器250可以包括千兆位以太网支持。

系统在通电时可以被配置成执行存储在SPI闪存266内的用于BIOS268的启动代码290，此后，系统在一个或多个操作系统和应用软件(例如，存储在系统存储器240中的)的控制下处理数据。操作系统可以存储在各种位置中的任何位置处，并且例如可以根据BIOS268的指令来访问。如本文所描述的，装置可以包括比图2的系统中示出的特征更少或更多的特征。

如图1或图2中示出的示例的信息处理装置电路系统可以被用于使得用户能够提供语音输入的装置中，例如使用各装置的麦克风，语音输入转而可以被装置上正在运行的应用利用。在这方面，图1和图2中示出的装置电路系统可以例如在装置存储器中包括语音识别技术，该语音识别技术对由用户说出的文字(或多个文字)进行识别，用作为输入，以做出动作(例如，形成机器文本输入；执行命令以控制应用等)。

图3概括示出了利用境况来解释自然语言语音识别命令的示例方法。如所示的，实施方式例如通过包括在装置中的麦克风，在301处接收用户语音输入。然后，在302，可以通过讲话者识别引擎对该语音输入进行处理，以准确地识别逐字的输入。例如，用户说出的输入“发送这个文件给我的朋友Jon”会在302处由语音识别引擎识别为“发送”、“这个”、“文件”、“给”、“我的”、“朋友”和“Jon”的逐字输入。

虽然的确存在某些技术，用于解析和分析该串输入，即“发送”、“这个”、“文件”、“给”、“我的”、“朋友”和“Jon”，以识别命令，但是在这种情况下，尽管“发送”命令被准确地识别，但是该输入的剩余文字从确定要发送什么(例如哪个“文件”)、给谁(例如哪个“Jon”)以及如何发送(例如通过电子邮件、SMS文本等)的角度看，仍然有歧义。

因此，实施方式利用例如在语音输入自身中发现的境况、其他境况数据中的境况或上述的组合，使得用户语音输入中的这些歧义被消除。在该示例中，实施方式识别所识别的文字中的哪些致使用户语音输入有歧义。考虑到文字“发送”可以被映射至诸如传递文件的命令动作，所以可不将它识别为歧义源。

然而，正如在303处所确定的，文字“文件”和“Jon”可以是尤其有问题的。对用户语音输入中的歧义文字的识别自身可有效利用境况数据。例如，使用直接的境况分析(例如“发送”被映射至传递命令，并且形式默认为接收输入的、当前运行的应用，如电子邮件应用、SMS文本应用等)，可以将文字“发送”从所识别的、引起歧义的文字中忽略。

另一方面，其他文字不会那么容易地消除歧义，并且因此可以被识别为使用另外的境况进一步分析的对象，例如本示例中的“文件”和“Jon”。对于在303处被识别为歧义源的文字“Jon”，实施方式可以有效利用用户语音输入中的境况数据，即，“朋友”，来确定境况数据的另外的源，例如装置上的“朋友”联系人。因此，在304处，实施方式访问用户语音输入内的境况数据以及诸如联系人列表和其子组的用户语音输入外部的境况数据，从而试图消除语音输入的歧义并且因此对要被执行的合适的命令功能进行识别。

另外，可以利用其他境况数据。在本示例中，文字“这个”可以被预先确定为或者默认识别为歧义文字，并因此在303处被识别。因此，文字“这个”可以被用作触发事件，实施方式通过该触发事件访问另外的境况数据，从而解释文字“这个”/消除文字“这个”的歧义。应当注意：其他这样的文字可以被类似地处理，并且文字“这个”被用作一个非限制性示例。例如，在选择要发送多个文件或多个文件被打开等的情况下，实施方式可以与“这个”类似地消除“这些”的歧义。

因此，考虑到用户语音输入中诸如“这个”的歧义源在303处的识别，实施方式在适当的时候在304处访问另外的境况数据。在文字“这个”的示例中，实施方式可以进行境况的分析，在该境况中，文字“这个”出现在用户语音输入中，例如在文字“文件”之前与其紧邻。因此，利用境况数据(在该情况下，从用户语音输入自身获得)来确定文字“文件”和“这个”之间的关联。这允许进一步的分析，即利用与“文件”相关的境况数据。

在这点上，在304处被访问的境况数据可包括已知与当前情况相关的文件，例如应用中当前打开的文件、正在运行的应用中被选择或被突出的文件、最近使用过的一个或多个文件等。因此，可收集“对象”的可疑列表，即可以表示“这个”文件的数据或文件。

因此在305处，实施方式可以确定歧义是否已经被解决。例如，通过找出装置上位于“个人”或“朋友”子组中的一组联系人中的单个“Jon”，围绕文字“Jon”的歧义可以被确定为已解决。可替代地，如果在联系人中只找出了一个“Jon”，则在305处，该歧义可以被确定为被解决。类似地，如果只选择了一个文件或者只识别出了具有打开文件的一个应用，则在305处，关于哪个文件是“这个”文件的歧义可以被确定为被解决。

此后，根据要被解决的歧义的数量和/或歧义(或歧义的组)在其上已经被解决的置信水平，实施方式可以在306处执行或进行动作或命令。例如，如果仅仅一个文件被识别并且仅仅一个Jon被识别，则实施方式可以自动进行与语音输入“发送这个文件给我的朋友Jon”相对应的预先确定的动作。这可通过再次部分地基于如上所述的消除歧义分析或者根据预定的默认规则而完成，预定的默认规则例如选择可能的传送形式(例如，对于可接受的置信程度，例如基于这种类型的传输文件的用户历史，很可能电子邮件是本境况中优选的形式)或者关于形式的预确规则(例如，使用SMS文本消息发送形式将图片文件发送给只列出电话号码且未列出电子邮件的联系人)。

在解决歧义时，消除歧义可以考虑例如如在自然语言语音命令中出现的多个语音输入。通过示例，如果发出语音命令“发送这个文件给我的朋友Jon”的用户已经预先查找过文件(例如使用语音命令“找出名为quarterlyearnings.ppt的文件”)，则实施方式可以有效利用这个以前的语音输入(例如作为境况数据被保存的)，从而正确地推断哪个文件是“这个”文件。就此而言，境况可以是跨应用和/或装置的(例如，活动的应用、机器状态等)。因此，考虑到实施方式可以存储为用于消除“这个”的歧义以找出特定文件的境况数据信息，“将这个发送给昨天在会议上的每个人”的用户语音命令也可以将“每个人”的歧义消除为包含在存储于装置约会日程表“昨天”中的日程表条目中的人。

如果实施方式不确定歧义在305处已经被解决(例如对于预定的置信度阈值)，则为了进一步输入，实施方式可以询问用户。例如，如果在联系人的朋友子组中发现了多于一个名叫“Jon”的联系人，则实施方式可以询问用户，以消除输入的歧义，例如在进行或执行命令之前，从名叫“Jon”的联系人列表中进行选择，询问姓、地址(或其一部分)等。当然，如果没有检测到歧义，则实施方式可以在306处执行命令而没有进一步的延迟。

因此，在305处利用境况数据解决歧义时，消除歧义包括：将境况数据项目(例如联系人列表条目)与经识别致使命令有歧义的文字(如Jon)相关联。因此，这些项目的关联可以被认为是利用境况数据项目将装置对象(例如，联系人“Jon”的电子邮件或联系人号码)与经识别致使命令有歧义的文字(例如“Jon”)相联系。考虑到该联系，实施方式可以基本上用诸如联系人号码的装置对象标识符来代替诸如“Jon”的经识别致使命令有歧义的文字，从而将语音输入转换为“发送[文件对象标识符]给我的朋友[联系人对象标识符]”或者具体地“(发送[文件a]给[123-456-7890])”。

因此，实施方式允许用户表达自然语言命令，识别并且解决这些自然语言命令中的歧义，使得命令可以在具有或不具有进一步的用户输入(例如，确认)的情况下被执行。如从上述可以被理解的，实施方式允许用户继续使用关于相应的命令或动作的执行失败次数最少的自然语言语音输入或命令。

如本领域技术人员理解的，各方面可以被实施为系统、方法或装置程序产品。因此，多个方面可以采取在本文中通常都可以被称为“电路”、“模块”或“系统”的完全硬件的实施方式或包括软件的实施方式的形式。此外，多个方面可以采取装置程序产品的形式，该装置程序产品包含在具有装置可读程序代码的一个或多个装置可读介质中。

应该注意，本文中描述的各种功能可以使用存储在例如非信号存储装置的装置可读存储介质上由处理器执行的指令实现。可利用一个或多个非信号装置可读存储介质的任意组合。存储介质可以是例如电子的、磁的、光学的、电磁的、红外的或半导体的系统、设备或装置，或前述的系统、设备或装置的任何适当组合。存储介质的更具体示例可以包括如下：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储装置、磁存储装置或其任何适当的组合。在本文的上下文中，存储介质不是信号并且是“非瞬时的”，包括除了信号介质以外的所有介质。

可以使用任何适当的介质，包括但不限于无线、有线、光纤线缆、RF等或其任何适当的组合，来传输在存储介质上实施的程序代码。

可以以一种或者多种编程语言的任何组合来编写用于执行操作的程序代码。程序代码可以完全在单个装置上执行、部分地在单个装置上执行、作为独立软件包部分地在单个装置上且部分地在另一装置上执行、或者完全地在其他装置上执行。在某些情况下，可以通过任何类型的连接或包括局域网(LAN)或广域网(WAN)的网络来连接装置，或可以通过其他的装置(例如通过使用因特网服务提供商的因特网)、通过如近场通信的无线连接或通过如USB连接的硬线连接来进行连接。

本文参照附图描述了多个示例实施方式，这些附图示出了根据各种示例实施方式的示例方法、装置和程序产品。可以理解的是，动作和功能可以至少部分地由程序指令来实现。可以将这些程序指令提供给通用信息处理装置、专用信息处理装置或其他的可编程数据处理装置的处理器，以产生这样一种机制，使得经由装置的处理器执行的指令实现指定的功能/动作。

值得注意的是，虽然在附图中使用了具体的块，并且已示出了块的特定排序，但是这些是非限制性的示例。因为明确示出的示例仅用于描述性的目的并不应该被理解为限制，所以在某些上下文中，可以将两个或更多个块组合，块可以被分成两个或更多个块，或某些块可以适当地重新排序或重新组织。

除非明确地另外指出，如在本文中所使用的，单数“a”和“an”可以被理解为包括复数“一个或多个”。

本发明提出的公开内容用于说明和描述的目的，而非意在穷举或限制。对本领域的技术人员来说，许多修改和变化是明显的。本发明中选择并描述的示例实施方式用于说明原理和实际应用，并且使得本领域其他技术人员能够理解本发明的具有各种修改的各种实施方式适合于预期的特定用途。

因此，尽管本文已参考附图描述了说明性的示例实施方式，但是应当理解该描述不是限制性的，并且在不偏离本公开内容的范围或精神的情况下，本领域技术人员可以作出各种其他变化和修改。

Claims

1.一种信息处理方法，包括：

在信息处理装置的音频接收器处接收用户语音输入；

利用处理器识别包含在所述用户语音输入中的文字；

利用所述处理器确定所识别的文字中致使包含在所述用户语音输入中的命令有歧义的至少一个文字；

利用所述处理器访问境况数据；

基于所述境况数据，利用所述处理器消除所述命令的歧义；以及

利用所述处理器根据所述命令进行预定动作。

2.根据权利要求1所述的方法，其中所述境况数据是从所述语音输入获得的。

3.根据权利要求2所述的方法，其中从所述语音输入获得的所述境况数据包括选自联系人和应用名称所构成的文字组的、包含在所述用户语音输入中的所识别的文字。

4.根据权利要求1所述的方法，其中所述境况数据是从所述信息处理装置上的打开应用的列表获得的。

5.根据权利要求1所述的方法，其中所述境况数据是从所述信息处理装置上的最近使用应用的列表获得的。

6.根据权利要求1所述的方法，其中所述境况数据是从所述信息处理装置上的最近使用对象的列表获得的。

7.根据权利要求1所述的方法，其中所述消除歧义包括：将境况数据项目与致使所述命令有歧义的所识别的文字相关联。

8.根据权利要求7所述的方法，其中所述相关联包括：利用所述境况数据项目，使装置对象与致使所述命令有歧义的所识别的文字相联系。

9.根据权利要求8所述的方法，其中所述相关联还包括：用装置对象标识符来代替致使所述命令有歧义的所识别的文字。

10.根据权利要求9所述的方法，其中所述装置对象标识符是指向服从于所述命令的装置对象的文件名。

11.一种信息处理装置，包括：

音频接收器；

处理器；以及

存储装置，所述存储装置存储指令，所述指令能够由所述处理器执行，以：

在所述信息处理装置的所述音频接收器处接收用户语音输入；

识别包含在所述用户语音输入中的文字；

确定所识别的文字中致使包含在所述用户语音输入中的命令有歧义的一个文字；

访问境况数据；

基于所述境况数据，消除所述命令的歧义；以及

根据所述命令进行预定动作。

12.根据权利要求11所述的信息处理装置，其中所述境况数据是从所述语音输入获得的。

13.根据权利要求12所述的信息处理装置，其中从所述语音输入获得的所述境况数据包括选自联系人和应用名称所构成的文字组的、包含在所述用户语音输入中的所识别的文字。

14.根据权利要求11所述的信息处理装置，其中所述境况数据是从所述信息处理装置上的打开应用的列表获得的。

15.根据权利要求11所述的信息处理装置，其中所述境况数据是从所述信息处理装置上的最近使用应用的列表获得的。

16.根据权利要求11所述的信息处理装置，其中所述境况数据是从所述信息处理装置上的最近使用对象的列表获得的。

17.根据权利要求11所述的信息处理装置，其中所述消除歧义包括：将境况数据项目与致使所述命令有歧义的所识别的文字相关联。

18.根据权利要求17所述的信息处理装置，其中所述相关联包括：利用所述境况数据项目，使装置对象与致使所述命令有歧义的所识别的文字相联系。

19.根据权利要求18所述的信息处理装置，其中所述相关联还包括：用装置对象标识符来代替致使所述命令有歧义的所识别的文字。