CN104700834B

CN104700834B - 信息处理方法及信息处理装置

Info

Publication number: CN104700834B
Application number: CN201410532978.2A
Authority: CN
Inventors: 拉塞尔·斯佩格特·范布恩; 乔恩·韦恩·海姆; 乔纳森·盖瑟·诺克斯; 彼得·哈米尔顿·韦特塞尔; 苏珊娜·玛丽恩·博蒙
Original assignee: Lenovo Singapore Pte Ltd
Current assignee: Lenovo Singapore Pte Ltd
Priority date: 2013-12-05
Filing date: 2014-10-10
Publication date: 2019-01-04
Anticipated expiration: 2034-10-10
Also published as: US20150161984A1; US10770060B2; CN104700834A

Abstract

本发明提供了一种信息处理方法和信息处理装置。该方法包括：经由信息处理装置的音频接收器接收用户声音输入；基于用户声音输入辨识第一词语；访问词语关联数据存储库；基于词语关联数据存储库内与第一词语的关联来选择等同词；基于等同词做出动作；接收来自用户的关于等同词的反馈输入；以及基于反馈更新选择。另外，描述并要求保护其它方面。

Description

信息处理方法及信息处理装置

技术领域

本发明涉及信息处理技术，尤其涉及用于自适应学习的语音识别的技术。

背景技术

例如膝上型计算机、平板电脑、智能电话、台式计算机、智能TV、信息服务亭(kiosk)、ATM、导航装置、汽车控制台等的信息处理装置(“装置”)可以用于处理例如由诸如麦克风的音频接收器所接收的语音输入。例如，语音识别技术能够使装置通过将数字音频信号转换成机器文本词语来将口头词语变换为机器文本，以在下面的应用(例如，字处理文档、搜索应用等)中使用。语音识别技术中的常规改进主要集中在识别的准确度上，即，准确地识别用户实际说出的一个或多个词语。

发明内容

总的来说，一个方面提供了一种信息处理方法，包括：经由信息处理装置的音频接收器接收用户声音输入；基于用户声音输入辨识第一词语；访问词语关联数据存储库；基于词语关联数据存储库内与第一词语的关联来选择等同词；基于等同词做出动作；接收来自用户的关于等同词的反馈输入；以及基于反馈输入更新选择。

另一方面提供了一种信息处理装置，包括：音频接收器；处理器；以及存储装置，该存储装置存储能够由处理器执行的用以执行下述操作的指令：经由音频接收器接收用户声音输入；基于用户声音输入辨识第一词语；访问词语关联数据存储库；基于词语关联数据存储库内与第一词语的关联来选择等同词；基于等同词做出动作；接收来自用户的关于等同词的反馈输入；以及基于反馈输入更新选择。

另一方面提供了一种产品，包括：存储有代码的存储装置，该代码包括：用于经由信息处理装置的音频接收器接收用户声音输入的代码；用于基于用户声音输入辨识第一词语的代码；用于访问词语关联数据存储库的代码；用于基于词语关联数据存储库内与第一词语的关联来选择等同词的代码；用于基于等同词做出动作的代码；用于接收来自用户的关于等同词的反馈输入的代码；以及用于基于反馈更新选择的代码。

以上为概要，因此可能包括对细节的简化、概括和省略；因此，本领域的技术人员将理解该概要仅是说明性的而不意在以任何方式进行限制。

为了更好地理解实施方式连同实施方式的其它的以及进一步的特征和优点，参照结合附图的以下说明。将在所附的权利要求中指出本发明的范围。

附图说明

图1示出了信息处理装置电路系统的示例；

图2示出了信息处理装置的另一示例；

图3示出了自适应地学习词汇以完成语音识别命令的示例方法。

具体实施方式

将容易理解，除所描述的示例实施方式之外，在本文附图中总体描述和示出的实施方式的部件可以以多种不同配置来布置和设计。因此，附图中所示的示例实施方式的下述更详细的描述并非意在限制所要求保护的实施方式范围，而是仅代表示例实施方式。

贯穿本说明书提及的“一个实施方式”或“实施方式”(等)表示结合该实施方式所描述的具体特征、结构或特性被包含在至少一个实施方式中。因此，遍及本说明书中各处出现的短语“在一个实施方式中”或“在实施方式中”等未必都指代同一实施方式。

此外，在一个或更多个实施方式中，可以以任何适当的方式对所描述的特征、结构或特性进行组合。在下面的描述中，提供了许多具体的细节以给出对实施方式的透彻理解。然而，相关领域中的技术人员将认识到，可以在不具有一个或更多个具体细节的情况下实施各种实施方式，或者使用其它方法、部件、材料等来实施各种实施方式。在其它实例中，为了避免混淆，没有详细示出或描述公知的结构、材料或操作。

语音识别技术非常普遍并且结合各种应用一起使用。例如，许多装置应用(例如，因特网检索应用、字处理应用、通讯应用(聊天、电子邮件、短消息SMS文本等)等)可以采集用户的声音输入、将该声音输入转换成机器能够使用的形式(本文称为机器文本—不论声音信号是否准确地被转换为文本)以供该应用使用。例如，用户可以利用作为装置上当前正在运行的特定应用的网页浏览器来提供声音输入命令(诸如“停止网页浏览器”)。

当前的语音识别技术将会如实地并且准确地识别该声音输入。即，常规的语音识别将准确地确定用户按照字面意思说出的词语“停止网页浏览器”。然而，以用户期望的形式对该声音输入进行操作完全是另外一回事。即，为了使装置执行恰当的动作(例如关闭网页浏览器、最小化网页浏览器等)，必须解析并理解该声音输入。

如可以理解的，可能难以准确地将特定输入字符串与特定命令进行映射或关联。即，个别用户可能在希望装置关闭整个应用时说出词语“停止网页浏览器”，另一用户可能仅希望最小化网页浏览器，而另一用户可能希望在网页浏览器保持在当前页面的情况下停止当前正在加载的网页等。

该用户特定所附加的挑战是如下事实：多个用户可能尝试使用不同的短语执行相同的动作(如命令关闭网页浏览器)。举例来说，第一个用户可能说出词语“停止网页浏览器”来试图使装置关闭网页浏览器，然而第二个用户可能说出词语“关闭网页浏览器”来试图关闭网页浏览器。因此，用户可能试图利用不同的词汇(在这种情况下，为同义词)达到相同的目的。

因此，实施方式提供用户特定的词汇学习，以使得特定用户的声音命令可以适应于(从特定用户的角度来看)恰当的动作。此外，实施方式提供等同词汇学习，以使得可以利用不同的短语(例如，区域短语或俚语词语)执行相同的命令。

通过参照附图将会更好地理解所示出的示例实施方式。以下的描述意在仅作为示例，并且仅示出某些示例实施方式。

虽然在信息处理装置中可以使用各种其它电路、电路系统或部件，但是针对智能电话和/或平板电脑电路系统100，图1中示出的示例包括例如存在于平板电脑或其它移动计算平台中的片上设计的系统。在单个芯片110中组合有软件和处理器。如本领域所公知的，处理器包括内部算术运算单元、寄存器、高速缓冲存储器、总线、I/O端口等。尽管内部总线等取决于不同的供应商，但是基本上所有的附加装置(120)都可以附接到单个芯片110。电路系统100将处理器、存储器控制和I/O控制器集线器全部都组合到单个芯片110中。此外，这种类型的系统100通常不使用串行高级技术附件(SATA)或PCI或LPC。公共接口例如包括安全数字输入输出(SDIO)和I2C。

存在用于管理经由例如可再充电电池140供应的电力的电力管理电路130(例如电池管理单元BMU)，可再充电电池140可以通过连接到电源(未示出)而再充电。在至少一个设计中，使用单个芯片(诸如110)来提供类似BIOS的功能和DRAM存储器。

系统100通常包括无线广域网(WWAN)收发器150和无线局域网(WLAN)收发器160中的一个或更多个以连接到各种网络，诸如电信网络和无线因特网装置(如接入点)。另外，附加装置120中的一个装置通常是可以包括用于将声波转换成电音频信号的物理元件的麦克风。通常，系统100将包括用于数据输入、显示/呈现的触摸屏/控制器170。系统100通常还包括各种存储装置，例如闪存180和同步动态随机存取存储器(SDRAM)190。

图2描绘了信息处理装置电路、电路系统或部件的另一示例的框图。图2中描绘的示例可以对应于诸如由位于北卡罗来纳州莫里斯维尔市的联想(美国)公司销售的THINKPAD系列的个人计算机的计算系统或其它装置。根据本文的描述明显可知，实施方式可以包括其它特征或仅包括图2所示的示例的特征中的一些特征。

图2的示例包括其架构可能依据制造商(例如，INTEL、AMD、ARM等)而不同的所谓的芯片集210(一起工作的一组集成电路或芯片，芯片集)。INTEL是英特尔公司在美国和其它国家的注册商标。AMD是超微半导体公司在美国和其它国家的注册商标。ARM是安谋国际科技股份有限公司在美国或其它国家的未注册商标。芯片集210的架构包括经由直接管理接口(DMI)242或链接控制器244交换信息(例如数据、信号、命令等)的核/存储器控制组220和I/O控制器集线器250。在图2中，DMI242是芯片-芯片接口(有时称为“北桥”与“南桥”之间的链接)。核/存储器控制组220包括经由前端总线(FSB)224交换信息的一个或更多个处理器222(例如单核或多核)以及存储器控制器集线器226；注意组220的部件可以被集成在代替传统“北桥”式架构的芯片中。如本领域的技术人员公知的，一个或更多个处理器222包括内部算术运算单元、寄存器、高速缓冲存储器、总线、I/O端口等。

在图2中，存储器控制器集线器226和存储器240连接(例如，以对可以被称为“系统存储器”或“存储器”的RAM类型提供支持)。存储器控制器集线器226还包括用于显示装置292(例如，CRT、平板、触摸屏等)的低压差分信号(LVDS)接口232。块238包括可以通过LVDS接口232支持的一些技术(例如串行数字视频、高清晰度多媒体接口(HDMI)/数字视频接口(DVI)、显示端口)。存储器控制器集线器226还包括可以支持独立显卡236的PCI扩展接口(PCI-E)234。

在图2中，I/O控制器集线器250包括SATA接口251(例如用于HDD,SDD 280等)，PCI-E接口252(例如用于无线连接282)、USB接口253(例如，用于诸如数字转换器、键盘、鼠标、摄像头、电话、麦克风、存储装置、其它连接装置等的装置284)、网络接口254(例如，LAN)、通用输入输出(GPIO)接口255、LPC接口270(用于专用集成电路(ASIC)271、TPM 272、超级I/O273、固件集线器274、BIOS支持275以及如ROM 277、闪存278以及NVRAM 279的各种类型的存储器276)，电力管理接口261、时钟发生器接口262、音频接口263(例如用于扬声器294)、TCO接口264、系统管理总线接口265以及可以包括基本输入输出系统(BIOS)268和启动代码290的SPI闪存266。I/O控制器集线器250可以包括千兆比特的以太网支持。

系统在通电时可以被配置成执行存储在SPI闪存266内的用于BIOS268的启动代码290，此后，在一个或更多个操作系统和应用软件(例如存储在系统存储器240中)的控制下处理数据。操作系统可以存储在多个位置中的任意位置，并且可以根据例如BIOS 268的指令被访问。如本文所描述的，装置可以包括比图2的系统中示出的特征更少或更多的特征。

对于图1或图2概述的示例，信息处理装置电路系统可以应用在允许用户使用例如相应装置的麦克风来提供声音输入的装置中，该声音输入反过来可以被装置上运行的应用使用。在这方面，图1和图2中概述的装置电路系统可以在装置存储器中包括例如语音识别技术，该语音识别技术辨识用户说出的词语(或多个词语)以用作对于执行动作(例如，形成机器文本输入；执行用以控制应用的命令等)的输入。

图3概述了自适应地学习词汇以完成语音识别命令的示例方法。在实施方式中，用户可以在301处提供例如由诸如图1和/图2中概述的装置的音频接收器检测到的声音输入。语音识别引擎利用该音频信息来辨识声音输入中包含的词语。例如，根据例如常规语音识别处理进行声音输入的第一解释。在本文中，这被称为“第一词语”，即，针对用户实际所说辨识出的第一词语。

作为非限制性示例，用户可能打开网页浏览器并且希望关闭该应用。用户可能说出输入“关闭网页浏览器”作为301处的声音输入。语音识别可以准确地将该声音输入辨识为机器文本“关闭”、“网页”和“浏览器”作为302处的第一词语。然而，必须确定该输入是否与已知的命令相关联。即“关闭”必须被解析、识别为命令，并且映射至动作。

因此，实施方式可以在303处确定命令词语是否是已知的。在该示例中，命令“关闭”可以被映射到默认动作，例如按照字面意思关闭所辨识出的应用(即，该情况下的网页浏览器)。因此，如果辨识出为已知的命令，则实施方式可以在304处基于或使用第一词语解释执行已知的命令，在该示例中，关闭网页浏览器。

然而，可能发生“已知”命令(即默认的或另外识别出的命令)不是特定用户所期望的命令的情况。因此，实施方式可以在308处与用户进行交流以在309处收集关于所执行命令的反馈(肯定的或否定的)。因此，如果用户替代地仅是期望最小化网页浏览器，而不是关闭网页浏览器，则用户可以在309处例如以下述形式提供否定的反馈：该形式表示所执行的命令是错误的(至少针对该特定用户)，或表示待执行的恰当命令(例如最小化)等。可以利用在309处提供的反馈更加准确地辨识词语识别本身、命令映射(如在上述的示例中)、和/或如本文进一步描述的各词语之间的关联。

因此，实施方式可以关于给出了特定词语辨识的待执行的命令自适应地学习用户特定的词汇。例如，可以通过对关于各种词语的解释的共享数据存储库进行更新来共享该用户特定的学习，以使得其他用户(以及他们的系统)可以经由例如云共享访问包含各种关联的数据存储库来使用这些所学习的命令。因此，例如通过用户对正利用的装置验证他/她自己，可以由同一用户访问用户特定的学习的命令，以使得当前正被利用的装置可以访问共享数据存储库。同样地，这些学习的命令可以被本地存储在装置自身上以用于之后在同一装置上检索和使用。

假设实施方式可以针对给定的声音输入(例如“关闭网页浏览器”)来学习新的命令，则当用户之后提供该输入时，可能导致做出或执行不同的命令。例如，如果用户之后说出命令“关闭网页浏览器”(例如，第二次，或第一次，如果装置被告知该特定用户或别的类似用户可能关于命令词语“关闭”具有模糊的意图)，则实施方式在303处将不会确定命令“关闭”是已知的。相反，实施方式在305处可以访问例如之前学习并存储在装置上的或从例如云存储位置检索的词语关联的数据存储库。

假设词语关联数据存储库中的信息(例如“关闭”)针对该特定用户可能已知为等同于“最小化”。实施方式可以经由例如将待做出的动作与用户进行交流以确认或将待做出的动作包括在可能命令(例如，关闭网页浏览器、最小化网页浏览器等)的列表中来确认该理解。因此，实施方式可以在306处确定存在针对第一词语解释的已知关联。假设该学习的词汇，即在使用“关闭”作为命令的情形中，该特定用户特别想要“最小化”，则在该示例中实施方式可以基于第二词语(即最小化)来执行不同的动作。因此，实施方式可以将词语“关闭”转换为“最小化”，例如将第一词语转化为等同词(例如第二词语)，并且使命令基于第二词语。这样，网页浏览器应用相反地可以在307处最小化而不是关闭。再者，实施方式可以通过在308处与用户交流以及在309处接收反馈来继续学习。

实施方式可以使用该自适应学习机制在很多种情形中学习词语，例如用于执行命令的动词。如上所述，可以单独地或与用户特定的学习相结合地采用组学习。

例如，某词语或某些词语开始对于装置可能没有已知的含义(基于关联的本地存储库或访问关联的远程存储库二者之一)，但之后可以获得含义。一个示例是最近(约2009年)添加到英语单词词典的“unfriend”。因此，一个新的词语，尽管在起始时(例如如在303处确定的)是未知的，但是可以通过在309处接收用户反馈来学习，以使得新词语可以被添加到特定用户的可进行动作的命令的词汇中、特定组的可进行动作的命令的词汇中等。因此，实施方式例如可以通过访问已经利用新词语和/或词语的新含义更新的共享数据存储库来学习新的词语。附加地或可替换地，用户特定的新词语或新词语含义可以由用户输入并且之后通信给共享数据存储库，以使得对其访问的其他用户可以采用该词语或词语含义。

利用该自适应学习机制，实施方式可以解释多种语境下的词语含义。例如，在特定区域中，给定的词语可能具有接受的含义，而在不同的区域中，该同样的词语可能没有含义或具有不同的含义。

作为具体示例，实施方式可能从用户学习到在特定地理区域中词语“red up”具有“clean up”或“organize”的含义。因此，在301处面对该输入，虽然语音识别引擎可以在302处准确地确定用户已经说出了短语“red up”，但是尽管如此，在303处该短语最初没有映射到或关联到默认的已知命令。因此，实施方式可以在305处访问(例如，用户特定的、区域特定的、群组特定的等)词语关联数据存储库，以确定短语“red up”是在宾夕凡尼亚州针对“clean up”或“organize”使用的俗语。因此，在306处，实施方式可以确定存在针对这样的命令的已知关联并且在307处执行相应的动作。例如，提供声音输入“red up”的用户可以具有与该俗语词语关联的相应的正式语言或标准化的命令词语(例如“organize”或“clean”)，因此实施方式可以将该词语解释为“clean up”命令或“organize”命令。

相应地，各种实施方式可以调整在声音命令的处理中使用的词汇。该自适应学习可以包括(例如经由用户反馈机制确定的)用户特定的学习，以及还可以包括群组特定的学习，因为用户群组可以共享他们的词汇和/或命令。另外，可以考虑词语使用中的各种已知差异，例如在对装置可存取的现有词语关联数据存储库中捕捉到的变形。因此，词语关联数据存储库可以包括下述关联：诸如与正式语言同义词关联的俗语、与正式语言术语关联的俚语术语、与正式语言术语关联的行话以及与正式语言术语关联的方言专用术语。在这样的数据存储库中可以包括多种国家的语言。此外，通过共享数据存储库和数据存储库中做出的关联，不同的用户可以补充他们自己的本地存储词汇和关联的命令。

如本领域的技术人员将理解的，各个方面可以被实施为系统、方法或装置程序产品。因此，各个方面可以采用完全硬件实施方式或包括软件的实施方式的形式，其在本文中可以全部统称为“电路”、“模块”或“系统”。此外，各个方面可以采用在一个或多个装置可读介质中实施的装置程序产品的形式，在所述一个或多个装置可读介质中包含有装置可读程序代码。

应该注意，本文所描述的各种功能可以使用存储在装置可读存储介质(如通过处理器执行的非信号存储装置)上的指令来实施。可以利用一个或多个非信号装置可读介质的任何组合。存储介质可以是例如电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置，或前述的任何适当的组合。存储介质的更多具体示例可以包括如下：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式致密盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任何适当的组合。在本文的上下文中，存储介质不是信号并且“非暂态”包括除了信号介质以外的所有介质。

可以使用任何适当的媒介来传输存储介质上所包含的程序代码，包括但不限于无线、电线、光纤线缆、RF等或前述的任何适合的组合。

可以以一种或更多种编程语言的任何组合来编写用于执行操作的程序代码。该程序代码可以完全在单个装置上执行、部分地在单个装置上执行、作为独立软件包执行、部分地在单个装置上执行且部分地在另一装置上执行，或完全在其他装置上执行。在一些情况下，可以通过任何类型的连接或网络(包括局域网(LAN)或广域网(WAN))来连接装置，或者可以通过其他装置(例如通过使用因特网服务提供商的因特网)或通过无线连接如近场通信或通过硬线(如通过USB连接)来进行连接。

本文参照附图描述了示例实施方式，这些附图示出了根据各种示例实施方式的示例方法、装置以及程序产品。要理解的是，可以至少部分地由程序指令来实现动作和功能。可以将这些程序指令提供给通用信息处理装置、专用信息处理装置或者其他可编程数据处理装置的处理器以产生机器，以使得经由装置的处理器执行的指令实现指定的功能/动作。

值得注意，虽然在附图中使用了特定块，并且已经示出了块的特定顺序，但是这些是非限制性示例。在某些上下文中，可以合并两个或更多个块，可以将一个块分为两个或更多块，或者可以将某些块恰当地重新排序或重新组织，因为详细示出的示例仅用于描述目的而不解释为限制性的。

除非另外明确指出，本文所使用的单数的“一”和“一个”可以被解释为包括复数“一个或更多个”。

为了说明和描述的目的呈现了本公开内容而非意在穷举或限制。对于本领域的技术人员来说，许多修改和变型将是明显的。为了说明原理和实际应用选择并描述了示例实施方式，并且示例实施方式使得本领域的技术人员能够理解具有适于预期的特定用途的各种修改的各种实施方式的公开内容。

因此，虽然本文参照附图描述了说明性的示例实施方式，但是要理解本描述不是限制性的，并且在不偏离本公开内容的范围或精神的情况下本领域的技术人员可以对其作出各种其它变化和修改。

Claims

1.一种信息处理方法，包括：

经由信息处理装置的音频接收器接收用户声音输入；

基于所述用户声音输入辨识第一词语；

访问词语关联数据存储库；

基于所述词语关联数据存储库内针对所述用户与所述第一词语的关联来选择等同词；

基于所述等同词做出动作；

接收来自所述用户的关于所述等同词的反馈输入；以及

基于所述反馈输入更新所述选择;

其中，所述用户的关于所述等同词的反馈输入包括：基于所述等同词做出的动作错误，或待执行的恰当命令。

2.根据权利要求1所述的方法，其中，来自所述用户的关于所述等同词的反馈输入包括关于选择等同词语的反馈。

3.根据权利要求1所述的方法，其中，所述词语关联数据存储库内的所述关联是选自包括下述的关联组的词语关联：与正式语言等同词关联的俗语、与正式语言术语关联的俚语术语、与正式语言术语关联的行话术语以及与正式语言术语关联的方言专用术语。

4.根据权利要求1所述的方法，其中，所述词语关联数据存储库包括针对多个正式语言的正式语言等同词。

5.根据权利要求1所述的方法，其中，所述动作包括执行与所述等同词相关联的命令。

6.根据权利要求5所述的方法，还包括在执行所述命令之前提供与所述用户的交流。

7.根据权利要求6所述的方法，其中，所述交流询问所述用户以进行确认。

8.根据权利要求6所述的方法，其中，所述交流包括待执行的推荐命令的列表。

9.根据权利要求1所述的方法，其中，所述接收来自所述用户的关于所述等同词的反馈输入包括：接收来自关联用户组的反馈。

10.根据权利要求9所述的方法，其中，所述关联用户组包括经由云账户链接而关联的用户。

11.一种信息处理装置，包括：

音频接收器；

处理器；以及

存储装置，所述存储装置存储有能够由所述处理器执行用以执行下述操作的指令：

经由所述音频接收器接收用户声音输入；

基于所述用户声音输入识别第一词语；

访问词语关联数据存储库；

基于所述等同词做出动作；

接收来自所述用户的关于所述等同词的反馈输入；以及

基于所述反馈输入更新所述选择;

12.根据权利要求11所述的信息处理装置，其中，来自所述用户的关于所述等同词的反馈输入包括关于选择等同词语的反馈。

13.根据权利要求11所述的信息处理装置，其中，所述词语关联数据存储库内的所述关联是选自包括下述的关联组的词语关联：与正式语言等同词关联的俗语、与正式语言术语关联的俚语术语、与正式语言术语关联的行话术语以及与正式语言术语关联的方言专用术语。

14.根据权利要求11所述的信息处理装置，其中，所述词语关联数据存储库包括针对多个正式语言的正式语言等同词。

15.根据权利要求11所述的信息处理装置，其中，所述动作包括执行与所述等同词关联的命令。

16.根据权利要求15所述的信息处理装置，其中，所述指令还能够由所述处理器执行以在执行所述命令之前提供与所述用户的交流。

17.根据权利要求16所述的信息处理装置，其中，所述交流询问所述用户以进行确认。

18.根据权利要求16所述的信息处理装置，其中，所述交流包括待执行的推荐命令的列表。

19.根据权利要求11所述的信息处理装置，其中，所述来自所述用户的关于所述等同词的反馈输入包括：接收的来自关联用户组的反馈。