CN101952883B

CN101952883B - 计算机执行的通过基于语音的用户界面与用户交互的方法

Info

Publication number: CN101952883B
Application number: CN2009801062430A
Authority: CN
Inventors: 加勒特·魏因贝格; 比克沙·罗摩克里希纳; 本特·施密特-尼尔森; 布雷特·A·哈沙姆
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2008-02-25
Filing date: 2009-02-25
Publication date: 2012-03-21
Anticipated expiration: 2029-02-25
Also published as: JP5111607B2; EP2245617A1; WO2009107848A1; JP2011505026A; US7917368B2; US20090216538A1; EP2245617B1; CN101952883A

Abstract

一种计算机执行的、便于通过基于语音的用户界面进行用户交互的方法。该方法获取来自用户的、一个或更多个字的短语形式的口述式输入。该方法还使用多个不同的域确定所述短语是查询还是命令。如果所述短语为查询，该方法则从多个数据库中检索并展示相关项目。如果所述短语是命令，则执行操作。

Description

计算机执行的通过基于语音的用户界面与用户交互的方法

技术领域

本发明总体上涉及自动语音识别系统，更具体地涉及针对该系统的用户交互界面。

背景技术

使用自动语音识别(ASR)的应用需要基于语音的用户界面来与用户进行交互。一般地讲，用户可以使用口述式用户输入执行两类任务。第一种任务类型与利用查询的信息检索(IR)有关。在这种任务中，用户希望从存储在数据库中的大的项目集合(如互联网的网页)中检索项目，如文件、图片、唱片等。另一任务类型是针对支持语音的命令与控制。此处，用户希望进行一些操作。这两种任务都涉及将可能是用户所说的话的范围变窄。

在IR的情况下，通常通过如图1所示的对话来完成，其中竖轴表示时间。在图1中，用户101的步骤显示在左侧，系统102的步骤显示在右侧。系统具有某种根状态R 120。用户101提供口述式输入110，例如用来检索项目。口述式输入110被解释为与状态集合X 124有关，而不是与另一些状态集合Y和Z 123有关。作为响应，系统进入下一状态X₀125，并或许对用户进行提示。

用户提供另外的输入110。例如，在基于语音的目的地输入系统中，在被允许说出目的地街道名称之前，用户可能首先需要选择国家，然后在单独的步骤中选择城市。过程124反复地、继续地使系统改变(126)状态128-129，直至交互完成，并检索到了相关项目127。

通常，每个系统状态具有有限的状态专用语法、词汇和/或语言模型，仅通过涉及有限状态机(FSM：finite-state machine)中的两个或更多个应用状态的遍历的多个步骤处理就可以获得状态(如128-129)。

如图2所示，面向命令的方法通常涉及“载体”短语，其中命令字与特定的修饰词(modifier word)和/或变量存在于相同的短语130中。系统将给出的载体短语的含义解释(122)为短语130中的修饰语和变量，并进入状态集合X 124。如果载体短语与例如状态X₁129有关，则系统可以立即进入该状态，或者在进入该状态之前请求来自用户的确认132。使用口头的或物理的交互形态139可以完成用户部分133的确认或取消137。可以同前面一样重复过程124。

其它的方法也是常见的。例如，可以在没有命令的情况下说出变量，或者，命令可以启动对话状态，在该状态下仅变量是可用的。利用诸如短语“发现艺术家Vanilla Ice”中的载体词(carrier word)也可以完成搜索任务。然而，在各情况下，各状态的词汇、短语语法和/或语言模式都是固定的。

通常，这两个不同的界面彼此不兼容。也就是，IR界面不能处理命令，控制界面不能处理查询。

发明内容

语音界面需要以一个多或更多个字的短语形式的口述式输入。确定该短语是查询还是命令。如果该短语是查询，则从数据库中搜索由该短语所指定的相关项目，如该短语是命令则执行操作。

附图说明

图1为用于信息检索的、现有技术的基于语音的界面的框图；

图2为用于命令和控制的、现有技术的基于语音的界面的框图；

图3为根据本发明实施方式的口述式用户界面的框图；

图4为根据本发明实施方式的域的示意图；

图5为构建图4的域的过程的示意图；以及

图6为根据本发明实施方式的域结构示例的示意图。

具体实施方式

本发明的实施方式提供了一种通过基于语音的界面与用户交互的方法。任意的口述式输入要么与信息检索有关，要么与命令和控制有关，后者可以包括从菜单或功能的分级体系中进行选择。

与具有有限的词汇和语法的传统的口述式用户界面相比，我们的界面具有本质上不受限的词汇和语法。这意味着可以以任何顺序说出任何字词。这大大增强了口述式界面的操作的灵活性和有效性。

界面结构和操作

图3示出了根据本发明的实施方式的基于语音的用户界面。竖轴表示时间。用户101的操作在左边示出，系统102的操作在右边示出。

用户通过以一个或更多个字的短语的形式提供非结构化的(unstructured)或半结构化(semi-structured)的口述式输入133。不同于传统的界面，该输入既可以是查询又可以是命令。

除了命令字词以外，在命令短语中还可以包括变量或修饰语。也就是，该界面允许用户说任何话。

不是象传统的界面中那样进入有限状态机(FSM)，诸如在美国专利6877001中所描述的，本系统使用基于语音的IR系统对该口述式输入进行一系列的多域查找和相关分析135，在此以引用的方式将该专利的全部内容合并于此。

口述式输入和任意下层索引以及数据库都可以使用如在同时待审的和相关的美国专利申请SN.12/036,681中所描述和示出的粒子(particle)。查找和相关的评分可以在各域中出现，与传统的命令和控制界面中的一样，这些域中的一些属于命令，而这些域中的其它域属于可搜索内容(如文件或音乐集)或导航系统中的兴趣点(POI)。

可以将应用的不同功能性区域(如音频/视频和导航)内的状态分开进行索引，以形成一个或更多个相区分开的命令域。

命令域和查询域

在命令域的情况下，由IR引擎检索到的“项目”为指向给定的FSM状态的指针，这些项目可以包括有关于由该状态和由可从该项目的状态到达的其它状态所预期的任何输入的信息。如果所需的输入没有包括针对命令项目的IR索引中，则可以通过对照传统的有限状态语法(FSG，其包括变量和/或修饰语的占位符)重新识别语音输入，或者通过提示用户进行额外的阐明输入来提取出该输入。

在内容域的情况下，检索到的“项目”为指向可搜索内容(如艺术家、相册、或音乐收集中的歌曲、或附近餐馆POI)的单独节点的指针。

系统确定口述式输入是查询还是命令(136)。如果最匹配的域为内容域，则向用户展示结果列表137，用户选择激活哪个内容项目(140)。如果输入短语为命令，则可以向用户展示最匹配的一个或更多个命令以进行确认，或者如果存在明确的最匹配命令，则可以立即进行执行(138)。如果需要，可以输入额外的短语来改进或完善命令或查询。

结果提示

可以以多种不同的方式向用户提示相关命令或相关项目。可以按域分开来自不同域的相关匹配，域每次以相同的顺序或者按照与给定的查询的相关度的降序出现。另选地，可以将来自所有域的匹配混合成合并的结果列表。

相关域确定

某一语音输入短语可能在多个域中的各域中得到匹配。为了确定输入短语的最相关的域，我们确定这些匹配中的哪一个最没有可能通过随机选取而被得到。该可能性可以常规地被计算出来。

图4示出了所有域中的项目I的集合406。在该集合中项目I的数目为T。子集I₁，I₂等表示来自域1，2等的项目，并且T₁，T₂等表示这些子集中各子集中的项目数。子集可以相互交叉，见子集407-408。

用户输入短语U检索N个项目，其中N₁个项目来自子集I₁，N₂个项目来自子集I₂，等等。为了确定这些检索的相关度，我们确定出概率

也就是，如果我们要从集合I中随机地选出N个项目，则N₁个项目来自子集D₁。

类似地，我们确定出概率

也就是，如果我们要从集合I中随机地选出N个文件，则N₂个属于子集I₂。总的说，概率为从第i个域中得到的项目数也可以通过从集合I中随机选取N个文件来得到的概率。于是，针对输入短语U的域具有最小的概率

即

Domain (U) = \arg mi n_{i} P_{i}^{rand} (N_{i}, N)

上述方法确定了哪个域最不可能被随机得到，并且将相应的域选择为该输入短语的最相关的域。此外，可以将附加的关于概率的阈值一起用于完全地拒绝输入短语。

上述方法的其它变型也是可能的，可以将随机选取N个文件的实际概率计算在内，或者使用公式内

的上限或下限。

基于文件的域的构建

如在相关的美国专利申请中所表述的，可以通过对各项目进行索引来构建域中的项目。例如，项目为文本文件，诸如操作者手册510。该文件可以明确地或暗含地带有格式，并可以以可机读或可人读的形式而被提供。索引处理将文件分割为较小的段520，并识别可能由检索给定的段的用户所讲的词句(term)或短语。

有好几种使用文件结构(如章节标题和子章节)来识别这些词句的手段。可以针对整体和针对各章节，将对字词和短语的出现的统计进行汇编。可以按段对涉及文件整体的各个术语分配权重。这就使得能够识别出与IR的目的更相关的词句。

可以对非重要词句(如非常短或常用的字，如“该”)的手动或机器生成的“非用词表”进行合并。但是，如果非用词表上的术语被发现在某些段以很高的频率出现，而在其它段不这样，则将该术语从非用词表中移出并移到相关项目的列表。

可以在同义词词典中对出现在章节或子章节标题中的相关或有区别的术语进行查找，如果找到了，也将该同义词添加到针对给定的段的相关或有区别的项目列表中。

图6示出了用户输入133的分层形式的域的结构、一组搜索域610、一组命令域620和项目的各种子集，它们中的一些可以交叉。

尽管参照优选实施方式的示例描述了本发明，但应当理解，可以在本发明的精神和范围内作出的许多其它的适应和修改。因此，所附的权利要求的目的在于涵盖落入本发明的真正精神和范围内的所有这样的变型和修改。

Claims

1.一种计算机执行的通过基于语音的用户界面与用户交互的方法，该方法包括如下步骤：

获取来自用户的一个或更多个字的短语形式的口述式输入；

使用多个不同的域确定所述短语是查询还是命令；

如果所述短语为查询，则从多个数据库中检索并展示相关项目；以及

如果所述短语是命令，则执行操作。

2.根据权利要求1所述的方法，其中如果所述短语是命令，则所述短语包括变量和修饰语。

3.根据权利要求1所述的方法，其中所述短语为粒子的形式，并且对所述项目的索引为粒子的形式。

4.根据权利要求1所述的方法，其中按域对所述相关项目进行分离。

5.根据权利要求1所述的方法，其中按照相关度的顺序来展示所述相关项目。

6.根据权利要求1所述的方法，其中将所述相关项目混合在合并的结果列表中。

7.根据权利要求1所述的方法，其中所有可能的项目形成项目集合，该方法还包括如下步骤：

将所述集合中的项目分组为项目子集，其中各项目子集形成所述多个域中的一个域；

响应于所述查询，从所述多个域中的一个或更多个域中检索所述项目；以及

如果检索到的项目最不可能通过从整个项目集合中进行随机选取而获得，则选择特定的域作为与所述查询最相关的域。