CN101405693A

CN101405693A - 多模式输入的个人协作过滤

Info

Publication number: CN101405693A
Application number: CNA2006800414585A
Authority: CN
Inventors: 马长学; 特德·马祖尔凯维奇
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 2005-11-07
Filing date: 2006-11-03
Publication date: 2009-04-08
Also published as: WO2007056695A2; WO2007056695A3; EP1955142A2; US20070106506A1

Abstract

提供了一种方法和装置用于标识由通信单元的用户录入的输入序列。所述方法包括如下步骤：提供包含来自所述通信单元用户的多个部分序列的数据库，识别由所述用户录入的所述输入序列的至少一些信息项的特征，比较信息项的所述已识别的序列和所述数据库中的多个部分序列，并且选择所述数据库中多个序列中的、与所述已识别序列具有最接近相关匹配的部分序列，作为所述用户想要的输入序列。

Description

多模式输入的个人协作过滤

技术领域

本发明的技术领域涉及通信系统，并且更特别地涉及便携式通信设备。

背景技术

例如蜂窝电话或个人号码助理(PDA)这样的便携式通信设备是众所周知的。这样的设备可以在多种情况中用于建立语音呼叫、或者发送文本信息、或者与实际上在世界任何地方的其他方进行通信。

最近的发展已经简化了所述设备的控制，例如通过在便携式通信设备的功能中引入自动语音识别和手写识别来进行语音呼叫。这些功能的使用极大地减少了通过设备界面录入号码标识符或者文本的单调乏味特性。

但是，自动语音识别，或者手写识别并不是没有缺点。两个系统都使用基于所收集的数据样本而训练的模型。在所述模型和用户之间经常不匹配。语音的识别是基于从许多不同用户收集的样本。由于识别是基于许多不同的用户，所以对任一用户的识别经常会经历严重的差错。所述差错对用户来说经常是系统的。

为了减少差错，经常利用来自特定用户的输入来训练(train)语音识别单元和手写识别单元。但是，训练需要极大的处理工作并且仍然经常产生系统的差错。因此，存在对一种识别方法的需求，该识别方法更适合单独用户并且在语义级别上进行纠正。

附图说明

本发明通过实施例来进行阐明，并且并不限于所述附图，在附图中相同的附图标记表示相似的单元，其中：

图1是根据本发明一个示例实施例的通信单元的模块图，所述通信单元标识(identify)了由用户录入的序列；

图2是可被图1中通信单元所使用的联系记录(contact record)的实例；

图3是可被图1中通信单元所使用的联系记录的第二实例；

图4是可被图1中通信单元所使用的联系记录的第三实例；

图5是可被图1中通信单元所使用的方法步骤的流程图；以及

图6是图1所述设备的处理流程的流程图。

本领域技术人员可以理解附图中的单元是为了简化和清楚起见而进行图示，并不需要按比例绘制。例如，附图中的某些元件的尺寸可能相对于其它元件进行了放大，以助于更好地理解本发明的实施例。

具体实施方式

提供了一种方法和装备，用于标识(identify)由通信单元的用户所录入的输入序列。所述方法包括如下步骤：提供包含来自所述通信单元用户的多个部分序列(partial sequence)的数据库，识别由所述用户录入的所述输入序列的至少一些信息项的特征(identity)，比较信息项的已识别的部分序列和所述数据库中的多个部分序列，并且选择所述数据库中多个序列中的一个序列作为用户想要的输入序列，所述所选择的一个序列与所述已识别的序列具有最接近相关的匹配。

通常，所述方案是基于从所述语音识别系统或者手写识别中输出的文本。可以基于单独用户的使用历史的差错样式(error pattern)来直接检测差错，并且可以使用差错来预测正确的输出。所述方法基于日常使用和用户作出的纠正来不断收集用户的差错样式。由于系统的单词(word)差错经常出现在单词的特定上下文中，所以关于单词的任何预测必须考虑其上下文。此外，在一次纠正之后，任何差错检测应为有效。例如，用户可以讲述号码“12456890”，而纠正后的版本是“12457890”。在这个例子中，用户把单词(号码)6纠正为7。在这个纠正之后，当用户讲述序列“31456891”时，由于系统检测到差错样式“45689”并且将其纠正为“45789”，所以所述预测的输出将是“31457891”。

在一个示例的实施例中，序列的每个已识别的单词被作为焦点单词，并关于其纠正而作出预测。通过联系其左右上下文的单词，形成所述焦点单词的一个部分序列。所述部分序列与差错纠正样式数据库中的条目相匹配。如果发现了所述匹配，则基于差错样式的概率估计出预测。如果没有发现匹配，则绕过所述预测模块。

在上面的例子中，所述部分序列可以具有相同的长度。所述焦点单词被与左侧上下文单词和右侧上下文单词联系在一起。所述部分序列的计数被连续累计并且被用于估计预测概率p(c|f，l，r)，其中f映射到c、给定焦点单词f、及其左侧上下文单词l、和右侧上下文单词r。

对于长的已识别序列，可以使用从开始移动到结尾的指针。被所述指针标识的单词变成所述焦点单词。可以联合上下文来形成部分序列并且计算所述焦点单词的预测概率。从所述焦点单词到所述纠正单词的转换可以是一对多的(one to many)。对于所述已识别的序列，形成预测概率的点阵(lattice)。垂直轴是预测输出序列。水平轴是已识别的单词序列。对应于所述水平轴和垂直轴之间交叉点的点是预测概率。

所述部分序列还可以具有变化的长度。在实际中，存在着最小和最大长度。所述预测概率被长度所调节，其中较长的部分序列具有较高的权重并且更可信。可以对所有部分序列使用相同的长度。这样，每个部分序列对于预测具有相同的权重。

现在将参考附图对本发明作出更详细的描述。附图1是根据本发明一示例实施例的通信设备10的简化模块图，用于识别来自用户的输入序列。所述设备10可以在多种不同形式下(如，在蜂窝电话、个人数字助理等中)工作。

可以理解，尽管设备10使用语音或者字符(笔迹)识别技术来提供对于用户意图的初始猜测，但所述设备10不依赖于语音或者字符识别或者不依赖于用户的训练(training)来获得可信的结果。相反，所述设备10使用所述设备用户过去的通信历史来确定联系的意向目标。

所述过去的通信历史可以在两种不同操作模式中的任一种之下由设备10进行接收或者处理。为了简化的目的，可以假设所述识别处理器20是自动语音识别或者笔迹识别处理器之一，或者是这两者。

因此，在第一模式中，口述的(verbal)序列被通过麦克风26进行接收并且在所述语音识别处理器20中被识别。在第二模式中，书写的字符序列可以用光笔30通过显示器18来进行录入。在这种情况中，所述被录入的字符可以被笔迹识别处理器20识别。

不论是通过第一或者第二模式进行录入，所述已识别序列可以被显示在显示器18上，可以被用户纠正并且保存在存储器(数据库)12中。一旦数据库12被创建，新序列可以与数据库12的内容进行比较并且因此而被纠正。

通常，联系记录可以以(r，c，n，l)的格式被存储在所述数据库12中。在这种情况中，“r”是所述已识别序列，“c”是所述纠正后的序列，“n”是出现的数目，“l”是记录标识符，其中“l”的值将指示已识别的序列。

例如，图2示出了可以存储在所述存储器12中的联系记录100。第一联系记录元素102可以是信息元素(如，10位数字电话号码)的频繁被重复的序列。在这种情况中，所述记录100具有已识别序列“r”102。如果所述记录100的所述已识别序列102是正确的，则所述“c”字段将是空的，并且所述“n”字段将包括使用这个记录100的先前联系的相关数目。所述记录标识符将具有“l”以指示这是一个已识别的序列。

图3示出了也可以被存储在存储器12中的另一联系记录150。在图3中，第一记录元素152可以显示已识别序列，第二记录元素158显示纠正后的记录元素。“n”的值154为0指示了所述已识别序列先前没有被使用过，而所述纠正后的序列158显示了“n”的值为4，用于指示所述纠正后序列被使用了4次。

图4示出了另一个较复杂的可以被存储在存储器12中的联系记录200。第一联系记录元素(字段“r”)202可以是信息元素(如，10位数字电话号码)的已识别序列。一个或多个“通配符(wild card)”字符(在202中显示为“X”的格式)可以包括在所述序列102中。通配符字符是这样的字符，即，在所述通配符字符处用户在过去的联系中使用了不同信息元素或者所述识别处理器20已经(在过去的联系中)识别出错误的信息元素。

一个或多个其它的纠正后的记录元素204、206也可以被包含在呼叫记录200中，所述纠正后的记录元素204、206显示了信息元素的序列，所述信息元素一起形成了过去完成的联系的通信系统端口标识符。与每个记录元素204、206相联系的可以是频率记录210、212，所述频率记录210、212显示了与那个目的地完成了多少次联系。

作为更进一步的详细例子(如附图5中图示的)，识别处理器20可以是自动语音识别处理器，并且所述设备10可以是蜂窝电话。可以提供序列的数据库12。

为了进行呼叫，用户可以激活“进行呼叫”(进行呼叫)按钮32，该按钮作为显示器18上的软按键或者作为设置在设备10外表面上的分立设备来提供。作为响应，呼叫控制器16可以检测指令的录入并且让设备10为接收标识了呼叫目的地的信息元素集合而作准备。为了接收所述信息元素，所述呼叫控制器16可以将语音识别单元20耦合到麦克风输入26，并且让所述语音识别单元20准备接收和标识电话号码。

由于每个口语单词被所述识别单元20所接收，序列的单词(如，号码)可以被识别504并且被传输到比较器处理器14中的匹配处理器38，以形成串(搜索)片断。搜索片断包括焦点单词及其左侧和右侧的上下文。所述搜索片断可以具有如下形式：

L(2n+1)：n个左侧上下文单词+焦点单词+n个右侧上下文单词，

或者，

Lmn：m个左侧上下文单词+焦点单词+n个右侧上下文单词。

在这种情况中，所述搜索片断可以包括所述焦点单词每一侧的相同数目的n个上下文单词，或者所述焦点单词左侧的单词数目m可以和右侧的单词数目n不同。

在匹配处理器38中，将所述片断(序列)与记录100、150、200中的内容(序列)进行比较506。可以使用滑动窗口来标识所述焦点单词和上下文单词。作为第一步，所述匹配处理器38可以在记录100中查找精确的匹配。如果发现了精确的匹配(指示了高级别的置信度并且不存在与所述记录100相关联的纠正)，则所述匹配处理器38可以选择所述序列作为想要的序列508，把所述已匹配的序列传输到所述呼叫控制器16，并且所述呼叫可以作为已识别而完成。

另一方面，所述匹配处理器38可以把所述已识别序列与存在纠正的记录元素152中的序列进行匹配。在这种情况中，记录元素152具有与所述第一记录元素152相关联的已纠正序列158。为了确定使用哪个序列，所述匹配处理器38可以把阈值和所述序列先前使用的数目进行比较。在记录150的情况中，所述已识别序列152具有等于0的先前使用的数目154，并且所述已纠正序列158具有等于4的先前使用的数目162。如果所述阈值设置为大于2的某个值，则所述已纠正值158将被传输给所述呼叫控制器16，并且所述呼叫将被自动进行。

在记录152的情况中，对已纠正序列158的替换(substitution)是基于先前的使用。在这种情况中，可能因为用户错误发音了号码“6”而使得语音识别处理器不能发挥正确的功能，如在呼叫记录152中所示的。在这种情况中，系统10提供一种简单的方法以使语音识别适应于用户，而不需使所述语音识别算法进行适应。

可替换地，如果序列152、158均没有超过所述阈值，则所述序列的每一个都可以显示在窗口40、42的集合中。在记录152的情况中，如果所述已纠正序列158具有更大的先前使用数目，则所述被纠正序列158可以显示在上方窗口40中，并且所述已识别序列可以显示在第二窗口42中。所述用户可以利用相关联的鼠标放置光标30并且激活切换，以选择所述序列152、158中的一个。然后用户可以激活所述“进行呼叫”按钮32完成所述呼叫。

在另一更复杂的例子中，所述识别处理器20可能不总是产生与用户所说的号码相一致的结果。在这种情况中，应用图4的例子，其中已识别的号码由“通配符”代替。

在这种情况中，所述匹配处理器可能不能在记录100、150中发现接近的匹配，并且继续进行到附加记录200。如果在考虑所述通配符的第一记录元素202中发现了匹配，则可以处理所述被纠正元素204、206。否则，所述匹配处理器38可以继续进行到下一记录200。

如果在所述被纠正元素204、206中发现了匹配，则所述先前使用的数目可以与所述阈值进行比较，并且如果所述先前使用超过了所述阈值，则所述呼叫可以被自动进行。否则，所述匹配处理器38可以在窗口40、42、44中显示有序的序列集合。在这种情况中，如果所述被纠正元素204、206中的一个是精确匹配，则所述序列可以被显示在最上方的窗口40中。可替换地，如果所述被纠正的元素204、206均不匹配所述已识别序列，则所述已纠正元素204、206的序列可以以在元素210、212、214中发现的先前使用的顺序来显示。进一步可替换地，当所述记录200的已纠正序列以使用的顺序显示在所述最上方窗口40下方的窗口42、44中时，所述已识别序列可以显示在最上方窗口40中。

用户可以浏览所述窗口40、42、44，并且通过把光标30放置在窗口上和用与所述光标30相关联的鼠标激活切换来选择序列之一。然后用户可以激活“进行呼叫”软按键(soft key)32。激活“进行呼叫”可以使得呼叫处理器16把所述呼叫放置到与所述已选窗口40、42、44相关联的序列中。

如果用户可以判定在窗口40、42、44中的序列全都不正确，则用户可以把光标30放置在窗口40、42、44中的序列之一的数字上，并且用鼠标激活所述切换。用鼠标激活所述切换允许用户录入所述信息元素或纠正所述信息元素。然后用户可以激活“进行呼叫”按钮以完成所述呼叫。

另一方面，匹配处理器38可能不能发现对已识别号码的匹配。如果没有在记录200中发现匹配，则所述匹配处理器38可以认为这是该号码的第一次出现并且将所述已识别号码显示在第一窗口40中。如果用户可以确定所述被显示的号码正确，则用户可以激活所述“进行呼叫”按钮32。如果所述号码不正确，则用户可以编辑所述已识别号码并且然后激活所述“进行呼叫”按钮32。

每次所述呼叫控制器16进行所述呼叫时，所述呼叫控制器16可以使选定的序列被转发到更新处理器36。所述更新处理器可以基于已完成呼叫的序列来更新(附图6)呼叫模型(如，所述呼叫记录100、200)。

如上所述，单词“x”的序列可以被识别并且与参考序列“y”602相匹配。如果所述参考序列是高置信度的串603(如，精确的匹配)，则所述匹配可以被用于更新模型608的记录(如，增加频率记录210、212)，将结果加到模型610上，模型610然后对于所述预测处理606可用。

如果所述已识别序列是新的号码，并且所述用户没有纠正预测606的已识别号码，则所述更新处理器36可以通过创建新记录100来更新所述模型608。所述更新处理器36还可以更新所述记录100的字段104、106，作为正确的预测612。

如果所述已识别序列是新的号码，并且所述用户纠正了预测(如，所述已识别的号码)606，则所述更新处理器36可以创建新记录150。在这种情况中，所述预测的纠正变成带有差错的训练序列608。然后，所述带有差错的训练序列608被用于通过添加所述新记录150来纠正所述模型610。所述字段154、156、160、162都可以被更新612，并具有总差错(total error)。

如果所述新号码是对先前使用过的号码150的纠正，则所述记录150可以被如图4所示地修改。如果所述已选的号码与另一先前相关的序列202相关，则所述更新处理器36可以添加新元素208并且更新频率元素214。

如上简单讨论的，所述识别处理器20还可以是手写(笔迹)识别处理器。在这种情况中，用户可以向笔迹输入窗口46手写写入字符序列。所述(笔迹)识别处理器20可以识别所述笔迹字符并且形成搜索片断，正如上面所述的。所述结果可以被返回并且显示在窗口40、42、44中，如上面所述的。如果超过了所述阈值水平，所述联系可以被自动启动，或者用户可以根据需要纠正所述序列。

在另一实施例中，所述单词识别(或笔迹)处理器20可以使用用作为通信系统端口标识符的速记参考(short hand reference)的口语或书写姓名。在这种情况中，所述记录可以具有如图4所示的格式200。

在口语姓名的情况下，所述单词识别处理器可以(或不可)识别姓名“Bob”。不论是否被正确地识别，所述匹配处理器38都将识别所述序列没有处于正确的格式(如，不是电话号码)，并且将所述序列传输到所述匹配处理器38。所述匹配处理器38可以为序列Bob搜索记录元素202。如果没有发现匹配，则所述匹配处理器38可以在窗口40中显示所述已识别序列。用户可以编辑所述序列并且激活所述“进行呼叫”按钮32。在这种情况中，所述呼叫控制器可以识别所述序列仍然没有处于正确的格式，并且拒绝所述呼叫。作为响应，所述匹配处理器38可以在上方的窗口40中显示已纠正的名字“Bob”，并且请求在第二窗口42中显示端口标识符的请求条目。如果被录入所述第二窗口42的所述端口标识符处于正确的格式，则所述呼叫控制器16所执行所述联系。

此外，创建新记录200。在这种情况中，所述已识别序列被录入到所述第一元素202中，所述已纠正序列被录入到所述第二元素204中，并且所述端口标识符被录入到所述第三元素206中。随后的名字Bob的条目将导致进行对已纠正元素位置204中的标识符的联系。

在另一实施例中，记录100、150、200中的所述端口标识符可以是电子邮件或者即时通信地址。在这种情况中，一旦用户标识了目的地并且激活了“进行呼叫”按钮32，则所述呼叫(而不是进行呼叫)可以简单地在所述显示器18上打开即时通信或电子邮件消息屏幕。

在又一实施例中，所述端口标识符可以是因特网地址。在这种情况中，所述呼叫控制器16下载与所述地址相关联的网页。

为了阐明构建并使用本发明的方式，描述了特定的用于标识输入序列的方法的实施例。可以理解，本发明及其多个方面的其它变化和修改的实施对于本领域的技术人员来说是显而易见的，并且本发明并不限于所描述的特定实施例。因此，可以预期其涵盖了本发明以及落入此处所公开和要求的基本原则的精神和范围之内的任意及所有修改、变化或等同物。

Claims

1.一种标识由通信单元的用户所录入的输入序列的方法，该方法包括：

提供数据库，该数据库包含来自所述通信单元用户的多个部分序列；

识别所述用户录入的所述输入序列的至少一些信息项的特征；

比较所述信息项的已识别的部分序列和所述数据库中的所述多个部分序列；以及

选择所述数据库中所述多个序列中的、与所述已识别序列具有最接近相关匹配的序列，作为所述用户想要的输入序列。

2.权利要求1所述的标识输入序列的方法，进一步包括：将所述通信单元限定为蜂窝电话。

3.权利要求1所述的标识输入序列的方法，进一步包括：使用自动语音识别处理器来识别所述至少一些信息项的所述特征。

4.权利要求1所述的标识输入序列的方法，其中所述信息项的所述已识别序列进一步包括由所述用户通过麦克风输入以可听方式提供到所述通信单元的电话号码。

5.权利要求1所述的标识输入序列的方法，进一步包括：使用笔迹字符识别处理器来识别通过所述通信单元的笔迹输入窗口录入的所述至少一些信息项的特征。

6.权利要求1所述的标识输入序列的方法，进一步包括：在所述通信单元的显示器上显示所述信息项的选定序列。

7.权利要求6所述的标识输入序列的方法，进一步包括：显示所述信息项的已识别序列以及所述已识别序列。

8.权利要求7所述的标识输入序列的方法，进一步包括：所述用户通过选择所述选定序列和所述已识别序列中的一个来进行呼叫。

9.权利要求8所述的标识输入序列的方法，进一步包括：所述用户纠正所述选定序列和所述已识别序列中的一个，并且基于所述纠正后的序列来启动呼叫。

10.权利要求9所述的标识输入序列的方法，进一步包括：基于所述纠正后的序列来更新所述数据库中的所述多个序列。

11.一种标识由通信单元的用户所录入的输入序列的装备，该装备包括：

数据库，包含来自所述通信单元用户的多个序列；

识别处理器，用于识别所述用户录入的所述输入序列的至少一些信息项的特征；

匹配处理器，用于比较所述信息项的已识别序列和所述数据库中的所述多个序列；以及

选择设备，用于选择所述多个序列中的、与所述已识别序列具有最接近相关匹配的序列，作为所述用户想要的输入序列。

12.权利要求11所述的标识输入序列的装备，其中所述通信单元进一步包括蜂窝电话。

13.权利要求11所述的标识输入序列的装备，其中所述识别处理器进一步包括自动语音识别处理器。

14.权利要求11所述的标识输入序列的装备，其中所述信息项的已识别序列进一步包括：由所述用户通过麦克风输入以可听方式提供到所述通信单元的电话号码。

15.权利要求11所述的标识输入序列的装备，其中所述识别处理器进一步包括：笔迹字符识别处理器，用于识别通过所述通信单元的笔迹输入窗口录入的笔迹。

16.权利要求11所述的标识输入序列的装备，进一步包括：在所述通信单元的显示器上显示所述信息项的选定序列。

17.权利要求16所述的标识输入序列的装备，进一步包括：显示器，用于显示所述信息项的已识别序列以及所述已识别序列。

18.权利要求17所述的标识输入序列的装备，进一步包括：呼叫控制器，当所述用户选择所述选定序列和所述已识别序列中的一个时，所述呼叫控制器进行呼叫。

19.权利要求18所述的标识输入序列的装备，进一步包括：光标，用于允许所述用户纠正所述选定序列和所述已识别序列中的一个。

20.权利要求19所述的标识输入序列的装备，进一步包括：更新处理器，用于更新所述数据库中的多个序列。

21.一种标识由通信单元的用户所录入的输入序列的装备，该装备包括：

数据库，包含来自所述通信单元用户的多个序列；

装置，用于识别所述用户录入的输入序列信息项序列中至少一些信息项的特征；

装置，用于比较所述信息项的已识别序列和所述数据库中的多个序列；以及

装置，用于选择所述数据库中多个序列中的、与所述已识别序列具有最接近相关匹配的序列，作为所述用户想要的输入序列。