CN112639796B

CN112639796B - 具有音频反馈和词完成的多字符文本输入系统

Info

Publication number: CN112639796B
Application number: CN201980057985.2A
Authority: CN
Inventors: J·莫韦; C·弗里伯格; J·斯特恩比; 乔纳斯·安德森
Original assignee: Sereni Run Co
Current assignee: Sereni Run Co
Priority date: 2018-09-04
Filing date: 2019-09-04
Publication date: 2024-05-07
Anticipated expiration: 2039-09-04
Also published as: US20200074167A1; WO2020051209A1; CN112639796A; EP3847573A1; US11106905B2

Abstract

用于输入和处理手写的多字符文本的系统可以包括手写识别子系统、词完成子系统和音频反馈系统。手写识别系统可被配置为捕获用户所形成的一系列手写字符、并将手写字符转换为候选部分文本串的集合。词完成子系统可被配置为识别候选部分文本串是否构成词段、并在候选部分文本串构成词段的情况下生成(i)至少一个阐明词和(ii)包括阐明词的至少一个阐明短语其中之一或这两者。词段可以是任何串，并且与同该系统相关联的语言中的有效完整词不对应。音频反馈系统可被配置为产生词段、阐明词和阐明短语的音频表示。

Description

具有音频反馈和词完成的多字符文本输入系统

相关申请

本申请是2018年9月4日提交的美国申请No.16/120,774的继续申请。以上申请的全部教导通过引用而并入于此。

背景技术

可在诸如汽车等的移动系统中使用的传统文本输入系统通常允许用户逐个字符地(例如，通过轻敲键盘或单字符手写识别)或者可能逐个词地(例如，通过追踪键盘)输入文本。向用户反馈系统如何解释输入是重要的，因为用户输入有时难以解释、通常不准确并且有时模糊不清。在汽车中，音频反馈一般优于视觉反馈，这使得在用户提供输入并确认结果时驾驶员的眼睛保持在道路上。

要解决的一个问题是如何以最可理解且有效的方式将非词文本串通信至最终用户。虽然处理单个字符输入相对容易，但是一次处理所有字符组可能是有问题的，特别是在字符组是任意字符串而不是有效词(即，不是作为与文本输入系统相关联的语言的公认成员的词)的情况下。无论是最先进的文本转语音(TTS)产品还是甚至人类都不能在不通过叙述单个字符进行拼写的情况下对所有字符组合进行可理解的发音，这被认为是无效的。

发明内容

多字符输入(即，一次性提交多个字符)比单字符输入快。一个示例是手写识别，其中每个串仅施加一次暂停，而不是每个字符施加一次暂停。许多文本输入系统还包含词完成模块。允许不完整词的多字符输入模块与词完成模块相结合是非常有效的。但是这些不完整词很难在音频反馈中被可理解地发音。最先进的文本转语音(TTS)系统可以很合理地猜测不完整词的发音，尽管结果不完美，并且在许多情况下甚至不存在完美的发音。这里描述的实施例提供了少量的额外音频反馈，这些额外音频反馈向用户阐明不完整词。所描述的实施例传送对于有效输入有用的信息、即最佳完成候选。

多字符文本输入系统可以包括手写识别子系统、词完成子系统和音频反馈子系统。所述手写识别子系统可被配置为捕获用户所形成的一系列手写字符、并将所述手写字符转换为候选部分文本串的集合。所述词完成子系统可被配置为针对所述候选部分文本串的集合中的各候选部分文本串：判断所述候选部分文本串是否构成词段；以及在所述候选部分文本串被判断为构成词段的情况下，基于所述词段来生成(i)至少一个阐明词和(ii)包括所述阐明词的至少一个阐明短语其中之一或这两者。所述音频反馈子系统可被配置为产生所述词段、所述至少一个阐明词、以及所述至少一个阐明短语中的一个或多个的音频表示。

在实施例中，所述词段可以不对应于与所述手写识别子系统相关联的语言中的有效词。所述词完成子系统可以利用至少一个上下文信息输入来生成所述至少一个阐明词和包括所述阐明词的至少一个阐明短语中的一个或多个。所述上下文信息输入可以包括关系信息、字段信息、基于位置的信息和当日时间信息等中至少之一。

所述音频反馈子系统可以包括被配置为将所述音频表示传送至所述用户的声音产生组件。所述至少一个阐明词可以包括基于所述词段的词列表。可以根据正确性的可能性来对所述词列表进行排序。正确性的可能性可以基于至少一个上下文信息输入来确定。

所述阐明短语可以包括将所述词段与所述阐明词相关联的连接短语。所述连接短语可以限于三个或更少的词。所述音频反馈子系统可被配置为将所述词段的音频表示渲染为可辨别发音。

在另一方面，本发明可以是接收多字符文本输入并对其进行响应的计算机实现方法。所述方法可以包括利用手写识别子系统来捕获用户所形成的一系列手写字符。所述方法还可以包括利用处理器和存储有计算机代码指令的存储器，所述存储器可操作地耦接至所述处理器，使得所述计算机代码指令在由所述处理器执行时使系统实现将所述手写字符转换为候选部分文本串的集合。针对所述候选部分文本串的集合中的各候选部分文本串，所述方法可以包括：判断所述候选部分文本串是否构成词段；以及在所述候选部分文本串被判断为构成词段的情况下，基于所述词段来生成(i)至少一个阐明词和(ii)包括所述阐明词的至少一个阐明短语中的一个或多个。所述方法还可以包括产生所述词段、所述至少一个阐明词、以及所述至少一个阐明短语中的一个或多个的音频表示。

所述方法还可以包括利用至少一个上下文信息输入来生成至少一个阐明词和包括所述阐明词的至少一个阐明短语中的一个或多个。所述至少一个阐明词可以包括基于所述词段的词列表，以及所述方法还包括根据正确性的可能性来对所述词列表进行排序。

所述方法还可以包括通过声音产生组件将所述音频表示传送至所述用户。所述方法还可以包括将所述词段的音频表示渲染为可辨别发音。

在另一方面，本发明可以是一种存储有计算机代码指令的非暂时性计算机可读介质，所述计算机代码指令在由处理器执行时使设备将手写字符转换为候选部分文本串的集合。针对所述候选部分文本串的集合中的各候选部分文本串，所执行的计算机代码指令还可以使所述设备：判断所述候选部分文本串是否构成词段；以及在所述候选部分文本串被判断为构成词段的情况下，基于所述词段来生成(i)至少一个阐明词和(ii)包括所述阐明词的至少一个阐明短语中的一个或多个；以及产生所述词段、所述至少一个阐明词、以及所述至少一个阐明短语中的一个或多个的音频表示。

所述计算机代码指令在由处理器执行时还可以使设备利用至少一个上下文信息输入来生成所述词段、以及至少一个阐明词和包括所述阐明词的至少一个阐明短语中的一个或多个。

所述计算机代码指令在由处理器执行时还可以使设备通过声音产生组件将所述音频表示传送至用户。

所述计算机代码指令在由处理器执行时还可以使设备根据正确性的可能性来对作为词列表的至少一个阐明词进行排序。

所述计算机代码指令在由处理器执行时还可以使设备将所述词段的音频表示渲染为可辨别发音。

附图说明

根据以下对如附图所示的示例实施例的更具体描述，前述内容将变得明显，其中在不同的图中，相同的附图标记指代相同的部分。附图不一定按比例绘制，而是强调示出实施例。

图1是根据本发明的具有音频反馈和词完成的多字符文本输入识别系统的示例实施例的框图。

图2A至2F是描绘了本发明的实施例的示例操作的屏幕截图。

图3A和3B是描绘了本发明的实施例的另一示例操作的屏幕截图。

图4是可用于实现这里的一个或多个实施例的处理系统的示例内部结构的图。

具体实施方式

以下描述了示例实施例。

这里引用的所有专利、公开申请和参考文献的教导通过引用而全部并入。

所描述的本发明的实施例进行操作以将部分文本串输入接收到文本输入系统中，其中该部分文本串是已知词的开始部分。部分文本串作为单个单元读出，就好像部分文本串是完整词一样。然后，所描述的实施例通过产生阐明短语来阐明部分文本串，该阐明短语可以包含作为最佳完成候选的阐明词。

可选实施例可以将部分文本串应用于已知词的结尾部分或已知词的中间部分。为了简单起见，以下详细描述的示例实施例参考“开始部分”的实施例。

图1示出根据本发明的多字符文本输入识别系统100的示例实施例。多字符文本输入识别系统包括手写识别子系统102、音频反馈子系统104和词完成子系统106。手写识别子系统102可以以例如在触敏显示屏幕或专用书写面板上输入的手写笔划的形式接收用户输入108。

手写识别子系统102可以将手写笔划转换为文本输出(例如，Unicode)，并将文本输出110提供至音频反馈子系统104和词完成子系统106。手写识别系统的实现在本领域中是公知的，因此在此不再详细阐述。

音频反馈子系统104可以生成文本输出110的音频表示，并且通过扬声器或其它声音产生组件(即，电气-音频换能器——未示出)将所生成的音频表示提供至用户。

词完成子系统106可以接收文本输出110并生成一个或多个候选词预测(这里也称为阐明词)。对于各阐明词，词完成子系统106还可以提供阐明词短语，其包括关联阐明词。阐明词和阐明词短语可被传送至音频反馈系统104，该音频反馈系统104可以通过声音产生组件将阐明词和/或阐明词短语作为音频反馈呈现给用户。代替音频反馈或者除了音频反馈之外，可以在显示器(未示出)上呈现阐明词和/或阐明词短语作为视觉反馈。

在一些实施例中，文本输出110可以是部分文本串的形式。部分文本串可以是实际词，或者可以不是实际词。在这种情况下，音频反馈子系统104可以提供部分文本串的候选发音，并且词完成子系统106可以基于部分文本串来生成阐明词和/或阐明词短语。

在示例操作中，用户可以将部分文本串(在该示例中为“hamb”)手写到手写识别子系统102中。手写识别子系统基于手写图案生成候选部分文本串。词完成子系统106的候选部分文本串生成可以基于第一候选部分文本串“hamb”(在该示例中，第一候选实际上是用户的预期部分文本串)生成阐明词短语“如hamburger(汉堡包)中的hamb”并将阐明词短语传送至音频反馈子系统104。音频反馈子系统104可以向用户提供阐明词短语的音频表示。注意，对于部分文本串，它被保留为完整词段，而不是单独的字母组成(即，“hamb”而不是“h-a-m-b”)。除了阐明词“hamburger”，该示例中的阐明短语还包括连词短语“如…中”。尽管可以使用其它连接短语结构，但是这里描述的实施例优选地利用简单的连接短语(例如，三个词或更少)来生成短而简洁的阐明短语。

音频反馈模块104被配置为渲染未知的部分文本串，该未知的部分文本串可以是已知文本串的开头并且具有可辨别(即，合理可理解)的发音。然而，发音不一定要完美，因为阐明短语帮助用户理解部分文本串。这种渲染能力可以通过最先进的TTS产品(诸如Nuance Vocalizer产品等)来实现。

词完成子系统106可以利用已知词列表来生成候选阐明词列表。词完成子系统106还可以利用上下文信息来促进对阐明词的智能选择和/或排序。上下文信息可以涉及正输入的文本与相邻信息(例如，被输入文本左侧和/或右侧的词)的关系。该上下文信息在这里可被称为关系信息。上下文信息可以可选地涉及正输入文本的字段的性质。例如，输入到导航系统的搜索字段中的“cla”的手写文本输入可以得到作为阐明词的“Clarksville”，而输入到音乐播放器的搜索字段中的“cla”的相同手写文本输入可以得到作为阐明词的“classical”。该上下文信息在这里可被称为字段信息。应当理解，上述的上下文信息输入仅仅是示例，而不是旨在是限制性的。代替这里描述的示例或者除了这里描述的示例之外，可选实施例可以利用本领域已知的其它上下文信息输入。

对于其它实施例，上下文信息可以涉及本地数据条目之外的观察。通过示例的方式，对于上述的手写输入“hamb”，词完成子系统106可以利用基于位置的信息来确定用户当前正在德国旅行，使得Hamburg(汉堡)市可以是比其它阐明词更可能的选择。可选地，词完成子系统106可以利用当日时间信息来确定当前时间是进餐时间(例如，午餐、晚餐)，使得食品hamburger(汉堡包)可以是比其它阐明词更可能的选择。可选实施例可以使用其它上下文信息来智能地选择和/或排序候选阐明词。

图2A至2F描绘了本发明的实施例的示例操作。在该示例中，用户通过手写笔划将部分文本串“keyb”依次输入到系统100中。图2A示出在用户输入手写信息之前的空白书写输入面板。图2B示出书写的第一个字母“k”202，图2C示出书写的第二个字母“e”204，图2D示出书写的第三个字母“y”206，以及图2E示出书写的第四个字母“b”208。图2F示出由手写识别子系统106生成并被显示给用户的候选部分文本串的集合210，其中最可能的候选是keyb212。阐明词集合214被呈现给用户，其中“keyboard”被示出为最可能的阐明词。音频反馈子系统104提供音频反馈为“如keyboard中的keyb”。示例实施例可以将部分文本段发音为keeb，而不是拼写出单独的字母“k-e-y-b”

图3A和3B描绘了本发明的实施例的另一示例操作。在该示例中，如图3A所示，用户提交“franc”302的手写输入。如图3B所示，手写识别子系统106生成并呈现候选部分文本串的集合304，其中最可能的候选是franc 306。阐明词集合308被呈现给用户，其中“france”被示出为最可能的阐明词。音频反馈子系统104可以提供阐明短语“如france中的franc”。可选实施例可以提供增强阐明短语，诸如“如france、Francisco中的franc、和词franc等”，从而向用户通知可以适当地表示手写输入的其它候选阐明词。

图4是可用于实现这里的一个或多个实施例的处理系统400的示例内部结构的图。各处理系统400包含系统总线402，其中总线是用于在计算机或处理系统的组件之间进行数据传送的硬件线路的集合。系统总线402实质上是连接处理系统的不同组件(例如，处理器、磁盘存储部、存储器、输入/输出端口、网络端口等)的共享管道，其使得能够在组件之间传送信息。

附接到系统总线402的是用于将各种输入和输出装置(例如，键盘、鼠标、显示器、打印机、扬声器等)连接至处理系统400的用户I/O装置接口404。网络接口406允许计算机连接到附接至网络408的各种其它装置。存储器410为诸如用于实现这里描述的本发明的一个或多个实施例的计算机软件指令等的信息、为内部生成的数据以及为从处理系统400外部的源接收到的数据提供易失性和非易失性存储。

中央处理器单元412也附接到系统总线402并提供存储器410中所存储的计算机指令的执行。该系统还可以包括支持电子器件/逻辑414和通信接口416。通信接口可以包括参考图1所示的手写识别系统102所描述的专用书写面板的接口。

在一个实施例中，存储器410中所存储的信息可以包括计算机程序产品，使得存储器410可以包括为本发明系统提供软件指令的至少一部分的非暂时性计算机可读介质(例如，诸如一个或多个DVD ROM、CD-ROM、磁盘、磁带等的可移除存储介质)。如本领域公知的，计算机程序产品可以通过任何合适的软件安装过程来安装。在另一实施例中，软件指令的至少一部分也可以通过电缆通信和/或无线连接下载。

显然，这里描述的一个或多个实施例可以以许多不同形式的软件和硬件实现。用于实现这里描述的实施例的软件代码和/或专用硬件不限制这里描述的本发明的实施例。因此，在不参考特定软件代码和/或专用硬件的情况下描述实施例的操作和行为——应当理解，人们将能够基于这里的描述来设计软件和/或硬件以实现实施例。

此外，这里描述的示例实施例的某些实施例可被实现为进行一个或多个功能的逻辑。该逻辑可以是基于硬件、基于软件或者基于硬件和基于软件的组合。一些或全部逻辑可以存储在一个或多个有形、非暂时性计算机可读存储介质上，并且可以包括可由控制器或处理器执行的计算机可执行指令。计算机可执行指令可以包括实现本发明的一个或多个实施例的指令。有形、非暂时性计算机可读存储介质可以是易失性的或非易失性的，并且可以包括例如闪速存储器、动态存储器、可移除磁盘和不可移除磁盘。

虽然已经特别示出和描述了示例实施例，但是本领域技术人员将理解，在不脱离所附权利要求所包含的实施例的范围的情况下，可以在其中进行形式和细节的各种改变。

Claims

1.一种多字符文本输入系统，包括：

手写识别子系统，其被配置为捕获用户所形成的一系列手写字符、并将所述手写字符转换为候选部分文本串的集合；

词完成子系统，其被配置为：

判断所述候选部分文本串构成不对应于与所述手写识别子系统相关联的语言中的有效完整词的词段，以及

基于所述词段来生成阐明短语，所述阐明短语是包括阐明词和所述词段的阐明连接短语；以及

音频反馈子系统，其被配置为产生所述阐明短语的音频表示。

2.根据权利要求1所述的系统，其中，所述词完成子系统利用至少一个上下文信息输入来生成所述阐明短语。

3.根据权利要求2所述的系统，其中，所述上下文信息输入包括关系信息、字段信息、基于位置的信息和当日时间信息中至少之一。

4.根据权利要求1所述的系统，其中，所述音频反馈子系统包括被配置为将所述音频表示传送至所述用户的声音产生组件。

5.根据权利要求1所述的系统，其中，所述阐明词包括基于所述词段的词列表，所述词列表是根据正确性的可能性来排序的。

6.根据权利要求5所述的系统，其中，所述正确性的可能性是基于至少一个上下文信息输入来确定的。

7.根据权利要求1所述的系统，其中，所述阐明短语包括将所述词段与所述阐明词相关联的连接短语。

8.根据权利要求7所述的系统，其中，所述连接短语是三个或更少的词。

9.根据权利要求1所述的系统，其中，所述音频反馈子系统被配置为将所述词段的音频表示渲染为可辨别发音。

10.一种接收多字符文本输入并对多字符文本输入进行响应的计算机实现方法，包括：

利用手写识别子系统来捕获用户所形成的一系列手写字符；

利用处理器和存储有计算机代码指令的存储器，所述存储器可操作地耦接至所述处理器，使得所述计算机代码指令在由所述处理器执行时使系统实现：

将所述手写字符转换为候选部分文本串的集合；

判断所述候选部分文本串构成不对应于与所述手写识别子系统相关联的语言中的有效完整词的词段；

产生所述阐明短语的音频表示。

11.根据权利要求10所述的计算机实现方法，还包括利用至少一个上下文信息输入来生成所述阐明短语。

12.根据权利要求10所述的计算机实现方法，还包括通过声音产生组件将所述音频表示传送至所述用户。

13.根据权利要求10所述的计算机实现方法，其中，所述阐明词包括基于所述词段的词列表，以及所述计算机实现方法还包括根据正确性的可能性来对所述词列表进行排序。

14.根据权利要求10所述的计算机实现方法，还包括将所述词段的音频表示渲染为可辨别发音。

15.一种存储有计算机代码指令的非暂时性计算机可读介质，所述计算机代码指令在由处理器执行时使设备：

将利用手写识别子系统所捕获的手写字符转换为候选部分文本串的集合；

产生所述阐明短语的音频表示。

16.根据权利要求15所述的计算机可读介质，其中，所述计算机代码指令在由处理器执行时使设备利用至少一个上下文信息输入来生成所述阐明短语。

17.根据权利要求15所述的计算机可读介质，其中，所述计算机代码指令在由处理器执行时使设备通过声音产生组件将所述音频表示传送至用户。

18.根据权利要求15所述的计算机可读介质，其中，所述计算机代码指令在由处理器执行时使设备根据正确性的可能性来对作为词列表的至少一个阐明词进行排序。

19.根据权利要求15所述的计算机可读介质，其中，所述计算机代码指令在由处理器执行时使设备将所述词段的音频表示渲染为可辨别发音。