CN113900529A

CN113900529A - 移动装置上的模态学习

Info

Publication number: CN113900529A
Application number: CN202111185746.0A
Authority: CN
Inventors: 欧阳瑜; 迭戈·米伦多·卡萨多; 穆罕默迪纳穆尔·哈桑·谢科; 弗朗索瓦丝·博费; 德拉甘·齐夫科维奇; 梅尔特姆·厄克泰姆
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-12-29
Filing date: 2017-09-29
Publication date: 2022-01-07
Anticipated expiration: 2037-09-29
Also published as: KR102244607B1; DE202017105669U1; EP4235369B1; CN108255290B; KR102596446B1; US20180188948A1; KR20210046840A; US11842045B2; KR20220136515A; US20210019046A1; EP3538979A1; EP4235369A2; KR102453194B1; WO2018125288A1; US10831366B2; US20240086063A1; CN108255290A; US20220413696A1; KR20190082294A; KR20230151086A

Abstract

本公开涉及移动装置上的模态学习。公开了包括在计算机存储介质上编码并用于移动装置中的交叉输入模态学习的计算机程序的方法、系统和设备。在一个方案中，一种方法包括激活第一模态用户输入模式，其中使用第一模态识别器来识别通过第一模态的方式实现的用户输入；和通过所述第一模态的方式接收用户输入。该方法包括，作为所述第一模态识别器识别用户输入的结果而获得包括特定词项的转录；以及生成至少引用所述特定词项的输入场境数据结构。该方法进一步包括，通过第一模态识别器将输入场境数据结构传输给第二模态识别器，以用于更新与第二模态识别器相关联的第二模态识别模型。

Description

移动装置上的模态学习

分案说明

本申请属于申请日为2017年9月29日的中国发明专利申请201710909192.1的分案申请。

技术领域

本申请涉及移动装置上的模态学习。

背景技术

智能电话和移动计算装置被配置为支持语音打字，当用户激活移动装置的麦克风功能时，可以开启语音打字。通常，移动计算装置可包括至少两种输入法编辑器(IME)，即键盘或文本IME以及语音或言语IME。文本IME支持数字文本的物理输入和显示，而语音IME支持语音输入和言语音频的转录。对于一些移动装置或用户装置，可将键盘IME配置为默认IME，并且因此是装置所采用的预选输入法选项。

当移动装置的用户激活麦克风功能时，用户可引起装置进行从键盘IME到语音IME的切换。在某些情况下，可通过在移动装置的显示器上可见的点亮的麦克风图标来指示该切换。类似地，在语音听写中，手动校正错误转录的单词可以触发IME向触摸键盘输入法的切换。在某些情况下，用户可通过键盘IME输入或键入文本，并且在不知道特定单词的拼写时，用户可以激活装置麦克风并选择通过语音转录来输入该单词。

发明内容

描述了至少包括具有键盘IME和语音IME的移动装置的计算系统。所述系统通过移动装置的语音输入法接收用户输入。系统识别用户输入并生成包括用户所说的特定词项的转录。该系统进一步生成至少引用该特定词项的输入场境数据结构。输入场境数据结构可包括含有所述特定词项的数据结构，以及代表在其中接收了所述特定词项的输入场境或模态的其他数据。

输入场境数据结构通常可包括时间和/或日期参数、与所接收的用户输入相关联的应用程序的指示、以及一个或多个n-gram，所述n-gram可包括与言语音频输入相关联的连续场境项目，例如字母或单词。言语音频对应于通过语音输入法接收的用户输入，并且可包括特定词项的人类言语发音。

然后，系统将生成的输入场境数据结构传输给移动装置的键盘IME，以用于更新通过键盘IME以及语音IME可访问的一个或多个语言模型。输入场境数据结构还可用于更新通过计算系统的多个用户皆可访问的通用语言模型。更新后的语言模型使得在通过移动装置的语音输入法或键盘输入法再次接收特定词项作为用户输入时，键盘IME和语音IME能够识别该特定词项。

在本说明书的一个创造性方案中，描述了一种计算机实现的方法，其包括：激活第一模态用户输入模式，其中使用第一模态识别器来识别通过第一模态的方式实现的用户输入；以及通过第一模态的方式接收用户输入。该方法包括：作为第一模态识别器识别用户输入的结果而获得包括特定词项的转录；以及生成至少引用所述特定词项的输入场境数据结构。该方法进一步包括：通过第一模态识别器将输入场境数据结构传输给第二模态识别器，以用于更新与第二模态识别器相关联的第二模态识别模型。如同本说明书所使用的，模态可以是特定输入模式、通信信道或输入信号路径，其中用户装置在该输入信号路径中接收和/或处理特定类型的用户输入。

在一些实施方式中，该方法进一步包括：激活第二模态用户输入模式，其中使用第二模态识别器来识别通过第二模态的方式实现的用户输入；通过第二模态的方式接收用户输入，用户输入包括特定词项；以及响应于传输而通过第二模态识别器来识别通过第二模态的方式接收的特定词项。在一些实施方式中，通过第二模态识别器识别特定词项包括至少通过用户装置的显示器提供特定词项与第二模态识别器可访问的语言模型相关联的指示。

在一些实施方式中，该方法进一步包括：响应于通过第二模态的方式接收用户输入而激活第一模态用户输入模式，其中所接收的用户输入包括特定词项，且所述特定词项没有被第二模态识别器识别。

在一些实施方式中，第二模态识别器被配置为：检测通过第二模态的方式接收的包括至少引用特定词项的输入场境数据结构的用户输入的出现；递增第一数据计数，第一数据计数跟踪以下情形的出现次数：引用特定词项的输入内容被通过第二模态的方式接收；以及递增第二数据计数，第二数据计数跟踪以下情形的出现次数：与特定词项相对应的用户输入被通过第二模态的方式接收。

在一些实施方式中，该方法进一步包括：生成包括通过第一模态的方式接收的多个用户输入的数据库；以及使用多个用户输入的数据库的至少一个用户输入来更新第一模态识别器或第二模态识别器的至少其中一个可访问的一个或多个通用语言模型。

在一些实施方式中，第一模态用户输入模式包括语音输入模式，其中使用第一模态识别器来识别与人类言语相对应的用户输入。在一些实施方式中，第一模态识别器是语音输入法编辑器(IME)，且被配置为接收与包括特定词项的发音的人类言语相对应的音频输入信号。

该方案的其他实施方式包括对应的计算机系统、设备，以及记录在一个或多个计算机存储装置上、分别被配置为进行上述方法的动作的计算机程序。可将一个或多个计算机的系统配置为通过在系统上安装软件、固件、硬件或它们的组合来进行特定的操作或动作，在操作中软件、固件、硬件或它们的组合使得系统进行这些动作。可将一个或多个计算机程序配置为通过包括在数据处理装置执行时使得设备进行这些动作的指令来进行特定的操作或动作。

在本说明书的另一个创造性方案中，描述了一种计算机实现方法，其包括：在计算装置中激活语音用户输入模式，其中使用语音模态识别器来识别通过语音模态的方式实现的用户输入；以及通过语音模态的方式接收用户输入。该方法包括：通过计算装置并作为语音模态识别器识别用户输入的结果，获得包括特定词项的转录；以及生成至少引用特定词项的输入场境数据结构。该方法进一步包括：通过语音模态识别器将输入场境数据结构传输给键入式输入模态识别器，以用于更新与第二模态识别器相关联的键入式模态识别模型。

在本说明书中描述的主题可在特定实施方式中实现，并且可带来以下一个或多个优点。本说明书中的计算系统消除了配置或定义单独的学习模型或逻辑结构以增强计算装置中的键盘IME学习的需要。由于并非编码多个键盘学习模型，通过将不必要的计算最小化，优化了计算装置过程，并提高了处理效率。

所接收的音频输入被转录并传输给本地键盘IME以及通用语言模型，用于全面供多个用户装置使用。例如基于与新的或演化的言语发音相对应的音频输入信号的基于服务器的分析或本地装置的分析，可以有效地实现键盘IME增强。因此，避免了语音的冗余信号分析以及常见单词的键盘用户输入，从而为其他计算和系统传输提供了增强的系统带宽。

除了常见单词之外，基于所描述的主题，现在使得键盘IME能够使用计算装置的语音识别功能来学习新单词。例如，新单词可以对应于在特定口头语言或计算机语言模型中并不存在的词项(例如“selfie”或“bae”)或者用于新地点/位置的命名。

在下面的附图和描述中给出本说明书所述主题的一个或多个实施方式的细节。根据描述、附图和权利要求，该主题的其它特征、方案和优点将变得显而易见。

附图说明

图1示出在示例性计算系统中与交叉模态学习相关的多个界面。

图2示出用于交叉模态学习的示例性计算系统的系统图。

图3是用于交叉模态学习的示例性过程的流程图。

图4是可以与本说明书中所述的计算机实现的方法结合使用的计算系统的方框图。

各个附图中相同的附图标记和标号表示相同的元素。

具体实施方式

图1示出在示例性计算系统中与交叉模态学习相关的多个界面。所述多个界面包括界面102、104、106和108。各个所示界面对应于可以在用户装置110上显示的示例性用户输入屏幕。如图1所示，在一些实施方式中，用户装置110可以对应于移动智能电话装置。

在替代性实施方式中，用户装置110可以是包括例如以下装置的各种计算装置中的一种：膝上型计算机/台式计算机、智能电视、电子阅读装置、流内容装置、游戏机、平板装置或被配置为执行与语音输入法编辑器(IME)以及键盘IME相关联的软件指令和应用程序的其他相关的计算装置。

界面102可以在用户装置110上显示，并且可包括从用户112接收用户输入的应用程序的示例性用户界面。在一些实施方式中，所接收的用户输入是言语或语音输入。如下参考图2更详细所述，用户装置110可包括至少两种IME，即键盘或文本IME以及语音或言语IME。

在一些实施方式中，与各个IME相关联的功能可以在用户装置110可访问的示例性基于云的计算系统中执行。在图1的实施方式中，可将用户装置110配置为使得键盘IME是默认IME，并且因此是被装置110采用的预选输入法选项。界面102可包括麦克风114的数字表示，当用户112引起装置110进行从键盘IME到语音IME的切换时，麦克风114点亮。

用户装置110的用户112可以激活装置110的麦克风功能以开启语音听写。此外可将界面102配置为显示表明“语音输入活跃”的消息。所显示的消息向用户112指示装置110处于语音输入模式并且可接收言语或语音输入。所接收的言语输入可通过装置110(即客户端)或通过基于云的计算系统(即服务器端)在本地转录，以产生转录120。

用户112可以禁用装置110的麦克风功能以关闭语音听写并切换为用户装置110的键盘IME。因此，界面104可以对应于文本、触摸、键盘或通过数字或物理键盘输入法接收给装置110的用户输入的物理输入模式。在一些实施方式中，用户装置110是显示数字键盘的触摸屏装置。可将数字键盘配置为接收与滑动动作、涂鸦动作或手势动作相对应的动作输入116。

用户装置110所接收的触摸或物理输入可以示出为文本122。在一些实施方式中，用户112尝试使用与键盘IME相关联的功能来键入或输入特定词项。例如，特定的词项可以是单词“Milpitas”。在一些实施方式中，用户112可以键入示例性文本或向朋友Bob发出的电子邮件消息。虽然在界面104中没有示出，但该消息可以指示，用户112建议在示例性位置“Milpitas”(加利福尼亚州圣克拉拉县的一个城市)会见Bob。

如下更详细所述，用户装置112的键盘IME可以连接到包括与多种语言相关联的多个单词的示例性语言模型。但是在这种情况下，语言模型不识别键入的单词“Milpitas”。因此，由于模型不识别“Milpitas”一词，与键盘IME相关联的自动更正逻辑例如可能会建议更改或自动更正Milpitas为“mimosas”，如界面104的文本122所示。

类似地，与键盘IME相关联的自动校正或拼写检查逻辑也可向用户112指示，输入的单词“Milpitas”拼写错误。因此，如界面104所示，可通过与装置110的键盘IME相关联的示例性文本建议逻辑来建议如“mimosas”、“Milos”或“miles”这样的示例性单词。响应于用户装置110建议将特定输入的单词改变为另一个单词，用户112可以激活装置110的麦克风功能以开启语音听写。

界面106和界面108提供与交叉模态学习相关联的一个或多个操作的表示。界面106示出当用户112引起装置110进行从键盘IME到语音IME的切换时出现的点亮的麦克风114。在一些实施方式中，交叉模态学习操作可包括激活语音用户输入模式，其中使用语音模态识别器来识别通过语音模态方式实现的用户输入。

例如，从键盘IME到语音IME的切换通常可以对应于激活语音用户输入模式以开启语音听写。此外，语音模态识别器通常可以对应于语音IME，而语音模态通常可以对应于用户装置110的语音输入功能(其中开启了语音听写功能)。如本说明书所使用的，模态可以是特定输入模式、通信信道或输入信号路径，用户装置110在该输入信号路径中接收和/或处理特定类型的用户输入。

再次参考交叉模态学习操作，可通过用户装置110接收通过语音模态方式实现的用户输入。可将语音IME配置为识别用户输入如与包括多个单词的发音的人类言语有关的音频输入。此外，作为语音IME识别用户输入的结果，装置110可获得包括特定词项的转录。例如，在界面106的表示中，可通过用户112按照单词“Milpitas”的人类言语发音的形式来输入提供特定词项。

学习操作可包括获得特定词项或言语发音的转录。因此，如文本124所示，在示例性交叉模态学习操作期间获得口语单词“Milpitas”的转录。在一些实施方式中，用户装置110部分地基于用户装置110内本地发生的数据处理操作来获得转录。而在一些实施方式中，用户装置110部分地基于示例性的基于云或基于服务器的计算系统内远程发生的数据处理操作来获得转录。

在一些实施方式中，虽然语音IME可以正确地识别用户输入并获得准确的转录，但是语音IME语言模型可能不包括特定词项“Milpitas”。因此，引用与语音IME相关联的语言模型的拼写检查逻辑可能不识别转录的词项“Milpitas”。因此，由于单词“Milpitas”没有被识别，所以拼写检查逻辑例如可以向用户112指示，转录的单词“Milpitas”拼写不正确。

响应于接收该指示，用户112可以忽略拼写检查逻辑提供的错误拼写指示。或者，在一些实施方式中，用户装置110可以提示用户112认可接受特定词项“Milpitas”的转录拼写。在界面104中，可将文本124的表示解释为用户112接受了“Milpitas”的拼写是正确的指示。

一经指示用户112接受转录拼写，就将通过语音模态方式接收的特定词项“Milpitas”添加或保存到与语音IME相关联的一个或多个语言模型中。一旦添加到语言模型中，就可以访问该特定词项以用于随后的语音-文本通信。例如，一旦存储在语言模型中，就可以在随后的通信中使用单词“Milpitas”，而不会触发自动更正逻辑或拼写检查逻辑的出现。

交叉模态学习操作还可包括：生成至少引用所述特定词项的输入场境数据结构。例如，可以生成至少包括词项“Milpitas”以及与所接收的用户输入相关联的多个其他词项的输入场境数据结构。在一些实施方式中，多个其他词项可包括用于输入所述特定词项的示例性应用程序以及指示何时收到所述特定词项的时间和/或日期。

交叉模态学习操作还可包括语音模态识别器将输入场境数据结构传输给键盘或物理输入模态识别器，以用于更新与键盘模态识别器相关联的键盘模态识别模型。

例如，可通过语音IME将输入场境数据结构传输给键盘IME。输入场境数据结构可包括词项“Milpitas”，用于输入“Milpitas”的文本/电子邮件消息应用程序的指示，以及用户112通过语音输入法输入“Milpitas”的数据/时间。键盘IME可以与至少包括空间模型(如下所述)和语言模型的键盘模态识别模型相关联。

界面108显示经由键盘或物理输入模式输入到用户装置110的文本126。在一些实施方式中，所传输的输入场境数据结构可用于更新由键盘IME访问的键盘语言模型。更新的键盘语言模型使得用户112能够输入包括特定词项“Milpitas”的文本通信，使得该词项被与键盘IME相关联的拼写检查和/或自动更正逻辑适当地识别。此外，如文本126所示，用户112可基于正在更新为包括特定词项“Milpitas”的键盘IME的空间模型和语言模型来刷写或者用手势表示词项“Milpitas”。

图2示出用于交叉模态学习的示例性计算系统200的系统图。系统200通常包括语音模态识别模型202(语音模型202)、键盘模态识别模型252(键盘模型252)、交叉模态学习模块270(学习模块270)和通用语言模型274(通用LM 274)。

如同本说明书所使用的，词项“模块”意图包括但不限于被配置为执行一个或多个软件程序的一个或多个计算机，所述软件程序包括导致计算机的处理装置执行一个或多个功能的程序代码。词项“计算机”意图包括任何数据处理装置如台式计算机、膝上型计算机、大型计算机、平板装置、服务器、手持装置、移动或智能电话装置、或能够处理数据的任何其他装置。

语音模型202可包括声学模型206、语音模型208和言语IME 210。语音模型202通常被配置为接收音频输入204并执行各种数据和信号处理功能，以识别和提取与以特定语言所说的人类言语相关联的一个或多个单词。

语音模型202可与可从用户装置110访问的一个或多个应用程序结合使用。在一些实施方式中，语音模型202可以部分地由在模块中执行的软件或程序代码、处理器装置、或用户装置110内本地设置的电路组件形成。而在其他实施方式中，语音模型202可以与接收和处理来自装置110的音频信号传输的非本地、云或基于服务器的计算系统相关联。

声学模型206可以是在语音识别中使用的示例性声学模型，以关联音频信号与音素或形成语音音频的其他语言属性之间的关系。通常，声学模型206可以与言语IME 210交互，以识别和关联某些接收的发音，所述发音表现出同与示例性口语单词(例如“MILPITAS”)关联的声学相匹配的声学特性。

语言模型208可以是在语音识别中使用的示例性语言模型，以指定或确定某些单词组合或序列。在一些实施方式中，可将模型208配置为生成单词序列概率因子，其可用于指示特定单词序列或单词组合可能的出现或存在。所确定的单词序列主要对应于言语语料库而不是书面语料库所特有的序列。

语音IME 210可包括语音缓冲器212、识别器214和LM管理器216。语音缓冲器212和缓冲器262可分别包括一个或多个存储器单元，存储器单元被配置为临时缓冲或存储语音或音频信号，以用于通过语音模块202进行数据或信号处理。语音缓冲器212、262可包括一个或多个非暂时性机器可读的存储介质。非暂时性机器可读的存储介质可包括固态存储器、磁盘、光盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程的只读存储器(例如EPROM、EEPROM或闪存)、或能够存储信息的任何其他有形介质。

除了它们各自的缓冲器212和262之外，语音IME 210和键盘IME260(如下所述)可各自包括多个处理装置。处理装置可包括一个或多个处理器(例如微处理器或中央处理单元(CPU))、图形处理单元(GPU)、专用集成电路(ASIC)、或不同处理器的组合。在替代性实施方式中，系统200可包括其他计算资源/装置(例如基于云的服务器)，其提供附加处理选项，以用于进行本说明书所述的一个或多个确定和计算。

处理装置通常可包括一个或多个存储单元或存储体，它们是非暂时性机器可读的存储介质。在一些实施方式中，处理装置执行存储器单元中存储的程序指令，以使得系统200及其关联组件发挥本说明书所述的一个或多个功能。

在一些实施方式中，识别器214可以是通过语音IME 210的一个或多个处理器执行的示例性语音识别逻辑、程序指令或算法。例如，识别器214可执行程序代码，以管理所接收的音频输入204的特性的确定、提取和分析。此外，识别器214可执行比较器逻辑，以将所接收的音频输入204的特性与声学模型206以及语言模型208中存储的各种模型参数进行比较。比较结果可以产生基本上对应于系统200的一个或多个用户112所提供的言语发音的文本转录输出。

LM管理器216可包括控制和/或管理对于语言模型208的一个或多个模型参数的访问的示例性访问或管理逻辑。例如，可将LM管理器216配置为基于所接收的音频输入204的特定特征(通过识别器214来确定和分析)来访问语言模型208的某些参数。例如，识别器214可将所接收的音频输入204的特征识别为包括与英语或西班牙语相对应的一个或多个单词发音。因此，LM管理器216将访问与英语口语、西班牙语口语、或两者相关联的语言模型208的模型参数。

通常，识别器214和LM管理器216可进行交互或合作，以执行各种数据处理和信号处理功能。执行这些功能能够完成进行语音音频输入识别和将语音音频转换为文本转录所必须的处理步骤。

如上所述，语音模型202以及键盘模型252分别可以与从用户装置110可访问的一个或多个应用程序结合使用。示例性应用程序可包括电子邮件应用程序、文本消息应用程序、即时消息应用程序、网络浏览应用程序、映射应用程序、或配置为接收用户输入(例如语音音频输入、数字文本输入、字母数字输入、字符输入、或数字图像输入)的任何其他应用程序。

可将交叉模态学习模块270配置为执行程序代码，以部分地生成输入场境数据结构而用于语音模型202与键盘模型252之间以及学习模块270与通用语言模型274之间的传输。在一些实施方式中，学习模块270可以基于从用户装置110、语音IME 210、以及键盘IME262的处理器接收的参数信号来集合多个参数值。

例如，学习模块270可接收指示与系统200的相应IME结合使用的特定应用程序的参数值，以接收文本或语音用户输入。此外，用户装置110可提供指示何时通过相应IME接收特定语音或键入的词项以及相关联的场境单词的日期和时间参数。此外，相应IME可提供与所接收的语音或键入的输入相关联的n-gram场境或完整的转录格。

学习模块270可基于所接收的参数值生成输入场境数据结构272，并且有助于在相应的IME 210、IME 260之间以及在学习模块270与通用LM274之间传输所生成的数据结构272。在一些实施方式中，通用LM274从学习模块270接收输入场境数据结构272，输入场境数据结构272被通用LM 274用于更新多个用户皆可访问的语言模型。

在一些实施方式中，系统200可提供一个或多个参数值或数据结构272，以生成包括由系统200通过键盘或语音模态所接收的多个用户输入的数据库。参数值和数据结构272可包括一个或多个特定词项或新单词。该数据库可以至少部分地与通用语言模型274相关联。此外，在一些实施方式中，通用LM 274可包括与各种不同的口语和输入模态相对应的各种单独的语言模型。系统200可以使用多个用户输入的数据库的至少一个用户输入来更新通用LM 274的一个或多个语言模型。

在替代性实施方式中，通用LM 274可以向学习模块270提供可包括从其他通用用户所接收的新单词或特定词项的数据结构和/或参数值。然后，学习模块270可生成一个或多个输入场境数据结构272，然后输入场境数据结构272被传输给语音模型202或键盘模型252中的其中一个，以更新它们各自的语言模型208和258。因此，在一些实施方式中，键盘IME 260和语音IME 210可以基于从通用LM 274接收的参数或数据结构学习新的特定词项。

键盘模型252可包括空间模型256、语言模型258和键盘IME 260。键盘模型252通常被配置为接收与字母、数字和被显示为形成单词或短语的数字文本的其他字符相对应的触摸/物理键盘输入254。

与上述语音模型202很相似，键盘模型252也可以部分地由模块中执行的软件或程序代码、处理器装置、或用户装置110内本地设置的电路组件形成。而在其他实施方式中，键盘模型252可以与接收和处理来自装置110的音频信号传输的非本地、云或基于服务器的计算系统相关联。

除了空间模型256之外，语言模型258和键盘IME 260的功能的技术描述可以类似于上述语言模型208和语音IME 210的描述。为了清楚和简洁起见，可通过指出相对于语言模型208的技术区别来描述语言模型258。同样，可通过指出相对于语音IME 210的技术区别来描述键盘IME260。

语言模型258可用于键盘文本识别，以确定某些字母组合或序列。在一些实施方式中，可将模型258配置为生成字母或单词序列概率因子，其可用于指示特定单词序列或单词组合可能的出现或存在。所确定的字母和单词序列主要对应于书面语料库而不是言语语料库所特有的序列。

在一些实施方式中，识别器264可以是键盘IME 260的一个或多个处理器执行的文本识别逻辑、程序指令或算法。例如，识别器264可执行程序代码，以管理所接收的文本输入254的特性的确定、提取和分析。此外，识别器214可执行比较器逻辑，以将所接收的文本输入254的空间特性与空间模型256以及语言模型258中存储的各种模型参数进行比较。

空间模型256可以是在文本预测中使用的示例性空间模型，以关联字母的空间坐标或字母之间的空间关系，从而预测经由用户装置110的键盘输入的键入、刷写或者用手势表示的单词。通常，空间模型256可与键盘IME 260交互，以确定和关联在空间上与形成关联于某些书面语料库的单词的字母相对应的键盘输入。

系统200通常可包括以下操作性处理和功能。用户112可以向用户装置110说话或提供语音输入，语音输入包括语言模型208或语音IME210中未包括或未知的单词发音。例如，用户112通过说出特定词项(例如“Milpitas”)向用户装置110说话。声学模型206可与语音模型202的其他组件交互，以准确地转录口头输入204，从而在示例性应用程序中将“Milpitas”显示为文本218。

在一些实施方式中，用户112将向应用程序指示，用户112接受特定词项的转录拼写。例如，语音模型202可执行程序代码，以检测或确定用户112是否修改了语音模型202所生成的转录。在一些实施方式中，在不修改提议的转录文本218的情况下，用户112继续输入附加的语音输入，或在“Milpitas”前后手动键入/输入文本，然后，语音模型202可以确定，用户112接受了语音到文本的转录218。

如果语音模型202确定用户112接受了转录词项“Milpitas”，那么系统200可将该特定词项存储在语言模型208和/或通用LM 274中。在一些实施方式中，当系统200将先前未知的特定词项存储在系统的各种不同的语言模型中时，这些存储操作可以有效地构成实时学习功能。

通常，系统200可执行数据处理和存储操作，使得系统及其关联IME可通过基于服务器端云的学习处理以及本地客户端的学习处理这两者来学习新的口头词项。换言之，第一次用户112向装置110说出新单词并且语音模型202能够识别与声学模型206的参数相匹配且被用户接受为正确转录的发音；系统200将识别该单词，将该单词保存到语音LM 208，并传输包括该单词的数据结构。

所传输的数据结构将至少被键盘模型252接收，以供键盘IME 260使用。因此，当用户112随后准确地键入、用手势表示或刷写“Milpitas”的特定文本串时，键盘IME 260将该单词识别为是语言模型258已知的。因此，系统200将学习特定词项，保存为由语音/言语IME210使用的词项，并将其传送给键盘IME 260，使得在用户112向装置110键入或说出其他输入内容的时候，键盘模型252也可以学习该特定词项。

在一些实施方式中，在通过语音IME 210传输并通过键盘IME 260接收特定输入场境数据结构272之后，用户112可激活键盘模态输入模式。在该模式中，使用键盘模态识别器(即键盘IME 260)识别通过键盘/文本模态的方式实现的用户输入。然后，系统200可通过键盘模态的方式接收用户输入254，且输入254可包括特定词项“Milpitas”。键盘模型252响应于语音IME 210和/或学习模块270传输输入场境数据结构272而学习特定词项“Milpitas”。在学习该特定词项“Milpitas”之后，键盘IME 260可识别通过键盘/文本模态的方式接收的该特定词项。

在一些实施方式中，通过键盘IME 260识别特定词项“Milpitas”可包括用户装置110的显示器向用户112提供指示。例如，显示器可向用户112指示，已经将特定词项添加或保存到语言模型258。在一些实施方式中，在将“Milpitas”添加到LM 258之后，用户112可以键入示例性文本短语(例如“Drive to Milpitas”)，并接收通过键盘模型252识别该单词的一般性指示。例如，在不触发例如与模型252相关联的拼写检查或自动更正逻辑的情况下，该指示可对应于包括单词“Milpitas”的文本显示268。

在一些实施方式中，可将系统200配置为检测通过键盘模型252接收的包括至少引用特定词项(例如“Milpitas”)的文本内容或文本格的用户输入的出现。例如，可将系统200配置为检测何时通过键盘IME260接收示例性短语或文本格(例如“Drive to Milpitas”)。一般而言，系统200将在首先学习特定词项之后检测特定词项的出现。

响应于检测引用特定词项的文本内容，系统200可递增第一数据计数，第一数据计数跟踪以下情形的出现次数：引用特定词项的文本内容被通过键盘模态的方式接收。在一些实施方式中，系统200还可以递增第二数据计数，第二数据计数跟踪以下情形的出现次数：与特定词项相对应的用户输入被通过第二模态的方式接收。例如，除了检测和递增对包括特定词项的接收的文本格的数据计数之外，系统200还可以检测和递增跟踪特定词项的个别出现而不是包括所述特定词项的文本格的出现的数据计数。

在一些实施方式中，系统200可使用第一数据计数和第二数据计数来生成与特定词项相关联的集合统计数据的数据集。数据集中的其他统计数据例如可包括特定词项的拼写和大小写的变化。此外，可以与指示特定词项在各种不同的文本或言语场境(例如“Driveto Milpitas”、“Meet at MILPITAS”、“Let’s eat at milpitas”)中的使用的场境变化相关联地来集合统计数据。在一些实施方式中，可通过系统200来使用所生成的集合统计数据的数据集，以偏置、改进或增强各个模型202、252内的键盘输入或语音输入学习功能。

在其他实施方式中，可将所生成的集合统计数据的数据集传输给通用LM 274。例如，通用LM 274可从系统200接收与可能尝试输入特定词项“Milpitas”的不同用户相关联的各种输入。如前面段落所述，在某些情况下，系统200的一个或多个用户可能错误地拼写“Milpitas”或可能使用不正确的大写。特定词项的这种不正确或不当使用可不用于更新通用LM 274的一个或多个语言模型。或者，对于阈值数量的用户112正确使用特定词项的情况，系统200将使得通用LM 274的语言模型以特定词项的最适当使用进行更新。

图3是用于交叉模态学习的示例性过程300的流程图。在步骤302，过程300包括激活第一模态用户输入模式，其中使用第一模态识别器识别通过第一模态的方式实现的用户输入。在一些实施方式中，激活第一模态用户输入模式包括在示例性移动装置(例如装置110)中从键盘IME切换为语音IME。第一模态可以与语音模态相对应，所述语音模态与开启语音听写的用户装置110的语音输入功能相关。此外，第一模态识别器可与语音IME 210相对应。

在步骤304，过程300通过第一模态的方式接收用户输入。在一些实施方式中，所接收的用户输入可以是与包括一个或多个单词发音的人类言语相对应的音频输入。此外，所接收的用户输入可包括通过语音IME 210识别的一个或多个特定词项。

在步骤306，作为第一模态识别器识别用户输入的结果，过程300获得包括特定词项的转录。在一些实施方式中，识别用户输入可包括系统200的语音识别模型处理音频输入，以解析一个或多个单词。被解析的单词可包括特定词项，且系统200可基于根据所接收的言语发音识别的被解析的单词来生成文本转录。在一些实施方式中，部分地通过远程服务器或基于云的计算系统来生成转录。随后可通过装置110从计算系统获得所生成的转录。

在步骤308，过程300包括生成至少引用特定词项的输入场境数据结构。在一些实施方式中，输入场境数据结构可包括特定词项以及其他项目，例如用于输入特定词项的示例性应用程序、用户输入的言语发音的一个或多个n-gram、以及指示何时接收特定词项的时间和/或日期。

在步骤310，过程300包括通过第一模态识别器将输入场境数据结构传输给第二模态识别器。在过程300的步骤312，将所传输的输入场境数据结构用于更新与第二模态识别器相关联的第二模态识别模型。第二模态可以与同用户装置110的键盘输入功能(其中使用数字或物理键盘来输入文本内容)相关的键盘或物理输入模态相对应。此外，第二模态识别器可与键盘IME 260相对应。

在一些实施方式中，第二模态识别模型可与至少包括空间模型256和语言模型258的键盘模态识别模型252相对应。在一些实施方式中，所传输的输入场境数据结构可用于更新通过键盘IME访问的键盘语言模型。更新后的键盘语言模型可使得用户装置110能够接收包括特定词项的输入文本通信，从而使得例如可通过与键盘IME相关联的拼写检查和/或自动更正逻辑来适当地识别该词项。

本说明书所述主题和功能操作的实施例可在数字电子电路中、在按照有形方式实现的计算机软件或固件中、在包括本说明书公开的结构及其结构等同物的计算机硬件中实现，或者在它们的一个或多个的组合中实现。本说明书所述主题的实施例可作为一个或多个计算机程序实现，即在有形的非暂时性程序载体上编码的计算机程序指令的一个或多个模块，以用于通过数据处理设备执行或控制数据处理设备的操作。

也可称为或描述为程序、软件、软件应用、模块、软件模块、脚本、或代码的计算机程序可以按照任何形式的编程语言来编写，包括编译或解释语言、或声明性或程序性语言，并且可以按照任何形式来配置，包括作为独立程序或者作为适用于计算环境的模块、组件、子例程或其他单元。计算机程序可以但不一定对应于文件系统中的文件。

可将程序存储在保存其他程序或数据的文件的一部分中(例如存储在标记语言文档中的一个或多个脚本)，存储在专用于所考虑的程序的单个文件中，或者存储在多个协同文件中，例如存储一个或多个模块、子程序或代码部分的文件。可将计算机程序配置为在一个计算机上或多个计算机上执行，所述多个计算机布置在一个站点或者分布在多个站点并由通信网络互连。

图4是可用于实现本文所述系统和方法的计算装置400、450的方框图，所述计算装置作为客户端，或者作为服务器或多个服务器。计算装置400意图表示各种形式的数字计算机，例如笔记本电脑、台式机、工作站、个人数字助理、服务器、刀片服务器、大型机和其他适当的计算机。计算装置450意图表示各种形式的移动装置，例如个人数字助理、移动电话、智能电话、智能手表、头戴式装置和其他类似的计算装置。这里所示的组件、它们的连接和关系以及它们的功能仅仅是示例性的，并非要限制在本文所述和/或要求保护的实施方式。

计算装置400包括处理器402、存储器404、存储装置406、连接到存储器404和高速扩展端口410的高速接口408、以及连接到低速总线414和存储装置406的低速接口412。组件402、404、406、408、410和412各自使用各种总线互连，并且可安装在公共主板上或者视情况以其他方式安装。处理器402可以处理在计算装置400内执行的指令，包括存储在存储器404中或存储装置406上的指令，以在外部输入/输出装置例如连接到高速接口408的显示器416上显示用于GUI的图形信息。在其他实施方式中，可以视情况使用多个处理器和/或多个总线以及多个存储器和多种类型的存储器。此外，可将多个计算装置400与提供必要操作的各个部分的各个装置(例如作为服务器组、刀片服务器组或多处理器系统)相连接。

存储器404在计算装置400内存储信息。在一个实施方式中，存储器404是计算机可读的介质。在一个实施方式中，存储器404是易失性存储器单元。在另一个实施方式中，存储器404是非易失性存储器单元。

存储装置406能够为计算装置400提供大容量存储。在一个实施方式中，存储装置406是计算机可读的介质。在各种不同的实施方式中，存储装置406可以是硬盘装置、光盘装置、或磁带装置、闪存或其他类似的固态存储装置、或装置的阵列，包括存储区域网络或其他配置中的装置。在一个实施方式中，在信息载体中按照有形方式实现计算机程序产品。计算机程序产品包含指令，在执行时，指令实施一个或多个方法(例如上述方法)。信息载体是计算机或机器可读的介质，例如存储器404、存储装置406、或处理器402上的存储器。

高速控制器408管理计算装置400的带宽密集型操作，而低速控制器412管理较低的带宽密集型操作。这种任务分配只是示例性的。在一个实施方式中，高速控制器408连接到存储器404、显示器416(例如通过图形处理器或加速器)，以及连接到可容纳各种扩展卡(未示出)的高速扩展端口410。在实施方式中，低速控制器412连接到存储装置406和低速扩展端口414。可包括各种通信端口(例如USB、蓝牙、以太网、无线以太网)的低速扩展端口可以例如通过网络适配器连接到一个或多个输入/输出装置，例如键盘、指示装置、扫描仪或网络装置(例如交换机或路由器)。

可以按照多种不同的形式实现计算装置400，如图所示。例如可将它实现为标准服务器420，或者在一组这样的服务器中多次实现。也可将它实现为机架式服务器系统424的一部分。此外，它可以在个人计算机(例如膝上型计算机422)中实现。或者，来自计算装置400的组件可以与移动装置(例如装置450)中的其他组件(未示出)组合。这些装置各自可包含计算装置400、450的一个或多个，且整个系统可由相互通信的多个计算装置400、450组成。

计算装置450包括处理器452、存储器464、输入/输出装置(例如显示器454)、通信界面466、收发器468以及其他组件。装置450还可设置存储装置(例如微驱动器或其他装置)，以提供附加存储。组件450、452、446、454、466和468各自使用各种总线互连，并且可将若干组件安装在公共主板上，或者视情况以其他方式安装。

处理器452可以处理用于在计算装置450内执行的指令，包括在存储器464中存储的指令。处理器还可包括单独的模拟处理器和数字处理器。处理器例如可提供用于装置450的其他组件的协调，例如用户界面的控制、通过装置450运行的应用、以及通过装置450进行的无线通信。

处理器452可通过连接到显示器454的控制界面458和显示界面456与用户进行通信。显示器454例如可以是TFT LCD显示器或OLED显示器或其他适当的显示技术。显示界面456可包括适当的电路，以用于驱动显示器454向用户呈现图形和其它信息。控制界面458可从用户接收命令并将其转换以提交给处理器452。此外，可提供与处理器452通信的外部界面462，从而实现装置450与其他装置的近区域通信。外部接口462例如可用于有线通信(例如经由对接程序)或用于无线通信(例如经由蓝牙或其他此类技术)。

存储器464在计算装置450内存储信息。在一个实施方式中，存储器464是计算机可读的介质。在一个实施方式中，存储器464是易失性存储器单元。在另一个实施方式中，存储器464是非易失性存储器单元。扩展存储器474还可通过扩展接口472来提供并连接到装置450，扩展接口472例如可包括SIMM卡接口。这种扩展存储器474可为装置450提供额外的存储空间，或者还可存储用于装置450的应用或其他信息。具体而言，扩展存储器474可包括用于执行或补充上述过程的指令，并且还可包括安全信息。因此，例如可提供扩展存储器474作为用于装置450的安全模块，并且可用允许安全使用装置450的指令来编程。此外，可经由SIMM卡以及附加信息来提供安全应用，例如以不可攻击的方式将识别信息放置在SIMM卡上。

存储器例如可包括闪存和/或MRAM存储器，如下所述。在一个实施方式中，在信息载体中按照有形方式实现计算机程序产品。计算机程序产品包含指令，当执行所述指令时，指令实施一个或多个方法(例如上述方法)。信息载体是计算机或机器可读的介质，例如存储器464、扩展存储器474、或处理器452上的存储器。

装置450可通过通信接口466以无线方式进行通信，在必要时通信接口466可包括数字信号处理电路。通信接口466可在如下各种模式或协议下提供通信，例如GSM语音呼叫、SMS、EMS、或MMS消息传送、CDMA、TDMA、PDC、WCDMA、CDMA2000、或GPRS等等。这种通信例如可通过射频收发器468发生。此外，可发生短距离通信，例如使用蓝牙、WiFi、或其他此类收发器(未示出)。此外，GPS接收器模块470可向装置450提供附加的无线数据，可以视情况通过在装置450上运行的应用来使用这些数据。

装置450也可使用音频编解码器460以可听见的方式通信，音频编解码器460可从用户接收语音信息并将其转换为可用的数字信息。同样，音频编解码器460可以例如通过扬声器例如在装置450的听筒中为用户产生可听见的声音。这种声音可包括来自语音电话呼叫的声音，可包括记录的声音(例如语音消息、音乐文件等等)，并且还可包括通过在装置450上操作的应用所产生的声音。

可以按照多种不同的形式来实现计算装置450，如图所示。例如，可将它实现为移动电话480。也可将它实现为智能电话482、个人数字助理或其他类似的移动装置的一部分。

本文所述系统和技术的各种实施方式可以在数字电子电路、集成电路、专门设计的ASIC、计算机硬件、固件、软件和/或它们的组合中实现。这些各种实施方式可包括一个或多个计算机程序中的实施方式，所述计算机程序在包括至少一个可编程处理器的可编程系统上可执行和/或可解释，所述可编程处理器可以是专用或通用的并连接为从存储系统、至少一个输入装置、以及至少一个输出装置接收数据和指令，以及向存储系统、至少一个输入装置、以及至少一个输出装置传输数据和指令。

这些计算机程序也称为程序、软件、软件应用程序或代码，并且包括用于可编程处理器的机器指令，并且可按照高级程序性语言和/或面向对象的编程语言和/或汇编/机器语言的形式来实现。如同本文所使用的，术语“机器可读的介质”、“计算机可读的介质”是指用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、设备和/或装置，例如磁盘、光盘、存储器、可编程逻辑器件(PLD)，包括接收作为机器可读的信号的机器指令的机器可读的介质。术语“机器可读的信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。

为了提供与用户的交互，可以在具有用于向用户显示信息的显示装置(例如CRT(阴极射线管)或LCD(液晶显示器)显示屏)以及用户可以用来向计算机提供输入的键盘和指示装置(例如鼠标或轨迹球)的计算机上实现本文所述的系统和技术。其他类型的装置也可用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可按照任何形式接收来自用户的输入，包括声音、语音或触觉输入。

本文所述的系统和技术可以在包括后端组件(例如作为数据服务器)或包括中间件组件(例如应用服务器)或包括前端组件(例如具有用户可以用来与本文所述的系统和技术的实施方式交互的图形用户界面或Web浏览器的客户端计算机)，或包括这些后端组件、中间件组件、前端组件的任意组合的计算系统中实现。系统的组件可通过数字数据通信的任何形式或介质(例如通信网络)互连。通信网络的示例包括局域网(LAN)和广域网(WAN)以及因特网。

计算系统可包括客户端和服务器。客户端和服务器一般远离彼此，且通常通过通信网络进行交互。客户端和服务器的关系凭借在各个计算机上运行并相互具有客户端-服务器关系的计算机程序而产生。

除了以上描述之外，还可向用户提供如下控制：允许用户对于本文所述系统、程序或特征是否可以以及何时可以进行用户信息(例如关于用户社交网络、社交行为或活动、专业、用户的偏好、或用户的当前位置的信息)的收集、以及是否从服务器给用户发送内容或通信进行选择。此外，某些数据可以在存储或使用之前以一种或多种方式进行处理，从而消除个人身份信息。例如，在一些实施例中，可以对用户的身份进行处理，从而不能对用户确定个人身份信息，或者在获得位置信息(例如城市、邮政编码或州层级)的情况下可将用户的地理位置模糊化，从而不能确定用户的具体位置。因此，用户可以控制关于用户收集哪些信息、如何使用该信息、以及向用户提供哪些信息。

已经描述了多个实施例。但是应当理解，在不背离本发明的主旨和范围的情况下，可以进行各种修改。例如，可以以重新排序、增加、或去除步骤的方式使用以上示出的流程的各种形式。此外，虽然已经描述了支付系统和方法的若干应用，但是应当认识到，可以构思很多其他应用。因此，其它实施例均落入所附权利要求的范围内。

虽然本说明书包含许多具体的实施细节，但是这些细节不应视为对所要求保护的范围的限制，而仅仅是对于具体实施例而言所特有的特征的描述。在单独实施例的情况下本说明书所述的某些特征也可以在单个实施例中以组合方式实现。相反，在单独实施例的情况下所述的各种特征也可以独立地或以任何合适的子组合的方式在多个实施例中实现。此外，虽然上文可将所述特征描述为按照某些组合起作用，甚至一开始像这样地要求保护，但是在某些情况下，可以从要求保护的组合中去除该组合的一个或多个特征，并且所要求保护的组合可以针对子组合或子组合的变体。

类似地，虽然在附图中按照特定顺序描述操作，但是这不应理解为要求按照所示特定顺序或按照连续顺序执行这些操作，或者进行所有所示操作以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应理解为在所有实施例中都需要这种分离，并且应当理解，所述程序组件和系统一般可以一起集成在单个软件产品中或打包成多个软件产品。

已经描述了所述主题的特定实施例。其他实施例均落入所附权利要求的范围。例如，权利要求中列举的动作可以按照不同的顺序执行，并且仍然实现期望的结果。作为一个示例，附图中所示的过程不一定需要所示的特定顺序或连续顺序来实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。

Claims

1.一种计算机实现的方法，包括：

由计算设备经由与所述计算设备相关联的第一用户输入模式接收特定词项的用户输入；

由所述计算设备生成与所述特定词项相关联的参数值，其中，所述参数值是基于与所述第一用户输入模式相对应的第一模态识别模型；

基于所述参数值来生成至少引用所述特定词项的输入场境数据结构；和

由所述计算设备向和与所述计算设备相关联的第二用户输入模式相对应的第二模态识别模型发送用于训练所述第二模态识别模型的所述输入场境数据结构。

2.根据权利要求1所述的方法，还包括：

由所述计算设备基于用户指示来确定所述特定词项的转录版本是否正确，其中，所述转录版本是基于所述第一模态识别模型。

3.根据权利要求1所述的方法，其中，所述第一模态识别模型与第一语言模型相对应，并且所述第二模态识别模型与第二语言模型相对应。

4.根据权利要求1所述的方法，其中，所述第一模态识别模型与语言模型相对应，并且所述第二模态识别模型与空间模型相对应。

5.根据权利要求1所述的方法，其中，所述第一用户输入模式与基于键盘的用户输入模式相对应，并且所述第二用户输入模式与基于语音的用户输入模式相对应。

6.根据权利要求5所述的方法，其中，所述基于语音的用户输入模式与基于云的自动言语识别器相关联。

7.根据权利要求5所述的方法，其中，所述基于语音的用户输入模式与声学模型相关联，所述声学模型被配置为将发音直接与转录的词相匹配。

8.根据权利要求1所述的方法，还包括：

由所述计算设备接收将所述计算设备从所述第一用户输入模式切换到所述第二用户输入模式的用户指示；和

响应于所述用户指示，从所述第一用户输入模式切换到所述第二用户输入模式。

9.根据权利要求1所述的方法，还包括：

由所述计算设备在从所述第一模态识别模型接收所述输入场境数据结构之前，经由与所述计算设备相关联的所述第二用户输入模式接收包括所述特定词项的第二用户输入；

响应于所述第二模态识别模型未识别所述特定词项，提供错误转录的词项以供由所述计算设备显示；和

由所述计算设备在从所述第一模态识别模型接收所述输入场境数据结构之后，所述特利用定词项的正确版本的显示来替换所述错误转录的词项的所述显示。

10.根据权利要求1所述的方法，其中，所述第一用户输入模式与基于语音的用户输入模式相对应，并且所述方法还包括：

基于声学模型来生成所述特定词项的文本版本。

11.根据权利要求10所述的方法，还包括：

向所述用户提供所述特定词项的所述文本版本以供由所述计算设备显示；和

由所述计算设备接收所述特定词项的所述文本版本是所述特定词项的正确版本的用户指示。

12.根据权利要求1所述的方法，还包括：

由所述计算设备经由所述第二用户输入模式接收包括第二词项的第二用户输入；

响应于所述第二模态识别模型未识别所述第二用户输入，提供所述第二模态识别模型与所述第二词项相关联的错误转录的词项作为最高识别假设以供由所述计算设备显示；

在所述计算设备提供所述错误转录的词项以供显示之后，由所述计算设备接收将所述计算设备从所述第二用户输入模式切换到所述第一用户输入模式的用户指示；

在所述计算设备已经从所述第二用户输入模式切换到所述第一用户输入模式之后由所述计算设备接收提供所述错误转录的词项的校正的第三用户输入。

13.根据权利要求1所述的方法，还包括：

生成指示所述特定词项的场境变化的统计数据；和

利用所述统计数据来更新与所述计算设备相关联的一个或多个模态识别模型。

14.根据权利要求1所述的方法，还包括：

生成指示所述特定词项的场境变化的统计数据；

由所述计算设备向全局模型发送所述统计数据；和

由所述计算设备至少部分地基于由所述全局模型确定所述统计数据与来自阈值数量的用户计算设备的数据一致，更新与所述计算设备相关联的一个或多个模态识别模型。

15.根据权利要求1所述的方法，还包括：

生成包括经由所述第一用户输入模式接收的多个用户输入的数据库；和

使用所述多个用户输入中的至少一个用户输入来更新一个或多个模态识别模型能够访问的全局模型。

16.根据权利要求15所述的方法，其中，所述第二模态识别模型是键盘语言模型，并且所述方法还包括：

使用所更新的全局模型来更新所述键盘语言模型。

17.根据权利要求15所述的方法，其中，所述第一模态识别模型是言语模型，并且所述方法还包括：

使用所更新的全局模型来更新所述言语模型。

18.一种包括一个或多个计算机可读介质的制品，所述一个或多个计算机可读介质具有存储在其上的计算机可读指令，所述计算机可读指令在由计算设备的一个或多个处理器执行时，使所述计算设备执行以下操作：

经由与所述计算设备相关联的第一用户输入模式接收特定词项的用户输入；

生成与所述特定词项相关联的参数值，其中，所述参数值是基于与所述第一用户输入模式相对应的第一模态识别模型；

向和与所述计算设备相关联的第二用户输入模式相对应的第二模态识别模型发送用于训练所述第二模态识别模型的所述输入场境数据结构。

19.一种计算设备，包括：

一个或多个处理器；和

数据存储，其中，所述数据存储具有存储在其上的计算机可读指令，所述计算机可读指令在由所述一个或多个处理器执行时，使所述计算设备执行以下操作：

20.根据权利要求19所述的计算设备，其中，所述计算机可执行指令在由所述一个或多个处理器执行时，还使所述计算设备执行以下操作：