CN109074172A

CN109074172A - 向电子设备输入图像

Info

Publication number: CN109074172A
Application number: CN201780023615.8A
Authority: CN
Inventors: A·J·卡德沃斯; A·M·阿尔夫特; P·J·霍尔克; T·C·迪克斯昂; N·B·莫顿
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-04-13
Filing date: 2017-04-06
Publication date: 2018-12-21
Anticipated expiration: 2037-04-06
Also published as: US11720744B2; US20230049258A1; US20170300462A1; CN109074172B; WO2017180407A1; EP3443443B1; EP3443443A1; US11494547B2

Abstract

描述了一种计算设备，其具有存储由用户输入的文本的存储器。计算设备具有被配置为向已经被训练以从文本预测图像的预测引擎发送文本的处理器。处理器被配置为响应于所发送的文本从预测引擎接收多个预测，每个预测包括被预测为与文本相关的图像。处理器被配置为基于包括以下中的一个或多个的标准向文本中插入多个图像：预测的排序、图像的类别、与一个或多个图像相关联的规则、用户输入、触发单词。处理器被配置为以与预测的排序相对应的顺序依次向文本中插入多个图像。

Description

向电子设备输入图像

背景技术

向诸如智能电话、平板计算机、可穿戴计算机或其他电子设备等电子设备中输入图像对于终端用户来说通常是耗时且麻烦的。在要将图像与文本一起输入到电子设备例如以创建要发送到另一电子设备的消息或者创作文档、网页、博客或其他项目的情况下尤其是这样。通常，电子设备的尺寸受到限制，诸如在智能电话或可穿戴计算机的情况下，这使得终端用户难以进行文本和/或图像输入。

在短信和消息收发环境中，用户在基于单词的文本中包括图像已经变得流行。例如，用户通常输入图像的基于文本的表示(称为表情符号)来表达情感，诸如:-)或；-p[在西方很典型]或(Λ_Λ)[在亚洲很典型]。最近，名为绘文字(emoji)的小字符大小的图像变得流行。贴纸(sticker)也变得流行。贴纸是字符的详细说明，该字符表示情感或动作，是卡通和绘文字的混合。

Unicode(6.0)标准分配722个代码点作为绘文字的描述(示例包括U+1F60D：具有心形眼睛的微笑脸部和U+1F692：消防车)。指定的图像用于渲染这些Unicode字符中的每个，以便可以发送和接收它们。尽管输入绘文字很受欢迎，但仍然很难这样做，因为用户必须发现适当的绘文字，并且即使知道适当的绘文字，也必须导航通过大量可能的绘文字以找到他们想要输入的绘文字。

下面描述的实施例不限于解决用于向电子设备输入图像的已知过程和/或设备的任何或所有缺点的实现。

发明内容

以下呈现本公开的简化概述，以便向读者提供基本的理解。本“发明内容”不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于限制所要求保护的主题的范围。其唯一目的是以简化的形式呈现本文中公开的一些概念，作为稍后呈现的更详细描述的序言。

描述了一种计算设备，其具有存储由用户输入的文本的存储器。计算设备具有处理器，其被配置为向已经被训练以从文本预测图像的预测引擎发送文本。处理器被配置为响应于所发送的文本从预测引擎接收多个预测，每个预测包括被预测为与文本相关的图像。处理器被配置为基于包括以下中的一个或多个的标准向文本中插入多个图像：预测的排序、图像的类别、与一个或多个图像相关联的规则、用户输入、触发单词。处理器被配置为以与预测的排序相对应的顺序依次向文本中插入多个图像。

通过参考结合附图考虑的以下详细描述，将更容易理解很多附带特征。

附图说明

从以下结合附图阅读的详细描述中将能更好地理解本说明书，在附图中：

图1是被部署为针对终端用户计算设备的服务以支持在终端用户计算设备处的图像输入的预测引擎的示意图；

图2是具有用于支持在终端用户计算设备处的图像输入的预测工具的终端用户计算设备的示意图；

图3是图2的预测工具处的操作方法的流程图；

图4是图3的方法的一部分的更详细的流程图；

图5是具有预测工具的终端用户计算设备的用户界面的示意图；

图6是在选择预测绘文字键盘的情况下图5的用户界面的示意图；

图7是具有预测绘文字键盘的终端用户计算设备的用户界面的示意图；

图8是在向文本插入绘文字的情况下图7的用户界面的示意图；

图9是在向文本插入绘文字的情况下图8的用户界面的示意图；

图10是在使用规则向文本插入绘文字的情况下图7的用户界面的示意图；

图11是诸如图1的预测引擎等预测引擎的示意图；

图12是图11的图像语言模型的示例的更详细的示意图；

图13示出了其中实现图1的文本/图像预测工具的实施例的示例性的基于计算的设备。

在附图中，相同的附图标记用于表示相同的部分。

具体实施方式

以下结合附图提供的详细描述旨在作为本示例的描述，而非旨在表示构造或利用本示例的唯一形式。该描述阐述了示例的功能以及用于构造和操作示例的操作序列。然而，可以通过不同的示例来实现相同或等同的功能和序列。

在本文中描述的示例中，终端用户能够以最小的努力向电子设备中插入相关图像。用户向电子设备输入文本，并且文本由预测引擎用来预测与文本相关的图像。在一些示例中，预测引擎还预测可能跟随由用户到目前为止输入的文本的诸如字符、单词或短语等文本。一个或多个预测图像被自动插入到由用户输入的文本中，使得用户方面的努力最小。图像的插入由各种标准控制，诸如预测的排序、图像的类别、与一个或多个图像相关联的规则、用户输入、一个或多个触发单词。

以这种方式，用户不具有操作绘文字选择面板的负担，其中绘文字被组织成可以被滚动通过的几个类别。绘文字选择面板的操作复杂且耗时，因为尽管绘文字被分组成类别，但仍然要求用户搜索各种类别的绘文字以便找到他们想要使用的绘文字。一些绘文字不容易分类，这进一步加剧了这个问题。

在本文中描述的示例中，用户不必提供标识特定绘文字的简写文本，并且不需要键入绘文字的确切描述。以这种方式，终端用户能够以最小的努力向电子设备插入相关图像。

图1是被部署为终端用户计算设备的服务以支持在终端用户计算设备处的图像输入的预测引擎的示意图。术语“图像”用于指代大小和形状适于插入文本之间的任何类型的二维图形表示，并且非穷举的示例列表是：照片、徽标、绘图、图标、绘文字、表情符号、贴纸、象形图、表意文字、卡通或者大小和形状适于插入文本之间的任何其他图像。在下面描述的各种示例中，图像是绘文字。

诸如移动电话108、114、平板计算机116、可穿戴计算机118、膝上型计算机或其他终端用户电子设备等终端用户设备经由有线或无线链路连接到通信网络102。通信网络102是因特网、内联网或者任何有线或无线通信网络。还连接到通信网络的是包括图像预测组件106的预测引擎100，图像预测组件106已经被训练以针对给定文本输入来预测与给定文本输入相关的多个图像。在一些示例中，预测引擎100还具有单词/短语预测组件104，单词/短语预测组件104被配置为在给定文本输入的情况下预测可能跟随给定文本输入的文本字符、单词或短语。预测引擎使用软件、硬件和固件中的任何一个来实现，并且具有通信接口，通信接口被布置为从终端用户计算设备108、114、116、118接收文本112以及向终端用户计算设备发送预测110。预测包括图像，并且在一些示例中，包括文本字符、单词或短语。在一些示例中，根据预测与由用户输入的文本112相关的概率或可能性对预测进行排序。在一些示例中，由预测引擎100响应于单个文本输入实例来向终端用户设备返回十个或几十个经排序的预测。单个文本输入实例是关键笔划、字符、音素、词素、单词、短语、句子或其他文本单元。

一旦终端用户计算设备接收到多个预测，它就将预测图像插入到由用户输入的文本中。这是根据标准自动进行的，使得可以减轻用户的负担，同时通过标准实现控制。标准是预先配置或动态设置的。图9示出了其中由终端用户输入的文本是“I'm flying toHawaii(我正在飞往夏威夷)”并且在文本之后立即自动插入了十八个图像的示例。在这个示例中，图像跟随文本，但图像也可以在文本之前或散布在文本中。例如，图10示出了其中在文本之前、之后和之上自动插入图像的情况。

标准用于控制各种因素，诸如何时发生自动图像插入，自动图像插入发生多长时间，自动图像插入何时停止，文本内要相对于文本插入图像的位置，文本内要相对于彼此来插入图像的位置，要插入图像的时间顺序和其他因素。例如，在一些情况下，使用单个用户交互(诸如键盘显示器上的单个长按)来发起图像插入过程。在一些情况下，图像的插入速度由单个用户交互(在键盘上的单个长按)的持续时间来控制。这简化了诸如智能电话、平板计算机或可穿戴计算机等移动设备上的终端用户的用户界面交互。

终端用户计算设备处的预测工具可以访问标准，并且被配置为控制终端用户计算设备，使得能够使用标准向文本中自动插入图像。例如，预测工具是终端用户计算设备处的软件、硬件或固件。

注意，图1的部署仅是一个示例，并且在一些示例中，预测引擎与终端用户计算设备是一体的。

图2是诸如可穿戴计算机、增强现实头戴式计算机、移动电话、平板计算机或其他终端用户计算设备等终端用户计算设备的示意图。在控制显示器的用户界面系统210内设置有预测工具212。在某些情况下，显示器是屏幕202，或者在某些情况下，显示器是向环境中或向用户的眼睛中进行投影的虚拟现实或增强现实显示器。计算设备200具有一个或多个传感器206，诸如触摸屏、麦克风、相机或其他传感器，这些传感器检测用户输入以使得用户能够输入文本并且做出关于图像输入的标准的选择。传感器向连接到用户界面系统210的设备操作系统208提供输入。设备操作系统208控制渲染器204，渲染器204被配置为将诸如图形用户界面等图形内容渲染到可选屏幕202或任何其他装置以向终端用户显示图形内容。终端用户计算设备200具有存储器216、一个或多个处理器216和通信接口218。终端用户计算设备具有各种其他组件，这些组件为了清楚起见而未示出并且在下面参考图13更详细地描述。

替代地或另外地，预测工具212的功能至少部分地由一个或多个硬件逻辑组件执行。例如而非限制，可选地使用的说明性类型的硬件逻辑组件包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统系统(SOC)、复杂可编程逻辑器件(CPLD)、图形处理单元(GPU)。

图3是图2的预测工具212处的方法的流程图。例如，接收300用户文本输入，其中用户使用物理键盘或显示在触摸屏上的软键盘键入文本。在另一示例中，用户说出文本输入并且文本输入使用麦克风被接收。在另一示例中，用户指向使用增强现实计算设备或虚拟现实计算设备投影的键盘或图形用户界面的显示。一个或多个相机被用来检测用户指向并且所选择的用户输入被计算。

在一些示例中，文本输入作为在终端用户计算设备上执行的文本消息收发应用的一部分被接收，尽管这不是必需的。文本输入可以作为文档创作应用的一部分或在任何其他上下文中被接收。文本输入由传感器206接收并且传送到用户界面系统210并且由预测工具212可访问。

在一些示例中，由用户界面系统210向终端用户呈现一个或多个候选文本预测，使得用户能够选择这些候选文本预测(其可以是整个单词或整个短语预测)以更有效地输入文本。

终端用户计算设备向预测引擎发送302已经从用户接收的文本和任何可选上下文。可选上下文包括诸如由用户先前输入的文本、由用户经常用于插入文本的图像、由用户最近用于插入文本的图像或关于文本输入和任何相关图像的任何其他上下文数据等信息。

作为响应，终端用户计算设备接收304多个预测图像(被预测为与文本相关)、以及被预测为可能要由用户接下来输入的可选地接收的预测文本。在一些示例中，预测图像包括被预测为与候选文本预测相关的图像。可以接收数十或数几十个预测图像，或任何其他合适数目的预测图像。在一些示例中，预测图像根据其预测的相关性进行排序。

终端用户计算设备、预测工具212在文本中插入306一个或多个接收的预测图像。过程的该部分在下面参考图4更详细地描述。然后向另一实体存储308或发送具有插入图像的文本。例如，在文本消息收发应用的情况下，具有插入图像的文本作为文本消息被发送到另一终端用户计算设备。但是，这并不重要，因为在其他类型的情况下使用其他类型的消息，诸如电子邮件消息、社交媒体消息或其他消息。

参考图4，在一些示例中，在文本中插入一个或多个预测图像的过程包括显示400预测图像。例如，如图7所示，预测图像显示在窗格700中在与文本输入区域500相邻的地方。预测工具212接收410指示用户选择自动图像插入的用户输入。用户输入具有任何合适的类型，诸如触摸屏上的触摸输入、增强现实用户界面上的指向输入、语音输入或其他用户输入。在一些示例中，用户输入用于控制以下中的一个或多个：图像插入过程何时开始、图像插入过程何时结束、图像插入过程的速度、图像插入过程的加速度。

如果预测图像可用，则预测工具访问412与预测图像相关联的规则。例如，预测工具访问终端用户计算设备或另一实体处的存储器，存储器存储与图像相关联的规则。预测工具继续进行以根据标准向文本中插入416一个或多个预测图像。标准存储在终端用户计算设备处或终端用户计算设备可访问的另一实体处。在一些示例中，标准是用户可配置的。在一些示例中，标准动态地调整。标准包括以下中的一个或多个：预测的排序、图像的类别、与一个或多个图像相关联的规则、用户输入、一个或多个触发单词。

在一些示例中，在对多个预测进行排序的情况下，处理器被配置为以与预测的排序相对应的顺序依次向文本中插入一个或多个图像。在这种情况下，标准包括预测的排序。在一些示例中，预测的排序和图像的类别两者被用作标准。例如，每个图像具有与其相关联的元数据，元数据指示其属于多个类别中的哪个类别。在某些情况下，预测工具被布置为以使用预测的排序和图像的类别两者计算的顺序依次向文本中插入图像。

在一些示例中，标准涉及插入图像相对于彼此的位置。例如，排序用于指定插入图像相对于彼此的排序。在一些示例中，图像的排序和类别都用于计算插入图像相对于彼此的排序。

在一些示例中，标准包括作为由用户输入的文本的一部分的触发单词的检测。例如，终端用户设备处的预测工具可以访问存储触发单词的存储器，并且如果它在输入文本中检测到这些触发单词之一，则它发起自动化图像插入过程。

在一些示例中，预测工具被布置为向终端用户提供反馈以指示图像插入过程将要开始。例如，触觉反馈、听觉反馈或视觉反馈。在一些示例中，在视觉反馈的情况下，渲染预测图像使得它们摇动。

在规则可用的情况下，这些规则用作标准以确定文本中要插入多个图像的位置。例如，飞机的图像与指定图像被显示在被预测为与图像相关的文本上方的规则相关联。例如，太阳的图像与指定图像被显示在被预测为与图像相关的文本上方的规则相关联。

现在参考图5至10给出具有预测工具212的终端用户计算设备处的用户界面的示例。这仅是一个示例，并且其他用户界面是可能的。在这个示例中，计算设备具有触摸屏并且正在执行由此用户已经接收到消息的消息收发应用，并且正在输入文本以回复所接收的消息。图像将与文本一起插入以形成回复消息。

图5是具有预测工具的终端用户计算设备的用户界面的示意图。用户界面包括图形显示的键盘、文本输入框500、消息收发窗格502和一个或多个候选预测按钮504。消息收发窗格示出已经被接收到并且正在制定其回复的消息508。用户已经在文本输入框500中输入文本“I'm flying to haw(我正在飞往haw)”，并且候选预测按钮504当前显示预测“the(该)”、“Hawaii(夏威夷)”和“be(是)”。候选预测按钮上示出的单词根据从预测引擎接收的预测文本来确定。

用户界面包括功能按钮506，当由终端用户选择时，功能按钮506引起诸如图6的显示等显示。这使得终端用户能够访问预测绘文字键盘以简化与文本相关联的图像的输入。图6是在通过选择菜单项600选择预测绘文字键盘的情况下图5的用户界面的示意图。

一旦选择了预测绘文字键盘，它就被显示，如图7所示，图7示出了被替换为绘文字的窗格700的QWERTY软键盘，其中绘文字是由预测引擎预测并且在终端用户计算设备处接收的图像。在这个示例中，有18个预测的绘文字，尽管在其他示例中使用其他数目。在一些示例中，绘文字根据预测的排序以经排序的顺序被显示在窗格700中。在其他示例中，诸如图7的示例，绘文字以基于预测的排序和绘文字的类别的顺序被显示。例如，即使至少一个花的排序较低，棕榈树和花也在窗格700的顶行中被分组在一起。

在窗格700的底部是图标702，当用户选择时，图标702引起图像插入过程开始。在一些示例中，这个图标的长按引起图像插入过程开始。在一些示例中，图像插入过程仅在用户触摸该图标时发生，并且随着图标被触摸更长时间而加速。在窗格700的底部也可以使用图标以使得用户能够删除绘文字或访问更多的绘文字。

一旦用户触摸并且保持图标702，窗格700中的绘文字就摇动以向用户提供图像插入过程正在开始的视觉反馈。然后，窗格中的绘文字飞到窗格700上方的点以模仿飞入上下文中。在表格700中的绘文字的位置留下alpha通道印记，并且绘文字的图像被插入到文本输入框500中。如图8所示，超过四个绘文字已经被插入到文本中，因为窗格700中有五个绘文字丢失并且剩下了它们的alpha通道印记。Alpha通道印记802(为了便于表示而表示为虚线方形，但实际上形状的轮廓将与绘文字的轮廓相同)是针对飞机绘文字的情况的示例。窗格中的至少两个绘文字正在从窗格转变到文本中，如窗格700的顶行的最右边两个位置中的绘文字所示。在这些位置中，阿尔法通道印记是部分可见的并且绘文字在位置上朝向文本输入框500移位。

图9是在已经将绘文字插入文本的情况下图8的用户界面的示意图。这里，所有18个绘文字都插入在文本的末尾。在插入之后，alpha通道印记用预测图像填充。在文本的末尾插入绘文字的图9的示例仅是一个示例，因为绘文字可以在以下中的任何一个或多个处插入：在文本之前，在文本之后，在文本之间，在文本上方，在文本下方。

图10是在使用规则将绘文字插入文本的情况下图7的用户界面的示意图。在这种情况下，描绘太阳、云和飞机的绘文字每个具有指定相关文本上方的位置的规则。棕榈树绘文字具有指示在文本之前的插入的规则，并且冲浪和海绘文字具有指示在相关文本之后的插入的规则。

参考图5至10描述的用户界面使得用户能够以最小的努力向电子设备插入相关图像。

现在给出关于预测引擎100的更多细节。在一些示例中，预测引擎100包括语言模型。在一些示例中，预测引擎包括搜索引擎。在一些示例中，预测引擎包括分类器。

图11示出了预测引擎100包括语言模型10的情况。预测引擎100包括图像语言模型10以生成图像预测50并且可选地生成(多个)单词预测60。图像语言模型10可以是一般的图像语言模型，例如基于英语的语言模型，或者可以是特定于应用的图像语言模型，例如在SMS消息或电子邮件消息或任何其他合适类型的语言模型上训练的语言模型。预测引擎100可以包括任何数目的附加语言模型，其可以是纯文本语言模型或图像语言模型。

如果预测引擎100包括一个或多个附加语言模型，则预测引擎100包括多语言模型30(多LM)以组合源自每个语言模型的图像预测和/或单词预测以生成最终图像预测50和/或最终单词预测60，最终图像预测50和/或最终单词预测60可以被提供给用户界面以供显示和用户选择。最终图像预测50优选地是总体上最可能的预测的集合(即，指定数目)。

如果附加语言模型是标准的基于单词的语言模型，则其与基于图像的语言模型10一起使用，使得预测引擎100从图像语言模型10生成图像预测50并且从基于单词的语言模型生成单词预测60。在优选的情况下，基于图像/单词的语言模型10还可以生成由多LM 30用来生成最终单词预测集60的单词预测。由于这个实施例的附加语言模型20可以仅预测单词，所以多LM 30不需要输出最终图像预测50。图1的基于单词的语言模型104可以被替换为用于生成单词预测的任何合适的语言模型，其可以包括基于词素或单词片段的语言模型。

如果图1的附加语言模型104是附加图像语言模型，则多LM 30可以用于从源自两种语言模型的图像预测生成最终图像预测50。多LM 30还可以用于标记由用户输入的文本。

将参考图12描述图像语言模型10的示例，图12示出了接收用户输入文本并且返回图像预测50(并且可选地返回单词/术语预测60)的图像语言模型的示意图。

存在给定语言模型的两种可能输入、当前术语输入11和上下文输入12。语言模型可以使用可能输入中的任一个或两者。当前术语输入11包括系统所具有的关于系统正在试图预测的术语的信息，例如，用户正在试图输入的单词(例如，如果用户已经输入“I amworking on ge(我正在从事ge)”，则当前术语输入11是“ge”)。这可以是一系列多字符击键、个体字符击键、从跨触摸屏键盘的连续触摸手势确定的字符、或输入形式的混合。上下文输入12包括用户到目前为止紧接在当前术语之前输入的术语序列(例如，“I am working(我正在从事)”)，并且该序列由多LM 30或单独的标记器(未示出)分离为“标记”。如果系统正在生成对第n术语的预测，则上下文输入12将包含已经由用户选择并且输入到系统中的前面的n-1个术语。如果当前单词输入涉及开始句子的单词，则上下文的n-1个术语可以包括单个单词、单词序列或不包括单词。语言模型可以包括输入模型(其将当前术语输入11作为输入)和上下文模型(其将上下文输入12作为输入)。

在图12所示的示例中，语言模型包括单词查找树13(输入模型的示例)和基于单词的n元语法映射14(上下文模型的示例)以分别从当前输入11和上下文12生成单词预测。图12的语言模型包括交集(intersection)15以从由单词查找树13和n元语法映射14生成的预测来计算最终的单词预测集60。单词查找树13可以是使用直接当前单词片段输入11查询的标准单词查找树或近似单词查找树。替代地，单词查找树13可以是使用从当前输入生成的KeyPressVector(按键向量)查询的概率单词查找树。语言模型还可以包括任何数目的过滤器以生成最终的单词预测集60。如果需要，语言模型10的交集15被配置为在由单词查找树预测的候选也尚未被n元语法映射预测的情况下采用回退方法，而不是仅保留由两者生成的候选。每次系统必须在搜索的上下文上回退时，交叉机构15对概率应用“回退惩罚”(其可以是固定的惩罚，例如通过乘以固定值)。在这个实施例中，上下文模型(例如，n元语法映射)可以包括应用了回退惩罚的一元语法概率。

图12的语言模型包括将语言模型10的每个单词映射到一个或多个相关图像/标签的单词→图像对应关系映射40，例如，如果单词预测60是“披萨”，则语言模型输出披萨的图像(例如，披萨绘文字)作为图像预测50。

在一些示例中，不需要单词到图像对应关系映射，因为语言模型的n元语法映射在包括嵌入在文本的各部分中的图像的源数据上被训练。在这种情况下，绘文字被视为单词以生成语言模型的n元语法映射，即，n元语法映射包括已经标识绘文字的上下文中的绘文字。n元语法映射包括与单词和绘文字序列相关联的概率，其中绘文字和单词以相同的方式处理。在某些情况下，使用带有绘文字的n元语法映射而不使用单词查找树13，使得能够在不需要当前输入的情况下预测图像。在某些情况下，带有绘文字的n元语法映射与单词查找树13一起使用，使得能够计算交集以产生单词预测和图像预测(而不需要对应关系映射)。

在搜索引擎用作预测引擎的情况下，搜索引擎具有包括与每个图像相关联的统计模型的图像数据库。统计模型已经针对与该模型的特定图像相关联的文本部分被训练。在一些示例中，统计模型是仅文本语言模型。

在一些示例中，预测引擎包括已经针对已经用图像预先标记的文本数据被训练的分类器。可以使用任何合适类型的机器学习分类器，其基于包含其类别成员资格已知的观察或实例的训练数据集来标识新观察属于一组类别中的哪个类别。

图13示出了示例性的基于计算的设备1300的各种组件，其被实现为任何形式的计算和/或电子设备，并且其中在一些示例中实现了用于向基于计算的设备输入图像的预测工具的实施例。

基于计算的设备1300包括一个或多个处理器1302，处理器1302是微处理器、控制器或者用于处理计算机可执行指令以控制设备的操作以便向设备输入诸如绘文字等图像的任何其他合适类型的处理器，其中图像与由用户输入的文本相关。在一些示例中，例如在使用片上系统架构的情况下，处理器1302包括用硬件(而不是软件或固件)实现图3和4中任一个的方法的一部分的一个或多个固定功能块(也称为加速器)。在基于计算的设备处提供包括操作系统1304的平台软件或任何其他合适的平台软件，以使得诸如消息收发应用或其他应用软件等应用软件1306能够在设备上执行。基于计算的设备具有包括如参考图2描述的预测工具1300的用户界面系统1300。基于计算的设备具有渲染器204以渲染绘文字和文本并且渲染图形用户界面。储存库1316保存图像、预测、排序、标准和其他数据。

计算机可执行指令使用由基于计算的设备1300可访问的任何计算机可读介质来提供。计算机可读介质包括例如计算机存储介质，诸如存储器1312和通信介质。诸如存储器1312等计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块等信息的任何方法或技术实现的易失性和非易失性的可移除和不可移除介质。计算机存储介质包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、电子可擦除可编程只读存储器(EEPROM)、闪存或其他存储器技术、光盘只读存储器(CD-ROM)、数字通用盘(DVD)或其他光学存储装置、磁带盒、磁带、磁盘存储装置或其他磁存储设备、或者用于存储用于计算设备访问的信息的任何其他非传输介质。相反，通信介质在诸如载波或其他传输机制等调制数据信号中实施计算机可读指令、数据结构、程序模块等。如本文中定义的，计算机存储介质不包括通信介质。因此，计算机存储介质不应当被解释为传播信号本身。尽管计算机存储介质(存储器1312)被示出为在基于计算的设备1312内，但是应当理解，在一些示例中，存储装置是远程分布或定位的，并且经由网络或其他通信链路来访问(例如，使用通信接口1308)。

基于计算的设备1300还包括输入/输出控制器1310，输入/输出控制器1310被布置为向可以与基于计算的设备1300分离或成一体的显示设备输出显示信息。显示信息可以提供图形用户界面。输入/输出控制器1310还被布置为接收和处理来自诸如用户输入设备1314(例如，鼠标、键盘、相机、麦克风或其他传感器)等一个或多个设备的输入。在一些示例中，用户输入设备1314检测语音输入、用户手势或其他用户动作，并且提供自然用户界面(NUI)。该用户输入可以用于控制图像的自动插入、输入文本、设置标准、配置规则以及用于其他目的。在一个实施例中，如果显示设备是触敏显示设备，则显示设备还用作用户输入设备1314。在一些示例中，输入/输出控制器1310向除了显示设备之外的设备(例如，本地连接的打印设备)输出数据。

输入/输出控制器1310、显示设备和用户输入设备1314中的任何一个可以包括NUI技术，NUI技术使得用户能够以自然的方式与基于计算的设备交互，而没有由诸如鼠标、键盘、遥控器等输入设备施加的人为约束。在一些示例中提供的NUI技术的示例包括但不限于依赖于声音和/或语音识别、触摸和/或触笔识别(触敏显示器)、屏幕上和屏幕附近的手势识别、空中手势、头部和眼睛跟踪、声音和语音、视觉、触摸、手势和机器智能的那些NUI技术。在一些示例中使用的NUI技术的其他示例包括意图和目标理解系统、使用深度相机的运动手势检测系统(诸如立体相机系统、红外相机系统、红绿蓝(rgb)相机系统及其组合)、使用加速度计/陀螺仪的运动手势检测、脸部识别、三维(3D)显示、头部、眼睛和注视跟踪、沉浸式增强现实和虚拟现实系统、以及用于使用电场感测电极来感测大脑活动的技术(脑电图(EEG)和相关方法)。

作为本文中描述的其他示例的替代或补充，示例包括以下中的任何组合：

一种计算设备，包括：

存储器，存储由用户输入的文本；

处理器，被配置为向已经被训练以从文本预测图像的预测引擎发送所述文本；

所述处理器被配置为响应于所发送的文本从所述预测引擎接收多个预测，每个预测包括被预测为与所述文本相关的图像；

所述处理器被配置为基于包括以下中的一个或多个的标准向所述文本中插入多个图像：所述预测的排序、所述图像的类别、与所述图像中的一个或多个图像相关联的规则、用户输入、触发单词；并且其中所述处理器被配置为以与所述预测的排序相对应的顺序依次向所述文本中插入所述多个图像。

如上所述的计算设备，其中所述处理器被配置为以响应于单个用户交互的方式向所述文本中插入所述多个图像。

如上所述的计算设备，其中所述处理器被配置为根据所述单个用户交互的持续时间来控制所述多个图像插入到所述文本中的速度。

如上所述的计算设备，其中所述处理器被配置为以基于所述预测的排序并且基于所述图像的类别的顺序向所述文本中插入所述图像。

如上所述的计算设备，其中所述处理器被配置为基于所述预测的排序利用所插入的图像相对于彼此的位置向所述文本中插入所述图像。

如上所述的计算设备，其中所述处理器被配置为基于所述预测的排序并且基于所述图像的类别利用所插入的图像相对于彼此的位置向所述文本中插入所述图像。

如上所述的计算设备，其中所述标准包括选择自动图像插入功能的用户输入。

如上所述的计算设备，其中所述处理器被配置为仅与所述用户输入同时插入所述图像。

如上所述的计算设备，其中所述标准包括作为所述文本的一部分的触发单词的检测。

如上所述的计算设备，其中所述预测包括至少一对共现图像，所述预测引擎已经被训练以预测成对的共现图像。

如上所述的计算设备，其中所述标准包括与图像相关联的一个或多个规则，所述处理器被配置为从存储器访问所述预测中的至少一个预测的一个或多个规则，并且在使用所述一个或多个规则选择的位置处向所述文本中插入至少一个预测图像。

如上所述的计算设备，其中所述处理器被配置为在所述图像的插入将要开始时向所述用户提供反馈。

如上所述的计算设备，其中所述处理器被配置为向所述用户提供关于所述图像的插入的进展的反馈。

如上所述的计算设备，其中所述预测还包括预测单词或预测短语，并且其中所述处理器被配置为提供与所述预测单词或预测短语相关联的预测图像用于输入。

如上所述的计算设备，其中所述预测引擎与所述计算设备是一体的。

一种计算设备，包括：

用于存储由用户输入的文本的装置；

用于向已经被训练以从文本预测图像的预测引擎发送所述文本的装置；

用于响应于所发送的文本从所述预测引擎接收多个预测的装置，每个预测包括被预测为与所述文本相关的图像；以及

用于以基于所述预测的排序并且基于如下标准的顺序依次向所述文本中插入多个图像的装置，所述标准包括以下中的一个或多个：所述预测的排序、所述图像的类别、与所述图像中的一个或多个图像相关联的规则、用户输入、触发单词。

一种计算机实现的方法，包括：

在存储器处存储由用户输入的文本；

向已经被训练以从文本预测单词和图像的预测引擎发送所述文本；

响应于所发送的文本而从所述预测引擎接收被预测为与所述文本相关的多个图像以及被预测为跟随所述由用户输入的文本的一个或多个单词；以及

使用处理器以基于所述预测的排序的顺序依次向所述文本中插入多个所述图像。

如上所述的计算机实现的方法包括：接收选择自动图像插入功能的用户输入，以及在接收所述用户输入之后向所述文本中插入所述图像。

如上所述的计算机实现的方法包括接收用户输入并且在所述用户输入期间插入所述一个或多个图像，以及当所述用户输入结束时停止插入所述一个或多个图像。

术语“计算机”或“基于计算的设备”在本文中用于指代具有处理能力使得其能够执行指令的任何设备。本领域技术人员将认识到，这样的处理能力被合并到很多不同的设备中，并且因此术语“计算机”和“基于计算的设备”各自包括个人计算机(PC)、服务器、移动电话(包括智能电话)、平板计算机、机顶盒、媒体播放器、游戏机、个人数字助理、可穿戴计算机和很多其他设备。

在一些示例中，本文中描述的方法通过有形存储介质上的机器可读形式的软件来执行，例如，以包括计算机程序代码装置的计算机程序的形式，计算机程序代码装置适于在程序在计算机上运行时执行本文中描述的一种或多种方法的所有操作，并且其中计算机程序可以在计算机可读介质上实施。软件适合于在并行处理器或串行处理器上执行，使得方法操作可以以任何合适的顺序或同时执行。

这承认软件是有价值的单独可交易的商品。旨在包含运行或控制“虚拟”或标准硬件的软件，以执行期望功能。还旨在包括“描述”或定义硬件配置的软件，诸如HDL(硬件描述语言)软件，该软件用于设计硅芯片或用于配置通用可编程芯片以执行期望功能。

本领域技术人员将认识到，用于存储程序指令的存储设备可选地分布在网络上。例如，远程计算机能够存储被描述为软件的过程的示例。本地或终端计算机能够访问远程计算机并且下载部分或全部软件以运行程序。替代地，本地计算机可以根据需要下载软件的片段，或者在本地终端处执行一些软件指令并且在远程计算机(或计算机网络)处执行一些软件指令。本领域技术人员还将认识到，通过利用本领域技术人员已知的常规技术，全部或一部分软件指令可以由诸如数字信号处理器(DSP)、可编程逻辑阵列等专用电路来执行。

如本领域技术人员很清楚的，可以扩展或改变本文中给出的任何范围或设备值而不丧失所寻求的效果。

尽管用结构特征和/或方法动作特定的语言描述了本主题，但是应理解，所附权利要求书中定义的主题不必限于上述具体特征或动作。而是，上述具体特征和动作被公开作为实现权利要求的示例形式。

应当理解，上述益处和优点可以涉及一个实施例或可以涉及若干实施例。实施例不限于解决任何或所有所述问题的那些实施例，也不限于具有任何或所有所述益处和优点的那些实施例。将进一步理解，对“一个(an)”项目的引用是指那些项目中的一个或多个。

本文中描述的方法的操作可以以任何合适的顺序进行，或者在适当的情况下同时进行。另外，在不脱离本文中描述的主题的范围的情况下，可以从任何方法中删除个体框。上述任何示例的各方面可以与所描述的任何其他示例的各方面组合以形成另外的示例而不会丧失所寻求的效果。

术语“包括(comprising)”在本文中用于表示包括所标识的方法框或元素，但是这样的框或元素不包括排他列表，并且方法或装置可以包含附加的框或元素。

术语“子集”在本文中用于指代适当的子集，使得集合的子集并非包括集合的所有元素(即，子集中缺少集合的至少一个元素)。

应当理解，以上描述仅作为示例给出，并且本领域技术人员可以进行各种修改。以上说明书、示例和数据提供了示例性实施例的结构和使用的完整描述。尽管上面已经以一定程度的特殊性或者参考一个或多个个体实施例描述了各种实施例，但是本领域技术人员可以在不脱离本说明书的精神或范围的情况下对所公开的实施例进行多种改变。

Claims

1.一种计算设备，包括：

存储器，存储由用户输入的文本；

所述处理器，被配置为响应于发送的所述文本，从所述预测引擎接收多个预测，每个预测包括被预测为与所述文本相关的图像；

所述处理器，被配置为基于包括以下中的一个或多个的标准向所述文本中插入多个图像：所述预测的排序、所述图像的类别、与所述图像中的一个或多个图像相关联的规则、用户输入、触发单词；并且其中所述处理器被配置为以与所述预测的所述排序相对应的顺序依次向所述文本中插入所述多个图像。

2.根据权利要求1所述的计算设备，其中所述处理器被配置为以响应于单个用户交互的方式向所述文本中插入所述多个图像。

3.根据权利要求2所述的计算设备，其中所述处理器被配置为根据所述单个用户交互的持续时间来控制所述多个图像插入到所述文本中的速度。

4.根据前述权利要求中任一项所述的计算设备，其中所述处理器被配置为以基于所述预测的所述排序并且基于所述图像的类别的顺序向所述文本中插入所述图像。

5.根据前述权利要求中任一项所述的计算设备，其中所述处理器被配置为基于所述预测的所述排序，利用插入的所述图像相对于彼此的位置向所述文本中插入所述图像。

6.根据前述权利要求中任一项所述的计算设备，其中所述处理器被配置为基于所述预测的所述排序并且基于所述图像的类别，利用插入的所述图像相对于彼此的位置向所述文本中插入所述图像。

7.根据前述权利要求中任一项所述的计算设备，其中所述标准包括选择自动图像插入功能的用户输入。

8.根据权利要求7所述的计算设备，其中所述处理器被配置为仅与所述用户输入同时插入所述图像。

9.根据前述权利要求中任一项所述的计算设备，其中所述标准包括作为所述文本的一部分的触发单词的检测。

10.根据前述权利要求中任一项所述的计算设备，其中所述预测包括至少一对共现图像，所述预测引擎已经被训练以预测成对的共现图像。

11.根据前述权利要求中任一项所述的计算设备，其中所述标准包括与图像相关联的一个或多个规则，所述处理器被配置为从存储器访问一个或多个规则以用于所述预测中的至少一个预测，并且在使用所述一个或多个规则而被选择的位置处向所述文本中插入预测的至少一个图像。

12.根据前述权利要求中任一项所述的计算设备，其中所述处理器被配置为在所述图像的插入将要开始时向所述用户提供反馈。

13.根据前述权利要求中任一项所述的计算设备，其中所述处理器被配置为向所述用户提供关于所述图像的所述插入的进展的反馈。

14.根据前述权利要求中任一项所述的计算设备，其中所述预测还包括预测单词或预测短语，并且其中所述处理器被配置为提供与所述预测单词或预测短语相关联的预测图像以用于输入。

15.一种计算机实现的方法，包括：

在存储器处存储由用户输入的文本；

响应于发送的所述文本，从所述预测引擎接收被预测为与所述文本相关的多个图像，以及被预测为跟随由所述用户输入的所述文本的一个或多个单词；以及