CN105814519A

CN105814519A - 将图像或标签输入到电子设备的系统和方法

Info

Publication number: CN105814519A
Application number: CN201480067660.XA
Authority: CN
Inventors: J·阿利; G·琼斯; L·休伊特
Original assignee: Touchtype Ltd
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2013-12-12
Filing date: 2014-12-12
Publication date: 2016-07-27
Anticipated expiration: 2034-12-12
Also published as: CN105814519B; EP3080682A1; KR20160097352A; WO2015087084A1; KR102345453B1; GB201322037D0

Abstract

用于将图像/标签输入到电子设备中的系统和方法。提供了一种用于预测与用户输入的文本相关的图像/标签的系统和方法。在第一方面，提供的系统包括：用于接收用户输入的文本的单元；以及基于与图像/标签相关联的文本段而被训练的预测单元。所述预测单元配置为：接收用户输入的文本；确定所述用户输入的文本和与所述图像/标签相关联的文本段的相关性；以及基于与所述图像/标签相关联的文本段，预测所述图像/标签与所述用户输入的文本的相关性。本发明的系统和方法减少了输入图像/标签的负担。

Description

将图像或标签输入到电子设备的系统和方法

技术领域

本发明涉及将图像/标签输入到电子设备的系统和方法。特别地，本发明涉及基于用户输入的文本提供将被输入到设备中的图像/标签的系统和方法。

背景技术

在发短信和消息传送环境中，非常受用户欢迎的是在基于文字的文本中包含图像。例如，对于用户而言常见的是输入图像的基于文本的表示(称作表情图标(emoticon))来表达情绪，例如:-)或；-p[在西方常见]或(^_^)[在亚洲常见]。最近，称作表情符号(emoji)的小字符尺寸图像变得流行起来。贴纸也变得流行起来。贴纸是表示情绪或动作的字符的详细图示，其是动画和表情符号的混合。

自从2010年10月起，Unicode(6.0)标准分配了722个码点作为表情符号的描述(例子包括U+1F60D：具有心形眼睛的笑脸以及U+1F692：消防车)。消息传送服务(例如，Facebook、Whatsapp)通常设计它们自己的图像集，它们使用所述图像集渲染这些unicode字符中的每一个，从而可以进行发送和接收。另外，安卓(4.1+)和iOS(5+)提供这些字符的表示，本机地作为默认字体的部分。

虽然输入表情符号是流行的，但这样做仍有困难，这是因为用户必须发现适当的表情符号并且甚至需要知道适当的表情符号，必须在大量可能的表情符号中导航以发现其想要输入的那个表情符号。

键盘和消息传送客户端试图通过包括表情符号选择面板来减少问题，在所述面板中将表情符号组织成可以在其中滚动过的若干种类。虽然已经将表情符号分组为若干种类，但是用户仍然需要搜索所述种类的表情符号，以便找到他们想要使用的表情符号。此外，一些表情符号可能不容易被分类，这使得用户更难以决定他们应该搜索哪个种类来找到该表情符号。

存在已知的解决方案来试图进一步降低输入表情符号的负担。例如，一些消息传送客户端将自动用图像替代某些速记文本。例如，在发送消息时，FacebookMessenger将表情图标:-)转换为笑脸的图片，并将速记文本序列(y)转换为竖起大拇指的图片。

另外，谷歌安卓Jellybean键盘在用户键入正好对应于表情符号的描述的词语时，将提供所述表情符号的候选，例如，如果键入“雪花”，则向用户提供图片作为候选输入。

这些减少表情符号输入负担的已知解决方案仍要求用户提供识别表情符号的速记文本或键入对表情符号的准确描述。虽然已知的系统消除了滚动过表情符号屏的需要，但它们仍要求用户明确且正确地识别他们想要输入的表情符号。

本发明的一个目标在于解决上述问题，并减少在消息传送/发短信环境下图像(例如，表情符号、表情图标或贴纸)和标签输入的负担。

发明内容

本发明提供了根据独立权利要求1和2的系统、根据独立权利要求32、33、34、54和55的方法，以及根据独立权利要求56的计算机程序。

本发明的可选特征是从属权利要求的主题。

附图说明

现在将参考附图详细描述本发明，在附图中：

图1a和1b示出了根据本发明的第一系统类型的用于生成图像/标签预测的系统；

图2a-2c是根据本发明的将用于图1a和1b的系统中的替代图像/标签语言模型的示意图；

图3是将用于图2b和2c的语言模型中的包括与图像/标签(在该例子中是表情符号)相关联的文本段的n元语法(n-gram)图的示意图；

图4是将用于图2b和2c的图像/标签语言模型中的包括与图像/标签(在该例子中是表情符号)相关联的文本段的n元语法图的示意图，其中在训练文本中识别出的图像/标签与不在识别出的图像/标签紧前面的文本段相关联；

图5示出了根据本发明的第二系统类型的用于生成图像/标签预测的系统；

图6示出了根据本发明的第三系统类型的用于生成图像/标签预测的系统；

图7-11示出了根据本发明的用户界面的不同实施例；以及

图12-16示出了根据本发明的方法的流程图。

具体实施方式

本发明的系统配置为生成与用户输入的文本相关的图像/标签预测。通常，本发明的系统包括基于与图像/标签相关联的文本段训练的预测单元。所述预测单元配置为接收用户输入的文本，并预测图像/标签与用户输入的文本的相关性。

图像预测可以涉及任何种类的图像，包括照片、徽标、绘画、图标、表情符号或表情图标、贴纸，或者与文本段相关联的任何其它图像。在本发明的优选实施例中，图像是表情符号。

标签预测可以涉及与文本主体相关联的任何标签，其中所述标签用于识别或分类文本主体。所述标签因此可以指代文本的作者、生成文本段的公司/人，或者任何其它相关标签。在本发明的优选实施例中，标签是例如在推特简讯中使用的主题标签(hashtag)。

本发明提供三种替代方式来生成图像/标签预测，以解决减小图像/标签输入到电子设备的负担的问题。特别地，所述解决方案包括使用语言模型来生成图像/标签预测，使用搜索引擎从多个统计模型来生成图像/标签预测，以及使用分类器来生成图像/标签预测。替代的解决方案(即，替代的预测单元)将以所述顺序进行描述。

根据第一解决方案的系统可以实现为如图1a和1b所示，图1a和1b示出了根据本发明的高级文本预测架构的框图。该系统包括预测引擎100，其配置为生成与用户输入的文本相关的图像/标签预测50。

在图1a中，预测引擎100包括图像/标签语言模型10以生成图像/标签预测50，以及可选地词语预测60。图像/标签语言模型10可以是通用型图像/标签语言模型，例如基于英语的语言模型；或者可以是专用图像/标签语言模型，例如基于SMS消息或电子邮件消息训练的语言模型；或者可以是任意其它适当类型的语言模型。预测引擎100可以包括任意数量的额外语言模型，其可以是根据本发明的纯文本语言模型或者图像/标签语言模型，如图1b所示。

如图1b所示，如果预测引擎100包括一个或多个额外的语言模型，例如额外的语言模型20，则预测引擎100可以包括多语言模型30(Multi-LM)来组合来源于语言模型10、20中每一个的图像/标签预测和/或词语预测，来生成可以被提供给用户界面以供显示和用户选择的最终图像/标签预测50和/或最终词语预测60。最终图像/标签预测50优选是一组(即，规定数量的)整体最可能的预测。所述系统可以仅向用户呈现最可能的图像/标签预测50。

在WO2010/112841的第11页第1行到第12页第2行描述了使用Multi-LM30来组合来源于多个语言模型的词语预测，该文献通过引用合并于此。

如果额外的语言模型20是标准的基于词语的语言模型，例如，如在WO2010/112842中所详细描述的，尤其如WO2010/112842的图2a-d所示出的，则标准的基于词语的语言模型可以与基于图像/标签的语言模型10一起使用，从而预测引擎100根据图像/标签语言模型10生成图像/标签预测50，并根据基于词语的语言模型20生成词语预测60。如果愿意，基于图像/词语的语言模型10还可以生成词语预测(如以下结合图2a-2c描述的)，其可以由Multi-LM30用于生成最终的一组词语预测60。由于该实施例的额外的语言模型20仅能够预测词语，所以不需要Multi-LM30来输出最终图像/标签预测50。可以通过任意适当的语言模型来替代基于词语的语言模型20来生成词语预测，其可以包括基于词素或分词的语言模型，如在英国专利申请号1321927.4中详细讨论的，该文献通过引用全文合并于此。

如果额外的语言模型20是额外的图像/标签语言模型，则Multi-LM30可以用于根据来源于两个语言模型10、20的图像/标签预测来生成最终图像/标签预测50。

Multi-LM30还可以用于对用户输入的文本进行切分词(tokenise)，如WO2010/112842的第21页第1段所描述的，以及如结合本发明的语言模型实施例在下文更详细描述的。

将结合图2a-2c描述图像/标签语言模型10，图2a-2c示出了图像/标签语言模型的示意图，该图像/标签语言模型接收用户输入的文本并返回图像/标签预测50(以及可选的词语/术语预测60)。

存在对给定语言模型的两个可能输入，当前术语输入11和上下文输入12。语言模型可以使用所述可能输入的一个或两个。当前术语输入11包括系统具有的关于系统正试图预测的术语的信息，例如，用户正试图输入的词语(如，如果用户已经输入了“Iamworkingonge”，则当前术语输入11是“ge”)。这可能是多字符击键的序列、个体字符击键、根据跨触摸屏键区的连续触摸姿势确定的字符，或者输入形式的混合。上下文输入12包括用户目前输入的术语的序列，在当前术语的直接前面(例如，“Iamworking”)，并且该序列将通过Multi-LM30或分开的切分词器(未示出)分裂成“表征(token)”。如果系统正在生成第n个术语的预测，则上下文输入12将包含用户已经选择且输入到系统中的在前的n-1个术语。上下文的n-1个术语可以包括单个词语、词语序列，或者(在当前词语输入涉及开始句子的词语时)没有词语。

语言模型可以包括输入模型(其采用当前术语输入11作为输入)和上下文模型(其采取上下文输入12作为输入)。

在图2a中示出的第一实施例中，语言模型包括特里结构13(输入模型的例子)和基于词语的n元语法图14(上下文模型的例子)，以分别根据当前输入11和上下文12生成词语预测。该语言模型的第一部分对应于在WO2010/112841中详细讨论的内容，尤其是如结合WO2010/112841的图2a-2d描述的。本发明的图2a的语言模型还可以包括交集15，以根据由特里结构13和n元语法图14生成的预测来计算最终的一组词语预测60。如在WO2010/112841的第16页第4行到第17页第14行详细讨论的，特里结构13可以是标准特里结构(参见WO2010/112841的图3)或通过直接当前分词输入11查询的近似特里结构(参见WO2010/112841的图4a)。替代地，特里结构13可以是概率性特里结构，其通过根据当前输入生成的KeyPressVector进行查询，如WO2010/112841的第17页第16行到第20页第16行详细讨论的(以及在图4b和4c中图示的)，该文献通过引用合并于此。语言模型还可以包括任意数量的过滤器，来生成最终一组词语预测60，如在较早前的申请中描述的。

如果愿意，当特里结构所预测的候选未被n元语法图也预测出时，图2a和2c的语言模型10的交集15可以配置为采用回退方法，(而不是如在WO2010/112841中描述的仅保持通过两者生成的候选)。每次系统必须基于搜索的上下文回退时，交集机构15可以对概率应用“回退”惩罚(其可以是固定惩罚，例如，通过乘以固定值)。在该实施例中，上下文模型(例如，n元语法图)可以包括应用了回退惩罚的一元语法概率。

图2a的语言模型包括词语→图像/标签对应图40，其将语言模型10的每个词语映射为一个或多个相关图像/标签，例如，如果词语预测60是“披萨”，则语言模型输出披萨的图像(例如，披萨表情符号)作为图像预测50。

图2b示出了根据本发明的第一解决方案的第二图像/标签语言模型10。该图像/标签语言模型10配置为单独基于上下文12生成图像/标签预测50，并且可选地生成词语预测60。在该实施例中，图像/标签语言模型仅接收上下文输入12，其包括用于搜索n元语法图14’的一个或多个词语。图2b的n元语法图14’是以不同于图2a的方式进行训练的，使得图像/标签语言模型10能够生成相关的图像/标签预测50，而不使用词语→图像/标签对应图40。如果没有上下文12，则语言模型10可以输出与用于开始句子的最可能的词语60相关联的最可能的图像/标签50。对于某些情况，仅基于上下文预测图像/标签可能是适当的，例如，预测表情符号。在其它情况下，例如，预测标签(例如，主题标签)，使用当前词语输入(其本身或除了上下文输入之外)会是更适当的，这是因为用户可能在预测其之前部分键入了标签。

在图3和图4中示意性示出了第二实施例的n元语法图14’的例子，其中为了图示的目的，为图像/标签选择了表情符号。

图3的n元语法图14’已经基于包括嵌入在文本段中的图像/标签的源数据进行了训练。例如，可以基于来自推特的数据训练语言模型，其中已经对推文(tweet)进行了过滤以收集包括表情符号的推文。在图3的n元语法图14’中，像对待词语一样对待表情符号(其仅用作图像/标签的例子)以生成语言模型，即，n元语法上下文图包括上下文中已经被识别出的表情符号。例如，如果源数据包括句子“Iamnothappyaboutthi”，则例如当n元语法具有四个“happyaboutthis”的深度时，则表情符号将仅跟随其在前的上下文。因此，如果馈送到语言模型中的上下文12包括“happyaboutthis”，则语言模型将预测表情符号因为其是所述序列的下一部分。n元语法图包括与词语和表情符号的序列相关联的概率，其中为分配概率而对表情符号和词语不加选择地对待。因此，给定训练数据中的特定上下文，可以基于在所述训练数据中出现的频率而分配概率。

已经通过将在源文本中识别出的图像/标签与不是在所识别出的图像/标签紧前面的文本段相关联，而训练了图4的n元语法图。通过以这种方式训练语言模型，语言模型能够预测相关的/合适的图像/标签，即使用户没有输入描述相关图像/标签的文本并且没有输入通常在图像/标签紧前面的文本，例如“Iam”的“Iam”。为了训练该语言模型10，在源文本(例如，经过滤的推特推文)中识别图像/标签，并且每个识别出的图像/标签与所述源文本中的文本段相关联。利用推文的例子，将特定推文的表情符号与来自所述推文的n元语法相关联。例如，基于推文“I’mnothappyabout”的训练将生成具有相关联表情符号的以下n元语法：

○I’mnothappy

○nothappyabout

○happyaboutthi

○I’mnot

○nothappy

等等。

根据这种非直接上下文n元语法图14’生成表情符号预测的一种方式是：采用附到最接近匹配用户输入的文本的词语序列的n元语法图14’的词语序列上的表情符号。如果用户输入的文本是W₁W₂W₃W₄，则预测出的表情符号是附到序列W₁W₂W₃W₄上的表情符号。根据非直接上下文n元语法图14’生成表情符号预测的替代方式是：为用户输入的文本的每个词语预测表情符号，例如，如果用户输入的文本的词语序列是W₁W₂W₃W₄等，则为W₁预测第一表情符号e₁，为W₁W₂预测第二表情符号e₂(其中W₁W₂表示为词语序列W₁W₂预测表情符号)，为W₁W₂W₃预测e₃，以及为W₁W₂W₃W₄预测e₄等。可以使用该组表情符号预测(e₁，e₂，e₃，e₄)的加权平均来生成表情符号预测50，即，最频繁预测的表情符号将被输出为最可能的表情符号。通过采取一组表情符号预测的加权平均，可以增加表情符号预测的上下文范围。

由于可以与每个表情符号相关联的不同文本段的数量，优选以两种方式修剪模型。第一种是基于发生频率进行修剪，例如，通过小于固定数量的发生的频率计数对n元语法进行修剪(例如，如果看到特定的n元语法和相关联的表情符号在训练数据中少于10次，则移除所述n元语法和相关联的表情符号)。

第二种修剪方式是基于与一元语法概率不同的概率进行修剪。例如，在上下文“aboutthis”之后，预测的概率将不会大大高于的一元语法概率，因为训练还将没有特定偏差地遇到关于该[表情符号]的许多其它n元语法的形式。因此，可以修剪n元语法“aboutthis”。对这两种修剪方法的组合也是可能的，以及任意其它适当的修剪方法。

参考图2b，语言模型10从Multi-LM30接收一个或多个词语的序列(上下文12)，并比较该一个或多个词语的序列与在n元语法图14’内存储的词语的序列。结合图3的n元语法图，只有当表情符号直接跟随在一个或多个词语的序列之后时，预测表情符号，例如，根据上下文序列“nothappyaboutthis”，语言模型将预测结合图4的n元语法图，语言模型更规律地生成表情符号预测，因为该语言模型已经基于直接和非直接上下文进行了训练。

如图2b所示，语言模型可以可选地输出一个或多个词语预测60以及图像/标签预测50。语言模型比较一个或多个词语的输入序列(上下文12)与存储的词语序列(具有随附的表情符号)。如果识别出所存储的词语序列包括一个或多个词语的序列，则其输出在存储序列中在一个或多个词语的序列后的下一词语，例如，用于将下一词语直接输入到系统中或用于在用户界面上显示下一词语60以供用户选择。

语言模型10的第三实施例如图2c所示。正如图2a的语言模型，图2c的语言模型10包括：特里结构13和n元语法图14’，以分别根据当前输入11和上下文输入12生成词语预测；以及交集15，用于生成一个或多个最终词语预测60。第三实施例的n元语法图14’与第二实施例的相同，即，其包括嵌入在文本段中或附到文本段上的图像/标签。因此，相同的n元语法图14’可以用于生成图像/标签预测50以及词语预测60。

如根据上文所理解的，第一解决方案的系统基于用户输入的文本预测图像/标签，以及可选地基于所述用户输入的文本预测词语/术语。

虽然已经结合包括训练的n元语法图的语言模型描述了第一解决方案的图像/标签语言模型10，但是这只是例子，可以使用任意其它适当的经训练的语言模型。

减少图像/标签输入负担的第二解决方案涉及搜索引擎，其配置为生成图像/标签预测以供用户输入，类似于在英国专利申请1223450.6中详细讨论的，其全文通过引用合并于此。

图5示出了本发明系统的高级系统架构的框图。搜索引擎100’使用图像/标签数据库70，该数据库优选包括统计模型与图像/标签的一对一映射，即，图像/标签数据库包括与每个图像/标签(例如，表情符号或主题标签)相关联的统计模型，每个图像/标签统计模型基于与所述图像/标签相关联的文本段进行训练。语言模型是统计模型的非限制性例子，其中语言模型是表示词语序列发生在自然语言中的统计概率的概率分布。不像第一解决方案的语言模型10，根据该解决方案的语言模型在语言模型中不具有图像/标签，其是映射到特定图像/标签的纯文本语言模型。

为了生成图像/标签预测50，搜索引擎100’使用图像/标签数据库70和用户输入的文本12’，并且可选的使用一个或多个其它证据源12”，例如，系统给定用户的图像/标签输入历史。为了触发搜索，搜索引擎接收用户输入的文本12’。

图像/标签数据库70使个体图像/标签与同等数量的统计模型相关联，并且可选地，与不是基于语言的替代统计模型(未示出)相关联(例如，给定特定图像/标签的在先输入，所述模型估计用户关联)，如将在后文描述的。

搜索引擎100’配置为通过用户输入的文本证据12’查询图像/标签数据库70，以便为在内容数据库中的每个图像/标签生成图像/标签对给定用户输入的文本是相关的可能性的估计。搜索引擎将最可能的或p最可能的图像/标签输出作为图像/标签预测50，其可以可选地被呈现给用户。

对在相关联的图像/标签统计模型M下观察用户输入的文本e、给定图像/标签c相关的概率P的估计是：

P(e|c,M)

存在可以由搜索引擎应用来计算所要求的估计的多种技术，例如：

·朴素贝叶斯建模

·极大熵建模

·统计语言建模

前两种方法基于提取一组特征并训练生成模型(其在该例子中，等同于从与图像/标签相关联的文本中提取特征，并基于这些特征训练图像/标签统计模型)，而统计语言建模则试图在用户输入的文本中的术语上对序列分布建模。为了提供工作例子，讨论了第一方法，但是它们都是可应用的。

从用户输入的文本提取一组特征，优选地通过使用作为搜索引擎100’的一部分的任何适当的特征提取机构。为了生成关联估计，假设这些特征已经通过相关联的图像/标签统计模型独立地生成。

对给定特征与特定图像/标签相关的概率的估计存储于图像/标签统计模型中。特别地，通过从与图像/标签相关联的文本提取特征并分析这些特征在所述文本中的频率，基于与图像/标签相关联的文本训练图像/标签统计模型。

在现有技术中使用各种方法来根据文本生成这些特征。例如：

·“词袋”术语存在/不存在：特征是在文本中使用的一组独特字。

·一元语法：特征仅是文本的词语。该模型导致出现多次的词语被给定成比例更大权重。

·术语组合：特征可以包括术语的组合，连续的n元语法或表示非局部的句子关系。

·句法：特征可以包括句法信息(例如词性标记)或更高级的分析树元素。

·潜在主题/集群：特征可以是表示文本中的潜在“主题”或题目的术语的集合/集群。

优选特征通常是单独的术语或短语(n元语法)。通过对文本序列进行切分词成为术语(其中术语表示词语和额外的拼字项，例如词素和/或标点)并丢弃不想要的术语(例如，没有语义值的术语，如“无用词”)，从文本序列中提取单独的术语特征。在一些情况下，特征还可以是大小写归一化的，即，转换为小写。通过将相邻术语串联成原子实体而生成n元语法特征。例如，给定文本序列“Dearspecialfriends”，个体术语特征将是“Dear”、“special”和“friends”，而二元语法(2元语法)特征将是“Dear_special”和“special_friends”。

优选的是，搜索引擎100’的特征生成机构对从用户输入的文本12提取出的特征加权，以便放大已知具有更大机会的先验携带有用信息的特征的重要性。例如，对于术语特征，通常利用某种启发式技术进行，所述技术将词语的不足封装到普通英语中(例如，术语频率-逆向文件频率TFiDF)，这是因为不寻常的词语比普通词语更可能表示相关的图像/标签统计模型。TFiDF定义为：

T F - I D F (t) = \frac{t f (t)}{d f (t)}

其中，tf(t)是术语t出现在用户输入的文本中的次数，df(t)是t跨所有图像/标签统计模型发生的图像/标签统计模型的个数。

用户输入的文本12’的D特征可以由实数值的D维向量表示。然后可以通过搜索引擎100’，通过将每个向量转换为单位长度而实现正规化。优选的是正规化特征向量，因为对特征的独立假设的不利后果是通过不同数量的事件来描述不同长度的用户输入的文本样本，这将导致由不同系统查询返回的值的范围的假的矛盾。

在相关联的图像/标签统计模型M下观察用户输入的文本e、给定图像/标签c相关的概率P(e|c,M)被计算为从用户输入的文本e提取的独立特征f_i的乘积：

P (e | c, M) = \underset{i}{Π} P (f_{i} | c, M)

搜索引擎100’配置为通过每个特征f_i查询图像/标签数据库70。数据库为每个图像/标签统计模型返回包括所述特征的所有图像/标签统计模型的列表，以及与所述特征相关联的概率估计。在图像/标签统计模型M下观察用户输入的文本e、给定图像/标签c相关的概率P(e|c,M)被计算为在包括这些特征f_i的所有图像/标签统计模型M上对用户输入的证据e的所有特征f_i的概率估计的乘积。

该表达是重写的，g_i是在用户输入的文本e、12’中已经发生了给定次数(n_i)的每个独特特征(其中f_i＝g_in_i)

P (e | c, M) = \underset{i}{Π} P {(g_{i} | c . M)}^{n_{i}}

假设搜索引擎100’包括TFiDF加权，n_i可以由其对应的权重w_i替换。权向量w是包含从用户输入的文本提取出的所有特征的TiFDF分数的向量。优选地，将权向量正规化为具有单位长度：

P (e | c, M) = \underset{i}{Π} P {(g_{i} | c, M)}^{w_{i}}

并转换为对数：

\log (P (e | c, M)) = \underset{i}{Σ} w_{i} \cdot \log (P (g_{i} | c, M))

log(P(e|c,M))可以重写作两个向量的点积，一个表示权重，而另一个表示对数概率：

log(P(e|c,M))＝w·v

为了计算以上，需要对图像/标签依赖特征可能性的估计(g_i|c,M)。搜索引擎100’采用来自已经通过分析在源文本中的特征频率训练的图像/标签统计模型的该估计。

然而，在该方法下，如果对用户输入的文本的任意特征的概率估计是零(例如，因为术语未存在于语言模型中)，则最终的概率P(E|c,M)将会是零。如果训练语料库是稀疏的，则用户输入的文本中每个特征不太可能在图像/标签统计模型的训练语料库中观察到。因此，可以使用一些形式的平滑，以将一些观察到的特征的概率质量重新分配给未被观察到的特征。存在许多广泛接受的技术来平滑该基于频率的概率，例如Laplace平滑。

因此，给定用户输入的文本，通过用从用户输入的文本提取出的特征f_i查询图像/标签数据库70的每个图像/标签统计模型，以确定哪个图像/标签统计模型提供最大概率估计(因为图像/标签统计模型被映射到对应的图像/标签)，搜索引擎100’可以确定哪个图像/标签50是最相关的。

如前所述，搜索引擎100’可以考虑额外类型的证据，例如，具体涉及给定用户的证据，例如先前生成的语言，先前输入的图像/标签或者社交上下文/人口统计学(例如，因为普遍使用的表情符号的类型可能随着国家/文化/年龄而变化)。

此外，搜索引擎可以考虑图像/标签关联的先前概率，例如，在缺少与单独的用户或环境相关的任何特定证据的情况下图像/标签是相关的可能性的测量。可以利用跨所有图像/标签的一般使用模式的总量分析对该先前概率进行建模。存在许多可以考虑的进一步信息源，例如，新近度(用户输入的图像/标签有多近)可能是重要的，尤其是在最新图像/标签是特别相关的情况下，或者如果图像/标签用于由大量跟帖跟随的推特反馈中。

如果考虑多个证据源12’、12”，则搜索引擎100’生成对给定的每个证据源的每个图像/标签的估计。对于每个图像/标签，搜索引擎配置为组合对证据源的估计，以生成对所述图像/标签的整体估计。为此，搜索引擎100’可以配置为独立处理每个证据源，即，将用户的图像/标签输入历史作为与文本输入独立。

为了在给定特定图像/标签c的情况下，计算看到证据E的概率P(E|c,M_c)，假设证据E被分离到非重叠的、相互独立的集合[e₁,…,e_n]中，所述集合是根据一些分布独立生成的，以目标图像/标签c和相关联的模型M_C为条件。该独立假设可以写作：

P (E | c, M_{c}) = \underset{i}{Π} P (e_{i} | c, M_{c})

因此，通过搜索引擎100’计算概率P(E|c,M_c)，作为独立证据源e_i的概率估计的乘积。搜索引擎100’因此配置为分开地计算单独的证据估计。

对与每个证据源相关联的每个图像/标签存在统计模型M，并且可以通过允许系统指定每个源产生的信息量的约束的每分布平滑超参数，通过搜索引擎100’控制单独的证据源的相对影响。这可以解释为每个证据源的置信度。对证据源相对其它证据源激烈的平滑因子(极限的情况是均匀分布，在这种情况下，本质上忽视证据源)将减少以不同个图像/标签为条件的证据源的概率估计之间的不同。随着平滑增加，分布变得更平坦，并且源对概率P(E|c,M_c)的整体影响变小。

如上所述，在一个例子中，统计模型可以是语言模型，从而存在与多个图像/标签相关联的多个语言模型，其中这些语言模型包括n元语法词语序列。在这种实施例中，语言模型可以用于基于用户输入的文本生成词语预测(例如，通过比较用户输入的文本的词语序列与存储的词语序列，来基于存储的序列预测下一词语)。因此，系统能够经由单独的语言模型生成词语预测以及经由搜索引擎生成图像/标签预测。替代地，除了搜索引擎的统计模型外，系统可以包括一个或多个语言模型(例如，基于词语的语言模型、基于词素的语言模型等)来生成文本预测。

为了增加处理速度，搜索引擎100’可以配置为丢弃具有低于特定阈值的TFiDF值的所有特征f_i。具有低TFiDF加权的特征通常将对整体概率估计产生最小的影响。此外，低TFiDF术语(“停用词”)还趋向跨内容语料库具有发生的合理的均匀分布，意味着它们对概率估计的影响还将跨类别合理地均匀。通过减少搜索引擎100’用于查询图像/标签数据库70的特征的数量，增加处理速度。

替代地或另外，搜索引擎可以配置为取回前k个图像/标签。前k个图像/标签取回用作减少候选图像/标签的数量的第一处理(firstpass)，这随后可以利用更计算昂贵的过程来进行分级。对于用户输入的文本的具有TFiDFt(正规化为范围[0,1])的每个特征f，搜索引擎配置为发现k.t个具有最高概率关联于f的图像/标签，其中该组图像/标签标记C_f。搜索引擎然后可以确定跨所有特征的并集C＝U_f<FC_f，以获得一组候选图像/标签，其大小以|F|.k以上为界。随后搜索引擎相对该有限组的候选图像/标签对证据“评分”。由于k可能比图像/标签的原始数量要小，所以这提供了显著的性能改善。可以采用取回前k个图像/标签的任意其它适当的解决方案，例如，通过使用ApacheLucene(http://lucene.apache.org/)或通过使用k最邻近方法(http://en.wikipedia.org/wiki/Nearest_neighbor_search#k-nearest_neighbor)等。k的值将取决于设备能力和精度需求以及计算复杂性(例如，特征数量等)。减少图像/标签输入负担的第三解决方案使用分类器基于用户输入的文本来生成相关图像/标签预测。

图6示出了根据本发明的第三实施例的系统，其包括分类器100”以生成与用户输入的文本12’相关的图像/标签预测50。已经在WO2011/042710中详细描述了用于生成文本预测的分类器100”，该文献通过引用全文合并于此。在机器学习和统计中，分类是基于包括已知种类成员的观察(或实例)的训练数据集，来识别新的观察属于哪个种类集(子总体)的问题。分类器100”是实现分类、将输入数据映射到种类中的特征。在本发明中，分类器100”配置为将用户输入的文本映射到图像/标签。

基于与图像/标签一起预先标记的文本数据训练分类器100”，并且分类器100”为用户输入到系统中的文本段12进行实时图像/标签预测50。

使用多个文本源80来训练分类器100”。所述多个文本源80中的每一个包括与在源数据中发现的特定图像/标签相关联的所有文本段。对于生成文本源的无导方法，可以将包括特定图像/标签的任何句子文本当作与所述图像/标签相关联的文本，或者将在图像/标签前面的任意文本当作相关联文本，例如，推特反馈及其相关联的主体标记，或者句子及其相关联的表情符号。

因此，将多个文本源80的每个文本源映射到特定图像/标签或与其相关联。

将用户输入的文本12’输入到系统的特征向量生成器90。特征向量生成器90被配置为将用户输入的文本12’转换成准备用于分类的特征向量。如上所述的特征向量生成器90用于搜索引擎系统。特征向量生成器90还用于(根据多个文本源)生成经由分类器训练器95以用于训练分类器的特征向量。

向量空间的值D由在模型中使用的特征总数管理，通常对于现实的分类问题高达10,000。特征向量生成器90配置为通过根据与术语在给定文本段中的发生频率相关的值将每个单元加权，而将离散文本段转换为向量，跨整个文本主体通过其发生频率(TFiDF)的逆进行正规化，其中tf(t)是时间项t在当前源文本中发生的次数，并且df(t)是跨文本源的整体集合内其中t发生的源文本的数量。然后通过特征向量生成器90将每个向量正规化为单位长度。

特征向量生成器90配置为将用户输入的文本12’分裂成特征(通常是单独的词语或短语)，并根据所述特征生成特征向量。特征向量是D维实值向量R^D，其中每个维度表示用于呈现文本的特定特征。将特征向量传递给分类器100”(其使用特征向量来生成图像/标签预测)。

通过训练模块95使用由特征向量生成器90从文本源80生成的特征向量来训练分类器100”。训练过的分类器100”将从用户12’输入的文本生成的特征向量作为输入，并产生图像/标签预测50作为输出，包括映射到概率值的一组图像/标签预测。从与多个文本源相关联/映射到多个文本源的图像/标签预测空间中取出图像/标签预测50。

在优选实施例中，分类器100’是线性分类器(其基于特征的线性组合值做出分类决定)，或基于分批感知器原理的分类器，其中在训练期间，在所有未分类实例的方向上同时更新权向量，但是可以使用任何适当的分类器。在一个实施例中，使用定时聚集感知器(TAP)分类器。TAP分类器本质是二进制(2类)分类模型。为了处理多类问题，即，多个图像/标签，使用一对多方案，其中为每个图像/标签相对所有其它图像/标签训练TAP分类器。在WO2011/042710中第10页第26行到第12页第8行中更详细地描述了分类器的训练，该文献通过应用合并于此。

分类器训练模型95执行已经提及的训练过程。训练模型95为每个分类产生权向量，即每个图像/标签的权向量。

给定一组D维度的N样本向量，与目标标签(x_i,y_i)配对的，分类器训练过程返回最优权向量可以通过以下确定对于新的用户输入的文本样本x∈R^D，图像/标签是否相关的预测f(x)：

f (x) = s i g n (\hat{w} . x) - - - (1)

其中，符号函数基于其符号将任意实数转换为+/-1。默认的决策边界沿着无偏差超平面但是可以引入阈值来调整偏差。

使用不具有符号函数的分类表达式(1)的修改形式来产生每个图像/标签的置信值，导致置信值的M维向量，其中M是图像/标签的数量。因此，例如，给定新的、未见过的用向量样本x∈R^D表示的用户输入的文本段，可以生成下述置信向量c∈R^D(其中为了简单M＝3)：

c = (\begin{matrix} {\hat{w}}_{1} . x \\ {\hat{w}}_{2} . x \\ {\hat{w}}_{3} . x \end{matrix})

假设使用所有图像/标签的平坦概率、通过分类器100”生成的图像/标签置信值，来生成一组图像/标签预测(其中与最高值(最大置信)的点积与最可能的图像/标签匹配)。

如果为图像/标签提供有先验概率，例如，在缺乏与个人用户或环境相关的任何具体证据的情况下图像/标签相关的可能性的测量，或者基于用户的图像/标签输入历史的先验概率等，则系统还可以包括加权模块。加权模块(未示出)可以使用由分类器生成的置信值的向量，来对每个图像/标签的先验概率加权，以提供加权的一组图像/标签预测50。

加权模块可以配置为考虑分配给一组图像/标签预测的绝对概率，从而不偏斜虚假的未来比较。因此，加权模块可以配置为令来自最可能预测部件的图像/标签预测不变，并成比例地缩小来自较不可能图像/标签的概率。

可以在用户界面上显示分类器100”(或加权模块)输出的图像/标签预测100”以供用户选择。

如根据以上可以理解的，要求分类器100”生成输入向量与每个图像/标签向量的点积，从而生成图像/标签预测50。因此，图像/标签的数量越大，需要分类器进行计算的点积数量就越大。

为了减少分类的数量，可以将图像/标签分组到一起，例如，涉及特定表情图标(如高兴)的所有表情符号可以被分组到一类，或者涉及特定主题或题目的所有表情符号，例如衣物等。在该实例中，分类器可以预测分类，例如情绪(伤心、高兴等)，并且可以向用户显示所述分类的n个最可能表情符号预测以供用户选择。然而，这确实导致用户不得不从较大的表情符号面板中进行选择。为了减少处理能力，同时仍预测最相关的表情符号，可以使用更粗糙的等级分类来发现表情符号的正确类别，仅对所述更粗糙的类别发生更精细的表情符号预测，因此减小了需要分类器进行的点积的数量。

替代地，可以从用户输入的文本提取第一组特征，以生成初始的一组图像/标签预测；并且可以从用户输入的文本提取第二组特征，以从所述初始的一组图像/标签预测中确定一个或多个最可能的图像/标签预测。为了保存处理能力，第一组特征可能在数量上少于第二组特征。

如果系统处理大量图像/标签，则将更期望使用搜索引擎100’而不是分类器100”，这是因为搜索引擎通过不同的机制计算与图像/标签相关联的概率，这能够更好地为大量图像/标签确定概率估计。

本发明的系统可以用于大范围的电子设备中。通过非限制性例子，本系统可以用于在移动电话、PDA设备、平板电脑或计算机上进行消息传送、发短信、发送电子邮件、发送推文等。

本发明还涉及电子设备的用户界面，其中用户界面显示预测出的图像/标签50以供用户选择和输入。可以通过上述任一种系统生成图像/标签预测50。如下文更详细描述的，除了显示一个或多个图像/标签预测50外，用户界面优选显示一个或多个词语/术语预测60以供用户选择。

现在将结合图7-11描述根据本发明实施例的用户界面。图7-11仅通过例子的方式示出了在用户界面上显示表情符号以供用户选择和输入。然而，本发明并不局限于显示和输入表情符号，并可以应用于任何图像/标签预测50。

在用户界面的第一实施例中，如图7所示，用户界面包括一个或多个候选预测按钮(在该例子中，三个候选预测按钮)，用于显示一个或多个(在该例子中是三个)最可能的用户文本预测(即，在该例子中是“The”、“I”、“What”)。用户界面150还包括虚拟按钮155，用于显示当前最相关的图像/标签预测60(在优选实施例中是表情符号，并且在特定示出的例子中是啤酒表情符号)。设备的处理电路被配置为，使得指向显示表情符号的虚拟按钮155的第一用户输入(例如，在触摸屏设备上点击)将所显示的表情符号输入到设备中；以及第二用户输入(不同于第一用户输入)(例如，长按或方向性扫过按钮155)打开其它动作的菜单，例如，下一最相关表情符号预测、所有表情符号、回车等。

在图8中示出的用户界面150的第二实施例中，映射为词语预测60(例如，通过图2a的词语→表情符号对应图)的图像(例如，表情符号)预测50将作为预测160呈现于预测窗格上，在匹配词语预测161旁边。因此，候选预测按钮显示两个最相关的词语预测(针对具有三个候选按钮的用户界面的例子)以及最适合于最相关的词语预测的图像(例如，表情符号)。替代地，在预测窗格上作为预测160呈现的图像/标签预测是最可能的图像/标签预测(如通过上述系统中任一个所确定的)，并且因此并不需要对应于预测窗格的词语预测。对于布局的一致性，图像(例如，表情符号)预测160可以总是显示于预测窗格的右手侧，使得图像容易定位。替代的图像(例如，表情符号)预测60可以通过长按图像(例如，表情符号)预测按钮160进而可用。表情符号按钮155反映了该预测，并还呈现与最近键入词语相关的表情符号。在图像(对于示出的示例，符号表情)按钮155上的第一手势(例如，点击)将插入按钮所显示的表情符号，并且在按钮上的第二手势(例如，长按或扫过)将显示与最近键入词语相关的表情符号以供用户选择。

在图9所示的用户界面150的第三实施例中，显示当前最可能的图像(例如，表情符号)的图像/标签(例如对于示出的实施例，表情符号)候选预测按钮165永久出现在预测窗格上。当存在与当前词语候选(在该例子中是“food”、“and”、“is”)或最近键入的词语(例如，“cat”)相关联的表情符号时，在该候选按钮165上显示所述表情符号。可以经由按钮165或按钮155上的第一手势(例如，点击)插入在按钮165上显示的表情符号，且替代的表情符号经由按钮155或按钮165上的第二手势(例如，通过长按或扫过)进而可用。

在优选实施例中，可以通过长按图像/标签候选预测按钮165，来访问显示替代相关图像(例如，表情符号)的图像/标签面板(例如，表情符号面板)。为了访问所有的表情符号(而不仅是那些所提供的作为最可能的表情符号)，用户长按表情符号候选预测按钮165，朝向表情符号面板图标滑动他们的手指并释放。表情符号面板图标将在弹出菜单的最左侧，以允许“盲向扫过”来进行访问。弹出菜单的剩余部分将用延伸的表情符号预测填充。

在替代的用户界面中，如图10所示，可以在预测窗格的候选按钮170上显示图像/标签(例如，表情符号)以及其匹配词语。可以通过候选按钮170上的第一用户手势插入词语(例如，通过点击按钮170)，经由候选按钮170上的第二手势插入图像/标签(例如，表情符号)(例如，通过长按按钮170)。此外，如果需要，则可以提供如先前用户界面实施例的标准的表情符号键155，以允许用户插入预测出的表情符号(其不必与预测出的词语匹配)，或允许用户搜索替代的表情符号。

图11示出了如何利用连续触摸输入显示和插入图像(例如，表情符号)，例如在先前申请WO2013/107998中详细描述的，其通过引用全文合并于此，并且如WO2013/107998的图1所示。在图11的用户界面中，预测窗格包括词语预测按钮175“heart”，以及显示相关表情符号例如[heart表情符号]的表情符号预测按钮165。为了插入文本预测“heart”，用户移动到词语预测窗格上，并在词语预测按钮175上的位置处移除他们的手指离开与用户界面的接触。替代地，每当用户从用户界面提高他们的手指时，就插入词语预测，除非他们的手指在表情符号按钮处提高。例如，处理电路可以配置为：当预测引擎已经预测并显示词语以供用户选择和输入时，如果用户在词语的最后字符处或者甚至在词语中间处从用户界面抬高他们的手指，则插入词语。为了插入预测出的表情符号，用户在表情符号候选按钮165处中断与触摸屏界面的接触。此外，用于用户界面的处理电路可以配置为使得用户结束在表情符号按钮165上的连续触摸手势且保留在表情符号按钮165上特定长度时间，这将提出替代表情符号的弹出面板200以供用户选择。

已经描述了用户界面包括各种“按钮”。术语“按钮”用于描述在用户界面上显示图像/标签/词语的区域，用户可以通过激活“按钮”而输入显示的图像/标签/词语，例如，通过在显示图像/标签/词语的区域上做手势。

通过所描述的用户界面，用户能够用最小的精力插入相关图像/标签(包括表情符号)。

现在将结合根据本发明的方法的示意流程图的图12-16描述本发明的方法。

参考图12，本发明提供了用于生成预测单元的方法，以预测与用户输入的文本相关的图像/标签。如以上结合本发明的各种系统所讨论的，所述方法包括接收具有嵌入在文本段中的一个或多个图像/标签的文本400，识别嵌入在文本中的图像/标签410；以及将识别出的图像/标签与文本段相关联420。然后基于与图像/标签相关联的文本段训练所述预测单元。如上所述，当预测单元是语言模型10时，基于包括图像/标签的文本训练语言模型10，例如，通过在n元语法词语/图像序列中包括图像/标签，或者通过将图像/标签附到n元语法词语序列。当预测单元是包括多个统计模型的搜索引擎100’时，每个统计模型可以被映射到给定的图像/标签，并基于与所述图像/标签相关联的文本进行训练。当预测单元是基于多个文本源训练的分类器100”时，每个文本源包括与给定图像/标签相关联的文本段。

在本发明的第二方法中，如图13所示，提供了一种利用预测单元预测与用户输入到系统中的文本相关的图像/标签的方法，其中基于与图像/标签相关联的文本段而训练所述预测单元。所述方法包括在预测单元处接收用户输入的文本500，确定由用户输入的文本和与图像/标签相关联的文本段的相关性510，以及基于与图像/标签相关联的文本段预测图像/标签与由用户输入的文本的相关性520。如上结合系统描述所讨论的，当预测单元是搜索引擎100’时，搜索引擎100’通过从用户输入的文本提取特征并利用那些特征查询图像/标签数据库70，来确定用户输入的文本的相关性。通过查询数据库70，搜索引擎100’能够确定哪个图像/标签统计模型是最相关的，并因此能够生成图像/标签预测50，这是因为每个统计模型被映射到特定图像/标签。再次，如上结合系统所描述的，当预测单元是分类器100”时，分类器100’能够通过生成表示图像/标签的特征向量(根据包括与所述图像/标签相关联的文本段的源文本生成的)和表示用户输入的文本的特征向量的点积，来确定图像/标签与用户输入的文本的相关性。

在本发明的第三种方法中，如图14所示，提供了一种利用预测单元预测与用户输入到系统中的文本相关的图像/标签的方法，其中，基于包括嵌入在文本中的图像/标签的文本而训练所述预测单元，其中已经通过识别文本中的图像/标签以及使识别出的图像/标签与文本段相关联而训练了预测单元。所述方法包括在预测单元处接收由用户输入的文本600，比较由用户输入的文本和与图像/标签相关联的文本段610，以及基于与识别出的图像/标签相关联的文本段预测图像/标签与用户输入的文本的相关性620。如以上结合系统描述所描述的，当预测单元是语言模型10时，语言模型可以在n元语法图14’的n元语法词语/图像序列中包括图像/标签，或者附到n元语法图14’的n元语法词语序列的图像/标签。语言模型通过比较用户输入的文本以及存储的n元语法序列并输出作为存储的n元语法的一部分或附到所存储的n元语法的相关图像/标签，来预测相关图像/标签50。替代地，语言模型包括基于词语的n元语法图14以及基于与图像相关联的文本段(即，词语)而训练的词语→图像对应图40。语言模型配置为通过比较词语序列以及所存储的n元语法图14，来预测在用户输入的词语序列中的下一词语，然后利用对应图40将预测出的词语映射到图像中。

本发明的第三和第四种方法涉及用户与设备的触摸屏用户界面的交互，所述设备包括用于生成图像/标签预测50的一个或多个上述系统。特别地，本发明的第三种方法提供了将数据输入到电子设备中的方法，所述设备包括具有键盘的触摸屏用户界面，其中用户界面包括虚拟图像/标签按钮，其配置为显示预测出的图像/标签以供用户选择。所述方法包括经由跨键盘的连续手势输入字符序列700。响应于跨图像/标签虚拟按钮的用户手势，所述方法包括输入图像/标签作为数据720。所述手势可以包括在图像/标签虚拟按钮处中断与用户界面的接触。

第四种方法涉及用于在触摸屏用户界面上在输入词语/术语和输入对应于所述词语/术语的图像/标签之间进行选择的方法，所述触摸屏用户界面包括虚拟按钮，其配置为显示预测出的词语/术语和/或预测出的图像/标签。所述方法包括：响应于接收到在按钮上/跨该按钮的第一手势类型，输入预测出的词语/术语800；以及，响应于在按钮上/跨该按钮的第二手势类型，输入预测出的图像/标签810。

如从上面描述可以理解的是，本发明通过提供用于基于用户输入的文本预测表情符号/贴纸的系统和方法解决了上述问题。本发明能够通过提供一个或多个相关表情符号预测而增加表情符号输入的速度，这使得用户不必在不同表情符号中滚动以识别他们想要的表情符号。

此外，本发明的系统和方法提供了增加的表情符号发现率，因为基于下一词语预测/校正和上下文来预测表情符号意味着可以向用户预测并呈现表情符号，即使用户可能没有意识到存在相关或适当的表情符号。

因此，本发明的系统和方法提供了有效率的表情符号选择并输入到电子设备中。用户可以通过点击显示预测出的表情符号的虚拟键而插入相关表情符号，而不是必须在可能的表情符号中滚动。

虽然参考表情符号提供了例子，但本发明同样可应用于插入与用户输入的文本相关的任何图像/标签，如前所述。

本发明还提供了一种计算机程序产品，其包括其上存储有计算机程序单元的计算机可读介质，用于使得处理器执行根据本发明的一个或多个方法。

计算机程序产品可以是在其上存储有计算机程序单元的数据载体，用于使得数据载体外部的处理器(即，电子设备的处理器)执行根据本发明的方法。计算机程序产品还可以用于例如从数据载体或从供应商通过因特网或其它可用网络下载，例如，下载为移动设备(例如移动电话)上的app或者下载到计算机上，所述移动设备或计算机包括一旦下载计算机程序单元则执行该计算机程序单元的处理器。

可以理解的是，该描述仅是通过例子的方式；可以对所描述的实施例进行变型和修改而不背离如权利要求所定义的本发明的范围。

Claims

1.一种配置为预测与用户输入的文本相关的图像/标签的系统，所述系统包括：

用于接收用户输入的文本的单元；

预测单元，其基于与图像/标签相关联的文本段而被训练，其中所述预测单元配置为：

接收所述用户输入的文本；

确定所述用户输入的文本和与所述图像/标签相关联的文本段的相关性；以及

基于与所述图像/标签相关联的文本段，预测所述图像/标签与所述用户输入的文本的相关性。

2.一种配置为预测与用户输入的文本相关的图像/标签的系统，所述系统包括：

用于接收用户输入的文本的单元；

预测单元，其基于包括嵌入在文本中的图像/标签的文本而被训练，其中已经通过识别所述文本中的图像/标签以及使识别出的图像/标签与文本段相关联而训练了所述预测单元；

其中，所述预测单元配置为：

接收所述用户输入的文本；

比较所述用户输入的文本和与所述图像/标签相关联的文本段；以及

基于与识别出的图像/标签相关联的文本段，预测所述图像/标签与所述用户输入的文本的相关性。

3.根据权利要求2所述的系统，其中，所述预测单元是基于包括多个图像/标签的文本而训练的语言模型，所述多个图像/标签是嵌入在所述文本中的。

4.根据权利要求1所述的系统，其中，所述预测单元是搜索引擎，其包括与多个图像/标签对应的多个统计模型，所述多个统计模型中的每一个是基于与该统计模型的对应图像/标签相关联的文本段而训练的。

5.根据权利要求1所述的系统，其中，所述预测单元是分类器，其已经基于多个文本源而被训练，每个文本源包括与特定图像/标签相关联的文本段。

6.根据权利要求1、4或5所述的系统，其中，所述系统包括特征生成机构，其配置为从所述用户输入的文本提取一组特征。

7.根据权利要求6所述的系统，其中，所述特征生成机构配置为根据所述特征生成特征向量，所述特征向量表示所述用户输入的文本。

8.根据权利要求7所述的系统，其中，所述特征生成机构配置为通过所述特征的术语频率-逆向文件频率对所述特征加权。

9.根据从属于权利要求5的权利要求7或8所述的系统，其中，所述特征生成机构配置为从所述多个文本源的每一个中提取特征，并为每个图像/标签生成特征向量。

10.根据权利要求9所述的系统，其中，所述分类器是基于所述图像/标签的所述特征向量而训练的。

11.根据权利要求10所述的系统，其中，所述分类器生成表示所述用户输入的文本的特征向量和表示与图像/标签相关联的所述文本的特征向量的点积，以确定该图像/标签是否与给定的所述用户输入的文本相关。

12.根据从属于权利要求4的权利要求7或8所述的系统，其中，所述特征生成机构配置为从与图像/标签相关联的文本段中提取特征，并基于提取出的特征而训练对应的统计模型。

13.根据权利要求12所述的系统，其中，所述搜索引擎配置为利用所述用户输入的文本的每个特征查询每个统计模型，以确定所述特征的存在及其频率。

14.根据权利要求4或5所述的系统，其中，所述系统还包括模型，其包括以所述用户先前使用或先前输入所述图像/标签为基础的所述图像/标签的先前概率。

15.根据前述任一权利要求所述的系统，其中，识别出的图像/标签与不在识别出的图像/标签紧前面的文本段相关联。

16.根据前述任一权利要求所述的系统，其中，所述文本输入并不对应于所述图像/标签的描述。

17.根据权利要求3或从属于权利要求3的权利要求15或16所述的系统，其中，所述语言模型包括n元语法图，其包括与图像/标签相关联的词语序列。

18.根据权利要求17所述的系统，其中，所述预测单元包括预测引擎，其包括：

基于包括多个图像/标签的文本而训练的语言模型，所述多个图像/标签是嵌入在所述文本中的；以及

用于根据所述用户输入的文本生成一个或多个词语的序列的单元；

其中，所述预测引擎配置为：

接收所述一个或多个词语的序列；

比较所述一个或多个词语的序列和所存储的与图像/标签相关联的一个或多个词语的序列；以及

基于所存储的与图像/标签相关联的一个或多个词语的序列，预测与所述一个或多个词语的序列相关的图像/标签。

19.根据权利要求18所述的系统，其中，所述预测引擎配置为：基于所存储的与图像/标签相关联的一个或多个词语的序列，预测在所述一个或多个词语的序列中的下一词语。

20.根据权利要求2所述的系统，其中，所述预测单元包括：基于词语的语言模型，其包括存储的词语序列、将图像映射为词语的图，所述图基于与图像/标签相关联的词语而被训练；以及根据所述用户输入的文本生成一个或多个词语的序列的单元；其中，所述预测单元配置为：

比较所述一个或多个词语的序列和所存储的词语序列，以预测在所述一个或多个词语的序列中的下一词语；以及

利用所述图预测与所述下一词语相关联的图像。

21.根据前述任一权利要求所述的系统，其中，所述预测单元还包括：

基于词语的语言模型，其包括存储的词语序列；

其中所述预测单元配置为：

根据所述用户输入的文本生成一个或多个词语的序列；

比较所述一个或多个词语的序列和在所述基于词语的语言模型中存储的词语序列；以及

基于所存储的词语序列，预测在所述序列中的下一词语。

22.根据前述任一权利要求所述的系统，其中，所述图像是表情符号、表情图标或贴纸。

23.根据前述任一权利要求所述的系统，其中，所述标签是主体标签。

24.根据前述任一权利要求所述的系统，其中，所述预测引擎配置为：如果确定图像/标签与所述用户输入的文本相关，则输出所述图像/标签。

25.一种电子设备，包括：

根据前述任一权利要求所述的系统；以及

用户界面，其配置为接收用户输入并显示所预测出的图像/标签。

26.根据权利要求25所述的系统，其中所述用户界面还包括：

虚拟图像/标签按钮，其配置为显示所预测出的图像/标签以供用户选择。

27.根据从属于权利要求19或21的权利要求26所述的系统，其中，所述用户界面还包括词语/术语虚拟按钮，其配置为显示所预测出的词语/术语以供用户选择。

28.根据权利要求26或27所述的系统，其中，所述用户界面配置为作为跨键区的连续手势而接受用户的文本输入，并且所述界面配置为：响应于跨所述图像/标签虚拟按钮的或在其上的手势，而使得所预测出的图像/标签被输入。

29.根据权利要求25-27中的一项所述的系统，还包括处理电路，其配置为：

接收在所述用户界面上的第一用户输入以及在所述用户界面上的第二用户输入作为输入，其中所述第一用户输入至少在一方面不同于所述第二用户输入；

响应于接收到指向所述虚拟按钮的所述第一用户输入，在显示器上显示预测出的图像/标签作为用户输入的数据；以及

响应于接收到指向所述虚拟按钮的所述第二用户输入，在所述显示器上显示替代的图像/标签预测以供用户选择。

30.根据权利要求25所述的系统，其中，所述用户界面还包括：

虚拟按钮，其配置为显示预测出的词语/术语和/或预测出的图像/标签以供用户选择，其中所述词语/术语对应于所述图像/标签。

31.根据权利要求30所述的系统，其中，所述处理电路配置为在所述虚拟按钮上的/跨所述虚拟按钮的两种手势之间进行区分，并且其中，响应于接收到在所述按钮上的/跨所述按钮的第一手势类型，输入预测出的词语/术语；以及响应于在所述按钮上的/跨所述按钮的第二手势类型，输入预测出的图像/标签。

32.一种生成预测单元以预测与用户输入的文本相关的图像/标签的方法，所述方法包括：

接收包括嵌入在文本段中的一个或多个图像/标签的文本；

识别嵌入在所述文本中的图像/标签；

使识别出的图像/标签与所述文本段相关联；以及

基于与所述图像/标签相关联的文本段，训练所述预测单元。

33.一种利用预测单元预测与用户输入到系统中的文本相关的图像/标签的方法，其中所述预测单元是基于与图像/标签相关联的文本段而被训练的，并且所述方法包括：

在所述预测单元处接收所述用户输入的文本；

34.一种利用预测单元预测与用户输入到系统中的文本相关的图像/标签的方法，其中，所述预测单元是基于包括嵌入在文本中的图像/标签的文本而被训练的，其中，所述预测单元是通过识别在所述文本中的所述图像/标签并使识别出的图像/标签与文本段相关联而被训练的，并且所述方法包括：

在所述预测单元处接收所述用户输入的文本；

基于与识别出的图像/标签相关联的所述文本段，预测所述图像/标签与所述用户输入的文本的相关性。

35.根据权利要求34所述的方法，其中，所述预测单元是语言模型，并且所述方法包括基于包括多个图像/标签的文本而训练所述语言模型，所述多个图像/标签是嵌入在所述文本中的。

36.根据权利要求33或34所述的方法，其中，所述预测单元是搜索引擎，其包括与多个图像/标签对应的多个统计模型，其中所述方法包括：基于与所述多个统计模型中的每一个统计模型的对应图像/标签相关联的文本段而训练该统计模型。

37.根据权利要求33所述的方法，其中，所述预测单元是分类器，并且所述方法包括：基于多个文本源训练所述分类器，每个文本源包括与特定图像/标签相关联的文本段。

38.根据权利要求36或37所述的方法，还包括利用特征生成机构从所述用户输入的文本中提取一组特征。

39.根据权利要求38所述的方法，还包括利用所述特征生成机构根据所述特征生成特征向量，所述特征向量表示所述用户输入的文本。

40.根据权利要求39所述的方法，还包括：为每个特征确定术语频率-逆向文件频率，并用确定出的值对所述特征向量的特征加权。

41.根据从属于权利要求37的权利要求39或40所述的方法，还包括：利用所述特征生成机构从所述多个文本源的每一个中提取特征，并为每个图像/标签生成特征向量。

42.根据权利要求41所述的方法，还包括：基于所述图像/标签的特征向量而训练所述分类器。

43.根据权利要求41所述的方法，其中，所述方法包括：

利用所述分类器生成表示所述用户输入的文本的特征向量和表示与图像/标签相关联的所述文本的特征向量的点积，以确定所述图像/标签是否与给定的所述用户输入的文本相关。

44.根据从属于权利要求36的权利要求38或39所述的方法，还包括：利用所述特征生成机构从与图像/标签相关联的文本段中提取特征，并基于提取出的特征而训练对应的统计模型。

45.根据权利要求44所述的方法，还包括：利用所述搜索引擎，以所述用户输入的文本的每个特征查询每个统计模型，以确定所述特征的存在及其频率。

46.根据权利要求33-45中任一项所述的方法，其中，识别出的图像/标签与不在识别出的图像/标签紧前面的文本段相关联。

47.根据权利要求33-47中任一项所述的方法，其中，所述文本输入并不对应于所述图像/标签的描述。

48.根据从属于权利要求34的权利要求34或46-47中的一项所述的方法，其中，所述语言模型包括n元语法图，其包括与图像/标签相关联的词语序列；并且所述方法包括：

根据所述用户输入的文本生成一个或多个词语的序列；

在包括所述语言模型的预测引擎处接收所述一个或多个词语的序列；

49.根据权利要求48所述的方法，其中，所述方法还包括：基于所存储的与图像/标签相关联的一个或多个词语的序列，通过所述预测引擎预测在所述一个或多个词语的序列中的下一词语。

50.根据权利要求33所述的方法，其中，所述预测单元包括基于词语的语言模型，其具有存储的词语序列、将图像映射为适当词语的图，其中所述图已经基于与图像相关联的词语而被训练，并且所述方法还包括：

根据输入的文本生成一个或多个词语的序列；

比较一个或多个词语的序列和所存储的序列，预测在所述一个或多个词语的序列中的下一词语；以及利用所述图识别与下一术语相关联的图像。

51.根据权利要求33-49中任一项所述的方法，其中，所述预测单元还包括：基于词语的语言模型，其包括存储的词语序列；并且所述方法还包括：

根据所述用户输入的文本生成一个或多个词语的序列；

基于所存储的词语序列，预测在所述序列中的下一词语。

52.根据权利要求32-51中任一项所述的方法，其中，所述图像是表情符号、表情图标或贴纸。

53.根据权利要求32-52中任一项所述的方法，其中，所述标签是主体标签。

54.一种将数据输入到电子设备中的方法，所述设备包括具有键盘的触摸屏用户界面，其中所述用户界面包括虚拟图像/标签按钮，其配置为显示预测出的图像/标签以供用户选择，其中，所述方法包括：

经由跨所述键盘的连续手势输入字符序列；以及

响应于跨所述图像/标签虚拟按钮的手势，输入图像/标签作为数据。

55.一种在触摸屏用户界面上在输入词语/术语和输入对应于所述词语/术语的图像/标签之间进行选择的方法，所述触摸屏用户界面包括配置为显示预测出的词语/术语和/或预测出的图像/标签的虚拟按钮，所述方法包括：

响应于接收到在所述按钮上的/跨所述按钮的第一手势类型，输入预测出的词语/术语；以及

响应于在所述按钮上的/跨所述按钮的第二手势类型，输入预测出的图像/标签。

56.一种用于使得处理器执行根据权利要求32-55中任一项所述的方法的计算机程序。