CN102272754A

CN102272754A - 定制语言模型

Info

Publication number: CN102272754A
Application number: CN2008801326114A
Authority: CN
Inventors: 吴军; 区良裔; 刘永延; 唐溪柳; 王咏刚
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2008-11-05
Filing date: 2008-11-05
Publication date: 2011-12-07
Anticipated expiration: 2028-11-05
Also published as: KR20110093785A; US8826226B2; KR101537078B1; TWI512502B; WO2010051654A1; US20110296374A1; JP2012507809A; TW201022964A; JP5475795B2; CN102272754B

Abstract

用于生成定制语言模型的系统、方法和装置，包括计算机程序产品。在一个实施方式中，提供了一种方法。该方法包括：接收文档集合；将文档聚类成一个或多个集群；为一个或多个集群中的每一个集群生成集群向量；生成与目标简档相关联的目标向量；将目标向量与集群向量中的每一个进行比较；基于该比较来选择一个或多个集群中的一个或多个；以及使用来自所选择的一个或多个集群中的文档来生成语言模型。

Description

定制语言模型

技术领域

本说明书涉及语言模型。

背景技术

语言模型用于对给定词汇表中的符号(token)(例如，词或字符)串将在一种语言中出现的概率进行建模。例如，语言模型在输入法中使用，所述输入法诸如但不限于输入法编辑器(IME)、自动语音识别(ASR)、机器翻译、手写识别以及光学字符识别(OCR)应用。对词汇表中的符号串的概率进行建模典型地使用链式规则并且计算给定符号w在给定串的上下文(context)中的概率p(w|context)来执行，其中该上下文是该串中的在给定符号w之前的符号。

在n-gram(n元)语言模型中，文本中的n个连续符号形成n-gram，以及当前词z的概率例如取决于n-1个先前词的概率，例如，p(z_i|context)＝p(z_i|z_i-n+1，z_i-n+2，...，z_i-1)。n-gram具有级(order)，其为在n-gram中的符号的数量。例如，1-gram(或者一元)包括一个符号；2-gram(或者二元)包括两个符号。

n-gram在文本中(例如，词在句子中)的概率分布主要取决于上下文，其还可以在更一般的意义上来考虑。例如，特定n-gram在文本中的概率分布可以取决于待由文本所表达的主题，或文本发生的域。“basketball(篮球)”在运动文章中发生的概率大于“basketball”在财经文章中发生的概率。另外，不同的用户例如可以使用(例如，喜好)不同的词来表达相同的概念。西班牙的用户可能使用“football(足球)”，而美国的用户可能使用“soccer(足球)”。因此，n-gram在文本中的概率分布可以是既取决于用户又取决于域的。

常规输入法使用一般语言模型。例如，对于所有用户，可以使用单一语言模型。作为另一个示例，对于所有域(例如，计算机系统域、地理域)，可以使用或从训练数据生成相同语言模型。一般语言模型对于所有输入法用途可能不是最优化的。

发明内容

本说明书描述了与定制语言模型有关的技术。

总的来说，在本说明书中描述的主题的一个方面可以具体化在包括下述动作的方法中：接收文档集合；将文档聚类成一个或多个集群；为一个或多个集群中的每一个集群生成集群向量；生成与目标简档相关联的目标向量；将目标向量与集群向量中的每一个进行比较；基于该比较来选择一个或多个集群中的一个或多个；以及使用来自所选择的一个或多个集群中的文档来生成语言模型。本方面的其它实施例包括对应的系统、装置和计算机程序产品。

这些和其它实施例可以可选地包括以下特征中的一个或多个。生成语言模型包括从来自所选择的一个或多个集群的文档识别n-gram集合。每一个n-gram具有在来自所选择的一个或多个集群的文档中出现的对应的相对频率。每一个集群与主题或域相关联。每一个集群向量表示对应集群的形心(centroid)。对文档进行聚类包括将每一个文档随机分配给集群，以及迭代地计算每一个集群的形心并且基于最接近形心将每一个文档重新分配给集群，直到收敛(convergence)。目标向量包括词频向量。目标向量从用户词典或用户输入中的至少一个生成。比较包括计算在目标向量和集群向量中的每一个之间的余弦相似性。该方法进一步包括接收一个或多个额外文档，以及基于一个或多个额外文档来更新语言模型。

总的来说，在本说明书中描述的主题的另一个方面可以具体化在包括下述动作的方法中：接收文档集合；将文档聚类成一个或多个类属集群；为一个或多个类属集群中的每一个集群生成集群向量；生成与目标简档相关联的目标向量；将目标向量与集群向量中的每一个进行比较；以及基于该比较来选择一个或多个类属集群中的一个或多个。本方面的其它实施例包括对应的系统、装置和计算机程序产品。

这些和其它实施例可以可选地包括以下特征中的一个或多个。该方法进一步包括使用来自所选择的一个或多个类属集群的文档来生成语言模型。

总的来说，在本说明书中描述的主题的另一个方面可以具体化在包括下述动作的方法中：接收识别用户的用户输入；识别与用户相对应的用户简档；使用所识别的简档来生成特定于用户的语言模型；以及将特定于用户的语言模型发送给第一客户端。本方面的其它实施例包括对应的系统、装置和计算机程序产品。

这些和其它实施例可以可选地包括以下特征中的一个或多个。该方法进一步包括将特定于用户的语言模型发送给第二客户端。该方法进一步包括：接收文档集合；将文档聚类成一个或多个集群；为一个或多个集群中的每一个集群生成集群向量；生成与用户简档相关联的目标向量；将目标向量与集群向量中的每一个进行比较；以及基于该比较来选择一个或多个集群中的一个或多个。生成特定于用户的语言模型包括从来自所选择的一个或多个集群的文档识别n-gram集合。每一个n-gram具有在来自所选择的一个或多个集群的文档中出现的对应的相对频率。

总的来说，在本说明书中描述的主题的另一个方面可以具体化在包括下述动作的方法中：接收一个或多个文档的第一集合；基于一个或多个文档的第一集合来生成简档；接收一个或多个文档的第二集合；基于一个或多个文档的第二集合和简档来生成定制语言模型；以及将定制语言模型发送给客户端。本方面的其它实施例包括对应的系统、装置和计算机程序产品。

这些和其它实施例可以可选地包括以下特征中的一个或多个。一个或多个文档的第一集合包括表示用户的输入行为的用户词典或用户输入中的至少一个。

在本说明书中描述的主题的特定实施例可以被实现来实现以下优势中的一个或多个。将训练数据非监督分类成子集可以(i)增加可以考虑用来训练定制语言模型的数据量(例如，语料库的大小)；以及(ii)减少用户干预量，从而减少用户错误。

可以对于特定输入法用途(例如，对于特定用户和域)生成定制语言模型，以增加输入法的正确率、查准率和查全率，从而减少输入错误率。另外，定制语言模型可以适应于用户的行为(例如，基于用户所输入的表示用户的行为的文档或用户词典来生成/精化)，从而进一步增加正确率、查准率和查全率，并且减少输入错误率。此外，定制语言模型可以是取决于主题的，并且对用户的当前输入的主题自适应的。例如，用户可以基于感兴趣的主题，从存储在服务器上的不同主题的多个定制语言模型选择。由于定制语言模型可以从所有可获得的训练数据的子集来训练，所以定制语言模型可以具有比一般语言模型更小的存储器大小。作为结果，对定制语言模型的使用减少了(i)使用定制语言模型的输入法的存储器占用(footprint)；(ii)用于存储定制语言模型的存储器量；以及(iii)向用户提供定制语言模型所需的带宽/时间量。

在附图和下面的描述中阐述了在本说明书中描述的主题的一个或多个实施例的细节。主题的其它特征、方面和优势从描述、附图以及权利要求将变得显而易见。

附图说明

图1是图示了用于生成定制语言模型的示例系统的图。

图2是包括文档的示例集群的图。

图3是包括图2的示例集群和对应的形心的图。

图4是图示了对图2的文档中的部分的示例重新分类的图。

图5是图示了基于图4中的重新分类对示例集群的示例重新调整的图。

图6是图示了针对图5的示例集群中的每一个对简档的示例生成的图。

图7是图示了对图6的示例集群中的一个或多个的示例选择的图。

图8是图示了对定制语言模型的示例生成的图。

图9A是示出了用于生成集群向量的示例过程的流程图。

图9B是示出了用于生成定制语言模型的示例过程的流程图。

在各附图中相同的参考数字和标记指示相同的元素。

具体实施方式

综述

图1是图示了用于生成定制语言模型124的示例系统100的图。系统100包括第一客户端112(例如，台式计算机)、第二客户端114(例如，蜂窝电话)以及服务器120。服务器120可以包括目标简档122、定制语言模型124以及训练数据126(例如，未经注释的语料库)。

作为生成定制语言模型的综述，可以将训练数据126分类成训练数据126的集合(例如，一个或多个文档集合)。服务器120可以接收识别用户(例如，第一客户端112上的第一用户、第一客户端112上的第二用户、第二客户端114上的第一用户)的用户输入。例如，服务器120可以使用用户登录或cookie来识别用户。服务器120可以生成对应于每一个用户的目标简档122(例如，用户简档)。

在一些实施方式中，可以预先确定目标简档122。例如，服务器120可以识别先前生成的对应于用户的目标简档122。在一些实施方式中，可以基于用户的词典或用户输入(例如，用户所提供的表示用户的输入行为的数据)来生成目标简档122。此外，可以在服务器120和客户端(例如，第一客户端112)之间自动或手动同步目标简档122。可以将目标简档122与训练数据126的子集中的每一个的简档进行比较。可以基于例如在目标简档122和每一个子集的简档之间的相似性来选择训练数据126的子集中的一个或多个。

训练数据126的所选择的子集可以用于生成定制语言模型124(例如，特定于用户的语言模型、特定于域的语言模型)。可以通过网络将定制语言模型发送给例如第一客户端112。第一客户端112可以将定制语言模型用于用户所使用的输入法。在一些实施方式中，将定制语言模型的副本存储在服务器120上。例如，如果用户在第二客户端114上使用输入法，则可以将定制语言模型的副本发送给第二客户端114(和/或在第二客户端114上更新)。

在一些实施方式中，将目标简档122、定制语言模型124和/或训练数据126存储在多个服务器或其它位置上。例如，训练数据126可以包括能够由服务器120访问的任何文档。具体地，训练数据126可以包括但不限于输入法编辑器(IME)用户输入、IME用户词典、网页、搜索查询日志、电子邮件、博客、即时消息(IM)脚本以及新闻文章，可以用于训练定制语言模型124。

生成目标简档

可以为每一个用户(或域)生成目标简档122。在一些实施方式中，为所识别的用户生成目标简档122。例如，用户可以通过提供登录信息来识别他自己/她自己，以及可以基于与用户相关联的数据，例如与所识别的用户相关联的用户词典来生成目标简档122。例如，用户词典可以包括来自IME和/或来自用户输入的预定义的词。另外，用户词典可以包括与词使用相关联的统计，例如，在用户的输入历史(例如，聊天文本、搜索查询)中的词计数或频率。还可以将诸如在用户输入中出现的n-gram的其它统计数据存储在目标简档122中。在一些实施方式中，基于用户提供的数据来为用户生成目标简档122。例如，用户可以提交表示他的/她的输入行为的文档，以及可以基于所提交的文档来生成目标简档122。在一些实施方式中，将目标简档122存储在服务器120(或客户端)上并且重复使用。

目标简档122可以表示特定符号对于用户的相对重要性。在一些实施方式中，使用向量来表示目标简档122。例如，特征向量可以包括一个或多个特征(例如，词语)以及每一个特征的对应词频(tf)权重。Tf权重可以用作特征对于用户的重要性的统计测量。例如，特征对于用户的重要性可以根据特征在用户所输入的文档集合或用户的词典中出现的频率(例如词频)成比例地增加。

文档中的词频是特定词语在文档中出现的相对频率，以及可以被表示为：

{tf}_{i, j} = \frac{n_{i, j}}{\underset{k}{Σ} n_{k, j}},

其中词频是特定词语在文档(d_j)中出现的数量n_i，j除以所有词语在d_j中出现的数量。

在一些实施方式中，tf-idf权重用作特征对于用户的重要性的统计测量。Tf-idf权重可以通过将词频与逆文档频率(idf)相乘来计算。

逆文档频率(idf)可以被表示为：

{idf}_{i} = \log \frac{| D |}{| D_{j} : t_{i} &Element; d_{j} |},

其中在文档集合中所有文档的数量D除以包含词语t_i的文档d_j的数量D_j。在一些实施方式中，使用讷皮尔对数，而不是以10为底的对数。

Tdf-idf权重可以被表示为：

tf_idf_i，j＝tf_i，j·idf_i，j。

可以将目标简档122与训练数据126的子集的简档(例如，特征向量)进行比较，以确定用于训练定制语言模型124的训练数据126的子集。

对训练数据进行分类

可以使用各种分类方法来将训练数据126分类成子集。在一些实施方式中，使用聚类来将训练数据126分类成子集。例如，可以使用划分聚类(例如，k-均值聚类、位置敏感哈希、图论方法)或层次聚类(例如，凝聚层次聚类、概念聚类)来对训练数据126进行分类。作为其它示例，可以使用奇异值分解(SVD)、潜在语义分析(LSA)以及神经网络来使文档与集群相互关联。其它实施方式是可能的。例如，可以使用二次分类器或k-最近邻算法来将训练数据126分类成子集。

图2是包括文档的示例集群(210、220、230、240和250)的图。文档由图2中的点来表示。可以使用K-均值聚类技术来生成集群。具体地，可以选择集群的数量k。例如，在图2中示出了五个集群(k＝5)。可以随机生成集群210、220、230、240和250。具体地，可以将每一个文档随机分配给集群。在一些实施方式中，可以将文档最初分配给多于一个集群。如下所述，可以为集群210、220、230、240和250中的每一个确定形心(或集群中心)。

图3是包括图2的示例集群和对应的形心(215、225、235、245和255)的图。在一些实施方式中，集群的形心通过为集群中的文档的每一个计算tf-idf(词频-逆文档频率)来确定。Tf-idf向量可以包括特征和其对应的特征权重(例如，tf-idf权重)。集群的形心可以由与集群中的文档相对应的所有tf-idf向量的平均数来表示。可以以先前描述的方式来计算tf-idf权重。

作为一个示例，特定文档(例如，图3的集群250中的点)可以包含5000个词。在该文档中，词“basketball”可能出现200次。“basketball”的词频将是0.04(200/5000)。集群250中的文档集合(例如，集群250中的所有点)包括九个文档。假设“basketball”在九个文档中的仅仅一个中出现，逆文档频率是log(9/1)≈0.95。该文档的tf-idf向量可以包括特征“basketball”和对应的tf-idf权重(0.04·0.95)≈0.04。可以使用相似计算来为特定集群的文档中的额外词语生成额外特征和权重。

可以将集群的形心计算为集群中的所有文档的tf-idf向量的平均数。例如，对于具有两个文档X和Y的集群，两个文档X和Y每一个具有tf-idf向量，tf-idf向量每一个包括三个特征，文档X和Y可以分别由下述表示：X＝(x₁，x₂，x₃)和Y＝(y₁，y₂，y₃)。集群的形心Z可以由下述表示：Z＝(z₁，z₂，z₃)，其中z₁＝(x₁+y₁)/2；z₂＝(x₂+y₂)/2；以及z₃＝(x₃+y₃)/2。

在为最初集群计算形心之后，将每一个文档重新分配给最接近的形心。图4是图示了对图2的文档中的部分的示例重新分类的图。具体地，图4示出了基于对应的最接近的形心被重新分配给不同集群的文档中的部分。例如，如箭头415所示，可以将集群250中的文档410重新分配给集群220。最接近的形心可以通过计算在文档和集群的形心中的每一个之间的距离来确定。具体地，可以计算在表示文档的td-idf向量和表示每一个形心的td-idf向量之间的距离。返回到先前示例，在形心Z和文档X之间的距离可以被表示为余弦距离：

可以将文档分配给距文档最小距离的集群。在将文档中的每一个重新分配给其最接近的形心之后，可以计算新的形心。

图5是图示了基于图4中的重新分类对示例集群510、520、530、540和550的示例重新调整的图。如前参考图2和3所描述的，可以确定新的形心。具体地，可以为集群510、520、530、540和550分别确定形心515、525、535、545和555。

可以执行基于最接近的形心对文档重新分类，以及基于重新分类对集群重新调整的多次迭代，直到满足一个或多个标准。例如，可以执行重新分类和重新调整，直到满足收敛标准(例如，没有文档被重新分配)。

在完成分类之后，可以生成集群中的每一个的简档。图6是图示了针对图5的示例集群510、520、530、540和550中的每一个对简档610、620、630、640和650的示例生成的图。例如，简档可以由根据相应集群中的文档为集群中的每一个计算(如上所述)的td-idf向量来表示。

由于作为结果的集群取决于对文档到每一个集群的最初随机分配，在一些实施方式中，重复上述过程以从训练数据126创建额外集群。

此外，由于生成训练数据126的子集的方式，不必为训练数据的每一个子集预先确定主题或域。例如，所生成的集群可以被看作类属集群。具体地，每一个集群没有被最初创建来表示任何特定主题/域，但是作为对相似文档聚类的结果，每一个集群可以固有地表示主题或域。作为结果，不必预先确定主题、关键词或域，例如来标记或识别集群。然而，为用户生成的定制语言模型可以基于集群来生成，以及定制语言模型还可以固有地包括由集群表示的一个或多个主题/域。

选择训练数据

图7是图示了对图6的示例集群中的一个或多个的示例选择的图。具体地，集群510和520基于来自用户词典710的目标简档来选择。如前所述，可以将目标简档与每一个集群的简档进行比较，来确定目标简档和每一个集群简档之间的相似性。

在一些实施方式中，计算目标简档和每一个集群简档之间的余弦相似性。余弦相似性可以用于测量两个向量之间的相似性。余弦相似性可以被表示为：

\cos (x, y) = \frac{\underset{i}{Σ} x_{i} y_{i}}{\sqrt{\underset{i}{Σ} x_{i}^{2}} \sqrt{\underset{i}{Σ} y_{i}^{2}}},

其中x_i是表示目标简档的向量，以及y_i是表示集群简档的向量。随着两个向量之间的余弦相似性接近1，两个向量变得更接近，或更相似。可以将余弦相似性与阈值进行比较来确定是否选择集群。例如，如果余弦相似性大于阈值0.8，则可以认为x和y关于主题是高度相关的，并且可以选择与y相对应的集群。

生成定制语言模型

图8是图示了对定制语言模型810的示例生成的图。定制语言模型可以基于在所选择的集群中的文档来生成。定制语言模型可以包括n-gram，以及n-gram在所选择的集群中的文档中出现的对应概率。

根据n-gram语言模型的特定串会出现的概率可以使用链式规则来确定。链式规则将串的概率确定为单个概率的乘积。因此，对于给定串“e₁，e₂，...，e_k”，该串的概率p(e₁，e₂，...，e_k)等于：

Π_{i = 1}^{k} p (e_{i} | e_{1}, . . ., e_{i - 1}) .

可以将n-gram语言模型限制在特定最大大小n-gram，例如限制在1-gram、2-gram、3-gram等。例如，对于给定串“NASA officials say theyhope”，其中将最大n-gram级限制在3-gram，该串的概率可以如下被确定为条件概率的乘积：p(NASA officials say they hope)＝p(NASA)·p(officials|NASA)·p(say|NASA officials)·p(they|officials say)·p(hope|saythey)。可以使这通用化为：

p (e_{1}, . . ., e_{k}) = Π_{i = 1}^{k} p (e_{i} | e_{i - n + 1}, . . ., e_{i - 1}),

其中n是在语言模型中允许的最大n-gram的级。

条件概率通常根据所选择的集群的文档中的相对频率经验地确定。例如，在上面的示例中，词“say”相对于“NASA officials”的上下文的概率由下述给出：

p (say | NASA officials) = \frac{f (NASA officials say)}{f (NASA officials)},

其中f(NASA officials say)是串“NASA officials say”在所选择的集群的文档中出现的频率或计数。在n-gram语言模型中，最大n-gram级内的串的条件概率对应于存储在语言模型中的n-gram的概率，例如p(say|NASA officials)是存储在语言模型中的3-gram条目“NASAofficials say”的条件概率。

图9A是示出了用于生成集群向量的示例过程的流程图。为简便起见，将关于执行生成的系统来描述集群向量的生成。系统接收910文档集合。例如，服务器120可以接收训练数据126。系统将文档聚类920成一个或多个集群。例如，服务器120中的分类引擎(未示出)可以对文档进行聚类。服务器为一个或多个集群中的每一个集群生成930集群向量。例如，服务器120中的分类引擎还可以为每一个集群生成集群向量。

图9B是示出了用于生成定制语言模型的示例过程的流程图。为简便起见，将关于执行生成的系统来描述定制语言模型的生成。系统生成940与目标简档相关联的目标向量。例如，分类引擎可以生成与目标简档相关联的目标向量。系统将目标向量与集群向量中的每一个进行比较950。例如，服务器120中的比较引擎(未示出)可以将目标向量与集群向量中的每一个进行比较。系统基于该比较来选择960一个或多个集群中的一个或多个，并且使用来自所选择的一个或多个集群中的文档来生成970语言模型(例如，定制语言模型)。

尽管本说明书将许多示例n-gram说明为英语词，所描述的主题和功能性操作的实施例可以针对其它语言(例如，中文、日语以及韩语)来实现。例如，n-gram可以包括一个或多个中文字符。

电子文档(为简洁起见，其被称为文档)不必对应于文件。可以将文档存储在保持其它文档的文件的一部分、专用于讨论中的文档的单个文件或者多个协调文件中。

在本说明书中描述的主题和功能性操作的实施例可以以数字电子电路，或者以计算机软件、固件或硬件，包括在本说明书中公开的结构以及其结构等价物，或者以以上的一个或多个的组合来实现。可以将在本说明书中描述的主题的实施例实现为一个或多个计算机程序产品，即编码在有形的程序载体上、由数据处理装置执行或控制数据处理装置的操作的计算机程序指令的一个或多个模块。有形的程序载体可以是计算机可读介质。计算机可读介质可以是机器可读存储设备、机器可读存储基片、存储器设备、形成机器可读传播信号的物质成分或以上的一个或多个的组合。

术语“数据处理装置”包含用于处理数据的所有装置、设备以及机器，包括例如可编程处理器、计算机或多个处理器或计算机。除硬件外所述装置可以包括创建用于讨论中的计算机程序的执行环境的代码，例如构成处理器固件、协议堆栈、数据库管理系统、操作系统或以上一个或多个的组合的代码。

计算机程序(也称作程序、软件、软件应用、脚本或代码)可以以任何形式的编程语言编写，包括编译或解释语言，或者说明性或过程性语言，并且其可以以任何形式部署，包括作为独立程序或作为模块、组件、子程序或适于在计算环境中使用的其它单元。计算机程序没有必要对应于文件系统中的文件。可以将程序存储在保持其它程序或数据的文件(例如，存储在标记语言文档中的一个或多个脚本)的一部分、专用于讨论中的程序的单个文件或者多个协调文件(例如，存储一个或多个模块、子程序或部分代码的文件)中。可以将计算机程序部署为在一个计算机上或者在位于一个地点或跨多个地点分布并且由通信网络互连的多个计算机上执行。

在本说明书中描述的过程和逻辑流可以由执行一个或多个计算机程序的一个或多个可编程处理器执行以通过操作输入数据并且生成输出来执行功能。过程和逻辑流还可以由专用逻辑电路执行，以及装置还可以被实现为专用逻辑电路，所述专用逻辑电路例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

适于执行计算机程序的处理器包括例如通用和专用微处理器两者，以及任何类型的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的主要元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常，计算机还包括用于存储数据的一个或多个海量存储设备，例如磁盘、磁光盘或光盘，或可操作地耦接以从所述一个或多个海量存储设备接收数据或向所述一个或多个海量存储设备传送数据，或两者。然而，计算机不必具有这样的设备。此外，可以将计算机嵌入另一个设备中，所述另一个设备例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、数码相框、游戏控制台、全球定位系统(GPS)接收器，仅列出一些。

适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括例如：半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动盘；磁光盘；以及CD-ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充，或合并入专用逻辑电路。

为了提供与用户的交互，本说明书中描述的主题的实施例可以在具有下述的计算机上实现：用于向用户显示信息的显示设备，例如CRT(阴极射线管)或LCD(液晶显示)监视器，以及用户通过其可以向计算机提供输入的键盘和指示设备，例如鼠标或跟踪球。也可以使用其它类型的设备来提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感知反馈，例如视觉反馈、听觉反馈或触觉反馈；以及可以以任何形式，包括声学的、话音或触觉的输入，接收来自用户的输入。

本说明书中描述的主题的实施例可以在包括例如作为数据服务器的后端组件、或者包括例如应用服务器的中间件组件、或者包括前端组件，例如具有用户通过其可以与在本说明书中描述的主题的实施方式交互的图形用户界面或Web浏览器的客户端计算机、或者一个或多个这样的后端、中间件或前端组件的任何组合的计算系统中实现。系统的组件可以通过例如通信网络的任何形式或介质的数字数据通信互连。通信网络的示例包括局域网(″LAN″)和广域网(″WAN″)，例如因特网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过通信网络交互。客户端和服务器的关系依靠在各个计算机上运行并且彼此具有客户端-服务器关系的计算机程序产生。

虽然本说明书包含许多具体实施方式细节，但是这些细节不应当被解释为对任何发明或可以主张的内容的范围的限制，而应当被解释为对可以具体到特定发明的特定实施例的特征的描述。还可以将在本说明书中在分离的实施例的情境中描述的某些特征组合在单个实施例中实现。相反地，也可以将在单个实施例的情境中描述的各种特征分离地在多个实施例中实现或在任何适当的子组合中实现。此外，尽管可能在上面将特征描述为在某些组合中起作用，甚至最初主张如此，但是可以在一些情况下将来自所主张的组合的一个或多个特征从组合中删去，并且可以将所主张的组合指向子组合或者子组合的变体。

类似地，虽然在附图中以特定顺序描绘了操作，但是不应当将这理解为需要以所示的特定顺序或者以连续顺序执行这样的操作、或者需要执行所有图示的操作，才能达到期望的结果。在某些情况下，多任务以及并行处理可以是有利的。此外，不应当将在上述实施例中的各种系统组件的分离理解为在所有实施例中均需要这样的分离，而应当理解的是，通常可以将所描述的程序组件和系统集成到一起成为单个软件产品或封装为多个软件产品。

已经描述了本说明书中描述的主题的特定实施例。其它实施例在权利要求的范围内。例如，可以以不同的顺序来执行权利要求中记载的动作并且仍然达到期望的结果。作为一个示例，在附图中描绘的过程不必需要所示的特定顺序或连续顺序，来达到期望的结果。在某些实施方式中，多任务以及并行处理可以是有利的。

Claims

1.一种方法，包括：

接收文档集合；

将文档聚类成一个或多个集群；

为所述一个或多个集群中的每一个集群生成集群向量；

生成与目标简档相关联的目标向量；

将所述目标向量与所述集群向量中的每一个进行比较；

基于所述比较来选择所述一个或多个集群中的一个或多个；以及

使用来自所选择的所述一个或多个集群中的文档来生成语言模型。

2.根据权利要求1所述的方法，其中生成语言模型包括：

从来自所选择的所述一个或多个集群的所述文档识别n-gram集合，每一个n-gram具有在来自所选择的所述一个或多个集群的所述文档中出现的对应的相对频率。

3.根据权利要求1所述的方法，其中每一个集群与主题或域相关联。

4.根据权利要求1所述的方法，其中每一个集群向量表示对应集群的形心。

5.根据权利要求4所述的方法，其中对文档进行聚类包括：

将每一个文档随机分配给集群；以及

迭代地计算每一个集群的形心并且基于最接近的形心将每一个文档重新分配给集群，直到收敛。

6.根据权利要求1所述的方法，其中所述目标向量包括词频向量。

7.根据权利要求1所述的方法，其中所述目标向量从用户词典或用户输入中的至少一个生成。

8.根据权利要求1所述的方法，其中所述比较包括：

计算在所述目标向量和每一个所述集群向量之间的余弦相似性。

9.根据权利要求1所述的方法，进一步包括：

接收一个或多个额外文档；以及

基于所述一个或多个额外文档来更新所述语言模型。

10.一种方法，包括：

接收文档集合；

将文档聚类成一个或多个类属集群；

为所述一个或多个类属集群中的每一个集群生成集群向量；

生成与目标简档相关联的目标向量；

将所述目标向量与所述集群向量中的每一个进行比较；以及

基于所述比较来选择所述一个或多个类属集群中的一个或多个。

11.根据权利要求10所述的方法，进一步包括：

使用来自所选择的所述一个或多个类属集群的文档来生成语言模型。

12.一种方法，包括：

接收识别用户的用户输入；

识别与所述用户相对应的用户简档；

使用所识别的简档来生成特定于用户的语言模型；以及

将所述特定于用户的语言模型发送给第一客户端。

13.根据权利要求12所述的方法，进一步包括：

将所述特定于用户的语言模型发送给第二客户端。

14.根据权利要求12所述的方法，进一步包括：

接收文档集合；

将文档聚类成一个或多个集群；

为所述一个或多个集群中的每一个集群生成集群向量；

生成与所述用户简档相关联的目标向量；

将所述目标向量与所述集群向量中的每一个进行比较；以及

基于所述比较来选择所述一个或多个集群中的一个或多个。

15.根据权利要求14所述的方法，其中生成特定于用户的语言模型包括：

16.一种方法，包括：

接收一个或多个文档的第一集合；

基于所述一个或多个文档的第一集合来生成简档；

接收一个或多个文档的第二集合；

基于所述一个或多个文档的第二集合和所述简档来生成定制语言模型；以及

将所述定制语言模型发送给客户端。

17.根据权利要求16所述的方法，其中所述一个或多个文档的第一集合包括表示用户的输入行为的用户词典或用户输入中的至少一个。

18.一种编码在有形的程序载体上、可操作来促使数据处理装置执行操作的计算机程序产品，所述操作包括：

接收文档集合；

将文档聚类成一个或多个集群；

为所述一个或多个集群中的每一个集群生成集群向量；

生成与目标简档相关联的目标向量；

将所述目标向量与所述集群向量中的每一个进行比较；

使用来自所选择的一个或多个集群中的文档来生成语言模型。

19.一种系统，包括：

包括程序产品的机器可读存储设备；以及

可操作来执行所述程序产品并且执行操作的一个或多个计算机，所述操作包括：

接收文档集合；

将文档聚类成一个或多个集群；

为所述一个或多个集群中的每一个集群生成集群向量；

生成与目标简档相关联的目标向量；

将所述目标向量与所述集群向量中的每一个进行比较；