CN101460941A

CN101460941A - 基于从集群生成的模型来预测输入数据的结果

Info

Publication number: CN101460941A
Application number: CNA2007800203574A
Authority: CN
Inventors: 彭富春
Original assignee: Yahoo Inc
Current assignee: Fly upward Management Co., Ltd
Priority date: 2006-06-01
Filing date: 2007-05-30
Publication date: 2009-06-17
Anticipated expiration: 2027-05-30
Also published as: EP2035946A4; CN101460941B; US8386232B2; US20070282591A1; EP2035946A1; WO2007142982A1

Abstract

一种基于模型来预测输入数据的结果的方法，所述模型是基于相关字的集群、相关片段的集群和训练数据而被生成的。该方法包括接收含特定语言的多个词的数据集。在该特定语言中，词是由字构成的。相关字的集群是从数据集生成的。模型是至少基于相关字的集群和训练数据而被生成的。该模型还可以基于相关片段的集群。训练数据包括多个条目，其中每个条目包括字和该字的指定结果。包括尚未与指定结果相关联的字的一组输入数据被接收。该模型被应用于输入数据以确定输入数据内的字的预测结果。

Description

基于从集群生成的模型来预测输入数据的结果

技术领域

本发明涉及机器学习工具。具体地，本发明涉及利用片段和字群集(segment and character clustering)来限制机器学习工具生成准确模型所需要的训练数据量。

背景技术

机器学习工具(MLT)可以用于识别或预测模式(pattern)。例如，MLT可以学习预测书面文本中的特定词(word)是人名或地名。作为另一示例，MLT可以学习预测特定记录在给定数据集中的位置。更具体地，MLT可以学习预测公司名称记录在工作列表中的位置。机器学习工具可以学习预测许多其他类型的模式。

训练数据通常用于提供模式，MLT从这些模式中学习预测模式在其他数据(“输入数据”)中的存在。训练数据中的模式可以包括被映射到“指定结果”的“输入”。输入可以是训练数据中的任何要素。指定结果可以是与输入相关联的标签。通常，人为地提供指定结果。例如，人为地标记训练数据中的词(“输入”)以指示特定词是“命名实体(namedentity)”，例如人名、地名或者某种其他命名实体。基于输入和指定结果，MLT逐渐发展了一种模型，该模型可以用于预测不具有指定结果的输入数据的结果。作为具体示例，MLT学习从输入数据中提取命名实体。作为另一示例，MLT学习确定或预测诸如公司名称字段之类的特定类型的记录位于输入数据中的何处。

因为训练数据提供用于教导MLT的模式，所以由MLT所生成的模型的准确度受训练数据的性质影响。如果训练数据包括更多的模式或更好的模式，那么MLT能够生成更准确的模型。因为训练数据通常是手动生成的，所以产生训练数据可能是高代价的。此外，获得足够的训练数据使MLT生成准确模型通常存在问题。具体地，对于许多语言，缺少足够的训练数据。作为具体示例，对于汉语，缺少足够的训练数据。然而，为MLT提供足够数量和质量的训练数据的问题对于所有语言均存在。

因此，需要基于有限的训练数据量，利用MLT来生成准确的模型。

在该部分中描述的方法是可能被研究过的方法，但不一定是之前已经被想到或者被研究过的方法。因此，除非以其他方式指出，否则不应仅因为它们被包括在该部分中，就假设在该部分中描述的任何方法是现有技术。

附图说明

在附图的各图中，通过示例而非限制来示出本发明，并且其中相似标号指代类似元件，其中：

图1是根据本发明实施例的利用片段集群(segment cluster)和字集群(character cluster)来扩充训练数据的体系结构概述，MLT从所述训练数据生成用于预测结果的模型。

图2是根据本发明实施例的基于相关字的集群来生成模型并且应用该模型来确定预测结果的过程。

图3是根据本发明实施例的将片段集群和字集群用于确定词片段并提取命名实体的过程。

图4是示出其上可以实现本发明实施例的计算机系统的框图。

具体实施方式

在以下的描述中，出于说明的目的，为了提供对本发明的全面理解而提出了大量具体细节。然而，应理解，可以在没有这些具体细节的情况下实践本发明。在其他实例中，为了避免不必要地使本发明模糊，以框图的形式示出熟知的结构和设备。

概述

公开了用于预测输入数据的结果的技术。预测结果是基于模型而被预测的。模型由MLT基于训练数据来生成。然而，除训练数据外，模型还考虑与(1)相关字集群和/或(2)相关片段集群相对应的特征。通过考虑与相关字集群和/或相关片段集群相对应的特征，MLT能够利用相同的训练数据来产生更好的模型。产生更好的模型最终使得产生更准确的预测结果。以下将更详细地描述相关字集群、相关片段集群以及可以如何使用它们来生成模型。

体系结构概述

图1是根据本发明实施例的利用片段集群和字集群来扩充训练数据以使得MLT生成用于预测结果的模型的结构概述。训练数据115、字集群140和片段集群145被输入到MLT110中，MLT110从这些输入中学习，从而确定模型132。模型132用于预测输入数据150的结果。

训练数据

训练数据115包含模式，MLT110从这些模式中学习以生成模型132。在一个实施例中，训练数据115包含训练项以及训练项的指定结果。例如，训练项可以是汉字，并且指定结果可以指定字的分类。例如，训练数据可以指示一个汉字是地名。训练数据可以指示另一个汉字是人名。训练数据可以指示又一个汉字不是任何类型的命名实体。

在一个实施例中，字的指定结果可以指示该字是否是人名或地名的至少一部分。字的指定结果也可以指示该字是命名实体的开头。对命名实体中其他字的指定结果可以指示其他字是命名实体的除开头外的一部分。

在一个实施例中，训练数据115包含词之间的边界不太容易辨别的语言文本。例如，训练数据115可以是中文文本。在中文文本中，属于同一个词的字之间的间隔与属于不同词的字之间的间隔相同。当相关的字之间的边界不容易辨别时，训练数据115被称作未经分段的数据。中文文本仅是如下情况的一个示例：训练数据115包含未明确定义词边界的文本。在该示例中，可以用指示字是否是词的开头的指定结果来标记该字。

MLT 110能够仅基于训练数据115来生成模型132。然而，如将在下文中更详细地描述的，片段集群145和/或字集群140被用于改善模型132的准确度，而无需增大训练数据115的大小。

原始数据

在一个实施例中，从原始数据120中直接或间接地生成片段集群145和字集群140。与训练数据115不同，原始数据120并不包括指定结果。换言之，不必人为地在原始数据120中放置标签。因此，可以从任何便利的源来收集原始数据120。此外，因为不需要任何的手动标记，所以原始数据120可以是非常大的文集。

原始数据120可以是未经分段的数据。例如，在一个实施例中，原始数据120中相关字之间的边界不太容易辨别。作为一个示例，原始数据120可以是中文文本。更一般地，未经分段的原始数据120可以是词的边界未被明确定义的任何文本。也可以使用经片段的原始数据120。例如，在一个实施例中，原始数据120中相关字之间的边界可容易地辨别。

相关字集群

由群集工具130从原始数据120形成字集群140。每个字集群包括一组相关的字。在一个实施例中，利用群集工具130来生成字集群140。群集工具130可以通过将原始数据120中的各个字视为不同的词，利用分布式词群集技术来生成字集群140。

与片段集群类似，字集群可以通过“硬群集”或者通过“软群集”来生成。在硬群集中，每个特定的字被指派给一个集群。在软群集中，特定的字可以被指派给多个不同的集群。与片段集群类似，通过对字进行软群集，概率可以被指派给字。

基于集群向训练数据应用特征

在一个实施例中，MLT110基于字集群140和/或片段集群145向训练数据115“应用特征”。具体地，对于训练数据中的每个训练项，MLT110确定训练项与字集群和/或片段集群的哪些相匹配。训练项与之相匹配的集群被认为是该训练项的“特征”。训练项可以与多个集群相匹配，因此可以具有多个特征。MLT110也可以基于其他因素向训练数据应用特征。

模型132是基于特征的。例如，MLT110分析特征和指定结果以确定模型132。在一个实施例中，MLT110使用“条件随机场(conditionalrandom field)”来生成模型132。在“Conditional random fields：Probabilistic models for segmenting and labeling sequence data”(Lafferty，J.，McCallum，A.，Pereira，F.).In：Proc.18th International Conf.on MachineLearning，Morgan Kaufmann，San Francisco，CA(2001)282-289中描述了条件随机场。在一个实施例中，MLT110使用“最大熵建模”。在“AMaximum Entropy Approach to Natural Language Processing”，(Adam Berger，Stephen Della Pietra，Vincent Della Pietra)，Computational Linguistics，22(1)中描述了最大熵建模。在一个实施例中，MLT 110是支持向量机。在“TextCategorization with Support Vector Machines：Learning with Many RelevantFeatures”，(T.Joachims).Proceedings of the European Conference MachineLearning，Springer，1998中描述了支持向量机。

基于集群向输入数据应用特征

输入数据150是将由MLT 110基于MLT 110应用于输入数据150的特征和模型132来进行处理的数据。输入数据150包含输入项。MLT 110基于字集群140和/或片段集群145向输入项应用特征。

在一个实施例中，输入数据150是未经分段的数据。例如，输入数据150可能是中文文本。输入项可以是单个汉字。在一个实施例中，MLT110确定输入项与字集群和/或片段集群的哪些相匹配。输入项与之匹配的集群被认为是输入项的“特征”。输入项可以与多个集群相匹配，因此可以具有多个特征。

在一个实施例中，在将特征应用于未经分段的数据中的输入项之前，MLT 110可以对输入数据进行解析(parse)以生成经解析的输入项。例如，输入数据150可能是汉字。在该实施例中，MLT 110将输入数据150分段为词。对于每个经解析的输入项，MLT 110确定经解析的输入项与字集群和/或片段集群的哪些相匹配。经解析的输入项与之匹配的集群被认为是该经解析的输入项的“特征”。经解析的输入项可以与多个集群相匹配，因此可以具有多个特征。

预测输入数据的结果

MLT 110将模型132应用于特征以确定来自输入数据150的经解析的输入项的预测结果160。预测结果160是对为输入数据150中经解析的输入项指定了什么结果的预测。通常，经解析的输入项与训练项共有的特征越多，则越有可能是应当将为该训练项指定的结果指定给该经解析的输入项。

在一种简单情况下，经解析的输入项将与训练设定项相同，因此MLT110将与该训练设定项的指定结果相同的预测结果指派给该经解析的输入项。在更复杂的情况下，输入项可能与任何的训练设定项都不匹配。在这些情况下，MLT 110可以将与如下的训练设定项的指定结果相同的预测结果指派给经解析的输入项：该训练设定项与该经解析的输入项共有最多的特征。

通常，预测结果将利用以前被用作手动地对训练设定项进行分类的“指定结果”的相同分类来对经解析的输入项进行分类。例如，如果指定结果以前指示了哪些训练设定项是“命名实体”，那么预测结果160可以指示哪些经解析的输入项可能是“命名实体”。

向训练项和输入项应用特征并且基于特征来预测结果的示例

A)基于字集群

基于字集群，提供以下示例来说明可以如何将特征指派给训练数据115中的训练项和输入数据150，以及可以如何利用特征来预测输入数据150的结果。对于该示例，字集群1包括字“X”、“A”和“Q”；字集群2包括字“Y”、“F”和“L”；字集群3包括字“Z”和“B”。训练数据115具有训练项“X”、“Y”和“Z”。输入数据150具有输入项“A”、“F”和“B”。训练数据中的训练项“X”具有指定结果“命名实体的开头”。训练数据中的训练项“Y”具有指定结果“除开头外的命名实体”。训练数据中的训练项“Z”在该示例中不具有指定结果。

MLT 110将特征“字集群1”应用于训练数据115中的训练项“X”，并将特征“字集群3”应用于训练数据115中的训练项“Y”。基于示例性字集群，没有给训练数据115中的训练项“Z”指派特征。

MLT 110将特征“字集群1”应用于输入数据150中的输入项“A”，并且将特征“字集群2”应用于输入数据150中的输入项“F”。基于示例性字集群，没有给输入数据150中的输入项“B”指派特征。

基于所指派的特征“字集群1”，MLT 110为输入项“A”预测“命名实体的开头”的结果。也就是，在该示例中，MLT110预测输入项“A”应该与训练数据中的训练项“X”具有相同的结果。基于所指派的特征“字集群2”，MLT 110为输入项“F”预测“除开头外的命名实体”的结果。也就是，在该示例中，MLT 110预测输入项“F”应该与训练数据中的训练项“Y”具有相同的结果。MLT110预测输入“B”不是命名实体的一部分。基于这些预测，MLT 110预测输入项“A”和“F”的组合是命名实体。

B)基于片段集群

基于片段集群，提供以下示例来说明可以如何将特征指派给训练数据115中的训练项和输入数据150，以及可以如何利用特征来预测输入数据150的结果。对于该示例，片段集群1包括片段“AB”以及其他片段；片段集群2包括片段“ABCD”以及其他片段。训练数据115具有训练项序列“ABCDEF”。

MLT 110确定将应用于训练数据中的训练项“A”的特征，如下所述。MLT 110检查以“A”开始的训练项的串，并且判定是否有任何片段集群具有与训练项的任何串的片段匹配。如果找到了多个片段匹配，那么将与最长片段相关联的特征指派给训练项“A”。因此，MLT 110确定片段“AB”在片段集群1中并且片段“ABCD”在片段集群2中。MLT 110将特征“片段集群2”应用于训练项“A”，因为这是最长的片段。

接下来，MLT 110基于片段集群向训练数据115中的“B”应用特征。MLT 110还基于片段集群向输入数据150中的输入项应用特征。此外，MLT 110基于以前根据片段集群而指派的特征，来为输入数据150中的输入项预测结果。

一般过程

图2是根据本发明实施例的、基于相关字的集群来生成模型并且应用模型132来确定预测结果160的过程200。将联系图1的体系结构来讨论过程200。然而，过程200并不因此受限。

步骤202是接收包括特定语言的词的原始数据120。如之前所讨论的，原始数据120可以是未经分段的。作为示例，原始数据120包括汉语的字。

步骤204是从原始数据120生成相关字的集群。作为示例，基于对原始数据120的分析，特定字集群140包含在某种程度上相关的不同的字。

步骤206是基于相关字的集群以及训练数据115来生成模型132。生成模型132的步骤包括基于相关字的集群向训练数据115中的字应用特征。例如，将标识特定字集群140的特征指派给训练数据115中的特定字。更具体地，指派可以基于这样的确定：特定字是特定字集群140的成员。

也可以基于片段集群145向训练数据中的字指派特征。以下描述用于这此的一种技术。检查训练数据115中是否存在与一个或多个片段集群145中的片段相匹配的片段。当找到了片段匹配时，将标识具有该片段的一个或多个片段集群145的特征指派给训练数据115中的该片段的一个或多个字。在一个实施例中，将所述特征指派给训练数据115中的所述片段的第一个字。然而，更一般地，可以基于具有相匹配的片段的片段集群145来将特征指派给训练数据中的片段的任何一个字。

可以将许多其他类型的特征指派给训练数据中的字，这些特征中的一些可以基于指定结果。例如，可以基于字是词的开头的指定结果，向该字指派特征。作为另一示例，可以基于字与命名实体相关联的指定结果，向该字指派特征。可以将许多其他类型的特征指派给字。

步骤208是接收一组输入数据150。输入数据150可以是未经分段的数据。例如，输入数据150可以是其中词并不被明显划界的语言文本，例如中文。

步骤210是将模型132应用于输入数据150以确定输入数据150内的字的预测结果160。应用模型132的步骤包括基于相关字的集群向输入数据150中的字应用特征。所应用的特征通常是以前被应用于训练数据115的字的相同特征。被应用于输入数据中的字的特征之一标识特定字集群140。例如，如果字被确定为特定字集群140中的成员，那么标识该字集群140的特征被应用于该字。

被应用于输入数据150中的字的另一特征标识特定片段集群145。可以与如上所述的用于将标识特定字集群140的特征应用于输入数据150中的字的技术类似地，来执行将标识特定片段集群145的特征应用于输入数据150中的字。

基于字集群140和/或片段集群145来应用特征可以改善预测的准确度，因为MLT 110具有预测结果所依据的更多信息。

在将特征应用于输入数据150中的字之后，MLT110至少基于这些特征来预测结果。作为示例，MLT110预测输入数据150中的词片段边界。更具体地，MLT 110可以基于指派给字的特征，判定哪些字是词的开头以及哪些字不是词的开头。作为另一示例，MLT 110预测输入数据150中的命名实体。更具体地，MLT 110可以基于指派给字的特征，判定一组的一个或多个字与命名实体相关联。因为命名实体可能包括多个字，所以MLT110可以检查若干个字来预测命名实体。例如，MLT 110可以预测第一个字是命名实体的开头并且第一个字之后的两个字是除开头外的命名实体的一部分。

示例性过程

图3是根据本发明实施例的、利用片段集群和字集群来在一些输入数据150中确定词片段并提取命名实体的过程300。将联系图1的体系结构来讨论过程300。然而，过程300并不因此受限。步骤302是对原始数据120的集合进行分段以生成经分段的数据128的集合。片段包括一个或多个字。经分段的数据128中的特定片段可以或者可以不与词相对应。

步骤304是从经分段的数据128生成相关片段的集群。相关片段可以或者可以不与词相对应。用于生成片段集群145的一种技术是分布式词群集；然而也可以使用其他技术。

步骤306是从原始数据120或经分段的数据128生成相关字的集群。用于生成字集群140的一种技术是分布式词群集；然而也可以使用其他技术。当利用分布式词群集来生成字集群140时，可以将字视为词。

步骤308是至少基于片段集群145和字集群140，向训练数据115中的字应用特征。步骤308可以包括与在过程200的步骤206中所讨论的技术类似的技术。过程300并不局限于将特征仅应用于字。

步骤310是至少基于片段集群145和字集群140，向输入数据150中的字应用特征。为说明起见，假设输入数据150是未经分段的。因此，在该实施例中，特征被应用于输入数据150的字。然而，如下文中所讨论的，可以将特征指派给片段。

步骤312是将输入数据150分段为词并从输入数据150中提取命名实体。步骤312基于以前被应用于字的特征。MLT 110基于所述特征来确定字的预测结果。为了对输入数据150进行分段，MLT 110预测每个字是否是词的开头。为了提取命名实体，MLT 110预测哪些字与命名实体相关联并且分析对相邻字的预测。

向片段指派特征

过程200和过程300描述了其中特征被应用于训练数据115和输入数据150中的字的实施例。特征也可以被应用于训练数据115和输入数据150中的片段。如之前所讨论的，训练数据115可以包含指示哪些字构成词的信息。因此，特征可以被应用于训练数据115中的词。更一般地，特征可以被应用于训练数据115中的片段，这些片段可以或者可以不对应于词。

在一个实施例中，将标识特定片段集群145的特征指派给训练数据115中的特定片段。更具体地，指派可以基于这样的确定：训练数据115中的特定片段是特定片段集群145的成员。如果训练数据115被分段为词，那么特定片段可以是词。然而，在任何语言中，片段并非必须与词相对应。

此外，特征可以被应用于输入数据150的片段。输入数据150可能通过应用过程300来对输入数据150进行分段而已经被分段。可替代地，输入数据150可以通过任何其他技术而已经被分段。输入可以被先天地(inherently)分段，例如英文文本的词。在一个实施例中，基于如下的确定将特征指派给输入数据中的片段：所述确定即输入数据中的特定片段是特定片段集群145的成员。因此，预测输入数据150的结果可以基于被应用于输入数据中的片段和/或字的特征。

硬件概述

图4是示出其上可以实现本发明实施例的计算机系统400的框图。计算机系统400包括总线402或者用于传送信息的其他通信机制，以及与总线402耦合的用于处理信息的处理器404。计算机系统400还包括耦合到总线402的用于存储信息和将由处理器404执行的指令的主存储器406，例如随机存取存储器(RAM)或者其他动态存储设备。主存储器406还可以用于在将由处理器404执行的指令的执行期间存储临时变量或者其他中间信息。计算机系统400还包括耦合到总线402的用于为处理器404存储静态信息和指令的只读存储器(RAM)408或者其他静态存储设备。诸如磁盘或光盘之类的存储设备410被设置并耦合到总线402，用于存储信息和指令。

计算机系统400可以经由总线402耦合到诸如阴极射线管(CRT)之类的显示器412，该显示器412用于向计算机用户显示信息。包括字母数字以及其他键的输入设备414被耦合到总线402，用于向处理器404传送信息和命令选择。另一类型的用户输入设备是光标控制器416，例如鼠标、轨迹球或光标方向键，用于向处理器404传送方向信息和命令选择并且用于控制光标在显示器412上的运动。该输入设备通常在两个轴(第一轴(例如，x)和第二轴(例如，y))上具有两个自由度，这使得设备能够在平面上指定位置。

本发明涉及将计算机系统400用于实现在此描述的技术。根据本发明的一个实施例，响应于处理器404执行主存储器406中所包含的一个或多个指令的一个或多个序列，由计算机系统400来执行那些技术。这样的指令可以从诸如存储设备410之类的另一机器可读介质被读取到主存储器406中。执行主存储器406中所包含的指令序列使得处理器404执行在此描述的处理步骤。在替代实施例中，可以使用硬连线电路来替代软件指令或者与软件指令相结合地使用硬线电路来实现本发明。因此，本发明的实施例并不局限于硬件电路和软件的任一种特定组合。

这里使用的术语“机器可读介质”指参与提供使得机器以特定方式进行操作的数据的任何介质。在利用计算机系统400所实现的实施例中，例如在向处理器404提供用以执行的指令时涉及各种机器可读介质。这样的介质可以采用多种形式，包括但并不局限于：非易失性介质、易失性介质以及传输介质。非易失性介质例如包括诸如存储设备410之类的光盘或磁盘。易失性介质包括诸如主存储器406之类的动态存储器。传输介质包括同轴电缆、铜线和光纤，包括构成总线402的导线。传输介质还可以采用声波或光波的形式，例如在无线电波和红外数据通信期间所生成的那些波。所有这些介质必须是有形的以使得由介质所运载的指令能够被将指令读取到机器中的物理机制检测到。

机器可读介质的常见形式例如包括软盘、柔性盘、硬盘、磁带或任何其他磁性介质，CD-ROM、任何其他光学介质，穿孔卡、纸带、任何其他具有孔图案的物理介质，RAM、PROM、EPROM、FLASH-EPROM、任何其他存储器芯片或匣(cartridge)，下文所述的载波，或者计算机能够对其进行读取的任何其他介质。

在将一个或多个指令的一个或多个序列运载到处理器404以供处理时，可以涉及各种形式的机器可读介质。例如，指令可能最初被运载在远程计算机的磁盘上。远程计算机可以将指令装载到其动态存储器中并且利用调制解调器经由电话线来发送指令。计算机系统400的本地调制解调器可以接收到电话线上的数据并且使用红外发射机将数据转换为红外信号。红外检测器可以接收到在红外信号中运载的数据，并且适当的电路可以将数据置于总线402上。总线402将数据运载到主存储器406，处理器404从主存储器406取回并执行指令。由主存储器406接收到的指令可以选择性地在由处理器404执行之前或之后被存储在存储设备410上。

计算机系统400还包括耦合到总线402的通信接口418。通信接口418提供耦合到网络链路420的双向数据通信，网络链路420连接到局域网422。例如，通信接口418可以是综合业务数字网(ISDN)卡或者调制解调器，用于向相应类型的电话线提供数据通信连接。作为另一示例，通信接口418可以是局域网(LAN)卡，用于向兼容的LAN提供数据通信连接。无线链路也可以被实现。在任一种这样的实现中，通信接口418发送和接收电、电磁或光信号，这些信号运载代表各种类型信息的数字数据流。

网络链路420通常提供通过一个或多个网络而与其他数据设备的数据通信。例如，网络链路420可以提供通过局域网422而与主机计算机424或者与由因特网服务供应商(ISP)426所操作的数据设备的连接。ISP426又通过现在一般被称作“因特网”的万维分组数据通信网428来提供数据通信服务。局域网422和因特网428均使用运载数字数据流的电、电磁或光信号。通过各种网络的信号以及在网络链路420上并且通过通信接口418的信号运载去往和来自计算机系统400的数字数据，这些信号是传送信息的载波的示例性形式。

计算机系统400可以通过(一个或多个)网络、网络链路420和通信接口418发送消息并接收数据，包括程序代码。在因特网的示例中，服务器430可以通过因特网428、ISP426、局域网422和通信接口418发送应用程序的请求码。

所接收到的代码可以在其被接收到时被处理器404执行，并且/或者被存储在存储设备410或其他非易失性存储器中以备随后执行。以这种方式，计算机系统400可以以载波的形式获得应用码。

在以上的说明书中，已经通过参考可能随实现方式的不同而不同的大量具体细节描述了本发明的实施例。因此，本发明是什么以及申请人希望本发明是什么的唯一且排他的指标是从本申请发布的权利要求组，该权利要求组具有如下的具体形式，其中权利要求的发布包括任何后续的修正。针对这样的权利要求中所包含的术语而在此清楚提出的任何定义将决定在权利要求中所使用的这些术语的含义。因此，未清楚记载在权利要求中的限制、要素、属性、特征、优点或属性不会以任何方式限制这些权利要求的范围。因此，将说明书和附图视为说明性的而非限制性的。

Claims

1.一种包括执行涉及指令的由机器执行的操作的方法，其中所述由机器执行的操作是以下操作中的至少一个：

A)通过传输介质发送所述指令；

B)通过传输介质接收所述指令；

C)将所述指令存储到机器可读存储介质上；以及

D)执行所述指令；

其中，所述指令是当被一个或多个处理器执行时使所述一个或多个处理器执行以下步骤的指令：

接收包括特定语言的多个词的数据集，其中，在所述特定语言中，词是由字构成的；

从所述数据集生成相关字的集群；

至少基于以下各项来生成模型：

所述相关字的集群；以及

包括多个条目的训练数据，其中每个条目包括字和该字的指定结果；

接收一组输入数据，其中，所述输入数据包括尚未与指定结果相关联的字，以及

将所述模型应用于所述输入数据以确定所述输入数据内的字的预测结果。

2.如权利要求1所述的方法，其中，生成所述模型的步骤包括基于所述相关字的集群，向所述训练数据中的字应用特征。

3.如权利要求2所述的方法，其中，向所述训练数据中的字应用特征的步骤包括将标识相关字的特定集群的特征指派给所述训练数据中的特定字。

4.如权利要求3所述的方法，其中，所述特定字是所述特定集群的成员。

5.如权利要求1所述的方法，其中，应用所述模型的步骤包括基于所述相关字的集群，向所述输入数据中的字应用特征。

6.如权利要求5所述的方法，其中，向所述输入数据应用所述模型的步骤包括至少基于被应用于所述输入数据中的字的特征来确定预测结果。

7.如权利要求5所述的方法，其中，向所述输入数据中的字应用特征的步骤包括将标识相关字的特定集群的特征指派给所述输入数据中的特定字。

8.如权利要求7所述的方法，其中，所述输入数据中的所述特定字是所述特定集群的成员。

9.如权利要求1所述的方法，其中，生成相关字的集群的步骤包括使特定字与多于一个所述集群相关联。

10.如权利要求1所述的方法，其中，生成相关字的集群的步骤包括生成特定字和特定集群之间的一对一的映射。

11.如权利要求1所述的方法，其中，从所述数据集生成相关字的集群的步骤包括使用分布式词群集。

12.如权利要求1所述的方法，其中，所述指令还包括用于以下步骤的指令：

从所述数据集生成包括一个或多个字的相关片段的集群，其中，所述片段中的至少一个包括多个字，并且

其中，生成所述模型的步骤还基于所述相关片段的集群。

13.如权利要求12所述的方法，其中，生成所述模型的步骤包括基于所述相关片段的集群和所述相关字的集群，向所述训练数据中的字应用特征。

14.如权利要求13所述的方法，其中，向所述训练数据中的字应用特征的步骤包括向所述训练数据中的特定字应用特征以指示所述特定字是相关片段的特定集群的成员。

15.如权利要求13所述的方法，其中，应用所述模型的步骤包括将与所述相关片段的集群的特定集群相关联的特征指派给所述输入数据中的字。

16.如权利要求12所述的方法，其中，所述指令还包括用于在从所述数据集生成相关片段的集群的步骤之前将所述数据集分段为片段的指令。

17.如权利要求12所述的方法，其中，从所述数据集生成相关片段的字的步骤包括使特定片段与多于一个所述集群相关联。

18.如权利要求12所述的方法，其中，生成相关片段的集群的步骤包括生成特定片段和特定集群之间的一对一的映射。

19.如权利要求1所述的方法，其中，所述预测结果中的至少一个是：所述输入数据集中的字是词边界。

20.如权利要求1所述的方法，其中，所述预测结果中的至少一个是：所述输入数据集中的字与命名实体相关联。

21.一种包括执行涉及指令的由机器执行的操作的方法，其中所述由机器执行的操作是以下操作中的至少一个：

A)通过传输介质发送所述指令；

B)通过传输介质接收所述指令；

C)将所述指令存储到机器可读存储介质上；以及

D)执行所述指令；

接收包括特定语言的多个词的数据集，所述数据集不包括对所述多个词之间的边界的指示；

对所述数据集进行分段以生成经分段的数据集；

从所述经分段的数据集生成相关片段的集群；

至少基于以下各项来生成模型：

所述相关片段的集群；以及

包括多个条目的训练数据，其中，每个条目包括一个或多个字的片段和所述片段的指定结果；

接收一组输入数据，其中，所述输入数据包括尚未与指定结果相关联的一个或多个字的片段，以及

将所述模型应用于所述输入数据以确定所述输入数据内的片段的预测结果。

22.如权利要求21所述的方法，其中，所述训练数据中的每个片段包括多于一个字。

23.如权利要求21所述的方法，其中，所述训练数据中的每个片段包括单个字。

24.如权利要求21所述的方法，其中，所述输入数据中的每个片段包括多于一个字。

25.如权利要求21所述的方法，其中，所述输入数据中的每个片段包括单个字。

26.如权利要求21所述的方法，其中，生成所述模型的步骤包括基于所述相关片段的集群，向所述训练数据中的片段应用特征。

27.如权利要求21所述的方法，其中，向所述训练数据中的片段应用特征的步骤包括向所述训练数据中的特定片段应用特征以指示所述特定片段是相关片段的特定集群的成员。

28.如权利要求21所述的方法，其中，应用所述模型的步骤包括将与所述相关片段的集群的特定集群相关联的特征指派给所述输入数据中的片段。

29.如权利要求21所述的方法，其中，从所述数据集生成相关片段的字的步骤包括使特定片段与多于一个所述集群相关联。

30.如权利要求21所述的方法，其中，生成相关片段的集群的步骤包括生成特定片段和特定集群之间的一对一的映射。

31.如权利要求21所述的方法，其中，所述预测结果中的至少一个是：所述输入数据集中的片段是词边界。

32.如权利要求21所述的方法，其中，所述预测结果中的至少一个是：所述输入数据集中的片段与命名实体相关联。