CN104484319A

CN104484319A - 用于自动化文本校正的方法和系统

Info

Publication number: CN104484319A
Application number: CN201410815655.4A
Authority: CN
Inventors: 丹尼尔·赫曼·理查德·戴梅尔; 陆巍; 黄伟道
Original assignee: National University of Singapore
Current assignee: National University of Singapore
Priority date: 2010-09-24
Filing date: 2011-09-23
Publication date: 2015-04-01
Also published as: CN103154936A; US20130325442A1; CN103154936B; CN104484322A; US20170177563A1; US20140163963A2; SG188531A1; US20170242840A1; WO2012039686A1; SG10201507822YA

Abstract

本实施例演示用于自动化文本校正的系统和方法。在某些实施例中，该方法和系统可以通过根据单个文本校正模型的分析来实现。在特定的实施例中，可以通过分析学习文本的语料库和非学习文本的语料库二者来生成单个文本校正模型。

Description

用于自动化文本校正的方法和系统

针对如下案件的分案申请：

申请日：2011-9-23

申请号2011800459619

发明名称：用于自动化文本校正的方法和系统

技术领域

本发明涉及用于自化化文本校正的方法和系统。

背景技术

文本校正通常是困难和耗时的。另外，通常编辑文本是昂贵的，特别是涉及翻译，因为编辑通常需要使用有技术和受过训练的工作人员。例如，编辑翻译可能需要由在两种或多种语言中具有高水平熟练度的工作人员来提供密集劳动。

自动化的翻译系统(例如某些在线翻译器)可以使翻译的劳动密集型的某些方面有所减轻，但是它们仍不能替代人工翻译员。特别地，自动化系统执行相对好的单词到单词翻译的工作，但是由于语法和标点的不精确性，句子的意义经常无法理解。

某些自动化文本编辑系统确实存在，但此类系统通常具有不精确性。另外，现有技术的自动化文本编辑系统可能需要相对大量的处理资源。

一些自动化文本编辑系统可能需要训练或配置以精确地编辑文本。例如，某些现有技术的系统可以使用学习文本(learner text)的加注释的语料库(annotated corpus)来被训练。替代地，一些现有技术的系统可以使用没有加注释的非学习文本的语料库来被训练。本领域普通技术人员可以认识学习文本和非学习文本之间的差异。

标准自动化语音识别(ASR)系统的输出通常由话语(utterance)构成，其中例如真实情况、句子边界和标点符号的重要语言和结构信息是不可获得的。语言和结构信息改进转录的语音文本的可读性，并且辅助进一步的下游处理，例如词性(POS)标注、语法分析、信息抽取和机器翻译。

现有技术的标点预测技术使用词汇和韵律学线索。然而，例如基音和中断持续时间的韵律学特征在没有原始未处理语音波形的情况下通常是不可获得的。在其中对于转录语音文本的自然语言处理(NLP)变成主要关注的一些场景中，语音韵律学信息可能无法轻易获得。在国际口语翻译研讨会(IWSLT)的评测活动中，仅提供人工转录或自动识别的语音文本，而原始未处理语音波形是不可获得的。

按照惯例，在语音识别期间执行标点插入。在一个例子中，在决策树框架内使用连同语言模型概率的韵律学特征。在另一个例子中，广播新闻领域中的插入包括针对任务的有限状态和多层感知器方法，其中韵律学和词汇信息被并入。在进一步的例子中，实施基于最大熵的标注方法，其在自发的英语对话中进行标点插入，包括使用词汇和韵律学特征。在另一个例子中，通过使用条件随机场(CRF)来执行句子边界检测。边界检测显示出对于基于隐马尔可夫模型(HMM)的在先方法的改进。

一些现有技术将句子边界检测和标点插入任务考虑为隐事件检测任务。例如，HMM可以描述单词和单词间事件上的联合分布，其中观察值是单词，并且单词/事件对被编码为隐状态。具体地，在该任务中，单词边界和标点符号被编码为单词间事件。训练短语涉及使用平滑技术来在所有观察单词和事件上训练n-gram语言模型。学习到的n-gram概率分数接着被用作HMM状态转换分数。在测试期间，在每个单词处的事件的后验概率利用使用前向-后向算法的动态编程来计算。最为可能的状态的序列因此形成给出加标点的句子的输出。此类的基于HMM的方法具有若干个缺陷。

首先，n-gram语言模型仅能够捕获围绕的上下文信息。然而，对于标点插入可能需要更长范围相关性的建模。例如，该方法不能够有效地捕获强烈的指示疑问句的初始短语“你想(would you)”和结束问号之间的长范围相关性。因此，在使用隐事件语言模型之外可以使用特殊的技术以便克服长范围相关性。

现有技术的例子包括重新排放或复制标点符号到句子的不同位置，使得它们显得更接近于指示的单词(例如，“多少钱”指示疑问句)。一个此类的技术建议在训练语言模型前将结尾的标点符号复制到每个句子的开始处。从经验上来说，该技术已经演示了其在英语中预测问号的有效性，因为用于英语疑问句的大多数指示的单词出现在问题的开始处。然而，此类的技术是专门设计的并且可能不能广泛地通常应用或应用于除英语以外的语言。进一步，在每次话语多个句子而没有在话语内清楚地加注释的句子边界的情况下，直接应用该方法可能会失败。

与此类方法关联的另一个缺陷是该方法对将要插入的标点符号和其围绕的单词之间的强相关性假定进行编码。因此，其缺乏鲁棒性来处理其中频繁出现噪声或词汇表外(OOV)单词的情形，例如在由ASR系统自动识别的文本中。

语法纠错(GEC)已经被认为是自然语言处理(NLP)中有趣和商业上引人注意的问题，特别是对于将英语作为外语或第二门语言(EFL/ESL)的学习者来说。

尽管兴趣在增长，由于缺乏可用于研究目的的学习文本的大量加注释的语料库，研究已经受到阻碍。结果是，对于GEC的标准方法是训练现成的分类器来重新预测非学习文本中的单词。直接从加注释的初学者语料库学习GEC模型不能被很好的实施，如同将学习文本和非学习文本合并的方法。进一步，GEC的评估已经是个问题。先前的工作或对人工测试实例进行评估来作为对实际初学者错误的替代，或对不可用于其他研究者的专用数据进行评估。结果，现有的方法并不能在相同的测试集上进行比较，从而不清楚现有技术的当前状态实际上在哪。

对于GEC的业界标准方法是构建统计模型，其能够从可能校正选择的混淆集来选项最为可能的校正。定义混淆集的方式取决于错误的类型。上下文相关拼写错误校正传统地关注于具有类似拼写(例如，{dessert,desert“})或类似的发音(例如，{there,their})的混淆集。换句话说，混淆集中的单词因为拼写或语音相似性而被认为是可能被混淆的。GEC中的其他工作基于句法相似性来定义混淆集，例如，所有的英语冠词或最为频繁的英语介词形成混淆集。

发明内容

本实施例演示了用于自动化文本校正的系统和方法。在某些实施例中，方法和系统可以通过根据单个文本编辑模型的分析来实现。在特定的实施例中，单个文本编辑模型可以通过学习文本的语料库和非学习文本的语料库的分析来生成。

根据一个实施例，一种设备，包括至少一个处理器和耦合到该至少一个处理器的存储器装置，其中所述至少一个处理器配置成识别输入话语的单词。所述至少一个处理器也配置成将单词放置在存储在存储器装置中的多个第一节点中。所述至少一个处理器进一步配置成部分基于线性链的相邻节点来向第一节点的每个分配单词层标签。所述至少一个处理器也配置成通过将来自于多个第一节点的单词与部分在分配给每个第一节点的单词层标签上选择的标点组合，生成输出句子。

根据另一个实施例，一种计算机程序产品，包括具有用于识别输入话语的单词的代码的计算机可读介质。所述介质也包括用于将单词放置在存储在存储器装置中的多个第一节点中的代码。所述介质进一步包括用于部分基于多个第一节点的相邻节点来向第一节点的每个分配单词层标签的代码。所述介质也包括用于通过将来自于多个第一节点的单词与部分在分配给每个第一节点的单词层标签上选择的标点组合，生成输出句子的代码。

根据另一个实施例，一种方法，包括识别输入话语的单词。所述方法还包括将单词放置在存储在存储器装置中的多个第一节点中。所述方法进一步包括部分基于所述多个第一节点的相邻节点来向多个第一节点中的每个第一节点分配单词层标签。所述方法也包括通过将来自于多个第一节点的单词与部分在分配给每个第一节点的单词层标签上选择的标点组合，生成输出句子。

一种方法的附加实施例包括接收自然语言文本输入，所述文本输入包括语法错误，其中输入文本的一部分包括来自于一组类的类。该方法也可以包括从假设没有语法错误的非学习文本的语料库生成多个选择任务，其中对于每个选择任务，分类器重新预测在非学习文本中使用的类。进一步，该方法可以包括从学习文本的语料库生成多个校正任务，其中对于每个校正任务，分类器建议在学习文本中使用的类。另外，所述方法可以包括使用一组二进制分类问题来训练语法校正模型，该一组二进制分类问题包括多个选择任务和多个校正任务。该实施例也可以包括使用训练的语法校正模型来从一组可能的类预测文本输入的类。

在另外的实施例中，该方法包括输出建议以便如果预测的类不同于文本输入中的类，则将文本输入的类改变成预测的类。在此类的实施例中，学习文本由老师以假定正确的类来加注释。类可以是与输入文本中的名词短语关联的冠词。该方法也可以包括从非学习文本和学习文本中的名词短语来抽取用于分类器的特征函数。

在另一实施例中，类是与输入文本中的介词短语关联的介词。此类的方法可以包括从非学习文本和学习文本的介词短语抽取用于分类器的特征函数。

在一个实施例中，非学习文本和学习文本具有不同的特征空间，学习文本的特征空间包括由作者使用的单词。训练语法校正模型可以包括最小化训练数据上的损失函数。训练语法校正模型也可以包括通过分析非学习文本来识别多个线性分类器。线性分类器进一步包括权重因子，该权重因子包括在权重因子的矩阵中。

在一个实施例中，训练语法校正模型进一步包括在权重因子的矩阵上执行奇异值分解(SVD)。训练语法校正模型也可以包括识别组合权重值，该组合权重值代表通过分析非学习文本所识别的第一权重值元素以及通过最小化经验风险函数来分析学习文本而识别的第二权重值元素。

也提供用于自动化文本校正的一种设备。该设备可以包括例如配置成执行上述的方法的步骤的处理器。

提供一种方法的另一实施例。该方法可以包括校正语义搭配错误。此类方法的一个实施例包括响应于在处理装置执行的平行语言文本的语料库分析，自动地识别一个或多个译文候选。另外，该方法可以包括使用处理装置来确定与每个译文候选关联的特征。该方法也可以包括从存储在数据存储装置中的学习文本的语料库生成一组一个或多个权重值。该方法可以进一步包括响应于与每个译文候选关联的特征和所述一组一个或多个权重值来使用处理装置计算针对所述一个或多个译文候选的分数。

在进一步的实施例中，识别一个或多个译文候选可以包括从平行文本的数据库选择文本的平行语料库，每个平行文本包括第一语言的文本和第二语言的相应文本，使用处理装置来对第一语言的文本进行划分，使用所述处理装置来标记化第二语言的文本，使用处理装置来自动化地将第一文本中的单词与第二文本中的单词对准，使用处理装置从第一文本和第二文本中的对准的单词抽取短语，并且使用处理装置来计算与第一文本中的一个或多个短语以及第二文本中的一个或多个短语关联的释义匹配的概率。

在特定的实施例中，与每个译文候选关联的特征是释义匹配的概率。可以使用对学习文本的语料库的最小错误率训练(MERT)操作来计算一组一个或多个权重值。

该方法也可以包括生成具有带有从拼写编辑距离导出的特征的搭配校正的短语表。在另一个实施例中，该方法可以包括生成具有带有从同音异义词字典导出的特征的搭配校正的短语表。在另一个实施例中，该方法可以包括生成带有从同义词导出的特征的搭配校正的短语表。另外，该方法可以包括生成具有带有从母语引入的释义导出的特征的搭配校正的短语表。

在此类的实施例中，短语表包括用于在计算释义匹配的概率使用的一个或多个惩罚特征。

也提供一种设备，包括至少一个处理器和耦合到至少一个处理器的存储器装置，其中至少一个处理器配置成执行如上所述的权利要求的方法的步骤。也提供一种有形计算机可读介质，其包括计算机可读代码，当由计算机执行时，使得计算机执行如上所述的方法中的操作。

术语“耦合”被定义为连接，尽管不必为直接地连接，并且也不必是机械地连接。

术语“一个”以及“一种”被定义为一个或多个，除非本公开明确另外要求。

术语“基本上”以及其变形被定义为大体上但不必全部为由本领域技术人员理解所规定的那样，并且在一个非限制性的实施例中，“基本上”表示处于所规定的10％的范围内，优选地为5％的范围内，更为优选的是位于1％内，并且最为优选的是位于0.5％的范围内。

术语“包括(comprise)”(以及任意其他形式的包括，例如“comprises”和“comprising”)、“具有”、“包括(include)”(以及任意其他形式的包括，例如“includes”和“including”)和“包含(contain)”(以及任意其他形式的包含，例如“contains”和“containing”)是开放式的连接动词。结果是，“包括(comprises)”、“具有”、“包括(includes)”或“包含(contains)”一个或多个步骤或单元的方法或装置处理那些一个或多个步骤或单元，但不限于仅处理那些步骤或单元。同样地，“包括(comprises)”、“具有”、“包括(includes)”或“包含(contains)”一个或多个特征的方法的步骤或装置的单元处理那些一个或多个特征，但不限于仅处理那些一个或多个特征。进一步，以特定方式配置的装置或结构至少以这种方式来配置，但其也可以以没有列出的方式来配置。通过参考结合所附附图的下面特定实施例的详细描述，其他的特征和关联优势将变得明显。

附图说明

下面的附图形成本说明书的一部分并且被包括进以进一步演示本发明的某些方面。通过参考这些附图的一个或多个附图、结合这里所提供的特定实施例的详细描述，本发明可以被更好的理解。

图1是示出根据本公开的一个实施例的用于分析话语的系统的框图；

图2是示出根据本公开的一个实施例的配置成存储句子的数据管理系统的框图；

图3是示出根据本公开的一个实施例的用于分析话语的计算机系统的框图；

图4是示出用于线性链CRF的图形表示的框图；

图5是用于线性链条件随机域(CRF)的训练句子的示例标记；

图6是示了二层阶乘CRF的图形表示的框图；

图7是用于阶乘条件随机域(CRF)的训练句子的示例标记；

图8是示出用于将标点插入进句子的方法的一个实施例的流程图；

图9是示出用于自动的语法纠错的方法的一个实施例的流程图；

图10A是示出用于校正冠词错误的文本校正模型的一个实施例的精确性的示图；

图10B是示出用于校正介词错误的文本校正模型的一个实施例的精确性的示图；

图11A是示出相比较于使用DeFelice特征集的常用方法，用于校正冠词错误的方法的F1测量的示图；

图11B是示出相比较于使用Han特征集的常用方法，用于校正冠词错误的方法的F1测量的示图；

图11C是示出相比较于使用Lee特征集的常用方法，用于校正冠词错误的方法的F1测量的示图；

图12A是示出相比较于使用DeFelice特征集的常用方法，用于校正介词错误的方法的F1测量的示图；

图12B是示出相比较于使用TetreaultChunk特征集的常用方法，用于校正介词错误的方法的F1测量的示图；

图12C是示出相比较于使用TetreaultParse特征集的常用方法，用于校正介词错误的方法的F1测量的示图；

图13是示出用于校正语义搭配错误的方法的一个实施例的流程图。

具体实施方式

参考在附图中示出并且在下面的描述细化的非限制性实施例来更为全面地解释各种特征和优势。公知的原始材料、处理技术、组件和装置的描述被省略以便不必要地混淆本发明的细节。然而，应该理解的是指示本发明的实施例的详细描述和特定例子是仅通过实例说明给出的，并且绝不是限制。根本的发明构思内的精神和/或范围内的各种替代、修改、添加和/或重新安排将通过本公开而对本领域技术人员变得清楚。

在本说明书中描述的某些单元已经被标记为模块，以便更为特别地强调它们的实现独立性。模块是“一种自包含硬件或软件组件，其与更大的系统交互”，艾伦弗里德曼，“The Computer Glossary”268(1998年，第8版)。模块包括机器或机器可执行指令。例如，模块可以被实现为硬件电路，包括定制的VLSI电路或门阵列，现成的半导体例如逻辑芯片、晶体管或其他分离组件。模块也可以被实现在可编程硬件器件中，例如现场可编程门阵列、可编程阵列逻辑、可编程逻辑器件或类似等。

模块也可以包括软件定义的单元或指令，当由处理机器或装置执行时，将存储在数据存储装置上的数据从第一状态转换到第二状态。可执行代码的标识模块可以例如包括计算机指令的一个或多个物理或逻辑块，其可以被组织为对象、过程或功能。不管怎样，标识模块的可执行文件不需要物理上在一起，而是可以包括存储在不同位置中的分离指令，其在逻辑上连接在一起时包括模块，并且当由处理器执行时，实现声明的数据转换。

事实上，可执行代码的模块可以是单个的指令，或者是许多指令，并且可以在若干个不同的代码段、在不同的程序间或跨若干个存储装置来分布。类似地，操作数据这里可以在模块内被识别和示出，并且可以以任意合适的形式来体现，并且在任意合适类型的数据结构内组织。操作数据可以被聚集为单个的数据集，或者可以在不同的位置上分布，包括在不同的存储装置上分布。

在下面的描述中，提供许多特定的细节，例如编制程序、软件模块、用户选择、网络事务、数据库查询、数据库结构、硬件模块、硬件电路、硬件芯片等的例子，以提供对本实施例的透彻理解。然而，相关领域的技术人员将认识到本发明可以在没有特定细节的一个或多个的情况下实践，或可以利用其他的方法、组件、材料等来实践。在其他的实例中，公知的结构、材料、或操作没有详细的示出或描述以避免混淆本发明的多个方面。

图1示出用于自动化文本和语音编辑(speech editing)的系统100的一个实施例。系统100可以包括服务器102、数据存储装置106、网络108和用户接口装置110。在一个特定的实施例中，系统100可以包括存储器控制器104、或存储器服务器，其配置成管理数据存储器装置106和与网络108通信的服务器102或其他组件之间的数据传递。在替代的实施例中，存储器控制器104可以耦合到网络108。

在一个实施例中，用户接口装置110可以被广义地指代，并且旨在包含基于合适的处理器的装置，例如台式计算机、膝上型计算机、个人数字助理(PDA)或平板计算机、接入到网络108的智能电话或其他移动通信装置或管理器装置。在进一步的实施例中，用户接口装置110可以接入到因特网或其他广域网或局域网，以访问由服务器102主控的web应用或web服务并且提供用户接口以便使得用户能够输入或接收信息。例如，用户可以通过麦克风(未示出)或键盘320来录入输入的话语或文本到系统100。

网络108可以促进服务器102和用户接口装置110之间的数据传递。网络108可以包括任意类型的通信网络，包括但不限于直接PC到PC连接、局域网(LAN)、广域网(WAN)、调制解调器到调制解调器连接、因特网、上述的组合，或现在已知或稍后开始的在组网领域内允许两个或多个计算机来彼此通信的任意其他通信网络。

在一个实施例中，服务器102配置成存储输入的话语和/或输入的文本。另外，服务器可以经由存储区域网(SAN)、LAN、数据总线或类似等来访问存储在数据存储器装置106中的数据。

数据存储器装置106可以包括硬盘(包括在独立磁盘冗余(RAID)阵列中布置的硬盘)、包括磁带数据存储器装置的带存储器驱动器、光存储器装置或类似等。在一个实施例中，数据存储器装置106可以存储英语或其他语言的句子。数据可以布置在数据库中并且可以通过结构化查询语言(SQL)查询、或其他数据库查询语言或操作来访问。

图2示出配置成存储输入的话语和/或输入文本的数据管理系统200的一个实施例。在一个实施例中，数据管理系统200可以包括服务器102。服务器102可以耦合到数据总线202。在一个实施例中，数据管理系统200也可以包括第一数据存储器装置204、第二数据存储器装置206和/或第三数据存储器装置208。在另外的实施例中，数据管理系统200可以包括另外的数据存储器装置(未示出)。在一个实施例中，例如学习者英语的NUS语料库(NUCLE)的学习文本的语料库可以存储在第一数据存储器装置204中。第二数据存储器装置206可以存储例如非学习文本的语料库。非学习文本的例子可以包括平行语料库、新闻或期刊文本以及其他公共可获得的文本。在某些实施例中，从被认为包含相对少的错误的源选择非学习文本。第三数据存储器装置208可以包含计算的数据、输入的文本和或输入的话语数据。在另外的实施例中，所述的数据可以被一起存储进合并的数据存储器装置210。

在一个实施例中，服务器102可以向选择的数据存储器装置204、206提交查询，以检索输入的句子。服务器102可以将合并的数据集存储在合并的数据存储器装置210中。在此类的一个实施例中，服务器102可以返回查阅合并的数据存储器装置210以获得与指定的句子关联的一组数据元素。替代地，服务器101可以独立地查询数据存储器装置204、206、208中的每个或在分布式的查询中查询，以便获得与输入的句子关联的一组数据元素。在另一个替代实施例中，多个数据库可以存储在单个的合并的数据存储器装置210上。

数据管理系统200也可以包括用于输入和处理话语的文件。在各种实施例中，服务器102可以通过数据总线202与数据存储器装置204、206、208通信。数据总线202可以包括SAN、LAN或类似等。通信基础结构可以包括以太网、光纤通道仲裁环路(FC-AL)、小型计算机系统接口(SCSI)、串行高级技术附件(SATA)、高级技术附加装置(ATA)和/或其他与数据存储和通信关联的类似数据通信策略。例如，服务器102可以间接与数据存储器装置204、206、208、210通信；服务器102首先与存储器服务器或存储器控制器104通信。

服务器102可以主控配置用于分析话语和/或输入文本的软件应用。软件应用可以进一步包括用于与数据存储器装置204、206、208、210接口连接、与网络108接口连接、通过用户接口装置110与用户接口连接以及类似等的模块。在另外的实施例中，服务器102可以主控引擎、应用插件、或应用编程接口(API)。

图3示出根据服务器102和/或用户接口装置110的某些实施例适配的计算机系统300。中央处理单元(“CPU”)302耦合到系统总线304。CPU 302可以是通用CPU或微处理器、图像处理单元(“GPU”)、微控制器或可以被专门地编程以执行如下面的流程图中描述的方法的类似物。本实施例并不限于CPU 302的架构，只要CPU 302直接或间接地支持如这里所述的模块和操作。CPU 302根据本实施例可以执行各种逻辑指令。

计算机系统300也可以包括随机存取存储器(RAM)308、其可以是SRAM、DRAM、SDRAM或类似等。计算机系统300可以使用RAM 308来存储由具有代码的软件应用用于分析话语的各种数据结构。计算机系统300也可以包括只读存储器(ROM)306，其可以是PROM、EPROM、EEPROM、光存储器或类似等。ROM可以存储用于启动计算机系统300的配置信息。RAM 308和ROM 306保持用户和系统数据。

计算机系统300也可以包括输入/输出(I/O)适配器310、通信适配器314、用户接口适配器316和显示器适配器322。在某些实施例中，I/O适配器310和/或用户接口适配器316可以使得用户来与计算机系统300交互，从而输入话语或文本。在另外的实施例中，显示器适配器322可以显示与用于生成具有插入的标点符号、语法校正和其他相关文本和语音编辑功能的基于软件和web的应用或移动应用关联的图形用户接口。

I/O适配器310可以连接一个或多个存储器装置312到计算机系统300，该存储器装置312例如为硬驱动器、计算机盘(CD)驱动器、软盘驱动器和磁带驱动器中的一个或多个。通信适配器314可以适于将计算机系统300耦合到网络108，该网络108可以是LAN、WAN和/或因特网中的一个或多个。用户接口适配器316将例如键盘320和指向装置318的用户输入装置耦合到计算机系统300。显示器适配器322可以由CPU 302驱动以控制在显示器装置324上的显示。

本公开的应用并不限于计算机系统300的架构。相反，将计算机系统300提供为可以适于执行服务器102和/或用户接口装置110的一种类型的计算装置的例子。例如，可以使用任意合适的基于处理器的装置，包括但不限于个人数字助理(PDA)、台式计算机、智能电话、计算机游戏控制台以及多处理器服务器。此外，本公开的系统和方法可以实现在专用集成电路(ASIC)上，超大规模集成电路(VLSI)电路或其他电路。事实上，本领域技术人员可以使用任意数目的合适结构，该结构能够根据所述的实施例执行逻辑操作。

下面的示意流程图和相关描述总体上作为逻辑流程图来阐述。这样，所绘出的顺序和标记的步骤指示所提供的方法的一个实施例。在功能、逻辑或效果上等同于所示出的方法的一个或多个步骤、或其一部分的其他步骤和方法是可以想到的。另外，提供所使用的格式和符号以解释本方法的逻辑步骤并且被理解为不限制该方法的范围。尽管在流程图中可以使用各种箭头类型和连线类型，它们被理解为不限制相应方法的范围。事实上，一些箭头或其他连接符可以用于仅指示方法的逻辑流程。例如，箭头可以指示在所绘出的方法的列表步骤之间的未指定持续期间的等待或监视周期。另外，特定方法发生的顺序可以或可以不严格遵守所示相应步骤的顺序。

标点预测

根据一个实施例，可以从标准文本处理角度来预测标点符号，其中仅语音文本是可获得的，而不依赖于另外的韵律特征例如基音和中断持续时间。例如，可以在转录对话语音文本或话语上执行标点预测任务。不同于例如广播新闻语料库的许多其他语料库，对话语音语料库可以包括对话，其中非正式的和短的句子频繁地出现。此外，由于对话的属性，相比较于其他的语料库，其也可以包括更多的疑问句。

一种放松由隐事件语言编码的强相关性假设的自然方法是采用非定向图形模型，其中可以利用任意重叠的特征。条件随机域(CRF)已经广泛地应用于各种序列标记和分段任务中。在给定观察项下，CRF可以是完整标记序列的条件分布的判别模型。例如，采取第一级马尔可夫属性的第一级线性链CRF可以通过下面的等式来定义：

p_{λ} (y | x) = \frac{1}{Z (x)} \exp (\underset{t}{Σ} \underset{k}{Σ} λ_{k} f_{k} (x, y_{t - 1}, y_{t}, t))

其中x是观察项，而y是标记序列。作为时间步长t的函数的特征函数fk可以在整个观察项x和两个相邻隐标记上定义。Z(x)是归一化因子以确保很好的形成概率分布。

图4是示出用于线性链CRF的图形表示的框图。一系列第一节点402a、402b、402c、…,402n耦合到一系列第二节点404a、404b、404c、…,404n。第二节点可以是与第一节点402的相应节点关联的事件，例如单词层标签。标点预测任务可以建模为向每个单词分配标签的处理。一组可能的标签可以包括没有(NONE)、逗号(，)、句号(.)，问号(？)以及感叹号(！)。根据一个实施例，每个单词可以与一个事件关联。事件标识哪个标点符号(可能NONE)应该被插入在单词后。

用于模型的训练数据可以包括一组话语，其中标点符号被编号为分配给各个单词的标签。标签NONE意味着在当前的单词后没有标点符号插入。任意其他的标签标识用于插入相应的标点符号的位置。预测标签的最为可能的序列并且接着可以从此类的输出构建中标点的文本。可以在图5中示出对话语加标点的示例。

图5是用于线性链条件随机域(CRF)的训练句子的示例加标点。句子502可以被划分成单词和分配给每个单词的单词层标签504。单词层标签504可以指示跟随输出句子中的单词的标点标记。例如，单词“不”被加标点“逗号”指示逗号应该跟着单词“不”。另外，例如“请”的一些单词标记有“没有”，以指示没有跟随单词“请”的符号标记。

根据一个实施例，条件随机域的特征可以因式分解为在当前的时间步长(在该情形中，边缘)处分配一组团(clique)的二进制函数以及在观察序列上单独定义的特征函数的乘积。围绕当前单词的n-元发生连同位置信息用作针对n＝1；2；3的二进制特征函数。当构建特征时，出现在来自于当前单词的5个单词内的单词被考虑。特殊的开始和结束符号被超出话语边界使用。例如，对于在图5中示出的单词，例子特征包括在相对位置0处的一元特征“做”，在相对位置-1处的“请”，在相对位置2到3处的二元特征“你想”，以及在相对位置-2到0处的三元特征“不请做”。

在本实施例中的线性链CRF模型可以能够利用任意重叠特征来对单词和标点符号之间的相关性建模。因此，可以避免隐事件语言模型中的强相关性假设。通过包括在句子级处的长范围相关性的分析，提供进一步改进该模型。例如，在图5中示出的相同话语中，结束问号和出现的很远的指示单词“你想”之间的长范围相关性可以不被捕获。

作为动态条件随机域的一个实例的阶乘-CRF(F-CRF)可以用作一种框架，该框架用于针对给定的序列提供同时标记标签的多个层的能力。F-CRF学习给定观察项的标签的联合条件分布。动态条件随机域可以被定义为给定观察项x标记矢量序列y的条件概率：

p_{λ} (y | x) = \frac{1}{Z (x)} \exp (\underset{t}{Σ} \underset{c &Element; C}{Σ} \underset{k}{Σ} λ_{k} f_{k} (x, y_{(c, t)}, y_{t}, t)),

其中团在每个时间步长处被编索引，C是团索引的集合，并且y(c；t)是在时间处t具有索引c的团的展开版本中的变更的集合。

图6是示出两层阶乘CRF的图形表示的框图。根据一个实施例，F-CRF可以具有作为标签的节点的两个层，其中团在每个时间步长包括两个链内边缘(例如，z2-z3和y2-y3)和一个链间边缘(例如，z3-y3)。一系列的第一节点602a、602b、602c、…,602n耦合到一系列的第二节点604a、604b、604c、…,604n。一系列的第三节点606a、606b、606c、…,606n耦合到一系列的第二节点和一系列的第一节点。一系列的第二节点的节点彼此耦合以提供节点之间的长范围相关性。

根据一个实施例，第二节点是单词层节点并且第三节点是句子层节点。每个句子层节点可以与相应的单词层节点耦合。句子层节点和单词层节点二者可以与第一节点耦合。句子层节点可以捕获单词层节点之间的长范围相关性。

在F-CRF中，两组标记可以分配给话语中的单词：单词层标签和句子层标签。单词层标签可以包括没有、逗号、句号、问号和/或感叹号。句子层标签可以包括陈述开始、陈述内部、问题开始、问题内部、感叹开始和/或感叹内部。单词层标签可以负责在每个单词后插入标点符号(包括没有)，而句子层标签可以用于标注句子边界并且识别句子类型(陈述、提问、或感叹)。

根据一个实施例，来自于单词层的标签可以与那些来自于线性链CRF的标签相同。句子层标签可以被设计用于三种类型的句子：DEBEG和DEIN分别指示陈述句的开始和内部，类似于对于QNBEG和QNIN(疑问句)以及EXBEG和EXIN(感叹句)。我们在先前的节所看的相同例子话语可以以两层的标签来标记，如图7中所示。

图7是用于阶乘条件随机域(CRF)的训练句子的例子标记。句子702可以被划分成单词并且每个单词以单词层标签704和句子层标签706来标记。例如，单词“不”可以以逗号单词层标签以及陈述开始句子层标签来标记。

在线性链CRF中使用的模拟特征因式分解和n元特征函数可以使用在F-CRF中。当学习句子层标签连同单词层标签时，F-CRF模型能够利用从关于句子类型的句子层学习的有用线索(例如，疑问句，注释有QNBEG、QNIN、QNIN，或陈述句，注释有DEBEG、DEIN、DEIN)，其可以用于指导在每个单词处的标点符号的预测，因此改进在单词层处的性能。

例如，考虑联合标记图7中示出的话语。当证据显示话语由两个句子组成时，陈述句之后是疑问句，则模型趋向于以句子标签序列：QNBEG、QNIN来标注话语的第二部分。在给定在每个时间步长处存在的两个层之间的相关性下，这些句子层标签有助于将话语结束处的单词层标签预测为QMARK。根据一个实施例，在学习期间，两个标签层可以被联合地学习。因此，单词层标签可以影响句子层标签，并且反之亦然。GRMM包可以用于构建线性链CRF(LCRF)和阶乘CRF(F-CRF)二者。用于置信度传播的基于树的再参数化(TRP)调度用于近似推理。

上述的技术可以允许使用条件随机域(CRF)来执行话语中的预测而不需要依赖于韵律线索。因此，所述的方法可以有用于转录对话的话语的后处理。另外，可以在话语中的单词之间建立长范围的相关性以改进话语中的标点的预测。

以不同的方法来执行其中使用中文和英文对话语音文本二者的IWSLT09评审活动的语料库的一部分上的实验。考虑两个多语言数据集，BTEC(基本旅游表达语料集)数据集和CT(挑战任务)数据集。前者包括旅游相关句子，而后者包括在旅行域内人力介入跨语言的对话。官方IWSLT09 BTEC训练集包括19972个中文-英文话语对，并且CT训练集包括10061个此类的对。两个数据集的每个可以随机地被划分成两个部分，其中话语的90％用于训练标点符号模型，并且剩余的10％用于评估预测性能。对于所有的实验，中文的默认分段可以如所提供的那样使用，而英文文本可以利用Penn树图资料库分词器来进行预处理。表1提供处理后的两个数据集的统计。

列出两个数据集中的句子类型的比例。大部分的句子是陈述句。然而，相比较于CT数据集，疑问句更为频繁地出现在BTEC数据集中。对于所有的数据集，感叹句贡献不到1％并且没有被列出。另外，来自于CT数据集的话语更长(每个话语具有更多的单词)，并且因此多个的CT话语通常包括多个句子。

表1：BTEC和CT数据集的统计

另外的实验可以被划分成两类：在训练前将结束标点符号复制到句子的开始，或者在训练前不将结束标点符号复制到句子的开始。该设置可以用于评估标点符号和指示单词之间的邻近度对于预测任务的影响。在每类下，测试两个可能的方法。单程方法执行一个单个步骤中的预测，其中从左到右顺序地预测所有的标点符号。在级联的方法中，通过首先以所有的句子结束标点符号来替代特殊的句子边界符号，格式化训练句子。可以基于此类的训练数据来学习用于句子边界预测的模型。根据一个实施例，该步骤之后可以预测标点符号。

对于上述设置的所有组合尝试三元和5元语言模型二者。这基于隐事件语言模型提供总共八种可能的组合。当训练所有的语言模型时，可以使用针对n元组的修改的Kneser-Ney平滑。为了评估标点预测任务的性能，通过下面的等式来定义用于查准率(prec)、查全率(rec)和F1-测量(F1)的计算：

F_{1} = \frac{2}{1 / prec . + 1 / rec .}

分别在表2和表3中示出在BTEC和CT数据库的正确识别输出中的中文(CN)和英文(EN)文本上的标点预测的性能。隐事件语言模型的性能严重地依赖于是否使用了复制方法以及是否考虑实际的语言。具体地，对于英文，在训练前将结束标点符号复制到句子的开始显示对于改进整体预测性能很有用。相比较而言，对中文应用相同的技术破坏性能。

一个解释是英文疑问句通过以例如“你愿意(do you)”或“哪里(where)”的指示单词开始，该指示单词将疑问句与陈述句区分。因此，将结束标点符号复制到句子的开始以使得其接近于这些指示单词有助于改进预测准确性。然而，对于疑问句，中文表现出十分难的句法结构。

首先在许多情形中，中文趋向于在句子的结尾处使用句法模糊的助词以指示疑问。此类的助词包括“吗”和“呢”。因此，在训练前保留结束标点符号的位置产生更好的性能。另一个发现在于不同的英文，指示中文中的疑问句的那些单词可以出现在中文句子的几乎任何位置。例子包括哪里有…(where…),…是什么(what...)或…多少…(how many/much…)。这对简单隐事件语言模型造成难度，而简单的隐事件语言模型通过n元语言建模来仅编码围绕的单词上的简单相关性。

表2：在BETC数据集的正确识别输出中的中文(CN)和英文(EN)文本上的标点预测性能。报告查准率(Prec.)、查全率(Rec.)和F1测量(F1)的百分比分数。

表3：在CT数据库的正确识别输出中的中文(CN)和英文(EN)文本上的标点预测性能。报告查准率(Prec.)、查全率(Rec.)和F1测量(F1)的百分比分数

通过采用实施非独立、重叠特征的判别模型，LCRF模型通常胜过隐事件语言模型。通过引入执行句子分段和分子类型预测的附加标签层，F-CRF模型进一步提升超过L-CRF模型的性能。利用自举重抽样执行统计显著性检验。在CT数据库中的中文和英文文本上、以及在BTEC数据库中英文文本上的F-CRF相对于L-CRF的改进是统计显著性的(p<0.01)。在中文文本上的F-CRF相对于L-CRF的改进更小，可能因为L-CRF在中文上已经很好地执行。在CT数据库上的F1测量低于在BTEC上的那些测量，主要是因为CT数据库包括更长的话语和更少的疑问句。整体上，建议的F-CRF模型是鲁棒的并且始终很好地工作，无论其在什么语言和数据库上测试。这表明该方法是通用的并且依赖于最低语言假设，并且因此可以容易地使用在其他语言和数据库上。

模型也可以使用由ASR系统产生的文本来评估。为了评估，可以使用官方IWSLT08 BTEC评估数据库的即兴演讲的1-最佳ASR输出，其作为IWSLT09语料库的一部分发布。数据库包括中文的504个话语，以及英文的498个话语。不像如在章节6.1所描述的正确识别的文本，ASR输出包含实质识别错误(识别准确性对于中文是86％，并且对于英文是80％)。在由IWSLT 2009组织者所发布的数据库中，在ASR输出中并不标注正确的标点符号。为了执行实验性的评估，ASR输出上的正确标点符号可以手工加注释。在表4中示出对于每个模型的评估结果。结果表明F-CRF仍比L-CRF和隐事件语言模型给出更高的性能，并且改进是统计显著性的(p<0.01)。

表4：在IWSLT08 BTEC评估数据集的ASR输出中的中文(CN)和英文(EN)文本上的标点预测性能。报告报告查准率(Prec.)、查全率(Rec.)和F1测量(F1)的百分比分数

在模型的另一评估中，通过将评估的ASR文本馈送进现有技术的机器翻译系统，可以采用间接方法来自动地评估ASR输出文本上的标点预测的性能，并且评估得到的翻译性能。翻译性能接着由与人工判断很好地相关的自动化评估度量来测量。现有的基于短语的统计机器翻译工具包Moses连同用于训练翻译系统的整个IWSLT09BTEC训练集用作翻译引擎。

Berkeley校准器用于将训练双语文本与启用的词汇化的重排序模型相对准。这是因为词汇化的重排序相对于简单的基于距离的重排序来说给出更好的性能。特别地，使用默认的词汇化重排序模型(msd-bidirectional-fe)。为了调节Moses的参数，我们使用了官方的IWSLT05评估集，其中存在正确的标点符号。在IWSLT08 BTEC评估数据集的ASR输出上执行评估，而标点符号通过每个标点预测方法来插入。调节集合和评估集合包括7个参考译文。按照统计机器翻译中的惯例，我们报告BLEU-4分数，其被显示具有与人工判断好的相关性，而最近的参考长度为有效的参考长度。最小错误率训练(MERT)过程用于调节翻译系统的模型参数。

由于MERT的不稳定属性，对于每个翻译任务执行10次运行，每次运行中具有参数的不同随机初始化，并且报告在10次运行上平均的BLEU-4分数。在表5中示出结果。通过应用F-CRF作为对于ASR文本的标点预测模型，可以实现用于两个翻译方向的最佳译文性能。此外，当人工加注释的标点符号用于翻译时，我们也评价译文性能。对于两个翻译任务的平均BLEU分数分别是31.58(中文到英文)和24.16(英文到中文)，这显示出对于口语翻译来说，我们的标点预测模型给出有具有竞争力的表现。

表5：使用Moses的加标点的ASR输出的译文性能(BLEU的平均百分比分数)

根据上述的实施例，描述了用于预测转录的对话话语文本的标点符号的一个示例性方法。建议的方法构建于动态条件随机域(DCRF)框架之上，其在语音话语上执行连同句子边界和句子类型预测的标点预测。可以在没有依赖于韵律线索的情况下完成根据DCRF的文本处理。基于隐事件语言模型，示例性的实施例胜过广泛使用的常规方法。所公开的实施例已经显示出为非特定于语言的并且对于中文和英文都很好地工作，并且都很好地正确识别和自动地识别文本。当加标点的自动化识别地文本用在后续的翻译中时，所公开的实施例也导致更好的翻译准确性。

图8是示出用于向句子中插入标点的方法的一个实施例的流程图。在一个实施例中，方法800在块802处以识别输入话语的单词开始。在块804处，单词被放置在多个第一节点中。在块806处，至少部分地基于多个第一节点的相邻节点来将单词层标签分配给所述多个第一节点中的每个第一节点。根据一个实施例，句子层标签和/或单词层标签也可以部分基于输入话语的边界而被分配给第一节点。在块808处，通过将来自于多个第一节点的单词与部分在分配给第一节点的每个节点的单词层标签上选择的标点标记组合，生成输出句子。

语法纠错

在对加注释的学习文本训练和对非学习文本训练之间存在差异，即观察的单词是否可以用作特征。当对非学习文本进行训练时，观察的单词不能用作特征。作者的单词选择将从文本“取消”并且充当正确类。分类器被训练为在给定围绕的上下文下重新预测单词。可能类的混淆集通常是预定义的。该选择任务制定是方便的，因为训练例子可以从假定没有语法错误的任意文本来“无偿”的创建。更为实际的校正任务如下定义：给定特定的单词和其上下文，建议合适的校正。建议的校正可以与观察的单词相同，即，没有必要校正。主要区别在于作者的单词选择可以被编码为特征的一部分。

冠词错误是由EFL初学者犯的一种频繁类型的错误。对于冠词错误，类是三个冠词，a、the和零冠词。这覆盖冠词插入、删除和替换错误。在训练期间，训练数据中的每个名词短语(NP)是一个训练例子。当对学习文本进行训练时，正确类是由人工注解者提供的冠词。当对非学习文本训练时，正确的类是观察的冠词。经由一组特征函数来对上下文进行编码。在测试期间，测试集合中的每个NP是一个测试例子。当对学习文本进行测试时，正确类是由人工注解者提供的冠词，而当对非学习文本进行测试时，正确类是观察的冠词。

介词错误是由EFL初学者犯的另一种频繁类型的错误。对介词错误的方式与对冠词错误的类似，但典型地关注在介词替换错误上。在该工作中，类是36种频繁的英文介词(about,along,among,around,as,at,beside,besides,between,by,down,during,except,for,from,in,inside,into,of,off,on,onto,outside,over,through,to,toward,towards,under,underneath,until,up,upon,with,within,without)。取决于36种介词之一的每个介词短语(PP)是一个训练例子或测试例子。在该实施例中，忽略受其他介词支配的PP。

图9示出用于校正语法错误的方法900的一个实施例。在一个实施例中，方法900可以包括接收902自然语言文本输入，其中输入文本包括语法错误，其中输入文本的一部分包括来自于一组类的类。该方法900也可以包括从假设没有语法错误的非学习文本的语料库生成904多个选择任务，其中对于每个选择任务，分类器重新预测在非学习文本中使用的类。进一步，该方法900可以包括从学习文本的语料库生成906多个校正任务，其中对于每个校正任务，分类器建议在学习文本中使用的类。另外，所述方法900可以包括使用一组二进制分类问题来训练908语法校正模型，该一组二进制分类问题包括多个选择任务和多个校正任务。该实施例也可以包括使用910训练的语法校正模型来从一组可能的类预测文本输入的类。

根据一个实施例，语法错误校正(GEC)被制定为分类问题并且线性分类器被用于解决该分类问题。

分类器用于近似学习文本中的冠词、介词和它们的上下文之间的关系，以及它们的有效校正。冠词或介词以及它们的上下文被表示为特征向量校正是类

在一个实施例中，使用形式为uTX的二进制线性分类器，其中u是权重向量。如果分数是正的，则结果考虑为+1，并且如果分数为负，则结果考虑为-1。用于找到u的一种流行方法是具有最小二乘正则化的经验风险最小化。给定训练集{X_i,Y_i}_i＝1,...,n，目标是找到最小化对训练数据的经验损耗的权重向量。

其中L是损失函数。在一个实施例中，使用Huber的鲁棒损失函数的修订。根据一个实施例，正则化参数λ可以达到10-4。具有m个类的多类分类问题可以被转换为一对多设置中的m进制分类问题。分类器的预测是具有最高分数的分类器。

实施六个特征抽取方法，三个用于冠词，而三个用于介词。方法需要不同的语言预处理：组块分析(chunking)、CCG分析和成分性(constituency)分析。

用于冠词错误的特征抽取的例子包括“DeFelice”、“Han”和“Lee”。DeFelice-用于冠词错误的系统使用CCG分析器来抽取句法和语义特征的丰富集合，包括部分语音(POS)标签、来自词网的上位词和命名的实体。Han-系统依赖于从组块(chunker)导出的浅句法和词汇特征，该组块包括在NP前、中和后的单词，首词和POS标签。Lee-系统使用成分性分析器。特征包括POS标签、围绕的单词、首词和来自于词网的上位词。

用于介词错误的特征抽取的例子包括“DeFelice”、“TetreaultChunk”和“TetreaultParse”。DeFelice–用于介词错误的系统使用与用于冠词错误的系统类似的句法和语义特征的丰富集合。在重新实现中，不使用次类划分词典。TetreaultChunk-系统使用组块从围绕介词的两个单词窗口抽取特征，包括词汇和POS n元，以及来自于相邻成分的首词。TetreaultParse-系统通过添加从成分性和相关性分析树导出的附加特征来扩展TetreaultChunk。

对于上述特征集的每个，当对学习文本进行训练时，观察的冠词或介词作为附加的特征加入。

根据一个实施例，使用多个相关问题的共同结构的多任务学习算法的交替结构优化(ASO)可以用于语法纠错。假定存在m个二进制分类问题。每个分类器ui是维度p的权重向量。令θ为捕获m个权重向量的共同结构的正交h×p矩阵。假定每个权重向量可以被分解为两个部分：一个部分建模特定的第i个分类问题而一个部分建模共同结构。

u_i＝w_i+Θ^Tv_i

通过联合经验风险最小化来学习参数[{w_i,v_i},Θ]，即通过最小化训练数据上的m个问题的联合经验损失。

Σ_{l = 1}^{m} (\frac{1}{n} Σ_{i = 1}^{n} L ({(w_{l} + Θ^{T} v_{l})}^{T} X_{i}^{l}, Y_{i}^{l}) + λ {| | w_{l} | |}^{2}) .

在ASO中，用于找到θ的问题不必与要解决的目标问题相同。相反，为了学习更好的θ的单独目标，可以自动地创建辅助问题。

假定存在个k目标问题和m个辅助问题，则通过下面的算法可以获得对于上述问题的近似解：

1.独立地学习m个线性分类器u_i。

2.令U＝[u₁,u₂.....u_m]为从m个权重向量形成的矩阵p×m。

3.在U：上执行奇异值分解(SVD)。V₁的开始h个列向量作为θ的列存储。

4.通过最小化经验风险，对于每个目标问题来学习w_j和v_j：

\frac{1}{n} Σ_{i = 1}^{n} L ({(w_{j} + Θ^{T} v_{j})}^{T} X_{i}, Y_{i}) + λ {| | w_{j} | |}^{2} .

5.对于第j个目标问题的权重向量是：

u_j＝w_j+Θ^Tv_j.

有益地，对非学习文本的选择任务是针对学习文本的校正任务的高度大信息量的辅助问题。例如，可以预测介词on存在或不存在的分类器可以有益于校正在学习文本中错误的使用on，例如，如果分类器对于on的置信度是低的但作者使用了介词on，作者可能已经犯了错误。因为辅助问题可以被自动地创建，非学习文本的很大的语料库的力量可以受到影响。

在一个实施例中，假定具有m个类的语法纠错任务。对于每个类，定义二进制辅助问题。辅助问题的特征空间是将原始特征空间χ限于除观察的单词以外的所有特征：辅助问题的权重向量形成了ASO算法的步骤2中的矩阵U，θ通过SVD从该矩阵U获得。给定θ，向量wj和vj,j＝1,...,k可以使用完整的特征空间χ从加注释的学习文本获得。

这可以视为迁移学习的一个实例，因为辅助问题是在对来自于不同的域(非学习文本)的数据上训练的并且具有稍微不同的特征空间该方法是通用的并且可以被应用于GEC中的任意分类问题。

对于非学习文本和学习文本上的两个实验定义评估度量。对于非学习文本上的实验，定义为正确预测的数目除以测试实例的总数目的准确性用作评估度量。对于学习文本上的实验，F1-测量用作评估度量。F1-测量定义为：

其中查准率是与人工注解者一致的建议校正的数目除以由系统建议的校正的总数目，并且查全率是与人工注解者一致的建议校正除以由人工注解者加注释的总的错误数目。

设计了一组实验来测试NUCLE测试数据上的校正任务。第二组实验调查该工作的首要目标：自动地校正学习文本中的语法错误。测试实例从NUCLE抽取。相比较于先前的选择任务，作者的观察的单词选择可以不同于正确类并且在测试期间可以获得观察的单词。调查两种不同的基准线以及ASO方法。

第一基准线是在Gigaword上以选择任务实验中所述的相同方式训练的分类器。简单的阈值转换策略用于在测试期间使用观察的单词。系统仅如果分类器对于其第一选择的置信度和对于观察的单词的置信度之间的差高于阈值t时标记错误。对于每个特征集，阈值参数t在NUCLE开发数据上调节。在实验中，t的值在0.7和1.2之间。

第二基准线是在NUCLE上训练的分类器。分类器以与Gigaword模型的相同方式训练，除了作为特征所包括的作者的观察的单词选择。在训练期间的正确类是由人工注解者所提供的校正。由于观察的单词是特征的一部分，该模型并不需要额外的阈值化步骤。事实上，阈值化在该情形中是有害的。在训练期间，不包含错误的实例在数目上将极大地超过的确包含错误的实例。为了减小该非平衡，包含错误的所有实例被保持并且不包含错误的实例的q百分比的随机采样被保留。对于每个数据集，在NUCLE开发数据上调节欠采样q。在实验中，q的值在20％和40％之间。

以下面的方式来训练ASO方法。创建针对冠词或介词的二进制辅助问题，即对于冠词存在3个辅助问题，并且对于介词存在36个辅助问题。以与选择任务实验相同的方式在来自于Gigaword的全部1千万个实例上训练用于辅助问题的分类器。辅助问题的权重矢量形成矩阵U。执行奇异值分解(SVD)以获得U＝V1DV2T。V1的所有列被保持以形成θ。目标问题再次是针对于每个冠词或介词的二进制分类器问题，但这次是在NUCLE上训练。包括作者的观察的单词选择作为用于目标问题的特征。不包含错误的实例被欠采样并且在NUCLE开发数据上调节参数q。q的值是20％和40％之间。不应用阈值化。

在图11和12中示出NUCLE测试数据上的校正任务实验的学习曲线。每个子曲线图示出在最后一节中描述的三个模型的曲线：在NUCLE和Gigaword上训练的ASO，在NUCLE上训练的基准线分类器，以及在Gigaword上训练的基准线分类器。对于ASO，x轴示出目标问题训练实例的数目。我们观察到在加注释的学习文本上的训练可以显著地改进性能。在三个实验中，NUCLE模型性能超出在1千万实例上训练的Gigaword模型。最后，ASO模型显示出最佳的结果。在其中NUCLE模型已经比Gigaword标准线更好执行的实验中，ASO给了相对或稍微更好的结果。在其中两个基准线(TetreaultChunk,TetreaultParse)都没有显示出好的性能的那些实验中，ASO得到超过任意基准线更大的改进。

语义搭配纠错

在一个实施例中，搭配错误的频率由作者的母语或第一语言(L-1)造成。这些类型的错误被称为“L1-转换错误”。L1-转换错误用于估计EFL撰写中的多少错误可以潜在地利用关于作者的L1-语言的信息来校正。例如，L1-转换错误可以是作者L-1语言和英语的单词间的不精确译文的结果。在此类的例子中，中文中具有多个含义的单词可能无法精确地翻译成例如英语。

在一个实施例中，分析是基于初学者英语的NUS语料库(NUCLE)。语料库由EFL大学学生关于广泛的主题(像环境污染或医疗保健)所撰写的大约1400篇论文构成。大多数的学生母语是说中文的。语料库包括大约一百万个单词，其完全利用错误标签和校正来加注释。注解以平衡的方式来存储。每个错误标签包括注解的开始和结束位移，错误的类型以及注解者认为的合适黄金校正。如果选择的单词或短语将由校正来代替，则要求注解者提供将得到符合语法句子的校正。

在一个实施例中，分析已经被标记为错误标签错误搭配/习语/介词的错误。使用频繁英语介词的固定列表来自动地滤除代表介词的简单替换的所有实例。以类似的方式，被标记为搭配错误的小数目的冠词错误将被滤除。最终，其中加注释的短语或建议的校正长于3个单词的实例被滤除，因为它们包含高度特定于上下文的校正并且不太可能很好地概括(例如，“for the simple reasons that these can helpthem”→“simply to”)。

在滤除后，生成2747个搭配错误和它们各自的校正，这些占据NUCLE中的所有错误的大约6％。这使得搭配错误成为在冠词错误、冗余、介词、句词数、动词时态和语义之后的第7大错误类。不算复制，有2412个不同的搭配错误和校正。尽管还存在更为频繁的其他错误类型，搭配错误代表了一种特定的挑战，因为可能的校正并不限于选择的封闭集合，并且它们直接涉及语义而非句法。搭配错误被分析并且发现它们可以归因于下面的混淆源：

拼写：如果错误短语和其校正的编辑距离小于某个阈值，则可以由类似的正字法造成错误。

同音异义词：如果错误单词和其校正具有相同的发音，则可以由类似的发音造成错误。单音词典用于将单词映射到它们的语音表达。

同义词：如果错误单词和其校正在WordNet中是同义词，则同义词可以造成错误。使用WordNet 3.0。

L1-转换：如果错误短语和其校正在中-英文短语表中共享共同的译文，则可以由L1-转换造成错误。这里描述短语表构建的细节。尽管在该特定实施例中，该方法使用在中-英文翻译上，该方法可以应用于其中可以获得平行的语料库的任意语言对。

由于单音词典和WordNet被定义用于各个单词，匹配过程以下面的方式扩展到短语：两个短语A和B如果具有相同的长度并且短语A中的第i单词是短语B中的相应第i单词的同音异义词/同义词，则两个短语A和B被认为是同音异义词/同义词。

表6：搭配错误的分析。对于多达6个字母的短语来说，用于拼写错误的阈值是1并且对于剩余短语来说是2。

有嫌疑的错误源	标记	类型
			拼写	154	131
同音异义词	2	2
			同义词	74	60
L1-转换	1016	782

L1-转换w/o拼写	954	727

L1-转换w/o同音异义词	1015	781
			L1-转换w/o同义词	958	737
L1-转换w/o拼写,同音异义词,同义词	906	692

表7：具有不同混淆源的搭配错误的例子。校正在括号中示出。对于L1-转换，也示出共享的中文译文。这里示出的L1-转换例子并不属于任意的其他类别。

在表6中示出分析的结果。标记表示运行包括复制的错误短语校正对并且类型表示不同的错误短语-校正对。由于搭配错误可以是多于一种类别的一部分，表中的行并不总计为错误的总数目。可以追溯到L1-转换的错误数目极大地超过所有其他类别的数目。该表也示出可以追溯到L1-转换而非其他源的搭配错误的数目。具有692不同搭配错误类型的906搭配错误可以归因于L1-转换而非拼写、同音异义词、或同义词。表7示出对于来自我们的语料库的每种类别的搭配错误的一些例子。也存在不能追溯到任意上述源的搭配错误类型。

公开一种用于校正EFL撰写中的搭配错误的方法1300。此方法1300的一个实施例包括响应于在处理装置中执行的平行语言文本的语料库分析，自动地识别1302一个或多个译文候选。另外，该方法1300可以包括使用处理装置来确定1304与每个译文候选关联的特征。该方法1300也可以包括从存储在数据存储装置中的学习文本的语料库生成1306一组一个或多个权重值。该方法1300可以进一步包括响应于与每个译文候选关联的特征和所述一组一个或多个权重值来使用处理装置计算1308针对所述一个或多个译文候选的分数。

在一个实施例中，该方法基于L1-引起释义(L1-inducedparaphrasing)。具有平行语料库的L1-引起释义用于自动地从句子对准的L1-英语平行语料库找到搭配候选。由于语料库中的大多数论文由母语说中文的人撰写的，使用FBIS中-英语料库，其由来自于新闻文章的大约230,000中文句子(8.5百万个字)构成，每个具有单个的英文译文。语料库的英文部分被标记化并且被小写。语料库的中文部分使用最大熵分段器来分段。随后，使用Berkeley对准器在单词级上自动地对准文本。使用短语抽取启发法从对准的文本抽取多达三个单词的英文-L1和L1-英文短语。给定英文短语e2的情况下，英文短语e1的释义概率定义为：

p (e_{1} | e_{2}) = \underset{f}{Σ} p (e_{1} | f) p (f | e_{2})

其中f表示L1语言中的外国短语。通过最大似然估计来估计短语翻译概率p(e₁|f)和p(f|e₂)并且使用Good-Turing平滑来进行平滑。最终，仅具有高于某个阈值(在该工作中被设置为0.001)的概率的释义被保留。

在另一个实施例中，搭配校正的方法可以实现在基于短语的统计机器翻译(SMT)的框架中。基于短语的SMT试图在给定输入句子f下找到最高得分的译文e。找到最高得分译文的解码过程由使用一组特征函数hi,＝1,…,n来对译文候选进行评分的对数-线性模型来指导。

score (e | f) = \exp (Σ_{i = 1}^{n} λ_{i} h_{i} (e, f)) .

典型的特征包括短语译文概率p(e|f)、反向短语译文概率p(f|e)、语言模型分数p(e)以及固定短语惩罚。可以通过在输入句子的开发集和参数译文上使用最小错误率训练(MERT)来完成特征权重λ_i,i＝1,...,n的最优化。

基于短语的SMT解码器MOSES的短语表被修改以包括具有从拼写、同音异义词、同义词和L1-引起释义导出的特征的搭配校正。

拼写：对于每个英文单词，短语表包含这样的条目，该条目由单词本身和位于与原始单词某个编辑距离内的每个单词构成。每个条目具有固定特征1.0。

同音异义词：对于每个英文单词，短语表包含这样的条目，该条目由单词本身和每个单词的同音异义词构成。使用CuVPlus词典来确定同音异义词。每个条目具有固定特征1.0。

同义词：对于每个英文单词，短语表包含这样的条目，该条目由单词本身和WordNet中的其每个同义词构成。如果单词具有多于一个含义，则其所有的含义都被考虑。每个条目具有固定特征1.0。

L1-释义：对于每个英文短语，短语表包含这样的条目，该条目由短语和其L1-导出的释义的每个构成。每个条目具有两个实值化的特征：释义概率和反向释义概率。

基准线：针对拼写、同音异义词和同义词构建的短语表被组合，其中组合的短语表包含分别用于针对拼写、同音异义词和同义词的三个二进制特征。

所有：来自于拼写、同音异义词、同义词和L1-释义的短语表被组合，其中组合的短语表包含五个特征：针对拼写、同音异义词和同义词的三个二进制特征以及针对L1-释义概率和反向L1-释义概率的两个实值化的特征。

另外，每个短语表包含标准固定短语惩罚特征。开始的四个表仅包含针对各个单词的搭配候选。如果必要，留给解码器来解码期间来构建针对更长短语的校正。

执行一组实验来测试语义搭配错误校正的方法。用于实验的数据集是来自于语料库的770个句子的随机抽样的开发集以及856个句子的测试集。每个句子恰好包含一个搭配错误。以来自于相同文档的句子不能在开发和测试集中都结束的方式执行抽样。为了保持条件尽可能实际，并不以任何的方式来过滤测试集。

对于实验也定义评估度量以评估搭配错误校正。执行自动化的和人工的评估。主要的评估度量是平均排序倒数(MRR)，其是由系统返回的第一正确答案的逆秩(inverse rank)的算术平均数。

MRR = \frac{1}{N} Σ_{i = 1}^{N} \frac{1}{rank (i)}

其中N是测试集的大小。如果系统不返回对于测试实例的正确答案，则设置为零。

在人工评估中，额外地报告在秩(rank)k,k＝1,2,3处的查准率，其中查准率如下计算：

P k = \frac{Σ_{a &Element; A} score (a)}{| A |}

其中A是秩k或更小些的返回答案的集合并且score(·)是在零和一之间的实值化得分函数。

在搭配错误实验中，搭配错误的自动校正在理论上可以被划分成两个步骤：i)识别输入中的错误搭配，以及ii)校正识别的搭配。假定错误搭配已经被识别。

在实验中，由人工注解员提供的搭配错误的开始和结束偏移用于识别搭配错误的位置。句子的剩余部分的译文被固定于其身份。移除其中短语和候选校正相同的短语表条目，这实际上强迫系统改变识别的短语。解码器的失真限度被设置为零以实现单调解码。对于语言模型，使用5元语言模型，该模型在英文Gigaword语料库上利用修改的Kneser-Ney平滑来训练。所有的实验使用相同的语言模型以允许公平的比较。

在错误句子的开发集和它们的校正上执行具有受欢迎的BLEU度量的MERT训练。由于搜索空间限于改变每个句子的单个短语，训练在两次或三次迭代后相对快速地收敛。在收敛后，模型可以用于自动地校正新的搭配错误。

在85个句子的测试集上评估建议的方法的性能，每个句子具有一个搭配错误。执行自动化的和人工的评估二者。在自动化的评估中，系统的性能通过计算在系统的n-最佳列中、由人工注解者提供的黄金答案的秩来测量。n-最佳列的大小限于顶部的100个输出。如果在顶部的100个输出中没有找到黄金答案，则秩被认为是无穷的，或换句话说，逆秩是零。报告测试实例的数目，对于该测试实例，黄金答案在顶部k个答案间排列，k＝1,2,3,10,100。自动化评估的结果在表8中示出。

表8：自动化评估的结果。列2到6示出在顶部k个答案内排列的黄金答案的数目。最后的列以百分比示出平均排序倒数。值越大越好。

模型	秩＝1	秩≤2	秩≤3	秩≤10	秩≤100	MRR
							拼写	35	41	42	44	44	4.51
同音异义词	1	1	1	1	1	0.11
							同义词	32	47	52	60	61	4.98
基准线	49	68	80	93	96	7.61
							L1-释义	93	133	154	216	243	15.43
所有	112	150	166	216	241	17.21

表9：注解者间协议P(E)＝0.5。

P(A) 0.8076

Kappa 0.6152

对于搭配错误，通常存在多于一个的可能校正答案。因此，通过仅考虑单个黄金答案为正确并且所有其他的答案是错误的，自动化的评估低估系统的实际性能。执行针对系统基准线和所有的人工评估。两个英文发言者被招聘来判断500个测试句子的子集。对于每个句子，向判断者显示原始句子和两个系统的每个的3个最佳候选。人工评估限于3个最佳候选，因为在秩大于3处的答案将在实际应用中不太有用。按字母顺序来一起显示候选，而没有关于它们的秩或哪个系统产生了它们或由注解者提供的黄金答案的任何信息。候选和原始句子的差异被突出显示。对于每个候选，要求判断者做出关于建议的候选是否是原始的有效校正的二进制判断。有效的校正以分数1.0来表示，而无效的校正以分数0.0来表示。在表9中报告注解者之间的一致。一致的可能性P(A)是注解者一致同意的次数百分比，并且P(E)是偶然的预计一致同意，其在我们的情形中是0.5。Kappa系数定义为

Kappa = \frac{P (A) - P (E)}{1 - P (E)}

从实验获得0.6152的Kappa系数，其中0.6和0.8之间的Kappa系数被认为显示实质的一致。为了计算在秩k处的查准率，对判断进行平均。因此，对于每个返回的答案，系统可以接收分数0.0(两个判断为负)、0.5(判断者不同意)、或1.0(两个判断为正)。

鉴于本公开，这里公开和要求保护的所有方法可以在没有过分实验的情况下做出和执行。尽管在优选实施例方面描述了本发明的设备和方法，对于本领域技术人员来说明显的是变形可以应用于方法和在步骤中或在这里所述的方法的步骤的序列中，而没有脱离本发明的概念、精神和范围。此外，可以对公开的设备做出修改并且可以取消组件或替换这里所述的组件，其中相同或相似的结果可以实现。对于本领域技术人员明显的所有此类的类似替换和修改被认为在由所附权利要求所限定的本发明的精神、范围和概念内。

Claims

1.一种用于校正语法错误的方法，该方法包括：

接收自然语言文本输入，所述文本输入包括语法错误，其中输入文本的一部分包括来自于一组类的类；

从假设没有语法错误的非学习文本的语料库生成多个选择任务，其中对于每个选择任务，分类器重新预测在非学习文本中使用的类；

从学习文本的语料库生成多个校正任务，其中对于每个校正任务，分类器建议在学习文本中使用的类；

使用一组二进制分类问题来训练语法校正模型，该一组二进制分类问题包括多个选择任务和多个校正任务；以及

使用训练的语法校正模型来从一组可能的类预测文本输入的类。

2.根据权利要求1所述的方法，进一步包括输出建议，以便如果预测的类不同于文本输入中的类，则将文本输入的类改变成预测的类。

3.根据权利要求1所述的方法，其中所述学习文本由老师以假定正确的类来加注释。

4.根据权利要求1所述的方法，其中所述类是与输入文本中的名词短语关联的冠词。

5.根据权利要求4所述的方法，进一步包括从非学习文本和学习文本中的名词短语来抽取用于分类器的特征函数。

6.根据权利要求1所述的方法，其中所述类是与输入文本中的介词短语关联的介词。

7.根据权利要求6所述的方法，进一步包括从非学习文本和学习文本的介词短语抽取用于分类器的特征函数。

8.根据权利要求1所述的方法，其中所述非学习文本和学习文本具有不同的特征空间，学习文本的特征空间包括由作者使用的单词。

9.根据权利要求1所述的方法，其中训练语法校正模型包括最小化训练数据上的损失函数。

10.根据权利要求1所述的方法，训练语法校正模型进一步包括通过分析非学习文本来识别多个线性分类器。

11.根据权利要求10所述的方法，其中所述线性分类器进一步包括权重因子，该权重因子包括在权重因子的矩阵中。

12.根据权利要求11所述的方法，其中训练所述语法校正模型进一步包括在权重因子的矩阵上执行奇异值分解(SVD)。

13.根据权利要求12所述的方法，其中训练语法校正模型也可以包括识别组合权重值，该组合权重值代表通过分析非学习文本所识别的第一权重值元素以及通过最小化经验风险函数来分析学习文本而识别的第二权重值元素。

14.一种设备，包括：

至少一个处理器和耦合到该至少一个处理器的存储器装置，其中所述至少一个处理器配置成：

15.根据权利要求14所述的设备，进一步包括输出建议，以便如果预测的类不同于文本输入中的类，则将文本输入的类改变成预测的类。

16.根据权利要求14所述的设备，其中所述学习文本由老师以假定正确的类来加注释。

17.根据权利要求14所述的设备，其中所述类是与所述输入文本中的名词短语关联的冠词。

18.根据权利要求17所述的设备，进一步包括从非学习文本和学习文本中的名词短语来抽取用于分类器的特征函数。

19.根据权利要求14所述的设备，其中所述类是与输入文本中的介词短语关联的介词。

20.根据权利要求19所述的设备，进一步包括从非学习文本和学习文本的介词短语抽取用于分类器的特征函数。

21.根据权利要求14所述的设备，其中所述非学习文本和学习文本具有不同的特征空间，学习文本的特征空间包括由作者使用的单词。

22.根据权利要求14所述的设备，其中训练语法校正模型包括最小化训练数据上的损失函数。

23.根据权利要求14所述的设备，其中训练所述语法校正模型进一步包括通过分析非学习文本来识别多个线性分类器。

24.根据权利要求23所述的设备，其中所述线性分类器进一步包括权重因子，该权重因子包括在权重因子的矩阵中。

25.根据权利要求24所述的设备，其中训练所述语法校正模型进一步包括在权重因子的矩阵上执行奇异值分解(SVD)。

26.根据权利要求25所述的设备，其中训练语法校正模型也可以包括识别组合权重值，该组合权重值代表通过分析非学习文本所识别的第一权重值元素以及通过最小化经验风险函数来分析学习文本而识别的第二权重值元素。