CN106815215B

CN106815215B - 生成标注库的方法和装置

Info

Publication number: CN106815215B
Application number: CN201510860253.0A
Authority: CN
Inventors: 涂兆鹏; 李航; 刘群
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2015-11-30
Filing date: 2015-11-30
Publication date: 2019-11-26
Anticipated expiration: 2035-11-30
Also published as: CN106815215A

Abstract

本发明实施例公开了一种生成标注库的方法和装置。本发明实施例方法包括：将双语平行语料库中在句子级别互为翻译的目标语句和源语句进行对齐；当目标语句中属于第一词类的第一特定词在源语句中没有对应的源特定词时，获取第一候选集合，第一候选集合中包括与第一特定词互为翻译的候选源特定词；根据源语句和目标语句间的对齐关系获取候选位置集合，候选位置集合包括源语句中可能缺失源特定词的位置；根据预置语言概率模型获取第二候选集合中各语句的正确概率，第二候选集合包括将第一候选集合中的候选源特定词填补到候选位置集合中的位置后形成的候选源语句；生成标注库，标注库包括根据第二候选集合中各语句的正确概率确定的候选源语句。

Description

生成标注库的方法和装置

技术领域

本发明涉及领域计算机领域，尤其涉及一种生成标注库的方法和装置。

背景技术

近年来，统计机器翻译(Statistical Machine Translation，SMT)领域取得了巨大发展。在SMT领域中，代词具有非常重要的作用。然而，在日语和汉语等语言中，代词省略是极为常见的现象，但在英语等语言中，代词作为句子成分又必不可少。这导致从代词易省略语言到代词不易省略语言翻译时，大部分缺失的代词将很难翻译正确。因此，将代词自动生成方法可以有效辅助统计机器翻译完成代词易省略语言到代词不易省略语言翻译过程中的代词缺失问题，使得译文更符合目标语言的语法结构，从而带来译文质量的提升。

代词自动生成的工作中包括代词的指代消解，该代词的指代消解指的是篇章中确定代词指向哪个名词短语的问题。目前，一种常用的指代消解方法是采用有监督方法，该有监督方法指的是需要机器学习模型来学习特征和标注的句法结构的操作判定。具体来说，首先生成人工标注的语料库，在该人工标注的语料库中，人为地将句子中所缺失的代词补上并对所补上的代词进行标注。这样，在该有监督方法中机器能够根据所填补的代词来学习填补代词的位置和所填补代词的特征，以使得机器能够自动填补语句中所缺失的代词。然而，只有当人工标注的语料库中的数据量足够大时，才能够保证有监督方法的正确性。然而，目前人工标注的语料库中的数据严重欠缺，生成数据量足够大的人工标注的语料库需要非常大的人力。

发明内容

本发明实施例第一方面提供了一种生成标注库的方法，包括：

确定双语平行语料库中的源语句和目标语句，所述源语句和所述目标语句为在句子级别互为翻译的语料；

将所述目标语句和所述源语句进行对齐；

当第一特定词在所述源语句中没有对应的源特定词时，获取第一候选集合，所述第一特定词为所述目标语句中属于第一词类的词，所述源特定词为所述第一特定词在所述源语句中的翻译，所述第一候选集合中包括与所述第一特定词互为翻译的候选源特定词；

根据所述源语句和所述目标语句之间的对齐关系获取候选位置集合，所述候选位置集合包括所述源语句中可能缺失所述源特定词的位置；

根据预置语言概率模型获取第二候选集合中各语句的正确概率，所述第二候选集合包括将所述第一候选集合中的候选源特定词填补到所述候选位置集合中的位置后形成的候选源语句；

生成标注库，所述标注库包括新源语句，所述新源语句为根据所述第二候选集合中各语句的正确概率确定的候选源语句。

结合第一方面，在第一方面的第一种实现方式中，所述根据所述源语句和所述目标语句之间的对齐关系获取候选位置集合，包括：

采用启发式搜索算法根据所述源语句和所述目标语句之间的对齐关系获取候选位置集合。

结合第一方面，在第一方面的第二种实现方式中，所述新源语句包括所述第二候选集合中概率最大的预置数值个语句。

结合第一方面，在第一方面的第三种实现方式中，所述获取第一候选集合，之前还包括：

查找所述目标语句中属于所述第一词类的所有第一特定词；

对每一个所述第一特定词，判断所述第一特定词在所述源语句中是否存在对应的翻译；

所述获取第一候选集合，包括：

将在所述源语句中不存在对应的翻译的至少部分第一特定词的翻译语料添加到所述第一候选集合中。

结合第一方面，在第一方面的第四种实现方式中，所述方法还包括：

对所述标注库进行有监督学习，训练出基于深度神经网络架构的序列标注模型，所述序列标注模型包括Elman-type递归神经网络；

在单语语料库中获取第一语句，根据所述序列标注模型预测所述第一语句的缺失特定词的位置以及判定所述特定词的类型，其中，所述单语语料库中的语料和所述源语句属于同一种语言，所述特定词为所述第一语句中属于所述第一词类的词；

根据所述特定词的类型获取候选特定词集合；

根据预置语言概率模型获取第一语句候选集合中各语句的正确概率，所述第一语句候选集合包括将所述候选特定词集合中的候选特定词填补到所述缺失特定词的位置后形成的候选语句；

根据所述正确概率从所述第一候选集合中挑选候选语句作为增添所述特定词后的第一语句。

本发明实施例第二方面提供了一种生成标注库的装置，包括：

确定模块，用于确定双语平行语料库中的源语句和目标语句，所述源语句和所述目标语句为在句子级别互为翻译的语料；

对齐模块，用于将所述目标语句和所述源语句进行对齐；

第一获取模块，用于当第一特定词在所述源语句中没有对应的源特定词时，获取第一候选集合，所述第一特定词为所述目标语句中属于第一词类的词，所述源特定词为所述第一特定词在所述源语句中的翻译，所述第一候选集合中包括与所述第一特定词互为翻译的候选源特定词；

第二获取模块，用于根据所述源语句和所述目标语句之间的对齐关系获取候选位置集合，所述候选位置集合包括所述源语句中可能缺失所述源特定词的位置；

第三获取模块，用于根据预置语言概率模型获取第二候选集合中各语句的正确概率，所述第二候选集合包括将所述第一候选集合中的候选源特定词填补到所述候选位置集合中的位置后形成的候选源语句；

生成模块，用于生成标注库，所述标注库包括新源语句，所述新源语句为根据所述第二候选集合中各语句的正确概率确定的候选源语句。

结合第二方面，在第二方面的第一种实现方式中，所述第二获取模块具体用于采用启发式搜索算法根据所述源语句和所述目标语句之间的对齐关系获取候选位置集合。

结合第二方面，在第二方面的第二种实现方式中，所述新源语句包括所述第二候选集合中概率最大的预置数值个语句。

结合第二方面，在第二方面的第三种实现方式中，所述生成标注库的装置还包括：

查找模块，用于在获取第一候选集合之前，查找所述目标语句中属于所述第一词类的所有第一特定词；

判断模块，用于对每一个所述第一特定词，判断所述第一特定词在所述源语句中是否存在对应的翻译；

所述第一获取模块具体用于将在所述源语句中不存在对应的翻译的至少部分第一特定词的翻译语料添加到所述第一候选集合中。

结合第二方面，在第二方面的第四种实现方式中，所述生成标注库的装置还包括：

学习模块，用于对所述标注库进行有监督学习，训练出基于深度神经网络架构的序列标注模型，所述序列标注模型包括Elman-type递归神经网络；

第四获取模块，用于在单语语料库中获取第一语句，根据所述序列标注模型预测所述第一语句的缺失特定词的位置以及判定所述特定词的类型，其中，所述单语语料库中的语料和所述源语句属于同一种语言，所述特定词为所述第一语句中属于所述第一词类的词；

第五获取模块，用于根据所述特定词的类型获取候选特定词集合；

第六获取模块，用于根据预置语言概率模型获取第一语句候选集合中各语句的正确概率，所述第一语句候选集合包括将所述候选特定词集合中的候选特定词填补到所述缺失特定词的位置后形成的候选语句；

挑选模块，用于根据所述正确概率从所述第一候选集合中挑选候选语句作为增添所述特定词后的第一语句。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明中，源语句所属的语言为易缺失第一词类的语言，通过利用双语平行语料库中双语的对应关系，将互为翻译语料的目标语句和源语句进行对齐，当目标语句中属于第一词类的第一特定词在源语句中找不到对应的翻译(也即源特定词)时，则可以确定源语句中缺失与该第一特定词对应的源特定词，而根据该两个语句的对应关系可确定出源语句中可能缺失源特定词的位置集合；由于第一特定词为确定的，第一特定词的翻译可在一个小集合中挑选，因此将该小集合中的各翻译和源语句中可能缺失第一特定词的位置任意组合，以形成多个候选源语句，并通过语言概率模型来计算各候选源语句的正确概率，以挑选出正确的候选源语句作为填补空缺第一特定词后的新源语句；整个过程均由机器翻译完成，无需人工标注语料库，采用该方法能够以较低耗费自动生成代词标注语料。

附图说明

图1为本发明的生成标注库的方法的一个实施例的流程示意图；

图2为目标语句和源语句的一个具体实施例的对应关系图；

图3为本发明的生成标注库的装置的一个实施例的结构示意图；

图4为本发明的生成标注库的方法的一个实施例的结构示意图；

图5为本发明的生成标注库的方法的另一个实施例的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，图1为本发明实施例提供的生成标注库的方法的一个实施例的结构示意图。如图1所示，本实施例的生成标注库的方法包括：

101、确定双语平行语料库中的源语句和目标语句，所述源语句和所述目标语句为在句子级别互为翻译的语料。

本实施例中，双语平行语料库中包括互为翻译的两种语料，为描述方便，本文中称其中一种语料为目标语语料，称另一种语料为源语语料，其中，源语语料为相对于目标语语料在使用中更容易省略某一种词类的语言。为描述方便，下文称该易省略的词类为第一词类。

举例来说，该目标语语料可以为英文，该源语语料为汉语、日语或者捷克语。该第一词类为代词或者连接词，在此不作限制。双语平行语料库中包括句子级别的语料，或者还包括词语级别、段落级别、文档级别中的至少一种级别的语料，在此不作限制。

本实施例中的目标语句和源语句可以是双语平行语料库中任意一对在句子级别互为翻译的语料。

102、将所述目标语句和所述源语句进行对齐。

在对目标语句和源语句进行对齐处理时，首先要将目标语句和源语句进行预处理，也即将目标语句和源语句分别切割成各自所属语言的基本粒度。例如，当目标语语料为英文时，对目标语句进行标记解析(tokenize)，当源语语料为中文时，对源语句进行分词。对语言的预处理为SMT领域中的现有技术，在此不再赘述。进行预处理后，建立目标语句和源语句中词的对应关系。生成的词语对应关系具体形式为：x：y，其中x和y为正整数，表示目标语句中第x个词语和源语句中第y个词语对应。

实际应用中，一般采用开源对齐工具(如GIZA++)来对目标语句和源语句进行对齐处理。具体如何进行对齐处为现有技术，在此不再赘述。

103、当第一特定词在所述源语句中没有对应的源特定词时，获取第一候选集合，所述第一特定词为所述目标语句中属于第一词类的词，所述源特定词为所述第一特定词在所述源语句中的翻译，所述第一候选集合中包括与所述第一特定词互为翻译的候选源特定词。

当第一特定词在所述源语句中没有对应的翻译时，查找所述源语句中缺失与所述第一特定词对应的第一特定词。本实施例中，确定第一特定词在源语句中没有对应的翻译的方法有多种。

例如，将所述目标语句和所述源语句进行对齐后，查找目标语句中所有候选词，该候选词为目标语句在源语句中没有对应的翻译的词，然后从候选词中挑选出至少部分属于第一词类的词，那么该词为在源语句中没有对应的翻译的第一特定词。

又例如，首先在目标语句中查找出所有属于第一词类的词为第一特定词，然后依次判断各第一特定词在源语句中是否存在对应的翻译，并从中挑选出至少部分不存在对应的翻译的第一特定词。

挑选出在所述源语句中没有对应的翻译的第一特定词后，由于第一特定词是已知的，那么第一特定词的翻译也是确定的。将该第一特定词的所有翻译添加到第一候选集合中，所述第一候选集合中的元素为第一特定词的候选词。

以第一词类为代词举例来说，若第一特定词为“my”，那么将第一特定词的翻译“我的”作为候选词添加到第一候选集合中。若第一特定词为“your”，那么将第一特定词的翻译“你的”和“你们的”分别作为候选词都添加到第一候选集合中。

实际应用中，目标语句中可能出现至少两个在所述源语句中没有对应的翻译的第一特定词，这种情况中，将该至少两个第一特定词的翻译全部添加到第一候选集合中。

104、根据所述源语句和所述目标语句之间的对齐关系获取候选位置集合，所述位置集合包括所述源语句中可能缺失所述源特定词的位置。

每确定一个翻译语料已添加到第一候选集合中的第一特定词后，可以根据所述源语句和所述目标语句之间的对齐关系确定该第一特定词对应的源特定词可能填补在源语句中的所有候选位置，并将该候选位置全部添加到候选位置集合中。

本实施例中，根据所述源语句和所述目标语句之间的对齐关系确定该第一特定词对应的源特定词可能填补在源语句中的所有候选位置的方法有多种。可选的，可采用启发式搜索算法根据所述源语句和所述目标语句之间的对齐关系确定源特定词在源语句中的所有候选位置。

为方便理解，下面以源语句中所缺失的词类(即第一词类)为代词为例对“如何采用启发式搜索算法根据所述源语句和所述目标语句之间的对齐关系确定源特定词在源语句中的所有候选位置”进行说明。如图2所示，图2为目标语句和源语句的对应关系图。图2所示实施例中，目标语句为“I've been preparing for that my entire life”，源语句为“我已经准备了一辈子”。对源语句分词后得到的结果为“我”“已经”“准备”“了”“一辈子”。从图中的对应关系可以看出，源语句中缺失了目标语句中的代词“my”对应的翻译。通过图中的对角线上“my”前后已经确定的对齐信息(“preparing-准备”和“life-一辈子”)，可以确定“my”对应的源特定词在源语句中的两个候选位置，其中一个候选位置为在源语句中“了”的前面，另一候选位置为在源语句中“了”的后面。

在目标语句中出现翻译语料已添加到第一候选集合中的第一特定词的数量为至少两个的情况中，将该至少两个第一特定词分别对应的源特定词的所有候选位置全部添加到该候选位置集合中。

105、根据预置语言概率模型获取第二候选集合中各语句的正确概率，所述第二候选集合包括将所述第一候选集合中的候选源特定词填补到所述候选位置集合中的位置后形成的候选源语句。

在获取到第一候选集合和候选位置集合后，对第一候选集合中的任意一个候选源特定词和候选位置集合中的任意一个候选位置进行组合，以在源语句中该候选位置处填补该候选源特定词，形成候选源语句。若第一候选集合中的元素数量为m，候选位置集合中的元素数量为n，那么可形成m×n个候选源语句。为描述方便，将该m×n个候选源语句形成的集合称为第二候选集合。

根据预置语言概率模型对第二候选集合中的每一个候选源语句的正确概率进行计算。具体的，该预置语言概率模型可以是N元文法模型或者基于神经网络的语言模型，在此不作限制。

106、生成标注库，所述标注库包括新源语句，所述新源语句为根据所述第二候选集合中各语句的正确概率确定的候选源语句。

计算出第二候选集合中各候选源语句的正确概率后，根据该正确概率从大至小依次对各候选源语句进行排序。将正确概率最大的候选源语句添加到标注库中。

可选的，将原源语句、正确概率最大的N个候选源语句以及该N个候选源语句的正确概率均添加到标注库中，其中N为预置数值。这样可以增加标注库的鲁棒性。

本实施例中，源语句所属的语言为易缺失第一词类的语言，通过利用双语平行语料库中双语的对应关系，将互为翻译语料的目标语句和源语句进行对齐，当目标语句中属于第一词类的第一特定词在源语句中找不到对应的翻译时，则可以确定源语句中缺失与该第一特定词对应的源特定词，而根据该两个语句的对应关系可确定出源语句中可能缺失源特定词的位置集合；由于第一特定词为确定的，第一特定词的翻译可在一个小集合中挑选，因此将该小集合中的各翻译和源语句中可能缺失第一特定词的位置任意组合，以形成多个候选源语句，并通过语言概率模型来计算各候选源语句的正确概率，以挑选出正确的候选源语句作为填补空缺第一特定词后的新源语句；整个过程均由机器完成，无需人工标注语料库，采用该方法能够以较低耗费自动生成代词标注语料。

本实施例中，获取到生成的标注库后，可对该标注库进行有监督学习，以训练出第一词类生成系统(例如代词生成系统)，进而将该第一词类生成系统运用到机器翻译系统中。

具体的，对标注库中已经标注的语料，将该语料转换成序列形式。以第一词类生成系统为代词生成系统为例，对每个语句中的每个词，该词被贴上无代词缺失、缺失人称代词、缺失物主代词和缺失反身代词中的其中一种标签，用于表示该词的左边位置或者右边位置上无代词缺失、缺失人称代词、缺失物主代词或者缺失反身代词。然后通过提取该语料库的一系列特征来训练分类模型。最终根据该分类模型来自动标注其他缺失代词的语句。

可选的，本实施例中，对语料库进行有监督学习后训练出基于深度神经网络架构的序列标注模型。基于深度神经网络架构的序列标注模型的一个优势在于不需要人工来提取语料中的“一系列特征”，避免了复杂的特征选择过程，只要将句子输入该序列标注模型中，该序列标注模型会自动学习到需要的特征。

具体的，所述基于深度神经网络架构的序列标注模型包括Elman-type递归神经网络。该Elman-type递归神经网络包括第一公式和第二公式，所述第一公式为h_t＝s(Uw_t+Wh_t-1)，第二公式为y_t＝g(Vh_t)。其中，s(·)为sigmoid公式，g(·)为softmax公式，U、W和V为层之间相应的权重，w_t为输入的句子序列中的第t个词；输出的y_t为所缺失的第一词类的类型。举例来说，第一词类为代词时，输出的y_t为标签集{NULL，PE,PO,RE}中的其中一个，其中NULL表示无代词缺失，PE表示缺失人称代词，PO表示缺失物主代词，RE表示缺失反身代词。

在第一公式和第二公式中，U、W和V分别对应的权重为神经网络模型在标注数据上自动训练得到的结果，此为现有技术，在此不再赘述。该y_t表示y_t＝g(Vh_t)中的h_t在第一公式中的所用的自变量w_t对应的第t个词的右边位置是否缺失代词的预测结果。

这样，在需要对一个单语语料库中的语句进行填补代词时，从该单语语料库中获取一个语句(为描述方便，下文中称该语句为第一语句)，其中，所述单语语料库中的语料和所述源语句属于同一种语言。依次将第一语句中的各个词输入所述第一公式和第二公式进行计算，计算得到的y_t为该词的右边位置是否缺失代词的预测结果。这样，可最终确定该第一语句中分别缺失人称代词、缺失物主代词和缺失反身代词的所有位置。也即预测到第一语句中缺失特定词的位置以及该特定词的类型。该特定词为所述第一语句中属于所述第一词类的词。举例来说，当第一词类为代词时该特定词的类型为人称代词、物主代词或反身代词。

根据所述特定词的类型获取候选特定词集合。当特定词的类型确定时，该特定词的候选特定词集合也可以确定。例如，当特定词的类型为物主代词时，该特定词的候选特定词集合为{我的(my)、你的(your)、我们的(our)、你们的(your)、他们的(their)、它的(its)、它们的(their)、她们的(their)}。

将所述候选特定词集合中的代词填补到所述代词缺失位置后形成的语句添加到第一语句候选集合中，根据预置语言概率模型获取第一语句候选集合中各语句的正确概率，根据所述正确概率从所述第一候选集合中挑选候选语句作为增添所述特定词后的第一语句。具体的，该预置语言概率模型可以是N元文法模型或者基于神经网络的语言模型，在此不作限制。

计算出第一语句候选集合中各语句的正确概率后，根据该正确概率从大至小依次对各语句进行排序。将正确概率最大的语句确定为增添所述特定词后的第一语句。

可选的，将原第一语句、第一语句候选集合中正确概率最大的M个语句以及该M个语句的正确概率均保留到代词生成系统中，其中M为预置数值。这样可以增加代词生成系统的鲁棒性。

当然，上述描述中以第一词类为代词为例，实际应用中上述方法在第一词类为其他词类的情况中也适用。

上面对本发明的生成标注库的方法进行了描述，下面对本发明的生成标注库的装置进行描述，该生成标注库的装置用于执行上述所描述的生成标注库的方法。

请参阅图3，图3为本发明的生成标注库的装置的一个实施例的结构示意图。本发明的生成标注库的装置300包括：

确定模块301，用于确定双语平行语料库中的源语句和目标语句，所述源语句和所述目标语句为在句子级别互为翻译的语料；

对齐模块302，用于将所述目标语句和所述源语句进行对齐；

第一获取模块303，用于当第一特定词在所述源语句中没有对应的源特定词时，获取第一候选集合，所述第一特定词为所述目标语句中属于第一词类的词，所述源特定词为所述第一特定词在所述源语句中的翻译，所述第一候选集合中包括与所述第一特定词互为翻译的候选源特定词；

第二获取模块304，用于根据所述源语句和所述目标语句之间的对齐关系获取候选位置集合，所述候选位置集合包括所述源语句中可能缺失所述源特定词的位置；

第三获取模块305，用于根据预置语言概率模型获取第二候选集合中各语句的正确概率，所述第二候选集合包括将所述第一候选集合中的候选源特定词填补到所述候选位置集合中的位置后形成的候选源语句；

生成模块306，用于生成标注库，所述标注库包括新源语句，所述新源语句为根据所述第二候选集合中各语句的正确概率确定的候选源语句。

本实施例中，源语句所属的语言为易缺失第一词类的语言，生成标注库的装置通过利用双语平行语料库中双语的对应关系，将互为翻译语料的目标语句和源语句进行对齐，当目标语句中属于第一词类的第一特定词在源语句中找不到对应的翻译时，则可以确定源语句中缺失与该第一特定词对应的源特定词，而根据该两个语句的对应关系可确定出源语句中可能缺失源特定词的位置集合；由于第一特定词为确定的，第一特定词的翻译可在一个小集合中挑选，因此将该小集合中的各翻译和源语句中可能缺失第一特定词的位置任意组合，以形成多个候选源语句，并通过语言概率模型来计算各候选源语句的正确概率，以挑选出正确的候选源语句作为填补空缺第一特定词后的新源语句；整个过程均由机器完成，无需人工标注语料库，采用该方法能够以较低耗费自动生成代词标注语料。

可选的，所述第二获取模块304具体用于采用启发式搜索算法根据所述源语句和所述目标语句之间的对齐关系获取候选位置集合。

可选的，所述新源语句包括所述第二候选集合中概率最大的预置数值个语句。

可选的，所述生成标注库的装置300还包括：

查找模块307，用于在获取第一候选集合之前，查找所述目标语句中属于所述第一词类的所有第一特定词；

判断模块308，用于对每一个所述第一特定词，判断所述第一特定词在所述源语句中是否存在对应的翻译；

所述第一获取模块303具体用于将在所述源语句中不存在对应的翻译的至少部分第一特定词的翻译语料添加到所述第一候选集合中。

可选的，如图4所示，所述生成标注库的装置还包括：

学习模块401，用于对所述标注库进行有监督学习，训练出基于深度神经网络架构的序列标注模型，所述序列标注模型包括Elman-type递归神经网络；

第四获取模块402，用于在单语语料库中获取第一语句，根据所述序列标注模型预测所述第一语句的缺失特定词的位置以及判定所述特定词的类型，其中，所述单语语料库中的语料和所述源语句属于同一种语言，所述特定词为所述第一语句中属于所述第一词类的词；

第五获取模块403，用于根据所述特定词的类型获取候选特定词集合；

第六获取模块404，用于根据预置语言概率模型获取第一语句候选集合中各语句的正确概率，所述第一语句候选集合包括将所述候选特定词集合中的候选特定词填补到所述缺失特定词的位置后形成的候选语句；

挑选模块405，用于根据所述正确概率从所述第一候选集合中挑选候选语句作为增添所述特定词后的第一语句。

请参阅图5，图5为本发明的生成标注库的装置的另一个实施例的结构示意图。本实施例中，生成标注库的装置500包括存储器501、一个或多个处理器502以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器501中并被配置为被所述一个或多个处理器502执行。在本发明的一些实施例中，存储器501和一个或多个处理器502可通过总线或其它方式连接，其中，图5中以通过总线504连接为例。

所述处理器调用所述一个或多个程序，执行以下操作：

将所述目标语句和所述源语句进行对齐；

可选的，所述根据所述源语句和所述目标语句之间的对齐关系获取候选位置集合，包括：

可选的，所述处理器在获取第一候选集合之前，还执行以下操作：

查找所述目标语句中属于所述第一词类的所有第一特定词；

所述处理器在获取第一候选集合时，具体用于执行以下操作：

可选的，所述处理器还用于执行以下操作：

根据所述特定词的类型获取候选特定词集合；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种生成标注库的方法，其特征在于，包括：

将所述目标语句和所述源语句进行对齐；

2.根据权利要求1所述的生成标注库的方法，其特征在于，所述根据所述源语句和所述目标语句之间的对齐关系获取候选位置集合，包括：

3.根据权利要求1所述的生成标注库的方法，其特征在于，所述新源语句包括所述第二候选集合中正确概率最大的预置数值个语句。

4.根据权利要求1所述的生成标注库的方法，其特征在于，所述获取第一候选集合，之前还包括：

查找所述目标语句中属于所述第一词类的所有第一特定词；

所述获取第一候选集合，包括：

5.根据权利要求1所述的生成标注库的方法，其特征在于，所述方法还包括：

根据所述特定词的类型获取候选特定词集合；

根据所述正确概率从所述第一语句候选集合中挑选候选语句作为增添所述特定词后的第一语句。

6.一种生成标注库的装置，其特征在于，包括：

对齐模块，用于将所述目标语句和所述源语句进行对齐；

7.根据权利要求6所述的生成标注库的装置，其特征在于，所述第二获取模块具体用于采用启发式搜索算法根据所述源语句和所述目标语句之间的对齐关系获取候选位置集合。

8.根据权利要求6所述的生成标注库的装置，其特征在于，所述新源语句包括所述第二候选集合中正确概率最大的预置数值个语句。

9.根据权利要求6所述的生成标注库的装置，其特征在于，所述生成标注库的装置还包括：

10.根据权利要求6所述的生成标注库的装置，其特征在于，所述生成标注库的装置还包括：

挑选模块，用于根据所述正确概率从所述第一语句候选集合中挑选候选语句作为增添所述特定词后的第一语句。