CN106815215B - 生成标注库的方法和装置 - Google Patents

生成标注库的方法和装置 Download PDF

Info

Publication number
CN106815215B
CN106815215B CN201510860253.0A CN201510860253A CN106815215B CN 106815215 B CN106815215 B CN 106815215B CN 201510860253 A CN201510860253 A CN 201510860253A CN 106815215 B CN106815215 B CN 106815215B
Authority
CN
China
Prior art keywords
candidate
statement
source
specific word
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510860253.0A
Other languages
English (en)
Other versions
CN106815215A (zh
Inventor
涂兆鹏
李航
刘群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201510860253.0A priority Critical patent/CN106815215B/zh
Publication of CN106815215A publication Critical patent/CN106815215A/zh
Application granted granted Critical
Publication of CN106815215B publication Critical patent/CN106815215B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Abstract

本发明实施例公开了一种生成标注库的方法和装置。本发明实施例方法包括:将双语平行语料库中在句子级别互为翻译的目标语句和源语句进行对齐;当目标语句中属于第一词类的第一特定词在源语句中没有对应的源特定词时,获取第一候选集合,第一候选集合中包括与第一特定词互为翻译的候选源特定词;根据源语句和目标语句间的对齐关系获取候选位置集合,候选位置集合包括源语句中可能缺失源特定词的位置;根据预置语言概率模型获取第二候选集合中各语句的正确概率,第二候选集合包括将第一候选集合中的候选源特定词填补到候选位置集合中的位置后形成的候选源语句;生成标注库,标注库包括根据第二候选集合中各语句的正确概率确定的候选源语句。

Description

生成标注库的方法和装置
技术领域
本发明涉及领域计算机领域,尤其涉及一种生成标注库的方法和装置。
背景技术
近年来,统计机器翻译(Statistical Machine Translation,SMT)领域取得了巨大发展。在SMT领域中,代词具有非常重要的作用。然而,在日语和汉语等语言中,代词省略是极为常见的现象,但在英语等语言中,代词作为句子成分又必不可少。这导致从代词易省略语言到代词不易省略语言翻译时,大部分缺失的代词将很难翻译正确。因此,将代词自动生成方法可以有效辅助统计机器翻译完成代词易省略语言到代词不易省略语言翻译过程中的代词缺失问题,使得译文更符合目标语言的语法结构,从而带来译文质量的提升。
代词自动生成的工作中包括代词的指代消解,该代词的指代消解指的是篇章中确定代词指向哪个名词短语的问题。目前,一种常用的指代消解方法是采用有监督方法,该有监督方法指的是需要机器学习模型来学习特征和标注的句法结构的操作判定。具体来说,首先生成人工标注的语料库,在该人工标注的语料库中,人为地将句子中所缺失的代词补上并对所补上的代词进行标注。这样,在该有监督方法中机器能够根据所填补的代词来学习填补代词的位置和所填补代词的特征,以使得机器能够自动填补语句中所缺失的代词。然而,只有当人工标注的语料库中的数据量足够大时,才能够保证有监督方法的正确性。然而,目前人工标注的语料库中的数据严重欠缺,生成数据量足够大的人工标注的语料库需要非常大的人力。
发明内容
本发明实施例第一方面提供了一种生成标注库的方法,包括:
确定双语平行语料库中的源语句和目标语句,所述源语句和所述目标语句为在句子级别互为翻译的语料;
将所述目标语句和所述源语句进行对齐;
当第一特定词在所述源语句中没有对应的源特定词时,获取第一候选集合,所述第一特定词为所述目标语句中属于第一词类的词,所述源特定词为所述第一特定词在所述源语句中的翻译,所述第一候选集合中包括与所述第一特定词互为翻译的候选源特定词;
根据所述源语句和所述目标语句之间的对齐关系获取候选位置集合,所述候选位置集合包括所述源语句中可能缺失所述源特定词的位置;
根据预置语言概率模型获取第二候选集合中各语句的正确概率,所述第二候选集合包括将所述第一候选集合中的候选源特定词填补到所述候选位置集合中的位置后形成的候选源语句;
生成标注库,所述标注库包括新源语句,所述新源语句为根据所述第二候选集合中各语句的正确概率确定的候选源语句。
结合第一方面,在第一方面的第一种实现方式中,所述根据所述源语句和所述目标语句之间的对齐关系获取候选位置集合,包括:
采用启发式搜索算法根据所述源语句和所述目标语句之间的对齐关系获取候选位置集合。
结合第一方面,在第一方面的第二种实现方式中,所述新源语句包括所述第二候选集合中概率最大的预置数值个语句。
结合第一方面,在第一方面的第三种实现方式中,所述获取第一候选集合,之前还包括:
查找所述目标语句中属于所述第一词类的所有第一特定词;
对每一个所述第一特定词,判断所述第一特定词在所述源语句中是否存在对应的翻译;
所述获取第一候选集合,包括:
将在所述源语句中不存在对应的翻译的至少部分第一特定词的翻译语料添加到所述第一候选集合中。
结合第一方面,在第一方面的第四种实现方式中,所述方法还包括:
对所述标注库进行有监督学习,训练出基于深度神经网络架构的序列标注模型,所述序列标注模型包括Elman-type递归神经网络;
在单语语料库中获取第一语句,根据所述序列标注模型预测所述第一语句的缺失特定词的位置以及判定所述特定词的类型,其中,所述单语语料库中的语料和所述源语句属于同一种语言,所述特定词为所述第一语句中属于所述第一词类的词;
根据所述特定词的类型获取候选特定词集合;
根据预置语言概率模型获取第一语句候选集合中各语句的正确概率,所述第一语句候选集合包括将所述候选特定词集合中的候选特定词填补到所述缺失特定词的位置后形成的候选语句;
根据所述正确概率从所述第一候选集合中挑选候选语句作为增添所述特定词后的第一语句。
本发明实施例第二方面提供了一种生成标注库的装置,包括:
确定模块,用于确定双语平行语料库中的源语句和目标语句,所述源语句和所述目标语句为在句子级别互为翻译的语料;
对齐模块,用于将所述目标语句和所述源语句进行对齐;
第一获取模块,用于当第一特定词在所述源语句中没有对应的源特定词时,获取第一候选集合,所述第一特定词为所述目标语句中属于第一词类的词,所述源特定词为所述第一特定词在所述源语句中的翻译,所述第一候选集合中包括与所述第一特定词互为翻译的候选源特定词;
第二获取模块,用于根据所述源语句和所述目标语句之间的对齐关系获取候选位置集合,所述候选位置集合包括所述源语句中可能缺失所述源特定词的位置;
第三获取模块,用于根据预置语言概率模型获取第二候选集合中各语句的正确概率,所述第二候选集合包括将所述第一候选集合中的候选源特定词填补到所述候选位置集合中的位置后形成的候选源语句;
生成模块,用于生成标注库,所述标注库包括新源语句,所述新源语句为根据所述第二候选集合中各语句的正确概率确定的候选源语句。
结合第二方面,在第二方面的第一种实现方式中,所述第二获取模块具体用于采用启发式搜索算法根据所述源语句和所述目标语句之间的对齐关系获取候选位置集合。
结合第二方面,在第二方面的第二种实现方式中,所述新源语句包括所述第二候选集合中概率最大的预置数值个语句。
结合第二方面,在第二方面的第三种实现方式中,所述生成标注库的装置还包括:
查找模块,用于在获取第一候选集合之前,查找所述目标语句中属于所述第一词类的所有第一特定词;
判断模块,用于对每一个所述第一特定词,判断所述第一特定词在所述源语句中是否存在对应的翻译;
所述第一获取模块具体用于将在所述源语句中不存在对应的翻译的至少部分第一特定词的翻译语料添加到所述第一候选集合中。
结合第二方面,在第二方面的第四种实现方式中,所述生成标注库的装置还包括:
学习模块,用于对所述标注库进行有监督学习,训练出基于深度神经网络架构的序列标注模型,所述序列标注模型包括Elman-type递归神经网络;
第四获取模块,用于在单语语料库中获取第一语句,根据所述序列标注模型预测所述第一语句的缺失特定词的位置以及判定所述特定词的类型,其中,所述单语语料库中的语料和所述源语句属于同一种语言,所述特定词为所述第一语句中属于所述第一词类的词;
第五获取模块,用于根据所述特定词的类型获取候选特定词集合;
第六获取模块,用于根据预置语言概率模型获取第一语句候选集合中各语句的正确概率,所述第一语句候选集合包括将所述候选特定词集合中的候选特定词填补到所述缺失特定词的位置后形成的候选语句;
挑选模块,用于根据所述正确概率从所述第一候选集合中挑选候选语句作为增添所述特定词后的第一语句。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明中,源语句所属的语言为易缺失第一词类的语言,通过利用双语平行语料库中双语的对应关系,将互为翻译语料的目标语句和源语句进行对齐,当目标语句中属于第一词类的第一特定词在源语句中找不到对应的翻译(也即源特定词)时,则可以确定源语句中缺失与该第一特定词对应的源特定词,而根据该两个语句的对应关系可确定出源语句中可能缺失源特定词的位置集合;由于第一特定词为确定的,第一特定词的翻译可在一个小集合中挑选,因此将该小集合中的各翻译和源语句中可能缺失第一特定词的位置任意组合,以形成多个候选源语句,并通过语言概率模型来计算各候选源语句的正确概率,以挑选出正确的候选源语句作为填补空缺第一特定词后的新源语句;整个过程均由机器翻译完成,无需人工标注语料库,采用该方法能够以较低耗费自动生成代词标注语料。
附图说明
图1为本发明的生成标注库的方法的一个实施例的流程示意图;
图2为目标语句和源语句的一个具体实施例的对应关系图;
图3为本发明的生成标注库的装置的一个实施例的结构示意图;
图4为本发明的生成标注库的方法的一个实施例的结构示意图;
图5为本发明的生成标注库的方法的另一个实施例的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,图1为本发明实施例提供的生成标注库的方法的一个实施例的结构示意图。如图1所示,本实施例的生成标注库的方法包括:
101、确定双语平行语料库中的源语句和目标语句,所述源语句和所述目标语句为在句子级别互为翻译的语料。
本实施例中,双语平行语料库中包括互为翻译的两种语料,为描述方便,本文中称其中一种语料为目标语语料,称另一种语料为源语语料,其中,源语语料为相对于目标语语料在使用中更容易省略某一种词类的语言。为描述方便,下文称该易省略的词类为第一词类。
举例来说,该目标语语料可以为英文,该源语语料为汉语、日语或者捷克语。该第一词类为代词或者连接词,在此不作限制。双语平行语料库中包括句子级别的语料,或者还包括词语级别、段落级别、文档级别中的至少一种级别的语料,在此不作限制。
本实施例中的目标语句和源语句可以是双语平行语料库中任意一对在句子级别互为翻译的语料。
102、将所述目标语句和所述源语句进行对齐。
在对目标语句和源语句进行对齐处理时,首先要将目标语句和源语句进行预处理,也即将目标语句和源语句分别切割成各自所属语言的基本粒度。例如,当目标语语料为英文时,对目标语句进行标记解析(tokenize),当源语语料为中文时,对源语句进行分词。对语言的预处理为SMT领域中的现有技术,在此不再赘述。进行预处理后,建立目标语句和源语句中词的对应关系。生成的词语对应关系具体形式为:x:y,其中x和y为正整数,表示目标语句中第x个词语和源语句中第y个词语对应。
实际应用中,一般采用开源对齐工具(如GIZA++)来对目标语句和源语句进行对齐处理。具体如何进行对齐处为现有技术,在此不再赘述。
103、当第一特定词在所述源语句中没有对应的源特定词时,获取第一候选集合,所述第一特定词为所述目标语句中属于第一词类的词,所述源特定词为所述第一特定词在所述源语句中的翻译,所述第一候选集合中包括与所述第一特定词互为翻译的候选源特定词。
当第一特定词在所述源语句中没有对应的翻译时,查找所述源语句中缺失与所述第一特定词对应的第一特定词。本实施例中,确定第一特定词在源语句中没有对应的翻译的方法有多种。
例如,将所述目标语句和所述源语句进行对齐后,查找目标语句中所有候选词,该候选词为目标语句在源语句中没有对应的翻译的词,然后从候选词中挑选出至少部分属于第一词类的词,那么该词为在源语句中没有对应的翻译的第一特定词。
又例如,首先在目标语句中查找出所有属于第一词类的词为第一特定词,然后依次判断各第一特定词在源语句中是否存在对应的翻译,并从中挑选出至少部分不存在对应的翻译的第一特定词。
挑选出在所述源语句中没有对应的翻译的第一特定词后,由于第一特定词是已知的,那么第一特定词的翻译也是确定的。将该第一特定词的所有翻译添加到第一候选集合中,所述第一候选集合中的元素为第一特定词的候选词。
以第一词类为代词举例来说,若第一特定词为“my”,那么将第一特定词的翻译“我的”作为候选词添加到第一候选集合中。若第一特定词为“your”,那么将第一特定词的翻译“你的”和“你们的”分别作为候选词都添加到第一候选集合中。
实际应用中,目标语句中可能出现至少两个在所述源语句中没有对应的翻译的第一特定词,这种情况中,将该至少两个第一特定词的翻译全部添加到第一候选集合中。
104、根据所述源语句和所述目标语句之间的对齐关系获取候选位置集合,所述位置集合包括所述源语句中可能缺失所述源特定词的位置。
每确定一个翻译语料已添加到第一候选集合中的第一特定词后,可以根据所述源语句和所述目标语句之间的对齐关系确定该第一特定词对应的源特定词可能填补在源语句中的所有候选位置,并将该候选位置全部添加到候选位置集合中。
本实施例中,根据所述源语句和所述目标语句之间的对齐关系确定该第一特定词对应的源特定词可能填补在源语句中的所有候选位置的方法有多种。可选的,可采用启发式搜索算法根据所述源语句和所述目标语句之间的对齐关系确定源特定词在源语句中的所有候选位置。
为方便理解,下面以源语句中所缺失的词类(即第一词类)为代词为例对“如何采用启发式搜索算法根据所述源语句和所述目标语句之间的对齐关系确定源特定词在源语句中的所有候选位置”进行说明。如图2所示,图2为目标语句和源语句的对应关系图。图2所示实施例中,目标语句为“I've been preparing for that my entire life”,源语句为“我已经准备了一辈子”。对源语句分词后得到的结果为“我”“已经”“准备”“了”“一辈子”。从图中的对应关系可以看出,源语句中缺失了目标语句中的代词“my”对应的翻译。通过图中的对角线上“my”前后已经确定的对齐信息(“preparing-准备”和“life-一辈子”),可以确定“my”对应的源特定词在源语句中的两个候选位置,其中一个候选位置为在源语句中“了”的前面,另一候选位置为在源语句中“了”的后面。
在目标语句中出现翻译语料已添加到第一候选集合中的第一特定词的数量为至少两个的情况中,将该至少两个第一特定词分别对应的源特定词的所有候选位置全部添加到该候选位置集合中。
105、根据预置语言概率模型获取第二候选集合中各语句的正确概率,所述第二候选集合包括将所述第一候选集合中的候选源特定词填补到所述候选位置集合中的位置后形成的候选源语句。
在获取到第一候选集合和候选位置集合后,对第一候选集合中的任意一个候选源特定词和候选位置集合中的任意一个候选位置进行组合,以在源语句中该候选位置处填补该候选源特定词,形成候选源语句。若第一候选集合中的元素数量为m,候选位置集合中的元素数量为n,那么可形成m×n个候选源语句。为描述方便,将该m×n个候选源语句形成的集合称为第二候选集合。
根据预置语言概率模型对第二候选集合中的每一个候选源语句的正确概率进行计算。具体的,该预置语言概率模型可以是N元文法模型或者基于神经网络的语言模型,在此不作限制。
106、生成标注库,所述标注库包括新源语句,所述新源语句为根据所述第二候选集合中各语句的正确概率确定的候选源语句。
计算出第二候选集合中各候选源语句的正确概率后,根据该正确概率从大至小依次对各候选源语句进行排序。将正确概率最大的候选源语句添加到标注库中。
可选的,将原源语句、正确概率最大的N个候选源语句以及该N个候选源语句的正确概率均添加到标注库中,其中N为预置数值。这样可以增加标注库的鲁棒性。
本实施例中,源语句所属的语言为易缺失第一词类的语言,通过利用双语平行语料库中双语的对应关系,将互为翻译语料的目标语句和源语句进行对齐,当目标语句中属于第一词类的第一特定词在源语句中找不到对应的翻译时,则可以确定源语句中缺失与该第一特定词对应的源特定词,而根据该两个语句的对应关系可确定出源语句中可能缺失源特定词的位置集合;由于第一特定词为确定的,第一特定词的翻译可在一个小集合中挑选,因此将该小集合中的各翻译和源语句中可能缺失第一特定词的位置任意组合,以形成多个候选源语句,并通过语言概率模型来计算各候选源语句的正确概率,以挑选出正确的候选源语句作为填补空缺第一特定词后的新源语句;整个过程均由机器完成,无需人工标注语料库,采用该方法能够以较低耗费自动生成代词标注语料。
本实施例中,获取到生成的标注库后,可对该标注库进行有监督学习,以训练出第一词类生成系统(例如代词生成系统),进而将该第一词类生成系统运用到机器翻译系统中。
具体的,对标注库中已经标注的语料,将该语料转换成序列形式。以第一词类生成系统为代词生成系统为例,对每个语句中的每个词,该词被贴上无代词缺失、缺失人称代词、缺失物主代词和缺失反身代词中的其中一种标签,用于表示该词的左边位置或者右边位置上无代词缺失、缺失人称代词、缺失物主代词或者缺失反身代词。然后通过提取该语料库的一系列特征来训练分类模型。最终根据该分类模型来自动标注其他缺失代词的语句。
可选的,本实施例中,对语料库进行有监督学习后训练出基于深度神经网络架构的序列标注模型。基于深度神经网络架构的序列标注模型的一个优势在于不需要人工来提取语料中的“一系列特征”,避免了复杂的特征选择过程,只要将句子输入该序列标注模型中,该序列标注模型会自动学习到需要的特征。
具体的,所述基于深度神经网络架构的序列标注模型包括Elman-type递归神经网络。该Elman-type递归神经网络包括第一公式和第二公式,所述第一公式为ht=s(Uwt+Wht-1),第二公式为yt=g(Vht)。其中,s(·)为sigmoid公式,g(·)为softmax公式,U、W和V为层之间相应的权重,wt为输入的句子序列中的第t个词;输出的yt为所缺失的第一词类的类型。举例来说,第一词类为代词时,输出的yt为标签集{NULL,PE,PO,RE}中的其中一个,其中NULL表示无代词缺失,PE表示缺失人称代词,PO表示缺失物主代词,RE表示缺失反身代词。
在第一公式和第二公式中,U、W和V分别对应的权重为神经网络模型在标注数据上自动训练得到的结果,此为现有技术,在此不再赘述。该yt表示yt=g(Vht)中的ht在第一公式中的所用的自变量wt对应的第t个词的右边位置是否缺失代词的预测结果。
这样,在需要对一个单语语料库中的语句进行填补代词时,从该单语语料库中获取一个语句(为描述方便,下文中称该语句为第一语句),其中,所述单语语料库中的语料和所述源语句属于同一种语言。依次将第一语句中的各个词输入所述第一公式和第二公式进行计算,计算得到的yt为该词的右边位置是否缺失代词的预测结果。这样,可最终确定该第一语句中分别缺失人称代词、缺失物主代词和缺失反身代词的所有位置。也即预测到第一语句中缺失特定词的位置以及该特定词的类型。该特定词为所述第一语句中属于所述第一词类的词。举例来说,当第一词类为代词时该特定词的类型为人称代词、物主代词或反身代词。
根据所述特定词的类型获取候选特定词集合。当特定词的类型确定时,该特定词的候选特定词集合也可以确定。例如,当特定词的类型为物主代词时,该特定词的候选特定词集合为{我的(my)、你的(your)、我们的(our)、你们的(your)、他们的(their)、它的(its)、它们的(their)、她们的(their)}。
将所述候选特定词集合中的代词填补到所述代词缺失位置后形成的语句添加到第一语句候选集合中,根据预置语言概率模型获取第一语句候选集合中各语句的正确概率,根据所述正确概率从所述第一候选集合中挑选候选语句作为增添所述特定词后的第一语句。具体的,该预置语言概率模型可以是N元文法模型或者基于神经网络的语言模型,在此不作限制。
计算出第一语句候选集合中各语句的正确概率后,根据该正确概率从大至小依次对各语句进行排序。将正确概率最大的语句确定为增添所述特定词后的第一语句。
可选的,将原第一语句、第一语句候选集合中正确概率最大的M个语句以及该M个语句的正确概率均保留到代词生成系统中,其中M为预置数值。这样可以增加代词生成系统的鲁棒性。
当然,上述描述中以第一词类为代词为例,实际应用中上述方法在第一词类为其他词类的情况中也适用。
上面对本发明的生成标注库的方法进行了描述,下面对本发明的生成标注库的装置进行描述,该生成标注库的装置用于执行上述所描述的生成标注库的方法。
请参阅图3,图3为本发明的生成标注库的装置的一个实施例的结构示意图。本发明的生成标注库的装置300包括:
确定模块301,用于确定双语平行语料库中的源语句和目标语句,所述源语句和所述目标语句为在句子级别互为翻译的语料;
对齐模块302,用于将所述目标语句和所述源语句进行对齐;
第一获取模块303,用于当第一特定词在所述源语句中没有对应的源特定词时,获取第一候选集合,所述第一特定词为所述目标语句中属于第一词类的词,所述源特定词为所述第一特定词在所述源语句中的翻译,所述第一候选集合中包括与所述第一特定词互为翻译的候选源特定词;
第二获取模块304,用于根据所述源语句和所述目标语句之间的对齐关系获取候选位置集合,所述候选位置集合包括所述源语句中可能缺失所述源特定词的位置;
第三获取模块305,用于根据预置语言概率模型获取第二候选集合中各语句的正确概率,所述第二候选集合包括将所述第一候选集合中的候选源特定词填补到所述候选位置集合中的位置后形成的候选源语句;
生成模块306,用于生成标注库,所述标注库包括新源语句,所述新源语句为根据所述第二候选集合中各语句的正确概率确定的候选源语句。
本实施例中,源语句所属的语言为易缺失第一词类的语言,生成标注库的装置通过利用双语平行语料库中双语的对应关系,将互为翻译语料的目标语句和源语句进行对齐,当目标语句中属于第一词类的第一特定词在源语句中找不到对应的翻译时,则可以确定源语句中缺失与该第一特定词对应的源特定词,而根据该两个语句的对应关系可确定出源语句中可能缺失源特定词的位置集合;由于第一特定词为确定的,第一特定词的翻译可在一个小集合中挑选,因此将该小集合中的各翻译和源语句中可能缺失第一特定词的位置任意组合,以形成多个候选源语句,并通过语言概率模型来计算各候选源语句的正确概率,以挑选出正确的候选源语句作为填补空缺第一特定词后的新源语句;整个过程均由机器完成,无需人工标注语料库,采用该方法能够以较低耗费自动生成代词标注语料。
可选的,所述第二获取模块304具体用于采用启发式搜索算法根据所述源语句和所述目标语句之间的对齐关系获取候选位置集合。
可选的,所述新源语句包括所述第二候选集合中概率最大的预置数值个语句。
可选的,所述生成标注库的装置300还包括:
查找模块307,用于在获取第一候选集合之前,查找所述目标语句中属于所述第一词类的所有第一特定词;
判断模块308,用于对每一个所述第一特定词,判断所述第一特定词在所述源语句中是否存在对应的翻译;
所述第一获取模块303具体用于将在所述源语句中不存在对应的翻译的至少部分第一特定词的翻译语料添加到所述第一候选集合中。
可选的,如图4所示,所述生成标注库的装置还包括:
学习模块401,用于对所述标注库进行有监督学习,训练出基于深度神经网络架构的序列标注模型,所述序列标注模型包括Elman-type递归神经网络;
第四获取模块402,用于在单语语料库中获取第一语句,根据所述序列标注模型预测所述第一语句的缺失特定词的位置以及判定所述特定词的类型,其中,所述单语语料库中的语料和所述源语句属于同一种语言,所述特定词为所述第一语句中属于所述第一词类的词;
第五获取模块403,用于根据所述特定词的类型获取候选特定词集合;
第六获取模块404,用于根据预置语言概率模型获取第一语句候选集合中各语句的正确概率,所述第一语句候选集合包括将所述候选特定词集合中的候选特定词填补到所述缺失特定词的位置后形成的候选语句;
挑选模块405,用于根据所述正确概率从所述第一候选集合中挑选候选语句作为增添所述特定词后的第一语句。
请参阅图5,图5为本发明的生成标注库的装置的另一个实施例的结构示意图。本实施例中,生成标注库的装置500包括存储器501、一个或多个处理器502以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器501中并被配置为被所述一个或多个处理器502执行。在本发明的一些实施例中,存储器501和一个或多个处理器502可通过总线或其它方式连接,其中,图5中以通过总线504连接为例。
所述处理器调用所述一个或多个程序,执行以下操作:
确定双语平行语料库中的源语句和目标语句,所述源语句和所述目标语句为在句子级别互为翻译的语料;
将所述目标语句和所述源语句进行对齐;
当第一特定词在所述源语句中没有对应的源特定词时,获取第一候选集合,所述第一特定词为所述目标语句中属于第一词类的词,所述源特定词为所述第一特定词在所述源语句中的翻译,所述第一候选集合中包括与所述第一特定词互为翻译的候选源特定词;
根据所述源语句和所述目标语句之间的对齐关系获取候选位置集合,所述候选位置集合包括所述源语句中可能缺失所述源特定词的位置;
根据预置语言概率模型获取第二候选集合中各语句的正确概率,所述第二候选集合包括将所述第一候选集合中的候选源特定词填补到所述候选位置集合中的位置后形成的候选源语句;
生成标注库,所述标注库包括新源语句,所述新源语句为根据所述第二候选集合中各语句的正确概率确定的候选源语句。
可选的,所述根据所述源语句和所述目标语句之间的对齐关系获取候选位置集合,包括:
采用启发式搜索算法根据所述源语句和所述目标语句之间的对齐关系获取候选位置集合。
可选的,所述新源语句包括所述第二候选集合中概率最大的预置数值个语句。
可选的,所述处理器在获取第一候选集合之前,还执行以下操作:
查找所述目标语句中属于所述第一词类的所有第一特定词;
对每一个所述第一特定词,判断所述第一特定词在所述源语句中是否存在对应的翻译;
所述处理器在获取第一候选集合时,具体用于执行以下操作:
将在所述源语句中不存在对应的翻译的至少部分第一特定词的翻译语料添加到所述第一候选集合中。
可选的,所述处理器还用于执行以下操作:
对所述标注库进行有监督学习,训练出基于深度神经网络架构的序列标注模型,所述序列标注模型包括Elman-type递归神经网络;
在单语语料库中获取第一语句,根据所述序列标注模型预测所述第一语句的缺失特定词的位置以及判定所述特定词的类型,其中,所述单语语料库中的语料和所述源语句属于同一种语言,所述特定词为所述第一语句中属于所述第一词类的词;
根据所述特定词的类型获取候选特定词集合;
根据预置语言概率模型获取第一语句候选集合中各语句的正确概率,所述第一语句候选集合包括将所述候选特定词集合中的候选特定词填补到所述缺失特定词的位置后形成的候选语句;
根据所述正确概率从所述第一候选集合中挑选候选语句作为增添所述特定词后的第一语句。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种生成标注库的方法,其特征在于,包括:
确定双语平行语料库中的源语句和目标语句,所述源语句和所述目标语句为在句子级别互为翻译的语料;
将所述目标语句和所述源语句进行对齐;
当第一特定词在所述源语句中没有对应的源特定词时,获取第一候选集合,所述第一特定词为所述目标语句中属于第一词类的词,所述源特定词为所述第一特定词在所述源语句中的翻译,所述第一候选集合中包括与所述第一特定词互为翻译的候选源特定词;
根据所述源语句和所述目标语句之间的对齐关系获取候选位置集合,所述候选位置集合包括所述源语句中可能缺失所述源特定词的位置;
根据预置语言概率模型获取第二候选集合中各语句的正确概率,所述第二候选集合包括将所述第一候选集合中的候选源特定词填补到所述候选位置集合中的位置后形成的候选源语句;
生成标注库,所述标注库包括新源语句,所述新源语句为根据所述第二候选集合中各语句的正确概率确定的候选源语句。
2.根据权利要求1所述的生成标注库的方法,其特征在于,所述根据所述源语句和所述目标语句之间的对齐关系获取候选位置集合,包括:
采用启发式搜索算法根据所述源语句和所述目标语句之间的对齐关系获取候选位置集合。
3.根据权利要求1所述的生成标注库的方法,其特征在于,所述新源语句包括所述第二候选集合中正确概率最大的预置数值个语句。
4.根据权利要求1所述的生成标注库的方法,其特征在于,所述获取第一候选集合,之前还包括:
查找所述目标语句中属于所述第一词类的所有第一特定词;
对每一个所述第一特定词,判断所述第一特定词在所述源语句中是否存在对应的翻译;
所述获取第一候选集合,包括:
将在所述源语句中不存在对应的翻译的至少部分第一特定词的翻译语料添加到所述第一候选集合中。
5.根据权利要求1所述的生成标注库的方法,其特征在于,所述方法还包括:
对所述标注库进行有监督学习,训练出基于深度神经网络架构的序列标注模型,所述序列标注模型包括Elman-type递归神经网络;
在单语语料库中获取第一语句,根据所述序列标注模型预测所述第一语句的缺失特定词的位置以及判定所述特定词的类型,其中,所述单语语料库中的语料和所述源语句属于同一种语言,所述特定词为所述第一语句中属于所述第一词类的词;
根据所述特定词的类型获取候选特定词集合;
根据预置语言概率模型获取第一语句候选集合中各语句的正确概率,所述第一语句候选集合包括将所述候选特定词集合中的候选特定词填补到所述缺失特定词的位置后形成的候选语句;
根据所述正确概率从所述第一语句候选集合中挑选候选语句作为增添所述特定词后的第一语句。
6.一种生成标注库的装置,其特征在于,包括:
确定模块,用于确定双语平行语料库中的源语句和目标语句,所述源语句和所述目标语句为在句子级别互为翻译的语料;
对齐模块,用于将所述目标语句和所述源语句进行对齐;
第一获取模块,用于当第一特定词在所述源语句中没有对应的源特定词时,获取第一候选集合,所述第一特定词为所述目标语句中属于第一词类的词,所述源特定词为所述第一特定词在所述源语句中的翻译,所述第一候选集合中包括与所述第一特定词互为翻译的候选源特定词;
第二获取模块,用于根据所述源语句和所述目标语句之间的对齐关系获取候选位置集合,所述候选位置集合包括所述源语句中可能缺失所述源特定词的位置;
第三获取模块,用于根据预置语言概率模型获取第二候选集合中各语句的正确概率,所述第二候选集合包括将所述第一候选集合中的候选源特定词填补到所述候选位置集合中的位置后形成的候选源语句;
生成模块,用于生成标注库,所述标注库包括新源语句,所述新源语句为根据所述第二候选集合中各语句的正确概率确定的候选源语句。
7.根据权利要求6所述的生成标注库的装置,其特征在于,所述第二获取模块具体用于采用启发式搜索算法根据所述源语句和所述目标语句之间的对齐关系获取候选位置集合。
8.根据权利要求6所述的生成标注库的装置,其特征在于,所述新源语句包括所述第二候选集合中正确概率最大的预置数值个语句。
9.根据权利要求6所述的生成标注库的装置,其特征在于,所述生成标注库的装置还包括:
查找模块,用于在获取第一候选集合之前,查找所述目标语句中属于所述第一词类的所有第一特定词;
判断模块,用于对每一个所述第一特定词,判断所述第一特定词在所述源语句中是否存在对应的翻译;
所述第一获取模块具体用于将在所述源语句中不存在对应的翻译的至少部分第一特定词的翻译语料添加到所述第一候选集合中。
10.根据权利要求6所述的生成标注库的装置,其特征在于,所述生成标注库的装置还包括:
学习模块,用于对所述标注库进行有监督学习,训练出基于深度神经网络架构的序列标注模型,所述序列标注模型包括Elman-type递归神经网络;
第四获取模块,用于在单语语料库中获取第一语句,根据所述序列标注模型预测所述第一语句的缺失特定词的位置以及判定所述特定词的类型,其中,所述单语语料库中的语料和所述源语句属于同一种语言,所述特定词为所述第一语句中属于所述第一词类的词;
第五获取模块,用于根据所述特定词的类型获取候选特定词集合;
第六获取模块,用于根据预置语言概率模型获取第一语句候选集合中各语句的正确概率,所述第一语句候选集合包括将所述候选特定词集合中的候选特定词填补到所述缺失特定词的位置后形成的候选语句;
挑选模块,用于根据所述正确概率从所述第一语句候选集合中挑选候选语句作为增添所述特定词后的第一语句。
CN201510860253.0A 2015-11-30 2015-11-30 生成标注库的方法和装置 Active CN106815215B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510860253.0A CN106815215B (zh) 2015-11-30 2015-11-30 生成标注库的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510860253.0A CN106815215B (zh) 2015-11-30 2015-11-30 生成标注库的方法和装置

Publications (2)

Publication Number Publication Date
CN106815215A CN106815215A (zh) 2017-06-09
CN106815215B true CN106815215B (zh) 2019-11-26

Family

ID=59155889

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510860253.0A Active CN106815215B (zh) 2015-11-30 2015-11-30 生成标注库的方法和装置

Country Status (1)

Country Link
CN (1) CN106815215B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753976B (zh) * 2017-11-01 2021-03-19 中国电信股份有限公司 语料标注装置和方法
CN107967263A (zh) * 2017-12-11 2018-04-27 中译语通科技股份有限公司 一种机器翻译数字泛化方法及系统、计算机、计算机程序
CN108763462B (zh) * 2018-05-28 2021-11-12 深圳前海微众银行股份有限公司 平行语句库的更新方法、设备及计算机可读存储介质
CN109145315B (zh) * 2018-09-05 2022-03-18 腾讯科技(深圳)有限公司 文本翻译方法、装置、存储介质和计算机设备
CN110413996B (zh) * 2019-07-15 2023-01-31 创新先进技术有限公司 构造零指代消解语料的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7209875B2 (en) * 2002-12-04 2007-04-24 Microsoft Corporation System and method for machine learning a confidence metric for machine translation
CN101796508A (zh) * 2007-08-31 2010-08-04 微软公司 歧义敏感自然语言处理系统中的共指消解
CN102968411A (zh) * 2012-10-24 2013-03-13 橙译中科信息技术(北京)有限公司 多语机器翻译智能辅助处理方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7209875B2 (en) * 2002-12-04 2007-04-24 Microsoft Corporation System and method for machine learning a confidence metric for machine translation
CN101796508A (zh) * 2007-08-31 2010-08-04 微软公司 歧义敏感自然语言处理系统中的共指消解
CN102968411A (zh) * 2012-10-24 2013-03-13 橙译中科信息技术(北京)有限公司 多语机器翻译智能辅助处理方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Effects of empty categories on machine translation;Tagyoung Chung et al;《Proceedings of the 2010 Conference on Empirical Methods in Natural Language Proceesing》;20101009;第636-645页 *
Web平行语料挖掘及其在机器翻译中的应用;林政 等;《中文信息学报》;20100930;第24卷(第5期);第85-91页 *

Also Published As

Publication number Publication date
CN106815215A (zh) 2017-06-09

Similar Documents

Publication Publication Date Title
CN107330011B (zh) 多策略融合的命名实体的识别方法及装置
CN106815215B (zh) 生成标注库的方法和装置
CN102799579B (zh) 具有错误自诊断和自纠错功能的统计机器翻译方法
CN103491205B (zh) 一种基于视频搜索的关联资源地址的推送方法和装置
CN110457675A (zh) 预测模型训练方法、装置、存储介质及计算机设备
CN109918489A (zh) 一种多策略融合的知识问答方法和系统
CN104573028A (zh) 实现智能问答的方法和系统
CN109697232A (zh) 一种基于深度学习的中文文本情感分析方法
CN110347894A (zh) 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质
Parvez et al. Building language models for text with named entities
CN110019843A (zh) 知识图谱的处理方法及装置
CN104731768B (zh) 一种面向中文新闻文本的事件地点抽取方法
CN104679850A (zh) 地址结构化方法及装置
CN110298035A (zh) 基于人工智能的字向量定义方法、装置、设备及存储介质
CN104102721A (zh) 信息推荐方法和装置
CN109359297A (zh) 一种关系抽取方法及系统
CN105677857B (zh) 一种关键词与营销落地页的精准匹配方法和装置
CN110874536B (zh) 语料质量评估模型生成方法和双语句对互译质量评估方法
CN109783644A (zh) 一种基于文本表示学习的跨领域情感分类系统及方法
WO2018174816A1 (en) Method and apparatus for semantic coherence analysis of texts
CN112069295A (zh) 相似题推荐方法、装置、电子设备和存储介质
Zhang et al. A multi-feature fusion model for Chinese relation extraction with entity sense
CN108170678A (zh) 一种文本实体抽取方法与系统
CN107247613A (zh) 语句解析方法及语句解析装置
WO2018174815A1 (en) Method and apparatus for semantic coherence analysis of texts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant