CN110502759B - 融入分类词典的汉越混合网络神经机器翻译集外词处理方法 - Google Patents
融入分类词典的汉越混合网络神经机器翻译集外词处理方法 Download PDFInfo
- Publication number
- CN110502759B CN110502759B CN201910635168.2A CN201910635168A CN110502759B CN 110502759 B CN110502759 B CN 110502759B CN 201910635168 A CN201910635168 A CN 201910635168A CN 110502759 B CN110502759 B CN 110502759B
- Authority
- CN
- China
- Prior art keywords
- word
- dictionary
- translation
- words
- classification dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及融入分类词典的汉越混合网络神经机器翻译集外词处理方法,属于资源稀缺型语言神经机器翻译技术领域。本发明首先进行分类词典的构建;再将切分后的源语言句子通过扫描查找分类词典的方法进行合并恢复句子中的规则短语,然后用RNNSearch中的编码器对这些短语进行标签标记;再采用门控单元构建一个包含词级模式和短语模式的混合网络解码器来决定在解码时使用哪个解码模式进行解码,并生成最终翻译。本发明通过融入分类词典和构建混合网络的方法,有效的缓解了资源稀缺型语言机器翻译的集外词问题,提高了翻译的准确率。
Description
技术领域
本发明涉及融入分类词典的汉越混合网络神经机器翻译集外词处理方法,属于资源稀缺型语言神经机器翻译技术领域。
背景技术
目前神经机器翻译为了控制与目标词汇量大小成比例增长的计算复杂性,大多数神经机器翻译系统将词表限制为只包含源语言和目标语言语料中的3万到8万个常见单词,除此以外的词称为集外词,集外词问题在神经机器翻译中始终是研究的热点,对于翻译性能的影响非常巨大,如何处理集外词问题一直是神经机器翻译的主要研究方向。
在资源稀缺型语言的神经机器翻译中,关于这个问题的工作很少,目前对于处理集外词问题有以下几种主流方法:第一类方法侧重于对softmax的改进。Caglar Gulcehre等人提出使用两个softmax层,用于预测原输入语句中某个词的位置和预定词表中的单词。第二类方法使用较小的翻译粒度来进来建模。Sennrich等人提出使用BPE算法对子词建模。Costa-jussa等人提出基于字符来产生词嵌入的方法。第三类方法使用大规模词典集和替换技术。Li等人提出集外词“替换-翻译-恢复”的方法。Jean等人使用大字典在softmax时进行采样,提出了一种基于重要性抽样的近似训练算法,可以训练一个具有更大目标词汇的神经机器翻译模型。以上工作没有过多涉及双语词典等外部知识的融入,同时没有对集外词本身的特点进行研究。
发明内容
本发明提供了融入分类词典的汉越混合网络神经机器翻译集外词处理方法,以用于解决资源稀缺型语言神经机器翻译中的集外词处理问题,显著提高了汉越神经机器翻译的性能,同时在验证翻译准确性的实验中,相较于基准模型,本发明在翻译集外词时更为准确,提高了翻译的准确率。
本发明的技术方案是:融入分类词典的汉越混合网络神经机器翻译集外词处理方法的具体步骤如下:
Step1、分类词典的构建;根据集外词的分类来构建分类词典,构建好的分类词典中包括双语词典、实体词典和规则词典;
Step2、首先对文本进行预处理,具体为:将切分后的源语言句子通过扫描查找分类词典的方法进行合并恢复句子中的规则短语,然后用RNNSearch中的编码器对这些短语进行标签标记;
Step3、构建基于RNNsearch的汉越混合网络解码器并生成最终翻译;采用门控单元构建一个包含词级模式和短语模式的混合网络解码器来决定在解码时使用哪个解码模式进行解码,并生成最终翻译。
作为本发明的优选方案,所述步骤Step1具体包括:
集外词被分为三类,一是稀有词,即模型词表外的词,二是实体,包括人名、地名、组织机构名和专有名词;三是数字、日期、符号和时间;构建的分类词典中主要包括双语词典、实体词典和规则词典;
双语词典的构建包括两个方面,一方面使用GIZA++词对齐工具对双语语料进行处理得到对齐结果,在对齐结果中排除模型词表内的词,对于一对多的情况,只保留对齐概率最大的记录。另一方面在词典中还加入了部分人工整理添加的双语词典。实体词典的构建,主要基于维基百科进行词条抽取。页面的词条很多实体词,在左下角会有对应的“Languages”可以链接到越南语的翻译,该链接的HTML信息中包括了翻译后的词汇,对此进行抽取来构建实体词典。对部分稀有词同时存在于双语词典和实体词典中的情况,采用建立优先级的方法优先扫描实体词典进行翻译。规则词典采用基于规则的方法,对语料中的数字、日期等词进行正则化处理。这样构建好的分类词典中包括了多种不同类型的集外词,有效的提高了集外词的翻译准确性。
分类词典的构建如下表1所示:
表1分类词典的类型和内容
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、分类词典用于在编码之前对句子对进行预处理。为了标记一个源语句需要找到它包含的短语。将找出源语句x里,存在中的规则短语,并将这些规则表示为Px。还需要找到Px在目标句子y的对应词记作Qx。Px和Qx将源句和目标句的单词分成组,如附图2所示。源句x中的单词分为两组,短语和单词,而目标句y中的单词分为两组,短语和单词。
通过将切分后的词进行处理,查找分类词典进行对源语言句子中错切的短语进行处理,其中,对切分后的源语言句子通过扫描查找分类词典的方法进行恢复合并规则短语,对于这样的词主要在我们的分类词典中,我们使用RNNSearch中的常规编码器将该语句编码为表示形式,在编码的时候进行标签化标记,用于帮助模型定位和区分短语和单词,标签用于帮助模型定位和区分短语和单词,便于解码时可以清楚的确定这些集外词然后通过分类词典整体进行翻译。如附图3所示,在句子x中我们将合并后的短语标记为1,其余单词标记为0,这样为了后期解码的时候可以识别1或者0从而选择短语模式还是单词模式。
作为本发明的优选方案,所述步骤Step3中:
使用带门控单元的RNN解码器来生成最终的翻译结果,分为短语模式和词级模式;
短语模式为通过分类词典进行短语翻译,这类短语大多为前面提到的三类集外词,包括一是稀有词,二是实体,包括人名、地名、组织机构名和专有名词;三是数字、日期、符号和时间;
词级模式主要分为两种情况:一种情况是翻译的词本身在模型的词表中,对于这类集内词直接通过模型的词表翻译生成;另一种情况是该词不在词表中,即为集外词,这类的词同样通过查找融入的分类词典进行翻译生成。
作为本发明的优选方案,所述步骤Step3中:
在RNNsearch解码器中只包含了单词模式,本方法的解码器增加了短语模式,解码时不同的解码模式分别对应不同的翻译粒度,有效的提升了解码速度和翻译准确性。对于有两个词或以上的目标短语pt=(yt,yt+1),它通过短语模式整体生成。这样该解码器具有两个功能,一方面对于短语的翻译可以通过分类词典进行翻译;另一方面对于单词的翻译,如果这个词在模型的词表中,则可直接进行翻译,如果不在则为集外词,可通过查找分类词典进行翻译。解码器的结构如附图4所示:
解码器模型中通过一个门控单元来决定在t时刻使用哪个解码模式,其中门控单元是二进制指示符变量,§∈{0,1},0代表词级模式,1代表短语模式;对于模型简单分为三种情况:
Ⅱ:当通过门控单元确定为0时,则通过词级模式进行翻译。当翻译的词不在模型的词表V中时,为集外词,则通过查找分类词典进行翻译。由于正常翻译的时候下一次词为“珍珠”这个词在词表V中,所以通过Ⅲ进行翻译。
Ⅲ:当通过门控单元确定为0时,则通过词级模式进行翻译。这里为当翻译的词在模型的词表V中,则通过查找模型词表进行翻译。结合附图2和附图4,抛开短语模式来看,正常翻译的时候下一次词为“珍珠”,而且“珍珠”这个词在词表V 中,得到最后的翻译为“trai”。
由此可以看出,短语模式的翻译和词级模式的翻译翻译结果不同。通过词级模式得到的翻译结果为“trai”,这里仅仅单指“珍珠”这个词的翻译,放在“珍珠港”这个语境下完全不正确,通过短语模式得到的翻译结果“Chu”为正确的“珍珠港”的翻译结果。
本发明的有益效果是:
本发明通过融入分类词典和构建混合网络的方法,在资源稀缺型语言机器翻译领域构造了融入分类词典的汉越混合网络神经机器翻译集外词处理方法,有效的缓解了资源稀缺型语言机器翻译的集外词问题,提高了翻译的准确率。
附图说明
图1是本发明的流程图;
图2是本发明源语言和目标语言句子中的短语对应关系图;
图3是本发明基于RNNSearch的汉越编码器结构图;
图4是本发明基于RNNSearch的汉越混合网络解码器结构图。
具体实施方式
实施例1:如图1-4所示,融入分类词典的汉越混合网络神经机器翻译集外词处理方法,具体步骤如下:
Step1、构建分类词典:根据集外词的分类来构建分类词典,构建好的分类词典中包括双语词典、实体词典和规则词典;
双语词典使用GIZA++词对齐工具对汉越双语语料进行处理,在对齐结果中排除模型词表内的词,同时加入部分人工整理添加的双语词典,最终构建了规模为 8735的双语词典。实体词典基于维基百科进行词条抽取,根据链接的HTML信息抽取了人名实体数量6418,地名实体数量2934,组织机构名实体数量5026,专有名词实体数量4363的共计18741的实体词典。规则词典采用基于规则的方法,对语料中的数字、日期等词进行正则化处理;
Step2、首先对文本进行预处理,具体为:实验中采用的汉越双语语料规模为20万,分为10万和20万分别实验。在融入本文方法之前对双语语料做Clean和 Tokenize处理。然后将源语句分词,对切分后的源语句通过查找构建好的分类词典对句子中错切的短语进行恢复合并处理,之后使用RNNSearch中的常规编码器,对短语进行标签标记。短语标记为1,其余单词标记为0;
Step3、采用门控单元构建一个包含词级模式和短语模式的混合网络解码器来决定在解码时使用哪个解码模式进行解码,并生成最终翻译。解码过程中当通过门控单元确定为1时,则通过短语模式进行翻译。此时查找分类词典进行翻译。当通过门控单元确定为0时,则通过词级模式进行翻译。这里为当翻译的词不在模型的词表V中,为集外词,通过查找分类词典进行翻译。当通过门控单元确定为0时,则通过词级模式进行翻译。这里为当翻译的词在模型的词表V中,则通过查找模型词表进行翻译。
其中,短语模式为通过分类词典进行短语翻译,这类短语大多为前面提到的三类集外词,包括一是稀有词,二是实体,包括人名、地名、组织机构名和专有名词;三是数字、日期、符号和时间;
词级模式主要分为两种情况:一种情况是翻译的词本身在模型的词表中,对于这类集内词直接通过模型的词表翻译生成;另一种情况是该词不在词表中,即为集外词,这类的词同样通过查找融入的分类词典进行翻译生成。
本实施例中,实验分为五个部分进行,分别是Moses、RNNSearch(语料规模为10万)、RNNSearch(语料规模为20万)、本文方法(语料规模为10万)和本文方法(语料规模为20万)。每部分中均存在双向翻译,包括汉语-越南语、越南语 -汉语,总共10组实验。同时为了验证翻译的准确性,给出三组汉语的源语言句子和越南语译文,来比较RNNSearch模型和本文方法翻译结果的质量。表2为融入分类词典的汉越混合网络神经机器翻译实验结果。
表2:融入分类词典的汉越混合网络神经机器翻译实验结果
从表2可以看出,对于相同规模的10万训练语料,在汉语-越南语翻译方向下,本文方法比RNNSearch有1.68个BLEU值提升;在越南语-汉语翻译方向下,本文方法比RNNSearch有2.42个BLEU值提升。对于相同规模的20万训练语料,在汉语-越南语翻译方向下,本文方法比RNNSearch有1.57个BLEU值提升;在越南语- 汉语翻译方向下,本文方法比RNNSearch有1.82个BLEU值提升。本文方法显著提升了汉越神经机器翻译性能,很好的缓解了资源稀缺型语言神经机器翻译中的集外词问题,提高了翻译准确率。
表3为为了验证翻译的准确性所作的三组翻译示例分析。
表3:三组翻译示例分析
从表3可以看出,在第一组中,RNNSearch模型可以将河内军队文化艺术大学翻译为但与正确的译文有差别。对于人名“胡光孝”不能很好的翻译,原因是人名在训练语料中出现的次数很少,最后通过UNK代替。而本文中的方法可以很好的将源语言句子里面的日期、人名和专有名词翻译出来。第二组和第三组的实验结果也是类似。可以发现本文方法相较于 RNNSearch模型,在翻译集外词时更为准确,说明这种融入分类词典的汉越混合网络神经机器翻译集外词处理方法在资源稀缺型语言神经机器翻译中处理集外词是可实用的。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (3)
1.融入分类词典的汉越混合网络神经机器翻译集外词处理方法,其特征在于:
具体步骤如下:
Step1、分类词典的构建;根据集外词的分类来构建分类词典,构建好的分类词典中包括双语词典、实体词典和规则词典;
Step2、首先对文本进行预处理,具体为:将切分后的源语言句子通过扫描查找分类词典的方法进行合并恢复句子中的规则短语,然后用RNNSearch中的编码器对这些短语进行标签标记;
Step3、构建基于RNNsearch的汉越混合网络解码器并生成最终翻译;采用门控单元构建一个包含词级模式和短语模式的混合网络解码器来决定在解码时使用哪个解码模式进行解码,并生成最终翻译;
所述步骤Step3中:
使用带门控单元的RNN解码器来生成最终的翻译结果,分为短语模式和词级模式;
短语模式为通过分类词典进行短语翻译,这类短语大多为前面提到的三类集外词,包括一是稀有词,二是实体,包括人名、地名、组织机构名和专有名词;三是数字、日期、符号和时间;
词级模式主要分为两种情况:一种情况是翻译的词本身在模型的词表中,对于这类集内词直接通过模型的词表翻译生成;另一种情况是该词不在词表中,即为集外词,这类的词同样通过查找融入的分类词典进行翻译生成;
所述步骤Step3中:
解码器模型中通过一个门控单元来决定在t时刻使用哪个解码模式,其中门控单元是二进制指示符变量,§∈{0,1},0代表词级模式,1代表短语模式;对于模型简单分为三种情况:Ⅰ:当通过门控单元确定为1时,则通过短语模式进行翻译,此时需要查找分类词典进行翻译;Ⅱ:当通过门控单元确定为0时,则通过词级模式进行翻译,这里为当翻译的词不在模型的词表中,为集外词,则通过查找分类词典进行翻译;Ⅲ:当通过门控单元确定为0时,则通过词级模式进行翻译,这里为当翻译的词在模型的词表中,则通过查找模型词表进行翻译。
2.根据权利要求1所述的融入分类词典的汉越混合网络神经机器翻译集外词处理方法,其特征在于:所述步骤Step1具体包括:
集外词被分为三类,一是稀有词,即模型词表外的词,二是实体,包括人名、地名、组织机构名和专有名词;三是数字、日期、符号和时间;构建的分类词典中主要包括双语词典、实体词典和规则词典;双语词典的构建一方面使用GIZA++词对齐对语料进行对齐处理,对对齐结果排除词表内的词;另一方面在词典中加入部分人工整理添加的双语词典;实体词典的构建主要基于维基百科进行词条抽取;规则词典的构建采用基于规则方法,对语料进行正则化处理。
3.根据权利要求1所述的融入分类词典的汉越混合网络神经机器翻译集外词处理方法,其特征在于:所述步骤Step2的具体步骤为:
首先对切分后的源语言句子通过扫描查找分类词典的方法进行恢复合并规则短语,然后使用RNNSearch中的编码器将源语言句子编码为表示形式,在编码的时候进行标签化标记,用于帮助模型定位和区分短语和单词;将合并后的短语标记为1,其余单词标记为0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910635168.2A CN110502759B (zh) | 2019-07-15 | 2019-07-15 | 融入分类词典的汉越混合网络神经机器翻译集外词处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910635168.2A CN110502759B (zh) | 2019-07-15 | 2019-07-15 | 融入分类词典的汉越混合网络神经机器翻译集外词处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110502759A CN110502759A (zh) | 2019-11-26 |
CN110502759B true CN110502759B (zh) | 2022-07-19 |
Family
ID=68585501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910635168.2A Active CN110502759B (zh) | 2019-07-15 | 2019-07-15 | 融入分类词典的汉越混合网络神经机器翻译集外词处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110502759B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178095B (zh) * | 2019-12-20 | 2023-06-27 | 沈阳雅译网络技术有限公司 | 一种面向子词切分的BPE-Learn加速方法 |
CN111144142A (zh) * | 2019-12-30 | 2020-05-12 | 昆明理工大学 | 基于深度可分离卷积的汉越神经机器翻译方法 |
CN111368035A (zh) * | 2020-03-03 | 2020-07-03 | 新疆大学 | 一种基于神经网络的汉维-维汉机构名词典的挖掘系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015170168A (ja) * | 2014-03-07 | 2015-09-28 | 国立研究開発法人情報通信研究機構 | 単語アライメントスコア算出装置、単語アライメント装置、及びコンピュータプログラム |
CN107967262A (zh) * | 2017-11-02 | 2018-04-27 | 内蒙古工业大学 | 一种神经网络蒙汉机器翻译方法 |
CN109117483A (zh) * | 2018-07-27 | 2019-01-01 | 清华大学 | 神经网络机器翻译模型的训练方法及装置 |
CN109508462A (zh) * | 2018-10-25 | 2019-03-22 | 内蒙古工业大学 | 一种基于编码器-解码器的神经网络蒙汉机器翻译方法 |
CN109684648A (zh) * | 2019-01-14 | 2019-04-26 | 浙江大学 | 一种多特征融合的古今汉语自动翻译方法 |
-
2019
- 2019-07-15 CN CN201910635168.2A patent/CN110502759B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015170168A (ja) * | 2014-03-07 | 2015-09-28 | 国立研究開発法人情報通信研究機構 | 単語アライメントスコア算出装置、単語アライメント装置、及びコンピュータプログラム |
CN107967262A (zh) * | 2017-11-02 | 2018-04-27 | 内蒙古工业大学 | 一种神经网络蒙汉机器翻译方法 |
CN109117483A (zh) * | 2018-07-27 | 2019-01-01 | 清华大学 | 神经网络机器翻译模型的训练方法及装置 |
CN109508462A (zh) * | 2018-10-25 | 2019-03-22 | 内蒙古工业大学 | 一种基于编码器-解码器的神经网络蒙汉机器翻译方法 |
CN109684648A (zh) * | 2019-01-14 | 2019-04-26 | 浙江大学 | 一种多特征融合的古今汉语自动翻译方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110502759A (zh) | 2019-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112541343B (zh) | 基于词对齐的半监督对抗学习跨语言摘要生成方法 | |
CN110502759B (zh) | 融入分类词典的汉越混合网络神经机器翻译集外词处理方法 | |
CN110276069B (zh) | 一种中国盲文错误自动检测方法、系统及存储介质 | |
CN111897917B (zh) | 基于多模态自然语言特征的轨道交通行业术语提取方法 | |
CN113221559B (zh) | 利用语义特征的科技创新领域中文关键短语抽取方法及系统 | |
CN110457715B (zh) | 融入分类词典的汉越神经机器翻译集外词处理方法 | |
Chang | A new approach for automatic Chinese spelling correction | |
Kapoor et al. | Hldc: Hindi legal documents corpus | |
CN112926345A (zh) | 基于数据增强训练的多特征融合神经机器翻译检错方法 | |
CN117251524A (zh) | 一种基于多策略融合的短文本分类方法 | |
CN113408307B (zh) | 一种基于翻译模板的神经机器翻译方法 | |
CN110929022A (zh) | 一种文本摘要生成方法及系统 | |
CN112507717A (zh) | 融合实体关键字特征的医疗领域实体分类方法 | |
Pal et al. | Vartani Spellcheck--Automatic Context-Sensitive Spelling Correction of OCR-generated Hindi Text Using BERT and Levenshtein Distance | |
Feng et al. | Multi-level cross-lingual attentive neural architecture for low resource name tagging | |
CN112257442A (zh) | 一种基于扩充语料库神经网络的政策文件信息提取方法 | |
Xiang et al. | A cross-guidance cross-lingual model on generated parallel corpus for classical Chinese machine reading comprehension | |
CN116795979A (zh) | 一种基于触发词增强的标签信号指导事件检测方法 | |
CN115952794A (zh) | 融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法 | |
CN115310433A (zh) | 一种针对中文文本校对的数据增强方法 | |
Cristea et al. | From scan to text. Methodology, solutions and perspectives of deciphering old cyrillic Romanian documents into the Latin script | |
Raza et al. | Saraiki Language Word Prediction And Spell Correction Framework | |
Lazemi et al. | Persian plagirisim detection using CNN s | |
CN111597827A (zh) | 一种提高机器翻译准确度的方法及其装置 | |
Yadav et al. | Different Models of Transliteration-A Comprehensive Review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |