CN109684648B

CN109684648B - 一种多特征融合的古今汉语自动翻译方法

Info

Publication number: CN109684648B
Application number: CN201910033155.8A
Authority: CN
Inventors: 张引; 陈琴菲
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-01-14
Filing date: 2019-01-14
Publication date: 2020-09-01
Anticipated expiration: 2039-01-14
Also published as: CN109684648A

Abstract

本发明公开了一种多特征融合的古今汉语自动翻译方法。步骤如下：1)采集文言文及其现代文译文数据、文言文词表和现代汉语单语语料数据。2)数据清洗并使用句子对齐方法构建古今汉语平行语料库。3)使用中文分词工具，对现代文和古文进行分词。4)对古文语料进行主题建模，生成主题‑词分布及词‑主题条件概率分布。5)使用现代汉语单语语料训练得到现代汉语语言模型；使用古今汉语平行语料得到其对齐词典。6)以基于注意力的循环神经网络翻译模型为基础，融合语言模型与对齐词典等统计机器翻译特征，使用古今汉语平行句对及词主题序列训练模型；7)用户输入待翻译文言文，利用6)步训练得到模型获取现代文译文。

Description

一种多特征融合的古今汉语自动翻译方法

技术领域

本发明涉及自然语言处理领域中的主题模型、语言模型、机器翻译领域，具体涉及一种多特征融合的古今汉语自动翻译方法。

背景技术

中国历史源远流长，为后人留下了卷帙浩繁的古文典籍，这些古籍见证了中华文明的历史，记录并传承了丰厚的历史和文化内涵。然而，古籍一般使用文言文书写，文字较为简练，与如今我们使用的白话文差异较大，普通人难以读懂。为此，古汉语学者开始经典古籍的翻译工作，但仅依靠数量稀少的学者无法完成全部古籍的翻译。

机器翻译(Machine Translation,MT)就是利用计算机实现了不同自然语言间自动转换的过程。机器翻译可以分为两大方向：一是基于统计的机器方法，其基本思想是从统计学的角度利用大规模平行双语语料库来学习翻译规则和翻译形式等知识，在此基础上建立翻译模型。但是统计机器翻译需要进行词对齐、短语抽取和句法分析等预处理工作，每个环节的错误将会逐步累计影响后续的翻译质量。二是基于神经网络的机器翻译，目前已成为机器翻译领域的研究热点。神经网络翻译使用编码器-解码器(Encoder-Decoder)框架，对翻译概率进行建模。其编码器将输入的源语言序列转化成一个连续、稠密的向量，其解码器将该向量解码成对应的目标语言序列，实现了源语言和目标语言间的映射。

神经网络机器翻译方法翻译效果已超越基于统计的机器翻译，一般应用于大规模的平行语料中，比如英德、英法等达到百万数量级的双语语料对。然而目前古今汉语语料库的建设正处于起步阶段，仅部分研究机构公布了古汉语单语语料库。

发明内容

本发明的目的一是利用互联网上古今汉语对齐篇及句子对齐技术完成古今汉语平行语料库的构建，二是实现多特征融合的神经网络翻译模型，对基于注意力的循环神经网络翻译模型进行改进，在其编码器端实现多序列信息编码，将更多特征知识编码入语义向量，在其解码器端融合语言模型与对齐词典，缓解未登录词问题；三是使用古今汉语平行句对训练多特征融合的神经网络翻译模型，得到古今汉语自动翻译模型，能将输入的文言文自动转换成对应现代文。

为实现上述目的，本发明采用如下技术方案：

一种多特征融合的古今汉语自动翻译方法，包括以下步骤：

1)采集古今汉语平行篇章；从输入法词库和汉语词典采集词表数据，词表数据经筛选过滤获得专有词语建立文言文词表；采集现代汉语单语语料数据；

2)对古今汉语平行篇章进行简繁转换、特殊符号去除、去重处理，使用句子对齐方法对古今汉语平行篇章进行处理，从而构建句子级对齐的古今汉语平行语料库；

3)使用中文分词工具，对古今汉语平行语料库中的现代文句子进行分词，同时使用文言文词表初始化分词工具后对古今汉语平行语料库中的古文句子进行分词；

4)基于主题模型对所有分词后的古文句子组成的古文语料进行建模，生成主题-词分布及词-主题条件概率分布，得到词序列对应的词主题序列；

5)使用现代汉语单语语料数据训练得到现代汉语语言模型；使用词对齐工具对古今汉语平行语料库进行处理，得到对齐词典；

6)以基于注意力的循环神经网络翻译模型为基础，在编码器端进行多序列信息并行编码，在解码器端融合统计机器翻译特征中的语言模型与对齐词典，使用古今汉语平行语料库及词主题序列训练该模型；

7)用户输入待翻译文言文，根据步骤2)进行简繁转换、特殊符号去除处理；根据步骤3)进行分词处理，利用步骤4)得到其对应词主题序列，最后利用步骤6)训练得到的模型获取现代文译文。

更具体的，所述的中文分词工具使用Python的Jieba工具；基于注意力的循环神经网络翻译模型构建使用PyTorch工具。

优选的，所述的步骤2)中，使用句子对齐方法对古今汉语平行篇章进行处理，具体为：

步骤2-1：利用基于长度特征的句子对齐方法，将段落中句子数量视作段落长度，并通过对数线性模型结合段落对齐模式和共现汉字特征，用动态规划的方法对古今汉语平行篇章进行段落对齐；

步骤2-2：基于步骤2-1中的段落对齐语料，利用句子对齐方法完成对齐。

优选的，所述的步骤4)中的主题模型具体设置为：

使用LDA主题模型，设置主题数K＝50，超参数α＝0.1，β＝0.01。

优选的，所述步骤5)中的训练得到现代汉语语言模型所使用工具为开源语言模型工具KenLM，使用Modified Kneser-ney smoothing平滑方法，训练得到现代汉语四元语言模型；所述步骤5)词对齐工具使用GIZA++工具。

优选的，所述神经网络翻译模型为基于注意力的循环神经网络，采用Bahdanau提出的注意力机制，网络参数设置如下：

优选的，所述的步骤6)中，在编码器端进行多序列信息并行编码，具体为：

将古文句子的词序列及步骤4)中得到词主题序列共同进行编码，编码器端输出向量的计算公式表示为：

式中，||表示向量拼接；|K|表示输入特征序列的数量；h_t表示t时刻的源语言词汇对应神经单元的输出状态；m_kt表示第k个特征序列当前时刻对应神经元的输出状态；f表示非线性激活函数。

优选的，所述的步骤6)中，在解码器端融合统计机器翻译特征中的语言模型与对齐词典，用于解决未登录词(Unknown Word,UNK)的问题，具体步骤为：

步骤6-1:获取UNK对齐信息：当Decoder端解码产生UNK时，基于注意力机制，获得UNK所对齐的源语言词语；

步骤6-2：生成翻译候选项：根据步骤6-1中得到UNK对齐的源语言词语，遍历步骤5)得到的对齐词典，生成翻译候选项；

步骤6-3：确认目标语言词：若步骤6-2中无翻译候选项，直接将UNK对应的源语言词作为翻译词；若步骤6-2中有多个翻译候选项，综合互译概率和语言模型得分来确定最终的翻译结果。

本发明相对于现有技术的有益效果为：

1)提出了一种新的基于特征融合的层次句子对齐方法。使用手工标注语料进行实验，与基于长度特征的句子对齐方法相比，本方法得到句子对齐准确率有所提高，并基于此方法完成古今汉语平行语料库的构建。

2)提出了一种多特征融合的神经网络翻译方法，相比于基于注意力的循环神经网络翻译方法，本方法将主题模型、统计机器翻译特征融合神经网络，不仅解决了未登录词问题，也提高了翻译性能。

3)采用平行语料库训练翻译模型，随着数据集的扩大，模型性能会得到提升。

4)本发明所阐述方法具有一般性，可适用于构建不同领域的双语自动翻译任务。

附图说明

图1为一种多特征融合的古今汉语翻译方法的整体流程图；

图2为神经网络翻译方法解决未登录词的流程图。

具体实施方式

以下结合具体实例以及附图对本发明作进一步详细说明。

如图1和2所示，本发明一种多特征融合的古今汉语翻译方法包括以下步骤：

1)使用Python的Requests工具和BeautifulSoup工具从互联网上文言文阅读网站如古诗文、易文言等，采集文言文及其现代文译文数据；采集输入法词库、汉语词典等词表数据，经筛选过滤获得历史人物、地名、朝代等专有词语建立文言文词表；采集人民日报语料、维基百科中文语料等现代汉语单语语料数据；

2)对数据进行清洗加工，具体包括基于正则的去噪与译文提取、基于SimHash算法的去重、基于规则的格式化等。其中，基于规则的格式化用于将网络采集原始语料加工为统一的格式，具体包括简繁转换、特殊去除、标点符号转换等步骤。然后使用基于多特征融合的层次句子对齐方法完成古今汉语平行篇章的句子对齐工作，从而构建句子级对齐的古今汉语平行语料库；

3)使用Jieba中文分词工具，对现代文句子进行分词；添加步骤1)中构建文言文词表作为用户词典，对古文句子进行分词。

4)使用古文语料训练LDA模型，得到主题-词分布及词-主题条件概率分布，将词-主题条件概率分布中概率最高的主题作为该词的主题，从而得到词序列对应的词主题序列。

5)使用现代汉语单语语料训练KenLM得到现代汉语四元语言模型；使用GIZA++工具对古今汉语平行语料进行词对齐处理，得到双语对齐概率词典。

6)以基于注意力的循环神经网络翻译模型为基础，在编码器端对词序列及其对应词主题序列信息并行编码，将两个输出向量拼接后作为最终向量输出，其公式如下：

7)在神经网络翻译模型的解码器端融合语言模型与对齐词典等统计机器翻译特征，用于解决未登录词问题，其实施流程见图2。

8)以上步骤完成整个翻译模型的构建，我们使用步骤3)得到已分词双语平行语料及步骤4)中得到词序列语料完成翻译模型的训练过程。

7)在神经网络模型翻译阶段，将用户输入待翻译文言文根据步骤2)和3)进行清洗与分词处理，利用步骤4)得到其对应词主题序列，最后利用步骤8)中训练得到模型获取现代文译文。

下面以实施例为基础，对上述方法做进一步说明，实施例中省略的步骤均按照上述方法进行实现。

实施例

文言文原文：且游猎旬日不回，中外情何以堪？

现代文译文：而且去游玩打猎十天不回来，朝廷内外人们的心情怎么受得了？

利用开源的中文分词工具Jieba分词进行分词，使用文言文词表初始化用户词典，分词结果如下：

且|游猎|旬日|不回|，|中外|情|何以堪|？

结合LDA主题模型，根据其生成的词-主题条件概率分布，得到文言文原文词序列对应主题序列，如下所示：

且/23|游猎/25|旬日/10|不回/11|，/26|中外/25|情/19|何以堪/39|？/24

以“且/23”为例，其中的数字表示“且”对应的主题。

利用构建的古今汉语平行语料库，训练多特征融合的循环神经网络，得到翻译模型。将上述文言文词序列及主题序列送入模型中，将每个词表示为50000维的one-hot向量，使用训练得到参数矩阵将其映射为1000维特征向量，参与整个翻译过程。

最后将得到翻译结果返回给用户，为“而且游猎十多天不会，朝廷内外的情况只怎能忍受得了？”。

Claims

1.一种多特征融合的古今汉语自动翻译方法，其特征在于包括以下步骤：

所述的步骤2)中，使用句子对齐方法对古今汉语平行篇章进行处理，具体为：

步骤2-2：基于步骤2-1中的段落对齐语料，利用基于长度特征的句子对齐方法完成对齐；

步骤6)中，在编码器端进行多序列信息并行编码，具体为：

式中，||表示向量拼接；|K|表示输入特征序列的数量；h_t表示t时刻的源语言词汇对应神经单元的输出状态；m_kt表示第k个特征序列当前时刻对应神经元的输出状态；f表示非线性激活函数；

所述的步骤6)中，在解码器端融合统计机器翻译特征中的语言模型与对齐词典，用于解决UNK问题，具体步骤为：

步骤6-1：获取UNK对齐信息：当Decoder端解码产生UNK时，基于注意力机制，获得UNK所对齐的源语言词语；

步骤6-3：确认目标语言词：若步骤6-2中无翻译候选项，直接将UNK对应的源语言词作为翻译词；若步骤6-2中有多个翻译候选项，综合互译概率和语言模型得分来确定最终的翻译结果；

2.根据权利要求1所述的一种多特征融合的古今汉语自动翻译方法，其特征在于所述的中文分词工具使用Python的Jieba工具；基于注意力的循环神经网络翻译模型构建使用PyTorch工具。

3.根据权利要求1所述的一种多特征融合的古今汉语自动翻译方法，其特征在于所述的步骤4)中的主题模型具体设置为：

4.根据权利要求1所述的一种多特征融合的古今汉语自动翻译方法，其特征在于，所述步骤5)中的训练得到现代汉语语言模型所使用工具为开源语言模型工具KenLM，使用Modified Kneser-ney smoothing平滑方法，训练得到现代汉语四元语言模型；

所述步骤5)词对齐工具使用GIZA++工具。

5.根据权利要求1所述的一种多特征融合的古今汉语自动翻译方法，其特征在于所述神经网络翻译模型为基于注意力的循环神经网络翻译模型，网络参数设置如下：