CN109033094A

CN109033094A - 一种基于序列到序列神经网络模型的文言文白话文互译方法及系统

Info

Publication number: CN109033094A
Application number: CN201810789097.7A
Authority: CN
Inventors: 陈涛; 吴明芬
Original assignee: Wuyi University
Current assignee: Wuyi University
Priority date: 2018-07-18
Filing date: 2018-07-18
Publication date: 2018-12-18

Abstract

本发明提供一种基于序列到序列神经网络模型的文言文白话文互译方法及系统，通过使用一个长短时记忆网络构成的编码器对输入的文言文进行编码；使用由另一个长短时记忆网络构成的解码器对上述编码进行解码，生成对应的白话文翻译；将生成的白话文翻译与上述输入的文言文的人工标注的白话文翻译进行对比，将误差归一化后传递给编码器；经过多次迭代直到模型收敛；将需要翻译的文言文输入神经网络模型中，将网络的输出作为上述对应的白话文翻译。本发明采用基于序列到序列的人工神经网络模型来训练文言文白话文互译语料，通过翻译误差反馈机制实现训练参数的拟合，达到文言文与白话文互译的效果，满足广大用户和企业对文言文白话文翻译的实际需求。

Description

一种基于序列到序列神经网络模型的文言文白话文互译方法及系统

技术领域

本发明涉及一种自然语言处理技术领域，尤其是一种基于序列到序列神经网络模型的文言文白话文互译方法及系统。

背景技术

文言文是用“文言”这种古代书面语写成的文章。所谓“文言”，是汉语书面语的一种，产生于先秦时期，因此，文言文首先是指古代秦汉时期所写的文章，也包括后代作家模仿秦汉语言而写成的文章。从外延来看，“文言文”指古代诗、词、曲、小说以外的各体文章，主要包括散体文、赋与骈文等。几千年中华文化的核心都蕴含在文言文中，它是中华文化数千年延绵不断的主要原因之一，也是中国古人的信仰、价值观的载体。可以说，文言文就是中华文化基因图谱。

然而，近代以来，人们多以白话文进行书写、表达、著书立说，普通人每天接触的都是白话文，丧失了对文言文的阅读、书写、表达的能力。文言文具有文字简约，内容深刻，表达精准，典雅高贵，节奏铿锵等特点，是我们传承中华文化、提高自身修养不可或缺的要素。利用先进的计算机技术将文言文自动转换成白话文，有助于人们对古典文献的学习和运用；同时，利用计算机技术将白话文转换成相应的文言文，帮助人们将自己的思想用文言文的形式表达出来，同样具有广泛的需求和应用价值。因此，对文言文和白话文进行互译是一项意义深远、价值明显的课题，是自然语言处理、机器翻译等人工智能技术新的应用领域。文言文白话文互译的主要目的是应用自然语言处理技术和机器翻译技术，将数字化的文言文文本输入给计算机，计算机自动输出对应的白话文翻译文本，将数字化的白话文文本输入给计算机，计算机自动输出对应的文言文翻译文本。

随着网络信息技术的不断发展，尤其是大数据、云计算、移动互联网等技术在中国的飞速发展，互联网上积累了大量的白话文和文言文信息，人们的需求不再仅限于对已有的文言文的阅读和理解，越来越多的人希望能够在不同的场合运用和书写属于自己的文言文。同时，由于文言文存在学习门槛，伴随着人工智能、机器学习、自然语言处理技术的不断发展和信息系统应用范围的不断深化，尤其是机器翻译技术的日趋成熟，很多人希望借助计算机辅助进行文言文和白话文之间的互相翻译。也就是说，人们不仅希望看到一篇文言文，能够知道它所表达的意思，也希望将自己用白话文表达的意思能够用文言文的形式表现出来。由此看出，文言文白话文互译系统具有较大的应用需求和行业前景。

发明内容

针对现有技术的不足，本发明提供一种基于序列到序列神经网络模型的文言文白话文互译方法及系统，本发明通过使用一个长短时记忆网络(Long Short-Term MemoryNetwork，LSTM网络)构成的编码器对输入的文言文进行编码；然后使用由另一个长短时记忆网络构成的解码器对上述编码进行解码，生成对应的白话文翻译；接下来，将生成的白话文翻译与上述输入的文言文的人工标注的白话文翻译进行对比，将误差归一化后传递给编码器；经过多次迭代直到模型收敛或迭代次数达到阈值；最后，将需要翻译的文言文输入到上述由两个长短时记忆网络(一个编码器，一个解码器)构成的序列到序列神经网络模型中，将网络的输出作为上述对应的白话文翻译。

本发明的技术方案为：一种基于序列到序列神经网络模型的文言文白话文互译方法，包括以下步骤：

S1)、使用一个长短时记忆网络作为编码器，使用另一个长短时记忆网络作为译码器，通过编码器的输出作为译码器的输入将编码器和译码器拼接成一个序列到序列神经网络模型；

S2)、将人工搜集的文言文白话文互译语料按照一定比例分为训练集、验证集和测试集三部分；

S3)、将训练集的文言文输入到一个序列到序列神经网络模型中，将模型的输出与训练集中该文言文对应的白话文翻译作对比，将模型的翻译误差经过归一化后回传给模型的输入层，进行多次迭代训练，同时，使用验证集验证模型的训练效果，当模型在验证集上达到收敛或迭代次数达到阈值时，停止训练；

S4)、将测试集中的文言文输入到训练完成的序列到序列神经网络模型中，得到测试集中文言文对应的白话文翻译；

S5)、同样的，将训练集的白话文输入到另一个序列到序列神经网络模型中，将模型的输出与训练集中该白话文对应的文言文翻译作对比，将模型的翻译误差经过归一化后回传给模型的输入层，进行多次迭代训练；

同时，使用验证集验证模型的训练效果，当模型在验证集上达到收敛或迭代次数达到阈值时，停止训练；

S6)、将测试集中的白话文输入到训练完成的序列到序列神经网络模型中，得到测试集中白话文对应的文言文翻译。

上述方法中，步骤S1)中，使用一个长短时记忆网络作为编码器，使用另一个长短时记忆网络作为译码器，具体如下：长短时记忆网络(Long Short-Term Memory network，LSTM)是一种改进型的循环神经网络，通过特殊的开关门机制，它避免了普通循环神经网络存在的梯度消失问题，能够高效的学习长距离的依赖关系，在分析过程中，一个长短时记忆网络以句子序列为输入，以句子的分布式表示即句子的编码为输出，被称为编码器；另一个长短时记忆网络以上述句子编码为输入，以新的句子序列为输出，被称为译码器。

上述方法中，步骤S1)中，序列到序列神经网络模型，具体如下：

上述编码器与译码器组合在一起构成序列到序列神经网络模型，即模型的输入是句子序列，输出也是对应的句子序列；序列到序列神经网络模型结合相应的语料，能够捕捉到输入句子序列的句法、语义信息，并生成语义尽可能相同的句子序列。

上述方法中，步骤S2)中，将人工搜集的文言文白话文互译语料按照一定比例分为训练集、验证集和测试集三部分，具体如下：

搜集文言文著作以及对应的白话文译文，分别采用人工方式对文言文和白话文译文进行分句和分词，去除过于短小的、无实际语义的句子，构建文言文白话文互译语料；

然后，将上述语料分为训练集、验证集和测试集三部分，分配的比例为6:2:2或8:1:1；其中，训练集的作用是拟合序列到序列神经网络模型的参数，达到训练模型的目的；

验证集的作用是在通过训练集训练出多个模型后，为了能达到最佳效果的模型；

测试集的作用是通过训练集和验证集训练得到最优模型后，使用测试集进行模型预测。

上述技术方案中，步骤S5)中，将训练集的白话文输入到另一个序列到序列神经网络模型中，具体如下：

将上述人工搜集的文言文白话文互译语料中白话文作为另一个序列到序列神经网络模型的输入，模型对应的输出与语料中的文言文进行对比，计算训练误差。

本发明还提供一种基于序列到序列神经网络模型的文言文白话文互译系统，所述系统包括：

白话文分句分词模块，用于将文言文白话文互译语料中的白话文文档分成句子，再将句子切分成词汇序列；

文言文分句分词模块，用于将文言文白话文互译语料中的文言文文档分成句子，再将句子切分成词汇序列；

文言文到白话文翻译模块，通过训练序列到序列神经网络模型，将文言文翻译成白话文；

白话文到文言文翻译模块，通过训练另一个序列到序列神经网络模型，将白话文翻译成文言文。

本发明的有益效果为：本发明采用基于序列到序列的人工神经网络模型来训练文言文白话文互译语料，通过翻译误差反馈机制实现训练参数的拟合，达到文言文与白话文互译的效果，满足广大用户和企业对文言文白话文翻译的实际需求。

本发明通过使用两个独立的序列到序列神经网络模型分别完成文言文到白话文的翻译和白话文到文言文的翻译，整个系统实现文言文与白话文的互译。

其中，序列到序列神经网络模型是指输入输出都是序列的一类神经网络模型，如上文中将文言文句子(序列)作为输入，将对应的白话文句子(序列)作为输出。此类神经网络模型多由两个循环神经网络构成，一个循环神经网络负责编码，称为编码器；一个循环神经网络负责解码，称为解码器。本发明使用的长短时记忆网络是循环神经网络的一种。

附图说明

图1为本发明的一种基于序列到序列神经网络模型的文言文白话文互译方法的流程示意图；

图2为本发明的一个文言文分句、分词结果示意图；

图3为本发明的一个白话文分句、分词结果示意图；

图4为本发明的一个文言文翻译成白话文的结果示意图；

图5为本发明基于序列到序列神经网络模型的文言文白话文互译系统的结构示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明：

本发明提供一种基于序列到序列神经网络模型的文言文白话文互译方法及系统，本发明通过使用一个长短时记忆网络(Long Short-Term Memory Network，LSTM网络)构成的编码器对输入的文言文进行编码；然后使用由另一个长短时记忆网络构成的解码器对上述编码进行解码，生成对应的白话文翻译；接下来，将生成的白话文翻译与上述输入的文言文的人工标注的白话文翻译进行对比，将误差归一化后传递给编码器；经过多次迭代直到模型收敛或迭代次数达到阈值；最后，将需要翻译的文言文输入到上述由两个长短时记忆网络(一个编码器，一个解码器)构成的序列到序列神经网络模型中，将网络的输出作为上述对应的白话文翻译。

如图1所示，该文言文白话文互译方法，包括以下步骤：

搜集诸如《论语》、《道德经》等文言文著作、以及对应的白话文译文，分别采用人工方式对文言文和白话文译文进行分句和分词，去除过于短小的、无实际语义的句子，构建文言文白话文互译语料；

然后，将上述语料分为训练集、验证集和测试集三部分，分配的比例根据语料规模不同而不同，分配的比例为6:2:2或8:1:1；其中，训练集的作用是拟合序列到序列神经网络模型的参数，达到训练模型的目的；

之前步骤描述了将文言文翻译成白话文的系统设计方法，而利用白话文生成语义相近或相同的文言文的系统设计方法同样需要使用一个序列到序列神经网络模型，所不同的是，将上述人工搜集的文言文白话文互译语料中白话文作为另一个序列到序列神经网络模型的输入，模型对应的输出与语料中的文言文进行对比，计算训练误差。

如图2所示，对于待分析的句子“故兵贵胜，不贵久。故知兵之将，生民之司命，国家安危之主也。”

具体实施步骤如下：首先，采用基于规则的方法对上述文言文文档进行分句，结果如下：“第一句：故兵贵胜，不贵久。

第二句：故知兵之将，生民之司命，国家安危之主也。”。

然后，将第一句输入到分词软件中进行分词，分词结果如下：“故兵贵胜，不贵久。”。将第二句输入到分词软件中进行分词，分词结果如下：“故知兵之将，生民之司命，国家安危之主也。”。

最后，人工修订后的分词结果，第一句的修订结果为：“故兵贵胜，不贵久。”，第二句的修订结果为：“故知兵之将，生民之司命，国家安危之主也。”，即图2所示的结果。

对于待分析的句子，即图2中文言文文档的白话文翻译，“因此，用兵贵在速战速决，而不宜旷日持久。所以，懂得战争特点的将帅，是民众生死的掌握者，国家安危的主宰。”。具体实施步骤如下：

首先，采用基于规则的方法对上述白话文文档进行分句，结果如下：“第一句：因此，用兵贵在速战速决，而不宜旷日持久。第二句：所以，懂得战争特点的将帅，是民众生死的掌握者，国家安危的主宰。”。然后，将第一句输入到分词软件中进行分词，分词结果如下：“因此,用兵贵在速战速决,而不宜旷日持久。”，将第二句输入到分词软件中进行分词，分词结果如下：“所以，懂得战争特点的将帅，是民众生死的掌握者，国家安危的主宰。”。最后，人工修订后的分词结果，第一句不需要修订，第二句的修订结果为：“所以，懂得战争特点的将帅，是民众生死的掌握者，国家安危的主宰。”，即图3所示的结果。

如图4所示，输入系统的是以句子为单位的经过分词的文言文句子，经过基于序列到序列的文言文到白话文翻译子系统，输出对应的白话文翻译结果。

如图5所示，基于序列到序列神经网络模型的文言文白话文互译系统包括：

上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

Claims

1.一种基于序列到序列神经网络模型的文言文白话文互译方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于序列到序列神经网络模型的文言文白话文互译方法，其特征在于：步骤S1)中，使用一个长短时记忆网络作为编码器，使用另一个长短时记忆网络作为译码器，具体如下：长短时记忆网络(Long Short-Term Memory network，LSTM)为改进型的循环神经网络，通过特殊的开关门机制，能够避免普通循环神经网络存在的梯度消失问题，能够高效的学习长距离的依赖关系，在分析过程中，一个长短时记忆网络以句子序列为输入，以句子的分布式表示即句子的编码为输出，被称为编码器；另一个长短时记忆网络以上述句子编码为输入，以新的句子序列为输出，被称为译码器。

3.根据权利要求1所述的一种基于序列到序列神经网络模型的文言文白话文互译方法，其特征在于：步骤S1)中，序列到序列神经网络模型，具体如下：

4.根据权利要求1所述的一种基于序列到序列神经网络模型的文言文白话文互译方法，其特征在于：步骤S2)中，将人工搜集的文言文白话文互译语料按照一定比例分为训练集、验证集和测试集三部分，具体如下：

5.根据权利要求1所述的一种基于序列到序列神经网络模型的文言文白话文互译方法，其特征在于：步骤S5)中，将训练集的白话文输入到另一个序列到序列神经网络模型中，具体如下：

6.根据权利要求1所述的一种基于序列到序列神经网络模型的文言文白话文互译系统，其特征在于，包括：