CN113033220A

CN113033220A - 一种基于莱文斯坦比的文言文-现代文翻译系统构建方法

Info

Publication number: CN113033220A
Application number: CN202110407920.5A
Authority: CN
Inventors: 杜权
Original assignee: Shenyang Yaze Network Technology Co ltd
Current assignee: Shenyang Yaze Network Technology Co ltd
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2021-06-25

Abstract

本发明公开一种基于莱文斯坦比的文言文‑现代文翻译系统构建方法，步骤为：通过互联网获取文言文‑现代文双语数据；对双语数据进行数据清洗得到预处理后的双语数据；对预处理后的双语数据使用基于莱文斯坦比的句对齐方法构建文言文‑现代文双语平行语料库；使用构建好的双语平行语料库基于Tensor2Tensor开源系统训练文言文‑现代文神经机器翻译模型；将训练完成的文言文‑现代文神经机器翻译模型进行封装，部署到线上，完成文言文‑现代文神经机器翻译系统的搭建。本发明在文言文‑现代文双语平行语料库空缺的情况下实现性能较好的文言文‑现代文神经翻译系统，文言文‑现代文双语平行语料库对于其他研究者将提供极大便利。

Description

一种基于莱文斯坦比的文言文-现代文翻译系统构建方法

技术领域

本发明涉及一种翻译系统的构建方法，具体为一种基于莱文斯坦比的文言文-现代文翻译系统构建方法。

背景技术

自文化强国战略提出以来，我国经济、政治、文化的全球化发展，国与国之间的关系发展越来越密切，各国间的交流也越来越频繁。而中华上下五千年优秀传统文化的载体正是流传至今的古代文集和诗词古籍。但是由于古代汉语和现代汉语的差别较大，不仅阻碍了传统文化向国外的传播，连我们普通百姓阅读古籍都十分困难。

从国内来讲，目前古文翻译的受众群体主要是中学生、对古文有着浓厚兴趣的群组和专门从事古文研究的专业人士。对于他们而言，虽然有一定的古文翻译基础，但个别生僻词汇和短语仍然需要去查找翻译。而纸质资料查阅起来十分麻烦，在线的古文翻译系统像百度的文言文翻译，对古文的翻译依旧存在许多错误。这将对人们理解古文，了解优秀古代传统文化造成了极大的不便利。从国外来讲，外国友人所使用的在线翻译系统仅仅支持本国语言到中文的翻译，而中文到文言文的翻译却是一片空白，这将极大阻碍传统文化的全球化推广。

随着科技日新月异的发展，机器翻译技术成为人工智能里非常重要的一块领域。机器翻译，自20世纪30年代初露端倪以来，如今已取得了突破性进展。在提高翻译效率、改变翻译作业方式、促进翻译多元发展中起着至关重要的作用。随着科技的进步，机器翻译方法也在不断革新，从早期的基于规则的机器翻译，到20世纪90年代基于统计的机器翻译，再到现在随着深度学习而崛起的基于神经网络的机器翻译，每一次革新，都会为现代翻译业注入鲜活的生命力。

随着深度学习的不断发展，机器翻译中越来越多的开始采用神经网络学习方法，采用端到端的神经机器翻译(Neural Machine Translation，NMT)因此得到了快速发展。它直接使用神经网络实现源语到目标语的映射，相比于统计机器翻译，由于神经机器翻译不需要进行短语切分、词对齐等步骤，也无需句法分析等语言学知识支持，人工成本低并且开发周期短，因此成为谷歌、百度等国内外公司机器翻译系统的核心技术。

虽然现在的机器翻译技术逐渐成熟，在像英语、法语、德语等大众化语言上的翻译效果十分出色，但是对于小语种和方言支持的还是比较少的,而文言文翻译更是鲜有人来做。目前国内可以翻译小语种的平台主要是小牛翻译和百度翻译，而国际上主要是谷歌翻译。但是针对文言文-现代文的翻译平台国内外只有百度翻译少有涉及，但是目前翻译质量较低，与人工翻译文言文的水平还有一定差距。

目前无论是在国内还是国外，文言文-现代文机器翻译系统的研究都极度稀缺，文言文-现代文的平行语料更是少之又少，而且无法直接获取，文言文-现代文翻译仍处于一片空白的状态，严重阻碍了中国古代优秀传统文化的传播和推广。

发明内容

针对文言文-现代文双语数据无法直接获取平行语料搭建机器翻译系统，严重阻碍了中国古代优秀传统文化的传播和推广等不足，本发明要解决的技术问题是提供一种基于莱文斯坦比的文言文-现代文翻译系统构建方法，构建了文言文-现代文双语平行语料库，之后通过训练得到神经机器翻译系统，填补了国内外文言文-现代文机器翻译系统的空白。

为解决上述技术性问题，本发明采用的技术方案是：

本发明提供一种基于莱文斯坦比的文言文-现代文翻译系统构建方法，包括以下步骤：

1)通过互联网获取文言文-现代文双语数据；

2)对双语数据进行数据清洗得到预处理后的双语数据；

3)对预处理后的双语数据使用基于莱文斯坦比的句对齐方法构建文言文-现代文双语平行语料库；

4)使用构建好的双语平行语料库训练文言文-现代文神经机器翻译模型；

5)将训练完成的文言文-现代文神经机器翻译模型进行封装，部署到线上，完成文言文-现代文神经机器翻译系统的搭建。

步骤1)中获取文言文-现代文双语数据，步骤为：

101)使用搜索引擎得到含有文言文-现代文双语语料资源的网站作为数据来源；

102)对于文言文-现代文双语语料资源网站使用Requests库得到HTML网页；

103)对于得到的HTML网页使用Beautiful Soup库进行解析，得到文本内容；

104)对于文本内容利用正则表达式提取文言文-现代文双语数据。

步骤2)中对双语数据进行数据清洗，包括去除HTML标签方法、过滤双语数据中乱码方法、过滤双语数据中括号内容不对应方法以及过滤双语数据词数过多方法，之后得到预处理后的双语数据。

步骤3)中对权利要求3中经过预处理后的双语数据，使用基于莱文斯坦比的句对齐方法构建文言文-现代文双语平行语料库，步骤为：

301)将预处理后的双语数据进行分句处理；

302)取N句文言文和M句现代文(N>＝1，M>＝1)进行匹配，从文言文中取1句(N＝1)或依次取1～(N-1)句(N>1)与现代文的1句计算莱文斯坦比，保存比值最高的结果，将对应的文言文和现代文从初始集合中去除；

303)循环执行步骤302)，直到文言文句对匹配结束或者现代文句对匹配结束；

304)对于步骤303)中得到的匹配后的双语句对，去除莱文斯坦比得分低于第一阈值或长度比大于第二阈值的句对，完成文言文-现代文双语平行语料库的构建。

步骤4)使用构建好的双语平行语料库基于Tensor2Tensor开源系统训练文言文-现代文神经机器翻译模型，步骤为：

401)对文言文-现代文双语平行语料库数据进行分词预处理；

402)对于预处理后的数据提取校验集、训练集和测试集；

403)对于步骤402)中的训练集数据生成BPE词表，并做BPE切分生成Tensor2Tensor输入数据流；

404)对于Tensor2Tensor输入数据流进行模型训练，得到文言文-现代文神经机器翻译模型。

步骤5)将训练完成的文言文-现代文神经机器翻译模型进行封装，部署到线上，完成文言文-现代文神经机器翻译系统的搭建，步骤为：

501)将训练好的文言文-现代文神经机器翻译模型通过Flask部署到服务器端；

502)通过socket建立端口与网页的连接，完成文言文-现代文神经机器翻译系统的搭建。

本发明具有以下有益效果及优点：

1.本发明能够在文言文-现代文双语平行语料库空缺的情况下，通过互联网获取双语数据，并基于莱文斯坦比的句对齐方法构建文言文-现代文双语平行语料库，不仅能够实现性能较好的文言文-现代文神经翻译系统，而且本发明所提供的文言文-现代文双语平行语料库对于其他研究者将提供极大便利。

2.与此同时，本发明所训练的神经机器翻译系统采用了最新的Tensor2Tensor开源系统，系统翻译质量较好，可供相关文言文研究人员使用。

附图说明

图1为本发明获取互联网中双语数据的处理流程图；

图2为本发明基于莱文斯坦比的句对齐方法处理流程图；

图3为本发明训练神经机器翻译系统处理流程图；

图4为本发明线上翻译系统运行流程图；

图5为本发明实施例与其他系统翻译质量对比图。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

本发明一种基于莱文斯坦比的文言文-现代文翻译系统构建方法包括以下步骤：

1)通过互联网获取文言文-现代文双语数据；

2)对双语数据进行数据清洗得到预处理后的双语数据；

4)使用构建好的双语平行语料库基于Tensor2Tensor开源系统训练文言文-现代文神经机器翻译模型；

如图1所示，步骤1)主要是从互联网中获取文言文-现代文双语数据，具体过程如下：

步骤2)主要是对步骤1)中得到的文言文-现代文双语数据依次使用去除HTML标签方法、过滤双语数据中乱码方法、过滤双语数据中括号内容不对应方法以及过滤双语数据中词数过多方法后得到预处理后的文言文-现代文双语数据。

如图2所示，步骤3)主要是对步骤2)中经过预处理后的双语数据，使用基于莱文斯坦比的句对齐方法构建文言文-现代文双语平行语料库，具体过程如下：

301)对于步骤2)中得到的预处理后的双语数据进行分句处理；

303)循环执行步骤302)，直到文言文句对匹配结束或现代文句对匹配结束；

304)对于步骤303)中得到的匹配后的双语句对，去除莱文斯坦比得分低于第一阈值(本实施例采用0.4)或长度比大于第二阈值(本实施例采用1.3比值)的句对，完成文言文-现代文双语平行语料库的构建。

如图3所示，步骤4)主要是对步骤3)中构建好的文言文-现代文双语平行语料库使用基于Tensor2Tensor开源系统训练文言文-现代文神经机器翻译模型，具体过程如下：

401)对于步骤3)中得到的文言文-现代文双语平行语料库进行中文分词预处理；

402)对于步骤401)中预处理后的数据分别提取校验集、训练集和测试集；

403)对于步骤402)中得到的训练集数据生成BPE词表，并做BPE切分，生成Tensor2Tensor输入数据流；

404)对于步骤403)中得到的训练数据进行模型训练，得到文言文-现代文神经机器翻译模型。

如图4所示，步骤5)主要是将步骤4)中训练完成的文言文-现代文神经机器翻译模型进行封装，部署到线上，完成文言文-现代文神经机器翻译系统的搭建，具体过程如下：

501)对于步骤4)中训练好的文言文-现代文神经机器翻译模型通过Flask部署到服务器端；

如图5所示，从文言文-现代文双语语料库中随机选取一句文言文“其后人稍稍识之，多延至其家，使为弟子论学”，并使用市场上现有的三种文言文翻译系统和本发明实施例进行翻译，得到了不同的翻译结果，可以明显看出，本发明实施例的翻译结果明显优于其他三种翻译系统。

为了验证方法的有效性，将基于莱文斯坦比的文言文-现代文翻译系统在翻译任务上进行实验。具体来说分为BLEU评价和人工评价，BLEU评价属于客观的算法评价，而人工评价我们则选择了20名具有不同文言文水平的用户针对市场上现有的三种文言文翻译系统进行1000句盲选，从而评价本发明方法在实际情况中的有效性。实验结果如下所示。

表1翻译模型在两个方向的BLEU得分

表2翻译模型和其他模型人工评价对比

实验结果表明基于莱文斯坦比的文言文-现代文翻译系统构建方法能够在文言文-现代文双语平行语料极度稀缺的情况下，构建质量较好的文言文-现代文双语平行语料库，并且通过模型训练可以达到较好的翻译性能(BLEU值越高代表性能越好)，同时在实际情况下的人工评测结果中可以看出，本发明所训练的翻译模型有较高的用户认可度(用户盲选占比达59％)，说明该模型的翻译质量是比较好的。

本发明提出了一种基于莱文斯坦比的文言文-现代文翻译系统构建方法，该方法能够在文言文-现代文双语平行语料极度稀缺的情况下，通过互联网收集双语数据，利用本发明提出的句对齐算法构建质量较高的文言文-现代文双语平行语料，通过训练后得到性能较好的神经机器翻译系统，填补了国内外文言文-现代文机器翻译系统的空白。

Claims

1.一种基于莱文斯坦比的文言文-现代文翻译系统构建方法，其特征在于包括以下步骤：

1)通过互联网获取文言文-现代文双语数据；

2)对双语数据进行数据清洗得到预处理后的双语数据；

2.按权利要求1所述的基于莱文斯坦比的文言文-现代文翻译系统构建方法，其特征在于：步骤1)中获取文言文-现代文双语数据，步骤为：

3.按照权利要求1所述的基于莱文斯坦比的文言文-现代文翻译系统构建方法，其特征在于：步骤2)中对双语数据进行数据清洗，包括去除HTML标签方法、过滤双语数据中乱码方法、过滤双语数据中括号内容不对应方法以及过滤双语数据词数过多方法，之后得到预处理后的双语数据。

4.按照权利要求1所述的基于莱文斯坦比的文言文-现代文翻译系统构建方法，其特征在于：步骤3)中对权利要求3中经过预处理后的双语数据，使用基于莱文斯坦比的句对齐方法构建文言文-现代文双语平行语料库，步骤为：

301)将预处理后的双语数据进行分句处理；

5.按照权利要求1所述的基于莱文斯坦比的文言文-现代文翻译系统构建方法，其特征在于：步骤4)使用构建好的双语平行语料库基于Tensor2Tensor开源系统训练文言文-现代文神经机器翻译模型，步骤为：

401)对文言文-现代文双语平行语料库数据进行分词预处理；

402)对于预处理后的数据提取校验集、训练集和测试集；

6.按照权利要求1所述的基于莱文斯坦比的文言文-现代文翻译系统构建方法，其特征在于：步骤5)将训练完成的文言文-现代文神经机器翻译模型进行封装，部署到线上，完成文言文-现代文神经机器翻译系统的搭建，步骤为：