CN112257462A

CN112257462A - 一种基于神经机器翻译技术的超文本标记语言翻译方法

Info

Publication number: CN112257462A
Application number: CN202011212042.3A
Authority: CN
Inventors: 刘兴宇; 杜权
Original assignee: Shenyang Yaze Network Technology Co ltd
Current assignee: Shenyang Yaze Network Technology Co ltd
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2021-01-22

Abstract

本发明公开一种基于神经机器翻译技术的超文本标记语言翻译方法，从含有外文数据的网络中爬取海量数据作为超文本标记语言语料，从超文本标记语言语料中获取双语句对；对双语句对进行清洗过滤、分词、子词切分预处理，得到训练数据，并输入到神经网络模型中训练至模型收敛；对用户实时输入的超文本标记语言进行处理，提取出超文本标记语言文本中需要翻译的句子和需要保留的格式；对需要翻译的句子进行预处理，将句子标签状态进行保存并翻译；对输入句子和翻译结果进行词对齐使标签被正确添加到翻译结果中，获得与用户输入匹配的高精度译文。本发明使超文本标记语言的标签被正确的保留，获得与用户输入匹配的高精度译文，使翻译效果十分优越。

Description

一种基于神经机器翻译技术的超文本标记语言翻译方法

技术领域

本发明涉及一种超文本标记语言翻译方法，具体为基于神经机器翻译技术的超文本标记语言翻译方法。

背景技术

随着科学技术的不断进步，互联网成为了现代人必不可少的基础资源，在现在这个信息化时代中，互联网就像电力资源一样不可或缺，人们可以十分便捷地从中获取知识，获取信息。但是，在人们浏览互联网时，有一个重大的问题摆在面前——语言障碍。出于人们对翻译的需求，机器翻译技术得以快速发展，而超文本标记语言翻译是机器翻译的一个重要问题。

超文本标记语言(HTML)是在标准通用标记语言(SGML)基础上建立的一种用于描述超文本的标记语言，SGML是ISO在1986年公布的文本描述标准。超文本指含有指向其他文档的指针的文本，标记是描述或分割文本中各对象的编码。HTML不是一种编程语言，而是一种标记语言。HTML通过标记符号来标记要显示的网页中的各个部分，它具有简易性、可扩展性、平台无关性、通用性。网页的本质就是超文本标记语言，网页文件本身是一种文本文件，通过在文本文件中添加标记符，可以告诉浏览器如何显示其中的内容。标记语言是文本和与文本相关的其他信息的组合，显示关于文档结构和数据处理细节的计算机文本编码。与文本相关的其他信息(包括文本结构和演示信息等)和原始文本组合，但标有标记。

目前，对超文本标记语言的翻译需求已经越来越多了，很多人在日常生活中难免会浏览一些国外网站，而又有很多人不懂外文，或外文水平不够高，就会导致读不懂外文网站上的新闻，看不懂国外的专业学习资料，而常用的翻译工具却无法处理冗杂的标签，导致翻译结果不如人意，尤其是一句话的内部夹杂着标签的时候，通常会把句子分割开翻译成几个错误的独立句子。超文本标记语言翻译问题的研究核心是如何把超文本标记语言的样式保留到翻译结果上。传统的翻译模型在新的应用场景中显得愈发无力，尤其是当超文本标记语言结构日趋异构化之后，仅仅考虑翻译已经不足以解决实际需求。

在产业界，有很多机器翻译系统已经被研发和广泛使用，譬如搜狗翻译、谷歌翻译、小牛翻译、百度翻译等等。但是它们在处理超文本标记语言时仍有很大的缺陷，传统的在线翻译系统由于训练数据的不同，在处理标记语言时会错误地翻译出很多无需翻译的东西和乱码。而面对大规模的标记语言的翻译任务时，往往得不到想要的结果，只有当需要翻译的内容被准确地筛选出来送入翻译系统，才能最好的利用机器翻译的性能，这浪费了大量的时间，而当需要翻译的内容内部具有标签，就需要更多的时间进行处理，并且翻译结果无法体现原来内容的标签。

发明内容

针对现有技术中神经机器翻译技术无法完整有效地应用于超文本标记语言等不足，本发明要解决的技术问题是提供一种基于神经机器翻译技术的超文本标记语言翻译方法，利用海量的真实语料，使用先进的神经机器翻译技术，配合信息抽取技术和词对齐技术，达到用户对超文本标记语言翻译结果的高质量要求。

本发明基于神经机器翻译技术的超文本标记语言翻译方法，包括以下步骤：

1)通过网络爬虫技术从含有外文数据的网络中爬取海量数据作为超文本标记语言语料，利用信息抽取技术从超文本标记语言语料中获取双语句对；

2)对句对进行清洗过滤、分词、子词切分预处理，得到训练数据；

3)将训练数据输入到神经网络模型中开始训练模型至模型收敛；

4)对用户实时输入的超文本标记语言进行处理，提取出超文本标记语言文本中需要翻译的句子和需要保留的格式；

5)对需要翻译的句子进行预处理，将句子标签状态进行保存，并使用训练完成的神经机器翻译模型对句子进行翻译；

6)对输入句子和翻译结果进行词对齐使标签被正确添加到翻译结果中，获得与用户输入匹配的高精度译文。

步骤1)中，通过网络爬虫技术从网络中爬取海量数据，抽取技术从超文本标记语言语料中获取双语句对，具体为：

101)使用网络爬虫技术从网络中爬取大量的原始数据(指超1000万行的双语数据)；

102)通过信息抽取技术从超文本标记语言中将需要翻译的部分提取出来，通过这种处理，辨别出文本中字符的类型是否需要翻译，在训练过程中，模型就可以使用更符合实际需求的数据，从而进行性能更好的模型的生成。

如图1所示，首先读入超文本标记语言文本，在其中找到内容部分，如果没有内容部分则直接结束；如果找到内容部分，则在其中搜索抽取需要被翻译的句子；如果句子带有标签，则把标签进行抽取后进行保存，如果句子没有标签，则直接翻译句子。

步骤2)中，对语料进行清洗过滤、分词、子词切分预处理，在翻译任务中，源语句子和目标语句子的长度一般不会相差太多，去除长度大于250个字符的句子，并且使用长度比过滤去除长度比大于规定长度比例(本实施例取1:1.5)的句对，使用相同的分词工具对双语平行数据进行分词。

如图2所示，对数据中的双语句对，首先应判断是否长度差距过大，如果长度差距过大，则清洗句对；否则判断是否句中含有HTML标签，如果有则删除标签；对于不含有HTML标签的句子，判断句中是否含有乱码，如果有乱码则删除乱码部分；对于不含有乱码的句子，判断是否存在单词黏连、是否全部大写、是否存在重复翻译等情况，如无上述情况，则清洗完毕；如有上述情况，则进行相应清洗处理。

步骤3)中，将处理后的数据输入到神经网络模型中开始训练模型至模型收敛，使模型学习到强大的翻译能力。

步骤4)中，对用户实时输入的超文本标记语言进行处理，提取出文本中需要翻译的句子和需要保留的格式，和步骤1)采用同样的预处理流程，包括抽取需要翻译的句子，分词和子词切分方式，使送入神经机器翻译模型和训练模型时的训练数据的格式完全一致，减小数据和神经机器翻译模型的差异，减少未登录词的出现次数。

步骤5)中，对句子进行预处理，将标签状态进行保存，并使用训练完成的神经机器翻译模型的编码器对源语句子进行翻译，具体为：

501)对抽取出的句子进行预处理，分为标签部分和句子部分；

502)将句子中每个词所处的标签状态进行保存，按照标签在句子中出现的顺序对标签进行保存；

503)将抽取出的句子送入神经机器翻译模型中进行翻译，生成目标语言的翻译结果。

如图3所示，首先向机器翻译系统输入数据，在数据中找到需要翻译的句子，对其进行预处理，预处理包括分词和标签的存储，使用transformer模型对句子进行翻译后，把句子和翻译结果一同送入词对齐系统。

步骤6)中，对输入句子和翻译结果进行词对齐使标签被正确添加到翻译结果中，获得与用户输入匹配的高精度译文，具体为：

601)将源语句子与翻译结果进行词对齐处理，使每个词都获得精确的对应关系；

602)根据词对齐关系把标签添加回翻译结果中，使原句子的标签状态得以保存；

603)将处理完的句子按照抽取的顺序依次添加回初始文本中，使超文本标记语言样式得以保存。

本发明具有以下有益效果及优点：

1.本发明通过网络爬虫技术从网络中爬取海量数据，信息抽取技术从超文本标记语言语料中获取双语句对构建训练数据，训练模型可以得到高质量的神经网络机器翻译模型。在得到翻译结果后，对输入句子和翻译结果进行词对齐使标签被正确添加到翻译结果中。本发明通过词对齐技术使超文本标记语言的标签被正确的保留，获得与用户输入匹配的高精度译文。

2.本发明在翻译超文本标记语言时很好地处理了超文本标记语言格式复杂，内容标签较多的问题，并应用了先进的神经机器翻译技术，使翻译效果十分优越。

附图说明

图1为本发明基于神经机器翻译技术的超文本标记语言翻译方法中的信息抽取技术图示；

图2为本发明中训练数据清洗处理流程图示；

图3为本发明中对超文本标记语言进行翻译的过程图示；

图4为本发明中实现的词对齐效果示意图示；

图5为本发明涉及的汽车网例图(一)；

图6为本发明涉及的汽车网例图(二)。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

本发明旨在通过在神经机器翻译系统外部加入处理模块，让翻译系统能够准确地选择出需要翻译的内容，在保留原格式不变的前提下生成更好的翻译结果，对翻译系统的性能进行改善。这不仅能大大优化人们浏览外文网页时的体验，还能填补很多翻译网站功能的空白，从而促进机器翻译领域的发展。

目前，超文本标记语言翻译的主要难点有如下几条：

(1)标签干扰：超文本标记语言内部具有很多的标记信息，会对翻译模型进行干扰，如果不对其进行处理，会导致翻译结果十分的差，如何处理标签成为了一个十分重要的难点。

(2)格式保留：很多现有的系统在处理超文本标记语言的翻译时会将原来的格式丢失，在浏览翻译结果时体验十分之差，不同模块的信息掺杂在一起十分影响阅读。

(3)断句问题：如果一个句子的内部具有标签，很多系统都会倾向于将其断开翻译，翻译结果大大受损。

(4)数据稀缺：因为很少有人研究超文本标记语言的翻译，导致了相关语料库的稀少。

本发明提供一种基于神经机器翻译技术的超文本标记语言翻译方法克服了以上难点，具体包括以下步骤：

101)使用网络爬虫技术从网络中爬取大量的原始数据；

501)对抽取出的句子进行预处理，分为标签部分和句子部分；

如图4所示，源语句子中的每个词都由词对齐系统找到了对应的翻译结果中的词，同时将源语中词的状态一一添加到翻译结果中对应的词上。因为词对齐需要考虑到输入的句子可能是大批量的需求，所以定义输入的句子是一个列表，然后对列表的每一个元素进行处理，这样可以同时处理单句翻译和大量句子的请求，最终返回一个对齐列表，每一个元素对应着一句话的对齐结果。

首先对每一个元素进行strip函数处理，去除句首句尾的空格换行等干扰项。然后定义正向对齐的工具的位置加上从之前预训练模型中得到的参数“-T 3.07189-m1.21854”和对齐策略fwd_params的指令，同理定义参数为“-T 6.64282-m 0.907299”和对齐策略rev_params的反向对齐指令。接着使用subprocess.Popen函数在子进程中运行fast_align工具调用预训练模型进行正向对齐和反向对齐，在子进程全部运行结束后对结果进行判断，如果正向对齐和反向对齐得到的结果长度相等，没有对齐结果遗失就使用atools工具把正向对齐、反向对齐得到的结果进行合并得到最终的对齐结果。

本实施例以汽车网为例，如图5、图6所示，将英文网站的超文本标记语言文本输入，得到翻译结果，即可阅读中文。本发明方法很好地处理了超文本标记语言格式复杂、内容标签较多的问题，并应用了先进的神经机器翻译技术，使翻译效果十分优越。

通过数据爬虫脚本，共获取了1688万数据，然而获取到的数据并不能直接用来进行系统的训练，还需要进行分词和数据清洗。使用了jieba分词作为中文和英文的分词工具，该工具较好的完成了分词工作，使数据中大部分词语被识别出来。使用了NiuTrans开源数据清洗工具，经过长度比过滤、去除HTML标签、乱码过滤、单词黏连过滤、大写过滤和重复翻译过滤后余下1400w数据用于后续训练、校验、测试。对中文和英文的数据，使用统一的子词切分方式和词表，最终的词表大小为32001，使用transformer big模型结构训练翻译模型。

现有的翻译系统由于训练数据的不同，在处理超文本标记语言的时候会错误地翻译出很多无需翻译的东西和乱码，因此现有的机器翻译系统并不完全适用于超文本标记语言的翻译。本发明提出了一种基于神经机器翻译技术的超文本标记语言的翻译方法，利用海量的双语句对来保证机器翻译系统的性能，利用信息抽取技术保证只翻译需要翻译的内容并保存文档中的标签，通过词对齐技术使源语和翻译结果中的词一一对应，使标签状态不丢失。

本发明使用最新的Transformer模型，搭建了翻译性能非常强大的翻译系统，性能优于市面上可用的全部翻译系统，可以满足日益增添的网页浏览的需求，在翻译过程中保留全部格式，解决了断句问题，大大提升了机器翻译的用户体验。

Claims

1.一种基于神经机器翻译技术的超文本标记语言翻译方法，其特征在于包括以下步骤：

2)对双语句对进行清洗过滤、分词、子词切分预处理，得到训练数据；

2.按权利要求1所述的基于神经机器翻译技术的超文本标记语言翻译方法，其特征在于：步骤4)中，对用户实时输入的超文本标记语言进行处理，提取出文本中需要翻译的句子和需要保留的格式，包括抽取需要翻译的句子，分词和子词切分方式，使送入神经机器翻译模型和训练模型时的训练数据的格式完全一致，减小数据和神经机器翻译模型的差异，减少未登录词的出现次数。

3.按权利要求1所述的基于神经机器翻译技术的超文本标记语言翻译方法，其特征在于：步骤5)中，对句子进行预处理，将标签状态进行保存，并使用训练完成的神经机器翻译模型的编码器对源语句子进行翻译，具体为：

501)对抽取出的句子进行预处理，分为标签部分和句子部分；

4.按权利要求1所述的基于神经机器翻译技术的超文本标记语言翻译方法，其特征在于：步骤6)中，对输入句子和翻译结果进行词对齐使标签被正确添加到翻译结果中，获得与用户输入匹配的高精度译文，具体为：