CN110889296A

CN110889296A - 一种结合爬虫技术的实时翻译方法和装置

Info

Publication number: CN110889296A
Application number: CN201911182998.0A
Authority: CN
Inventors: 李年勇; 梁懿; 庄莉; 苏江文; 宋立华
Original assignee: State Grid Information and Telecommunication Co Ltd; Fujian Yirong Information Technology Co Ltd; Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Current assignee: State Grid Information and Telecommunication Co Ltd; Fujian Yirong Information Technology Co Ltd; Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2020-03-17

Abstract

本发明涉及一种结合爬虫技术的实时翻译方法，包括以下步骤：对原文本进行预处理，将原文本处理成实时翻译网页能够读取的格式；替换专业词语，预先建立专业词库，将进行预处理后的原文本中的专业词语替换为专业词库中对应的译文，并对替换的译文添加强制翻译网页不对译文进行翻译的表达式，生成待翻译文本；利用爬虫将待翻译文本送入翻译网页中进行翻译，得到翻译结果并返回；将翻译结果进行整理输出为翻译文本。

Description

一种结合爬虫技术的实时翻译方法和装置

技术领域

本发明涉及一种结合爬虫技术的实时翻译方法和装置，属于翻译技术领域。

背景技术

翻译是一个历史悠久的传统行业，对于国民经济和对外开放的发展无疑起着相当重要的作用，在全球经济一体化的时代，翻译已成为全世界最热门的产业之一。尤其随着中国大陆加入WTO后国际国内市场交流与融合步伐的加快，翻译市场正以前所未有的速度迅猛发展。

目前全球翻译市场的年产值超过130亿美元，亚太地区占30％。中国目前的翻译市场规模在110亿元人民币，2005年突破200亿元人民币，发展空间巨大。而且随着因特网应用范围的扩大和国际间电子商务市场的日渐成熟，此一数值将继续增加。到2007年，将网页上的外国语言翻译成为本国语言的翻译业务将达到17亿美元的市场规模。

除此之外，翻译技术还对舆论情报监管部门具有极大的诱惑力，因为日益激增的多语种政治、经济、军事等舆情信息已使得舆论情报监管部门不堪。舆情信息监测系统中，往往包含大量的海外舆情信息需要翻译，针对以上海外舆情监测语言多、翻译成本高的问题。需要企业配套对应的翻译系统，这样才能帮助海外舆论情报的监管。

当前，在人工智能技术方面处于领先互联网翻译引擎提供了最好的翻译效果，其中，基于谷歌大脑(Google Brain)的新版本Google Translate是公认最好的翻译工具。企业提供互联网实时翻译的服务方案，往往会借助谷歌Google Translate翻译工具。一种是采用采购Google翻译企业版方案，该种方案是直接使用Google提供翻译服务，但需要付费。另外一种利用爬虫技术，用爬虫程序访问Google翻译网页，获取翻译结果，该种方法无需付费。

上述两种方法，方式一使用google正式开放的有偿收费翻译接口，该方法需要付费，成本较高。方式二结合爬虫技术实现基于谷歌翻译页面的实时翻译方法，该方法免费，但在实际的使用过程中，我们发现几个问题：翻译文本长度上限为2000字，长文本无法翻译；在专业术语翻译方面，Google翻译结果可能不是最优的(特别是比较小众的行业术语)，需要能通过专业词库改善翻译结果；目前，Google翻译界面不支持提交专业词库，也就缺乏直接优化翻译结果的途径，所以无法持续获得令人满足的效果。

发明内容

为了解决上述现有技术中存在的问题，本发明提供一种结合爬虫技术的实时翻译方法和装置，能够规避翻译文本长度达到上限无法翻译问题，同时提高专业词语翻译的准确性，从而在海外舆情信息实现翻译功能领域获得比现有通用技术方案更好的效果。

本发明的技术方案如下：

技术方案一：

一种结合爬虫技术的实时翻译方法，包括以下步骤：

对原文本进行预处理，将原文本处理成实时翻译网页能够读取的格式；

替换专业词语，预先建立专业词库，将进行预处理后的原文本中的专业词语替换为专业词库中对应的译文，并对替换的译文添加强制翻译网页不对译文进行翻译的表达式，生成待翻译文本；

利用爬虫将待翻译文本送入翻译网页中进行翻译，得到翻译结果并返回；

将翻译结果进行整理输出为翻译文本。

进一步的，所述对原文本进行预处理，将原文本处理成实时翻译网页能够读取的格式的具体方法为：

根据翻译网页能够读取的文本长度，预设定一文本长度阈值；

判断原文本的长度是否超过文本长度阈值；

如原文本的长度超过文本长度阈值，则利用正则表达式对原文本进行分析，获取原文本中的断句符，根据断句符对原文本进行分段，将长文本拆分成多个长度小于文本长度阈值的多个短文本，并进行排序，对各短文本添加排序标签；

如原文本的长度未超过文本长度阈值，则不进行分段处理。

进一步的，所述利用爬虫将待翻译文本送入翻译网页中进行翻译的具体方法为：

爬虫程序的客户端将一个短文本或多个短文本的集合送入服务端作为输入；

对于任一短文本，服务端执行以下步骤：

构造http请求参数，服务端构造翻译网页http请求的固定参数和动态参数；

模拟http请求，服务端向翻译网页发起模拟http请求，将短文本送入翻译网页进行翻译，得到请求结果并返回客户端。

进一步的，所述将翻译结果进行整理输出为翻译文本的方法具体为：

如送入翻译网页进行翻译的原文本仅包括一个短文本，则将该短文本的请求结果直接输出为翻译文本；

如送入翻译网页进行翻译的原文本包括复数个短文本，则根据各短文本的排序标签对各短文本的请求结果进行排序合并后，输出为翻译文本。

技术方案二：

一种结合爬虫技术的实时翻译装置，包括存储器和处理器，所述存储器存储有指令，所述指令适于由处理器加载并执行以下步骤：

将翻译结果进行整理输出为翻译文本。

判断原文本的长度是否超过文本长度阈值；

如原文本的长度未超过文本长度阈值，则不进行分段处理。

对于任一短文本，服务端执行以下步骤：

本发明具有如下有益效果：

本发明提出一种结合分布式爬虫技术、正则表达式和专业词库替换法的方式实现海外舆情信息实时翻译方法，能够规避翻译文本长度达到上限无法翻译问题，同时提高行业术语翻译效果的特点，从而在海外舆情信息实现翻译功能领域获得比现有通用技术方案更好的效果。

附图说明

图1为本发明实施例的流程图；

图2和图3为替换专业词语后在翻译网页进行翻译的示例图；

图4为在翻译网页进行翻译的示例图；

图5为利用爬虫技术从翻译网页获取翻译结果的示例图。

具体实施方式

下面结合附图和具体实施例来对本发明进行详细的说明。

实施例一

参见图1-3，一种结合爬虫技术的实时翻译方法，包括以下步骤：

对原文本进行预处理，将原文本处理成实时翻译网页能够读取的格式；上述翻译网页可采用谷歌翻译、百度翻译等免费的翻译网页。

替换专业词语，预先建立专业词库，将进行预处理后的原文本中的专业词语替换为专业词库中对应的译文，并对替换的译文添加强制翻译网页不对译文进行翻译的表达式，生成待翻译文本；具体参见图2和图3，例如，在使用谷歌翻译网页时，通过在语句两端添加双引号可使得双引号中的语句不会被翻译，“have Gauge RepeatabilityReproducibility”和这句话的意思是“具有量测的再现性与再生性”，如果通过不做处理直接进行翻译的话，译文就会有偏颇，所以将专业词语“Gauge RepeatabilityReproducibility”直接替换成译文再加上双引号送入翻译网页进行翻译后，就不会出现翻译偏颇的情况。

将翻译结果进行整理输出为翻译文本。

本实施例通过对原文本进行预处理，保证翻译网页能够对原文本进行翻译；通过提前建立专业词库，提前替换专业词语成译文，并通过表达式保证译文不会被翻译网页翻译，确保了专业词语翻译的准确性，解决了专业词语或者行业术语翻译效果差的问题；通过爬虫技术自动将待翻译文本送入翻译网页进行翻译，大大提高了翻译的速度和效率。

实施例二

本实施不仅具备实施例一的有益效果，进一步的提出了对原文本进行预处理的具体方法以及利用爬虫技术将待翻译文本送入翻译网页进行翻译的具体方法。

根据翻译网页能够读取的文本长度，预设定一文本长度阈值；例如谷歌翻译的翻译文本上限为两千字，则设定长度阈值为两千。

判断原文本的长度是否超过文本长度阈值；

如原文本的长度超过文本长度阈值，则利用正则表达式(。|！|\！|\.|？|\？)对原文本进行分析，获取原文本中的断句符(典型断句符例如：句号、感叹号、问号、省略号等等)，根据断句符对原文本进行分段，将长文本拆分成多个长度小于文本长度阈值的多个短文本，并进行排序，对各短文本添加排序标签；

如原文本的长度未超过文本长度阈值，则不进行分段处理。

对于任一短文本，服务端执行以下步骤：

构造http请求参数，服务端构造翻译网页http请求的固定参数和动态参数；以谷歌翻译为例，每次http请求必须带有的参数包括：client、sl、tl、hl、dt、ie、oe、source、ssel、tsel、kc、tk。且每次http调用，参数tk值均不同，tk与待翻译的文字以及另一个参数tkk有关，同时tkk也是实时变化的。即动态参数包括tk和tkk，本实施例中tk和tkk的生成策略可参见以下代码：

模拟http请求，服务端向翻译网页发起模拟http请求，将短文本送入翻译网页进行翻译，得到请求结果并返回客户端,；具体参见图4，利用爬虫技术，将短文本或短文本的集合送入翻译网页进行翻译；具体参见图5，利用爬虫技术进行网络抓包，获取翻译结果。

本实施例通过正则表达式，能够将长文本分段成短文本，解除翻译网页翻译文本的长度限制；通过爬虫技术能够并发多线程向翻译网页请求翻译，翻译效率高。

实施例三

将翻译结果进行整理输出为翻译文本。

实施例四

本实施不仅具备实施例三的有益效果，进一步的提出了对原文本进行预处理的具体方法以及利用爬虫技术将待翻译文本送入翻译网页进行翻译的具体方法。

判断原文本的长度是否超过文本长度阈值；

如原文本的长度未超过文本长度阈值，则不进行分段处理。

对于任一短文本，服务端执行以下步骤：

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种结合爬虫技术的实时翻译方法，其特征在于：包括以下步骤：

将翻译结果进行整理输出为翻译文本。

2.根据权利要求1所述的一种结合爬虫技术的实时翻译方法，其特征在于，所述对原文本进行预处理，将原文本处理成实时翻译网页能够读取的格式的具体方法为：

判断原文本的长度是否超过文本长度阈值；

如原文本的长度未超过文本长度阈值，则不进行分段处理。

3.根据权利要求2所述的一种结合爬虫技术的实时翻译方法，其特征在于，所述利用爬虫将待翻译文本送入翻译网页中进行翻译的具体方法为：

对于任一短文本，服务端执行以下步骤：

4.根据权利要求3所述的一种结合爬虫技术的实时翻译方法，其特征在于，所述将翻译结果进行整理输出为翻译文本的方法具体为：

5.一种结合爬虫技术的实时翻译装置，其特征在于，包括存储器和处理器，所述存储器存储有指令，所述指令适于由处理器加载并执行以下步骤：

将翻译结果进行整理输出为翻译文本。

6.根据权利要求5所述的一种结合爬虫技术的实时翻译方法，其特征在于，所述对原文本进行预处理，将原文本处理成实时翻译网页能够读取的格式的具体方法为：

判断原文本的长度是否超过文本长度阈值；

如原文本的长度未超过文本长度阈值，则不进行分段处理。

7.根据权利要求6所述的一种结合爬虫技术的实时翻译方法，其特征在于，所述利用爬虫将待翻译文本送入翻译网页中进行翻译的具体方法为：

对于任一短文本，服务端执行以下步骤：

8.根据权利要求7所述的一种结合爬虫技术的实时翻译方法，其特征在于，所述将翻译结果进行整理输出为翻译文本的方法具体为：