CN110889296A - 一种结合爬虫技术的实时翻译方法和装置 - Google Patents

一种结合爬虫技术的实时翻译方法和装置 Download PDF

Info

Publication number
CN110889296A
CN110889296A CN201911182998.0A CN201911182998A CN110889296A CN 110889296 A CN110889296 A CN 110889296A CN 201911182998 A CN201911182998 A CN 201911182998A CN 110889296 A CN110889296 A CN 110889296A
Authority
CN
China
Prior art keywords
translation
text
webpage
short
original text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911182998.0A
Other languages
English (en)
Inventor
李年勇
梁懿
庄莉
苏江文
宋立华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Information and Telecommunication Co Ltd
Fujian Yirong Information Technology Co Ltd
Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Original Assignee
State Grid Information and Telecommunication Co Ltd
Fujian Yirong Information Technology Co Ltd
Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Information and Telecommunication Co Ltd, Fujian Yirong Information Technology Co Ltd, Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd filed Critical State Grid Information and Telecommunication Co Ltd
Priority to CN201911182998.0A priority Critical patent/CN110889296A/zh
Publication of CN110889296A publication Critical patent/CN110889296A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种结合爬虫技术的实时翻译方法,包括以下步骤:对原文本进行预处理,将原文本处理成实时翻译网页能够读取的格式;替换专业词语,预先建立专业词库,将进行预处理后的原文本中的专业词语替换为专业词库中对应的译文,并对替换的译文添加强制翻译网页不对译文进行翻译的表达式,生成待翻译文本;利用爬虫将待翻译文本送入翻译网页中进行翻译,得到翻译结果并返回;将翻译结果进行整理输出为翻译文本。

Description

一种结合爬虫技术的实时翻译方法和装置
技术领域
本发明涉及一种结合爬虫技术的实时翻译方法和装置,属于翻译技术领域。
背景技术
翻译是一个历史悠久的传统行业,对于国民经济和对外开放的发展无疑起着相当重要的作用,在全球经济一体化的时代,翻译已成为全世界最热门的产业之一。尤其随着中国大陆加入WTO后国际国内市场交流与融合步伐的加快,翻译市场正以前所未有的速度迅猛发展。
目前全球翻译市场的年产值超过130亿美元,亚太地区占30%。中国目前的翻译市场规模在110亿元人民币,2005年突破200亿元人民币,发展空间巨大。而且随着因特网应用范围的扩大和国际间电子商务市场的日渐成熟,此一数值将继续增加。到2007年,将网页上的外国语言翻译成为本国语言的翻译业务将达到17亿美元的市场规模。
除此之外,翻译技术还对舆论情报监管部门具有极大的诱惑力,因为日益激增的多语种政治、经济、军事等舆情信息已使得舆论情报监管部门不堪。舆情信息监测系统中,往往包含大量的海外舆情信息需要翻译,针对以上海外舆情监测语言多、翻译成本高的问题。需要企业配套对应的翻译系统,这样才能帮助海外舆论情报的监管。
当前,在人工智能技术方面处于领先互联网翻译引擎提供了最好的翻译效果,其中,基于谷歌大脑(Google Brain)的新版本Google Translate是公认最好的翻译工具。企业提供互联网实时翻译的服务方案,往往会借助谷歌Google Translate翻译工具。一种是采用采购Google翻译企业版方案,该种方案是直接使用Google提供翻译服务,但需要付费。另外一种利用爬虫技术,用爬虫程序访问Google翻译网页,获取翻译结果,该种方法无需付费。
上述两种方法,方式一使用google正式开放的有偿收费翻译接口,该方法需要付费,成本较高。方式二结合爬虫技术实现基于谷歌翻译页面的实时翻译方法,该方法免费,但在实际的使用过程中,我们发现几个问题:翻译文本长度上限为2000字,长文本无法翻译;在专业术语翻译方面,Google翻译结果可能不是最优的(特别是比较小众的行业术语),需要能通过专业词库改善翻译结果;目前,Google翻译界面不支持提交专业词库,也就缺乏直接优化翻译结果的途径,所以无法持续获得令人满足的效果。
发明内容
为了解决上述现有技术中存在的问题,本发明提供一种结合爬虫技术的实时翻译方法和装置,能够规避翻译文本长度达到上限无法翻译问题,同时提高专业词语翻译的准确性,从而在海外舆情信息实现翻译功能领域获得比现有通用技术方案更好的效果。
本发明的技术方案如下:
技术方案一:
一种结合爬虫技术的实时翻译方法,包括以下步骤:
对原文本进行预处理,将原文本处理成实时翻译网页能够读取的格式;
替换专业词语,预先建立专业词库,将进行预处理后的原文本中的专业词语替换为专业词库中对应的译文,并对替换的译文添加强制翻译网页不对译文进行翻译的表达式,生成待翻译文本;
利用爬虫将待翻译文本送入翻译网页中进行翻译,得到翻译结果并返回;
将翻译结果进行整理输出为翻译文本。
进一步的,所述对原文本进行预处理,将原文本处理成实时翻译网页能够读取的格式的具体方法为:
根据翻译网页能够读取的文本长度,预设定一文本长度阈值;
判断原文本的长度是否超过文本长度阈值;
如原文本的长度超过文本长度阈值,则利用正则表达式对原文本进行分析,获取原文本中的断句符,根据断句符对原文本进行分段,将长文本拆分成多个长度小于文本长度阈值的多个短文本,并进行排序,对各短文本添加排序标签;
如原文本的长度未超过文本长度阈值,则不进行分段处理。
进一步的,所述利用爬虫将待翻译文本送入翻译网页中进行翻译的具体方法为:
爬虫程序的客户端将一个短文本或多个短文本的集合送入服务端作为输入;
对于任一短文本,服务端执行以下步骤:
构造http请求参数,服务端构造翻译网页http请求的固定参数和动态参数;
模拟http请求,服务端向翻译网页发起模拟http请求,将短文本送入翻译网页进行翻译,得到请求结果并返回客户端。
进一步的,所述将翻译结果进行整理输出为翻译文本的方法具体为:
如送入翻译网页进行翻译的原文本仅包括一个短文本,则将该短文本的请求结果直接输出为翻译文本;
如送入翻译网页进行翻译的原文本包括复数个短文本,则根据各短文本的排序标签对各短文本的请求结果进行排序合并后,输出为翻译文本。
技术方案二:
一种结合爬虫技术的实时翻译装置,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行以下步骤:
对原文本进行预处理,将原文本处理成实时翻译网页能够读取的格式;
替换专业词语,预先建立专业词库,将进行预处理后的原文本中的专业词语替换为专业词库中对应的译文,并对替换的译文添加强制翻译网页不对译文进行翻译的表达式,生成待翻译文本;
利用爬虫将待翻译文本送入翻译网页中进行翻译,得到翻译结果并返回;
将翻译结果进行整理输出为翻译文本。
进一步的,所述对原文本进行预处理,将原文本处理成实时翻译网页能够读取的格式的具体方法为:
根据翻译网页能够读取的文本长度,预设定一文本长度阈值;
判断原文本的长度是否超过文本长度阈值;
如原文本的长度超过文本长度阈值,则利用正则表达式对原文本进行分析,获取原文本中的断句符,根据断句符对原文本进行分段,将长文本拆分成多个长度小于文本长度阈值的多个短文本,并进行排序,对各短文本添加排序标签;
如原文本的长度未超过文本长度阈值,则不进行分段处理。
进一步的,所述利用爬虫将待翻译文本送入翻译网页中进行翻译的具体方法为:
爬虫程序的客户端将一个短文本或多个短文本的集合送入服务端作为输入;
对于任一短文本,服务端执行以下步骤:
构造http请求参数,服务端构造翻译网页http请求的固定参数和动态参数;
模拟http请求,服务端向翻译网页发起模拟http请求,将短文本送入翻译网页进行翻译,得到请求结果并返回客户端。
进一步的,所述将翻译结果进行整理输出为翻译文本的方法具体为:
如送入翻译网页进行翻译的原文本仅包括一个短文本,则将该短文本的请求结果直接输出为翻译文本;
如送入翻译网页进行翻译的原文本包括复数个短文本,则根据各短文本的排序标签对各短文本的请求结果进行排序合并后,输出为翻译文本。
本发明具有如下有益效果:
本发明提出一种结合分布式爬虫技术、正则表达式和专业词库替换法的方式实现海外舆情信息实时翻译方法,能够规避翻译文本长度达到上限无法翻译问题,同时提高行业术语翻译效果的特点,从而在海外舆情信息实现翻译功能领域获得比现有通用技术方案更好的效果。
附图说明
图1为本发明实施例的流程图;
图2和图3为替换专业词语后在翻译网页进行翻译的示例图;
图4为在翻译网页进行翻译的示例图;
图5为利用爬虫技术从翻译网页获取翻译结果的示例图。
具体实施方式
下面结合附图和具体实施例来对本发明进行详细的说明。
实施例一
参见图1-3,一种结合爬虫技术的实时翻译方法,包括以下步骤:
对原文本进行预处理,将原文本处理成实时翻译网页能够读取的格式;上述翻译网页可采用谷歌翻译、百度翻译等免费的翻译网页。
替换专业词语,预先建立专业词库,将进行预处理后的原文本中的专业词语替换为专业词库中对应的译文,并对替换的译文添加强制翻译网页不对译文进行翻译的表达式,生成待翻译文本;具体参见图2和图3,例如,在使用谷歌翻译网页时,通过在语句两端添加双引号可使得双引号中的语句不会被翻译,“have Gauge RepeatabilityReproducibility”和这句话的意思是“具有量测的再现性与再生性”,如果通过不做处理直接进行翻译的话,译文就会有偏颇,所以将专业词语“Gauge RepeatabilityReproducibility”直接替换成译文再加上双引号送入翻译网页进行翻译后,就不会出现翻译偏颇的情况。
利用爬虫将待翻译文本送入翻译网页中进行翻译,得到翻译结果并返回;
将翻译结果进行整理输出为翻译文本。
本实施例通过对原文本进行预处理,保证翻译网页能够对原文本进行翻译;通过提前建立专业词库,提前替换专业词语成译文,并通过表达式保证译文不会被翻译网页翻译,确保了专业词语翻译的准确性,解决了专业词语或者行业术语翻译效果差的问题;通过爬虫技术自动将待翻译文本送入翻译网页进行翻译,大大提高了翻译的速度和效率。
实施例二
本实施不仅具备实施例一的有益效果,进一步的提出了对原文本进行预处理的具体方法以及利用爬虫技术将待翻译文本送入翻译网页进行翻译的具体方法。
进一步的,所述对原文本进行预处理,将原文本处理成实时翻译网页能够读取的格式的具体方法为:
根据翻译网页能够读取的文本长度,预设定一文本长度阈值;例如谷歌翻译的翻译文本上限为两千字,则设定长度阈值为两千。
判断原文本的长度是否超过文本长度阈值;
如原文本的长度超过文本长度阈值,则利用正则表达式(。|!|\!|\.|?|\?)对原文本进行分析,获取原文本中的断句符(典型断句符例如:句号、感叹号、问号、省略号等等),根据断句符对原文本进行分段,将长文本拆分成多个长度小于文本长度阈值的多个短文本,并进行排序,对各短文本添加排序标签;
如原文本的长度未超过文本长度阈值,则不进行分段处理。
进一步的,所述利用爬虫将待翻译文本送入翻译网页中进行翻译的具体方法为:
爬虫程序的客户端将一个短文本或多个短文本的集合送入服务端作为输入;
对于任一短文本,服务端执行以下步骤:
构造http请求参数,服务端构造翻译网页http请求的固定参数和动态参数;以谷歌翻译为例,每次http请求必须带有的参数包括:client、sl、tl、hl、dt、ie、oe、source、ssel、tsel、kc、tk。且每次http调用,参数tk值均不同,tk与待翻译的文字以及另一个参数tkk有关,同时tkk也是实时变化的。即动态参数包括tk和tkk,本实施例中tk和tkk的生成策略可参见以下代码:
Figure BDA0002291762450000081
Figure BDA0002291762450000091
模拟http请求,服务端向翻译网页发起模拟http请求,将短文本送入翻译网页进行翻译,得到请求结果并返回客户端,;具体参见图4,利用爬虫技术,将短文本或短文本的集合送入翻译网页进行翻译;具体参见图5,利用爬虫技术进行网络抓包,获取翻译结果。
进一步的,所述将翻译结果进行整理输出为翻译文本的方法具体为:
如送入翻译网页进行翻译的原文本仅包括一个短文本,则将该短文本的请求结果直接输出为翻译文本;
如送入翻译网页进行翻译的原文本包括复数个短文本,则根据各短文本的排序标签对各短文本的请求结果进行排序合并后,输出为翻译文本。
本实施例通过正则表达式,能够将长文本分段成短文本,解除翻译网页翻译文本的长度限制;通过爬虫技术能够并发多线程向翻译网页请求翻译,翻译效率高。
实施例三
一种结合爬虫技术的实时翻译装置,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行以下步骤:
对原文本进行预处理,将原文本处理成实时翻译网页能够读取的格式;上述翻译网页可采用谷歌翻译、百度翻译等免费的翻译网页。
替换专业词语,预先建立专业词库,将进行预处理后的原文本中的专业词语替换为专业词库中对应的译文,并对替换的译文添加强制翻译网页不对译文进行翻译的表达式,生成待翻译文本;具体参见图2和图3,例如,在使用谷歌翻译网页时,通过在语句两端添加双引号可使得双引号中的语句不会被翻译,“have Gauge RepeatabilityReproducibility”和这句话的意思是“具有量测的再现性与再生性”,如果通过不做处理直接进行翻译的话,译文就会有偏颇,所以将专业词语“Gauge RepeatabilityReproducibility”直接替换成译文再加上双引号送入翻译网页进行翻译后,就不会出现翻译偏颇的情况。
利用爬虫将待翻译文本送入翻译网页中进行翻译,得到翻译结果并返回;
将翻译结果进行整理输出为翻译文本。
本实施例通过对原文本进行预处理,保证翻译网页能够对原文本进行翻译;通过提前建立专业词库,提前替换专业词语成译文,并通过表达式保证译文不会被翻译网页翻译,确保了专业词语翻译的准确性,解决了专业词语或者行业术语翻译效果差的问题;通过爬虫技术自动将待翻译文本送入翻译网页进行翻译,大大提高了翻译的速度和效率。
实施例四
本实施不仅具备实施例三的有益效果,进一步的提出了对原文本进行预处理的具体方法以及利用爬虫技术将待翻译文本送入翻译网页进行翻译的具体方法。
进一步的,所述对原文本进行预处理,将原文本处理成实时翻译网页能够读取的格式的具体方法为:
根据翻译网页能够读取的文本长度,预设定一文本长度阈值;例如谷歌翻译的翻译文本上限为两千字,则设定长度阈值为两千。
判断原文本的长度是否超过文本长度阈值;
如原文本的长度超过文本长度阈值,则利用正则表达式(。|!|\!|\.|?|\?)对原文本进行分析,获取原文本中的断句符(典型断句符例如:句号、感叹号、问号、省略号等等),根据断句符对原文本进行分段,将长文本拆分成多个长度小于文本长度阈值的多个短文本,并进行排序,对各短文本添加排序标签;
如原文本的长度未超过文本长度阈值,则不进行分段处理。
进一步的,所述利用爬虫将待翻译文本送入翻译网页中进行翻译的具体方法为:
爬虫程序的客户端将一个短文本或多个短文本的集合送入服务端作为输入;
对于任一短文本,服务端执行以下步骤:
构造http请求参数,服务端构造翻译网页http请求的固定参数和动态参数;以谷歌翻译为例,每次http请求必须带有的参数包括:client、sl、tl、hl、dt、ie、oe、source、ssel、tsel、kc、tk。且每次http调用,参数tk值均不同,tk与待翻译的文字以及另一个参数tkk有关,同时tkk也是实时变化的。即动态参数包括tk和tkk,本实施例中tk和tkk的生成策略可参见以下代码:
Figure BDA0002291762450000121
Figure BDA0002291762450000131
模拟http请求,服务端向翻译网页发起模拟http请求,将短文本送入翻译网页进行翻译,得到请求结果并返回客户端,;具体参见图4,利用爬虫技术,将短文本或短文本的集合送入翻译网页进行翻译;具体参见图5,利用爬虫技术进行网络抓包,获取翻译结果。
进一步的,所述将翻译结果进行整理输出为翻译文本的方法具体为:
如送入翻译网页进行翻译的原文本仅包括一个短文本,则将该短文本的请求结果直接输出为翻译文本;
如送入翻译网页进行翻译的原文本包括复数个短文本,则根据各短文本的排序标签对各短文本的请求结果进行排序合并后,输出为翻译文本。
本实施例通过正则表达式,能够将长文本分段成短文本,解除翻译网页翻译文本的长度限制;通过爬虫技术能够并发多线程向翻译网页请求翻译,翻译效率高。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种结合爬虫技术的实时翻译方法,其特征在于:包括以下步骤:
对原文本进行预处理,将原文本处理成实时翻译网页能够读取的格式;
替换专业词语,预先建立专业词库,将进行预处理后的原文本中的专业词语替换为专业词库中对应的译文,并对替换的译文添加强制翻译网页不对译文进行翻译的表达式,生成待翻译文本;
利用爬虫将待翻译文本送入翻译网页中进行翻译,得到翻译结果并返回;
将翻译结果进行整理输出为翻译文本。
2.根据权利要求1所述的一种结合爬虫技术的实时翻译方法,其特征在于,所述对原文本进行预处理,将原文本处理成实时翻译网页能够读取的格式的具体方法为:
根据翻译网页能够读取的文本长度,预设定一文本长度阈值;
判断原文本的长度是否超过文本长度阈值;
如原文本的长度超过文本长度阈值,则利用正则表达式对原文本进行分析,获取原文本中的断句符,根据断句符对原文本进行分段,将长文本拆分成多个长度小于文本长度阈值的多个短文本,并进行排序,对各短文本添加排序标签;
如原文本的长度未超过文本长度阈值,则不进行分段处理。
3.根据权利要求2所述的一种结合爬虫技术的实时翻译方法,其特征在于,所述利用爬虫将待翻译文本送入翻译网页中进行翻译的具体方法为:
爬虫程序的客户端将一个短文本或多个短文本的集合送入服务端作为输入;
对于任一短文本,服务端执行以下步骤:
构造http请求参数,服务端构造翻译网页http请求的固定参数和动态参数;
模拟http请求,服务端向翻译网页发起模拟http请求,将短文本送入翻译网页进行翻译,得到请求结果并返回客户端。
4.根据权利要求3所述的一种结合爬虫技术的实时翻译方法,其特征在于,所述将翻译结果进行整理输出为翻译文本的方法具体为:
如送入翻译网页进行翻译的原文本仅包括一个短文本,则将该短文本的请求结果直接输出为翻译文本;
如送入翻译网页进行翻译的原文本包括复数个短文本,则根据各短文本的排序标签对各短文本的请求结果进行排序合并后,输出为翻译文本。
5.一种结合爬虫技术的实时翻译装置,其特征在于,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行以下步骤:
对原文本进行预处理,将原文本处理成实时翻译网页能够读取的格式;
替换专业词语,预先建立专业词库,将进行预处理后的原文本中的专业词语替换为专业词库中对应的译文,并对替换的译文添加强制翻译网页不对译文进行翻译的表达式,生成待翻译文本;
利用爬虫将待翻译文本送入翻译网页中进行翻译,得到翻译结果并返回;
将翻译结果进行整理输出为翻译文本。
6.根据权利要求5所述的一种结合爬虫技术的实时翻译方法,其特征在于,所述对原文本进行预处理,将原文本处理成实时翻译网页能够读取的格式的具体方法为:
根据翻译网页能够读取的文本长度,预设定一文本长度阈值;
判断原文本的长度是否超过文本长度阈值;
如原文本的长度超过文本长度阈值,则利用正则表达式对原文本进行分析,获取原文本中的断句符,根据断句符对原文本进行分段,将长文本拆分成多个长度小于文本长度阈值的多个短文本,并进行排序,对各短文本添加排序标签;
如原文本的长度未超过文本长度阈值,则不进行分段处理。
7.根据权利要求6所述的一种结合爬虫技术的实时翻译方法,其特征在于,所述利用爬虫将待翻译文本送入翻译网页中进行翻译的具体方法为:
爬虫程序的客户端将一个短文本或多个短文本的集合送入服务端作为输入;
对于任一短文本,服务端执行以下步骤:
构造http请求参数,服务端构造翻译网页http请求的固定参数和动态参数;
模拟http请求,服务端向翻译网页发起模拟http请求,将短文本送入翻译网页进行翻译,得到请求结果并返回客户端。
8.根据权利要求7所述的一种结合爬虫技术的实时翻译方法,其特征在于,所述将翻译结果进行整理输出为翻译文本的方法具体为:
如送入翻译网页进行翻译的原文本仅包括一个短文本,则将该短文本的请求结果直接输出为翻译文本;
如送入翻译网页进行翻译的原文本包括复数个短文本,则根据各短文本的排序标签对各短文本的请求结果进行排序合并后,输出为翻译文本。
CN201911182998.0A 2019-11-27 2019-11-27 一种结合爬虫技术的实时翻译方法和装置 Pending CN110889296A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911182998.0A CN110889296A (zh) 2019-11-27 2019-11-27 一种结合爬虫技术的实时翻译方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911182998.0A CN110889296A (zh) 2019-11-27 2019-11-27 一种结合爬虫技术的实时翻译方法和装置

Publications (1)

Publication Number Publication Date
CN110889296A true CN110889296A (zh) 2020-03-17

Family

ID=69749059

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911182998.0A Pending CN110889296A (zh) 2019-11-27 2019-11-27 一种结合爬虫技术的实时翻译方法和装置

Country Status (1)

Country Link
CN (1) CN110889296A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523330A (zh) * 2020-04-13 2020-08-11 北京字节跳动网络技术有限公司 用于生成文本的方法、装置、电子设备和介质
CN112507737A (zh) * 2020-12-22 2021-03-16 航天科工网络信息发展有限公司 一种基于标签的文本翻译系统
CN113761953A (zh) * 2021-08-25 2021-12-07 深圳市道通科技股份有限公司 一种基于翻译引擎的专业词汇的翻译方法、工具及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100223047A1 (en) * 2009-03-02 2010-09-02 Sdl Plc Computer-assisted natural language translation
CN103020044A (zh) * 2012-12-03 2013-04-03 江苏乐买到网络科技有限公司 一种机器辅助网页翻译方法及其系统
CN105573981A (zh) * 2015-12-17 2016-05-11 厦门市美亚柏科信息股份有限公司 一种提取中文人名地名的方法及装置
CN105760368A (zh) * 2016-03-11 2016-07-13 张广睿 一种文档文字的深度处理方法
CN106250375A (zh) * 2016-08-09 2016-12-21 北京百度网讯科技有限公司 翻译处理方法及装置
CN109766560A (zh) * 2019-01-14 2019-05-17 姚珍强 翻译方法、系统、终端以及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100223047A1 (en) * 2009-03-02 2010-09-02 Sdl Plc Computer-assisted natural language translation
CN103020044A (zh) * 2012-12-03 2013-04-03 江苏乐买到网络科技有限公司 一种机器辅助网页翻译方法及其系统
CN105573981A (zh) * 2015-12-17 2016-05-11 厦门市美亚柏科信息股份有限公司 一种提取中文人名地名的方法及装置
CN105760368A (zh) * 2016-03-11 2016-07-13 张广睿 一种文档文字的深度处理方法
CN106250375A (zh) * 2016-08-09 2016-12-21 北京百度网讯科技有限公司 翻译处理方法及装置
CN109766560A (zh) * 2019-01-14 2019-05-17 姚珍强 翻译方法、系统、终端以及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
编程之路从0到1: ""Python 爬虫之Google翻译实现"", 《HTTPS://BLOG.CSDN.NET/YINGSHUKUN/ARTICLE/DETAILS/53470424》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523330A (zh) * 2020-04-13 2020-08-11 北京字节跳动网络技术有限公司 用于生成文本的方法、装置、电子设备和介质
CN112507737A (zh) * 2020-12-22 2021-03-16 航天科工网络信息发展有限公司 一种基于标签的文本翻译系统
CN113761953A (zh) * 2021-08-25 2021-12-07 深圳市道通科技股份有限公司 一种基于翻译引擎的专业词汇的翻译方法、工具及电子设备

Similar Documents

Publication Publication Date Title
CN111666401B (zh) 基于图结构的公文推荐方法、装置、计算机设备及介质
CN110889296A (zh) 一种结合爬虫技术的实时翻译方法和装置
CN111680634B (zh) 公文文件处理方法、装置、计算机设备及存储介质
CN110580308B (zh) 信息审核方法及装置、电子设备、存储介质
CN110134780B (zh) 文档摘要的生成方法、装置、设备、计算机可读存储介质
US20220237567A1 (en) Chatbot system and method for applying for opportunities
CN112418812A (zh) 分布式全链路自动化智能通关系统、方法及存储介质
CN111143505A (zh) 文档处理方法、装置、介质及电子设备
CN110287405A (zh) 情感分析的方法、装置和存储介质
JP2023036681A (ja) タスク処理方法、処理装置、電子機器、記憶媒体及びコンピュータプログラム
CN114692628A (zh) 样本生成方法、模型训练方法、文本抽取方法和装置
CN107341152B (zh) 一种参数输入的方法及装置
CN112749639B (zh) 模型训练方法、装置、计算机设备和存储介质
CN113296752A (zh) 生成api文档的方法、系统、设备及存储介质
CN112418813A (zh) 基于智能解析识别的aeo资质智能评级管理系统、方法及存储介质
CN112711943A (zh) 一种维吾尔文语种识别方法、装置及存储介质
CN117195886A (zh) 基于人工智能的文本数据处理方法、装置、设备及介质
JP5963310B2 (ja) 情報処理装置、情報処理方法、及び、情報処理プログラム
CN115238070A (zh) 一种敏感信息的检测方法、装置、电子设备及存储介质
CN112732423B (zh) 流程迁移方法、装置、设备及介质
CN110728131A (zh) 一种分析文本属性的方法和装置
CN114048753A (zh) 词义识别模型训练、词义判断方法、装置、设备及介质
CN114661746A (zh) 语句转换方法、装置、电子设备及存储介质
CN113642337A (zh) 数据处理方法和装置、翻译方法、电子设备以及计算机可读存储介质
CN113743982A (zh) 广告投放方案推荐方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200317

RJ01 Rejection of invention patent application after publication