CN104881406B - 网页翻译方法和系统 - Google Patents

网页翻译方法和系统 Download PDF

Info

Publication number
CN104881406B
CN104881406B CN201510330503.XA CN201510330503A CN104881406B CN 104881406 B CN104881406 B CN 104881406B CN 201510330503 A CN201510330503 A CN 201510330503A CN 104881406 B CN104881406 B CN 104881406B
Authority
CN
China
Prior art keywords
word
translation
label
translated
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510330503.XA
Other languages
English (en)
Other versions
CN104881406A (zh
Inventor
李锡铭
韩子成
祁劢
刘帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Ctrip Business Co Ltd
Original Assignee
Shanghai Ctrip Business Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Ctrip Business Co Ltd filed Critical Shanghai Ctrip Business Co Ltd
Priority to CN201510330503.XA priority Critical patent/CN104881406B/zh
Publication of CN104881406A publication Critical patent/CN104881406A/zh
Application granted granted Critical
Publication of CN104881406B publication Critical patent/CN104881406B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了网页翻译方法和系统,其中方法包括:获取待翻译网页的每一标签的文字显示区域,提取标签中的待处理文字;获取每一标签的文字显示区域的大小;按每一标签翻译所述待处理文字,以生成目标语言的翻译文字,每一标签的翻译文字所占的空间小于或等于该标签的文字显示区域的大小;生成目标语言网页,所述目标语言网页的标签的布局同所述待翻译网页一致,所述目标语言网页中每一标签的文字均采用对应的所述翻译文字。本发明的网页翻译方法和系统保证了翻译后网页同待翻译网页的布局的高契合度,提高了翻译的准确性和一致性,重复利用历史数据提高了翻译效率,减少人工参与的工作量,从而降低了人工成本。

Description

网页翻译方法和系统
技术领域
本发明涉及互联网信息技术领域,特别涉及一种网页翻译方法和系统。
背景技术
现有技术中,在线站点页面的翻译采用的是将页面数据下载并打包成文本文件,然后将文本文件发送给翻译人员,翻译人员仅在文本信息的基础上翻译,翻译完成后将翻译结果发送给网页建设人员,由网页建设人员再根据翻译结果重新生成目标语言的网页,完成网页的翻译工作。由于翻译人员见到的是单纯的文本信息,无法结合翻译语境,所以翻译准确性有限。另外不同的网页处理的翻译人员不同,每个翻译人员都是在待翻译文本基础上逐条翻译,无法重复利用历史翻译数据,造成很多重复性劳动,翻译效率低下,人工成本高。此外,还存在一词多义的问题,不同的翻译人员对同一个待翻译词翻译后的翻译文字也是不一样的,由此导致同一词翻译后在网站上显示的结果不一致。
发明内容
本发明要解决的技术问题是为了克服现有技术中网页翻译准确性和一致性差、翻译效率低、人工成本高的缺陷,提供一种翻译准确、一致性好且翻译效率高的网页翻译方法和系统。
本发明是通过下述技术方案来解决上述技术问题:
本发明提供一种网页翻译方法,其特点是,包括以下步骤:
S1、获取待翻译网页的每一标签的文字显示区域,提取标签中的待处理文字;
S2、获取每一标签的文字显示区域的大小;
S3、按每一标签翻译所述待处理文字,以生成目标语言的翻译文字,每一标签的翻译文字所占的空间小于或等于该标签的文字显示区域的大小;
S4、生成目标语言网页,所述目标语言网页的标签的布局同所述待翻译网页一致,所述目标语言网页中每一标签的文字均采用对应的所述翻译文字。
本方案S1中,待翻译网页的内容包括若干文字显示区域,每个文字显示区域对应一个标签,以标签为单位分别提取网页中每个标签中的待处理文字,该待处理文字为接下去需要进一步翻译的文字。S2中,获取每一标签的文字显示区域的大小是指获取待翻译网页中每一标签的文字显示区域可以容纳不同大小和类型的字体的字符个数等相关信息。S3中,以标签为单位,翻译每个标签的待处理文字,生成每组标签对应的目标语言的翻译文字,要求生成的翻译文字在目标语言网页中对应标签的文字显示区域中以某种要求类型字体和字号显示时所占网页空间小于或者等于所在的文字显示区域的大小。S4中,所述目标语言网页的标签的布局同所述待翻译网页一致,此处是指每一标签的位置和标签在网页中所占的空间大小一致。
本方案中,由于生成的目标语言网页的标签布局同待翻译网页一致,且每一标签的文字内容不超过对应文字显示区域的大小,因此保证了翻译后生成的目标语言网页同待翻译网页页面布局的高契合度。
较佳地,S3包括以下步骤:
S31、按每一标签翻译所述待处理文字,生成若干组字符长度不同的待选翻译文字;
S32、从所述若干组待选翻译文字中选取一组所占的空间小于或等于该标签的文字显示区域的大小的待选翻译文字作为所述翻译文字。
本方案中,每一标签对应的待处理文字都需要翻译出多组文字,这些多组文字称为待选翻译文字,而翻译出的每组待选翻译文字的长度有多种,有的长,有的短,也有的一样长。根据该组标签对应的文字显示区域的大小,在前述不同字符长度的待选翻译文字中选择一组不超过该标签的文字显示区域的大小的待选翻译文字作为所述翻译文字。
较佳地,S32包括以下步骤:
S321、逐一调整所述待选翻译文字的字体大小,以生成比对应标签的待处理文字的字体大一号、相同和小一号的待选翻译字体文字;
S322、从S321中生成的字号不同的所述待选翻译字体文字中选取一组占的空间小于或等于该标签的文字显示区域的大小且最接近该标签的文字显示区域的大小的所述待选翻译字体文字作为所述翻译文字。
本方案中,对S31中生成的若干组字符长度不同的待选翻译文字进行字体和字号的调整,字体根据所述目标语言网页的需求而定,可以有多种选择,字号有三种选择,以对应标签的待处理文字的字号为参考,比其大一号、一样大和小一号三种,若干组字符长度不同的待选翻译文字经字体类型和字号大小调整后生成的文字称为待选翻译字体文字。
本方案中,多种类型字体和三种字号大小的调整,提高了所述翻译文字同其对应标签的文字显示区域的大小匹配率,更好的提高目标语言网页同待翻译网页页面布局的契合度。
较佳地,S3包括以下步骤:
S31’、采用分词算法分解所述待处理文字,以生成若干个待翻译元素词;
S32’、在翻译历史词库中查找每个待翻译元素词匹配的目标元素词,若找不到,则调用第三方翻译引擎进行翻译,以得到目标元素词,并将翻译结果增加到所述翻译历史词库中,所述翻译历史词库用于存放所有的历史翻译结果;
S33’、以S32’中的目标元素词将所述待处理文字翻译生成所述翻译文字。
本方案中,首先对待处理文字进行分词处理,从而生成若干个待翻译元素词,此待翻译元素词为分词后的短语、词组或者一个字,现有技术中分词方法有多种,可根据需要选择。然后,对每个待翻译元素词做翻译处理,此处的翻译处理也分为两个步骤,首先在以往积累的翻译历史词库中查找目标元素词对应的翻译结果,如果有,则查找命中;如果没有,再调用现有的第三方翻译引擎进行翻译,获得翻译结果。此处的翻译历史词库包括翻译累积的历史翻译结果,该翻译历史词库对于同一领域的网页的待翻译元素词的命中的概率相对第三方翻译引擎所采用的词库更高,速度更快,而且保证了同一领域网页中同一词翻译结果的相对一致性。
较佳地,S31’包括以下步骤:
S31’1、以历史分词词库为基础对所述待处理文字进行分词;
S31’2、以常用传统分词词库为基础对S31’1中未分解成功的所述待处理文字的剩余部分进行分词,并将分词结果增加到所述历史分词词库中,所述历史分词词库用于存放所有的历史待翻译元素词;
S31’3、以S31’1的分词结果和S31’2的分词结果共同生成待翻译元素词。
本方案中,历史分词词库包括以往积累的分解的所有结果。分词分为两步骤,首先采用分词算法在历史分词词库中进行分词,也就是在历史分词词库查找历史分词,所述历史分词就是以往分解过的短语、词组或者字。首先以历史分词词库为基础进行分词,是因为同一领域使用相同的技术术语等短语的概率相对其他领域要高,从而提高分词命中率,提高分词效率。
较佳地,S31’中所述分词算法为正向最大匹配算法、歧义消除规则算法或双向最大匹配算法。
本发明还提供一种网页翻译系统,其特点是,包括:
文字提取模块,用于获取待翻译网页的每一标签的文字显示区域,提取标签中的待处理文字;
区域大小获取模块,用于获取每一标签的文字显示区域的大小;
文字翻译模块,用于按每一标签翻译所述待处理文字,以生成目标语言的翻译文字,每一标签的翻译文字所占的空间小于或等于该标签的文字显示区域的大小;
网页生成模块,用于生成目标语言网页,所述目标语言网页的标签的布局同所述待翻译网页一致,所述目标语言网页中每一标签的文字均采用对应的所述翻译文字。
较佳地,所述文字翻译模块包括:
待选翻译文字生成模块,用于按每一标签翻译所述待处理文字,生成若干组字符长度不同的待选翻译文字;
文字选取模块,用于从所述若干组待选翻译文字中选取一组所占的空间小于或等于该标签的文字显示区域的大小的待选翻译文字作为所述翻译文字。
较佳地,所述文字选取模块包括:
字体大小调整模块,用于逐一调整所述待选翻译文字的字体大小,以生成比对应标签的待处理文字的字体大一号、相同和小一号的待选翻译字体文字;
翻译文字选取模块,用于从所述字体大小调整模块中生成的字号不同的翻译文字中选取一组占的空间小于或等于该标签的文字显示区域的大小且最接近该标签的文字显示区域的大小的所述待选翻译字体文字作为所述翻译文字。
较佳地,所述文字翻译模块包括:
分词模块,用于采用分词算法分解所述待处理文字,以生成若干个待翻译元素词;
元素词翻译模块,用于在翻译历史词库中查找每个待翻译元素词匹配的目标元素词,若找不到,则调用第三方翻译引擎进行翻译,以得到目标元素词,并将翻译结果增加到所述翻译历史词库中,所述翻译历史词库用于存放所有的历史翻译结果;
元素词处理模块,用于以所述元素词翻译模块中的目标元素词将所述待处理文字翻译生成所述翻译文字。
较佳地,所述分词模块包括:
第一分词模块,用于以历史分词词库为基础对所述待处理文字进行分词;
第二分词模块,用于以常用传统分词词库为基础对所述第一分词模块中未分解成功的所述待处理文字的剩余部分进行分词,并将分词结果增加到所述历史分词词库中,所述历史分词词库用于存放所有的历史待翻译元素词;
分词结果获取模块,用于以所述第一分词模块的分词结果和所述第二分词模块的分词结果共同生成待翻译元素词。
本发明的积极进步效果在于:本发明通过以每一标签为单位进行翻译,并且控制每一标签翻译后的文字所占的空间小于或等于该标签的文字显示区域的大小,从而保证了翻译后网页同待翻译网页的布局的高契合度;另外本发明的网页翻译方法和系统优先利用历史分词词库和历史翻译词库,提高了翻译的准确性和一致性,重复利用历史数据提高了翻译效率,减少人工参与的工作量,从而降低了人工成本。
附图说明
图1为本发明的实施例1的网页翻译方法的流程图。
图2为本发明的实施例2的网页翻译方法的步骤103的流程图。
图3为本发明的实施例2的网页翻译系统的示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
如图1所示,一种网页翻译方法,包括以下步骤:
步骤101、获取待翻译网页的每一标签的文字显示区域,提取标签中的待处理文字;
步骤102、获取每一标签的文字显示区域的大小;
步骤103、按每一标签翻译待处理文字,生成若干组字符长度不同的待选翻译文字;
步骤104、逐一调整待选翻译文字的字体大小,以生成比对应标签的待处理文字的字体大一号、相同和小一号的待选翻译字体文字;
步骤105、从步骤104中生成的字号不同的待选翻译字体文字中选取一组占的空间小于或等于该标签的文字显示区域的大小且最接近该标签的文字显示区域的大小的待选翻译字体文字作为翻译文字;
步骤106、生成目标语言网页,目标语言网页的标签的布局同待翻译网页一致,目标语言网页中每一标签的文字均采用对应的翻译文字。
实施例2
如图2所示,与实施例1的方法不同的是,步骤103包括以下子步骤:
步骤1031、以历史分词词库为基础采用正向最大匹配分词算法对待处理文字进行分词;
步骤1032、以常用传统分词词库为基础对步骤1031中未分解成功的待处理文字的剩余部分采用正向最大匹配分词算法进行分词,并将分词结果增加到历史分词词库中,历史分词词库用于存放所有的历史待翻译元素词;
步骤1033、以步骤1031的分词结果和步骤1032的分词结果共同生成待翻译元素词;
步骤1034、在翻译历史词库中查找每个待翻译元素词匹配的目标元素词,若找不到,则调用第三方翻译引擎进行翻译,以得到目标元素词,并将翻译结果增加到翻译历史词库中,翻译历史词库用于存放所有的历史翻译结果;
步骤1035、以步骤1034中的目标元素词将待处理文字翻译生成翻译文字。
举例说明,本实施例的网页翻译方法在将中文“今天天气很晴朗,是这样吗?”翻译成英文时,首先采用步骤1031分词,采用历史分词词库分词,分词结果可能是“今天”、“天气很晴朗”,而“是这样吗”在历史分词词库中找不到,接下去在常用传统分词词库基础上继续分词,分词结果为“是”、“这样”、“吗”。如果整个句子都采用常用传统分词词库,那最终的分词结果为“今天”、“天气”、“很”、“晴朗”、“是”、“这样”、“吗”。由此可见,优先使用历史分词词库进行分词,可以相对减少分词组数,提高分词的效率,为后续翻译提供便利,进而提高翻译效率。
另外,对于英文“beautiful”翻译成中文时有几种表达方式,具体有“美丽的”、“美好的”、“极好的”等,采用步骤1034翻译时,首先在翻译历史词库中查找“beautiful”,如果历史词库中曾经有过“beautiful”的翻译,而且翻译结果为“美丽的”,那本次在翻译历史词库中查找待翻译元素词“beautiful”匹配的目标元素词“美丽的”命中,翻译结果为“美丽的”,由此可以避免本次将“beautiful”翻译成“美好的”或“极好的”,从而保证了翻译结果的相对一致性。
本实施例中,优先利用历史分词词库和历史翻译词库,提高了翻译的准确性和一致性,重复利用历史数据提高了翻译效率,减少人工参与的工作量,从而降低了人工成本。
本实施例中,分词算法还可以采用歧义消除规则算法或双向最大匹配算法。
本实施例还包括一网页翻译系统,如图3所示,该系统包括文字提取模块、区域大小获取模块、文字翻译模块和网页生成模块。其中,文字提取模块用于获取待翻译网页的每一标签的文字显示区域,提取标签中的待处理文字;区域大小获取模块用于获取每一标签的文字显示区域的大小;文字翻译模块用于按每一标签翻译待处理文字,以生成目标语言的翻译文字,每一标签的翻译文字所占的空间小于或等于该标签的文字显示区域的大小;网页生成模块用于生成目标语言网页,目标语言网页的标签的布局同所述待翻译网页一致,目标语言网页中每一标签的文字均采用对应的翻译文字。
本实施例中,文字翻译模块包括待选翻译文字生成模块和文字选取模块。其中,待选翻译文字生成模块用于按每一标签翻译待处理文字,生成若干组字符长度不同的待选翻译文字;文字选取模块用于从若干组待选翻译文字中选取一组所占的空间小于或等于该标签的文字显示区域的大小的待选翻译文字作为翻译文字。
本实施例中,文字选取模块包括字体大小调整模块和翻译文字选取模块。其中,字体大小调整模块用于逐一调整待选翻译文字的字体大小,以生成比对应标签的待处理文字的字体大一号、相同和小一号的待选翻译字体文字;翻译文字选取模块用于从字体大小调整模块中生成的字号不同的翻译文字中选取一组占的空间小于或等于该标签的文字显示区域的大小且最接近该标签的文字显示区域的大小的待选翻译字体文字作为翻译文字。
本实施例中,文字翻译模块包括分词模块、元素词翻译模块和元素词处理模块。其中,分词模块用于采用分词算法分解所述待处理文字,以生成若干个待翻译元素词;元素词翻译模块用于在翻译历史词库中查找每个待翻译元素词匹配的目标元素词,若找不到,则调用第三方翻译引擎进行翻译,以得到目标元素词,并将翻译结果增加到翻译历史词库中,翻译历史词库用于存放所有的历史翻译结果;元素词处理模块,用于以元素词翻译模块中的目标元素词将待处理文字翻译生成翻译文字。
本实施例中,分词模块包括第一分词模块、第二分词模块和分词结果获取模块。其中,第一分词模块用于以历史分词词库为基础对待处理文字进行分词;第二分词模块用于以常用传统分词词库为基础对第一分词模块中未分解成功的待处理文字的剩余部分进行分词,并将分词结果增加到历史分词词库中,历史分词词库用于存放所有的历史待翻译元素词;分词结果获取模块用于以第一分词模块的分词结果和第二分词模块的分词结果共同生成待翻译元素词。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (11)

1.一种网页翻译方法,其特征在于,待翻译网页的内容包括若干文字显示区域,每个所述文字显示区域对应一个标签,所述网页翻译方法包括以下步骤:
S1、获取所述待翻译网页的每一标签的文字显示区域,提取所述标签中的待处理文字;
S2、获取每一标签的文字显示区域的大小;
S3、按每一标签翻译所述待处理文字,以生成目标语言的翻译文字,每一标签的翻译文字所占的空间小于或等于该标签的文字显示区域的大小;
S4、生成目标语言网页,所述目标语言网页的标签的布局同所述待翻译网页一致,所述目标语言网页中每一标签的文字均采用对应的所述翻译文字。
2.如权利要求1所述的网页翻译方法,其特征在于,S3包括以下步骤:
S31、按每一标签翻译所述待处理文字,生成若干组字符长度不同的待选翻译文字;
S32、从所述若干组待选翻译文字中选取一组所占的空间小于或等于该标签的文字显示区域的大小的待选翻译文字作为所述翻译文字。
3.如权利要求2所述的网页翻译方法,其特征在于,S32包括以下步骤:
S321、逐一调整所述待选翻译文字的字体大小,以生成比对应标签的待处理文字的字体大一号、相同和小一号的待选翻译字体文字;
S322、从S321中生成的字号不同的所述待选翻译字体文字中选取一组占的空间小于或等于该标签的文字显示区域的大小且最接近该标签的文字显示区域的大小的所述待选翻译字体文字作为所述翻译文字。
4.如权利要求1至3中任一项所述的网页翻译方法,其特征在于,S3包括以下步骤:
S31’、采用分词算法分解所述待处理文字,以生成若干个待翻译元素词;
S32’、在翻译历史词库中查找每个待翻译元素词匹配的目标元素词,若找不到,则调用第三方翻译引擎进行翻译,以得到目标元素词,并将翻译结果增加到所述翻译历史词库中,所述翻译历史词库用于存放所有的历史翻译结果;
S33’、以S32’中的目标元素词将所述待处理文字翻译生成所述翻译文字。
5.如权利要求4所述的网页翻译方法,其特征在于,S31’包括以下步骤:
S31’1、以历史分词词库为基础对所述待处理文字进行分词;
S31’2、以常用传统分词词库为基础对S31’1中未分解成功的所述待处理文字的剩余部分进行分词,并将分词结果增加到所述历史分词词库中,所述历史分词词库用于存放所有的历史待翻译元素词;
S31’3、以S31’1的分词结果和S31’2的分词结果共同生成待翻译元素词。
6.如权利要求4所述的网页翻译方法,其特征在于,S31’中所述分词算法为正向最大匹配算法、歧义消除规则算法或双向最大匹配算法。
7.一种网页翻译系统,其特征在于,包括:
文字提取模块,用于获取待翻译网页的每一标签的文字显示区域,提取标签中的待处理文字;
区域大小获取模块,用于获取每一标签的文字显示区域的大小;
文字翻译模块,用于按每一标签翻译所述待处理文字,以生成目标语言的翻译文字,每一标签的翻译文字所占的空间小于或等于该标签的文字显示区域的大小;
网页生成模块,用于生成目标语言网页,所述目标语言网页的标签的布局同所述待翻译网页一致,所述目标语言网页中每一标签的文字均采用对应的所述翻译文字。
8.如权利要求7所述的网页翻译系统,其特征在于,所述文字翻译模块包括:
待选翻译文字生成模块,用于按每一标签翻译所述待处理文字,生成若干组字符长度不同的待选翻译文字;
文字选取模块,用于从所述若干组待选翻译文字中选取一组所占的空间小于或等于该标签的文字显示区域的大小的待选翻译文字作为所述翻译文字。
9.如权利要求8所述的网页翻译系统,其特征在于,所述文字选取模块包括:
字体大小调整模块,用于逐一调整所述待选翻译文字的字体大小,以生成比对应标签的待处理文字的字体大一号、相同和小一号的待选翻译字体文字;
翻译文字选取模块,用于从所述字体大小调整模块中生成的字号不同的翻译文字中选取一组占的空间小于或等于该标签的文字显示区域的大小且最接近该标签的文字显示区域的大小的所述待选翻译字体文字作为所述翻译文字。
10.如权利要求7至9中任一项所述的网页翻译系统,其特征在于,所述文字翻译模块包括:
分词模块,用于采用分词算法分解所述待处理文字,以生成若干个待翻译元素词;
元素词翻译模块,用于在翻译历史词库中查找每个待翻译元素词匹配的目标元素词,若找不到,则调用第三方翻译引擎进行翻译,以得到目标元素词,并将翻译结果增加到所述翻译历史词库中,所述翻译历史词库用于存放所有的历史翻译结果;
元素词处理模块,用于以所述元素词翻译模块中的目标元素词将所述待处理文字翻译生成所述翻译文字。
11.如权利要求10所述的网页翻译系统,其特征在于,所述分词模块包括:
第一分词模块,用于以历史分词词库为基础对所述待处理文字进行分词;
第二分词模块,用于以常用传统分词词库为基础对所述第一分词模块中未分解成功的所述待处理文字的剩余部分进行分词,并将分词结果增加到所述历史分词词库中,所述历史分词词库用于存放所有的历史待翻译元素词;
分词结果获取模块,用于以所述第一分词模块的分词结果和所述第二分词模块的分词结果共同生成待翻译元素词。
CN201510330503.XA 2015-06-15 2015-06-15 网页翻译方法和系统 Active CN104881406B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510330503.XA CN104881406B (zh) 2015-06-15 2015-06-15 网页翻译方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510330503.XA CN104881406B (zh) 2015-06-15 2015-06-15 网页翻译方法和系统

Publications (2)

Publication Number Publication Date
CN104881406A CN104881406A (zh) 2015-09-02
CN104881406B true CN104881406B (zh) 2018-05-04

Family

ID=53948901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510330503.XA Active CN104881406B (zh) 2015-06-15 2015-06-15 网页翻译方法和系统

Country Status (1)

Country Link
CN (1) CN104881406B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105243058B (zh) * 2015-09-30 2018-04-13 北京奇虎科技有限公司 一种网页内容翻译方法及电子设备
CN105760542B (zh) * 2016-03-15 2022-07-29 腾讯科技(深圳)有限公司 一种显示控制方法、终端及服务器
CN107220267B (zh) * 2016-03-22 2020-07-14 北大方正集团有限公司 浏览器页面中文本的显示方法和装置
CN110232193B (zh) * 2019-04-28 2020-08-28 清华大学 一种结构化文本翻译方法及装置
CN110442879B (zh) * 2019-04-30 2024-02-13 华为技术有限公司 一种内容翻译的方法和终端
CN110362370B (zh) * 2019-06-14 2022-10-18 平安科技(深圳)有限公司 一种网页语言的切换方法、装置及终端设备
CN112329480A (zh) * 2019-07-19 2021-02-05 搜狗(杭州)智能科技有限公司 一种区域调整方法、装置和电子设备
CN111783508A (zh) * 2019-08-28 2020-10-16 北京京东尚科信息技术有限公司 用于处理图像的方法和装置
CN113297858A (zh) * 2020-02-24 2021-08-24 阿里巴巴集团控股有限公司 页面处理方法、系统、装置和客户端设备
CN111639504A (zh) * 2020-05-29 2020-09-08 中国经济信息社有限公司 网页的多语言翻译方法和装置及设备
US11966711B2 (en) 2021-05-18 2024-04-23 International Business Machines Corporation Translation verification and correction

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000123012A (ja) * 1998-10-15 2000-04-28 Toshiba Corp 機械翻訳装置および記録媒体
CN1851690A (zh) * 2006-06-05 2006-10-25 北京金山软件有限公司 一种翻译网页的方法和系统
CN102402516A (zh) * 2010-09-08 2012-04-04 英业达股份有限公司 以第一语言网页生成第二语言网页的系统及其方法
CN103020044A (zh) * 2012-12-03 2013-04-03 江苏乐买到网络科技有限公司 一种机器辅助网页翻译方法及其系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120240039A1 (en) * 2011-03-15 2012-09-20 Walker Digital, Llc Systems and methods for facilitating translation of documents

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000123012A (ja) * 1998-10-15 2000-04-28 Toshiba Corp 機械翻訳装置および記録媒体
CN1851690A (zh) * 2006-06-05 2006-10-25 北京金山软件有限公司 一种翻译网页的方法和系统
CN102402516A (zh) * 2010-09-08 2012-04-04 英业达股份有限公司 以第一语言网页生成第二语言网页的系统及其方法
CN103020044A (zh) * 2012-12-03 2013-04-03 江苏乐买到网络科技有限公司 一种机器辅助网页翻译方法及其系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WEB网页文件的解析及翻译引擎的设计与实现;赵志辉;《中国优秀硕士学位论文全文数据库 信息科技辑》;20130515(第5期);第I138-2101页 *

Also Published As

Publication number Publication date
CN104881406A (zh) 2015-09-02

Similar Documents

Publication Publication Date Title
CN104881406B (zh) 网页翻译方法和系统
CN109582909B (zh) 网页自动生成方法、装置、电子设备和存储介质
US8612206B2 (en) Transliterating semitic languages including diacritics
CN1135485C (zh) 利用计算机系统的日文文本字的识别
US20090043741A1 (en) Autocompletion and Automatic Input Method Correction for Partially Entered Search Query
US20130144592A1 (en) Automatic Spelling Correction for Machine Translation
CN102043808B (zh) 利用网页结构抽取双语词条的方法及设备
JP2015523659A (ja) 多言語混合検索方法およびシステム
CN104011712A (zh) 对跨语言查询建议的查询翻译进行评价
CN104239286A (zh) 同义短语的挖掘方法和装置及搜索相关内容的方法和装置
WO2008098507A1 (fr) Méthode de saisie permettant de combiner des mots de façon intelligente, système associé à la méthode de saisie et méthode de renouvellement
CN106547743B (zh) 一种进行翻译的方法及其系统
CN104598577A (zh) 一种网页正文的提取方法
CN105677725A (zh) 一种用于旅游垂直搜索引擎的前置解析方法
CN112925900B (zh) 搜索信息处理方法、装置、设备及存储介质
CN108197315A (zh) 一种建立分词索引库的方法和装置
CN111737548A (zh) 点选验证码识别方法、装置、计算机设备和存储介质
CN108595437B (zh) 文本查询纠错方法、装置、计算机设备和存储介质
CN105808615A (zh) 一种基于分词权重的文档索引生成方法和装置
US7593844B1 (en) Document translation systems and methods employing translation memories
KR20160009916A (ko) 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법
CN112183074A (zh) 一种数据增强方法、装置、设备及介质
CN107273360A (zh) 基于语义理解的中文实词提取算法
CN107818091B (zh) 文档处理方法及装置
CN102541824B (zh) 一种用以实现文档修改的方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160206

Address after: 200335 Shanghai city Changning District Admiralty Road No. 968 Building No. 16 10 floor

Applicant after: SHANGHAI XIECHENG BUSINESS CO., LTD.

Address before: 200335 Shanghai City, Changning District Fuquan Road No. 99, Ctrip network technology building

Applicant before: Ctrip computer technology (Shanghai) Co., Ltd.

GR01 Patent grant
GR01 Patent grant