CN111639504A - 网页的多语言翻译方法和装置及设备 - Google Patents

网页的多语言翻译方法和装置及设备 Download PDF

Info

Publication number
CN111639504A
CN111639504A CN202010474136.1A CN202010474136A CN111639504A CN 111639504 A CN111639504 A CN 111639504A CN 202010474136 A CN202010474136 A CN 202010474136A CN 111639504 A CN111639504 A CN 111639504A
Authority
CN
China
Prior art keywords
translated
array
tag
label
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010474136.1A
Other languages
English (en)
Inventor
窦海勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Economic Information Service Co ltd
Original Assignee
China Economic Information Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Economic Information Service Co ltd filed Critical China Economic Information Service Co ltd
Priority to CN202010474136.1A priority Critical patent/CN111639504A/zh
Publication of CN111639504A publication Critical patent/CN111639504A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种网页的多语言翻译方法,包括:在翻译指令被触发后,获取所要求翻译的目标网页的待翻译区域;将待翻译区域解析为标签数组和待翻译文本数组;其中,标签数组为多个标签的有序序列;待翻译文本数组为多个待翻译文本的有序序列;待翻译文本为位于两个标签之间的字符串;基于翻译指令中的初始语言和目标语言,对待翻译文本数组进行翻译,得到目标文本数组;将标签数组和目标文本数组组合为目标区域,并将目标网页中的待翻译区域更新为目标区域,可以有效解决相关技术中维护繁琐的问题,使得网页的多语言翻译更加便捷。

Description

网页的多语言翻译方法和装置及设备
技术领域
本申请涉及互联网技术领域,尤其涉及一种网页的多语言翻译方法和装置及设备。
背景技术
随着计算机技术的发展,Web项目开发技术逐渐成熟,用户对项目中超文本标记语言(Hyper Text Markup Language,HTML)网页的多语言翻译需求越来越高。其中,在对网页的多语言翻译相关技术中,主要依靠开发人员在开发Web项目的编程阶段,在源代码中标记HTML网页中要翻译的语句,并创建多语言资源文件,对这些要翻译的语句进行多种语言翻译,对应记录在多语言资源文件中。应用中,获取到用户对于某一HTML网页的翻译请求后,便依据多语言资源文件对该HTML网页中已标记的语句进行翻译并显示。
但是,在上述网页多语言翻译相关技术中,当需要对HTML网页中的文本进行修改或添加时,开发人员需要对多语言资源文件也进行相应的修改,这就使得项目开发效率较低,维护繁琐。
发明内容
有鉴于此,本申请提出了一种网页的多语言翻译方法,可以有效提高项目开发效率,解决维护繁琐的问题。
根据本申请的一方面,提供了一种网页的多语言翻译方法,包括:
在翻译指令被触发后,获取所要求翻译的目标网页的待翻译区域;
将所述待翻译区域解析为标签数组和待翻译文本数组;其中,所述标签数组为多个标签的有序序列;所述待翻译文本数组为多个待翻译文本的有序序列;所述待翻译文本为位于两个所述标签之间的字符串;
基于所述翻译指令中的初始语言和目标语言,对所述待翻译文本数组进行翻译,得到目标文本数组;
将所述标签数组和所述目标文本数组组合为目标区域,并将所述目标网页中的所述待翻译区域更新为所述目标区域。
在一种可能的实现方式中,所述标签数组包括标准标签、组合标签和空标签中的至少一种;
所述标准标签为:以“<”开始,以“>”结束,且内部没有“<”和“>”的字符串;
所述组合标签为:多个所述标准标签的连接合并;
所述空标签为:一个空字符串。
在一种可能的实现方式中,将所述待翻译区域解析为标签数组和待翻译文本数组,包括:
对所述待翻译区域按照顺序进行所述标签的搜索;
在搜索到所述标签时,根据当前标签的出现顺序以及当前标签相邻的字符串的特点,确定所述标签数组和所述待翻译文本数组;其中,所述当前标签为在对所述待翻译区域进行标签搜索时当前所搜索到的标签;
在搜索完所述待翻译区域且未搜索到所述标签时,将所述待翻译区域中的字符串进行预处理后追加到当前待翻译文本数组的尾部,并在当前标签数组的尾部追加两个空标签。
在一种可能的实现方式中,在搜索到所述标签时,根据当前标签的出现顺序以及当前标签相邻的字符串的特点,确定所述标签数组和所述待翻译文本数组,包括:
在所述当前标签为第一个标签时,且所述当前标签之前的字符串不是空字符串时,在所述当前标签数组的尾部追加一个空标签,并将所述当前标签之前的字符串进行预处理后追加到当前待翻译文本数组的尾部;
在所述当前标签不是第一个标签,且所述当前标签的前一个标签与所述当前标签之间的字符串不是空字符串时,将所述当前标签的前一个标签追加到所述当前标签数组的尾部,并将所述当前标签的前一个标签与所述当前标签之间的字符串进行预处理后追加到当前待翻译文本数组的尾部;
在所述当前标签不是第一个标签,且所述当前标签的前一个标签与所述当前标签之间的字符串为空字符串时,将所述当前标签的前一个标签与所述当前标签连接合并为一个组合标签;
在所述当前标签为最后一个标签,且所述当前标签之后的字符串不为空字符串时,将所述当前标签追加到当前标签数组的尾部后,将所述当前标签之后的字符串预处理后追加到当前待翻译文本数组的尾部,并在当前标签数组的尾部追加一个空标签;
在所述当前标签为最后一个标签,且所述当前标签之后的字符串为空字符串时,将所述当前标签追加到当前标签数组的尾部。
在一种可能的实现方式中,对所述待翻译区域按照顺序进行所述标签的搜索,包括:
在所述待翻译区域中从前到后依次进行字符比较,根据字符比较结果确定所述当前标签的出现顺序。
在一种可能的实现方式中,对字符串进行预处理,包括:将所述字符串中预定义的HTML实体转换为字符。
在一种可能的实现方式中,对所述待翻译文本数组进行翻译时,基于应用程序编程接口调用翻译工具的翻译接口,对所述待翻译文本数组进行翻译。
在一种可能的实现方式中,将所述标签数组和所述目标文本数字组合为目标区域时,按照对所述待翻译区域进行解析时所得到的所述待翻译区域、所述标签数组和所述待翻译文本数组之间的逻辑关系进行组合。
根据本申请的另一方面,还提供了一种网页的多语言翻译装置,包括待翻译区域获取模块、待翻译区域解析模块、文本翻译模块、文本组合模块和区域更新模块;
所述待翻译区域获取模块,被配置为在翻译指令被触发后,获取所要求翻译的目标网页的待翻译区域;
所述待翻译区域解析模块,被配置为将所述待翻译区域解析为标签数组和待翻译文本数组;其中,所述标签数组为多个标签的有序序列;所述待翻译文本数组为多个待翻译文本的有序序列;所述待翻译文本为位于两个所述标签之间的字符串;
所述文本翻译模块,被配置为基于所述翻译指令中的初始语言和目标语言,对所述待翻译文本数组进行翻译,得到目标文本数组;
所述文本组合模块,被配置为将所述标签数组和所述目标文本数组组合为目标区域;
所述区域更新模块,被配置为将所述目标网页中的所述待翻译区域更新为所述目标区域。
根据本申请的一方面,还提供了一种网页的多语言翻译设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令时实现前面任一所述的方法。
本申请实施例的网页的多语言翻译方法,通过将待翻译区域解析为标签数组和待翻译文本数组,进而再基于翻译指令中的初始语言和目标语言,对待翻译文本数组进行翻译,得到目标文本数组,最后再将标签数组和目标文本数组进行组合后替换原目标网页中的待翻译区域,即可完成对目标网页中的待翻译区域的翻译。在本申请实施例的网页的多语言翻译方法中,不需要依据多语言资源文件即可对目标网页标记的文本进行翻译,进而也就不需要进行多语言资源文件的维护,最终有效解决了相关技术中维护繁琐的问题,使得网页的多语言翻译更加便捷。
根据下面参考附图对示例性实施例的详细说明,本申请的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本申请的示例性实施例、特征和方面,并且用于解释本申请的原理。
图1示出本申请实施例的网页的多语言翻译方法的流程图;
图2示出本申请另一实施例的网页的多语言翻译方法的流程示意图;
图3示出本申请实施例的网页的多语言翻译方法中,待翻译区域、标签数组、待翻译文本数组、目标区域及目标文本数组的逻辑关系示意图;
图4示出本申请实施例的网页的多语言翻译装置的结构框图;
图5示出本申请实施例的网页的多语言翻译设备的结构框图。
具体实施方式
以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本申请,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本申请同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本申请的主旨。
图1示出根据本申请实施例的网页的多语言翻译方法的流程图。图2示出本申请另一实施例的网页的多语言翻译方法的流程示意图。如图1和图2所示,该方法包括:步骤S100,在翻译指令被触发后,获取所要求翻译的目标网页的待翻译区域。其中,应当指出的是,翻译指令指的是用户通过点击或选取等操作触发的用于对目标网页进行翻译的操作指令。该操作指令携带有目标网页的待翻译区域、目标网页的初始语言以及翻译后的目标语言。同时,还需要指出的是,目标网页可以为Web项目研发中的超文本标记语言(HTML)网页,也可以为其他包含有字符串和标签的网页,此处不对目标网页进行具体限定。待翻译区域则为目标网页中的一部分,是目标网页中用户所选取的需要翻译的一个字符串,该字符串通常包含标签和文本两部分内容。
步骤S200,将待翻译区域解析为标签数组和待翻译文本数组。此处,需要解释说明的是,标签数组为多个标签的有序序列。即,标签数组为待翻译区域中所包含的多个标签的有序序列。待翻译文本数组则为多个待翻译文本的有序序列。其中,待翻译文本为位于两个标签之间的字符串。即,每两个相邻的标签之间存在一个待翻译文本。标签数组不需要翻译,待翻译文本数组中的待翻译文本则是目标网页中需要进行翻译的内容。
步骤S300,基于翻译指令中的初始语言和目标语言,对待翻译文本数组进行翻译,得到目标文本数组。进而再通过步骤S400,将标签数组和目标文本数组组合为目标区域,并将目标网页中的待翻译区域更新为目标区域。
由此,本申请实施例的网页的多语言翻译方法,通过将待翻译区域解析为标签数组和待翻译文本数组,进而再基于翻译指令中的初始语言和目标语言,对待翻译文本数组进行翻译,得到目标文本数组,最后再将标签数组和目标文本数组进行组合后替换原目标网页中的待翻译区域,即可完成对目标网页中的待翻译区域的翻译。在本申请实施例的网页的多语言翻译方法中,不需要依据多语言资源文件即可对目标网页标记的文本进行翻译,进而也就不需要进行多语言资源文件的维护,最终有效解决了相关技术中维护繁琐的问题,使得网页的多语言翻译更加便捷。
同时,通过将待翻译区域解析为标签数组和待翻译文本数组,对待翻译文本数组进行翻译后即可实现对目标网页中标记文本的翻译,这也就实现了对网页的实时翻译的功能,从而有效提高了翻译效率。
其中,在本申请实施例的网页的多语言翻译方法中,标签数组包括标准标签、组合标签和空标签中的至少一种。标准标签指的是:以“<”开始,以“>”结束,且内部没有“<”和“>”的字符串。组合标签指的是:多个标准标签的连接合并。空标签则指的是:一个空字符串。
根据前面所述,待翻译文本数组为多个待翻译文本的有序序列,待翻译文本为一个位于两个相邻的标签之间的字符串。其中,在对待翻译区域解析为标签数组和待翻译文本数组的过程中,所得到的待翻译区域、标签数组和待翻译文本数组之间的逻辑关系可以参阅图3所示。
即,参阅图3,待翻译区域以第一个标签(tagArray[0])开始,后跟第一个待翻译文本(origTextArray[0]),然后再跟第二个标签(tagArray[1]),然后再跟第二个待翻译文本(origTextArray[1]),然后再跟第三个标签(tagArray[2]),以此类推,直到最后以最后一个标签(tagArray[n+1])结束。其中,n的取值为正整数。并且,本领域技术人员可以理解的是,n的取值大小与待翻译区域的具体内容相关,此处不进行具体限定。
其中,由于解析后的待翻译区域,每相邻两个标签之间有一个待翻译文本。所以,在待翻译区域不是空字符串时,解析得到的标签数组的长度就等于待翻译文本数组的长度加1。同时,在本申请中,标签数组不需要翻译,只需对待翻译文本数组进行翻译即可。
进一步的,在一种可能的实现方式中,步骤S200,将待翻译区域解析为标签数组和待翻译文本数组时,可以通过标签搜索的方式来实现。即,首先,对待翻译区域按照顺序进行标签的搜索。此处,应当指出的是,在进行标签搜索时,主要是进行标准标签的搜索。
在搜索到标签时,则根据当前标签的出现顺序以及当前标签相邻的字符串的特点,确定标签数组和待翻译文本数组。此处,需要说明的是,当前标签指的是在对待翻译区域进行标签搜索的过程中当前所搜索到的标签。同时,还需要指出的是,当前标签相邻的字符串的特点则指的是,位于当前标签的前面或位于当前标签的后面的字符串是否为空字符。也就是说,当前标签相邻的字符串既可以为位于当前标签的前面的字符串,还可以为位于当前标签后面的字符串,具体可以根据当前标签的出现顺序确定。字符串的特点则主要是指字符串是否为空字符。
在搜索完所述待翻译区域且未搜索到标签时,则将待翻译区域中的字符串进行预处理后追加到当前待翻译文本数组的尾部,并在当前标签数组的尾部追加两个空标签。此处,需要说明的是,在待翻译区域中未搜索到标签指的是,待翻译区域中不包含标签的情况。
此处,需要解释说明的是,在本申请的网页的多语言翻译方法中,由于标签数组为包含待翻译区域中的所有标签的有序序列,待翻译文本数组则为包含待翻译区域中的所有待翻译文本的有序序列。因此,在对待翻译区域进行解析的过程中,标签数组和待翻译文本数组均为动态变化的数组。由此,本领域技术人员可以理解的是,当前标签数组指的是对待翻译区域解析过程中当前所生成的标签数组,当前待翻译文本数组则为对待翻译区域解析过程中当前所生成的待翻译文本数组。
具体的,在对待翻译区域进行解析时,可以先判断待翻译区域是否为空字符串。在待翻译区域为空字符串时,此时不需要进行解析,也不需要进行翻译,因此直接返回即可。
在待翻译区域不是空字符串时,则对待翻译区域进行标签搜索。其中,在一种可能的实现方式中,可以通过进行标准标签的搜索来实现。即,对待翻译区域从前到后依次进行字符比较,根据字符比较结果确定当前搜索到的标签的出现顺序。
举例来说,对待翻译区域中的字符从前到后依次与标准标签中的“<”进行比较。在比较出当前字符为“<”时,如果此时标准标签的起始标识还未找到或者是标准标签的终止标识还未找到,则此时可以认为当前字符为标准标签的起始标识。即,标记标准标签的起始标识已找到,并把当前字符的位置标记为标准标签的起始位置。在比较出当前字符为“>”时,如果此时标准标签的起始标识已找到且标准标签的终止标识还未找到,则可以认为当前字符即为标准标签的终止标识。即,标记标准标签的终止标识已找到,并把当前字符的位置标记为标准标签的终止位置。此时表示已搜索到一个标准标签。对当前搜索到的标准标签标记后,即可继续对下一字符进行字符比较,从而继续进行下一个标准标签的搜索。
在搜索到标签后,即可根据当前搜索到的标签(即,当前标签)的出现顺序以及当前标签相邻的字符串的特点,确定标签数组和待翻译文本数组。其中,应当说明的是,当前标签的出现顺序包括以下三种:第一种为:首次搜索到的标签,即,第一个标签。第二种为:中间搜索到的标签,即,不是第一次搜索到的标签。第三种作为:末次搜索到的标签,即,最后一个标签。
其中,根据各个标签搜索到的顺序(即,各标签的出现顺序)对各标签进行标记。如:第一次搜索到的标签可以标记为tag1,第二次搜索到的标签标记为tag2,第三次搜索到的标签标记为tag3,以此类推,第n次搜索到的标签则标记为tagn。
进而,在当前标签为第一个标签(即,首次搜索到的标签tag1)时,此时确定在待翻译区域中,该当前标签之前的字符串是否为空字符串。如果该标签之前的字符串不是空字符串,则将一个空标签追加到当前标签数组的尾部。此处,本领域技术人员可以理解的是,当前标签数组还是一个空数组。将一个空标签添加到该当前标签数组的尾部,作为标签数组的起始标签(也可称之为标签数组的第一标签tagArray[0])。该起始标签后所跟的待翻译文本则为tag1之前的字符串。
也就是说,在当前标签为第一个标签,且当前标签之前的字符串不是空字符时,则在当前标签数组的尾部添加一个空标签,并将当前标签之前的字符串进行预处理后追加到当前待翻译文本数组的尾部。
在当前标签不是第一个标签时,则对当前标签的前一个标签与当前标签之间的字符串是否为空字符串进行判断。
在当前标签的前一个标签与当前标签之间的字符串不是空字符串时,则将当前标签的前一个标签追加到当前标签数组的尾部,并将当前标签的前一个标签与当前标签之间的字符串进行预处理后追加到当前待翻译文本数组的尾部。
在当前标签的前一个标签与当前标签之间的字符串是空字符串时,则将当前标签的前一个标签与当前标签连接合并为一个组合标签。
举例来说,在当前搜索到的标签为第n(n>1)标签时,则确定第n-1标签与第n标签之间的字符串是否为空字符串。在确定出第n-1标签与第n标签之间的字符串不是空字符串时,则将第n-1标签追加到标签数组的尾部,并将第n-1标签与第n标签之间的字符串进行预处理后追加到当前待翻译文本数组的尾部。在确定第n-1标签与第n标签之间的字符串为空字符串时,则将第n-1标签和第n标签连接合并为一个组合标签,并重新记作第n-1标签。
进一步的,在当前标签为最后一个标签时,则需要根据最后一个标签(即,当前标签)后面的字符串是否为空字符串来决定下一步的处理方式。
即,在当前标签为最后一个标签,并确定当前标签之后的字符串不是空字符串时,则将最后一个标签(即,当前标签)追加到当前标签数组的尾部,并将最后一个标签之后的字符串预处理后追加到当前待翻译文本数组的尾部,并在当前标签数组的尾部追加一个空标签作为标签数组的终止标签。
在当前标签为最后一个标签,并确定当前标签之后的字符串为空字符串时,这也就表明最后一个标签之后没有需要翻译的文本内容,因此可以直接将该最后一个标签追加到当前标签数组的尾部作为标签数组的终止标签。
此外,还需要指出的是,在通过标签搜索的方式对待翻译区域进行解析时,还可能存在待翻译区域未搜索到标签的情况。
即,对待翻译区域从前到后依次进行字符比较后未搜索到标签时,此时则直接将一个空标签追加到当前标签数组的尾部作为标签数组的起始标签,并同时将待翻译区域中的字符串进行预处理后追加到当前待翻译文本数组的尾部。然后,再在当前标签数组的尾部添加一个空标签作为标签数组的终止标签。
其中,在上述通过标签搜索对待翻译区域进行解析的过程中,将字符串添加到当前待翻译文本数组时,需要对字符串进行预处理。在一种可能的实现方式中,对字符串进行预处理时,包括将字符串中预定义的HTML实体转换为字符。
举例来说,会被转换的HTML实体包括:&amp;转换成为&(和号),&quot;转换成为"(双引号),&#039;转换成为'(单引号),&lt;转换成为<(小于),&gt;转换成为>(大于)。字符串预处理可以调用所使用编程语言的相应函数,譬如:PHP语言的函数htmlspecialchars_decode。
通过上述任一种方式将待翻译区域解析为标签数组和待翻译文本数组后,即可对待翻译文本数组进行翻译。其中,在对待翻译文本数组进行翻译时,可以按照待翻译文本数组中各待翻译文本的排列顺序依次进行翻译,也可以同时对各待翻译文本进行翻译。其中,在采用同时对各待翻译文本进行翻译的方式时,在翻译完成之后可以根据各待翻译文本的顺序对翻译得到的各目标文本进行相应的标记,以实现各待翻译文本与各目标文本的一一对应。
此处,需要指出的是,在本申请实施例的网页的多语言翻译方法中,对待翻译文本数组进行翻译时,可以采用调用第三方翻译工具直接进行翻译的方式。即,基于应用程序编程接口调用翻译工具的翻译接口,对待翻译文本数组进行翻译。
通过采用调用第三方翻译工具进行翻译的方式,实现逻辑简单,并且翻译效率较高。同时还可以根据不同的需求选取不同的翻译工具进行翻译。此外,还可以通过调用两种不同的翻译工具同时进行翻译,从而对翻译结果进行对比,以选取出更加准确的翻译结果作为最终翻译结果。
其中,在基于应用程序编程接口调用翻译工具的翻译接口时,翻译接口的输入参数包括待翻译文本数组、初始语言、目标语言、预设翻译工具类型,翻译接口的输出则为目标文本数组。预设翻译工具类型可以有多种,可以是内部开发的本地翻译工具,还可以是外部的在线翻译工具或翻译软件,如:百度翻译、谷歌翻译、有道翻译等。并且,预设翻译工具的个数也可以根据实际需要设置为多个。此处不对预设翻译工具类型和个数进行限定。
同时,还需要指出的是,翻译得到的目标文本数组与待翻译文本数组的逻辑关系如图3所示,一个待翻译文本对应一个目标文本。即,待翻译文本数组中的第一个待翻译文本对应第一个目标文本,第二个待翻译文本对应第二个目标文本,以此类推,直到最后一个待翻译文本对应最后一个目标文本。也就是说,待翻译文本数组中的待翻译文本与目标文本数组中的目标文本一一对应。
相应的,在得到目标文本数组后,再通过将目标文本数组与标签数组进行组合从而得到目标区域。其中,将标签数组和目标文本数组组合为目标区域时,可以按照对待翻译区域进行解析时所得到的待翻译区域、标签数组和待翻译文本之间的逻辑关系进行组合。即,每相邻两个标签之间存在一个目标文本。
举例来说,参阅图3,目标区域中,以第一个标签开始,后跟第一个目标文本,然后跟第二个标签,进而再第二个标签后跟第二个目标文本,依次类推,直到最后以最后一个标签(即,终止标签)结束。
最后,再通过替换的方式将目标网页中的待翻译区域更新为目标区域,以实现输出翻译结果的目的。通过替换的方式进行待翻译区域的更新,使得翻译结果更加直观。
需要说明的是,尽管以图2和图3作为示例介绍了如上所述的网页的多语言翻译方法,但本领域技术人员能够理解,本申请应不限于此。事实上,用户完全可根据个人喜好和/或实际应用场景灵活设定各个步骤的具体实现方式,只要能够达到对待翻译区域的解析、翻译和组合即可。
同时,还需要指出的是,在上述可能的实现方式中,对待翻译区域进行解析、对待翻译文本数组进行翻译、以及对翻译得到的目标文本数组和标签数组进行组合等各步骤可以采用各种编程语言来实现,此处也不对各步骤的实现语言进行具体限定。
相应的,基于前面任一所述的网页的多语言翻译方法,本申请还提供了一种网页的多语言翻译装置。由于本申请提供的网页的多语言翻译装置的工作原理与本申请提供的网页的多语言翻译方法的原理相同或相似,因此重复之处不再赘述。
参阅图4,本申请提供的网页的多语言翻译装置100,包括待翻译区域获取模块110、待翻译区域解析模块120、文本翻译模块130、文本组合模块140和区域更新模块150。其中,待翻译区域获取模块110,被配置为在翻译指令被触发后,获取所要求翻译的目标网页的待翻译区域。待翻译区域解析模块120,被配置为将待翻译区域解析为标签数组和待翻译文本数组;其中,标签数组为多个标签的有序序列;待翻译文本数组为多个待翻译文本的有序序列;待翻译文本为位于两个标签之间的字符串。文本翻译模块130,被配置为基于翻译指令中的初始语言和目标语言,对待翻译文本数组进行翻译,得到目标文本数组。文本组合模块140,被配置为将标签数组和目标文本数组组合为目标区域。区域更新模块150,被配置为将目标网页中的待翻译区域更新为目标区域。
更进一步地,根据本申请的另一方面,还提供了一种网页的多语言翻译设备200。参阅图5,本申请实施例的网页的多语言翻译设备200包括处理器210以及用于存储处理器210可执行指令的存储器220。其中,处理器210被配置为执行可执行指令时实现前面任一所述的网页的多语言翻译方法。
此处,应当指出的是,处理器210的个数可以为一个或多个。同时,在本申请实施例的网页的多语言翻译设备200中,还可以包括输入装置230和输出装置240。其中,处理器210、存储器220、输入装置230和输出装置240之间可以通过总线连接,也可以通过其他方式连接,此处不进行具体限定。
存储器220作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序和各种模块,如:本申请实施例的网页的多语言翻译方法所对应的程序或模块。处理器210通过运行存储在存储器220中的软件程序或模块,从而执行网页的多语言翻译设备200的各种功能应用及数据处理。
输入装置230可用于接收输入的数字或信号。其中,信号可以为产生与设备/终端/服务器的用户设置以及功能控制有关的键信号。输出装置240可以包括显示屏等显示设备。
根据本申请的另一方面,还提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,计算机程序指令被处理器210执行时实现前面任一所述的网页的多语言翻译方法。
以上已经描述了本申请的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (10)

1.一种网页的多语言翻译方法,其特征在于,包括:
在翻译指令被触发后,获取所要求翻译的目标网页的待翻译区域;
将所述待翻译区域解析为标签数组和待翻译文本数组;其中,所述标签数组为多个标签的有序序列;所述待翻译文本数组为多个待翻译文本的有序序列;所述待翻译文本为位于两个所述标签之间的字符串;
基于所述翻译指令中的初始语言和目标语言,对所述待翻译文本数组进行翻译,得到目标文本数组;
将所述标签数组和所述目标文本数组组合为目标区域,并将所述目标网页中的所述待翻译区域更新为所述目标区域。
2.根据权利要求1所述的方法,其特征在于,所述标签数组包括标准标签、组合标签和空标签中的至少一种;
所述标准标签为:以“<”开始,以“>”结束,且内部没有“<”和“>”的字符串;
所述组合标签为:多个所述标准标签的连接合并;
所述空标签为:一个空字符串。
3.根据权利要求1所述的方法,其特征在于,将所述待翻译区域解析为标签数组和待翻译文本数组,包括:
对所述待翻译区域按照顺序进行所述标签的搜索;
在搜索到所述标签时,根据当前标签的出现顺序以及当前标签相邻的字符串的特点,确定所述标签数组和所述待翻译文本数组;其中,所述当前标签为在对所述待翻译区域进行标签搜索时当前所搜索到的标签;
在搜索完所述待翻译区域且未搜索到所述标签时,将所述待翻译区域中的字符串进行预处理后追加到当前待翻译文本数组的尾部,并在当前标签数组的尾部追加两个空标签。
4.根据权利要求3所述的方法,其特征在于,在搜索到所述标签时,根据当前标签的出现顺序以及当前标签相邻的字符串的特点,确定所述标签数组和所述待翻译文本数组,包括:
在所述当前标签为第一个标签时,且所述当前标签之前的字符串不是空字符串时,在所述当前标签数组的尾部追加一个空标签,并将所述当前标签之前的字符串进行预处理后追加到当前待翻译文本数组的尾部;
在所述当前标签不是第一个标签,且所述当前标签的前一个标签与所述当前标签之间的字符串不是空字符串时,将所述当前标签的前一个标签追加到所述当前标签数组的尾部,并将所述当前标签的前一个标签与所述当前标签之间的字符串进行预处理后追加到当前待翻译文本数组的尾部;
在所述当前标签不是第一个标签,且所述当前标签的前一个标签与所述当前标签之间的字符串为空字符串时,将所述当前标签的前一个标签与所述当前标签连接合并为一个组合标签;
在所述当前标签为最后一个标签,且所述当前标签之后的字符串不为空字符串时,将所述当前标签追加到当前标签数组的尾部后,将所述当前标签之后的字符串预处理后追加到当前待翻译文本数组的尾部,并在当前标签数组的尾部追加一个空标签;
在所述当前标签为最后一个标签,且所述当前标签之后的字符串为空字符串时,将所述当前标签追加到当前标签数组的尾部。
5.根据权利要求3所述的方法,其特征在于,对所述待翻译区域按照顺序进行所述标签的搜索,包括:
在所述待翻译区域中从前到后依次进行字符比较,根据字符比较结果确定所述当前标签的出现顺序。
6.根据权利要求4所述的方法,其特征在于,对字符串进行预处理,包括:将所述字符串中预定义的HTML实体转换为字符。
7.根据权利要求1至6任一项所述的方法,其特征在于,对所述待翻译文本数组进行翻译时,基于应用程序编程接口调用翻译工具的翻译接口,对所述待翻译文本数组进行翻译。
8.根据权利要求1所述的方法,其特征在于,将所述标签数组和所述目标文本数字组合为目标区域时,按照对所述待翻译区域进行解析时所得到的所述待翻译区域、所述标签数组和所述待翻译文本数组之间的逻辑关系进行组合。
9.一种网页的多语言翻译装置,其特征在于,包括待翻译区域获取模块、待翻译区域解析模块、文本翻译模块、文本组合模块和区域更新模块;
所述待翻译区域获取模块,被配置为在翻译指令被触发后,获取所要求翻译的目标网页的待翻译区域;
所述待翻译区域解析模块,被配置为将所述待翻译区域解析为标签数组和待翻译文本数组;其中,所述标签数组为多个标签的有序序列;所述待翻译文本数组为多个待翻译文本的有序序列;所述待翻译文本为位于两个所述标签之间的字符串;
所述文本翻译模块,被配置为基于所述翻译指令中的初始语言和目标语言,对所述待翻译文本数组进行翻译,得到目标文本数组;
所述文本组合模块,被配置为将所述标签数组和所述目标文本数组组合为目标区域;
所述区域更新模块,被配置为将所述目标网页中的所述待翻译区域更新为所述目标区域。
10.一种网页的多语言翻译设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令时实现权利要求1至8中任意一项所述的方法。
CN202010474136.1A 2020-05-29 2020-05-29 网页的多语言翻译方法和装置及设备 Pending CN111639504A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010474136.1A CN111639504A (zh) 2020-05-29 2020-05-29 网页的多语言翻译方法和装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010474136.1A CN111639504A (zh) 2020-05-29 2020-05-29 网页的多语言翻译方法和装置及设备

Publications (1)

Publication Number Publication Date
CN111639504A true CN111639504A (zh) 2020-09-08

Family

ID=72332277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010474136.1A Pending CN111639504A (zh) 2020-05-29 2020-05-29 网页的多语言翻译方法和装置及设备

Country Status (1)

Country Link
CN (1) CN111639504A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536811A (zh) * 2021-07-14 2021-10-22 杭州隆埠科技有限公司 富文本文档的翻译方法及装置
CN114169347A (zh) * 2021-12-03 2022-03-11 畅销家(深圳)科技有限公司 一种网页翻译方法
CN118036618A (zh) * 2024-04-15 2024-05-14 腾讯科技(深圳)有限公司 游戏文本的翻译方法、装置和存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103412857A (zh) * 2013-09-04 2013-11-27 广东全通教育股份有限公司 一种实现网页中英文翻译的系统和方法
CN104881406A (zh) * 2015-06-15 2015-09-02 携程计算机技术(上海)有限公司 网页翻译方法和系统
CN110263351A (zh) * 2019-06-17 2019-09-20 深圳前海微众银行股份有限公司 一种网页的多语言翻译方法、装置及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103412857A (zh) * 2013-09-04 2013-11-27 广东全通教育股份有限公司 一种实现网页中英文翻译的系统和方法
CN104881406A (zh) * 2015-06-15 2015-09-02 携程计算机技术(上海)有限公司 网页翻译方法和系统
CN110263351A (zh) * 2019-06-17 2019-09-20 深圳前海微众银行股份有限公司 一种网页的多语言翻译方法、装置及设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536811A (zh) * 2021-07-14 2021-10-22 杭州隆埠科技有限公司 富文本文档的翻译方法及装置
CN114169347A (zh) * 2021-12-03 2022-03-11 畅销家(深圳)科技有限公司 一种网页翻译方法
CN118036618A (zh) * 2024-04-15 2024-05-14 腾讯科技(深圳)有限公司 游戏文本的翻译方法、装置和存储介质及电子设备
CN118036618B (zh) * 2024-04-15 2024-07-12 腾讯科技(深圳)有限公司 游戏文本的翻译方法、装置和存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN111639504A (zh) 网页的多语言翻译方法和装置及设备
CN107402746B (zh) 一种自动生成代码文件的方法及装置
CN111831384B (zh) 语言切换方法和装置、设备及存储介质
CN111736840A (zh) 小程序应用的编译方法、运行方法、存储介质及电子设备
CN109710250B (zh) 一种用于构建用户界面的可视化引擎系统及方法
CN113609820A (zh) 基于可扩展标记语言文件生成word文件的方法、装置及设备
CN113139390A (zh) 一种应用于代码字符串的语言转换方法和装置
CN110673854A (zh) Sas语言编译方法、装置、设备及可读存储介质
US11403078B2 (en) Interface layout interference detection
GB2312973A (en) Programming aid enabling source code to be viewed with a general purpose document browser
CN111507074B (zh) 数据处理方法及装置、处理器、电子设备及存储介质
CN108694043B (zh) 页面装修方法和系统
CN113419721B (zh) 基于web的表达式编辑方法、装置、设备和存储介质
CN113641433A (zh) 基于i18n技术的前端国际化多语言文件的多语言页面转换方法和单元
CN116009863B (zh) 前端页面渲染方法、设备及存储介质
US11580292B2 (en) Style transfer
CN115543324B (zh) 交互界面的生成方法、装置、设备及介质
CN111443979A (zh) 文档处理方法、装置、计算机设备及存储介质
CN111142871A (zh) 一种前端页面开发系统、方法、设备、介质
CN112486623B (zh) 基于界面自动支持多语言的开发方法、系统和电子设备
CN114356291A (zh) 基于配置文件生成表单的方法、装置、设备及介质
CN114626358A (zh) 一种语言混写解析方法、装置、设备及存储介质
US7849404B2 (en) System for determining whether screen displayed by program satisfies specification
CN109725932B (zh) 一种应用组件的说明文档生成方法和装置
CN115618887B (zh) 动态长文本国际化方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200908