CN103678284A - 页面文字翻译方法及装置 - Google Patents
页面文字翻译方法及装置 Download PDFInfo
- Publication number
- CN103678284A CN103678284A CN201210320202.5A CN201210320202A CN103678284A CN 103678284 A CN103678284 A CN 103678284A CN 201210320202 A CN201210320202 A CN 201210320202A CN 103678284 A CN103678284 A CN 103678284A
- Authority
- CN
- China
- Prior art keywords
- label
- word
- text
- page
- source code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种页面文字翻译方法及装置,页面文字翻译方法包括:识别页面源代码的各个部分是html语言代码还是javascript语言代码;在javascript语言代码中添加用于标记文字的标签;识别页面源代码中的用于标记文字的标签,将所标记的文字依次提取至一第一文本文件中并输出;一外部对象对该第一文本文件中的文字进行翻译以形成一第二文本文件;接收该第二文本文件,针对每个标签均用该第二文本文件中的与该标签相对应的文字替换页面源代码中由该标签所标记的文字;本发明还公开了一种页面文字翻译装置,其包括一识别模块、一标记模块、一提取模块、一翻译模块和一替换模块。本发明脱离源代码,操作简单且翻译准确。
Description
技术领域
本发明涉及一种翻译方法及装置,特别是涉及一种页面文字翻译方法及装置。
背景技术
随着嵌入式软件产品市场的不断扩大,嵌入式软件产品面临着支持多种国家语言的现实问题,怎样在普通版软件发行之后,在最快最短的时间内给出多种语言版软件,成了当前要急于解决的问题。由于多国语言版面对的是全球性客户,怎样保证其准确性和高效性以提升软件产品的品质、打响软件产品的品牌也是需要非常关注的问题。
现在比较常用的解决方法:在html语言代码中需要标记的文字处逐个添加“ID”标签,在编译时根据标记的标签使用“innerHTML”方法替换对应翻译的文字;在javascript语言代码中添加多种可能应用到的国家语言的代码,并还添加选择代码来选取所需的语言。这两种方法均需要依赖源代码,且整个翻译过程还需要语言包参与编译,操作起来十分复杂。另外,有时会因为浏览器的兼容性等原因,而导致翻译句柄失效,页面文字翻译不完全。
发明内容
本发明要解决的技术问题是为了克服现有技术中的翻译过程依赖源代码、需要语言包参与编译、操作复杂以及翻译不完全等缺陷,提供一种脱离源代码且语言包不参与编译的页面文字翻译方法及装置。
本发明是通过下述技术方案来解决上述技术问题的:
一种页面文字翻译方法,其特点在于,该页面文字翻译方法包括:
S1、识别页面源代码的各个部分是html语言代码还是javascript语言代码;
S2、在javascript语言代码中的文字处添加用于标记文字的标签;
S3、识别页面源代码中的所有用于标记文字的标签,将由各个标签所标记的文字依次提取至一第一文本文件中,并输出该第一文本文件;
S4、一外部对象对该第一文本文件中的文字进行翻译以形成一第二文本文件,该第二文本文件中还保存有由每个标签所标记的文字翻译而得的文字与该标签之间的对应关系;
S5、接收该第二文本文件,针对每个标签均用该第二文本文件中的与该标签相对应的文字替换页面源代码中由该标签所标记的文字。
当识别出页面源代码的某个部分是html语言代码时,不需要对html语言代码进行额外操作,即不需要对html语言代码额外添加任何代码,只需通过html脚本语言的特性来提取文字,识别html语言代码中原有的用于标记文字的标签便可以将由标签所标记的文字依次提取出来,与现有的在html语言代码中需要标记的文字处逐个添加“ID”标签这种方法相比,操作更加方便;当识别出页面源代码的某个部分是javascript语言代码时,虽然需要对javascript语言代码中的文字处进行额外操作,即需要对在javascript语言代码中的文字处添加用于标记文字的标签,该标签用来识别需要提取的文字,但是与现有的在javascript语言代码中添加多种可能应用到的国家语言的代码,并还添加选择代码来选取所需的语言这种方法相比,操作更加方便,减少大量代码并减少代码运行时间。
较佳地,该第一文本文件和该第二文本文件均与页面源代码的命名方式相同。
较佳地,该页面文字翻译方法应用于嵌入式系统中。该页面文字翻译方法也可以应用于除嵌入式系统外的其它系统中。
该页面文字翻译方法中的文字是人们用来记录语言的符号系统,例如汉字、日文假名以及拉丁字母等。如页面源代码中的文字处为汉字,需要把该处文字翻译成英文,则首先识别该处汉字,然后提取该处汉字对其进行翻译,最终用翻译成的英文替换页面源代码中的汉字,这样页面显示出来的文字就是英文。即,页面源代码中的文字不同于页面源代码中的编程符号编写的程序语言。
本发明的目的还在于提供一种页面文字翻译装置,该页面文字翻译装置包括一识别模块、一标记模块、一提取模块、一翻译模块和一替换模块;
该识别模块用于识别页面源代码的各个部分是html语言代码还是javascript语言代码;
该标记模块用于在javascript语言代码中的文字处添加用于标记文字的标签;
该提取模块用于识别页面源代码中的所有用于标记文字的标签,将由各个标签所标记的文字依次提取至一第一文本文件中,并输出该第一文本文件;
该翻译模块用于通过一外部对象对该第一文本文件中的文字进行翻译以形成一第二文本文件,该第二文本文件中还保存有由每个标签所标记的文字翻译而得的文字与该标签之间的对应关系;
该替换模块用于接收该第二文本文件,针对每个标签均用该第二文本文件中的与该标签相对应的文字替换页面源代码中由该标签所标记的文字。
较佳地,该页面文字翻译装置应用于嵌入式系统中。该页面文字翻译装置也可以应用于除嵌入式系统外的其它系统中。
本发明的积极进步效果在于:本发明不需要语言包参与编译并且避免浏览器兼容性问题,使得本发明脱离源代码,对源码的干扰小,操作简单,翻译准确以及批量提取、批量替换速度快。
附图说明
图1为本发明的一较佳实施例的页面文字翻译方法的流程图。
图2为本发明的一较佳实施例的页面文字翻译装置的结构示意图。
具体实施方式
下面结合附图给出本发明较佳实施例,以详细说明本发明的技术方案。
参考图1所示,一种页面文字翻译方法包括以下步骤:
步骤100,识别页面源代码的各个部分是html语言代码还是javascript语言代码;
步骤101,在javascript语言代码中的文字处添加用于标记文字的标签“trs”,该“trs”标签用来识别需要提取的文字;
步骤102,分别识别html语言代码和javascript语言代码中的用于标记文字的标签“>”、“<”(这一对标签中的文字就是要提取的文字)和“trs”,将由一对标签“>”、“<”和标签“trs”所标记的文字依次提取至一第一文本文件中,并输出该第一文本文件;其中,针对html语言代码,通过html脚本语言的特性来提取文字,此处仅以惯用的标签,即一对“>”、“<”为例进行了说明,但是本实施例中的标签不仅限于一对“>”、“<”的情况。
步骤103,一外部对象对该第一文本文件中的文字进行翻译以形成一第二文本文件,该第二文本文件中还保存有由每个标签所标记的文字翻译而得的文字与该标签之间的对应关系;
步骤104,接收该第二文本文件,针对每个标签均用该第二文本文件中的与该标签相对应的文字替换页面源代码中由该标签所标记的文字。
而在本实施例的具体实施过程中,该第一文本文件和该第二文本文件均与页面源代码的命名方式相同。这里的命名方式相同可以是该第一文本文件和该第二文本文件的文件名均与页面源代码的文件名相同,也可以是该第一文本文件和该第二文本文件的后缀名均与页面源代码的后缀名相同,还可以是该第一文本文件和该第二文本文件的部分文件名均与页面源代码的部分文件名相同。在javascript语言代码中的文字处添加用于标记文字的标签,该标签用来识别需要提取的文字,除了可以用标签“trs”外,还可以用其它具有识别作用的标签来标记。
另外,该页面文字翻译方法应用于嵌入式系统中,当然,该页面文字翻译方法也可以应用于除嵌入式系统外的其它系统中。
参考图2所示,本发明的页面文字翻译装置包括一识别模块1、一标记模块2、一提取模块3、一翻译模块4和一替换模块5;
该识别模块1用于识别页面源代码的各个部分是html语言代码还是javascript语言代码;
该标记模块2用于在javascript语言代码中的文字处添加用于标记文字的标签“trs”;
该提取模块3用于分别识别html语言代码和javascript语言代码中的用于标记文字的一对标签“>”、“<”和标签“trs”,将由标签“>”、“<”和“trs”所标记的文字依次提取至一第一文本文件中,并输出该第一文本文件;
该翻译模块4用于通过一外部对象对该第一文本文件中的文字进行翻译以形成一第二文本文件,该第二文本文件中还保存有由每个标签所标记的文字翻译而得的文字与该标签之间的对应关系;
该替换模块5用于接收该第二文本文件,针对每个标签均用该第二文本文件中的与该标签相对应的文字替换页面源代码中由该标签所标记的文字。
另外,该页面文字翻译装置应用于嵌入式系统中,当然,该页面文字翻译装置也可以应用于除嵌入式系统外的其它系统中。
本发明中的各个功能模块均能够在现有的硬件条件下结合现有的软件编程手段加以实现,故在此对其具体实现方法均不做赘述。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (5)
1.一种页面文字翻译方法,其特征在于,该页面文字翻译方法包括:
S1、识别页面源代码的各个部分是html语言代码还是javascript语言代码;
S2、在javascript语言代码中的文字处添加用于标记文字的标签;
S3、识别页面源代码中的所有用于标记文字的标签,将由各个标签所标记的文字依次提取至一第一文本文件中,并输出该第一文本文件;
S4、一外部对象对该第一文本文件中的文字进行翻译以形成一第二文本文件,该第二文本文件中还保存有由每个标签所标记的文字翻译而得的文字与该标签之间的对应关系;
S5、接收该第二文本文件,针对每个标签均用该第二文本文件中的与该标签相对应的文字替换页面源代码中由该标签所标记的文字。
2.如权利要求1所述的页面文字翻译方法,其特征在于,该第一文本文件和该第二文本文件均与页面源代码的命名方式相同。
3.如权利要求1所述的页面文字翻译方法,其特征在于,该页面文字翻译方法应用于嵌入式系统中。
4.一页面文字翻译装置,其特征在于,该页面文字翻译装置包括一识别模块、一标记模块、一提取模块、一翻译模块和一替换模块;
该识别模块用于识别页面源代码的各个部分是html语言代码还是javascript语言代码;
该标记模块用于在javascript语言代码中的文字处添加用于标记文字的标签;
该提取模块用于识别页面源代码中的所有用于标记文字的标签,将由各个标签所标记的文字依次提取至一第一文本文件中,并输出该第一文本文件;
该翻译模块用于通过一外部对象对该第一文本文件中的文字进行翻译以形成一第二文本文件,该第二文本文件中还保存有由每个标签所标记的文字翻译而得的文字与该标签之间的对应关系;
该替换模块用于接收该第二文本文件,针对每个标签均用该第二文本文件中的与该标签相对应的文字替换页面源代码中由该标签所标记的文字。
5.如权利要求4所述的页面文字翻译装置,其特征在于,该页面文字翻译装置应用于嵌入式系统中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210320202.5A CN103678284A (zh) | 2012-08-31 | 2012-08-31 | 页面文字翻译方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210320202.5A CN103678284A (zh) | 2012-08-31 | 2012-08-31 | 页面文字翻译方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103678284A true CN103678284A (zh) | 2014-03-26 |
Family
ID=50315893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210320202.5A Pending CN103678284A (zh) | 2012-08-31 | 2012-08-31 | 页面文字翻译方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103678284A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202066A (zh) * | 2016-07-05 | 2016-12-07 | 腾讯科技(深圳)有限公司 | 网站的翻译方法和装置 |
CN106470131A (zh) * | 2015-08-19 | 2017-03-01 | 阿里巴巴集团控股有限公司 | 一种测试方法和设备 |
CN110232193A (zh) * | 2019-04-28 | 2019-09-13 | 清华大学 | 一种结构化文本翻译方法及装置 |
CN111158682A (zh) * | 2019-12-27 | 2020-05-15 | 四川天邑康和通信股份有限公司 | 一种用于路由器的id化多语言页面设计方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040122659A1 (en) * | 2002-12-23 | 2004-06-24 | Hourihane John Philip | Tool and method for managing web pages in different languages |
WO2006072882A3 (en) * | 2005-01-10 | 2006-08-24 | Melingo Ltd | Embedded translation-enhanced search |
CN101023425A (zh) * | 2004-06-07 | 2007-08-22 | 株式会社日本英柏斯 | Web网页翻译装置以及web网页翻译方法 |
US20100324887A1 (en) * | 2009-06-17 | 2010-12-23 | Dong Mingchui | System and method of online user-cycled web page vision instant machine translation |
CN102289376A (zh) * | 2011-09-16 | 2011-12-21 | 烽火通信科技股份有限公司 | 基于嵌入式的多语言web页面实现方法及系统 |
-
2012
- 2012-08-31 CN CN201210320202.5A patent/CN103678284A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040122659A1 (en) * | 2002-12-23 | 2004-06-24 | Hourihane John Philip | Tool and method for managing web pages in different languages |
CN101023425A (zh) * | 2004-06-07 | 2007-08-22 | 株式会社日本英柏斯 | Web网页翻译装置以及web网页翻译方法 |
WO2006072882A3 (en) * | 2005-01-10 | 2006-08-24 | Melingo Ltd | Embedded translation-enhanced search |
US20100324887A1 (en) * | 2009-06-17 | 2010-12-23 | Dong Mingchui | System and method of online user-cycled web page vision instant machine translation |
CN102289376A (zh) * | 2011-09-16 | 2011-12-21 | 烽火通信科技股份有限公司 | 基于嵌入式的多语言web页面实现方法及系统 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106470131A (zh) * | 2015-08-19 | 2017-03-01 | 阿里巴巴集团控股有限公司 | 一种测试方法和设备 |
CN106202066A (zh) * | 2016-07-05 | 2016-12-07 | 腾讯科技(深圳)有限公司 | 网站的翻译方法和装置 |
CN106202066B (zh) * | 2016-07-05 | 2019-07-05 | 腾讯科技(深圳)有限公司 | 网站的翻译方法和装置 |
CN110232193A (zh) * | 2019-04-28 | 2019-09-13 | 清华大学 | 一种结构化文本翻译方法及装置 |
CN110232193B (zh) * | 2019-04-28 | 2020-08-28 | 清华大学 | 一种结构化文本翻译方法及装置 |
CN111158682A (zh) * | 2019-12-27 | 2020-05-15 | 四川天邑康和通信股份有限公司 | 一种用于路由器的id化多语言页面设计方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8990066B2 (en) | Resolving out-of-vocabulary words during machine translation | |
CN102722479B (zh) | 一种实现语言翻译的方法及装置 | |
CN109976840B (zh) | 一种基于前后台分离平台下实现多语言自动适配的方法及系统 | |
CN102467497A (zh) | 校对程序中的文本翻译的方法和系统 | |
CN104008093A (zh) | 用于中文姓名音译的方法和系统 | |
CN108563629B (zh) | 一种日志解析规则自动生成方法和装置 | |
CN103678284A (zh) | 页面文字翻译方法及装置 | |
CN106372053B (zh) | 句法分析的方法和装置 | |
CN103176807A (zh) | 网页应用执行的提速方法及系统 | |
CN103246641A (zh) | 一种文本语义信息分析系统和方法 | |
CN103631938A (zh) | 一种分词词典自动扩展的方法和装置 | |
CN104750663A (zh) | 页面中文本乱码的识别方法及装置 | |
Pagé-Perron et al. | Machine translation and automated analysis of the Sumerian language | |
White | Training tesseract for ancient greek ocr | |
CN101008940A (zh) | 自动处理字体缺失的方法与装置 | |
CN101859295A (zh) | 具标记提示的简繁字词转换系统及其方法 | |
CN105022667A (zh) | 一种基于嵌入式浏览器css引擎并行化方法 | |
CA2602749C (en) | System and method of report representation | |
CN103440231A (zh) | 用于比较文本的设备和方法 | |
CN102200966A (zh) | 一种版面信息提取和加工的方法 | |
CN102723067B (zh) | 一种字符显示方法和装置 | |
CN105320716A (zh) | 数字出版物的自动标注方法 | |
CN104536948A (zh) | 版式文档的处理方法及装置 | |
CN112965772A (zh) | web页面显示方法、装置和电子设备 | |
CN106648618B (zh) | 虚拟应用的文本信息生成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140326 |