CN104090869B - 一种翻译网络信息的方法及翻译系统 - Google Patents

一种翻译网络信息的方法及翻译系统 Download PDF

Info

Publication number
CN104090869B
CN104090869B CN201410292444.7A CN201410292444A CN104090869B CN 104090869 B CN104090869 B CN 104090869B CN 201410292444 A CN201410292444 A CN 201410292444A CN 104090869 B CN104090869 B CN 104090869B
Authority
CN
China
Prior art keywords
data
translation
source code
text
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410292444.7A
Other languages
English (en)
Other versions
CN104090869A (zh
Inventor
江潮
王杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iol Wuhan Information Technology Co ltd
Original Assignee
WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd filed Critical WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority to CN201410292444.7A priority Critical patent/CN104090869B/zh
Publication of CN104090869A publication Critical patent/CN104090869A/zh
Application granted granted Critical
Publication of CN104090869B publication Critical patent/CN104090869B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

一种翻译网络信息的方法,包括:获取目标元素链接的目标页面的源代码;获取所述源代码中的数据内容;将获取到的所述数据内容按照用户设定的目标语言进行翻译;建立数据窗口显示经过所述翻译后得到的译文。本发明还公开了一种翻译系统。本发明无需用户在手动将文本导入到翻译引擎,实现自动翻译,提高用户浏览页面的效率,简便的用户操作,改善了用户体验。

Description

一种翻译网络信息的方法及翻译系统
技术领域
本发明涉及网络信息技术领域,尤其是涉及一种翻译网络信息的方法及翻译系统。
背景技术
对于现在的网站来说,一个网页上加载了大量的各种信息,例如页面的正文、各种广告、相关新闻等等;但是对于用户来讲许多信息是用户所不关注的,因此可以将页面的正文作为有效信息,而其他信息则是无效信息,对于一些用户来说只需要查看有效信息,而无效信息的存在首先会加大用户所使用的设备的工作量,造成设备处理效率慢的问题,再有无效信息也会妨碍用户对有效信息的浏览。
目前,许多用户在浏览网页的过程中,由于语言能力导致用户无法理解,又或者用户需要目标页面的译文时,往往是通过用户手动将所需查看的内容导入到网络翻译引擎中进行翻译,用户操作复杂,影响用户查看理解浏览网络信息。
发明内容
本发明的目的之一是提供一种翻译网络信息的方法,以解决现有技术中需要用户手动将待译文本导入到网络翻译引擎的问题。
在一些说明性实施例中,所述翻译网络信息的方法,包括:获取目标元素链接的目标页面的源代码;获取所述源代码中的数据内容;将获取到的所述数据内容按照用户设定的目标语言进行翻译;建立数据窗口显示经过所述翻译后得到的译文。
本发明的再一个目的是提供一种翻译系统。
在一些说明性实施例中,所述翻译系统,包括:信息收集模块,用于获取目标页面的源代码中的数据内容;文本选取模块,用于选取所述数据内容中的文本数据;超文本选取模块,用于选取所述数据内容的超文本数据;信息展示模块,用于建立数据窗口显示所述文本数据、所述文本数据的译文、以及超文本数据;翻译引擎和翻译语料库,用于翻译所述文本数据,并将其译文传输给信息展示模块;以及,展示配置模块和基数数据库,用于接收并存储用户设置的配置信息;其中,所述配置信息中至少包含有以下之一:所述数据窗口的大小、透明度、颜色样式、主从窗口,以及所述文本数据的目标语言。
与现有技术相比,本发明的说明性实施例包括以下优点:
自动将用户所需查看的目标页面中的数据内容进行翻译,无需用户手动导入,提高了用户查看浏览页面的效率,简化的用户操作,改善了用户体验。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是按照本发明的说明性实施例的流程图。
图2是按照本发明的说明性实施例的流程图;
图3是按照本发明的说明性实施例的翻译系统的结构示意图。
具体实施方式
在以下详细描述中,提出大量特定细节,以便于提供对本发明的透彻理解。但是,本领域的技术人员会理解,即使没有这些特定细节也可实施本发明。在其它情况下,没有详细描述众所周知的方法、过程、组件和电路,以免影响对本发明的理解。
现在参照图1,图1示出了在一些说明性实施例中的流程图。
如图1所示,在一些说明性实施例中,公开了一种翻译网络信息的方法,包括:
S11、获取目标元素链接的目标页面的源代码;
其中,元素是指页面中的标题所对应的该页面的源代码中的相应的元素;标题对应的元素在源代码中存在访问该标题的页面的超链接,通过超链接对应的网络地址可以访问到目标页面。
S12、获取所述源代码中的数据内容;
其中,数据内容是指网页中的标题、正文、以及相关的图片、图表等主题相关的有效信息。
S13、将获取到的所述数据内容按照用户设定的目标语言进行翻译;
S14、建立数据窗口显示经过所述翻译后得到的译文。
自动将用户所需查看的目标页面中的数据内容进行翻译,无需用户手动导入,提高了用户查看浏览页面的效率,简化的用户操作,改善了用户体验。
在一些说明性实施例中,将获取到的所述数据内容按照用户设定的目标语言进行翻译,包括:
将获取到的所述数据内容作为待译文件进行存储;
将存储后的所述待译文件推送给翻译引擎进行翻译。其中,翻译引擎可以是机器翻译引擎,也可以是基于译员的翻译系统;机器翻译引擎例如在线翻译引擎,例如谷歌、有道等。
优选地,根据获取到的数据内容建立待译文件,存储在数据库中,再将待译文件从数据库中提取给翻译引擎进行翻译
在一些说明性实施例中,在获取目标元素链接的目标页面的源代码之前,还包括:
确定所述当前页面的所有标题数据,以及每个所述标题数据在当前页面的源代码中对应的元素,以及所述元素的超链接;其中,标题数据可以是具有标题性质的文本数据和超文本数据,例如具有超链接的标题或图片;
建立每个所述标题数据的区域数据;
建立每个所述标题数据的所述区域数据与该标题数据的所述元素的超链接的关联关系。
如图2所示,在一些说明性实施例中,获取目标元素链接的目标页面的源代码的过程,包括:
S21、识别光标在当前页面上指示的区域数据;
当用户拖动光标在网页上移动时,用户将光标停留在用户所要查看的标题上,在停留时间超过时间阈值时,确定当前光标所处的区域为目标区域。
S22、确定所述区域数据关联的目标元素;
元素是指页面中的标题所对应的该页面的源代码中的相应的元素;标题对应的元素在源代码中存在访问该标题的页面的超链接,通过超链接对应的网络地址可以访问到目标页面。
S23、调取所述目标元素链接的目标页面的源代码。
在一些说明性实施例中,步骤S12中获取所述源代码中的数据内容的过程,过程:
从目标页面的源代码中的特定标签下的数据内容。
其中,特定标签至少包括以下之一:
1)、<h></h>;标题标签;用于标记文本标题;
2)、<a></a>;超文本链接标签,用于标记超文本数据信息的链接;
3)、<span></span>;文本标签,用于标记文本,例如正文;
4)、<img></img>;属性标签,用于标签文本或超文本的属性特征;
5)、<p></p>;段落标签,用于标记文本或超文本行号段落。
通过特定标签获取有效信息,可以有效的过滤掉页面中的无效信息,便于用户浏览有效信息,并且用户设备只需要加载有效信息,并进行显示,大大减小了用户设备的工作量,进而可以提供用户设备的工作效率。
在一些说明性实施例中,对于与标题对应的文本信息和图片信息使用的是一类特定的标签,例如标题标签<h></h>、超文本链接标签<a></a>、文本标签<span></span>、属性标签<img></img>和段落标签<p></p>等等;
其中,每个标签具有一个标签头和一个标签尾,位于两者之间的数据即为该标签所对应的数据内容;例如网页源代码片段“<h2>--笨拙的手,画下自由而不会流泪的眼睛</h2>”;所采用的是二级标题标签<h2></h2>;标签头为<h2>,标签尾为</h2>;<h2>……</h2>之间的文本就是该网页中的二级标题“笨拙的手,画下自由而不会流泪的眼睛”;
通过采用特定标签检索目标页面的源代码,可以找到用户所关注的有效信息,再将检索到的标签的标签头和标签尾之间的数据内容提取出来。
在一些说明性实施例中,提取所述数据内容的过程,包括:
在所述源代码中建立并记录每个所述特定标签的标签头和标签尾的二维坐标(Xn,Yn);
其中,二维坐标(Xn,Yn)中的横坐标Xn和纵坐标Yn分别为特定标签n的标签头或标签尾在所述源代码中的列号和行号。
例如段落标签找建立坐标起始点,标签头<p>所在的行号第15行,所在的列号为第3列,则该标签头的二维坐标为(3,15);标签尾</p>所在的行号为第15行,所在的列号为第20列,则该标签尾的二维坐标为(20,15);记录下两个二维坐标,通过坐标在源代码中索引,将二维坐标(3,15)和二维坐标(20,15)之间的数据内容提取出来。
由于网页源代码中的特定标签也并不唯一,因此通过建立具有唯一性质的坐标系,可以快速的通过坐标在源代码中找到有效内容。
在一些说明性实施例中,通过二维坐标,将提取出来的数据内容保持在源代码中指示的位置一致,显示在建立的窗口内。
在一些说明性实施例中,窗口的大小可以根据用户设定的阈值进行调整,在窗口中显示的数据内容可以根据窗口大小的改变成比例相应改变;将得到的所述译文在所述数据窗口中与所述数据内容对照显示。
通过建立二维坐标可以确定窗口显示的数据内容与目标网页显示一致,保证用户的浏览体验与用户浏览页面的体验一致。
现在参照图3,图3示出了根据一些说明性实施例中翻译系统的结构示意图。
如图3所示,在一些说明性实施例中,公开了一种翻译系统,包括:
信息收集模块1、文本选取模块2、超文本选取模块3、信息展示模块4、翻译引擎7、翻译语料库8、展示配置模块5和基础数据库6。
其中,信息收集模块分别与文本选取模块和超文本选取模块连接,文本选取模块和超文本选取模块分别与信息展示模块连接,信息展示模块分别与翻译引擎和展示配置模块连接,翻译引擎与翻译语料库连接,展示配置模块与基础数据库连接。
信息收集模块,用于获取目标页面的源代码中的数据内容;文本选取模块,用于从所述信息收集模块获取的数据内容中选取文本数据;超文本选取模块,用于从所述信息收集模块获取的数据内容中选取超文本数据;信息展示模块,用于建立数据窗口显示所述文本数据、所述文本数据的译文、以及超文本数据;翻译引擎和翻译语料库,用于翻译所述文本数据,并将其译文传输给信息展示模块;以及,展示配置模块,用于接收用户设置的配置信息,并将其保存在基础数据库中。
在一些说明性实施例中,所述配置信息中至少包含有以下之一:所述数据窗口的大小、透明度、颜色样式、主从窗口,以及所述文本数据的目标语言、涉及行业等。
在一些说明性实施例中,文本数据存储在基础数据库中。
在翻译引擎翻译文本数据时,是根据基础数据库中的设定的文本数据、目标语言,以及涉及行业在翻译语料库中选取相应的语种、行业的语料进行翻译。
以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (9)

1.一种翻译网络信息的方法,其特征在于,包括:
获取目标元素链接的目标页面的源代码;
获取所述源代码中的数据内容;
将获取到的所述数据内容按照用户设定的目标语言进行翻译;
建立数据窗口显示经过所述翻译后得到的译文;
所述获取目标元素链接的目标页面的源代码的过程,包括:
识别光标在当前页面上指示的区域数据;
确定所述区域数据关联的目标元素;
调取所述目标元素链接的目标页面的源代码。
2.根据权利要求1所述的方法,其特征在于,所述翻译的过程,包括:
将获取到的所述数据内容作为待译文件进行存储;
将存储后的所述待译文件推送给翻译引擎进行翻译。
3.根据权利要求1所述的方法,其特征在于,在确定光标在当前页面上指示的区域数据之前,还包括:
确定所述当前页面的所有标题数据,以及每个所述标题数据在当前页面的源代码中对应的元素,以及所述元素的超链接;
建立每个所述标题数据的在其所在页面中的区域数据;
建立每个所述标题数据的所述区域数据与该标题数据的所述元素的超链接的关联关系;
根据所述关联关系确定所述区域数据关联的目标元素。
4.根据权利要求3所述的方法,其特征在于,所述标题数据包括:文本数据和超文本数据。
5.根据权利要求1所述的方法,其特征在于,获取所述源代码中特定标签下的数据内容。
6.根据权利要求5所述的方法,其特征在于,所述特定标签至少包括以下之一:
标题标签、超文本链接标签、文本标签、属性标签和段落标签。
7.根据权利要求6所述的方法,其特征在于,每个所述特定标签具有标签头和标签尾;
提取所述数据内容的过程,包括:
在所述源代码中建立并记录每个所述特定标签的标签头和标签尾的二维坐标(Xu,Yu);
根据所述二维坐标提取每个所述特定标签下的数据内容。
8.根据权利要求7所述的方法,其特征在于,在所述数据窗口中按照所述二维坐标对应的位置格式显示所述数据内容;
将得到的所述译文在所述数据窗口中与所述数据内容对照显示。
9.一种翻译系统,其特征在于,包括:
信息收集模块,用于获取目标页面的源代码中的数据内容;
文本选取模块,用于选取所述数据内容中的文本数据;
超文本选取模块,用于选取所述数据内容的超文本数据;
信息展示模块,用于建立数据窗口显示所述文本数据、所述文本数据的译文、以及超文本数据;
翻译引擎和翻译语料库,用于翻译所述文本数据,并将其译文传输给信息展示模块;以及,
展示配置模块和基数数据库,用于接收并存储用户设置的配置信息;其中,所述配置信息中至少包含有以下之一:所述数据窗口的大小、透明度、颜色样式、主从窗口,以及所述文本数据的目标语言。
CN201410292444.7A 2014-06-25 2014-06-25 一种翻译网络信息的方法及翻译系统 Active CN104090869B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410292444.7A CN104090869B (zh) 2014-06-25 2014-06-25 一种翻译网络信息的方法及翻译系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410292444.7A CN104090869B (zh) 2014-06-25 2014-06-25 一种翻译网络信息的方法及翻译系统

Publications (2)

Publication Number Publication Date
CN104090869A CN104090869A (zh) 2014-10-08
CN104090869B true CN104090869B (zh) 2017-07-28

Family

ID=51638585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410292444.7A Active CN104090869B (zh) 2014-06-25 2014-06-25 一种翻译网络信息的方法及翻译系统

Country Status (1)

Country Link
CN (1) CN104090869B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391840A (zh) * 2014-11-24 2015-03-04 上海迈外迪网络科技有限公司 翻译方法及装置
CN105243058B (zh) * 2015-09-30 2018-04-13 北京奇虎科技有限公司 一种网页内容翻译方法及电子设备
CN106202067A (zh) * 2016-07-08 2016-12-07 北京北大英华科技有限公司 法律文件翻译对照方法
CN107766335A (zh) * 2016-08-23 2018-03-06 耿诚 一种待翻译软件的翻译方法及装置
CN107577676A (zh) * 2017-09-15 2018-01-12 北京彩彻区明科技有限公司 网页翻译方法、装置及系统
CN109669742A (zh) * 2018-09-26 2019-04-23 深圳壹账通智能科技有限公司 网站的展示方法、装置、终端设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101086731A (zh) * 2006-06-05 2007-12-12 李钢 基于服务器的多国即时在线翻译系统
CN101576878A (zh) * 2009-06-17 2009-11-11 董名垂 用户勾圈网页即时翻译系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101086731A (zh) * 2006-06-05 2007-12-12 李钢 基于服务器的多国即时在线翻译系统
CN101576878A (zh) * 2009-06-17 2009-11-11 董名垂 用户勾圈网页即时翻译系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
EB网页文件的解析及翻译引擎的设计与实现;赵志辉;《中国优秀硕士学位论文全文数据库 信息科技辑》;20130515;第2、3、5章 *

Also Published As

Publication number Publication date
CN104090869A (zh) 2014-10-08

Similar Documents

Publication Publication Date Title
CN104090869B (zh) 一种翻译网络信息的方法及翻译系统
US11372935B2 (en) Automatically generating a website specific to an industry
US10102187B2 (en) Extensible framework for ereader tools, including named entity information
CN103514147A (zh) 复制粘贴网页内容的方法和系统
US20150227276A1 (en) Method and system for providing an interactive user guide on a webpage
CN103020191B (zh) 一种用于显示文件的装置及方法
CN104462590B (zh) 信息搜索方法及装置
CN103166981A (zh) 一种无线网页转码方法及装置
KR101638423B1 (ko) 배너형 기사 자동 생성을 통한 기사 작성 및 온라인 배포 방법
US20170109442A1 (en) Customizing a website string content specific to an industry
CN108520065B (zh) 命名实体识别语料库的构建方法、系统、设备及存储介质
CN103729178A (zh) 一种浏览器多标签页的处理方法及系统
CN107590288B (zh) 用于抽取网页图文块的方法和装置
CN105786836A (zh) 一种对影视网页的结构化摘要生成方法与系统
CN109558123B (zh) 网页转化电子书的方法、电子设备、存储介质
CN110175026B (zh) 一种网页可视化编辑方法、装置及存储介质
US8266140B2 (en) Tagging system using internet search engine
US10089284B2 (en) Transforming a website for dynamic web content management
CN105740239A (zh) 一种网页上文字的翻译方法及系统
US7512905B1 (en) Highlight linked-to document sections for increased readability
CN106372206B (zh) 一种在历史浏览界面标记网站的方法
CN104881453A (zh) 一种识别网页类型的方法和装置
CN105786841A (zh) 一种对新闻类的网页智能摘要的生成方法与系统
CN114780881A (zh) 标注浏览器文本内容的方法、装置及电子设备
CN105488054B (zh) 一种浏览图片的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 430070 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Patentee after: IOL (WUHAN) INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 430073 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Patentee before: WUHAN TRANSN INFORMATION TECHNOLOGY Co.,Ltd.

CP03 Change of name, title or address
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Network information translating method and translating system

Effective date of registration: 20190927

Granted publication date: 20170728

Pledgee: Guanggu Branch of Wuhan Rural Commercial Bank Co.,Ltd.

Pledgor: IOL (WUHAN) INFORMATION TECHNOLOGY Co.,Ltd.

Registration number: Y2019420000020

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20200930

Granted publication date: 20170728

Pledgee: Guanggu Branch of Wuhan Rural Commercial Bank Co.,Ltd.

Pledgor: IOL (WUHAN) INFORMATION TECHNOLOGY Co.,Ltd.

Registration number: Y2019420000020

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A method and system for translating network information

Effective date of registration: 20201030

Granted publication date: 20170728

Pledgee: Guanggu Branch of Wuhan Rural Commercial Bank Co.,Ltd.

Pledgor: IOL (WUHAN) INFORMATION TECHNOLOGY Co.,Ltd.

Registration number: Y2020420000074

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20211102

Granted publication date: 20170728

Pledgee: Guanggu Branch of Wuhan Rural Commercial Bank Co.,Ltd.

Pledgor: IOL (WUHAN) INFORMATION TECHNOLOGY Co.,Ltd.

Registration number: Y2020420000074

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A method and system for translating network information

Effective date of registration: 20211105

Granted publication date: 20170728

Pledgee: Guanggu Branch of Wuhan Rural Commercial Bank Co.,Ltd.

Pledgor: IOL (WUHAN) INFORMATION TECHNOLOGY Co.,Ltd.

Registration number: Y2021420000120

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20230619

Granted publication date: 20170728

Pledgee: Guanggu Branch of Wuhan Rural Commercial Bank Co.,Ltd.

Pledgor: IOL (WUHAN) INFORMATION TECHNOLOGY Co.,Ltd.

Registration number: Y2021420000120

PC01 Cancellation of the registration of the contract for pledge of patent right