CN110059275A - 一种英文html网页的中文注释方法 - Google Patents
一种英文html网页的中文注释方法 Download PDFInfo
- Publication number
- CN110059275A CN110059275A CN201910328677.0A CN201910328677A CN110059275A CN 110059275 A CN110059275 A CN 110059275A CN 201910328677 A CN201910328677 A CN 201910328677A CN 110059275 A CN110059275 A CN 110059275A
- Authority
- CN
- China
- Prior art keywords
- english
- chinese
- html
- web page
- annotation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Transfer Between Computers (AREA)
Abstract
为了解决中国用户阅读英文HTML网页的困难,本发明公开了一种英文HTML网页的中文注释方法,利用网页浏览器扩展程序把英文HTML网页的文本内容提取出来并上传到服务器,服务器通过基于神经网络的机器翻译和注意力矩阵,得到每个英文单词和短语的中文释义,并生成类似汉字注音格式的“<ruby>英文单词或短语<rt>中文释义</rt></ruby>”HTML文本,插入原网页后得到中文词义注释在英文单词或短语上面的新HTML网页。这种方法基本保持了网页的排版格式,避免了用户多次查字典,可以提高阅读英文的效率。
Description
技术领域
本发明涉及机器翻译领域,特别涉及一种英文HTML网页的中文注释方法。
背景技术
随着信息技术和互联网技术的快速发展,互联网成为人们获取信息的主要渠道之一,HTML网页也成为信息传播和展示的主要方式之一。据估计,互联网上的英文网页数量约为中文网页的10倍。随着我国整体教育水平的提高和改革开放的深入,人们需要阅读越来越多的英文HTML网页。但是英文HTML网页中有很多中国人不熟悉的英文单词,导致阅读效率极其低下。另一方面,以Google翻译、Bing翻译、百度翻译等为代表的基于神经网络的机器翻译已经可以比较好地把英文翻译为中文,但是,由于英文和中文两种语言的本质差别,翻译往往很难准确表达英文的原意,人们很多时候仍然希望阅读原版英文。在这种情况下,对英文进行注释就成为提高阅读原版英文速度的重要方法。
为了解决读者在线阅读原版英文HTML网页的困难,需要把机器翻译、网络信息传输、HTML网页注释等技术有机地结合在一起,生成中文注释的英文HTML网页,提高用户阅读原版英文HTML网页的速度。
发明内容
本发明所要解决的技术问题是,将机器翻译、网络信息传输和HTML网页注释有机结合在一起,给英文HTML网页添加中文注释。
为解决上述技术问题,本发明所采用的技术方案是一种英文HTML网页的中文注释方法,包括以下步骤:在用户使用网页浏览器阅读英文网页时,网页文本节点的文本通过网页浏览器的扩展程序自动提取并上传、在服务器上通过机器翻译添加英文单词和短语的中文注释、自动下载中文注释后的HTML内容并替换文本节点的内容,最后在网页浏览器上给用户展示中文注释的英文HTML网页。
所述的网页浏览器是指能够安装扩展程序的网页浏览器,包括Chrome浏览器、Android的Webkit浏览器、360安全浏览器、360极速浏览器、QQ浏览器、百度浏览器和Firefox浏览器。
所述的网页文本节点的文本通过网页浏览器的扩展程序自动提取并上传是指通过在网页浏览器安装一个简单扩展程序,就可以通过浏览器的JavaScript程序,获取所有节点类型为文本的节点的内容,用XMLhttprequest方法上传至指定的后台服务器。
所述的在服务器上通过机器翻译添加英文单词和短语的中文注释,是把上传的英文文本分割成英文句子,用基于神经网络的机器翻译方法翻译成中文句子,再通过注意力矩阵找出每个英文单词或短语对应的中文释义,把英文单词或短语的中文释义从中文句子中提取出,生成类似汉字注音格式的 “<ruby>英文单词或短语<rt>中文释义</rt></ruby>” HTML文本,替换英文中的相应英文单词或短语而形成带中文注释的HTML内容。
所述的自动下载中文注释后的HTML内容并替换文本节点的内容,是把添加中文释义的HTML内容使用JavaScript程序自动下载到用户的网页浏览器,在相应文本节点前插入此HTML内容并删除该文本节点,从而在网页浏览器中呈现出中文注释的英文HTML网页。
所述的通过机器翻译添加英文单词和短语的中文注释时,常用的简单英语单词of、to、in、at、with、on、for、as、after、between、and、or、if、when、is、are、that、this、a、an、the不做中文注释。
本发明有三点有益效果:(1)注释后的HTML网页的版式和英文单词序列基本不变,网页链接和操作不受影响;(2)中文注释的英文HTML网页只有一个准确释义,用户不需要花费时间一个个查字典和辨析释义,节省了大量时间;(3)英文和中文注释一一对应,用户可以在阅读中学习英文词汇。因此,这种中文注释的英文HTML网页可以对用户阅读英文HTML网页起到一举多得的效果。
附图说明
图1为本发明英文HTML网页的中文注释方法的流程图。
图2为本发明英文HTML网页的中文注释前后对比图。
具体实施方式
下面结合附图和实施例对本发明做进一步阐述。
实施例
本发明的实施例主要采用主流的Chrome浏览器,使用开源神经网络机器翻译软件OpenNMT软件包(http://opennmt.net/),训练机器翻译所用的100万句中英对照语料来自开源Niutrans软件包(http://www.niutrans.com)。
如图1所示,本发明包括网页浏览器端(101)和服务器端(102)两个部分。用户首先在网页浏览器中打开英文HTML网页(103),在需要翻译的时候,只需要点击启动浏览器客户端的扩展程序(104),应用扩展(插件)使用JavaScript程序获取网页的文本节点,并且用XMLHttpRequest方法把英文文本上传到服务器(105)。上传的英文文本在服务器端用OpenNMT翻译成中文句子(106)。
OpenNMT是基于人工神经网络的翻译方法,本实施例采用两层循环神经网络和全局注意力机制进行训练,使用Niutrans的100万英汉对照语料,得到的翻译模型大小约800MB。在英汉翻译时,除了输出中文翻译,还同时输出英汉对照的注意力矩阵。根据注意力矩阵中每个中文词的注意力最大值,可以找到每个英文短语对应的中文注释,从而提取出中文释义(107)。
在本实施例,通过注意力矩阵不仅提取到英文单词的中文释义,比如Download(下载),install(安装),list(列表),entirely(完全)等,还提取并组合出很多英文短语的中文释义,比如free software(免费软件),Operating System(操作系统),intellectualproperty(知识产权),makes no sense(没有意义),New York Times(纽约时报)等。
由于中国义务教育的普及和开放程度的提高,一些简单英语单词已经为大多数中国人所熟悉,不需要中文注释,比如介词of、to、in、at、with、on、for、as、after,连词between、and、or、if、when,助动词is、are,代词that、this,冠词the、a、an。当然,一些常见的专有名词(比如MIT,GNU,Linux,iPhone,DNA等)也不需要中文注释。
对于需要中文注释的英文单词和短语,采取类似汉字注音格式的“英文文本在下,中文注释在上”的排版,既可起到中英词义一一对应的效果,也不干扰用户对英文的流畅阅读。在HTML语言中,这种格式可以通过HTML标签ruby来实现。因此,对每个英文短语或短语,都可以与其中文注释一起,组成“<ruby>英文单词或短语<rt>中文释义</rt></ruby>”的HTML文本。把每个单词和短语的中文注释HTML文本按照原来句子的顺序组合起来,就形成了一句完整的中文注释的英文HTML文本(108)。
最后,使用JavaScript的XMLHttpRequest方法下载中文注释的英文HTML网页的内容(109),替换原来的文本节点,并且在原标签页或者浏览器窗口进行展示(110)。这样,就完成了英文HTML网页的中文注释。
中文注释前后的HTML网页效果对比如图2所示。原文档(201)是英文HTML的部分页面,其中包含不同的大小和颜色的文字、不同的背景颜色,而且是图文混排。经过注释后页面变成中文注释的HTML页面(202),其中有对应英文单词的中文释义(203)和英文短语的中文释义(204)。
从注释网页和原网页的直观对比,比较可以看出:(1)注释网页并没有改变原网页的格局,包括字体的背景颜色,字体颜色,图文排列版式,链接等内容;(2)所有不常见英文单词和短语都给出了单一的释义,用户不需要查字典和人工辨析释义;(3)英文和中文有着明确的一对一关系,便于用户学习英语词汇。
这样,把网页浏览器扩展程序、机器翻译和HTML网页技术有机结合起来,把HTML网页的英文单词和短语添加类似汉字注音格式的中文注释,用户在阅读时,不需要查字典和辨析释义就可以相对顺畅地阅读英文。这种中文注释的HTML网页对于不熟悉的英文单词而又希望阅读英文原版文章的读者会有很大的好处。
Claims (6)
1.一种英文HTML网页的中文注释方法,其特征在于,包括以下步骤:在用户使用网页浏览器阅读英文网页时,网页文本节点的文本通过网页浏览器的扩展程序自动提取并上传、在服务器上通过机器翻译添加英文单词和短语的中文注释、自动下载中文注释后的HTML内容并替换文本节点的内容,最后在网页浏览器上给用户展示中文注释的英文HTML网页。
2.根据权利要求书1所述的一种英文HTML网页的中文注释方法,其特征在于,所述的网页浏览器是指能够安装扩展程序的网页浏览器,包括Chrome浏览器、Android的Webkit浏览器、360安全浏览器、360极速浏览器、QQ浏览器、百度浏览器和Firefox浏览器。
3.根据权利要求书1所述的一种英文HTML网页的中文注释方法,其特征在于,所述的网页文本节点的文本通过网页浏览器的扩展程序自动提取并上传是指通过在网页浏览器安装一个简单扩展程序,就可以通过浏览器的JavaScript程序,获取所有节点类型为文本的节点的内容,用XMLhttprequest方法上传至指定的后台服务器。
4.根据权利要求书1所述的一种英文HTML网页的中文注释方法,其特征在于,所述的在服务器上通过机器翻译添加英文单词和短语的中文注释,是把上传的英文文本分割成英文句子,用基于神经网络的机器翻译方法翻译成中文句子,再通过注意力矩阵找出每个英文单词或短语对应的中文释义,把英文单词或短语的中文释义从中文句子中提取出来,生成类似汉字注音格式的 “<ruby>英文单词或短语<rt>中文释义</rt></ruby>” HTML文本,替换英文中的相应英文单词或短语而形成带中文注释的HTML内容。
5.根据权利要求书1所述的一种英文HTML网页的中文注释方法,其特征在于,所述的自动下载中文注释后的HTML内容并替换文本节点的内容,是把添加中文释义的HTML内容使用JavaScript程序自动下载到用户的网页浏览器,在相应文本节点前插入此HTML内容并删除该文本节点,从而在网页浏览器中呈现出中文注释的英文HTML网页。
6.根据权利要求书1所述的一种英文HTML网页的中文注释方法,其特征在于,所述的通过机器翻译添加英文单词和短语的中文注释时,常用的简单英语单词of、to、in、at、with、on、for、as、after、between、and、or、if、when、is、are、that、this、a、an、the不做中文注释。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910328677.0A CN110059275A (zh) | 2019-04-23 | 2019-04-23 | 一种英文html网页的中文注释方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910328677.0A CN110059275A (zh) | 2019-04-23 | 2019-04-23 | 一种英文html网页的中文注释方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110059275A true CN110059275A (zh) | 2019-07-26 |
Family
ID=67320339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910328677.0A Pending CN110059275A (zh) | 2019-04-23 | 2019-04-23 | 一种英文html网页的中文注释方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110059275A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110738043A (zh) * | 2019-10-25 | 2020-01-31 | 吕海港 | 一种英文网页的中文机器注释方法 |
-
2019
- 2019-04-23 CN CN201910328677.0A patent/CN110059275A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110738043A (zh) * | 2019-10-25 | 2020-01-31 | 吕海港 | 一种英文网页的中文机器注释方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8903707B2 (en) | Predicting pronouns of dropped pronoun style languages for natural language translation | |
Karimi et al. | Machine transliteration survey | |
US20110264705A1 (en) | Method and system for interactive generation of presentations | |
CN108170660B (zh) | 多语言排版的显示方法、装置、浏览器、终端及介质 | |
CN109840332A (zh) | 一种英文pdf文档的在线中文注释方法 | |
US10599748B2 (en) | Systems and methods for asymmetrical formatting of word spaces according to the uncertainty between words | |
CN112257462A (zh) | 一种基于神经机器翻译技术的超文本标记语言翻译方法 | |
Somers | The translator's workstation | |
Bagley et al. | Creating reusable well-structured PDF as a sequence of component object graphic (COG) elements | |
CN110059275A (zh) | 一种英文html网页的中文注释方法 | |
Brookes et al. | The digipal project for european scripts and decorations | |
Probets et al. | Vector graphics: from PostScript and Flash to SVG | |
Al-Barhamtoshy et al. | Development of an intelligent arabic text translation model for deaf students using state of the art information technology | |
CN117313754B (zh) | 智能翻译方法、装置以及翻译机 | |
Luo | A Corpus-based Study of Translation Approaches and Strategies on Culture-loaded Words in Literatures: A Case Study of Jiutu and Its English Version | |
Singh et al. | Hindi lexicography in the Internet era | |
Lawrence | pml–a language for authoring and editing physics text | |
Morrison | , Structuring Web Pages with HTML5 | |
Nishigaki | What can MT do for multilingualism on the Net? | |
JP2020118891A (ja) | 学習システム | |
Appleby | Multilingual information technology | |
Leucuta et al. | The Romanian-Latin-Hungarian-German Lexicon-The Lexicon of Buda (1825). Informatics Challenges for an Emended and On-Line Ready Edition | |
Winiwarter | JETCAT-Japanese-English Translation using Corpus-based Acquisition of Transfer rules | |
CN114742077A (zh) | 一种领域平行语料的生成方法与翻译模型的训练方法 | |
JP2020057337A (ja) | 電子文書の閲覧用電子機器、表示方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190726 |