CN108345589A - 一种全原文参考的在线翻译方法 - Google Patents

一种全原文参考的在线翻译方法 Download PDF

Info

Publication number
CN108345589A
CN108345589A CN201711175572.3A CN201711175572A CN108345589A CN 108345589 A CN108345589 A CN 108345589A CN 201711175572 A CN201711175572 A CN 201711175572A CN 108345589 A CN108345589 A CN 108345589A
Authority
CN
China
Prior art keywords
translation
sentence
text
original text
html file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711175572.3A
Other languages
English (en)
Inventor
罗伟峰
闫昊
车双武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Language Network (wuhan) Information Technology Co Ltd
Original Assignee
Language Network (wuhan) Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Language Network (wuhan) Information Technology Co Ltd filed Critical Language Network (wuhan) Information Technology Co Ltd
Priority to CN201711175572.3A priority Critical patent/CN108345589A/zh
Publication of CN108345589A publication Critical patent/CN108345589A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种全原文参考的在线翻译方法,包括以下主要步骤:将原始的待翻译文档转换成为HTML文件;整理所述HTML文件;创建基于web浏览器的翻译界面,将HTML文件中的元素全部显示在所述原文译文展示窗口内;接收译员以句子为单位的翻译文本输入及编辑,并将该句子的翻译文本写入译文标识指向的译文段;刷新显示原文译文展示窗口,显示出被翻译句子的译文;将HTML文件转换成为与原始的待翻译文档相同格式的文档,即得到译稿。本发明具有全原文参考在线翻译的特点,避免了传统翻译模式下的语句碎片化带给译员的语义撕裂感,有利于译员把握原文含义,大幅提高翻译质量。

Description

一种全原文参考的在线翻译方法
技术领域
本发明涉及文档解析技术和机器辅助翻译(CAT)技术领域,尤其涉及到一种在线翻译方法。
背景技术
目前市面上所有相关“在线辅助翻译平台”所使用的技术方案均是将文档中的纯文本格式的内容提取出来,进行断句并切分,最终将所有句子列举整合到翻译表格中。翻译表格的第1列为原文句子列表,第2列为译文编辑框。除了纯文本格式的文字之外,其它格式的对象,如文本框、公式、图片等对象都不会出现在翻译界面中。
这样做的弊端显而易见,翻译人员在平台上进行翻译的过程中,丧失了对全文上下文内容的整体观感。特别是一些工程类稿件或者是产品介绍类的稿件中,必须要对着原文附图才能理解文章句子的真实意思。另外,由于目前自然语言学处理能力还并非完全成熟,采用软件程序进行“断句”操作的时候难免会产生错误,而错误的断句导致句子意思连贯性的损失,对译员的翻译也会带来很严重的影响。
因此,现有技术采用的仅仅将纯文本提取出源文档并最终形成一种表格模式的翻译形式,影响翻译效率以及翻译质量。
发明内容
本发明所要解决的技术问题是提供一种全原文参考的在线翻译方法,以克服传统在线翻译平台的弊病。
为解决上述技术问题,本发明提供一种全原文参考的在线翻译方法,包括以下主要步骤:
将原始的待翻译文档转换成为HTML文件;
整理所述HTML文件;
创建基于web浏览器的翻译界面,将HTML文件中的元素全部显示在所述翻译界面内;
逐句接收译员的翻译文本输入、编辑及确认命令,并将当前句子的翻译文本写入该句子的译文标识指向的译文段;
刷新显示原文译文展示窗口,显示出被翻译句子的译文;
将HTML文件转换成为与原始的待翻译文档相同格式的文档,
进一步的,所述整理所述HTML文件,包括:
对HTML文件中的文本进行断句,重新生成一个个句子,同时顺序标注包括句子在内的各元素的位置;一个重新生成的句子包括原文段和译文段,分别存放原文文本和译文文本,原文段、译文段分别设有原文标识和译文标识。
对所述HTML文件中文本进行断句的方法是:寻找HTML文件中的文字,并根据断句逻辑合并或者拆分原始的HTML元素,得到句子单元。
所述翻译界面包括原文译文展示窗口和逐句翻译交互窗口;将HTML文件中的元素全部显示在所述原文译文展示窗口内;在逐句翻译交互窗口内,逐句接收译员的对该句子的翻译文本输入、编辑及确认命令,并将翻译文本写入所述该句子的译文标识指向的译文段。
接收译员对所述原文译文展示窗口中某一个句子选择之后,所述逐句翻译交互窗口接收译员的对该句子的翻译文本输入、编辑及确认命令。
所述刷新显示原文译文展示窗口后,自动顺序选中下一个原文句子。
进一步优化的,所述逐句翻译交互窗口接收译员的对该句子的翻译文本输入、编辑及确认命令之前,调用辅助翻译系统对当前选中的句子进行机器辅助翻译,并将机器辅助翻译结果返回所述逐句翻译交互窗口。
优选的,所述将原始的待翻译文档转换成为HTML文件,采用现有的商业化组件;
所述将HTML文件中的翻译文本转换成为与原始的待翻译文档相同格式的文档,采用现有的商业化组件。
有益效果:本发明摒弃了现有“表格在线翻译”的模式,采取了全新的“原文在线翻译”的模式,具有全原文参考在线翻译的特点。避免了传统翻译模式下的语句碎片化带给译员的语义撕裂感,有利于译员把握原文含义,大幅提高翻译质量。
附图说明
下面结合附图和具体实施方式对本发明的技术方案作进一步具体说明。
图1为本发明的流程图。
图2为本发明的具体实施方式应用场景图。
具体实施方式
下面结合图1、图2,详细描述本发明为译员提供全原文参考的在线翻译的工作过程:
准备,
步骤1、译员导入需要翻译的文档原文;
步骤2、调用现有的商业化组件,将原始的待翻译文档转换成为HTML文件。
步骤3、整理HTML文件。根据原文包括的元素,HTML文件的元素包括句子、文本框、图片、图表。对HTML文件中的文本进行断句,重新生成一个个句子,同时顺序标注包括句子在内的各元素的位置。一个重新生成的句子包括原文段和译文段,分别存放原文文本和译文文本,原文段、译文段分别设有原文标识和译文标识。
下面结合一个具体实施例,描述整理HTML文件的具体方法,包括步骤3-1至3-4。假设原文转换后生成的HTML文件片段如下:
<P>
<span>今天</span>
<span>真</span>
<span>好</span>
<span>啊!</span>
<span>是一个</span>
<span>适合做</span>
<span>翻译的</span>
<span>好日子。</span>
</P>
步骤3-1.利用正则表达式寻找所有“<span>”元素并确认每一个 SPAN元素的起始位置。
步骤3-2.基于步骤1得到的SPAN元素数据逐个处理SPAN元素。使用一个临时String类型的变量TmpStr来记录SPAN的内容。
步骤3-3.首先记录第1个SPAN元素的起点位置,然后开始依次将 Span元素内部的字符内容装载到TmpStr中,然后判断TmpStr当前内容是否是一个句子(主要采用句子终结符的规则来判断是否是句子)。如果判断结果是当前TmpStr不是一个完整句子,则继续处理下一个Span;如果判断出当前TmpStr已经构成一个完整的句子了,则在以当前SPAN的结束位置记录为终点。
步骤3-4.在“起点”位置添加一个额外的<strong>元素,并且将该 Strong元素的结束符放置于记录的“终点”位置。然后,在该Strong元素下再额外新增2个Font元素,分别给添加上“原文”和“译文”的标记,将刚才步骤3中处理过的Span元素全部移至“原文”Font中。
经过步骤3-3以及步骤3-4的处理之后,该片段应该变为:
<P>
<strong id=”1”>
<font tag=”src”>
<span>今天</span>
<span>真</span>
<span>好</span>
<span>啊!</span>
</font>
<font tag=”tar”>
</font>
</strong>
<span>是一个</span>
<span>适合做</span>
<span>翻译的</span>
<span>好日子。</span>
</P>
其中,Strong元素用来指代一个句子对象,其中tag=”src”的Font 元素表示原文部分,tag=”tar”的Font元素表示译文部分。Strong元素上的ID号则采用全文唯一的标识,用来指代一个句子对象的ID号。
反复执行步骤3-3和步骤3-4,能够从原始的HTML中逐步的将无序的内容以“句子”的形式组织起来,最终会得到一份划分好断句的HTML 文件。
步骤4、创建基于web浏览器的翻译界面,翻译界面包括原文译文展示窗口和逐句翻译交互窗口;如图2所示,翻译界面包括原文译文展示窗口21 和译员交互窗口,包括标号25、26、27所指示的窗口区。读取HTML文件,将HTML文件中的元素全部显示在原文译文展示窗口内,原文译文展示窗口实际上保留显示了原文的全部元素而不仅仅是原文的文本;
步骤5、接收译员对原文译文展示窗口中每个句子的选中输入。译员通过鼠标点击某个句子,也可以通过键盘操作,或者触控屏触屏点击,选中某个句子,作为当前需要翻译的句子。例如,译员鼠标点击标号24所指示的句子,代表对该句进行翻译;则在标号25所指示的区域立即单独显示出这个句子。
步骤6、调用辅助翻译系统对当前选中的句子进行翻译,并将翻译文本返回翻译文本的输入、编辑窗口供译员参考、编辑,如标号26所指示。辅助翻译系统在预翻译过程中调用语料库和知识库。
对译员不确定的词语,需要词典帮助时,译员在翻译词典窗口--标号29 所示,输入需要查找的字、词或短语,调用翻译词典组件,对所输入的字、词或短语进行翻译,并将显示翻译结果显示在翻译词典窗口,供译员参考。
翻译界面设有还用于译员选择翻译语种的输入界面,并将输入界面接收的翻译语种输入作为调用参数传递给辅助翻译系统、翻译词典组件。
步骤7、逐句翻译交互窗口,如标号27所示,接收译员对该句子的翻译文本输入、编辑及确认保存命令,如标号28所示。
步骤8、将译员确认保存后的该句子的翻译文本写入HTML文件中该句子的译文标识指向的译文段;
步骤9、刷新显示原文译文展示窗口,此时,原文译文展示窗口中被翻译过的句子的原文后有译文显示,如图2中标号22所指示的原文段、标号 23所指示的该原文的译文段;
步骤10、刷新显示原文译文展示窗口后,自动顺序为译员选中下一个需要被翻译的句子。
步骤11、判断翻译是否完成,如果否,返回步骤5,重复执行步骤5至步骤10;如果是,
步骤12、调用现有的商业化组件,将HTML文件全文或仅仅选择其中的译文本转换成为与原始的待翻译文档相同格式的文档,这个文档即翻译文本。
步骤13、导出译文。结束。
最后所应说明的是,以上具体实施方式仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种全原文参考的在线翻译方法,其特征在于,包括以下主要步骤:
将原始的待翻译文档转换成为HTML文件;
整理所述HTML文件;
创建基于web浏览器的翻译界面,将HTML文件中的元素全部显示在所述翻译界面内;
逐句接收译员的翻译文本输入、编辑及确认命令,并将当前句子的翻译文本写入该句子的译文标识指向的译文段;
刷新所述翻译界面,显示出被翻译句子的译文;
将HTML文件转换成为与原始的待翻译文档相同格式的文档。
2.根据权利要求1所述的全原文参考的在线翻译方法,其特征在于,所述整理所述HTML文件,包括:
对HTML文件中的文本进行断句,重新生成一个个句子,同时顺序标注包括句子在内的各元素的位置;一个重新生成的句子包括原文段和译文段,分别存放原文文本和译文文本,原文段、译文段分别设有原文标识和译文标识。
3.根据权利要求2所述的全原文参考的在线翻译方法,其特征在于,对所述HTML文件中文本进行断句的方法是:寻找HTML文件中的文字,并根据断句逻辑合并或者拆分原始的HTML元素,得到句子单元。
4.根据权利要求3所述的全原文参考的在线翻译方法,其特征在于,所述翻译界面包括原文译文展示窗口和逐句翻译交互窗口;将HTML文件中的元素全部显示在所述原文译文展示窗口内;在逐句翻译交互窗口内,逐句接收译员的对该句子的翻译文本输入、编辑及确认命令,并将翻译文本写入所述该句子的译文标识指向的译文段。
5.根据权利要求4所述的全原文参考的在线翻译方法,其特征在于,接收译员对所述原文译文展示窗口中某一个句子选择之后,所述逐句翻译交互窗口接收译员的对该句子的翻译文本输入、编辑及确认命令。
6.根据权利要求5所述的全原文参考的在线翻译方法,其特征在于,所述刷新显示原文译文展示窗口后,自动顺序选中下一个原文句子。
7.根据权利要求5或6所述的全原文参考的在线翻译方法,其特征在于,
所述逐句翻译交互窗口接收译员的对该句子的翻译文本输入、编辑及确认命令之前,调用辅助翻译系统对当前选中的句子进行机器辅助翻译,并将机器辅助翻译结果返回所述逐句翻译交互窗口。
8.根据权利要求1所述的全原文参考的在线翻译方法,其特征在于,
所述将原始的待翻译文档转换成为HTML文件,采用现有的商业化组件;
所述将HTML文件中的翻译文本转换成为与原始的待翻译文档相同格式的文档,采用现有的商业化组件。
CN201711175572.3A 2017-11-22 2017-11-22 一种全原文参考的在线翻译方法 Pending CN108345589A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711175572.3A CN108345589A (zh) 2017-11-22 2017-11-22 一种全原文参考的在线翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711175572.3A CN108345589A (zh) 2017-11-22 2017-11-22 一种全原文参考的在线翻译方法

Publications (1)

Publication Number Publication Date
CN108345589A true CN108345589A (zh) 2018-07-31

Family

ID=62963428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711175572.3A Pending CN108345589A (zh) 2017-11-22 2017-11-22 一种全原文参考的在线翻译方法

Country Status (1)

Country Link
CN (1) CN108345589A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918685A (zh) * 2019-03-18 2019-06-21 百度在线网络技术(北京)有限公司 计算机辅助翻译方法、装置、计算机设备及存储介质
CN112766002A (zh) * 2021-01-14 2021-05-07 语联网(武汉)信息技术有限公司 基于动态规划的文本对齐方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1179576A (zh) * 1996-10-15 1998-04-22 国际商业机器公司 自动翻译方法和自动翻译机
US20090158137A1 (en) * 2007-12-14 2009-06-18 Ittycheriah Abraham P Prioritized Incremental Asynchronous Machine Translation of Structured Documents
CN105573969A (zh) * 2006-10-02 2016-05-11 谷歌公司 在带有翻译后的文本的用户界面中显示原始文本

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1179576A (zh) * 1996-10-15 1998-04-22 国际商业机器公司 自动翻译方法和自动翻译机
CN105573969A (zh) * 2006-10-02 2016-05-11 谷歌公司 在带有翻译后的文本的用户界面中显示原始文本
US20090158137A1 (en) * 2007-12-14 2009-06-18 Ittycheriah Abraham P Prioritized Incremental Asynchronous Machine Translation of Structured Documents

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
轻敲互动翻译: "译员如何更便捷的使用机器翻译——轻敲互动翻译介绍之二", 《HTTPS://MP.WEIXIN.QQ.COM/S/CFCBWROTE5V0KMUEX3VPSQ》 *
轻敲互动翻译: "轻敲互动翻译,最亲切最智能的线上翻译平台", 《HTTPS://MP.WEIXIN.QQ.COM/S/AX-P5IZNCOVJ8SK7CBJD_W》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918685A (zh) * 2019-03-18 2019-06-21 百度在线网络技术(北京)有限公司 计算机辅助翻译方法、装置、计算机设备及存储介质
CN109918685B (zh) * 2019-03-18 2023-10-17 百度在线网络技术(北京)有限公司 计算机辅助翻译方法、装置、计算机设备及存储介质
CN112766002A (zh) * 2021-01-14 2021-05-07 语联网(武汉)信息技术有限公司 基于动态规划的文本对齐方法及系统

Similar Documents

Publication Publication Date Title
CN107943797A (zh) 一种全原文参考的在线翻译系统
CN102479208B (zh) 汉语语音码多样网页信息搜索转换翻译方法
CN104408078A (zh) 一种基于关键词的中英双语平行语料库构建方法
Haaf et al. The dta “base format”: A tei subset for the compilation of a large reference corpus of printed text from multiple sources
CN104199871A (zh) 一种用于智慧教学的高速化试题导入方法
US20090144052A1 (en) Method and system for providing conversation dictionary services based on user created dialog data
CN108345589A (zh) 一种全原文参考的在线翻译方法
Wehrmeyer A corpus for signed language<? br?> interpreting research
Khalfi et al. Classical dictionary Al-Qamus in lemon
JP2016164707A (ja) 自動翻訳装置及び翻訳用モデル学習装置
CN103164398B (zh) 利用汉维电子辞典自动转译汉维语的方法
Raupova Principles of creating an electronic dictionary of grammatical terms
CN103164397A (zh) 汉哈电子辞典及其自动转译汉哈语的方法
CN111079385A (zh) 一种科学公式格式转换的方法和装置
CN107967243A (zh) 一种支持用户自主断句的处理方法
CN103164395A (zh) 汉柯电子辞典及其自动转译汉柯语的方法
CN103164396A (zh) 汉维哈柯电子辞典及其自动转译汉维哈柯语的方法
TW201011705A (en) Foreign-language learning method utilizing an original language to review corresponding foreign languages and foreign-language learning database system thereof
Petran et al. ReM: A reference corpus of Middle High German--corpus compilation, annotation, and access
KR20110020115A (ko) 청구항 시각화 장치 및 방법
KR101498456B1 (ko) 백과사전을 이용한 번역 서비스 장치 및 그 방법
CN114973798A (zh) 一种单词学习卡生成方法及装置
Rosmorduc Computational linguistics in egyptology
CN111191425A (zh) 一种加的夫语法分析绘图系统
Musgrave et al. Language description and hypertext: Nunggubuyu as a case study

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180731