CN107943797A - 一种全原文参考的在线翻译系统 - Google Patents

一种全原文参考的在线翻译系统 Download PDF

Info

Publication number
CN107943797A
CN107943797A CN201711175575.7A CN201711175575A CN107943797A CN 107943797 A CN107943797 A CN 107943797A CN 201711175575 A CN201711175575 A CN 201711175575A CN 107943797 A CN107943797 A CN 107943797A
Authority
CN
China
Prior art keywords
translation
text
original text
sentence
subsystem
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711175575.7A
Other languages
English (en)
Inventor
罗伟峰
闫昊
车双武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Language Network (wuhan) Information Technology Co Ltd
Original Assignee
Language Network (wuhan) Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Language Network (wuhan) Information Technology Co Ltd filed Critical Language Network (wuhan) Information Technology Co Ltd
Priority to CN201711175575.7A priority Critical patent/CN107943797A/zh
Publication of CN107943797A publication Critical patent/CN107943797A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种全原文参考的在线翻译系统,包括第一子系统,用于将原始的待翻译文档转换成为HTML文件。第二子系统,用于整理所述HTML文件。第三子系统,用于创建基于web浏览器的翻译界面;将HTML文件中的元素全部显示在所述原文译文展示窗口内;接收译员以句子为单位的翻译文本输入及编辑,并将该句子的翻译文本写入译文标识指向的译文段,然后刷新显示原文译文展示窗口,显示出被翻译句子的译文。第四子系统,用于将HTML文件转换成为与原始的待翻译文档相同格式的文档,即得到译稿。本发明具有全原文参考在线翻译的特点,避免了传统翻译模式下的语句碎片化带给译员的语义撕裂感,有利于译员把握原文含义,大幅提高翻译质量。

Description

一种全原文参考的在线翻译系统
技术领域
本发明涉及文档解析技术和机器辅助翻译(CAT)技术领域,尤其涉及到一种在线翻译方法。
背景技术
目前市面上所有相关“在线辅助翻译平台”所使用的技术方案均是将文档中的纯文本格式的内容提取出来,进行断句并切分,最终将所有句子列举整合到翻译表格中。翻译表格的第1列为原文句子列表,第2列为译文编辑框。除了纯文本格式的文字之外,其它格式的对象,如文本框、公式、图片等对象都不会出现在翻译界面中。
这样做的弊端显而易见,翻译人员在平台上进行翻译的过程中,丧失了对全文上下文内容的整体观感。特别是一些工程类稿件或者是产品介绍类的稿件中,必须要对着原文附图才能理解文章句子的真实意思。另外,由于目前自然语言学处理能力还并非完全成熟,采用软件程序进行“断句”操作的时候难免会产生错误,而错误的断句导致句子意思连贯性的损失,对译员的翻译也会带来很严重的影响。
因此,现有技术采用的仅仅将纯文本提取出源文档并最终形成一种表格模式的翻译形式,影响翻译效率以及翻译质量。
发明内容
本发明所要解决的技术问题是提供一种全原文参考的在线翻译系统,以克服传统在线翻译平台的弊病。
为解决上述技术问题,本发明提供一种全原文参考的在线翻译系统,包括:
第一子系统,用于调用现有的商业化组件,将原始的待翻译文档转换成为HTML文件;
第二子系统,用于整理所述HTML文件;所述整理HTML文件包括:对HTML文件中的文本进行断句,重新生成一个个句子,同时顺序标注包括句子在内的各元素的位置。一个重新生成的句子包括原文段和译文段,分别存放原文文本和译文文本,原文段、译文段分别设有原文标识和译文标识;
第三子系统,用于创建基于web浏览器的翻译界面,所述翻译界面包括原文译文展示窗口和译员交互窗口;读取所述HTML文件,将HTML文件中的元素全部显示在所述原文译文展示窗口内,原文译文展示窗口实际上保留显示了原文的全部元素而不仅仅是原文的文本;以句子为单位,接收译员的对该句子的翻译文本输入及编辑,并将翻译文本写入所述该句子的译文标识指向的译文段,然后,刷新显示所述原文译文展示窗口,此时,所述原文译文展示窗口中被翻译过的句子的原文后有译文显示;
第四子系统,用于调用现有的商业化组件,将HTML文件中的翻译文本转换成为与原始的待翻译文档相同格式的文档。
进一步的,所述第三子系统,还用于刷新显示原文译文展示窗口后,自动顺序为译员选中下一个需要被翻译的句子。
所述第三子系统,还用于调用辅助翻译系统,所述辅助翻译系统对当前选中的句子进行翻译,并将翻译文本返回所述翻译文本的输入、编辑窗口。
更优选的,所述第三子系统创建的翻译界面还包括翻译词典窗口,所述翻译词典窗口接收译员输入的字、词或短语,然后调用翻译词典组件,对所输入的字、词或短语进行翻译,并将显示翻译结果显示在翻译词典窗口。
更进一步的,所述第三子系统,还用于接收译员选择翻译语种的选择输入,并将翻译语种作为调用参数传递给辅助翻译系统、翻译词典组件。
所述第二子系统对所述HTML文件中文本进行断句处理包括:寻找HTML文件中的文字并根据断句逻辑合并或者拆分原始的HTML元素,得到句子单元。
有益效果:本发明摒弃了现有“表格在线翻译”的模式,采取了全新的“原文在线翻译”的模式,具有全原文参考在线翻译的特点。避免了传统翻译模式下的语句碎片化带给译员的语义撕裂感,有利于译员把握原文含义,大幅提高翻译质量。
附图说明
下面结合附图和具体实施方式对本发明的技术方案作进一步具体说明。
图1为本发明的逻辑结构框图。
图2为本发明的整体的实施流程图。
图3为本发明的第三子系统具体实施下的应用场景图。
具体实施方式
如图1并结合图2所示,全原文参考的在线翻译系统,包括第一子系统1,第二子系统2,第三子系统3和第四子系统4。
第一子系统1用于调用现有的商业化组件,将原始的待翻译文档5转换成为HTML文件6。
第二子系统2用于整理HTML文件6,根据原文包括的元素,HTML文件的元素包括句子、文本框、图片、图表。整理HTML文件包括:对HTML文件中的文本进行断句,重新生成一个个句子,同时顺序标注包括句子在内的各元素的位置。一个重新生成的句子包括原文段和译文段,分别存放原文文本和译文文本,原文段、译文段分别设有原文标识和译文标识。
第三子系统3用于创建基于web浏览器的翻译界面,翻译界面包括原文译文展示窗口和译员交互窗口;读取HTML文件6,将HTML文件6中的元素全部显示在原文译文展示窗口内,原文译文展示窗口实际上保留显示了原文的全部元素而不仅仅是原文的文本;以句子为单位,接收译员的对该句子的翻译文本输入及编辑,并将翻译文本写入该句子的译文标识指向的译文段,然后,刷新显示原文译文展示窗口,此时,原文译文展示窗口中被翻译过的句子的原文后有译文显示;
第四子系统4用于调用现有的商业化组件,将HTML文件6中的翻译文本转换成为与原始的待翻译文档相同格式的文档7。
第三子系统3还用于刷新显示原文译文展示窗口后,自动顺序为译员选中下一个需要被翻译的句子。
第三子系统3还用于调用辅助翻译系统8,辅助翻译系统8对当前选中的句子进行翻译,并将翻译文本返回翻译文本的输入、编辑窗口。辅助翻译系统8在预翻译过程中调用语料库和知识库。
第三子系统3创建的翻译界面还包括翻译词典窗口,翻译词典窗口接收译员输入的字、词或句子,然后调用翻译词典组件9,对所输入的字、词或句子进行翻译,并将显示翻译结果显示在翻译词典窗口。
翻译界面设有还用于译员选择翻译语种的输入界面,并将输入界面接收的翻译语种输入作为调用参数传递给辅助翻译系统、翻译词典组件。
下面结合一个具体实施例,描述第二子系统整理HTML文件的具体方法,包括步骤1-1至1-4。假设原文转换后生成的HTML文件片段如下:
<P>
<span>今天</span>
<span>真</span>
<span>好</span>
<span>啊!</span>
<span>是一个</span>
<span>适合做</span>
<span>翻译的</span>
<span>好日子。</span>
</P>
1-1.利用正则表达式寻找所有“<span>”元素并确认每一个SPAN元素的起始位置。
1-2.基于步骤1得到的SPAN元素数据逐个处理SPAN元素。使用一个临时String类型的变量TmpStr来记录SPAN的内容。
1-3.首先记录第1个SPAN元素的起点位置,然后开始依次将Span元素内部的字符内容装载到TmpStr中,然后判断TmpStr当前内容是否是一个句子(主要采用句子终结符的规则来判断是否是句子)。如果判断结果是当前TmpStr不是一个完整句子,则继续处理下一个Span;如果判断出当前TmpStr已经构成一个完整的句子了,则在以当前SPAN的结束位置记录为终点。
1-4.在“起点”位置添加一个额外的<strong>元素,并且将该Strong元素的结束符放置于记录的“终点”位置。然后,在该Strong元素下再额外新增2个Font元素,分别给添加上“原文”和“译文”的标记,将刚才步骤3中处理过的Span元素全部移至“原文”Font中。
经过步骤1-3以及步骤1-4的处理之后,该片段应该变为:
<P>
<strong id=”1”>
<font tag=”src”>
<span>今天</span>
<span>真</span>
<span>好</span>
<span>啊!</span>
</font>
<font tag=”tar”>
</font>
</strong>
<span>是一个</span>
<span>适合做</span>
<span>翻译的</span>
<span>好日子。</span>
</P>
其中,Strong元素用来指代一个句子对象,其中tag=”src”的Font元素表示原文部分,tag=”tar”的Font元素表示译文部分。Strong元素上的ID号则采用全文唯一的标识,用来指代一个句子对象的ID号。
反复执行步骤1-3和步骤1-4,能够从原始的HTML中逐步的将无序的内容以“句子”的形式组织起来,最终会得到一份划分好断句的HTML文件。
为进一步描述本发明,下面结合图2、图3对译员利用本发明进行翻译的工作过程做进一步详细描述如下。
2-1、译员导入需要翻译的文档原文;
2-2、第一子系统调用现有的商业化组件,将原始的待翻译文档转换成为HTML文件。
2-3、第二子系统整理HTML文件。根据原文包括的元素,HTML文件的元素包括句子、文本框、图片、图表。对HTML文件中的文本进行断句,重新生成一个个句子,同时顺序标注包括句子在内的各元素的位置。一个重新生成的句子包括原文段和译文段,分别存放原文文本和译文文本,原文段、译文段分别设有原文标识和译文标识。
2-4、第三子系统创建基于web浏览器的翻译界面,如图3所示,翻译界面包括原文译文展示窗口21和译员交互窗口,包括标号25、26、27所指示的窗口区;读取HTML文件,将HTML文件中的元素全部显示在原文译文展示窗口内,原文译文展示窗口实际上保留显示了原文的全部元素而不仅仅是原文的文本;
2-5、第三子系统接收译员对原文译文展示窗口中每个句子的选中输入,接收译员交互窗口中译员对该句子的翻译文本输入及编辑,并将翻译文本返回到第二子系统。例如,译员鼠标点击标号24所指示的句子,代表对该句进行翻译;则在标号25所指示的区域立即单独显示出这个句子。
在译员输入及编辑翻译文本之前,第三子系统主动调用辅助翻译系统对当前选中的句子进行翻译,在标号26所指示的区域立即显示辅助翻译参考译文,并将翻译文本返回翻译文本的输入、编辑窗口供译员参考、编辑,标号27所指示的区域是译员编辑翻译输入区域,译员翻译完当前句子后点击“保存”按钮,如标号28所示,则系统确认保存。辅助翻译系统在预翻译过程中可调用语料库和知识库。
对译员不确定的词语,需要词典帮助时,译员在翻译词典窗口,如标号29所示,输入需要查找的字、词或短语,第三子系统主动调用翻译词典组件,对所输入的字、词或短语进行翻译,并将显示翻译结果显示在翻译词典窗口,供译员参考。
翻译界面设有还用于译员选择翻译语种的输入界面,并将输入界面接收的翻译语种输入作为调用参数传递给辅助翻译系统、翻译词典组件,如图3最上的工具条内所示。
2-6、第三子系统将该句子的翻译文本写入该句子的译文标识指向的译文段;
2-7、第三子系统刷新显示原文译文展示窗口,此时,原文译文展示窗口中被翻译过的句子的原文后有译文显示,如图3中标号22所指示的原文段、标号23所指示的该原文的译文段;
2-8、第三子系统刷新显示原文译文展示窗口后,自动顺序为译员选中下一个需要被翻译的句子。
2-9、重复步骤2-5至2-8,直至译员确认翻译完成。
2-10、第四子系统调用现有的商业化组件,将HTML文件全文或仅仅选择其中的译文本转换成为与原始的待翻译文档相同格式的文档,这个文档即翻译文本。
最后所应说明的是,以上具体实施方式仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种全原文参考的在线翻译系统,其特征在于,包括:
第一子系统,用于调用现有的商业化组件,将原始的待翻译文档转换成为HTML文件;
第二子系统,用于整理所述HTML文件;所述整理HTML文件包括:对HTML文件中的文本进行断句,重新生成一个个句子,同时顺序标注包括句子在内的各元素的位置。一个重新生成的句子包括原文段和译文段,分别存放原文文本和译文文本,原文段、译文段分别设有原文标识和译文标识;
第三子系统,用于创建基于web浏览器的翻译界面,所述翻译界面包括原文译文展示窗口和译员交互窗口;读取所述HTML文件,将HTML文件中的元素全部显示在所述原文译文展示窗口内,原文译文展示窗口实际上保留显示了原文的全部元素而不仅仅是原文的文本;以句子为单位,接收译员的对该句子的翻译文本输入及编辑,并将翻译文本写入所述该句子的译文标识指向的译文段,然后,刷新显示原文译文展示窗口,此时,原文译文展示窗口中被翻译过的句子的原文后有译文显示;
第四子系统,用于调用现有的商业化组件,将HTML文件中的翻译文本转换成为与原始的待翻译文档相同格式的文档。
2.根据权利要求1所述的全原文参考的在线翻译系统,其特征在于,所述第三子系统,还用于刷新显示原文译文展示窗口后,自动顺序为译员选中下一个需要被翻译的句子。
3.根据权利要求1或2所述的全原文参考的在线翻译系统,其特征在于,所述第三子系统,还用于调用辅助翻译系统,所述辅助翻译系统对当前选中的句子进行翻译,并将翻译文本返回所述翻译文本的输入、编辑窗口。
4.根据权利要求3所述的全原文参考的在线翻译系统,其特征在于,所述第三子系统创建的翻译界面还包括翻译词典窗口,所述翻译词典窗口接收译员输入的字、词或短语,然后调用翻译词典组件,对所输入的字、词或短语进行翻译,并将显示翻译结果显示在翻译词典窗口。
5.根据权利要求4所述的全原文参考的在线翻译系统,其特征在于,所述第三子系统,还用于接收译员选择翻译语种的选择输入,并将翻译语种作为调用参数传递给辅助翻译系统、翻译词典组件。
6.根据权利要求1所述的全原文参考的在线翻译系统,其特征在于,所述第二子系统对所述HTML文件中文本进行断句处理包括:寻找HTML文件中的文字并根据断句逻辑合并或者拆分原始的HTML元素,得到句子单元。
CN201711175575.7A 2017-11-22 2017-11-22 一种全原文参考的在线翻译系统 Pending CN107943797A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711175575.7A CN107943797A (zh) 2017-11-22 2017-11-22 一种全原文参考的在线翻译系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711175575.7A CN107943797A (zh) 2017-11-22 2017-11-22 一种全原文参考的在线翻译系统

Publications (1)

Publication Number Publication Date
CN107943797A true CN107943797A (zh) 2018-04-20

Family

ID=61930813

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711175575.7A Pending CN107943797A (zh) 2017-11-22 2017-11-22 一种全原文参考的在线翻译系统

Country Status (1)

Country Link
CN (1) CN107943797A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033054A (zh) * 2018-07-11 2018-12-18 吕海港 一种英文pdf文档的中文机器注释方法
CN111753558A (zh) * 2020-06-23 2020-10-09 北京字节跳动网络技术有限公司 视频翻译方法和装置、存储介质和电子设备
CN112766002A (zh) * 2021-01-14 2021-05-07 语联网(武汉)信息技术有限公司 基于动态规划的文本对齐方法及系统
CN112765999A (zh) * 2020-12-24 2021-05-07 中国人民解放军战略支援部队信息工程大学 机器翻译双语对照方法及系统
CN112949324A (zh) * 2021-01-28 2021-06-11 中国南方航空股份有限公司 飞机维修技术手册数据的翻译、管理方法及其系统和终端

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1179576A (zh) * 1996-10-15 1998-04-22 国际商业机器公司 自动翻译方法和自动翻译机
CN105573969A (zh) * 2006-10-02 2016-05-11 谷歌公司 在带有翻译后的文本的用户界面中显示原始文本
US9418061B2 (en) * 2007-12-14 2016-08-16 International Business Machines Corporation Prioritized incremental asynchronous machine translation of structured documents

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1179576A (zh) * 1996-10-15 1998-04-22 国际商业机器公司 自动翻译方法和自动翻译机
CN105573969A (zh) * 2006-10-02 2016-05-11 谷歌公司 在带有翻译后的文本的用户界面中显示原始文本
US9418061B2 (en) * 2007-12-14 2016-08-16 International Business Machines Corporation Prioritized incremental asynchronous machine translation of structured documents

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
轻敲互动翻译: "译员如何更便捷的使用机器翻译——轻敲互动翻译介绍之二", 《HTTPS://MP.WEIXIN.QQ.COM/S/CFCBWROTE5V0KMUEX3VPSQ》 *
轻敲互动翻译: "轻敲互动翻译,最亲切最智能的线上翻译平台", 《HTTPS://MP.WEIXIN.QQ.COM/S/AX-P5IZNCOVJ8SK7CBJD_W》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033054A (zh) * 2018-07-11 2018-12-18 吕海港 一种英文pdf文档的中文机器注释方法
CN111753558A (zh) * 2020-06-23 2020-10-09 北京字节跳动网络技术有限公司 视频翻译方法和装置、存储介质和电子设备
CN111753558B (zh) * 2020-06-23 2022-03-04 北京字节跳动网络技术有限公司 视频翻译方法和装置、存储介质和电子设备
CN112765999A (zh) * 2020-12-24 2021-05-07 中国人民解放军战略支援部队信息工程大学 机器翻译双语对照方法及系统
CN112766002A (zh) * 2021-01-14 2021-05-07 语联网(武汉)信息技术有限公司 基于动态规划的文本对齐方法及系统
CN112949324A (zh) * 2021-01-28 2021-06-11 中国南方航空股份有限公司 飞机维修技术手册数据的翻译、管理方法及其系统和终端

Similar Documents

Publication Publication Date Title
CN107943797A (zh) 一种全原文参考的在线翻译系统
US6119077A (en) Translation machine with format control
US7984076B2 (en) Document processing apparatus, document processing method, document processing program and recording medium
Li et al. Editing spatial layouts through tactile templates for people with visual impairments
CN104199871A (zh) 一种用于智慧教学的高速化试题导入方法
CN106960058A (zh) 一种网页结构变更检测方法及系统
JPS6024622A (ja) 文書作成装置
CN103488621A (zh) 一种针对法律法规的排版方法及系统
CN108345589A (zh) 一种全原文参考的在线翻译方法
JPH0510704B2 (zh)
CN113343717A (zh) 一种基于翻译记忆库的神经机器翻译方法
JP3294919B2 (ja) 機械翻訳装置
KR101069278B1 (ko) 청구항 시각화 장치 및 방법
Zughoul et al. English/Arabic/English machine translation: A historical perspective
Wong et al. Updating the ICE annotation system: Tagging, parsing and validation
WO2017002130A1 (en) Transformation of marked-up content to a reversible file format for automated browser based pagination
Roberts A tone orthography typology
CN114973798A (zh) 一种单词学习卡生成方法及装置
Diller Early Thai orthography: Innovative tone-marking or recent hoax?
Enguehard et al. Computerization of African languages-French dictionaries
Bradford et al. HTML5 mastery: Semantics, standards, and styling
JPH04167049A (ja) 文書処理装置
US11416671B2 (en) Device dependent rendering of PDF content
KR20070083757A (ko) 텍스트 데이터 구조, 텍스트 데이터 처리방법, 텍스트데이터 처리 프로그램 및 텍스트 데이터 처리 프로그램을기록한 기록 매체
Bloch Expanding the Corpus of Vocalized Hebrew Text: Compiling an Unvocalized Text Corpus and Building an Online Interface for Vocalization Annotation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180420

RJ01 Rejection of invention patent application after publication