CN107885735B - 一种格式无关的文档翻译方法及系统 - Google Patents

一种格式无关的文档翻译方法及系统 Download PDF

Info

Publication number
CN107885735B
CN107885735B CN201711161723.XA CN201711161723A CN107885735B CN 107885735 B CN107885735 B CN 107885735B CN 201711161723 A CN201711161723 A CN 201711161723A CN 107885735 B CN107885735 B CN 107885735B
Authority
CN
China
Prior art keywords
document
translated
translation
current
queue pool
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711161723.XA
Other languages
English (en)
Other versions
CN107885735A (zh
Inventor
张光凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iol Wuhan Information Technology Co ltd
Original Assignee
Iol Wuhan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iol Wuhan Information Technology Co ltd filed Critical Iol Wuhan Information Technology Co ltd
Priority to CN201711161723.XA priority Critical patent/CN107885735B/zh
Publication of CN107885735A publication Critical patent/CN107885735A/zh
Application granted granted Critical
Publication of CN107885735B publication Critical patent/CN107885735B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供了一种格式无关的翻译方法以及基于队列池技术的翻译系统,利用所述方法和系统,译员在翻译过程中感觉就像在操作文档本身一样。系统以WEB应用的形式提供统一的翻译接口,简化了翻译操作性,使译员轻轻松松就可以完成文档的翻译,并保存原文档的格式将译文导出。本发明通过对多个大文件的解析采用了队列池技术,可以根据服务器内存的大小设定队列池的大小,使服务器的资源能得到充分的利用,并保证服务器不会因为并发量过大而卡死。

Description

一种格式无关的文档翻译方法及系统
技术领域
本发明属于翻译技术领域,具体来说,涉及一种格式无关的文档翻译方法以及基于队列池技术的文档翻译系统。
背景技术
随着社会经济的发展,企业国际交流合作的增多,需要翻译的文档数量越来越大,同时,对于译员的翻译要求越来越高。很多情况下,不仅要求译员给出文档的文字部分翻译,还需要译员最终的翻译结果可读性强,例如,要求译文和原文不仅在内容上能够对应,还需要在格式/排版/字体/图片可读性等方面保持一致,最大可能的保留原文原貌。
然而,在实际工作中,待译文档的格式多种多样,比如Word、Excel、PowerPoint、PDF等等;其内容属性各不相同,例如广告、新闻稿、剧本、教科书、合同、专门著作等。由于文档格式、内容属性的不同,导致译员不仅要在文字本身的翻译上下功夫,还需要根据不同待译文档的格式进行相应排版。但是,不同文档的排版要求各不相同,译员很难一一精通所有类型文档的排版,从而耗费了大量的时间,大大降低了工作效率。
虽然现有技术中存在某些文档转换技术,可以实现不同格式文档的文字部分提取,使得译员可以专注于文字部分,但是翻译完成后,译员仅仅获得了文字部分的翻译结果,将翻译结果汇总之后,还是需要进行人工排版工作;
此外,现有的文档转换技术,只能实现某种特定格式文档的单篇文档转换的文字提取,当待译文档数量较多,且类型不一时,一一单篇的转换实现内容提取显然是不现实的。即使先将文档类型归类进行同一类型处理,现有的处理技术亦极易导致资源阻塞,并占用大量内存,使得系统卡死,反而更加影响了后续翻译工作的实现。
发明内容
为解决上述问题,本发明提供了一种格式无关的翻译方法以及基于队列池技术的翻译系统,利用所述方法和系统,译员在翻译过程中感觉就像在操作文档本身一样。系统以WEB应用的形式提供统一的翻译接口,简化了翻译操作性,使译员轻轻松松就可以完成文档的翻译,并保存原文档的格式将译文导出。
在本发明的第一个方面,提供了一种格式无关的文档翻译方法,包括文档解析步骤、文档翻译步骤以及文档导出步骤,其特征在于:
所述文档解析步骤,用于将待译文档转换成HTML文件,同时保留待译文档本身的相关属性,包括待译文档本身的格式、字体样式、图片;还可以包括文档内容的类型,例如广告、新闻稿、剧本、教科书、合同、专门著作等。
具体来说,依序读取当前队列池中的待译文档作为当前待译文档,对所述当前待译文档以段落为单位调用断句接口函数,并返回句子列表结果,再对所述当前待译文档的段落以句子为单位进行唯一ID标记;读取断句后的所述当前待译文档,将所述当前待译文档以页为单位转换成HTML文件。
所述文档翻译步骤,用于将所述HTML文件接入翻译系统,在所述翻译系统中以纯文本的方式呈现给译员进行翻译。翻译系统通过以句子为单位获得的唯一ID标记,以完整的句子为单位,将句子以纯文本的方式呈现给译员进行翻译,译员翻译完成后,将译文以纯文本的方式提交至翻译系统保存。
所述文档导出步骤,用于当译员翻译完成后,将待译文档中的原文替换成译文,并导出翻译后的文档,所述翻译后的文档保留了待译文档本身的所述相关属性。翻译完成后,从翻译系统中获取句子的唯一ID和译文,然后根据句子唯一ID将待译文档中的原文替换成译文。
为了避免资源阻塞导致系统卡死,所述文档解析步骤,进一步包括:文档总量控制步骤:获取当前服务器的当前队列池中所有待译文档的大小的总和以及待上传文档的大小,如果待上传文档的大小和当前服务器的当前队列池中所有待译文档的大小之和超过设定阈值,则待上传文档暂时停止上传;否则将待上传文档上传至当前服务器的当前队列池中作为待译文档。
可选的,所述文档总量控制步骤可以分为两种方式或者其组合,一种是服务器上传总量控制,一种是队列池解析总量控制。服务器总量控制是指待译文档在上传阶段进行总量监测,简称上传总量控制;队列池解析总量控制是指对进入队列池阶段的待译文档的解析进行监测控制,简称解析总量控制。
本发明优选采用上传总量控制的方式,其优势将在后续实施例中突显;但是并不影响其他方式的实现。
将所述当前待译文档以页为单位转换成HTML文件之后,所述当前待译文档从所述当前队列池中取出,进入所述文档翻译步骤。
在本发明的第二个方面,提供了一种基于队列池技术的文档翻译系统,包括文档解析模块、文档翻译模块以及文档导出模块;所述文档解析模块、文档翻译模块以及文档导出模块分别用于实现前述文档解析步骤、文档翻译步骤以及文档导出步骤;其特征在于:
所述文档翻译系统还包括系统监测模块,所述系统监测模块在待上传文档进入所述文档解析模块之前,获取当前服务器的当前队列池中所有待译文档的大小的总和以及待上传文档的大小,如果待上传文档的大小和当前服务器的当前队列池中所有待译文档的大小之和超过设定阈值,则待上传文档暂时停止上传;否则将待上传文档上传至当前服务器的当前队列池中作为待译文档。
需要强调的是,本发明对多个大文件的解析采用了队列池技术。由于文档的解析是多用户的并发模式,大文件的解析必定长时间占用大量内存。本发明基于队列池技术,可以根据服务器内存的大小设定队列池的大小,使服务器的资源能得到充分的利用,并保证服务器不会因为并发量过大而卡死。这一点,是基于大数量的文档而言,现有的文档解析技术,通常只针对单篇文档逐一分析,其不会也没有必要使用队列池技术。
可见,本发明是将文档转换、解析与队列池技术有机结合,共同解决了系统阻塞容易导致翻译工作效率低下的问题。
在本发明的第三个方面,还提供了一种计算机可读存储介质,其上存储有计算机可执行指令;通过处理器和存储器执行所述指令,用于实现本发明所述的翻译方法的各个步骤或者步骤组合。
采用本发明的方法和系统,可以实现如下有益效果:
1、解析过程中采用队列池的方法,管理并发线程对内存的占用,合理利用和分配服务器的资源,保证所有文档都能被解析,且服务器资源不会被耗尽。
2、对多种格式的文档统一进行解析,简化了译员对文档的操作,使译员不需要掌握文档本身的操作技巧和排版技巧。
3、翻译系统提供统一的翻译接口,简化译员的翻译操作,提高了译员的翻译速度和翻译质量。
4、将不同格式的文档解析成HTML文件,保存了文档中所有的格式,使译员在翻译过程中感觉就像在操作文档本身一样。
5、翻译系统提供统一的导出接口,导出是文档中原文和译文的替换,保存了文档本身的格式,不需要译员再去排版,节约译员大量的时间,可以专注于翻译工作。
附图说明
附图1是本发明所述的翻译方法的主体流程图。
附图2是实现本发明所述的翻译方法的一个实施例的流程图。
附图3是本发明采用的队列池技术的示意图。
具体实施例
本发明的技术方案和有益效果将通过附图的实施例来具体体现。然而,附图以及相应实施例仅仅是示意性说明,不应对本发明的保护范围做出限制。
如前所述,利用本发明,可以实现对Word、Excel、PowerPoint、PDF等文档的解析,将多种格式的文档解析成HTML格式的文件,以WEB应用的形式提供统一的翻译接口,简化了翻译操作性,使译员轻轻松松就可以完成对文档的翻译。
本发明所述的方法主体步骤如附图1所述,包括文档解析步骤、文档翻译步骤以及文档导出步骤。特别的,在所述文档解析步骤之前,还包括文档总量控制步骤。值得注意的是,现有的资源总量控制措施通常是在相关文档进入服务器之后才开始判断,这种方式导致了资源的浪费和内存阻塞,因为无论何时都需要分配空间给相关文档;而本申请是在文档解析之前也就是文档进入之前就开始执行,当判断资源不足时,不需要理会相关文档,从而节省了空间。
接下来结合图2,以一个具体的实施例展现本发明的方法的具体实现,包括如下步骤:
1. 初始化队列池
a) 创建解析队列池;
b) 根据服务器内存大小,分析服务器的综合资源及性能,设定队列池中多个文档大小的总和,即设定的队列池文档总大小;
c) 启动队列池。
2. 上传文档
a) 将待翻译的文档上传至服务器;
b) 保存待翻译文档的基本信息,包含文档名称、文档大小等。
3.文档入队
a) 获取当前队列池中所有文档的大小的总和;
b) 判断当前文档入队后,当前队列池中所有文档的大小的总和是否小于设定的队列池文档总大小;
c) 当前文档大小+当前队列池中所有文档大小的总和<=设定的队列池文档总大小,则该文档入队;
d) 当前文档大小+当前队列池中所有文档大小的总和>设定的队列池文档总大小,则该文档暂停入队,暂时等待,等队列池有足够的空间后再入队。
4.文档断句
a) 读取文档,获取文档中的所有段落,以段落为单位调用断句接口;
b) 断句接口返回句子列表,在文档的段落中对句子进行唯一ID标记;
c) 句子标记格式为:<m i=’唯一ID’>句子内容</m>。
5.文档转换
a) 读取断句后的文档;
b) 将文档以页为单位转换成HTML文件,每一个文件就是文档中的一页信息,转换过程中保存文档本身的格式、字体样式、图片等等。
6.解析完成
a) 文档转换HTML文件完成后,文档出队;
b) 如果有新的文档需要解析,新的文档入队同步骤3。
7. HTML文件接入翻译系统
a) 将HTML文件接入翻译系统;
b) 翻译系统通过对断句步骤中对句子的标识,已完整的句子为单位,将句子以纯文本的方式呈现给译员进行翻译。
8.保存翻译
a) 译员以句子为单位将句子翻译完成后,点击系统的保存按钮,将译文以纯文本的方式提交至系统保存;
b) 译员可以对翻译进行检查,并修改译文。
9.译文导出
a) 译员对文档进行翻译,翻译完成后,从系统中获取句子的唯一ID和译文;
b) 根据句子唯一ID将文档中的原文替换成译文,即将“<m i=’唯一ID’>句子内容</m>”标签中的句子内容替换成译文,并删除“<m i=’唯一ID’></m>”标签;
c) 导出译文。
图3则示意性的给出了基于队列性技术的翻译系统的示意图。具体来说是前述文档总量控制步骤,获取当前服务器的当前队列池中所有待译文档的大小的总和以及待上传文档的大小,如果待上传文档的大小和当前服务器的当前队列池中所有待译文档的大小之和超过设定阈值,则待上传文档暂时停止上传;否则将待上传文档上传至当前服务器的当前队列池中作为待译文档。
而将所述当前待译文档以页为单位转换成HTML文件之后,所述当前待译文档从所述当前队列池中取出,进入所述文档翻译步骤。
总体来说,本发明通过对多个大文件的解析采用了队列池,由于文档的解析是多用户的并发模式,大文件的解析必定长时间占用大量内存,可以根据服务器内存的大小设定队列池的大小,使服务器的资源能得到充分的利用,并保证服务器不会因为并发量过大而卡死。
需要注意的是,图2实施例中,是将所有待解析文档解析完毕之后再进入HTML接入系统进行翻译,但是在实际实现中,还可以如图3所示的流程,将队列中的文档一一解析后一一进入翻译系统,解析后的文档退出队列池,并同时监测系统队列余量,从而决定是否上传新的文档进入队列池。这些不同方式均能实现本发明,并且不会导致系统阻塞。图3的实现过程是一个连续循环过程,图3仅仅示意性的给出了其中的某段步骤和流程,但是并不影响本领域技术人员理解本发明。

Claims (9)

1.一种格式无关的文档翻译方法,包括文档解析步骤、文档翻译步骤以及文档导出步骤;
所述文档解析步骤,用于将待译文档转换成HTML文件,同时保留待译文档本身的相关属性;
所述文档翻译步骤,用于将所述HTML文件接入翻译系统,在所述翻译系统中以纯文本的方式呈现给译员进行翻译;
所述文档导出步骤,用于当译员翻译完成后,将待译文档中的原文替换成译文,并导出翻译后的文档,所述翻译后的文档保留了待译文档本身的所述相关属性;
其特征在于:
所述将待译文档中的原文替换成译文,并导出翻译后的文档,具体包括:
A1)译员对文档进行翻译,翻译完成后,从系统中获取句子的唯一ID和译文;
B1)根据句子唯一ID将文档中的原文替换成译文,即将“<mi=’唯一ID’>句子内容</m>”标签中的句子内容替换成译文,并删除“<mi=’唯一ID’></m>”标签;
C1)导出译文;
在所述文档解析步骤之前,还包括文档总量控制步骤;
所述文档总量控制步骤,用于获取当前服务器的当前队列池中所有待译文档的大小的总和以及待上传文档的大小,如果待上传文档的大小和当前服务器的当前队列池中所有待译文档的大小之和超过设定阈值,则待上传文档暂时停止上传;否则将待上传文档上传至当前服务器的当前队列池中作为待译文档;
其中,所述队列池初始化方式如下:
a)创建解析队列池;
b)根据服务器内存大小,分析服务器的综合资源及性能,设定队列池中多个文档大小的总和;
c)启动队列池。
2.如权利要求1所述的方法,其特征在于:待译文档本身的所述相关属性,包括待译文档本身的格式、字体样式、图片。
3.如权利要求2所述的方法,其特征在于:所述文档解析步骤,进一步包括:依序读取当前队列池中的待译文档作为当前待译文档,对所述当前待译文档以段落为单位调用断句接口函数,并返回句子列表结果,再对所述当前待译文档的段落以句子为单位进行唯一ID标记。
4.如权利要求3所述的方法,其特征在于:
读取断句后的所述当前待译文档,将所述当前待译文档以页为单位转换成HTML文件。
5.如权利要求3或4所述的方法,其特征在于:
将所述当前待译文档以页为单位转换成HTML文件之后,所述当前待译文档从所述当前队列池中取出,进入所述文档翻译步骤。
6.如权利要求1-4任一项所述的方法,其特征在于:
所述文档翻译步骤中,翻译系统通过以句子为单位获得的唯一ID标记,以完整的句子为单位,将句子以纯文本的方式呈现给译员进行翻译,译员翻译完成后,将译文以纯文本的方式提交至翻译系统保存。
7.如权利要求1-4任一项所述的方法,其特征在于,所述文档导出步骤,进一步包括:翻译完成后,从翻译系统中获取句子的唯一ID和译文,然后根据句子唯一ID将待译文档中的原文替换成译文。
8.一种基于队列池技术的文档翻译系统,包括文档解析模块、文档翻译模块以及文档导出模块;所述文档解析模块、文档翻译模块以及文档导出模块分别用于实现权利要求1-7任一项所述的文档解析步骤、文档翻译步骤以及文档导出步骤;其特征在于:
所述文档翻译系统还包括系统监测模块,所述系统监测模块在待上传文档进入所述文档解析模块之前,获取当前服务器的当前队列池中所有待译文档的大小的总和以及待上传文档的大小,如果待上传文档的大小和当前服务器的当前队列池中所有待译文档的大小之和超过设定阈值,则待上传文档暂时停止上传;否则将待上传文档上传至当前服务器的当前队列池中作为待译文档。
9.一种计算机可读存储介质,其上存储有计算机可执行指令;通过处理器和存储器执行所述指令,用于实现权利要求1-7任一项所述的方法。
CN201711161723.XA 2017-11-21 2017-11-21 一种格式无关的文档翻译方法及系统 Active CN107885735B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711161723.XA CN107885735B (zh) 2017-11-21 2017-11-21 一种格式无关的文档翻译方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711161723.XA CN107885735B (zh) 2017-11-21 2017-11-21 一种格式无关的文档翻译方法及系统

Publications (2)

Publication Number Publication Date
CN107885735A CN107885735A (zh) 2018-04-06
CN107885735B true CN107885735B (zh) 2021-05-04

Family

ID=61777705

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711161723.XA Active CN107885735B (zh) 2017-11-21 2017-11-21 一种格式无关的文档翻译方法及系统

Country Status (1)

Country Link
CN (1) CN107885735B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334323A (zh) * 2019-04-26 2019-10-15 网易(杭州)网络有限公司 翻译数据处理方法、装置、设备及计算机可读存储介质
CN111401000B (zh) * 2020-04-03 2023-06-20 上海一者信息科技有限公司 一种在线辅助翻译的译文实时预览方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001325255A (ja) * 2000-03-16 2001-11-22 Unisoft Co Ltd 多言語翻訳システム及び多言語翻訳サービス方法
CN101741850A (zh) * 2009-12-25 2010-06-16 北京邮电大学 面向混合网络服务的多任务并发执行系统及方法
CN102929867A (zh) * 2011-11-03 2013-02-13 微软公司 用于自动化的文档翻译的技术
CN103955401A (zh) * 2014-04-29 2014-07-30 南京新模式软件集成有限公司 一种电子文档在线预览优化的方法
CN104933041A (zh) * 2015-06-25 2015-09-23 武汉传神信息技术有限公司 一种利于翻译工作的文件抽取和还原方法
CN106649271A (zh) * 2016-12-19 2017-05-10 成都优译信息技术股份有限公司 一种基于翻译的word文档解析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404652A (zh) * 2015-10-29 2016-03-16 河海大学 一种基于hdfs的海量小文件处理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001325255A (ja) * 2000-03-16 2001-11-22 Unisoft Co Ltd 多言語翻訳システム及び多言語翻訳サービス方法
CN101741850A (zh) * 2009-12-25 2010-06-16 北京邮电大学 面向混合网络服务的多任务并发执行系统及方法
CN102929867A (zh) * 2011-11-03 2013-02-13 微软公司 用于自动化的文档翻译的技术
CN103955401A (zh) * 2014-04-29 2014-07-30 南京新模式软件集成有限公司 一种电子文档在线预览优化的方法
CN104933041A (zh) * 2015-06-25 2015-09-23 武汉传神信息技术有限公司 一种利于翻译工作的文件抽取和还原方法
CN106649271A (zh) * 2016-12-19 2017-05-10 成都优译信息技术股份有限公司 一种基于翻译的word文档解析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
译员如何使用机器翻译快速提高效率;轻敲互动翻译;《https://weibo.com/ttarticle/p/show?id=2309404065330623310718》;20170118;第1-5页 *

Also Published As

Publication number Publication date
CN107885735A (zh) 2018-04-06

Similar Documents

Publication Publication Date Title
CN108415887B (zh) 一种pdf文件向ofd文件转化的方法
US8201088B2 (en) Method and apparatus for associating with an electronic document a font subset containing select character forms which are different depending on location
CN110347953B (zh) 页面生成方法、装置、计算机设备及存储介质
CN107943426B (zh) 单据分页打印方法、单据分页打印系统及计算机装置
CN108595389B (zh) 一种将Word文档转换为txt纯文本文档的方法
KR100661173B1 (ko) 다이렉트 프린팅 기능을 갖는 프린터 및 그 인쇄방법
CN106469140A (zh) 一种报表生成系统及其方法
CN104461412A (zh) web网页指定区域打印方法和系统
US11687704B2 (en) Method, apparatus and electronic device for annotating information of structured document
CN107885735B (zh) 一种格式无关的文档翻译方法及系统
CN109933751B (zh) 图文绘制方法、装置、计算机可读存储介质和计算机设备
CN101430684A (zh) 中文办公软件文档与其他格式文档相互转换的方法及装置
US7721198B2 (en) Story tracking for fixed layout markup documents
CN112433995B (zh) 文件格式转换方法、系统、计算机设备及存储介质
US20200026749A1 (en) Pdf extraction with text-based key
CN113297425B (zh) 文档转换方法、装置、服务器及存储介质
CN111198664A (zh) 一种文档打印的方法、装置、计算机存储介质及终端
CN106896935A (zh) 输入法
CN113177389A (zh) 文本处理方法、装置、电子设备及存储介质
KR101264980B1 (ko) 텍스트 기반의 수식 표현을 위한 장치 및 방법
DE102015009911A1 (de) Techniken zur Bereitstellung einer Gebärdensprache integrierenden Nutzerschnittstelle
CN110059275A (zh) 一种英文html网页的中文注释方法
CN117196495A (zh) 一种自动生成诊断分析报告的方法、系统、设备及介质
CN110826005B (zh) 文件生成方法、装置、电子设备及存储介质
KR20110012890A (ko) 소형 이동 단말기를 위한 웹 기반 텍스트 요약 방법 및 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant