CN111144070A - 一种文档解析翻译方法和装置 - Google Patents

一种文档解析翻译方法和装置 Download PDF

Info

Publication number
CN111144070A
CN111144070A CN201911413715.9A CN201911413715A CN111144070A CN 111144070 A CN111144070 A CN 111144070A CN 201911413715 A CN201911413715 A CN 201911413715A CN 111144070 A CN111144070 A CN 111144070A
Authority
CN
China
Prior art keywords
file
text
translated
document
minimum processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911413715.9A
Other languages
English (en)
Other versions
CN111144070B (zh
Inventor
宋伟
刘圣
王鹏飞
焦亚鑫
赵化育
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Medpeer Information Technology Co ltd
Original Assignee
Beijing Medpeer Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Medpeer Information Technology Co ltd filed Critical Beijing Medpeer Information Technology Co ltd
Priority to CN201911413715.9A priority Critical patent/CN111144070B/zh
Publication of CN111144070A publication Critical patent/CN111144070A/zh
Application granted granted Critical
Publication of CN111144070B publication Critical patent/CN111144070B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开一种文档解析翻译方法和装置,该方法包括以下步骤:解析原始文档,生成资源文件目录;对资源文件中的主文档xml文件进行解析,得到文档内容解析文件和待翻译文本文件;根据待翻译文本文件的语言类型,获取与待翻译文本文件对应的目标语言文本,并根据目标语言文本完善待翻译文本文件;根据文档内容解析文件与完善后的待翻译文本文件,对资源文件进行修改与替换;重新打包资源文件,生成译文文档。本发明能够提高译文文档的阅读体验,便于对跨语种内容的理解,实现在保持原始文档展示样式不变的前提下完成文档从源语种到目标语种的转换。

Description

一种文档解析翻译方法和装置
技术领域
本发明涉及数据处理技术领域,特别涉及一种文档解析翻译方法和装置。
背景技术
随着全球一体化进程的深入,跨语言获取信息成为一种常态,而Word格式和PowerPoint格式的文档作为目前最流行的文字处理程序和演示文稿软件,已成为被全球用户广泛使用的信息载体,大量的文档直接采用或者可以格式无损地转化为Word格式或者PowerPoint格式的文档,能够将Word格式或者PowerPoint格式的文档所承载的信息在不同语言之间转换,大大提高了跨语言的信息获取效率。
现有的文档翻译解决方案通常存在以下问题:
(1)在解析原始文档时,只抽取原始文档的文本信息,而忽略样式信息和其他非文本元素,导致翻译生成的目标文档丢失了源原始文档的图、表以及信息布局等重要信息,不利于阅读和理解文档语义。
(2)由于Word格式和PowerPoint格式的文档的元素标签粒度较大,翻译生成的目标文档会大量丢失原始文档的格式信息,破坏了原始文档原有的排版格式,给阅读造成了视觉障碍,甚至造成译文文档的格式混乱。
发明内容
本发明提供了一种文档解析翻译方法和装置,以解决现有的文档翻译解决方案大量丢失原始文档的格式信息,破坏原始文档原有的排版格式的缺陷。
本发明提供了一种文档解析翻译方法,包括以下步骤:
解析原始文档,生成资源文件目录;
对资源文件中的主文档xml文件进行解析,得到文档内容解析文件和待翻译文本文件;其中,所述文档内容解析文件是基于所述主文档xml文件内部的最小处理单元标签所创建的,所述待翻译文本文件是基于处理所述最小处理单元标签时所提取的原文字符串生成的;
根据所述待翻译文本文件的语言类型,获取与所述待翻译文本文件对应的目标语言文本,并根据所述目标语言文本完善所述待翻译文本文件;
根据所述文档内容解析文件与完善后的待翻译文本文件,对所述资源文件进行修改与替换;
重新打包所述资源文件,生成译文文档。
可选地,所述根据所述待翻译文本文件的语言类型,获取与所述待翻译文本文件对应的目标语言文本,并根据所述目标语言文本完善所述待翻译文本文件,包括:
通过识别所述待翻译文本文件的字符编码,确定所述待翻译文本文件的语言类型,通过将所述待翻译文本文件依次提交翻译引擎,获取与所述待翻译文本文件对应的目标语言文本,并根据所述目标语言文本完善所述待翻译文本文件。
可选地,所述对资源文件中的主文档xml文件进行解析,得到文档内容解析文件和待翻译文本文件,包括:
提取所述主文档xml文件内部的最小处理单元标签的所处层级、样式、内部包含的标签以及两个最小处理单元标签之间存在的其他标签,作为对主文档xml文件的的分析结果,并根据所述分析结果生成文档内容解析文件;
提取所述最小处理单元标签中的原文字符串,并根据所述原文字符串生成待翻译文本文件。
可选地,所述对资源文件中的主文档xml文件进行解析,得到文档内容解析文件和待翻译文本文件,包括:
针对主文档xml文件的结构特点,对所述主文档xml文件内部的最小处理标签的层级、最小处理标签之间存在的其他标签、最小处理标签中包含的标签以及最小处理标签的样式属性进行分析,当识别到结构差异或者样式差异较大的最小处理标签时,提取该最小处理标签的位置信息,以及该最小处理标签之前的字符信息加以记录,生成待翻译文本文件和文档内容解析文件。
可选地,所述对资源文件中的主文档xml文件进行解析,得到文档内容解析文件和待翻译文本文件,包括:
对资源文件中的主文档xml文件进行解析,将分析结果写入文档内容解析文件,将提取的字符信息写入待翻译文本文件。
本发明还提供了一种文档解析翻译装置,包括:
解析模块,用于解析原始文档,生成资源文件目录;对资源文件中的主文档xml文件进行解析,得到文档内容解析文件和待翻译文本文件;其中,所述文档内容解析文件是基于所述主文档xml文件内部的最小处理单元标签所创建的,所述待翻译文本文件是基于处理所述最小处理单元标签时所提取的原文字符串生成的;
翻译模块,用于根据所述待翻译文本文件的语言类型,获取与所述待翻译文本文件对应的目标语言文本,并根据所述目标语言文本完善所述待翻译文本文件;
处理模块,用于根据所述文档内容解析文件与完善后的待翻译文本文件,对所述资源文件进行修改与替换;重新打包所述资源文件,生成译文文档。
可选地,所述翻译模块,具体用于通过识别所述待翻译文本文件的字符编码,确定所述待翻译文本文件的语言类型,通过将所述待翻译文本文件依次提交翻译引擎,获取与所述待翻译文本文件对应的目标语言文本,并根据所述目标语言文本完善所述待翻译文本文件。
可选地,所述解析模块,具体用于提取所述主文档xml文件内部的最小处理单元标签的所处层级、样式、内部包含的标签以及两个最小处理单元标签之间存在的其他标签,作为对主文档xml文件的的分析结果,并根据所述分析结果生成文档内容解析文件;提取所述最小处理单元标签中的原文字符串,并根据所述原文字符串生成待翻译文本文件。
可选地,所述解析模块,具体用于针对主文档xml文件的结构特点,对所述主文档xml文件内部的最小处理标签的层级、最小处理标签之间存在的其他标签、最小处理标签中包含的标签以及最小处理标签的样式属性进行分析,当识别到结构差异或者样式差异较大的最小处理标签时,提取该最小处理标签的位置信息,以及该最小处理标签之前的字符信息加以记录,生成待翻译文本文件和文档内容解析文件。
可选地,所述解析模块,具体用于对资源文件中的主文档xml文件进行解析,将分析结果写入文档内容解析文件,将提取的字符信息写入待翻译文本文件。
本发明对资源文件中的主文档xml文件进行解析,根据解析得到的文档内容解析文件和待翻译文本文件支撑后续翻译工作的推进,在不影响文档展示格式的前提下,尽力构建文本翻译的上下文环境,为提升翻译准确率做铺垫,从而保留源文档各个非文本元素的内容和展示样式,保持译文文档与源文档的文本元素具有一致的显示样式,进而提高译文文档的阅读体验,便于对跨语种内容的理解,实现在保持原始文档展示样式不变的前提下完成文档从源语种到目标语种的转换。
附图说明
图1为本发明实施例中的一种文档解析翻译方法流程图;
图2为本发明实施例中的一种文档解析翻译方法的任务流程示意图;
图3为本发明实施例中的docx格式的文档的资源文件的结构图;
图4为本发明实施例中的docx格式的文档的解析流程图;
图5为本发明实施例中的docx格式的文档的文件处理流程S201的示意图;
图6为本发明实施例中的docx格式的文档的合成流程图;
图7为本发明实施例中的pptx格式的文档的资源文件的结构图;
图8为本发明实施例中的pptx格式的文档的解析流程图;
图9为本发明实施例中的pptx格式的文档的文件处理流程S201的示意图;
图10为本发明实施例中的pptx格式的文档的合成流程图;
图11为本发明实施例中的一种文档解析翻译装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种文档解析翻译方法,如图1所示,包括以下步骤:
步骤101,解析原始文档,生成资源文件目录。
步骤102,对资源文件中的主文档xml文件进行解析,得到文档内容解析文件和待翻译文本文件。
其中,原始文档可以为Microsoft Word 2007及以后版本所定义的docx格式或者Microsoft PowerPoint 2007及以后版本所定义的pptx格式的文档,文档内容解析文件是基于主文档xml文件内部的最小处理单元标签所创建的,待翻译文本文件是基于处理最小处理单元标签时所提取的原文字符串生成的。
具体地,可以提取所述主文档xml文件内部的最小处理单元标签的所处层级、样式、内部包含的标签以及两个最小处理单元标签之间存在的其他标签,作为对主文档xml文件的的分析结果,并根据所述分析结果生成文档内容解析文件;提取所述最小处理单元标签中的原文字符串,并根据所述原文字符串生成待翻译文本文件。
本实施例中,针对主文档xml文件的结构特点,对所述主文档xml文件内部的最小处理标签的层级、最小处理标签之间存在的其他标签、最小处理标签中包含的标签以及最小处理标签的样式属性进行分析,当识别到结构差异或者样式差异较大的最小处理标签时,提取该最小处理标签的位置信息,以及该最小处理标签之前的字符信息加以记录,生成待翻译文本文件和文档内容解析文件。其中,对资源文件中的主文档xml文件进行解析,将分析结果写入文档内容解析文件,将提取的字符信息写入待翻译文本文件。
步骤103,根据待翻译文本文件的语言类型,获取与待翻译文本文件对应的目标语言文本,并根据目标语言文本完善待翻译文本文件。
具体地,可以通过识别所述待翻译文本文件的字符编码,确定所述待翻译文本文件的语言类型,通过将所述待翻译文本文件依次提交翻译引擎,获取与所述待翻译文本文件对应的目标语言文本,并根据所述目标语言文本完善所述待翻译文本文件。
步骤104,根据文档内容解析文件与完善后的待翻译文本文件,对资源文件进行修改与替换,生成目标文档。
步骤105,重新打包资源文件,生成译文文档。
本发明实施例对资源文件中的主文档xml文件进行解析,根据解析得到的文档内容解析文件和待翻译文本文件支撑后续翻译工作的推进,在不影响文档展示格式的前提下,尽力构建文本翻译的上下文环境,为提升翻译准确率做铺垫,从而保留源文档各个非文本元素的内容和展示样式,保持译文文档与源文档的文本元素具有一致的显示样式,进而提高译文文档的阅读体验,便于对跨语种内容的理解,实现在保持原始文档展示样式不变的前提下完成文档从源语种到目标语种的转换。
如图2所示,为本发明实施例中的文档解析翻译方法的任务流程示意图,在用户提交原始文档后,若文件类型检查无误,则启动创建任务S100,即,创建巡检任务S500、解析任务S200、翻译任务S300和文档合成任务S400,并在创建完毕后,启动巡检任务S500和解析任务S200,并随后启动翻译任务S300和文档合成任务S400。
其中,解析任务S200主要担负着文档结构解析的职能,解析主文档xml文件,生成文档内容解析文件以及待翻译文本文件,并从中提取文档文本内容和对应的展现样式信息,在此基础上极大化构建待翻译文本的上下文信息,生成待翻译文本列表,为翻译任务S300的执行做准备。
翻译任务S300基于解析任务S200生成的待翻译文本文件,通过对字符编码的识别,判断待翻译文本的语言类型,并依次提交翻译引擎获取文本对应目标语言文本,并记录完善待翻译文本文件信息。
文档合成任务S400基于翻译任务S300生成的待翻译文本文件,对照解析任务S200生成的文档内容解析文件,生成目标语言xml文件,并依据目标语言调整字体样式,以确保字体格式的正常显示,打包生成翻译完成的目标文档,以便输出给用户,同时通知巡检任务S500文档翻译完成。
巡检任务S500负责定期检测解析任务S200、翻译任务S300和文档合成任务S400的执行状态,当发现文档解析翻译过程意外终止时,负责重启和唤醒任务执行进程,基于文档解析翻译流程执行过程中的任务执行记录,获取任务当前的完成状态,继续任务执行。
本实施例中,若原始文档为docx格式的文档,解析任务S200对docx格式的文档的资源文件的主文档xml文件进行解析,获取待翻译文本文件。如图3所示,为docx格式的文档的资源文件的结构图,其中,document.xml和style.xml对于实现docx格式的文档的正文内容的语言转化至关重要,document.xml文件保存了docx格式的文档的正文内容和主要样式信息,是docx格式的文档的资源文件的主文档xml文件。style.xml标识和保存了docx格式的文档的字体样式信息。
基于上述文档结构,本实施例中的解析任务S200的解析重点是针对主文档xml文件,即document.xml,解析任务S200的任务执行生成的产品是:文档内容解析文件和待翻译文本文件。
其中,文档内容解析文件是基于文档内部最小处理单元标签(w:r)所创建的。通过提取当前w:r所处层级,拥有的样式,内部包含的标签以及两个w:r标签之间存在的其他标签,对主文档内容进行分析,并将分析结果即需要合并的w:r标签位置写入文件,最终生成文档内容解析文件。待翻译文本文件是基于处理w:r标签时所提取的原文字符串生成的。由于w:r除了包含其本身的样式信息外还包含docx格式的文档的字符信息,因此在处理w:r标签时可以对原文字符串进行提取,最后生成待翻译文本文件。
如图4所示,为本发明实施例中的docx格式的文档的解析流程图,针对主文档xml文件(document.xml)的结构特点,对最小处理标签的层级,标签与标签间存在的其他标签,标签中包含的标签以及标签的样式属性进行分析,遇到结构差异或者样式差异较大的标签时,提取当前标签的位置信息,以及当前标签之前的字符信息加以记录,最终生成待翻译文本文件和文档内容解析文件。
其中,文件处理流程S201,负责整合每次分析结果,并将分析结果写入文档内容解析文件,将分析提取的原文字符写入待翻译文本文件。
获取标签样式流程S202,对当前标签样式进行提取,标签的样式可能存在于两个地方,一是当前标签的属性,二是当前标签所包裹的子标签中存在一些表征样式的标签,获取标签样式流程S202主要是实现对表征样式的属性以及子标签的提取。
如图5所示,为本发明实施例中的docx格式的文档的文件处理流程S201的示意图,文件处理流程S201负责生成解析任务S200的结果文件,其关键的标签位置信息与原文字符由解析任务S200的分析流程提供,考虑待翻译文本文件以及文档内容解析文件存在极大的写入次数,因此,文件处理流程S201会对文件写入进行分片处理,所以存在两个时机写入文件,一是文档处理结束,二是满足切片写入条件,当不满足以上两个条件时,标签的位置与原文信息会以数组形式储存。
如图6所示,为本发明实施例中的docx格式的文档的合成流程图,基于解析任务S200生成的待翻译文本文件与翻译任务S300的翻译结果,通过对照解析任务S200生成的文档内容解析文件,对原xml文件进行标签、样式的合并,将翻译结果替换至合并后的标签内,以期达到在输出文件的样式不发生改变的前提下提高翻译结果的准确性,最后将文件字体调整为目标语言对应的字体并生成新的docx格式的文档。
其中,在S401中,依据解析任务S200生成的文档内容解析文件与由解析任务S200生成并由翻译任务S300完善的待翻译文本文件,对用户上传的原始文档的资源文件进行修改与替换,最终生成一个新的主文档。在S402中,由于整个文档内容发生了语种转换,所以需要对文档字体进行替换。
本发明实施例溯源至docx格式的文档的最原始的结构,提取关键文件进行解析与处理,通过对象转化结合docx格式的文档的特征,以w:r粒度对文档结构进行解析,依托对标签样式的对比,合并同样式标签,实现文档样式解析的精细化和待翻译文本上下文环境的构建,为更加精准。
本实施例中,若原始文档为pptx格式的文档,解析任务S200对pptx格式的文档的资源文件的主文档xml文件进行解析,获取待翻译文本文件。如图7所示,为pptx格式的文档的资源文件的结构图,经分析,pptx格式的文档的资源文件的主文档xml文件(presentation.xml)以及其关联关系文件(presentation.xml.rels),记录了演示文稿所涉及到的相关文件的存储位置。每张幻灯片的字符以及样式信息都单独存储在各自slide文件中,备注的字符以及样式信息都单独存储在各自notesSlide文件中,某些特殊图形的字符以及样式信息存储在diagrams下的data文件中。
其中,解析任务S200的解析重点是针对主文档slide.xml、notesSlide.xml、data.xml这三类文件。解析任务S200的任务执行产品是文档内容解析文件和待翻译文本文件。
其中,文档内容解析文件是基于文档内部最小处理单元标签(a:r)所创建的。通过提取当前a:r所处层级,拥有的样式,内部包含的标签以及两个a:r标签之间存在的其他标签,对主文档内容进行分析,并将分析结果即需要合并的a:r标签位置写入文件,最终生成文档内容解析文件。待翻译文本文件是基于处理a:r标签时所提取的原文字符串生成的。由于a:r除了包含其本身的样式信息外还包含pptx格式的文档的字符信息,因此在处理a:r标签时可以对原文字符串进行提取,最后生成待翻译文本文件。
如图8所示,为本发明实施例中的pptx格式的文档的解析流程图,解析任务S200读取三类文件(slide、notesSlide、data)的内容,针对它们的结构特点,对文件中标签的层级,标签与标签间存在的其他标签,标签中包含的标签以及标签的样式属性进行分析。对文件中的开闭标签分别处理,遇到结构差异或者样式差异较大的标签时,提取当前标签的位置信息,以及当前标签之前的字符信息加以记录,最终生成待翻译文本文件以及文档内容解析文件。
其中,文件处理流程S201,对每次标签分析结果进行整合,将分析结果写入文档内容解析文件,将分析提取的原文字符写入待翻译文本文件。由于pptx格式的文档的幻灯片的样式是由标签样式来决定的,获取标签样式流程S202,对当前标签样式进行提取。文档样式的设定存在于两个地方,一是标签的属性,二是当前标签所包裹的子标签中存在一些表征样式的标签,获取标签样式流程S202主要是实现对表征样式的属性以及子标签的提取。
如图9所示,为本发明实施例中的pptx格式的文档的文件处理流程S201的示意图,文件处理流程S201负责将解析任务S200提供的标签位置及文本形成目标文件,考虑待翻译文本文件以及文档内容解析文件存在极大的写入次数,因此,文件处理流程S201会对文件写入进行分片处理,所以存在两个时机写入文件,一是文档处理结束,二是满足切片写入条件,当不满足以上两个条件时,标签的位置与原文信息会以数组形式储存。
如图10所示,为本发明实施例中的pptx格式的文档的合成流程图,基于解析任务S200生成的待翻译文本文件与翻译任务S300的翻译结果,通过对照解析任务S200生成的文档内容解析文件,对原xml文件进行标签、样式的合并,将翻译结果替换至合并后的标签内,以期达到在输出文件的样式不发生改变的前提下提高翻译结果的准确性,生成最终的翻译文档。
其中,在S401中,依据解析任务S200生成的文档内容解析文件与由解析任务S200生成且由翻译任务S300完善的待翻译文本文件,对用户上传的原始文档的资源文件进行修改与替换,最终生成一个新的主文档。
本发明实施例溯源至文档最原始的结构,提取关键文件进行解析与处理,通过对象转化结合pptx格式的文档的特征,以a:r粒度对文档结构进行解析,依托对标签样式的对比,合并同样式标签,实现文档样式解析的精细化和待翻译文本上下文环境的构建,为更加精准的文本翻译提供支撑。
基于上述文档解析翻译方法,本发明实施例还提供了一种文档解析翻译装置,如图11所示,包括:
解析模块111,用于解析原始文档,生成资源文件目录;对资源文件中的主文档xml文件进行解析,得到文档内容解析文件和待翻译文本文件;其中,所述文档内容解析文件是基于所述主文档xml文件内部的最小处理单元标签所创建的,所述待翻译文本文件是基于处理所述最小处理单元标签时所提取的原文字符串生成的。
具体地,解析模块111,具体用于提取所述主文档xml文件内部的最小处理单元标签的所处层级、样式、内部包含的标签以及两个最小处理单元标签之间存在的其他标签,作为对主文档xml文件的的分析结果,并根据所述分析结果生成文档内容解析文件;提取所述最小处理单元标签中的原文字符串,并根据所述原文字符串生成待翻译文本文件。
本实施例中,解析模块111,具体用于针对主文档xml文件的结构特点,对所述主文档xml文件内部的最小处理标签的层级、最小处理标签之间存在的其他标签、最小处理标签中包含的标签以及最小处理标签的样式属性进行分析,当识别到结构差异或者样式差异较大的最小处理标签时,提取该最小处理标签的位置信息,以及该最小处理标签之前的字符信息加以记录,生成待翻译文本文件和文档内容解析文件。其中,解析模块111,具体用于对资源文件中的主文档xml文件进行解析,将分析结果写入文档内容解析文件,将提取的字符信息写入待翻译文本文件。
翻译模块112,用于根据所述待翻译文本文件的语言类型,获取与所述待翻译文本文件对应的目标语言文本,并根据所述目标语言文本完善所述待翻译文本文件。
具体地,翻译模块112,具体用于通过识别所述待翻译文本文件的字符编码,确定所述待翻译文本文件的语言类型,通过将所述待翻译文本文件依次提交翻译引擎,获取与所述待翻译文本文件对应的目标语言文本,并根据所述目标语言文本完善所述待翻译文本文件。
处理模块113,用于根据所述文档内容解析文件与完善后的待翻译文本文件,对所述资源文件进行修改与替换;重新打包所述资源文件,生成译文文档。
本发明实施例对资源文件中的主文档xml文件进行解析,根据解析得到的文档内容解析文件和待翻译文本文件支撑后续翻译工作的推进,在不影响文档展示格式的前提下,尽力构建文本翻译的上下文环境,为提升翻译准确率做铺垫,从而保留源文档各个非文本元素的内容和展示样式,保持译文文档与源文档的文本元素具有一致的显示样式,进而提高译文文档的阅读体验,便于对跨语种内容的理解,实现在保持原始文档展示样式不变的前提下完成文档从源语种到目标语种的转换。
结合本文中所公开的实施例描述的方法中的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种文档解析翻译方法,其特征在于,包括以下步骤:
解析原始文档,生成资源文件目录;
对资源文件中的主文档xml文件进行解析,得到文档内容解析文件和待翻译文本文件;其中,所述文档内容解析文件是基于所述主文档xml文件内部的最小处理单元标签所创建的,所述待翻译文本文件是基于处理所述最小处理单元标签时所提取的原文字符串生成的;
根据所述待翻译文本文件的语言类型,获取与所述待翻译文本文件对应的目标语言文本,并根据所述目标语言文本完善所述待翻译文本文件;
根据所述文档内容解析文件与完善后的待翻译文本文件,对所述资源文件进行修改与替换;
重新打包所述资源文件,生成译文文档。
2.如权利要求1所述的方法,其特征在于,所述根据所述待翻译文本文件的语言类型,获取与所述待翻译文本文件对应的目标语言文本,并根据所述目标语言文本完善所述待翻译文本文件,包括:
通过识别所述待翻译文本文件的字符编码,确定所述待翻译文本文件的语言类型,通过将所述待翻译文本文件依次提交翻译引擎,获取与所述待翻译文本文件对应的目标语言文本,并根据所述目标语言文本完善所述待翻译文本文件。
3.如权利要求1所述的方法,其特征在于,所述对资源文件中的主文档xml文件进行解析,得到文档内容解析文件和待翻译文本文件,包括:
提取所述主文档xml文件内部的最小处理单元标签的所处层级、样式、内部包含的标签以及两个最小处理单元标签之间存在的其他标签,作为对主文档xml文件的的分析结果,并根据所述分析结果生成文档内容解析文件;
提取所述最小处理单元标签中的原文字符串,并根据所述原文字符串生成待翻译文本文件。
4.如权利要求1所述的方法,其特征在于,所述对资源文件中的主文档xml文件进行解析,得到文档内容解析文件和待翻译文本文件,包括:
针对主文档xml文件的结构特点,对所述主文档xml文件内部的最小处理标签的层级、最小处理标签之间存在的其他标签、最小处理标签中包含的标签以及最小处理标签的样式属性进行分析,当识别到结构差异或者样式差异较大的最小处理标签时,提取该最小处理标签的位置信息,以及该最小处理标签之前的字符信息加以记录,生成待翻译文本文件和文档内容解析文件。
5.如权利要求1所述的方法,其特征在于,所述对资源文件中的主文档xml文件进行解析,得到文档内容解析文件和待翻译文本文件,包括:
对资源文件中的主文档xml文件进行解析,将分析结果写入文档内容解析文件,将提取的字符信息写入待翻译文本文件。
6.一种文档解析翻译装置,其特征在于,包括:
解析模块,用于解析原始文档,生成资源文件目录;对资源文件中的主文档xml文件进行解析,得到文档内容解析文件和待翻译文本文件;其中,所述文档内容解析文件是基于所述主文档xml文件内部的最小处理单元标签所创建的,所述待翻译文本文件是基于处理所述最小处理单元标签时所提取的原文字符串生成的;
翻译模块,用于根据所述待翻译文本文件的语言类型,获取与所述待翻译文本文件对应的目标语言文本,并根据所述目标语言文本完善所述待翻译文本文件;
处理模块,用于根据所述文档内容解析文件与完善后的待翻译文本文件,对所述资源文件进行修改与替换;重新打包所述资源文件,生成译文文档。
7.如权利要求6所述的装置,其特征在于,
所述翻译模块,具体用于通过识别所述待翻译文本文件的字符编码,确定所述待翻译文本文件的语言类型,通过将所述待翻译文本文件依次提交翻译引擎,获取与所述待翻译文本文件对应的目标语言文本,并根据所述目标语言文本完善所述待翻译文本文件。
8.如权利要求6所述的装置,其特征在于,
所述解析模块,具体用于提取所述主文档xml文件内部的最小处理单元标签的所处层级、样式、内部包含的标签以及两个最小处理单元标签之间存在的其他标签,作为对主文档xml文件的的分析结果,并根据所述分析结果生成文档内容解析文件;提取所述最小处理单元标签中的原文字符串,并根据所述原文字符串生成待翻译文本文件。
9.如权利要求6所述的装置,其特征在于,
所述解析模块,具体用于针对主文档xml文件的结构特点,对所述主文档xml文件内部的最小处理标签的层级、最小处理标签之间存在的其他标签、最小处理标签中包含的标签以及最小处理标签的样式属性进行分析,当识别到结构差异或者样式差异较大的最小处理标签时,提取该最小处理标签的位置信息,以及该最小处理标签之前的字符信息加以记录,生成待翻译文本文件和文档内容解析文件。
10.如权利要求6所述的装置,其特征在于,
所述解析模块,具体用于对资源文件中的主文档xml文件进行解析,将分析结果写入文档内容解析文件,将提取的字符信息写入待翻译文本文件。
CN201911413715.9A 2019-12-31 2019-12-31 一种文档解析翻译方法和装置 Active CN111144070B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911413715.9A CN111144070B (zh) 2019-12-31 2019-12-31 一种文档解析翻译方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911413715.9A CN111144070B (zh) 2019-12-31 2019-12-31 一种文档解析翻译方法和装置

Publications (2)

Publication Number Publication Date
CN111144070A true CN111144070A (zh) 2020-05-12
CN111144070B CN111144070B (zh) 2023-08-01

Family

ID=70522605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911413715.9A Active CN111144070B (zh) 2019-12-31 2019-12-31 一种文档解析翻译方法和装置

Country Status (1)

Country Link
CN (1) CN111144070B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967274A (zh) * 2020-08-25 2020-11-20 文思海辉智科科技有限公司 标签转换处理方法、装置、电子设备及可读存储介质
CN113065337A (zh) * 2021-02-26 2021-07-02 成都环宇知了科技有限公司 一种基于OpenXml的定位文档并进行评分的方法及系统
CN113297856A (zh) * 2020-08-21 2021-08-24 阿里巴巴集团控股有限公司 文档翻译方法、装置及电子设备
CN113536811A (zh) * 2021-07-14 2021-10-22 杭州隆埠科技有限公司 富文本文档的翻译方法及装置
CN111967274B (zh) * 2020-08-25 2024-05-31 文思海辉智科科技有限公司 标签转换处理方法、装置、电子设备及可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130117008A1 (en) * 2011-11-03 2013-05-09 Microsoft Corporation Techniques for automated document translation
CN104036028A (zh) * 2014-06-27 2014-09-10 吴涛军 一种电子文档信息片段的处理系统与电子文档信息片段的生成、处理、差异化显示的方法
CN104933041A (zh) * 2015-06-25 2015-09-23 武汉传神信息技术有限公司 一种利于翻译工作的文件抽取和还原方法
US20180095950A1 (en) * 2016-10-05 2018-04-05 Lingua Next Technologies Pvt. Ltd. Systems and methods for complete translation of a web element
CN107908625A (zh) * 2017-12-04 2018-04-13 上海互盾信息科技有限公司 一种pdf文档内容原位置多语言翻译方法
US20180300315A1 (en) * 2017-04-14 2018-10-18 Novabase Business Solutions, S.A. Systems and methods for document processing using machine learning
CN109766560A (zh) * 2019-01-14 2019-05-17 姚珍强 翻译方法、系统、终端以及存储介质
CN109783826A (zh) * 2019-01-15 2019-05-21 四川译讯信息科技有限公司 一种文档自动翻译方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130117008A1 (en) * 2011-11-03 2013-05-09 Microsoft Corporation Techniques for automated document translation
CN107783967A (zh) * 2011-11-03 2018-03-09 微软技术许可有限责任公司 用于自动化的文档翻译的技术
CN104036028A (zh) * 2014-06-27 2014-09-10 吴涛军 一种电子文档信息片段的处理系统与电子文档信息片段的生成、处理、差异化显示的方法
CN104933041A (zh) * 2015-06-25 2015-09-23 武汉传神信息技术有限公司 一种利于翻译工作的文件抽取和还原方法
US20180095950A1 (en) * 2016-10-05 2018-04-05 Lingua Next Technologies Pvt. Ltd. Systems and methods for complete translation of a web element
US20180300315A1 (en) * 2017-04-14 2018-10-18 Novabase Business Solutions, S.A. Systems and methods for document processing using machine learning
CN107908625A (zh) * 2017-12-04 2018-04-13 上海互盾信息科技有限公司 一种pdf文档内容原位置多语言翻译方法
CN109766560A (zh) * 2019-01-14 2019-05-17 姚珍强 翻译方法、系统、终端以及存储介质
CN109783826A (zh) * 2019-01-15 2019-05-21 四川译讯信息科技有限公司 一种文档自动翻译方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297856A (zh) * 2020-08-21 2021-08-24 阿里巴巴集团控股有限公司 文档翻译方法、装置及电子设备
CN113297856B (zh) * 2020-08-21 2024-01-23 阿里巴巴集团控股有限公司 文档翻译方法、装置及电子设备
CN111967274A (zh) * 2020-08-25 2020-11-20 文思海辉智科科技有限公司 标签转换处理方法、装置、电子设备及可读存储介质
CN111967274B (zh) * 2020-08-25 2024-05-31 文思海辉智科科技有限公司 标签转换处理方法、装置、电子设备及可读存储介质
CN113065337A (zh) * 2021-02-26 2021-07-02 成都环宇知了科技有限公司 一种基于OpenXml的定位文档并进行评分的方法及系统
CN113536811A (zh) * 2021-07-14 2021-10-22 杭州隆埠科技有限公司 富文本文档的翻译方法及装置

Also Published As

Publication number Publication date
CN111144070B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
CN109783826B (zh) 一种文档自动翻译方法
US10650192B2 (en) Method and device for recognizing domain named entity
CN111144070A (zh) 一种文档解析翻译方法和装置
US8433708B2 (en) Methods and data structures for improved searchable formatted documents including citation and corpus generation
US20110264705A1 (en) Method and system for interactive generation of presentations
CN108762743B (zh) 一种数据表操作代码生成方法及装置
US20060285746A1 (en) Computer assisted document analysis
CN111176650B (zh) 解析器生成方法、检索方法、服务器及存储介质
JP2011209941A (ja) 文書校正支援装置、方法およびプログラム
Rupp et al. Customising geoparsing and georeferencing for historical texts
CN114610286A (zh) 开发文档的生成方法、装置、计算机设备及存储介质
US20160328374A1 (en) Methods and Data Structures for Improved Searchable Formatted Documents including Citation and Corpus Generation
CN111159981B (zh) 一种Excel文档的解析翻译方法和装置
CN116360794A (zh) 数据库语言解析方法、装置、计算机设备及存储介质
CN112528683B (zh) 文本翻译校正方法、装置、系统、服务器及可读存储介质
CN112699642B (zh) 复杂医疗文书的索引提取方法及装置、介质及电子设备
JP5994150B2 (ja) 文書作成方法、文書作成装置及び文書作成プログラム
JP2014137613A (ja) 翻訳支援プログラム、方法、および装置
CN112231512A (zh) 歌曲标注检测方法、装置和系统及存储介质
CN110618809B (zh) 一种前端网页输入约束提取方法和装置
US10255904B2 (en) Reading-aloud information editing device, reading-aloud information editing method, and computer program product
US11681862B1 (en) System and method for identifying location of content within an electronic document
CN113887250A (zh) 软件界面文字翻译方法及设备
KR20240070874A (ko) 텍스트 데이터에 대한 띄어쓰기 교정 수행 방법 및 텍스트 데이터에 대한 띄어쓰기 교정 수행 장치
CN117933272A (zh) 前端文本翻译方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant