CN112766003A - 文档辅助翻译方法及装置 - Google Patents

文档辅助翻译方法及装置 Download PDF

Info

Publication number
CN112766003A
CN112766003A CN202110075040.2A CN202110075040A CN112766003A CN 112766003 A CN112766003 A CN 112766003A CN 202110075040 A CN202110075040 A CN 202110075040A CN 112766003 A CN112766003 A CN 112766003A
Authority
CN
China
Prior art keywords
sentence
translated
translation
document
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110075040.2A
Other languages
English (en)
Inventor
樊兵兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iol Wuhan Information Technology Co ltd
Original Assignee
Iol Wuhan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iol Wuhan Information Technology Co ltd filed Critical Iol Wuhan Information Technology Co ltd
Priority to CN202110075040.2A priority Critical patent/CN112766003A/zh
Publication of CN112766003A publication Critical patent/CN112766003A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种文档辅助翻译方法及装置,该方法包括:将待翻译文档拆分成多个句子,根据语种识别出不翻译的句子,分析文档中和文档之间的重复句子,将每个句子与语料库中的语料和术语进行匹配,将待翻译句子、匹配的术语和语料写入excel,标识出无需翻译的句子,并把重复句子行进行标识锁定;从语料库中获取每个句子匹配到的语料的译文,以供译员对每个句子进行翻译;根据译员对每个句子进行翻译的译文,获取所述待翻译文档的译文,进行术语语料检查及漏译检查,最终按照段段对照、句句对照、纯译文模式进行文档还原完成翻译。本发明提高了待翻译文档翻译的质量和效率,降低翻译成本。

Description

文档辅助翻译方法及装置
技术领域
本发明涉及翻译辅助处理技术领域,尤其涉及一种文档辅助翻译方法及装置。
背景技术
随着科学技术的发展,语言处理领域的研究很多。其中,在智能翻译方面,用户只要输入文本,就可以通过智能翻译工具将其翻译成所需的语言。但语言组织的组织结构比较复杂且有的词语可能有多个意思,因此翻译工具翻译的结果一般不太理想。
在对翻译的精度要求较高的场景中,需要译员进行翻译。译员在对文档进行翻译时,依次对文档的每个句子进行翻译。由于译员的知识储备有限,需要安装其他翻译辅助工具。例如,通过翻译辅助工具查找文档中术语的翻译。从而导致翻译需要耗费大量时间和成本。
发明内容
本发明提供一种文档辅助翻译方法及装置,用以解决现有技术中译员手动翻译耗时长,成本高的缺陷,实现提高译员翻译效率,降低翻译成本。
本发明提供一种文档辅助翻译方法,包括:
将待翻译文档拆分成多个句子,根据语种识别出不翻译的句子,分析所述待翻译文档中和所述待翻译文档之间的重复句子,将每个句子与语料库中的语料和术语进行匹配,获取每个句子匹配到的术语和语料,将所述句子及匹配的术语和语料写入待译excel表格,标识出所述不翻译的句子,并把所述重复句子所在的行进行标识锁定;
从所述语料库中获取每个句子匹配到的语料的译文,并将所述译文写入所述待译excel表格中,以供译员根据所述待译excel表格对每个句子进行翻译;
根据译员在所述待译excel中写入的每个句子的译文,生成已译excel表格,对所述已译excel表格进行术语检查及漏译检查,若检查通过,则将所有句子的译文还原为所述待翻译文档的译文。
根据本发明提供的一种文档辅助翻译方法,所述将待翻译文档拆分成多个句子包括:
基于Aspose.words类库中的DOM将待翻译文档转换成Document对象;
提取所述Document对象中的所有段落和表格;
对每个段落进行语种识别,根据每个段落的语种的断句符号将每个段落拆分成句子;
将所述表格中每行的文本内容作为单个句子。
根据本发明提供的一种文档辅助翻译方法,将每个句子与语料库中的语料进行匹配,获取每个句子匹配到的语料包括:
统计每个句子的信息和每个语料的信息;
基于AhoCorasickDoubleArrayTrie将每个句子的信息与各语料的信息进行匹配,获取每个句子的信息与各语料的信息之间的匹配率;
将匹配率大于预设阈值的语料作为每个句子匹配到的语料。
根据本发明提供的一种文档辅助翻译方法,所述将所述句子及匹配的术语和语料写入待译excel表格,包括:
以每个句子的原文、译文、匹配到的术语和语料为列生成待译excel表格;
基于Apache POI将每个句子的原文、匹配到的术语和语料填充到所述待译excel表格的相应列中,并将每个句子匹配到的术语在所述待译excel表格中使用第一样式进行标识;
基于所述Apache POI将每个句子匹配到的语料的译文填充到所述待译excel表格中每个句子的译文对应的列,并将填充所述语料的译文的单元格使用第二样式进行标识,以供译员根据待译excel表格中的填充和标识对每个句子的译文所在的单元格进行编辑,生成已译excel表格;
根据所述已译excel表格中每个句子的译文,获取所述待翻译文档的译文。
根据本发明提供的一种文档辅助翻译方法,所述标识出所述不翻译的句子,并把所述重复句子所在的行进行标识锁定,包括:
获取所述待翻译文档中的重复句子,基于所述Apache POI将所述重复句子在所述待译excel表格中所在的行设置为密码锁定,并将所述重复句子的原文所在的单元格使用第三样式进行标识;
若任一句子的语种与该句子待翻译的语种一致,则基于所述Apache POI将该句子的原文在所述待译excel表格中的单元格使用第四样式进行标识,并将该句子的原文填充到所述待译excel表格中该句子的译文所在的单元格,将填充该句子的译文所在的单元格使用第五样式进行标识。
根据本发明提供的一种文档辅助翻译方法,所述对所述已译excel表格进行术语检查及漏译检查,若检查通过,则将所有句子的译文还原为所述待翻译文档的译文,包括:
基于EasyExcel读取所述已译excel表格,检查所述已译excel表格中是否满足预设条件;
若满足,则根据所述已译excel表格中每个句子的译文,获取所述待翻译文档的译文;
其中,所述预设条件为所述已译excel表格中不存在句子的译文为空,且每个句子中的术语在所述已译excel表格中的译文与所述语料库中的译文相同。
根据本发明提供的一种文档辅助翻译方法,所述将所有句子的译文还原为所述待翻译文档的译文,包括:
遍历所述Document对象,获取所述Document对象中的段落和表格;
将每个段落对应的句子的译文进行拼接,获取每个段落的译文;
将每个表格中的内容替换成每个表格对应的句子的译文,获取每个表格的译文;
根据每个段落的译文和每个表格的译文,获取所述翻译文档的译文。
本发明还提供一种文档辅助翻译装置,包括:
匹配模块,用于将待翻译文档拆分成多个句子,将每个句子与语料库中的语料和术语进行匹配,获取每个句子匹配到的术语和语料;
查找模块,用于从所述语料库中获取每个句子匹配到的语料的译文,以供译员根据每个句子匹配到的语料的译文和匹配到的术语对每个句子进行翻译;
还原模块,用于根据译员对每个句子进行翻译的译文,获取所述待翻译文档的译文。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述文档辅助翻译方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述文档辅助翻译方法的步骤。
本发明提供的文档辅助翻译方法及装置,通过将待翻译文档中的句子与语料库中的语料和术语进行匹配,将每个句子匹配到的术语和语料的译文作为译员对每个句子翻译的参考,最后将译员对每个句子翻译的译文自动还原为待翻译文档的译文,提高了待翻译文档翻译的质量和效率,降低翻译成本。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的文档辅助翻译方法的流程示意图;
图2是本发明提供的文档辅助翻译装置的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1描述本发明的文档辅助翻译方法,包括:步骤101,将待翻译文档拆分成多个句子,根据语种识别出不翻译的句子,分析所述待翻译文档中和所述待翻译文档之间的重复句子,将每个句子与语料库中的语料和术语进行匹配,获取每个句子匹配到的术语和语料,将所述句子及匹配的术语和语料写入待译excel表格,标识出所述不翻译的句子,并把所述重复句子所在的行进行标识锁定;
其中,待翻译文档为需要进行翻译的文档。根据待翻译文档中的标点将待翻译文档拆分成多个句子,本实施例不限于具体的拆分方法。语料库中存储有语料和语料的译文,术语和术语的译文。其中语料的译文的语种与待翻译文档需要翻译的语种一致。通过将每个句子与语料库中的语料和术语进行匹配,获取每个句子包含的术语,以及与每个句子相似的语料。本实施例不限于具体的匹配方法。
步骤102,从所述语料库中获取每个句子匹配到的语料的译文,并将所述译文写入所述待译excel表格中,以供译员根据所述待译excel表格对每个句子进行翻译;
在获取到每个句子匹配的语料后,从语料库中获取每个句子匹配的语料的译文。译员为对待翻译文档进行翻译的人员。译员参考每个句子匹配到的语料的译文对每个句子进行翻译。例如,若译员对句子匹配到的语料的译文没有修改,则直接将匹配到的语料的译文作为相应句子的译文。若译员对句子匹配到的语料的译文进行了修改,则将匹配到的语料修改后的译文作为相应句子的译文。译员获知每个句子包含的术语后对句子中的术语以术语的方式进行翻译,在不知术语的翻译时可以从语料库中查找术语的译文。
步骤103,根据译员在所述待译excel中写入的每个句子的译文,生成已译excel表格,对所述已译excel表格进行术语检查及漏译检查,若检查通过,则将所有句子的译文还原为所述待翻译文档的译文。
将译员上传的每个句子的译文按照每个句子在原文档中的排列顺序和格式进行还原,获取待翻译文档的译文。
本实施例通过将待翻译文档中的句子与语料库中的语料和术语进行匹配,将每个句子匹配到的术语和语料的译文作为译员对每个句子翻译的参考,最后将译员对每个句子翻译的译文自动还原为待翻译文档的译文,提高了待翻译文档翻译的质量和效率,降低翻译成本。
在上述实施例的基础上,本实施例中所述将待翻译文档拆分成多个句子包括:基于Aspose.words类库中的DOM(Document Object Model,文档对象模型)将待翻译文档转换成Document对象;
其中,Aspose.words是一款类库,可以直接在各个应用程序中执行各种文档处理任务。使用Aspose.words可以在不使用Microsoft.Word的情况下生成、修改、转换和打印文档。待翻译文档为Word文档,若不为Word文档则预先转换为Word文档。在待翻译文档上传后调用Aspose.words类库中的DOM读取待翻译文档,得到树形对象Document。将Document对象进行持久化存储,以供根据每个句子的译文还原待翻译文档的译文时使用。
提取所述Document对象中的所有段落和表格;
本实施例仅提取Document对象中所有的段落Paragraph和表格table中的文本内容。
对每个段落进行语种识别,根据每个段落的语种的断句符号将每个段落拆分成句子;
调用language-detector语言检测工具对每个段落进行语种识别,本实施例不限于这种语种识别方法。由于不同语种的断句规则不同,再根据不同语种的断句规则将每个段落Paragraph拆分成句子。
将所述表格中每行的文本内容作为单个句子。
本实施例将表格table也作为一个段落,并按照每行Row的单元格Cell中提取的文本内容作为单个句子。
在上述实施例的基础上,本实施例中将每个句子与语料库中的语料进行匹配,获取每个句子匹配到的语料,包括:统计每个句子的信息和每个语料的信息;
其中,段落Paragraph和表格table中每个句子的信息包括字符数、中朝字数和非中文单词数。并将对待翻译文档解析出的页数、段落数、句子数、字符数、中朝字数、非中文单词数及相关的详细信息进行持久化存储。这些统计信息为待翻译文档的翻译费用评估提供参考,控制翻译成本。
基于AhoCorasickDoubleArrayTrie将每个句子的信息与各语料的信息进行匹配,获取每个句子的信息与各语料的信息之间的匹配率;将匹配率大于预设阈值的语料作为每个句子匹配到的语料。
AhoCorasickDoubleArrayTrie本质上是一颗双数组Trie树,所以像双数组Trie树一样支持精确单模式匹配。本实施例使用AhoCorasickDoubleArrayTrie将每个句子的信息与各语料的信息进行精准匹配,得到两者之间的匹配率。将句子匹配的语料及其统计信息进行持久化存储。当匹配率为100%时,可以直接使用匹配语料的译文作为相应句子的译文;当匹配率小于100%时,译员将匹配语料的译文作为参考对相应句子进行翻译。
在上述各实施例的基础上,本实施例中所述将所述句子及匹配的术语和语料写入待译excel表格,包括:以每个句子的原文、译文、匹配到的术语和语料为列生成待译excel表格;
具体地,除了以每个句子的原文、译文、匹配到的术语和语料为列,还可以增加待翻译文档的ID、段落序号、句子序号、句子语种、句子字数为列。将待翻译文档的ID、段落序号和句子序号对应的列设置为隐藏列。将句子的原文、译文、匹配到的术语和语料、句子字数对应的列设置为固定宽度列显示,并将其中的所有单元格设置自动换行,高度自适应。本实施例将生成的待译excel表格和原待翻译文档的匹配信息进行持久化存储。
基于Apache POI将每个句子的原文、匹配到的术语和语料填充到所述待译excel表格的相应列中,并将每个句子匹配到的术语在所述待译excel表格中使用第一样式进行标识;
其中,Apache POI是开放源码函数库,提供了对excel文档复杂的写入功能。本实施例使用Apache POI在excel文档写入时使用隐藏列、设置列宽行高和设置含术语和语料的句子样式、相同原文行密码锁定等操作。如果任一句子匹配到的术语不为空,则将该句子在待译excel表格中原文内容中的术语标识出来,如使用高亮方式标识,以供译员可以通过该标识获知句子中的术语,以术语方式对其进行翻译。
基于所述Apache POI将每个句子匹配到的语料的译文填充到所述待译excel表格中每个句子的译文对应的列,并将填充所述语料的译文的单元格使用第二样式进行标识,以供译员根据待译excel表格中的填充和标识对每个句子的译文所在的单元格进行编辑,生成已译excel表格;
如果任一句子匹配到的语料不为空,则将该句子的原文所在的单元格设置为特定样式标识,并将该句子匹配的语料的译文填充到该句子的译文对应的单元格,将该译文的单元格设置特定样式标识。以供议员通过标识参考匹配语料的译文对该句子进行翻译。对于有匹配语料的句子,译员通过对匹配语料的译文进行修改即可得到该句子的译文;对于没有匹配语料的句子,译员将句子的译文写入excel表格中相应单元格中。将译员对待译excel表格处理后提交的表格作为已译excel表格。
根据所述已译excel表格中每个句子的译文,获取所述待翻译文档的译文。
对已译excel表格中每个句子的译文进行格式还原,获取待翻译文档的译文。
本实施例通过根据句子匹配的术语和语料生成待译excel文件,再把待译excel文件派发给译员进行翻译,为译员翻译提高参考,不用其他翻译辅助工具,所有可用的术语和语料在待译excel文件中一目了然,提高了译员翻译的质量和效率。
在上述实施例的基础上,本实施例中所述标识出所述不翻译的句子,并把所述重复句子所在的行进行标识锁定,包括:获取所述待翻译文档中的重复句子,基于所述ApachePOI将所述重复句子在所述待译excel表格中所在的行设置为密码锁定,并将所述重复句子的原文所在的单元格使用第三样式进行标识;
具体地,统计待翻译文档中的重复句子,当存在多个待翻译文档时,还统计待翻译文档之间的重复句子。在待译excel表格中添加每个句子的关联重复句子序号和重复句子所属待翻译文档的ID。将关联重复句子序号和重复句子所属待翻译文档的ID设置为隐藏列。若关联的重复句子序号不为空,则将该重复句子所在的行设置为密码锁定,并将重复句子的原文所在的单元格设置特定样式标识。
若任一句子的语种与该句子待翻译的语种一致,则基于所述Apache POI将该句子的原文在所述待译excel表格中的单元格使用第四样式进行标识,并将该句子的原文填充到所述待译excel表格中该句子的译文所在的单元格,将填充该句子的译文所在的单元格使用第五样式进行标识。
基于language-detector对每个句子进行语种识别,如果任一句子的语种和需要翻译的语种一致,则将该句子的原文单元格设置特定样式标识,并将该句子的原文内容直接填充到译文单元格,且设置特定样式标识。
在上述实施例的基础上,本实施例中所述对所述已译excel表格进行术语检查及漏译检查,若检查通过,则将所有句子的译文还原为所述待翻译文档的译文,包括:基于EasyExcel读取所述已译excel表格,检查所述已译excel表格中是否满足预设条件;若满足,则根据所述已译excel表格中每个句子的译文,获取所述待翻译文档的译文;其中,所述预设条件为所述已译excel表格中不存在句子的译文为空,且每个句子中的术语在所述已译excel表格中的译文与所述语料库中的译文相同。
其中,EasyExcel提供高效高性能的excel读取功能。译员上传已译excel表格后,使用EasyExcel读取已译excel表格,生成已译excel表格对应表头信息的对象。其中已译excel表格和待译excel表格的表头不变。遍历读取的对象信息,检查是否有漏译的原文和是否使用术语翻译有术语的句子,判断句子的译文是否使用术语的译文。若检查有异常,则返回异常详情提示;如无异常,则提示检查成功。将待译excel、已译excel和原待翻译文档的匹配信息进行持久化存储。
本实施例自动检测译员上传的已译excel表格的漏译和术语语料使用情况,提高翻译质量,提升质控效率。
在上述实施例的基础上,本实施例中所述根据译员对每个句子进行翻译的译文,获取所述待翻译文档的译文,包括:遍历所述Document对象,获取所述Document对象中的段落和表格;将每个段落对应的句子的译文进行拼接,获取每个段落的译文;将每个表格中的内容替换成每个表格对应的句子的译文,获取每个表格的译文;根据每个段落的译文和每个表格的译文,获取所述翻译文档的译文。
具体地,获取原待翻译文档之前解析的Document对象及稿件所有句子所属段落、原文和译文信息。遍历Document,获取段落Paragraph,找到该段落对应句子的译文。遍历Document,获取表格Table,找到该表格对应句子的译文。
新增样式和原样式一致的段落Paragraph,将对应的译文全部拼装起来作为内容。新增一个和原样式一致的表格Table,把表格Table中单元格的内容替换成译文。最后将新Document保存为一个新文档。
下面对本发明提供的文档辅助翻译装置进行描述,下文描述的文档辅助翻译装置与上文描述的文档辅助翻译方法可相互对应参照。
如图2所示,本发明提供的文档辅助翻译装置包括匹配模块201、查找模块202和还原模块203,其中:
所述匹配模块201用于将待翻译文档拆分成多个句子,根据语种识别出不翻译的句子,分析所述待翻译文档中和所述待翻译文档之间的重复句子,将每个句子与语料库中的语料和术语进行匹配,获取每个句子匹配到的术语和语料,将所述句子及匹配的术语和语料写入待译excel表格,标识出所述不翻译的句子,并把所述重复句子所在的行进行标识锁定;
其中,待翻译文档为需要进行翻译的文档。根据待翻译文档中的标点将待翻译文档拆分成多个句子,本实施例不限于具体的拆分方法。语料库中存储有语料和语料的译文,术语和术语的译文。其中语料的译文的语种与待翻译文档需要翻译的语种一致。通过将每个句子与语料库中的语料和术语进行匹配,获取每个句子包含的术语,以及与每个句子相似的语料。本实施例不限于具体的匹配方法。
所述查找模块202用于从所述语料库中获取每个句子匹配到的语料的译文,并将所述译文写入所述待译excel表格中,以供译员根据所述待译excel表格对每个句子进行翻译;
在获取到每个句子匹配的语料后,从语料库中获取每个句子匹配的语料的译文。译员为对待翻译文档进行翻译的人员。译员参考每个句子匹配到的语料的译文对每个句子进行翻译。例如,若译员对句子匹配到的语料的译文没有修改,则直接将匹配到的语料的译文作为相应句子的译文。若译员对句子匹配到的语料的译文进行了修改,则将匹配到的语料修改后的译文作为相应句子的译文。译员获知每个句子包含的术语后对句子中的术语以术语的方式进行翻译,在不知术语的翻译时可以从语料库中查找术语的译文。
所述还原模块203用于根据译员在所述待译excel中写入的每个句子的译文,生成已译excel表格,对所述已译excel表格进行术语检查及漏译检查,若检查通过,则将所有句子的译文还原为所述待翻译文档的译文。
将译员上传的每个句子的译文按照每个句子在原文档中的排列顺序和格式进行还原,获取待翻译文档的译文。
本实施例通过将待翻译文档中的句子与语料库中的语料和术语进行匹配,将每个句子匹配到的术语和语料的译文作为译员对每个句子翻译的参考,最后将译员对每个句子翻译的译文自动还原为待翻译文档的译文,提高了待翻译文档翻译的质量和效率,降低翻译成本。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行文档辅助翻译方法,该方法包括:将待翻译文档拆分成多个句子,根据语种识别出不翻译的句子,分析文档中和文档之间的重复句子,将每个句子与语料库中的语料和术语进行匹配,将待翻译句子及、匹配的术语和语料写入excel,标识出无需翻译的句子,并把重复句子行进行标识锁定;从语料库中获取每个句子匹配到的语料的译文,以供译员对每个句子进行翻译;根据译员对每个句子进行翻译的译文,获取所述待翻译文档的译文,进行术语语料检查及漏译检查,最终按照段段对照、句句对照、纯译文模式进行文档还原完成翻译。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的文档辅助翻译方法,该方法包括:将待翻译文档拆分成多个句子,根据语种识别出不翻译的句子,分析文档中和文档之间的重复句子,将每个句子与语料库中的语料和术语进行匹配,将待翻译句子及、匹配的术语和语料写入excel,标识出无需翻译的句子,并把重复句子行进行标识锁定;从语料库中获取每个句子匹配到的语料的译文,以供译员对每个句子进行翻译;根据译员对每个句子进行翻译的译文,获取所述待翻译文档的译文,进行术语语料检查及漏译检查,最终按照段段对照、句句对照、纯译文模式进行文档还原完成翻译。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的文档辅助翻译方法,该方法包括:将待翻译文档拆分成多个句子,将每个句子与语料库中的语料和术语进行匹配,获取每个句子匹配到的术语和语料;从所述语料库中获取每个句子匹配到的语料的译文,以供译员根据每个句子匹配到的语料的译文和匹配到的术语对每个句子进行翻译;根据译员对每个句子进行翻译的译文,获取所述待翻译文档的译文。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种文档辅助翻译方法,其特征在于,包括:
将待翻译文档拆分成多个句子,根据语种识别出不翻译的句子,分析所述待翻译文档中和所述待翻译文档之间的重复句子,将每个句子与语料库中的语料和术语进行匹配,获取每个句子匹配到的术语和语料,将所述句子及匹配的术语和语料写入待译excel表格,标识出所述不翻译的句子,并把所述重复句子所在的行进行标识锁定;
从所述语料库中获取每个句子匹配到的语料的译文,并将所述译文写入所述待译excel表格中,以供译员根据所述待译excel表格对每个句子进行翻译;
根据译员在所述待译excel中写入的每个句子的译文,生成已译excel表格,对所述已译excel表格进行术语检查及漏译检查,若检查通过,则将所有句子的译文还原为所述待翻译文档的译文。
2.根据权利要求1所述的文档辅助翻译方法,其特征在于,所述将待翻译文档拆分成多个句子包括:
基于Aspose.words类库中的DOM将待翻译文档转换成Document对象;
提取所述Document对象中的所有段落和表格;
对每个段落进行语种识别,根据每个段落的语种的断句符号将每个段落拆分成句子;
将所述表格中每行的文本内容作为单个句子。
3.根据权利要求1所述的文档辅助翻译方法,其特征在于,将每个句子与语料库中的语料进行匹配,获取每个句子匹配到的语料包括:
统计每个句子的信息和每个语料的信息;
基于AhoCorasickDoubleArrayTrie将每个句子的信息与各语料的信息进行匹配,获取每个句子的信息与各语料的信息之间的匹配率;
将匹配率大于预设阈值的语料作为每个句子匹配到的语料。
4.根据权利要求1-3任一所述的文档辅助翻译方法,其特征在于,所述将所述句子及匹配的术语和语料写入待译excel表格,包括:
以每个句子的原文、译文、匹配到的术语和语料为列生成待译excel表格;
基于Apache POI将每个句子的原文、匹配到的术语和语料填充到所述待译excel表格的相应列中,并将每个句子匹配到的术语在所述待译excel表格中使用第一样式进行标识;
基于所述Apache POI将每个句子匹配到的语料的译文填充到所述待译excel表格中每个句子的译文对应的列,并将填充所述语料的译文的单元格使用第二样式进行标识,以供译员根据待译excel表格中的填充和标识对每个句子的译文所在的单元格进行编辑,生成已译excel表格;
根据所述已译excel表格中每个句子的译文,获取所述待翻译文档的译文。
5.根据权利要求4所述的文档辅助翻译方法,其特征在于,所述标识出所述不翻译的句子,并把所述重复句子所在的行进行标识锁定,包括:
获取所述待翻译文档中的重复句子,基于所述Apache POI将所述重复句子在所述待译excel表格中所在的行设置为密码锁定,并将所述重复句子的原文所在的单元格使用第三样式进行标识;
若任一句子的语种与该句子待翻译的语种一致,则基于所述Apache POI将该句子的原文在所述待译excel表格中的单元格使用第四样式进行标识,并将该句子的原文填充到所述待译excel表格中该句子的译文所在的单元格,将填充该句子的译文所在的单元格使用第五样式进行标识。
6.根据权利要求4所述的文档辅助翻译方法,其特征在于,所述对所述已译excel表格进行术语检查及漏译检查,若检查通过,则将所有句子的译文还原为所述待翻译文档的译文,包括:
基于EasyExcel读取所述已译excel表格,检查所述已译excel表格中是否满足预设条件;
若满足,则根据所述已译excel表格中每个句子的译文,获取所述待翻译文档的译文;
其中,所述预设条件为所述已译excel表格中不存在句子的译文为空,且每个句子中的术语在所述已译excel表格中的译文与所述语料库中的译文相同。
7.根据权利要求2所述的文档辅助翻译方法,其特征在于,所述将所有句子的译文还原为所述待翻译文档的译文,包括:
遍历所述Document对象,获取所述Document对象中的段落和表格;
将每个段落对应的句子的译文进行拼接,获取每个段落的译文;
将每个表格中的内容替换成每个表格对应的句子的译文,获取每个表格的译文;
根据每个段落的译文和每个表格的译文,获取所述翻译文档的译文。
8.一种文档辅助翻译装置,其特征在于,包括:
匹配模块,用于将待翻译文档拆分成多个句子,根据语种识别出不翻译的句子,分析所述待翻译文档中和所述待翻译文档之间的重复句子,将每个句子与语料库中的语料和术语进行匹配,获取每个句子匹配到的术语和语料,将所述句子及匹配的术语和语料写入待译excel表格,标识出所述不翻译的句子,并把所述重复句子所在的行进行标识锁定;
查找模块,用于从所述语料库中获取每个句子匹配到的语料的译文,并将所述译文写入所述待译excel表格中,以供译员根据所述待译excel表格对每个句子进行翻译;
还原模块,用于根据译员在所述待译excel中写入的每个句子的译文,生成已译excel表格,对所述已译excel表格进行术语检查及漏译检查,若检查通过,则将所有句子的译文还原为所述待翻译文档的译文。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述文档辅助翻译方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述文档辅助翻译方法的步骤。
CN202110075040.2A 2021-01-20 2021-01-20 文档辅助翻译方法及装置 Pending CN112766003A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110075040.2A CN112766003A (zh) 2021-01-20 2021-01-20 文档辅助翻译方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110075040.2A CN112766003A (zh) 2021-01-20 2021-01-20 文档辅助翻译方法及装置

Publications (1)

Publication Number Publication Date
CN112766003A true CN112766003A (zh) 2021-05-07

Family

ID=75703525

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110075040.2A Pending CN112766003A (zh) 2021-01-20 2021-01-20 文档辅助翻译方法及装置

Country Status (1)

Country Link
CN (1) CN112766003A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933041A (zh) * 2015-06-25 2015-09-23 武汉传神信息技术有限公司 一种利于翻译工作的文件抽取和还原方法
CN105760368A (zh) * 2016-03-11 2016-07-13 张广睿 一种文档文字的深度处理方法
CN105808528A (zh) * 2016-03-04 2016-07-27 张广睿 一种文档文字的处理方法
CN106777268A (zh) * 2016-12-28 2017-05-31 语联网(武汉)信息技术有限公司 一种翻译文档存储与检索的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933041A (zh) * 2015-06-25 2015-09-23 武汉传神信息技术有限公司 一种利于翻译工作的文件抽取和还原方法
WO2016206336A1 (zh) * 2015-06-25 2016-12-29 武汉传神信息技术有限公司 一种利于翻译工作的文件抽取和还原方法
CN105808528A (zh) * 2016-03-04 2016-07-27 张广睿 一种文档文字的处理方法
CN105760368A (zh) * 2016-03-11 2016-07-13 张广睿 一种文档文字的深度处理方法
CN106777268A (zh) * 2016-12-28 2017-05-31 语联网(武汉)信息技术有限公司 一种翻译文档存储与检索的方法

Similar Documents

Publication Publication Date Title
US8275604B2 (en) Adaptive pattern learning for bilingual data mining
CN113254574A (zh) 一种机关公文辅助生成方法、装置以及系统
CN110770735A (zh) 具有嵌入式数学表达式的文档的编码转换
CN106778878B (zh) 一种人物关系分类方法及装置
CN111797630B (zh) 一种面向pdf格式论文的生物医学实体识别方法
CN110209802B (zh) 一种提取摘要文本的方法及装置
CN112732945B (zh) 标准知识图谱构建、标准查询方法及装置
CN106372053B (zh) 句法分析的方法和装置
CN111984845B (zh) 网站错别字识别方法和系统
CN114238575A (zh) 文档解析方法、系统、计算机设备及计算机可读存储介质
Embley et al. Notes on contemporary table recognition
CN110309513B (zh) 一种文本依存分析的方法和装置
JP7040227B2 (ja) 情報処理プログラム、情報処理方法、および情報処理装置
CN117235546B (zh) 多版本文件比对方法、装置、系统及存储介质
CN117034948A (zh) 基于多特征自适应融合的段落识别方法、系统及存储介质
CN112766003A (zh) 文档辅助翻译方法及装置
CN111310457B (zh) 词语搭配不当识别方法、装置、电子设备和存储介质
CN115130437A (zh) 一种文档智能填写方法、装置及存储介质
CN111159981B (zh) 一种Excel文档的解析翻译方法和装置
CN114579796A (zh) 机器阅读理解方法及装置
JP2006252164A (ja) 中国語文書処理装置
Kaur et al. Toward normalizing romanized gurumukhi text from social media
CN113011149A (zh) 一种文本纠错方法及系统
CN111178096A (zh) 一种基于语义相似度的cameo字典翻译方法
CN113779218B (zh) 问答对构建方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination