CN105808528B

CN105808528B - 一种文档文字的处理方法

Info

Publication number: CN105808528B
Application number: CN201610122855.0A
Authority: CN
Inventors: 张广睿
Original assignee: Individual
Current assignee: Sichuan Dianwen Technology Co Ltd; Zhang Guangrui
Priority date: 2016-03-04
Filing date: 2016-03-04
Publication date: 2019-01-25
Anticipated expiration: 2036-03-04
Also published as: CN105808528A

Abstract

本发明公开了一种文档文字的处理方法，包括以下步骤：（1）、提取待翻译文档中的文字信息，并统一格式；（2）、将文档自动拆分成最小单位的待译文字数据集合，去掉待译文字数据集合中的非译文字和重复的待译文字数据；（3）、建立译前处理文档，先将待译文字数据集合中的待译文字数据复制到原文列中，再将涉及到的专有术语的原文和译文写入对应的专有术语列，得到匹配有专有术语的译前处理文档；（4）、译员对译前处理文档中原文列对应的待译文字数据翻译，得到译后处理文档；（5）、使用替换功能将译文替换成原文，得到译文。本发明能够处理文档前预先去除文档中重复的单词、词组或单句，达到简化译员翻译量、提高翻译效率的目的。

Description

一种文档文字的处理方法

技术领域

本发明涉及翻译技术领域，具体地说涉及一种文档文字的处理方法。

背景技术

从上世纪80年代中期开始，基于语料和多引擎机译方法的广泛运用，翻译软件的性能和效率有了明显提高，各式各样的翻译软件如雨后春笋般问世。采用预先编写的软件程序翻译，极大提高了文本的翻译速度。但由于语言表达的特殊性，翻译软件的翻译质量一直屡遭诟病，翻译软件的原理是将两种语言的语义一一对应存储，翻译时机械调用替换，由于语言表达的多样性，每个字、单词、词组或单句往往对应不止一个意思，完全使用翻译软件所得到的译文通常不能正常表达原文含义，因此人工翻译仍然是获得高翻译质量的保证。

现有技术中，针对一个项目或长篇文档来说，往往是在一个团队中分成多份来翻译，但由于译员翻译习性的不同，往往会出现不同译员翻译相同含义的一句话而导致译文不一致的情况。另外，这种采用团队分成多份翻译的方式，导致译员经常重复翻译具有相同含义的单词、词组或单句，不仅大幅增大了译员的翻译强度，还极大地降低了翻译效率。

发明内容

本发明的目的在于解决现有技术中存在的上述问题，提供一种文档文字的处理方法，本发明能够处理文档前预先去除文档中重复的单词、词组或单句，同时参考匹配的专有术语词汇，从而达到简化译员翻译量、提高翻译效率和提高翻译前后准确率的目的。

为实现上述目的，本发明采用的技术方案如下：

一种文档文字的处理方法，其特征在于包括以下步骤：

（1）、提取待翻译文档中的文字信息，并统一文字信息的格式，得到格式统一的文档；

（2）、对格式统一的文档进行拆分，将其拆分成以单词、词组、单句中的任意一种或几种为最小单位的待译文字数据集合，去掉非译文字后再去掉待译文字数据集合中重复的待译文字数据，然后将剩下的每一个待译文字数据依次与笔译记忆库中的内容进行比对，而后删除待译文字数据集合中与笔译记忆库中相重复的内容；其中，所述的笔译记忆库中设置有原文列一和译文列一，原文列一中存储有已译文档的原文，译文列一中对应存储有已译文档的译文；

（3）、建立一个译前处理文档，并在该译前处理文档中设置原文列、译文列和专有术语列，先将经步骤（2）处理后的待译文字数据集合中的每一个待译文字数据按顺序复制到原文列中，再根据预先制作的专有术语表，将每一个待译文字数据中涉及到的专有术语的原文和译文写入对应的专有术语列，最后得到匹配有专有术语的译前处理文档；

（4）、由译员对译前处理文档中原文列对应的所有待译文字数据进行翻译，并将译文填写至对应的译文列，得到译后处理文档；

（5）、先将待翻译文档中与译后处理文档中的原文列相同的待译文字数据替换成译文，再使用原文列一中原文所对应的译文列一中的译文替换待翻译文档中出现在原文列一中的原文，最后得到与待翻译文档相同格式的译文。

所述的处理方法中涉及到的文档均为Office文档。

所述步骤（2）中采用换行符、标点符号、空格中的一种或几种的组合对文档自动进行拆分。

所述步骤（2）中的非译文字包括标点符号、数字、单个字母、非原文文字的文字中的一种或几种的组合。

所述步骤（4）中的译后处理文档中的原文列和译文列以一一对应的方式存储在笔译记忆库中，存储后的已译文档可导出。

采用本发明的优点在于：

一、本发明的重点改进之处在于直接去掉“不完全重复”中因非译文字不同而不同的原文文字，增加了去重文字的比例，较同类翻译工具更为彻底、更为精准。译员在笔译过程中，只需笔译未重复的待译文字数据即可完成整篇文档的处理，大幅减少了笔译工作量，缩短了笔译工作时间，大大提高了笔译工作效率。

二、本发明在译前和译后的格式统一，排版难度低，可批量化处理，处理量达到24小时三千万字，并且兼容六十多种语言。

三、本发明适用Office系列格式文档，门槛低，无需其他CAT（翻译辅助）工具。

四、本发明在处理过程中锁定常见翻译文字，能够实现模板化生产，减少待翻译文字的灵活性，增强机器智能翻译的可能性。

附图说明

图1为本发明的流程图；

图2为本发明步骤（1）的流程图；

图3为本发明步骤（2）中拆分文档的流程图；

图4为本发明步骤（2）中去掉非译文字的流程图；

图5为本发明步骤（2）中去掉重复待译文字数据的流程图；

图6为本发明步骤（2）中去掉与笔译记忆库中重复待译文字数据的流程图；

图7为本发明步骤（3）中匹配专有术语的流程图；

图8为本发明步骤（3）中匹配有专有术语后的译前处理文档；

图9为本发明步骤（4）中匹配有专有术语后的译后处理文档；

图10为本发明步骤（5）中使用译后处理文档中的译文替换原文的流程图；

图11为本发明步骤（5）中使笔译记忆库中的译文替换原文的流程图；

具体实施方式

一种文档文字的处理方法，包括以下步骤：

（1）、提取待翻译文档中的文字信息，待翻译文档为Word文档或Excel文档等，然后通过清除格式功能或复制替换功能等对提取到的文字信息进行处理，统一文字信息的格式，从而得到格式统一的文档，如附图2所示。

（2）、采用换行符、标点符号、空格中的一种或几种的组合等方式对格式统一后的文档自动进行拆分，将其拆分成以单词、词组、单句中的任意一种或几种为最小单位的待译文字数据集合，如附图3所示。拆分后，先通过文字、标点符号、数字、字母等进行类型分类，去掉文档中的非译文字，如附图4所示，所述的非译文字包括标点符号、数字、单个字母、非原文文字的文字中的一种或几种的组合。去掉非译文字后，再通过排序比对去掉待译文字数据集合中重复的待译文字数据，如附图5所示。然后将剩下的每一个待译文字数据依次与笔译记忆库中的内容进行比对，而后删除待译文字数据集合中与笔译记忆库中相重复的内容，如附图6所示。其中，所述的笔译记忆库中设置有原文列一和译文列一，原文列一中存储有已译文档的原文，译文列一中对应存储有已译文档的译文，比对时主要是将待译文字数据中的内容与笔译记忆库中原文列一对应的原文进行比对。

本步骤中，所述的非译文字是指与待翻译文档中的文字信息不属于同一种类的文字及其它符号等，例如，待翻译文档为中文，那么非译文字为除中文文字之外的文字及符号等。

其中，本步骤中所述的将文档拆分成以单词、词组、单句中的任意一种或几种为最小单位的待译文字数据集合，拆分方式主要是根据待翻译文档类型所决定的，具体包括以下几种拆分方式：

a、将文档拆分成以单词为最小单位的待译文字数据集合，这种方式主要用于财务报表、词典和产品清单等文档的处理，即待译文字数据集合由单词组成，待译文字数据集合中的每一个待译文字数据对应一个单词。

b、将文档拆分成以词组为最小单位的待译文字数据集合，这种方式主要用于财务报表、词典和产品清单等文档的处理，即待译文字数据集合由词组组成，待译文字数据集合中的每一个待译文字数据对应一个词组。

c、将文档拆分成以单句为最小单位的待译文字数据集合，这种方式主要用于文稿类等文档的处理，即待译文字数据集合由单句组成，待译文字数据集合中的每一个待译文字数据对应一个单句。

d、将文档拆分成以单词为最小单位和词组为最小单位的待译文字数据集合，这种方式主要用于文稿类等文档的处理，即待译文字数据集合由单词和词组组成，待译文字数据集合中的每一个待译文字数据对应一个单词或词组。

e、将文档拆分成以单词为最小单位和单句为最小单位的待译文字数据集合，这种方式主要用于文稿类等文档的处理，即待译文字数据集合由单词和单句组成，待译文字数据集合中的每一个待译文字数据对应一个单词或单句。

f、将文档拆分成以词组为最小单位和单句为最小单位的待译文字数据集合，这种方式主要用于文稿类等文档的处理，即待译文字数据集合由词组和单句组成，待译文字数据集合中的每一个待译文字数据对应一个词组或单句。

g、将文档拆分成以单词为最小单位、词组为最小单位和单句为最小单位的待译文字数据集合，这种方式主要用于文稿类等文档的处理，即待译文字数据集合由单词、词组和单句组成，待译文字数据集合中的每一个待译文字数据对应一个单词、词组或单句。

（3）、建立一个Word或Excel格式的译前处理文档，并在该译前处理文档中设置原文列、译文列和专有术语列，先将经步骤（2）处理后的待译文字数据集合中的每一个待译文字数据按顺序复制到原文列中，再根据预先制作的专有术语表，将每一个待译文字数据中涉及到的专有术语的原文和译文写入对应的专有术语列，如附图7所示，最后得到匹配有专有术语的译前处理文档，如附图8所示。其中，专有术语表由译员根据待翻译文档所属的领域或行业自行制作。

（4）、将匹配有专有术语的译前处理文档下发给译员，由译员对译前处理文档中原文列对应的所有待译文字数据进行翻译，并将翻译后的译文填写至对应的译文列，得到译后处理文档，如附图9所示；

其中，译后处理文档中的原文列和译文列以一一对应的方式存储在笔译记忆库中，供下次处理文档前在步骤（2）进行比对使用，且存储后的已译文档可导出成其它多种格式，如PDF格式等。

（5）、先将待翻译文档中与译后处理文档中的原文列相同的待译文字数据替换成译文，如附图10所示，再使用原文列一中原文所对应的译文列一中的译文替换待翻译文档中出现在原文列一中的原文，最后得到与待翻译文档相同格式的译文，如附图11所示。

本发明在处理过程中涉及到的文档均为Office文档，所有其它相同格式的文档均可处理，只要满足计算机一级资质的人员均可以使用本方法。

本发明在处理过程中，得到的译前处理文档采用USB或网络转发的方式发送给译员处理，译员处理后的同样以USB或网络转发的方式发送给文档分配主管，处理过程简单方便。

Claims

1.一种文档文字的处理方法，其特征在于包括以下步骤：

（4）、由译员对经步骤（3）得到的匹配有专有术语的译前处理文档中原文列对应的所有待译文字数据进行翻译，并将译文填写至对应的译文列，得到译后处理文档；

2.如权利要求1所述的一种文档文字的处理方法，其特征在于：所述的处理方法中涉及到的文档均为Office文档。

3.如权利要求1所述的一种文档文字的处理方法，其特征在于：所述步骤（2）中采用换行符、标点符号、空格中的一种或几种的组合对文档自动进行拆分。

4.如权利要求1所述的一种文档文字的处理方法，其特征在于：所述步骤（2）中的非译文字包括标点符号、数字、单个字母、非原文文字的文字中的一种或几种的组合。

5.如权利要求1所述的一种文档文字的处理方法，其特征在于：所述步骤（4）中的译后处理文档中的原文列和译文列以一一对应的方式存储在笔译记忆库中，存储后的已译文档可导出。