CN101034395A

CN101034395A - 一种待译文件处理系统及使用这种系统的文件处理方法

Info

Publication number: CN101034395A
Application number: CN 200710086685
Authority: CN
Inventors: 何战涛
Original assignee: TRANSN (BEIJING) INFORMATION TECHNOLOGY Co Ltd
Current assignee: TRANSN (BEIJING) INFORMATION TECHNOLOGY Co Ltd
Priority date: 2007-03-30
Filing date: 2007-03-30
Publication date: 2007-09-12

Abstract

本发明涉及一种待译文件处理系统及使用这种系统的文件处理方法。本发明提供一种待译文件处理系统，包括信息接收模块、分析转换模块、文档分节模块、短句/术语重复状况统计模块、翻译模块、双语对照语料数据库和结果输出模块。本发明还提供一种使用上述待译文件处理系统进行文件处理的方法。本发明提供的文件处理系统可用于待译文件的预处理，尤其适用于批量待译文件的预处理。

Description

一种待译文件处理系统及使用这种系统的文件处理方法

技术领域

本发明涉及一种待译文件处理系统及使用这种系统的文件处理方法。

背景技术

随着国际化程度的不断深入，国际间交流越来越频繁。其中大量的不同语种的文件需要翻译。但是现有的翻译公司普遍存在大量重复性劳动，每个翻译员都是单独作业，翻译经验需要在长期的实践工作中个人积累，历史语料不能得到最大程度的利用，浪费了公司大量的人力成本，极大的浪费了人力资源和社会资源。尤其是在同时存在大量文件需要翻译的时候，如果分别发送给不同的译员进行翻译，则很容易出现对同样的内容和术语的重复查询和翻译，造成了重复性劳动，并且也存在数据的重复传输，大大浪费了人力资源和社会资源。同时，由于不同的译员之间认识的差别，常常出现对同一个句子或术语的不同的翻译结果，容易造成误解。

发明内容

为了有效解决现在的翻译公司存在的上述问题，为翻译公司节省成本，本发明提供一种待译文件处理系统。

本发明的技术方案如下：

本发明提供一种待译文件处理系统，由信息接收模块、分析转换模块、文档分节模块、短句/术语重复状况统计模块、翻译模块、双语对照语料数据库和结果输出模块组成。

信息接收模块可接收外部传输来的待译文档和承译人员ID；分析转换模块将信息接收模块接收到的外部传输来的待译文档转换为纯文本文档；文档分节模块将分析转换模块转换的纯文本文档中记载的原文文字进行分节成短句；短句/术语重复状况统计模块对纯文本文档中的短句在文档内和文档间的重复出现率进行统计；双语对照语料数据库中收录有双语对照语料；翻译模块将所述纯文本文档原文文字中的短句在双语对照语料数据库中进行比对，筛选匹配的译文；结果输出模块将翻译模块筛选到的每个译文与对应的原文组成双语关联文档，并将其另外合并成完整的原文译文双语关联文档后，分别输出分节的双语关联列表和完整的原文译文双语关联文档以及承译人员ID。

所述的信息接收模块接收的外部传输来的待译文档可以是通过网络传输来的word文档、RTF文档，pdf文档、Excel文档或ppt文档。

所述的文档分节模块将分析转换模块转换的纯文本文档中记载的原文文字进行分节成短句，具体是指文档分节模块对分析转换模块转换的纯文本文档中记载的原文文字按既定的断句规则进行分节，例如，既定的断句规则可选为以句号或硬回车为分界点进行分节。

双语对照语料数据库中收录有大量双语对照语料具体是指，在双语对照语料数据库中收录有大量原文与译文双语对应的短句及术语，其中的原文与译文双语对应的短句及术语带有最后一次使用时间、是否校正过、短句/术语、行业和专业领域的标记。

翻译模块将所述纯文本文档原文文字中的每个分节短句在双语对照语料数据库中进行比对，筛选匹配的译文是指，翻译模块事先设定一个原文与译文匹配的阈值，将所述纯文本文档原文文字中的每个分节短句在双语对照语料数据库中进行比对时，如果原文与译文匹配率高于这个阈值的译文只有一个，则选择这个译文，如果原文与译文匹配率高于这个阈值的译文有多个，根据所带的最后一次使用时间、是否校正过、短句/术语、行业和专业领域标记，按既定的规则排序，如果原文与译文匹配率高于这个阈值的译文不存在，则不选择。

作为优化，所述待译文件处理系统还包括一个存储结果输出模块输出的，经过人工校正确认的分节的双语关联列表和与承译人员ID的原文译文对照语料数据库。

本发明还提供一种使用上述待译文件处理系统进行处理的方法，步骤如下：

(1)信息接收模块接收外部传输来的待译文档与承译人员ID；

(2)分析转换模块对信息接收模块接收到的外部传输来的待译文档转换为纯文本文档；

(3)文档分节模块将分析转换模块转换的纯文本文档中记载的原文文字进行分节成短句；

(4)短句/术语重复状况统计模块对纯文本文档中的短句在文档内和文档间的重复出现率进行统计，输出不同相似值的短句/术语在文档中的条数重复比重、字数重复比重和文档间重复比重；

(5)翻译模块将所述纯文本文档原文文字中的每个分节短句在双语对照语料数据库中进行比对，筛选匹配的译文；

(6)结果输出模块将翻译模块筛选到的译文与对应的原文组成双语关联文档，并将其另外合并成完整的原文译文双语关联文档后，分别输出分节的双语关联列表、完整的原文译文双语关联文档和承译人员ID。

作为优化，结果输出模块输出的分节的双语关联列表经过人工校正确认后，还可以与承译人员ID一起储存到原文译文对照语料数据库。

本发明所实现的技术效果如下：

本发明提供的文件处理系统可用于待译文件的预处理，尤其适用于批量待译文件的预处理。

分析转换模块对信息接收模块接收到的外部传输来的待译文档的格式进行分析，并将其转换为纯文本文档。文档的格式统一，有利于对不同格式的文件中的待译信息进行统计分析。

文档分节模块将分析转换模块转换的纯文本文档中记载的原文文字进行分节成短句，有利于筛选重复短句。

短句/术语重复状况统计模块对纯文本文档中的短句在文档内和文档间的重复出现率进行统计，一个短句在双语对照语料数据库中只比对一次，可以避免重复出现的短句的重复传输和比对，而且有助于对译员的工作量进行系统的估量。

双语对照语料数据库中收录大量的历史双语对照语料，大大提高了翻译效率，降低了翻译成本，并避免了不同译员对同一短句和术语翻译出不同译文现象的出现，以避免误解的发生。

翻译模块将所述纯文本文档原文文字中的短句在双语对照语料数据库中进行比对，筛选匹配的译文。这个步骤实现的部分自动翻译，降低了译员的工作量，降低了翻译成本。

结果输出模块输出的分节的双语关联列表，可用于译员间的双语语料共享，避免了重复翻译，提高了翻译效率。

附图说明

附图1：自动翻译系统结构示意图；

附图2：自动翻译系统工作流程图；

附图3：信息接收模块接收外部传输来的待译文档；

附图4：信息接收模块接收到的外部传输来的待译文档被分析转换模块转换后的纯文本文档；

附图5：文档分节模块将分析转换模块转换的纯文本文档中记载的原文文字进行分节成短句；

附图6：短句/术语重复状况统计模块对纯文本文档中的短句在文档内和文档间的重复出现率进行统计结果。

具体实施方式

本实施例提供一种待译文件处理系统，如图1所示，由信息接收模块、分析转换模块、文档分节模块、短句/术语重复状况统计模块、翻译模块、双语对照语料数据库和结果输出模块组成。

信息接收模块可接收外部传输来的待译文档和承译人员ID；分析转换模块对信息接收模块接收到的外部传输来的待译文档的格式进行分析，并将其转换为纯文本文档；文档分节模块将分析转换模块转换的纯文本文档中记载的原文文字进行分节成短句；短句/术语重复状况统计模块对纯文本文档中的短句在文档内和文档间的重复出现率进行统计；双语对照语料数据库中收录有双语对照语料；翻译模块将所述纯文本文档原文文字中的短句在双语对照语料数据库中进行比对，筛选匹配的译文；结果输出模块将翻译模块筛选到的每个译文与对应的原文组成双语关联文档，并将其另外合并成完整的原文译文双语关联文档后，分别输出分节的双语关联列表和完整的原文译文双语关联文档以及承译人员ID。

所述的信息接收模块接收的外部传输来的原文文档可以是通过网络传输来的word文档、RTF文档，pdf文档或Excel、ppt文档。

所述的文档分节模块将分析转换模块转换的纯文本文档中记载的原文文字进行分节成短句，具体是指文档分节模块对分析转换模块转换的纯文本文档中记载的原文文字按既定的短句规则进行分节，例如，既定的规则可选为以句号或硬回车为分界点进行分节。

双语对照语料数据库中收录有大量双语对照语料具体是指，在双语对照语料数据库中收录有大量原文与译文双语对应的短句及术语，其中的原文与译文双语对应的短句及术语带有最后一次使用时间、是否校正过、短句/术语、行业和专业领域标记。

翻译模块将所述纯文本文档原文文字中的每个分节短句在双语对照语料数据库中进行比对，筛选匹配的译文是指，翻译模块事先设定一个原文与译文匹配的阈值，将所述纯文本文档原文文字中的每个分节短句在双语对照语料数据库中进行比对时，如果原文与译文匹配率高于这个阈值的译文只有一个，则选择这个译文，如果原文与译文匹配率高于这个阈值的译文有多个，按所带的最后一次使用时间、是否校正过、短句/术语、行业和专业领域标记按既定的规则排序，如果原文与译文匹配率高于这个阈值的译文不存在，则不选择。

本发明提供的上述待译文件处理系统还可以包括一个原文译文对照语料数据库。结果输出模块输出的分节的双语关联列表经过人工校正确认后，与承译人员ID一起储存到原文译文对照语料数据库。

本发明还提供一种使用上述待译文件处理系统进行处理的方法，如图2所示，步骤如下：

(1)信息接收模块接收外部传输来的待译文档，如图3所示；

(2)分析转换模块对信息接收模块接收到的外部传输来的待译文档转换为纯文本文档，如图4所示；

(3)文档分节模块将分析转换模块转换的纯文本文档中记载的原文文字进行分节成短句，如图5所示；

(4)短句/术语重复状况统计模块对纯文本文档中的短句在文档内和文档间的重复出现率进行统计，输出不同相似值的短句/术语在文档中的条数重复比重、字数重复比重和文档间重复比重，如图6所示；

使用上述待译文件处理系统进行处理的方法更进一步描述如下：

(1)信息接收模块接收外部传输来的待译文档与承译人员ID。

(2)分析转换模块对信息接收模块接收到的外部传输来的待译文档转换为纯文本文档。

(3)文档分节模块将分析转换模块转换的纯文本文档中记载的原文文字进行分节成短句。分节策略可配置，一般策略是以硬回车和句号为分节符号；还可根据语法规则，设置遇到一些特殊标记时不分节，比如在句子中遇到“etc.”时不进行分节。

(4)短句/术语重复状况统计模块对纯文本文档中的短句在文档内和文档间的重复出现率分别进行统计，输出不同相似值的短句/术语在文档中的条数重复比重、字数重复比重和文档间重复比重。

相似值是指文档内短句/术语间的相似值和文档间短句/术语间的相似值，为短句/术语中重复字数占短句/术语总字数的比重。

条数重复比重是指文档内短句/术语间的句数重复比重和文档间短句/术语间的句数重复比重，为一定相似值或相似值范围的短句/术语在文档内或文档间短句/术语总条数的比重。

字数重复比重是指一定相似值或相似值范围的短句/术语所包含的重复字在文档内总字数或文档间总字数的比重。

文档间重复比重是指出现一定相似值或相似值范围的短句/术语的文档占总文档数的比重。

上述所有比重的计算可采用现有技术通用的最大分词算法。

(5)翻译模块将所述纯文本文档原文文字中的每个分节短句在双语对照语料数据库中进行比对，筛选匹配的译文。(此处应注意，所列内容均为具体的处理规则，虽然能产生具体的效果，但因为属于法二十五条的智力活动的规则与方法，不能获得专利保护*在最后文本中删除*)

1.匹配方法按照匹配率、时间倒序、审核标记排序；

2.匹配句的查询方法：

a)原句与数据库中的句子比较，一样，则匹配率为100％；

b)如果句子不一样，只是部分不一样，而这部分是URL、Email地址、数字、人名、地名、可以识别的专有名词，则视其匹配率为100％；

c)在上述均没有匹配到的情况下，根据不同的词所占的比例计算匹配率；

3.术语查询支持时态，比如：“book”对应术语为“书”，“books”除非有匹配，否则对应的术语也为“书”；同时支持特殊变化和不规则变化；比如，tooth与teeth。

4.时态的支持实现方法：

a)分析词的时态；

b)如果该词是原型，则包含列举出其变形词，如果是变形词，则列举出原型词；

c)检索原词，如果有结果则不再检索其变形词或原型词；否则使用原型词或变形词检索；

(7)结果输出模块输出的分节的双语关联列表经过人工校正确认后，还可以与承译人员ID一起储存到原文译文对照语料数据库，按译员ID分类储存双语语料。

本实施例实现了如下效果：

应当指出，以上所述具体实施方式可以使本领域的技术人员更全面地理解本发明，但不以任何方式限制本发明。因此，尽管本说明书参照附图和实施例对本发明已进行了详细的说明，但是，本领域技术人员应当理解，仍然可以对本发明进行修改或者等同替换；而一切不脱离本发明的精神和范围的技术方案及其改进，其均应涵盖在本发明专利的保护范围当中。

Claims

1.一种待译文件处理系统，包括信息接收模块、分析转换模块、文档分节模块、短句/术语重复状况统计模块、翻译模块、双语对照语料数据库和结果输出模块，

所述信息接收模块接收外部传输来的待译文档；

所述分析转换模块将信息接收模块接收到的外部传输来的待译文档转换为纯文本文档；

所述文档分节模块将分析转换模块转换的纯文本文档中记载的原文文字分节成短句；

所述短句/术语重复状况统计模块对纯文本文档中的短句在文档内和文档间的重复出现率进行统计；

所述双语对照语料数据库中收录有双语对照语料；

所述翻译模块将所述纯文本文档原文文字中的短句在双语对照语料数据库中进行比对，筛选匹配的译文；

所述结果输出模块将翻译模块筛选到的每个译文与对应的原文组成双语关联文档，并将其另外合并成完整的原文译文双语关联文档后，分别输出分节的双语关联列表和完整的原文译文双语关联文档。

2.根据权利要求1所述的待译文件处理系统，其特征在于，所述的信息接收模块接收的外部传输来的待译文档是通过网络传输来的word文档、RTF文档，pdf文档、Excel文档或ppt文档。

3.根据权利要求2所述的待译文件处理系统，其特征在于，所述的文档分节模块将分析转换模块转换的纯文本文档中记载的原文文字进行分节成短句，具体是指文档分节模块对分析转换模块转换的纯文本文档中记载的原文文字按既定的断句规则进行分节。

4.根据权利要求3所述的待译文件处理系统，其特征在于，所述既定的断句规则是以句号或硬回车为分界点进行分节。

5.根据权利要求2所述的待译文件处理系统，其特征在于，所述双语对照语料数据库中收录的双语对照语料带有最后一次使用时间、是否校正过、短句/术语、行业和专业领域的标记。

6.根据权利要求2所述的待译文件处理系统，其特征在于，翻译模块事先设定一个原文与译文匹配的阈值，将所述纯文本文档原文文字中的每个分节短句在双语对照语料数据库中进行比对时，如果原文与译文匹配率高于这个阈值的译文只有一个，则选择这个译文，如果原文与译文匹配率高于这个阈值的译文有多个，根据所带的最后一次使用时间、是否校正过、短句/术语、行业和专业领域标记，按既定的规则排序，如果原文与译文匹配率高于这个阈值的译文不存在，则不选择。

7.根据权利要求2所述的待译文件处理系统，其特征在于，所述待译文件处理系统还包括一个存储结果输出模块输出的，经过人工校正确认的分节的双语关联列表和与承译人员ID的原文译文对照语料数据库。

8.一种使用上述待译文件处理系统进行文件处理的方法，步骤如下：

(1)信息接收模块接收外部传输来的待译文档；

(2)分析转换模块将信息接收模块接收到的待译文档转换为纯文本文档；

(3)文档分节模块将分析转换模块转换的纯文本文档中记载的原文文字分节成短句；

(6)结果输出模块将翻译模块筛选到的译文与对应的原文组成双语关联文档，并将其另外合并成完整的原文译文双语关联文档后，分别输出分节的双语关联列表、完整的原文译文双语关联文档。

9.根据权利要求8所述的文件处理方法，其特征在于，所述结果输出模块输出的分节的双语关联列表被储存到原文译文对照语料数据库。