CN104331399A

CN104331399A - 字典树翻译方法

Info

Publication number: CN104331399A
Application number: CN201410611501.3A
Authority: CN
Inventors: 刘禹; 李欣
Original assignee: One Cloud (beijing) Technology Co Ltd
Current assignee: One Cloud (beijing) Technology Co Ltd
Priority date: 2014-07-25
Filing date: 2014-11-04
Publication date: 2015-02-04

Abstract

本发明提供了对翻译文件重复内容的更细致更彻底的处理方法。该方法通过处理项目内容，记录项目总字数和重复内容的字数，当重复的字数占比例大于设定的阀值时，则判断为字典树模式。此时对重复内容进行标记，只要提供重复内容中的其中一部分给译员翻译，翻译完成后按照标记的规则将重复内容替换，即可形成一篇完整的译文。

Description

字典树翻译方法

技术领域

本发明涉及计算机软件的技术领域，具体涉及文档转换技术领域，文本内容处理技术领域以及字符编码在各种语言中的应用。

背景技术

现有技术中重复单元的替换基于整句。而对于多语言混合的内容，一句话中对于部分不需要翻译的内容就无法做更细致的处理了。无法有效提高翻译的效率。

发明内容

为了解决上述问题，本申请提供了一种文本重复句子的判断方法，以使得翻译成本降低和提高句子的统一的字典树翻译方法。

本发明是一种字典树翻译方法，包括以下步骤：

步骤1：将稿件进行处理，转换成标准的文本文件，以utf-8进行编码，记录为原文内容；

步骤2：对文本文件进行处理，按照每个换行符是一段的格式进行存储；

步骤3：确定原文内容中的翻译内容，去除每一行中的符号、数字，并根据Unicode编码表，去除每一行中不需要翻译的部分，剩下部分记录为翻译内容；

步骤4：确定翻译内容中的重复内容，当行中翻译内容相同时，则把他们记录为重复内容；

步骤5：计算翻译内容和重复内容的总长度；

步骤6：将重复内容的总长度与翻译内容的总长度进行比较，当重复内容的总长度占翻译内容的总长度的比值大于预先设定的阀值时，则记录稿件为字典树模式；当小于预先设定的阀值则不对稿件进行任何处理，返回原文内容；

步骤7：稿件被记录为字典树模式后，将符号、数字以及不需要翻译的内容进行标记；

步骤8：将重复内容的第一个单元标记为需要翻译，其他单元标记为已经完成并将这些信息存储到数据库中；

步骤9：对标记为需要翻译的内容进行翻译，翻译完成后，将所有标记内容替换到原文位置，完成翻译。

在计算翻译内容和重复内容的总长度时，根据unicode编码表，确定各语言的编码范围，拼音文字按照空白符切分统计字数，每个单词计数为1，方块字按照字符统计字数，每个字符计数为1。

遍历原文内容数组，以翻译内容做为PHP关联数组的键值，按翻译内容对原文进行分组，任何分组的组成员数大于等于2时，即标记为含重复内容分组。

通过window service的office组件把doc、docx、ppt、pptx稿件转换成标准的xml结构。

采用第三方类库PHPExcel，来处理xlsx和xls稿件。

稿件被记录为字典树模式后，将符号、数字以及不需要翻译的内容用[[]]符号进行标记。

本发明的有益技术效果在于：本发明提供了对翻译文件重复内容的细致、彻底的处理方法。该方法通过处理项目内容，记录项目总字数和重复内容的字数，当重复的字数占比例大于设定的阀值时，则判断为字典树模式。此时对重复内容进行标记，只要提供重复内容中的其中一部分给译员翻译，翻译完成后按照标记的规则将重复内容替换，即可形成一篇完整的译文，降低翻译成本和提高句子翻译的准确性。

附图说明

图1为本发明的字典树模式判断方法的流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本发明是一种字典树翻译方法，选择的开发语言为PHP，包括以下步骤：

步骤1：将稿件进行特殊化处理，转换成标准的文本文件，以utf-8进行编码，记录为原文内容；通过window service的office组件把doc、docx、ppt、pptx稿件转换成标准的xml结构。使用PHP的 SimpleXMLElement 类，设置xpath的表达式 //w:p, 得到一个包涵所有段落的关联数组。通过 PHP函数 foreach 来遍历，即可以得到这个标准的XML文件的内容。

采用第三方类库PHPExcel，来处理xlsx和xls稿件。此类稿件内容都放在单元格中。基于左上角和sheet，就可以对单元格进行编号，并且这些编号是唯一的。在遍历每一个单元格时，即可以得到单元格内容又可以得到每个单元格的position。提取单元格内容时，通过判断单元格类型，仅仅处理内容类型为字符串和数字的单元格。

步骤2：对文本文件进行处理，按照每个换行符是一段的格式进行存储。通过PHP函数 file_put_contents 将提取的内容存储的到文本文件中以便和后面程序通信。通过PHP函数 file_get_contents 获取文本内容，并使用 PHP implode函数将内容格式化成标准的PHP数组。

步骤3：确定原文内容中的翻译内容，去除每一行中的符号、数字，并根据Unicode编码表，去除每一行中不需要翻译的部分，剩下部分记录为翻译内容；根据Unicode编码表，确定出基本的标点区间0021-0040、007B-00BF、FF01-FF20、FF5B-FF65；对于中文稿件需要过滤原文中的英文其编码区间为0041-007A，FF21-FF5A；对于英文稿件需要过滤原文中的中文其编码范围为4e00-9fff；然后通过PHP函数preg_replece和上一步的编码范围即可以得到需要翻译的内容，同时我们也可以对不需要翻译的内容进行标记处理。

步骤4：确定翻译内容中的重复内容，当行中翻译内容相同时，则把他们记录为重复内容；遍历原文内容数组，以翻译内容做为PHP关联数组的键值，按翻译内容对原文进行分组，任何分组的组成员数大于等于2时，即标记为含重复内容分组。

步骤5：计算翻译内容和重复内容的总长度；在计算翻译内容和重复内容的总长度时，根据unicode编码表，确定各语言的编码范围，拼音文字按照空白符切分统计字数，每个单词计数为1，例如英文、法文、俄文按照空白符切分统计字数，每个单词计数为1。方块字按照字符统计字数，每个字符计数为1。例如中文、日文、韩文、朝鲜语按照字符统计字数中每个字符计数为1。

步骤6：将重复内容的总长度与翻译内容的总长度进行比较，当重复内容的总长度占翻译内容的总长度的比值大于预先设定的阀值时，则记录稿件为字典树模式；当小于预先设定的阀值则不对稿件进行任何处理，返回原文内容。

步骤7：稿件被记录为字典树模式后，对每个重复内容分组的成员处理，将符号、数字以及不需要翻译的内容用[[]]符号进行标记。

步骤8：将重复内容的第一个单元标记为需要翻译，其他单元标记为已经完成并将这些信息存储到数据库中。

步骤9：对标记为需要翻译的内容进行翻译，当得到译文内容时，遍历重复内容分组，提取原文中[[]]的内容，并把译文中对应位置的内容进行替换,完成翻译。

Claims

1. 一种字典树翻译方法，其特征在于，包括以下步骤：

步骤5：计算翻译内容和重复内容的总长度；

2.根据权利要求1所述的字典树翻译方法，其特征在于，在计算翻译内容和重复内容的总长度时，根据unicode编码表，确定各语言的编码范围，拼音文字按照空白符切分统计字数，每个单词计数为1，方块字按照字符统计字数，每个字符计数为1。

3.根据权利要求1所述的字典树翻译方法，其特征在于，遍历原文内容数组，以翻译内容做为PHP关联数组的键值，按翻译内容对原文进行分组，任何分组的组成员数大于等于2时，即标记为含重复内容分组。

4.根据权利要求1所述的字典树翻译方法，其特征在于，通过window service的office组件把doc、docx、ppt、pptx稿件转换成标准的xml结构。

5.根据权利要求1所述的字典树翻译方法，其特征在于，采用第三方类库PHPExcel，来处理xlsx和xls稿件。

6.根据权利要求1所述的字典树翻译方法，其特征在于，稿件被记录为字典树模式后，将符号、数字以及不需要翻译的内容用[[]]符号进行标记。