CN105183723A

CN105183723A - 一种翻译软件与语料搜索的关联方法

Info

Publication number: CN105183723A
Application number: CN201510598482.XA
Authority: CN
Inventors: 李长洪; 张马成; 王兴强
Original assignee: CHENGDU URELITE INFORMATION TECHNOLOGY Co Ltd
Current assignee: CHENGDU URELITE INFORMATION TECHNOLOGY Co Ltd
Priority date: 2015-09-17
Filing date: 2015-09-17
Publication date: 2015-12-23

Abstract

本发明公开了一种翻译软件与语料搜索的关联方法，步骤1，获取对齐语料库；步骤2，获取待译文件；步骤3，拆分待译文件；步骤4，遍历对齐语料库，并计算各个待译语句与各个语料之间的匹配率，若遍历过程中，查找到与待译语句相同的语料，则停止遍历，并显示该语料的对齐语料，进入步骤5；若遍历完整个对齐语料库也没有查找到与待译语句相同的语料，则显示匹配率在前几的对齐语料，进入步骤6；步骤5，选择匹配率相同的语料，将其对齐语料直接作为待译语句的翻译语句；步骤6，根据匹配关系标记待译语句与语料、对齐语料之间的不同之处，选择匹配率高的语料，将其对齐语料作为待译语句的待完成翻译语句，根据标记对待完成翻译语句进行修改。

Description

一种翻译软件与语料搜索的关联方法

技术领域

本发明涉及翻译技术领域，具体地，涉及一种翻译软件与语料搜索的关联方法。

背景技术

随着科技技术的不断进步，国际交流越来越频繁，世界经济的越来越开放，全球化越来越深入，各种语言文件材料之间的翻译也越来越多，尤其是英、汉之间。翻译文件涉及到生活的方方面面：贸易、法律、电子、通讯、计算机、机械、化工、石油、医药、食品等各个领域。

翻译属于服务业，服务业要始终以客户为导向。在翻译量越来越大、文件字数越来越多的今天，怎样提高翻译速度，满足客户的需求十分重要。CAT技术的流行使得翻译速度大大提高。现有的翻译的文件的拆分和分配方法在一定程度上可避免对相同的段落进行多次翻译，以提高翻译效率。但是，其仅仅对同一篇文件中的重复段落进行剔除，毕竟在一篇文件中重复的段落不多，不能真正的有效的提高翻译效率。

发明内容

本发明为了解决上述技术问题提供一种翻译软件与语料搜索的关联方法，其能有效的提高翻译速度。

本发明解决上述问题所采用的技术方案是：

一种翻译软件与语料搜索的关联方法，包括如下步骤：

步骤1，获取对齐语料库；

步骤2，获取待译文件；

步骤3，将待译文件拆分为多个待译语句；

步骤4，遍历对齐语料库，并计算各个待译语句与各个语料之间的匹配率，若遍历过程中，查找到与待译语句相同的语料，则停止遍历，并显示该语料的对齐语料，进入步骤5；若遍历完整个对齐语料库也没有查找到与待译语句相同的语料，则显示匹配率在前几的对齐语料，进入步骤6；

步骤5，选择匹配率相同的语料，将其对齐语料直接作为待译语句的翻译语句；

步骤6，根据匹配关系标记待译语句与语料、对齐语料之间的不同之处，选择匹配率高的语料，将其对齐语料作为待译语句的待完成翻译语句，根据标记对待完成翻译语句进行修改；

步骤7，导出翻译文件。

本发明的方法将文件拆分为多个待译语句，寻找对齐语料库中的相同语句或匹配率高的语句，翻译过程中可直接采用对齐语料库中的对齐语料或修改对齐语料中的局部即可完成翻译，其效率高。在现有技术的基础上，采用该方法既可避免重复翻译相同段落，也可避免重复翻译相同语句，毕竟在整个文件中，相同段落的概率较低，相同语句的概率极高，或者具有相同句式的概率极高。采用此方法，在翻译文件越来越多，对齐语料库中的语料越来越多时，翻译效率提高的越明显。

为了进一步的提高翻译效率，在步骤3中，根据文件的句数将文件拆分为相应份数。将文件按句数进行拆分，即将文件拆分为短小的语句。句子越短，在对齐语料库中找到相同的语句的效率就越高，但是，句子也不是越短越好，长度短于句子的长度，不能很好的表达整个句子的含义、意境，将待译语句以句为单位，既可有效的避免其长度过长，提高查找效率，也能有效的提高待译语句的翻译质量。

作为优选，在步骤4中，匹配率的计算方法具体为：若待译语句为中文，则以字符为单位，匹配率为待译语句与语料的相同字符数除以待译语句的字符数；若待译语句为英文，则以单词为单位，匹配率为待译语句与语料的相同单词数除以待译语句的字节数。采用此方法对匹配率进行计算，其方法简单明了，易理解，系统运算快，对用户来说，也接受此类方法。

进一步的，所述的字符数包括标点。

进一步的，所述的字节数包括标点。

综上，本发明的有益效果是：

本发明的方法将文件拆分为多个待译语句，寻找对齐语料库中的相同语句或匹配率高的语句，翻译过程中可直接采用对齐语料库中的对齐语料或修改对齐语料中的局部即可完成翻译，其效率高，既可避免重复翻译相同段落，也可避免重复翻译相同语句。

具体实施方式

下面结合实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种翻译软件与语料搜索的关联方法，包括如下步骤：

步骤1，获取对齐语料库；

步骤2，获取待译文件；

步骤3，将待译文件拆分为多个待译语句；

步骤7，导出翻译文件。

在步骤3中，根据文件的句数将文件拆分为相应份数。

在步骤4中，匹配率的计算方法具体为：若待译语句为中文，则以字符为单位，匹配率为待译语句与语料的相同字符数除以待译语句的字符数；若待译语句为英文，则以字节为单位，匹配率为待译语句与语料的相同字节数除以待译语句的字节数。

所述的字符数包括标点。

所述的字节数包括标点。

下面我们再以上基础上以具体的例子对上述步骤3及以后的过程进行举例说明。

先以汉译英举例：

若对齐语料库中的语料有：

我喜欢跑步。

我喜欢听音乐。

其分别对应的对齐语料为：

Ilikerunning.

Ilikelisteningtomusic.

待译文件为：我喜欢听音乐。我喜欢在跑步的时候听音乐。

将待译文件按句拆分为：

我喜欢听音乐。

我喜欢在跑步的时候听音乐。

在对“我喜欢听音乐。”进行翻译时，按顺序遍历对齐语料库，查找到对比语料库中有相同的语料，停止遍历，并在显示该语料，直接选中语料即可将其对齐语料“Ilikelisteningtomusic.”直接作为翻译语句。

在对“我喜欢在跑步的时候听音乐。”进行翻译时，按顺序遍历对齐语料库，遍历完整个对齐语料库均为找到相同的语料，显示匹配率高的语料。在对匹配率进行计算时，在计算标点的情况下，此语句与第一个语料的相同字符数为6/13，即46.2%,与第二个语料的相同字符数为7/13，即53.8%；在不计算标点的情况下，此语句与第一个语料的相同字符数为5/12，即41.7%,与第二个语料的相同字符数为6/12，即50.0%；此时，对两个语料进行显示，选择“我喜欢听音乐。”，使其对齐语料“Ilikelisteningtomusic.”成为“我喜欢在跑步的时候听音乐。”的待完成翻译语句，并标记“在跑步的时候”，此时，翻译人员只需再“Ilikelisteningtomusic.”上进行修改即可。“Ilikelisteningtomusicwhilerunning.”在相似句子上进行修改，相比于直接对原句进行翻译，其效率大大提高。最后，导出翻译文件即可。

再以英译汉举例：

若对齐语料库中的语料有：

我喜欢跑步。

我喜欢听音乐。

其分别对应的对齐语料为：

Ilikerunning.

Ilikelisteningtomusic.

待译文件为：Ilikelisteningtomusic.Ilikelisteningtomusicwhilerunning.

将待译文件按句拆分为：

Ilikelisteningtomusic.

Ilikelisteningtomusicwhilerunning.

在对“Ilikelisteningtomusic.”进行翻译时，按顺序遍历对齐语料库，查找到对比语料库中有相同的语料，停止遍历，并在显示该语料，直接选中语料即可将其对齐语料“我喜欢听音乐。”直接作为翻译语句。

在对“Ilikelisteningtomusicwhilerunning.”进行翻译时，按顺序遍历对齐语料库，遍历完整个对齐语料库均为找到相同的语料，显示匹配率高的语料。在对匹配率进行计算时，在计算标点的情况下，此语句与第一个语料的相同字符数为4/8，即50.0%,与第二个语料的相同字符数为6/8，即75.0%；在不计算标点的情况下，此语句与第一个语料的相同字符数为4/7，即57.1%,与第二个语料的相同字符数为6/7，即85.7%；此时，对两个语料进行显示，选择“Ilikelisteningtomusic.。”，使其对齐语料“我喜欢听音乐。”成为“Ilikelisteningtomusicwhilerunning.”的待完成翻译语句，并标记“whilerunning”，此时，翻译人员只需再“我喜欢听音乐。”上进行修改即可。“我喜欢在跑步的时候听音乐。”在相似句子上进行修改，相比于直接对原句进行翻译，其效率大大提高。最后，导出翻译文件即可。

如上所述，可较好的实现本发明。

Claims

1.一种翻译软件与语料搜索的关联方法，其特征在于，包括如下步骤：

步骤1，获取对齐语料库；

步骤2，获取待译文件；

步骤3，将待译文件拆分为多个待译语句；

步骤7，导出翻译文件。

2.根据权利要求1所述的一种翻译软件与语料搜索的关联方法，其特征在于：在步骤3中，根据文件的句数将文件拆分为相应份数。

3.根据权利要求1所述的一种翻译软件与语料搜索的关联方法，其特征在于：在步骤4中，匹配率的计算方法具体为：若待译语句为中文，则以字符为单位，匹配率为待译语句与语料的相同字符数除以待译语句的字符数；若待译语句为英文，则以字节为单位，匹配率为待译语句与语料的相同字节数除以待译语句的字节数。

4.根据权利要求3所述的一种翻译软件与语料搜索的关联方法，其特征在于：所述的字符数包括标点。

5.根据权利要求3所述的一种翻译软件与语料搜索的关联方法，其特征在于：所述的字节数包括标点。