CN101488126B

CN101488126B - 双语语句对齐方法及装置

Info

Publication number: CN101488126B
Application number: CN2008102421122A
Authority: CN
Inventors: 张玉志
Original assignee: SHENZHEN DATUM DATA CO Ltd
Current assignee: SHENZHEN DATUM DATA CO Ltd
Priority date: 2008-12-31
Filing date: 2008-12-31
Publication date: 2011-05-11
Anticipated expiration: 2028-12-31
Also published as: CN101488126A

Abstract

本发明公开一种用于建设机器翻译语料库的双语语句对齐方法，包括以下步骤：分句步骤；分词步骤；对齐步骤；所述对齐步骤具体包括有：区域划分步骤，分别将待对齐的第一语种、第二语种按照预设的区域划分规则划分为多个包含所述第一语种语句、第二语种语句的比较区域；匹配步骤，计算每对对应的第一语种与第二语种比较区域内的每对语句的相互匹配率，并根据所述相互匹配率确定相互匹配的第一语种语句和第二语种语句组合；执行步骤，将所述相互匹配率最大的第一语种语句和第二语种语句组合执行对齐操作。本发明还公开了相应的用于建设机器翻译语料库的双语语句对齐装置。本发明可大大提高对齐的效率、加快语料库的建设速度。

Description

双语语句对齐方法及装置

技术领域

本发明涉及计算机翻译技术，尤其涉及一种双语语句对齐方法及装置。

背景技术

随着资讯的快速膨胀和经济贸易的全球一体化，国际间的沟通日趋频繁，快速对大量的外文资料根据需要进行整理、转化和使用，已是一种普遍而紧迫的的需求。在这种需求带动之下，用机器翻译系统来协助人们快速翻译、建档，也就成为无法避免的趋势，计算机辅助翻译应运而生。

然而，目前机器翻译系统与人工翻译仍存在巨大差距。机器翻译系统表现不佳的一个很重要的原因在于，在于资源的缺乏，无论采用何种机器翻译方法，都需要大量大规模的知识资源，这些知识资源被存储在语料库中。虽然网络的快速发展，提供了大量而丰富的双语对照电子文献，为机器辅助翻译提供了坚实的语料基础。但是人工添加和丰富语料库，仍然无疑是一项庞大而复杂的工作，一个好的机器翻译系统所必备的资源往往需要经年累月的积累。

发明内容

本发明所要解决的技术问题是：提供一种用于建设机器翻译语料库的双语语句对齐方法，该方法可大大提高对齐的效率、加快语料库的建设速度。

本发明进一步所要解决的技术问题是：提供一种用于建设机器翻译语料库的双语语句对齐装置，该装置可大大提高对齐的效率、加快语料库的建设速度。

为解决上述技术问题，本发明采用如下技术方案：

一种用于建设机器翻译语料库的双语语句对齐方法，包括以下步骤：

分句步骤，根据分句符将第一语种和第二语种分别划分为多个语句；

分词步骤，将每个语句根据词典划分为多个词段组合；

对齐步骤，找到每对相互匹配的第一语种语句和第二语种语句，并将所述相互匹配的第一语种语句和第二语种语句对齐，将对齐的语句存入机器翻译语料库中；

所述对齐步骤具体包括有：

区域划分步骤，分别将待对齐的第一语种、第二语种按照预设的区域划分规则划分为多个包含所述第一语种语句、第二语种语句的比较区域；

匹配步骤，计算每对对应的第一语种与第二语种比较区域内的每对语句的相互匹配率，在每对对应的第一语种比较区域和第二语种比较区域内寻找具有相互最大匹配率的第一语种语句和第二语种语句组合，并根据所述相互最大匹配率确定相互匹配的第一语种语句和第二语种语句组合；

执行步骤，将所述相互匹配率最大的第一语种语句和第二语种语句组合执行对齐操作；

其中，在所述匹配步骤中，通过以下方法寻找具有相互最大匹配率的第一语种语句和第二语种语句组合：

正向寻找步骤，寻找与第一语种语句i匹配率最大的第二语种语句i；

反向寻找步骤，反向寻找与该第二语种语句j匹配率最大的第一语种语句k；

比较步骤，比较所述第一语种语句i和反向寻找所得的第一语种语句k，若它们是同一语句，则判定该第一语种语句i与该第二语种语句j的组合为相互最大匹配率的语句组合，否则，该次寻找失败，所述第一语种语句i和第二语种语句j均没有找到相互最大匹配率的语句。

本发明还公开了相应的用于建设机器翻译语料库的双语语句对齐装置，该装置包括：

分句单元，用于根据分句符将第一语种和第二语种分别划分为多个语句；

分词单元，与所述分句单元相连，用于将每个语句根据词典划分为多个词段组合；

对齐单元，与所述分词单元相连，找到每个第一语种语句匹配的第二语种语句，并将所述互相匹配的第一语种语句和第二语种语句对齐，将对齐的语句存入机器翻译语料库中；

所述对齐单元具体包括有：

区域划分单元，用于分别将待对齐的第一语种、第二语种按照预设的区域划分规则划分为多个包含所述第一语种语句、第二语种语句的比较区域；

匹配单元，与所述区域划分单元相连，用于计算每对对应的第一语种与第二语种比较区域内的每对语句的相互匹配率，在每对对应的第一语种比较区域和第二语种比较区域内寻找具有相互最大匹配率的第一语种语句和第二语种语句组合，并根据所述相互最大匹配率确定相互匹配的第一语种语句和第二语种语句组合；

执行单元，与所述匹配单元相连，用于将所述相互匹配率最大的第一语种语句和第二语种语句组合执行对齐操作；

其中，所述匹配单元通过以下方法寻找具有相互最大匹配率的第一语种语句和第二语种语句组合：

正向寻找步骤，寻找与第一语种语句i匹配率最大的第二语种语句j；

本发明的有益效果是：

本发明的实施例通过采用基于划分区域的对齐方法来代替人工建设语料库的对齐工作，从而大大提高对齐了的效率、加快了语料库的建设速度。

下面结合附图对本发明作进一步的详细描述。

附图说明

图1是本发明提供的双语语句对齐方法一个实施例的方法流程图。

图2是本发明提供的双语语句对齐方法一个实施例中待对齐的第一语种和第二语种示意图。

图3是本发明提供的双语语句对齐方法一个实施例中分句后的第一语种和第二语种示意图。

图4是本发明提供的双语语句对齐方法一个实施例中对齐后的第一语种和第二语种效果示意图。

具体实施方式

下面参考图1详细描述本发明提供的用于建设机器翻译语料库的双语语句对齐方法一个实施例的方法流程。如图所示，本实施例执行一次双语语句对齐方法的流程如下：

首先执行分句步骤，即：根据分句符将第一语种和第二语种分别划分为多个语句，具体实现时，所述第一语种和第二语种可以是任意两种不同语言的组合，如：中文和英文或者英文和中文。本实施例以常见的中文和英文组合为例，中文中的句号、问号、和感叹号都作为分句符，若待分句的语句中存在引号，则引号中间的内容不分隔，从其上一个起点开始，如果引号前是句号，则该句号为分句符；如果引号前没有标点，而引号后的标点是分句符则以该分句符分句；如果引号前没有标点，而引号后的标点不是分句符，则直到下一个分句符出现才分句；而英文的问号、分号、感叹号都跟中文用法一样，但是英文句号由于多用性，必须特殊处理，例如人名、地名、缩写、以及数字中的小数点等，当句号作为上述用途的时候，不作为分句符处理。另外，在中英文中表示时间分隔冒号的和数字分隔的逗号，均不作为分句符处理。

其次执行分词步骤，即：将分好的每个语句根据词典划分为多个词段组合，对于中文分词，主要是通过查词典来划分，划分好的词语以空格间隔，对于会影响对齐效果的介词或助词，如“之，乎，者，也”等，从语句中剔除；对于英文语句，则在去除会影响对齐效果的介词(如“to，for，of，from”等)之前，还需要通过查询词典，将词语变型还原成原型，如“was”要变为“is”。

再次执行对齐步骤，即：找到每个第一语种(中文)语句匹配的第二语种(英文)语句，并将所述互相匹配的第一语种语句和第二语种语句对齐。在对齐的过程中，维持以下几个链表：区域划分链表、匹配链表、中文未匹配链表、英文未匹配链表、第一语种(中文)匹配状态表、第二语种(英)文匹配状态表、以及匹配率表，上述链表分别在下述相应的操作中维持。

具体实现时，如果逐句进行比较，那么要处理1000个语句，程序大概会执行三个小时，这明显是不可取的，由于意思相同的中文语句和英文语句基本上具有一定的区域对应关系，所以在执行对齐操作前，进行以下处理：

执行区域划分步骤，即：分别将待对齐的第一语种、第二语种按照预设的区域划分规则划分为多个包含所述第一语种语句、第二语种语句的比较区域；

具体实现时，划分一个合适的比较区域，是十分必要的。如果范围划得过大，必定影响程序运行速度，增加了无用操作；如果范围划得过小，则会使得原本应该在一个区域内进行比较而对齐的对应语句失去比较的机会，影响正确的对齐结果。本实施例中，采取“二分区域法”划分比较区域，所述二分区域法包括以下步骤：

预设步骤，设定一个最大比较区域；

等分步骤，将所述第一语种或第二语种的语句按语句数等分为两个比较区域，并将等分后剩下的语句划入所述两个比较区域中的任意一个，具体实现时，若语句数是偶数，则剩下的语句为空值，即刚好等分为两个比较区域，若语句数是偶数，则剩下一个语句，该语句可划入所述两比较区域中的前一个；

保存步骤，将划分结果存入区域划分链表；

递归步骤，对所述区域链表中上一次划分的每个比较区域重复执行上述等分步骤和保存步骤，直到所述区域划分链表中上一次划分的最小的比较区域小于所述设定的最大比较区域。

下面以中文100句，英文201句，设定的最大比较区域为20句为例，演示上述划分方法：

第一步：中文划分为50句，50句；英文划分为61，60。

第二步：中文划分为25句，25句，25句，25句；英文划分为31句，30句，30句，30句。

第三步：中文划分为13，12句，13句，12句，13句，12句，13句，12句；英文划分为16句，15句，15句，15句，15句，15句，15，15句。

此时，得到划分后的比较区域中的最小的比较区域为12句，小于设定的最大比较区域20句，则区域划分结束。

采用上述二分区域法，可确保比较区域能够划分到具体需要的一个值以下、同时保证了中英文划分区域的块数总是相同的，便于对应比较。

接下来的对齐操作就在对应的比较区域内进行，具体实现时，所述对齐步骤还包括：

匹配步骤，计算每对对应的第一语种与第二语种比较区域内的每对语句的相互匹配率，并根据所述相互匹配率确定相互匹配的第一语种语句和第二语种语句组合；

执行步骤，将所述相互匹配率最大的第一语种语句和第二语种语句组合执行对齐操作。

具体实现时，所述匹配步骤进一步包括：

在每对对应的第一语种比较区域和第二语种比较区域内寻找具有相互最大匹配率的第一语种语句和第二语种语句组合；

将找到相互最大匹配率的语句组合存入匹配链表中，并将其对应的匹配状态表置为已匹配状态；

将未找到相互最大匹配率的语句分别存入第一语种未匹配链表、第二语种未匹配链表，等待下次寻找。

具体地，可通过以下方法寻找所述相互最大匹配率的第一语种语句和第二语种语句组合：

比较步骤，比较所述第一语种语句i和反向寻找所得的第一语种语句k，若它们是同一语句，则判定该第一语种语句i与该第二语种语句j的组合为相互最大匹配率的语句组合，否则，该次寻找失败，所述第一语种语句i和第二语种语句j均没有找到相互匹最大配率的语句。

在确定了英文的第i句与中文的第j句是彼此最大匹配后，还要考虑是否存在一句匹配两句的情况存在，因此，还需要执行以下步骤：

以上述语句i与语句j的匹配率为基础，分别计算该第一语种语句i与其前、后邻句的组合(i-1，i)、(i，i+1)与所述第二语种语句j的相互最大匹配率；以及

以上述语句i与语句j的匹配率为基础，分别计算该第二语种语句j与其前、后邻句的组合(j-1，j)、(j，j+1)与所述第一语种语句i的相互最大匹配率；

取上述五种相互最大匹配率中的最大值，具有该最大值的第一语种语句和第二语种语句即为最终确定的相互匹配率最大的语句组合。

具体地，可通过以下方法计算语句的匹配率：

将第一语种语句通过查询词典翻译成第二语种后，以其组成语句的词语与需要对齐的第二语种语句中的词语进行逐个比较；

若比较结果相同，则去除该词语、并根据该词语的特性给匹配词语数加一个值，否则，继续执行下一个词语比较，直到对应的两个语句中的词语两两比较结束，具体实现时，对于普通的词语，匹配词语数加值为1，对于数字或者中/英文文章中的英/中文词语，匹配词语数加值为2；

将匹配词语数乘以2后，除以正执行对齐操作的两个语句的词语总个数，得出匹配率，并将该匹配率存入匹配率表。

另外，具体实现时，在匹配的过程中，为了保证比较速度，并考虑到下述情况，即：英文中对应的能匹配上的语句，交错分布到了中文的其他非对应区域内，在这种情况下，无论程序如何执行，它们都不能跳出本区域去寻找到对方。为了解决这个问题，就需要在递归过程中，不断增大比较区域，这样原本划分到不同的比较区域而导致无法匹配的语句便能通过逐渐增大的对齐区域进入同一个区域进行比较，并匹配上。综上，在一次匹配结束后，本实施例还将继续以下步骤：

区域重设步骤，将所述设定的最大比较区域修改为一个更大的值后，重新对所述第一语种和第二语种分别进行区域划分，并对所述重新划分后的比较区域内位于未匹配链表中的语句再次执行所述匹配步骤；

循环步骤，重复执行所述区域重设步骤，直到所述最大比较区域大于一个预设的值、或者已经大于文章的语句总数。

最后，对齐结束后，为了丰富语料库，还可以将所述匹配链表中的语句存入语料库中。在语料库中，对齐的语句存储的方式是，一条记录分为三个字段，第一个字段是第一/二语种的语句内容，第二个字段是第二/一语种的语句内容，第三个字段是这上述两个语句的匹配率。

下面详细描述本发明提供的双语语句对齐装置一个实施例。本实施例主要由以下部分组成：

对齐单元，与所述分词单元相连，找到每个第一语种语句匹配的第二语种语句，并将所述互相匹配的第一语种语句和第二语种语句对齐；

所述对齐单元进一步包括有：

本发明大大提高了对齐的效率，加速了语料库的建设，可节省大量人力、财力。如下以数字分析本发明带来的有益效果，以语料库需要2000万对应语句计算。如果聘请10位高水平的外语专职翻译人员，每人每天工作10小时建设语料库，以每人每分钟5句计算，每天可以新增3万句，那么2000万句，需要666天，大抵两年时间，方能完成。如果采用本发明，则一台机器一分钟可对齐200句，以10台机器，每天10小时工作，每天可以新增120万句，那么只需要17天便能完成。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种用于建设机器翻译语料库的双语语句对齐方法，包括以下步骤：

分词步骤，将每个语句根据词典划分为多个词段组合；

其特征在于，所述对齐步骤具体包括有：

2.如权利要求1所述的用于建设机器翻译语料库的双语语句对齐方法，其特征在于，所述预设的区域划分规则为二分区域法，所述二分区域法包括以下步骤：

预设步骤，设定一个最大比较区域；

等分步骤，将所述第一语种或第二语种的语句按语句数等分为两个比较区域，并将等分后剩下的语句划入所述两个比较区域中的前一个；

保存步骤，将划分结果存入区域划分链表；

3.如权利要求1或2所述的用于建设机器翻译语料库的双语语句对齐方法，其特征在于，所述匹配步骤还包括：

将找到相互最大匹配率的语句组合存入匹配链表中；

4.如权利要求1所述的用于建设机器翻译语料库的双语语句对齐方法，其特征在于，所述比较步骤之后还包括有：

以上述相互最大匹配率为基础，分别计算该第一语种语句i与其前、后邻句的组合与所述第二语种语句j的相互最大匹配率；以及

以上述相互最大匹配率为基础，分别计算该第二语种语句j与其前、后邻句的组合与所述第一语种语句i的相互最大匹配率；

5.如权利要求4所述的用于建设机器翻译语料库的双语语句对齐方法，其特征在于，通过以下方法计算语句的匹配率：

将第一/二语种语句通过查询词典翻译成第二/一语种后，以其组成语句的词语与对应的第二/一语种比较区域内的语句中的词语进行逐个比较；

若比较结果相同，则去除该词语、并根据该词语的特性给匹配词语数加一个值，否则，继续执行下一个词语比较，直到对应的两个语句中的词语两两比较结束；

6.如权利要求2-4中任一项所述的用于建设机器翻译语料库的双语语句对齐方法，其特征在于，所述匹配步骤之后还包括有：

7.如权利要求3所述的用于建设机器翻译语料库的双语语句对齐方法，其特征在于，该方法还包括：

将所述匹配链表中的语句存入语料库中。

8.如权利要求1所述的用于建设机器翻译语料库的双语语句对齐方法，其特征在于，所述第一语种和第二语种分别为中文和英文或者英文和中文。

9.一种用于建设机器翻译语料库的双语语句对齐装置，该装置包括有：

其特征在于，所述对齐单元具体包括有：