CN103092830B

CN103092830B - 一种调序规则获取方法及装置

Info

Publication number: CN103092830B
Application number: CN201110333276.8A
Authority: CN
Inventors: 何中军; 吴华; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2011-10-28
Filing date: 2011-10-28
Publication date: 2016-04-27
Anticipated expiration: 2031-10-28
Also published as: CN103092830A

Abstract

本申请公开了一种调序规则获取方法及装置。一种调序规则获取方法包括：预先获得源语言A和目标语言B之间的平行语料(a0，b0)；对(a0，b0)中的互译句对进行词对齐；根据词对齐结果，从互译句对中抽取双语短语并将子短语替换为变量，得到A到B的翻译规则集合<a1，b1>；所述翻译规则两端的字符串都由单词和变量组成；将<a1，b1>中翻译规则的目标语言单词，按照所述词对齐关系替换为源语言单词，得到A到A的调序规则集合<a1，a2>。应用上述方案，可以利用已有的平行语料资源自动获取调序规则，并且在获取规则的过程中，仅涉及一般文本级别的处理操作，不需要利用到任何语言学方面的知识，从而大大降低获取调序规则的实现复杂度。

Description

一种调序规则获取方法及装置

技术领域

本申请涉及计算机应用技术领域，特别是涉及一种调序规则获取方法及装置。

背景技术

机器翻译(MachineTranslation)，又称为自动翻译，是利用计算机把一种自然源语言转变为另一种自然目标语言的过程，一般应用于两种自然语言之间的整句或全文的翻译。统计机器翻译(StatisticalMachineTranslation，SMT)是机器翻译的一种，也是目前非限定领域机器翻译中性能较佳的一种方法。统计机器翻译的基本思想是：通过对一定数量的平行语料(bilingualcorpus也称双语互译语料)进行统计分析，然后通过训练来构建统计翻译模型，进而使用此模型进行翻译。目前，机器翻译已经从早期基于词的翻译逐渐过渡到基于短语的翻译，并正在融合语义信息，以进一步提高翻译的智能性和精确性。

在机器翻译技术中，调序是一种较为常用的技术。由于不同的语言所采用的句式结构是不同的，因此如果要得到质量较高的翻译结果，在单词或短语级别的直译结果基础上，应该对句子结构进行调整，以使翻译结果更符合自然的语言习惯。

目前，常用的调序方案包括两种：一种是将调序作为翻译系统的子模型，即调序和翻译一起进行，这是目前大多数系统采用的方案。这种方案的时间和空间复杂度都比较高，为了满足实际系统的需求，必须限制调序的范围以降低复杂度，因此难以实现长距离的调序。

另一种方案是预先对输入的源语言句子进行调序，然后调用翻译系统进行翻译。相对上一种方案而言，这种方案将调序的步骤独立处理，实现复杂度相对降低，可以进行大范围的调序，难点在于调序规则的获取。获取调序规则的一种方式是依靠语言学方面的专家，针对不同的语言，人工撰写调序规则，这种方式需要消耗大量的人力和时间成本；另一种方式是利用语法结构等信息，从大量语料中自动学习翻译规则，这种方式需要对语料进行语法分析，同样具有较高的复杂度，难以满足实际应用的需要。

发明内容

为解决上述技术问题，本申请实施例提供一种调序规则获取方法及装置，以降低获取调序规则的实现复杂度，技术方案如下：

一种调序规则获取方法，包括：

预先获得源语言A和目标语言B之间的平行语料(a0，b0)；

对(a0，b0)中的互译句对进行词对齐；

根据词对齐结果，从互译句对中抽取双语短语并将子短语替换为变量，得到A到B的翻译规则集合<a1，b1>；所述翻译规则两端的字符串都由单词和变量组成；

将<a1，b1>中翻译规则的目标语言单词，按照所述词对齐关系替换为源语言单词，得到A到A的调序规则集合<a1，a2>。

在本申请的一种实现方式中，所述调序规则获取方法还包括：

统计<a1，a2>中每条规则的出现频率，如果出现频率低于预设的阈值的规则，则从调序规则集合中删除该条规则。

对比<a1，a2>中每条规则中调序前句子a1和调序后句子a2的内容，如果a1和a2内容相同，则从调序规则集合中删除该条规则。

检查<a1，a2>中每条规则中调序前句子a1的开头和结尾，如果开头或结尾为变量，则从调序规则集合中删除该条规则。

检查<a1，a2>中每条规则中调序前句子a1的变量，如果包括变量相邻的内容，则从调序规则集合中删除该条规则。

一种调序规则获取装置，包括：

初始设置单元，用于预先获得源语言A和目标语言B之间的平行语料(a0，b0)；

词对齐单元，用于对(a0，b0)中的互译句对进行词对齐；

翻译规则获得单元，用于根据词对齐结果，从互译句对中抽取双语短语并将子短语替换为变量，得到A到B的翻译规则集合<a1，b1>；所述翻译规则两端的字符串都由单词和变量组成；

调序规则获得单元，用于将<a1，b1>中翻译规则的目标语言单词，按照所述词对齐关系替换为源语言单词，得到A到A的调序规则集合<a1，a2>。

在本申请的一种实现方式中，所述调序规则获取装置还包括：

第一过滤单元，用于统计<a1，a2>中每条规则的出现频率，如果出现频率低于预设的阈值的规则，则从调序规则集合中删除该条规则。

第二过滤单元，用于对比<a1，a2>中每条规则中调序前句子a1和调序后句子a2的内容，如果a1和a2内容相同，则从调序规则集合中删除该条规则。

第三过滤单元，用于检查<a1，a2>中每条规则中调序前句子a1的开头和结尾，如果开头或结尾为变量，则从调序规则集合中删除该条规则。

第四过滤单元，用于检查<a1，a2>中每条规则中调序前句子a1的变量，如果包括变量相邻的内容，则从调序规则集合中删除该条规则。

应用本申请实施例所提供的技术方案，可以利用已有的平行语料资源来自动获取调序规则，并且在获取规则的过程中，仅涉及一般文本级别的处理操作，不需要利用到任何语言学方面的知识，从而大大降低获取调序规则的实现复杂度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本申请实施例调序规则获取方法的流程图；

图2为本申请实施例的词对齐示意图；

图3为本申请实施例调序规则获取方法的另一种流程图；

图4为本申请实施例调序规则获取装置的结构示意图；

图5为本申请实施例调序规则获取装置的另一种结构示意图。

具体实施方式

首先对本申请实施例所提供的一种调序规则获取方法进行说明，该方法可以包括以下步骤：

预先获得源语言A和目标语言B之间的平行语料(a0，b0)；

对(a0，b0)中的互译句对进行词对齐；

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行详细地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请保护的范围。

图1所示为申请一种调序规则获取方法的流程图，该方法可以包括以下步骤：

S101，预先获得源语言A和目标语言B之间的平行语料(a0，b0)；

首先从现有的语料库中获得源语言A和目标语言B之间的平行语料，其中，语料库可以是双语语料库，也可以是包含源语言与目标语言的多语语料库(即包含三种以上语言互译语料的语料库)，本发明实施例对此并不需要进行限定。

在本实施例中，将以源语言A为中文，目标语言B为英文为例进行说明：首先获取中-英双语平行语料(a0，b0)，其中，a0和b0分别表示平行语料中中文句子和英文句子的集合，两个集合中的句子存在一一对应的互译关系。

S102，对(a0，b0)中的互译句对进行词对齐；

(a0，b0)中的互译句对是句子级别对齐的，在本步骤中，对(a0，b0)中的每组互译句对进行词对齐处理，从而获得在词或短语级别的对齐结果，本步骤的实现属于现有技术，在本实施例中不做详细说明。

举例说明，中英句对：

在世界经济迅猛发展的条件下

undertheconditionoftherapiddevelopmentofworldeconomy

经自动词对齐处理后，得到词对齐关系如图2所示。

S103，根据词对齐结果，从互译句对中抽取双语短语并将子短语替换为变量，得到A到B的翻译规则集合<a1，b1>；所述翻译规则两端的字符串都由单词和变量组成；

每条翻译规则包括左端和右端，分别为源语言串和目标语言串。作为一条翻译规则，应该具有泛化作用，即涵盖某一调序类型，，因此翻译规则两端的串都由单词和变量组成，其中，单词是固定的，其构成基本结构，而变量表示在该位置可以做多种形式的替换，而该替换并不会影响原本的结构。例如，如下的翻译规则：

在X的条件下

undertheconditionofX

在上述规则中，X表示变量，其他部分为普通单词，规则左右两端的单词及变量分别构成一种源语言的结构和一种目标语言的结构。

当然，上面所举的翻译规则只是一个比较典型的例子，在本步骤的实际处理过程中，将子短语替换为变量，需要考虑到各种情况，即对所有可能替换的部分都进行替换，从而从一组互译句对中得到多个翻译规则。这里所说的子短语，也可能包括仅有一个单词的情况。例如，从S102中所例举的互译句对中，通过将不同的子短语替换为变量，可以得到多种翻译规则：

a)将“世界经济”替换为变量，可以得到：

在X迅猛发展的条件下

undertheconditionoftherapiddevelopmentofX

b)将“迅猛发展”替换为变量，可以得到：

在世界经济X的条件下

undertheconditionofXofworldeconomy

c)将“世界经济迅猛发展”替换为变量，可以得到：

在X的条件下

undertheconditionofX

以上仍然仅列出了几种情况，在实际的提取过程，在一组规则中，还可以存在多个变量。另外，可以理解的是，在提取过程中，应该保证变量在两种语言中的文本连续性和对齐的一致性。例如，以“经济迅猛发展”作为变量，虽然其在中文句子中是连续的，但是在英文句子中“economy”和“rapiddevelopment”并不是连续的，因此这种情况将不会被提取作为翻译规则。而对齐的一致性是指：根据对齐连线，被替换为变量的源语言子短语所对应的目标语言子短语范围内，不能包含对应到源语言子短语以外的连线。例如，源语言子短语是“经济迅猛发展”，对应的目标子短语范围“rapiddevelopmentofworldeconomy”，其中“world”对应到源语言子短语以外的单词，所以这种情况将不会被提取作为翻译规则。

对于(a0，b0)中的每组互译句对，都按照上述方式进行处理，将提取到的所有翻译规则构成翻译规则的集合<a1，b1>。

S104，将<a1，b1>中翻译规则的目标语言字串单词，按照所述词对齐关系替换为源语言字串单词，得到A到A的调序规则集合<a1，a2>。

对于<a1，b1>中的每条翻译规则，将目标语言的字串单词，通过直接翻译的方法替换为源语言的字串单词，例如，对于规则：

在X的条件下

undertheconditionofX

根据在S102中得到的词对齐关系，可知“under”与“在......下”对齐、“condition”与“条件”对齐、“of”与“的”对齐。根据上述对齐关系，将目标语言句子“undertheconditionofX”中的单词依次替换(这里不考虑在目标语言句子中不具有对齐关系的单词，例如上面的“the”)，最终得到替换结果“在下条件的X”，该结果与翻译规则中的原始中文句子，即构成了一组调序规则：

在X的条件下

在下条件的X

对于<a1，b1>中的每条翻译规则，都按照上述方式进行处理，最终得到调序规则的集合<a1，a2>，其中<a1，b1>与<a1，a2>中的规则数量是相同的。

利用以上方法所得到的调序规则，可以在翻译系统进行翻译之前，对输入的句子进行处理，使得源语言的句子结构更符合目标语言的语序，从而降低翻译系统的处理难度，提高翻译质量。

由于在调序的过程中，需要首先从大量的调序规则中找到与输入句子形式最为匹配的规则，如果规则表的数量过于庞大，会加大匹配时的处理工作量。因此，对于已获取的调序规则，还可以进一步进行过滤，以保证过滤规则的实用性，提高匹配的效率。参见图3所示，在本申请的另一个实施例中，所提供的复述规则提取方法包括以下步骤：

S101，预先获得源语言A和目标语言B之间的平行语料(a0，b0)；

S102，对(a0，b0)中的互译句对进行词对齐；

S105，对调序规则集合<a1，a2>中的规则进行过滤。

与上一实施例相比，在本实施例中，进一步增加了对调序规则集合<a1，a2>中的规则进行过滤的步骤S105。在本实施例中，具体提供以下四种过滤方案：

1)统计<a1，a2>中每条规则的出现频率，如果出现频率低于预设的阈值的规则，则从调序规则集合中删除该条规则。

对于所提取到的调序规则，有些可能在翻译过程中并不常见，或者说这种规则并不具有很强的通用性，对于这种规则，可以通过统计频率的方式将其排除。可以理解的是，在语料资源充足的情况下，具有通用性的规则必然会多次出现，因此，可以预先设置一个频率阈值，然后统计<a1，a2>中每条调序规则的在所有规则中的出现频率，如果某条规则的出现频率高于或等于阈值，则说明这条频率的通用性较好，可保留该规则。如果某条规则的出现频率的低于阈值，说明该规则通用性较差，可以从调序规则的集合中删除该规则。

例如，利用该方法进行过滤，通过限定合适的阈值，那么在S103中的a)、b)、c)三条翻译规则所对应得的调序规则中，最终可能仅会保留

在X的条件下

在下条件的X

这条规则。

需要说明的是，这里的“频率”可以理解为比值或次数，这些并不影响方案的实现。

2)对比<a1，a2>中每条规则中调序前句子a1和调序后句子a2的内容，如果a1和a2内容相同，则从调序规则集合中删除该条规则。

根据“调序”的含义，在调序规则两侧的句子顺序应该是不同的，然而在实际的提取过程中，如果源语言和目标语言的语序恰好一致，那么很可能导致最终提取出的调序规则两侧内容相同。这样的规则在实质上并不能起到调序的作用，因此可以将这类规则从调序规则集合中删除。

3)检查<a1，a2>中每条规则中调序前句子a1的开头和结尾，如果开头或结尾为变量，则从调序规则集合中删除该条规则。

这个过滤步骤相当于规定了调序的左右边界，也就是说，在未调序的句子中，变量只能出现在一个确定范围中，如果变量作为边界存在，将无法保证句子的收敛。需要说明的是，由于这种方式的限制相对比较严格，因此如果在句子末尾出现了标点，那么该标点也可以认为是一种边界，而不应被当做是变量。

4)检查<a1，a2>中每条规则中调序前句子a1的变量，如果包括变量相邻的内容，则从调序规则集合中删除该条规则。

这个过滤步骤限定了在调序前的句子中，如果出现多个变量的情况，那么不允许变量相邻。事实上，在其他规则中，必定包含将这两个变量视为一个变量的情况，因此，这种变量相邻的规则可以从调序规则中删除。

可以理解的是，如果在提取规则时，规定仅允许取一个变量，则不需要用到该条件。

在实际应用过程中，上述提供的四种过滤步骤，可以分别单独使用，也可以相互结合使用，并且在过滤过程中，并不需要对过滤步骤的顺序进行限定。值得说明的是，由于步骤3)和步骤4)是基于调序前的句子内容进行过滤的，而在调序规则<a1，a2>与翻译规则<a1，b1>中，a1的内容是相同的。因此，上述的步骤3)和步骤4)也可以在步骤S103之后执行。

以上实施例，是利用中英文平行语料获取中文复述资源，可以理解的是，应用本申请所提供的方案，同样可以利用中英文平行语料获取中文复述资源，也可以利用其他语言的平行语料获取其他语言的复述资源。

相应于上面的方法实施例，本申请还提供一种调序规则获取装置，参见图4所示，该装置包括：

初始设置单元210，用于预先获得源语言A和目标语言B之间的平行语料(a0，b0)；

词对齐单元220，用于对(a0，b0)中的互译句对进行词对齐；

(a0，b0)中的互译句对是句子级别对齐的，词对齐单元220对(a0，b0)中的每组互译句对进行词对齐处理，从而获得在词或短语级别的对齐结果。

翻译规则获得单元230，用于根据词对齐结果，从互译句对中抽取双语短语并将子短语替换为变量，得到A到B的翻译规则集合<a1，b1>；所述翻译规则两端的字符串都由单词和变量组成；

每条翻译规则包括左端和右端，分别为源语言串和目标语言串。作为一条翻译规则，应该能够代表某一类的句子，因此翻译规则两端的句子都由单词和变量组成，其中，句中的单词是固定的，其构成了基本结构，而变量表示在该位置可以做多种形式的替换，而该替换并不会影响原本的结构。例如，如下的翻译规则：

在X的条件下

undertheconditionofX

当然，上面所举的翻译规则只是一个比较典型的例子，在本步骤的实际处理过程中，将子短语替换为变量，需要考虑到各种情况，即对所有可能替换的部分都进行替换，从而从一组互译句对中得到多个翻译规则，这里所说的子短语，也可能包括仅有一个单词的情况。例如，

a)将“世界经济”替换为变量，可以得到：

在X迅猛发展的条件下

undertheconditionoftherapiddevelopmentofX

b)将“迅猛发展”替换为变量，可以得到：

在世界经济X的条件下

undertheconditionofXofworldeconomy，

c)将“世界经济迅猛发展”替换为变量，可以得到：

在X的条件下

undertheconditionofX

调序规则获得单元240，用于将<a1，b1>中翻译规则的目标语言单词，按照所述词对齐关系替换为源语言单词，得到A到A的调序规则集合<a1，a2>。

对于<a1，b1>中的每条翻译规则，将目标语言的字串单词，通过直接替换的方法替换为源语言的字串单词，例如，对于规则：

在X的条件下

undertheconditionofX

在X的条件下

在下条件的X

由于在调序的过程中，需要首先从大量的调序规则中找到与输入句子形式最为匹配的规则，如果规则表的数量过于庞大，会加大匹配时的处理工作量。因此，对于已获取的调序规则，还可以进一步进行过滤，以保证过滤规则的实用性，提高匹配的效率。参见图5所示，本申请提供的调序规则获取装置，还可以进一步包括：

调序规则过滤单元250，用于对调序规则集合<a1，a2>中的规则进行过滤。

其中，调序规则过滤单元250，可以具体配置为以下形式：

第三过滤单元于规定了调序的左右边界，也就是说，在未调序的句子中，变量只能出现在一个确定范围中，如果变量作为边界存在，将无法保证句子的收敛。需要说明的是，如果在句子末尾出现了标点，那么该标点也可以认为是一种边界，而不应被当做是变量。

第四过滤单元限定了在调序前的句子中，如果出现多个变量的情况，那么不允许变量相邻。事实上，在其他规则中，必定包含将这两个变量视为一个变量的情况，因此，这种变量相邻的规则可以从调序规则中删除。

可以理解的是，如果在提取规则时，规定仅允许取一个变量，则不需要使用第四过滤单元。

在实际应用过程中，上述提供的四种过滤单元，可以分别单独配置，也可以共同配置于调序规则过滤装置中，本申请并不需要对此进行限定。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本申请的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种调序规则获取方法，其特征在于，包括：

预先获得源语言A和目标语言B之间的平行语料(a0，b0)；

对(a0，b0)中的互译句对进行词对齐；

根据词对齐结果，从互译句对中抽取双语短语并将满足文本连续性和对齐的一致性的子短语替换为变量，得到A到B的翻译规则集合<a1，b1>；所述翻译规则两端的字符串都由单词和变量组成；所述文本连续性是指被替换为变量的子短语在A和B中都是连续的；所述对齐的一致性是指根据词对齐结果，被替换为变量的源语言子短语所对应的目标语言子短语范围内，不包含对应到源语言子短语以外的单词；

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1所述的方法，其特征在于，还包括：

4.根据权利要求1所述的方法，其特征在于，还包括：

5.根据权利要求1所述的方法，其特征在于，还包括：

6.一种调序规则获取装置，其特征在于，包括：

词对齐单元，用于对(a0，b0)中的互译句对进行词对齐；

翻译规则获得单元，用于根据词对齐结果，从互译句对中抽取双语短语并将满足文本连续性和对齐的一致性的子短语替换为变量，得到A到B的翻译规则集合<a1，b1>；所述翻译规则两端的字符串都由单词和变量组成；所述文本连续性是指被替换为变量的子短语在A和B中都是连续的；所述对齐的一致性是指根据词对齐结果，被替换为变量的源语言子短语所对应的目标语言子短语范围内，不包含对应到源语言子短语以外的单词；

7.根据权利要求6所述的装置，其特征在于，还包括：

8.根据权利要求6所述的装置，其特征在于，还包括：

9.根据权利要求6所述的装置，其特征在于，还包括：

10.根据权利要求6所述的装置，其特征在于，还包括：