CN103617160B

CN103617160B - 基于两两对齐的多语种句对齐方法及装置

Info

Publication number: CN103617160B
Application number: CN201310674134.7A
Authority: CN
Inventors: 薛永增; 郑德权; 徐冰; 赵铁军; 朱聪慧; 杨沐昀; 曹海龙
Original assignee: Harbin Institute of Technology
Current assignee: Harbin University of technology high tech Development Corporation
Priority date: 2013-12-11
Filing date: 2013-12-11
Publication date: 2017-02-08
Anticipated expiration: 2033-12-11
Also published as: CN103617160A

Abstract

基于两两对齐的多语种句对齐方法及装置，属于信息技术领域，尤其涉及信息技术领域互联网语言翻译系统中的多语种句对齐方法。本发明是为了解决在利用两两对齐方法进行多语种句对齐时，对齐结果不一致的问题。本发明所述的基于两两对齐的多语种句对齐方法及装置，首先对不同语种文本中的句子进行两两对齐，获得两两对齐结果，然后对该结果进行冲突识别并将冲突的部分标记出来，最后对冲突部分进行评分并重新进行两两对齐，从而使得多语种句对齐结果具有一致性，从而可以将两两对齐结果中部分对齐错误的错误结果更正过来。本发明所述的基于两两对齐的多语种句对齐方法及装置，适用于信息技术领域互联网语言翻译系统中。

Description

基于两两对齐的多语种句对齐方法及装置

技术领域

本发明属于信息技术领域，尤其涉及信息技术领域互联网语言翻译系统中的多语种句对齐方法。

背景技术

平行双语语料，是指第一种语言的文本数据是第二种语言的文本数据的译文的两种语言文本构成的数据集合。平行多语语料，是指含有多种语种的文本数据的集合，其中任意两种语种的文本数据可以构成平行双语语料。

如果用第一种语言写出的一个文档恰为用第二种语言写出的文档的译文，则称这两个文档是平行的。如果用第一种语言写出的文档中的句子S₁恰为用第二种语言写出的文档中句子S₂的译文，则称这两个句子是对齐的。在这个对齐中，第一种语言称为源语言，第二种语言称为目标语言，S₁称为源语言句子，S₂称为目标语言句子。两个句子对齐的表示方法是给两个句子分别标上不重复的整数N₁和N₂作为句子标识，对于对齐的句子用这两个整数组成数对N₁-N₂来表示对齐关系。但对齐关系并不限于用这种方式表示。如果有m个不同语种的文档，其中第i个语种的文档中标识为N_i的句子S_i，与第j个语种的文档中标识为N_j的句子S_j互为译文，则称S_i和S_j是两两对齐的。其中i和j的取值均为1..m。

对于平行多语语料具有广泛的需求，例如：它能够作为统计机器翻译的训练语料，用于多个语种相互之间的翻译，也可以用于跨语言信息检索，在不同语种的文档中检索相关信息等。在这些需求中，如何提高句对齐的质量是目前迫切需要解决的问题。句对齐的质量常用下面三种标准来衡量。但句对齐质量并不限于仅用这三种标准衡量。

1、准确率：是已经对齐正确的句对数和所有对齐的句对数之比；

2、召回率：是已经对齐的句对数和所有句对数之比；

3、F值：是准确率和召回率之积的两倍除以准确率和召回率之和。

这三种标准中，最后计算得到的值越大，则说明句对齐质量越高，反之则句对齐质量越低。但是，目前现有的方法都是用两种语言的信息来进行不同语言句子之间的两两对齐，对于多语种的情况，一般也按照多个两种语言的平行语料加以处理。由于对齐错误的存在，这种两两对齐的方法都可能导致以下两个问题：

1、对齐不一致的问题：以三个语种i，j，k为例，可能出现这样的情况，存在句子S_i，S_j，S_k，其中S_i与S_j对齐，S_j与Sk对齐，但是S_i却不和S_k对齐，很显然按照一般的逻辑推理S_i，S_j，S_k要么两两对齐要么都不对齐。

2、对齐质量的问题：由前述“对齐不一致问题”可知，由于正确的对齐没有被识别出来，往往导致上述三种标准中的某一项或多项指标下降，如果“对齐不一致问题”得到解决，则能够缓解该问题。

发明内容

本发明是为了解决在利用两两对齐方法进行多语种句对齐时，对齐结果不一致的问题，现提供基于两两对齐的多语种句对齐方法及装置。

基于两两对齐的多语种句对齐装置，该装置包括：

用于获取同一文件至少三种不同语言版本的文本的装置；

用于分别对每个语种的文本进行句子分割，获得不同语种待对齐的句子的装置；

用于对不同语种待对齐的句子进行两两对齐，然后对每组两两对齐的句子进行评分，获得所有两两对齐句子的集合A的装置；

用于对集合A中每组两两对齐句子进行冲突识别，将不冲突的两两对齐的句子从集合A中剔除，获得集合A中所有冲突的句子的集合，即差异部分的装置；

用于对差异部分进行评分，然后对该差异部分进行重新对齐，获得重新对齐的结果集合B，将A的非差异部分与B合在一起，获得全部句对齐结果的装置。

基于两两对齐的多语种句对齐方法，该方法包括以下步骤：

步骤一：用于获取同一文件至少三种不同语言版本的文本的步骤；

步骤二：用于分别对步骤一获得的每个语种的文本进行句子分割，获得不同语种待对齐的句子的步骤；

步骤三：用于对步骤二获得的不同语种待对齐的句子进行两两对齐，然后对每组两两对齐的句子进行评分，获得所有两两对齐句子的集合A的步骤；

步骤四：用于对步骤三获得的集合A中每组两两对齐句子进行冲突识别，将不冲突的两两对齐的句子从集合A中剔除，获得集合A中所有冲突的句子的集合，即差异部分的步骤；

步骤五：用于对步骤四获得的差异部分进行评分，然后对该差异部分进行重新对齐，获得重新对齐的结果集合B，将A的非差异部分与B合在一起，获得全部句对齐结果的步骤。

本发明所述的基于两两对齐的多语种句对齐方法及装置，首先对不同语种文本中的句子进行两两对齐，获得两两对齐结果，然后对该结果进行冲突识别并将冲突的部分标记出来，最后对冲突部分进行评分并重新进行两两对齐，从而使得多语种句对齐结果具有一致性，从而可以将两两对齐结果中部分对齐错误的错误结果更正过来。

本发明所述的基于两两对齐的多语种句对齐方法及装置，对自然语言处理、文本信息处理具有促进作用，适用于信息技术领域互联网语言翻译系统中。

附图说明

图1是具体实施方式四所述基于两两对齐的多语种句对齐方法的流程图。

图2是具体实施方式六所述对两两对齐结果中的差异部分进行识别的方法的流程图。

图3是具体实施方式七所述的索引表的结构示意图。

具体实施方式

具体实施方式一：本实施方式所述的基于两两对齐的多语种句对齐装置，该装置包括：

用于获取同一文件至少三种不同语言版本的文本的装置；

具体实施方式二：本实施方式是对具体实施方式一所述的基于两两对齐的多语种句对齐装置作进一步说明，本实施方式中，用于分别对每个语种的文本进行句子分割，获得不同语种待对齐的句子的装置进一步包括：

用于将每个语种的文本中所有的时间标识和换行符删除，获得所有句子均合并为一行的文本的装置；

用于对文本中所有字符进行扫描，扫描所有表示语句结束的符号，然后根据所述符号将文本分割成若干条句子，每条句子作为一个独立的单语种句子的装置。

具体实施方式三：本实施方式是对具体实施方式一所述的基于两两对齐的多语种句对齐装置作进一步说明，本实施方式中，用于对两两对齐句子进行冲突识别的装置进一步包括：

用于将所有两两对齐的句子放入索引表中进行索引的装置；

用于判断所有两两对齐的句子是否冲突，并将冲突的两两对齐句子标记为冲突的装置。

具体实施方式四：参照图1具体说明本实施方式，基于两两对齐的多语种句对齐方法，该方法包括以下步骤：

对步骤一举例说明：人工从网站上搜索一部影片，在影片字幕下载页面分别选择中英、俄英、西(西班牙)英的字幕文件进行下载，从而获得同一部电影字幕的不同语言翻译版本。

在句对齐过程中使用至少两种语言间的句对齐结果；在句对齐过程中需要第三种语言的文本信息来评价已获得的句对齐结果。

具体实施方式五：本实施方式是对具体实施方式四所述的基于两两对齐的多语种句对齐方法作进一步说明，本实施方式中，步骤二中对每个语种的文本进行句子分割的方法为：

步骤二一：用于将每个语种的文本中所有的时间标识和换行符删除，获得所有句子均合并为一行的文本的步骤；

步骤二二：用于对步骤二一获得的文本中所有字符进行扫描，扫描所有表示语句结束的符号，然后根据所述符号将文本分割成若干条句子，每条句子作为一个独立的单语种句子的步骤。

具体实施方式六：参照图2具体说明本实施方式，本实施方式是对具体实施方式四所述的基于两两对齐的多语种句对齐方法作进一步说明，本实施方式中，步骤四中对两两对齐结果中的差异部分进行识别的方法为：

步骤四一：用于将集合A中所有两两对齐的句子放入索引表中进行索引的步骤；

步骤四二：用于判断所有两两对齐的句子是否冲突，并将冲突的两两对齐句子标记为冲突的步骤。

具体实施方式七：参照图3具体说明本实施方式，本实施方式是对具体实施方式六所述的基于两两对齐的多语种句对齐方法作进一步说明，本实施方式中，步骤四一所述的索引表包括四层，第一层为源语言的语种序号i；第二层为目标语言的语种序号j；第三层为所有两两对齐句子中，源语言句子的标识N_i；第四层为与N_i两两对齐的目标语言句子的标识N_j。

在索引表的第三层能够查到N_i，在N_i对应的第四层能够查到N_j表示N_i-N_j有对齐，否则表示N_i-N_j无对齐。

具体实施方式八：本实施方式是对具体实施方式六所述的基于两两对齐的多语种句对齐方法作进一步说明，本实施方式中，步骤四二所述判断所有两两对齐的句子是否冲突的方法为：

根据索引获得的结果，当N_i-N_j的值为0时，则构成一个冲突。

具体实施方式九：本实施方式是对具体实施方式四所述的基于两两对齐的多语种句对齐方法作进一步说明，本实施方式中，步骤五中所述对步骤四获得的差异部分进行评分，获得的分数为：

{s^{'}}_{i, j} = \underset{\underset{i &NotEqual; j}{1 \leq i, j \leq m}}{Σ} w_{i, j} s_{i, j}

其中m为语种的总数；w_i，j为调整因子，取值为1；s_i，j表示步骤三对每一组两两对齐句子进行评分后所获得的分数，其中i和j分别表示两两对齐所涉及的两种语言。

具体实施方式十：本实施方式是对具体实施方式五所述的基于两两对齐的多语种句对齐方法作进一步说明，本实施方式中，步骤二二所述表示语句结束的符号是感叹号、句号、问号或分号。

设步骤四获得的所有未对齐的句子的标识集合为其中i表示第i种语言，t表示该种语言下的句子序号，设该集合所有语言中，同一语种句子数的最大值为n，则在句子数少于n的语种中，添加若干个空句子使得该语种句子数达到n，此时每种语言都有n个句子，利用s′_i，j重新对齐的伪代码，对冲突部分重新对齐，获得重新对齐结果，该结果的集合为B。

所述利用s′_i，j重新对齐的伪代码为：B=φ

Claims

1.基于两两对齐的多语种句对齐装置，其特征在于，它包括：

用于获取同一文件至少三种不同语言版本的文本的装置；

用于对不同语种待对齐的句子进行两两对齐，然后对每组两两对齐的句子进行评分，获得所有两两对齐的句子的集合A的装置；

用于对集合A中每组两两对齐的句子进行冲突识别，将不冲突的两两对齐的句子从集合A中剔除，获得集合A中所有冲突的句子的集合，即差异部分的装置；

用于对差异部分进行评分，然后对该差异部分进行重新对齐，获得重新对齐的结果集合B，将A的非差异部分与B合在一起，获得全部句对齐结果的装置；该装置中对差异部分进行评分并重新进行两两对齐，使得多语种句对齐结果具有一致性，进而将两两对齐结果中部分对齐错误的错误结果更正过来。

2.根据权利要求1所述基于两两对齐的多语种句对齐装置，其特征在于，用于分别对每个语种的文本进行句子分割，获得不同语种待对齐的句子的装置进一步包括：

3.根据权利要求1所述基于两两对齐的多语种句对齐装置，其特征在于，用于对两两对齐的句子进行冲突识别的装置进一步包括：

用于将所有两两对齐的句子放入索引表中进行索引的装置；

用于判断所有两两对齐的句子是否冲突，并将冲突的两两对齐的句子标记为冲突的装置。

4.基于两两对齐的多语种句对齐方法，其特征在于，该方法包括以下步骤：

步骤三：用于对步骤二获得的不同语种待对齐的句子进行两两对齐，然后对每组两两对齐的句子进行评分，获得所有两两对齐的句子的集合A的步骤；

步骤四：用于对步骤三获得的集合A中每组两两对齐的句子进行冲突识别，将不冲突的两两对齐的句子从集合A中剔除，获得集合A中所有冲突的句子的集合，即差异部分的步骤；

步骤五：用于对步骤四获得的差异部分进行评分，然后对该差异部分进行重新对齐，获得重新对齐的结果集合B，将A的非差异部分与B合在一起，获得全部句对齐结果的步骤；该步骤中对冲突部分进行评分并重新进行两两对齐，使得多语种句对齐结果具有一致性，进而将两两对齐结果中部分对齐错误的错误结果更正过来。

5.根据权利要求4所述基于两两对齐的多语种句对齐方法，其特征在于，步骤二中对每个语种的文本进行句子分割的方法为：

6.根据权利要求4所述基于两两对齐的多语种句对齐方法，其特征在于，步骤四中对两两对齐结果中的差异部分进行识别的方法为：

步骤四二：用于判断所有两两对齐的句子是否冲突，并将冲突的两两对齐的句子标记为冲突的步骤。

7.根据权利要求6所述基于两两对齐的多语种句对齐方法，其特征在于，步骤四一所述的索引表包括四层，第一层为源语言的语种序号i；第二层为目标语言的语种序号j；第三层为所有两两对齐的句子中源语言句子的标识N_i；第四层为与N_i两两对齐的目标语言句子的标识N_j。

8.根据权利要求6所述基于两两对齐的多语种句对齐方法，其特征在于，步骤四二所述判断所有两两对齐的句子是否冲突的方法为：

根据索引获得的结果，当N_i-N_j的值为0时，则构成一个冲突；

N_i表示所有两两对齐的句子中源语言句子的标识，N_j表示与N_i两两对齐的目标语言句子的标识。

9.根据权利要求4所述基于两两对齐的多语种句对齐方法，其特征在于，步骤五中所述对步骤四获得的差异部分进行评分，获得的分数为：

{s^{'}}_{i, j} = \underset{i &NotEqual; j}{\underset{1 \leq i, j \leq m}{Σ}} w_{i, j} s_{i, j}

其中m为语种的总数；w_i,j为调整因子，取值为1；s_i,j表示步骤三对每一组两两对齐的句子进行评分后所获得的分数，其中i和j分别表示两两对齐所涉及的两种语言。

10.根据权利要求5所述基于两两对齐的多语种句对齐方法，其特征在于，步骤二二所述表示语句结束的符号是感叹号、句号、问号或分号。