CN103678565B

CN103678565B - 一种基于自引导方式的领域自适应句子对齐系统

Info

Publication number: CN103678565B
Application number: CN201310659722.3A
Authority: CN
Inventors: 程工; 刘春阳; 庞琳; 张旭; 巢文涵; 黄智�; 李舟军
Original assignee: Beihang University; National Computer Network and Information Security Management Center
Current assignee: Beihang University; National Computer Network and Information Security Management Center
Priority date: 2013-12-09
Filing date: 2013-12-09
Publication date: 2017-02-15
Anticipated expiration: 2033-12-09
Also published as: CN103678565A

Abstract

一种基于自引导方式的领域自适应句子对齐系统，包括：网页处理模块，中文文本处理模块，英文文本处理模块和双语文处理模块。首先，针对不同的网页，对于料进行提取和相应做预处理；使用一种基于自引导的方式并融合多种特征的句子对齐算法对中英文进行句子级的对齐；同时，对可能能够反映相关领域信息和主题信息的互译词对进行提取。本发明提高了句子对齐质量，具有领域适应性强的优点。

Description

一种基于自引导方式的领域自适应句子对齐系统

技术领域

本发明涉及一种基于自引导（bootstrap）方式的领域自适应句子对齐系统，属于自然语言处理的文本处理领域，自引导方式是指利用算法结果反馈算法条件，通过多次迭代达到最优。

背景技术

在自然语言处理领域，高质量平行语料的获取是一个非常重要的问题，对于机器翻译、跨语言检索等应用具有重要意义。互联网是一个很好的资源库，是获取语料很好的来源。不过，由于互联网对信息存储和组织方式的特殊性，若要想较好的利用文本信息，还需要对网页信息进行提取和相应的预处理工作。能否获得大规模经过良好预处理并同时具有较高对齐质量的句对，是影响机器翻译系统质量的关键因素。

一方面，机器翻译系统对经过处理后的平行语料和对齐句对有着比较迫切的需求；另一方面，在预处理方面需要做的操作较为繁琐，这些工作由人工完成过于耗费时间和精力；且目前的句子对齐存在质量不高、不具有领域针对性的问题。

发明内容

本发明技术解决的主要问题：克服现有技术的不足，提供一种基于自引导方式的领域自适应句子对齐系统，提高了句子对齐质量，具有领域适应性强的优点。

本发明的技术解决方案：1、一种基于自引导方式的领域自适应句子对齐系统，其特征在于包括：网页处理模块，中文文本处理模块，英文文本处理模块和双语文处理模块；其中：

网页处理模块，对网页形式的语料进行解析，从中提取出有用的文本信息，对于中文文本则送至中文文本处理模块，对于英文文本信息则送至英文文本处理模块；

中文文本处理模块，结合中文的特点，对中文文本信息进行相关预处理工作，包括编码转换、分句、分词，词性标注；

英文文本处理模块，结合英文的特点，对英文文本进行预处理工作，主要包括词根化处理，词性标注，命名实体识别；

双语处理模块，对中文文本处理模块和英文文本处理模块后的中英文信息，采用自引导方式算法实现双语的句子级对齐和领域互译词对的提取，其中该模块包含两个子模块：融合多特征的句子对齐子模块，实现句子对齐；基于词对共现信息和词频特性的词对提取子模块，实现领域词对的提取；

所述自引导方式的自适应句子对齐算法实现如下：

（1）读入中文文本处理模块和英文文本处理模块输出的中英文文本；同时读入互译词典，其中包含了互译词对集合；

（2）调用融合多特征的句子对齐子模块，融合互译词对、候选句对中词语的词性相关信息、互译词的重要程度、候选句对的长度关系，候选句对中特殊标点符号特征，形成句子对齐结果；

（3）调用词对提取子模块，基于词对词频特性和共现信息，对步骤（2）生成的句对齐结果进行处理，提取出文本中的互译词对，并将其加入到互译词典中；

（4）循环步骤（2）-（3），直至达到收敛状态，即句子对齐集合和互译词典都没有变化。

所述融合多特征的句子对齐子模块的具体过程为：（1）输入待句子对齐的双语文本的句子集合；（2）提取候选句子对；（3）提取候选句子对中的文本特征，包括：词性特征、特殊标点符号特征和长度特征等；（4）融合多种特征对候选句对的相似度进行打分；（5）利用动态规划算法寻找最佳双语句子集合的最佳对齐序列，作为最终的句子对齐结果。

所述基于词对词频特性和共现信息的词对提取子模块的具体过程为：

（1）输入句对集合，提取候选互译词对；

（2）判断候选互译词对的出现频率是否大于最低阈值，删除出现频率过低的候选互译词对；

（3）计算互译词对在两种语言文本中出现频率差，其计算公式为：其中freq1和freq2为两个待判断词语在各自语言文本中的出现频率，删除频率差大于某个阈值的候选词对；

（4）基于词对的篇章级特征和上下文，计算候选词对在整个篇章、句对以及其周围存在互译词的个数等特征，根据这些特征对候选词对进行排序，输出最好的N个互译候选词，（一般取N=3～5）认为它们是互译词对。

本发明与现有技术相比的优点和创新点在于：

（1）本发明通过能够比较方便的完成一般预处理阶段要求完成的大多数常见操作，功能覆盖全面，通过较为友好的交互界面，操作方便简洁，自由度较高。

（2）如何快速的自动获取领域术语词典一直以来是很值得研究问题。本系统添加了的互译词提取可以看作是一种主题词对和术语词对的提取过程。由于要顾及抽取效率，系统在设计时选取直观的特征，简化抽取算法，保持较高的效率，一方面可以用来完善句子对齐时的词典并提高对齐质量，另一方面能够构建相关主题的词典。主题词典在自然语言处理领域有着广泛的用途，例如用在特定领域的机器翻译，情感分析等问题上。如果能够较好较快的自动构建，那么将会节省大量的资源。

（3）对于基于词典的（lexica-base）句子对齐算法，其关键是需要有一个通用的词典（seed-dictionary）。该类算法具有词典依赖性。而在具有领域特征的语料中，一些能够反映主题或者领域特征的词汇出现的频率将会较高，这些词通常在seed-dictionary中不会出现，因此词典依赖性就成为影响对齐算法性能的关键因素。为了解决这样的缺乏自适应能力现象，该发明提出了一种基于自引导的自适应方法。采用策略是利用术语词对和主题词对扩充词典。要扩充词典需要提取相关主题词，就需要有对齐的句对。而现在的问题是没有对齐好的相应领域的句对，这就回到问题起点。为了解决这样的相互依存问题，借鉴EM迭代算法的思想，使用自引导方式进行自展和迭代。具体过程为：先进行粗对齐，提取词对，进行反馈，在进行细对齐。如果效果有所改善，则再进行提取。

附图说明

图1为本发明的系统框图；

图2为本发明中自引导的双语处理模块流程图；

图3为本发明中融合多特征的句子对齐算法流程图；

图4为本发明中基于词对频率特性和共现信息的词对提取流程图。

具体实施方式

如图1所示，本系统的体系结构包括四个部分，每部分的相关实现方式如下：

1.网页处理模块

该部分以网页语料为主要处理对象。网页语料是指从web上直接爬取下来的包含中英文平行或可比的HTML文件。通过具体网页的格式和相关特征的分析，使用正则表达式提取相应正文，其中包括中文文本和英文文本。

2.英文处理模块

结合英语标点符号特征，处理分句操作、词元化（Tokenize）和词根化过程等。

词元化是一种将英文单词和紧随单词的标点符号进行分离的过程。通常这些紧随单词的标点都会影响到英文单词的识别，由于英文文本中经常有特殊的标点符号用法（例如he’s she’d等），所以在进行词元化时需要考虑特殊情形。这里利用正则表达式匹配处理特殊的符号使用模式。

词根化过程利用基于词典和基于规则的两种方式相结合。对于常见词，进行基于词典的直接转换；对于不常见词汇进行基于规则的变换。

3.中文处理模块

中文处理模块实现了对中文文本的多重处理操作，包括：分句、分词、词性标注等。该模块的输入部分为经过提取的中文篇章，经过正则表达式处理，分为单句；以每个单句为基本对象，经过分词模型对句子进行中文分词处理，中文分词和词性标注主要是采用条件随机场（CRF）的算法，将它们看作是序列标注问题，利用标注语料继续训练得到相应模型，并用于最终的分词和词性标注。

4.双语处理模块

双语处理模块是本发明的核心模块，其采用一种自引导的方式实现句子对齐和互译词对提取。

其基本流程如下，如图2所示：

1）输入待句子对齐的双语文本句子集合；

2）调用句子对齐子模块获得双语文本的句子对齐；

3）基于句子对齐结果，调用词对提取模块获得领域互译词对；

4）判断是否收敛：若句子对齐和互译词对均不改变，则退出；否则循环步骤2-3。

作为发明的核心部分，下面分别对句子对齐算法和词对抽取算法进行详细介绍。

4-1.融合多特征的双语句子对齐模块

句子对齐是指对输入的语篇进行划分，使每两个可以互译的部分成为一个句对的过程。句子对齐的难点在于如何识别一对多和一对空的对齐情况。实现对齐算法时，以基于词典的对齐算法作为基础，在此基础上融入多种文本信息特征对句对进行评分、解码。

1）句子对齐的形式化定义为了清楚的表达说明句子对齐算法，做以下相关的形式化定义：

给定待对齐双语文本，它们已经经过了分句处理，即分别包含中文和英文句子序列：

英文句子序列：E=e1,e2,…em，中文句子序列:C=c1,c2,…cn。

现在的目标是寻找到一个句子对齐，使得能够将英文和中文句子序列划分为顺序的k个片段：

英文片段序列Eseg=eseg1，eseg2..esegk

中文片段序列Cseg=cseg1，cseg2..csegk

使得第i个英文片段esegi与第i个中文片段csegi是互译的。

即：句子对齐Alignment={(eseg1,cseg1)…(esegn,csegn)}

其中，中文或英文每个句字段中可以包含对应的中文或英文句子序列中的一句、多句、或不包含句子（omitted）。从而形成了一对一（一个英文句子对应一个中文句子）、一对多（一个英文句子对应多个中文句子）、多对多、一对空、多对空等不同的句子对齐方式。此处只考虑如下几种情况：

1<=>omitted,omitted<=>1，1<=>1,1<=>2,1<=>3,1<=>4,2<=>1,2<=>2,3<=>1,4<=>1。

即：一对空、空对一、一对一、一对二、一对三、一对四、二对一、二对二、三对一、四对一。

2）句子对齐的动态规划算法

其基本原理是首先抽取候选句子对，利用评分函数对其进行评分，最后利用动态规划算法进行解码，确定双语句子集合中最佳的句子对齐序列。

动态规划算法的过程如下，如图3所示：

2-1）给定中英文句子序列；

2-2）设定初始Score(0,0)=0；

其中Score(i,j)表示到英文的第i个句子和中文的第j个句子为止的总篇章对齐质量得分。

2-3）递归计算Score(i,j)如下：

其中：Sim(eseg,cseg)是指英文分段和第i个的中文分段的相似度得分，表示第i到第j个英文句子序列形成的英文分段；表示第i到第j个中文句子序列形成的英文分段。

2-4）最后输出Score(m,n)及句子对齐

将给出m个英文句子序列和n个中文句子序列形成的最佳句子对齐序列及其得分。

句子对齐算法中的关键是sim函数，它是句对相似度评价模型，是本发明的主要改进之处。下面对其进行详细阐述。

3）融合多特征的句对相似度评价模型

sim模型融合了多种文本特征。相比已有的算法，sim模型主要考虑了如下特征：

3-1）互译词对特征

获得一个互译句对中互译词对，并对它们加权加和，计算公式如下：

其中，sf(ei,ci)是指互译词对(ei,ci)在当前英文分段eseg和中文分段cseg中同现的出现频率（segment term frequency），类似于信息检索技术中的词频（termfrequency，tf），而idft(ei,ci)的意义是指互译词对在整个文档中出现次数的倒数。sf和idft结合起来衡量一个互译词(ei,ci)对英文分段eseg和中文分段cseg对齐的贡献。

word_sim(eseg,cseg)表示英文分段eseg和中文分段cseg的互译词对特征值。若英文分段eseg和中文分段cseg中出现的互译词对越多且它们的重要程度越高，则该特征的值越多。

3-2）词性特征

在一个中英文对齐句对中，名词、动词和形容词的个数应当差别不大。由于动词具有较多的时态变化和形式变化，有时差距会比较大。另一方面，形容词出现的次数相对于动词和名词都比较少，可能导致一个对齐句对中也有可能有较大比例的差距。故选择名词个数作为相似度特征。将词性特征加入到对齐模型中的弊端是需要引入英文的词性标注操作。词性标注过程会在一定程度上影响对齐算法的效率，不过考虑到处理的网页语料的规模，以及该特点在准确度上的贡献，引入新的时间消耗是可以被接受的。

该特征量化的数学模型如下：

其中，eseg_n表示英文分段中的名词数，cseg_n表示中文分段中的名词数，min(eseg_n,cseg_n)表示英文名词数和中文名词数中的最小值；max(eseg_n,cseg_n)表示英文名词数和中文名词数中的最大值；noun_penalty(eseg,cseg)表示词性特征值。

该模型表示当中文和英文句对中名词的个数越相近则评分越高，最高评分为1，同时分子分母加1作为数据平滑。

3-3）特殊标点符号特征

通过观察发现，在对齐句对中还有一个比较好的特征是特殊的标点符号。这里特殊的标点是指引号、冒号以及小括号。

以冒号特征为例，数学模型公式如下，其表达式形式和意义与词性特征基本相同。

其中，eseg_c表示英文分段中的标点数，cseg_c表示中文分段中的标点数，min(eseg_c,cseg_c)表示英文标点数和中文标点数中的最小值；max(eseg_c,cseg_c)表示英文标点数和中文标点数中的最大值；colon_penalty(eseg,cseg)表示标点惩罚特征值。

这种标点符号特征通常和文章的类型和写作风格有较大关系。例如，在摘要等总结性质较强的语句中，冒号和括号会多一些，引号会很少；在叙述性的语料中，引号出现的情况多一些。

3-4）长度惩罚特征

对于中英文对齐来说，以中文分词后的单个词作为统计的长度基本单位效果比较好。修改后的length_penalty计算公式如下：

其中delta1和delta2作为平滑因子防止没有意义的计算公式，eseg_length表示英文分段长度，cseg_length表示中文分段长度，min(eseg_length,cseg_length)表示英文分段长度和中文分段长度中的最小值；max(eseg_c,cseg_c)表示英文分段长度和中文分段长度中的最大值；length_penalty(eseg,cseg)表示长度惩罚特征值。

最后sim模型如下所示：

sim(eseg，cseg)

＝{word_{Sim(eseg，cseg)}+w[0]*noun_{penalty(eseg，cseg)}+w[1]

*colon_{penalty(eseg，cseg)}}*length_penalty(eseg，cseg)

其中：w[0],w[1]是两个特征的相应权值。权值通过使用1500对人工标注的句对进行监督式训练获得。

Word_Sim(eseg,cseg)是互译词对特征，noun_penalty(cseg,eseg)是名词数惩罚；colon_penalty(eseg,cseg)是指特殊标点的惩罚；而length_penalty(eseg,cseg)是融合句子长度信息的惩罚。

4-2.互译词对提取算法

为了使系统有更稳定的性能并具有一定的领域自适应能力，在对齐算法后会进行互译词对抽取，通过扩展词典的方式提高算法的自适应性。扩展词典通过利用对齐好的句对作为来源，考虑每个词的上下文特征（context vector）以及频率特征。

在互译词提取时，借鉴了IBM model1词对齐的算法思想。在IBM model1中，初始假设所有的词对都能两两对齐，然后考虑篇章频率和其他特征，通过多次迭代得到对齐的词对。和词对齐算法需求有所不同，此处不需要找出所有的对齐词对，因此主要过程如下，如图4所示：

1）抽取候选互译词对

基于句子对齐结果提取出所有可能的候选对，即在句对中出现的所有可能的词对。

2）删除频率低和频率差高的候选

设置最低频率阈值和频率差阈值，过滤掉低于这些阈值的词对。

3）计算候选词对的上下文特征

首先，为每个词建立相应的特征向量。特征向量包括这个词的多个特征，主要有：该词语在语篇中出现的次数，可能与其互译的候选词组，该词的上下文，即其周围的基本词汇。

做如下假设，每个词的特征向量建立在此假设上：

（1）一对互译的术语词对在整篇文章中的出现次数应该是相同的；

（2）一对互译的词对在对齐的句对中的出现次数应该是相同的；

（3）一对互译词对的周围应存在能够互译的基本词。

（4）每个主题或领域相关的中文词只对应一个英文词。

（5）每个主题或领域相关的英文词只对应一个中文词。

建立完特征向量后在对齐的句对中筛选候选互译的候选词对。该类词对满足之前提出的假设。在得到候选词对后，对整个语篇进行统计，统计每个候选词对共现的情况。每共现一次，则该词对互译评分增加一个特定权值。此处在设计时做了特别处理。由于句子对齐算法在对1<=>1的判断时正确率较高，因此共现词对的权值增加较大，而在考虑一对多的句对时，权值增加较小。

4）对候选互译词对排序并输出

最后进行的是排序。排序时采用了双向的排序方式以对词对进行筛选。具体来说：按照每个英文单词进行分类，把它所有对应的中文按权值排序，然后按照每个中文词进行分类，把它对应的英文按权值排序，找出在两次排序中权值都是最高的N个结果作为一个词对输出。

本发明未详细阐述部分属于本领域公知技术。

以上所述，仅为本发明部分具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域的人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于自引导方式的领域自适应句子对齐系统，其特征在于包括：网页处理模块，中文文本处理模块，英文文本处理模块和双语文处理模块；其中：

所述自引导方式的自适应句子对齐算法实现如下：

(1)读入中文文本处理模块和英文文本处理模块输出的中英文文本；同时读入互译词典，其中包含了互译词对集合；

(2)调用融合多特征的句子对齐子模块，输入待句子对齐的双语文本的句子集合；提取候选句子对；提取候选句子对中的文本特征，包括：互译词对特征、词性特征、特殊标点符号特征和长度惩罚特征；融合多种特征对候选句对的相似度进行打分；利用动态规划算法寻找最佳双语句子集合的最佳对齐序列，作为最终的句子对齐结果；

(3)调用词对提取子模块，基于词对词频特性和共现信息，对步骤(2)生成的句对齐结果进行处理，提取出文本中的互译词对，并将其加入到互译词典中；

(4)循环步骤(2)-(3)，直至达到收敛状态，即句子对齐集合和互译词典都没有变化。

2.根据权利要求1所述的基于自引导方式的领域自适应句子对齐系统，其特征在于：所述基于词对词频特性和共现信息的词对提取子模块的具体过程为：

(1)输入句对集合，提取候选互译词对；

(2)判断候选互译词对的出现频率是否大于最低阈值，删除出现频率过低的候选互译词对；

(3)计算互译词对在两种语言文本中出现频率差，其计算公式为：其中freq1和freq2为两个待判断词语在各自语言文本中的出现频率，删除频率差大于某个阈值的候选词对；

(4)基于词对的篇章级特征和上下文，计算候选词对在整个篇章、句对以及其周围存在互译词的个数特征，根据这些特征对候选词对进行排序，输出最好的N个互译候选词，取N＝3～5认为它们是互译词对。