CN105955966A

CN105955966A - 一种改进训练语料的平行质量的方法及装置

Info

Publication number: CN105955966A
Application number: CN201610235521.4A
Authority: CN
Inventors: 段湘煜; 龚慧敏; 张民
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2016-04-15
Filing date: 2016-04-15
Publication date: 2016-09-21
Anticipated expiration: 2036-04-15
Also published as: CN105955966B

Abstract

本发明公开了一种改进训练语料的平行质量的方法及装置。该方法包括：在预先获得的训练语料库中确定待纠正的目标句对，目标句对包括原文句子和相对应的译文句子；从目标句对的所有组合划分点中，选择一个可用组合划分点；利用可用组合划分点划分目标句对，获得原文句子的两个子句和译文句子的两个子句；确定获得的子句构成的子句对是否平行及各子句间的非平行关系；根据预设的对应规则，使用与确定的非平行关系对应的纠正方式纠正目标句对。应用本发明实施例所提供的技术方案，改进了训练语料的平行质量，提升了统计机器翻译系统的翻译性能。

Description

一种改进训练语料的平行质量的方法及装置

技术领域

本发明涉及语言处理技术领域，特别是涉及一种改进训练语料的平行质量的方法及装置。

背景技术

随着科学技术的快速发展，经济全球化、文化全球化的步伐逐渐加快，随着而来的是语言交流的加强，这使得人们对于不同种语言间翻译的需求越来越多。

目前，多使用统计机器翻译(Statistical Machine Translation，SMT)系统进行不同语言间的翻译。统计机器翻译系统是基于训练语料库来训练翻译模型的，即通过对训练语料库中的大量的训练语料进行统计分析，构建统计翻译模型，进而使用此模型进行翻译。训练语料的平行质量对统计机器翻译系统的翻译性能有着重要影响。

但实际上，因为不同语言间的语法、结构等具有差异性，训练语料库中的句对并不总是平行的，使得训练语料的平行质量较差，严重影响着统计机器翻译系统的翻译性能。因此，当前亟需一种改进训练语料的平行质量的方法。

发明内容

本发明的目的是提供一种改进训练语料的平行质量的方法及装置，以改进训练语料的平行质量，提高统计机器翻译系统的翻译性能。

一种改进训练语料的平行质量的方法，包括：

在预先获得的训练语料库中确定待纠正的目标句对，所述目标句对包括原文句子和相对应的译文句子；

从所述目标句对的所有组合划分点中，选择一个可用组合划分点；

利用所述可用组合划分点划分所述目标句对，获得所述原文句子的两个子句和所述译文句子的两个子句；

确定获得的子句构成的子句对是否平行及各子句间的非平行关系；

根据预设的对应规则，使用与确定的非平行关系对应的纠正方式纠正所述目标句对。

在本发明的一种具体实施方式中，通过以下步骤获得所述训练语料库：

获得初始语料库；

对所述初始语料库中的语料进行格式规范化处理，获得所述训练语料库。

在本发明的一种具体实施方式中，所述从所述目标句对的所有组合划分点中，选择一个可用组合划分点，包括：

识别所述目标句对中与预设的组合划分点类型相匹配的所有组合划分点；

针对识别到的每个组合划分点，确定利用该组合划分点划分所述目标句对所对应的词对齐错误率；

根据各个组合划分点对应的词对齐错误率的大小，确定所述目标句对的可用组合划分点。

在本发明的一种具体实施方式中，所述确定获得的子句构成的子句对是否平行，包括：

针对每个子句对，确定该子句对的句长信息和词对齐信息；

根据所述句长信息和所述词对齐信息，确定该子句对的词对齐信息的词频；

根据所述词对齐信息的词频与预设第一阈值的关系，确定该子句对是否平行。

针对每个子句对，确定该子句对的句长信息和词对齐信息；

根据所述句长信息和所述词对齐信息，确定该子句对的词对齐信息的密度；

根据所述词对齐信息的密度与预设第二阈值的关系，确定该子句对是否平行。

一种改进训练语料的平行质量的装置，包括：

目标句对确定模块，用于在预先获得的训练语料库中确定待纠正的目标句对，所述目标句对包括原文句子和相对应的译文句子；

选择模块，用于从所述目标句对的所有组合划分点中，选择一个可用组合划分点；

划分模块，用于利用所述可用组合划分点划分所述目标句对，获得所述原文句子的两个子句和所述译文句子的两个子句；

句对平行确定模块，用于确定获得的子句构成的子句对是否平行及各子句间的非平行关系；

纠正模块，用于根据预设的对应规则，使用与确定的非平行关系对应的纠正方式纠正所述目标句对。

在本发明的一种具体实施方式中，所述装置还包括训练语料库获得模块，用于通过以下步骤获得所述训练语料库：

获得初始语料库；

在本发明的一种具体实施方式中，所述选择模块，具体用于：

在本发明的一种具体实施方式中，所述句对平行确定模块，具体用于：

针对每个子句对，确定该子句对的句长信息和词对齐信息；

应用本发明实施例所提供的技术方案，通过可用组合划分点划分目标句对，将目标句对进行细粒度化，根据划分后各子句间的非平行关系，确定相对应的纠正方式纠正该目标句对，改进了训练语料的平行质量，提升了统计机器翻译系统的翻译性能。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中改进训练语料的平行质量的方法的实施流程图；

图2为本发明实施例中句对和词对齐信息构成的坐标示意图；

图3为本发明实施例中句对的平行关系的示意图；

图4为本发明实施例中改进训练语料的平行质量的装置的结构示意图。

具体实施方式

本发明的核心是提供一种改进训练语料的平行质量的方法及装置，以改进训练语料的平行质量，提高统计机器翻译系统的翻译性能。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1所示，为本发明实施例所提供的改进训练语料的平行质量的方法的一种实施流程图，该方法可以包括以下步骤：

S110：在预先获得的训练语料库中确定待纠正的目标句对，目标句对包括原文句子和相对应的译文句子。

在本发明实施例中，统计机器翻译系统所使用的训练语料库，是由原文文本及其平行对应的译文文本构成的双语或者多语语料库。

原文文本和译文文本构成训练语料库中的语料，原文句子和相对应的译文句子构成该训练语料库中的句对。

理想状态下，训练语料库中的各句对都是平行的，这样，统计机器翻译系统的翻译性能较优，可以很好的进行不同语言间的翻译。但是，因为不同语言间的语法、结构等具有差异性，训练语料库中的句对并不总是平行的，如果统计机器翻译系统基于这样的训练语料库进行模型训练，会降低其翻译性能。

所以，需要在预先获得的训练语料库中确定待纠正的目标句对。在实际应用中，可以从训练语料库的第一个句对开始，逐一将训练语料库中的每一个句对确定为目标句对，然后继续执行步骤S120的操作。或者，可以先对训练语料库中的各句对的平行关系进行粗略判断，筛选出符合预设的纠正条件的句对，如非平行句对，逐一将这些句对确定为目标句对，再继续执行步骤S120的操作。

在本发明的一种具体实施方式中，可以通过以下步骤获得训练语料库：

步骤一：获得初始语料库；

步骤二：对初始语料库中的语料进行格式规范化处理，获得训练语料库。

为方便描述，将上述两个步骤结合起来进行说明。

初始语料库可以是从语料库提供者处获得的，为初始训练语料库。因为初始语料库需要符合大众需求，其文本格式保持了最原始的文本状态，使用者可以根据不同的实验数据要求对其进行过滤处理。

在本发明实施例中，统计机器翻译系统所基于的训练语料库要求其文本的一致性。所以，在获得初始语料库后，需要对初始语料库中的语料进行格式规范化处理，以符合本发明实施例的格式要求。

以原文文本和译文文本分别为中文文本和英文文本为例，对初始语料库中的语料，即原文文本和译文文本分别进行格式规范化处理后，使得中文文本中的标点符号不含有英文标点符号，不包含不可解析的网络符号等，使得英文文本中的标签性字母、数字等保持大小写一致，称呼或者标题的分隔符与该称呼紧连在一起，以一个单词的形式出现，不分割。

具体的格式要求可以由技术人员根据实际情况进行设定。

对初始语料库中的语料进行格式规范化处理后，获得本发明实施例所需的训练语料库。

在实际应用中，如果获得的初始语料库中的语料符合本发明实施例的格式要求，还可以直接将获得的初始语料库作为本发明实施例所需的训练语料库。

S120：从目标句对的所有组合划分点中，选择一个可用组合划分点。

在训练语料库中，大部分句对均存在不同的组合划分点。针对一个句对而言，组合划分点是指该句对的原文句子的划分点和对应的译文句子的划分点的组合。

在本发明实施例中，可以预先设置组合划分点类型，依据组合划分点类型识别该目标句对的所有组合划分点。组合划分点类型可以是标点符号类型或者关键词类型。

标点符号类型是指原文句子中的标点符号和译文句子中的标点符号相互组合。以中英文句对为例，该句对中英文句子的标点符号“.”与中文句子的标点符号“。”组合构成一个组合划分点。

关键词类型是指原文句子中的关键词与译文句子中相应的关键词相互组合。仍以中英文句对为例，该句对中英文句子中的关系连词、关系代词、时间词、数词(how、which、after、No.1等)和中文句子中的关系连词、关系代词、时间词、数词等相互组合分别构成不同的组合划分点。

根据不同语言的语法规范，还可以将标点符号类型和关键词类型的划分点相互组合，如原文句子中的标点符号与译文句子中的相应关键词相互组合。

在实际应用中，可以从目标句对的所有组合划分点中，随机选择一个可用组合划分点。

但为保证对目标句对划分的准确性，可以根据一定的规则从目标句对的所有组合划分点中，根据预设规则选择一个可用组合划分点。

在本发明的一种具体实施方式中，步骤S120可以包括以下步骤：

第一个步骤：识别目标句对中与预设的组合划分点类型相匹配的所有组合划分点。

如前所述，目标句对中可能存在多个与预设的组合划分点类型相匹配的组合划分点，逐一识别出该目标句对中与组合划分点类型相匹配的所有组合划分点。

比如，该目标句对的原文句子中与预设的组合划分点类型相匹配的划分点有A1、A2和A3，译文句子中与预设的组合划分点类型相匹配的划分点有B1和B2，其中，A1、A2和B1均为标点符号类型的划分点，A3和B2为关键词类型的划分点，则该目标句对的所有组合划分点可以为：A1和B1、A2和B1、A3和B2、A3和B1。

第二个步骤：针对识别到的每个组合划分点，确定利用该组合划分点划分目标句对所对应的词对齐错误率。

在上述第一个步骤中识别到了目标句对中所有组合划分点，针对识别到的每个组合划分点，使用该组合划分点划分目标句对，进而可以根据词对齐信息，确定词对齐错误率，即该组合划分点对应的词对齐错误率。

词对齐信息可以利用Moses软件包的giza工具生成，此为现有技术，本发明实施例不再赘述。

为方便理解，以目标句对为中英文句对为例，对词对齐错误率的确定方法进行说明。

参见图2所示，中英文句对和对应的词对齐信息构成一个特别的平面坐标，每个词对齐信息就是坐标上的点。图2为词对齐信息的图形化显示，在实际应用中，词对齐信息还可以通过2-1、3-5等方式进行表示。

在图2所示的坐标系中，英文句子为X轴，中文句子为Y轴，英文句子和中文句子中的每个词均代表一个单位。X轴自左向右递增，Y轴自上到下递增，从0开始计数，对应于句中每个词的相对索引地址。比如，词对齐信息坐标为(X_i，Y_j)，表示英文句子中第i+1个词和中文句子中的第j+1个词的词对齐信息。

假设当前组合划分点的坐标为(X_m，Y_n)，比较每个平面上每个词对齐信息的坐标(X_i，Y_j)与当前划分组合点的坐标(X_m，Y_n)，可以确定词对齐错误率，具体的可以参考以下算法：

如果X_i≤X_m，且Y_j≥Y_n，则词对齐错误率递增1；

如果X_i≥X_m，且Y_j≤Y_n，则词对齐错误率递增1。

其他情况不做统计。

针对该目标句对的每个组合划分点，均可以根据以上的算法进行该组合划分点所对应的词对齐错误率的确定，进而可以继续执行第三个步骤的操作。

第三个步骤：根据各个组合划分点对应的词对齐错误率的大小，确定目标句对的可用组合划分点。

在上述第二个步骤中，确定了目标句对的各个组合划分点所对应的词对齐错误率。根据各个组合划分点对应的词对齐错误率的大小，可以确定该目标句对的可用组合划分点。具体的，可以将最小的词对齐错误率对应的组合划分点确定为该目标句对的可用组合划分点。这样得到的可用组合划分点也是该目标句对的最佳组合划分点。

S130：利用可用组合划分点划分目标句对，获得原文句子的两个子句和译文句子的两个子句。

在步骤S120确定出目标句对的可用组合划分点后，可以利用该可用组合划分点划分该目标句对，这样可以将该目标句对的原文句子划分为两个子句，将该目标句对的译文句子划分为两个子句。进而可以继续执行步骤S140的操作。

S140：确定获得的子句构成的子句对是否平行及各子句间的非平行关系。

在步骤S130利用可用组合划分点划分目标句对后，可以获得原文句子的两个子句和译文句子的两个子句。原文句子的两个子句可以分别和译文句子的两个子句相互组合，构成子句对。

比如，原文句子的两个子句为C1和C2，译文句子的两个子句为E1和E2，其中，C1和E1可以构成一个子句对，C2和E2可以构成一个子句对，C1和E2可以构成一个子句对，C2和E1可以构成一个子句对。这也就相当于将粗粒度的句对进行了细粒度化。

确定获得的子句构成的子句对是否平行。具体的，可以根据词对齐信息进行确定。

在本发明的一种具体实施方式中，可以针对每个子句对，确定该子句对的句长信息和词对齐信息，然后根据该句长信息和词对齐信息，确定该子句对是否平行。

具体确定方式可以参考以下两种：

第一种，词对齐信息的词频确定法，即根据该句长信息和词对齐信息，确定该子句对的词对齐信息的词频，根据词对齐信息的词频与预设第一阈值的关系，确定该子句对是否平行。

第一阈值可以通过多次试验比较进行确定，比如设定第一阈值为0.5。

词对齐信息的词频M可以利用以下公式计算得到：

M＝(L_ei*L_fi)/(L_e*L_c)

其中，L_ei为将词对齐信息进行去重处理后对应的原文句子的长度；L_fi为将词对齐信息进行去重处理后对应的译文句子的长度；L_e为原始的原文句子的长度；L_c为原始的译文句子的长度。

在本发明实施例中，利用上述词对齐信息的词频M的计算公式可以获得各子句对的词对齐信息的词频M。针对每个子句对，如果词对齐信息的词频M小于或等于第一阈值，则可以确定该子句对为非平行句对，否则，为平行句对。

第二种，词对齐信息的密度确定法，即根据该句长信息和词对齐信息，确定该子句对的词对齐信息的密度，然后根据词对齐信息的密度与预设第二阈值的关系，确定该子句对是否平行。

第二阈值可以通过多次试验比较进行确定，比如设定第二阈值为

词对齐信息的密度P可以利用以下公式计算得到：

P＝L_a/(L_e*L_c)

其中，L_e为原文句子的长度，L_c为译文句子的长度，L_a为词对齐信息的长度。

在本发明实施例中，利用上述词对齐信息的密度P的计算公式可以获得各子句对的词对齐信息的密度P。针对每个子句对，如果词对齐信息的密度P小于或等于第二阈值，则可以确定该子句对为非平行句对，否则，为平行句对。

需要说明的是，确定句对是否平行的方法不限于上述例举的两种，本领域技术人员可以利用现有技术的方法进行确定。另外，上述例举的这两种方法各有所长，在实际应用中，可以根据训练语料库中各句对的语法结构确定使用哪种方法。如语法结构简单的句对可以采用第二种方法，语法结构较复杂的可以采用第一种方法。

针对获得的每个子句对，如果该子句对为非平行句对，则可以进一步确定各子句间的非平行关系。

在本发明实施例中，句对的平行关系是指，原文文本与译文文本中的词按照线性递增排列或者线性递减排列，如图3所示。线性递增也可称为正序，线性递减也可称为逆序。

非平行关系一般出现在长句对中，即原文句子和译文句子都有多个子句，这样句子结构复杂，词对齐信息会出现非平行现象。主要有两种情况：一种是自动句子对齐时产生的非平行的句子，成为训练语料的噪音；另一种是不同语言之间的差异，如一个包含多个子句的原文句子平行于多个译文句子。

S150：根据预设的对应规则，使用与确定的非平行关系对应的纠正方式纠正目标句对。

在本发明实施例中，可以预先设定非平行关系与纠正方式的对应规则，在步骤S140确定各子句间的非平行关系后，可以根据预设的对应规则，使用与确定的非平行关系对应的纠正方式纠正该目标句对。

为方便理解，举例说明。

通过可用组合划分点划分目标句对后，原文句子划分为两个子句C1和C2，译文句子划分为两个子句E1和E2。

如果C1和E1平行，C2和E2不平行，或者，C1与E1和E2的组合平行，则可以进一步查找与该目标句对临近句对的译文句子中的子句E3，确定C2是否与E3平行，如果平行，则将E3与E2调换位置。

如果C1和E2平行，C2和E1不平行，则可以进一步查找与该目标句对临近句对的译文句子中的子句E3，确定C2是否与E3平行，如果平行，则将E2与E1调换位置，E3再与E1调换位置。

具体的非平行关系与纠正方式的对应规则，可以根据实际情况进行设定。

纠正目标句对之后，可以利用现有技术中的词对齐信息生成方法重新生成该目标句对的词对齐信息。

应用本发明实施例所提供的方法，通过可用组合划分点划分目标句对，将目标句对进行细粒度化，根据划分后各子句间的非平行关系，确定相对应的纠正方式纠正该目标句对，改进了训练语料的平行质量，提升了统计机器翻译系统的翻译性能。

在本发明实施例中，对目标句对进行纠正后，可以将细粒度化句对做归并处理，将归并后的句对的词对齐信息与纠正前的词对齐信息进行比较，验证纠正效果，从而可以根据该纠正效果调整本发明实施例中各设定部分。

另外，当该目标句对的纠正效果并不明显时，可以针对该目标句对的各子句对分别作为待纠正的目标句对，进行进一步的细粒度化处理，重复执行步骤S120至步骤S150的操作。

相应于上面的方法实施例，本发明实施例还提供了一种改进训练语料的平行质量的装置。下面对本发明实施例提供的一种改进训练语料的平行质量的装置进行介绍，下文描述的改进训练语料的平行质量的装置与上文描述的改进训练语料的平行质量的方法可相互对应参照。

图4为本发明实施例提供的改进训练语料的平行质量的装置的结构框图，该装置可以包括以下模块：

目标句对确定模块410，用于在预先获得的训练语料库中确定待纠正的目标句对，目标句对包括原文句子和相对应的译文句子；

选择模块420，用于从目标句对的所有组合划分点中，选择一个可用组合划分点；

划分模块430，用于利用可用组合划分点划分目标句对，获得原文句子的两个子句和译文句子的两个子句；

句对平行确定模块440，用于确定获得的子句构成的子句对是否平行及各子句间的非平行关系；

纠正模块450，用于根据预设的对应规则，使用与确定的非平行关系对应的纠正方式纠正目标句对。

应用本发明实施例所提供的装置，通过可用组合划分点划分目标句对，将目标句对进行细粒度化，根据划分后各子句间的非平行关系，确定相对应的纠正方式纠正该目标句对，改进了训练语料的平行质量，提升了统计机器翻译系统的翻译性能。

在本发明的一个实施例中，该装置还可以包括训练语料库获得模块，用于通过以下步骤获得训练语料库：

获得初始语料库；

对初始语料库中的语料进行格式规范化处理，获得训练语料库。

在本发明的一种具体实施方式中，选择模块420，可以具体用于：

识别目标句对中与预设的组合划分点类型相匹配的所有组合划分点；

针对识别到的每个组合划分点，确定利用该组合划分点划分目标句对所对应的词对齐错误率；

根据各个组合划分点对应的词对齐错误率的大小，确定目标句对的可用组合划分点。

在本发明的一种具体实施方式中，句对平行确定模块440，可以具体用于：

针对每个子句对，确定该子句对的句长信息和词对齐信息；

根据句长信息和词对齐信息，确定该子句对的词对齐信息的词频；

根据词对齐信息的词频与预设第一阈值的关系，确定该子句对是否平行。

针对每个子句对，确定该子句对的句长信息和词对齐信息；

根据句长信息和词对齐信息，确定该子句对的词对齐信息的密度；

根据词对齐信息的密度与预设第二阈值的关系，确定该子句对是否平行。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种改进训练语料的平行质量的方法及装置进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种改进训练语料的平行质量的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，通过以下步骤获得所述训练语料库：

获得初始语料库；

3.根据权利要求1或2所述的方法，其特征在于，所述从所述目标句对的所有组合划分点中，选择一个可用组合划分点，包括：

4.根据权利要求3所述的方法，其特征在于，所述确定获得的子句构成的子句对是否平行，包括：

针对每个子句对，确定该子句对的句长信息和词对齐信息；

5.根据权利要求3所述的方法，其特征在于，所述确定获得的子句构成的子句对是否平行，包括：

针对每个子句对，确定该子句对的句长信息和词对齐信息；

6.一种改进训练语料的平行质量的装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括训练语料库获得模块，用于通过以下步骤获得所述训练语料库：

获得初始语料库；

8.根据权利要求6或7所述的装置，其特征在于，所述选择模块，具体用于：

9.根据权利要求8所述的装置，其特征在于，所述句对平行确定模块，具体用于：

针对每个子句对，确定该子句对的句长信息和词对齐信息；

10.根据权利要求8所述的装置，其特征在于，所述句对平行确定模块，具体用于：

针对每个子句对，确定该子句对的句长信息和词对齐信息；