CN105446962B

CN105446962B - 原文和译文的对齐方法和装置

Info

Publication number: CN105446962B
Application number: CN201511021864.2A
Authority: CN
Inventors: 江潮; 张芃; 蔺伟; 陈钰清
Original assignee: Language Network (wuhan) Information Technology Co Ltd
Current assignee: Language Network (wuhan) Information Technology Co Ltd
Priority date: 2015-12-30
Filing date: 2015-12-30
Publication date: 2018-08-10
Anticipated expiration: 2035-12-30
Also published as: CN105446962A

Abstract

一种原文和译文的对齐方法，包括：对所有原文语句分词，去除其中的停用词，获得实义词；获取所述原文语句的每个实义词的所有译项；将每个所述原文语句的每个实义词的所有译项在所有译文语句中进行匹配，获得每个所述原文语句的每个实义词和所述译文语句的相似度；根据每个所述原文语句的所有实义词和所述译文语句的相似度，将每个所述原文语句和所述译文语句进行匹配，获得每个所述原文语句和所述译文语句的相似度；将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。本发明公开一种原文和译文的对齐装置。该方法和装置解决原文和译文对齐问题。

Description

原文和译文的对齐方法和装置

技术领域

本发明涉及翻译技术领域，具体涉及一种原文和译文的对齐方法和装置。

背景技术

原文和译文进行对齐是文本翻译完成后的一项基础工作。原文和译文的对齐是建立平行语料库的基础，也是翻译错误定位的基础。

一般而言，如果是按段落对齐，可以将原文和译文按照顺序进行对齐即可。但在段落内将原文和译文按句进行对齐则无法这样简单处理，由于源语言风格、目标语言风格、翻译文风、内容调整等各种原因，段落内的原文语句和译文语句若是简单的按顺序来进行对齐往往会造成大量错配的情况。所以往这种基于句子的原译文对齐工作往往需要人工来处理，既费时费力，效率也很低。

发明内容

本发明实施例的目的在于克服现有技术的上述不足，提供一种原文和译文的对齐方法，该方法基于实义词的相似度，解决了译后处理的原译文对齐问题。

本发明实施例的另一目的在于克服现有技术的上述不足，提供一种原文和译文的对齐装置，该装置基于实义词的相似度，解决了译后处理的原译文对齐问题。

为了实现上述发明目的，本发明实施例的技术方案如下：

一种原文和译文的对齐方法，包括：对所有原文语句分词，去除其中的停用词，获得实义词；获取所述原文语句的每个实义词的所有译项；将每个所述原文语句的每个实义词的所有译项在所有译文语句中进行匹配，获得每个所述原文语句的每个实义词和所述译文语句的相似度；根据每个所述原文语句的所有实义词和所述译文语句的相似度，将每个所述原文语句和所述译文语句进行匹配，获得每个所述原文语句和所述译文语句的相似度；将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。

进一步，所述将每个所述原文语句的每个实义词的所有译项在所有所述译文语句中进行匹配，获得每个所述原文语句的每个实义词和所述译文语句的相似度的过程包括：根据sim(nw_jl,TR_inw_r)＝L/(dis(nw_jl,TR_inw_r)+L)获得原文语句OR的第j个实义词的第l个译项nw_jl与第i个译文语句TR_i的第r个实义词TR_inw_r的相似度；根据获得所述原文语句OR的第j个实义词的第l个译项nw_jl与所述译文语句TR_i的相似度；根据获得所述原文语句OR的第j个实义词nw_j和第i个所述译文语句TR_i的相似度；其中，所述原文语句OR具有m个实义词，所述译文中共有n个所述译文语句，所述译文语句TR_i具有p个实义词，第j个实义词具有k个译项，L表示调节参数，dis(nw_jl,TR_inw_r)表示所述原文语句OR的第j个实义词的第l个译项nw_jl和第i个所述译文语句TR_i的第r个实义词TR_inw_r在词典中的代码的距离，i＝1，2，…，n，j＝1，2，…，m，l＝1，2，…，k，r＝1，2，…，p。

进一步，所述根据每个所述原文语句的所有实义词和所述译文语句的相似度，将每个所述原文语句和所述译文语句进行匹配，获得每个所述原文语句和所述译文语句的相似度的过程包括：根据获得所述原文语句OR与所述译文语句TR_i的相似度。

进一步，还包括：对原文中的所述原文语句按顺序进行编号；对译文中的所述译文语句按顺序进行编号；如果同一所述译文语句和多个所述原文语句的相似度均为最高，则获取多个所述原文语句在所述原文中的所述编号，以及所述译文语句在所述译文中的所述编号；如果多个所述原文语句中的一个所述原文语句在所述原文中的所述编号和所述译文语句在所述译文中的所述编号最接近，则将该一个所述原文语句与所述译文语句匹配并对齐；如果多个所述原文语句中的两个所述原文语句在所述原文中的所述编号和所述译文语句在所述译文中的所述编号均为最接近，则将所述编号较小的所述原文语句与所述译文语句匹配并对齐；比较两个所述原文语句中所述编号较大的所述原文语句与剩余所述译文语句的相似度的高低，将剩余所述译文语句中与所述编号较大的所述原文语句的相似度最高的所述译文语句和所述编号较大的所述原文语句匹配并对齐；重复上述过程，直到每个所述原文语句均与每个所述译文语句匹配并对齐。

进一步：所述词典为按树形结构编码的同义词分类词典。

进一步：所述按树形结构编码的同义词分类词典的每个节点具有唯一的所述代码。

进一步：所述调节参数L为所述按所述树形结构编码的同义词分类词典的层数。

进一步，所述实义词包括：名词、动词、形容词和副词。

以及，一种原文和译文的对齐装置，包括：第一单元，用于对所有原文语句分词，去除其中的停用词，获得实义词；第二单元，用于获取所述原文语句的每个实义词的所有译项；第三单元，用于将每个所述原文语句的每个实义词的所有译项在所有译文语句中进行匹配，获得每个所述原文语句的每个实义词和所述译文语句的相似度；第四单元，用于根据每个所述原文语句的所有实义词和所述译文语句的相似度，将每个所述原文语句和所述译文语句进行匹配，获得每个所述原文语句和所述译文语句的相似度；第五单元，用于将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。

本发明实施例的有益效果如下：

1、本发明实施例的原文和译文的对齐方法，基于实义词的相似度，解决了译后处理的原译文对齐问题。

2、本发明实施例的原文和译文的对齐方法，不需要通过人工处理，节省了时间，提高了效率。

3、本发明实施例的原文和译文的对齐装置，基于实义词的相似度，解决了译后处理的原译文对齐问题。

4、本发明实施例的原文和译文的对齐装置，实现了自动化，节省了时间，提高了效率。

附图说明

图1是本发明实施例的原文和译文的对齐方法的流程图；

图2是本发明实施例的原文和译文的对齐装置的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例提供了一种原文和译文的对齐方法。如图1所示，为本发明实施例的原文和译文的对齐方法的流程图。该原文和译文的对齐方法的具体过程如下：

步骤S10：对所有原文语句分词，去除其中的停用词，获得实义词。

具体的，实义词包括：名词、动词、形容词和副词。优选的，将所有实义词建立一个实义词集合。

步骤S20：获取原文语句的每个实义词的所有译项。

一个实义词往往有多种表达含义，每个不同的含义称之为该实义词的一个译项。译项为同义词词典中的最小单位，在词典中有相应的代码与其对应。例如：“骄傲”这个词可以有两种含义，“自豪”和“傲慢”，该两种含义就是骄傲这个词语的两个译项。因此，需要获取每个实义词的所有译项。例如，可建立如表1所示的实义词和译项的对应表。

表1实义词和译项的对应表

步骤S30：将每个原文语句的每个实义词的所有译项在所有译文语句中进行匹配，获得每个原文语句的每个实义词和译文语句的相似度。

其中，步骤S30具体包括如下的过程：

步骤S301：

根据sim(nw_jl,TR_inw_r)＝L/(dis(nw_jl,TR_inw_r)+L)获得原文语句OR的第j个实义词的第l个译项nw_jl与第i个译文语句TR_i的第r个实义词TR_inw_r的相似度。

本实施例中的实义词和实义词之间的相似度是一个取值范围在[0,1]之间的数值。如果一个实义词是另一个实义词的本身的语义，则两个实义词之间的相似度为1；如果两个实义词在任何上下文中都不能替换，则两个实义词之间的相似度为0。

其中，原文语句OR具有m个实义词。译文中共有n个译文语句。译文语句TR_i具有p个实义词。i表示译文语句的计数，i＝1，2，…，n。第j个实义词具有k个译项。j表示一个原文语句中的实义词的计数，j＝1，2，…，m。l表示一个实义词的译项的计数，l＝1，2，…，k。r表示一个译文语句中的实义词的计数，r＝1，2，…，p。dis(nw_jl,TR_inw_r)表示在词典中，原文语句OR的第j个实义词的第l个译项nw_jl和第i个译文语句TR_i的第r个实义词TR_inw_r之间的距离。L表示调节参数。

原文语句OR的第j个实义词的第l个译项nw_jl与第i个译文语句TR_i的第r个实义词TR_inw_r的相似度与两个词在词典中的距离呈反比关系。具体的，本发明中所述的词典指的是按树形结构编码的同义词分类的词典。例如，《同义词词林》和《WordNet》等同义词本体工具。该词典中，该按树形结构编码的同义词分类词典的每个节点具有唯一的代码。每个代码对应了若干个译项。调节参数L为按树形结构编码的同义词分类词典的层数，即树形结构的层数。dis(nw_jl,TR_inw_r)具体为原文语句OR的第j个实义词的第l个译项nw_jl和第i个译文语句TR_i的第r个实义词TR_inw_r在词典中的代码的距离，即两个代码之间的差值。

步骤S302：

根据下式

获得原文语句OR的第j个实义词的第l个译项nw_jl与译文语句TR_i的相似度。

步骤S303：

根据下式

获得原文语句OR的第j个实义词nw_j和译文语句TR_i的相似度。

步骤S40：根据每个原文语句的所有实义词和译文语句的相似度，将每个原文语句和译文语句进行匹配，获得每个原文语句和译文语句的相似度。

根据下式

获得原文语句OR与译文语句TR_i的相似度。

步骤S50：将与原文语句相似度最高的译文语句和原文语句匹配并对齐。

将与原文语句OR的相似度最高的译文语句和原文语句OR匹配并对齐。

在步骤S50中，可能存在同一译文语句和多个原句的相似度相同且均为最高的情况，则步骤S50具体还包括如下的比对过程：

(1)对原文中的原文语句按顺序进行编号。

例如，将原文中的第一句编号为1，第二句编号为2，依次类推。优选的，将所有编号后的原文语句建立一个原文语句的集合。

(2)对译文中的译文语句按顺序进行编号。

例如，将译文中的第一句编号为1，第二句编号为2，依次类推。优选的，将所有编号后的译文语句建立一个译文语句的集合。

(3)获取多个原文语句在原文中的编号，以及译文语句在译文中的编号。

具体的，该过程又包括如下的两种处理方式：

1)如果多个原文语句中的一个原文语句在原文中的编号和译文语句在译文中的编号最接近，则将该一个原文语句与译文语句匹配并对齐。

例如，4个原文语句在原文中的编号分别为1，2，3，4。译文语句在译文中的编号为5。该4个原文语句和该译文语句的相似度均为最高。编号为4的原文语句的编号和译文语句的编号最接近，则将编号为4的原文语句和编号为5的译文语句匹配并对齐。

2)如果多个原文语句中的两个原文语句在原文中的编号和译文语句在译文中的编号均为最接近，则将编号较小的原文语句与译文匹配并对齐。比较两个原文语句中编号较大的原文语句与剩余译文语句的相似度的高低，将剩余译文语句中与编号较大的原文语句的相似度最高的译文语句和编号较大的原文语句匹配并对齐。

例如，4个原文语句在原文中的编号分别为1，3，5，7。译文语句在译文中的编号为4。该4个原文语句和译文语句的相似度均为最高。编号为3的原文语句的编号、编号为5的原文语句的编号均和该译文语句的编号最接近。由于编号3比编号5小，则将编号为3的原文语句和编号为4的译文语句匹配并对齐。在编号为4的译文语句以外的剩余译文语句中，如果一译文语句与编号为5的原文语句的相似度最高，则将该译文语句和编号为5的原文语句匹配。

3)重复上述过程1)和2)，直到每个原文语句均与每个译文语句匹配并对齐。

本发明的方法基于实义词的相似度，解决了译后处理的原译文对齐问题。该方法可通过机器完成，不需要通过人工处理，节省了时间，提高了效率。

本发明实施例还提供了一种原文和译文的对齐装置。如图2所示，该原文和译文的对齐装置包括：

第一单元101，用于对所有原文语句分词，去除其中的停用词，获得实义词。

第二单元102，用于获取原文语句的每个实义词的所有译项。

第三单元103，用于将每个原文语句的每个实义词的所有译项在所有译文语句中进行匹配，获得每个原文语句的每个实义词和译文语句的相似度。

第四单元104，用于根据每个原文语句的所有实义词和译文语句的相似度，将每个原文语句和译文语句进行匹配，获得每个原文语句和译文语句的相似度。

第五单元105，用于将与原文语句相似度最高的译文语句和原文语句匹配并对齐。

本发明的原文和译文的对齐装置用以实现上述的原文和译文的对齐方法，基于实义词的相似度，解决了译后处理的原译文对齐问题。该装置使得上述的方法不需要通过人工实现，实现了自动化，节省了时间，提高了效率。

本发明提供了一种以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包括在本发明的保护范围之内。

Claims

1.一种原文和译文的对齐方法，其特征在于，包括：

对所有原文语句分词，去除其中的停用词，获得实义词；

获取所述原文语句的每个实义词的所有译项，其中，一个所述译项为所述实义词的一种表达含义；

将每个所述原文语句的每个实义词的所有译项在所有译文语句中进行匹配，获得每个所述原文语句的每个实义词和所述译文语句的相似度；

根据每个所述原文语句的所有实义词和所述译文语句的相似度，将每个所述原文语句和所述译文语句进行匹配，获得每个所述原文语句和所述译文语句的相似度；

将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。

2.如权利要求1所述的原文和译文的对齐方法，其特征在于，所述将每个所述原文语句的每个实义词的所有译项在所有所述译文语句中进行匹配，获得每个所述原文语句的每个实义词和所述译文语句的相似度的过程包括：

根据sim(nw_jl,TR_inw_r)＝L/(dis(nw_jl,TR_inw_r)+L)获得原文语句OR的第j个实义词的第l个译项nw_jl与第i个译文语句TR_i的第r个实义词TR_inw_r的相似度；

根据获得所述原文语句OR的第j个实义词的第l个译项nw_jl与所述译文语句TR_i的相似度；

根据获得所述原文语句OR的第j个实义词nw_j和第i个所述译文语句TR_i的相似度；

其中，所述原文语句OR具有m个实义词，所述译文中共有n个所述译文语句，所述译文语句TR_i具有p个实义词，第j个实义词具有k个译项，L表示调节参数，dis(nw_jl,TR_inw_r)表示所述原文语句OR的第j个实义词的第l个译项nw_jl和第i个所述译文语句TR_i的第r个实义词TR_inw_r在词典中的代码的距离，i＝1，2，…，n，j＝1，2，…，m，l＝1，2，…，k，r＝1，2，…，p。

3.如权利要求2所述的原文和译文的对齐方法，其特征在于，所述根据每个所述原文语句的所有实义词和所述译文语句的相似度，将每个所述原文语句和所述译文语句进行匹配，获得每个所述原文语句和所述译文语句的相似度的过程包括：

根据获得所述原文语句OR与所述译文语句TR_i的相似度。

4.如权利要求3所述的原文和译文的对齐方法，其特征在于，所述将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐的过程包括：

根据获得与所述原文语句OR的相似度最高的所述译文语句；

将与所述原文语句OR的相似度最高的所述译文语句和所述原文语句OR匹配，并对齐所述原文语句OR和所述译文语句。

5.如权利要求1所述的原文和译文的对齐方法，其特征在于，还包括：

对原文中的所述原文语句按顺序进行编号；

对译文中的所述译文语句按顺序进行编号；

如果同一所述译文语句和多个所述原文语句的相似度均为最高，则获取多个所述原文语句在所述原文中的所述编号，以及所述译文语句在所述译文中的所述编号；

如果多个所述原文语句中的一个所述原文语句在所述原文中的所述编号和所述译文语句在所述译文中的所述编号最接近，则将该一个所述原文语句与所述译文语句匹配并对齐；

如果多个所述原文语句中的两个所述原文语句在所述原文中的所述编号和所述译文语句在所述译文中的所述编号均为最接近，则将所述编号较小的所述原文语句与所述译文语句匹配并对齐；

比较两个所述原文语句中所述编号较大的所述原文语句与剩余所述译文语句的相似度的高低，将剩余所述译文语句中与所述编号较大的所述原文语句的相似度最高的所述译文语句和所述编号较大的所述原文语句匹配并对齐；

重复上述过程，直到每个所述原文语句均与每个所述译文语句匹配并对齐。

6.如权利要求2所述的原文和译文的对齐方法，其特征在于：所述词典为按树形结构编码的同义词分类词典。

7.如权利要求6所述的原文和译文的对齐方法，其特征在于：所述按树形结构编码的同义词分类词典的每个节点具有唯一的所述代码。

8.如权利要求7所述的原文和译文的对齐方法，其特征在于：所述调节参数L为所述按所述树形结构编码的同义词分类词典的层数。

9.如权利要求1所述的原文和译文的对齐方法，其特征在于，所述实义词包括：名词、动词、形容词和副词。

10.一种原文和译文的对齐装置，其特征在于，包括：

第一单元，用于对所有原文语句分词，去除其中的停用词，获得实义词；

第二单元，用于获取所述原文语句的每个实义词的所有译项；

第三单元，用于将每个所述原文语句的每个实义词的所有译项在所有译文语句中进行匹配，获得每个所述原文语句的每个实义词和所述译文语句的相似度；

第四单元，用于根据每个所述原文语句的所有实义词和所述译文语句的相似度，将每个所述原文语句和所述译文语句进行匹配，获得每个所述原文语句和所述译文语句的相似度；

第五单元，用于将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。