CN105677621B

CN105677621B - 翻译错误的定位方法和装置

Info

Publication number: CN105677621B
Application number: CN201511021984.2A
Authority: CN
Inventors: 江潮; 张芃
Original assignee: Language Network (wuhan) Information Technology Co Ltd
Current assignee: Language Network (wuhan) Information Technology Co Ltd
Priority date: 2015-12-30
Filing date: 2015-12-30
Publication date: 2018-08-17
Anticipated expiration: 2035-12-30
Also published as: CN105677621A

Abstract

一种翻译错误的定位方法，包括：对原文和译文中的网页标签进行标记；对标记后的所述原文中的所有原文语句分词，去除其中的停用词，获得实义词；获取所述原文语句的每个实义词的所有译项；将每个所述原文语句的每个实义词的所有译项在标记后的所述译文中的所有译文语句中进行匹配，获得每个所述原文语句的每个实义词和所述译文语句的相似度；根据每个所述原文语句的所有实义词和所述译文语句的相似度，将每个所述原文语句和所述译文语句进行匹配，获得每个所述原文语句和所述译文语句的相似度；将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。本发明公开一种翻译错误的定位装置。该方法和装置解决原文和译文对齐问题。

Description

翻译错误的定位方法和装置

技术领域

本发明涉及翻译技术领域，具体涉及一种翻译错误的定位方法和装置。

背景技术

文档翻译完成后即进入审校环节，审校人员会对译文中的错译、漏译等翻译错误点出，如何将这些点出的错误所在的译句和其在原文中的语句相对应，是一项基础工作。译句和原句对应后，即可通过原句在平行语料库中对包含错译、漏译等错误的译文语句进行相似性比较，从而较为客观的判断译句的错误类型和错误程度。

所以将原文和译文进行按句对齐是一项基础性的工作，一般按段落对齐，可以将原文和译文按照顺序进行对齐即可。但在段落内将原文和译文按句进行对齐则无法这样简单处理，由于源语言风格、目标语言风格、翻译文风、内容调整等各种原因，段落内的原文语句和译文语句若是简单的按顺序来进行对齐往往会造成大量错配的情况。所以往这种基于句子的原译文对齐工作往往需要人工来处理，既费时费力，效率也很低。

发明内容

本发明实施例的目的在于克服现有技术的上述不足，提供一种翻译错误的定位方法，该方法基于实义词的相似度，解决了原文和译文对齐的问题。

本发明实施例的另一目的在于克服现有技术的上述不足，提供一种翻译错误的定位装置，该装置基于实义词的相似度，解决了原文和译文对齐的问题。

为了实现上述发明目的，本发明实施例的技术方案如下：

一种翻译错误的定位方法，包括：对原文和译文中的网页标签进行标记；对标记后的所述原文中的所有原文语句分词，去除其中的停用词，获得实义词；获取所述原文语句的每个实义词的所有译项；将每个所述原文语句的每个实义词的所有译项在标记后的所述译文中的所有译文语句中进行匹配，获得每个所述原文语句的每个实义词和所述译文语句的相似度；根据每个所述原文语句的所有实义词和所述译文语句的相似度，将每个所述原文语句和所述译文语句进行匹配，获得每个所述原文语句和所述译文语句的相似度；将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。

进一步，所述将每个所述原文语句的每个实义词的所有译项在所有所述译文语句中进行匹配，获得每个所述原文语句的每个实义词和所述译文语句的相似度的过程包括：根据sim(nw_jl,TR_inw_r)＝L/(dis(nw_jl,TR_inw_r)+L)获得原文语句OR的第j个实义词的第l个译项nw_jl与第i个译文语句TR_i的第r个实义词TR_inw_r的相似度；根据获得所述原文语句OR的第j个实义词的第l个译项nw_jl与所述译文语句TR_i的相似度；根据获得所述原文语句OR的第j个实义词nw_j和第i个所述译文语句TR_i的相似度；其中，所述原文语句OR具有m个实义词，所述译文中共有n个所述译文语句，所述译文语句TR_i具有p个实义词，第j个实义词具有k个译项，L表示调节参数，dis(nw_jl,TR_inw_r)表示所述原文语句OR的第j个实义词的第l个译项nw_jl和第i个所述译文语句TR_i的第r个实义词TR_inw_r在词典中的代码的距离，i＝1，2，…，n，j＝1，2，…，m，l＝1，2，…，k，r＝1，2，…，p。

进一步，所述根据每个所述原文语句的所有实义词和所述译文语句的相似度，将每个所述原文语句和所述译文语句进行匹配，获得每个所述原文语句和所述译文语句的相似度的过程包括：根据获得所述原文语句OR与所述译文语句TR_i的相似度。

进一步，还包括：对标记后的所述原文中的所述原文语句按顺序进行编号；对标记后的所述译文中的所述译文语句按顺序进行编号；如果同一所述译文语句和多个所述原文语句的相似度均为最高，则获取多个所述原文语句在所述原文中的所述编号，以及所述译文语句在所述译文中的所述编号；如果多个所述原文语句中的一个所述原文语句在所述原文中的所述编号和所述译文语句在所述译文中的所述编号最接近，则将该一个所述原文语句与所述译文语句匹配并对齐；如果多个所述原文语句中的两个所述原文语句在所述原文中的所述编号和所述译文语句在所述译文中的所述编号均为最接近，则将所述编号较小的所述原文语句与所述译文语句匹配并对齐；比较两个所述原文语句中所述编号较大的所述原文语句与剩余所述译文语句的相似度的高低，将剩余所述译文语句中与所述编号较大的所述原文语句的相似度最高的所述译文语句和所述编号较大的所述原文语句匹配并对齐；重复上述过程，直到每个所述原文语句均与每个所述译文语句匹配并对齐。

进一步：所述词典为按树形结构编码的同义词分类词典，所述按树形结构编码的同义词分类词典的每个节点具有唯一的所述代码。

进一步：所述调节参数L为所述按所述树形结构编码的同义词分类词典的层数。

进一步，所述对原文和译文中的网页标签进行标记的过程包括：使用网页标签识别规则检查所有所述原文语句和所述译文语句中是否包含所述网页标签；如果所述原文语句中包含所述网页标签，则遍历所述原文，依次获得所述网页标签在所述原文中的起始索引和所述网页标签的长度；根据所述网页标签在所述原文中的起始索引和所述网页标签的长度，将所述原文中的所述网页标签标记为不能修改；如果所述译文语句中包含所述网页标签，则遍历所述译文，依次获得所述网页标签在所述译文中的起始索引和所述网页标签的长度；根据所述网页标签在所述译文中的起始索引和所述网页标签的长度，将所述译文中的所述网页标签标记为不能修改。

进一步，所述实义词包括：名词、动词、形容词和副词。

以及，一种翻译错误的定位装置，包括：第一单元，用于对原文和译文中的网页标签进行标记；第二单元，用于对标记后的所述原文中的所有原文语句分词，去除其中的停用词，获得实义词；第三单元，用于获取所述原文语句的每个实义词的所有译项；第四单元，用于将每个所述原文语句的每个实义词的所有译项在标记后的所述译文中的所有译文语句中进行匹配，获得每个所述原文语句的每个实义词和所述译文语句的相似度；第五单元，用于根据每个所述原文语句的所有实义词和所述译文语句的相似度，将每个所述原文语句和所述译文语句进行匹配，获得每个所述原文语句和所述译文语句的相似度；第六单元，用于将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。

本发明实施例的有益效果如下：

1、本发明实施例的翻译错误的定位方法，基于实义词的相似度，解决了译后处理的原译文对齐问题。

2、本发明实施例的翻译错误的定位方法，不需要通过人工处理，节省了时间，提高了效率。

3、本发明实施例的翻译错误的定位方法，通过对原文和译文中的网页标签进行预先标记，将网页标签保护起来，使网页标签的代码无法修改，不对网页标签进行对齐处理。

4、本发明实施例的翻译错误的定位装置，基于实义词的相似度，解决了译后处理的原译文对齐问题。

5、本发明实施例的翻译错误的定位装置，实现了自动化，节省了时间，提高了效率。

6、本发明实施例的翻译错误的定位装置，通过对原文和译文中的网页标签进行预先标记，将网页标签保护起来，使网页标签的代码无法修改，不对网页标签进行对齐处理。

附图说明

图1是本发明实施例的翻译错误的定位方法的流程图；

图2是本发明实施例的翻译错误的定位装置的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例提供了一种翻译错误的定位方法。如图1所示，为本发明实施例的翻译错误的定位方法的流程图。该翻译错误的定位方法的具体过程如下：

步骤S10：对原文和译文中的网页标签进行标记。

具体的，步骤S10包括如下的过程：

步骤S101：使用网页标签识别规则检查所有原文语句和译文语句中是否包含网页标签。

该网页标签识别规则为正则表达式，该正则表达式具体如表所示。

表1网页识别规则

读取所有原文语句和译文语句，输入所有原文语句和译文语句，根据上表的网页识别规则，检查所有原文语句和译文语句中是否包含网页标签。只要有一种正则表达式应用成功，均判定为该语句含网页标签。

如果原文语句中包含网页标签，则进行步骤S102～103；以及如果译文语句中包含网页标签，则进行步骤S104～105。

步骤S102：遍历原文，依次获得网页标签在原文中的起始索引和网页标签的长度。

步骤S103：根据网页标签在原文中的起始索引和网页标签的长度，将原文中的网页标签标记为不能修改。

步骤S104：遍历译文，依次获得网页标签在译文中的起始索引和网页标签的长度。

步骤S105：根据网页标签在译文中的起始索引和网页标签的长度，将译文中的网页标签标记为不能修改。

其中，步骤S103和步骤S105的具体做法如下：

步骤S101获取的网页标签都是有效的标签范围，通过步骤S103和步骤S105的网页标签在原文和译文中的起始索引可以获得的网页标签的位置。根据网页标签的位置信息和长度信息，渲染网页标签的文本的背景色为淡蓝，示意该段文本已经被保护，使该段表示网页标签的代码无法修改，即不能删除、不能改变代码的任一字符、不能移动、不能复制、不能在受保护的连续的表示网页标签的文本的间隙增加任一字符、空格等等，从而实现了对网页标签有效的保护，以便不对网页标签进行对齐处理。

步骤S20：对标记后的原文中的所有原文语句分词，去除其中的停用词，获得实义词。

具体的，实义词包括：名词、动词、形容词和副词。优选的，将所有实义词建立一个实义词集合。

步骤S30：获取原文语句的每个实义词的所有译项。

一个实义词往往有多种表达含义，每个不同的含义称之为该实义词的一个译项。译项为同义词词典中的最小单位，在词典中有相应的代码与其对应。例如：“骄傲”这个词可以有两种含义，“自豪”和“傲慢”，该两种含义就是骄傲这个词语的两个译项。因此，需要获取每个实义词的所有译项。例如，可建立如表2所示的实义词和译项的对应表。

表2实义词和译项的对应表

步骤S40：将每个原文语句的每个实义词的所有译项在标记后的译文中的所有译文语句中进行匹配，获得每个原文语句的每个实义词和译文语句的相似度。

其中，步骤S40具体包括如下的过程：

步骤S401：

根据sim(nw_jl,TR_inw_r)＝L/(dis(nw_jl,TR_inw_r)+L)获得原文语句OR的第j个实义词的第l个译项nw_jl与第i个译文语句TR_i的第r个实义词TR_inw_r的相似度。

本实施例中的实义词和实义词之间的相似度是一个取值范围在[0,1]之间的数值。如果一个实义词是另一个实义词的本身的语义，则两个实义词之间的相似度为1；如果两个实义词在任何上下文中都不能替换，则两个实义词之间的相似度为0。

其中，原文语句OR具有m个实义词。译文中共有n个译文语句。译文语句TR_i具有p个实义词。i表示译文语句的计数，i＝1，2，…，n。第j个实义词具有k个译项。j表示一个原文语句中的实义词的计数，j＝1，2，…，m。l表示一个实义词的译项的计数，l＝1，2，…，k。r表示一个译文语句中的实义词的计数，r＝1，2，…，p。dis(nw_jl,TR_inw_r)表示在词典中，原文语句OR的第j个实义词的第l个译项nw_jl和第i个译文语句TR_i的第r个实义词TR_inw_r之间的距离。L表示调节参数。

原文语句OR的第j个实义词的第l个译项nw_jl与第i个译文语句TR_i的第r个实义词TR_inw_r的相似度与两个词在词典中的距离呈反比关系。具体的，本发明中所述的词典指的是按树形结构编码的同义词分类的词典。例如，《同义词词林》和《WordNet》等同义词本体工具。该词典中，该词典中，该按树形结构编码的同义词分类词典的每个节点具有唯一的代码。每个代码对应了若干个译项。调节参数L为按树形结构编码的同义词分类词典的层数，即树形结构的层数。dis(nw_jl,TR_inw_r)具体为原文语句OR的第j个实义词的第l个译项nw_jl和第i个译文语句TR_i的第r个实义词TR_inw_r在词典中的代码的距离，即两个代码之间的差值。

步骤S402：

根据下式

获得原文语句OR的第j个实义词的第l个译项nw_jl与译文语句TR_i的相似度。

步骤S403：

根据下式

获得原文语句OR的第j个实义词nw_j和译文语句TR_i的相似度。

步骤S50：根据每个原文语句的所有实义词和译文语句的相似度，将每个原文语句和译文语句进行匹配，获得每个原文语句和译文语句的相似度。

根据下式

获得原文语句OR与译文语句TR_i的相似度。

步骤S60：将与原文语句相似度最高的译文语句和原文语句匹配并对齐。

将与原文语句OR的相似度最高的译文语句和原文语句OR匹配并对齐。

在步骤S60中，可能存在同一译文语句和多个原句的相似度相同且均为最高的情况，则步骤S60具体还包括如下的比对过程：

(1)对原文中的原文语句按顺序进行编号。

例如，将原文中的第一句编号为1，第二句编号为2，依次类推。优选的，将所有编号后的原文语句建立一个原文语句的集合。

(2)对译文中的译文语句按顺序进行编号。

例如，将译文中的第一句编号为1，第二句编号为2，依次类推。优选的，将所有编号后的译文语句建立一个译文语句的集合。

(3)获取多个原文语句在原文中的编号，以及译文语句在译文中的编号。

具体的，该过程又包括如下的两种处理方式：

1)如果多个原文语句中的一个原文语句在原文中的编号和译文语句在译文中的编号最接近，则将该一个原文语句与译文语句匹配并对齐。

例如，4个原文语句在原文中的编号分别为1，2，3，4。译文语句在译文中的编号为5。该4个原文语句和该译文语句的相似度均为最高。编号为4的原文语句的编号和译文语句的编号最接近，则将编号为4的原文语句和编号为5的译文语句匹配并对齐。

2)如果多个原文语句中的两个原文语句在原文中的编号和译文语句在译文中的编号均为最接近，则将编号较小的原文语句与译文匹配并对齐。比较两个原文语句中编号较大的原文语句与剩余译文语句的相似度的高低，将剩余译文语句中与编号较大的原文语句的相似度最高的译文语句和编号较大的原文语句匹配并对齐。

例如，4个原文语句在原文中的编号分别为1，3，5，7。译文语句在译文中的编号为4。该4个原文语句和译文语句的相似度均为最高。编号为3的原文语句的编号、编号为5的原文语句的编号均和该译文语句的编号最接近。由于编号3比编号5小，则将编号为3的原文语句和编号为4的译文语句匹配并对齐。在编号为4的译文语句以外的剩余译文语句中，如果一译文语句与编号为5的原文语句的相似度最高，则将该译文语句和编号为5的原文语句匹配。

3)重复上述过程1)和2)，直到每个原文语句均与每个译文语句匹配并对齐。

本发明的方法基于实义词的相似度，解决了译后处理的原译文对齐问题。该方法可通过机器完成，不需要通过人工处理，节省了时间，提高了效率。当原文语句和译文语句对应后，即可通过原文语句在平行语料库中对包含错译、漏译等错误的译文语句进行相似性比较，从而较为客观的判断译句的错误类型和错误程度。

本发明实施例还提供了一种翻译错误的定位装置。如图2所示，该翻译错误的定位装置包括：

第一单元101，用于对原文和译文中的网页标签进行标记。

第二单元102，用于对标记后的原文中的所有原文语句分词，去除其中的停用词，获得实义词。

第三单元103，用于获取原文语句的每个实义词的所有译项。

第四单元104，用于将每个原文语句的每个实义词的所有译项在标记后的译文中的所有译文语句中进行匹配，获得每个原文语句的每个实义词和译文语句的相似度。

第五单元105，用于根据每个原文语句的所有实义词和译文语句的相似度，将每个原文语句和译文语句进行匹配，获得每个原文语句和译文语句的相似度。

第六单元106，用于将与原文语句相似度最高的译文语句和原文语句匹配并对齐。

本发明的翻译错误的定位装置用以实现上述的翻译错误的定位方法，基于实义词的相似度，解决了译后处理的原译文对齐问题。该装置使得上述的方法不需要通过人工实现，实现了自动化，节省了时间，提高了效率。当原文语句和译文语句对应后，即可通过原文语句在平行语料库中对包含错译、漏译等错误的译文语句进行相似性比较，从而较为客观的判断译句的错误类型和错误程度。

本发明提供了一种以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包括在本发明的保护范围之内。

Claims

1.一种翻译错误的定位方法，其特征在于，包括：

对原文和译文中的网页标签进行标记；

对标记后的所述原文中的所有原文语句分词，去除其中的停用词，获得实义词；

获取所述原文语句的每个实义词的所有译项，其中，一个所述译项为所述实义词的一种表达含义；

将每个所述原文语句的每个实义词的所有译项在标记后的所述译文中的所有译文语句中进行匹配，获得每个所述原文语句的每个实义词和所述译文语句的相似度；

根据每个所述原文语句的所有实义词和所述译文语句的相似度，将每个所述原文语句和所述译文语句进行匹配，获得每个所述原文语句和所述译文语句的相似度；

将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。

2.如权利要求1所述的翻译错误的定位方法，其特征在于，所述将每个所述原文语句的每个实义词的所有译项在所有所述译文语句中进行匹配，获得每个所述原文语句的每个实义词和所述译文语句的相似度的过程包括：

根据sim(nw_jl,TR_inw_r)＝L/(dis(nw_jl,TR_inw_r)+L)获得原文语句OR的第j个实义词的第l个译项nw_jl与第i个译文语句TR_i的第r个实义词TR_inw_r的相似度；

根据获得所述原文语句OR的第j个实义词的第l个译项nw_jl与所述译文语句TR_i的相似度；

根据获得所述原文语句OR的第j个实义词nw_j和第i个所述译文语句TR_i的相似度；

其中，所述原文语句OR具有m个实义词，所述译文中共有n个所述译文语句，所述译文语句TR_i具有p个实义词，第j个实义词具有k个译项，L表示调节参数，dis(nw_jl,TR_inw_r)表示所述原文语句OR的第j个实义词的第l个译项nw_jl和第i个所述译文语句TR_i的第r个实义词TR_inw_r在词典中的代码的距离，i＝1，2，…，n，j＝1，2，…，m，l＝1，2，…，k，r＝1，2，…，p。

3.如权利要求2所述的翻译错误的定位方法，其特征在于，所述根据每个所述原文语句的所有实义词和所述译文语句的相似度，将每个所述原文语句和所述译文语句进行匹配，获得每个所述原文语句和所述译文语句的相似度的过程包括：

根据获得所述原文语句OR与所述译文语句TR_i的相似度。

4.如权利要求3所述的翻译错误的定位方法，其特征在于，所述将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐的过程包括：

根据获得与所述原文语句OR的相似度最高的所述译文语句；

将与所述原文语句OR的相似度最高的所述译文语句和所述原文语句OR匹配，并对齐所述原文语句OR和所述译文语句。

5.如权利要求1所述的翻译错误的定位方法，其特征在于，还包括：

对标记后的所述原文中的所述原文语句按顺序进行编号；

对标记后的所述译文中的所述译文语句按顺序进行编号；

如果同一所述译文语句和多个所述原文语句的相似度均为最高，则获取多个所述原文语句在所述原文中的所述编号，以及所述译文语句在所述译文中的所述编号；

如果多个所述原文语句中的一个所述原文语句在所述原文中的所述编号和所述译文语句在所述译文中的所述编号最接近，则将该一个所述原文语句与所述译文语句匹配并对齐；

如果多个所述原文语句中的两个所述原文语句在所述原文中的所述编号和所述译文语句在所述译文中的所述编号均为最接近，则将所述编号较小的所述原文语句与所述译文语句匹配并对齐；

比较两个所述原文语句中所述编号较大的所述原文语句与剩余所述译文语句的相似度的高低，将剩余所述译文语句中与所述编号较大的所述原文语句的相似度最高的所述译文语句和所述编号较大的所述原文语句匹配并对齐；

重复上述过程，直到每个所述原文语句均与每个所述译文语句匹配并对齐。

6.如权利要求2所述的翻译错误的定位方法，其特征在于：所述词典为按树形结构编码的同义词分类词典，所述按树形结构编码的同义词分类词典的每个节点具有唯一的所述代码。

7.如权利要求6所述的翻译错误的定位方法，其特征在于：所述调节参数L为所述按所述树形结构编码的同义词分类词典的层数。

8.如权利要求1所述的翻译错误的定位方法，其特征在于，所述对原文和译文中的网页标签进行标记的过程包括：

使用网页标签识别规则检查所有所述原文语句和所述译文语句中是否包含所述网页标签；

如果所述原文语句中包含所述网页标签，则遍历所述原文，依次获得所述网页标签在所述原文中的起始索引和所述网页标签的长度；

根据所述网页标签在所述原文中的起始索引和所述网页标签的长度，将所述原文中的所述网页标签标记为不能修改；

如果所述译文语句中包含所述网页标签，则遍历所述译文，依次获得所述网页标签在所述译文中的起始索引和所述网页标签的长度；

根据所述网页标签在所述译文中的起始索引和所述网页标签的长度，将所述译文中的所述网页标签标记为不能修改。

9.如权利要求1所述的翻译错误的定位方法，其特征在于，所述实义词包括：名词、动词、形容词和副词。

10.一种翻译错误的定位装置，其特征在于，包括：

第一单元，用于对原文和译文中的网页标签进行标记；

第二单元，用于对标记后的所述原文中的所有原文语句分词，去除其中的停用词，获得实义词；

第三单元，用于获取所述原文语句的每个实义词的所有译项，其中，一个所述译项为所述实义词的一种表达含义；

第四单元，用于将每个所述原文语句的每个实义词的所有译项在标记后的所述译文中的所有译文语句中进行匹配，获得每个所述原文语句的每个实义词和所述译文语句的相似度；

第五单元，用于根据每个所述原文语句的所有实义词和所述译文语句的相似度，将每个所述原文语句和所述译文语句进行匹配，获得每个所述原文语句和所述译文语句的相似度；

第六单元，用于将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。