CN107977454A

CN107977454A - 双语语料清洗的方法、装置及计算机可读存储介质

Info

Publication number: CN107977454A
Application number: CN201711351289.1A
Authority: CN
Inventors: 张睦
Original assignee: Expressive Language Networking Polytron Technologies Inc
Current assignee: Expressive Language Networking Polytron Technologies Inc
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2018-05-01

Abstract

本发明公开了双语语料清洗的方法、装置及计算机可读存储介质，属于翻译技术领域。该方法包括：确定当前待清洗语料的当前语料清洗特征值，其中，所述当前语料清洗特征值为表示所述当前待清洗语料中当前原文与当前译文翻译匹配程度的特征值；从设定的已标识标签的双语语料集合中，通过机器学习提取与所述当前语料清洗特征值最匹配的第一设定个数语料的清洗分类标签，其中，所述设定的已标识标签的双语语料集合中包括第二设定个数的语料，每个语料的清洗分类标签和语料清洗特征值已确定，且所述清洗分类标签至少包括两类；根据所述第一设定个数的清洗分类标签，确定所述当前待清洗语料当前清洗分类标签，并进行对应的清洗处理，这样提高了翻译效率。

Description

双语语料清洗的方法、装置及计算机可读存储介质

技术领域

本发明涉及翻译技术领域，特别涉及双语语料清洗的方法、装置及计算机可读存储介质。

背景技术

当前计算机辅助翻译是提高翻译一致性和效率的重要手段，它能够帮助翻译者优质、高效、轻松地完成翻译，使得繁重的手工翻译流程自动化，并大幅度提高了翻译效率和翻译质量。

通过计算机辅助翻译进行翻译时，待翻译的文本会在双语翻译语料库中进行原语言的句段语料匹配，以检索出相似度比较高的其对应的译文并向译员提出翻译建议。友好的建议会大大的减少译员重复的翻译任务并且保证了其翻译的一致性，从而大大提高了翻译工作的效率。因此，双语翻译语料库的质量是提高翻译效率的一个关键因素。而双语翻译语料库中可能会包含一些错误的翻译单元，这些错误的翻译单元往往会降低语料匹配的建议，因此对双语翻译语料库进行语料清洗，剔除错误的翻译单元是一项不能忽视的重要工作。

发明内容

本发明实施例提供了一种双语语料清洗的方法、装置及计算机可读存储介质。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

根据本发明实施例的第一方面，提供了一种双语语料清洗的方法，包括：

确定当前待清洗语料的当前语料清洗特征值，其中，所述当前语料清洗特征值为表示所述当前待清洗语料中当前原文与当前译文翻译匹配程度的特征值；

从设定的已标识标签的双语语料集合中，通过机器学习提取与所述当前语料清洗特征值最匹配的第一设定个数语料的清洗分类标签，其中，所述设定的已标识标签的双语语料集合中包括第二设定个数的语料，每个语料的清洗分类标签和语料清洗特征值已确定，且所述清洗分类标签至少包括两类；

根据所述第一设定个数的清洗分类标签，确定所述当前待清洗语料当前清洗分类标签，并进行对应的清洗处理。

本发明一实施例中，所述确定当前待清洗语料的当前语料清洗特征值之前，还包括：

从双语翻译语料库中，获取第三设定个数的已标注第一类清洗分类标签的第一语料，第四设定个数的已标注第二类清洗分类标签的第二语料，以及第五设定个数的已标注第三类清洗分类标签的第三语料；

根据所述第一语料，所述第二语料，以及所述第三语料，组成所述设定的已标识标签的双语语料集合；

确定所述设定的已标识标签的双语语料集合中每个语料的语料清洗特征值。

本发明一实施例中，所述确定所述设定的已标识标签的双语语料集合中每个语料的语料清洗特征值包括：

根据所述语料中原文与译文的文字特征，确定至少一个第一语料清洗特征值；或/和，

根据设定的机器翻译模型，确定所述语料的至少一个第二语料清洗特征值；或/和，

根据语种方向、语法以及译员翻译的编辑行为记录，确定所述语料的至少一个第三语料清洗特征值。

本发明一实施例中，所述从设定的已标识标签的双语语料集合中，通过机器学习提取与所述当前语料清洗特征值最匹配的第一设定个数语料的清洗分类标签包括：

将所述当前语料清洗特征值与所述设定的已标识标签的双语语料集合中每个语料的语料清洗特征值进行比较；

通过k临近分类算法，确定第一设定个数与所述当前语料清洗特征值最匹配的语料，并提取对应的清洗分类标签。

本发明一实施例中，所述进行对应的清洗处理包括：

若所述当前清洗分类标签为第一类清洗分类标签时，将所述当前待清洗语料保持在双语翻译语料库中；

若所述当前清洗分类标签为第二类清洗分类标签时，进行再编辑提示；

若所述当前清洗分类标签为第三类清洗分类标签时，从所述双语翻译语料库中删除所述当前待清洗语料。

根据本发明实施例的第二方面，提供一种双语语料清洗的装置，包括：

确定单元，用于确定当前待清洗语料的当前语料清洗特征值，其中，所述当前语料清洗特征值为表示所述当前待清洗语料中当前原文与当前译文翻译匹配程度的特征值；

提取单元，用于从设定的已标识标签的双语语料集合中，通过机器学习提取与所述当前语料清洗特征值最匹配的第一设定个数语料的清洗分类标签，其中，所述设定的已标识标签的双语语料集合中包括第二设定个数的语料，每个语料的清洗分类标签和语料清洗特征值已确定，且所述清洗分类标签至少包括两类；

清洗单元，用于根据所述第一设定个数的清洗分类标签，确定所述当前待清洗语料的当前清洗分类标签，并进行对应的清洗处理。

本发明一实施例中，还包括：

标识单元，用于从双语翻译语料库中，获取第三设定个数的已标注第一类清洗分类标签的第一语料，第四设定个数的已标注第二类清洗分类标签的第二语料，以及第五设定个数的已标注第三类清洗分类标签的第三语料，根据所述第一语料，所述第二语料，以及所述第三语料，组成所述设定的已标识标签的双语语料集合，以及，根据所述语料中原文与译文的文字特征，确定至少一个第一语料清洗特征值，或/和，根据设定的机器翻译模型，确定所述语料的至少一个第二语料清洗特征值，或/和，根据语种方向、语法以及译员翻译的编辑行为记录，确定所述语料的至少一个第三语料清洗特征值。

本发明一实施例中，所述提取单元，具体用于将所述当前语料清洗特征值与所述设定的已标识标签的双语语料集合中每个语料的语料清洗特征值进行比较，通过k临近分类算法，确定第一设定个数与所述当前语料清洗特征值最匹配的语料，并提取对应的清洗分类标签；

所述清洗单元，具体用于若所述当前清洗分类标签为第一类清洗分类标签时，将所述当前待清洗语料保持在双语翻译语料库中，若所述当前清洗分类标签为第二类清洗分类标签时，进行再编辑提示，若所述当前清洗分类标签为第三类清洗分类标签时，从所述双语翻译语料库中删除所述当前待清洗语料。

根据本发明实施例的第三方面，提供一种双语语料清洗的装置，用于终端，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

根据本发明实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现上述方法的步骤。

本发明实施例提供的技术方案可以包括以下有益效果：

本发明实施例中，可根据待清洗语料的语料清洗特征值，从设定的已标识标签的双语语料集合中，通过机器学习提取设定个数匹配的语料的清洗分类标签，从而，确定待清洗语料的当前清洗分类标签，并进行对应的清洗处理，这样，可实现对双语翻译语料库进行语料清洗，提高双语翻译语料库的质量，进一步，提高计算机辅助翻译的翻译效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种双语语料清洗方法的流程图；

图2是根据一示例性实施例示出的一种设定的已标识标签的双语语料集合配置的流程图；

图3是根据一示例性实施例示出的一种一种双语语料清洗方法的流程图；

图4是根据一示例性实施例示出的一种双语语料清洗装置的框图；

图5是根据一示例性实施例示出的一种双语语料清洗装置的框图。

具体实施方式

以下描述和附图充分地示出本发明的具体实施方案，以使本领域的技术人员能够实践它们。实施例仅代表可能的变化。除非明确要求，否则单独的部件和功能是可选的，并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本发明的实施方案的范围包括权利要求书的整个范围，以及权利要求书的所有可获得的等同物。在本文中，各实施方案可以被单独地或总地用术语“发明”来表示，这仅仅是为了方便，并且如果事实上公开了超过一个的发明，不是要自动地限制该应用的范围为任何单个发明或发明构思。本文中，诸如第一和第二等之类的关系术语仅仅用于将一个实体或者操作与另一个实体或操作区分开来，而不要求或者暗示这些实体或操作之间存在任何实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素。本文中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的结构、产品等而言，由于其与实施例公开的部分相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

计算机辅助翻译是一种越来越普遍使用的软件应用，通过该应用可以帮助翻译者优质、高效、轻松地完成翻译。一般翻译应用中的双语平行语料库即双语翻译语料库中的语料往往有两个主要来源，包括：译员翻译完成的原译文平行语句，以及从互联网获取的平行语料。随着语料资源不断的增加，翻译应用可提供更好的语料匹配以协助译员完成翻译。但是，在双语翻译语料库的扩充过程中，由于译员水平的高低不同，以及互联网上可能存在的不可靠的语料，这样会使得一些错误的语料补充进来，因此，对双语翻译语料库进行语料清洗，剔除错误的翻译单元是一项不能忽视的重要工作。本发明实施例中，可预先设定一个包括多个清洗分类标签和语料清洗特征值已确定的语料的已标识标签的双语语料集合，然后，可根据待清洗语料的语料清洗特征值，通过机器学习，从设定的已标识标签的双语语料集合中提取设定个数匹配的语料的清洗分类标签，从而，确定待清洗语料的当前清洗分类标签，并进行对应的清洗处理，这样，可实现对双语翻译语料库进行语料清洗，提高双语翻译语料库的质量，进一步，提高计算机辅助翻译的翻译效率。

图1是根据一示例性实施例示出的一种双语语料清洗方法的流程图。如图1所示，双语语料清洗的过程包括：

步骤101：确定当前待清洗语料的当前语料清洗特征值。

本发明实施例需对双语翻译语料库进行语料清洗，因此，双语翻译语料库中的任一个语料都可为当前待清洗语料。一般，语料包括一个原文句段以及对应的一个译文句段，这里分别为原文和译文，是双语翻译语料库中的一个单元。一般，翻译正确的语料，即原文与译文完全翻译匹配的语料是不需要被清洗的语料，即可根据原文与译文翻译匹配程度来确定语料的语料清洗特征值。这样，语料清洗特征值为表示语料中原文与译文翻译匹配程度的特征值，而当前语料清洗特征值为表示当前待清洗语料中当前原文与当前译文翻译匹配程度的特征值。

可以从不同的方面来表示语料中原文与译文翻译匹配程度的特征值，即语料清洗特征值可包括：第一语料清洗特征值、第二语料清洗特征值，以及第三语料清洗特征值中的一个或多个。

其中，可根据语料中原文与译文的文字特征，确定至少一个第一语料清洗特征值。例如：一条正确翻译的语料，原文和译文的长度比例不应该差别过大，因此，第一语料清洗特征值可包括：原文分词后的单词数与译文分词后的单词数之间的比值。或者，文字特征可包括非译元素，例如：邮箱，数字，日期，货币等，因此，第一语料清洗特征值可包括：原文中非译元素的个数与译文中非译元素的个数之间的比值。当然，还可是根据其他文字特征，确定的语料清洗特征值。第一语料清洗特征值可以是一个，两个或多个。

可根据设定的机器翻译模型，确定语料的至少一个第二语料清洗特征值。目前，很多翻译都是借助机器翻译模型来完成的，因此，可根据设定的机器翻译模型，确定至少一个第二语料清洗特征值。例如：机器翻译中的概率语言模型是一个函数，它将一个原文作为输入，会返回该句段中单词序列可能性的一个评测值，概率高的评测值表示这个句段的表述更为流畅，因此，第二语料清洗特征值可包括：从概率语言模型中获取译文的概率评测值。当然，还可是机器翻译评测分等其他可通过机器翻译确定的特征值。

当然，语种方向错误，语法错误或编辑错误的语料也是需要被清洗的，因，可根据语种方向、语法以及译员翻译的编辑行为记录，确定语料的至少一个第三语料清洗特征值。例如：根据语法和译员翻译的编辑行为记录，第三语料清洗特征值可包括：译员翻译的编辑行为记录的编辑值和语法错误值。第三语料清洗特征值也可是一个、两个或多个。

因此，语料清洗特征值可以有一个、两个或多个类型，每个类型可以包括一个、两个或多个特征值。

从双语翻译语料库中获取了当前待清洗语料后，需确定当前待清洗语料的当前语料清洗特征值。当前语料清洗特征值不同，具体的确定方式也不同，例如：识别当前待清洗语料的原文和译文中非译元素个数，并计算对应的比值，从而确定对应的当前第一语料清洗特征值。或者，通过一些翻译审查工具对当前待清洗语料的语法错误进行检查，确定对应的当前第三语料清洗特征值。其他当前语料清洗特征值的确定过程就不一一累述了。

步骤102：从设定的已标识标签的双语语料集合中，通过机器学习提取与当前语料清洗特征值最匹配的第一设定个数语料的清洗分类标签。

本发明实施例中，可预先配置一个设定的已标识标签的双语语料集合，该设定的已标识标签的双语语料集合中包括第二设定个数的语料，每个语料的清洗分类标签和语料清洗特征值已确定，且清洗分类标签至少包括两类。即设定的已标识标签的双语语料集合中，有大量的语料样本，每个语料对应有明确的清洗分类标签，并已确定了对应的语料清洗特征值。例如：一个翻译正确的语料对应为无需清洗的清洗分类标签，对应的语料清洗特征值包括：原文中非译元素的个数与译文中非译元素的个数之间的比值100％，原文到译文方向的机器翻译测评分99，语法错误0，拼写错误0。另一个语料对应为需清洗的清洗分类标签，对应的语料清洗特征值包括：原文中非译元素的个数与译文中非译元素的个数之间的比值90％，原文到译文方向的机器翻译测评分68，语法错误0，拼写错误2。

配置了设定的已标识标签的双语语料集合后，通过机器学习，来确定与所述当前语料清洗特征值最匹配的第一设定个数语料，然后提取对应的清洗分类标签。例如：在进行当前待清洗语料的清洗过程中，可将当前语料清洗特征值与设定的已标识标签的双语语料集合中每个语料的语料清洗特征值进行比较；然后，通过k临近分类算法(k-th NearestNeighbor，kNN分类算法，确定提取第一设定个数语料，并提取对应的清洗分类标签。由于语料清洗特征值可包括一个、两个或多个特征值，而每个语料对应的具体语料清洗特征值也不完全相同，因此，可通过kNN分类算法，从设定的已标识标签的双语语料集合中，确定匹配的第一设定个数语料，然后可提取对应的清洗分类标签。kNN分类算法是一种监督型的机器学习算法。它通过测量输入数据和训练样本之间不同特征值的距离方法对其进行有效的分类。即可将当前语料清洗特征值确定为测量输入数据，训练样本的特征值即为设定的已标识标签的双语语料集合中每个语料的语料清洗特征值，通过kNN分类算法，即可确定与当前语料清洗特征值最匹配的第一设定个数语料，从而进一步提取对应的清洗分类标签。

当然，第一设定个数要远远小于第二设定个数，例如：第一设定个数为10，第二设定个数为1000。或者，第一设定个数为15，第二设定个数为1200等等。

本发明实施例也不仅限于kNN分类算法，其他机器学习的方式也可从设定的已标识标签的双语语料集合中，确定与当前语料清洗特征值最匹配的语料。当然，其他方式也可进行提取，例如人工统计，也可确定与当前语料清洗特征值最匹配的第一设定个数语料。或者，给每类语料清洗特征值配置一个权重系数，确定了每种语料清洗特征值对应的匹配值后，通过权重系数进行元素，得到当前语料清洗特征值与设定的已标识标签的双语语料集合中一个语料的语料清洗特征值之间的总的匹配值，然后根据总的匹配值的大小进行排序，确定第一设定个数的语料，进而提取对应的清洗分类标签。

步骤103：根据第一设定个数的清洗分类标签，确定当前待清洗语料的当前清洗分类标签，并进行对应的清洗处理。

已提取了第一设定个数的清洗分类标签，而清洗分类标签有两类或多类，因此，可统计第一设定个数中出现最多次数的清洗分类标签，将最多次数的清洗分类标签确定为当前待清洗语料的当前清洗分类标签，然后进行对应的清洗处理。

当前清洗分类标签不同，对应的清洗处理也不同。在设定的已标识标签的双语语料集合中，配置的清洗分类标签若包括：无需清洗的第一类清洗分类标签，可修改编辑的第二类清洗分类标签，以及需清洗的第三类清洗分类标签时，则进行对应的清洗处理可包括：若当前清洗分类标签为第一类清洗分类标签时，将当前待清洗语料保持在双语翻译语料库中；若当前清洗分类标签为第二类清洗分类标签时，进行再编辑提示；若当前清洗分类标签为第三类清洗分类标签时，从双语翻译语料库中删除当前待清洗语料。

可见，本发明实施例中，可根据待清洗语料的语料清洗特征值，从设定的已标识标签的双语语料集合中，通过机器学习提取设定个数匹配的语料的清洗分类标签，从而，确定待清洗语料的当前清洗分类标签，并进行对应的清洗处理，这样，可实现对双语翻译语料库进行语料清洗，提高双语翻译语料库的质量，进一步，提高计算机辅助翻译的翻译效率。

当然，若当前清洗分类标签为第二类清洗分类标签时，进行再编辑提示后，译员进行对应的编辑修改后，则可重新将编辑后的语料确定为待清洗语料进行对应的语料清洗过程中。

本发明实施例中，设定的已标识标签的双语语料集合是语料清洗的基础，因此，配置设定的已标识标签的双语语料集合时本发明实施例的一个关键点。

图2是根据一示例性实施例示出的一种设定的已标识标签的双语语料集合配置的流程图。如图2所示，已标识标签的双语语料集合配置的过程包括：

步骤201：从双语翻译语料库中，获取第三设定个数的已标注第一类清洗分类标签的第一语料，第四设定个数的已标注第二类清洗分类标签的第二语料，以及第五设定个数的已标注第三类清洗分类标签的第三语料。

这里，第三设定个数、第四设定个数、第五设定个数的总和为第二设定个数。例如：获取1000个第一语料，500个第二语料，以及500个第三语料，这样，第二设定个数为2000。

本实施例中，可配置设定的已标识标签的双语语料集合中清洗分类标签包括三类，具体可包括：无需清洗的第一类清洗分类标签，可修改的第二类清洗分类标签，以及需清洗的第三类清洗分类标签。这样，从双语翻译语料库中随机获取一个语料，可采用人工标注或智能标注的方式，确定该语料对应的清洗分类标签。例如：由两名专业译员根据语料质量分类准则对获取的语料各自进行清洗分类标签的标识；然后，可综合两名译员的分类标识，如果分类标识相同则确定获取的语料的清洗分类标签，否则，由两名译员互相之间讨论选取一个都能够接受的分类标识。这样，可通过人工标识，可从双语翻译语料库中，获取第三设定个数的已标注第一类清洗分类标签的第一语料，第四设定个数的已标注第二类清洗分类标签的第二语料，以及第五设定个数的已标注第三类清洗分类标签的第三语料。

步骤202：根据第一语料，第二语料，以及第三语料，组成设定的已标识标签的双语语料集合。

例如：获取了1000个第一语料，500个第二语料，以及500个第三语料，则组成的设定的已标识标签的双语语料集合中每个语料标签以及个数关系可如表1所示。

清洗分类标签	语料质量分类准则	数量
			第一类清洗分类	翻译完全正确	1000
第二类清洗分类	翻译大体正确，需简单编辑后形成完成正确的翻译	500
			第三类清洗分类	翻译错误，需多次编辑或重新翻译才能形成完成正确的翻译	500

表1

步骤203：确定设定的已标识标签的双语语料集合中每个语料的语料清洗特征值。

语料清洗特征值为表示语料中原文与译文翻译匹配程度的特征值，可根据语料中原文与译文的文字特征，确定至少一个第一语料清洗特征值；或/和，根据设定的机器翻译模型，确定语料的至少一个第二语料清洗特征值；或/和，根据语种方向、语法以及译员翻译的编辑行为记录，确定语料的至少一个第三语料清洗特征值。

其中，第一语料清洗特征值主要包含了原文和译文之间文字方面上的一些特征，可如表2所示。

表2

一个正确翻译的语料，原文和译文长度的比例不应该差别过大，因此，在特征选取上面考虑原文和译文的单词数和字符数，可如表2中特征1-1～1-2所示。其次，正确翻译的语料还可参考了原文和译文中的非译元素的一致性，其中非译元素包括邮箱，数字，日期，货币等，可如表2中特征1-3～1-4所示。最后，原文译文是否在字面上是否完全相同或为空，即很可能属于原文未被翻译的情况，可如表2中特征1-5～1-6所示。当然，第一语料清洗特征值可包括如表2所示的6项，也可只包括其中一项、两项或多项。

第二语料清洗特征值可借用了一些机器翻译的质量评测相关的手段。可如表3所示。

表3

利用特殊阶数n的正确n元文法的个数占生成的该阶n元文法总数的比例能够计算出n元文法的准确率，如表3中特征2-1所示。机器翻译中的概率语言模型是一个函数，它将一个句子作为输入，会返回该句子中单词序列可能性的一个评测值，如表3中特征2-2所示，概率高的评测值表示这句话的表述更为流畅。特征2-3主要是基于词对齐的一个结果。特征2-4是机器翻译评测BLEU(Bilingual Evaluation Undersudy)得分。同样，第二语料清洗特征值可包括如表3所示的4项，也可只包括其中一项、两项或多项。

第三语料清洗特征值是可根据语种方向、语法以及译员翻译的编辑行为记录确定的。可如表4所示。

表4

第三语料清洗特征值可包含了原文和译文的语种方向是否和语料清洗的目标语种方向是否一致，如表4中特征3-1所示。并且，可通过语法检测工具和拼写检查工具可以获取对译员翻译中的语法和拼写错误，以及相应的纠错选项，如表4中特征3-2～3-3所示，其中，越正确的翻译，其语法拼写错误越少，纠正也更少；反之亦然。除此以外，译员翻译的一系列用户信息可以通过计算机辅助翻译系统在后台进行记录。这些用户信息反映出了译员翻译时精力投入程度，正确的翻译往往包含了更多的编辑行为，可如表4中3-4所示。同样，第三语料清洗特征值可包括如表4所示的4项，也可只包括其中一项、两项或多项。

具体的语料清洗特征值不同，确定的方式也会不同，目前，通过现有的方式可确定对应的语料清洗特征值，例如：人工统计，智能识别匹配或则借助现有的译员翻译的编辑行为记录工具等等。这样，设定的已标识标签的双语语料集合中每个语料的语料清洗特征值都可确定。

可见，本实施例中，已配置了设定的已标识标签的双语语料集合，其中，设定的已标识标签的双语语料集合中包括第二设定个数的语料，每个语料的清洗分类标签和语料清洗特征值已确定，且清洗分类标签至少包括两类。这样，可基于设定的已标识标签的双语语料集合，对当前待清洗语料进行对应的清洗处理，实现对双语翻译语料库进行语料清洗，提高双语翻译语料库的质量，进一步，提高计算机辅助翻译的翻译效率。

下面将操作流程集合到具体实施例中，举例说明本公开实施例提供的方法。

本实施例中，设定的已标识标签的双语语料集合中可包括2000个语料，其中，第一语料1000，第二语料500，第三语料500，可如上述表1所示。即设定的已标识标签的双语语料集合中清洗分类标签包括三类，具体可包括：无需清洗的第一类清洗分类标签，可修改编辑的第二类清洗分类标签，以及需清洗的第三类清洗分类标签。

图3是根据一示例性实施例示出的一种双语语料清洗方法的流程图。如图3所示，双语语料清洗过程包括：

步骤301：确定当前待清洗语料的当前语料清洗特征值。

从双语翻译语料库中确定一个语料为当前待清洗语料。而具体的语料清洗特征值可在配置设定的已标识标签的双语语料集合时进行确定，例如：语料清洗特征值可包括三个第一语料清洗特征值，一个第二语料清洗特征值，以及一个第三语料清洗特征值。或者，可包括六个第一语料清洗特征值。或者，可包括二个第一语料清洗特征值，四个第二语料清洗特征值，以及四个第三语料清洗特征值等等。这样，针对不同的语料清洗特征值，确定当前待清洗语料的当前语料清洗特征值。

步骤302：将当前语料清洗特征值与设定的已标识标签的双语语料集合中每个语料的语料清洗特征值进行比较。

步骤303：通过k临近分类算法，确定第一设定个数与当前语料清洗特征值最匹配的语料。

第一设定个数远远小于第二设定个数，这里，第二设定个数为2000，第一设定个数可为第二设定个数的1％，即为20，或者，其他的个数例如：10,15,25等也可以。

步骤304：提取确定的第一设定个数的语料对应的清洗分类标签。

步骤305：将提取清洗分类标签中出现最多次的清洗分类标签确定为当前待清洗语料的当前清洗分类标签。

若提取了20个清洗分类标签，其中，第一类清洗分类标签为12个，第二类清洗分类标签为6，第三类清洗分类标签为2个，则可确定当前清洗分类标签为第一类清洗分类标签。

步骤306：根据当前清洗分类标签，对当前待清洗语料进行对应的清洗处理。

其中，若当前清洗分类标签为第一类清洗分类标签时，将当前待清洗语料保持在双语翻译语料库中；若当前清洗分类标签为第二类清洗分类标签时，进行再编辑提示；若当前清洗分类标签为第三类清洗分类标签时，从双语翻译语料库中删除当前待清洗语料。其中，对当前待清洗语料进行在编辑提示后，译员可对该语料进行对应的编辑，然后，编辑后的语料也可重新成为当前待清洗语料，再次进行语料清洗过程。

可见，本实施例中，可根据待清洗语料的语料清洗特征值，从设定的已标识标签的双语语料集合中，通过机器学习提取设定个数匹配的语料的清洗分类标签，从而，确定待清洗语料的当前清洗分类标签，并进行对应的清洗处理，这样，可实现对双语翻译语料库进行语料清洗，提高双语翻译语料库的质量，进一步，提高计算机辅助翻译的翻译效率。

下述为本公开装置实施例，可以用于执行本公开方法实施例。

根据上述语料清洗的过程，可构建一种语料清洗的装置。

图4是根据一示例性实施例示出的一种双语语料清洗装置的框图。如图4所示，该装置包括：确定单元100，提取单元200，以及清洗单元300，其中，

确定单元100，用于确定当前待清洗语料的当前语料清洗特征值，其中，当前语料清洗特征值为表示当前待清洗语料中当前原文与当前译文翻译匹配程度的特征值。

确定单元200，用于从设定的已标识标签的双语语料集合中，通过机器学习提取与当前语料清洗特征值最匹配的第一设定个数语料的清洗分类标签，其中，设定的已标识标签的双语语料集合中包括第二设定个数的语料，每个语料的清洗分类标签和语料清洗特征值已确定，且清洗分类标签至少包括两类；

清洗单元300，用于根据第一设定个数的清洗分类标签，确定当前待清洗语料的当前清洗分类标签，并进行对应的清洗处理。

本发明一实施例中，还包括：

标识单元，用于从双语翻译语料库中，获取第三设定个数的已标注第一类清洗分类标签的第一语料，第四设定个数的已标注第二类清洗分类标签的第二语料，以及第五设定个数的已标注第三类清洗分类标签的第三语料，根据第一语料，第二语料，以及第三语料，组成设定的已标识标签的双语语料集合，以及，确定设定的已标识标签的双语语料集合中每个语料的语料清洗特征值。

而本发明一实施例中，训练单元，可具体用于根据语料中原文与译文的文字特征，确定至少一个第一语料清洗特征值，或/和，根据设定的机器翻译模型，确定语料的至少一个第二语料清洗特征值，或/和，根据语种方向、语法以及译员翻译的编辑行为记录，确定语料的至少一个第三语料清洗特征值。

本发明一实施例中，提取单元200，具体用于将当前语料清洗特征值与设定的已标识标签的双语语料集合中每个语料的语料清洗特征值进行比较，通过k临近分类算法，确定第一设定个数与当前语料清洗特征值最匹配的语料，并提取对应的清洗分类标签。

本发明一实施例中，清洗单元300，具体用于若当前清洗分类标签为第一类清洗分类标签时，将当前待清洗语料保持在双语翻译语料库中，若当前清洗分类标签为第二类清洗分类标签时，进行再编辑提示，若当前清洗分类标签为第三类清洗分类标签时，从双语翻译语料库中删除当前待清洗语料。

下面举例说明本公开实施例提供的装置。

图5是根据一示例性实施例示出的一种双语语料清洗装置的框图。如图5所示，该装置包括：确定单元100，提取单元200，以及清洗单元300，还包括标识单元400，其中，

标识单元400可如图2的流程配置设定的已标识标签的双语语料集合，即从双语翻译语料库中，获取第三设定个数的已标注第一类清洗分类标签的第一语料，第四设定个数的已标注第二类清洗分类标签的第二语料，以及第五设定个数的已标注第三类清洗分类标签的第三语料，并根据第一语料，第二语料，以及第三语料，组成设定的已标识标签的双语语料集合后，确定设定的已标识标签的双语语料集合中每个语料的语料清洗特征值。这样，设定的已标识标签的双语语料集合中可包括2000个语料，其中，第一语料1000，第二语料500，第三语料500，可如上述表1所示。即设定的已标识标签的双语语料集合中清洗分类标签包括三类，具体可包括：无需清洗的第一类清洗分类标签，可修改的第二类清洗分类标签，以及需清洗的第三类清洗分类标签。

这样，确定单元100可确定当前待清洗语料的当前语料清洗特征值。而提取单元200可将当前语料清洗特征值与训练单元400配置的设定的已标识标签的双语语料集合中每个语料的语料清洗特征值进行比较后，通过K临近分类算法，确定第一设定个数与当前语料清洗特征值最匹配的语料，并提取确定的第一设定个数的语料对应的清洗分类标签。而清洗单元300可将提取清洗分类标签中出现最多次的清洗分类标签确定为当前待清洗语料的当前清洗分类标签后，可根据当前清洗分类标签，对当前待清洗语料进行对应的清洗处理。其中，若当前清洗分类标签为第一类清洗分类标签时，清洗单元300可将当前待清洗语料保持在双语翻译语料库中；若当前清洗分类标签为第二类清洗分类标签时，清洗单元300可进行再编辑提示；若当前清洗分类标签为第三类清洗分类标签时，清洗单元300可从双语翻译语料库中删除当前待清洗语料。

本发明一实施例中，提供一种双语语料清洗的装置，用于终端，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为：

确定当前待清洗语料的当前语料清洗特征值，其中，当前语料清洗特征值为表示当前待清洗语料中当前原文与当前译文翻译匹配程度的特征值；

从设定的已标识标签的双语语料集合中，通过机器学习提取与当前语料清洗特征值最匹配的第一设定个数语料的清洗分类标签，其中，设定的已标识标签的双语语料集合中包括第二设定个数的语料，每个语料的清洗分类标签和语料清洗特征值已确定，且清洗分类标签至少包括两类；

根据第一设定个数的清洗分类标签，确定当前待清洗语料当前清洗分类标签，并进行对应的清洗处理。

本发明一实施例中，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现上述方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的流程及结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种双语语料清洗的方法，其特征在于，包括：

根据所述第一设定个数的清洗分类标签，确定所述当前待清洗语料的当前清洗分类标签，并进行对应的清洗处理。

2.如权利要求1所述的方法，其特征在于，所述确定当前待清洗语料的当前语料清洗特征值之前，还包括：

3.如权利要求2所述的方法，其特征在于，所述确定所述设定的已标识标签的双语语料集合中每个语料的语料清洗特征值包括：

4.如权利要求1或2所述的方法，其特征在于，所述从设定的已标识标签的双语语料集合中，通过机器学习提取与所述当前语料清洗特征值最匹配的第一设定个数语料的清洗分类标签包括：

5.如权利要求2所述的方法，其特征在于，所述进行对应的清洗处理包括：

6.一种双语语料清洗的装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，还包括：

8.如权利要求7所述的装置，其特征在于，

所述提取单元，具体用于将所述当前语料清洗特征值与所述设定的已标识标签的双语语料集合中每个语料的语料清洗特征值进行比较，通过k临近分类算法，确定第一设定个数与所述当前语料清洗特征值最匹配的语料，并提取对应的清洗分类标签；

9.一种双语语料清洗的装置，用于终端，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-5所述方法的步骤。