CN113642337A

CN113642337A - 数据处理方法和装置、翻译方法、电子设备以及计算机可读存储介质

Info

Publication number: CN113642337A
Application number: CN202010394116.3A
Authority: CN
Inventors: 王佳骏; 赵宇; 周凤鸣
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2021-11-12
Anticipated expiration: 2040-05-11
Also published as: CN113642337B

Abstract

本申请公开了一种数据处理方法和装置、翻译方法、电子设备以及计算机可读存储介质。该方法包括：获取针对互译句对的多组标注信息；分别计算各组标注信息的互译句对互译比；计算多个所述互译句对互译比中标准差小于预设阈值的部分互译句对互译比的平均值；选择与所述平均值的差值最小的互译句对互译比所属的标注信息，作为所述互译句对的参考标注信息。本申请实施例可以基于统计分布的平均值来合理地体现多个标注人员的平均水平，减少了由于标注人员的个体差异导致的评价不准确的问题。

Description

数据处理方法和装置、翻译方法、电子设备以及计算机可读存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种数据处理方法和装置、翻译方法、电子设备以及计算机可读存储介质。

背景技术

在双语互译中，一般由人工针对原文和译文的句子对来标注出相互对应的词语，以形成对齐的双语平行语料，可以作为机器模型的训练数据以应用于机器翻译中，也可以作为双语语料库以应用于双语研究等工作中。

但是，现有的人工标注得到的平行语料，其质量完全依赖于标注人员的翻译水平，但是标注人员的翻译水平参差不齐，很难确保实现统一的比较高的标注质量。

发明内容

本申请实施例提供一种数据处理方法和装置、翻译方法、电子设备以及计算机可读存储介质，以提高双语标注质量。

为达到上述目的，本申请实施例提供了一种数据处理方法，包括：

获取针对互译句对的多组标注信息；

分别计算每一组标注信息的句对互译比；

在所述多组标注信息中选择预订数量的句对互译比计算互译比标准差；

如果所述互译比标准差小于预设的标准差上限，则计算所述预订数量的句对互译比的平均值，作为所述互译句对的质量评估结果。

本申请实施例还提供了一种数据处理装置，包括：

第一获取模块，用于获取针对互译句对的多组标注信息；

第一计算模块，用于分别计算每一组标注信息的句对互译比；

选择模块，用于在所述多组标注信息中选择预订数量的句对互译比计算互译比标准差；

第二计算模块，用于在所述互译比标准差小于预设的标准差上限的情况下计算所述预订数量的句对互译比的平均值，作为所述互译句对的质量评估结果。

本申请实施例还提供了一种电子设备，包括：

存储器，用于存储程序；

处理器，用于运行所述存储器中存储的所述程序，所述程序运行时执行本申请实施例提供的数据处理方法。

本申请实施例还提供了一种计算机可读存储介质，其上存储有可被处理器执行的计算机程序，其中，该程序被处理器执行时实现如本申请实施例提供的数据处理方法。

本申请实施例还提供了一种翻译方法，其特征在于，所述翻译方法包括：

从翻译源获取至少一个互译句对；

使用本申请实施例提供的数据处理方法对所述互译句对进行处理；

当所述互译句对的质量评估结果为优秀时使用所述翻译源进行翻译处理。

本申请实施例提供的数据处理方法和装置、翻译方法、电子设备以及计算机可读存储介质，通过对互译句对的标注信息进行计算来获取句子之间的互译句对互译比，并通过计算互译句对互译比的标准差来计算互译比的平均值作为质量评估结果，从而基于该平均值来确定相应的标注信息作为参考标注信息，因此，本申请可以基于统计分布的平均值来合理地体现多个标注人员的平均水平，减少了由于标注人员的个体差异导致的评价不准确的问题。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例提供的数据处理方法的应用场景示意图；

图2为本申请提供的数据处理方法一个实施例的流程图；

图3为本申请提供的数据处理方法另一个实施例的流程图；

图4为本申请提供的数据处理装置一个实施例的结构示意图；

图5为本申请提供的数据处理装置另一个实施例的结构示意图；

图6为本申请提供的电子设备实施例的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

随着人工智能技术的发展，将人工智能应用于语言翻译的机器翻译技术也随之发展起来。将一种语言文字输入到机器学习模型中，模型通过计算能够输出另一种语言文字。但是在使用该机器学习模型翻译语言文字之前，首先需要将大量的双语平行语料作为训练数据输入到该机器学恶习模型中以进行模型训练。

关于原文与译文相对齐的双语平行语料的获取，现有技术的作法通常是通过互联网爬虫技术从海量的语言网站中爬取双语资料，然后采用人工的方式针对原文和译文中相对应的字或词进行标注，从而得到双语平行语料。因此，在现有技术中，平行语料的标注质量完全依赖于标注人员的翻译水平，但是标注人员的翻译水平参差不齐，很难确保实现统一的比较高的标注质量。从而也无法正确评判作为语料来源的各种网站的翻译质量。

因此，本申请提出一种针对标注信息的处理方法，图1为本申请实施例提供的数据处理方法的应用场景示意图，图1所示的场景仅仅是本申请的技术方案可以应用的场景的示例之一。如图1所示，可以从各种数据源，例如翻译网站获取包括具有不同语言的翻译示例文本。例如，可以从翻译网站获取包括英语语言的第一文本和中文语言的第二文本的互译句对作为翻译示例互译句对，并且通过对该翻译示例互译句对进行人工标注使其成为能够用于机器学习模型训练的平行语料。例如，在本申请实施例中，可以获取英语语言的句子一为“How old are you”，并且获取具有翻译关系的句子二为“你多大了”作为第一对互译句对，并且可以获取英语语言的句子一为“How old are you”，并且获取具有翻译关系的句子二为“怎么老是你”作为第二对互译句对。因此，这两组互译句对可以由人工进行标注以便于作为机器学习模型训练的平行语料。如上所述，在为机器学习模型准备训练语料的过程中，语料的来源，即翻译网站的翻译质量的高低以及对翻译示例互译句对的标注水平的高低都会对机器学习模型的训练质量有很大影响。例如，第一对互译句对的翻译比较准确，而第二对互译句对的翻译就不太准确。因此，在本领域中，通常会先从翻译网站获取少量，一个或几个翻译示例互译句对，例如上述两对互译句对作为该翻译网站的翻译样本，并且安排多个人员对该翻译样本进行标注，并通过标注后的翻译文本来对该翻译样本的来源的翻译网站的翻译质量进行评估，以确定是否可以大量采用该翻译网站的翻译互译句对来制作平行语料。因此，在上述过程中，需要从多个翻译人员或标注人员对同一翻译样本制作的多个标注互译句对中选择能够适合于评估翻译网站翻译质量的标注互译句对，例如，由具有一定翻译水平的标注人员制作的标注互译句对，以便与对翻译网站进行准确的质量评估。

为此，在现有技术中，出现了由多个人按水平高低来对前一个人制作的标注互译句对进行多级的校对确认，从而能够确保标注互译句对具有符合要求的质量来进行对翻译网站的评估。但是这样的方案由于需要进行接力式的工作流转，因此导致流程较长并且效率较低，更特别地，这样的方案会严重依赖于最后一级的校对人员的水平和工作状态，不适合进行自动化的作业。此外，还出现了由多个人对同一翻译样本对进行标注，并且通过对多个人给出的标注结果进行一致性评估或者取平均样本等方式来确定用于对翻译网站进行评估的标注互译句对。但是，这样的方案往往由于多个标注人员的个体能力差异和工作状态差矣而导致的标注结果的差异性较大，从而无法进行一致性评估或者平均值也不能够反映真实的结果。因此，这样的方案在对翻译网站进行评估时也不能给出令人满意的结果。因此，在本申请中，如图1中所示，在从数据源获取了待标注的翻译互译句对之后，可以在例如多语言协同平台的标注平台上分配给多个标注人员，例如图1中的标注人员1-n，来各自进行标注，从而获得多个标注结果。之后可以将获得的多个标注结果作为多组标注信息输入到本申请的数据处理系统中。在本申请的数据处理系统中，可以对于输入的每组标注信息计算其互译句对互译比。

例如，在本申请实施例中，互译句对互译比可以为各组标注信息的文字单元对中属于对应文本的文字单元数与该对应文本的总文字单元数的比率。例如，在英语文本与中文文本互译的情况下，从数据源获取的待标注互译句对可以包括彼此在语义上对应的英语文本和中文文本作为互译文本。因此，标注信息可以是标注人员标注出的英语文本和中文文本中被标注人员认为具有对应关系的一组文字单元对，例如单词或字的对。例如，在上述第一对互译句对的情况下，标注信息可以包括：1、How-多；2、old-大；3、you-你，并且在第二对互译句对的情况下，标注信息可以包括:1、old-lao；2、you-你。因此，在该情况下，可以通过计算英语文本中被标注出具有与中文文本中的单词具有对应关系的英语单词占英语文本的总单词数的比率来确定互译句互译比。例如，在上述第一对互译句对的情况下，句子一包含的英文字数为4个，被标注出的字数为3个，职责可以将被标注出的字数占总字数的比3/4＝0.75作为互译比；在上述第二对互译句对的情况下，句子一包含的英文字数为4个，被标注出的字数为2个，则可以将被标注出的字数占总字数的比2/4＝0.5作为互译比。再例如，如果输入的互译句对中英文文本包括的总字数为35个，中文文本包括的总字数为21个。在该情况下，标注人员1对该互译句对进行标注后获得的标注信息1中标注出的英文文本中的被标注的字数为20个，因此，在该情况下，可以以被标注出的英文字数20占其所属的英文文本的总字数35的比率，即20/35＝0.57作为标注人员1获得的标注信息1的互译句对互译比。或者也可以以被标注出的中文字数14占其所属的中文文本的总字数21的比率，即14/21＝0.67作为标注人员1获得的标注信息1的互译句对互译比。

在本申请中，如上所述计算出的互译句对互译比可以表示作为翻译对象的文本，例如，英文文本或中文文本中，有多少单词被准确地翻译出来，从而可以表示标注人员1所认为的待标注互译句对的翻译质量。

如上所述地可以计算每个标注人员获得的标注信息的互译句对互译比，因此，可以基于这样计算的互译句对互译比来选择适合的标注信息。例如，在本申请中，可以随机或按照特定标准选择所获得的n个标注信息中的一部分来计算其标准差。标准差可以反映所选择的部分标注信息的离散程度，因此，如果所选择的一部分标注信息计算出的标准差大于阈值，则可以表示所选择的这部分标注信息的互译句对互译比，即这部分标注信息所对应的标注人员认为的待标注互译句对的翻译质量相差较大，例如，所选择的这部分标注信息对应的标注人员的水平可能参差不齐，因此，这部分标注信息可能就不适合来评价翻译网站的翻译质量。因此，可以重新选择其他部分标注信息来计算标准差，直到选择的一部分标注信息的标准差低于阈值或满足预设条件，则可以认为这部分标注信息是可以使用的，并且进而可以计算这部分标注信息的互译句对互译比的平均值，并且选择与平均值差值最小的互译句对互译比对应的标注信息，即离平均值最近的标注信息作为该互译句对的最终的标注信息并用于评价翻译网站的翻译质量。

进一步地，利用本申请实施例的方案获得了对于翻译网站的评估结果之后，可以基于该评估结果来选择网站进行翻译或者获取平行语料以用于翻译模型的训练。例如，可以选择评估结果指示网站的翻译质量为优秀的网站作为进行翻译所使用的网站。

通过对互译句对的标注信息进行计算来获取句子之间的互译句对互译比，并通过计算互译句对互译比的标准差来计算互译比的平均值作为质量评估结果，从而基于该平均值来确定相应的标注信息作为参考标注信息，因此，本申请可以基于统计分布的平均值来合理地体现多个标注人员的平均水平，减少了由于标注人员的个体差异导致的评价不准确的问题。

上述实施例是对本申请实施例的技术原理和示例性的应用框架的说明，下面通过多个实施例来进一步对本申请实施例具体技术方案进行详细描述。

实施例一

图2为本申请提供的数据处理方法一个实施例的流程图，该方法的执行主体可以为具有数据处理能力的各种终端或服务器设备，也可以为集成在这些设备上的装置或芯片。如图2所示，该数据处理方法包括如下步骤：

S201，获取针对互译句对的多组标注信息。

在本申请实施例中，当需要对翻译网站进行评估时，可以从该翻译网站获取一个翻译互译句对作为评估样本，或者也可以获取多个翻译互译句对并从中选择一个翻译互译句对来作为评估样本。该互译句对可以由两个彼此对应的第一文本和第二文本构成，例如，第一文本可以是英语语言的文本，并且第二文本可以对应的中文语言的翻译文本。当然，在本申请中，第一文本也可以视为是与第二互译句对应的英语语言的翻译文本。换言之，在本申请中，从翻译网站获取的互译句对可以是彼此互相为另一文本的其他语言的翻译文本。例如，在本申请实施例中，可以获取英语语言的句子一为“How old are you”，并且获取具有翻译关系的句子二为“你多大了”作为第一对互译句对，并且可以获取英语语言的句子一为“How old are you”，并且获取具有翻译关系的句子二为“怎么老是你”作为第二对互译句对。

该互译句对可以进而在例如多语言协同平台的标注平台上分配给多个标注人员，例如图1中的标注人员1-n，来各自进行标注，从而获得多个标注结果，即可以获得针对从翻译网站获取的互译句对的多组标注信息。每一组标注信息可以包含第一文本中与第二文本中互相具有对应关系的文字单元对。换言之，标注信息可以是标注人员标注出的英语文本和中文文本中被标注人员认为具有对应关系的一组文字单元对，例如单词或字的对。

S202，分别计算各组标注信息的互译句对互译比。

在本申请实施例中，可以对于标注人员对互译句对进行标注得到的标注信息进行计算，例如，可以计算标注信息的互译句对互译比。例如，互译句对互译比可以为各组标注信息的文字单元对中属于对应文本的文字单元数与该对应文本的总文字单元数的比率。例如，在英语文本与中文文本互译的情况下，可以通过计算英语文本中被标注出具有与中文文本中的单词具有对应关系的英语单词占英语文本的总单词数的比率来确定互译句互译比。例如，在上述第一对互译句对的情况下，句子一包含的英文字数为4个，被标注出的字数为3个，可以将被标注出的字数占总字数的比3/4＝0.75作为互译比；在上述第二对互译句对的情况下，句子一包含的英文字数为4个，被标注出的字数为2个，则可以将被标注出的字数占总字数的比2/4＝0.5作为互译比。例如，如果输入的互译句对中英文文本包括的总字数为35个，中文文本包括的总字数为21个。在该情况下，标注人员1对该互译句对进行标注后获得的标注信息1中标注出的英文文本中的被标注的字数为20个，因此，在该情况下，可以以被标注出的英文字数20占其所属的英文文本的总字数35的比率，即20/35＝0.57作为标注人员1获得的标注信息1的互译句对互译比。

S203，在多组标注信息中选择预定数量的句对互译比计算互译比标准差。

在本申请实施例中，可以针对一对互译句对获取多组标注信息，即由不同的标注人员标注的标注信息，并且可以根据针对每个标注人员获得的标注信息的互译句对互译比，来选择适合的标注信息。例如，在本申请中，可以随机或按照特定标准选择所获得的n个标注信息中的一部分来计算其标准差。例如，可以根据互译句对的句子的情况，例如复杂程度或者翻译难度来确定选择标注信息的数量。并且可以相应地对于预定数量的句对互译比来计算互译比标准差。因为标准差可以反映所选择的一部分标注信息的离散程度，因此，如果所选择的一部分标注信息计算出的标准差大于阈值，则表示所选择的这部分标注信息的互译句对互译比彼此相差较大，即这部分标注信息所对应的标注人员认为的待标注互译句对的翻译质量相差较大，例如，所选择的这部分标注信息对应的标注人员的水平可能不一样，从而对该翻译互译句对的两个文本中的文字单元之间的对应关系，也就是翻译的准确率有不同的结论，从而导致计算出的互译句对互译比相差很大。因此，这些标注信息可能就不适合来评价翻译网站的翻译质量。因此，可以重新选择其他部分标注信息来计算标准差，直到选择的一部分标注信息的标准差低于阈值或满足预设条件，则可以认为这部分标注信息是可以使用的，并且进而可以计算这部分标注信息的互译句对互译比的平均值，从而作为挑选适合的互译句对互译比的参考。

S204，如果互译比标准差小于预设的标准差上限，则计算预订数量的句对互译比的平均值，作为该互译句对的质量评估结果。

在本申请实施例中，在步骤S203中计算的标准差可以反映标注人员标注的句对互译比的分散程度。因此在步骤S204中可以在互译比标准差小于预设的上限的情况下，即所选择的互译比比较接近的情况下，可以基于步骤S203中选择的句对互译比来计算句对互译比的平均值，来从这一组互译句对互译比中选择适合的互译句对互译比以确定用于评估翻译网站的翻译质量的互译句对。例如，可以选择这一组互译句对互译比中选择与平均值差值最小的互译句对互译比对应的标注信息，即离平均值最近的互译句对互译比所属的标注信息作为该互译句对的最终的标注信息并用于评价翻译网站的翻译质量。

在本申请实施例中，在步骤S204中确定了互译句对的质量评估结果之后，可以进一步将质量评估结果反馈给互译句对的数据源。例如，当从某翻译网站获取了互译句对来使用本申请实施例的方法进行了评估之后，由于本申请实施例的方法可以确定该翻译网站的翻译质量，因此，步骤S204中确定的质量评估结果对于该网站改进其翻译水平是非常有用的。因此，在该情况下，翻译网站可以在支付相应的费用的情况下，请求获取根据本申请实施例的方法确定的质量评估结果，作为对于其互译句对的反馈，来改进其网站的翻译质量。例如，在本申请实施例中，可以在步骤S204中获取了互译句对的质量评估结果之后，将该结果通知给互译句对的来源网站，网站确认需要该评估结果的详细内容之后，可以根据与该评估结果对应的价格使用相应的支付方式支付费用，本申请实施例的数据处理方法可以在确认网站支付成功之后向网站发送该评估结果的详细内容，例如可以包括标注人员的标注信息以及使用本申请实施例的方法计算的标准差以及平均值信息等等。

因此，本申请的数据处理方法可以通过对互译句对的标注信息进行计算来获取句子之间的互译句对互译比，并通过计算互译句对互译比的标准差来计算互译比的平均值作为质量评估结果，从而基于该平均值来确定相应的标注信息作为参考标注信息，因此，本申请可以基于统计分布的平均值来合理地体现多个标注人员的平均水平，减少了由于标注人员的个体差异导致的评价不准确的问题。

实施例二

图3为本申请提供的数据处理方法另一个实施例的流程图。如图3所示，本实施例提供的数据处理方法可以包括以下步骤：

S301，获取针对互译句对的多组标注信息。

在本申请实施例中，互译句对可以在例如多语言协同平台的标注平台上分配给多个标注人员来各自进行标注，从而获得多个标注结果，即可以获得针对从翻译网站获取的互译句对的多组标注信息。每一组标注信息可以包含第一文本中与第二文本中互相具有对应关系的文字单元对。换言之，标注信息可以是标注人员标注出的英语文本和中文文本中被标注人员认为具有对应关系的一组文字单元对，例如单词或字的对。

S302，计算句子一的互译比X₁＝N₁₂/N₁，其中，N₁₂代表句子一相对于句子二互译的词数，N₁代表句子一的总词数。

S303，计算句子二的互译比X₂＝N₂₁/N₂，其中，N₂₁代表句子二相对于句子一互译的词数，N₂代表句子二的总词数。

S304，在句子一的互译比和句子的二的互译比之中，选择数值较小的作为该组标注信息的句对互译比。

在本申请实施例中，可以对于标注人员对互译句对进行标注得到的多组标注信息进行计算，例如，可以计算标注信息的互译句对互译比，并且互译句对互译比可以为各组标注信息的文字单元对中属于对应句子的文字单元数与该对应文本的总文字单元数的比率。

具体地，在句子一是英语文本，并且句子二是中文文本，即，待标注的互译句对是句子一与句子二互译的情况下，在步骤S302中可以计算句子一的互译比X₁＝N₁₂/N₁，其中，N₁₂代表句子一相对于句子二互译的词数，N₁代表句子一的总词数。例如，句子一“How oldare you”包含的英文字数为4个，被标注出的字数“How”、“old”、“you”为3个，可以将被标注出的字数占总字数的比3/4＝0.75作为句子一的互译比。

之后，在步骤S303中，可以计算句子二的对互译比X₂＝N₂₁/N₂，其中，N₂₁代表句子二相对于句子一互译的词数，N₂代表句子二的总词数。类似地，句子二“你多大了”包含的中文字数为4个，被标注出的字数“你”、“多”、“大”为3个，则可以将被标注出的字数占总字数的比3/4＝0.75作为句子二的互译比。

接下来，可以选择步骤S302和步骤S303中获得的第一互译句对互译比和第二互译句对互译比中的一个。例如，在步骤S304中，可以选择这两个互译句对互译比中较小的数值，作为该组标注信息的互译句对互译比。

S305，按照句子互译比从小到大的顺序，选择连续的预定数量Y组的标注信息，计算互译比标准差。

在本申请实施例中，在通过步骤S302-S304为每组互译句对确定了互译句对互译比之后，可以根据所计算出的这些互译句对互译比，来选择适合的标注信息。例如，在本申请中，可以根据标准差来从例如n个互译句对互译比中选择其中的一部分来作为候选互译句对互译比。标准差可以反映所选择的一部分互译句对互译比的离散程度或聚集程度。因此，如果所选择的一部分标注信息计算出的标准差大于阈值，则表示所选择的这部分标注信息的互译句对互译比彼此相差较大，即这部分标注信息所对应的标注人员认为的待标注互译句对的翻译质量相差较大。因此，这些标注信息可能就不适合来评价翻译网站的翻译质量。

在步骤S305中，可以先将计算出来的所有互译句对互译比按数值大小从小到大排序，并且从排序后的互译句对互译比序列的头部开始选取一部分，例如，从多个互译句对互译比中选择Y个互译句对互译比。因此，可以将所选择的Y个互译句对互译比组成互译句对互译比组，以便与在后面的处理中针对该互译句对互译比组进行计算处理。特别地，在本申请实施例中，可以根据预先确定的最小采纳人数来从多个互译句对互译比中选择连续的该最小采纳人数个互译句对互译比。

例如，可以根据互译句对的句子的情况，例如复杂程度或者翻译难度来确定选择标注信息的数量。并且可以相应地对于预定数量的句对互译比来计算互译比标准差。因为标准差可以反映所选择的一部分标注信息的离散程度，因此，如果所选择的一部分标注信息计算出的标准差大于阈值，则表示所选择的这部分标注信息的互译句对互译比彼此相差较大，即这部分标注信息所对应的标注人员认为的待标注互译句对的翻译质量相差较大，例如，所选择的这部分标注信息对应的标注人员的水平可能不一样，从而对该翻译互译句对的两个文本中的文字单元之间的对应关系，也就是翻译的准确率有不同的结论，从而导致计算出的互译句对互译比相差很大。因此，这些标注信息可能就不适合来评价翻译网站的翻译质量。因此，可以重新选择其他部分标注信息来计算标准差，直到选择的一部分标注信息的标准差低于阈值或满足预设条件，则可以认为这部分标注信息是可以使用的，并且进而可以计算这部分标注信息的互译句对互译比的平均值，从而作为挑选适合的互译句对互译比的参考。

此外，在本申请实施例中，在计算互译句对的互译比时，可以进一步基于标注人员的等级对互译比进行加权计算，例如等级较高的标注人员的标注可以具有较高的可信度，并且因此可以具有较高的互译比加权系数，因此可以在基于其标注信息计算出互译比之后进一步基于其等级进行加权计算，例如可以以其等级作为加权系数与互译比相乘来作为最终的互译比计算结果。

S306，如果互译比标准差小于预设的标准差上限，则计算预订数量的句对互译比的平均值，作为互译句对的质量评估结果。

在步骤S306中，在本申请实施例中，在步骤S305中计算的标准差可以反映标注人员标注的句对互译比的分散程度。因此在步骤S305中可以在互译比标准差小于预设的上限的情况下，即所选择的互译比比较接近的情况下，可以基于步骤S304中选择的句对互译比来计算句对互译比的平均值，来从这一组互译句对互译比中选择适合的互译句对互译比以确定用于评估翻译网站的翻译质量的互译句对。例如，可以选择这一组互译句对互译比中选择与平均值差值最小的互译句对互译比对应的标注信息，即离平均值最近的互译句对互译比所属的标注信息作为该互译句对的最终的标注信息并用于评价翻译网站的翻译质量。

在上述确定了互译句对互译比之后，可以进而对翻译网站进行评估。例如，本申请实施例的数据处理方法可以进一步包括：

S307，如果互译句对的质量评估结果为优秀，确定互译句对的数据源；

S308，在数据源中获得Z个互译句对，并获得Z个互译句对的质量评估结果；

S309，根据Z个互译句对的质量评估结果确定数据源的质量评估结果。

利用本申请实施例上述确定的参考标注信息，可以相应地在步骤S307中当上述计算的质量评估结果为优秀时，可以确定这些互译句对的数据源，并且使用上述步骤对来自该数据源的Z个互译句对，并且进一步获取该Z个互译句对的质量评估结果，从而在步骤S309中根据这些质量评估结果来确定数据源的质量评估结果。因此，利用这些步骤S307-S309，可以先利用少量的互译句对来先进行初步评估，并且在该初步评估结果为优秀时进一步获取更多的互译句对的评估结果来进行更细致的评估。

实施例三

图4为本申请提供的数据处理装置一个实施例的结构示意图，可用于执行如图2所示的方法步骤。如图4所示，该数据处理装置可以包括：第一获取模块41、第一计算模块42、选择模块43和第二计算模块44。

第一获取模块41可以用于获取针对互译句对的多组标注信息。在本申请中，从翻译网站获取的互译句对可以是彼此互相为另一文本的其他语言的翻译文本。例如，在本申请实施例中，可以获取英语语言的句子一为“How old are you”，并且获取具有翻译关系的句子二为“你多大了”作为第一对互译句对，并且可以获取英语语言的句子一为“How oldare you”，并且获取具有翻译关系的句子二为“怎么老是你”作为第二对互译句对。

第一计算模块42可以用于分别计算各组标注信息的互译句对互译比，在本申请实施例中，第一计算模块42可以对于标注人员对互译句对进行标注得到的标注信息进行计算，例如，可以计算标注信息的互译句对互译比。例如，互译句对互译比可以为各组标注信息的文字单元对中属于对应文本的文字单元数与该对应文本的总文字单元数的比率。例如，在英语文本与中文文本互译的情况下，可以通过计算英语文本中被标注出具有与中文文本中的单词具有对应关系的英语单词占英语文本的总单词数的比率来确定互译句互译比。例如，在上述第一对互译句对的情况下，句子一包含的英文字数为4个，被标注出的字数为3个，可以将被标注出的字数占总字数的比3/4＝0.75作为互译比；在上述第二对互译句对的情况下，句子一包含的英文字数为4个，被标注出的字数为2个，则可以将被标注出的字数占总字数的比2/4＝0.5作为互译比。例如，如果输入的互译句对中英文文本包括的总字数为35个，中文文本包括的总字数为21个。在该情况下，标注人员1对该互译句对进行标注后获得的标注信息1中标注出的英文文本中的被标注的字数为20个，因此，在该情况下，可以以被标注出的英文字数20占其所属的英文文本的总字数35的比率，即20/35＝0.57作为标注人员1获得的标注信息1的互译句对互译比。

选择模块43可以用于在多组标注信息中选择预定数量的句对互译比计算互译比标准差。

第二计算模块44可以用于如果所述互译比标准差小于预设的标准差上限，则计算预订数量的句对互译比的平均值，作为所述互译句对的质量评估结果。在本申请实施例中，在本申请实施例中，选择模块43计算的标准差可以反映标注人员标注的句对互译比的分散程度。因此第二计算模块44可以在互译比标准差小于预设的上限的情况下，即所选择的互译比比较接近的情况下，可以基于选择模块43选择的句对互译比来计算句对互译比的平均值，来从这一组互译句对互译比中选择适合的互译句对互译比以确定用于评估翻译网站的翻译质量的互译句对。例如，可以选择这一组互译句对互译比中选择与平均值差值最小的互译句对互译比对应的标注信息，即离平均值最近的互译句对互译比所属的标注信息作为该互译句对的最终的标注信息并用于评价翻译网站的翻译质量。

因此，本申请的数据处理装置可以通过对互译句对的标注信息进行计算来获取句子之间的互译句对互译比，并通过计算互译句对互译比的标准差来计算互译比的平均值作为质量评估结果，从而基于该平均值来确定相应的标注信息作为参考标注信息，因此，本申请可以基于统计分布的平均值来合理地体现多个标注人员的平均水平，减少了由于标注人员的个体差异导致的评价不准确的问题。

实施例四

图5为本申请提供的数据处理装置另一个实施例的结构示意图，可以用于执行如图3所示的方法步骤。如图5所示，本申请的数据处理装置可以包括：第一获取模块51、第一计算模块52、选择模块53和第二计算模块54。

第一获取模块51可以用于获取针对互译句对的多组标注信息。

第一计算模块52可以用于分别计算各组标注信息的互译句对互译比。具体地，第一计算模块52可以包括第一计算单元521、第二计算单元522和选择单元523。

在本申请实施例中，可以对于标注人员对包括互为翻译关系的句子一和句子二互译句对进行标注得到的多组标注信息进行计算，例如，可以计算标注信息的互译句对互译比，并且互译句对互译比可以为各组标注信息的文字单元对中属于对应文本的文字单元数与该对应文本的总文字单元数的比率。

第一计算单元521可以用于计算句子一的互译比X₁＝N₁₂/N₁，其中，N₁₂代表句子一相对于句子二互译的词数，N₁代表句子一的总词数。例如，句子一是英语文本，并且句子二是中文文本，即，待标注的互译句对是句子一与句子二互译的情况下，第一计算单元521可以计算句子一的互译比X₁＝N₁₂/N₁，其中，N₁₂代表句子一相对于句子二互译的词数，N₁代表句子一的总词数。例如，句子一“How old are you”包含的英文字数为4个，被标注出的字数“How”、“old”、“you”为3个，可以将被标注出的字数占总字数的比3/4＝0.75作为句子一的互译比。

第二计算单元522可以用于计算句子二的互译比X₂＝N₂₁/N₂，其中，N₂₁代表句子二相对于句子一互译的词数，N₂代表句子二的总词数。例如，第二计算单元522可以计算句子二“你多大了”包含的中文字数为4个，被标注出的字数“你”、“多”、“大”为3个，则可以将被标注出的字数占总字数的比3/4＝0.75作为句子二的互译比。

选择单元523可以用于在句子一的互译比和句子的二的互译比之中，选择数值较小的作为该组标注信息的句对互译比。在本申请实施例中，可以选择第一计算单元521计算的句子一的互译比和第二计算单元522计算的句子二的互译比中的一个作为该组标注信息的互译句对互译比。例如，第一确定单元523可以选择这两个互译句对互译比中较小的数值，作为该组标注信息的互译句对互译比。

选择模块53可以进一步用于按照句子互译比从小到大的顺序，选择连续的预定数量Y组的标注信息，计算互译比标准差。在本申请实施例中，选择模块53可以先将计算出来的所有互译句对互译比按数值大小从小到大排序，并且从排序后的互译句对互译比序列的头部开始选取一部分，例如，从多个互译句对互译比中选择Y个互译句对互译比。因此，可以将所选择的Y个互译句对互译比组成互译句对互译比组，以便与在后面的处理中针对该互译句对互译比组进行计算处理。特别地，在本申请实施例中，可以根据预先确定的最小采纳人数来从多个互译句对互译比中选择连续的该最小采纳人数个互译句对互译比。

第二计算模块54可以用于如果互译比标准差小于预设的标准差上限，则计算预订数量的句对互译比的平均值，作为互译句对的质量评估结果。

在本申请实施例中，选择模块53计算的标准差可以反映标注人员标注的句对互译比的分散程度。因此第二计算模块54可以在互译比标准差小于预设的上限的情况下，即所选择的互译比比较接近的情况下，可以基于第一计算模块52选择的句对互译比来计算句对互译比的平均值，来从这一组互译句对互译比中选择适合的互译句对互译比以确定用于评估翻译网站的翻译质量的互译句对。例如，可以选择这一组互译句对互译比中选择与平均值差值最小的互译句对互译比对应的标注信息，即离平均值最近的互译句对互译比所属的标注信息作为该互译句对的最终的标注信息并用于评价翻译网站的翻译质量。

在选择模块53确定了互译句对互译比之后，可以进而对翻译网站进行评估。例如，本申请实施例的数据处理装置可以进一步包括确定模块55、第二获取模块56以及评估模块57。

确定模块55可以用于如果互译句对的质量评估结果为优秀，确定互译句对的数据源。

第二获取模块56可以用于在数据源中获得Z个互译句对，并获得Z个互译句对的质量评估结果；

评估模块57可以用于根据Z个互译句对的质量评估结果确定数据源的质量评估结果。

利用本申请实施例上述确定的参考标注信息，确定模块55可以在上述计算的质量评估结果为优秀时，可以确定这些互译句对的数据源，并且对来自该数据源的Z个互译句对，并且第二获取模块56可以进一步获取该Z个互译句对的质量评估结果，从而评估模块57可以根据这些质量评估结果来确定数据源的质量评估结果。因此，可以先利用少量的互译句对来先进行初步评估，并且在该初步评估结果为优秀时进一步获取更多的互译句对的评估结果来进行更细致的评估。

实施例五

以上描述了数据处理装置的内部功能和结构，该装置可实现为一种电子设备。图6为本申请提供的电子设备实施例的结构示意图。如图6所示，该电子设备包括存储器61和处理器62。

存储器61，用于存储程序。除上述程序之外，存储器61还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器61可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器62，不仅仅局限于中央处理器(CPU)，还可能为图形处理器(GPU)、现场可编辑门阵列(FPGA)、嵌入式神经网络处理器(NPU)或人工智能(AI)芯片等处理芯片。处理器62，与存储器61耦合，执行存储器61所存储的程序，以用于执行上面的实施例二和三中记载的数据处理方法。

进一步，如图6所示，电子设备还可以包括：通信组件63、电源组件64、音频组件65、显示器66等其它组件。图6中仅示意性给出部分组件，并不意味着电子设备只包括图6所示组件。

通信组件63被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，2G，3G，4G或5G，或它们的组合。在一个示例性实施例中，通信组件63经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件63还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

电源组件64，为电子设备的各种组件提供电力。电源组件64可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。

音频组件65被配置为输出和/或输入音频信号。例如，音频组件65包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器61或经由通信组件63发送。在一些实施例中，音频组件65还包括一个扬声器，用于输出音频信号。

显示器66包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

获取针对互译句对的多组标注信息；

分别计算每一组标注信息的句对互译比；

在所述多组标注信息中选择预定数量的句对互译比计算互译比标准差；

2.根据权利要求1所述的数据处理方法，其特征在于，所述互译句对包括：互为翻译关系的句子一和句子二；则计算每一组标注信息的句对互译比，包括：

计算句子一的互译比X₁＝N₁₂/N₁，其中，N₁₂代表句子一相对于句子二互译的词数，N₁代表句子一的总词数；

计算句子二的互译比X₂＝N₂₁/N₂，其中，N₂₁代表句子二相对于句子一互译的词数，N₂代表句子二的总词数；

在所述句子一的互译比和句子的二的互译比之中，选择数值较小的作为该组标注信息的句对互译比。

3.根据权利要求1所述的数据处理方法，其特征在于，所述在所述多组标注信息中选择预订数量的句对互译比计算互译比标准差，包括：

按照句子互译比从小到大的顺序，选择连续的预定数量Y组的标注信息，计算互译比标准差。

4.根据权利要求3所述的数据处理方法，其特征在于，所述预定数量Y为最小采纳人数。

5.根据权利要求1所述的数据处理方法，其特征在于，所述方法还包括：

如果所述互译句对的质量评估结果为优秀；

确定所述互译句对的数据源；

在所述数据源中获得Z个互译句对，并获得所述Z个互译句对的质量评估结果；

根据所述Z个互译句对的质量评估结果确定所述数据源的质量评估结果。

6.一种数据处理装置，其特征在于，包括：

第一获取模块，用于获取针对互译句对的多组标注信息；

7.根据权利要求6所述的数据处理装置，其特征在于，所述互译句对包括：互为翻译关系的句子一和句子二，并且所述第一计算模块包括：

第一计算单元，用于计算句子一的互译比X₁＝N₁₂/N₁，其中，N₁₂代表句子一相对于句子二互译的词数，N₁代表句子一的总词数；

第二计算单元，用于计算句子二的互译比X₂＝N₂₁/N₂，其中，N₂₁代表句子二相对于句子一互译的词数，N₂代表句子二的总词数；

选择单元，用于在所述句子一的互译比和句子的二的互译比之中，选择数值较小的作为该组标注信息的句对互译比。

8.根据权利要求6所述的数据处理装置，其特征在于，所述选择模块进一步用于：

9.根据权利要求8所述的数据处理装置，其特征在于，所述预定数量Y为最小采纳人数。

10.根据权利要求6所述的数据处理装置，其特征在于，所述装置还包括：

确定模块，用于如果所述互译句对的质量评估结果为优秀，则确定所述互译句对的数据源；

第二获取模块，用于在所述数据源中获得Z个互译句对，并获得所述Z个互译句对的质量评估结果；

评估模块，用于根据所述Z个互译句对的质量评估结果确定所述数据源的质量评估结果。

11.一种电子设备，其特征在于，包括：

存储器，用于存储程序；

处理器，用于运行所述存储器中存储的所述程序，所述程序运行时执行如权利要求1至5中任一所述的数据处理方法。

12.一种计算机可读存储介质，其上存储有可被处理器执行的计算机程序，其中，该程序被处理器执行时实现如权利要求1至5中任一所述的数据处理方法。

13.一种翻译方法，其特征在于，所述翻译方法包括：

从翻译源获取至少一个互译句对；

使用根据权利要求1-5中的任一项所述的数据处理方法对所述互译句对进行处理；