CN105224524B

CN105224524B - 文档翻译难度评价方法和装置

Info

Publication number: CN105224524B
Application number: CN201510557921.2A
Authority: CN
Inventors: 孙奇峰; 黄瑾; 谢婵娟
Original assignee: Netease Youdao Information Technology Beijing Co Ltd
Current assignee: Netease Youdao Information Technology Beijing Co Ltd
Priority date: 2015-09-02
Filing date: 2015-09-02
Publication date: 2022-01-25
Anticipated expiration: 2035-09-02
Also published as: CN105224524A

Abstract

本发明的实施方式提供了一种文档翻译难度评价方法。该方法包括：获取至少两篇已完成翻译的文档的译员行为数据，其中，所述文档在翻译前是经过文档翻译难度评价模型进行难度评价的文档；以所述译员行为数据和所述文档的特征数据作为训练数据，对所述文档翻译难度评价模型进行训练；根据训练后的文档翻译难度评价模型，对待翻译文档的翻译难度进行评价。此外，本发明的实施方式还提供了一种文档翻译难度评价装置。

Description

文档翻译难度评价方法和装置

技术领域

本发明的实施方式涉及计算机领域，更具体地，本发明的实施方式涉及一种文档翻译难度评价方法和装置。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着计算机技术的不断发展，翻译业务也被越来越多地放到了互联网上。既然有在线的翻译业务，必然需要对放至互联网上进行翻译的文档进行难度评价，以便确定每篇文档合理的翻译报酬。

目前，主要是通过统计文档中的特征得分和特征权重，利用特定公式计算翻译难度值，从而评价文档的翻译难度。

然而，随着辅助翻译工具的不断进步、语料的不断积累、检索技术的优化，同一篇文档的翻译难度会有所改变，但是，现有的文档难度的评价方法难以体现这种变化，因此导致给出的翻译难度值很难准确反映文档当前的翻译难度。

发明内容

出于翻译难度是一个动态的过程，当前相比较而言比较难的文档可能过一段时间变得不再那么难，在现有技术中，对文档难度的评价是依据待翻译文档中的特征得分和特征权重的，这些量都是固定的，因此，所评价出的翻译难度也必然是固定不变的，因此难以体现难度的变化过程，这是非常令人烦恼的过程。

为此，非常需要一种改进的文档翻译难度评价方法，以使得文档翻译难度的评价结果可以体现这种难度的变化，从而使得难度评价结果更为合理。

在本上下文中，本发明的实施方式期望提供一种文档翻译难度评价方法和装置。

在本发明实施方式的第一个方面中，提供了一种文档翻译难度评价方法，例如，可以包括：获取至少两篇已完成翻译的文档的译员行为数据，其中，所述文档在翻译前是经过文档翻译难度评价模型进行难度评价的文档；以所述译员行为数据和所述文档的特征数据作为训练数据，对所述文档翻译难度评价模型进行训练；根据训练后的文档翻译难度评价模型，对待翻译文档的翻译难度进行评价。

在本发明实施例方式的第二个方面中，提供了一种文档翻译难度评价装置，例如，可以包括：行为数据获取模块，用于获取至少两篇已完成翻译的文档的译员行为数据，其中，所述文档在翻译前是经过文档翻译难度评价模型进行难度评价的文档；训练模块，用于以所述译员行为数据和所述文档的特征数据作为训练数据，对所述文档翻译难度评价模型进行训练；评价模块，用于根据训练后的文档翻译难度评价模型，对待翻译文档的翻译难度进行评价。

通过本发明实施方式的文档翻译难度评价方法和装置，将译员行为数据作为进行文档翻译难度评价模型的训练数据，因为译员行为直接体现了文档对于译员的翻译难度，使得训练后的模型对文档翻译难度进行评价的结果更为合理。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了根据本发明实施方式的应用场景；

图2示意性地示出了根据本发明实施方式的文档翻译难度评价装置的设备结构示意图；

图3示意性地示出了根据本发明实施方式的训练模块的设备结构示意图；

图4示意性地示出了根据本发明实施方式的训练单元的设备结构示意图；

图5示意性地示出了根据本发明实施方式的文档翻译难度评价方法的流程示意图；

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种文档翻译难度评价方法和装置。

在本文中，需要理解的是，所涉及的术语中：

1、用户，请求人工翻译服务的群体，他们提交待翻译文档，并收取翻译结果。

2、译员，提供人工翻译服务的群体，他们可以从互联网上领取翻译任务，在处于抢单模式的情况下，译员具有绝对的自主权，会挑选自己认为性价比最高的文档进行翻译，并在翻译完成后返回翻译结果。

3、文档翻译难度，可以理解为翻译该文档的难易，文档翻译难度越高，其对应的翻译费用就应该越高，对文档翻译难度进行评价的模型所需要达到的功能就是尽可能保证每篇文档最终的性价比是尽可能相等的。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

常规上，用户有文档需要翻译的时候，将待翻译的文档提交至翻译网站的服务器，由用户自己标定价格，或者由服务器根据该文档的特征得分和特征权重计算得到该文档的价格，然后再将该待翻译文档以及被标定的翻译价格在网站的文档认领界面进行显示，以供翻译人员(即译员)抢单，即认领并翻译。

上述这种对待翻译文档的报价因为是按照文档自身的特征得分和特征权重生成的，没有考虑译员选择行为的主观性，也没有考虑到知识和认知是一个变动的过程，导致所标定的文档报价不能及时反应这些变化。从而使得译员在抢单的时候，会避开性价比低的文档，而选取性价比高的文档，最终导致有些待翻译文档由于文档定价的不合理而迟迟得不到处理，大大降低了用户体验。

为此，本发明提供了一种基于译员行为进行文档翻译难度评价方法。该方法的过程可以是，服务器将已经完成翻译的文档的译员行为数据作为训练数据对文档翻译难度评价模型进行训练，然后通过训练完善后的模型对待翻译的文档或者是新提交至文档翻译服务器的文档进行评价。这样，因为考虑到译员总是倾向于领取性价比比较高的待翻译文档，且译员从申领到翻译完成所需的时间也可以一定程度上反应文档的相对难度，因此，通过译员行为数据作为训练数据进行模型训练可以有效提高文档翻译难度评价模型的评价准确度。

此处，译员行为可以包括很多内容，例如：文档从发布到被译员领取的时间，文档被译员浏览的次数，文档从被领取到翻译完成被提交的时间等等，都可以作为译员行为数据进行模型的训练优化。

基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

首先参考图1，服务器100可以为翻译网站的服务器等，终端设备200可以为台式机、手机、平板电脑等，应用场景中还包括有：用户300和译员400。服务器100与终端设备200之间例如可以通过互联网等进行通信。

利用本发明实施例提供的文档翻译难度评价方法，当用户300有文档需要进行翻译时，可以通过终端设备200将待翻译的文档提交至服务器100，然后由服务器100通过文档翻译难度评价模型进行定价，并将定价后的文档进行发布，译员400通过终端设备200查看并认领翻译任务。服务器100所采用的文档翻译难度评价模型可以是以译员行为数据作为训练数据进行训练得到的。

示例性设备

下面结合图1的应用场景，参考图2至图4对本发明示例性实施方式的文档翻译难度评价装置进行介绍，该文档翻译难度评价装置例如可以位于服务器100上。

需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

例如，参见图2，为本发明实施例提供的文档翻译难度评价装置的设备结构示意图。如图所示，文档翻译难度评价装置可以包括：行为数据获取模块101、训练模块102和评价模块103。

参照图2，行为数据获取模块101可以获取多篇已完成翻译的文档的译员行为数据，且这些文档在翻译前都是经过文档翻译难度评价模型进行难度评价的。即，通过文档翻译难度评价模型评价后的文档的译员行为数据作为训练数据对文档翻译难度评价模型进行训练。

上述译员行为数据体现了文档在通过该文档翻译难度评价模型进行定价后的译员认领和处理情况。这主要是因为文档翻译难度与文档翻译的报价是成线性关系的，而文档翻译难度本身是一个较为主观的概念，而对于在抢单形式的翻译业务系统中，译员必然是更乐意认领那些单位收益或者说性价比更高的待翻译文档，因此，译员的认领情况可以有效体现文档的性价比高低。进一步的，译员从申领到完成所需的时间也可以从一定程度上反应文档的实际翻译难度。因此，训练模块102可以将译员认领和处理情况作为训练数据对文档翻译难度评价模型进行训练。

可选地，行为数据获取模块101可以从订单日志中获取译员行为数据，因为在订单日志中记录有各个被提交至服务器进行翻译的文档从提交到翻译完成的所有相关信息，例如：文档从提交到被领取的时间，文档被浏览的次数，文档从被领取到完成的时间等等，这些都可以记录在订单日志中。然而值得注意的是，上述对译员行为数据的举例仅是为了更好地说明本发明，还可以包括其它的能够体现译员对文档的操作的数据，例如：文档被一个译员重复浏览的次数、译员从一篇文档切换至另外一篇文档后直接选定后一篇文档的次数等等，本申请对此不作限定。

可选地，在订单日志中会存在很多异常的数据，这些异常的数据会影响训练的准确度，因此，行为数据获取模块101在从订单日志中获取译员行为数据的时候，可以先对订单日志中的数据进行分析，以去除其中的噪音数据，从而提高最终训练结果的准确度。

训练模块102可以以译员行为数据作为训练数据对文档翻译难度评价模型进行训练，当然，在训练的过程中还需要结合文档自身的特征信息，即训练数据中还可以包括：文档的特征数据。文档的特征数据可以例如：单词个数、字母数、音节数、短语在真实环境使用的频次、句子个数、句子的平均长度、和句子在文档中重复出现的次数等。

训练模块102可以通过将问题转化为二分类问题来进行模型训练，所谓的问题转化可以是将文档的难度区分转化为文档对的性价比对比问题，即确定score(doc1)-score(doc2)的结果是大于或者小于零，如果大于零，则表明doc1比doc2性价比高，如果小于零，则表明doc1比doc2性价比低。通常情况下，二分类问题是需要大量的标注数据的，然而在本例中，将译员的行为数据作为训练数据，因此，可以直接通过行为数据获取模块101自动获得。参考图3为本例的训练模块102的结构框图，如图3所示，训练模块可以包括：

分组单元301，可以用于将至少两篇已完成翻译的文档中的任意两篇文档作为一组训练素材；

性价比差异确定单元302，可以用于根据当前组训练素材中的两篇文档的译员行为数据确定这两篇文档的性价比差异；

提取单元303，可以用于提取这两篇文档的特征数据；

训练单元304，可以用于将提取的特征数据和确定的性价比差异组成一组训练数据，根据所述一组训练数据对所述文档翻译难度评价模型进行训练。

例如，预先设定规则：译员A先后浏览了文档A和文档B，然后选择了文档B，则认为文档A的性价比低于文档B，或者，设定规则为：文档A被浏览了10次后被认领，文档B被浏览了5次被后被认领，则认为文档A的性价比低于文档B的性价比。此处所谓性价比低，表示的就是单位收益文档A的难度更大一些。

基于上述的规则，训练模块102通过行为数据获取模块101获取的译员行为数据对一组中的两篇文档采用<doc1、doc2性价比对比>进行比较，然后，通过feature()提取出文档的特征数据，从而组合为一组训练数据<feature(doc1)、feature(doc2)性价比比较>，可以将该组训练数据作为训练数据进行模型训练。

例如，一共有N个文档，两两一组，可以有N/2组，也可以有N*(N-1)组，即，如果是每个文档都仅与一篇文档组成一组，则有N/2组，如果每个文档都与分别与其它各篇文档组成一组，则可以有N*(N-1)组，具体可以按照实际需要选择。上述训练模块102可以逐次将从每组文档中提取的特征数据和确定的性价比差异作为一组训练数据对评价模型进行训练，直至完成所有组文档的训练，则表明一次训练完成。

上述通过feature()提取出文档的特征数据可以包括但不限于以下几种数据：

1)文档的简单信息，例如：文档的翻译方向、句子个数、句子的平均长度、单词个数、字母个数、和音节个数等；

2)可读性得分，该可读性得分可以是根据预定的计算公式计算得到的，例如，可以是通过句子长度、单词个数、字母个数、和音节个数等进行组合计算得到的；

3)文档的翻译信息，例如：句子在文档中重复出现的次数等等。

模型训练和通过训练后的模型进行文档翻译难度的评价本身是一个动态循环的过程，因此，训练模块102可以采用离线训练的方式进行模型训练，也可以采用在线训练的方式进行模型训练，其中，所谓在线训练的方式就是实时获取最新的译员行为数据，实时在线对文档翻译难度评价模型进行训练并更新，更新的模型也会实时地应用到新的待翻译文档的评价中。所谓离线训练的方式是与在线训练方式相反的一种训练方式，无需实时在线获取训练数据，可以是在线下获取译员行为数据，然后在线下对模型进行训练，过一段时间更新一次评价模型。在处于在线训练的方式的时候，为了保证不影响用户的体验，服务器100中训练模块102的处理速度可选地需要达到毫秒级。

在线训练方式对服务器处理能力的要求比较高，尤其是对服务器数据实时处理的能力要求比较高，而离线训练方式对服务器处理能力的要求相对低一些，但是会造成训练后的新模型要延迟应用到对新文档的评价中，因此，两者各有利弊，可以按照实际情况和实际需求选取，本申请对此不作限定。

参考图4，为训练单元304的结构框图示意图，训练单元304可以包括：调整子单元1021和训练子单元1022。可选地，调整子单元1021可以降低两篇文档中性价比高的文档的单位收益，和/或，提高两篇文档中性价比低的文档的单位收益；训练子单元1022可以根据调整完的单位收益和提取的两篇文档的特征数据，对文档翻译难度评价模型进行训练。

例如，文档A和文档B，如果文档A可以更容易地被认领，而文档B相对文档A不易被认领，那么这个时候可以认为文档A的性价比是高于文档B的性价比的，这个时候，可以降低文档A的单位收益，或者是提高文档B的单位收益，从而使得两者的性价比相对均衡一些，然后再通过调整后的数据对模型进行训练。

对于单位收益的调整比例，可以按照预定的调整系数进行调整，也可以根据译员行为数据按照预定公式计算处理。可选地，例如，不仅可以预定一个调整系数(例如：确定单位收益偏低的文档，每次上调2％)，还可以按照文档A和文档B在被认领前被浏览的次数确定单位收益的调整系数，也可以根据文档A和文档B从提交到被认领所经过的时间长度来确定单位收益的调整系数。具体的确定方式，也可以按照实际情况选取。

评价模块103的作用就是在训练模块102训练得到更新后的文档翻译难度评价模型后，对待翻译的文档进行评价。具体地，评价模块103在获得用户提交的待翻译文档后，通过feature()从该文档中抽取特征，然后利用训练模块102得到的具有最新参数的文档翻译难度评价模型对该文档进行评价，从而确定该文档的定价，然后就可以将定价后的文档放到网站上供译员认领。

可选地，服务器100还可以包括通知模块，通知模块在服务器100完成文档的发布后，将已发布完成消息或者是文档被译员浏览或者认领或者翻译完成的消息通知至用户，以便用户可以实时知道自己所提交的文档的处理进度和处理状态。

通过本发明上述实施方式的文档翻译难度评价装置，将译员行为数据作为文档翻译难度评价模型的训练数据，因为译员行为直接体现了文档对于译员的翻译难度，因此，无需单独标注数据，且可以实时修正外界因素变化对翻译难度的影响，使得训练后的模型对文档翻译难度进行评价的结果更为合理。

示例性方法

在介绍了本发明示例性实施方式的设备之后，接下来，参考图5对本发明示例性实施方式的文档翻译难度评价方法进行介绍。

图5为本发明实施例提供的文档翻译难度评价方法的流程示意图。下面参照该图对文档翻译难度的评价方法的流程进行描述。

首先，在步骤S501中，服务器(如图1中的服务器100)获取至少两篇已完成翻译的文档的译员行为数据，其中，这些文档在翻译前可以是经过文档翻译难度评价模型进行难度评价的文档。

上述译员行为数据体现的是文档在通过文档翻译难度评价模型进行定价后的译员认领和处理情况，可选地，译员行为数据可以包括但不限于以下一种或多种：文档被译员浏览的次数、文档从提交到被认领的时间、和文档从认领到翻译完成的时间，这些译员行为数据可以从订单日志中获取。然而值得注意的是，上述对译员行为数据的举例仅是为了更好地说明本发明，还可以包括其它的能够体现译员对文档的操作的数据，例如：文档被一个译员重复浏览的次数、译员从一篇文档切换至另外一篇文档后直接选定后一篇文档的次数等等，本申请对此不作限定。

在步骤S502中，服务器获取文档的特征数据。

即，考虑到对文档评价模型进行训练，在训练的过程中还需要结合文档自身的特征信息，这些信息可以称之为文档的特征数据，具体地，文档的特征数据可以包括但不限于以下一种或多种：单词个数、字母数、音节数、短语在真实环境使用的频次、句子个数、句子的平均长度、和句子在文档中重复出现的次数等。

在步骤S503中，服务器将译员行为数据和文档的特征数据作为训练数据，对文档翻译难度评价模型进行训练。

可选地，可以转化为二分类问题对文档翻译难度评价模型进行训练，具体地，可以包括如下步骤：

S1：将所述至少两篇已完成翻译的文档中的任意两篇文档作为一组训练素材，即对文档进行两两分组；

S2：根据当前组训练素材中的两篇文档的译员行为数据确定这两篇文档的性价比差异；

S3：提取这两篇文档的特征数据；

S4：将提取的特征数据和确定的性价比差异组成一组训练数据，根据所述一组训练数据对所述文档翻译难度评价模型进行训练。

在上述步骤S4中，考虑到可以预先设定规则，例如：译员A先后浏览了文档A和文档B(文档是当前参与训练的位于一组中的两篇文档)，然后选择了文档B，则认为文档A的性价比低于文档B，或者，设定规则为：文档A被浏览了10次后被认领，文档B被浏览了5次被后被认领，则认为文档A的性价比低于文档B的性价比。此处所谓性价比低，表示的就是单位收益文档A的难度更大一些，这样，基于上述的预先设定的规则，可以降低两篇文档中性价比高的文档(B文档)的单位收益，和/或，提高两篇文档中性价比低的文档(A文档)的单位收益；然后，就可以根据调整完的单位收益和提取的两篇文档的特征数据，对文档翻译难度评价模型进行训练。

在步骤S504中，用户通过终端设备(如图1中的终端设备200)将待翻译的文档提交至服务器。

在步骤S505中，服务器通过训练后的文档翻译难度评价模型对用户提交的文档进行评价。

在步骤S506中，服务器将评价后的文档上传至互联网供译员认领。

在步骤S507中，服务器将文档的认领和翻译信息回传至用户，以便用户知道文档的认领情况和处理情况。

在步骤S508中，用户接收服务器返回的文档的认领和翻译信息，从而完成从模型训练到文档提交、认领和翻译的全过程。

通过本发明上述实施方式的文档翻译难度评价方法，将译员行为数据作为文档翻译难度评价模型的训练数据，因为译员行为直接体现了文档对于译员的翻译难度，因此，无需单独标注数据，且可以实时修正外界因素变化对翻译难度的影响，使得训练后的模型对文档翻译难度进行评价的结果更为合理。

应当注意，尽管在上文详细描述中提及了服务器的若干单元或子单元，但是这种划分仅仅是示意性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种文档翻译难度评价方法，包括：

获取至少两篇已完成翻译的文档的译员行为数据，其中，所述文档在翻译前是经过文档翻译难度评价模型进行难度评价的文档；

以所述译员行为数据和所述文档的特征数据作为训练数据，对所述文档翻译难度评价模型进行训练；

根据训练后的文档翻译难度评价模型，对待翻译文档的翻译难度进行评价；

其中，所述译员行为数据包括以下至少之一：文档被译员浏览的次数、文档从提交到被认领的时间、文档从认领到翻译完成的时间；

其中，待翻译文档为文档认领界面中待翻译的文档或新提交至文档翻译服务器的文档；

其中，以所述译员行为数据和所述文档的特征数据作为训练数据，对所述文档翻译难度评价模型进行训练，包括：

将所述至少两篇已完成翻译的文档中的任意两篇文档作为一组训练素材；

根据当前组训练素材中的两篇文档的译员行为数据确定这两篇文档的性价比差异；

提取这两篇文档的特征数据；

将提取的特征数据和确定的性价比差异组成一组训练数据，根据所述一组训练数据对所述文档翻译难度评价模型进行训练。

2.根据权利要求1所述的方法，其中，根据所述一组训练数据对所述文档翻译难度评价模型进行训练，包括：

降低所述两篇文档中性价比高的文档的单位收益，和/或，提高所述两篇文档中性价比低的文档的单位收益；

根据调整完的单位收益和提取的所述两篇文档的特征数据，对所述文档翻译难度评价模型进行训练。

3.根据权利要求1所述的方法，其中，所述文档的特征数据包括以下至少之一：单词个数、字母数、音节数、短语在真实环境使用的频次、句子个数、句子的平均长度、和句子在文档中重复出现的次数。

4.一种文档翻译难度评价装置，包括：

行为数据获取模块，用于获取至少两篇已完成翻译的文档的译员行为数据，其中，所述文档在翻译前是经过文档翻译难度评价模型进行难度评价的文档；

训练模块，用于以所述译员行为数据和所述文档的特征数据作为训练数据，对所述文档翻译难度评价模型进行训练；

评价模块，用于根据训练后的文档翻译难度评价模型，对待翻译文档的翻译难度进行评价；

其中，所述训练模块包括：

分组单元，用于将所述至少两篇已完成翻译的文档中的任意两篇文档作为一组训练素材；

性价比差异确定单元，用于根据当前组训练素材中的两篇文档的译员行为数据确定这两篇文档的性价比差异；

提取单元，用于提取这两篇文档的特征数据；

训练单元，用于将提取的特征数据和确定的性价比差异组成一组训练数据，根据所述一组训练数据对所述文档翻译难度评价模型进行训练。

5.根据权利要求4所述的装置，其中，所述训练单元包括：

调整子单元，用于降低所述两篇文档中性价比高的文档的单位收益，和/或，提高所述两篇文档中性价比低的文档的单位收益；

训练子单元，用于根据调整完的单位收益和提取的所述两篇文档的特征数据，对所述文档翻译难度评价模型进行训练。