CN110929532B

CN110929532B - 数据处理方法、装置、设备及存储介质

Info

Publication number: CN110929532B
Application number: CN201911149101.4A
Authority: CN
Inventors: 袁松岭; 文心杰; 王晓利; 伍海江
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2023-03-21
Anticipated expiration: 2039-11-21
Also published as: US20220058349A1; WO2021098397A1; CN110929532A

Abstract

本申请公开了数据处理方法、装置、设备及存储介质，属于计算机技术领域。方法包括：获取待筛选数据集，待筛选数据集包括多个待筛选的源语言数据；基于目标数据筛选模型，对待筛选数据集中的各个源语言数据进行筛选，得到筛选后的源语言数据，目标数据筛选模型利用强化学习算法训练得到；将筛选后的源语言数据作为目标源语言数据，获取与目标源语言数据对应的标注语言数据，基于目标源语言数据和标注语言数据获取机器翻译模型。在此种数据处理的过程中，目标数据筛选模型中的筛选规则为机器在强化学习的过程中自动学习出来的，目标数据筛选模型的适应场景广泛，筛选后的源语言数据的质量较高，使得获取的机器翻译模型的翻译性能较好。

Description

数据处理方法、装置、设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种数据处理方法、装置、设备及存储介质。

背景技术

在机器翻译领域，要训练一个精确的机器翻译模型，需要足够数量的双语训练数据。双语训练数据由源语言数据和与源语言数据对应的标注语言数据组成。通常，获取双语训练数据中的标注语言数据的成本较高，因此，为了在固定成本约束下获取高质量的双语训练数据，需要先对大量的源语言数据进行筛选，然后再获取与筛选后的源语言数据对应的标注语言数据。

相关技术中，基于词频或者基于模型置信度对源语言数据进行筛选，这些筛选规则的适应场景较局限，筛选后的源语言数据的质量不佳，使得基于筛选后的源语言数据和与其对应的标注语言数据获取的机器翻译模型的翻译性能较差。

发明内容

本申请实施例提供了一种数据处理方法、装置、设备及存储介质，可用于解决相关技术中的问题。所述技术方案如下：

一方面，本申请实施例提供了一种数据处理方法，所述方法包括：

获取待筛选数据集，所述待筛选数据集包括多个待筛选的源语言数据；

基于目标数据筛选模型，对所述待筛选数据集中的各个源语言数据进行筛选，得到筛选后的源语言数据，所述目标数据筛选模型利用强化学习算法训练得到；

将所述筛选后的源语言数据作为目标源语言数据，获取与所述目标源语言数据对应的标注语言数据，基于所述目标源语言数据和所述标注语言数据获取机器翻译模型。

另一方面，提供了一种数据处理装置，所述装置包括：

第一获取模块，用于获取待筛选数据集，所述待筛选数据集包括多个待筛选的源语言数据；

筛选模块，用于基于目标数据筛选模型，对所述待筛选数据集中的各个源语言数据进行筛选，得到筛选后的源语言数据，所述目标数据筛选模型利用强化学习算法训练得到；

第二获取模块，用于将所述筛选后的源语言数据作为目标源语言数据，获取与所述目标源语言数据对应的标注语言数据；

第三获取模块，用于基于所述目标源语言数据和所述标注语言数据获取机器翻译模型。

在一种可能实现方式中，所述装置还包括：

初始化模块，用于随机初始化第一训练数据集，所述第一训练数据集包括多个源语言训练数据；

第一训练模块，用于基于随机初始化的第一训练数据集，利用强化学习算法对第一数据筛选模型进行训练，得到第二数据筛选模型；

第二训练模块，用于基于所述第二数据筛选模型进行迭代训练，直至满足第一训练终止条件，得到目标数据筛选模型。

在一种可能实现方式中，所述第一训练模块，包括：

划分单元，用于将所述随机初始化的第一训练数据集划分为至少一个目标训练数据集；

获取单元，用于获取第一目标训练数据集中的各个源语言训练数据的目标特征，所述第一目标训练数据集为所述至少一个目标训练数据集中的第一个目标训练数据集；

输入单元，用于将所述第一目标训练数据集中的各个源语言训练数据的目标特征输入所述第一数据筛选模型，得到所述第一目标训练数据集中的各个源语言训练数据的筛选结果；

确定单元，用于基于所述第一目标训练数据集中的各个源语言训练数据的筛选结果，确定所述第一目标训练数据集中的各个源语言训练数据的权重值；

生成单元，用于基于所述第一目标训练数据集中的各个源语言训练数据的目标特征、筛选结果、权重值和第二目标训练数据集中的各个源语言训练数据的目标特征，生成与所述第一目标训练数据集中的各个源语言训练数据对应的候选数据，所述第二目标训练数据集为所述至少一个目标训练数据集中的所述第一目标训练数据集的下一个目标训练数据集；

选取单元，用于选取目标数量的候选数据；

更新单元，用于基于所述目标数量的候选数据更新所述第一数据筛选模型的参数，得到更新后的第一数据筛选模型；

训练单元，用于基于所述更新后的第一数据筛选模型进行迭代训练，直至满足第二训练终止条件，得到第二数据筛选模型。

在一种可能实现方式中，所述确定单元，用于对于所述第一目标训练数据集中的任一源语言训练数据，当所述任一源语言训练数据的筛选结果为第一结果时，将第一权重值作为所述任一源语言训练数据的权重值；当所述任一源语言训练数据的筛选结果为第二结果时，将第二权重值作为所述任一源语言训练数据的权重值。

在一种可能实现方式中，所述获取单元，还用于获取与每个目标源语言训练数据对应的标注语言训练数据，所述目标源语言训练数据为筛选结果为第一结果的源语言训练数据；

所述第一训练模块，还包括：

添加单元，用于将各个目标源语言训练数据和与所述各个目标源语言训练数据对应的各个标注语言训练数据作为训练数据添加至第二训练数据集中；

所述训练单元，还用于基于所述第二训练数据集对第一翻译模型进行训练，得到第二翻译模型；

所述获取单元，还用于基于所述第二翻译模型和所述第一翻译模型，获取所述第一权重值。

在一种可能实现方式中，所述获取单元，还用于对于所述第一目标训练数据集中的任一源语言训练数据，基于所述任一源语言训练数据中的各个子数据，获取所述任一源语言训练数据的第一特征；基于所述任一源语言训练数据和第三翻译模型，获取所述任一源语言训练数据的第二特征；基于所述第一特征和所述第二特征，获取所述任一源语言训练数据的目标特征。

在一种可能实现方式中，所述获取单元，还用于基于所述任一源语言训练数据中的各个子数据的词嵌入特征，获取所述任一源语言训练数据的第三特征；基于所述任一源语言训练数据中的各个子数据和已有语料数据库的比对结果，获取所述任一源语言训练数据的第四特征；基于所述任一源语言训练数据中的各个子数据，得到所述任一源语言训练数据的长度，基于所述任一源语言训练数据的长度获取所述任一源语言训练数据的第五特征；基于所述第三特征、所述第四特征和所述第五特征，获取所述任一源语言训练数据的第一特征。

在一种可能实现方式中，所述获取单元，还用于基于所述第三翻译模型，获取所述任一源语言训练数据的翻译数据，基于所述翻译数据的词嵌入特征，获取所述任一源语言训练数据的第六特征；基于所述第三翻译模型，获取与所述任一源语言训练数据中的各个子数据对应的概率最大的各个翻译子数据，基于所述概率最大的各个翻译子数据的词嵌入特征，获取所述任一源语言训练数据的第七特征；获取所述概率最大的各个翻译子数据的概率，基于所述概率最大的各个翻译子数据的概率和所述翻译数据的长度，获取所述任一源语言训练数据的第八特征；基于所述第六特征、所述第七特征和所述第八特征，获取所述任一源语言训练数据的第二特征。

在一种可能实现方式中，所述生成单元，用于对于所述第一目标训练数据集中的任一源语言训练数据，当所述任一源语言训练数据的筛选结果为第一结果时，基于所述任一源语言训练数据的目标特征、第一结果、第一权重值和所述第二目标训练数据集中与所述任一源语言训练数据对应的源语言数据的目标特征，生成与所述任一源语言训练数据对应的第一候选数据；

当所述任一源语言训练数据的筛选结果为第二结果时，基于所述任一源语言训练数据的目标特征、第二结果、第二权重值和所述第二目标训练数据集中与所述任一源语言训练数据对应的源语言数据的目标特征，生成与所述任一源语言训练数据对应的第二候选数据。

在一种可能实现方式中，所述添加单元，还用于将所述第一候选数据添加至第一候选数据集中，将所述第二候选数据添加至第二候选数据集中；

所述选取单元，还用于在所述第一候选数据集和所述第二候选数据集中进行等比例选取，得到目标数量的候选数据。

在一种可能实现方式中，所述更新单元，用于基于所述目标数量的候选数据更新与所述第一数据筛选模型对应的目标函数；根据更新后的目标函数，计算与所述第一数据筛选模型对应的损失函数；基于所述损失函数，更新所述第一数据筛选模型的参数，得到更新后的第一数据筛选模型。

在一种可能实现方式中，所述满足第二训练终止条件，包括：

所述第一训练数据集中不存在新的目标训练数据集；或者，

筛选结果为第一结果的源语言训练数据的数量达到数量阈值。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现上述任一所述的数据处理方法。

另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现上述任一所述的数据处理方法。

本申请实施例提供的技术方案至少带来如下有益效果：

基于利用强化学习算法训练得到的目标数据筛选模型，对待筛选数据集中的各个源语言数据进行筛选，进而基于筛选后的源语言数据和与其对应的标注语言数据获取机器翻译模型。在此种数据处理的过程中，目标数据筛选模型中的筛选规则为机器在强化学习的过程中自动学习出来的，目标数据筛选模型的适应场景广泛，筛选后的源语言数据的质量较高，使得基于筛选后的源语言数据和与其对应的标注语言数据获取的机器翻译模型的翻译性能较好。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种数据处理方法的实施环境的示意图；

图2是本申请实施例提供的一种数据处理方法的流程图；

图3是本申请实施例提供的一种数据处理方法的流程图；

图4是本申请实施例提供的一种获取第二数据筛选模型的方法的流程图；

图5是本申请实施例提供的一种得到第一目标训练数据集中的各个源语言训练数据的筛选结果的过程示意图；

图6是本申请实施例提供的一种获取更新后的第一数据筛选模型的过程示意图；

图7是本申请实施例提供的一种主动学习过程的示意图；

图8是本申请实施例提供的一种数据处理装置的示意图；

图9是本申请实施例提供的一种数据处理装置的示意图；

图10是本申请实施例提供的一种第一训练模块的结构示意图；

图11是本申请实施例提供的一种数据处理设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、机器学习以及自然语言处理技术等几大方向。

其中，机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。其中，强化学习(Reinforcement Learning，RL)又称再励学习、评价学习，是指以奖励值最大化为目标，从环境映射到行为的学习。强化学习中对产生动作的好坏均采用奖励值进行评价，在训练过程中机器必须靠自身的经历进行学习，在行动-评价的环境中获得知识，不断改进行动以适应环境。在本申请实施例中，将权重值作为奖励值。

自然语言处理(Nature Language Processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

其中，机器翻译是指使用机器将一种自然语言(需翻译的自然语言一般称为源语言)翻译为另一种自然语言(翻译后的自然语言称为目标语言)，实现不同语种的自然语言的转换过程。

目前机器翻译一般通过机器翻译模型实现，如基于神经网络的NMT(NeuralMachine Translation，神经网络机器翻译)模型等。要训练一个精确的机器翻译模型，需要足够数量的双语训练数据。双语训练数据由源语言数据和与源语言数据对应的标注语言数据组成。在获取双语训练数据过程中，常常需要专业翻译人员将源语言数据人工翻译成标注语言数据，由于人工翻译的成本昂贵，所以获取双语训练数据的成本较高。因此，为了在固定成本约束下获取高质量的双语训练数据，需要先对大量的源语言数据进行筛选，然后再获取与筛选后的源语言数据对应的标注语言数据，进而提高基于筛选后的源语言数据和与其对应的标注语言数据获取的机器翻译模型的翻译性能。

对此，本申请实施例提供了一种数据处理方法，请参考图1，其示出了本申请实施例提供的数据处理方法的实施环境的示意图。该实施环境可以包括：终端11和服务器12。

终端11可以从网络上获取待筛选的源语言数据，将待筛选的源语言数据发送至服务器12，也可以接收服务器12返回的筛选后的源语言数据，展示筛选后的源语言数据，以由专业翻译人员将该筛选后的源语言数据翻译成标注语言数据。然后，终端11将标注语言数据发送至服务器12。服务器12可以利用强化学习算法训练得到目标数据筛选模型，基于该目标数据筛选模型对终端11发送的待筛选的源语言数据进行筛选，可以将筛选后的源语言数据发送至终端11，获取终端11发送的与筛选后的源语言数据对应的标注语言数据。然后，服务器12可以基于筛选后的源语言数据和与其对应的标注语言数据获取机器翻译模型。

可选地，终端11可以是诸如手机、平板电脑、个人计算机等的智能设备。服务器12可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。终端11与服务器12通过有线或无线网络建立通信连接。

本领域技术人员应能理解上述终端11和服务器12仅为举例，其他现有的或今后可能出现的终端或服务器如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

基于上述图1所示的实施环境，本申请实施例提供一种数据处理方法，以该方法应用于服务器为例。如图2所示，本申请实施例提供的方法可以包括如下步骤：

在步骤201中，获取待筛选数据集，待筛选数据集包括多个待筛选的源语言数据。

待筛选数据集为需要进行筛选的数据集。待筛选数据集包括多个待筛选的源语言数据。需要说明的是，在本申请实施例中，将源语言数据对应的语种称为第一语种。源语言数据可以是指第一语种的语句。

在一种可能实现方式中，服务器获取待筛选数据集的方式包括但不限于以下两种：

方式一：服务器从第一语种的数据库中获取待筛选数据集。

服务器可以从第一语种的数据库中随机选取第一参考数量的语句组成待筛选数据集。其中，第一参考数量可以根据需要获取的双语数据的数量确定，也可以根据实际情况自由调整，本申请实施例对此不加以限定。

方式二：服务器接收终端发送的网络数据，在网络数据中解析出第一语种的语句，基于解析出的第一语种的语句获取待筛选数据集。

终端在处理互联网业务的过程中，可以获取网络数据，在网络数据中可能包括不同语种的语句；终端将网络数据发送至服务器后，服务器可以在网络数据中解析出第一语种的语句。在一种可能实现方式中，服务器基于解析出的第一语种的语句获取待筛选数据集的过程为：服务器在解析出的第一语种的语句中选取第一参考数量的语句组成待筛选数据集。

服务器在获取待筛选数据集后，即可执行步骤202。

在实际应用场景中，要训练一个精确的机器翻译模型，需要足够数量的双语训练数据。但是，当双语中的一方语种为不常见语种时，已有的双语数据库中的双语训练数据的数据量可能较少。在此种情况下，服务器需要获取新的双语训练数据扩充已有的双语数据库。获取新的双语训练数据的成本较高，因此，服务器需要先基于步骤202对大量的待筛选的源语言数据进行筛选，以提高获取的双语训练数据的质量。

在步骤202中，基于目标数据筛选模型，对待筛选数据集中的各个源语言数据进行筛选，得到筛选后的源语言数据，目标数据筛选模型利用强化学习算法训练得到。

服务器在获取待筛选数据集后，即可基于目标数据筛选模型，对待筛选数据集中的各个源语言数据进行筛选，以得到筛选后的源语言数据。其中，目标数据筛选模型利用强化学习算法训练得到，也就是说，目标数据筛选模型的筛选规则为机器在强化学习的过程中自动学习到的，目标数据筛选模型的筛选规则能够适应各种不同的场景，应用范围广泛。

在一种可能实现方式中，服务器基于目标数据筛选模型，对待筛选数据集中的各个源语言数据进行筛选，得到筛选后的源语言数据的过程为：获取待筛选数据集中的各个源语言数据的特征，将各个源语言数据的特征输入目标数据筛选模型；目标数据筛选模型对输入的各个源语言数据的特征进行处理，输出各个源语言数据的筛选结果；服务器基于各个源语言数据的筛选结果得到筛选后的源语言数据。

本申请实施例对待筛选数据集中的各个源语言数据的特征的获取方式不加以限定。例如，可以基于各个源语言数据的每个词对应的词嵌入(embedding)以及各个源语言数据的语句长度获取各个源语言数据的特征等。示例性地，特征可以以向量的形式表示。

在一种可能实现方式中，服务器将各个源语言数据的特征输入目标数据筛选模型的方式包括但不限于以下两种：

方式一：服务器每次将一个源语言数据的特征输入目标数据筛选模型进行处理，直至将各个源语言数据的特征均输入目标数据筛选模型。

在此种方式下，目标数据筛选模型每次仅输出一个源语言数据的筛选结果。

方式二：服务器将各个源语言数据划分到第二参考数量的源语言数据组中，每次将一个源语言数据组中的全部源语言数据的特征同时输入目标数据筛选模型进行处理，直至将所有的源语言数据组中的全部源语言数据的特征均输入目标数据筛选模型。

在此种方式下，目标数据筛选模型每次输出一个源语言数据组中的全部源语言数据的筛选结果。第二参考数量可以根据经验设置，也可以根据应用场景自由调整，本申请实施例对此不加以限定。当第二参考数量设置为1时，将各个源语言数据的特征同一批次输入目标数据筛选模型进行处理，目标数据筛选模型同一批次输出各个源语言数据的筛选结果。

在一种可能实现方式中，筛选结果为第一结果或第二结果。其中，第一结果用于指示源语言数据的可靠性高，第二结果用于指示源语言数据的可靠性低。对于任一源语言数据，当该任一源语言数据的筛选结果为第一结果时，说明该任一源语言数据可靠性高，也就是说，该任一源语言数据为高质量的源语言数据；当该任一源语言数据的筛选结果为第二结果时，说明该任一源语言数据可靠性低，也就是说，该任一源语言数据为低质量的源语言数据。

在一种可能实现方式中，第一结果和第二结果可以分别用数值1和数值0表示。当目标数据筛选模型输出的结果为1时，说明源语言数据的筛选结果为第一结果；当目标数据筛选模型输出的结果为0时，说明源语言数据的筛选结果为第二结果。

在一种可能实现方式中，服务器基于各个源语言数据的筛选结果得到筛选后的源语言数据的方式可以为：服务器将筛选结果为第一结果的源语言数据作为筛选后的源语言数据。

服务器在得到筛选后的源语言数据后，即可基于筛选后的源语言数据执行步骤203。

需要说明的是，在服务器执行步骤202之前，需要先利用强化训练得到目标数据筛选模型。该过程详见步骤301至步骤303所示的实施例，此处暂不赘述。

在步骤203中，将筛选后的源语言数据作为目标源语言数据，获取与目标源语言数据对应的标注语言数据，基于目标源语言数据和标注语言数据获取机器翻译模型。

由于筛选后的源语言数据为质量高的源语言数据，因此，可以将筛选后的源语言数据作为目标源语言数据，进一步获取与目标源语言数据对应的标注语言数据。在本申请实施例中，将标注语言数据对应的语种称为第二语种。标注语言数据可以是指第二语种的语句。

在一种可能实现方式中，标注语言数据由专业翻译人员对目标源语言数据进行翻译得到。服务器获取与目标源语言数据对应的标注语言数据的过程为：服务器将目标源语言数据发送至终端；终端展示目标源语言数据，以供专业翻译人员查看目标源语言数据并对其进行人工翻译；当检测到专业翻译人员的翻译确认指令时，终端获取与目标源语言数据对应的标注语言数据；终端将与目标源语言数据对应的标注语言数据发送至服务器。由此，服务器获取与目标源语言数据对应的标注语言数据。

在获取与目标源语言数据对应的标注语言数据后，服务器可以基于目标源语言数据和标注语言数据获取机器翻译模型。需要说明的是，在基于目标源语言数据和标注语言数据获取机器翻译模型的过程中，服务器可以直接基于目标源语言数据和标注语言数据训练机器翻译模型；也可以将目标源语言数据和标注语言数据添加至已有的双语训练数据中，得到扩充后的双语训练数据，然后基于扩充后的双语训练数据训练机器翻译模型。本申请实施例对获取机器翻译模型的具体方式不加以限定。

在实际应用过程中，分别以源语言数据为中文语言数据、标注语言数据为英文语言数据，以及源语言数据为英文语言数据、标注语言数据为中文语言数据为例，进行了实验，以得到根据本申请实施例提供的方法获取的机器翻译模型和根据其他方法获取的机器翻译模型的性能的对比结果。

实验过程为：在待筛选数据集中，根据本申请实施例提供的方法获取目标数量的目标源语言数据以及与目标源语言数据对应的标注语言数据，将目标源语言数据以及与目标源语言数据对应的标注语言数据作为第一双语训练样本；基于第一双语训练样本，训练得到第一翻译模型。在同样的待筛选数据集中，随机选取目标数量的选定源语言数据，获取与选定源语言数据对应的标注语言数据，将选定源语言数据和与选定源语言数据对应的标注语言数据作为第二双语训练样本；基于第二双语训练样本，训练得到第二翻译模型。分别测试第一翻译模型和第二翻译模型在WMT(Workshop on Machine Translation，机器翻译比赛)领域测试集、经济领域测试集和政治领域测试集上的性能。

分别以源语言数据为中文语言数据、标注语言数据为英文语言数据，以及源语言数据为英文语言数据、标注语言数据为中文语言数据为例，第一翻译模型和第二翻译模型的性能的比对结果如表1所示。

表1

基于表1可知，第一翻译模型在各个领域的测试集上均具有比第二翻译模型更高的翻译性能。其中，翻译性能用BLEU(Bilingual Evaluation Understudy，双语评估替补)值表示。

在机器翻译任务中，为达到预定的机器翻译性能，利用本申请实施例提供的方法可以获取更有效质量更高的源语言数据，减少专业翻译人员的翻译成本，在降低预算和成本方面具有重要的价值。

在本申请实施例中，基于利用强化学习算法训练得到的目标数据筛选模型，对待筛选数据集中的各个源语言数据进行筛选，进而基于筛选后的源语言数据和与其对应的标注语言数据获取机器翻译模型。在此种数据处理的过程中，目标数据筛选模型中的筛选规则为机器在强化学习的过程中自动学习出来的，目标数据筛选模型的适应场景广泛，筛选后的源语言数据的质量较高，使得基于筛选后的源语言数据和与其对应的标注语言数据获取的机器翻译模型的翻译性能较好。

本申请实施例提供一种利用强化学习算法训练得到目标数据筛选模型的方法，以该方法应用于服务器为例。如图3所示，本申请实施例提供的方法可以包括如下步骤：

在步骤301中，随机初始化第一训练数据集，第一训练数据集包括多个源语言训练数据。

第一训练数据集为训练得到目标数据筛选模型的过程中的待筛选数据集，第一训练数据集包括多个源语言训练数据。源语言训练数据为训练得到目标数据筛选模型的过程中的待筛选源语言数据。

将第一训练数据集随机初始化，有利于提高训练得到的目标数据筛选模型的泛化能力。在一种可能实现方式中，随机初始化第一训练数据集的过程为：将第一训练数据集中的各个源语言训练数据的顺序随机打乱。

在步骤302中，基于随机初始化的第一训练数据集，利用强化学习算法对第一数据筛选模型进行训练，得到第二数据筛选模型。

其中，第一数据筛选模型为与随机初始化的第一训练数据集对应的初始数据筛选模型，第二数据筛选模型为与随机初始化的第一训练数据集对应的最终数据筛选模型。本申请实施例对数据筛选模型的具体形式不加以限定。例如，数据筛选模型可以为DQN(DeepQ-Learning，深度Q学习)模型。

步骤302为获取第二数据筛选模型，也就是获取与随机初始化的第一训练数据集对应的最终数据筛选模型的过程，如图4所示，该过程可以包括步骤3021至步骤3027。

步骤3021，将随机初始化的第一训练数据集划分为至少一个目标训练数据集。

随机初始化的第一训练数据集中包括多个源语言训练数据，将随机初始化的第一训练数据集划分为至少一个目标训练数据集，使得每个目标训练数据集中包括随机初始化的第一训练数据集中的部分源语言训练数据。

在划分为至少一个目标训练数据集后，在获取与该随机初始化的第一训练数据集对应的第二数据筛选模型的过程中，每次使用一个目标训练数据集进行训练。相比于每次使用一个源语言训练数据进行训练，此方式可以缩短训练时间，提高训练过程的稳定性。需要说明的是，在划分为至少一个目标训练数据集后，对各个目标训练数据集进行排序，在后续训练过程中，按照排列顺序依次选取各个目标训练数据集。根据排列顺序，各个目标训练数据集依次为第一目标训练数据集，第二目标训练数据集、……、第n目标训练数据集。

在一种可能实现方式中，目标训练数据集的数量n根据第一训练数据集中的源语言训练数据的总数量M和小批量尺寸(Mini-batch size)S确定，也就是说n＝M/S。小批量尺寸S可以根据经验设置，也可以根据源语言训练数据的总数量进行调整，本申请实施例对此不加以限定。例如，小批量尺寸可以设置为16。也就是说，每个目标训练数据集中包括16个源语言训练数据。此时，目标训练数据集的数量n＝M/16。

步骤3022，获取第一目标训练数据集中的各个源语言训练数据的目标特征，第一目标训练数据集为至少一个目标训练数据集中的第一个目标训练数据集。

在将随机初始化的第一训练数据集划分为至少一个目标训练数据集后，获取第一目标训练数据集中各个源语言训练数据的目标特征。其中，第一目标训练数据集为至少一个目标训练数据集中的第一个目标训练数据集。

在一种可能实现方式中，获取第一目标训练数据集中的任一源语言训练数据的目标特征的过程包括以下步骤3022A至步骤3022C：

步骤3022A：基于任一源语言训练数据中的各个子数据，获取任一源语言训练数据的第一特征。

第一特征用于指示该任一源语言训练数据本身的特征，第一特征基于该任一源语言训练数据中的各个子数据获取到。任一源语言训练数据中包括多个子数据，示例性地，当任一源语言训练数据为语句时，该任一源语言训练数据中的每个词均为该任一源语言训练数据中的一个子数据。

在一种可能实现方式中，基于任一源语言训练数据中的各个子数据，获取任一源语言训练数据的第一特征的过程包括以下步骤1至步骤4：

步骤1：基于任一源语言训练数据中的各个子数据的词嵌入特征，获取任一源语言训练数据的第三特征。

基于词表查询任一源语言训练数据中各个子数据的词嵌入(Embedding)特征，将各个子数据的词嵌入特征补充(Pad)到统一长度，基于同一长度的各个子数据的词嵌入特征，即可获取该任一源语言训练数据的第三特征。

词表是指存储各个词对应的词嵌入特征的表，词表可以基于已有的语料库构建得到，本申请实施例对词表的构建过程不加以限定。此外，词表中每个词对应的词嵌入特征可以用向量表示，向量的维度可以根据经验设置，例如，将向量的维度设置为512维。

在一种可能实现方式中，基于同一长度的各个子数据的词嵌入特征，获取任一源语言训练数据的第三特征的方式可以为：将同一长度的各个子数据的词嵌入特征输入神经网络，将经过神经网络中的卷积层和全连接层的处理得到的特征作为任一源语言训练数据的第三特征。本申请实施例对神经网络中的卷积层和全连接层的设置不加以限定。在卷积层中还可以包含ReLU(Rectified Linear Unit，线形整流函数)处理模块。示例性地，如图5所示，神经网络可以为CNN(Convolutional Neural Networks，卷积神经网络)网络，卷积层的卷积核尺寸(filter size)可以分别设置为3、4、和5，卷积核的数量(filter number)可以设置为128。经过全连接层处理后可以得到384*256维的特征向量，将该特征向量作为第三特征。

步骤2：基于任一源语言训练数据中的各个子数据和已有语料数据库的比对结果，获取任一源语言训练数据的第四特征。

通过将任一源语言训练数据中的各个子数据和已有语料数据库进行比对，可以统计该任一源语言训练数据中N-gram的子数据在已有语料数据库中出现的概率，将该概率作为比对结果。然后可以基于比对结果，获取任一源语言训练数据的第四特征。其中，N-gram可以包括2-gram、3-gram和4-gram中的一种或多种。

在一种可能实现方式中，基于比对结果，获取任一源语言训练数据的第四特征的方式可以为：将比对结果输入神经网络，将经过神经网络的处理得到的特征作为任一源语言训练数据的第四特征。本申请实施例对神经网络的设置不加以限定。示例性地，如图5所示，经过神经网络的处理后，可以得到1*256维的特征向量，将该特征向量作为第四特征。

步骤3：基于任一源语言训练数据中的各个子数据，得到任一源语言训练数据的长度，基于任一源语言训练数据的长度获取任一源语言训练数据的第五特征。

根据任一源语言训练数据中的子数据的数量，即可得到该任一源语言训练数据的长度。例如，当任一源语言训练数据为语句，子数据为词时，语句中包括的词的数量即为该语句的长度。

在一种可能实现方式中，基于任一源语言训练数据的长度获取任一源语言训练数据的第五特征的方式可以为：将任一源语言训练数据的长度输入神经网络，将经过神经网络的处理得到的特征作为任一源语言训练数据的第五特征。本申请实施例对神经网络的设置不加以限定。示例性地，如图5所示，经过神经网络的处理后，可以得到1*256维的特征向量，将该特征向量作为第五特征。

步骤4：基于第三特征、第四特征和第五特征，获取任一源语言训练数据的

第一特征。

在根据步骤1至步骤3获取该任一源语言训练数据的第三特征、第四特征和第五特征后，即可获取该任一源语言训练数据的第一特征。在一种可能实现方式中，获取任一源语言训练数据的第一特征的方式为：将任一源语言训练数据的第三特征、第四特征和第五特征拼接起来得到第一特征。

步骤3022B：基于任一源语言训练数据和第三翻译模型，获取任一源语言训练数据的第二特征。

第二特征用于指示该任一源语言训练数据基于第三翻译模型得到的特征。其中，第三翻译模型可以为任意一个能够对源语言训练数据进行翻译的模型，本申请实施例对此不加以限定。

在一种可能实现方式中，基于任一源语言训练数据和第三翻译模型，获取任一源语言训练数据的第二特征的过程包括以下步骤1至步骤4：

步骤1：基于第三翻译模型，获取任一源语言训练数据的翻译数据，基于翻译数据的词嵌入特征，获取任一源语言训练数据的第六特征。

基于第三翻译模型，获取任一源语言训练数据的翻译数据的过程为：将该任一源语言训练数据输入第三翻译模型，将第三翻译模型输出的翻译数据作为该任一源语言训练数据的翻译数据。

在获取任一源语言训练数据的翻译数据后，可以在词表中查询该翻译数据的词嵌入特征，基于翻译数据的词嵌入特征，获取任一源语言训练数据的第六特征。词嵌入特征可以用向量表示，向量的维度可以根据经验设置，例如，将向量的维度设置为512维。

在一种可能实现方式中，基于翻译数据的词嵌入特征，获取任一源语言训练数据的第六特征的方式可以为：将翻译数据的词嵌入特征输入神经网络，将经过神经网络中的卷积层和全连接层的处理得到的特征作为任一源语言训练数据的第六特征。本申请实施例对神经网络中的卷积层和全连接层的设置不加以限定。在卷积层中还可以包含ReLU处理模块。示例性地，如图5所示，神经网络可以为CNN网络，卷积层的卷积核尺寸(filter size)可以分别设置为3、4、和5，卷积核的数量(filter number)可以设置为128。经过全连接层处理后可以得到384*256维的特征向量，将该特征向量作为第六特征。

步骤2：基于第三翻译模型，获取与任一源语言训练数据中的各个子数据对应的概率最大的各个翻译子数据，基于概率最大的各个翻译子数据的词嵌入特征，获取任一源语言训练数据的第七特征。

将任一源语言训练数据输入第三翻译模型，还可以得到第三翻译模型输出的与任一源语言训练数据中的各个子数据对应位置上的候选翻译子数据及其概率。在一种可能实现方式中，与任一子数据对应位置上的候选翻译子数据的数量可以根据经验设置，例如，将候选翻译子数据的数量设置为10。则第三翻译模型输出各个位置上概率最大的10个候选翻译子数据及其概率。

根据与任一源语言训练数据中的各个子数据对应位置上的候选翻译子数据及其概率，可以确定与任一源语言训练数据中的各个子数据对应的概率最大的各个翻译子数据。在词表中查找该概率最大的各个翻译子数据的词嵌入特征，将各个翻译子数据的词嵌入特征补充到统一长度，基于同一长度的各个翻译子数据的词嵌入特征，获取任一源语言训练数据的第七特征。

在一种可能实现方式中，基于同一长度的各个子数据的词嵌入特征，获取任一源语言训练数据的第七特征的方式可以为：将同一长度的各个翻译子数据的词嵌入特征输入神经网络，将经过神经网络中的卷积层和全连接层的处理得到的特征作为任一源语言训练数据的第七特征。本申请实施例对神经网络中的卷积层和全连接层的设置不加以限定。在卷积层中还可以包含ReLU处理模块。示例性地，如图5所示，神经网络可以为CNN(Convolutional Neural Networks，卷积神经网络)网络，卷积层的卷积核尺寸(filtersize)可以设置为5，卷积核的数量(filter number)可以设置为64。经过全连接层处理后可以得到64*256维的特征向量，将该特征向量作为第七特征。

步骤3：获取概率最大的各个翻译子数据的概率，基于概率最大的各个翻译子数据的概率和翻译数据的长度，获取任一源语言训练数据的第八特征。

根据步骤2还可以获取概率最大的各个翻译子数据对应的概率。在一种可能实现方式中，基于概率最大的各个翻译子数据的概率和翻译数据的长度，获取任一源语言训练数据的第八特征的过程为：将概率最大的各个翻译子数据的概率相加得到总概率，基于总概率与翻译数据的长度的比值获取任一源语言训练数据的第八特征。第八特征可以用于指示任一源语言训练数据的置信分数(Confidence Score)。

在一种可能实现方式中，基于总概率与翻译数据的长度的比值获取任一源语言训练数据的第八特征的方式可以为：将总概率与翻译数据的长度的比值输入神经网络，将经过神经网络的处理得到的特征作为任一源语言训练数据的第八特征。本申请实施例对神经网络的设置不加以限定。示例性地，如图5所示，经过神经网络的处理后，可以得到1*256维的特征向量，将该特征向量作为第八特征。

步骤4：基于第六特征、第七特征和第八特征，获取任一源语言训练数据的第二特征。

在根据步骤1至步骤3获取该任一源语言训练数据的第六特征、第七特征和第八特征后，即可获取该任一源语言训练数据的第二特征。在一种可能实现方式中，获取任一源语言训练数据的第二特征的方式为：将任一源语言训练数据的第六特征、第七特征和第八特征拼接起来得到第二特征。

需要说明的是，本申请实施例对步骤3022A和步骤3022B的执行顺序不加以限定。可以先执行步骤3022A，再执行步骤3022B；也可以先执行步骤3022B，再执行步骤3022A；当然，还可以同时执行步骤3022A和步骤3022B。

步骤3022C：基于第一特征和第二特征，获取任一源语言训练数据的目标特征。

在获取到该任一源语言训练数据的第一特征和第二特征后，可以基于第一特征和第二特征，获取任一源语言训练数据的目标特征。在一种可能实现方式中，基于第一特征和第二特征，获取任一源语言训练数据的目标特征的方式为：将第一特征和第二特征进行拼接，将拼接后的特征作为任一源语言训练数据的目标特征。需要说明的是，本申请实施例对第一特征和第二特征的拼接顺序不加以限定。

在一种可能实现方式中，由于第一特征是基于第三特征、第四特征和第五特征获取到的，第二特征是基于第六特征、第七特征和第八特征获取到的，所以，任一源语言训练数据的目标特征可以基于该任一源语言训练数据的第三特征、第四特征、第五特征、第六特征、第七特征和第八特征获取得到。

根据上述步骤3022A至步骤3022C，即可获取第一目标训练数据集中各个源语言训练数据的目标特征。然后基于第一目标训练数据集中各个源语言训练数据的目标特征，执行步骤3023。

步骤3023，将第一目标训练数据集中的各个源语言训练数据的目标特征输入第一数据筛选模型，得到第一目标训练数据集中的各个源语言训练数据的筛选结果。

将第一目标训练数据集中各个源语言训练数据的目标特征输入第一数据筛选模型后，第一数据筛选模型对各个源语言训练数据的目标特征进行处理。第一数据筛选模型对目标特征进行处理后，基于分类器输出每个源语言训练数据的筛选结果。例如，得到第一目标训练数据集中的各个源语言训练数据的筛选结果的过程可以如图5所示。

本申请实施例对第一数据筛选模型处理目标特征的方式不加以限定。例如，可以将目标特征通过两个全连接层进行处理。在用第一个全连接层进行处理后，得到源语言训练数据的全连接特征；然后将全连接特征再送入另外一个全连接层，基于公式a_i＝argmaxQ^π(s_i,a)输出源语言训练数据对应不同筛选结果的概率，然后经过分类器，输出概率大的筛选结果作为该源语言训练数据的筛选结果。由此，服务器得到第一目标训练数据集中的各个源语言训练数据的筛选结果。

在一种可能实现方式中，筛选结果包括两种，分别为第一结果和第二结果。其中，第一结果用于指示源语言训练数据可靠性高，第二结果用户指示源语言训练数据的可靠性低。筛选结果可以用数值表示，筛选结果和数值的对应关系可以预先设置，例如，第一结果对应的数值为1，第二结果对应的数值为0等。

步骤3024，基于第一目标训练数据集中的各个源语言训练数据的筛选结果，确定第一目标训练数据集中的各个源语言训练数据的权重值。

不同筛选结果的源语言训练数据对应有不同的权重值。

在一种可能实现方式中，确定第一目标训练数据集中的各个源语言训练数据的权重值的过程为：对于第一目标训练数据集中的任一源语言训练数据，当任一源语言训练数据的筛选结果为第一结果时，将第一权重值作为任一源语言训练数据的权重值；当任一源语言训练数据的筛选结果为第二结果时，将第二权重值作为任一源语言训练数据的权重值。

其中，第二权重值为预先设置的与筛选结果为第二结果的源语言训练数据对应的权重值。本申请实施例对第二权重值的设置方式不加以限定，例如，将第二权重值设置为0。

在一种可能实现方式中，在将第一权重值作为任一源语言训练数据的权重值之前，需要先获取第一权重值。获取第一权重值的过程包括以下四个步骤：

步骤1：获取与每个目标源语言训练数据对应的标注语言训练数据，目标源语言训练数据为筛选结果为第一结果的源语言训练数据。

当源语言训练数据的筛选结果为第一结果时，说明该源语言训练数据可靠，将筛选结果为第一结果的源语言训练数据作为目标源语言训练数据，然后获取与每个目标源语言训练数据对应的标注语言训练数据。

需要说明的是，在训练之前，可以预先获取第一训练数据集中的各个源语言训练数据对应的标注语言训练数据并存储。在执行步骤1时，从存储中获取与筛选结果为第一结果的每个源语言训练数据对应的标注语言训练数据，以节省训练时间。

基于步骤1，即可获取到与筛选结果为第一结果的各个源语言训练数据对应的各个标注语言训练数据，然后执行步骤2。

步骤2：将各个目标源语言训练数据和与各个目标源语言训练数据对应的各个标注语言训练数据作为训练数据添加至第二训练数据集中。

第二训练数据集的初始值为空集，第二训练数据集用于存储双语训练数据。任一双语训练数据由一个源语言训练数据和与其对应的标注语言数据组成。

在获取与源语言训练数据对应的各个标注语言训练数据后，即可将各个目标源语言训练数据和与各个目标源语言训练数据对应的各个标注语言训练数据作为训练数据作为训练样本添加至第二训练数据集中。示例性地，将任一目标源语言训练数据记作x_i，将与x_i对应的标注语言训练数据记作y_i，将第二训练数据集记作D_l，则将(x_i，y_i)添加至D_l中。

需要说明的是，经过步骤2，将第一目标训练数据集中的筛选结果为第一结果的全部源语言训练数据和与其对应的标注语言训练数据均对应添加至第二训练数据集。基于此种方式得到的第二训练数据集，可以提高获取的第一权重值的准确性。

步骤3：基于第二训练数据集对第一翻译模型进行训练，得到第二翻译模型。

其中，第一翻译模型为利用已知的双语训练数据预训练得到的翻译模型。本申请实施例对第一翻译模型的具体形式不加以限定。例如，第一翻译模型为NMT(NeuralMachine Translation，神经机器翻译)模型。

在经过步骤2后，得到更新后的第二训练数据集。由于第二训练数据集中的数据均为双语训练数据，所以可以基于第二训练数据集对第一翻译模型进行训练。本申请实施例对训练第一翻译模型的方式不加以限定。将训练得到的翻译模型作为第二翻译模型。

步骤4：基于第二翻译模型和第一翻译模型，获取第一权重值。

第一权重值用于指示第二翻译模型与第一翻译模型的性能差异。在一种可能实现方式中，基于第二翻译模型和第一翻译模型，获取第一权重值的过程为：利用验证数据集(held out数据集)分别对第一翻译模型和第二翻译模型进行验证，得到第一翻译模型的模型性能和第二翻译模型的模型性能，基于第一翻译模型的模型性能和第二翻译模型的模型性能，获取第一权重值。

在一种可能实现方式中，基于下述公式1获取第一权重值：

R(s_i-1,a)＝Acc(Φ_i)-Acc(Φ_i-1) (公式1)

其中，Acc(Φ_i)表示第二翻译模型的模型性能。Acc(Φ_i-1)表示第一翻译模型的模型性能。R(s_i-1,a)表示第一权重值(Reward)。第一权重值的取值有正有负，表示第二数据集D_l中增加的双语训练样本(x_i，y_i)对模型性能的影响可能是正向影响，也可以是负向影响。

在获取第一权重值后，即可将第一权重值作为筛选结果为第一结果的各个源语言训练数据的权重值。

步骤3025，基于第一目标训练数据集中的各个源语言训练数据的目标特征、筛选结果、权重值和第二目标训练数据集中的各个源语言训练数据的目标特征，生成与第一目标训练数据集中的各个源语言训练数据对应的候选数据。

第二目标训练数据集为至少一个目标训练数据集中的第一目标训练数据集的下一个目标训练数据集。候选数据为用于更新第一数据筛选模型的参数的数据。

在一种可能实现方式中，生成与第一目标训练数据集中的各个源语言训练数据对应的候选数据的方式为：

对于第一目标训练数据集中的任一源语言训练数据，当任一源语言训练数据的筛选结果为第一结果时，基于任一源语言训练数据的目标特征、第一结果、第一权重值和第二目标训练数据集中与任一源语言训练数据对应的源语言数据的目标特征，生成与任一源语言训练数据对应的第一候选数据；

当任一源语言训练数据的筛选结果为第二结果时，基于任一源语言训练数据的目标特征、第二结果、第二权重值和第二目标训练数据集中与任一源语言训练数据对应的源语言数据的目标特征，生成与任一源语言训练数据对应的第二候选数据。

也就是说，每个源语言训练数据均对应一个候选数据。将任一源语言训练数据的目标特征记作s_i、筛选结果记作a_i、权重值记作r_i、第二目标训练数据集中与该任一源语言训练数据对应的源语言数据的目标特征记作s_i+1，则每个候选数据均可以记作(s_i，a_i，r_i，s_i+1)。其中，a_i和r_i根据该任一源语言训练数据的筛选结果确定。

在一种可能实现方式中，在生成与第一目标训练数据集中的各个源语言训练数据对应的候选数据后，将第一候选数据添加至第一候选数据集中，将第二候选数据添加至第二候选数据集中。

步骤3026，选取目标数量的候选数据，基于目标数量的候选数据更新第一数据筛选模型的参数，得到更新后的第一数据筛选模型。

在生成与第一目标训练数据集中的各个源语言训练数据对应的候选数据后，选取目标数量的候选数据，以基于目标数量的候选数据更新第一数据筛选模型的参数。选取目标数量的候选数据的方式可以为：在全部的候选数据中随机选取目标数量的候选数据。目标数量可以根据经验设置，也可以根据全部的候选数据的数量自由调整，本申请实施例对此不加以限定。

在一种可能实现方式中，选取目标数量的候选数据的方式为：在第一候选数据集和第二候选数据集中进行等比例选取，得到目标数量的候选数据。基于此种选取方式选取的候选数据更具有代表性，有利于提高数据筛选模型的训练过程的稳定性。

在一种可能实现方式中，基于目标数量的候选数据更新第一数据筛选模型的参数，得到更新后的第一数据筛选模型的过程包括以下三个步骤：

步骤1：基于目标数量的候选数据更新与第一数据筛选模型对应的目标函数。

在一种可能实现方式中，目标函数的形式为Q^π(s,a)，更新与第一数据筛选模型对应的目标函数的方式为：基于贝尔曼方程(公式2)更新与第一数据筛选模型对应的目标函数。

Q^π(s,a)＝E[R_i|s_i＝s,a_i＝a,π] (公式2)

其中，

R_i是折扣后的长期权重，γ为折扣因子。

步骤2：根据更新后的目标函数，计算与第一数据筛选模型对应的损失函数。

在得到更新后的目标函数后，即可根据更新后的目标函数，计算当前的损失函数。在一种可能实现方式中，基于下述公式3计算损失函数：

L(θ)＝E_s,a,r,s′[(y_i(r,s′)-Q(s,a；θ))²] (公式3)

其中，y_i(r,s′)＝r+γmax_a′Q(s′,a′；θ_i-1)为基于第一数据筛选模型的当前参数θ_i-1的目标函数值。

步骤3：基于损失函数，更新第一数据筛选模型的参数，得到更新后的第一数据筛选模型。

在得到损失函数后，基于最小化损失函数的目标，更新第一数据筛选模型的参数，以得到更新后的第一数据筛选模型。

在一种可能实现方式中，利用SGD(Stochastic Gradient Descent，随机梯度下降)算法最小化损失函数L(θ)。

综上所述，获取更新后的第一数据筛选模型的过程可以如图6所示。基于第一训练数据集D_u中的任一目标训练数据集的各个源语言训练数据x_i和神经网络，获取各个源语言训练数据的目标特征s_i；将s_i输入第一数据筛选模型中，第一数据筛选模型基于公式a_i＝argmaxQ^π(s_i,a)确定各个源语言训练数据的筛选结果。当筛选结果为0时，将0作为权重值r_i；当筛选结果为1时，获取标注语言数据y_i，将(x_i，y_i)添加至第二训练数据集D_l中，利用第二训练数据集D_l对第一翻译模型进行训练，得到第二翻译模型；利用held-out验证数据集分别计算第一翻译模型和第二翻译模型的模型性能，将模型性能的差值作为筛选结果为1的源语言训练数据的权重值。生成候选数据(s_i，a_i，r_i，s_i+1)。选取目标数量的候选数据，利用SGD算法最小化损失函数L(θ)，得到更新后的第一数据筛选模型。

步骤3027，基于更新后的第一数据筛选模型进行迭代训练，直至满足第二训练终止条件，得到第二数据筛选模型。

基于更新后的第一数据筛选模型进行迭代训练的过程为：基于更新后的第一数据筛选模型执行步骤3023至步骤3026，得到进一步更新后的第一数据筛选模型；循环进行上述过程。

在一种可能实现方式中，每对第一数据筛选模型更新一次，即判断一次是否满足第二训练终止条件。若不满足第二训练终止条件，则继续执行步骤3023至步骤3026，以继续更新第一数据筛选模型；若满足第二训练终止条件，停止基于更新后的第一数据筛选模型的迭代训练，将此时得到的更新后的第一数据筛选模型作为第二数据筛选模型。

在一种可能实现方式中，满足第二训练终止条件，包括但不限于以下两种情况：

情况一：第一训练数据集中不存在新的目标训练数据集。

当第一训练数据集中不存在新的目标训练数据集时，说明第一训练数据集中的全部源语言训练数据均作为训练数据参与了获取第二数量筛选模型的训练过程，此时认为满足第二训练终止条件。

情况二：筛选结果为第一结果的源语言训练数据的数量达到数量阈值。

数量阈值可以根据训练成本(budget)进行设置，当筛选结果为第一结果的源语言训练数据的数量达到数量阈值时，说明已筛选出足够数量的源语言训练数据，此时认为满足第二训练终止条件。

当满足上述两种情况中的任一中情况时，即认为满足第二训练终止条件，得到第二数据筛选模型。

在步骤303中，基于第二数据筛选模型进行迭代训练，直至满足第一训练终止条件，得到目标数据筛选模型。

在基于步骤3027得到第二数据筛选模型后，基于第二数据筛选模型进行迭代训练，以获取目标数据筛选模型。

基于第二数据筛选模型进行迭代训练的过程为：基于第二数据筛选模型执行步骤301和步骤302，得到与下一个随机初始化的第一训练数据集对应的第二数据筛选模型；循环进行上述过程。

在一种可能实现方式中，每得到一个第二数据筛选模型，即判断一次是否满足第一训练终止条件。若不满足第一训练终止条件，则继续执行步骤301和步骤302，以继续获取第二数据筛选模型；若满足第一训练终止条件，则停止基于第二数据筛选模型的迭代训练结束，将此时得到的第二数据筛选模型作为目标数据筛选模型。在一种可能实现方式中，满足第一训练终止条件为：随机初始化第一训练数据集的次数达到次数阈值。

综上所述，在一种可能实现方式中，将获取目标数据筛选模型的过程看作获取策略π(policyπ)的过程，获取策略π的算法流程如下：

在实际应用场景中，数据筛选模型可以应用于主动学习过程。主动学习是一种标记数据的简单技术，它首先从未标注的数据集中选择一些实例，然后由人工标注这些实例，然后重复多次，直到满足终止条件。如图7所示，基于已有的标注数据训练集L更新数据筛选模型，基于数据筛选模型在无标注数据池U中筛选出部分待标注数据，由专业人员进行人工标注，然后将标注后的数据添加至标注数据训练集L中，循环上述过程，直至满足终止条件。例如，终止条件可以是指标注数据训练集L中的数据的数量达到阈值。

在本申请实施例中，利用强化学习算法训练得到目标数据筛选模型，目标数据筛选模型中的筛选规则为机器在强化学习的过程中自动学习出来的，目标数据筛选模型的适应场景广泛，使得基于目标数据筛选模型筛选后的源语言数据的质量较高，进而有利于提高基于筛选后的源语言数据和与其对应的标注语言数据获取的机器翻译模型的翻译性能。

基于相同技术构思，参见图8，本申请实施例提供了一种数据处理装置，该装置包括：

第一获取模块801，用于获取待筛选数据集，待筛选数据集包括多个待筛选的源语言数据；

筛选模块802，用于基于目标数据筛选模型，对待筛选数据集中的各个源语言数据进行筛选，得到筛选后的源语言数据，目标数据筛选模型利用强化学习算法训练得到；

第二获取模块803，用于将筛选后的源语言数据作为目标源语言数据，获取与目标源语言数据对应的标注语言数据；

第三获取模块804，用于基于目标源语言数据和标注语言数据获取机器翻译模型。

在一种可能实现方式中，参见图9，该装置还包括：

初始化模块805，用于随机初始化第一训练数据集，第一训练数据集包括多个源语言训练数据；

第一训练模块806，用于基于随机初始化的第一训练数据集，利用强化学习算法对第一数据筛选模型进行训练，得到第二数据筛选模型；

第二训练模块807，用于基于第二数据筛选模型进行迭代训练，直至满足第一训练终止条件，得到目标数据筛选模型。

在一种可能实现方式中，参见图10，第一训练模块806，包括：

划分单元8061，用于将随机初始化的第一训练数据集划分为至少一个目标训练数据集；

获取单元8062，用于获取第一目标训练数据集中的各个源语言训练数据的目标特征，第一目标训练数据集为至少一个目标训练数据集中的第一个目标训练数据集；

输入单元8063，用于将第一目标训练数据集中的各个源语言训练数据的目标特征输入第一数据筛选模型，得到第一目标训练数据集中的各个源语言训练数据的筛选结果；

确定单元8064，用于基于第一目标训练数据集中的各个源语言训练数据的筛选结果，确定第一目标训练数据集中的各个源语言训练数据的权重值；

生成单元8065，用于基于第一目标训练数据集中的各个源语言训练数据的目标特征、筛选结果、权重值和第二目标训练数据集中的各个源语言训练数据的目标特征，生成与第一目标训练数据集中的各个源语言训练数据对应的候选数据，第二目标训练数据集为至少一个目标训练数据集中的第一目标训练数据集的下一个目标训练数据集；

选取单元8066，用于选取目标数量的候选数据；

更新单元8067，用于基于目标数量的候选数据更新第一数据筛选模型的参数，得到更新后的第一数据筛选模型；

训练单元8068，用于基于更新后的第一数据筛选模型进行迭代训练，直至满足第二训练终止条件，得到第二数据筛选模型。

在一种可能实现方式中，确定单元8064，用于对于第一目标训练数据集中的任一源语言训练数据，当任一源语言训练数据的筛选结果为第一结果时，将第一权重值作为任一源语言训练数据的权重值；当任一源语言训练数据的筛选结果为第二结果时，将第二权重值作为任一源语言训练数据的权重值。

在一种可能实现方式中，获取单元8062，还用于获取与每个目标源语言训练数据对应的标注语言训练数据，目标源语言训练数据为筛选结果为第一结果的源语言训练数据；

参见图10，第一训练模块806，还包括：

添加单元8069，用于将各个目标源语言训练数据和与各个目标源语言训练数据对应的各个标注语言训练数据作为训练数据添加至第二训练数据集中；

训练单元8068，还用于基于第二训练数据集对第一翻译模型进行训练，得到第二翻译模型；

获取单元8062，还用于基于第二翻译模型和第一翻译模型，获取第一权重值。

在一种可能实现方式中，获取单元8062，还用于对于第一目标训练数据集中的任一源语言训练数据，基于任一源语言训练数据中的各个子数据，获取任一源语言训练数据的第一特征；基于任一源语言训练数据和第三翻译模型，获取任一源语言训练数据的第二特征；基于第一特征和第二特征，获取任一源语言训练数据的目标特征。

在一种可能实现方式中，获取单元8062，还用于基于任一源语言训练数据中的各个子数据的词嵌入特征，获取任一源语言训练数据的第三特征；基于任一源语言训练数据中的各个子数据和已有语料数据库的比对结果，获取任一源语言训练数据的第四特征；基于任一源语言训练数据中的各个子数据，得到任一源语言训练数据的长度，基于任一源语言训练数据的长度获取任一源语言训练数据的第五特征；基于第三特征、第四特征和第五特征，获取任一源语言训练数据的第一特征。

在一种可能实现方式中，获取单元8062，还用于基于第三翻译模型，获取任一源语言训练数据的翻译数据，基于翻译数据的词嵌入特征，获取任一源语言训练数据的第六特征；基于第三翻译模型，获取与任一源语言训练数据中的各个子数据对应的概率最大的各个翻译子数据，基于概率最大的各个翻译子数据的词嵌入特征，获取任一源语言训练数据的第七特征；获取概率最大的各个翻译子数据的概率，基于概率最大的各个翻译子数据的概率和翻译数据的长度，获取任一源语言训练数据的第八特征；基于第六特征、第七特征和第八特征，获取任一源语言训练数据的第二特征。

在一种可能实现方式中，生成单元8065，用于对于第一目标训练数据集中的任一源语言训练数据，当任一源语言训练数据的筛选结果为第一结果时，基于任一源语言训练数据的目标特征、第一结果、第一权重值和第二目标训练数据集中与任一源语言训练数据对应的源语言数据的目标特征，生成与任一源语言训练数据对应的第一候选数据；

在一种可能实现方式中，添加单元8069，还用于将第一候选数据添加至第一候选数据集中，将第二候选数据添加至第二候选数据集中；

选取单元8066，还用于在第一候选数据集和第二候选数据集中进行等比例选取，得到目标数量的候选数据。

在一种可能实现方式中，更新单元8067，用于基于目标数量的候选数据更新与第一数据筛选模型对应的目标函数；根据更新后的目标函数，计算与第一数据筛选模型对应的损失函数；基于损失函数，更新第一数据筛选模型的参数，得到更新后的第一数据筛选模型。

在一种可能实现方式中，满足第二训练终止条件，包括：

第一训练数据集中不存在新的目标训练数据集；或者，

需要说明的是，上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图11是本申请实施例提供的一种数据处理设备的结构示意图，该数据处理设备可以为服务器，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)1101和一个或多个存储器1102，其中，该一个或多个存储器1102中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器1101加载并执行，以实现上述各个方法实施例提供的数据处理方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条程序代码。该至少一条程序代码由一个或者一个以上处理器加载并执行，以实现上述任一种数据处理方法。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该至少一条程序代码由计算机设备的处理器加载并执行，以实现上述任一种数据处理方法。

可选地，上述计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-OnlyMemory，CD-ROM)、磁带、软盘和光数据存储设备等。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

将所述筛选后的源语言数据作为目标源语言数据，获取与所述目标源语言数据对应的标注语言数据，基于所述目标源语言数据和所述标注语言数据获取机器翻译模型；

所述方法还包括：

随机初始化第一训练数据集，所述第一训练数据集包括多个源语言训练数据；将所述随机初始化的第一训练数据集划分为至少一个目标训练数据集；

获取第一目标训练数据集中的各个源语言训练数据的目标特征，所述第一目标训练数据集为所述至少一个目标训练数据集中的第一个目标训练数据集；

将所述第一目标训练数据集中的各个源语言训练数据的目标特征输入第一数据筛选模型，得到所述第一目标训练数据集中的各个源语言训练数据的筛选结果；基于所述第一目标训练数据集中的各个源语言训练数据的筛选结果，确定所述第一目标训练数据集中的各个源语言训练数据的权重值；

基于所述第一目标训练数据集中的各个源语言训练数据的目标特征、筛选结果、权重值和第二目标训练数据集中的各个源语言训练数据的目标特征，生成与所述第一目标训练数据集中的各个源语言训练数据对应的候选数据，所述第二目标训练数据集为所述至少一个目标训练数据集中的所述第一目标训练数据集的下一个目标训练数据集；

选取目标数量的候选数据，基于所述目标数量的候选数据更新所述第一数据筛选模型的参数，得到更新后的第一数据筛选模型；

基于所述更新后的第一数据筛选模型返回将所述随机初始化的第一训练数据集划分为至少一个目标训练数据集的步骤进行迭代训练，直至满足第二训练终止条件，得到第二数据筛选模型；

基于所述第二数据筛选模型返回随机初始化第一训练数据集的步骤进行迭代训练，直至满足第一训练终止条件，得到所述目标数据筛选模型。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一目标训练数据集中的各个源语言训练数据的筛选结果，确定所述第一目标训练数据集中的各个源语言训练数据的权重值，包括：

对于所述第一目标训练数据集中的任一源语言训练数据，当所述任一源语言训练数据的筛选结果为第一结果时，将第一权重值作为所述任一源语言训练数据的权重值；

当所述任一源语言训练数据的筛选结果为第二结果时，将第二权重值作为所述任一源语言训练数据的权重值。

3.根据权利要求2所述的方法，其特征在于，所述当所述任一源语言训练数据的筛选结果为第一结果时，将第一权重值作为所述任一源语言训练数据的权重值之前，所述方法还包括：

获取与每个目标源语言训练数据对应的标注语言训练数据，所述目标源语言训练数据为筛选结果为第一结果的源语言训练数据；

将各个目标源语言训练数据和与所述各个目标源语言训练数据对应的各个标注语言训练数据作为训练数据添加至第二训练数据集中；

基于所述第二训练数据集对第一翻译模型进行训练，得到第二翻译模型；

基于所述第二翻译模型和所述第一翻译模型，获取所述第一权重值。

4.根据权利要求1-3任一所述的方法，其特征在于，所述获取第一目标训练数据集中的各个源语言训练数据的目标特征，包括：

对于所述第一目标训练数据集中的任一源语言训练数据，基于所述任一源语言训练数据中的各个子数据，获取所述任一源语言训练数据的第一特征；

基于所述任一源语言训练数据和第三翻译模型，获取所述任一源语言训练数据的第二特征；

基于所述第一特征和所述第二特征，获取所述任一源语言训练数据的目标特征。

5.根据权利要求4所述的方法，其特征在于，所述基于所述任一源语言训练数据中的各个子数据，获取所述任一源语言训练数据的第一特征，包括：

基于所述任一源语言训练数据中的各个子数据的词嵌入特征，获取所述任一源语言训练数据的第三特征；

基于所述任一源语言训练数据中的各个子数据和已有语料数据库的比对结果，获取所述任一源语言训练数据的第四特征；

基于所述任一源语言训练数据中的各个子数据，得到所述任一源语言训练数据的长度，基于所述任一源语言训练数据的长度获取所述任一源语言训练数据的第五特征；

基于所述第三特征、所述第四特征和所述第五特征，获取所述任一源语言训练数据的第一特征。

6.根据权利要求4所述的方法，其特征在于，所述基于所述任一源语言训练数据和第三翻译模型，获取所述任一源语言训练数据的第二特征，包括：

基于所述第三翻译模型，获取所述任一源语言训练数据的翻译数据，基于所述翻译数据的词嵌入特征，获取所述任一源语言训练数据的第六特征；

基于所述第三翻译模型，获取与所述任一源语言训练数据中的各个子数据对应的概率最大的各个翻译子数据，基于所述概率最大的各个翻译子数据的词嵌入特征，获取所述任一源语言训练数据的第七特征；

获取所述概率最大的各个翻译子数据的概率，基于所述概率最大的各个翻译子数据的概率和所述翻译数据的长度，获取所述任一源语言训练数据的第八特征；

基于所述第六特征、所述第七特征和所述第八特征，获取所述任一源语言训练数据的第二特征。

7.根据权利要求2所述的方法，其特征在于，所述基于所述第一目标训练数据集中的各个源语言训练数据的目标特征、筛选结果、权重值和第二目标训练数据集中的各个源语言训练数据的目标特征，生成与所述第一目标训练数据集中的各个源语言训练数据对应的候选数据，包括：

对于所述第一目标训练数据集中的任一源语言训练数据，当所述任一源语言训练数据的筛选结果为第一结果时，基于所述任一源语言训练数据的目标特征、第一结果、第一权重值和所述第二目标训练数据集中与所述任一源语言训练数据对应的源语言数据的目标特征，生成与所述任一源语言训练数据对应的第一候选数据；

8.根据权利要求7所述的方法，其特征在于，所述生成与所述第一目标训练数据集中的各个源语言训练数据对应的候选数据之后，所述方法还包括：

将所述第一候选数据添加至第一候选数据集中，将所述第二候选数据添加至第二候选数据集中；

所述选取目标数量的候选数据，包括：

在所述第一候选数据集和所述第二候选数据集中进行等比例选取，得到目标数量的候选数据。

9.根据权利要求1所述的方法，其特征在于，所述基于所述目标数量的候选数据更新所述第一数据筛选模型的参数，得到更新后的第一数据筛选模型，包括：

基于所述目标数量的候选数据更新与所述第一数据筛选模型对应的目标函数；

根据更新后的目标函数，计算与所述第一数据筛选模型对应的损失函数；

基于所述损失函数，更新所述第一数据筛选模型的参数，得到更新后的第一数据筛选模型。

10.根据权利要求1所述的方法，其特征在于，所述满足第二训练终止条件，包括：

所述第一训练数据集中不存在新的目标训练数据集；或者，

11.一种数据处理装置，其特征在于，所述装置包括：

第三获取模块，用于基于所述目标源语言数据和所述标注语言数据获取机器翻译模型；

所述装置还包括：初始化模块、第一训练模块和第二训练模块；

所述初始化模块，用于随机初始化第一训练数据集，所述第一训练数据集包括多个源语言训练数据；

所述第一训练模块包括：划分单元、获取单元、输入单元、确定单元、生成单元、选取单元、更新单元和训练单元；

所述划分单元，用于将所述随机初始化的第一训练数据集划分为至少一个目标训练数据集；

所述获取单元，用于获取第一目标训练数据集中的各个源语言训练数据的目标特征，所述第一目标训练数据集为所述至少一个目标训练数据集中的第一个目标训练数据集；

所述输入单元，用于将所述第一目标训练数据集中的各个源语言训练数据的目标特征输入第一数据筛选模型，得到所述第一目标训练数据集中的各个源语言训练数据的筛选结果；

所述确定单元，用于基于所述第一目标训练数据集中的各个源语言训练数据的筛选结果，确定所述第一目标训练数据集中的各个源语言训练数据的权重值；

所述生成单元，用于基于所述第一目标训练数据集中的各个源语言训练数据的目标特征、筛选结果、权重值和第二目标训练数据集中的各个源语言训练数据的目标特征，生成与所述第一目标训练数据集中的各个源语言训练数据对应的候选数据，所述第二目标训练数据集为所述至少一个目标训练数据集中的所述第一目标训练数据集的下一个目标训练数据集；

所述选取单元，用于选取目标数量的候选数据；

所述更新单元，用于基于所述目标数量的候选数据更新所述第一数据筛选模型的参数，得到更新后的第一数据筛选模型；

所述训练单元，用于基于所述更新后的第一数据筛选模型返回将所述随机初始化的第一训练数据集划分为至少一个目标训练数据集的步骤进行迭代训练，直至满足第二训练终止条件，得到第二数据筛选模型；

所述第二训练模块，用于基于所述第二数据筛选模型返回随机初始化第一训练数据集的步骤进行迭代训练，直至满足第一训练终止条件，得到所述目标数据筛选模型。

12.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如权利要求1至10任一所述的数据处理方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1至10任一所述的数据处理方法。