CN114676707A

CN114676707A - 一种多语言翻译模型的确定方法和相关装置

Info

Publication number: CN114676707A
Application number: CN202210283840.8A
Authority: CN
Inventors: 季佰军; 胡博杰; 鞠奇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2022-06-28

Abstract

本申请公开了一种多语言翻译模型的确定方法和相关装置，可应用于人工智能、自然语言处理、机器学习等各种场景。通过采样参数确定n个训练任务对应的翻译方向，并且基于对应的翻译方向对训练语料进行采样，获得n个样本集，n个样本集与n个训练任务一一对应，n个样本集包括的语料数量均相同且同一个样本集中的训练语料属于同一个翻译方向，可以避免忽略训练语料数量较少的翻译方向。将n个样本集中训练语料的源语种输入初始多语言翻译模型，根据对应的目标语种语料获得与n个样本集一一对应的n个损失函数，然后基于n个损失函数确定总损失函数，并根据该总损失函数训练初始多语言翻译模型，提升模型泛化程度，保证在不同翻译方向下的翻译精度。

Description

一种多语言翻译模型的确定方法和相关装置

技术领域

本申请涉及机器学习领域，特别是涉及一种多语言翻译模型的确定方法和相关装置。

背景技术

随着机器翻译技术的广泛应用，机器翻译逐渐扩展到多语言的机器翻译中。多语言的机器翻译是指同一个模型能够支持多种语言之间的翻译，从而可以满足用户对于多个翻译方向的需求。

而对于多语言的机器翻译模型(多语言翻译模型)的训练需要多个翻译方向的训练语料。通常情况下，多个翻译方向的训练语料的数量并不均衡，为了避免多语言翻译模型的训练过程中过度关注训练语料数量较多的翻译方向而忽略训练语料数量较少的翻译方向，影响训练精度，影响训练出的多语言翻译模型翻译的准确性。通常情况下，可以对于训练语料数量较少的翻译方向进行过采样以增加训练语料数量较少的翻译方向的占比，避免对于模型的精度造成影响。但是过采样可能影响该多语言翻译模型的训练时的空间占用。

因此，亟需一种精度较高的多语言翻译模型的确定方法。

发明内容

为了解决上述技术问题，本申请提供了一种多语言翻译模型的确定方法和相关装置，无需对于训练语料较少的翻译方向的训练语料进行过采样，降低模型的占用空间。

本申请实施例公开了如下技术方案：

一方面，本申请提供了一种多语言翻译模型的确定方法，所述方法包括：

获取包括N个翻译方向下的训练语料，所述训练语料包括所对应翻译方向的源语种语料和目标语种语料，N>1；

根据所述训练语料分别属于所述N个翻译方向下的语料数量，确定所述N个翻译方向分别对应的采样参数；

通过所述采样参数确定n个训练任务对应的翻译方向，并基于所对应翻译方向对所述训练语料进行采样，得到n个样本集，所述n个样本集与所述n个训练任务一一对应，所述n个样本集包括的语料数量相同，针对所述n个样本集中的目标样本集，所述目标样本集中的训练语料均属于所述目标样本集对应的翻译方向；

将所述n个样本集中训练语料的源语种语料输入初始多语言翻译模型，根据对应的所述目标语种语料得到n个损失函数，所述n个损失函数与所述n个样本集一一对应；

基于所述n个损失函数确定总损失函数，并根据所述总损失函数训练所述初始多语言翻译模型，得到用于所述N个翻译方向翻译的多语言翻译模型。

另一方面，本申请提供了一种多语言翻译模型的确定装置，所述装置包括：

获取模块，用于获取包括N个翻译方向下的训练语料，所述训练语料包括所对应翻译方向的源语种语料和目标语种语料，N>1；

确定模块，用于根据所述训练语料分别属于所述N个翻译方向下的语料数量，确定所述N个翻译方向分别对应的采样参数；

采样模块，用于通过所述采样参数确定n个训练任务对应的翻译方向，并基于所对应翻译方向对所述训练语料进行采样，得到n个样本集，所述n个样本集与所述n个训练任务一一对应，所述n个样本集包括的语料数量相同，针对所述n个样本集中的目标样本集，所述目标样本集中的训练语料均属于所述目标样本集对应的翻译方向；

训练模块，用于将所述n个样本集中训练语料的源语种语料输入初始多语言翻译模型，根据对应的所述目标语种语料得到n个损失函数，所述n个损失函数与所述n个样本集一一对应；

所述训练模块，还用于基于所述n个损失函数确定总损失函数，并根据所述总损失函数训练所述初始多语言翻译模型，得到用于所述N个翻译方向翻译的多语言翻译模型。

又一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行以上方面所述的方法。

又一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行以上方面所述的方法。

又一方面，本申请实施例提供了一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行以上方面所述的方法。

由上述技术方案可以看出，通过获取包括N个翻译方向下的训练语料，根据训练语料分别属于N个翻译方向下的语料数量，可以确定N个翻译方向分别对应的采样参数。通过该采样参数可以确定n个训练任务对应的翻译方向，并且基于对应的翻译方向对训练语料进行采样，可以获得n个样本集。由于n个样本集与n个训练任务一一对应，n个样本集包括的语料数量均相同且同一个样本集中的训练语料属于同一个翻译方向，使得当训练语料较少的翻译方向被确定与样本集对应的时，可以被采样到数量相对较多的训练语料用于训练，因此通过该n个样本集进行训练可以避免过度关注语料数量较多的方向而忽略训练语料数量较少的翻译方向。将n个样本集中训练语料的源语种输入初始多语言翻译模型，根据对应的目标语种语料获得与n个样本集一一对应的n个损失函数，然后基于n个损失函数确定总损失函数，并根据该总损失函数训练初始多语言翻译模型，使得通过多任务学习的方式，每次模型训练时涉及的训练语料的翻译方向相对较多，且每个翻译方向的训练语料数量不会太少，多样性的训练语料能够有效提升模型泛化程度，保证训练得到的多语言翻译模型在不同翻译方向下的翻译精度。而且无需对训练语料进行过采样，提高了存储资源的利用率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种多语言翻译模型的确定方法的场景图；

图2为本申请实施例提供的一种多语言翻译模型的确定方法的流程图；

图3为本申请实施例提供的一种多语言翻译模型的结构的示意图；

图4为本申请实施例提供的一种多语言翻译模型的训练过程示意图；

图5为本申请实施例提供的一种多语言翻译模型的训练装置的结构图；

图6为本申请实施例提供的一种终端设备的结构图；

图7为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

在对于多语言翻译模型的训练过程中，可能存在不同翻译方向的语料数量并不均衡的情况，导致根据该语料训练所获得的多语言翻译模型可能过度关注语料数量较多的翻译方向而忽略语料数量较少的翻译方向，影响多语言翻译模型的在不同翻译方向下的翻译能力，影响多语言翻译模型的翻译精度。

相关技术中，针对不同翻译方向的语料数量不均衡影响多语言翻译模型不同翻译方向的翻译能力这一问题，通常采用对语料数量较少的翻译方向的训练语料进行过采样，但是过采样会占用较大的存储空间，影响存储资源的利用率。

为此，本申请实施例提供了一种多语言翻译模型的确定方法，可以避免由于不同翻译方向语料数量不均衡对多语言翻译模型在不同翻译方向的翻译能力的影响。

本申请实施例所提供的多语言翻译模型的确定方法可以通过计算机设备实施，该计算机设备可以是终端设备或服务器，其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

本申请实施例可应用于各种场景，包括但不限于人工智能、自然语言处理、机器学习等。

可以理解的是，在本申请的具体实施方式中，所使用的训练语料中有可能会涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本申请实施例涉及人工智能(Artificial Intelligence,AI)，AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

本申请实施例提供的方案涉及人工智能的自然语言处理、机器学习等技术，例如通过自然语言处理实现对于训练语料的获取，通过机器学习实现多语言翻译等，其中：

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

图1示出了本申请实施例提供的多语言翻译模型确定场景的示意，其中，通过服务器100作为前述计算机设备为例进行说明。

具体地，服务器100获取N个翻译方向下的训练语料。N可以为大于1的整数，例如N为3，N个翻译方向包括翻译方向A、翻译方向B和翻译方向C。在一些可能的实现方式中，N可以为几百、几千等，其训练获得的多语言翻译模型可以提供几百、几千种语言之间的翻译。而N个翻译方向下的语料数量通常不均衡。例如，对于翻译方向为中译英下的语料数量可能较多，例如可能为百万条，而对于小语种之间的翻译，例如荷兰语译马来语的语料数量可能较少，例如仅存在几万条。

示例性地，翻译方向A下的训练语料有100000条，翻译方向B下的训练语料有200000条，翻译方向C下的训练语料有1000条，其中翻译方向B和翻译方向C下的训练语料数量差距较大。

服务器100根据N个翻译方向下的语料数量，确定N个翻译方向分别对应的采样参数。在一些可能的实现方式中，N个翻译方向下的采样参数(例如采样概率)与该翻译方向下的训练语料数量具有一定的关系。例如，翻译方向A下的采样概率可以为0.1，翻译方向B下的采样概率为0.2，翻译方向C下的采样概率可以为0.001。又例如，翻译方向A下的采样概率可以为0.1，翻译方向B下的采样概率为0.15，翻译方向C下的采样概率可以为0.05。

服务器100根据所确定的采样参数(即N个翻译方向下的采样概率)，可以确定n个训练任务对应的翻译方向。以翻译方向A下的采样概率为0.1，翻译方向B下的采样概率为0.15，翻译方向C下的采样概率可以为0.05，n个训练任务分别为：任务1、任务2和任务3为例，每个任务对应一个翻译方向。以任务1的翻译方向为翻译方向A的采样概率为0.1，翻译方向为翻译方向B的采样概率为0.15，翻译方向为翻译方向C的采样概率为0.05，采样获得3个任务，示例性地，任务1对应的翻译方向为A，任务2对应的翻译方向为A，任务3对应的翻译方向为C。

服务器100根据所确定的n个训练任务对应的翻译方向，对训练语料进行采样，得到n个样本集。例如，服务器根据所确定的任务1、任务3和任务3对应的翻译方向，对训练语料进行采样，获得3个样本集，任务1对应的样本集包括b条翻译方向A下的训练语料，任务2对应的样本集包括b条翻译方向A下的训练语料，任务3对应的样本集包括b条翻译方向C下的训练语料。3个样本集包括的语料数量均为b。

由于n个样本集分别对应n个任务，n个样本集所包括的语料数量均相同且同一个样本集中的训练语料属于同一个翻译方向，当语料数量较少的翻译方向被确定为与训练任务对应时，可以采样到数量相对较多的训练语料用于训练(例如任务3对应的翻译方向为翻译方向B)，因此通过n个样本集训练多语言翻译模型，可以避免多语言翻译模型过度关注语料数量较多的翻译方向而忽略语料数量较少的翻译方向。

在通过n个样本集，每个样本集包括b条训练语料，共n*b条训练语料进行模型训练时，可以将每个样本集中的源语种语料作为初始多语言翻译模型的输入，将该初始多语言翻译模型的输出与目标语种语料进行对比，获得损失函数。由于存在n个样本集，因此可以获得n个损失函数，服务器100基于n个损失函数确定总损失函数，根据总损失函数训练初始多语言翻译模型，通过多任务学习的方式，使每次模型训练时涉及的训练语料的翻译方向相对较多，且每个翻译方向的训练语料数量不会太少，通过多样性的训练语料提高模型的泛化程度，避免多语言翻译模型忽略语料数量较少的翻译方向，保证多语言翻译模型在不同翻译方向的翻译能力。并且无需对训练语料进行过采样，提高了存储资源的利用率。

图2为本申请实施例提供的一种多语言翻译模型的确定方法的流程图，在本实施例中，以服务器100作为前述计算机设备进行说明。该方法包括以下步骤：

S202：服务器获取包括N个翻译方向下的训练语料。

其中，N>1，N可以为大于1的任意整数。在一些可能的实现方式中，服务器100可以获取几千个翻译方向下的训练语料。

训练语料包括对应翻译方向下的源语种语料和目标语种语料。例如，翻译方向为中文译英文(中译英)，对应的源语种为中文，目标语种为英文，翻译方向为中译英下的训练语料包括中文语料和英文语料。翻译方向为英文译中文(英译中)，对应的源语种为英文，目标语种为中文，翻译方向为英译中下的训练语料包括英文语料和中文语料。其中，中译英和英译中的中文语料和英文语料可以相同，但是为不同的翻译方向。

在一些情况下，很多语种由于使用人数较少，因此对应的训练语料数量较少。例如N个翻译方向中包括中译英、英译中、中文译日文、中文译韩文以及荷兰语译马来语等。其中中译英的训练语料数量远大于荷兰语译马来语的训练语料数量。示例性地，中译英对应10000000条训练语料，荷兰语译马来语对应100000条训练语料，其中中译英对应的训练语料数量与荷兰语译马来语对应的训练语料数量差值为9900000条。其中，一条语料可以为一个单词，也可以为一个句子，或者多个有关联关系的句子等。

在一些可能的实现方式中，可以设置预设第一阈值(预设差值阈值)，例如预设差值阈值可以为9000000，当N个翻译方向中任意两个翻译方向下的语料数量差值的最大值大于预设差值阈值时，可以通过本方案所提供的多语言翻译模型的确定方法对多语言翻译模型进行训练。例如，中译英对应的训练语料数量与荷兰语译马来语对应的训练语料数量差值为9900000条，该差值大于预设差值阈值，可以通过本方案所提供的方法对多语言翻译模型进行训练，避免多语言翻译模型因为训练语料数量不均衡而忽略训练语料数量较少的翻译方向。

或者，也可以设置预设第二阈值，例如预设第二阈值可以为90％，当N个翻译方向中任意两个翻译方向下的语料数量比例(语料数量少的翻译方向的语料数量/语料数量多的翻译方向的语料数量)的最大值大于预设第二阈值时，可以通过本方案所提供的多语言翻译模型的确定方法对多语言翻译模型进行训练。例如，中译英对应的训练语料数量与荷兰语译马来语对应的训练语料数量比例为99％，该比例大于预设第二阈值，可以通过本方案所提供的方法对多语言翻译模型进行训练。

其中，训练语料中的源语种语料和目标语种语料可以为平行语料，也可以为不平行语料。平行语料(Parallel Texts)是指使用不同语言撰写、相互间具有翻译关系的文本。示例性地，当训练语料中源语种语料和目标语种语料为平行语料时，源语种语料为“你好”，目标语种语料为“hello”。

S204：服务器根据训练语料分别属于N个翻译方向下的语料数量，确定N个翻译方向分别对应的采样参数。

由于不同翻译方向下的语料数量不均衡，可以通过调节因子调节比例，以提高语料数量较少的翻译方向下训练语料的采样率。其中，语料数量较少的翻译方向可以通过该翻译方向的语料数量在总语料数量中的占比低于预设第三阈值(预设比例阈值)确定。该翻译方向的语料数量在总语料数量中的占比可以通过公式(1)确定。

其中，P_i表示该翻译方向的语料数量在总语料数量中的占比，D_i表示该翻译方向的语料数量，∑_jD_j表示所有方向的语料数量。

在一些可能的实现方式中，可以将语料数量在总语料数量中占比低于预设第三阈值(预设比例阈值)的翻译方向定义为目标翻译方向。例如，预设第三阈值可以为0.01％，当P_i小于0.01％时，调节因子可以提高目标翻译方向下训练语料的采样率。

具体地，目标翻译方向下训练语料通过调节因子调节后的采样概率P_i′可以通过公式(2)确定。

其中，P′_i表示目标翻译方向下训练语料的采样概率，α表示调节因子。α可以根据需要设置为小于1的正数。α越小，P′_i越大，即越倾向于目标翻译方向。因此，调节因子用于提高目标翻译方向下训练语料的采样率。

如此，服务器100可以根据训练语料分别属于N个翻译方向下的语料数量D_i，确定N个翻译方向分别对应的采样参数P_i′。

S206：服务器通过采样参数确定n个训练任务对应的翻译方向，并基于对应翻译方向对训练语料进行采样，得到n个样本集。

n个训练任务是指用于训练多语言翻译模型的训练任务。其中，n可以为10。需要说明的是，本说明书中的表述区分大小写，N表示翻译方向，n表示训练任务。

多语言翻译，又称多语言神经网络机器翻译(Multilingual Neural MachineTranslation，MNMT)，是指能够通过一个多语言翻译模型实现多种语言之间翻译的技术。

具体地，服务器100可以确定训练任务的数量n，然后通过采样参数确定n个训练任务对应的翻译方向，其中每一个训练任务对应一个翻译方向，多个训练任务可以对应同一个翻译方向。如图1所示，翻译方向A的采样概率为0.1，翻译方向B的采样概率为0.15，翻译方向C的采样概率为0.05，服务器100根据该采样参数确定3个训练任务对应的翻译方向，3个训练任务对应的翻译方向可以分别为：翻译方向A、翻译方向A和翻译方向C。

服务器100基于n个训练任务对应的翻译方向对训练语料进行采样，获得n个样本集。其中，n个样本集与n个训练任务一一对应，n个样本集包括的语料数量相同。针对n个样本集中的目标样本集，目标样本集中的训练语料均属于目标样本集对应的翻译方向。

示例性地，每个样本集中可以包括b条训练语料，服务器100基于所确定的n个训练任务对应的翻译方向，采样获得n个样本集，其中每个样本集包括b条训练语料，如此n个训练任务的样本集数量相同，可以避免由于训练语料不均衡导致多语言翻译模型对不同翻译方向的翻译能力的影响。

样本集所包括的语料数量b不受不同翻译方向下的语料数量的限制。例如可以大于语料数量最少的翻译方向对应的语料数量，也可以等于语料数量最少的翻译方向对应的语料数量，或者可以大于语料数量最少的翻译方向对应的语料数量。当b大于语料数量最少的翻译方向对应的语料数量时，当采样该翻译方向的训练语料时，可以对于该训练语料进行重采样以获得b条训练语料。尽管对于该翻译方向的训练语料进行重采样，但是由于同时仅包括n个训练任务，因此同样占用较少的内存空间。

为了保证训练速度和计算梯度的准确性，在模型的训练过程中会将训练语料打包，即将训练语料合批(batch)化，从而提高模型的并行性。本实施例中，一个batch中包括一个样本集中所包括的训练语料，例如包括b条训练语料。

其中，样本集所包括的语料数量可以根据训练该多语言翻译模型的设备的缓存确定。相关技术中，一个batch中包括多个翻译方向的训练语料，因此训练时需要同时对模型的多个翻译方向的翻译能力进行训练。而本方案中，一个batch中包括一个方向的训练语料，可以通过多次训练对模型多个方向的翻译能力进行训练。例如，以训练该多语言翻译模型的设备为服务器100为例，该服务器100的可用缓存为m，对n个翻译方向进行训练，每个翻译方向具有b条训练数据。在相关技术中，服务器的可用缓存m需要支持n个翻译方向b条训练数据的同时训练，而本方案中，服务器的可用缓存m仅需要支持一个翻译方向的b条训练数据的训练即可。

如此，通过本方案所提供的方法，可以将训练的占用空间变为1/n，在语料数量相同的情况下，有效减少对于设备缓存的占用，在设备缓存固定的情况下，可以支持更多数量的训练语料。

S208：服务器将n个样本集中训练语料的源语种语料输入初始多语言翻译模型，根据对应的目标语种语料得到n个损失函数。

服务器100可以通过多任务学习，将n个样本集中训练语料的源语种语料输入初始多语言翻译模型，然后将该初始多语言翻译模型的输出与对应的目标语料进行对比，获得n个损失函数。将每个训练任务作为多任务学习中的单个任务。

多任务学习(Multi-task learning，MTL)是将多个相关的任务放在一起学习的学习方法。在本实施例中，可以将每个n个训练任务在学习中可以共享所学习到的信息，能够提升模型的泛化程度。

在对模型进行训练的过程中，通常分为前向传播(forward propagation)和反向传播两个过程。前向传播是指训练数据从输入层开始，经过隐藏层，到达输出层的过程。反向传播又称误差反向传播，允许来自损失函数的信息通过网络向后流动，以便进行梯度更新。反向传播通常与最优化方法相结合，例如梯度下降法。反向传播可以分为梯度计算和梯度更新，通常情况下，在梯度计算完成后，会利用计算完的梯度对模型的参数进行更新。

具体地，如图3所示，服务器100将n个样本集中训练语料的源语种语料输入初始多语言翻译模型中，通过前向传播计算每个样本集的对数似然损失。第i个样本集的对数似然损失Lⁱ可以通过公式(3)确定。

其中，θ表示初始多语言翻译模型的参数，

表示输入变量即训练语料，

表示输出变量。

在本实施例中，可以将每个翻译方向的训练视为一项训练任务，该训练任务对应的翻译方向是根据N个翻译方向对应的采样概率所确定的，通过多任务学习每次采样n个训练任务进行联合训练，从而提高多语言翻译模型的泛化程度。

S210：服务器基于n个损失函数确定总损失函数，并根据总损失函数训练该初始多语言翻译模型，得到用于N个翻译方向翻译的多语言翻译模型。

在前向传播完成后，服务器100可以通过反向传播(Backpropagation，BP)进行梯度计算，从而确定损失函数。

梯度用于表示函数在该点处的方向导数沿该方向取得最大值，即函数在该点沿该方向变化最快，变化率最大。沿着梯度的方向，可以更容易找到函数的最大值，因此可以通过梯度下降的方法获得最小化的损失函数，从而对模型的参数进行优化。通过梯度下降的方法，可以较快的获取到损失函数，较快获取到模型的参数。

在一些可能的实现方式中，考虑运算速率，可以采用Pytorch将梯度计算与梯度更新进行分离，在多个训练任务的梯度计算完成后再进行梯度更新。

具体地，如图4所示，服务器100可以根据N个翻译方向下的训练语料数量计算N各翻译方向分别对应的采样概率P′(L)，然后根据该概率采样n个训练任务，从n个训练任务分别对应的训练语料中采样获得n个batch的训练语料，其中每个batch包括b条训练语料。通过前向传播计算每个训练任务对应的对数似然损失，在前向传播完成后，进行后向传播的梯度计算。服务器100可以根据n个损失函数分别计算每个样本集对应的梯度

等所有训练任务的梯度计算完成后，累加所有的梯度以进行梯度更新。累加后的梯度

可以通过公式(4)获得。

其中，

表示第i个训练任务的梯度。更新的参数θ可以通过公式(5)确定。

这种在n个训练任务的梯度计算完成之后，再通过n个训练任务的梯度之和更新模型参数的方法相当于将n*b条训练数据送入初始多语言训练模型进行前向传播和反向传播。

该方法可以通过以下伪代码实现：

Input：NMT Modelθ,Translation direction

Training Corpus

//输入：多语言翻译模型参数θ，翻译方向

训练数据

Output：NMT Modelθ//输出：多语言翻译模型参数θ。

1.Calculate the sampling probabilityP′(L_i)for the translationdirection L_i//计算翻译方向L_i的采样概率P′(L_i)

2.whileθis not converged//当θ不收敛时，进入以下while循环：

3.Sample a set of n points{L_i}ⁿ from the prior distribution P′(L_i)//从先验分布P′(L_i)中抽取一组n个点的集合{L_i}ⁿ

4.for L_i in T://如果L_i在T之内，进入以下for循环：

5.do forward propagation and calculate the gradient

//进行正向传播并计算梯度

6.end for//结束该for循环

7.calculate the total gradient:

//计算总梯度

8.update the parameters by the total gradient//根据总梯度更新参数

9.end while//结束该while循环

该多语言翻译模型的确定方法，通过输入多语言翻译模型的初始参数、翻译方向以及训练数据，可以对该多语言翻译模型进行训练，获取训练后的模型参数，训练后的模型能够实现多个翻译方向的翻译，并且不会因为训练数据中不同翻译方向的语料数量差距较大而过多关注语料数量较多的翻译方向的情况。具体地，首先根据翻译方向与训练数据，计算每个翻译方向的采样概率，从训练语料中抽取n个训练任务，每个训练任务对应一个翻译方向，通过正向传播n个训练任务分别对应的梯度，当所有梯度计算完成后计算总梯度，然后根据总梯度更新模型参数，实现对于模型的训练。

该训练方法，可以满足训练数据来自多个翻译方向，并且每次模型训练时涉及的训练语料的翻译方向相对较多，且每个翻译方向的训练语料数量不会太少，多样性的训练语料能够有效提升模型泛化程度，保证训练得到的多语言翻译模型在不同翻译方向下的翻译精度。并且在硬件层面上，该方法并不增加对磁盘的占用。

在前述图1-图4所对应实施例的基础上，图5为一种多语言翻译模型的确定装置的装置结构图，所述多语言翻译模型的确定装置500包括获取模块502、确定模块504、采样模块506和训练模块508；

获取模块502，用于获取包括N个翻译方向下的训练语料，所述训练语料包括所对应翻译方向的源语种语料和目标语种语料，N>1；

确定模块504，用于根据所述训练语料分别属于所述N个翻译方向下的语料数量，确定所述N个翻译方向分别对应的采样参数；

采样模块506，用于通过所述采样参数确定n个训练任务对应的翻译方向，并基于所对应翻译方向对所述训练语料进行采样，得到n个样本集，所述n个样本集与所述n个训练任务一一对应，所述n个样本集包括的语料数量相同，针对所述n个样本集中的目标样本集，所述目标样本集中的训练语料均属于所述目标样本集对应的翻译方向；

训练模块508，用于将所述n个样本集中训练语料的源语种语料输入初始多语言翻译模型，根据对应的所述目标语种语料得到n个损失函数，所述n个损失函数与所述n个样本集一一对应；

所述训练模块508，还用于基于所述n个损失函数确定总损失函数，并根据所述总损失函数训练所述初始多语言翻译模型，得到用于所述N个翻译方向翻译的多语言翻译模型。

在一种可能的实现方式中，所述训练模块508具体用于：

基于所述n个损失函数确定所述n个样本集对应的n个梯度；

根据所述n个梯度确定总损失函数，并根据所述总损失函数训练所述初始多语言翻译模型，得到用于所述N个翻译方向的多语言翻译模型。

在一种可能的实现方式中，所述训练模块508具体用于：

通过在所述初始多语言翻译模型中反向传播所述n个损失函数，确定所述n个样本集对应的n个梯度。

在一种可能的实现方式中，所述样本集所包括的语料数量是根据训练所述多语言翻译模型的设备缓存确定的。

在一种可能的实现方式中，所述N个翻译方向中任意两个翻译方向下的语料数量差值的最大值大于预设差值阈值。

在一种可能的实现方式中，所述确定模块504具体用于：

根据所述训练语料分别属于所述N个翻译方向下的语料数量，通过调节因子确定所述N个翻译方向分别对应的采样参数，所述调节因子用于提高目标翻译方向下训练语料的采样率，所述目标翻译方向为语料数量在总语料数量中占比低于预设比例阈值的翻译方向。

由此可见，通过获取包括N个翻译方向下的训练语料，根据训练语料分别属于N个翻译方向下的语料数量，可以确定N个翻译方向分别对应的采样参数。通过该采样参数可以确定n个训练任务对应的翻译方向，并且基于对应的翻译方向对训练语料进行采样，可以获得n个样本集。由于n个样本集与n个训练任务一一对应，n个样本集包括的语料数量均相同且同一个样本集中的训练语料属于同一个翻译方向，使得当训练语料较少的翻译方向被确定与样本集对应的时，可以被采样到数量相对较多的训练语料用于训练，因此通过该n个样本集进行训练可以避免过度关注语料数量较多的方向而忽略训练语料数量较少的翻译方向。将n个样本集中训练语料的源语种输入初始多语言翻译模型，根据对应的目标语种语料获得与n个样本集一一对应的n个损失函数，然后基于n个损失函数确定总损失函数，并根据该总损失函数训练初始多语言翻译模型，使得通过多任务学习的方式，每次模型训练时涉及的训练语料的翻译方向相对较多，且每个翻译方向的训练语料数量不会太少，多样性的训练语料能够有效提升模型泛化程度，保证训练得到的多语言翻译模型在不同翻译方向下的翻译精度。而且无需对训练语料进行过采样，提高了存储资源的利用率。

本申请实施例还提供了一种计算机设备，该计算机设备为前述介绍的计算机设备，可以包括终端设备或服务器，前述的多语言翻译模型的确定装置可以配置在该计算机设备中。下面结合附图对该计算机设备进行介绍。

若该计算机设备为终端设备，请参见图6所示，本申请实施例提供了一种终端设备，以终端设备为手机为例：

图6示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图6，手机包括：射频(Radio Frequency，简称RF)电路1410、存储器1420、输入单元1430、显示单元1440、传感器1450、音频电路1460、无线保真(Wireless Fidelity，简称WiFi)模块1470、处理器1480、以及电源1490等部件。本领域技术人员可以理解，图6中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图6对手机的各个构成部件进行具体的介绍：

RF电路1410可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1480处理；另外，将设计上行的数据发送给基站。通常，RF电路1410包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，简称LNA)、双工器等。此外，RF电路1410还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，简称GSM)、通用分组无线服务(GeneralPacket Radio Service，简称GPRS)、码分多址(Code Division Multiple Access，简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access，简称WCDMA)、长期演进(Long Term Evolution，简称LTE)、电子邮件、短消息服务(Short Messaging Service，简称SMS)等。

存储器1420可用于存储软件程序以及模块，处理器1480通过运行存储在存储器1420的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1430可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1430可包括触控面板1431以及其他输入设备1432。触控面板1431，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1431上或在触控面板1431附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1431可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1480，并能接收处理器1480发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1431。除了触控面板1431，输入单元1430还可以包括其他输入设备1432。具体地，其他输入设备1432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1440可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1440可包括显示面板1441，可选的，可以采用液晶显示器(LiquidCrystal Display，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板1441。进一步的，触控面板1431可覆盖显示面板1441，当触控面板1431检测到在其上或附近的触摸操作后，传送给处理器1480以确定触摸事件的类型，随后处理器1480根据触摸事件的类型在显示面板1441上提供相应的视觉输出。虽然在图7中，触控面板1431与显示面板1441是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1431与显示面板1441集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1450，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1441的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1441和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1460、扬声器1461，传声器1462可提供用户与手机之间的音频接口。音频电路1460可将接收到的音频数据转换后的电信号，传输到扬声器1461，由扬声器1461转换为声音信号输出；另一方面，传声器1462将收集的声音信号转换为电信号，由音频电路1460接收后转换为音频数据，再将音频数据输出处理器1480处理后，经RF电路1410以发送给比如另一手机，或者将音频数据输出至存储器1420以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图7示出了WiFi模块1470，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1480是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1420内的软件程序和/或模块，以及调用存储在存储器1420内的数据，执行手机的各种功能和处理数据。可选的，处理器1480可包括一个或多个处理单元；优选的，处理器1480可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1480中。

手机还包括给各个部件供电的电源1490(比如电池)，优选的，电源可以通过电源管理系统与处理器1480逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本实施例中，该终端设备所包括的处理器1480还具有以下功能：

若计算机设备为服务器，本申请实施例还提供一种服务器，请参见图7所示，图7为本申请实施例提供的服务器1500的结构图，服务器1500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，简称CPU)1522(例如，一个或一个以上处理器)和存储器1532，一个或一个以上存储应用程序1542或数据1544的存储介质1530(例如一个或一个以上海量存储设备)。其中，存储器1532和存储介质1530可以是短暂存储或持久存储。存储在存储介质1530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1522可以设置为与存储介质1530通信，在服务器1500上执行存储介质1530中的一系列指令操作。

服务器1500还可以包括一个或一个以上电源1526，一个或一个以上有线或无线网络接口1550，一个或一个以上输入输出接口1558，和/或，一个或一个以上操作系统1541，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于图7所示的服务器结构。

另外，本申请实施例还提供了一种存储介质，所述存储介质用于存储计算机程序，所述计算机程序用于执行上述实施例提供的方法。

本申请实施例还提供了一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例提供的方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器(英文：Read-only Memory，缩写：ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。而且本申请在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种多语言翻译模型的确定方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述n个损失函数确定总损失函数，并根据所述总损失函数训练所述初始多语言翻译模型，得到用于所述N个翻译方向的多语言翻译模型，包括：

基于所述n个损失函数确定所述n个样本集对应的n个梯度；

3.根据权利要求2所述的方法，其特征在于，所述基于所述n个损失函数确定所述n个样本集对应的n个梯度，包括：

4.根据权利要求1所述的方法，其特征在于，所述样本集所包括的语料数量是根据训练所述多语言翻译模型的设备缓存确定的。

5.根据权利要求1所述的方法，其特征在于，所述N个翻译方向中任意两个翻译方向下的语料数量差值的最大值大于预设差值阈值。

6.根据权利要求1所述的方法，其特征在于，所述根据所述训练语料分别属于所述N个翻译方向下的语料数量，确定所述N个翻译方向分别对应的采样参数，包括：

7.一种多语言翻译模型的确定装置，其特征在于，所述装置包括：

8.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-6中任意一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-6中任意一项所述的方法。

10.一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行权利要求1-6任意一项所述的方法。