CN112132281B

CN112132281B - 一种基于人工智能的模型训练方法、装置、服务器及介质

Info

Publication number: CN112132281B
Application number: CN202011056921.1A
Authority: CN
Inventors: 王龙跃; 史树明; 涂兆鹏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2024-04-26
Anticipated expiration: 2040-09-29
Also published as: CN112132281A

Abstract

本申请实施例公开了一种基于人工智能的模型训练方法、装置、服务器及介质，其中方法包括：获取基于序列数据训练得到的包括多个模型参数的神经网络模型；在对多个模型参数中的第一模型参数进行裁剪后，对第二模型参数进行训练，第二模型参数为多个模型参数中除第一模型参数之外的模型参数；在对第二模型参数训练完成后，对第一模型参数进行训练，以恢复第一模型参数在神经网络模型中的数据处理能力，其中，在对第一模型参数训练完成后，得到序列到序列处理模型，序列到序列处理模型用于根据输入序列生成匹配的输出序列。通过实施上述方法，可以有效的提升模型参数的利用率，并且有助于提升序列到序列处理模型处理序列数据时的准确度。

Description

一种基于人工智能的模型训练方法、装置、服务器及介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种基于人工智能的模型训练方法、装置、服务器及介质。

背景技术

随着计算机技术的快速发展，人工智能技术在很多领域得到了应用，其中，人工智能技术中的深度神经网络的应用也越来越广泛，比如语音识别技术，计算机视觉技术，自然语言处理技术等领域，并且深度神经网络模型在多种任务中表现出色，特别是机器翻译任务。机器翻译中所利用的神经网络机器翻译(Neural Machine Translation，NMT)模型可以利用大量参数以具备足够的能力来拟合海量数据，但是过量的参数存在过参数化的问题。目前，为解决过参数化的问题，通常将对模型参数进行删除后增加一个继续训练阶段，这种方法虽然可以删除部分参数不造成性能损失。但是会导致参数的利用效率比较低，从而造成计算资源的浪费，也容易使模型陷入局部最优，而无法使模型达到最优性能。

发明内容

本申请实施例提供了一种基于人工智能的模型训练方法、装置、服务器及介质，可以有效的提升模型参数的利用率，并且有助于提升序列到序列处理模型处理序列数据时的准确度。

本申请实施例第一方面公开了一种基于人工智能的模型训练方法，所述方法包括：

获取神经网络模型，所述神经网络模型包括多个模型参数，所述神经网络模型是基于序列数据训练得到的；

在对所述多个模型参数中的第一模型参数进行裁剪后，对第二模型参数进行训练，所述第二模型参数为所述多个模型参数中除所述第一模型参数之外的模型参数；

在对所述第二模型参数训练完成后，对所述第一模型参数进行训练，以恢复所述第一模型参数在所述神经网络模型中的数据处理能力，其中，在对所述第一模型参数训练完成后，得到序列到序列处理模型，所述序列到序列处理模型用于根据输入序列生成匹配的输出序列。

本申请实施例第二方面公开了一种基于人工智能的模型训练装置，所述装置包括：

获取单元，用于获取神经网络模型，所述神经网络模型包括多个模型参数，所述神经网络模型是基于序列数据训练得到的；

第一训练单元，用于在对所述多个模型参数中的第一模型参数进行裁剪后，对第二模型参数进行训练，所述第二模型参数为所述多个模型参数中除所述第一模型参数之外的模型参数；

第二训练单元，用于在对所述第二模型参数训练完成后，对所述第一模型参数进行训练，以恢复所述第一模型参数在所述神经网络模型中的数据处理能力，其中，在对所述第一模型参数训练完成后，得到序列到序列处理模型，所述序列到序列处理模型用于根据输入序列生成匹配的输出序列。

本申请实施例第三方面公开了一种服务器，包括处理器、存储器和网络接口，所述处理器、存储器和网络接口相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述第一方面的方法。

本申请实施例第四方面公开了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。

本申请实施例第五方面公开了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机设备执行上述第一方面的方法。

在本申请实施例中，服务器可以获取基于序列数据训练得到的包括多个模型参数的神经网络模型，在对多个模型参数中的第一模型参数进行裁剪后，对第二模型参数进行训练，第二模型参数为多个模型参数中除第一模型参数之外的模型参数，在对第二模型参数训练完成后，进一步的，可以对第一模型参数进行训练，以恢复第一模型参数在神经网络模型中的数据处理能力，其中，在对第一模型参数训练完成后，得到序列到序列处理模型，序列到序列处理模型用于根据输入序列生成匹配的输出序列。通过实施上述方法，可以提升模型参数的利用率，有助于提升序列到序列处理模型处理序列数据时的准确度。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的一种RNN模型对离散序列建模的架构示意图；

图1b是本申请实施例提供的一种SAN模型对离散序列建模的架构示意图；

图1c是本申请实施例提供的一种基于神经网络的编码器-解码器的架构示意图；

图1d是本申请实施例提供的一种Transformer模型的架构示意图；

图2是本申请实施例提供的一种基于人工智能的模型训练方法的流程示意图；

图3a是本申请实施例提供的一种神经网络模型的架构示意图；

图3b是本申请实施例提供的一种进行裁剪后的神经网络模型的架构示意图；

图3c是本申请实施例提供的一种进行参数回春的神经网络模型的架构示意图；

图4是本申请实施例提供的另一种基于人工智能的模型训练方法的流程示意图；

图5a是本申请实施例提供的一种不同模型对不同翻译任务相对于基线模型的平均准确率的柱状图；

图5b是本申请实施例提供的一种对于四个训练阶段中的每个阶段在编码器表示的变化曲线；

图5c是本申请实施例提供的一种在不同模型下BLEU随裁剪比例变化的曲线图；

图6是本申请实施例提供的一种基于人工智能的模型训练装置的结构示意图；

图7是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请实施例提供的方案涉及人工智能的自然语言处理中的机器翻译等技术，具体通过如下实施例进行说明：

深度学习是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法，是一种模仿人脑的机制来解释数据的机器学习技术。而神经网络是一种模仿生物神经网络结构和功能的深度学习模型。神经网络可以包括循环神经网络(Recurrent Neural Network，RNN)，自关注神经网络(Self-Attention Network，SAN)，卷积神经网络(Convolutional Neural Network，CNN)。其中，RNN是一种将序列建模转变为时序建模的网络模型，例如图1a所示，RNN可以将状态在自身网络中循环传递；SAN是一种基于自关注机制的神经网络结构模型，例如图1b所示；CNN是一种由一个或多个卷积层和顶端的全连通层组成，同时也包括关联权重和池化层。

在一种实现方式中，以利用深度神经网络处理机器翻译任务为例，其中机器翻译中运用到深度神经网络以NMT模型为例，NMT模型可以是如图1c所示的包括基于神经网络的编码器-解码器框架，例如图1c所示，NMT模型可以包括编码器和解码器，从编码器输入一个输入序列，也就是待翻译句子，编码器的输出是一个语义向量序列，而解码器根据该语义向量序列得出一个输出序列，该输出序列就是上述待翻译句子对应的译文。具体的，可以是基于RNN的编码器-解码器框架的模型，例如RNNsearch模型，也可以是的基于CNN的编码器-解码器框架的模型，例如LightConv模型，也可以是基于SAN网络的编码器-解码器框架的模型，例如Transformer模型。其中，Transformer模型的架构示意图可以如图1d所示，如图1d所示，Transformer模型包括编码器和解码器，其中，编码器具体还可以包括自注意力机制和前向神经网络，解码器还可以包括遮蔽自注意力机制、自注意力机制和前向神经网络。自注意力机制是一种建模神经网络中编码器与解码器隐藏状态依赖关系的方法。以Transformer模型进行翻译任务为例，Transformer模型的学习目标是预测下一个位置的单词(token)是什么，这里可以使用遮蔽自注意力机制把当前时间步的右边的内容掩住，以确保学习的过程是自左向右，逐个单词地预测。假设目标序列为“我爱中国。”有四个token，当预测“爱”的时候，需要遮蔽“中国。”根据先行词“我”来预测，之后当预测“中国”的时候，需要遮蔽“。”而通过“我爱”来预测。

在一种实现方式中，在利用NMT模型解决翻译任务时，实际上就是在给定输入序列x＝x₁,...,x_I的情况下，直接优化输入序列对应的目标序列y＝y₁,...,y_J的条件概率：其中，θ是模型的参数，y₁,...,y_j-1是部分翻译上下文。概率P(y|x)定义了基于神经网络的编码器-解码器框架，其中该框架可以是基于RNN的编码器-解码器框架，或是基于CNN的编码器-解码器框架，或是基于SAN网络的编码器-解码器框架，在本申请中不做限定。模型的参数的训练过程就是最大化训练样本的似然(likelihood)：/>

在一种实现方式中，本申请实施中提供了一种基于人工智能的模型训练方法，服务可以获取包括多个模型参数的神经网络模型，该神经网络模型是基于序列数据训练得到的，在对多个模型参数中的第一模型参数进行裁剪后，对第二模型参数进行训练，该第二模型参数为多个模型参数中除第一模型参数之外的模型参数，在对第二模型参数训练完成后，进一步的，对第一模型参数进行训练，以恢复第一模型参数在神经网络模型中的数据处理能力，其中，在对第一模型参数训练完成后，得到序列到序列处理模型，该序列到序列处理模型可以用于根据输入序列生成匹配的输出序列。通过对神经网络模型中第一模型参数的裁剪，并对裁剪后的神经网络模型进行训练，然后将第一模型参数进行再次训练，可以有效的提升模型参数的利用率，并且有助于提升序列到序列处理模型处理序列数据时的准确度。

以下对本申请实施例的技术方案的实现细节进行详细阐述：

请参见图2，为本申请实施例提供的一种基于人工智能的模型训练方法的流程示意图。本实施例中所描述的基于人工智能的模型训练方法，包括以下步骤：

201：获取神经网络模型，神经网络模型包括多个模型参数，神经网络模型是基于序列数据训练得到的。

在一种实现方式中，服务器可以是神经网络模型，该神经网络模型可以是用来处理翻译、或者是问答、或者是文本摘要等问题的模型，例如可以是神经网络机器翻译(Neural Machine Translation，NMT)模型，具体的，可以是RNNsearch模型或LightConv模型或Transformer模型等等。神经网络模型可以包括多个模型参数，需要注意的是，该模型参数指的是神经网络模型中的连接权重。神经网络模型是基于序列数据训练得到的，例如图3a所示为基于序列数据训练后得到的神经网络模型的架构示意图。

202：在对多个模型参数中的第一模型参数进行裁剪后，对第二模型参数进行训练，第二模型参数为多个模型参数中除第一模型参数之外的模型参数。

在一种实现方式中，服务器可以对神经网络模型中包括的多个模型参数进行裁剪，得到裁剪后的神经网络模型，例如图3b所示为对神经网络模型进行裁剪后模型的架构示意图，而在对神经网络模型裁剪之后，继续对裁剪后的神经网络模型进行训练，也就是对神经网络模型中的第二模型参数进行训练，使得裁剪后的神经网络模型中的第二模型参数达到最优状态。其中，该第二模型参数为多个模型参数中除第一模型参数之外的模型参数，而不对神经网络模型中的第一模型参数进行训练，使神经网络模型进行训练时第一模型参数不参与梯度更新。

在一种实现方式中，服务器可以根据裁剪比例和模型参数的重要程度评价分数对神经网络模型中包括的多个模型参数进行裁剪，其中，裁剪比例可以是预设设定的，例如可以是40％，或是50％，模型参数的重要程度评价分数可以是模型参数对应的绝对值，当模型参数对应的绝对值越大，对应的模型参数的重要程度评价分数也就越高，对应的，当模型参数对应的绝对值越小，对应的模型参数的重要程度评价分数也就越低。具体的，服务器可以获取预先设定的裁剪比例和多个模型参数中每个模型参数的重要程度评价分数，并根据裁剪比例和每个模型参数的重要程度评价分数从多个模型参数中确定第一模型参数，将第一模型参数的权值连接设置为零，以实现第一模型参数的裁剪。重要程度评价分数可以是模型参数对应的绝对值。

在一种实现方式中，服务器在根据裁剪比例和每个模型参数的重要程度评价分数从多个模型参数中确定第一模型参数时，可以是根据全局裁剪策略确定第一模型参数，也可以是根据局部裁剪策略确定第一模型参数。其中，根据全局裁剪策略确定第一模型参数是指根据神经网络模型中所有的模型参数的重要程度评价分数的排序以及裁剪比例确定第一模型参数。具体的，服务器可以根据每个模型参数的重要程度评价分数对多个模型参数进行排序，然后根据裁剪比例和该多个模型参数的排序从多个模型参数中确定第一模型参数。而根据局部裁剪策略确定第一模型参数是指根据神经网络模型中每一个网络层包括的模型参数的重要程度评价分数的排序以及裁剪比例确定第一模型参数。具体的，服务器可以根据每个模型参数的重要程度评价分数对神经网络模型的每一个网络层包括的模型参数进行排序，然后根据裁剪比例和每一个网络层包括的模型参数进行排序，从每一个网络层包括的模型参数中确定第一模型参数。

举例来说，假设神经网络模型的模型参数包括10个，且预先设定的裁剪比例为40％，并根据模型参数的绝对值的大小对模型参数进行排序。如果是根据全局裁剪策略确定第一模型参数，则是将模型参数对应的绝对值的排序在后4位的模型参数被确定为第一模型参数，也就是要被裁剪的模型参数，而排序在前6位的模型参数被确定为第二模型参数。如果是根据局部裁剪策略确定第一模型参数，则是将每一个网络层的模型参数对应的绝对值的排序在后4位的模型参数被确定为第一模型参数，也就是要被裁剪的模型参数，而每一个网络层的模型参数对应的绝对值的排序在前6位的模型参数被确定为第二模型参数。其中，上述模型参数的裁剪可以是利用二进制遮蔽矩阵处理。例如，神经网络模型的模型参数有N个，且N个模型参数的权值矩阵为W，根据模型参数的绝对值对模型参数进行排序。具体的，根据模型参数对应的绝对值的大小确定每个模型参数的重要程度评价分数的排序，模型参数对应的绝对值绝对值越大，模型参数的重要程度评价分数的排序越高，相反的，模型参数对应的绝对值绝对值越小，模型参数的重要程度评价分数的排序越低。假设裁剪比例为a％，也就是a％的模型参数可以被裁剪，神经网络模型中保留n个模型参数。其中，n＝N*(1-a％)，则第一模型的参数个数为N-n，然后用二进制遮蔽矩阵(形状同W)来裁剪第一模型的参数，二进制遮蔽矩阵中的数值包括0和1。其中，二进制遮蔽矩阵中数值为1对应的位置就是神经网络模型中须保留的n个模型参数，也就是第二模型参数，对应的，二进制遮蔽矩阵中数值为0对应的位置就是神经网络模型中须裁剪的N-n个模型参数，也就是第一模型参数。

需要说明的是，上述模型参数的重要程度评价分数可以是模型参数对应的绝对值，也可以根据其他方式确定，在本申请中不做限定。

203：在对第二模型参数训练完成后，对第一模型参数进行训练，以恢复第一模型参数在神经网络模型中的数据处理能力，其中，在对第一模型参数训练完成后，得到序列到序列处理模型，序列到序列处理模型用于根据输入序列生成匹配的输出序列。

在一种实现方式中，在对神经网络多个模型参数中的第一模型参数进行裁剪，并对第二模型参数训练完成之后，也就是对裁剪后的神经网络模型训练完成之后，还可以将第一模型参数进行训练。在本申请中，可以将对第一模型参数进行训练称为参数回春，也就是对例如图3c所示的进行参数回春的神经网络模型进行训练，以恢复第一模型参数在神经网络模型中的数据处理能力，而在对第一模型参数训练完成后，可以得到序列到序列处理模型，该序列到序列处理模型可以用于根据输入序列生成匹配的输出序列。

在本申请实施例中，服务器可以获取神经网络模型，神经网络模型包括多个模型参数。神经网络模型是基于序列数据训练得到的，在对多个模型参数中的第一模型参数进行裁剪后，对第二模型参数进行训练。其中，第二模型参数为多个模型参数中除第一模型参数之外的模型参数。在对第二模型参数训练完成后，进一步的，对第一模型参数进行训练，以恢复第一模型参数在神经网络模型中的数据处理能力。其中，在对第一模型参数训练完成后，得到序列到序列处理模型，序列到序列处理模型可以用于根据输入序列生成匹配的输出序列。通过实施上述方法，可以提升模型参数的利用率，有助于提升序列到序列处理模型处理序列数据时的准确度。

请参见图4，为本申请实施例提供的另一种数据处理方法的流程示意图。本实施例中所描述的数据处理方法，包括以下步骤：

401：获取神经网络模型，神经网络模型包括多个模型参数，神经网络模型是基于序列数据训练得到的。

402：在对多个模型参数中的第一模型参数进行裁剪后，对第二模型参数进行训练，第二模型参数为多个模型参数中除第一模型参数之外的模型参数。

其中，步骤401和402的具体实施方式可以参见上述实施例步骤201和202的具体描述，此处不再赘述。

403：在对第二模型参数训练完成后，获取基线模型的参数。

在一种实现方式中，在对神经网络多个模型参数中的第一模型参数进行裁剪，并对第二模型参数训练完成后之后，服务器可以获取获取基线模型的参数。其中，基线模型可以是步骤401中的神经网络模型，则基线模型的参数可以是该神经网络模型中第一模型参数对应于基线模型中位置所在的参数。

404：利用基线模型的参数对第一模型参数进行初始化，得到初始化的第一模型参数。

在一种实现方式中，服务器在对第一模型参数进行训练之前，还需对第一模型参数进行初始化，而对第一模型参数进行初始化可以根据基线模型的参数，也就是将第一模型参数对应于基线模型中位置所在的参数作为初始化的第一模型参数。

在一种实现方式中，还可以利用0值对第一模型参数进行初始化，得到初始化的第一模型参数。也就是将第一模型参数初始化为0。

在一种实现方式中，考虑到在对第二模型参数训练之后，神经网络模型已经处于良好的局部最优状态，服务器除了对第一模型参数进行初始化，还可以对神经网络模型中的学习率进行降低处理，使得后续在训练例如图3c所示的神经网络模型时神经网络模型中的学习率降低。其中，学习率相比于对第二模型参数训练时的学习率低一个数量级。

405：对初始化的第一模型参数进行训练，以恢复第一模型参数在神经网络模型中的数据处理能力。

在一种实现方式中，服务器可以对初始化的第一模型参数进行训练，也就是对例如图3c所示的神经网络模型进行训练。其中，神经网络模型中的第一模型参数是根据基线模型的参数初始化。在对例如图3c所示的神经网络模型进行训练之后，就可以恢复第一模型参数在神经网络模型中的数据处理能力，而在对初始化的第一模型参数训练完成后，可以得到序列到序列处理模型，该序列到序列处理模型可以用于根据输入序列生成匹配的输出序列。

需要说明的是，在本申请中，将对神经网络模型中第一模型参数的裁剪称为网络裁剪，将对第一模型参数进行初始化，并训练的过程称为参数回春。

在本申请实施例中，服务器可以获取神经网络模型，神经网络模型包括多个模型参数，神经网络模型是基于序列数据训练得到的。在对多个模型参数中的第一模型参数进行裁剪后，对第二模型参数进行训练，第二模型参数为多个模型参数中除第一模型参数之外的模型参数。在对第二模型参数训练完成后，还可以获取基线模型的参数，并利用基线模型的参数对第一模型参数进行初始化，得到初始化的第一模型参数。进一步的，对初始化的第一模型参数进行训练，以恢复第一模型参数在神经网络模型中的数据处理能力。通过实施上述方法，可以提升模型参数的利用率，有助于提升序列到序列处理模型处理序列数据时的准确度。

在一种实现方式中，服务器还可以获取待处理的输入序列，将输入序列输入序列到序列处理模型，以得到与输入序列匹配的输出序列。例如利用该序列到序列处理模型进行翻译任务，翻译任务可以是将中文翻译成英文，则输入序列为中文，对应的输出序列就是该中文的译文，也可以其他不同语言的翻译。

在一种实现方式中，服务器还可以获取基线模型、连续训练模型和测试数据，利用基线模型、连续训练模型和序列到序列处理模型分别对测试数据进行处理，以得到各个模型的测试结果和优化方向的动态变化数据。根据各个模型的测试结果确定各个模型对应的平均准确率的提升数据，通过可视化的方式展示各个模型对应的平均准确率的提升数据和优化方向的动态变化数据。其中，连续训练模型指的是对基线模型再次训练后的模型。

在一种实现方式中，服务器可以可视化利用模型进行翻译任务，并得出相应的测试结果，根据各个模型的测试结果确定各个模型对应的平均准确率的提升数据。其中，翻译任务可以进一步化分为词汇任务、句法任务和语义任务三类。例如图5a表示的是不同模型对不同翻译任务相对于基线模型的平均准确率的柱状图。从图5a中可以看出，序列到序列处理模型的在不同翻译任务上相比于基线模型和连续训练模型的平均准确率要高，尤其是词汇任务。这表明了序列到序列处理模型可以提高翻译的充分性。例如表1表示的是从中-英任务中的测试集中随机选择的一个句子进行翻译任务的示例。从表1中可以看出，利用序列到序列处理模型进行翻译任务可以产生更流畅、更充分的翻译。例如，中文“奥运会”是被基线模型漏翻了，然而序列到序列处理模型可以正确地把“奥运会”翻译成“olympics”。这也证实了本申请中利用网络裁剪和参数回春确定的序列到序列处理模型可以通过增强理解词汇信息的能力提高了翻译的充分性。

表1：

在一种实现方式中，还可以可视化各个模型的优化方向的动态变化数据，具体的，可以通过TruncatedSVD降维技术，可视化源句在数据集中的表示，进一步的可视化各个模型中不同训练阶段的优化方向的动态变化数据。例如，针对翻译任务，可以将数据集中的所有需要翻译句子(比如1000个需要翻译句子)依次输入到Transformer模型的编码器。对于每个需要翻译句子，编码器的输出是一个512维的向量，那么1000个需要翻译句子就可以有1000个512维的向量。将这1000个512维的向量对应相加求平均，可以得到一个平均后的512维的向量，然后通过TruncatedSVD降维技术，使该从512维的向量降到2维的向量，根据该2维的向量可以得到图5b。其中，图5b表示的是对于四个训练阶段中的每个阶段在编码器表示的变化曲线。该编码器表示例如可以是上述的2维的向量，并且四个训练阶段会选择选择三个模型。图5b中“△”表示的基线模型的训练阶段，“”表示的连续训练模型中的继续训练阶段，“○”表示的序列到序列处理模型中网络裁剪的训练阶段，“□”表示的序列到序列处理模型中参数回春的训练阶段。从图5b中可以看出，在每一个训练阶段，编码器表示在方向和数量上都有平稳的变化，但是从基线模型的训练阶段到序列到序列处理模型中网络裁剪的训练阶段的变化非常明显。这说明本申请中利用网络裁剪和参数回春确定的序列到序列处理模型可以有效地改变优化方向，使模型脱离局部最优。

在一种实现方式中，服务器可以对神经网络模型中包含的多个模型参数进行裁剪后，再训练得到用于处理序列数据的模型。例如，可以处理翻译任务的模型。也可以是例如本申请提供的在进行裁剪后并训练之后，还进行参数回春，并进行训练得到序列到序列处理模型。为了比较这两种不同的模型对处理序列数据，例如翻译任务的影响，可以利用Transformer模型针对翻译任务进行测试。例如图5c所示为在不同模型下，BLEU随裁剪比例变化的曲线图。“BLEU”表示的是翻译评测指标，BLEU值越高表示翻译效果越好。从图5c中可以看出，无论是中-德翻译，还是中-英翻译，在对神经网络模型进行裁剪和参数回春处理的模型的翻译效果要比仅对神经网络模型进行裁剪的翻译效果好。

在一种实现方式中，考虑到在对多个模型参数中的第一模型参数进行裁剪时存在不同的裁剪策略，也就是网络裁剪可以例如是全局裁剪策略和局部裁剪策略，并且在对第一模型参数的初始化也可以包括不同的方式，也就是参数回春可以是例如根据基线模型的参数初始化第一模型参数和将根据0值初始化第一模型参数。也就是确定序列到序列处理模型可以包括四种不同的方法，一种是根据全局裁剪策略和根据基线模型的参数初始化第一模型参数确定序列到序列处理模型，一种是根据局部裁剪策略和根据基线模型的参数初始化第一模型参数确定序列到序列处理模型，一种是根据全局裁剪策略和根据0值初始化第一模型参数确定序列到序列处理模型，一种是根据局部裁剪策略和根据0值初始化第一模型参数确定序列到序列处理模型。为了确定最优的序列到序列处理模型，服务器还可以对上述四种确定序列到序列处理模型的不同方法进行训练和测试。以利用序列到序列处理模型处理翻译任务为例，且序列到序列处理模型的架构利用Transformer模型，可以得到如表2所示的关于上述四种确定序列到序列处理模型的不同方法的性能结果，表2中的“0”表示根据0值对第一模型参数初始化，“基线模型”表示根据基线模型的参数对第一模型参数初始化，“√”表示利用某种方法，“×”表示不利用某种方法。从表2中可以看出，当网络裁剪为根据局部裁剪策略确定第一模型参数，参数回春为根据基线模型的参数对第一模型参数初始化时，是序列到序列处理模型在处理翻译任务的最优配置。

表2：

在一种实现方式中，为了证明在本申请中利用网络裁剪和参数回春确定的序列到序列处理模型的有效性，还可以对序列到序列处理模型进行测试。模型中以序列到序列处理模型的架构利用Transformer模型为例，且测试数据为400万的WMT14英德(En-De)数据集。例如如表3中的第1-4行所示为Transformer模型中可训练参数数量大小为108.6M时的性能情况，且第1-4行分别表示基线模型、连续训练模型、序列到序列处理模型1和序列到序列处理模型2对应的模型性能，其中，Δ表示的是相对于基线模型的性能的增量。其中，序列到序列处理模型1表示的本申请提供的序列到序列处理模型，序列到序列处理模型2表示的本申请提供的在得到序列到序列处理模型中参数回春使用迭代式地参数回春的模型。从表3中可以看出，本申请提供的序列到序列处理模型比基线模型和连续训练模型的性能要好，如表中所示BLEU值。本申请提供的序列到序列处理模型比基线模型和连续训练模型的BLEU值要分别高0.58和0.38，且迭代式地参数回春可以进一步提升模型的性能，BLEU值达到了28.33，比基线模型的BLEU值高0.79。从表3中第1-4行可以清楚地证明在NMT模型训练中加入参数回春的好处。

在一种实现方式中，为了验证在NMT模型训练中加入参数回春的鲁棒性，还可以评估模型中可训练参数数量大小对应的模型的性能。如表3中第5-7行所示的基线模型、连续训练模型、序列到序列处理模型1中可训练参数数量大小为305.3M，相比于第1-4行所示的模型，可训练参数数量增加了196.7M。从表3中第5-7行可以看出，序列到序列处理模型1的性能要显著优于基础模型的性能，相比于基础模型的BLEU值，序列到序列处理模型1要高0.57，而连续训练模型相比于基础模型的BLEU值只能提高0.2，这这也证实了参数回春方法可以通过提高模型中参数的利用率问题来持续改进NMT模型的性能。从表3中还可以看出，模型中可训练参数大小数量越大，BLEU值越大，也就是说大数量的可训练参数对应的模型的性能比较好。

表3：

模型	可训练参数数量大小	BLEU	Δ
				基线模型	108.6M	27.54	—
连续训练模型	108.6M	27.74	+0.20
				序列到序列处理模型1	108.6M	28.12	+0.58
序列到序列处理模型2	108.6M	28.33	+0.79
				基线模型	305.3M	28.55	—
连续训练模型	305.3M	28.81	+0.26
				序列到序列处理模型1	305.3M	29.12	+0.57

在一种实现方式中，还可以根据不同语言对在本申请中利用网络裁剪和参数回春确定的序列到序列处理模型的性能进行测试，同时还涵盖了不同数量大小的数据集以及不同模型的测试结果。如表4所示，可以在2000万中-英、16万德-英和22万英-法三种语言对上不同模型进行测试。从表4中可以看出，在数据集为2000万中-英的情况下，也就是大数据集的情况下，连续训练模型相比于基线模型的BLEU高0.17，然而，序列到序列处理模型相比于基线模型的BLEU高0.42。在数据集为16万德-英和22万英-法的情况下，也就是小数据集的情况下，连续训练模型相比于基线模型不能进一步提高模型的性能，因为连续训练模型陷入了局部最优。然而，序列到序列处理模型相比于基线模型的BLEU高0.37和0.54，序列到序列处理模型可以跳出局部最优，带来了模型性能的改进。从表4中可以看出，与连续训练模型相比，在本申请中利用网络裁剪和参数回春确定的序列到序列处理模型在多种情况下可以显著地、逐步地提高模型的性能，比如翻译质量，而连续训练模型并没有或只有极小的提高模型的性能，这也再次证明了利用网络裁剪和参数回春确定的序列到序列处理模型的有效性。

表4：

在一种实现方式中，还可以根据在不同模型框架下对在本申请中利用网络裁剪和参数回春确定的序列到序列处理模型的性能进行测试，其中数据集是WMT14 En-De，模型处理的是翻译任务。如表5所示，模型框架可以包括Transformer、RNNSearch和LightConv，从表5中可以看出，在本申请中利用网络裁剪和参数回春确定的序列到序列处理模型相比于基线模型在上述三个架构中都可以实现了显著的改进。并且，对于RNNSearch的框架，连续训练模型并不能相比于基线模型进一步提高模型的性能，而序列到序列处理模型相比于基线模型得到了进一步的改进，这也证明了在本申请中利用网络裁剪和参数回春确定的序列到序列处理模型的有效性和普遍性。

表5：

请参见图6，为本申请实施例提供的一种基于人工智能的模型训练装置的结构示意图。本实施例中所描述的基于人工智能的模型训练装置，包括：

获取单元601，用于获取神经网络模型，所述神经网络模型包括多个模型参数，所述神经网络模型是基于序列数据训练得到的；

第一训练单元602，用于在对所述多个模型参数中的第一模型参数进行裁剪后，对第二模型参数进行训练，所述第二模型参数为所述多个模型参数中除所述第一模型参数之外的模型参数；

第二训练单元603，用于在对所述第二模型参数训练完成后，对所述第一模型参数进行训练，以恢复所述第一模型参数在所述神经网络模型中的数据处理能力，其中，在对所述第一模型参数训练完成后，得到序列到序列处理模型，所述序列到序列处理模型用于根据输入序列生成匹配的输出序列。

在一种实现方式中，所述装置还包括裁剪单元604，具体用于：

获取设定的裁剪比例和所述多个模型参数中每个模型参数的重要程度评价分数；

根据所述裁剪比例和所述每个模型参数的重要程度评价分数从所述多个模型参数中确定第一模型参数；

将所述第一模型参数的权值连接设置为零，以裁剪所述第一模型参数。

在一种实现方式中，所述裁剪单元604，具体用于：

根据所述每个模型参数的重要程度评价分数对所述多个模型参数进行排序；

根据所述裁剪比例和所述多个模型参数的排序从所述多个模型参数中确定第一模型参数。

在一种实现方式中，所述裁剪单元604，具体用于：

根据所述每个模型参数的重要程度评价分数对所述神经网络模型的每一个网络层包括的模型参数进行排序；

根据所述裁剪比例和所述每一个网络层包括的模型参数进行排序，从所述每一个网络层包括的模型参数中确定第一模型参数。

在一种实现方式中，所述第二训练单元603，具体用于：

在对所述第二模型参数训练完成后，获取基线模型的参数；

利用所述基线模型的参数对所述第一模型参数进行初始化，得到初始化的第一模型参数；

对所述初始化的第一模型参数进行训练，以恢复所述第一模型参数在所述神经网络模型中的数据处理能力。

在一种实现方式中，所述装置还包括可视化单元605，具体用于：

获取基线模型、连续训练模型和测试数据；

利用所述基线模型、所述连续训练模型和所述序列到序列处理模型分别对所述测试数据进行处理，以得到各个模型的测试结果和优化方向的动态变化数据；

根据所述各个模型的测试结果确定所述各个模型对应的平均准确率的提升数据；

通过可视化的方式展示所述各个模型对应的平均准确率的提升数据和所述优化方向的动态变化数据。

在一种实现方式中，所述装置还包括输入单元606，具体用于：

获取待处理的输入序列；

将所述输入序列输入所述序列到序列处理模型，以得到与所述输入序列匹配的输出序列。

在一种实现方式中，所述序列到序列处理模型包括神经网络机器翻译模型。

可以理解，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。本申请实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

请参见图7，为本申请实施例提供的一种服务器的结构示意图。本实施例中所描述的服务器，包括：处理器701、存储器702以及网络接口703。上述处理器701、存储器702以及网络接口703之间可以交互数据。

上述处理器701可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

上述存储器702可以包括只读存储器和随机存取存储器，并向处理器701提供程序指令和数据。存储器702的一部分还可以包括非易失性随机存取存储器。其中，所述处理器701调用所述程序指令时用于执行：

在一种实现方式中，所述处理器701，还用于：

在一种实现方式中，所述处理器701，具体用于：

在对所述第二模型参数训练完成后，获取基线模型的参数；

在一种实现方式中，所述处理器701，还用于：

获取基线模型、连续训练模型和测试数据；

在一种实现方式中，所述处理器701，还用于：

获取待处理的输入序列；

本申请实施例还提供了一种计算机存储介质，该计算机存储介质中存储有程序指令，所述程序执行时可包括如图2或者图4对应实施例中的基于人工智能的模型训练方法的部分或全部步骤。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random AccessMemory，RAM)、磁盘或光盘等。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法的实施例中所执行的步骤。

以上对本申请实施例所提供的一种基于人工智能的模型训练方法、装置、服务器及介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于人工智能的模型训练方法，其特征在于，所述方法包括：

获取神经网络模型，所述神经网络模型包括多个模型参数，所述神经网络模型是基于机器翻译任务的序列数据训练得到的；

在对所述第二模型参数训练完成后，对所述第一模型参数进行训练，以恢复所述第一模型参数在所述神经网络模型中的数据处理能力，其中，在对所述第一模型参数训练完成后，得到序列到序列处理模型，所述序列到序列处理模型包括神经网络机器翻译模型；

获取待处理的输入序列，所述输入序列包括待翻译句子；

将所述输入序列输入所述序列到序列处理模型，以得到与所述输入序列匹配的输出序列，所述输出序列包括所述待翻译句子对应的译文；

其中，所述在对所述第二模型参数训练完成后，对所述第一模型参数进行训练，以恢复所述第一模型参数在所述神经网络模型中的数据处理能力，包括：

在对所述第二模型参数训练完成后，获取基线模型的参数；其中，所述基线模型包括所述神经网络模型；

2.根据权利要求1所述的方法，其特征在于，所述在对所述多个模型参数中的第一模型参数进行裁剪后，对第二模型参数进行训练的步骤之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述裁剪比例和所述每个模型参数的重要程度评价分数从所述多个模型参数中确定第一模型参数，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述裁剪比例和所述每个模型参数的重要程度评价分数从所述多个模型参数中确定第一模型参数，包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取基线模型、连续训练模型和测试数据；

6.一种服务器，其特征在于，包括处理器、存储器和网络接口，所述处理器、存储器和网络接口相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1～5任一项所述的方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1～5任一项所述的方法。

8.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被计算机处理器执行时实现如权利要求1～5任一项所述的方法。