CN111062489A

CN111062489A - 一种基于知识蒸馏的多语言模型压缩方法、装置

Info

Publication number: CN111062489A
Application number: CN201911272179.5A
Authority: CN
Inventors: 杨焱麒
Original assignee: Beijing Know Smart Information Technology Co Ltd
Current assignee: Beijing Knownsec Information Technology Co Ltd
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2020-04-24
Anticipated expiration: 2039-12-11
Also published as: CN111062489B

Abstract

本申请提供一种基于知识蒸馏的多语言模型压缩方法、装置，电子设备及存储介质，属于机器学习技术领域。该方法包括：将训练好的N个不同语言的语言模型作为教师模型；通过知识蒸馏算法，利用所述教师模型对学生模型进行训练；其中，所述学生模型的词表中包含所有所述教师模型中的词表。在本申请实施例中，将训练好的N个不同语言的语言模型作为教师模型，通过知识蒸馏算法，利用教师模型对学生模型进行训练，使得最终训练获得的学生模型与现有技术中的多语言模型相比，模型参数少，简化了模型的结构，且在模型参数较少的情况下，还能保证模型的性能、效果。

Description

一种基于知识蒸馏的多语言模型压缩方法、装置

技术领域

本申请涉及机器学习技术领域，具体而言，涉及一种基于知识蒸馏的多语言模型压缩方法、装置，电子设备及存储介质。

背景技术

近年来，基于语言模型的动态词向量训练模型在NLP(Natural LanguageProcessing，自然语言处理)任务中有很好的表现。当某些场景需要多种语言时，需要利用多语言模型，目前训练多语言模型有两种方式，第一种，准备多种语言的大量语料，构成一个大词表，让模型在一次训练过程中去学习多种语言的语义表征。第二种，在给定一种已经训练好某种语言的模型下，动态加入新语言的词表，将词表映射到隐藏层的权重矩阵中，保留原来模型的权重矩阵，添加新词表对应的权重矩阵，并初始化新词表对应的权重矩阵，训练过程则是利用新语言的语料进行语言模型的训练。但是采用上述的两种方式，均会增加待训练模型的模型参数，进而增加待训练模型的模型结构。此外，采用第一种方式，由于模型在一次训练中需要同时训练多种语言，导致训练耗时较长，且由于模型容量带来的泛化能力上限，利用多种语言训练后的模型针对某一种语言效果一般不如利用单一语言训练的模型。

发明内容

本申请实施例的目的在于提供一种基于知识蒸馏的多语言模型压缩方法、装置，电子设备及存储介质，以改善上述“模型结构复杂，模型参数过多”的问题。

本发明是这样实现的：

第一方面，本申请实施例提供一种基于知识蒸馏的多语言模型压缩方法，所述方法包括：将训练好的N个不同语言的语言模型作为教师模型；通过知识蒸馏算法，利用所述教师模型对学生模型进行训练；其中，所述学生模型的词表中包含所有所述教师模型中的词表。

在本申请中，将训练好的N个不同语言的语言模型作为教师模型，通过知识蒸馏算法，利用教师模型对学生模型进行训练，使得最终训练获得的学生模型与现有技术中的多语言模型相比，模型参数少，简化了模型的结构，且在模型参数较少的情况下，还能保证模型的性能、效果。此外，相比与现有技术中模型在一次训练中需要同时训练多种语言，本申请中通过知识蒸馏算法训练学生模型的方式耗时较短。

结合上述第一方面提供的技术方案，在一些可能的实现方式中，所述通过知识蒸馏算法，利用所述教师模型对学生模型进行训练，包括：获取N个所述教师模型的N个第一输出值，以及获取所述学生模型的第二输出值；分别获取所述N个第一输出值中每一个元素的归一化概率以及所述第二输出值中每一个元素的归一化概率；根据N个第一输出值中每一个元素的归一化概率以及所述第二输出值中每一个元素的归一化概率，获取每个所述教师模型与所述学生模型的分布相似度，并基于每个所述教师模型与所述学生模型的分布相似度获取每个所述教师模型与所述学生模型的注意力向量；根据每个所述教师模型与所述学生模型的注意力向量计算损失函数；通过所述损失函数对所述学生模型的参数进行更新。

在本申请中，通过获取N个教师模型的N个第一输出值，以及获取学生模型的第二输出值；分别获取N个第一输出值中每一个元素的归一化概率以及第二输出值中每一个元素的归一化概率；根据N个第一输出值中每一个元素的归一化概率以及第二输出值中每一个元素的归一化概率，获取每个教师模型与学生模型的分布相似度，并基于每个教师模型与学生模型的分布相似度获取每个教师模型与学生模型的注意力向量；根据每个教师模型与学生模型的注意力向量计算损失函数；最后通过损失函数对所述学生模型的参数进行更新，进而完成模型的训练。与现有技术相比，简化了模型的结构，且在模型参数较少的情况下，还能保证模型的性能、效果。此外，将每个教师模型与学生模型的注意力向量作为权重向量，更容易获取与学生模型输入语言的种类更相似的语言模型，提高对多语言学习的灵活性，更有利于学生模型学习到训练语句所对应的教师模型的信息。

结合上述第一方面提供的技术方案，在一些可能的实现方式中，在所述获取N个所述教师模型的N个第一输出值，以及获取所述学生模型的第二输出值之后，所述方法还包括：基于所述N个第一输出值的分布长度以及所述第二输出值的分布长度，对所述第一输出值以及第二输出值做填充处理，以使每个所述第一输出值与所述第二输出值的分布长度一致。

结合上述第一方面提供的技术方案，在一些可能的实现方式中，所述根据N个第一输出值中每一个元素的归一化概率以及所述第二输出值中每一个元素的归一化概率，获取每个所述教师模型与所述学生模型的分布相似度，包括：根据N个第一输出值中每一个元素的归一化概率以及所述第二输出值中每一个元素的归一化概率，通过负KL散度计算每个所述教师模型与所述学生模型的分布相似度。

结合上述第一方面提供的技术方案，在一些可能的实现方式中，所述负KL散度的计算公式为：

其中，所述S_i表示第i个所述教师模型与所述学生模型的分布相似度，p_i表示第i个所述教师模型的分布向量，p_ik表示第i个所述教师模型的分布向量中第k个元素的归一化概率；q表示所述学生模型的分布向量；q_k表示所述学生模型的分布向量中第k个元素的归一化概率；k表示第k个元素，m表示总的元素的个数。

结合上述第一方面提供的技术方案，在一些可能的实现方式中，所述损失函数的计算公式为：

Loss＝KLDivLoss(p_i||q)·ATT^T；其中，Loss表示所述损失函数，ATT^T表示注意力向量的转置矩阵。

第二方面，本申请实施例提供一种基于知识蒸馏的多语言模型压缩装置，所述装置包括：准备模块，用于将训练好的N个不同语言的语言模型作为教师模型；训练模块，用于通过知识蒸馏算法，利用所述教师模型对学生模型进行训练；其中，所述学生模型的词表中包含所有所述教师模型中的词表。

结合上述第二方面提供的技术方案，在一些可能的实现方式中，所述训练模块还用于获取N个所述教师模型的N个第一输出值，获取所述学生模型的第二输出值；以及用于分别获取所述N个第一输出值中每一个元素的归一化概率以及所述第二输出值中每一个元素的归一化概率；根据N个第一输出值中每一个元素的归一化概率以及所述第二输出值中每一个元素的归一化概率，获取每个所述教师模型与所述学生模型的分布相似度，并基于每个所述教师模型与所述学生模型的分布相似度获取每个所述教师模型与所述学生模型的注意力向量；根据每个所述教师模型与所述学生模型的注意力向量计算损失函数；通过所述损失函数对所述学生模型的参数进行更新。

第三方面，本申请实施例提供一种电子设备，包括：处理器和存储器，所述处理器和所述存储器连接；所述存储器用于存储程序；所述处理器用于调用存储在所述存储器中的程序，执行如上述第一方面实施例和/或结合上述第一方面实施例的一些可能的实现方式提供的方法。

第四方面，本申请实施例提供一种存储介质，其上存储有计算机程序，所述计算机程序在被处理器运行时执行如上述第一方面实施例和/或结合上述第一方面实施例的一些可能的实现方式提供的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种电子设备的结构示意图。

图2为本申请实施例提供的一种基于知识蒸馏的多语言模型压缩方法的步骤流程图。

图3为本步骤S102的子步骤流程图。

图4为本申请实施例提供的模型选择注意力模块、教师模型以及学生模型的示意图。

图5为本申请实施例提供的一种基于知识蒸馏的多语言模型压缩装置的模块框图。

图标：100-电子设备；110-处理器；111-存储器；112-通信总线；200-基于知识蒸馏的多语言模型压缩装置；210-准备模块；220-训练模块。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

目前训练多语言模型有两种方式，第一种，准备多种语言的大量语料，构成一个大词表，让模型在一次训练过程中去学习多种语言的语义表征。第二种，在给定一种已经训练好某种语言的模型下，动态加入新语言的词表，将词表映射到隐藏层的权重矩阵中，保留原来模型的权重矩阵，添加新词表对应的权重矩阵，并初始化新词表对应的权重矩阵，训练过程则是利用新语言的语料进行语言模型的训练。但是采用上述的两种方式，均会增加待训练模型的模型参数，进而增加待训练模型的模型结构。此外，采用第一种方式，由于模型在一次训练中需要同时训练多种语言，导致训练耗时较长，且由于模型容量带来的泛化能力上限，利用多种语言训练后的模型针对某一种语言效果一般不如利用单一语言训练的模型。

鉴于上述问题，本申请发明人经过研究探索，提出以下实施例以解决上述问题。

请参阅图1，图1为本申请实施例提供的一种电子设备100的结构示意图。本申请实施例中，电子设备100可以是，但不限于电脑、智能手机、平板电脑、个人数字助理(PersonalDigital Assistant，PAD)、移动上网设备(Mobile Internet Device，MID)等。

在结构上，电子设备100包括至少一个处理器110，至少一个存储器111和至少一个通信总线112。其中，通信总线112用于实现处理器110、存储器111之间的通信。基于知识蒸馏的多语言模型压缩装置包括至少一个可以通过软件或固件的形式存储于存储器111中或固化在电子设备100的操作系统(Operating System，OS)中的软件模块。处理器110用于将训练好的N个不同语言的语言模型作为教师模型；通过知识蒸馏算法，利用所述教师模型对学生模型进行训练。

其中，处理器110可以是一种集成电路芯片，具有信号处理能力。处理器110也可以是通用处理器，例如，可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、分立门或晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。此外，通用处理器可以是微处理器或者任何常规处理器等。

存储器111可以是，但不限于，随机存取存储器(Random Access Memory，RAM)、只读存储器(Read Only Memory，ROM)、可编程只读存储器(Programmable Read-OnlyMemory，PROM)、可擦可编程序只读存储器(Erasable Programmable Read-Only Memory，EPROM)，以及电可擦编程只读存储器(Electric Erasable Programmable Read-OnlyMemory，EEPROM)。存储器111用于存储程序，处理器110在接收到执行指令后，执行该程序。

应当理解，图1所示的结构仅为示意，本申请实施例提供的电子设备100还可以具有比图1更少或更多的组件，或是具有与图1所示不同的配置。此外，图1所示的各组件可以通过软件、硬件或其组合实现。

请参阅图2，本申请实施例提供一种基于知识蒸馏的多语言模型压缩方法。该方法应用于图1所示出的电子设备100中。下面，结合图2对该方法的具体流程及步骤进行描述。该方法包括：步骤S101-步骤S102。

步骤S101：将训练好的N个不同语言的语言模型作为教师模型。

步骤S102：通过知识蒸馏算法，利用教师模型对学生模型进行训练。

需要解释的是，知识蒸馏是一种网络模型压缩方法，通过构建教师模型-学生模型框架，由教师模型指导学生模型的训练，将模型结构复杂，参数量大的教师模型所学到的关于特征表示的“知识”蒸馏出来，将这些“知识”迁移到模型结构简单，参数量少，学习能力弱的学生模型中。通过知识蒸馏的方式能够在不增加学生模型的复杂度的情况下，提升模型的性能。

因此，于本申请实施例中，将训练好的N个不同语言的语言模型作为教师模型，通过知识蒸馏算法，利用教师模型对学生模型进行训练，使得最终训练获得的学生模型与现有技术中的多语言模型相比，模型参数少，简化了模型的结构，且在模型参数较少的情况下，还能保证模型的性能、效果。此外，相比与现有技术中模型在一次训练中需要同时训练多种语言，本申请中通过知识蒸馏算法训练学生模型的方式耗时较短。

下面对上述步骤S101进行具体说明。

首先，需要准备已经训练好的N个不同语言的语言模型，其中N大于等于2，然后将训练好的N个不同语言的语言模型作为教师模型。教师模型为预测模式，预测模式表示冻结教师模型的模型参数，即训练过程汇总，教师模型的模型参数不会被修改。此时，还需要准备学生模型，学生模型中的词表中包含了所以教师模型中的词表。学生模型为训练模式，学生模型中的模型参数在训练过程中可以被修改。

于本申请实施例中，上述的教师模型以及学生模型均为bert预训练模型。需要解释的是，bert预训练模型是Transformer模型中的编码器模块。而Transformer模型是一种基于编码器解码结构和多头注意力机制的模型。

下面对上述步骤S102进行具体说明。

请参阅图3，于本申请实施例中，上述步骤S102通过知识蒸馏算法，利用所述教师模型对学生模型进行训练包括：步骤S201-步骤S205。

步骤S201：获取N个教师模型的N个第一输出值，以及获取学生模型的第二输出值。

首先，需要获取N个教师模型的N个第一输出值logits t_i，i∈(1，n)，以及学生模型的第二输出值logits s。其中，logits表示的是模型输出一层所输出的输出值，一般来说所输出的为一个向量，每一向量都对应有分布长度。

在本申请实施例中，由于后续步骤中获取每个教师模型与学生模型的分布相似度，要求教师模型与学生模型的分布长度相同，因此，在获取到N个教师模型的N个第一输出值logits t_i，以及学生模型的第二输出值logits s后，该方法，还包括：基于N个第一输出值logits t_i的分布长度以及第二输出值logits s的分布长度，对第一输出值logits t_i以及第二输出值logits s做填充处理(padding处理)，以使每个第一输出值logits t_i与第二输出值logits s的分布长度一致。下面举例进行说明，比如学生模型中输出的logits s包含5000个元素，教师模型1输出的logits包括2000个元素，教师模型2输出的logits包括2000个元素，教师模型3输出的logits包括1000个元素。则需要通过对每个教师模型进行padding处理，以使每个教师模型输出的logits为5000。需要说明的是，padding处理需要按照教师模型的顺序进行，也即根据教师模型与学生模型的对应关系进行。比如padding处理的教师模型1输出的logits为[x，x，0，0，···0，0，0]，其中最前面的2个x表示教师模型1输出的logits包括2000个元素，后面的0为padding处理所填充的3000个元素；又比如padding处理的教师模型2输出的logits为[0，0，y，y，···0，0，0]，其中，中间的2个y表示教师模型2输出的logits包括2000个元素，两个y前面的0以及两个y后面的0为padding处理所填充的3000个元素；又比如padding处理的教师模型3输出的logits为[0，0，0，0，···0，z，z]，其中，最后面的2个z表示教师模型3输出的logits包括1000个元素，两个z前面的0为padding处理所填充的4000个元素。

步骤S202：分别获取N个第一输出值中每一个元素的归一化概率以及第二输出值中每一个元素的归一化概率。

于本申请实施例中，对每一个logits，通过softmax计算得到归一化概率。

具体的，对每个logits t_i中(logits t_i表示第i个教师模型输出的logits)，第k元素的概率P_ik为：

其中，T为可调节的超参数(当T→0，p_i近似于one-hot向量，当T→+∞，p_i为均匀分布，在训练中，T大于1可以提高分布的置信度，其中，p_i＝[p_i1,p_i2,p_i3,…p_ik,…])，在本申请训练过程中T＝2，exp表示e的次方，比如exp(x)表示e^x；t_ik表示第i个教师模型输出的logits中的第k个元素，

表示在第i个教师模型输出的logits的分布长度中所有元素的求和。

可以理解的是，采用相同的计算公式可以求得logits s，第k个元素的概率q_k为：

其中，t_ik表示学生模型输出的logits中的第k个元素，

表示在学生模型输出的logits的分布长度中所有元素的求和。

步骤S203：根据N个第一输出值中每一个元素的归一化概率以及第二输出值中每一个元素的归一化概率，获取每个教师模型与学生模型的分布相似度，并基于每个教师模型与学生模型的分布相似度获取每个教师模型与学生模型的注意力向量。

根据N个第一输出值中每一个元素的归一化概率以及第二输出值的归一化概率获取第i个教师模型的分布p_i以及学生模型的分布q，其中，第i个教师模型的分布p_i＝[p_i1,p_i2,p_i3,…p_ik,…]，q＝[q₁,q₂,q₃,…q_k,…]。p_i与q均为向量。

然后根据第i个教师模型的分布p_i以及学生模型的分布q获取每个教师模型与学生模型的分布相似度。

于本申请实施例中，是通过负KL(kullback-Leibler)散度计算每个教师模型与学生模型的分布相似度S_i。其中，S_i越大则说明分布相似度越高。

具体的，S_i的计算公式为：

其中，S_i表示第i个教师模型与学生模型的分布相似度，p_i表示第i个教师模型的分布向量，p_ik表示第i个教师模型的分布向量中第k个元素的归一化概率；q表示学生模型的分布向量；q_k表示学生模型的分布向量中第k个元素的归一化概率；k表示第k个元素，m表示总的元素的个数。

可以理解的是，在其他实施例中，还可以通过其他的方式计算每个教师模型与学生模型的分布相似度S_i，比如通过JS(Jensen-Shannon divergence)散度计算每个教师模型与学生模型的分布相似度S_i，对此，本申请不作限定。

然后，再根据每个教师模型与学生模型的分布相似度获取每个教师模型与学生模型的注意力向量Att_i。

具体的，Att_i的计算公式为：

其中，S_j表示第j个教师模型与学生模型的分布相似度，n表示教师模型的总数。

需要说明的是，上述步骤S203由模型选择注意力模块(MSA，Model SelectAttention)执行。请参阅图4，本申请提出一种模型选择注意力模块，多个教师模型(比如图中示出的教师模型1、教师模型2、教师模型3)输出的logits会和student输出的logits输入到模型选择注意力模块。通过模型选择注意力模块计算得到每个教师模型与学生模型的注意力向量Att_i。

步骤S204：根据每个教师模型与学生模型的注意力向量计算损失函数。

其中，损失函数的计算公式为：

Loss＝KLDivLoss(p_i||q)·ATT^T；

其中，Loss表示损失函数，ATT^T表示注意力向量的转置矩阵。上述公式可以理解为将步骤S203中计算出的注意力向量Att作为权重向量和KLDivLoss(p_i||q)逐项相乘再相加，求得Loss。

于本申请实施例中，将每个教师模型与学生模型的注意力向量作为权重向量，更容易获取与学生模型输入语言的种类更相似的语言模型，提高对多语言学习的灵活性，更有利于学生模型学习到训练语句所对应的教师模型的信息。

步骤S205：通过损失函数对学生模型的参数进行更新。

需要说的是，学生模型与教师模型的相似度越高，损失函数Loss越小，本申请实施例利用机器学习过程中，通过梯度下降优化方法和反向传播修改学生模型的参数，使损失函数Loss不断下降。当损失函数Loss下降至收敛后完成训练，收敛意味着学生模型已经很难学习到有用的信息了。

在对学生模型训练完成后，即可通过该学生模型处理多种语言的输入。

综上所述，在本申请实施例中，通过获取N个教师模型的N个第一输出值，以及获取学生模型的第二输出值；分别获取N个第一输出值中每一个元素的归一化概率以及第二输出值中每一个元素的归一化概率；根据N个第一输出值中每一个元素的归一化概率以及第二输出值中每一个元素的归一化概率，获取每个教师模型与学生模型的分布相似度，并基于每个教师模型与学生模型的分布相似度获取每个教师模型与学生模型的注意力向量；根据每个教师模型与学生模型的注意力向量计算损失函数；最后通过损失函数对所述学生模型的参数进行更新，进而完成模型的训练。与现有技术相比，简化了模型的结构，且在模型参数较少的情况下，还能保证模型的性能、效果。此外，将每个教师模型与学生模型的注意力向量作为权重向量，更容易获取与学生模型输入语言的种类更相似的语言模型，提高对多语言学习的灵活性，更有利于学生模型学习到训练语句所对应的教师模型的信息。

请参阅图5，基于同一发明构思，本申请实施例中还提供一种基于知识蒸馏的多语言模型压缩装置200，包括：准备模块210和训练模块220。

准备模块210，用于将训练好的N个不同语言的语言模型作为教师模型。

训练模块220，用于通过知识蒸馏算法，利用所述教师模型对学生模型进行训练；其中，所述学生模型的词表中包含所有所述教师模型中的词表。

可选地，训练模块220还用于获取N个所述教师模型的N个第一输出值，获取所述学生模型的第二输出值；以及用于分别获取所述N个第一输出值中每一个元素的归一化概率以及所述第二输出值中每一个元素的归一化概率；根据N个第一输出值中每一个元素的归一化概率以及所述第二输出值中每一个元素的归一化概率，获取每个所述教师模型与所述学生模型的分布相似度，并基于每个所述教师模型与所述学生模型的分布相似度获取每个所述教师模型与所述学生模型的注意力向量；根据每个所述教师模型与所述学生模型的注意力向量计算损失函数；通过所述损失函数对所述学生模型的参数进行更新。

需要说明的是，上述为方法对应装置的实施例，装置与方法的内容相同，为了避免累赘，在此不作过多的阐述。

基于同一发明构思，本申请实施例还提供一种存储介质，其上存储有计算机程序，计算机程序在被运行时执行上述实施例中提供的方法。

该存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于知识蒸馏的多语言模型压缩方法，其特征在于，所述方法包括：

将训练好的N个不同语言的语言模型作为教师模型；

通过知识蒸馏算法，利用所述教师模型对学生模型进行训练；其中，所述学生模型的词表中包含所有所述教师模型中的词表。

2.根据权利要求1所述的方法，其特征在于，所述通过知识蒸馏算法，利用所述教师模型对学生模型进行训练，包括：

获取N个所述教师模型的N个第一输出值，以及获取所述学生模型的第二输出值；

分别获取所述N个第一输出值中每一个元素的归一化概率以及所述第二输出值中每一个元素的归一化概率；

根据N个第一输出值中每一个元素的归一化概率以及所述第二输出值中每一个元素的归一化概率，获取每个所述教师模型与所述学生模型的分布相似度，并基于每个所述教师模型与所述学生模型的分布相似度获取每个所述教师模型与所述学生模型的注意力向量；

根据每个所述教师模型与所述学生模型的注意力向量计算损失函数；

通过所述损失函数对所述学生模型的参数进行更新。

3.根据权利要求2所述的方法，其特征在于，在所述获取N个所述教师模型的N个第一输出值，以及获取所述学生模型的第二输出值之后，所述方法还包括：

基于所述N个第一输出值的分布长度以及所述第二输出值的分布长度，对所述第一输出值以及第二输出值做填充处理，以使每个所述第一输出值与所述第二输出值的分布长度一致。

4.根据权利要求3所述的方法，其特征在于，所述根据N个第一输出值中每一个元素的归一化概率以及所述第二输出值中每一个元素的归一化概率，获取每个所述教师模型与所述学生模型的分布相似度，包括：

根据N个第一输出值中每一个元素的归一化概率以及所述第二输出值中每一个元素的归一化概率，通过负KL散度计算每个所述教师模型与所述学生模型的分布相似度。

5.根据权利要求4所述的方法，其特征在于，所述负KL散度的计算公式为：

6.根据权利要求5所述的方法，其特征在于，所述损失函数的计算公式为：

Loss＝KLDivLoss(p_i||q)·ATT^T；

其中，Loss表示所述损失函数，ATT^T表示注意力向量的转置矩阵。

7.一种基于知识蒸馏的多语言模型压缩装置，其特征在于，所述装置包括：

准备模块，用于将训练好的N个不同语言的语言模型作为教师模型；

训练模块，用于通过知识蒸馏算法，利用所述教师模型对学生模型进行训练；其中，所述学生模型的词表中包含所有所述教师模型中的词表。

8.根据权利要求7所述的装置，其特征在于，所述训练模块还用于获取N个所述教师模型的N个第一输出值，获取所述学生模型的第二输出值；以及用于分别获取所述N个第一输出值中每一个元素的归一化概率以及所述第二输出值中每一个元素的归一化概率；根据N个第一输出值中每一个元素的归一化概率以及所述第二输出值中每一个元素的归一化概率，获取每个所述教师模型与所述学生模型的分布相似度，并基于每个所述教师模型与所述学生模型的分布相似度获取每个所述教师模型与所述学生模型的注意力向量；根据每个所述教师模型与所述学生模型的注意力向量计算损失函数；通过所述损失函数对所述学生模型的参数进行更新。

9.一种电子设备，其特征在于，包括：处理器和存储器，所述处理器和所述存储器连接；

所述存储器用于存储程序；

所述处理器用于运行存储在所述存储器中的程序，执行如权利要求1-6中任一项所述的方法。

10.一种存储介质，其特征在于，其上存储有计算机程序，所述计算机程序在被计算机运行时执行如权利要求1-6中任一项所述的方法。