CN111062489A - 一种基于知识蒸馏的多语言模型压缩方法、装置 - Google Patents

一种基于知识蒸馏的多语言模型压缩方法、装置 Download PDF

Info

Publication number
CN111062489A
CN111062489A CN201911272179.5A CN201911272179A CN111062489A CN 111062489 A CN111062489 A CN 111062489A CN 201911272179 A CN201911272179 A CN 201911272179A CN 111062489 A CN111062489 A CN 111062489A
Authority
CN
China
Prior art keywords
model
teacher
student
output values
models
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911272179.5A
Other languages
English (en)
Other versions
CN111062489B (zh
Inventor
杨焱麒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Knownsec Information Technology Co Ltd
Original Assignee
Beijing Know Smart Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Know Smart Information Technology Co Ltd filed Critical Beijing Know Smart Information Technology Co Ltd
Priority to CN201911272179.5A priority Critical patent/CN111062489B/zh
Publication of CN111062489A publication Critical patent/CN111062489A/zh
Application granted granted Critical
Publication of CN111062489B publication Critical patent/CN111062489B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种基于知识蒸馏的多语言模型压缩方法、装置,电子设备及存储介质,属于机器学习技术领域。该方法包括:将训练好的N个不同语言的语言模型作为教师模型;通过知识蒸馏算法,利用所述教师模型对学生模型进行训练;其中,所述学生模型的词表中包含所有所述教师模型中的词表。在本申请实施例中,将训练好的N个不同语言的语言模型作为教师模型,通过知识蒸馏算法,利用教师模型对学生模型进行训练,使得最终训练获得的学生模型与现有技术中的多语言模型相比,模型参数少,简化了模型的结构,且在模型参数较少的情况下,还能保证模型的性能、效果。

Description

一种基于知识蒸馏的多语言模型压缩方法、装置
技术领域
本申请涉及机器学习技术领域,具体而言,涉及一种基于知识蒸馏的多语言模型压缩方法、装置,电子设备及存储介质。
背景技术
近年来,基于语言模型的动态词向量训练模型在NLP(Natural LanguageProcessing,自然语言处理)任务中有很好的表现。当某些场景需要多种语言时,需要利用多语言模型,目前训练多语言模型有两种方式,第一种,准备多种语言的大量语料,构成一个大词表,让模型在一次训练过程中去学习多种语言的语义表征。第二种,在给定一种已经训练好某种语言的模型下,动态加入新语言的词表,将词表映射到隐藏层的权重矩阵中,保留原来模型的权重矩阵,添加新词表对应的权重矩阵,并初始化新词表对应的权重矩阵,训练过程则是利用新语言的语料进行语言模型的训练。但是采用上述的两种方式,均会增加待训练模型的模型参数,进而增加待训练模型的模型结构。此外,采用第一种方式,由于模型在一次训练中需要同时训练多种语言,导致训练耗时较长,且由于模型容量带来的泛化能力上限,利用多种语言训练后的模型针对某一种语言效果一般不如利用单一语言训练的模型。
发明内容
本申请实施例的目的在于提供一种基于知识蒸馏的多语言模型压缩方法、装置,电子设备及存储介质,以改善上述“模型结构复杂,模型参数过多”的问题。
本发明是这样实现的:
第一方面,本申请实施例提供一种基于知识蒸馏的多语言模型压缩方法,所述方法包括:将训练好的N个不同语言的语言模型作为教师模型;通过知识蒸馏算法,利用所述教师模型对学生模型进行训练;其中,所述学生模型的词表中包含所有所述教师模型中的词表。
在本申请中,将训练好的N个不同语言的语言模型作为教师模型,通过知识蒸馏算法,利用教师模型对学生模型进行训练,使得最终训练获得的学生模型与现有技术中的多语言模型相比,模型参数少,简化了模型的结构,且在模型参数较少的情况下,还能保证模型的性能、效果。此外,相比与现有技术中模型在一次训练中需要同时训练多种语言,本申请中通过知识蒸馏算法训练学生模型的方式耗时较短。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,所述通过知识蒸馏算法,利用所述教师模型对学生模型进行训练,包括:获取N个所述教师模型的N个第一输出值,以及获取所述学生模型的第二输出值;分别获取所述N个第一输出值中每一个元素的归一化概率以及所述第二输出值中每一个元素的归一化概率;根据N个第一输出值中每一个元素的归一化概率以及所述第二输出值中每一个元素的归一化概率,获取每个所述教师模型与所述学生模型的分布相似度,并基于每个所述教师模型与所述学生模型的分布相似度获取每个所述教师模型与所述学生模型的注意力向量;根据每个所述教师模型与所述学生模型的注意力向量计算损失函数;通过所述损失函数对所述学生模型的参数进行更新。
在本申请中,通过获取N个教师模型的N个第一输出值,以及获取学生模型的第二输出值;分别获取N个第一输出值中每一个元素的归一化概率以及第二输出值中每一个元素的归一化概率;根据N个第一输出值中每一个元素的归一化概率以及第二输出值中每一个元素的归一化概率,获取每个教师模型与学生模型的分布相似度,并基于每个教师模型与学生模型的分布相似度获取每个教师模型与学生模型的注意力向量;根据每个教师模型与学生模型的注意力向量计算损失函数;最后通过损失函数对所述学生模型的参数进行更新,进而完成模型的训练。与现有技术相比,简化了模型的结构,且在模型参数较少的情况下,还能保证模型的性能、效果。此外,将每个教师模型与学生模型的注意力向量作为权重向量,更容易获取与学生模型输入语言的种类更相似的语言模型,提高对多语言学习的灵活性,更有利于学生模型学习到训练语句所对应的教师模型的信息。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,在所述获取N个所述教师模型的N个第一输出值,以及获取所述学生模型的第二输出值之后,所述方法还包括:基于所述N个第一输出值的分布长度以及所述第二输出值的分布长度,对所述第一输出值以及第二输出值做填充处理,以使每个所述第一输出值与所述第二输出值的分布长度一致。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,所述根据N个第一输出值中每一个元素的归一化概率以及所述第二输出值中每一个元素的归一化概率,获取每个所述教师模型与所述学生模型的分布相似度,包括:根据N个第一输出值中每一个元素的归一化概率以及所述第二输出值中每一个元素的归一化概率,通过负KL散度计算每个所述教师模型与所述学生模型的分布相似度。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,所述负KL散度的计算公式为:
Figure BDA0002313741130000031
其中,所述Si表示第i个所述教师模型与所述学生模型的分布相似度,pi表示第i个所述教师模型的分布向量,pik表示第i个所述教师模型的分布向量中第k个元素的归一化概率;q表示所述学生模型的分布向量;qk表示所述学生模型的分布向量中第k个元素的归一化概率;k表示第k个元素,m表示总的元素的个数。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,所述损失函数的计算公式为:
Figure BDA0002313741130000041
Loss=KLDivLoss(pi||q)·ATTT;其中,Loss表示所述损失函数,ATTT表示注意力向量的转置矩阵。
第二方面,本申请实施例提供一种基于知识蒸馏的多语言模型压缩装置,所述装置包括:准备模块,用于将训练好的N个不同语言的语言模型作为教师模型;训练模块,用于通过知识蒸馏算法,利用所述教师模型对学生模型进行训练;其中,所述学生模型的词表中包含所有所述教师模型中的词表。
结合上述第二方面提供的技术方案,在一些可能的实现方式中,所述训练模块还用于获取N个所述教师模型的N个第一输出值,获取所述学生模型的第二输出值;以及用于分别获取所述N个第一输出值中每一个元素的归一化概率以及所述第二输出值中每一个元素的归一化概率;根据N个第一输出值中每一个元素的归一化概率以及所述第二输出值中每一个元素的归一化概率,获取每个所述教师模型与所述学生模型的分布相似度,并基于每个所述教师模型与所述学生模型的分布相似度获取每个所述教师模型与所述学生模型的注意力向量;根据每个所述教师模型与所述学生模型的注意力向量计算损失函数;通过所述损失函数对所述学生模型的参数进行更新。
第三方面,本申请实施例提供一种电子设备,包括:处理器和存储器,所述处理器和所述存储器连接;所述存储器用于存储程序;所述处理器用于调用存储在所述存储器中的程序,执行如上述第一方面实施例和/或结合上述第一方面实施例的一些可能的实现方式提供的方法。
第四方面,本申请实施例提供一种存储介质,其上存储有计算机程序,所述计算机程序在被处理器运行时执行如上述第一方面实施例和/或结合上述第一方面实施例的一些可能的实现方式提供的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种电子设备的结构示意图。
图2为本申请实施例提供的一种基于知识蒸馏的多语言模型压缩方法的步骤流程图。
图3为本步骤S102的子步骤流程图。
图4为本申请实施例提供的模型选择注意力模块、教师模型以及学生模型的示意图。
图5为本申请实施例提供的一种基于知识蒸馏的多语言模型压缩装置的模块框图。
图标:100-电子设备;110-处理器;111-存储器;112-通信总线;200-基于知识蒸馏的多语言模型压缩装置;210-准备模块;220-训练模块。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
目前训练多语言模型有两种方式,第一种,准备多种语言的大量语料,构成一个大词表,让模型在一次训练过程中去学习多种语言的语义表征。第二种,在给定一种已经训练好某种语言的模型下,动态加入新语言的词表,将词表映射到隐藏层的权重矩阵中,保留原来模型的权重矩阵,添加新词表对应的权重矩阵,并初始化新词表对应的权重矩阵,训练过程则是利用新语言的语料进行语言模型的训练。但是采用上述的两种方式,均会增加待训练模型的模型参数,进而增加待训练模型的模型结构。此外,采用第一种方式,由于模型在一次训练中需要同时训练多种语言,导致训练耗时较长,且由于模型容量带来的泛化能力上限,利用多种语言训练后的模型针对某一种语言效果一般不如利用单一语言训练的模型。
鉴于上述问题,本申请发明人经过研究探索,提出以下实施例以解决上述问题。
请参阅图1,图1为本申请实施例提供的一种电子设备100的结构示意图。本申请实施例中,电子设备100可以是,但不限于电脑、智能手机、平板电脑、个人数字助理(PersonalDigital Assistant,PAD)、移动上网设备(Mobile Internet Device,MID)等。
在结构上,电子设备100包括至少一个处理器110,至少一个存储器111和至少一个通信总线112。其中,通信总线112用于实现处理器110、存储器111之间的通信。基于知识蒸馏的多语言模型压缩装置包括至少一个可以通过软件或固件的形式存储于存储器111中或固化在电子设备100的操作系统(Operating System,OS)中的软件模块。处理器110用于将训练好的N个不同语言的语言模型作为教师模型;通过知识蒸馏算法,利用所述教师模型对学生模型进行训练。
其中,处理器110可以是一种集成电路芯片,具有信号处理能力。处理器110也可以是通用处理器,例如,可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、分立门或晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。此外,通用处理器可以是微处理器或者任何常规处理器等。
存储器111可以是,但不限于,随机存取存储器(Random Access Memory,RAM)、只读存储器(Read Only Memory,ROM)、可编程只读存储器(Programmable Read-OnlyMemory,PROM)、可擦可编程序只读存储器(Erasable Programmable Read-Only Memory,EPROM),以及电可擦编程只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)。存储器111用于存储程序,处理器110在接收到执行指令后,执行该程序。
应当理解,图1所示的结构仅为示意,本申请实施例提供的电子设备100还可以具有比图1更少或更多的组件,或是具有与图1所示不同的配置。此外,图1所示的各组件可以通过软件、硬件或其组合实现。
请参阅图2,本申请实施例提供一种基于知识蒸馏的多语言模型压缩方法。该方法应用于图1所示出的电子设备100中。下面,结合图2对该方法的具体流程及步骤进行描述。该方法包括:步骤S101-步骤S102。
步骤S101:将训练好的N个不同语言的语言模型作为教师模型。
步骤S102:通过知识蒸馏算法,利用教师模型对学生模型进行训练。
需要解释的是,知识蒸馏是一种网络模型压缩方法,通过构建教师模型-学生模型框架,由教师模型指导学生模型的训练,将模型结构复杂,参数量大的教师模型所学到的关于特征表示的“知识”蒸馏出来,将这些“知识”迁移到模型结构简单,参数量少,学习能力弱的学生模型中。通过知识蒸馏的方式能够在不增加学生模型的复杂度的情况下,提升模型的性能。
因此,于本申请实施例中,将训练好的N个不同语言的语言模型作为教师模型,通过知识蒸馏算法,利用教师模型对学生模型进行训练,使得最终训练获得的学生模型与现有技术中的多语言模型相比,模型参数少,简化了模型的结构,且在模型参数较少的情况下,还能保证模型的性能、效果。此外,相比与现有技术中模型在一次训练中需要同时训练多种语言,本申请中通过知识蒸馏算法训练学生模型的方式耗时较短。
下面对上述步骤S101进行具体说明。
首先,需要准备已经训练好的N个不同语言的语言模型,其中N大于等于2,然后将训练好的N个不同语言的语言模型作为教师模型。教师模型为预测模式,预测模式表示冻结教师模型的模型参数,即训练过程汇总,教师模型的模型参数不会被修改。此时,还需要准备学生模型,学生模型中的词表中包含了所以教师模型中的词表。学生模型为训练模式,学生模型中的模型参数在训练过程中可以被修改。
于本申请实施例中,上述的教师模型以及学生模型均为bert预训练模型。需要解释的是,bert预训练模型是Transformer模型中的编码器模块。而Transformer模型是一种基于编码器解码结构和多头注意力机制的模型。
下面对上述步骤S102进行具体说明。
请参阅图3,于本申请实施例中,上述步骤S102通过知识蒸馏算法,利用所述教师模型对学生模型进行训练包括:步骤S201-步骤S205。
步骤S201:获取N个教师模型的N个第一输出值,以及获取学生模型的第二输出值。
首先,需要获取N个教师模型的N个第一输出值logits ti,i∈(1,n),以及学生模型的第二输出值logits s。其中,logits表示的是模型输出一层所输出的输出值,一般来说所输出的为一个向量,每一向量都对应有分布长度。
在本申请实施例中,由于后续步骤中获取每个教师模型与学生模型的分布相似度,要求教师模型与学生模型的分布长度相同,因此,在获取到N个教师模型的N个第一输出值logits ti,以及学生模型的第二输出值logits s后,该方法,还包括:基于N个第一输出值logits ti的分布长度以及第二输出值logits s的分布长度,对第一输出值logits ti以及第二输出值logits s做填充处理(padding处理),以使每个第一输出值logits ti与第二输出值logits s的分布长度一致。下面举例进行说明,比如学生模型中输出的logits s包含5000个元素,教师模型1输出的logits包括2000个元素,教师模型2输出的logits包括2000个元素,教师模型3输出的logits包括1000个元素。则需要通过对每个教师模型进行padding处理,以使每个教师模型输出的logits为5000。需要说明的是,padding处理需要按照教师模型的顺序进行,也即根据教师模型与学生模型的对应关系进行。比如padding处理的教师模型1输出的logits为[x,x,0,0,···0,0,0],其中最前面的2个x表示教师模型1输出的logits包括2000个元素,后面的0为padding处理所填充的3000个元素;又比如padding处理的教师模型2输出的logits为[0,0,y,y,···0,0,0],其中,中间的2个y表示教师模型2输出的logits包括2000个元素,两个y前面的0以及两个y后面的0为padding处理所填充的3000个元素;又比如padding处理的教师模型3输出的logits为[0,0,0,0,···0,z,z],其中,最后面的2个z表示教师模型3输出的logits包括1000个元素,两个z前面的0为padding处理所填充的4000个元素。
步骤S202:分别获取N个第一输出值中每一个元素的归一化概率以及第二输出值中每一个元素的归一化概率。
于本申请实施例中,对每一个logits,通过softmax计算得到归一化概率。
具体的,对每个logits ti中(logits ti表示第i个教师模型输出的logits),第k元素的概率Pik为:
Figure BDA0002313741130000091
其中,T为可调节的超参数(当T→0,pi近似于one-hot向量,当T→+∞,pi为均匀分布,在训练中,T大于1可以提高分布的置信度,其中,pi=[pi1,pi2,pi3,…pik,…]),在本申请训练过程中T=2,exp表示e的次方,比如exp(x)表示ex;tik表示第i个教师模型输出的logits中的第k个元素,
Figure BDA0002313741130000092
表示在第i个教师模型输出的logits的分布长度中所有元素的求和。
可以理解的是,采用相同的计算公式可以求得logits s,第k个元素的概率qk为:
Figure BDA0002313741130000101
其中,tik表示学生模型输出的logits中的第k个元素,
Figure BDA0002313741130000102
表示在学生模型输出的logits的分布长度中所有元素的求和。
步骤S203:根据N个第一输出值中每一个元素的归一化概率以及第二输出值中每一个元素的归一化概率,获取每个教师模型与学生模型的分布相似度,并基于每个教师模型与学生模型的分布相似度获取每个教师模型与学生模型的注意力向量。
根据N个第一输出值中每一个元素的归一化概率以及第二输出值的归一化概率获取第i个教师模型的分布pi以及学生模型的分布q,其中,第i个教师模型的分布pi=[pi1,pi2,pi3,…pik,…],q=[q1,q2,q3,…qk,…]。pi与q均为向量。
然后根据第i个教师模型的分布pi以及学生模型的分布q获取每个教师模型与学生模型的分布相似度。
于本申请实施例中,是通过负KL(kullback-Leibler)散度计算每个教师模型与学生模型的分布相似度Si。其中,Si越大则说明分布相似度越高。
具体的,Si的计算公式为:
Figure BDA0002313741130000103
其中,Si表示第i个教师模型与学生模型的分布相似度,pi表示第i个教师模型的分布向量,pik表示第i个教师模型的分布向量中第k个元素的归一化概率;q表示学生模型的分布向量;qk表示学生模型的分布向量中第k个元素的归一化概率;k表示第k个元素,m表示总的元素的个数。
可以理解的是,在其他实施例中,还可以通过其他的方式计算每个教师模型与学生模型的分布相似度Si,比如通过JS(Jensen-Shannon divergence)散度计算每个教师模型与学生模型的分布相似度Si,对此,本申请不作限定。
然后,再根据每个教师模型与学生模型的分布相似度获取每个教师模型与学生模型的注意力向量Atti
具体的,Atti的计算公式为:
Figure BDA0002313741130000111
其中,Sj表示第j个教师模型与学生模型的分布相似度,n表示教师模型的总数。
需要说明的是,上述步骤S203由模型选择注意力模块(MSA,Model SelectAttention)执行。请参阅图4,本申请提出一种模型选择注意力模块,多个教师模型(比如图中示出的教师模型1、教师模型2、教师模型3)输出的logits会和student输出的logits输入到模型选择注意力模块。通过模型选择注意力模块计算得到每个教师模型与学生模型的注意力向量Atti
步骤S204:根据每个教师模型与学生模型的注意力向量计算损失函数。
其中,损失函数的计算公式为:
Figure BDA0002313741130000112
Loss=KLDivLoss(pi||q)·ATTT
其中,Loss表示损失函数,ATTT表示注意力向量的转置矩阵。上述公式可以理解为将步骤S203中计算出的注意力向量Att作为权重向量和KLDivLoss(pi||q)逐项相乘再相加,求得Loss。
于本申请实施例中,将每个教师模型与学生模型的注意力向量作为权重向量,更容易获取与学生模型输入语言的种类更相似的语言模型,提高对多语言学习的灵活性,更有利于学生模型学习到训练语句所对应的教师模型的信息。
步骤S205:通过损失函数对学生模型的参数进行更新。
需要说的是,学生模型与教师模型的相似度越高,损失函数Loss越小,本申请实施例利用机器学习过程中,通过梯度下降优化方法和反向传播修改学生模型的参数,使损失函数Loss不断下降。当损失函数Loss下降至收敛后完成训练,收敛意味着学生模型已经很难学习到有用的信息了。
在对学生模型训练完成后,即可通过该学生模型处理多种语言的输入。
综上所述,在本申请实施例中,通过获取N个教师模型的N个第一输出值,以及获取学生模型的第二输出值;分别获取N个第一输出值中每一个元素的归一化概率以及第二输出值中每一个元素的归一化概率;根据N个第一输出值中每一个元素的归一化概率以及第二输出值中每一个元素的归一化概率,获取每个教师模型与学生模型的分布相似度,并基于每个教师模型与学生模型的分布相似度获取每个教师模型与学生模型的注意力向量;根据每个教师模型与学生模型的注意力向量计算损失函数;最后通过损失函数对所述学生模型的参数进行更新,进而完成模型的训练。与现有技术相比,简化了模型的结构,且在模型参数较少的情况下,还能保证模型的性能、效果。此外,将每个教师模型与学生模型的注意力向量作为权重向量,更容易获取与学生模型输入语言的种类更相似的语言模型,提高对多语言学习的灵活性,更有利于学生模型学习到训练语句所对应的教师模型的信息。
请参阅图5,基于同一发明构思,本申请实施例中还提供一种基于知识蒸馏的多语言模型压缩装置200,包括:准备模块210和训练模块220。
准备模块210,用于将训练好的N个不同语言的语言模型作为教师模型。
训练模块220,用于通过知识蒸馏算法,利用所述教师模型对学生模型进行训练;其中,所述学生模型的词表中包含所有所述教师模型中的词表。
可选地,训练模块220还用于获取N个所述教师模型的N个第一输出值,获取所述学生模型的第二输出值;以及用于分别获取所述N个第一输出值中每一个元素的归一化概率以及所述第二输出值中每一个元素的归一化概率;根据N个第一输出值中每一个元素的归一化概率以及所述第二输出值中每一个元素的归一化概率,获取每个所述教师模型与所述学生模型的分布相似度,并基于每个所述教师模型与所述学生模型的分布相似度获取每个所述教师模型与所述学生模型的注意力向量;根据每个所述教师模型与所述学生模型的注意力向量计算损失函数;通过所述损失函数对所述学生模型的参数进行更新。
需要说明的是,上述为方法对应装置的实施例,装置与方法的内容相同,为了避免累赘,在此不作过多的阐述。
基于同一发明构思,本申请实施例还提供一种存储介质,其上存储有计算机程序,计算机程序在被运行时执行上述实施例中提供的方法。
该存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于知识蒸馏的多语言模型压缩方法,其特征在于,所述方法包括:
将训练好的N个不同语言的语言模型作为教师模型;
通过知识蒸馏算法,利用所述教师模型对学生模型进行训练;其中,所述学生模型的词表中包含所有所述教师模型中的词表。
2.根据权利要求1所述的方法,其特征在于,所述通过知识蒸馏算法,利用所述教师模型对学生模型进行训练,包括:
获取N个所述教师模型的N个第一输出值,以及获取所述学生模型的第二输出值;
分别获取所述N个第一输出值中每一个元素的归一化概率以及所述第二输出值中每一个元素的归一化概率;
根据N个第一输出值中每一个元素的归一化概率以及所述第二输出值中每一个元素的归一化概率,获取每个所述教师模型与所述学生模型的分布相似度,并基于每个所述教师模型与所述学生模型的分布相似度获取每个所述教师模型与所述学生模型的注意力向量;
根据每个所述教师模型与所述学生模型的注意力向量计算损失函数;
通过所述损失函数对所述学生模型的参数进行更新。
3.根据权利要求2所述的方法,其特征在于,在所述获取N个所述教师模型的N个第一输出值,以及获取所述学生模型的第二输出值之后,所述方法还包括:
基于所述N个第一输出值的分布长度以及所述第二输出值的分布长度,对所述第一输出值以及第二输出值做填充处理,以使每个所述第一输出值与所述第二输出值的分布长度一致。
4.根据权利要求3所述的方法,其特征在于,所述根据N个第一输出值中每一个元素的归一化概率以及所述第二输出值中每一个元素的归一化概率,获取每个所述教师模型与所述学生模型的分布相似度,包括:
根据N个第一输出值中每一个元素的归一化概率以及所述第二输出值中每一个元素的归一化概率,通过负KL散度计算每个所述教师模型与所述学生模型的分布相似度。
5.根据权利要求4所述的方法,其特征在于,所述负KL散度的计算公式为:
Figure FDA0002313741120000021
其中,所述Si表示第i个所述教师模型与所述学生模型的分布相似度,pi表示第i个所述教师模型的分布向量,pik表示第i个所述教师模型的分布向量中第k个元素的归一化概率;q表示所述学生模型的分布向量;qk表示所述学生模型的分布向量中第k个元素的归一化概率;k表示第k个元素,m表示总的元素的个数。
6.根据权利要求5所述的方法,其特征在于,所述损失函数的计算公式为:
Figure FDA0002313741120000022
Loss=KLDivLoss(pi||q)·ATTT
其中,Loss表示所述损失函数,ATTT表示注意力向量的转置矩阵。
7.一种基于知识蒸馏的多语言模型压缩装置,其特征在于,所述装置包括:
准备模块,用于将训练好的N个不同语言的语言模型作为教师模型;
训练模块,用于通过知识蒸馏算法,利用所述教师模型对学生模型进行训练;其中,所述学生模型的词表中包含所有所述教师模型中的词表。
8.根据权利要求7所述的装置,其特征在于,所述训练模块还用于获取N个所述教师模型的N个第一输出值,获取所述学生模型的第二输出值;以及用于分别获取所述N个第一输出值中每一个元素的归一化概率以及所述第二输出值中每一个元素的归一化概率;根据N个第一输出值中每一个元素的归一化概率以及所述第二输出值中每一个元素的归一化概率,获取每个所述教师模型与所述学生模型的分布相似度,并基于每个所述教师模型与所述学生模型的分布相似度获取每个所述教师模型与所述学生模型的注意力向量;根据每个所述教师模型与所述学生模型的注意力向量计算损失函数;通过所述损失函数对所述学生模型的参数进行更新。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述处理器和所述存储器连接;
所述存储器用于存储程序;
所述处理器用于运行存储在所述存储器中的程序,执行如权利要求1-6中任一项所述的方法。
10.一种存储介质,其特征在于,其上存储有计算机程序,所述计算机程序在被计算机运行时执行如权利要求1-6中任一项所述的方法。
CN201911272179.5A 2019-12-11 2019-12-11 一种基于知识蒸馏的多语言模型压缩方法、装置 Active CN111062489B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911272179.5A CN111062489B (zh) 2019-12-11 2019-12-11 一种基于知识蒸馏的多语言模型压缩方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911272179.5A CN111062489B (zh) 2019-12-11 2019-12-11 一种基于知识蒸馏的多语言模型压缩方法、装置

Publications (2)

Publication Number Publication Date
CN111062489A true CN111062489A (zh) 2020-04-24
CN111062489B CN111062489B (zh) 2023-10-20

Family

ID=70298840

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911272179.5A Active CN111062489B (zh) 2019-12-11 2019-12-11 一种基于知识蒸馏的多语言模型压缩方法、装置

Country Status (1)

Country Link
CN (1) CN111062489B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553479A (zh) * 2020-05-13 2020-08-18 鼎富智能科技有限公司 一种模型蒸馏方法、文本检索方法及装置
CN111667728A (zh) * 2020-06-18 2020-09-15 苏州思必驰信息科技有限公司 语音后处理模块训练方法和装置
CN111768001A (zh) * 2020-06-30 2020-10-13 平安国际智慧城市科技股份有限公司 语言模型的训练方法、装置和计算机设备
CN112116030A (zh) * 2020-10-13 2020-12-22 浙江大学 一种基于向量标准化和知识蒸馏的图像分类方法
CN112232086A (zh) * 2020-10-16 2021-01-15 腾讯科技(深圳)有限公司 一种语义识别方法、装置、计算机设备及存储介质
CN112287697A (zh) * 2020-11-03 2021-01-29 沈阳雅译网络技术有限公司 一种加快小型智能移动设备中翻译软件运行速度的方法
CN112308019A (zh) * 2020-11-19 2021-02-02 中国人民解放军国防科技大学 基于网络剪枝和知识蒸馏的sar舰船目标检测方法
CN112365385A (zh) * 2021-01-18 2021-02-12 深圳市友杰智新科技有限公司 基于自注意力的知识蒸馏方法、装置和计算机设备
CN112613273A (zh) * 2020-12-16 2021-04-06 上海交通大学 多语言bert序列标注模型的压缩方法及系统
CN112699678A (zh) * 2021-03-24 2021-04-23 达而观数据(成都)有限公司 一种结合动态词汇增强的模型蒸馏方法
CN112784999A (zh) * 2021-01-28 2021-05-11 开放智能机器(上海)有限公司 基于注意力机制的mobilenet-v1知识蒸馏方法、存储器及终端设备
CN112990198A (zh) * 2021-03-22 2021-06-18 华南理工大学 一种用于水表读数的检测识别方法、系统及存储介质
CN113673254A (zh) * 2021-08-23 2021-11-19 东北林业大学 基于相似度保持的知识蒸馏的立场检测方法
CN113792713A (zh) * 2021-11-16 2021-12-14 北京的卢深视科技有限公司 模型训练、人脸识别模型更新方法、电子设备及存储介质
WO2021248868A1 (zh) * 2020-09-02 2021-12-16 之江实验室 基于知识蒸馏的预训练语言模型的压缩方法及平台
WO2022126797A1 (zh) * 2020-12-17 2022-06-23 之江实验室 基于多层级知识蒸馏预训练语言模型自动压缩方法及平台
WO2022126683A1 (zh) * 2020-12-15 2022-06-23 之江实验室 面向多任务的预训练语言模型自动压缩方法及平台
CN114841173A (zh) * 2022-07-04 2022-08-02 北京邮电大学 基于预训练模型的学术文本语义特征提取方法、系统和存储介质
US11501171B2 (en) 2020-12-17 2022-11-15 Zhejiang Lab Method and platform for pre-trained language model automatic compression based on multilevel knowledge distillation
US11526774B2 (en) 2020-12-15 2022-12-13 Zhejiang Lab Method for automatically compressing multitask-oriented pre-trained language model and platform thereof

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960407A (zh) * 2018-06-05 2018-12-07 出门问问信息科技有限公司 递归神经网路语言模型训练方法、装置、设备及介质
CN109637546A (zh) * 2018-12-29 2019-04-16 苏州思必驰信息科技有限公司 知识蒸馏方法和装置
US20190205748A1 (en) * 2018-01-02 2019-07-04 International Business Machines Corporation Soft label generation for knowledge distillation
CN110246487A (zh) * 2019-06-13 2019-09-17 苏州思必驰信息科技有限公司 用于单通道的语音识别模型的优化方法及系统
US20190325308A1 (en) * 2016-12-30 2019-10-24 Google Llc Multi-task learning using knowledge distillation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190325308A1 (en) * 2016-12-30 2019-10-24 Google Llc Multi-task learning using knowledge distillation
US20190205748A1 (en) * 2018-01-02 2019-07-04 International Business Machines Corporation Soft label generation for knowledge distillation
CN108960407A (zh) * 2018-06-05 2018-12-07 出门问问信息科技有限公司 递归神经网路语言模型训练方法、装置、设备及介质
CN109637546A (zh) * 2018-12-29 2019-04-16 苏州思必驰信息科技有限公司 知识蒸馏方法和装置
CN110246487A (zh) * 2019-06-13 2019-09-17 苏州思必驰信息科技有限公司 用于单通道的语音识别模型的优化方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHAHRAM GHORBANI等: "ADVANCING MULTI-ACCENTED LSTM-CTC SPEECH RECOGNITION USING A DOMAIN SPECIFIC STUDENT-TEACHER LEARNING PARADIGM", 2018 IEEE SPOKEN LANGUAGE TECHNOLOGY WORKSHOP(SLT) *
凌弘毅: ""基于知识蒸馏方法的行人属性识别研究"", 计算机应用与软件 *

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553479A (zh) * 2020-05-13 2020-08-18 鼎富智能科技有限公司 一种模型蒸馏方法、文本检索方法及装置
CN111553479B (zh) * 2020-05-13 2023-11-03 鼎富智能科技有限公司 一种模型蒸馏方法、文本检索方法及装置
CN111667728A (zh) * 2020-06-18 2020-09-15 苏州思必驰信息科技有限公司 语音后处理模块训练方法和装置
CN111667728B (zh) * 2020-06-18 2021-11-30 思必驰科技股份有限公司 语音后处理模块训练方法和装置
CN111768001A (zh) * 2020-06-30 2020-10-13 平安国际智慧城市科技股份有限公司 语言模型的训练方法、装置和计算机设备
CN111768001B (zh) * 2020-06-30 2024-01-23 平安国际智慧城市科技股份有限公司 语言模型的训练方法、装置和计算机设备
GB2608919A (en) * 2020-09-02 2023-01-18 Zhejiang Lab Knowledge distillation-based compression method for pre-trained language model, and platform
WO2021248868A1 (zh) * 2020-09-02 2021-12-16 之江实验室 基于知识蒸馏的预训练语言模型的压缩方法及平台
US11341326B2 (en) 2020-09-02 2022-05-24 Zhejiang Lab Compression method and platform of pre-training language model based on knowledge distillation
JP7381813B2 (ja) 2020-09-02 2023-11-16 之江実験室 知識蒸留に基づく予めトレーニング言語モデルの圧縮方法及びプラットフォーム
JP2023523644A (ja) * 2020-09-02 2023-06-06 之江実験室 知識蒸留に基づく予めトレーニング言語モデルの圧縮方法及びプラットフォーム
CN112116030A (zh) * 2020-10-13 2020-12-22 浙江大学 一种基于向量标准化和知识蒸馏的图像分类方法
CN112232086A (zh) * 2020-10-16 2021-01-15 腾讯科技(深圳)有限公司 一种语义识别方法、装置、计算机设备及存储介质
CN112287697A (zh) * 2020-11-03 2021-01-29 沈阳雅译网络技术有限公司 一种加快小型智能移动设备中翻译软件运行速度的方法
CN112308019A (zh) * 2020-11-19 2021-02-02 中国人民解放军国防科技大学 基于网络剪枝和知识蒸馏的sar舰船目标检测方法
US11526774B2 (en) 2020-12-15 2022-12-13 Zhejiang Lab Method for automatically compressing multitask-oriented pre-trained language model and platform thereof
GB2619569A (en) * 2020-12-15 2023-12-13 Zhejiang Lab Method and platform for automatically compressing multi-task-oriented pre-training language model
WO2022126683A1 (zh) * 2020-12-15 2022-06-23 之江实验室 面向多任务的预训练语言模型自动压缩方法及平台
CN112613273A (zh) * 2020-12-16 2021-04-06 上海交通大学 多语言bert序列标注模型的压缩方法及系统
CN112613273B (zh) * 2020-12-16 2022-09-23 上海交通大学 多语言bert序列标注模型的压缩方法及系统
WO2022126797A1 (zh) * 2020-12-17 2022-06-23 之江实验室 基于多层级知识蒸馏预训练语言模型自动压缩方法及平台
US11501171B2 (en) 2020-12-17 2022-11-15 Zhejiang Lab Method and platform for pre-trained language model automatic compression based on multilevel knowledge distillation
GB2610319A (en) * 2020-12-17 2023-03-01 Zhejiang Lab Automatic compression method and platform for multilevel knowledge distillation-based pre-trained language model
CN112365385B (zh) * 2021-01-18 2021-06-01 深圳市友杰智新科技有限公司 基于自注意力的知识蒸馏方法、装置和计算机设备
CN112365385A (zh) * 2021-01-18 2021-02-12 深圳市友杰智新科技有限公司 基于自注意力的知识蒸馏方法、装置和计算机设备
CN112784999A (zh) * 2021-01-28 2021-05-11 开放智能机器(上海)有限公司 基于注意力机制的mobilenet-v1知识蒸馏方法、存储器及终端设备
CN112990198A (zh) * 2021-03-22 2021-06-18 华南理工大学 一种用于水表读数的检测识别方法、系统及存储介质
CN112990198B (zh) * 2021-03-22 2023-04-07 华南理工大学 一种用于水表读数的检测识别方法、系统及存储介质
CN112699678A (zh) * 2021-03-24 2021-04-23 达而观数据(成都)有限公司 一种结合动态词汇增强的模型蒸馏方法
CN113673254A (zh) * 2021-08-23 2021-11-19 东北林业大学 基于相似度保持的知识蒸馏的立场检测方法
CN113792713A (zh) * 2021-11-16 2021-12-14 北京的卢深视科技有限公司 模型训练、人脸识别模型更新方法、电子设备及存储介质
CN113792713B (zh) * 2021-11-16 2022-03-25 北京的卢深视科技有限公司 模型训练、人脸识别模型更新方法、电子设备及存储介质
CN114841173A (zh) * 2022-07-04 2022-08-02 北京邮电大学 基于预训练模型的学术文本语义特征提取方法、系统和存储介质

Also Published As

Publication number Publication date
CN111062489B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
CN111062489A (zh) 一种基于知识蒸馏的多语言模型压缩方法、装置
WO2022007823A1 (zh) 一种文本数据处理方法及装置
US10592607B2 (en) Iterative alternating neural attention for machine reading
CN109478204B (zh) 非结构化文本的机器理解
WO2020224219A1 (zh) 中文分词方法、装置、电子设备及可读存储介质
GB2571825A (en) Semantic class localization digital environment
US9672476B1 (en) Contextual text adaptation
US20180121785A1 (en) Context-aware attention-based neural network for interactive question answering
CN109408826A (zh) 一种文本信息提取方法、装置、服务器及存储介质
CN112883149B (zh) 一种自然语言处理方法以及装置
CN110427486B (zh) 身体病况文本的分类方法、装置及设备
JP2009503732A (ja) 選択されたセグメントのビット平面表現を用いた連想マトリックス法、システムおよびコンピュータプログラム製品
JP2022145623A (ja) ヒント情報を提示する方法及び装置並びにコンピュータプログラム
CN114398899A (zh) 预训练语言模型的训练方法、装置、计算机设备和介质
CN111126084B (zh) 数据处理方法、装置、电子设备和存储介质
CN109657127B (zh) 一种答案获取方法、装置、服务器及存储介质
CN117610608A (zh) 基于多阶段特征融合的知识蒸馏方法、设备及介质
CN113657086A (zh) 词语处理方法、装置、设备及存储介质
CN110457683A (zh) 模型优化方法、装置、计算机设备及存储介质
CN116957006A (zh) 预测模型的训练方法、装置、设备、介质及程序产品
CN116230146A (zh) 数据处理方法、icd编码模型的训练方法及相关设备
CN115358231A (zh) 自然语言预训练模型训练方法、装置、设备及存储介质
CN113705251A (zh) 机器翻译模型的训练方法、语言翻译方法及设备
CN112101015A (zh) 一种识别多标签对象的方法及装置
KR20210067294A (ko) 자동 번역 장치 및 그 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230905

Address after: Room 311501, Unit 1, Building 5, Courtyard 1, Futong East Street, Chaoyang District, Beijing

Applicant after: BEIJING KNOWNSEC INFORMATION TECHNOLOGY Co.,Ltd.

Address before: Room 311506, Unit 1, Building 5, Courtyard 1, Futong East Street, Chaoyang District, Beijing, 100000

Applicant before: Beijing know smart Information Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant