CN111611377A - 基于知识蒸馏的多层神经网络语言模型训练方法与装置 - Google Patents

基于知识蒸馏的多层神经网络语言模型训练方法与装置 Download PDF

Info

Publication number
CN111611377A
CN111611377A CN202010322267.8A CN202010322267A CN111611377A CN 111611377 A CN111611377 A CN 111611377A CN 202010322267 A CN202010322267 A CN 202010322267A CN 111611377 A CN111611377 A CN 111611377A
Authority
CN
China
Prior art keywords
model
layer
student
teacher
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010322267.8A
Other languages
English (en)
Other versions
CN111611377B (zh
Inventor
高尚兵
李文婷
李伟
王通阳
姚宁波
周泓
朱全银
相林
于坤
陈晓兵
张正伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaiyin Institute of Technology
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN202010322267.8A priority Critical patent/CN111611377B/zh
Publication of CN111611377A publication Critical patent/CN111611377A/zh
Application granted granted Critical
Publication of CN111611377B publication Critical patent/CN111611377B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于知识蒸馏的多层神经网络语言模型训练方法与装置,该方法首先构建BERT语言模型和多层BILSTM模型作为教师模型和学生模型,其中所构建的BERT语言模型中有六层transformer,多层BILSTM模型中有三层BILSTM网络;然后将文本语料集进行预处理后,对BERT语言模型进行训练得到训练好的教师模型;再基于知识蒸馏技术将预处理后的文本语料集输入到多层BILSTM模型训练学生模型,在学习教师模型中的嵌入层、隐藏层以及输出层之时,通过线性变换将不同空间表示进行计算。基于训练好的学生模型,可将文本进行向量转换,进而训练下游网络更好地进行文本分类。本发明可以有效提升文本预训练效率以及文本分类任务的精确度。

Description

基于知识蒸馏的多层神经网络语言模型训练方法与装置
技术领域
本发明涉及无监督文本预训练及深度学习领域,具体涉及一种基于知识蒸馏的多层神经网络语言模型训练方法与装置。
背景技术
随着互联网上在线文本信息数据的急剧增加,语言模型在信息处理上起着至关重要要的作用,是处理较大规模文本信息的关键技术,并推动了信息处理朝着自动化的方向发展,语言模型简单来说就是一串词序列的概率分布。搭建一个合理的预训练语言模型可以解决目前很多文本信息问题,例如文本分类、文本相似度、阅读理解等等,进而可以高效的利用好现在网络上大量的文本语料数据,更好地为人们提供更便利的服务。但目前的文本预训练语言模型大多都是具有着庞大且复杂的网络结构、训练速度慢等缺点。
发明内容
发明目的:为了解决现有技术存在的问题,本发明提供一种基于知识蒸馏的多层神经网络语言模型训练方法与装置,以在保证一定精度的前提下,提升文本预训练效率。
技术方案:为实现上述发明目的,发明所述的一种基于知识蒸馏的多层神经网络语言模型训练方法,包括如下步骤:
(1)构建BERT语言模型和多层BILSTM模型作为教师模型和学生模型,其中所构建的BERT语言模型中有六层transformer,多层BILSTM模型中有三层BILSTM网络;
(2)将文本语料集进行预处理后,对BERT语言模型进行训练得到训练好的教师模型;
(3)将预处理后的文本语料集输入到多层BILSTM模型,对学生模型进行训练,在学生模型训练时学习教师模型分别在嵌入层、隐藏层以及输出层的信息,通过线性变换将不同空间表示进行计算,结合教师模型与学生模型的嵌入层向量输出的MSE均方误差、学生模型每一层隐藏层输出与教师模型与之对应的每层transformer中的输出的MSE均方误差、以及教师模型softmax层输出的概率分布的交叉熵作为知识蒸馏的目标损失函数;最后得到训练好的学生模型。
所述知识蒸馏的目标损失函数为:
Figure BDA0002461882710000021
其中,se与te分别代表学生模型与教师模型的嵌入表示,sh与t2h-1分别代表学生模型第h层的隐藏层与与教师模型第2h-1层的隐藏层的输出,sp与tp分别代表学生模型与教师模型预测的logits输出入,λe、λhid和λpre分别代表着不同层的重要程度,Lemb、Lhid和Lpre分别代表着不同层的损失计算函数。
教师模型与学生模型在嵌入层的损失计算公式为:
Lemb(se,te)=MSE(seWe,te)
其中,MSE表示均方误差,We表示线性变换矩阵。
教师模型与学生模型在隐藏层的损失计算公式为:
Lhid(sh,t2h-1)=MSE(shWh,t2h-1)
其中,Wh表示线性变换矩阵。
教师模型与学生模型在输出层的损失计算公式为:
Lpre(sp,tp)=-soft max(tp)·log_soft max(sp/Tem)
其中,log_soft max表示对数似然,Tem表示温度值。
在所述基于知识蒸馏的多层神经网络语言模型训练方法的基础上,本发明提供一种基于知识蒸馏的文本分类方法,所述文本分类方法利用所述基于知识蒸馏的多层神经网络语言模型训练方法得到的训练好的学生模型,将文本数据转换为向量表示输入至一种神经网络模型进行文本分类,或输入至多种神经网络模型进行特征融合后进行文本分类。
基于相同的发明构思,本发明还提供的一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于知识蒸馏的多层神经网络语言模型训练方法或实现所述的基于知识蒸馏的文本分类方法。
有益效果:本发明实现了在文本分类任务中,通过学习教师模型BERT的学习能力来提高精简模型的学习能力,通过对教师模型中的嵌入层、隐藏层以及预测层分别进行学习,可以更大程度提高精简模型的学习能力,同时精简模型的结构简单以及比教师模型训练速度快等特点占有优势,同时解决了现有的通用语言模型的缺点,在特定领域的任务中表现能力差的问题。在改进的语言模型中用大量的化工语料数据进行预训练,可以有效的解决该问题。同时在下游任务中,通过特征融合的方法将CNN和BILSTM的优势进行互补,可以提取文本的序列化特征,且对于字词的编码能力较好,达到提升文本分类任务精度的目的。
附图说明
图1为本发明实施例的模型训练流程图;
图2为本发明实施例中的算法结构图;
图3为本发明实施例的文本分类流程图。
具体实施方式
为清楚说明本发明的技术方案,下面首先对本发明涉及到的相关技术做简要说明。
BERT(Bidirectional Encoder Representation from Transformers,Transformer的双向编码表示)语言模型:BERT利用masked model实现了语言模型的双向性,证明了双向性对语言表示预训练的重要性。BERT模型是真正意义上的双向语言模型,每个词可以同时利用该词的上下文信息。BERT是第一个微调模型在sentence-level和token-level自然语言任务都达到了最好效果。证明了pre-trained representations可以缓解了不同任务对特殊模型结构的设计需求。BERT在11个自然语言处理任务上达到了最好效果。并在BERT的extensive ablations证明了“BERT的双向性”是一个重要的创新。BERT语言模型实现了文本到动态字向量的转化,增强了文本向量的语义信息。
多层BILSTM模型(多层双向长短时记忆网络模型):长短记忆神经网络(LSTM)是一种特殊的RNN,能够学习长的依赖关系。LSTM是为了避免长依赖问题而精心设计的,记住较长的历史信息实际上是他们的默认行为,而不是他们努力学习的东西。所有循环神经网络都具有神经网络的重复模块链的形式。在标准的RNN中,该重复模块将具有非常简单的结构,例如单个tanh层。输入层的数据会经过向前和向后两个方向推算,最后输出的隐含状态再进行concat,再作为下一层的输入,原理其实和LSTM是类似的,就是多了双向计算和concat过程,增强了上下文的特征联系的语义信息。在本发明中,我们采用的是多层的双向长短时记忆网络,为了能够方便学习到BERT中间层transformer的学习能力,提高模型的学习能力。
知识蒸馏(Knowledge Distillation):知识蒸馏的核心思想是通过迁移知识,从而通过训练好的大模型得到更加适合推理的小模型。这个概念最早在06年的文章ModelCompression中,Caruana提出一种将大模型学习到的函数压缩进更小更快的模型,而获得可以匹敌大模型结果的方法。
本发明中我们采用的是不仅仅针对最后一层的概率分布进行学习,同时对嵌入层、中间层以及输出层做一个总的学习计算损失,相比传统的知识蒸馏的方法,可以提高其学习能力,而不仅仅是记住最终的结果,实现真正的模仿教师模型的学习能力。
下面结合附图对本发明作进一步详细说明。现将本实施例中涉及的变量作如下说明,如表1所示:
表1变量说明表
Figure BDA0002461882710000041
Figure BDA0002461882710000051
Figure BDA0002461882710000061
如图1所示,本发明实施例公开的一种基于知识蒸馏的多层神经网络语言模型训练方法,包括以下步骤:
(1)将输入的文本处理成每一行为一条语句,文章之间的过渡用空白行进行分割的原始文本语料集T。
(2)在教师模型BERT中,首先读取经过特殊处理的原始文本语料集T,按行分词处理后存储到T'中,具体的存储格式为T'={d0,d1,…,di,…},di为第i篇文章,在di中存储第i篇文章中所有的句子集合,di={l0,l1,…,lj,…},lj为di中的第j个句子,lj={t0,t1,…,tk,…},tk为lj中第k个token;接着将文章顺序打乱,重复dupe_factor=10次,然后进行随机mask,每篇文章都会生成10*len(di)条样本,如果采样出来的句子长度超过了设定的最大句子长度Lmax值,便随机从头或者尾去掉比较长句子中的一些token。删除BERT中的nextsentence prediction任务。
(3)将T'中每个句子中的每一个token分别送入BERT的Token Embedding层、Segment Embeddings层和Position Embeddings层,分别得到向量编码V1、句子编码V2及位置编码V3;将获得的三种维度相同输出进行相加,得到向量VB
(4)将BERT中12层的transformer删减成6层的transformer,然后将得到的VB输入到BERT的双向Transformer中,同时对教师模型BERT预测的被遮盖的token的概率分布mt和真实的被遮盖的token向量表示ms按照如下公式进行损失计算,其中,Lt为做随机mask任务的损失函数,然后进行梯度下降优化教师模型。
Lt(ms,mt)=-soft max(mt)·log_soft max(ms)
(5)在学生模型多层神经网络模型中,首先对原始文本语料集T进行步骤(2)和步骤(3)相同的预处理与embedding操作,但词向量维度是BERT模型词向量维度的一半,并将预处理之后的文本数据输入到多层神经网络模型中,该模型为三层的双向长短时记忆网络,在训练学生模型过程中,学生模型通过学习教师模型中的嵌入层、中间隐藏层以及预测层来进行模型的校正。
(6)在嵌入层中,对教师模型BERT与学生模型多层神经网络的嵌入层的向量输出做损失计算。具体公式如下:
Lemb(se,te)=MSE(seWe,te)
其中,MSE为均方误差(Mean Square Error),矩阵
Figure BDA0002461882710000071
Figure BDA0002461882710000072
分别表示学生模型和教师模型的嵌入表示。l=128代表模型输入的文本长度,d=768代表教师模型的隐藏层大小,d'=200代表学生模型的隐藏层大小。在本发明中,它们的形状与隐藏状态矩阵相同。矩阵
Figure BDA0002461882710000073
是一个可学习的线性变换,它将学生模型的嵌入表示转换成与教师模型相同的空间状态。
(7)在中间隐藏层中,将学生模型多层神经网络的每一层隐藏层输出与教师模型BERT中与之对应的每层transformer中的隐藏层输出进行MSE均方误差计算,具体公式如下所示:
Lhid(sh,th')=MSE(shWh,th')
其中,矩阵
Figure BDA0002461882710000074
Figure BDA0002461882710000075
分别表示学生网络和教师网络的隐藏层输出,矩阵
Figure BDA0002461882710000076
是一个可学习的线性变换,它将学生模型的隐藏状态变换成与教师模型状态相同的空间。
(8)在预测层中,将教师模型BERT的softmax层输出的概率分布和学生网络多层神经网络的softmax层输出的概率分布作交叉熵计算。
Lpre(sp,tp)=-soft max(tp)·log_soft max(sp/Tem)
其中,sp和tp分别为学生模型和教师模型预测的logits输出(softmax上一层的输入),log_soft max表示对数似然,Tem=1表示温度值。
(9)利用上述三个蒸馏目标,可以统一教师模型与学生模型对应层的蒸馏损失:
Ltotal=λeLemb(se,te)+λhidLhtpreLpre(sp,tp)
Figure BDA0002461882710000081
其中,Lht代表总的中间隐藏层的损失公式,sh与t2h-1分别代表学生模型的第h层的隐藏层与对应的教师模型的第2h-1层的隐藏层的输出;λe=1、λhid=4和λpre=3分别代表着不同层的重要程度。具体算法结构如图2所示。
如图3所示,将训练好的学生模型作为预训练好的语言模型,利用其将文本数据转换为向量表示,并输入下游网络模型中进行文本分类,可最终得到预测结果。下面以采用融合CNN和BILSTM特征的文本分类网络为例,进行详细说明,具体如下:
(1)将训练好的学生模型作为预训练好的语言模型,将准备好的文本数据集D输入到预训练好的语言模型,并将其转换为字向量序列S,其中,S={st1,st2,…,ste,…,stlen(D)},其中,ste是第e个文本的输出向量表示;
(2)对字向量序列S分别做两次深度编码,以ste为例,将步骤(2)得到的ste分别输入到CNN和BILSTM模型中,得到两个特征向量F1和F2;其中,CNN模型先利用两次卷积、两次激活、两次池化方法对输入的字向量序列进行运算,然后将得到的多维特征用Flatten层转化成一维特征,得到特征向量F1
Figure BDA0002461882710000082
其中,k=49152为CNN第二个池化层输出的神经元数。BILSTM模型含有384个隐藏神经元,对输入的字向量序列进行一个序列上的双向运算,得到的输出经过非线性激活层的运算后,作为另一个特征向量F2
Figure BDA0002461882710000083
其中,m=384为BILSTM隐藏层神经元数。
(3)对F1和F2两个特征向量进行特征串接融合得到新的特征向量F3,F3再经过全连接层来实现线性降维,得到F4={F1 4,F2 4,…,F10 4};
(4)使用softmax层进行概率运算,将步骤(3)得到的F4向量作为输入,输入到softmax层中,使得输入向量中的每个实数被映射为0到1之间的实数,并且输出向量中所有实数之和为1,这些实数表示相应种类的概率大小,得到的输出为概率预测向量P={p1,p2,…,pf,…,p10},其中,pf表示该文本为第f类的概率;
(5)模型参数优化,根据步骤(1)至步骤(4)对模型进行编译,采用的损失函数为交叉熵,优化器为adam,指标为准确度;编译完成后,使用带标记的数据对模型进行训练,训练前将所有数据按6:2:2划分训练集、验证集和测试集,训练时保存在验证集上准确度最高的模型;
(6)文本分类预测,利用步骤(5)得到的模型,对待分类的文本进行预测,模型输出一个概率预测向量P={p1,p2,…,pf,…,p10},搜索向量P中的最大数值,并将最大值对应的分类结果作为最终输出,即文本分类的结果Yout。其中,
Figure BDA0002461882710000091
表示该文本为第f类的概率。
为了更好的说明本方法的有效性,通过对一百多万条的化工领域的文本数据进行清洗,进行语句的规范化,若出现字词不规范、句子结构混乱、段落不完整等异常情况,则进行相应的修改或删除,以保证文本内容的正确和规范,将文本整理成一句为一行且不同文章以空行的形式展现,并通过知识蒸馏技术将BERT作为教师模型训练好,然后训练学生模型多层的双向长短时记忆网络,在学生模型训练的同时学习教师模型分别在嵌入层、隐藏层以及预测层的之间的损失,并通过线性变换将不同空间表示进行计算,最后得到训练好的微型的学生模型。改进后的模型有效的在速度上比教师模型节省了1/6时间,准确率仅仅比教师模型略低一些。并通过对325199条在化工领域的招聘信息文本数据输入到预训练好的精简语言模型,并将句子中的每个字进行向量化,然后保持每个字在句子中的顺序不变,将每个字映射成一个向量,得到字向量序列。对字向量序列进行两次深度编码,将得到的字向量序列分别输入到CNN和BILSTM模型中,对两个特征向量进行特征融合,然后通过全连接层以及softmax输出最终的预测标签。改进的模型进一步提高了分类的准确度,在一共10个标签的文本分类中的精确率、召回率、F1-Score均达到了95%的分类效果。
基于相同的发明构思,本发明实施例提供的一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现上述的基于知识蒸馏的多层神经网络语言模型训练方法或文本分类方法。
以上所述仅为本发明的实施例子而已,并不用于限制本发明。凡在本发明的原则之内,所做的等同替换,均应包含在本发明的保护范围之内。本发明未作详细阐述的内容属于本专业领域技术人员公知的已有的技术。

Claims (7)

1.一种基于知识蒸馏的多层神经网络语言模型训练方法,其特征在于,包括以下步骤:
(1)构建BERT语言模型和多层BILSTM模型作为教师模型和学生模型,其中所构建的BERT语言模型中有六层transformer,多层BILSTM模型中有三层BILSTM网络;
(2)将文本语料集进行预处理后,对BERT语言模型进行训练得到训练好的教师模型;
(3)将预处理后的文本语料集输入到多层BILSTM模型,对学生模型进行训练,在学生模型训练时学习教师模型分别在嵌入层、隐藏层以及输出层的信息,通过线性变换将不同空间表示进行计算,结合教师模型与学生模型的嵌入层向量输出的MSE均方误差、学生模型每一层隐藏层输出与教师模型与之对应的每层transformer中的输出的MSE均方误差、以及教师模型softmax层输出的概率分布的交叉熵作为知识蒸馏的目标损失函数;最后得到训练好的学生模型。
2.根据权利要求1所述的基于知识蒸馏的多层神经网络语言模型训练方法,其特征在于,所述知识蒸馏的目标损失函数为:
Figure FDA0002461882700000011
其中,se与te分别代表学生模型与教师模型的嵌入表示,sh与t2h-1分别代表学生模型第h层的隐藏层与与教师模型第2h-1层的隐藏层的输出,sp与tp分别代表学生模型与教师模型预测的logits输出入,λe、λhid和λpre分别代表着不同层的重要程度,Lemb、Lhid和Lpre分别代表着不同层的损失计算函数。
3.根据权利要求2所述的基于知识蒸馏的多层神经网络语言模型训练方法,其特征在于,教师模型与学生模型在嵌入层的损失计算公式为:
Lemb(se,te)=MSE(seWe,te)
其中,MSE表示均方误差,We表示线性变换矩阵。
4.根据权利要求2所述的基于知识蒸馏的多层神经网络语言模型训练方法,其特征在于,教师模型与学生模型在隐藏层的损失计算公式为:
Lhid(sh,t2h-1)=MSE(shWh,t2h-1)
其中,MSE表示均方误差,Wh表示线性变换矩阵。
5.根据权利要求2所述的基于知识蒸馏的多层神经网络语言模型训练方法,其特征在于,教师模型与学生模型在输出层的损失计算公式为:
Lpre(sp,tp)=-softmax(tp)·log_softmax(sp/Tem)
其中,log_softmax表示对数似然,Tem表示温度值。
6.一种基于知识蒸馏的文本分类方法,其特征在于,所述文本分类方法利用根据权利要求1-5任一项所述的基于知识蒸馏的多层神经网络语言模型训练方法得到的训练好的学生模型,将文本数据转换为向量表示输入至一种神经网络模型进行文本分类,或输入至多种神经网络模型进行特征融合后进行文本分类。
7.一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-5任一项所述的基于知识蒸馏的多层神经网络语言模型训练方法或实现权利要求6所述的基于知识蒸馏的文本分类方法。
CN202010322267.8A 2020-04-22 2020-04-22 基于知识蒸馏的多层神经网络语言模型训练方法与装置 Active CN111611377B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010322267.8A CN111611377B (zh) 2020-04-22 2020-04-22 基于知识蒸馏的多层神经网络语言模型训练方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010322267.8A CN111611377B (zh) 2020-04-22 2020-04-22 基于知识蒸馏的多层神经网络语言模型训练方法与装置

Publications (2)

Publication Number Publication Date
CN111611377A true CN111611377A (zh) 2020-09-01
CN111611377B CN111611377B (zh) 2021-10-29

Family

ID=72199803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010322267.8A Active CN111611377B (zh) 2020-04-22 2020-04-22 基于知识蒸馏的多层神经网络语言模型训练方法与装置

Country Status (1)

Country Link
CN (1) CN111611377B (zh)

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112085012A (zh) * 2020-09-04 2020-12-15 泰康保险集团股份有限公司 项目名称和类别识别方法及装置
CN112199535A (zh) * 2020-09-30 2021-01-08 浙江大学 一种基于集成知识蒸馏的图像分类方法
CN112199592A (zh) * 2020-10-10 2021-01-08 信雅达系统工程股份有限公司 基于知识蒸馏进行模型压缩的银行舆情风控系统
CN112232511A (zh) * 2020-12-15 2021-01-15 之江实验室 面向多任务的预训练语言模型自动压缩方法及平台
CN112232086A (zh) * 2020-10-16 2021-01-15 腾讯科技(深圳)有限公司 一种语义识别方法、装置、计算机设备及存储介质
CN112257442A (zh) * 2020-09-27 2021-01-22 重庆生产力促进中心 一种基于扩充语料库神经网络的政策文件信息提取方法
CN112329823A (zh) * 2020-10-23 2021-02-05 北京中科智加科技有限公司 文本分类方法及装置、设备及介质
CN112347763A (zh) * 2020-12-03 2021-02-09 云知声智能科技股份有限公司 针对预训练语言模型bert的知识蒸馏方法、装置及系统
CN112527127A (zh) * 2020-12-23 2021-03-19 北京百度网讯科技有限公司 输入法长句预测模型的训练方法、装置、电子设备及介质
CN112529153A (zh) * 2020-12-03 2021-03-19 平安科技(深圳)有限公司 基于卷积神经网络的bert模型的微调方法及装置
CN112613303A (zh) * 2021-01-07 2021-04-06 福州大学 一种基于知识蒸馏的跨模态图像美学质量评价方法
CN112613273A (zh) * 2020-12-16 2021-04-06 上海交通大学 多语言bert序列标注模型的压缩方法及系统
CN112733550A (zh) * 2020-12-31 2021-04-30 科大讯飞股份有限公司 基于知识蒸馏的语言模型训练方法、文本分类方法及装置
CN112766463A (zh) * 2021-01-25 2021-05-07 上海有个机器人有限公司 基于知识蒸馏技术优化神经网络模型的方法
CN112905795A (zh) * 2021-03-11 2021-06-04 证通股份有限公司 文本意图分类的方法、装置和可读介质
CN112989844A (zh) * 2021-03-10 2021-06-18 北京奇艺世纪科技有限公司 一种模型训练及文本识别方法、装置、设备及存储介质
CN113204633A (zh) * 2021-06-01 2021-08-03 吉林大学 一种语义匹配蒸馏方法及装置
CN113255763A (zh) * 2021-05-21 2021-08-13 平安科技(深圳)有限公司 基于知识蒸馏的模型训练方法、装置、终端及存储介质
CN113297383A (zh) * 2021-06-22 2021-08-24 苏州大学 基于知识蒸馏的语音情感分类方法
CN113420121A (zh) * 2021-06-24 2021-09-21 中国科学院声学研究所 文本处理模型训练方法、语音文本处理方法及装置
CN113435208A (zh) * 2021-06-15 2021-09-24 北京百度网讯科技有限公司 学生模型的训练方法、装置及电子设备
CN113516968A (zh) * 2021-06-07 2021-10-19 北京邮电大学 一种端到端长时语音识别方法
CN113673254A (zh) * 2021-08-23 2021-11-19 东北林业大学 基于相似度保持的知识蒸馏的立场检测方法
CN113706347A (zh) * 2021-08-31 2021-11-26 深圳壹账通智能科技有限公司 一种多任务模型蒸馏方法、系统、介质及电子终端
CN113723596A (zh) * 2021-09-03 2021-11-30 北京地平线信息技术有限公司 定点模型的训练方法和训练装置
CN113836903A (zh) * 2021-08-17 2021-12-24 淮阴工学院 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置
CN113887610A (zh) * 2021-09-29 2022-01-04 内蒙古工业大学 基于交叉注意力蒸馏Transformer的花粉图像分类方法
CN114168709A (zh) * 2021-12-03 2022-03-11 中国人民解放军国防科技大学 一种基于轻量化预训练语言模型的文本分类方法
WO2022052997A1 (en) * 2020-09-09 2022-03-17 Huawei Technologies Co.,Ltd. Method and system for training neural network model using knowledge distillation
CN114298224A (zh) * 2021-12-29 2022-04-08 云从科技集团股份有限公司 图像分类方法、装置以及计算机可读存储介质
CN114969332A (zh) * 2022-05-18 2022-08-30 北京百度网讯科技有限公司 训练文本审核模型的方法和装置
CN115309849A (zh) * 2022-06-27 2022-11-08 北京邮电大学 一种基于知识蒸馏的特征提取方法、装置及数据分类方法
US11501171B2 (en) * 2020-12-17 2022-11-15 Zhejiang Lab Method and platform for pre-trained language model automatic compression based on multilevel knowledge distillation
US11526774B2 (en) * 2020-12-15 2022-12-13 Zhejiang Lab Method for automatically compressing multitask-oriented pre-trained language model and platform thereof
CN115599918A (zh) * 2022-11-02 2023-01-13 吉林大学(Cn) 一种基于图增强的互学习文本分类方法及系统
CN116028891A (zh) * 2023-02-16 2023-04-28 之江实验室 一种基于多模型融合的工业异常检测模型训练方法和装置
CN116304029A (zh) * 2023-02-22 2023-06-23 北京麦克斯泰科技有限公司 一种使用知识异构的深度学习模型蒸馏方法和系统
CN116719945A (zh) * 2023-08-08 2023-09-08 北京惠每云科技有限公司 一种医学短文本的分类方法、装置、电子设备及存储介质
CN116861302A (zh) * 2023-09-05 2023-10-10 吉奥时空信息技术股份有限公司 一种案件自动分类分拨方法
CN117197590A (zh) * 2023-11-06 2023-12-08 山东智洋上水信息技术有限公司 一种基于神经架构搜索与知识蒸馏的图像分类方法及装置
CN117620345A (zh) * 2023-12-28 2024-03-01 诚联恺达科技有限公司 一种真空回流焊炉的数据记录系统
CN117620345B (zh) * 2023-12-28 2024-06-07 诚联恺达科技有限公司 一种真空回流焊炉的数据记录系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271537A (zh) * 2018-08-10 2019-01-25 北京大学 一种基于蒸馏学习的文本到图像生成方法和系统
CN110232109A (zh) * 2019-05-17 2019-09-13 深圳市兴海物联科技有限公司 一种网络舆情分析方法以及系统
US20190341058A1 (en) * 2018-05-06 2019-11-07 Microsoft Technology Licensing, Llc Joint neural network for speaker recognition
CN110852426A (zh) * 2019-11-19 2020-02-28 成都晓多科技有限公司 基于知识蒸馏的预训练模型集成加速方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190341058A1 (en) * 2018-05-06 2019-11-07 Microsoft Technology Licensing, Llc Joint neural network for speaker recognition
CN109271537A (zh) * 2018-08-10 2019-01-25 北京大学 一种基于蒸馏学习的文本到图像生成方法和系统
CN110232109A (zh) * 2019-05-17 2019-09-13 深圳市兴海物联科技有限公司 一种网络舆情分析方法以及系统
CN110852426A (zh) * 2019-11-19 2020-02-28 成都晓多科技有限公司 基于知识蒸馏的预训练模型集成加速方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WENTING LI等: "The Automatic Text Classification Method Based on BERT and Feature Union", 《2019 IEEE 25TH INTERNATIONAL CONFERENCE ON PARALLEL AND DISTRIBUTED SYSTEMS》 *
王子牛: "基于BERT的中文命名实体识别方法", 《计算机科学》 *

Cited By (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112085012A (zh) * 2020-09-04 2020-12-15 泰康保险集团股份有限公司 项目名称和类别识别方法及装置
CN112085012B (zh) * 2020-09-04 2024-03-08 泰康保险集团股份有限公司 项目名称和类别识别方法及装置
WO2022052997A1 (en) * 2020-09-09 2022-03-17 Huawei Technologies Co.,Ltd. Method and system for training neural network model using knowledge distillation
CN112257442A (zh) * 2020-09-27 2021-01-22 重庆生产力促进中心 一种基于扩充语料库神经网络的政策文件信息提取方法
CN112257442B (zh) * 2020-09-27 2023-01-24 重庆生产力促进中心 一种基于扩充语料库神经网络的政策文件信息提取方法
CN112199535B (zh) * 2020-09-30 2022-08-30 浙江大学 一种基于集成知识蒸馏的图像分类方法
CN112199535A (zh) * 2020-09-30 2021-01-08 浙江大学 一种基于集成知识蒸馏的图像分类方法
CN112199592A (zh) * 2020-10-10 2021-01-08 信雅达系统工程股份有限公司 基于知识蒸馏进行模型压缩的银行舆情风控系统
CN112199592B (zh) * 2020-10-10 2022-06-03 信雅达科技股份有限公司 基于知识蒸馏进行模型压缩的银行舆情风控方法及系统
CN112232086A (zh) * 2020-10-16 2021-01-15 腾讯科技(深圳)有限公司 一种语义识别方法、装置、计算机设备及存储介质
CN112329823A (zh) * 2020-10-23 2021-02-05 北京中科智加科技有限公司 文本分类方法及装置、设备及介质
CN112347763A (zh) * 2020-12-03 2021-02-09 云知声智能科技股份有限公司 针对预训练语言模型bert的知识蒸馏方法、装置及系统
CN112529153B (zh) * 2020-12-03 2023-12-22 平安科技(深圳)有限公司 基于卷积神经网络的bert模型的微调方法及装置
WO2022116441A1 (zh) * 2020-12-03 2022-06-09 平安科技(深圳)有限公司 基于卷积神经网络的bert模型的微调方法及装置
CN112529153A (zh) * 2020-12-03 2021-03-19 平安科技(深圳)有限公司 基于卷积神经网络的bert模型的微调方法及装置
CN112232511B (zh) * 2020-12-15 2021-03-30 之江实验室 面向多任务的预训练语言模型自动压缩方法及平台
US11526774B2 (en) * 2020-12-15 2022-12-13 Zhejiang Lab Method for automatically compressing multitask-oriented pre-trained language model and platform thereof
JP7381814B2 (ja) 2020-12-15 2023-11-16 之江実験室 マルチタスク向けの予めトレーニング言語モデルの自動圧縮方法及びプラットフォーム
CN112232511A (zh) * 2020-12-15 2021-01-15 之江实验室 面向多任务的预训练语言模型自动压缩方法及平台
JP2023519770A (ja) * 2020-12-15 2023-05-12 之江実験室 マルチタスク向けの予めトレーニング言語モデルの自動圧縮方法及びプラットフォーム
CN112613273B (zh) * 2020-12-16 2022-09-23 上海交通大学 多语言bert序列标注模型的压缩方法及系统
CN112613273A (zh) * 2020-12-16 2021-04-06 上海交通大学 多语言bert序列标注模型的压缩方法及系统
US11501171B2 (en) * 2020-12-17 2022-11-15 Zhejiang Lab Method and platform for pre-trained language model automatic compression based on multilevel knowledge distillation
JP7283835B2 (ja) 2020-12-17 2023-05-30 之江実験室 マルチレベル知識蒸留に基づく事前訓練言語モデルの自動圧縮方法およびプラットフォーム
JP2023515901A (ja) * 2020-12-17 2023-04-14 之江実験室 マルチレベル知識蒸留に基づく事前訓練言語モデルの自動圧縮方法およびプラットフォーム
CN112527127A (zh) * 2020-12-23 2021-03-19 北京百度网讯科技有限公司 输入法长句预测模型的训练方法、装置、电子设备及介质
CN112733550B (zh) * 2020-12-31 2023-07-25 科大讯飞股份有限公司 基于知识蒸馏的语言模型训练方法、文本分类方法及装置
CN112733550A (zh) * 2020-12-31 2021-04-30 科大讯飞股份有限公司 基于知识蒸馏的语言模型训练方法、文本分类方法及装置
CN112613303A (zh) * 2021-01-07 2021-04-06 福州大学 一种基于知识蒸馏的跨模态图像美学质量评价方法
CN112766463A (zh) * 2021-01-25 2021-05-07 上海有个机器人有限公司 基于知识蒸馏技术优化神经网络模型的方法
CN112989844A (zh) * 2021-03-10 2021-06-18 北京奇艺世纪科技有限公司 一种模型训练及文本识别方法、装置、设备及存储介质
CN112905795A (zh) * 2021-03-11 2021-06-04 证通股份有限公司 文本意图分类的方法、装置和可读介质
CN113255763A (zh) * 2021-05-21 2021-08-13 平安科技(深圳)有限公司 基于知识蒸馏的模型训练方法、装置、终端及存储介质
CN113255763B (zh) * 2021-05-21 2023-06-09 平安科技(深圳)有限公司 基于知识蒸馏的模型训练方法、装置、终端及存储介质
CN113204633B (zh) * 2021-06-01 2022-12-30 吉林大学 一种语义匹配蒸馏方法及装置
CN113204633A (zh) * 2021-06-01 2021-08-03 吉林大学 一种语义匹配蒸馏方法及装置
CN113516968B (zh) * 2021-06-07 2022-05-20 北京邮电大学 一种端到端长时语音识别方法
CN113516968A (zh) * 2021-06-07 2021-10-19 北京邮电大学 一种端到端长时语音识别方法
CN113435208B (zh) * 2021-06-15 2023-08-25 北京百度网讯科技有限公司 学生模型的训练方法、装置及电子设备
CN113435208A (zh) * 2021-06-15 2021-09-24 北京百度网讯科技有限公司 学生模型的训练方法、装置及电子设备
CN113297383A (zh) * 2021-06-22 2021-08-24 苏州大学 基于知识蒸馏的语音情感分类方法
CN113297383B (zh) * 2021-06-22 2023-08-04 苏州大学 基于知识蒸馏的语音情感分类方法
CN113420121A (zh) * 2021-06-24 2021-09-21 中国科学院声学研究所 文本处理模型训练方法、语音文本处理方法及装置
CN113420121B (zh) * 2021-06-24 2023-07-28 中国科学院声学研究所 文本处理模型训练方法、语音文本处理方法及装置
CN113836903A (zh) * 2021-08-17 2021-12-24 淮阴工学院 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置
CN113836903B (zh) * 2021-08-17 2023-07-18 淮阴工学院 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置
CN113673254B (zh) * 2021-08-23 2022-06-07 东北林业大学 基于相似度保持的知识蒸馏的立场检测方法
CN113673254A (zh) * 2021-08-23 2021-11-19 东北林业大学 基于相似度保持的知识蒸馏的立场检测方法
CN113706347A (zh) * 2021-08-31 2021-11-26 深圳壹账通智能科技有限公司 一种多任务模型蒸馏方法、系统、介质及电子终端
CN113723596A (zh) * 2021-09-03 2021-11-30 北京地平线信息技术有限公司 定点模型的训练方法和训练装置
CN113887610A (zh) * 2021-09-29 2022-01-04 内蒙古工业大学 基于交叉注意力蒸馏Transformer的花粉图像分类方法
CN113887610B (zh) * 2021-09-29 2024-02-02 内蒙古工业大学 基于交叉注意力蒸馏Transformer的花粉图像分类方法
CN114168709B (zh) * 2021-12-03 2022-06-03 中国人民解放军国防科技大学 一种基于轻量化预训练语言模型的文本分类方法
CN114168709A (zh) * 2021-12-03 2022-03-11 中国人民解放军国防科技大学 一种基于轻量化预训练语言模型的文本分类方法
CN114298224A (zh) * 2021-12-29 2022-04-08 云从科技集团股份有限公司 图像分类方法、装置以及计算机可读存储介质
CN114969332A (zh) * 2022-05-18 2022-08-30 北京百度网讯科技有限公司 训练文本审核模型的方法和装置
CN115309849A (zh) * 2022-06-27 2022-11-08 北京邮电大学 一种基于知识蒸馏的特征提取方法、装置及数据分类方法
CN115599918A (zh) * 2022-11-02 2023-01-13 吉林大学(Cn) 一种基于图增强的互学习文本分类方法及系统
CN116028891A (zh) * 2023-02-16 2023-04-28 之江实验室 一种基于多模型融合的工业异常检测模型训练方法和装置
CN116304029B (zh) * 2023-02-22 2023-10-13 北京麦克斯泰科技有限公司 一种使用知识异构的深度学习模型蒸馏方法和系统
CN116304029A (zh) * 2023-02-22 2023-06-23 北京麦克斯泰科技有限公司 一种使用知识异构的深度学习模型蒸馏方法和系统
CN116719945B (zh) * 2023-08-08 2023-10-24 北京惠每云科技有限公司 一种医学短文本的分类方法、装置、电子设备及存储介质
CN116719945A (zh) * 2023-08-08 2023-09-08 北京惠每云科技有限公司 一种医学短文本的分类方法、装置、电子设备及存储介质
CN116861302B (zh) * 2023-09-05 2024-01-23 吉奥时空信息技术股份有限公司 一种案件自动分类分拨方法
CN116861302A (zh) * 2023-09-05 2023-10-10 吉奥时空信息技术股份有限公司 一种案件自动分类分拨方法
CN117197590A (zh) * 2023-11-06 2023-12-08 山东智洋上水信息技术有限公司 一种基于神经架构搜索与知识蒸馏的图像分类方法及装置
CN117197590B (zh) * 2023-11-06 2024-02-27 山东智洋上水信息技术有限公司 一种基于神经架构搜索与知识蒸馏的图像分类方法及装置
CN117620345A (zh) * 2023-12-28 2024-03-01 诚联恺达科技有限公司 一种真空回流焊炉的数据记录系统
CN117620345B (zh) * 2023-12-28 2024-06-07 诚联恺达科技有限公司 一种真空回流焊炉的数据记录系统

Also Published As

Publication number Publication date
CN111611377B (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
CN111611377B (zh) 基于知识蒸馏的多层神经网络语言模型训练方法与装置
CN110413785B (zh) 一种基于bert和特征融合的文本自动分类方法
CN108170736B (zh) 一种基于循环注意力机制的文档快速扫描定性方法
CN113158665B (zh) 一种基于文本摘要生成与双向语料改善对话文本生成的方法
CN111191002B (zh) 一种基于分层嵌入的神经代码搜索方法及装置
CN111143563A (zh) 基于bert与lstm及cnn融合的文本分类方法
CN113407660B (zh) 非结构化文本事件抽取方法
CN113626589B (zh) 一种基于混合注意力机制的多标签文本分类方法
CN111984791B (zh) 一种基于注意力机制的长文分类方法
CN112163092B (zh) 实体及关系抽取方法及系统、装置、介质
CN111414481A (zh) 基于拼音和bert嵌入的中文语义匹配方法
CN111460176A (zh) 一种基于哈希学习的多文档机器阅读理解方法
CN114896388A (zh) 一种基于混合注意力的层级多标签文本分类方法
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
CN113297364A (zh) 一种面向对话系统中的自然语言理解方法及装置
CN113987187A (zh) 基于多标签嵌入的舆情文本分类方法、系统、终端及介质
CN112232053A (zh) 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质
CN111914553B (zh) 一种基于机器学习的金融信息负面主体判定的方法
CN115080715B (zh) 基于残差结构和双向融合注意力的跨度提取阅读理解方法
CN116049387A (zh) 一种基于图卷积的短文本分类方法、装置、介质
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN110955745B (zh) 一种基于深度学习的文本哈希检索方法
CN114492459A (zh) 基于知识图谱与交互图卷积的评论情感分析方法及系统
CN112417155B (zh) 基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质
CN111666375A (zh) 文本相似度的匹配方法、电子设备和计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20200901

Assignee: Huai'an Huiyuan Zhiye Enterprise Management Co.,Ltd.

Assignor: HUAIYIN INSTITUTE OF TECHNOLOGY

Contract record no.: X2021980015745

Denomination of invention: Training method and device of multilayer neural network language model based on knowledge distillation

Granted publication date: 20211029

License type: Common License

Record date: 20211227