CN116384490A - 一种应用于知识蒸馏的知识选择方法 - Google Patents
一种应用于知识蒸馏的知识选择方法 Download PDFInfo
- Publication number
- CN116384490A CN116384490A CN202310323105.XA CN202310323105A CN116384490A CN 116384490 A CN116384490 A CN 116384490A CN 202310323105 A CN202310323105 A CN 202310323105A CN 116384490 A CN116384490 A CN 116384490A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- model
- training
- teacher
- selection module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013140 knowledge distillation Methods 0.000 title claims abstract description 37
- 238000010187 selection method Methods 0.000 title claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 47
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000002512 chemotherapy Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 8
- 239000013604 expression vector Substances 0.000 claims description 6
- 238000013145 classification model Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 238000013519 translation Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Vaporization, Distillation, Condensation, Sublimation, And Cold Traps (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种应用于知识蒸馏的知识选择方法,包括以下步骤:1)使用文本分类任务的数据训练教师模型;2)使用训练后的教师模型来抽取不同类型的知识,并把这些知识进行分类;3)基于训练后的教师模型来初始化学生模型;4)使用REINFORCE算法训练知识选择模块;5)使用被训练过后的知识选择模块来训练最终的学生模型,训练时知识选择模块根据对应教师模型和学生模型的特征来选择学生模型应该学习的类型的知识。本发明方法可学习知识蒸馏过程中适合学生模型学习的知识类型,这使得在知识蒸馏过程中可以在每一个训练步中根据教师模型和学生模型的状态来选择适合学生模型所学习的知识类型。
Description
技术领域
本发明涉及一种知识蒸馏技术,具体为一种应用于知识蒸馏的知识选择方法。
背景技术
预训练语言模型(PLM,Pre-trained Language Model)通常采用双向的Transformer来堆叠而成,通过在大规模单语语料进行训练,然后在特定任务数据进行微调,可以达到优异的性能。尽管能够在很多自然语言处理任务上达到优异的性能,但是其由于拥有庞大的体积,导致其遭受难以部署、计算代价较大和推理时间较长等问题。知识蒸馏是压缩PLM方法中的一类方法,也是最常用的一种方法,表示精简、体积较小的PLM(学生模型),在具有更大规模的、性能更好的PLM(教师模型)的指导下进行训练更新。
PLM采用多个双向的Transformer模型进行堆叠而成,每一个Transformer的输出是下一个Transformer的输入。通常,每一层Transformer的输出也称为中间层特征。在进行文本分类的时候,其特点是,利用编码器将输入的文字序列转化为包含文字信息的向量,然后在最后一层的时候加入一个分类器,来进行计算输入文本类别概率分布。
早期的文本分类框架,就是使用卷积神经网络编码输入文本序列,然后使用循环神经网络(RNN,Recurrent Neural Network)转换模型中间向量为对应文本的最终特征向量,然后将该特征向量输入一个分类器进行分类。其中带有注意力机制的PLM在文本分类中的成功应用,将文本分类带上了一个新的高度。在PLM读取文本之后,注意力机制模仿了人类读取文本的过程,模型在就算输入文本特征向量时,并不像循环神经网络那样,将所有单词视同一律,而是为不同单词赋予不同的权重,与当前时刻的词相关性高的词,将获得较高的注意力权重,可以看出,注意力机制的引入,缓解了循环神经网络的不足。
在实际的过程中,无论是文本分类还是其他的基于深度神经网络的任务都是在不断的进行模拟人的行为,并且于此也在不断的创新和突破。在知识蒸馏过程中如此,设想,如果有一个模型先去学习所拥有的语料库知识,然后借用这个模型所学习的知识,也许能够帮助其他模型进行更好的学习。
虽然现在已经存在着一些针对知识蒸馏的知识选择方法,比如动态地调整损失的权重,但是依然存在以下不足:
1)并没有直接对知识类型进行建模,比如动态调整损失权重。在调整损失权重时并没有把知识和损失进行直接相关联系,也并没有直接的去解决知识蒸馏中知识选择这一问题;
2)损失权重调节建模方式简单,现有的权重调节的方式往往是直接使用模型的置信度等一些相关的因素进行直接建模,但是世界上知识的选择受到多个因素影响,并不是单纯的某些因素可以决定;
3)同时考虑较少的知识类型,现有的方法并没有较系统地把所有的知识进行归类划分,而是针对某一个知识来去解决知识选择问题。比如回复知识,现有的方法只针对在训练过程中回复知识应该不应该被学生模型进行学习这一问题进行研究,而忽略了其他类型的知识。
发明内容
针对现有知识蒸馏中训练时候知识类型多样的问题,导致学生模型可能学习不到正确的知识等不足,本发明要解决的技术问题是提供一种应用于知识蒸馏的知识选择方法,可以根据教师模型和学生模型学习的状态来判断当前情况下应该让学生模型学习什么类型的知识,以获得更好的性能,在知识蒸馏的训练过程中更加充分和正确地利用教师模型的知识。
本发明提供一种应用于知识蒸馏的知识选择方法,包括以下步骤:
1)使用文本分类任务的数据训练教师模型;
2)使用训练后的教师模型来抽取不同类型的知识,并把这些知识进行分类;
3)基于训练后的教师模型来初始化学生模型;
4)使用REINFORCE算法训练知识选择模块;
5)使用被训练过后的知识选择模块来训练最终的学生模型,训练时知识选择模块根据对应教师模型和学生模型的特征来选择学生模型应该学习的类型的知识。
步骤1)是使用所拥有的文本分类任务数据进行训练教师模型,表示为:
TeacherModel=ModelTrain(S,B)
其中ModelTrain为模型训练函数,S为输入文本集合,B为输入文本的标签,表示单一的训练一个文本分类模型。
步骤2)具体步骤为:
201)设文本分类任务为二分类任务,其输入的文本为S=(s0,s1,s2,…si…,sm),其si表示文本S中的第i个句子;对应文本分类的标签为B=(b0,b1,b2,…bi…,bm),其bi表示句子si对应的分类标签,其值为0或1;
使用教师模型对所给文本S中句子si进行分类,产生三类不同的知识;
202)抽取教师模型对输入句子xi所计算出来的概率分布PT(xi)作为回复知识;
203)抽取教师模型最后一层表示作为特征知识LT(xi);
204)计算教师模型每一层之间的输出之间的相对关系作为相对知识RT(xi)。
步骤4)通过使用REINFORCE算法来训练一个知识选择模块,具体步骤为:
401)在训练的每一步中,分别提取教师模型和学生模型最后一层的表示向量,然后将其连接起来作为知识选择模块的特征输入F(x),表示包含对应知识蒸馏过程中教师模型和学生模型的学习状态和数据特征;
402)知识选择模块根据输入的特征决策当前状态下学生模型应该学习的类型的知识,让学生模型进行学习;
403)在知识蒸馏完成后,计算学生模型在校验集上的得分,然后用该得分和学生模型初始状态在校验集上的得分做差作为获得对应知识选择模块决策的奖励值R;
404)使用奖励值R和知识选择模块在步骤402)中所做出决策的损失和来更新知识选择模块的参数;
405)重复步骤401)到404),直到知识选择模块模型参数收敛。
步骤5)中,使用步骤4)所训练的知识选择模块决策学生模型在训练过程的每一步应该学习的类型的知识,具体步骤如下:
501)提取当前训练步中教师模型和学生模型最后一层的输出表示向量,并拼接成为特征F(x),输入知识选择模块获得当前训练步应该给学生模型进行学习的知识类型;
502)根据知识选择模块提供的决策,来更新学生模型的参数,最终实现了知识选择。
本发明具有以下有益效果及优点:
1.本发明全面的划分知识蒸馏过程中知识类型,在知识蒸馏过程常用的知识类型为1)回复知识,其来源于教师模型最后输出的概率分布;2)特征知识,其来源于教师模型最后一层输出的向量表示;3)相对性知识,其来源于教师模型层与层之间的相对关系。
2.本发明使用神经网络来进行选择特定的知识类型,其可以根据输入来自动学习相关特征,从而来决策在当前训练步中学生模型应该学习什么类型的知识,并不像现有的一些方法进行手动提取特征,具有很好地自适应能力。
3.本发明可以针对多个知识类型进行选择,并且可以根据现有的需求来进行扩展知识空间和奖励函数,具有易操作、易扩展等优势。
4.除了上述所述以外,本发明还具有很强的灵活性,比如教师模型可以采用性能比较强的集成模型,从而从集成的模型中来选择更加适合学生模型学习的知识类型。
附图说明
图1为本发明的知识选择模块结构图;
图2为本发明的总体过程的流程图。
具体实施方式
下面结合说明书附图对本发明作进一步阐述。
本发明提供一种应用于知识蒸馏的知识选择方法,在知识蒸馏过程中,可以为学生模型提供不同的知识类型,具体流程如图2所示,包括如下步骤:
1)使用文本分类任务的数据训练教师模型,该教师模型的特点为性能表现强,但体积较大。这里设定教师模型为具有12层的预训练模型BERT;
2)使用训练后的教师模型来抽取不同类型的知识,并把这些知识进行分类;
3)基于训练后的教师模型来初始化学生模型;
为了学生模型具有一个较好的初始化状态,使用教师模型的参数来对学生模型进行初始化。这里设定学生模型为6层的BERT,因此,使用教师模型的前6层参数来初始化学生模型;
4)使用REINFORCE算法训练知识选择模块(结构如图1所示);
首先在每一个训练步中,输入给KSM教师模型最后一层的隐含层和学生模型最后一层的隐含层输入,然后KSM选择特定的知识类型给学生模型进行学习,在学习完之后,计算学生模型在校验集上的得分,并使用该得分和学生模型在初始状态时校验集上的得分做差,所计算的差值为对应KSM知识选择的奖励。
5)使用被训练过后的知识选择模块来训练最终的学生模型,训练时知识选择模块根据对应教师模型和学生模型的特征来选择学生模型应该学习的类型的知识。
步骤1)是使用所拥有的文本分类任务数据进行训练教师模型,表示为:
TeacherModel=ModelTrain(S,B)
其中ModelTrain为模型训练函数,S为输入文本集合,B为输入文本的标签,表示单一的训练一个文本分类模型,其教师模型具有性能表现较好、体积大的特点;
使用特定任务的数据微调一个12层的BERT作为知识的提供者,也即是教师模型;
在训练的过程中,为了提升模型的表示学习能力,使用位置编码和多头注意力,在不用表示空间中,捕获句子中不同词之间的关系,从而使得模型能够学习更多维度的知识;具体为:
101)计算每个单词的位置编码,并与词嵌入向量相加,生成模型所需要的输入向量,计算方式如下:
PE(.)为位置编码函数,pos为当前词的位置,i代表位置编码向量中的第几维,dmodel是翻译模型的一个基础参数,表示每个位置的隐层大小。;
102)将模型向量Q、K、V映射成h个子集(h个头),对其进行点乘与连接操作,具体计算如下:
headi=Attention(QWi Q,KWI K,VWI V)
Mult[Head(Q,K,V)=Concat(head1,…,headh)Wo
headi为第i个头的向量,W为翻译模型参数,Attention(.)为注意力机制函数,Concat(.)为向量连接函数;
103)使用全连接网络,将注意力机制操作之后的向量表示映射到新空间,具体实现如下:
FFN(x)=max(0,xW1+bi)W2+b2
其中,W1、W2、b1、b2为翻译模型的参数,由模型自动学习得到。
104)使用对应的交叉熵损失函数训练模型;
105)对模型进行测试,使用F1值当做衡量指标。
步骤2),具体步骤为:
201)设文本分类任务为二分类任务,其输入的文本为S=(s0,s1,s2,…si…,sm),其si表示文本S中的第i个句子;对应文本分类的标签为B=(b0,b1,b2,…bi…,bm),其bi表示句子si对应的分类标签,其值为0或1;
使用教师模型对所给文本S中句子si进行分类,产生三类不同的知识;
202)抽取教师模型对输入句子xi所计算出来的概率分布PT(xi)作为回复知识;
203)抽取教师模型最后一层表示作为特征知识LT(xi);
204)计算教师模型每一层之间的输出之间的相对关系作为相对知识RT(xi)。
使用教师模型对所给文本S中句子si进行分类,在这个过程中将抽三类不同的知识:第一类为回复知识,其为教师模型计算的句子类别的概率分布,表示为PT(xi);第二类为特征知识,其为教师模型最后一层的输出表示,表示为LT(xi);第三类为相对性知识,其为教师模型每一层输出表示的相对相关,表示为RT(xi)。在知识蒸馏过程中,这些知识都将作为被选择来提供给学生模型进行学习;
步骤3)基于训练好的教师模型来初始化学生模型是为了学生模型具有一个较好的初始化状态,使用教师模型的参数来对学生模型进行初始化。这里设定学生模型为6层的BERT,因此,使用教师模型的前6层参数来初始化学生模型;
4)通过使用REINFORCE算法训练一个知识选择模块,以下称为KSM,具体为:
401)在训练的每一步中,分别提取教师模型和学生模型最后一层的表示向量,然后将其连接起来作为知识选择模块的特征输入F(x),表示包含对应知识蒸馏过程中教师模型和学生模型的学习状态和数据特征;
402)知识选择模块根据输入的特征决策当前状态下学生模型应该学习的类型的知识,让学生模型进行学习;
403)在知识蒸馏完成后,计算学生模型在校验集上的得分,然后用该得分和学生模型初始状态在校验集上的得分做差作为获得对应知识选择模块决策的奖励值R;
404)使用奖励值R和知识选择模块在步骤402)中所做出决策的损失和来更新知识选择模块的参数;
405)重复步骤401)到404),直到知识选择模块模型参数收敛。
步骤4)首先在每一个训练步中,输入给KSM教师模型最后一层的隐含层和学生模型最后一层的隐含层输入,然后KSM选择特定的知识类型给学生模型进行学习,在学习完之后,计算学生模型在校验集上的得分,并使用该得分和学生模型在初始状态时校验集上的得分做差,所计算的差值为对应KSM知识选择的奖励。
步骤5)是使用步骤4)所训练的知识选择模块决策学生模型在训练过程的每一步应该学习的类型的知识,具体步骤如下:
501)提取当前训练步中教师模型和学生模型最后一层的输出表示向量,并拼接成为特征F(x),输入知识选择模块获得当前训练步应该给学生模型进行学习的知识类型;
502)根据知识选择模块提供的决策,来更新学生模型的参数,最终实现了知识选择。
使用被训练过的KSM来训练最终的学生模型,训练时KSM会根据对应教师模型和学生模型的特征来选择学生模型应该学习什么类型的知识。
例如,对于蒸馏6层的BERT学生模型的时候,KSM在每一个训练步中都会选择对应适合学生模型学习的知识类型。比如,在开始的时候,选择特征知识来先让学生模型学习一些内部知识。当有了一定的知识储备之后,再让学生模型学习去学习对应文本的预测概率分布知识,也就是回复知识,最后再让学生学习包含结构关系的相对性关系。
表1
数据集 | 原始知识蒸馏方法 | 基于微调的方法 | 本发明方法 |
MRPC | 85.5/79.8 | 85.1/79.2 | 87.9/82.2 |
QQP | 70.0/88.4 | 69.4/88.2 | 71.1/89.1 |
MNLI-m/mm | 82.4/81.6 | 81.1/79.8 | 83.1/82.1 |
本发明使用REINFORCE算法来训练一个知识选择模块,该知识选择模块可以在知识蒸馏的过程中根据教师模型和学生模型的学习特征来选择适合学生模型学习的知识类型,使学生模型能够学习更加合适的知识。进而提升了知识蒸馏最终蒸馏出来学生模型的性能。本发明分别在MRPC、QQP和MNLI三个文本分类数据集上进行实验,并在表1中报道对应的准确率和F1分数。此外,还复现了两种比较常见的预训练模型压缩方法,一种是原始知识蒸馏方法,其方法直接使用教师模型的输出分布来对学生模型进行训练,并没有知识选择的过程;另外一种设计基于微调的方法,其方法直接使用教师模型的参数来初始化学生模型的参数,之后使用数据进行微调学生模型,并没有知识蒸馏的过程。从实验结果来看,本发明方法明显要好与其他两种方法,最明显的是本发明方法可以在MRPC数据集上实现87.9准确率分数,要高于原始的知识蒸馏方法2.4个准确率分数。综合对比来看,本发明的方法可以有效提升知识蒸馏表现,最终证明本发明在知识蒸馏过程中有效地实现知识选择。
Claims (5)
1.一种应用于知识蒸馏的知识选择方法,其特征在于包括以下步骤:
1)使用文本分类任务的数据训练教师模型;
2)使用训练后的教师模型来抽取不同类型的知识,并把这些知识进行分类;
3)基于训练后的教师模型来初始化学生模型;
4)使用REINFORCE算法训练知识选择模块;
5)使用被训练过后的知识选择模块来训练最终的学生模型,训练时知识选择模块根据对应教师模型和学生模型的特征来选择学生模型应该学习的类型的知识。
2.按权利要求1所述的应用于知识蒸馏的知识选择方法,其特征在于:步骤1)是使用所拥有的文本分类任务数据进行训练教师模型,表示为:
TeacherModel=ModelTrain(S,B)
其中ModelTrain为模型训练函数,S为输入文本集合,B为输入文本的标签,表示单一的训练一个文本分类模型。
3.按权利要求1所述的应用于知识蒸馏的知识选择方法,其特征在于:基于步骤2)具体步骤为:
201)设文本分类任务为二分类任务,其输入的文本为S=(s0,s1,s2,…si…,sm),其si表示文本S中的第i个句子;对应文本分类的标签为B=(b0,b1,b2,…bi…,bm),其bi表示句子si对应的分类标签,其值为0或1;
使用教师模型对所给文本S中句子si进行分类,产生三类不同的知识;
202)抽取教师模型对输入句子xi所计算出来的概率分布PT(xi)作为回复知识;
203)抽取教师模型最后一层表示作为特征知识LT(xi);
204)计算教师模型每一层之间的输出之间的相对关系作为相对知识RT(xi)。
4.按权利要求1所述的应用于知识蒸馏的知识选择方法,其特征在于:步骤4)通过使用REINFORCE算法来训练一个知识选择模块,具体步骤为:
401)在训练的每一步中,分别提取教师模型和学生模型最后一层的表示向量,然后将其连接起来作为知识选择模块的特征输入F(x),表示包含对应知识蒸馏过程中教师模型和学生模型的学习状态和数据特征;
402)知识选择模块根据输入的特征决策当前状态下学生模型应该学习的类型的知识,让学生模型进行学习;
403)在知识蒸馏完成后,计算学生模型在校验集上的得分,然后用该得分和学生模型初始状态在校验集上的得分做差作为获得对应知识选择模块决策的奖励值R;
404)使用奖励值R和知识选择模块在步骤402)中所做出决策的损失和来更新知识选择模块的参数;
405)重复步骤401)到404),直到知识选择模块模型参数收敛。
5.按权利要求1所述的应用于知识蒸馏的知识选择方法,其特征在于:步骤5)中,使用步骤4)所训练的知识选择模块决策学生模型在训练过程的每一步应该学习的类型的知识,具体步骤如下:
501)提取当前训练步中教师模型和学生模型最后一层的输出表示向量,并拼接成为特征F(x),输入知识选择模块获得当前训练步应该给学生模型进行学习的知识类型;
502)根据知识选择模块提供的决策,来更新学生模型的参数,最终实现了知识选择。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310323105.XA CN116384490A (zh) | 2023-03-30 | 2023-03-30 | 一种应用于知识蒸馏的知识选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310323105.XA CN116384490A (zh) | 2023-03-30 | 2023-03-30 | 一种应用于知识蒸馏的知识选择方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116384490A true CN116384490A (zh) | 2023-07-04 |
Family
ID=86980100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310323105.XA Pending CN116384490A (zh) | 2023-03-30 | 2023-03-30 | 一种应用于知识蒸馏的知识选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116384490A (zh) |
-
2023
- 2023-03-30 CN CN202310323105.XA patent/CN116384490A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107844469B (zh) | 基于词向量查询模型的文本简化方法 | |
CN110490946B (zh) | 基于跨模态相似度和生成对抗网络的文本生成图像方法 | |
CN111274362B (zh) | 一种基于transformer架构的对话生成方法 | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN113656570A (zh) | 基于深度学习模型的视觉问答方法及装置、介质、设备 | |
CN112000772B (zh) | 面向智能问答基于语义特征立方体的句子对语义匹配方法 | |
KR101939209B1 (ko) | 신경망 기반의 텍스트의 카테고리를 분류하기 위한 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체 | |
CN111104513B (zh) | 一种游戏平台用户问答业务的短文本分类方法 | |
CN111930887A (zh) | 基于联合训练方式的多文档多答案机器阅读理解系统 | |
CN110516240B (zh) | 一种基于Transformer的语义相似度计算模型DSSM技术 | |
CN111723914A (zh) | 一种基于卷积核预测的神经网络架构搜索方法 | |
CN110334196B (zh) | 基于笔画和自注意力机制的神经网络中文问题生成系统 | |
CN112926655B (zh) | 一种图像内容理解与视觉问答vqa方法、存储介质和终端 | |
CN112527993A (zh) | 一种跨媒体层次化深度视频问答推理框架 | |
CN112905762A (zh) | 一种基于同等注意力图网络的视觉问答方法 | |
Ku et al. | Adding learning to cellular genetic algorithms for training recurrent neural networks | |
CN114170461A (zh) | 基于特征空间重整化的师生架构含噪声标签图像分类方法 | |
CN112989803B (zh) | 一种基于主题向量学习的实体链接预测方法 | |
CN111666375B (zh) | 文本相似度的匹配方法、电子设备和计算机可读介质 | |
CN116226357B (zh) | 一种输入中包含错误信息场景下的文档检索方法 | |
CN111582287B (zh) | 一种基于充足视觉信息与文本信息的图像描述方法 | |
CN110909174B (zh) | 一种基于知识图谱的简单问答中实体链接的改进方法 | |
CN112651225A (zh) | 一种基于多阶段最大化注意力的多项选择机器阅读理解的方法 | |
CN116384490A (zh) | 一种应用于知识蒸馏的知识选择方法 | |
CN115796187A (zh) | 一种基于对话结构图约束的开放域对话方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |