CN113486185B - 一种基于联合训练的知识蒸馏方法、处理器及存储介质 - Google Patents

一种基于联合训练的知识蒸馏方法、处理器及存储介质 Download PDF

Info

Publication number
CN113486185B
CN113486185B CN202111043005.9A CN202111043005A CN113486185B CN 113486185 B CN113486185 B CN 113486185B CN 202111043005 A CN202111043005 A CN 202111043005A CN 113486185 B CN113486185 B CN 113486185B
Authority
CN
China
Prior art keywords
model
training
output
loss function
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111043005.9A
Other languages
English (en)
Other versions
CN113486185A (zh
Inventor
谷满昌
蒋敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China State Construction eCommerce Co Ltd
Original Assignee
China State Construction eCommerce Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China State Construction eCommerce Co Ltd filed Critical China State Construction eCommerce Co Ltd
Priority to CN202111043005.9A priority Critical patent/CN113486185B/zh
Publication of CN113486185A publication Critical patent/CN113486185A/zh
Application granted granted Critical
Publication of CN113486185B publication Critical patent/CN113486185B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于联合训练的知识蒸馏方法、处理器及存储介质,该方法包括:获取训练数据集,所述训练数据集包括至少一个类别的训练语料数据;使用所述训练数据集分别训练第一模型和第二模型;使用所述训练数据集对所述第一模型和第二模型进行联合训练,获取损失函数;其中,联合训练是将第一模型或第二模型的权重与输出进行交换,在模型训练过程中,将所述第二模型的输出送入到所述第一模型中,所述第一模型再继续基于知识蒸馏训练所述第二模型;使用训练好的第二模型对新输入的数据进行意图识别预测,并根据预测的结果判断是否还需对第二模型进行训练;采用本方法能够有效的降低训练的成本,并且增强模型的可扩展能力。

Description

一种基于联合训练的知识蒸馏方法、处理器及存储介质
技术领域
本发明涉及知识蒸馏技术领域,具体而言,涉及一种基于联合训练的知识蒸馏方法、处理器及存储介质。
背景技术
语言模型预训练(如BERT)显著提高了许多自然语言处理任务的性能,例如:BERT-base模型能够包含一亿个参数,较大的 BERT-large甚至包含3.4亿个参数。显然,很难将这种规模的模型部署到资源有限的环境(例如移动设备或嵌入式系统)当中。
知识蒸馏是基于教师-学生的模型压缩方式,通过引入大规模教师(teacher)模型以诱导小规模学生(student)模型的训练,实现知识迁移。做法是先训练一个教师模型,然后使用教师模型的输出和数据的标注标签去训练学生模型,使得学生模型不仅可以从标注数据中学习如何判断正确样本的类别。
目前的中文预训练模型使用了大型的训练语料(例如:中文维基百科语料等),模型参数量巨大,训练周期通常是几周。预训练模型通常采用的是语言模型任务,而对于自然语言处理中常见的序列标注任务,分类任务,生成式任务等并不适用。通常采用基于预训练模型微调的方式解决上述任务,微调是指网络参数初始化加载预训练学习好的参数,其他高层特定任务相关的参数随机初始化来训练网络。然而通过微调得到的任务模型参数量仍然巨大,部署线上推理服务延迟性能等不满足要求。所以目前业界主流的方法是采用上面提出的知识蒸馏方法,目前知识蒸馏作用于预训练模型阶段,教师模型指导学生模型在预训练阶段的时候适应模型压缩后的场景(TinyBert, PKD-Bert),下游任务采用学生模型进行微调。然而这样两阶段的模型训练成本较高,尤其是预训练模型的知识蒸馏部分,可扩展能力也较差;针对这一问题,本发明提出一种新的技术方案,以期在一定程度上解决训练成本高问题。
发明内容
本发明的目的在于提供一种基于联合训练的知识蒸馏方法、处理器及存储介质,其通过第一模型与第二模型的联合训练,降低模型训练的成本,并且增强模型的可扩展能力。
本发明的实施例通过以下技术方案实现:
第一方面,提供一种基于联合训练的知识蒸馏方法,包括:
获取训练数据集,所述训练数据集包括至少一个类别的训练语料数据;
使用所述训练数据集分别训练第一模型和第二模型,其中第一模型为教师模型,第二模型为学生模型;
使用所述训练数据集对所述第一模型和第二模型进行联合训练,获取损失函数;
使用训练好的第二模型对新输入的数据进行意图和场景的识别预测,并根据预测的结果判断是否还需对第二模型进行训练。
进一步的,所述训练数据集由已人工标注的数据组成,所述标注的内容至少包括场景和意图。
进一步的,所述第二模型由所述训练数据集中的一个类别的训练语料数据进行训练得到。
进一步的,所述联合训练,获取损失函数之前还包括:
获取所述第一模型和第二模型的输出;定义训练数据集(X,Y),其中X为原始数据集,Y为所述原始数据集对应的标注内容集;则有第一模型的输出为q=f(x),其中f表示第一模型,xXqQQ为第一模型的输出集;第二模型的输出为p=g(x),其中g表示第二模型,pPP为第二模型的输出集。
进一步的,所述联合训练,获取损失函数包括:
将所述第二模型的输出送入到所述第一模型中,作为第一模型计算损失函数的输入,再结合所述第一模型的输出和第二模型的输出计算获得所述第一模型的第一损失函数;
同时将所述第一模型的输出送入到所述第二模型中,作为第二模型计算损失函数的输入,结合所述第一模型的输出和第二模型的输出计算获得所述第二模型的第二损失函数;
以及第一模型与第二模型在同一神经网络中联合训练,基于第一模型的损失函数与第二模型的损失函数计算获取第三损失函数,所述第三损失函数为赋予不同调节系数后的所述第一损失函数与第二损失函数的和。
进一步的,所述第一损失函数具体为
Figure DEST_PATH_IMAGE001
,其中CE表示交叉损失熵,yY
Figure DEST_PATH_IMAGE002
Figure 895291DEST_PATH_IMAGE003
为输出p的特殊概率化表示,
Figure DEST_PATH_IMAGE004
为输出集P中的输出特殊概率化表示后的集合,
Figure 687797DEST_PATH_IMAGE005
为所述第二模型中输出p特殊概率化表示后的交叉损失熵,q i ∈Q,
Figure DEST_PATH_IMAGE006
i表示对应集合中的第i个样本;
所述第二损失函数具体为
Figure 339971DEST_PATH_IMAGE007
,其中
Figure DEST_PATH_IMAGE008
Figure 548229DEST_PATH_IMAGE009
为输出q的特殊概率化表示,
Figure DEST_PATH_IMAGE010
为输出集Q中的输出特殊概率化表示后的集合,
Figure 237968DEST_PATH_IMAGE011
为第一模型中输出q特殊概率化表示后的交叉损失熵,p i ∈P,
Figure DEST_PATH_IMAGE012
所述第三损失函数具体为Loss=αLoss 1 Loss 2 ,其中α、β均为调节系数。
进一步的,所述特殊概率化具体为,在概率化的过程中增加知识蒸馏的温度T对概率化的影响。进一步的,所述根据预测的结果判断是否还需对第二模型进行训练,包括:
判断场景预测概率和意图预测概率是否高于设定阈值,若场景预测概率和意图预测概率中的任一项高于阈值,则输出数据的意图和场景,若场景预测概率和意图预测概率均低于阈值,则将该数据送入第一模型,获取第一模型输出的意图和场景。
第二方面,提供一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述的基于联合训练的知识蒸馏方法。
第三方面,提供一种存储介质,所述存储介质用于存储计算机程序,其中,所述计算机程序运行时控制所述存储介质所在设备执行上述的基于联合训练的知识蒸馏方法。
本发明实施例的技术方案至少具有如下优点和有益效果:
本发明通过联合蒸馏的方法,在达到同样预测准确率的基础上,本发明所提出的方法,具有更高效率,并且不需要过多的标注数据,能够减少模型训练的成本;其次本发明的方法还能够带来较好的模型可扩展能力。
附图说明
图1为本发明提供的基于联合训练的知识蒸馏方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
本发明提供一种基于联合训练的知识蒸馏方法,如图1所示,包括:
获取训练数据集,所述训练数据集包括至少一个类别的训练语料数据;并且所述训练数据集由已人工标注的数据组成,所述标注的内容包括场景、意图、业务和实体名等。
本发明主要应用场景之一包括电商客服平台,在电商客服平台中,智能客服需要识别客户所发送的语句,该场景下,通常需要识别语料的场景,如购买前了解商品的参数性能或购买后了解如何退换货等,因此其需要准确的了解对话所处的场景;当然对话的具体意图同样十分重要,如客户是需要了解具体哪个方面的商品性能等;同样,还需要识别对话中的实体名等,便能够准确地获取客户是在针对哪款商品进行咨询。
使用所述训练数据集分别训练第一模型和第二模型;所述第二模型由所述训练数据集中的一个类别的训练语料数据进行训练得到。
此处的第一模型相当于教师模型,第二模型相当于学生模型,一般情况下,线上部署推理服务需要采用效率高的学生模型,因此第二模型通过需要具有更少的复杂度或是其只需对某一具体类别的语料进行预测识别,所以在预训练时,我们仅需使用一个类别的语料来对其进行训练,这样可以使第二模型对具体任务有较好的结果,并且便于在下一阶段中用更少的复杂度与第一模型进行联合训练。
在联合训练,获取损失函数之前,为了获取所述第一模型和第二模型的输出;本方案定义训练数据集(X,Y),其中X为原始数据集,Y为所述原始数据集对应的标注内容集;则有第一模型的输出为q=f(x),其中f表示第一模型,xXqQQ为第一模型的输出集;第二模型的输出为p=g(x),其中g表示第二模型,pPP为第二模型的输出集。
使用所述训练数据集对所述第一模型和第二模型进行联合训练,获取损失函数;其中,联合训练,获取损失函数包括:
将第一模型或第二模型的输出进行交换,在模型训练过程中,将所述第二模型的输出送入到所述第一模型中,结合所述第一模型和第二模型的输出计算获得所述第一模型的第一损失函数;所述第一损失函数具体为
Figure 122747DEST_PATH_IMAGE001
,其中CE表示交叉损失熵,yY
Figure 389781DEST_PATH_IMAGE013
Figure DEST_PATH_IMAGE014
为输出p的特殊概率化表示,
Figure 401730DEST_PATH_IMAGE004
为输出集P中的输出特殊概率化表示后的集合,
Figure DEST_PATH_IMAGE015
为所述第二模型中输出p特殊概率化表示后的交叉损失熵,q i ∈Q,
Figure 132926DEST_PATH_IMAGE006
i表示对应集合中的第i个样本;需要说明的是,由于在训练过程中,输出集以及特殊概率化后的输出集均为训练数据集相关,因此各个数据集中的数据的排列具有相关性,所以在输出集中的第i个样本与特殊概率化后输出集的第i个样本存在对应的关系,因此此处均有第i个进行表示说明。
同时将所述第一模型的输出送入到所述第二模型中,结合所述第一模型和第二模型的输出计算获得所述第二模型的第二损失函数;所述第二损失函数具体为
Figure DEST_PATH_IMAGE016
,其中
Figure 942268DEST_PATH_IMAGE008
Figure 696598DEST_PATH_IMAGE009
为输出q的特殊概率化表示,
Figure 433610DEST_PATH_IMAGE010
为输出集Q中的输出特殊概率化表示后的集合,
Figure 19312DEST_PATH_IMAGE011
为第一模型中输出q特殊概率化表示后的交叉损失熵,p i ∈P,
Figure DEST_PATH_IMAGE017
以及第一模型与第二模型在同一神经网络中联合训练,获取第三损失函数,所述第三损失函数为赋予不同调节系数后的所述第一损失函数与第二损失函数的和,具体为Loss=αLoss 1 Loss 2 ,其中α、β均为调节系数,在本方案中α、β通常默认为1.0。
其中,
Figure DEST_PATH_IMAGE018
p i p i Pj表示对应集合中的第j个样本,其中T代表蒸馏时的温度,该温度值越高表示概率分布越平均,在本方案中,其一般取5-20作为参考值;q i 同理。
可以知晓的是,本方案中的概率化与常规的概率化存在一定的差异,其本方案中的概率化是一种特殊的概率化,其通过引入知识蒸馏时温度T对概率化的影响,进而取得更为准确的概率化结果,从而有助于提升第一模型和第二模型的模型泛化能力。
即在联合训练的过程中,在训练第二模型的时候,增加复杂第一模型来辅助第二模型,两者同时进行训练,是一种训练过程中的辅导。从网络结构来说,第一模型比第二模型神经元更多,所有训练数据,会同时训练第一模型和第二模型网络,对于两个模型来说,抛弃常规的训练过程,损失函数由两个部分构成,一个子项是交叉熵,这是常规的损失函数,它促使网络去拟合真实标签数据;另外一个CE soft 子项则迫使网络输出去拟合另一个模型的输出,通过联合训练可以增强第一模型和第二模型的模型泛化能力。
这里需要说明的是,联合蒸馏训练是分别利用教师模型和学生模型输出的软标签来辅助真实标签来进一步训练学生模型和教师模型,这是因为除了真实标签以外,教师模型的输出软标签也带有教师模型归纳推理的大量信息,比如某些软标签对应的概率远远大于其他的软标签,则代表教师模型再推理时认为该数据样本与该软标签有一定的相似性,同样对于学生模型输出的软标签也是相同的原理。
基于这种联合蒸馏训练的方法,本发明在第二模型(即学生模型)的训练中不仅能够获取更好的预测精度,同时在达到同样精度的情况下,其训练效率更高,需要的人工标注的标签较少,可以通过第一模型和第二模型再训练时输出的软标签进一步强化模型预测的精度,因此可以具有更低的成本,同时也兼顾了第二模型的可扩展能力。
使用训练好的第二模型对新输入的数据进行意图和场景的识别预测,并根据预测的结果判断是否还需对第二模型进行训练。
其中,所述根据预测的结果判断是否还需对第二模型进行训练,包括:
判断场景预测概率和意图预测概率是否高于设定阈值,若场景预测概率和意图预测概率中的任一项高于阈值,则输出数据的意图和场景,若场景预测概率和意图预测概率均低于阈值,则将该数据送入第一模型,获取第一模型输出的意图和场景。
当然,当第一模型也无法给出一个准确的预测时,此时可以有使用者进行人工判断,并录入进行标记输出。
为了验证本方法的有效性,我们将本方法与现有的主流方法进行了效果对比,结果如表1所示。
表1 多种知识蒸馏方法的性能对比
模型 准确率 推理时间(毫秒) 模型大小(显存)
TinyBert 86.43% 103ms 60MB
PKD-Bert 85.71% 258ms 142MB
MiniLM 86.80% 162ms 188MB
本申请方法 87.31% 79ms 39MB
根据表1的内容可以看出,本方法的准确率较高,推理所用时间较少,并且模型更轻量化。
基于以上的方法,本申请还给出了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述的基于联合训练的知识蒸馏方法。
另本申请还提供一种存储介质,所述存储介质用于存储计算机程序,其中,所述计算机程序运行时控制所述存储介质所在设备执行上述的基于联合训练的知识蒸馏方法。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于联合训练的知识蒸馏方法,其特征在于,包括:
获取训练数据集,所述训练数据集包括至少一个类别的训练语料数据;
使用所述训练数据集分别训练第一模型和第二模型,其中第一模型为教师模型,第二模型为学生模型;
获取所述第一模型和第二模型的输出;定义训练数据集(X,Y),其中X为原始数据集,Y为所述原始数据集对应的标注内容集;则有第一模型的输出为q=f(x),其中f表示第一模型,xXqQQ为第一模型的输出集;第二模型的输出为p=g(x),其中g表示第二模型,pPP为第二模型的输出集;
使用所述训练数据集对所述第一模型和第二模型进行联合训练,获取损失函数,具体如下:
将所述第二模型的输出送入到所述第一模型中,作为第一模型计算损失函数的输入,再结合所述第一模型的输出和第二模型的输出计算获得所述第一模型的第一损失函数;
同时将所述第一模型的输出送入到所述第二模型中,作为第二模型计算损失函数的输入,结合所述第一模型的输出和第二模型的输出计算获得所述第二模型的第二损失函数;
以及第一模型与第二模型在同一神经网络中联合训练,基于第一模型的损失函数与第二模型的损失函数计算获取第三损失函数,所述第三损失函数为赋予不同调节系数后的所述第一损失函数与第二损失函数的和;
使用训练好的第二模型对新输入的数据进行意图和场景的识别预测,并根据预测的结果判断是否还需对第二模型进行训练。
2.根据权利要求1所述的基于联合训练的知识蒸馏方法,其特征在于,所述训练数据集由已人工标注的数据组成,所述标注的内容至少包括场景和意图。
3.根据权利要求1所述的基于联合训练的知识蒸馏方法,其特征在于,所述第二模型由所述训练数据集中的一个类别的训练语料数据进行训练得到。
4.根据权利要求1所述的基于联合训练的知识蒸馏方法,其特征在于,所述第一损失函数具体为
Figure 465420DEST_PATH_IMAGE001
,其中CE表示交叉损失熵,yY
Figure 38353DEST_PATH_IMAGE002
Figure 83669DEST_PATH_IMAGE003
为输出p的特殊概率化表示,
Figure 478878DEST_PATH_IMAGE004
为输出集P中的输出特殊概率化表示后的集合,
Figure 699775DEST_PATH_IMAGE005
为所述第二模型中输出p特殊概率化表示后的交叉损失熵,q i ∈Q,
Figure 787817DEST_PATH_IMAGE006
i表示对应集合中的第i个样本;
所述第二损失函数具体为
Figure 320429DEST_PATH_IMAGE007
,其中
Figure 784909DEST_PATH_IMAGE008
Figure 453788DEST_PATH_IMAGE009
为输出q的特殊概率化表示,
Figure 338829DEST_PATH_IMAGE010
为输出集Q中的输出特殊概率化表示后的集合,
Figure 624317DEST_PATH_IMAGE011
为第一模型中输出q特殊概率化表示后的交叉损失熵,p i P,
Figure 626908DEST_PATH_IMAGE012
所述第三损失函数具体为Loss=αLoss 1 Loss 2 ,其中α、β均为调节系数。
5.根据权利要求4所述的基于联合训练的知识蒸馏方法,其特征在于,所述特殊概率化具体为,在概率化的过程中增加知识蒸馏的温度T对概率化的影响。
6.根据权利要求1所述的基于联合训练的知识蒸馏方法,其特征在于,所述根据预测的结果判断是否还需对第二模型进行训练,包括:
判断场景预测概率和意图预测概率是否高于设定阈值,若场景预测概率和意图预测概率中的任一项高于阈值,则输出数据的意图和场景,若场景预测概率和意图预测概率均低于阈值,则将该数据送入第一模型,获取第一模型输出的意图和场景。
7.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1-6中任意一项所述的基于联合训练的知识蒸馏方法。
8.一种存储介质,其特征在于,所述存储介质用于存储计算机程序,其中,所述计算机程序运行时控制所述存储介质所在设备执行权利要求1-6中任意一项所述的基于联合训练的知识蒸馏方法。
CN202111043005.9A 2021-09-07 2021-09-07 一种基于联合训练的知识蒸馏方法、处理器及存储介质 Active CN113486185B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111043005.9A CN113486185B (zh) 2021-09-07 2021-09-07 一种基于联合训练的知识蒸馏方法、处理器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111043005.9A CN113486185B (zh) 2021-09-07 2021-09-07 一种基于联合训练的知识蒸馏方法、处理器及存储介质

Publications (2)

Publication Number Publication Date
CN113486185A CN113486185A (zh) 2021-10-08
CN113486185B true CN113486185B (zh) 2021-11-23

Family

ID=77946537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111043005.9A Active CN113486185B (zh) 2021-09-07 2021-09-07 一种基于联合训练的知识蒸馏方法、处理器及存储介质

Country Status (1)

Country Link
CN (1) CN113486185B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115687914B (zh) * 2022-09-07 2024-01-30 中国电信股份有限公司 模型蒸馏方法、装置、电子设备及计算机可读介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247989A (zh) * 2017-06-15 2017-10-13 北京图森未来科技有限公司 一种神经网络训练方法及装置
CN108733792A (zh) * 2018-05-14 2018-11-02 北京大学深圳研究生院 一种实体关系抽取方法
CN108898168A (zh) * 2018-06-19 2018-11-27 清华大学 用于目标检测的卷积神经网络模型的压缩方法和系统
CN110674880A (zh) * 2019-09-27 2020-01-10 北京迈格威科技有限公司 用于知识蒸馏的网络训练方法、装置、介质与电子设备
US10635950B2 (en) * 2017-03-17 2020-04-28 Nec Corporation Surveillance system for recognition in unlabeled videos with domain adversarial learning and knowledge distillation
CN111369535A (zh) * 2020-03-05 2020-07-03 四川大学华西医院 一种细胞检测方法
US20200302295A1 (en) * 2019-03-22 2020-09-24 Royal Bank Of Canada System and method for knowledge distillation between neural networks
CN111985620A (zh) * 2020-08-21 2020-11-24 苏州浪潮智能科技有限公司 一种神经网络模型知识蒸馏方法、系统、设备及介质
CN112308211A (zh) * 2020-10-29 2021-02-02 中国科学院计算技术研究所厦门数据智能研究院 一种基于元学习的领域增量方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764462A (zh) * 2018-05-29 2018-11-06 成都视观天下科技有限公司 一种基于知识蒸馏的卷积神经网络优化方法
CN110223281B (zh) * 2019-06-06 2022-06-28 东北大学 一种数据集中含有不确定数据时的肺结节图像分类方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10635950B2 (en) * 2017-03-17 2020-04-28 Nec Corporation Surveillance system for recognition in unlabeled videos with domain adversarial learning and knowledge distillation
CN107247989A (zh) * 2017-06-15 2017-10-13 北京图森未来科技有限公司 一种神经网络训练方法及装置
CN108733792A (zh) * 2018-05-14 2018-11-02 北京大学深圳研究生院 一种实体关系抽取方法
CN108898168A (zh) * 2018-06-19 2018-11-27 清华大学 用于目标检测的卷积神经网络模型的压缩方法和系统
US20200302295A1 (en) * 2019-03-22 2020-09-24 Royal Bank Of Canada System and method for knowledge distillation between neural networks
CN110674880A (zh) * 2019-09-27 2020-01-10 北京迈格威科技有限公司 用于知识蒸馏的网络训练方法、装置、介质与电子设备
CN111369535A (zh) * 2020-03-05 2020-07-03 四川大学华西医院 一种细胞检测方法
CN111985620A (zh) * 2020-08-21 2020-11-24 苏州浪潮智能科技有限公司 一种神经网络模型知识蒸馏方法、系统、设备及介质
CN112308211A (zh) * 2020-10-29 2021-02-02 中国科学院计算技术研究所厦门数据智能研究院 一种基于元学习的领域增量方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
JDNet: A Joint-Learning Distilled Network for Mobile Visual Food Recognition;Heng Zhao 等;《Selected Topics in Signal Processing》;20200124;第14卷(第4期);第665-675页 *
Research of Weibo Text Classification based on Knowledge Distillation and Joint Model;Zhengwu Yua 等;《 2021 IEEE 5th Advanced Information Technology, Electronic and Automation Control Conference》;20210405;第202-207页 *
基于BERT和知识蒸馏的自然语言理解研究;张睿东;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20210415;I138-1017 *
基于知识蒸馏的短文本分类方法;孙红 等;《软件导刊》;20210615;第20卷(第6期);第23-27页 *
多语言机器人深度学习模型构建;叶楠 等;《信息与控制》;20201030;第49卷(第6期);第680-687页 *
面向服务机器人自然语言交互的语义解析方法研究;廖胜兰;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20210115;I138-2238 *
面向自然语言处理的预训练技术研究综述;李舟军 等;《计算机科学》;20200324;第162-173页 *

Also Published As

Publication number Publication date
CN113486185A (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
CN108763362B (zh) 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法
US20200394509A1 (en) Classification Of Sparsely Labeled Text Documents While Preserving Semantics
Ko et al. Domain agnostic real-valued specificity prediction
US11481552B2 (en) Generative-discriminative language modeling for controllable text generation
CN111339415A (zh) 一种基于多交互式注意力网络的点击率预测方法与装置
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN116629275B (zh) 一种基于大数据的智能决策支持系统及方法
CN111783993A (zh) 智能标注方法、装置、智能平台及存储介质
CN112069320B (zh) 一种基于跨度的细粒度情感分析方法
CN111339260A (zh) 一种基于bert和qa思想的细粒度情感分析方法
CN110390110B (zh) 用于语义匹配的预训练生成句子向量的方法和装置
CN113486185B (zh) 一种基于联合训练的知识蒸馏方法、处理器及存储介质
CN114936290A (zh) 数据处理方法及装置、存储介质及电子设备
CN112199505B (zh) 一种基于特征表示学习的跨领域情感分类方法及系统
CN112561530A (zh) 一种基于多模型融合的交易流水处理方法及系统
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
CN117034921A (zh) 一种基于用户数据的提示学习训练方法、装置和介质
CN113095883B (zh) 基于深度交叉注意力网络的视频付费用户预测方法及系统
CN107729509A (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
CN113887230A (zh) 一种面向金融场景的端到端自然语言处理训练框架与方法
Day et al. A study of deep learning to sentiment analysis on word of mouth of smart bracelet
CN111339303A (zh) 一种基于聚类与自动摘要的文本意图归纳方法及装置
CN116562284B (zh) 一种政务文本自动分拨模型训练方法及装置
CN113344613B (zh) 一种数据匹配的方法、装置、电子设备及存储介质
US20230177558A1 (en) Method and system for predicting a key performance indicator (kpi) of an advertising campaign

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20211008

Assignee: Yunzhu Information Technology (Chengdu) Co.,Ltd.

Assignor: China Construction e-commerce Co.,Ltd.

Contract record no.: X2023980032450

Denomination of invention: A knowledge distillation method, processor and storage medium based on joint training

Granted publication date: 20211123

License type: Common License

Record date: 20230220