CN111709476A - 一种基于知识蒸馏的小分类模型训练方法及装置 - Google Patents
一种基于知识蒸馏的小分类模型训练方法及装置 Download PDFInfo
- Publication number
- CN111709476A CN111709476A CN202010551314.6A CN202010551314A CN111709476A CN 111709476 A CN111709476 A CN 111709476A CN 202010551314 A CN202010551314 A CN 202010551314A CN 111709476 A CN111709476 A CN 111709476A
- Authority
- CN
- China
- Prior art keywords
- network
- output
- student
- student network
- teacher
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 34
- 238000013140 knowledge distillation Methods 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000004821 distillation Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Abstract
本发明公开了一种基于知识蒸馏的小分类模型训练方法及装置,属于模型训练领域,本发明要解决的技术问题为如何提升小分类模型训练速度及模型性能,同时确保类别丰富的同时避免重复训练不同教师网络来知识蒸馏不同学生网络的情况,采用的技术方案为:该方法具体如下:S1、使用具体应用场景采集的少类别数据集作为训练集;S2、将训练集输入教师网络,得到教师网络的输出类别,选取教师网络的输出类别中学生网络涉及到的类别结果;S3、将同样的训练集输入学生网络,得到学生网络的输出类别结果;S4、根据步骤S2和步骤S3中输出的类别结果调整学生网络的网络参数,达到训练学生网络的目的。
Description
技术领域
本发明涉及模型训练领域,具体地说是一种基于知识蒸馏的小分类模型训练方法及装置。
背景技术
通常地,对于不同应用场景有定制化模型需求的时候,技术人员选择的模型训练方式大致有两种:一、使用通用数据集训练好的通用模型修改最后输出层的类别数量,然后使用自己的数据集对模型参数进行重新调整;二、自己设计结构简单的模型,使用自己的数据集从头训练模型参数。其中,前一种方法使用已训练好的模型参数继续训练,能够加快训练收敛,也能保证模型精度,但是模型较大参数众多,对于小分类任务来说“大材小用”,而且不利于部署在计算力有限的终端设备上。第二种方法可以定制结构简单参数较少的的小模型,但是模型参数需要从头训练,势必会减慢收敛速度,也不能保证模型的精度,而且训练数据集较小的情况下,还容易造成模型过拟合。
传统的知识蒸馏方法用于使用复杂网络(教师网络)训练精简网络(学生网络),但是学生网络和教师网络拥有相同的输出类别数,即需要先训练一个结构复杂、精度较高的教师网络,以此来蒸馏出结构简洁性能拟合教师网络的学生网络,教师网络的训练依旧很耗时,因此这种蒸馏方式不适用于应用场景多变的情况。
故如何提升小分类模型训练速度及模型性能,同时确保类别丰富的同时避免重复训练不同教师网络来知识蒸馏不同学生网络的情况是目前亟待解决的技术问题。
发明内容
本发明的技术任务是提供一种基于知识蒸馏的小分类模型训练方法及装置,来解决如何提升小分类模型训练速度及模型性能,同时确保类别丰富的同时避免重复训练不同教师网络来知识蒸馏不同学生网络的情况的问题。
本发明的技术任务是按以下方式实现的,一种基于知识蒸馏的小分类模型训练方法,该方法具体如下:
S1、使用具体应用场景采集的少类别数据集作为训练集;
S2、将训练集输入教师网络,得到教师网络的输出类别,选取教师网络的输出类别中学生网络涉及到的类别结果;其中,教师网络是指可分类大量类别的预训练好的复杂模型;学生网络是指根据具体应用场景设计的待训练的类别数较少的小模型;
S3、将同样的训练集输入学生网络,得到学生网络的输出类别结果;
S4、根据步骤S2和步骤S3中输出的类别结果调整学生网络的网络参数,达到训练学生网络的目的。
作为优选,所述步骤S4中调整学生网络的网络参数是指学生网络根据输出损失值将误差反向传播,调整学生网络的权重;具体是将学生网络原目标损失函数修改为蒸馏损失和分类损失的加权和。
更优地,所述蒸馏损失是指学生网络类别概率分布与教师网络对应类别概率分布的差异。
更优地,所述分类损失是指学生网络输出值与数据集真实标签值之间的差异。
作为优选,所述教师网络的输出类别包含学生网络的输出类别,即学生网络的类别集合是教师网络的类别集合的真子集。
一种基于知识蒸馏的小分类模型训练装置,该装置包括,
训练集建立模块,用于使用具体应用场景采集的少类别数据集作为训练集;
教师网络类别输出模块,用于将训练集输入教师网络,得到教师网络的输出类别,选取教师网络的输出类别中学生网络涉及到的类别结果;其中,教师网络是指可分类大量类别的预训练好的复杂模型;学生网络是指根据具体应用场景设计的待训练的类别数较少的小模型;
学生网络类别输出模块,用于将同样的训练集输入学生网络,得到学生网络的输出类别结果;其中,教师网络的输出类别包含学生网络的输出类别,即学生网络的类别集合是教师网络的类别集合的真子集;
网络参数调整模块,用于根据教师网络类别输出模块和学生网络类别输出模块中输出的类别结果调整学生网络的网络参数,达到训练学生网络的目的。
作为优选,所述调整学生网络的网络参数是指学生网络根据输出损失值将误差反向传播,调整学生网络的权重;具体是将学生网络原目标损失函数修改为蒸馏损失和分类损失的加权和。
更优地,所述蒸馏损失是指学生网络类别概率分布与教师网络对应类别概率分布的差异;
分类损失是指学生网络输出值与数据集真实标签值之间的差异。
一种电子设备,包括:存储器和至少一个处理器;
其中,所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上述的基于知识蒸馏的小分类模型训练方法。
一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行时,实现如上述的基于知识蒸馏的小分类模型训练方法。
本发明的基于知识蒸馏的小分类模型训练方法及装置具有以下优点:
(一)本发明利用预训练好的类别数丰富、性能优良的教师网络作为参照,训练针对不同应用场景、类别数较少的学生网络,达到提升小分类模型训练速度及模型性能的目的,同时只要教师网络的类别足够丰富,也避免了重复训练不同教师网络来知识蒸馏不同学生网络的情况;
(二)本发明将训练集输入教师网络,只选取分类结果中学生网络涉及到的类别结果,与学生网络输出的类别结果一起用来调整学生网络的网络参数,达到训练学生网络的目的;
(三)本发明训练的学生网络模型在保证模型泛化能力的同时,具有结构简洁、节省计算力的优点;另外,只要所需的学生网络类别是教师网络类别的子集,就可以方便的进行训练。
附图说明
下面结合附图对本发明进一步说明。
附图1为基于知识蒸馏的小分类模型训练方法的流程框图;
附图2为涉及的教师网络与学生网络的对比关系示意图;
附图3为基于知识蒸馏的小分类模型训练的结构框图。
具体实施方式
参照说明书附图和具体实施例对本发明的一种基于知识蒸馏的小分类模型训练方法及装置作以下详细地说明。
实施例:
如附图1所示,本发明的基于知识蒸馏的小分类模型训练方法,该方法具体如下:
S1、使用具体应用场景采集的少类别数据集作为训练集;
S2、将训练集输入教师网络,得到教师网络的输出类别,选取教师网络的输出类别中学生网络涉及到的类别结果;其中,教师网络是指可分类大量类别的预训练好的复杂模型;学生网络是指根据具体应用场景设计的待训练的类别数较少的小模型;
S3、将同样的训练集输入学生网络,得到学生网络的输出类别结果;
S4、根据步骤S2和步骤S3中输出的类别结果调整学生网络的网络参数,达到训练学生网络的目的。其中,调整学生网络的网络参数是指学生网络根据输出损失值将误差反向传播,调整学生网络的权重;具体是将学生网络原目标损失函数修改为蒸馏损失和分类损失的加权和。蒸馏损失是指学生网络类别概率分布与教师网络对应类别概率分布的差异。分类损失是指学生网络输出值与数据集真实标签值之间的差异。
本发明涉及教师网络与学生网络的关系与传统知识蒸馏中的两者关系有所不同,主要表现在网络输出层,教师网络的输出类别包含学生网络输出类别,即学生网络类别集合是教师网络类别集合的真子集,如附图2所示,教师网络输出层的填充圆圈部分表示的是与学生网络同样的类别标签输出结果。
举例:假设教师网络是使用公开数据集(如imagenet数据集)训练的包含1000个类别的分类网络,这些类别包括各种动物、生活用品、人、交通工具等等,现在有个具体应用场景是交通上识别行人和各种车辆(假设总共10个类别,都包含在教师网络的1000个类别中),故设计一个层数较少、结构较简洁(相对于教师网络而言)的分类网络(待训练的学生网络),本发明中提到的输出类别结果是softmax层输出的各个类别概率,教师网络是输出1000个类别的概率,学生网络输出10个类别概率。
实施例2:
如附图3所述,基于知识蒸馏的小分类模型训练装置,该装置包括,训练集建立模块,用于使用具体应用场景采集的少类别数据集作为训练集;
教师网络类别输出模块,用于将训练集输入教师网络,得到教师网络的输出类别,选取教师网络的输出类别中学生网络涉及到的类别结果;其中,教师网络是指可分类大量类别的预训练好的复杂模型;学生网络是指根据具体应用场景设计的待训练的类别数较少的小模型;
学生网络类别输出模块,用于将同样的训练集输入学生网络,得到学生网络的输出类别结果;其中,教师网络的输出类别包含学生网络的输出类别,即学生网络的类别集合是教师网络的类别集合的真子集;
网络参数调整模块,用于根据教师网络类别输出模块和学生网络类别输出模块中输出的类别结果调整学生网络的网络参数,达到训练学生网络的目的。其中,调整学生网络的网络参数是指学生网络根据输出损失值将误差反向传播,调整学生网络的权重;具体是将学生网络原目标损失函数修改为蒸馏损失和分类损失的加权和。蒸馏损失是指学生网络类别概率分布与教师网络对应类别概率分布的差异;分类损失是指学生网络输出值与数据集真实标签值之间的差异。
实施例3:
本发明实施例还提供了一种电子设备,包括:存储器和一个处理器;
其中,所述存储器存储计算机执行指令;
所述一个处理器执行所述存储器存储的计算机执行指令,使得所述一个处理器执行如实施例1中的基于知识蒸馏的小分类模型训练方法。
实施例4:
本发明实施例还提供了一种计算机可读存储介质,其中存储有多条指令,指令由处理器加载,使处理器执行本发明任一实施例中的基于知识蒸馏的小分类模型训练方法。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-R一种基于知识蒸馏的小分类模型训练方法及装置M、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种基于知识蒸馏的小分类模型训练方法,其特征在于,该方法具体如下:
S1、使用具体应用场景采集的少类别数据集作为训练集;
S2、将训练集输入教师网络,得到教师网络的输出类别,选取教师网络的输出类别中学生网络涉及到的类别结果;其中,教师网络是指可分类大量类别的预训练好的复杂模型;学生网络是指根据具体应用场景设计的待训练的类别数较少的小模型;
S3、将同样的训练集输入学生网络,得到学生网络的输出类别结果;
S4、根据步骤S2和步骤S3中输出的类别结果调整学生网络的网络参数,达到训练学生网络的目的。
2.根据权利要求1所述的基于知识蒸馏的小分类模型训练方法,其特征在于,所述步骤S4中调整学生网络的网络参数是指学生网络根据输出损失值将误差反向传播,调整学生网络的权重;具体是将学生网络原目标损失函数修改为蒸馏损失和分类损失的加权和。
3.根据权利要求2所述的基于知识蒸馏的小分类模型训练方法,其特征在于,所述蒸馏损失是指学生网络类别概率分布与教师网络对应类别概率分布的差异。
4.根据权利要求2或3所述的基于知识蒸馏的小分类模型训练方法,其特征在于,所述分类损失是指学生网络输出值与数据集真实标签值之间的差异。
5.根据权利要求1所述的基于知识蒸馏的小分类模型训练方法,其特征在于,所述教师网络的输出类别包含学生网络的输出类别,即学生网络的类别集合是教师网络的类别集合的真子集。
6.一种基于知识蒸馏的小分类模型训练装置,其特征在于,该装置包括,训练集建立模块,用于使用具体应用场景采集的少类别数据集作为训练集;
教师网络类别输出模块,用于将训练集输入教师网络,得到教师网络的输出类别,选取教师网络的输出类别中学生网络涉及到的类别结果;其中,教师网络是指可分类大量类别的预训练好的复杂模型;学生网络是指根据具体应用场景设计的待训练的类别数较少的小模型;
学生网络类别输出模块,用于将同样的训练集输入学生网络,得到学生网络的输出类别结果;其中,教师网络的输出类别包含学生网络的输出类别,即学生网络的类别集合是教师网络的类别集合的真子集;
网络参数调整模块,用于根据教师网络类别输出模块和学生网络类别输出模块中输出的类别结果调整学生网络的网络参数,达到训练学生网络的目的。
7.根据权利要求6所述的基于知识蒸馏的小分类模型训练装置,其特征在于,所述调整学生网络的网络参数是指学生网络根据输出损失值将误差反向传播,调整学生网络的权重;具体是将学生网络原目标损失函数修改为蒸馏损失和分类损失的加权和。
8.根据权利要求7所述的基于知识蒸馏的小分类模型训练装置,其特征在于,所述蒸馏损失是指学生网络类别概率分布与教师网络对应类别概率分布的差异;
分类损失是指学生网络输出值与数据集真实标签值之间的差异。
9.一种电子设备,其特征在于,包括:存储器和至少一个处理器;
其中,所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至5任一项所述的基于知识蒸馏的小分类模型训练方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行时,实现如权利要求1至5中所述的基于知识蒸馏的小分类模型训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010551314.6A CN111709476A (zh) | 2020-06-17 | 2020-06-17 | 一种基于知识蒸馏的小分类模型训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010551314.6A CN111709476A (zh) | 2020-06-17 | 2020-06-17 | 一种基于知识蒸馏的小分类模型训练方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111709476A true CN111709476A (zh) | 2020-09-25 |
Family
ID=72540946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010551314.6A Pending CN111709476A (zh) | 2020-06-17 | 2020-06-17 | 一种基于知识蒸馏的小分类模型训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111709476A (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112116441A (zh) * | 2020-10-13 | 2020-12-22 | 腾讯科技(深圳)有限公司 | 金融风险分类模型的训练方法、分类方法、装置及设备 |
CN112329823A (zh) * | 2020-10-23 | 2021-02-05 | 北京中科智加科技有限公司 | 文本分类方法及装置、设备及介质 |
CN112367273A (zh) * | 2020-10-30 | 2021-02-12 | 上海瀚讯信息技术股份有限公司 | 基于知识蒸馏的深度神经网络模型的流量分类方法及装置 |
CN112418343A (zh) * | 2020-12-08 | 2021-02-26 | 中山大学 | 多教师自适应联合知识蒸馏 |
CN112446331A (zh) * | 2020-11-30 | 2021-03-05 | 山东大学 | 基于知识蒸馏的时空双流分段网络行为识别方法及系统 |
CN112508169A (zh) * | 2020-11-13 | 2021-03-16 | 华为技术有限公司 | 知识蒸馏方法和系统 |
CN112686046A (zh) * | 2021-01-06 | 2021-04-20 | 上海明略人工智能(集团)有限公司 | 模型训练方法、装置、设备及计算机可读介质 |
CN112733879A (zh) * | 2020-12-15 | 2021-04-30 | 北京百度网讯科技有限公司 | 针对不同场景的模型蒸馏方法和装置 |
CN112801209A (zh) * | 2021-02-26 | 2021-05-14 | 同济大学 | 基于双特长教师模型知识融合的图像分类方法及存储介质 |
CN113112020A (zh) * | 2021-03-25 | 2021-07-13 | 厦门大学 | 一种基于生成网络与知识蒸馏的模型网络提取和压缩方法 |
CN113222123A (zh) * | 2021-06-15 | 2021-08-06 | 深圳市商汤科技有限公司 | 模型训练方法、装置、设备及计算机存储介质 |
CN113627545A (zh) * | 2021-08-16 | 2021-11-09 | 山东大学 | 一种基于同构多教师指导知识蒸馏的图像分类方法及系统 |
WO2022104550A1 (zh) * | 2020-11-17 | 2022-05-27 | 华为技术有限公司 | 模型蒸馏训练的方法及相关装置和设备、可读存储介质 |
CN114708467A (zh) * | 2022-01-27 | 2022-07-05 | 西安交通大学 | 基于知识蒸馏的不良场景识别方法及系统及设备 |
WO2022148391A1 (zh) * | 2021-01-07 | 2022-07-14 | 支付宝(杭州)信息技术有限公司 | 模型训练及数据检测方法、装置、设备及介质 |
CN114912612A (zh) * | 2021-06-25 | 2022-08-16 | 江苏大学 | 鸟类识别方法、装置、计算机设备及存储介质 |
CN115578614A (zh) * | 2022-10-21 | 2023-01-06 | 北京百度网讯科技有限公司 | 图像处理模型的训练方法、图像处理方法和装置 |
-
2020
- 2020-06-17 CN CN202010551314.6A patent/CN111709476A/zh active Pending
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112116441A (zh) * | 2020-10-13 | 2020-12-22 | 腾讯科技(深圳)有限公司 | 金融风险分类模型的训练方法、分类方法、装置及设备 |
CN112116441B (zh) * | 2020-10-13 | 2024-03-12 | 腾讯科技(深圳)有限公司 | 金融风险分类模型的训练方法、分类方法、装置及设备 |
CN112329823B (zh) * | 2020-10-23 | 2022-02-01 | 北京中科智加科技有限公司 | 文本分类方法及装置、设备及介质 |
CN112329823A (zh) * | 2020-10-23 | 2021-02-05 | 北京中科智加科技有限公司 | 文本分类方法及装置、设备及介质 |
CN112367273A (zh) * | 2020-10-30 | 2021-02-12 | 上海瀚讯信息技术股份有限公司 | 基于知识蒸馏的深度神经网络模型的流量分类方法及装置 |
CN112367273B (zh) * | 2020-10-30 | 2023-10-31 | 上海瀚讯信息技术股份有限公司 | 基于知识蒸馏的深度神经网络模型的流量分类方法及装置 |
CN112508169A (zh) * | 2020-11-13 | 2021-03-16 | 华为技术有限公司 | 知识蒸馏方法和系统 |
WO2022104550A1 (zh) * | 2020-11-17 | 2022-05-27 | 华为技术有限公司 | 模型蒸馏训练的方法及相关装置和设备、可读存储介质 |
CN112446331A (zh) * | 2020-11-30 | 2021-03-05 | 山东大学 | 基于知识蒸馏的时空双流分段网络行为识别方法及系统 |
CN112418343A (zh) * | 2020-12-08 | 2021-02-26 | 中山大学 | 多教师自适应联合知识蒸馏 |
CN112418343B (zh) * | 2020-12-08 | 2024-01-05 | 中山大学 | 多教师自适应联合的学生模型训练方法 |
CN112733879A (zh) * | 2020-12-15 | 2021-04-30 | 北京百度网讯科技有限公司 | 针对不同场景的模型蒸馏方法和装置 |
CN112686046A (zh) * | 2021-01-06 | 2021-04-20 | 上海明略人工智能(集团)有限公司 | 模型训练方法、装置、设备及计算机可读介质 |
WO2022148391A1 (zh) * | 2021-01-07 | 2022-07-14 | 支付宝(杭州)信息技术有限公司 | 模型训练及数据检测方法、装置、设备及介质 |
CN112801209A (zh) * | 2021-02-26 | 2021-05-14 | 同济大学 | 基于双特长教师模型知识融合的图像分类方法及存储介质 |
CN113112020B (zh) * | 2021-03-25 | 2022-06-28 | 厦门大学 | 一种基于生成网络与知识蒸馏的模型网络提取和压缩方法 |
CN113112020A (zh) * | 2021-03-25 | 2021-07-13 | 厦门大学 | 一种基于生成网络与知识蒸馏的模型网络提取和压缩方法 |
CN113222123A (zh) * | 2021-06-15 | 2021-08-06 | 深圳市商汤科技有限公司 | 模型训练方法、装置、设备及计算机存储介质 |
CN114912612A (zh) * | 2021-06-25 | 2022-08-16 | 江苏大学 | 鸟类识别方法、装置、计算机设备及存储介质 |
CN113627545A (zh) * | 2021-08-16 | 2021-11-09 | 山东大学 | 一种基于同构多教师指导知识蒸馏的图像分类方法及系统 |
CN113627545B (zh) * | 2021-08-16 | 2023-08-08 | 山东大学 | 一种基于同构多教师指导知识蒸馏的图像分类方法及系统 |
CN114708467A (zh) * | 2022-01-27 | 2022-07-05 | 西安交通大学 | 基于知识蒸馏的不良场景识别方法及系统及设备 |
CN114708467B (zh) * | 2022-01-27 | 2023-10-13 | 西安交通大学 | 基于知识蒸馏的不良场景识别方法及系统及设备 |
CN115578614A (zh) * | 2022-10-21 | 2023-01-06 | 北京百度网讯科技有限公司 | 图像处理模型的训练方法、图像处理方法和装置 |
CN115578614B (zh) * | 2022-10-21 | 2024-03-12 | 北京百度网讯科技有限公司 | 图像处理模型的训练方法、图像处理方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709476A (zh) | 一种基于知识蒸馏的小分类模型训练方法及装置 | |
CN107436875B (zh) | 文本分类方法及装置 | |
CN105210064B (zh) | 使用深度网络将资源分类 | |
CN110619050B (zh) | 意图识别方法及设备 | |
US11423307B2 (en) | Taxonomy construction via graph-based cross-domain knowledge transfer | |
WO2021208535A1 (zh) | 基于自动特征分组的推荐方法及装置 | |
KR102144126B1 (ko) | 기업을 위한 정보 제공 장치 및 방법 | |
CN113392317A (zh) | 一种标签配置方法、装置、设备及存储介质 | |
US20230368028A1 (en) | Automated machine learning pre-trained model selector | |
CN111768096A (zh) | 基于算法模型的评级方法、装置、电子设备及存储介质 | |
CN114564586A (zh) | 一种非结构化敏感数据识别方法及系统 | |
CN112269875B (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN116415647A (zh) | 神经网络架构搜索的方法、装置、设备和存储介质 | |
CN113869609A (zh) | 一种根因分析频繁子图置信度预测方法及系统 | |
CN110716767A (zh) | 模型组件调用、生成方法、装置和存储介质 | |
US20200279290A1 (en) | Non-transitory computer-readable recording medium, determination method, and information processing apparatus | |
US11842290B2 (en) | Using functions to annotate a syntax tree with real data used to generate an answer to a question | |
CN114296775B (zh) | 基于大数据的智能运维方法及系统 | |
CN116975622A (zh) | 目标检测模型的训练方法及装置、目标检测方法及装置 | |
CN115905293A (zh) | 作业执行引擎的切换方法及装置 | |
US20220405473A1 (en) | Machine learning for training nlp agent | |
CN113535945B (zh) | 文本类别的识别方法、装置、设备及计算机可读存储介质 | |
US20220383036A1 (en) | Clustering data using neural networks based on normalized cuts | |
CN112507912A (zh) | 一种识别违规图片的方法及装置 | |
CN113609390A (zh) | 信息分析方法及装置、电子设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200925 |