CN111695699B - 用于模型蒸馏的方法、装置、电子设备及可读存储介质 - Google Patents
用于模型蒸馏的方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN111695699B CN111695699B CN202010538346.2A CN202010538346A CN111695699B CN 111695699 B CN111695699 B CN 111695699B CN 202010538346 A CN202010538346 A CN 202010538346A CN 111695699 B CN111695699 B CN 111695699B
- Authority
- CN
- China
- Prior art keywords
- model
- network
- distillation
- distribution
- teacher
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004821 distillation Methods 0.000 title claims abstract description 112
- 238000000034 method Methods 0.000 title claims abstract description 61
- 239000011159 matrix material Substances 0.000 claims abstract description 56
- 238000012545 processing Methods 0.000 claims abstract description 37
- 230000014509 gene expression Effects 0.000 claims abstract description 21
- 230000015654 memory Effects 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 18
- 230000008014 freezing Effects 0.000 claims description 16
- 238000007710 freezing Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 16
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种用于模型蒸馏的方法、装置、电子设备及计算机可读存储介质,涉及人工智能、深度学习和图像处理技术领域。该方法的一具体实施方式包括:获取至少两个教师模型,并获取每个教师模型的实际特征分布;对每个实际特征分布分别取拉普拉斯算子得到海森矩阵的逆矩阵;按照牛顿迭代的二次表达式分别对每个逆矩阵进行运算,得到与每个实际特征分布分别对应的权值;对每个实际特征分布使用相应的权值进行加权,得到综合特征分布;利用综合特征分布对原始学生模型执行模型蒸馏操作,得到目标学生模型。该实施方式在将教师模型知识传递至学生模型时,充分结合了每个教师模型的实际特征分布,让教师模型的知识更加准确的传递至学生模型。
Description
技术领域
本申请实施例涉及机器学习技术领域,具体涉及人工智能、深度学习和图像处理技术领域,尤其涉及用于模型蒸馏的方法、装置、电子设备及可读存储介质。
背景技术
知识蒸馏是一种将成熟、性能好的大模型(也称教师模型、teacher模型)的关键参数传递给小模型(也称学生模型、student模型)的模型压缩技术,可使结构精简的小模型拥有近乎于“体积”庞大、结构复杂的大模型的精度,并同时提升处理速度。
在此基础上,为了尽可能提高小模型的精度,本领域学者开始尝试通过多个大模型来蒸馏单个小模型,在具体实现过程中,现有技术提供了一种将多个大模型的损失函数以取平均的方式对小模型进行蒸馏的实现方案。
发明内容
本申请实施例提出了一种用于模型蒸馏的方法、装置、电子设备及计算机可读存储介质。
第一方面,本申请实施例提出了一种用于模型蒸馏的方法,包括:获取至少两个教师模型,并获取每个教师模型的实际特征分布;对每个实际特征分布分别取拉普拉斯算子得到海森矩阵的逆矩阵;按照牛顿迭代的二次表达式分别对每个逆矩阵进行运算,得到与每个实际特征分布分别对应的权值;对每个实际特征分布使用相应的权值进行加权,得到综合特征分布;利用综合特征分布对原始学生模型执行模型蒸馏操作,得到目标学生模型;其中,教师模型和原始学生模型均用于对图像或视频数据进行编解码处理。
第二方面,本申请实施例提出了一种用于模型蒸馏的装置,包括:教师模型特征分布获取单元,被配置成获取至少两个教师模型,并获取每个教师模型的实际特征分布;逆矩阵计算单元,被配置成对每个实际特征分布分别取拉普拉斯算子得到海森矩阵的逆矩阵;权值计算单元,被配置成按照牛顿迭代的二次表达式分别对每个逆矩阵进行运算,得到与每个实际特征分布分别对应的权值;加权处理单元,被配置成对每个实际特征分布使用相应的权值进行加权,得到综合特征分布;模型蒸馏单元,被配置成利用综合特征分布对原始学生模型执行模型蒸馏操作,得到目标学生模型;其中,教师模型和原始学生模型均用于对图像或视频数据进行编解码处理。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器执行时能够实现如第一方面中任一实现方式描述的用于模型蒸馏的方法。
第四方面,本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行时能够实现如第一方面中任一实现方式描述的用于模型蒸馏的方法。
第五方面,本申请实施例提供了一种包括计算机程序的计算机程序产品,该计算机程序在被处理器执行时能够实现如第一方面中任一实现方式描述的用于模型蒸馏的方法。
为得到能够用于对图像或视频数据进行高精度、快速编解码处理的目标学生模型,本申请实施例提供的用于模型蒸馏的方法、装置、电子设备及计算机可读存储介质,首先,获取至少两个教师模型,并获取每个教师模型的实际特征分布;然后,对每个实际特征分布分别取拉普拉斯算子得到海森矩阵的逆矩阵;按照牛顿迭代的二次表达式分别对每个逆矩阵进行运算,得到与每个实际特征分布分别对应的权值;接着,对每个实际特征分布使用相应的权值进行加权,得到综合特征分布;利用综合特征分布对原始学生模型执行模型蒸馏操作,得到目标学生模型。
区别于现有技术将多个教师模型的损失函数以取平均的方式完成对单个学生模型的蒸馏的方案,本申请首先获取到表征每个教师模型各自知识的实际特征分布,然后通过内置有置信度概念的海森矩阵,结合牛顿迭代的二次表达式,计算出与每个教师模型对应的更加准确的权值,通过权值对实际特征分布的加权,使得不同教师模型的知识更加准确的体现在综合特征分布中,从而得到高精度的目标学生模型。同时,在每个教师模型的知识能够得以充分传递至目标学生模型的情况下,目标学生模型的精度将随教师模型的数量增加得以不断提升。
此外,当通过上述模型蒸馏方案得到的目标学生模型用于图像处理领域时,轻量级的目标学习模型可较好的运行在轻量级设备,降低了对硬件设备运算能力的要求,从而在轻量级设备上也能够得到针对待处理图像较高的处理精度。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构;
图2是根据本申请的用于模型蒸馏的方法的一个实施例的流程图;
图3是根据本申请的用于模型蒸馏的方法的另一个实施例的流程图;
图4是根据本申请的用于模型蒸馏的方法的一个应用场景的流程图;
图5是根据本申请的用于模型蒸馏的装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的用于模型蒸馏的方法的电子设备的框图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于模型蒸馏的方法、装置、电子设备及计算机可读存储介质的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括存储设备101、网络102和服务器103。网络102为存储设备101和服务器103之间进行数据交换的通信介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以控制服务器103与存储设备101通过网络102进行数据交互,以接收或发送消息。存储设备101和服务器103上可以安装有各种应用,例如模型蒸馏应用、数据传输类应用、数据处理类应用等。
存储设备101和服务器103均可以是硬件,也可以是软件。当存储设备101为硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当存储设备101为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来存储教师模型本体或教师模型的特征分布参数等),也可以实现成单个软件或软件模块。在此不做具体限定。当服务器103为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供模型蒸馏服务),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器103通过内置的各种应用可以提供各种服务,以可以提供模型蒸馏服务的模型蒸馏应用为例,服务器103在运行该模型蒸馏应用时可实现如下效果:通过网络102从存储设备101中获取多个教师模型,并进一步从每个教师模型中得到其实际特征分布,然后,对每个实际特征分布分别取拉普拉斯算子得到海森矩阵的逆矩阵,接着,按照牛顿迭代的二次表达式分别对每个逆矩阵进行运算,得到与每个实际特征分布分别对应的权值;对每个实际特征分布使用相应的权值进行加权,得到综合特征分布;最后,利用综合特征分布对原始学生模型执行模型蒸馏操作,得到目标学生模型。即服务器103通过上述处理步骤最终完成将多个教师模型的知识尽可能多的、准确到传递到学生模型的目的,目标学生模型即为该模型蒸馏应用的输出结果。
需要指出的是,多个教师模型不仅可以存储在存储设备101,也可以直接存储在服务器103本地,或者直接将教师模型的实际特征分布存储在服务器103本地。特殊的,当存储设备101为运行在服务器103上的虚拟机时,示例性系统架构100也可以不包括存储设备101和网络102。
本申请后续各实施例所提供的用于模型蒸馏的方法一般由拥有较强运算能力的服务器103执行,相应地,用于模型蒸馏的装置一般设置于服务器103中。但同时也需要指出的是,在存储设备101也具有满足要求的运算能力时,存储设备101可以通过其上安装的模型蒸馏应用完成上述本交由服务器103做的各项运算,得到同样的结果。尤其是在同时采用多种具有不同运算能力的存储设备的情况下,用于模型蒸馏的方法也可以由其中一些具有较强运算能力的存储设备来执行,来适当减轻服务器103的运算压力。相应地,用于模型蒸馏的装置也可以设置于存储设备101中。此时,示例性系统架构100也可以不包括服务器103和网络102。应当理解的是,存储设备并非不拥有运算能力,运算能力也可以通过多种方式进行添加和提升。
应该理解,图1中的存储设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的存储设备、网络和服务器。
继续参考图2,其示出了根据本申请的用于模型蒸馏的方法的一个实施例的实现流程200,包括以下步骤:
步骤201:获取至少两个教师模型,并获取每个教师模型的实际特征分布;
本步骤旨在由用于模型蒸馏的方法的执行主体(例如图1所示的服务器103)获取到至少两个教师模型,并进一步从各教师模型中获取到其实际特征分布。
其中,教师模型是用于对图像/视频数据进行编解码处理的大模型,可根据实际需求的不同具体表现为不同类型的模型,例如卷积神经网络、深度神经网络、长短期记忆网络、生成对抗网络(GAN,GenerativeAdversarial Networks)等,该教师模型的特点为精度较高但“体积庞大”、结构复杂,得到输出数据的耗时较长且对运算能力需求较高。
其中,教师模型的实际特征分布指该教师模型之所以能够表现出高精度的原因,即教师模型所拥有的“知识”的表现,以人为例,其知识可具体抽象为由文字表述的经验,但对于计算机模型来讲,其知识通常表现为关键特征数据的分布情况,可具体表现为包括损失函数、激活函数在内的多种数学表现形式。简单来说,教师模型的实际特征分布为表征该教师模型实现其拥有的对数据的处理效果的原因或者基础,甚至可以理解为构成该教师模型的关键参数。
具体的,可通过多种方式获取到教师模型的实际特征分布,例如进行向量化、基于预设的概率模型提供的基准特征分布分别得到相对参数等等,可根据实际应用场景下所有可能存在的特殊要求灵活选择,此处不做具体限定,只要能够提取到表征教师模型所拥有的“知识”即可。
需要指出的是,教师模型可以由上述执行主体直接从本地的存储设备获取,也可以从非本地的存储设备(例如图1所示的存储设备101)中获取。本地的存储设备可以为设置在上述执行主体内的一个数据存储模块,例如服务器硬盘,在此情况下,教师模型可以快速的通过本地读取获取到;非本地的存储设备还可以为其它任何被设置用于存储数据的电子设备,例如一些用户终端等,在此情况下,上述执行主体可以通过向该电子设备发送教师模型获取命令来获取所需的至少两个教师模型。
步骤202:对每个实际特征分布分别取拉普拉斯算子得到海森矩阵的逆矩阵;
步骤203:按照牛顿迭代的二次表达式分别对每个逆矩阵进行运算,得到与每个实际特征分布分别对应的权值;
在步骤201的基础上,步骤202和步骤203旨在由上述执行主体通过拉普拉斯算子、海森矩阵、牛顿迭代的二次表达式等方式,确定出每个教师模型的实际特征分布各自的权值。
其中,拉普拉斯算子(Laplace Operator)是n维欧几里德空间中的一个二阶微分算子,定义为梯度(▽f)的散度(▽·f);海森矩阵也称黑塞矩阵,是一个多元函数的二阶偏导数构成的方阵,描述了函数的局部曲率,利用海森矩阵可判定多元函数的极值问题,在工程实际问题的优化设计中,所列的目标函数往往很复杂,为了使问题简化,常常将目标函数在某点邻域展开成泰勒多项式来逼近原函数,此时函数在某点泰勒展开式的矩阵形式中会涉及到海森矩阵;牛顿迭代的二次表达式则是牛顿法的一种具体方式,海森矩阵在结合牛顿法使用时,常用来解决大规模的优化问题。
基于海森矩阵在结合牛顿法使用时可以较好对多个模型参与的场景给出准确的运算结果的特点,而且海森矩阵相比于其他方式在计算时还考虑到了参数的置信度,因此可以得到相对更加准确的结果。针对本申请要用多个教师模型蒸馏单个学生模型的目的,本申请具体通过使用拉普拉斯算子、海森矩阵、牛顿迭代的二次表达式这三者,能够较为准确的结合各教师模型的实际特征分布的相互关系,从而确定出相对于相同标准的各教师模型的实际特征分布的权值。应当理解的是,权值的大小用于表征对应教师模型的“知识”在传递给学生模型时的保留程度,权值越大就表示对应的教师模型的“知识”越多的传递给了学生模型。
步骤204:对每个实际特征分布使用相应的权值进行加权,得到综合特征分布;
在步骤203的基础上,本步骤旨在由上述执行主体按照加权计算法,对来自每个教师模型的实际特征分布分别使用相应的权值进行加权,从而得到综合特征分布。应当理解的是,权值的大小将直接影响相应教师模型的实际特征分布对综合特征分布的贡献,即权值越大,对构成综合特征分布的贡献越大。
步骤205:利用综合特征分布对原始学生模型执行模型蒸馏操作,得到目标学生模型。
在步骤204的基础上,本步骤旨在由上述执行主体利用综合特征分布对原始学生模型执行模型蒸馏操作,得到目标学生模型。其中,原始学生模型和经模型蒸馏操作得到的目标学生模型,其用途与教师模型一致,均用于对待处理图像/视频数据进行编解码处理,与教师模型不同的是,目标学生模型仅以较小的“体积”、较短的运算耗时可得到精度与教师模型基本一致的输出结果,更加适用于运算能力较弱的轻量级平台。
进一步的,在得到目标学生模型之后,即可利用目标学生模型对获取到的待处理图像/视频数据进行编解码处理,得到处理后图像/视频数据,并按预设路径发送该处理后图像/视频数据。具体的,该预设路径可以为预设的IP地址、各类视频或图像应用的客户端地址、存储服务器地址等等,即根据实际需求的不同,该预设路径可灵活调整。
区别于现有技术将多个教师模型的损失函数以取平均的方式完成对单个学生模型的蒸馏的方案,本实施例提供的用于模型蒸馏的方法首先获取到表征每个教师模型各自知识的实际特征分布,然后通过内置有置信度概念的海森矩阵,结合牛顿迭代的二次表达式,计算出与每个教师模型对应的更加准确的权值,通过权值对实际特征分布的加权,使得不同教师模型的知识更加准确的体现在综合特征分布中,从而得到高精度的目标学生模型。同时,在每个教师模型的知识能够得以充分传递至目标学生模型的情况下,目标学生模型的精度将随教师模型的数量增加得以不断提升。
此外,当通过上述模型蒸馏方案得到的目标学生模型用于图像处理领域时,轻量级的目标学习模型可较好的运行在轻量级设备,降低了对硬件设备运算能力的要求,从而在轻量级设备上也能够得到针对待处理图像较高的处理精度。
在上述实施例的基础上,本申请还通过图3提供了另一种用于模型蒸馏的方法的流程300,包括如下步骤:
步骤301:获取至少两个教师模型,并分别冻结每个教师模型的参数,得到各参数冻结模型;
步骤302:利用预设的训练集,分别对每个参数冻结模型进行前向传播,得到各第一特征;
步骤303:利用预设概率模型的基准特征分布,分别对每个第一特征的分布进行估计,得到与每个教师模型分别对应的实际特征分布;
区别于流程200中的步骤201,本实施例流程300通过步骤301、步骤302以及步骤303提供了一种具体的从教师模型获取其实际特征分布的方案,即首先冻结每个教师模型的参数,参数冻结是为了确定一个固定的参数,不再使该教师模型的参数再进行更新,否则在参数仍处于动态变化的情况下,无法继续后续处理;然后,利用预设的训练集分别对每个参数冻结模型进行前向传播,从而得到各第一特征;接着,选用预先概率模型的特征作为基准特征,其分布作为基准特征分布,根据基准特征分布对每个第一特征的分布进行估计,估计出的第一特征相对于基准特征的分布情况,即为每个教师模型分别对应的实际特征分布。
前向传播是相对于反向传播存在的一个概念,出现在仿自人脑的神经网络中,人脑有复杂多层的神经元系统以及架构于之上的正向传导和反向反馈信号回路,神经网络里面所谓前向传播(Forward Propagation)和反向传播(Backword Propagation)概念则与之类似。因为神经网络在使用之前要进行优化,目的是尽可能的让神经网络能够对相同的输入得到与人脑相同的输出,本质上这是一场以误差为主导的反向传播运动,旨在得到最优的全局参数矩阵,进而将多层神经网络应用到分类或者回归任务中去。其中,前向传递输入信号直至输出产生误差,反向传播误差信息更新权重矩阵。这两句话很好的形容了信息的流动方向,权重得以在信息双向流动中得到优化,其实就类似一个带反馈校正循环的电子信号处理系统。简单来说,本步骤通过对预设的训练集结合每个参数冻结的教师模型进行前向传播,其输出能够在一定程度上反映相应教师模型的特征。
步骤304:对每个实际特征分布分别取拉普拉斯算子得到海森矩阵的逆矩阵;
步骤305:按照牛顿迭代的二次表达式分别对每个逆矩阵进行运算,得到与每个实际特征分布分别对应的权值;
步骤306:对每个实际特征分布使用相应的权值进行加权,得到综合特征分布;
以上步骤304-306与如图2所示流程200中的步骤202-204一致,相同部分内容请参见上一实施例的相应部分,此处不再进行赘述。
步骤307:利用预设的训练集对原始学生模型进行前向传播,得到第二特征;
步骤308:将综合特征分布作为蒸馏损失对第二特征执行模型蒸馏操作,得到目标学生模型。
区别于流程200中的步骤205,本实施例流程300通过步骤307和步骤308提供了一种具体的实现方式,对应于步骤301至步骤304计算得到的教师模型的第一特征的方式,此处也使用了相同的训练集,原始学生模型的参数均为初始参数,本就是固定的,因此无需再进行参数冻结,同样通过前向传播,得到了第二特征。根据第一特征和第二特征获取过程的不同可以明显看出,两者差异就是教师模型本就拥有的知识,其余的变量均得到了很好的控制,在此基础上,将综合特征分布作为蒸馏损失对第二特征执行模型蒸馏操作,即可得到精度较高的目标学生模型。
应当理解的是,步骤307至步骤308提供的模型蒸馏的具体方式可以不匹配于步骤301至步骤303提供的获取教师模型的实际特征分布的方法,在不匹配的情况下,可能会因为变量的增多,使得最终得到的目标学生模型的精度不如匹配情况下的精度。换句话说,步骤301至步骤303提供的获取教师模型的实际特征分布的方法可以单独结合流程200中的其它步骤形成一个实施例,本实施例仅作为一个包含上下匹配方案的优选实施例存在。
相较于流程200,本实施例提供一套对教师模型和学生模型匹配的特征分布获取方式,更加科学合理、变量更少、尽可能的提升了最终得到的目标学生模型的精度。当通过上述模型蒸馏方案得到的目标学生模型用于图像处理领域时,轻量级的目标学习模型可较好的运行在轻量级设备,降低了对硬件设备运算能力的要求,从而在轻量级设备上也能够得到针对待处理图像较高的处理精度。
为加深理解,本申请还结合一个具体应用场景,给出了一种具体的实现方案,该场景下的目的为通过模型蒸馏操作得到一个“体积”较小、精度较高的GAN网络。区别于其它机器学习算法,GAN网络由两大部分组成,即G(Generative,生成)网络和D(Discriminative,对抗,也称判别)网络,G网络负责捕获数据分布,D网络负责估计样本来自训练数据的概率,两者通过依次迭代、对抗优化,可以很好的保障输出结果的精度。该场景下,蒸馏得到GAN网络主要用于对待处理图像/视频数据进行编解码处理,可具体应用在多种图像/视频处理轻量级平台或应用中。
基于GAN网络的特殊构成,应用本申请所提供的方案时,教师模型为教师G网络,原始学生模型为原始学生G网络,而目标学生模型则为GAN网络,这是因为D网络并不需要接受知识的传递,其完全可以基于蒸馏后的学生G网络经过常规的对抗迭代实现较好的效果。
请参见如图4所示的流程400,包括如下步骤:
步骤401:获取三个教师G网络,并分别冻结每个教师G网络的参数,得到各参数冻结G网络;
步骤402:利用预设的训练集,分别对每个参数冻结G网络进行前向传播,得到各第一特征;
步骤403:利用预设概率模型的基准特征分布,分别对每个第一特征的分布进行估计,得到与每个教师G网络分别对应的实际特征分布;
步骤404:对每个实际特征分布分别取拉普拉斯算子得到海森矩阵的逆矩阵;
步骤405:按照牛顿迭代的二次表达式分别对每个逆矩阵进行运算,得到与每个实际特征分布分别对应的权值;
步骤406:利用预设的训练集对原始学生G网络进行前向传播,得到第二特征;
步骤407:将综合特征分布作为蒸馏损失对原始学生G网络的第二特征执行模型蒸馏操作,得到蒸馏后G网络;
由于综合特征分布来自于对三个教师G网络的实际特征分布的加权,其蒸馏的对象也为原始学生G网络,因此通过模型蒸馏操作将得到蒸馏后G网络。
步骤408:利用蒸馏后G网络和原始D网络进行对抗迭代,得到收敛G网络和收敛D网络;
在步骤407的基础上,本步骤旨在由上述执行主体利用蒸馏后G网络和原始D网络进行对抗迭代,最终得到收敛G网络和收敛D网络。
具体的,一种更加具体的对抗迭代方式可以为:
判断当前的已迭代次数是否小于预设迭代次数;
若当前的已迭代次数小于该预设迭代次数,则利用相同的训练集重新对迭代至当前的蒸馏后G网络进行前向传播,并根据计算出的新第二特征重新得到新蒸馏后G网络,即跳转至步骤406,将迭代至当前的学生G网络作为新的原始学生G网络重新处理;
若当前的已迭代次数不小于该预设迭代次数,则根据当前的迭代结果得到收敛G网络和收敛D网络。
上述具体实现方式提供了一种基于预设的最大迭代次数的具体对抗迭代方式,当然,也可以根据实际情况更换其它迭代终止条件,例如最后两次迭代结果的精度差是否小于预设阈值等。
步骤409:利用收敛G网络和收敛D网络构建得到GAN网络;
步骤410:利用GAN网络对待处理图像/视频数据进行编解码处理,得到处理后图像/视频数据;
步骤411:将处理后图像/视频数据发送图像/视频内容存储服务器进行存储。
本步骤旨在由上述执行主体将处理后图像/视频数据发送图像/视频内容存储服务器进行存储,以便用户通过客户端点播某个图像或视频时直接从该服务器中取出成品。
通过本应用场景实施例可以看出,本申请将模型蒸馏方法的适用场景从常规类型的模型/网络,拓展到了较为特殊的GAN网络。且轻量级的目标学习模型可较好的运行在轻量级设备,降低了对硬件设备运算能力的要求,从而在轻量级设备上也能够得到针对待处理图像/视频数据较高的处理精度。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种用于模型蒸馏的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的用于模型蒸馏的装置500可以包括:教师模型特征分布获取单元501、逆矩阵计算单元502、权值计算单元503、加权处理单元504以及模型蒸馏单元505。其中,教师模型特征分布获取单元501,被配置成获取至少两个教师模型,并获取每个教师模型的实际特征分布;逆矩阵计算单元502,被配置成对每个实际特征分布分别取拉普拉斯算子得到海森矩阵的逆矩阵;权值计算单元503,被配置成按照牛顿迭代的二次表达式分别对每个逆矩阵进行运算,得到与每个实际特征分布分别对应的权值;加权处理单元504,被配置成对每个实际特征分布使用相应的权值进行加权,得到综合特征分布;模型蒸馏单元505,被配置成利用综合特征分布对原始学生模型执行模型蒸馏操作,得到目标学生模型;其中,教师模型和原始学生模型均用于对图像或视频数据进行编解码处理。
在本实施例中,用于模型蒸馏的装置500中:教师模型特征分布获取单元501、逆矩阵计算单元502、权值计算单元503、加权处理单元504以及模型蒸馏单元505的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-205的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,教师模型特征分布获取单元501进一步被配置成:分别冻结每个教师模型的参数,得到各参数冻结模型;利用预设的训练集,分别对每个参数冻结模型进行前向传播,得到各第一特征;利用预设概率模型的基准特征分布,分别对每个第一特征的分布进行估计,得到与每个教师模型分别对应的实际特征分布。
在本实施例的一些可选的实现方式中,模型蒸馏单元505可以包括:第二特征获取子单元,被配置成利用预设的训练集对原始学生模型进行前向传播,得到第二特征;模型蒸馏子单元,被配置成将综合特征分布作为蒸馏损失对第二特征执行模型蒸馏操作。
在本实施例的一些可选的实现方式中,当目标学生模型具体为生成对抗网络时,原始学生模型具体为原始学生生成网络,对应的,教师模型具体为教师生成网络,模型蒸馏子单元可以包括:蒸馏后生成网络获取模块,被配置成将综合特征分布作为蒸馏损失对原始学生生成网络的第二特征执行模型蒸馏操作,得到蒸馏后生成网络;收敛网络获取模块,被配置成利用蒸馏后生成网络和原始对抗网络进行对抗迭代,得到收敛生成网络和收敛对抗网络;生成对抗网络构建模块,被配置成利用收敛生成网络和收敛对抗网络构建得到生成对抗网络。
在本实施例的一些可选的实现方式中,收敛网络获取模块可以进一步被配置成:判断当前的已迭代次数是否小于预设迭代次数;若小于,则利用训练集重新对迭代至当前的学生生成网络进行前向传播,并根据计算出的新第二特征重新得到新蒸馏后生成网络;若不小于,则根据当前的迭代结果得到收敛生成网络和收敛对抗网络。
在本实施例的一些可选的实现方式中,用于模型蒸馏的装置500还可以包括:编解码处理单元,被配置成在得到目标学生模型之后,利用目标学生模型对待处理图像/视频数据进行编解码处理,得到处理后图像/视频数据;处理后数据发送单元,被配置成通过预设路径发送处理后图像/视频数据。
本实施例作为对应于上述方法实施例的装置实施例存在,区别于现有技术将多个教师模型的损失函数以取平均的方式完成对单个学生模型的蒸馏的方案,本实施例提供的用于模型蒸馏的装置首先获取到表征每个教师模型各自知识的实际特征分布,然后通过内置有置信度概念的海森矩阵,结合牛顿迭代的二次表达式,计算出与每个教师模型对应的更加准确的权值,通过权值对实际特征分布的加权,使得不同教师模型的知识更加准确的体现在综合特征分布中,从而得到高精度的目标学生模型。同时,在每个教师模型的知识能够得以充分传递至目标学生模型的情况下,目标学生模型的精度将随教师模型的数量增加得以不断提升。
此外,当通过上述模型蒸馏方案得到的目标学生模型用于图像处理领域时,轻量级的目标学习模型可较好的运行在轻量级设备,降低了对硬件设备运算能力的要求,从而在轻量级设备上也能够得到针对待处理图像较高的处理精度。
根据本申请的实施例,本申请还提供了一种电子设备和一种计算机可读存储介质。
如图6所示,是根据本申请实施例的用于模型蒸馏的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的用于模型蒸馏的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的用于模型蒸馏的方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如与本申请上述各实施例中用于模型蒸馏的方法对应的程序指令/模块(例如,附图5所示的教师模型特征分布获取单元501、逆矩阵计算单元502、权值计算单元503、加权处理单元504以及模型蒸馏单元505)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的用于模型蒸馏的方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储电子设备在执行用于模型蒸馏的方法时所创建的各类数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至适用于执行用于模型蒸馏的方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
适用于执行用于模型蒸馏的方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生适用于执行用于模型蒸馏的方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
区别于现有技术将多个教师模型的损失函数以取平均的方式完成对单个学生模型的蒸馏的方案,本实施例提供的技术方案首先获取到表征每个教师模型各自知识的实际特征分布,然后通过内置有置信度概念的海森矩阵,结合牛顿迭代的二次表达式,计算出与每个教师模型对应的更加准确的权值,通过权值对实际特征分布的加权,使得不同教师模型的知识更加准确的体现在综合特征分布中,从而得到高精度的目标学生模型。同时,在每个教师模型的知识能够得以充分传递至目标学生模型的情况下,目标学生模型的精度将随教师模型的数量增加得以不断提升。
此外,当通过上述模型蒸馏方案得到的目标学生模型用于图像处理领域时,轻量级的目标学习模型可较好的运行在轻量级设备,降低了对硬件设备运算能力的要求,从而在轻量级设备上也能够得到针对待处理图像较高的处理精度。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (10)
1.一种用于图像/视频数据处理的模型蒸馏方法,包括:
获取至少两个均用于对图像/视频数据进行编解码处理的教师模型;分别冻结每个所述教师模型的参数,得到各参数冻结模型;利用预设的训练集,分别对每个所述参数冻结模型进行前向传播,得到各第一特征;利用预设概率模型的基准特征分布,分别对每个所述第一特征的分布进行估计,得到与每个所述教师模型分别对应的实际特征分布;
对每个所述实际特征分布分别取拉普拉斯算子得到海森矩阵的逆矩阵;
按照牛顿迭代的二次表达式分别对每个所述逆矩阵进行运算,得到与每个所述实际特征分布分别对应的权值;
对每个所述实际特征分布使用相应的权值进行加权,得到综合特征分布;
利用所述综合特征分布对用于对图像/视频数据进行编解码处理的原始学生模型执行模型蒸馏操作,得到目标学生模型;其中,所述目标学生模型配置在轻量级设备中,并用于对待处理图像/视频数据进行编解码处理,得到处理后图像/视频数据。
2.根据权利要求1所述的方法,其中,利用所述综合特征分布对用于对图像/视频数据进行编解码处理的原始学生模型执行模型蒸馏操作,包括:
利用预设的训练集对所述原始学生模型进行前向传播,得到第二特征;
将所述综合特征分布作为蒸馏损失对所述第二特征执行模型蒸馏操作。
3.根据权利要求2所述的方法,其中,当目标学生模型具体为生成对抗网络时,所述原始学生模型具体为原始学生生成网络,对应的,所述教师模型具体为教师生成网络,将所述综合特征分布作为蒸馏损失对原始学生生成网络的第二特征执行模型蒸馏操作,得到生成对抗网络,包括:
将所述综合特征分布作为蒸馏损失对原始学生生成网络的第二特征执行模型蒸馏操作,得到蒸馏后生成网络;
利用所述蒸馏后生成网络和原始对抗网络进行对抗迭代,得到收敛生成网络和收敛对抗网络;
利用所述收敛生成网络和所述收敛对抗网络构建得到生成对抗网络。
4.根据权利要求3所述的方法,其中,利用所述蒸馏后生成网络和原始对抗网络进行对抗迭代,得到收敛生成网络和收敛对抗网络,包括:
判断当前的已迭代次数是否小于预设迭代次数;
若小于,则利用所述训练集重新对迭代至当前的学生生成网络进行前向传播,并根据计算出的新第二特征重新得到新蒸馏后生成网络;
若不小于,则根据当前的迭代结果得到所述收敛生成网络和所述收敛对抗网络。
5.一种用于图像/视频数据处理的模型蒸馏装置,包括:
教师模型特征分布获取单元,被配置成获取至少两个均用于对图像/视频数据进行编解码处理的教师模型;分别冻结每个所述教师模型的参数,得到各参数冻结模型;利用预设的训练集,分别对每个所述参数冻结模型进行前向传播,得到各第一特征;利用预设概率模型的基准特征分布,分别对每个所述第一特征的分布进行估计,得到与每个所述教师模型分别对应的实际特征分布;
逆矩阵计算单元,被配置成对每个所述实际特征分布分别取拉普拉斯算子得到海森矩阵的逆矩阵;
权值计算单元,被配置成按照牛顿迭代的二次表达式分别对每个所述逆矩阵进行运算,得到与每个所述实际特征分布分别对应的权值;
加权处理单元,被配置成对每个所述实际特征分布使用相应的权值进行加权,得到综合特征分布;
模型蒸馏单元,被配置成利用所述综合特征分布对用于对图像/视频数据进行编解码处理的原始学生模型执行模型蒸馏操作,得到目标学生模型;其中,所述目标学生模型配置在轻量级设备中,并用于对待处理图像/视频数据进行编解码处理,得到处理后图像/视频数据。
6.根据权利要求5所述的装置,其中,所述模型蒸馏单元包括:
第二特征获取子单元,被配置成利用预设的训练集对所述原始学生模型进行前向传播,得到第二特征;
模型蒸馏子单元,被配置成将所述综合特征分布作为蒸馏损失对所述第二特征执行模型蒸馏操作。
7.根据权利要求6所述的装置,其中,当目标学生模型具体为生成对抗网络时,所述原始学生模型具体为原始学生生成网络,对应的,所述教师模型具体为教师生成网络,所述模型蒸馏子单元包括:
蒸馏后生成网络获取模块,被配置成将所述综合特征分布作为蒸馏损失对原始学生生成网络的第二特征执行模型蒸馏操作,得到蒸馏后生成网络;
收敛网络获取模块,被配置成利用所述蒸馏后生成网络和原始对抗网络进行对抗迭代,得到收敛生成网络和收敛对抗网络;
生成对抗网络构建模块,被配置成利用所述收敛生成网络和所述收敛对抗网络构建得到生成对抗网络。
8.根据权利要求7所述的装置,其中,所述收敛网络获取模块进一步被配置成:
判断当前的已迭代次数是否小于预设迭代次数;
若小于,则利用所述训练集重新对迭代至当前的学生生成网络进行前向传播,并根据计算出的新第二特征重新得到新蒸馏后生成网络;
若不小于,则根据当前的迭代结果得到所述收敛生成网络和所述收敛对抗网络。
9.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任一项所述的用于图像/视频数据处理的模型蒸馏方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-4中任一项所述的用于图像/视频数据处理的模型蒸馏方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010538346.2A CN111695699B (zh) | 2020-06-12 | 2020-06-12 | 用于模型蒸馏的方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010538346.2A CN111695699B (zh) | 2020-06-12 | 2020-06-12 | 用于模型蒸馏的方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111695699A CN111695699A (zh) | 2020-09-22 |
CN111695699B true CN111695699B (zh) | 2023-09-08 |
Family
ID=72480837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010538346.2A Active CN111695699B (zh) | 2020-06-12 | 2020-06-12 | 用于模型蒸馏的方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111695699B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112561059B (zh) * | 2020-12-15 | 2023-08-01 | 北京百度网讯科技有限公司 | 用于模型蒸馏的方法和装置 |
CN112529181B (zh) * | 2020-12-15 | 2024-04-23 | 北京百度网讯科技有限公司 | 用于模型蒸馏的方法和装置 |
CN112529180B (zh) * | 2020-12-15 | 2024-05-24 | 北京百度网讯科技有限公司 | 模型蒸馏的方法和装置 |
WO2022162839A1 (ja) * | 2021-01-28 | 2022-08-04 | 日本電気株式会社 | 学習装置、学習方法、及び、記録媒体 |
CN115249062B (zh) * | 2022-09-22 | 2023-02-03 | 武汉大学 | 一种文本生成视频的网络模型、方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709092A (zh) * | 2015-11-12 | 2017-05-24 | 中国石油化工股份有限公司 | 随机函数预处理拟牛顿后处理分布遗传集总动力学方法 |
CN110059740A (zh) * | 2019-04-12 | 2019-07-26 | 杭州电子科技大学 | 一种针对嵌入式移动端的深度学习语义分割模型压缩方法 |
CN110097177A (zh) * | 2019-05-15 | 2019-08-06 | 电科瑞达(成都)科技有限公司 | 一种基于伪孪生网络的网络剪枝方法 |
CN110232411A (zh) * | 2019-05-30 | 2019-09-13 | 北京百度网讯科技有限公司 | 模型蒸馏实现方法、装置、系统、计算机设备及存储介质 |
CN110837761A (zh) * | 2018-08-17 | 2020-02-25 | 北京市商汤科技开发有限公司 | 多模型知识蒸馏方法及装置、电子设备和存储介质 |
CN111160380A (zh) * | 2018-11-07 | 2020-05-15 | 华为技术有限公司 | 生成视频分析模型的方法及视频分析系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11782992B2 (en) * | 2017-02-17 | 2023-10-10 | Kyndi, Inc. | Method and apparatus of machine learning using a network with software agents at the network nodes and then ranking network nodes |
-
2020
- 2020-06-12 CN CN202010538346.2A patent/CN111695699B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709092A (zh) * | 2015-11-12 | 2017-05-24 | 中国石油化工股份有限公司 | 随机函数预处理拟牛顿后处理分布遗传集总动力学方法 |
CN110837761A (zh) * | 2018-08-17 | 2020-02-25 | 北京市商汤科技开发有限公司 | 多模型知识蒸馏方法及装置、电子设备和存储介质 |
CN111160380A (zh) * | 2018-11-07 | 2020-05-15 | 华为技术有限公司 | 生成视频分析模型的方法及视频分析系统 |
CN110059740A (zh) * | 2019-04-12 | 2019-07-26 | 杭州电子科技大学 | 一种针对嵌入式移动端的深度学习语义分割模型压缩方法 |
CN110097177A (zh) * | 2019-05-15 | 2019-08-06 | 电科瑞达(成都)科技有限公司 | 一种基于伪孪生网络的网络剪枝方法 |
CN110232411A (zh) * | 2019-05-30 | 2019-09-13 | 北京百度网讯科技有限公司 | 模型蒸馏实现方法、装置、系统、计算机设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于深度学习的智能教室视觉检测系统;徐梦楚;《中国优秀硕士学位论文全文数据库 (信息科技辑)》(第09期);I138-1140 * |
Also Published As
Publication number | Publication date |
---|---|
CN111695699A (zh) | 2020-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111695699B (zh) | 用于模型蒸馏的方法、装置、电子设备及可读存储介质 | |
CN111695698B (zh) | 用于模型蒸馏的方法、装置、电子设备及可读存储介质 | |
CN113963087B (zh) | 图像处理方法、图像处理模型训练方法、装置及存储介质 | |
CN111539514B (zh) | 用于生成神经网络的结构的方法和装置 | |
JP7135143B2 (ja) | キーポイント学習モデルを構築するための方法、装置、電子デバイス及びコンピュータ可読記憶媒体 | |
CN111144577B (zh) | 异构图之中节点表示的生成方法、装置和电子设备 | |
CN110795569B (zh) | 知识图谱的向量表示生成方法、装置及设备 | |
CN111860167B (zh) | 人脸融合模型获取及人脸融合方法、装置及存储介质 | |
CN110612538A (zh) | 生成输入数据项的离散潜在表示 | |
CN111667056B (zh) | 用于搜索模型结构的方法和装置 | |
CN111582375B (zh) | 数据增强策略搜索方法、装置、设备以及存储介质 | |
CN110337016B (zh) | 基于多模态图卷积网络的短视频个性化推荐方法、系统、可读存储介质以及计算机设备 | |
KR20210108906A (ko) | 점군 데이터 처리방법, 장치, 전자기기 및 판독 가능 기록매체 | |
CN111582479B (zh) | 神经网络模型的蒸馏方法和装置 | |
CN112270711B (zh) | 模型训练以及姿态预测方法、装置、设备以及存储介质 | |
CN111311321B (zh) | 用户消费行为预测模型训练方法、装置、设备及存储介质 | |
CN111563593B (zh) | 神经网络模型的训练方法和装置 | |
CN111241838B (zh) | 文本实体的语义关系处理方法、装置及设备 | |
CN112149634A (zh) | 图像生成器的训练方法、装置、设备以及存储介质 | |
CN111767833A (zh) | 模型生成方法、装置、电子设备及存储介质 | |
CN111833391B (zh) | 图像深度信息的估计方法及装置 | |
CN112288483A (zh) | 用于训练模型的方法和装置、用于生成信息的方法和装置 | |
CN111966361A (zh) | 用于确定待部署模型的方法、装置、设备及其存储介质 | |
CN113792883B (zh) | 基于联邦学习的模型训练方法、装置、设备和介质 | |
CN114299294A (zh) | 预测方法、推荐方法及其相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |