CN111160124A

CN111160124A - 一种基于知识重组的深度模型定制方法

Info

Publication number: CN111160124A
Application number: CN201911265084.0A
Authority: CN
Inventors: 宋明黎; 沈成超; 薛梦琦; 宋杰; 孙立
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2020-05-15

Abstract

一种基于知识重组的深度模型定制方法，包括：1)收集已有训练好的深度人脸属性识别模型，构建人脸属性识别模型库，将各类模型进行分组归类；2)根据当前对人脸属性识别的任务需求，将目标任务分解为一系列识别不同人脸属性的“组件任务”，并从深度模型库中选择相关的模型；3)对选中的人脸属性识别模型，进行知识过滤，将多个深度模型中，与“组件任务”相关的知识合并到“组件网络”中；4)对“组件网络”进行组合，得到最终的“目标网络”。本发明利用现有深度模型的知识，逐过程指导新模型的学习，有效减少对数据标注、数据量的依赖，降低训练新深度模型耗费的周期和资源。

Description

一种基于知识重组的深度模型定制方法

技术领域

本发明属于在线个性化化妆品推荐模型定制领域，针对在线商品推荐领域中，不同化妆品需要识别不同类型的人脸属性来进行个性化推荐，为此需要重新设计并从头开始训练模型，存在模型获取代价大的问题。本发明提出了一种基于知识重组的人脸属性模型定制方法，利用现有的深度人脸属性识别模型来加快新的深度模型的开发。

背景技术

随着深度学习的迅猛发展，网上出现了大量的预训练的深度模型。复用这些模型来定制新任务上的模型，可以有效降低重新训练模型的代价。已有的模型复用的相关工作主要包含两大类别：知识蒸馏和跨模态知识迁移。

知识蒸馏的目的是通过一个教师-学生的架构，使得结构精简的学生网络模型能够去模拟原始的教师网络的输出，相关的研究集中在学生网络结构的设计和软标签的损失函数上。跨模态知识迁移则通过将特定模态下的知识转移到相似的场景中，例如可以通过训练好的教师网络引导学生网络从未标记的数据模态中进行学习作为对学生网络的预训练，再利用少量的标记数据进行模型调优。

现有的技术方案的一些限制如下：(1)知识蒸馏在分类类别数较多时难以得到跟教师网络性能相当的学生网络模型；(2)跨模态知识迁移受限于相似的知识模态场景，例如需要处理来源于同样场景的深度图和分割图。两类技术方案都不适用于用已有模型来定制新的深度模型。

发明内容

本发明要克服现有技术的上述缺点，提供一种基于知识重组的深度模型定制方法。

本发明用于克服获取人脸多属性识别模型中重新训练深度模型代价大的问题，在现有训练好的人脸属性识别模型库的基础上，提供了一种基于知识重组的人脸属性识别模型定制方法，实现针对目标任务的模型定制。本发明的技术方案是：

一种基于知识重组的深度模型定制方法，包含如下步骤：

1)构建深度人脸属性识别模型库；

从网络上收集大量训练好的人脸属性识别模型，对其进行分组归类，建立一套便于检索的人脸属性识别模型库系统；根据其按照不同类型的人脸属性、训练数据集、网络框架等信息，对深度模型进行分组归类，将这些网络称为“源网络”；

2)分解目标人脸属性识别任务；

根据当前人脸属性识别任务订制需求，将目标任务分解为一系列不同人脸属性识别的“组件任务”，并从人脸属性识别模型库中检索得到相关的深度模型；

3)构建人脸属性识别“组件网络”；

将包含多个识别人脸不同属性“组件任务”的“源网络”的中间结果与最终结果，通过特征对齐模块进行特征过滤和特征对齐，实现多个“源网络”和对应“组件网络”之间的特征对齐，并且过滤得到“组件网络”需要的知识。

优选地，采用了1×1的卷积操作，在特征图的通道维度进行加权求和，得到经过线性变换之后的特征:

其中，F_a,c表示对齐的特征F_a的第c个通道特征图，F_c′表示输入特征F的第c′个通道特征图，变换参数w_c是可学习的，能够根据“源网络”和“组件网络”之间的特征编码差异，进行自适应的学习和调整，从而实现对齐；同时，由于任务目标的监督和对齐特征数量的限制，目标任务相关的知识优先被“组件网络”所学习，而无关的知识则被滤除。

优选地，采用通过引入了迁移损失来监督“组件网络”的学习并实现特征的对齐过滤：

其中，

H^l和W^l分别表示

和

的通道数、高和宽。

由于

和

都随w_c的调整而变化，为了避免出现w_c全为零，而导致

为零的退化解，引入了如下对w_c的正则化:

将w_c值限制在一个合理的范围内。

同时对于同一个“组件任务”存在多个“源网络”，不同“源网络”由于训练数据及方式的差异，对同一输入样本存在不同的预测，部分“源网络”正确而部分“源网络”错误，因此需要对“源网络”的预测进行选择性学习。这里采用了置信度作为选择“源网络”预测的度量标准，置信度越高，预测错误的概率越低。具体采用了熵不纯度来衡量置信度(熵不纯度越小，置信度越高)，选择熵不纯度最低的“源网络”t_se的预测作为“组件网络”的学习目标：

t_se＝argmin{I(p^t(x))} (5)

4)构建“目标网络”；

按照步骤3)中，从“源网络”到“组件网络”的知识重组方式，实现“组件网络”到“目标网络”的知识重组，最终得到目标任务所需的“目标网络”。

本发明的有益效果如下：

本发明是一种基于知识重组的人脸属性识别模型定制方法，可以有效避免针对新的人脸属性识别任务需要从头开始训练深度模型，而产生高昂代价的问题。利用现有深度模型的知识，来逐过程指导新模型的学习，可以有效减少对数据标注、数据量的依赖，降低训练新深度模型耗费的周期和资源。

附图说明

图1是本发明方法的人脸属性识别模型定制框架的示意图。

具体实施方式

下面结合附图，对本发明的技术方案进行清晰、完整的解释和描述。

一种基于知识重组的深度模型定制方法，包含如下步骤：

1)构建深度人脸属性识别模型库；

从网络上收集大量训练好的深度模型，对其进行分组归类，建立一套便于检索的深度模型库系统；模型分类具体标准如下：按人脸属性类型分类包括性别，鼻子类型，嘴巴类型，眼睛类型，皮肤，整体脸型，下巴，头发及毛发。按训练数据分类可以由CelebA，LFWA等人脸属性。由此可以得到一系列“源模型”。

2)分解目标人脸属性识别任务；

例如当前需要向用户推荐一款眼霜产品，那么需要分析用户上传的个人肖像图片中分析当前的用户是否化妆来判断是否有购买化妆品的习惯，用户的年龄大小，皮肤的保养状况，眼睛是否有眼袋，以精确推荐适合的产品款式。可以将当前的推荐任务分解为关于识别是否化妆、年龄大小，肤色、是否有眼袋等人脸属性的“组件任务”，并从模型库中检索得到包含相关任务的深度模型。

3)构建人脸属性识别“组件网络”；

将多个包含多个2)中识别人脸不同属性“组件任务”的“源网络”作为复用模型。如图1所示(简洁起见，只画出了一个“源网络”)，输入一个批次的无标注人脸图像，经过以上“源网络”和待训练的“组件网络”的处理，通过特征对齐模块对它们输出的中间结果与最终结果进行特征过滤和特征对齐,实现多个“源网络”和对应“组件网络”之间的特征对齐，从而过滤得到“组件网络”所需要的知识。具体采用了1×1的卷积操作，在特征图的通道维度进行加权求和，得到经过线性变换之后的特征:

具体采用通过引入了迁移损失来监督“组件网络”的学习并实现特征的对齐过滤：

其中，

H^l和W^l分别表示

和

的通道数、高和宽。

由于

和

都随w_c的调整而变化，为了避免出现w_c全为零，而导致

为零的退化解，引入了如下对w_c的正则化:

将w_c值限制在一个合理的范围内。

t_se＝argmin{I(p^t(x))} (5)

4)“目标网络”的构建

按照3)中，从“源网络”到“组件网络”的知识重组方式，实现“组件网络”到“目标网络”的知识重组，最终得到目标任务所需的“目标网络”。与3)不同的是：4)中“组件网络”作为的“目标网络”的学习对象，“目标网络”是4)需要训练得到的模型；而3)中“源网络”作为“组件网络”的学习对象，“组件网络”是3)需要训练得到的模型。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于知识重组的深度模型定制方法，包含如下步骤：

1)构建深度人脸属性识别模型库；

2)分解目标人脸属性识别任务；

3)构建人脸属性识别“组件网络”；

将包含多个识别人脸不同属性“组件任务”的“源网络”的中间结果与最终结果，通过特征对齐模块进行特征过滤和特征对齐，实现多个“源网络”和对应“组件网络”之间的特征对齐，并且过滤得到“组件网络”需要的知识；

4)构建“目标网络”；

2.如权利要求1所述的一种基于知识重组的深度模型定制方法，其特征在于：步骤3)所述的特征过滤和特征对齐，具体包括：

采用了1×1的卷积操作，在特征图的通道维度进行加权求和，得到经过线性变换之后的特征:

其中，F_a,c表示对齐的特征F_a的第c个通道特征图，F_c′表示输入特征F的第c′个通道特征图，变换参数w_c是可学习的，能够根据“源网络”和“组件网络”之间的特征编码差异，进行自适应的学习和调整，从而实现对齐；同时，由于任务目标的监督和对齐特征数量的限制，目标任务相关的知识优先被“组件网络”所学习，而无关的知识则被滤除；

采用通过引入了迁移损失来监督“组件网络”的学习并实现特征的对齐过滤：

其中，

H^l和W^l分别表示

和

的通道数、高和宽；

由于

和

都随w_c的调整而变化，为了避免出现w_c全为零，而导致

为零的退化解，引入了如下对w_c的正则化:

将w_c值限制在一个合理的范围内；

同时对于同一个“组件任务”存在多个“源网络”，不同“源网络”由于训练数据及方式的差异，对同一输入样本存在不同的预测，部分“源网络”正确而部分“源网络”错误，因此需要对“源网络”的预测进行选择性学习；这里采用了置信度作为选择“源网络”预测的度量标准，置信度越高，预测错误的概率越低；具体采用了熵不纯度来衡量置信度(熵不纯度越小，置信度越高)，选择熵不纯度最低的“源网络”t_se的预测作为“组件网络”的学习目标：

t_se＝argmin{I(p^t(x))} (5)。