CN112348048A

CN112348048A - 一种多结构多任务深度神经网络及其训练、分类方法

Info

Publication number: CN112348048A
Application number: CN202011040925.0A
Authority: CN
Inventors: 王伟平; 李晓倪; 周玉灿; 周宇
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2021-02-09

Abstract

本发明公开了一种多结构多任务深度神经网络及其训练、分类方法。本网络包括M个特征提取单元，一个用于识别样本子类类别的分类分支CCB和由K个用于对超类进行分类的超类分类器组成的超类分类分支MSCBs；每一超类分类器分别与一特征提取单元连接，用于基于提取的样本特征识别样本的超类类别；网络的损失函数为

其中L_CCB为CCB的损失函数，

为第k个超类分类器的损失函数，

分别是CCB、第k个超类分类器对样本x预测的子类和超类，c、

是第k个分层标记结构H_k中的子类真实值、超类真实值。

Description

一种多结构多任务深度神经网络及其训练、分类方法

技术领域

本发明涉及一种面向图像分层分类的多结构多任务深度神经网络模型，属于计算机软件技术领域。

背景技术

随着标注数据的海量增加，深度学习方法在图像分类任务中取得了显著的效果，是近年来的研究热点。一般地，对样本的类别进行0/1编码后输入网络进行训练，标记之间相互独立。但是在大数据环境下，为了提高数据的存储和检索效率，往往采用分层结构组织数据，因此分层分类任务被提出。传统的分层分类方法将分层分类任务分解成若干个子任务，并为每个超类节点分别训练一个子类分类器。

在分层分类中，分层标记结构对分类结果有很大的影响，因此很多研究人员都在努力尝试构建有效的分层标记结构，大致可以分为基于语义的构建方法和基于计算的构建方法。基于语义的方法根据类别之间的语义关系构建语义结构。基于计算的方法根据类别之间的外观关系构建分层标记结构，通常情况下，首先计算一个类别的混淆矩阵或是相似矩阵，然后根据谱聚类来构建分层标记结构。具体来说，基于混淆矩阵的计算方法，把混淆的类别聚类到同一个超类里面；基于相似矩阵的计算方法，设计不同的准则来度量类别之间的相似性。

背景技术的缺陷

1,传统的扁平分类器：

大数据时代的到来使得不可分的类别大量增长，然而，传统的扁平分类器不能衡量犯错误的严重程度，只要预测结果与真值不一致，就被判定为错误，因此传统的扁平分类器不适用于大规模的图像分类。

2,传统的分层分类方法：

传统的分层分类方法将多层分类任务分解成多个子任务训练多个子分类器，这种分治策略占用了大量的存储空间。此外由于多个分类器相互独立，超类和子类之间的关联关系在训练过程中被忽略。

3,分层分类中单分层标记结构的缺陷：

语义结构(H_Sem)中类别的语义关系可能与外观不一致，从而降低了分类器的性能；基于混淆矩阵的分层标记结构严重依赖于分类器的性能；基于相似矩阵的分层标记结构(H_AM)依赖于特征的表示能力以及相似性度量方法的设计。因此，单一的分层标记结构为子类分类器提供的先验知识有限。

发明内容

本发明的目的在于设计一个多任务多分层标记结构融合的框架，激励子类分类器学习不同方面的特征，比如外观方面、语义方面，以此满足不同分层标记结构下的多重相似性约束，使得来自不同分层标记结构的超类能够指导子类的识别；同时设计多结构条件下的分类性能评价指标，从而更好的评估多种结构约束下的分类性能。

本发明的技术方案为：

一种多结构多任务深度神经网络，其特征在于，包括M个特征提取单元，一个用于识别样本子类类别的分类分支CCB和由K个用于对超类进行分类的超类分类器组成的超类分类分支MSCB；其中，M个特征提取单元依次连接用于提取样本的不同层级特征，第m个特征提取单元提取的样本特征层级低于第m+1个特征提取单元提取的样本特征层级；每一所述超类分类器分别与一对应的特征提取单元连接，用于基于所连接特征提取单元提取的样本特征识别样本的超类类别，不同所述超类分类器负责识别不同分层标记结构定义的超类类别；最后一个特征提取单元，即第M个特征提取单元，与分类分支CCB连接；M大于或等于K；

多结构多任务深度神经网络的损失函数为

其中L_CCB为分类分支CCB的损失函数，

为超类分类分支MSCB中第k个超类分类器的损失函数，k＝1～K；使用标准的交叉熵损失函数来计算L_CCB和

是分类分支CCB对样本x预测的子类，

是第k个超类分类器对样本x预测的超类，c,是第k个分层标记结构H_k中的子类真实值，

是第k个分层标记结构H_k中的超类真实值；C^S为超类真实值集合，λ_k是平衡分层标记结构H_k对应的超类分类器和其他超类分类器影响的权重，

K是分层标记结构的总数；φ(x,θ)为样本x在网络不同阶段的预测值，参数θ通过最小化损失函数L来学习得到。

进一步的，所述超类分类分支MSCB中的各超类分类器并行工作。

进一步的，标准的交叉熵损失函数为

其中N是类别数量，y_i是类别标签，p_i是类别为i的概率。

进一步的，所述样本为具有分层标记结构的图像数据或文本数据。

一种多结构多任务深度神经网络的训练方法，其步骤包括：

1)将包含不同分层标记结构的样本构成的训练集输入到多结构多任务深度神经网络，进行多轮迭代训练；

2)采用验证集对每次训练后的网络进行测试，选择测试最佳结果作为最终的多结构多任务深度神经网络。

进一步的，所述分层标记结构包括基于语义的分层标记结构和基于相似矩阵的分层标记结构。

进一步的，采用指标

对训练后的网络进行评价；其中，

是预测的扩展集，包含分层标记结构中从根节点到预测的子类节点的路径上的所有节点；C_aug是真实的扩展集，包含分层标记结构中从根节点到真实的子类节点的路径上的所有节点，|·|是计算元素数量的运算符。

进一步的，计算每个分层标记结构中所有P_H的平均值P_Ha、R_H的平均值R_Ha；

然后根据公式

对训练后的网络进行评价；其中，

是预测的扩展集，包含分层标记结构H_k中从根节点到预测的子类节点的路径上的所有节点；

是真实的扩展集，包含分层标记结构H_k中从根节点到真实的子类节点的路径上的所有节点。

一种多结构多任务深度神经网络的分类方法，其步骤包括：将一张未标记的图像输入多结构多任务深度神经网络，多结构多任务深度神经网络的各特征提取单元依次提取该图像的不同层级特征：每个超类分支MSCB选取自身特定的特征提取单元所提取图像特征预测该图像的超类类别；分类分支CCB根据最后一个特征提取单元提取的该图像特征预测该图像的子类类别。也即，最终的预测结果包括多种超类类别预测结果(超类结果数量取决于超类分类器的数量)和一种子类类别预测结果。

本发明中在训练过程中进行先验知识和相似性约束，通过损失函数L迫使网络同时学习满足子类判定和多个超类判定的特征来实现。

与现有技术相比，本发明的积极效果为：

本发明提出了一个多任务多分层标记结构融合的框架来整合不同分层标记结构定义的类别相似性约束。这个框架包含两个不同类型的深度神经网络分类分支：一个是传统的分类分支，它负责判定每个样本的子类类别；另一个是超类分类分支，它包含多个小分支，每个小分支负责识别由特定的分层标记结构定义的超类类别。两类分支协同合作，为网络提供了多粒度的预测，从而使得子类分类器得到更好的性能。同时，本发明还改进了现有的分层分类评价指标，使之更加适用于本发明中多结构条件下分类性能的评估。本发明并不局限于图像数据，在文本数据等依旧适用，但在本发明中以图像数据为例进行讨论。实验表明，本发明在现有图像数据集上能够取得更好的性能。

附图说明

图1为分层标记结构示意图。

图2为基于相似矩阵的分层标记结构H_AM的构建流程图。

图3为本发明网络架构图。

图4为添加超类分类器的不同阶段以及子类分类器不同标签结构的损失权重示意图；

(a)展示了在VGG16上，基础网络中附加MSCB位置的探究结果；

(b)展示了在ResNet50上，基础网络中附加MSCB位置的探究结果；

(c)在VGG16上，CIFAR100的实验结果；

(d)在ResNet50上，CIFAR100的实验结果；

(e)在VGG16上Car-196的实验结果；

(f)在MTMSFF-HAM上Car-196的实验结果。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明的目的、特征和优点能够更加明显易懂，下面结合附图和事例对本发明中技术核心作进一步详细的说明。

本发明使用了多种树形的分层标记结构(在后文统称为“分层标记结构”)，例如基于语义特征的分层标记结构、基于相似矩阵的分层标记结构等，分层标记结构形如图1。基于语义特征的分层标记结构是数据集自带的，而基于相似矩阵的分层标记结构构造方法包括两个步骤：特征提取和分层标记结构构建，以CIFAR100(包含100类图像)为例，如图2所示。具体流程如下：

特征提取：使用一个预训练的网络VGG16，对包含M张图像N个类别的数据集的特征进行提取，特征可以表示为F＝{f_i}_i＝1,...,M。

分层标记结构构建：首先使用公式(1)计算任意两个类别的相似度，其中

和

是类别c_i的均值和方差。然后相似矩阵A可以用公式(2)构建，其中δ_ij是一个自己调节的参数，在本发明中取1。最后，使用谱聚类算法构建相应的分层标记结构H_AM。

本发明指出了融合多种分层标记结构有助于进一步提高分层分类任务的识别效果，并设计了多结构多任务融合的深度神经网络模型(MTMSFF)。如图3所示，MTMSFF包括两个类型的分类分支：用于识别样本子类的传统分类分支(CCB)和由多个用于对超类进行分类的超类分类器组成的超类分类分支(MSCBs)。MSCBs分支中所有的超类分类器(H₁分类器-H_k分类器)并行工作，使得网络提取的特征同时满足不同分层标记结构(H₁-H_k)下的多种相似性约束，从而指导CCB做出更准确的预测。同时，本发明发现对于超类分类器，低层特征比高层特征更有效，因此MSCB被附加到网络的早期阶段，而不是和CCB一样处于网络的最后阶段。如图3所示，基于MTMSFF中使用的第k个分层标记结构(H_k)提供的先验知识，MSCB中的“H_k分类器”完成其分类任务。整个网络可以端到端地训练。

损失函数需要将样本x在网络不同阶段的预测值φ(x,θ)与该样本x的真实子类c和真实超类子集C^S进行比较。本发明修改了用于分类的标准交叉熵损失函数，对于MTMSFF，多任务损失包括一个CCB损失L_CCB和一个MSCBs损失L_MSCBs，

为超类分类分支MSCBs中第K个超类分类器的损失函数(超类分类分支MSCBs中包括K个超类分类器)，本发明使用标准的交叉熵损失来计算L_CCB和L_MSCBs，交叉熵损失CE形如公式(3)所示，其中N是类别数量，y_i是类别标签，p_i是网络的输出，也就是类别为i的概率。

本发明的多任务损失函数L如公式(4)所示。其中

是网络预测的子类和超类，c,

是第k个分层标记结构H_k中的子类和超类的真实值。λ_k是平衡“H_k分类器”和其他所有分类分支(包括其他超类分类器和子类分类器)影响的权重，

K是分层标记结构的总数。网络的参数θ通过最小化损失函数L来学习。

本发明还改进了多结构条件下的分类性能评价指标。由于本发明是一个多结构的融合工作，为了更好地衡量预测类别与真实值的相似性(即分类器犯错误的严重程度)，本发明在评价指标中加入了需要考虑多种分层标记结构的分层信息。然而，现有的分层分类评价指标都是为单一的分层标记结构设计的，如层次化的F1-measure(F_H)，树诱导损失(TIE)以及预测节点和真实节点的最低共同祖先(LCA)。因此，对上述三项指标进行改进，以实现本发明中多结构条件下的分类性能评价。

如公式(5)，将传统的精确率P和召回率R扩展到分层的精确率P_H和召回率R_H，可以很好地衡量出，在超类中犯的错误要比子类中严重。

是预测的扩展集，包含分层标记结构中从根节点到预测的子类节点的路径上的所有节点。C_aug是真实的扩展集，包含层次分层标记结构中从根节点到真实的子类节点的路径上的所有节点。|·|是计算元素数量的运算符。

由于MTMSFF需要处理多个分层标记结构，本发明取每个分层标记结构中所有P_H和R_H的平均值，即P_Ha、R_Ha。F_Ha由P_Ha和R_Ha计算得出，如公式(6)。类似的，

是预测的扩展集，包含分层标记结构H_k中从根节点到预测的子类节点的路径上的所有节点。

是真实的扩展集，它包含分层标记结构H_k中从根节点到真实的子类节点的路径上的所有节点。|·|是计算元素数量的运算符。

在特定的树形分层标记结构中，从预测节点到真实节点的总边数表示为TIE距离。为了处理多个分层标记结构，引入TIE_a来平均每个分层标记结构中的TIE距离，如公式(7)，其中

是分层标记结构H_k中从预测节点

到真实节点c的边数。因此，TIE_a越小，预测的类别与真实的类别就越相似。

在树形分层标记结构中，LCA高度是指预测节点和真实节点的最低共同祖先的高度。本发明将LCA高度修改为所有分层标记结构中LCA高度的平均值，也即LCA_a，如公式(8)，其中

是分层标记结构H_k中预测节点

与真实节点c的最低公共祖先高度。LCA_a越小，所预测的类别与真实类别越相似。

本发明的训练与识别流程为：

训练过程：将包含图像和分层标记结构的训练集输入到网络，进行200轮迭代训练，保存在验证集上测试到的最佳结果的模型。具体来说，数据集的分层标记结构分为两类，即基于语义的分层标记结构和基于相似矩阵的分层标记结构。基于语义的分层标记结构数据集已经给出；基于相似矩阵的分层标记结构，首先计算数据集中所有类别的相似矩阵，然后根据谱聚类算法得到一个树状的分层标记结构。

测试过程：将一张未标记的图像输入网络，以流程图为例，在MSCBs分支，经过阶段1-3的卷积层提取特征，在阶段3接一个分类器，用于识别该图像属于哪一个超类。这里根据不同的分层标记结构，又可以接不同的分类器，输出不同的超类预测结果。在CCB分支上，阶段3的特征继续作为阶段4的输入，最终在阶段5接一个分类器，用于识别该图像属于哪一个子类，也即输出子类预测结果。注意，最终的预测结果包括多种超类类别预测结果(超类结果数量取决于超类分类器的数量)和一种子类类别预测结果。

本发明的关键点

1，提出一个多任务多结构的融合框架，以整合不同的分层标记结构，使它们为子类分类器提供多方面的先验知识和相似性约束。

2，改进了已有的分层分类评价指标，使之更适用于多结构条件下的分类性能评价。

本发明的效果

本发明进行了广泛的消融实验，以评估MTMSFF的效果。本发明的模型在图像数据集CIFAR100与Car-196上进行训练和测试。其中CIFAR100有60000张图像，50000张用于训练，10000张用于测试；包含100个子类，平均分属于20个语义超类。Car-196有16185张图像，8114张用于训练，8041张用于测试；包含196个子类，根据不同的语义超类划分标准，可以分为49个“Make”超类，18个“Type”超类。本发明的基础网络使用末端带有一个传统分类器的VGG16和ResNet50。

表1展示了对H_AM中超类数量的探究。实验结果显示，当CIFAR100上的H_AM划分成18个超类时，子类分类器具有最佳性能；Car-196的H_AM划分为15个超类时也可以使子类分类器达到最佳性能。

图4(a)和图4(b)展示了在基础网络中的附加MSCB位置的探究。以CIFAR100数据集为例，实验结果显示，在VGG16上，当MTMSFF-H_AM和MTMSFF-H_Sem在“阶段3”，MTMSFF-H_AM-H_Sem在“阶段4”时，子类分类器取得最佳性能，如图4(a)；在ResNet50上，当MTMSFF-H_AM在“阶段1”，MTMSFF-H_Sem在“阶段4”，MTMSFF-H_AM-H_Sem在“阶段5”时，子类分类器取得最佳性能，如图4(b)。总的来说，对于单一的分层标记结构，在一些早期阶段而不是最后阶段添加MSCB可以获得更好的分类性能。这意味着粗糙的超类可以促进低层特征的提取，从而进行精确的特征学习。此外在后期阶段，具有多个分层标记结构的MSCB要比单一分层标记结构的MSCB实现更好的性能。这是因为多个分层标记结构的MSCB为特征提取提供了更多的相似性约束。

图4(c)-(f)展示了对损失函数权重λ的探究。图4(c)和图4(d)展示了在CIFAR100上的实验结果，在VGG16(图4(c))和ResNet50(图4(d))上，当λ＝0.1，MTMSFF-HAM和MTMSFF-HSem都取得了最高的准确率。图4(e)和图4(f)展示了Car-196的实验结果，在VGG16上，如图4(e)，MTMSFF-HAM上λ＝0.6，MTMSFF-HMake上λ＝0.3，MTMSFF-HType上λ＝0.4，子类分类器能实现最好的性能。同理，在ResNet50上，如图4(f)，三个结构都在λ＝0.3时得到最佳的准确率。在Car-196上，本发明研究“Make”和“Type”两种语义结构，分别表示为H_Make和H_Type。表2和表3分别展示了在VGG16和ResNet50下，不同分层标记结构组合下的子类分类器性能研究结果，表格上半部分是CIFAR100，下半部分是Car-196。本发明可以看到，在Car-196的VGG16中，MTMSFF-H_AM-H_Type-H_Make的准确率比基准线(Baseline)高了9.04％，F_Ha高出5％，TIE_a距离则低了近0.3％。与两个分层标记结构结合的框架，也即MTMSFF-H_Type-H_Make、MTMSFF-H_AM-H_Type和MTMSFF-H_AM-H_Make相比，MTMSFF-H_AM-H_Type-H_Make的准确率分别高出了2.98％，1％和2.05％。此外，MTMSFF-H_AM-H_Type-H_Make的准确率比单分层标记结构的框架MTMSFF-H_Make，MTMSFF-H_Type和MTMSFF-H_AM分别高出了1.43％，1.32％和1％。在ResNet50中得到的结果大致相同，如图3所示。因此，对于子类分类器的性能，单一分层标记结构的MTMSFF优于Baseline。此外，多结构的MTMSFF比单一结构的MTMSFF性能更好。

图4(a)和图4(b)分别是使用VGG16和ResNet50网络，在CIFAR100数据集上，对超类分类器在不同阶段的探讨，横轴代表“网络阶段(stage)”，纵轴代表准确率。图4(c)和图4(d)分别是使用VGG16和ResNet50网络，在CIFAR100上对损失权重的探讨，横轴代表“损失权重”，纵轴代表准确率。图4(e)和图4(f)分别是使用VGG16和ResNet50网络，在Car-196上对损失权重的探讨，横轴代表“损失权重”，纵轴代表准确率。注：H_AM、H_Sem、H_Make、H_Type分别简写为H_A、H_S、H_M、H_T。

表1对H_AM中超类数量的探究

表2不同分层标记结构组合下的子类分类器性能研究(VGG16)

结构	类别数量	损失权重	准确率(％)	F<sub>Ha</sub>(％)	TIE<sub>a</sub>	LCA<sub>a</sub>
							基准方法	100	-	72.20	83.35	0.9991	0.4995
MTMSFF-H<sub>S</sub>	100/10	0.1	73.25	84.70	0.9179	0.4590
							MTMSFF-H<sub>A</sub>	100/30	0.1	73.27	84.97	0.9015	0.4507
MTMSFF-H<sub>A&S</sub>	100/30/10	0.15/0.15	73.37	84.79	0.9127	0.4563
							基准方法	196	-	74.63	87.88	0.7273	0.3637
MTMSFF-H<sub>M</sub>	196/49	0.3	82.24	91.89	0.4864	0.2432
							MTMSFF-H<sub>T</sub>	196/18	0.4	82.35	91.34	0.5344	0.2672
MTMSFF-H<sub>A</sub>	196/15	0.6	82.67	91.70	0.4979	0.2490
							MTMSFF-H<sub>M&T</sub>	196/49/18	0.2/0.2	80.69	91.44	0.5134	0.2567
MTMSFF-H<sub>A&T</sub>	196/15/18	0.3/0.3	82.67	92.23	0.4661	0.2330
							MTMSFF-H<sub>A&M</sub>	196/15/49	0.3/0.3	81.62	91.77	0.4938	0.2469
MTMSFF-H<sub>A&T&M</sub>	196/15/18/49	02/02/02	8367	9288	04274	02137

表3不同分层标记结构组合下的子类分类器性能研究(ResNet50)

尽管为说明目的公开了本发明的具体内容、实施算法以及附图，其目的在于帮助理解本发明的内容并据以实施，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种多结构多任务深度神经网络，其特征在于，包括M个特征提取单元，一个用于识别样本子类类别的分类分支CCB和由K个用于对超类进行分类的超类分类器组成的超类分类分支MSCBs；其中，M个特征提取单元依次连接用于提取样本的不同层级特征，第m个特征提取单元提取的样本特征层级低于第m+1个特征提取单元提取的样本特征层级；每一所述超类分类器分别与一对应的特征提取单元连接，用于基于所连接特征提取单元提取的样本特征识别样本的超类类别，不同所述超类分类器负责识别不同分层标记结构定义的超类类别；最后一个特征提取单元，即第M个特征提取单元，与分类分支CCB连接；M大于或等于K；

多结构多任务深度神经网络的损失函数为

其中L_CCB为分类分支CCB的损失函数，

为超类分类分支MSCBs中第k个超类分类器的损失函数，k＝1～K；使用标准的交叉熵损失函数来计算L_CCB和

是分类分支CCB对样本x预测的子类，c

是第k个超类分类器对样本x预测的超类，c,是csk第k个分层标记结构H_k中的子类真实值，c

2.如权利要求1所述的多结构多任务深度神经网络，其特征在于，所述超类分类分支MSCBs中的各超类分类器并行工作。

3.如权利要求1所述的多结构多任务深度神经网络，其特征在于，标准的交叉熵损失函数为

其中N是类别数量，y_i是类别标签，p_i是类别为i的概率。

4.如权利要求1所述的多结构多任务深度神经网络，其特征在于，所述样本为具有分层标记结构的图像数据或文本数据。

5.一种如权利要求1所述多结构多任务深度神经网络的训练方法，其步骤包括：

6.如权利要求5所述的方法，其特征在于，所述分层标记结构包括基于语义的分层标记结构和基于相似矩阵的分层标记结构。

7.如权利要求5或6所述的方法，其特征在于，采用指标

对训练后的网络进行评价；其中，

8.如权利要求7所述的方法，其特征在于，计算每个分层标记结构中所有P_H的平均值P_Ha、R_H的平均值R_Ha；

然后根据公式

对训练后的网络进行评价；其中，

9.一种基于权利要求1所述多结构多任务深度神经网络的分类方法，其步骤包括：将一张未标记的图像输入多结构多任务深度神经网络，多结构多任务深度神经网络的各特征提取单元依次提取该图像的不同层级特征，选取若干个特征提取单元所提取图像特征分别输入到一对应的超类分类器，预测该图像的超类类别；分类分支CCB根据最后一个特征提取单元提取的该图像特征预测该图像的子类类别。