CN112348048A - 一种多结构多任务深度神经网络及其训练、分类方法 - Google Patents

一种多结构多任务深度神经网络及其训练、分类方法 Download PDF

Info

Publication number
CN112348048A
CN112348048A CN202011040925.0A CN202011040925A CN112348048A CN 112348048 A CN112348048 A CN 112348048A CN 202011040925 A CN202011040925 A CN 202011040925A CN 112348048 A CN112348048 A CN 112348048A
Authority
CN
China
Prior art keywords
class
super
hierarchical
neural network
feature extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011040925.0A
Other languages
English (en)
Inventor
王伟平
李晓倪
周玉灿
周宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN202011040925.0A priority Critical patent/CN112348048A/zh
Publication of CN112348048A publication Critical patent/CN112348048A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24317Piecewise classification, i.e. whereby each classification requires several discriminant rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种多结构多任务深度神经网络及其训练、分类方法。本网络包括M个特征提取单元,一个用于识别样本子类类别的分类分支CCB和由K个用于对超类进行分类的超类分类器组成的超类分类分支MSCBs;每一超类分类器分别与一特征提取单元连接,用于基于提取的样本特征识别样本的超类类别;网络的损失函数为
Figure DDA0002706619670000011
其中LCCB为CCB的损失函数,
Figure DDA0002706619670000012
为第k个超类分类器的损失函数,
Figure DDA0002706619670000013
分别是CCB、第k个超类分类器对样本x预测的子类和超类,c、
Figure DDA0002706619670000014
是第k个分层标记结构Hk中的子类真实值、超类真实值。

Description

一种多结构多任务深度神经网络及其训练、分类方法
技术领域
本发明涉及一种面向图像分层分类的多结构多任务深度神经网络模型,属于计算机软件技术领域。
背景技术
随着标注数据的海量增加,深度学习方法在图像分类任务中取得了显著的效果,是近年来的研究热点。一般地,对样本的类别进行0/1编码后输入网络进行训练,标记之间相互独立。但是在大数据环境下,为了提高数据的存储和检索效率,往往采用分层结构组织数据,因此分层分类任务被提出。传统的分层分类方法将分层分类任务分解成若干个子任务,并为每个超类节点分别训练一个子类分类器。
在分层分类中,分层标记结构对分类结果有很大的影响,因此很多研究人员都在努力尝试构建有效的分层标记结构,大致可以分为基于语义的构建方法和基于计算的构建方法。基于语义的方法根据类别之间的语义关系构建语义结构。基于计算的方法根据类别之间的外观关系构建分层标记结构,通常情况下,首先计算一个类别的混淆矩阵或是相似矩阵,然后根据谱聚类来构建分层标记结构。具体来说,基于混淆矩阵的计算方法,把混淆的类别聚类到同一个超类里面;基于相似矩阵的计算方法,设计不同的准则来度量类别之间的相似性。
背景技术的缺陷
1,传统的扁平分类器:
大数据时代的到来使得不可分的类别大量增长,然而,传统的扁平分类器不能衡量犯错误的严重程度,只要预测结果与真值不一致,就被判定为错误,因此传统的扁平分类器不适用于大规模的图像分类。
2,传统的分层分类方法:
传统的分层分类方法将多层分类任务分解成多个子任务训练多个子分类器,这种分治策略占用了大量的存储空间。此外由于多个分类器相互独立,超类和子类之间的关联关系在训练过程中被忽略。
3,分层分类中单分层标记结构的缺陷:
语义结构(HSem)中类别的语义关系可能与外观不一致,从而降低了分类器的性能;基于混淆矩阵的分层标记结构严重依赖于分类器的性能;基于相似矩阵的分层标记结构(HAM)依赖于特征的表示能力以及相似性度量方法的设计。因此,单一的分层标记结构为子类分类器提供的先验知识有限。
发明内容
本发明的目的在于设计一个多任务多分层标记结构融合的框架,激励子类分类器学习不同方面的特征,比如外观方面、语义方面,以此满足不同分层标记结构下的多重相似性约束,使得来自不同分层标记结构的超类能够指导子类的识别;同时设计多结构条件下的分类性能评价指标,从而更好的评估多种结构约束下的分类性能。
本发明的技术方案为:
一种多结构多任务深度神经网络,其特征在于,包括M个特征提取单元,一个用于识别样本子类类别的分类分支CCB和由K个用于对超类进行分类的超类分类器组成的超类分类分支MSCB;其中,M个特征提取单元依次连接用于提取样本的不同层级特征,第m个特征提取单元提取的样本特征层级低于第m+1个特征提取单元提取的样本特征层级;每一所述超类分类器分别与一对应的特征提取单元连接,用于基于所连接特征提取单元提取的样本特征识别样本的超类类别,不同所述超类分类器负责识别不同分层标记结构定义的超类类别;最后一个特征提取单元,即第M个特征提取单元,与分类分支CCB连接;M大于或等于K;
多结构多任务深度神经网络的损失函数为
Figure BDA0002706619650000021
其中LCCB为分类分支CCB的损失函数,
Figure BDA0002706619650000022
为超类分类分支MSCB中第k个超类分类器的损失函数,k=1~K;使用标准的交叉熵损失函数来计算LCCB
Figure BDA0002706619650000023
Figure BDA0002706619650000024
是分类分支CCB对样本x预测的子类,
Figure BDA0002706619650000025
是第k个超类分类器对样本x预测的超类,c,是第k个分层标记结构Hk中的子类真实值,
Figure BDA0002706619650000026
是第k个分层标记结构Hk中的超类真实值;CS为超类真实值集合,λk是平衡分层标记结构Hk对应的超类分类器和其他超类分类器影响的权重,
Figure BDA0002706619650000027
K是分层标记结构的总数;φ(x,θ)为样本x在网络不同阶段的预测值,参数θ通过最小化损失函数L来学习得到。
进一步的,所述超类分类分支MSCB中的各超类分类器并行工作。
进一步的,标准的交叉熵损失函数为
Figure BDA0002706619650000028
其中N是类别数量,yi是类别标签,pi是类别为i的概率。
进一步的,所述样本为具有分层标记结构的图像数据或文本数据。
一种多结构多任务深度神经网络的训练方法,其步骤包括:
1)将包含不同分层标记结构的样本构成的训练集输入到多结构多任务深度神经网络,进行多轮迭代训练;
2)采用验证集对每次训练后的网络进行测试,选择测试最佳结果作为最终的多结构多任务深度神经网络。
进一步的,所述分层标记结构包括基于语义的分层标记结构和基于相似矩阵的分层标记结构。
进一步的,采用指标
Figure BDA0002706619650000031
对训练后的网络进行评价;其中,
Figure BDA0002706619650000032
Figure BDA0002706619650000033
是预测的扩展集,包含分层标记结构中从根节点到预测的子类节点的路径上的所有节点;Caug是真实的扩展集,包含分层标记结构中从根节点到真实的子类节点的路径上的所有节点,|·|是计算元素数量的运算符。
进一步的,计算每个分层标记结构中所有PH的平均值PHa、RH的平均值RHa
Figure BDA0002706619650000034
然后根据公式
Figure BDA0002706619650000035
对训练后的网络进行评价;其中,
Figure BDA0002706619650000036
是预测的扩展集,包含分层标记结构Hk中从根节点到预测的子类节点的路径上的所有节点;
Figure BDA0002706619650000037
是真实的扩展集,包含分层标记结构Hk中从根节点到真实的子类节点的路径上的所有节点。
一种多结构多任务深度神经网络的分类方法,其步骤包括:将一张未标记的图像输入多结构多任务深度神经网络,多结构多任务深度神经网络的各特征提取单元依次提取该图像的不同层级特征:每个超类分支MSCB选取自身特定的特征提取单元所提取图像特征预测该图像的超类类别;分类分支CCB根据最后一个特征提取单元提取的该图像特征预测该图像的子类类别。也即,最终的预测结果包括多种超类类别预测结果(超类结果数量取决于超类分类器的数量)和一种子类类别预测结果。
本发明中在训练过程中进行先验知识和相似性约束,通过损失函数L迫使网络同时学习满足子类判定和多个超类判定的特征来实现。
与现有技术相比,本发明的积极效果为:
本发明提出了一个多任务多分层标记结构融合的框架来整合不同分层标记结构定义的类别相似性约束。这个框架包含两个不同类型的深度神经网络分类分支:一个是传统的分类分支,它负责判定每个样本的子类类别;另一个是超类分类分支,它包含多个小分支,每个小分支负责识别由特定的分层标记结构定义的超类类别。两类分支协同合作,为网络提供了多粒度的预测,从而使得子类分类器得到更好的性能。同时,本发明还改进了现有的分层分类评价指标,使之更加适用于本发明中多结构条件下分类性能的评估。本发明并不局限于图像数据,在文本数据等依旧适用,但在本发明中以图像数据为例进行讨论。实验表明,本发明在现有图像数据集上能够取得更好的性能。
附图说明
图1为分层标记结构示意图。
图2为基于相似矩阵的分层标记结构HAM的构建流程图。
图3为本发明网络架构图。
图4为添加超类分类器的不同阶段以及子类分类器不同标签结构的损失权重示意图;
(a)展示了在VGG16上,基础网络中附加MSCB位置的探究结果;
(b)展示了在ResNet50上,基础网络中附加MSCB位置的探究结果;
(c)在VGG16上,CIFAR100的实验结果;
(d)在ResNet50上,CIFAR100的实验结果;
(e)在VGG16上Car-196的实验结果;
(f)在MTMSFF-HAM上Car-196的实验结果。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明的目的、特征和优点能够更加明显易懂,下面结合附图和事例对本发明中技术核心作进一步详细的说明。
本发明使用了多种树形的分层标记结构(在后文统称为“分层标记结构”),例如基于语义特征的分层标记结构、基于相似矩阵的分层标记结构等,分层标记结构形如图1。基于语义特征的分层标记结构是数据集自带的,而基于相似矩阵的分层标记结构构造方法包括两个步骤:特征提取和分层标记结构构建,以CIFAR100(包含100类图像)为例,如图2所示。具体流程如下:
特征提取:使用一个预训练的网络VGG16,对包含M张图像N个类别的数据集的特征进行提取,特征可以表示为F={fi}i=1,...,M
Figure BDA0002706619650000051
分层标记结构构建:首先使用公式(1)计算任意两个类别的相似度,其中
Figure BDA0002706619650000052
Figure BDA0002706619650000053
是类别ci的均值和方差。然后相似矩阵A可以用公式(2)构建,其中δij是一个自己调节的参数,在本发明中取1。最后,使用谱聚类算法构建相应的分层标记结构HAM
Figure BDA0002706619650000054
本发明指出了融合多种分层标记结构有助于进一步提高分层分类任务的识别效果,并设计了多结构多任务融合的深度神经网络模型(MTMSFF)。如图3所示,MTMSFF包括两个类型的分类分支:用于识别样本子类的传统分类分支(CCB)和由多个用于对超类进行分类的超类分类器组成的超类分类分支(MSCBs)。MSCBs分支中所有的超类分类器(H1分类器-Hk分类器)并行工作,使得网络提取的特征同时满足不同分层标记结构(H1-Hk)下的多种相似性约束,从而指导CCB做出更准确的预测。同时,本发明发现对于超类分类器,低层特征比高层特征更有效,因此MSCB被附加到网络的早期阶段,而不是和CCB一样处于网络的最后阶段。如图3所示,基于MTMSFF中使用的第k个分层标记结构(Hk)提供的先验知识,MSCB中的“Hk分类器”完成其分类任务。整个网络可以端到端地训练。
损失函数需要将样本x在网络不同阶段的预测值φ(x,θ)与该样本x的真实子类c和真实超类子集CS进行比较。本发明修改了用于分类的标准交叉熵损失函数,对于MTMSFF,多任务损失包括一个CCB损失LCCB和一个MSCBs损失LMSCBs
Figure BDA0002706619650000055
为超类分类分支MSCBs中第K个超类分类器的损失函数(超类分类分支MSCBs中包括K个超类分类器),本发明使用标准的交叉熵损失来计算LCCB和LMSCBs,交叉熵损失CE形如公式(3)所示,其中N是类别数量,yi是类别标签,pi是网络的输出,也就是类别为i的概率。
Figure BDA0002706619650000056
本发明的多任务损失函数L如公式(4)所示。其中
Figure BDA0002706619650000057
Figure BDA0002706619650000058
是网络预测的子类和超类,c,
Figure BDA0002706619650000059
是第k个分层标记结构Hk中的子类和超类的真实值。λk是平衡“Hk分类器”和其他所有分类分支(包括其他超类分类器和子类分类器)影响的权重,
Figure BDA0002706619650000061
K是分层标记结构的总数。网络的参数θ通过最小化损失函数L来学习。
Figure BDA0002706619650000062
本发明还改进了多结构条件下的分类性能评价指标。由于本发明是一个多结构的融合工作,为了更好地衡量预测类别与真实值的相似性(即分类器犯错误的严重程度),本发明在评价指标中加入了需要考虑多种分层标记结构的分层信息。然而,现有的分层分类评价指标都是为单一的分层标记结构设计的,如层次化的F1-measure(FH),树诱导损失(TIE)以及预测节点和真实节点的最低共同祖先(LCA)。因此,对上述三项指标进行改进,以实现本发明中多结构条件下的分类性能评价。
如公式(5),将传统的精确率P和召回率R扩展到分层的精确率PH和召回率RH,可以很好地衡量出,在超类中犯的错误要比子类中严重。
Figure BDA0002706619650000063
是预测的扩展集,包含分层标记结构中从根节点到预测的子类节点的路径上的所有节点。Caug是真实的扩展集,包含层次分层标记结构中从根节点到真实的子类节点的路径上的所有节点。|·|是计算元素数量的运算符。
Figure BDA0002706619650000064
由于MTMSFF需要处理多个分层标记结构,本发明取每个分层标记结构中所有PH和RH的平均值,即PHa、RHa。FHa由PHa和RHa计算得出,如公式(6)。类似的,
Figure BDA0002706619650000065
是预测的扩展集,包含分层标记结构Hk中从根节点到预测的子类节点的路径上的所有节点。
Figure BDA0002706619650000066
是真实的扩展集,它包含分层标记结构Hk中从根节点到真实的子类节点的路径上的所有节点。|·|是计算元素数量的运算符。
Figure BDA0002706619650000067
在特定的树形分层标记结构中,从预测节点到真实节点的总边数表示为TIE距离。为了处理多个分层标记结构,引入TIEa来平均每个分层标记结构中的TIE距离,如公式(7),其中
Figure BDA0002706619650000068
是分层标记结构Hk中从预测节点
Figure BDA0002706619650000069
到真实节点c的边数。因此,TIEa越小,预测的类别与真实的类别就越相似。
Figure BDA0002706619650000071
在树形分层标记结构中,LCA高度是指预测节点和真实节点的最低共同祖先的高度。本发明将LCA高度修改为所有分层标记结构中LCA高度的平均值,也即LCAa,如公式(8),其中
Figure BDA0002706619650000072
是分层标记结构Hk中预测节点
Figure BDA0002706619650000073
与真实节点c的最低公共祖先高度。LCAa越小,所预测的类别与真实类别越相似。
Figure BDA0002706619650000074
本发明的训练与识别流程为:
训练过程:将包含图像和分层标记结构的训练集输入到网络,进行200轮迭代训练,保存在验证集上测试到的最佳结果的模型。具体来说,数据集的分层标记结构分为两类,即基于语义的分层标记结构和基于相似矩阵的分层标记结构。基于语义的分层标记结构数据集已经给出;基于相似矩阵的分层标记结构,首先计算数据集中所有类别的相似矩阵,然后根据谱聚类算法得到一个树状的分层标记结构。
测试过程:将一张未标记的图像输入网络,以流程图为例,在MSCBs分支,经过阶段1-3的卷积层提取特征,在阶段3接一个分类器,用于识别该图像属于哪一个超类。这里根据不同的分层标记结构,又可以接不同的分类器,输出不同的超类预测结果。在CCB分支上,阶段3的特征继续作为阶段4的输入,最终在阶段5接一个分类器,用于识别该图像属于哪一个子类,也即输出子类预测结果。注意,最终的预测结果包括多种超类类别预测结果(超类结果数量取决于超类分类器的数量)和一种子类类别预测结果。
本发明的关键点
1,提出一个多任务多结构的融合框架,以整合不同的分层标记结构,使它们为子类分类器提供多方面的先验知识和相似性约束。
2,改进了已有的分层分类评价指标,使之更适用于多结构条件下的分类性能评价。
本发明的效果
本发明进行了广泛的消融实验,以评估MTMSFF的效果。本发明的模型在图像数据集CIFAR100与Car-196上进行训练和测试。其中CIFAR100有60000张图像,50000张用于训练,10000张用于测试;包含100个子类,平均分属于20个语义超类。Car-196有16185张图像,8114张用于训练,8041张用于测试;包含196个子类,根据不同的语义超类划分标准,可以分为49个“Make”超类,18个“Type”超类。本发明的基础网络使用末端带有一个传统分类器的VGG16和ResNet50。
表1展示了对HAM中超类数量的探究。实验结果显示,当CIFAR100上的HAM划分成18个超类时,子类分类器具有最佳性能;Car-196的HAM划分为15个超类时也可以使子类分类器达到最佳性能。
图4(a)和图4(b)展示了在基础网络中的附加MSCB位置的探究。以CIFAR100数据集为例,实验结果显示,在VGG16上,当MTMSFF-HAM和MTMSFF-HSem在“阶段3”,MTMSFF-HAM-HSem在“阶段4”时,子类分类器取得最佳性能,如图4(a);在ResNet50上,当MTMSFF-HAM在“阶段1”,MTMSFF-HSem在“阶段4”,MTMSFF-HAM-HSem在“阶段5”时,子类分类器取得最佳性能,如图4(b)。总的来说,对于单一的分层标记结构,在一些早期阶段而不是最后阶段添加MSCB可以获得更好的分类性能。这意味着粗糙的超类可以促进低层特征的提取,从而进行精确的特征学习。此外在后期阶段,具有多个分层标记结构的MSCB要比单一分层标记结构的MSCB实现更好的性能。这是因为多个分层标记结构的MSCB为特征提取提供了更多的相似性约束。
图4(c)-(f)展示了对损失函数权重λ的探究。图4(c)和图4(d)展示了在CIFAR100上的实验结果,在VGG16(图4(c))和ResNet50(图4(d))上,当λ=0.1,MTMSFF-HAM和MTMSFF-HSem都取得了最高的准确率。图4(e)和图4(f)展示了Car-196的实验结果,在VGG16上,如图4(e),MTMSFF-HAM上λ=0.6,MTMSFF-HMake上λ=0.3,MTMSFF-HType上λ=0.4,子类分类器能实现最好的性能。同理,在ResNet50上,如图4(f),三个结构都在λ=0.3时得到最佳的准确率。在Car-196上,本发明研究“Make”和“Type”两种语义结构,分别表示为HMake和HType。表2和表3分别展示了在VGG16和ResNet50下,不同分层标记结构组合下的子类分类器性能研究结果,表格上半部分是CIFAR100,下半部分是Car-196。本发明可以看到,在Car-196的VGG16中,MTMSFF-HAM-HType-HMake的准确率比基准线(Baseline)高了9.04%,FHa高出5%,TIEa距离则低了近0.3%。与两个分层标记结构结合的框架,也即MTMSFF-HType-HMake、MTMSFF-HAM-HType和MTMSFF-HAM-HMake相比,MTMSFF-HAM-HType-HMake的准确率分别高出了2.98%,1%和2.05%。此外,MTMSFF-HAM-HType-HMake的准确率比单分层标记结构的框架MTMSFF-HMake,MTMSFF-HType和MTMSFF-HAM分别高出了1.43%,1.32%和1%。在ResNet50中得到的结果大致相同,如图3所示。因此,对于子类分类器的性能,单一分层标记结构的MTMSFF优于Baseline。此外,多结构的MTMSFF比单一结构的MTMSFF性能更好。
图4(a)和图4(b)分别是使用VGG16和ResNet50网络,在CIFAR100数据集上,对超类分类器在不同阶段的探讨,横轴代表“网络阶段(stage)”,纵轴代表准确率。图4(c)和图4(d)分别是使用VGG16和ResNet50网络,在CIFAR100上对损失权重的探讨,横轴代表“损失权重”,纵轴代表准确率。图4(e)和图4(f)分别是使用VGG16和ResNet50网络,在Car-196上对损失权重的探讨,横轴代表“损失权重”,纵轴代表准确率。注:HAM、HSem、HMake、HType分别简写为HA、HS、HM、HT
表1对HAM中超类数量的探究
Figure BDA0002706619650000091
表2不同分层标记结构组合下的子类分类器性能研究(VGG16)
结构 类别数量 损失权重 准确率(%) F<sub>Ha</sub>(%) TIE<sub>a</sub> LCA<sub>a</sub>
基准方法 100 - 72.20 83.35 0.9991 0.4995
MTMSFF-H<sub>S</sub> 100/10 0.1 73.25 84.70 0.9179 0.4590
MTMSFF-H<sub>A</sub> 100/30 0.1 73.27 84.97 0.9015 0.4507
MTMSFF-H<sub>A&amp;S</sub> 100/30/10 0.15/0.15 73.37 84.79 0.9127 0.4563
基准方法 196 - 74.63 87.88 0.7273 0.3637
MTMSFF-H<sub>M</sub> 196/49 0.3 82.24 91.89 0.4864 0.2432
MTMSFF-H<sub>T</sub> 196/18 0.4 82.35 91.34 0.5344 0.2672
MTMSFF-H<sub>A</sub> 196/15 0.6 82.67 91.70 0.4979 0.2490
MTMSFF-H<sub>M&amp;T</sub> 196/49/18 0.2/0.2 80.69 91.44 0.5134 0.2567
MTMSFF-H<sub>A&amp;T</sub> 196/15/18 0.3/0.3 82.67 92.23 0.4661 0.2330
MTMSFF-H<sub>A&amp;M</sub> 196/15/49 0.3/0.3 81.62 91.77 0.4938 0.2469
MTMSFF-H<sub>A&amp;T&amp;M</sub> 196/15/18/49 02/02/02 8367 9288 04274 02137
表3不同分层标记结构组合下的子类分类器性能研究(ResNet50)
Figure BDA0002706619650000092
Figure BDA0002706619650000101
尽管为说明目的公开了本发明的具体内容、实施算法以及附图,其目的在于帮助理解本发明的内容并据以实施,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (9)

1.一种多结构多任务深度神经网络,其特征在于,包括M个特征提取单元,一个用于识别样本子类类别的分类分支CCB和由K个用于对超类进行分类的超类分类器组成的超类分类分支MSCBs;其中,M个特征提取单元依次连接用于提取样本的不同层级特征,第m个特征提取单元提取的样本特征层级低于第m+1个特征提取单元提取的样本特征层级;每一所述超类分类器分别与一对应的特征提取单元连接,用于基于所连接特征提取单元提取的样本特征识别样本的超类类别,不同所述超类分类器负责识别不同分层标记结构定义的超类类别;最后一个特征提取单元,即第M个特征提取单元,与分类分支CCB连接;M大于或等于K;
多结构多任务深度神经网络的损失函数为
Figure FDA0002706619640000011
其中LCCB为分类分支CCB的损失函数,
Figure FDA0002706619640000012
为超类分类分支MSCBs中第k个超类分类器的损失函数,k=1~K;使用标准的交叉熵损失函数来计算LCCB
Figure FDA0002706619640000013
Figure FDA0002706619640000014
是分类分支CCB对样本x预测的子类,c
Figure FDA0002706619640000015
是第k个超类分类器对样本x预测的超类,c,是csk第k个分层标记结构Hk中的子类真实值,c
Figure FDA0002706619640000016
是第k个分层标记结构Hk中的超类真实值;CS为超类真实值集合,λk是平衡分层标记结构Hk对应的超类分类器和其他超类分类器影响的权重,
Figure FDA0002706619640000017
K是分层标记结构的总数;φ(x,θ)为样本x在网络不同阶段的预测值,参数θ通过最小化损失函数L来学习得到。
2.如权利要求1所述的多结构多任务深度神经网络,其特征在于,所述超类分类分支MSCBs中的各超类分类器并行工作。
3.如权利要求1所述的多结构多任务深度神经网络,其特征在于,标准的交叉熵损失函数为
Figure FDA0002706619640000018
其中N是类别数量,yi是类别标签,pi是类别为i的概率。
4.如权利要求1所述的多结构多任务深度神经网络,其特征在于,所述样本为具有分层标记结构的图像数据或文本数据。
5.一种如权利要求1所述多结构多任务深度神经网络的训练方法,其步骤包括:
1)将包含不同分层标记结构的样本构成的训练集输入到多结构多任务深度神经网络,进行多轮迭代训练;
2)采用验证集对每次训练后的网络进行测试,选择测试最佳结果作为最终的多结构多任务深度神经网络。
6.如权利要求5所述的方法,其特征在于,所述分层标记结构包括基于语义的分层标记结构和基于相似矩阵的分层标记结构。
7.如权利要求5或6所述的方法,其特征在于,采用指标
Figure FDA0002706619640000021
对训练后的网络进行评价;其中,
Figure FDA0002706619640000022
Figure FDA0002706619640000023
是预测的扩展集,包含分层标记结构中从根节点到预测的子类节点的路径上的所有节点;Caug是真实的扩展集,包含分层标记结构中从根节点到真实的子类节点的路径上的所有节点,|·|是计算元素数量的运算符。
8.如权利要求7所述的方法,其特征在于,计算每个分层标记结构中所有PH的平均值PHa、RH的平均值RHa
Figure FDA0002706619640000028
然后根据公式
Figure FDA0002706619640000025
对训练后的网络进行评价;其中,
Figure FDA0002706619640000026
是预测的扩展集,包含分层标记结构Hk中从根节点到预测的子类节点的路径上的所有节点;
Figure FDA0002706619640000027
是真实的扩展集,包含分层标记结构Hk中从根节点到真实的子类节点的路径上的所有节点。
9.一种基于权利要求1所述多结构多任务深度神经网络的分类方法,其步骤包括:将一张未标记的图像输入多结构多任务深度神经网络,多结构多任务深度神经网络的各特征提取单元依次提取该图像的不同层级特征,选取若干个特征提取单元所提取图像特征分别输入到一对应的超类分类器,预测该图像的超类类别;分类分支CCB根据最后一个特征提取单元提取的该图像特征预测该图像的子类类别。
CN202011040925.0A 2020-09-28 2020-09-28 一种多结构多任务深度神经网络及其训练、分类方法 Pending CN112348048A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011040925.0A CN112348048A (zh) 2020-09-28 2020-09-28 一种多结构多任务深度神经网络及其训练、分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011040925.0A CN112348048A (zh) 2020-09-28 2020-09-28 一种多结构多任务深度神经网络及其训练、分类方法

Publications (1)

Publication Number Publication Date
CN112348048A true CN112348048A (zh) 2021-02-09

Family

ID=74361115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011040925.0A Pending CN112348048A (zh) 2020-09-28 2020-09-28 一种多结构多任务深度神经网络及其训练、分类方法

Country Status (1)

Country Link
CN (1) CN112348048A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113628716A (zh) * 2021-08-05 2021-11-09 翼健(上海)信息科技有限公司 一种处方推荐系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113628716A (zh) * 2021-08-05 2021-11-09 翼健(上海)信息科技有限公司 一种处方推荐系统

Similar Documents

Publication Publication Date Title
CN110597735B (zh) 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法
CN112214610A (zh) 一种基于跨度和知识增强的实体关系联合抽取方法
US11138479B2 (en) Method for valuation of image dark data based on similarity hashing
CN104346379B (zh) 一种基于逻辑和统计技术的数据元识别方法
CN105160400A (zh) 基于l21范数的提升卷积神经网络泛化能力的方法
AU2016272732A1 (en) Discovering population structure from patterns of identity-by-descent
CN104573669A (zh) 图像物体检测方法
CN111222847B (zh) 基于深度学习与非监督聚类的开源社区开发者推荐方法
CN112756759B (zh) 点焊机器人工作站故障判定方法
CN110647904A (zh) 一种基于无标记数据迁移的跨模态检索方法及系统
CN106250925B (zh) 一种基于改进的典型相关分析的零样本视频分类方法
CN105718940A (zh) 基于多组间因子分析的零样本图像分类方法
CN111798417A (zh) 一种基于ssd遥感图像目标检测的方法及装置
CN112819162A (zh) 一种知识图谱三元组的质检方法
CN113742488B (zh) 基于多任务学习的嵌入式知识图谱补全方法和装置
CN115482418B (zh) 基于伪负标签的半监督模型训练方法、系统及应用
CN110119448B (zh) 基于双重自动编码器的半监督跨领域文本分类方法
CN117149974A (zh) 一种子图检索优化的知识图谱问答方法
CN105844398A (zh) 一种基于plm数据库面向dpipp产品族的挖掘算法
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
CN112131453A (zh) 一种基于bert的网络不良短文本检测方法、装置及存储介质
CN115526246A (zh) 一种基于深度学习模型的自监督分子分类方法
CN110442736B (zh) 一种基于二次判别分析的语义增强子空间跨媒体检索方法
CN117151222A (zh) 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质
CN113837266B (zh) 一种基于特征提取和Stacking集成学习的软件缺陷预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210209

RJ01 Rejection of invention patent application after publication