CN109034219B - 图像的多标签类别预测方法及装置、电子设备和存储介质 - Google Patents

图像的多标签类别预测方法及装置、电子设备和存储介质 Download PDF

Info

Publication number
CN109034219B
CN109034219B CN201810763572.3A CN201810763572A CN109034219B CN 109034219 B CN109034219 B CN 109034219B CN 201810763572 A CN201810763572 A CN 201810763572A CN 109034219 B CN109034219 B CN 109034219B
Authority
CN
China
Prior art keywords
class prediction
class
sample image
image
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810763572.3A
Other languages
English (en)
Other versions
CN109034219A (zh
Inventor
刘永成
邵婧
闫俊杰
王晓刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Sensetime Intelligent Technology Co Ltd
Original Assignee
Shanghai Sensetime Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Sensetime Intelligent Technology Co Ltd filed Critical Shanghai Sensetime Intelligent Technology Co Ltd
Priority to CN201810763572.3A priority Critical patent/CN109034219B/zh
Publication of CN109034219A publication Critical patent/CN109034219A/zh
Application granted granted Critical
Publication of CN109034219B publication Critical patent/CN109034219B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及一种图像的多标签类别预测方法及装置、电子设备和存储介质,所述方法包括:根据蒸馏特征对待预测图像进行特征提取,得到待预测图像的蒸馏特征信息,蒸馏特征包括从弱监督检测模型进行知识蒸馏后得到的特征,弱监督检测模型用于对图像进行类别检测;对蒸馏特征信息进行类别预测处理,得到待预测图像的类别预测置信度;根据待预测图像的类别预测置信度确定待预测图像的类别预测结果。本公开实施例可以实现特征级别的蒸馏,能够使用从弱监督检测模型进行知识蒸馏后得到的蒸馏特征,对待预测图像进行特征提取,使得待预测图像的类别预测过程更加高效、类别预测结果更加准确。

Description

图像的多标签类别预测方法及装置、电子设备和存储介质
技术领域
本公开涉及图像处理技术领域,尤其涉及一种图像的多标签类别预测方法及装置、电子设备和存储介质。
背景技术
在对图像进行多标签类别预测时,可以利用模型进行预测。由于多标签图像自身包含多样化的语义信息,需要多个类别进行描述,类别的个数不确定,导致模型需要对图像有深入的理解。且各类别之间存在关联性,类别之间的关联性对于预测结果有重大影响,但类别之间的关联性很难进行自适应的建模,导致传统的利用模型对图像进行多标签类别预测方法,模型缺乏自适应性、模型复杂程度高,需要借助人工对图像的标签类别之间的关系进行预先定义。
发明内容
有鉴于此,本公开提出了一种图像的多标签类别预测技术方案。
在本公开实施例的一方面,提供一种图像的多标签类别预测方法,所述方法包括:
根据蒸馏特征对待预测图像进行特征提取,得到所述待预测图像的蒸馏特征信息,所述蒸馏特征包括从弱监督检测模型进行知识蒸馏后得到的特征,所述弱监督检测模型用于对图像进行类别检测;
对所述蒸馏特征信息进行类别预测处理,得到所述待预测图像的类别预测置信度;
根据所述待预测图像的类别预测置信度确定所述待预测图像的类别预测结果。
在一种可能的实现方式中,对所述蒸馏特征信息进行类别预测处理,得到所述待预测图像的类别预测置信度,包括:
根据蒸馏类别预测结果对所述蒸馏特征信息进行类别预测处理,得到所述待预测图像的类别预测置信度,所述蒸馏类别预测结果包括从所述弱监督检测模型进行知识蒸馏后得到的类别预测结果。
在一种可能的实现方式中,所述方法应用于分类模型,所述分类模型的训练方法包括:
根据所述弱监督检测模型对所述分类模型进行训练。
在一种可能的实现方式中,所述分类模型的训练方法,包括:
将第一样本图像输入所述分类模型进行第一特征提取,得到所述第一样本图像的第一特征信息;
将所述第一样本图像输入所述弱监督检测模型进行第二特征提取,得到所述第一样本图像的第二特征信息;
根据所述第一特征信息和所述第二特征信息确定所述分类模型的特征损失函数;
根据所述特征损失函数,对所述分类模型进行反向传播。
在一种可能的实现方式中,所述分类模型的训练方法,包括:
在所述分类模型中,将所述第一特征信息进行类别预测处理,得到所述第一样本图像的第一类别预测置信度;
在所述弱监督检测模型中,将所述第二特征信息进行类别预测处理,得到所述第一样本图像的第二类别预测置信度;
根据所述第一类别预测置信度和所述第二类别预测置信度,确定所述分类模型的类别预测损失函数;
根据所述类别预测损失函数对所述分类模型进行反向传播。
在一种可能的实现方式中,根据所述第一类别预测置信度和所述第二类别预测置信度,确定所述分类模型的类别预测损失函数,包括:
根据所述第一类别预测置信度、所述第二类别预测置信度和所述第一样本图像的实际标注类别,确定所述分类模型的类别预测损失函数。
在一种可能的实现方式中,根据所述第一类别预测置信度、所述第二类别预测置信度和所述样本图像的实际标注类别,确定所述分类模型的类别预测损失函数,包括:
将所述第一类别预测置信度进行软化处理,得到所述第一类别预测置信度软化结果;
将所述第二类别预测置信度进行软化处理,得到所述第二类别预测置信度软化结果;
根据所述第一类别预测置信度、所述第一样本图像的实际标注类别、所述第一类别预测置信度软化结果和所述第二类别预测置信度软化结果,确定所述分类模型的类别预测损失函数。
在一种可能的实现方式中,所述软化处理,包括:根据类别进行的软化处理;
所述软化结果,包括:根据类别进行软化处理得到的结果。
在一种可能的实现方式中,所述弱监督检测模型的训练方法,包括:
在所述弱监督检测模型中,将第二样本图像进行区域框提取处理,得到所述第二样本图像的区域候选框;
将所述第二样本图像进行第三特征提取,得到所述第二样本图像的第三特征信息;
根据所述区域候选框和所述第三特征信息,得到合并信息;
将所述合并信息进行类别预测处理,得到所述第二样本图像的第三类别预测置信度;
根据所述第三类别预测置信度和所述第二样本图像的实际标注类别,确定弱监督检测损失函数;
根据所述弱监督检测损失函数对所述弱监督检测模型进行反向传播。
在一种可能的实现方式中,在所述弱监督检测模型中,将第二样本图像进行区域框提取处理,得到所述第二样本图像的区域候选框,包括:
将第二样本图像进行区域框提取处理,得到所述第二样本图像的区域候选框和区域候选框置信度;
根据所述区域候选框和所述第三特征信息,得到合并信息,包括:
根据所述区域候选框、所述区域候选框置信度和所述第三特征信息,得到合并信息。
在一种可能的实现方式中,在所述分类模型的训练方法中,所述第二特征信息包括所述第一样本图像的区域检测框和区域检测框置信度,根据所述第一特征信息和所述第二特征信息确定所述第一特征提取模块的特征损失函数,包括:
根据所述区域检测框和所述区域检测框置信度确定所述第二特征信息的权重;
根据所述第二特征信息的权重确定所述第一特征信息的权重;
根据所述第一特征信息、所述第一特征信息的权重、所述第二特征信息、和所述第二特征信息的权重,确定所述第一特征提取模块的特征损失函数。
根据本公开实施例的一方面,提供一种图像的多标签类别预测装置,所述装置包括:
蒸馏特征提取模块,用于根据蒸馏特征对待预测图像进行特征提取,得到所述待预测图像的蒸馏特征信息,所述蒸馏特征包括从弱监督检测模型进行知识蒸馏后得到的特征,所述弱监督检测模型用于对图像进行类别检测;
类别预测置信度获取模块,用于对所述蒸馏特征信息进行类别预测处理,得到所述待预测图像的类别预测置信度;
类别预测结果获取模块,用于根据所述待预测图像的类别预测置信度确定所述待预测图像的类别预测结果。
在一种可能的实现方式中,所述类别预测置信度获取模块,包括:
第一类别预测置信度获取子模块,用于根据蒸馏类别预测结果对所述蒸馏特征信息进行类别预测处理,得到所述待预测图像的类别预测置信度,所述蒸馏类别预测结果包括从所述弱监督检测模型进行知识蒸馏后得到的类别预测结果。
在一种可能的实现方式中,所述装置应用于分类模型,所述分类模型包括:
第一训练模块,用于根据所述弱监督检测模型对所述分类模型进行训练。
在一种可能的实现方式中,所述第一训练模块,包括:
第一特征提取子模块,用于将第一样本图像输入所述分类模型进行第一特征提取,得到所述第一样本图像的第一特征信息;
第二特征提取子模块,用于将所述第一样本图像输入所述弱监督检测模型进行第二特征提取,得到所述第一样本图像的第二特征信息;
特征损失函数确定子模块,用于根据所述第一特征信息和所述第二特征信息确定所述分类模型的特征损失函数;
第一反向传播子模块,用于根据所述特征损失函数,对所述分类模型进行反向传播。
在一种可能的实现方式中,所述第一训练模块,包括:
第一类别预测置信度获取子模块,用于将所述第一特征信息进行类别预测处理,得到所述第一样本图像的第一类别预测置信度;
第二类别预测置信度获取子模块,用于在所述弱监督检测模型中,将所述第二特征信息进行类别预测处理,得到所述第一样本图像的第二类别预测置信度;
类别预测损失函数确定子模块,用于根据所述第一类别预测置信度和所述第二类别预测置信度,确定所述分类模型的类别预测损失函数;
第二反向传播子模块,用于根据所述类别预测损失函数对所述分类模型进行反向传播。
在一种可能的实现方式中,所述类别预测损失函数确定子模块,用于:
根据所述第一类别预测置信度、所述第二类别预测置信度和所述第一样本图像的实际标注类别,确定所述分类模型的类别预测损失函数。
在一种可能的实现方式中,所述类别预测损失函数确定子模块,用于:
将所述第一类别预测置信度进行软化处理,得到所述第一类别预测置信度软化结果;
将所述第二类别预测置信度进行软化处理,得到所述第二类别预测置信度软化结果;
根据所述第一类别预测置信度、所述第一样本图像的实际标注类别、所述第一类别预测置信度软化结果和所述第二类别预测置信度软化结果,确定所述分类模型的类别预测损失函数。
在一种可能的实现方式中,所述软化处理,包括:根据类别进行的软化处理;
所述软化结果,包括:根据类别进行软化处理得到的结果。
在一种可能的实现方式中,所述第一训练模块包括:
候选框提取子模块,用于将第二样本图像进行区域框提取处理,得到所述第二样本图像的区域候选框;
特征信息提取子模块,用于将所述第二样本图像进行第三特征提取,得到所述第二样本图像的第三特征信息;
合并子模块,用于根据所述区域候选框和所述第三特征信息,得到合并信息;
置信度获取子模块,用于将所述合并信息进行类别预测处理,得到所述第二样本图像的第三类别预测置信度;
第一损失函数获取子模块,用于根据所述第三类别预测置信度和所述第二样本图像的实际标注类别,确定弱监督检测损失函数;
第二反向传播子模块,用于根据所述弱监督检测损失函数对所述弱监督检测模型进行反向传播。
在一种可能的实现方式中,所述候选框提取子模块用于:
将第二样本图像进行区域框提取处理,得到所述第二样本图像的区域候选框和区域候选框置信度;
所述合并子模块用于:
根据所述区域候选框、所述区域候选框置信度和所述第三特征信息,得到合并信息。
在一种可能的实现方式中,所述第一训练模块,包括:
第一权重获取子模块,用于根据所述区域检测框和所述区域检测框置信度确定所述第二特征信息的权重;
第二权重获取子模块,用于根据所述第二特征信息的权重确定所述第一特征信息的权重;
第二损失函数确定子模块,用于根据所述第一特征信息、所述第一特征信息的权重、所述第二特征信息、和所述第二特征信息的权重,确定所述第一特征提取模块的特征损失函数。
根据本公开实施例的一方面,提供一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:执行上述图像的多标签类别预测方法。
根据本公开实施例的一方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现图像的多标签类别预测方法。
在本公开实施例中,根据蒸馏特征对待预测图像进行特征提取,得到所述待预测图像的蒸馏特征信息,对所述蒸馏特征信息进行类别预测处理,得到待预测图像的类别预测置信度,再根据所述待预测图像的类别预测置信度确定待预测图像的类别预测结果。本公开实施例在实现图像的多标签预测过程中,可以实现特征级别的蒸馏,能够使用从弱监督检测模型进行知识蒸馏后得到的蒸馏特征,对待预测图像进行特征提取,使得待预测图像的类别预测过程更加高效、类别预测结果更加准确。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1是根据示例性实施例示出的一种图像的多标签类别预测方法的流程图;
图2是根据示例性实施例示出的一种图像的多标签类别预测方法的流程图;
图3是根据示例性实施例示出的一种图像的多标签类别预测方法的流程图;
图4是根据示例性实施例示出的一种图像的多标签类别预测方法的流程图;
图5是根据示例性实施例示出的一种图像的多标签类别预测方法的流程图;
图6是根据示例性实施例示出的一种图像的多标签类别预测方法的流程图;
图7是根据示例性实施例示出的一种弱监督检测模型和分类模型的结构示意图;
图8是根据示例性实施例示出的一种图像的多标签类别预测装置的示意图;
图9是根据示例性实施例示出的一种电子设备的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
图1是根据示例性实施例示出的一种图像的多标签类别预测方法的流程图,如图1所示,所述图像的多标签类别预测方法包括:
步骤S11,根据蒸馏特征对待预测图像进行特征提取,得到所述待预测图像的蒸馏特征信息,所述蒸馏特征包括从弱监督检测模型进行知识蒸馏后得到的特征,所述弱监督检测模型用于对图像进行类别检测。
在一种可能的实现方式中,知识蒸馏可以用于神经网络中的教师网络(复杂但推理性能优越的网络)与学生网络(精简、低复杂度的网络)中,通过引入与教师网络相关的软目标作为损失的一部分,可以引导学生网络的训练,以实现知识迁移。
弱监督可以包括不完整监督、粗粒度监督和有误的监督等。弱监督检测模型可以利用弱监督学习对图像进行多标签类别检测。可以利用训练好的弱监督检测模型提取图像的特征,得到图像中各对象的检测框,并根据各对象的检测框进行类别预测,得到图像中各对象的标签类别,最终得到图像的多标签类别预测结果。利用弱监督检测模型进行图像中检测框的定位时,可以得到更全面、更紧凑的检测框预测结果。
可以利用分类模型,对图像进行多标签类别预测。可以将分类模型作为学生网络,将弱监督检测模型作为教师网络。分类模型可以利用自弱监督检测网络学习到的蒸馏特征,对待检测图像进行特征提取,得到蒸馏特征信息。
在一种可能的实现方式中,弱监督检测模型可以包括弱监督卷积处理模块,分类模型可以包括分类卷积处理模块。在分类模型的训练过程中,可以将样本图像输入分类模型和弱监督检测模型,可以根据弱监督卷积处理模块提取的特征,对分类卷积处理模块进行训练,以使分类卷积处理模块学习到弱监督卷积处理模块提取的特征,完成知识蒸馏。在训练后的分类模型中,分类卷积处理模块可以利用自弱监督卷积处理模块学习到的蒸馏特征进行特征提取。
步骤S12,对所述蒸馏特征信息进行类别预测处理,得到所述待预测图像的类别预测置信度。
在一种可能的实现方式中,分类模型可以包括类别预测模块,类别预测模块可以根据蒸馏特征信息进行类别预测处理,得到待预测图像的类别预测置信度。在分类模型中,分类卷积处理模块提取到的蒸馏特征信息,包括图像中各对象的检测框特征,检测框特征可以经过全局池或全连接层的处理,得到特征向量。特征向量可以经过类别预测模块进行类别预测处理,得到类别预测结果,即待预测图像的类别预测置信度。
在一种可能的实现方式中,类别预测模块可以包括分类分支,分类分支可以根据类别对特征向量进行处理,得到待预测图像的类别预测置信度。
步骤S13,根据所述待预测图像的类别预测置信度确定所述待预测图像的类别预测结果。
在一种可能的实现方式中,可以根据预设的置信度和待预测图像的类别预测置信度,确定待预测图像的类别预测结果。例如,可以根据高于预设的置信度的类别预测置信度确定待预测图像的类别预测结果。
在本实施例中,根据蒸馏特征对待预测图像进行特征提取,得到所述待预测图像的蒸馏特征信息,对所述蒸馏特征信息进行类别预测处理,得到待预测图像的类别预测置信度,再根据所述待预测图像的类别预测置信度确定待预测图像的类别预测结果。本公开实施例在实现图像的多标签预测过程中,可以实现特征级别的蒸馏,能够使用从弱监督检测模型进行知识蒸馏后得到的蒸馏特征,对待预测图像进行特征提取,使得待预测图像的类别预测过程更加高效、类别预测结果更加准确。
图2是根据示例性实施例示出的一种图像的多标签类别预测方法的流程图,如图2所示,所述图像的多标签类别预测方法中步骤S12包括:
步骤S121,根据蒸馏类别预测结果对所述蒸馏特征信息进行类别预测处理,得到所述待预测图像的类别预测置信度,所述蒸馏类别预测结果包括从所述弱监督检测模型进行知识蒸馏后得到的类别预测结果。
在一种可能的实现方式中,分类模型可以利用自弱监督检测网络学习到的蒸馏类别预测结果对所述蒸馏特征信息进行类别预测处理。
在一种可能的实现方式中,弱监督检测模型可以包括弱监督预测模块,分类模型可以包括类别预测模块。在分类模型的训练过程中,可以将样本文件输入分类模型和弱监督检测模型,可以根据弱监督预测模块的类别预测结果,对类别预测模块进行训练,以使类别预测模块学习到弱监督预测模块的类别预测结果,完成知识蒸馏。训练后的分类模型中,类别预测模块可以利用自弱监督预测模块学习到的蒸馏类别预测结果进行类别预测处理。
在本实施例中,根据蒸馏类别预测结果对所述蒸馏特征信息进行类别预测处理,得到待预测图像的类别预测置信度。本公开实施例在实现图像的多标签预测过程中,可以实现整个图像的预测级的蒸馏,使得待预测图像的类别预测过程更加高效、类别预测结果更加准确。
在一种可能的实现方式中,所述方法应用于分类模型,所述分类模型的训练方法包括:根据所述弱监督检测模型对所述分类模型进行训练。
在一种可能的实现方式中,可以首先训练弱监督检测模型,并利用训练好的弱监督检测模型对分类模型进行训练。在实际的应用部署时,可以只部署训练好的分类模型,对图像进行多标签类别预测。
在本实施例中,利用弱监督检测模型对分类模型进行训练,可以利用弱监督检测模型进行知识蒸馏。并在实际应用时,只部署分类模型。本公开实施例提供的分类模型不增加模型的复杂度,可以针对大规模数据进行建模,且预测结果准确率高,预测过程执行效率高。
图3是根据示例性实施例示出的一种图像的多标签类别预测方法的流程图,如图3所示,所述图像的多标签类别预测方法中,所述分类模型的训练方法,包括:
步骤S21,将第一样本图像输入所述分类模型进行第一特征提取,得到所述第一样本图像的第一特征信息。
步骤S22,将所述第一样本图像输入所述弱监督检测模型进行第二特征提取,得到所述第一样本图像的第二特征信息。
步骤S23,根据所述第一特征信息和所述第二特征信息确定所述分类模型的特征损失函数。
步骤S24,根据所述特征损失函数,对所述分类模型进行反向传播。
在一种可能的实现方式中,可以利用训练好的弱监督检测模型,对分类模型进行训练。分类模型中的分类卷积处理模块和弱监督检测模型中的弱监督卷积处理模块,均可以包括多个卷积层。分类卷积处理模块和弱监督卷积处理模块中的卷积层的层数可以相等。可以将弱监督卷积处理模块中卷积层的特征蒸馏至分类卷积处理模块中相对应的卷积层。可以将弱监督卷积处理模块中全部卷积层的特征进行蒸馏,也可以将弱监督卷积处理模块中部分卷积层的特征进行蒸馏。
例如,分类卷积处理模块和弱监督卷积处理模块中均包括八个卷积层。可以将弱监督卷积处理模块中的第一层卷积层的特征L1蒸馏至分类卷积处理模块中的第一层卷积层,将弱监督卷积处理模块中的第二层卷积层的特征L2蒸馏至分类卷积处理模块中的第二层卷积层........。可以将弱监督卷积处理模块中八个卷积层的特征均蒸馏至分类卷积处理模块相对应的卷积层。也可以只将其中部分,例如只将第一层至第六层卷积层的特征进行知识蒸馏。
在一种可能的实现方式中,分类模型的特征损失函数,包括分类模型中的分类卷积处理模块部分的损失函数。可以利用弱监督卷积处理模块在第一样本图像中提取得到的第二特征信息,与分类卷积处理模块在第一样本图像中提取得到的第一特征信息进行比对,根据第二特征信息和第一特征信息之间的差值确定分类卷积处理模块部分的损失函数。根据所述特征损失函数对所述分类模型进行一次反向传播后,分类卷积处理模块在第一样本图像提取的特征信息将更加接近于弱监督卷积处理模块在第一样本图像中提取的特征信息。
在本实施例中,可以将第一样本图像输入分类模型和弱监督检测模型进行特征提取,分别得到第一特征信息和第二特征信息,根据第一特征信息和第二特征信息确定特征损失函数,并利用特征损失函数对分类模型进行反向传播。弱监督检测模型对分类模型的特征提取进行知识蒸馏,可以使分类模型学习到弱监督检测模型更加准确的特征提取结果、以及更加高效的特征提取效率。
图4是根据示例性实施例示出的一种图像的多标签类别预测方法的流程图,如图4所示,所述图像的多标签类别预测方法中,所述分类模型的训练方法,包括:
步骤S25,在所述分类模型中,将所述第一特征信息进行类别预测处理,得到所述第一样本图像的第一类别预测置信度。
步骤S26,在所述弱监督检测模型中,将所述第二特征信息进行类别预测处理,得到所述第一样本图像的第二类别预测置信度。
步骤S27,根据所述第一类别预测置信度和所述第二类别预测置信度,确定所述分类模型的类别预测损失函数。
步骤S28,根据所述类别预测损失函数对所述分类模型进行反向传播。
在一种可能的实现方式中,可以利用训练好的弱监督检测模型,对分类模型进行训练。弱监督检测模型可以包括弱监督预测模块,分类模型可以包括类别预测模块。类别预测模块可以包括分类分支。弱监督预测模块也可以包括分类分支和检测分支。
在一种可能的实现方式中,类别预测模块可以得到第一样本图像的第一类别预测置信度。弱监督预测模块可以将分类分支和检测分支的处理结果进行融合后,得到第一样本图像的第二类别预测置信度。可以根据第一类别预测置信度和第二类别预测置信度之间的差值,确定分类模型的类别预测损失函数。根据类别预测损失函数对所述分类模型进行一次反向传播后,可以使得类别预测模块得到的第一类别预测置信度,更加接近弱监督预测模块得到的第二类别预测置信度。
在本实施例中,分类模型可以得到第一样本图像的第一类别预测置信度,弱监督检测模型可以得到第一样本图像的第二类别预测置信度,根据第一类别预测置信度和第二类别预测置信度确定分类模型的类别预测损失函数,并根据类别预测损失函数对分类模型进行反向传播。弱监督检测模型对分类模型的多标签类别预测结果进行知识蒸馏,可以使分类模型学习到弱监督检测模型更加准确的多标签类别预测结果。
图5是根据示例性实施例示出的一种图像的多标签类别预测方法的流程图,如图5所示,所述图像的多标签类别预测方法中,所述分类模型的训练方法中步骤S27,包括:
步骤S271,根据所述第一类别预测置信度、所述第二类别预测置信度和所述第一样本图像的实际标注类别,确定所述分类模型的类别预测损失函数。
在一种可能的实现方式中,利用确定的分类模型的类别预测损失函数对分类模型进行一次反向传播后,分类模型计算得到的第一类别预测置信度需要更加靠近弱监督检测模型计算得到的第二类别预测置信度,分类模型计算得到的第一类别预测置信度,也需要更加靠近第一样本图像的实际标注类别。可以根据第一类别预测置信度、第二类别预测置信度和第一样本图像的实际标注类别,确定分类模型的类别预测损失函数。
在本实施例中,根据第一类别预测置信度、第二类别预测置信度和第一样本图像的实际标注类别,确定分类模型的类别预测损失函数,可以使得训练后的分类模型的预测结果更加准确,也更加接近样本图像的实际标注类别。
在一种可能的实现方式中,所述分类模型的训练方法中步骤S27,包括:
将所述第一类别预测置信度进行软化处理,得到所述第一类别预测置信度软化结果;
将所述第二类别预测置信度进行软化处理,得到所述第二类别预测置信度软化结果;
根据所述第一类别预测置信度、所述第一样本图像的实际标注类别、所述第一类别预测置信度软化结果和所述第二类别预测置信度软化结果,确定所述分类模型的类别预测损失函数。
在一种可能的实现方式中,在根据类别预测置信度计算类别预测损失函数的过程中,类别预测置信度自身数值的变化较大,可能导致极值部分的类别预测置信度不能参与到类别预测损失函数的计算过程中,导致类别预测损失函数的计算结果不准确。可以对类别预测置信度进行软化处理,软化后的类别预测置信度的数值更加“光滑化”。利用软化后的类别预测置信度可以得到更加合理、以及更加准确的类别预测损失函数。
在一种可能的实现方式中,可以计算第一类别预测置信度和第一样本图像的实际标注类别之间的差值,以及计算第一类别预测置信度软化结果和第二类别预测置信度软化结果之间的差值,根据两个差值确定分类模型的类别预测损失函数。根据类别预测置信度的软化结果得到的类别预测损失函数,更加准确、全面。
在一种可能的实现方式中,所述软化处理,包括:根据类别进行的软化处理;所述软化结果,包括:根据类别进行软化处理得到的结果。
在一种可能的实现方式中,类别预测置信度可以包括多个类别的预测置信度。在对类别预测置信度进行软化处理的过程中,可以根据类别进行软化处理,即可以对各类别的类别预测置信度各自进行软化处理。由此得到的软化结果,包括根据类别进行软化处理的结果。
在一种可能的实现方式中,可以将所述第一类别预测置信度进行类别软化处理,得到所述第一类别预测置信度类别软化结果。可以将所述第二类别预测置信度进行类别软化处理,得到所述第二类别预测置信度类别软化结果。可以根据所述第一类别预测置信度、所述第一样本图像的实际标注类别、所述第一类别预测置信度类别软化结果和所述第二类别预测置信度类别软化结果,确定所述分类模型的类别预测损失函数。
在本实施例中,对类别预测置信度进行软化处理时,根据类别进行软化处理,得到类别预测置信度类别软化结果。利用根据类别预测置信度类别软化结果得到的类别预测损失函数进行反向传播,预测准确度更高。
图6是根据示例性实施例示出的一种图像的多标签类别预测方法的流程图,如图6所示,所述图像的多标签类别预测方法中,所述弱监督检测模型的训练方法,包括:
步骤S31,在所述弱监督检测模型中,将第二样本图像进行区域框提取处理,得到所述第二样本图像的区域候选框。
在一种可能的实现方式中,在弱监督检测模型中,可以利用EdgeBoxes(边缘框检测)算法生成第二样本图像中各对象的区域候选框的集合。可以在弱监督检测模型中设置区域框模块,由区域框模块利用EdgeBoxes算法,得到第二样本图像中的对象的区域候选框。
步骤S32,将所述第二样本图像进行第三特征提取,得到所述第二样本图像的第三特征信息。
在一种可能的实现方式中,在弱监督检测模型中可以包括弱监督卷积处理模块,弱监督卷积处理模块可以对第二样本图像进行卷积处理,提取第二样本图像中的第三特征。
步骤S33,根据所述区域候选框和所述第三特征信息,得到合并信息。
在一种可能的实现方式中,可以将区域候选框和第三特征信息进行合并处理,得到合并信息。例如可以根据各区域候选框在第三特征信息的特征图上进行区域池化(RoIpooling)处理,得到合并后的携带第二样本图像中各对象的区域候选框的特征图。本公开实施例采用区域池化代替SPP(Spatial Pyramid Pooling,空间金字塔)池化,可以保留更多的空间信息,区域候选框的定位更加准确。
步骤S34,将所述合并信息进行类别预测处理,得到所述第二样本图像的第三类别预测置信度。
在一种可能的实现方式中,可以将合并信息经过全连接层进行映射处理后,得到第二样本图像的第三类别预测置信度。在弱监督检测模型中可以包括弱监督预测模块,弱监督预测模块可以包括分类分支和检测分支。可以将合并信息分别经过分类分支和检测分支进行处理,并将分类分支和检测分支的处理结果融合后,得到第二样本图像的第三类别预测置信度。
步骤S35,根据所述第三类别预测置信度和所述第二样本图像的实际标注类别,确定弱监督检测损失函数。
在一种可能的实现方式中,可以根据第三类别预测置信度和所述第二样本图像的实际标注类别之间的差值,确定弱监督检测损失函数。
步骤S36,根据所述弱监督检测损失函数对所述弱监督检测模型进行反向传播。
在一种可能的实现方式中,所述弱监督检测损失函数对所述弱监督检测模型进行一次反向传播后,弱监督检测模型得到的第三类别预测置信度更加接近第二样本图像的实际标注类别。
在一种可能的实现方式中,弱监督检测模型可以仅使用包括实际标注类别的第二样本图像进行训练。训练完成的弱监督检测模型可以用于分类模型的训练,在分类模型的训练过程中,弱监督检测模型检测得到的区域候选框,以及输出的类别预测结果,都可以使用知识蒸馏被蒸馏到分类模型中。
在本实施例中,弱监督检测模型可以对第二样本图像进行区域框提取处理,得到第二样本图像的区域候选框,并将区域候选框和提取到的第三特征信息进行合并,得到合并信息。利用合并进行类别预测处理后,得到所述第二样本图像的第三类别预测置信度。根据第三类别预测置信度和第二样本图像的实际标注类别确定弱监督检测损失函数后,对弱监督检测模型进行反向传播。提取到的区域候选框,可以更加准确的定位样本图像中各对象的检测框,使得弱监督检测模型的检测结果更加准确。本公开实施例可以依靠样本图像的类别标签实现图像中对象所在的区域的准确定位,节省利用人工进行图像中对象所在区域进行标注的成本。
在一种可能的实现方式中,步骤S31,包括:将第二样本图像进行区域框提取处理,得到所述第二样本图像的区域候选框和区域候选框置信度。
步骤S33,包括:根据所述区域候选框、所述区域候选框置信度和所述第三特征信息,得到合并信息。
在一种可能的实现方式中,将第二样本图像进行区域框提取处理时,可以得到第二样本图像中各对象的区域候选框,以及得到各对象的区域候选框的置信度,即区域候选框置信度。例如,对第二样本图像进行区域框提取处理,得到第二样本图像中六个对象的区域候选框,同时得到各区域候选框的置信度分别为90%、80%、77%、30%、30%和10%。
在一种可能的实现方式中,可以根据区域候选框置信度,确定部分区域候选框与第三特征信息进行合并,得到合并信息。例如,可以将各对象的区域候选框按照置信度进行排序后,按照置信度由高到低的顺序,确定预设数量的区域候选框与第三特征信息进行合并,得到合并信息。例如确定100个区域候选框与第三特征信息进行合并,得到合并信息。
在本实施例中,根据区域候选框置信度、区域候选框和第三特征信息得到的合并信息,可以使得弱监督检测模型的预测结果更加准确。
在一种可能的实现方式中,在所述分类模型的训练方法中,所述第二特征信息包括所述第一样本图像的区域检测框和区域检测框置信度,根据所述第一特征信息和所述第二特征信息确定所述第一特征提取模块的特征损失函数,包括:
根据所述区域检测框和所述区域检测框置信度确定所述第二特征信息的权重;
根据所述第二特征信息的权重确定所述第一特征信息的权重;
根据所述第一特征信息、所述第一特征信息的权重、所述第二特征信息、和所述第二特征信息的权重,确定所述第一特征提取模块的特征损失函数。
在一种可能的实现方式中,分类模型可以包括分类卷积处理模块。在分类模型的训练过程中,分类卷积处理模块可以对第一样本图像进行卷积处理,并从弱监督检测模块中得到第一样本图像中各对象的区域检测框和各区域检测框的置信度,即区域检测框置信度。可以根据区域检测框的置信度,确定第二特征信息的权重,例如,当区域检测框的置信度较高时,可以为第二特征信息确定较高的权重。根据第二特征信息的权重,设置与第二特征信息相对应的第一特征信息的权重。
在一种可能的实现方式中,可以根据所述第一特征信息、所述第一特征信息的权重、所述第二特征信息、和所述第二特征信息的权重,确定所述第一特征提取模块的特征损失函数,以使训练后的分类模型对置信度较高的区域检测框能够对预测结果有更大的影响,能够达到自适应特征感知的目的。
在本实施例中,分类模型的训练中,分类模型可以对第一样本图像进行卷积处理,并从弱监督检测模块中得到第一样本图像中各对象的区域检测框和各区域检测框的置信度。利用各区域检测框的置信度,可以对分类模型提取到的第二特征信息设置权重,根据权重得到的特征损失函数可以使得分类模型达到自适应特征感知的目的。
应用示例:
图7是根据示例性实施例示出的一种弱监督检测模型和分类模型的结构示意图,如图7所示,图7中上半部分的T-WDet(Teacher-Weakly-Supervised Detection,教师网络-弱监督检测)模型,下半部分S-Cls(Student-MLIC model,MLIC Multi-label ImageClassification多标签图像分类)为分类模型。
一、弱监督检测模型的训练过程
如图7所示,弱监督检测模型包括弱监督卷积处理模块、区域框模块和弱监督预测模块。其中,弱监督卷积处理模块包括图7中上半部分中的convs(卷积层)所在的虚线框部分,区域框模块包括利用EdgeBoxes(边缘框检测)算法得到区域候选框集合(proposals
Figure BDA0001728472920000151
)所在的虚线框部分。弱监督预测模块包括将图7中上半部分中的分类分支(Mc、SC)和检测分支(Md、Sd)。
1、可以将第二样本图像I输入弱监督检测模型中的弱监督卷积处理模块和区域框模块,得到第二样本图像中各对象的区域候选框R,以及区域候选框集合
Figure BDA0001728472920000152
以及提取到的第二样本图像的第三特征信息。将第三特征信息与区域候选框R和区域候选框集合
Figure BDA0001728472920000153
进行合并后,可以得到合并信息。合并信息包括区域候选框特征FR和区域候选框集合特征
Figure BDA0001728472920000154
可以采用如下公式(1)得到各对象的区域候选框特征FR:
FR=sR⊙φRoI(Fconv;R) 公式(1)
其中,φRoI(Fconv;R)表示对各对象的区域候选框R的卷积特征Fconv进行ROI区域池化处理。⊙表示将φRoI(·)的每一个元素与其对应的R的得分sR(置信度得分)相乘。
可以采用如下公式(2)得到区域候选框集合特征
Figure BDA0001728472920000161
Figure BDA0001728472920000162
其中,
Figure BDA0001728472920000163
为串联操作,用于连接
Figure BDA0001728472920000164
中每个R的操作。
在弱监督模型进行训练时,区域框模块同时给出各对象的检测框R的置信度得分sR
2、可以合并信息分别输入弱监督预测模块的两个分支:分类分支(Mc、SC)和检测分支(Md、Sd),在两个分支中分别经过长度为K的全连接层的处理后,得到弱监督检测模型的预测结果,并根据预测结果和第二样本图像的实际标注类别进行反向传播,完成弱监督检测模型的训练。
二、分类模型的训练过程
在弱监督检测模型完成训练后,可以利用训练好的弱监督检测模型对分类模型进行训练,在训练的过程中,完成蒸馏特征和蒸馏类别预测结果的知识蒸馏。
如图7所示,分类模型包括分类卷积处理模块和类别预测模块。其中,分类卷积处理模块包括图7中下半部分中的convs(卷积层)所在的虚线框部分。
1、可以将第一样本图像I输入弱监督检测模型,可以分别利用如下公式(3)进行分类分支中的分类软化处理,以及利用公式(4)进行检测分支中的检测软化处理。
Figure BDA0001728472920000165
其中,tk为第k个类别的软化处理温度,m为输入数据,c代表分类处理,M为输出数据。
Figure BDA0001728472920000166
其中,tr
Figure BDA0001728472920000167
中第r个区域候选框的软化处理温度,m为输入数据,d代表检测处理,M为输出数据。
3、可以利用公式(5)得到弱监督检测模型软化后的类别预测结果
Figure BDA0001728472920000168
Figure BDA0001728472920000169
4、可以将第一样本图像I输入分类模型,利用公式(6)提取到第一特征信息
Figure BDA0001728472920000171
同时输入弱监督检测模型,利用公式(7)提取到第二特征信息
Figure BDA0001728472920000172
Figure BDA0001728472920000173
其中,
Figure BDA0001728472920000174
为当学生网络的通道数量与教师网络的频道数量不同时,可能需要的转换操作。
Figure BDA0001728472920000175
为分类模型中的卷积参数。
Figure BDA0001728472920000176
为每个区域检测框的置信度得分sR经过排序筛选后得到的设定数量的区域检测框的得分。N为第一样本图像的总数量,n为第n个样本图像。
Figure BDA0001728472920000177
5、可以利用公式(8)将弱监督检测模型提取到的特征
Figure BDA0001728472920000178
蒸馏至分类模型。如图7中STEP2左侧的圆圈中所示。图7中,将弱监督检测模型中各卷积层的特征Lf均进行了知识蒸馏。
Figure BDA0001728472920000179
6、可以将分类卷积处理模块的处理结果输入类别预测模块进行软化的类别预测,可以利用公式(9)得到分类模型的软化的类别预测结果
Figure BDA00017284729200001710
Figure BDA00017284729200001711
7、可以利用公式(10)将弱监督检测模型的类别预测结果
Figure BDA00017284729200001712
蒸馏至分类模型。如图7中STEP2右侧的圆圈中所示。
Figure BDA00017284729200001713
8、分类模型根据公式(8)和公式(10)进行知识蒸馏后得到的蒸馏特征和蒸馏类别预测结果,确定损失函数进行反向传播,完成分类模型自身的训练过程。
三、分类模型的使用过程
训练好的分类模型可以单独部署使用。可以根据学习到的蒸馏特征提取待预测图像的特征,得到蒸馏特征信息,并根据学习到的蒸馏类别预测结果对提取到的蒸馏特征信息进行类别预测处理,得到待预测图像的类别预测置信度。
图8是根据示例性实施例示出的一种图像的多标签类别预测装置的示意图,如图8所示,所述图像的多标签类别预测装置包括:
蒸馏特征提取模块10,用于根据蒸馏特征对待预测图像进行特征提取,得到所述待预测图像的蒸馏特征信息,所述蒸馏特征包括从弱监督检测模型进行知识蒸馏后得到的特征,所述弱监督检测模型用于对图像进行类别检测;
类别预测置信度获取模块20,用于对所述蒸馏特征信息进行类别预测处理,得到所述待预测图像的类别预测置信度;
类别预测结果获取模块30,用于根据所述待预测图像的类别预测置信度确定所述待预测图像的类别预测结果。
在一种可能的实现方式中,所述类别预测置信度获取模块30,包括:
第一类别预测置信度获取子模块,用于根据蒸馏类别预测结果对所述蒸馏特征信息进行类别预测处理,得到所述待预测图像的类别预测置信度,所述蒸馏类别预测结果包括从所述弱监督检测模型进行知识蒸馏后得到的类别预测结果。
在一种可能的实现方式中,所述装置应用于分类模型,所述分类模型包括:
第一训练模块,用于根据所述弱监督检测模型对所述分类模型进行训练。
在一种可能的实现方式中,所述第一训练模块,包括:
第一特征提取子模块,用于将第一样本图像输入所述分类模型进行第一特征提取,得到所述第一样本图像的第一特征信息;
第二特征提取子模块,用于将所述第一样本图像输入所述弱监督检测模型进行第二特征提取,得到所述第一样本图像的第二特征信息;
特征损失函数确定子模块,用于根据所述第一特征信息和所述第二特征信息确定所述分类模型的特征损失函数;
第一反向传播子模块,用于根据所述特征损失函数,对所述分类模型进行反向传播。
在一种可能的实现方式中,所述第一训练模块,包括:
第一类别预测置信度获取子模块,用于将所述第一特征信息进行类别预测处理,得到所述第一样本图像的第一类别预测置信度;
第二类别预测置信度获取子模块,用于在所述弱监督检测模型中,将所述第二特征信息进行类别预测处理,得到所述第一样本图像的第二类别预测置信度;
类别预测损失函数确定子模块,用于根据所述第一类别预测置信度和所述第二类别预测置信度,确定所述分类模型的类别预测损失函数;
第二反向传播子模块,用于根据所述类别预测损失函数对所述分类模型进行反向传播。
在一种可能的实现方式中,所述类别预测损失函数确定子模块,用于:
根据所述第一类别预测置信度、所述第二类别预测置信度和所述第一样本图像的实际标注类别,确定所述分类模型的类别预测损失函数。
在一种可能的实现方式中,所述类别预测损失函数确定子模块,用于:
将所述第一类别预测置信度进行软化处理,得到所述第一类别预测置信度软化结果;
将所述第二类别预测置信度进行软化处理,得到所述第二类别预测置信度软化结果;
根据所述第一类别预测置信度、所述第一样本图像的实际标注类别、所述第一类别预测置信度软化结果和所述第二类别预测置信度软化结果,确定所述分类模型的类别预测损失函数。
在一种可能的实现方式中,所述软化处理,包括:根据类别进行的软化处理;
所述软化结果,包括:根据类别进行软化处理得到的结果。
在一种可能的实现方式中,所述第一训练模块包括:
候选框提取子模块,用于将第二样本图像进行区域框提取处理,得到所述第二样本图像的区域候选框;
特征信息提取子模块,用于将所述第二样本图像进行第三特征提取,得到所述第二样本图像的第三特征信息;
合并子模块,用于根据所述区域候选框和所述第三特征信息,得到合并信息;
置信度获取子模块,用于将所述合并信息进行类别预测处理,得到所述第二样本图像的第三类别预测置信度;
第一损失函数获取子模块,用于根据所述第三类别预测置信度和所述第二样本图像的实际标注类别,确定弱监督检测损失函数;
第二反向传播子模块,用于根据所述弱监督检测损失函数对所述弱监督检测模型进行反向传播。
在一种可能的实现方式中,所述候选框提取子模块用于:
将第二样本图像进行区域框提取处理,得到所述第二样本图像的区域候选框和区域候选框置信度;
所述合并子模块用于:
根据所述区域候选框、所述区域候选框置信度和所述第三特征信息,得到合并信息。
在一种可能的实现方式中,所述第一训练模块,包括:
第一权重获取子模块,用于根据所述区域检测框和所述区域检测框置信度确定所述第二特征信息的权重;
第二权重获取子模块,用于根据所述第二特征信息的权重确定所述第一特征信息的权重;
第二损失函数确定子模块,用于根据所述第一特征信息、所述第一特征信息的权重、所述第二特征信息、和所述第二特征信息的权重,确定所述第一特征提取模块的特征损失函数。
图9是根据示例性实施例示出的一种电子设备的框图。例如,电子设备可以被提供为一终端、一服务器或其它形态的设备。所述电子设备包括图像的多标签类别预测装置1900。参照图9,设备1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行上述方法。
设备1900还可以包括一个电源组件1926被配置为执行设备1900的电源管理,一个有线或无线网络接口1950被配置为将设备1900连接到网络,和一个输入输出(I/O)接口1958。设备1900可以操作基于存储在存储器1932的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括计算机程序指令的存储器1932,上述计算机程序指令可由设备1900的处理组件1922执行以完成上述方法。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (22)

1.一种图像的多标签类别预测方法,其特征在于,所述方法应用于分类模型,所述方法包括:
根据蒸馏特征对待预测图像进行特征提取,得到所述待预测图像的蒸馏特征信息,所述蒸馏特征包括从弱监督检测模型进行知识蒸馏后得到的特征,所述弱监督检测模型用于对图像进行类别检测;
根据蒸馏类别预测结果对所述蒸馏特征信息进行类别预测处理,得到所述待预测图像的类别预测置信度,所述蒸馏类别预测结果包括从所述弱监督检测模型进行知识蒸馏后得到的类别预测结果;
根据所述待预测图像的类别预测置信度确定所述待预测图像的类别预测结果。
2.根据权利要求1所述的方法,其特征在于,所述分类模型的训练方法包括:
根据所述弱监督检测模型对所述分类模型进行训练。
3.根据权利要求2所述的方法,其特征在于,所述分类模型的训练方法,包括:
将第一样本图像输入所述分类模型进行第一特征提取,得到所述第一样本图像的第一特征信息;
将所述第一样本图像输入所述弱监督检测模型进行第二特征提取,得到所述第一样本图像的第二特征信息;
根据所述第一特征信息和所述第二特征信息确定所述分类模型的特征损失函数;
根据所述特征损失函数,对所述分类模型进行反向传播。
4.根据权利要求3所述的方法,其特征在于,所述分类模型的训练方法,包括:
在所述分类模型中,将所述第一特征信息进行类别预测处理,得到所述第一样本图像的第一类别预测置信度;
在所述弱监督检测模型中,将所述第二特征信息进行类别预测处理,得到所述第一样本图像的第二类别预测置信度;
根据所述第一类别预测置信度和所述第二类别预测置信度,确定所述分类模型的类别预测损失函数;
根据所述类别预测损失函数对所述分类模型进行反向传播。
5.根据权利要求4所述的方法,其特征在于,根据所述第一类别预测置信度和所述第二类别预测置信度,确定所述分类模型的类别预测损失函数,包括:
根据所述第一类别预测置信度、所述第二类别预测置信度和所述第一样本图像的实际标注类别,确定所述分类模型的类别预测损失函数。
6.根据权利要求5所述的方法,其特征在于,根据所述第一类别预测置信度、所述第二类别预测置信度和所述样本图像的实际标注类别,确定所述分类模型的类别预测损失函数,包括:
将所述第一类别预测置信度进行软化处理,得到所述第一类别预测置信度软化结果;
将所述第二类别预测置信度进行软化处理,得到所述第二类别预测置信度软化结果;
根据所述第一类别预测置信度、所述第一样本图像的实际标注类别、所述第一类别预测置信度软化结果和所述第二类别预测置信度软化结果,确定所述分类模型的类别预测损失函数。
7.根据权利要求6所述的方法,其特征在于,
所述软化处理,包括:根据类别进行的软化处理;
所述软化结果,包括:根据类别进行软化处理得到的结果。
8.根据权利要求1所述的方法,其特征在于,所述弱监督检测模型的训练方法,包括:
在所述弱监督检测模型中,将第二样本图像进行区域框提取处理,得到所述第二样本图像的区域候选框;
将所述第二样本图像进行第三特征提取,得到所述第二样本图像的第三特征信息;
根据所述区域候选框和所述第三特征信息,得到合并信息;
将所述合并信息进行类别预测处理,得到所述第二样本图像的第三类别预测置信度;
根据所述第三类别预测置信度和所述第二样本图像的实际标注类别,确定弱监督检测损失函数;
根据所述弱监督检测损失函数对所述弱监督检测模型进行反向传播。
9.根据权利要求8所述的方法,其特征在于,在所述弱监督检测模型中,将第二样本图像进行区域框提取处理,得到所述第二样本图像的区域候选框,包括:
将第二样本图像进行区域框提取处理,得到所述第二样本图像的区域候选框和区域候选框置信度;
根据所述区域候选框和所述第三特征信息,得到合并信息,包括:
根据所述区域候选框、所述区域候选框置信度和所述第三特征信息,得到合并信息。
10.根据权利要求3所述的方法,其特征在于,在所述分类模型的训练方法中,所述第二特征信息包括所述第一样本图像的区域检测框和区域检测框置信度,根据所述第一特征信息和所述第二特征信息确定所述分类模型的特征损失函数,包括:
根据所述区域检测框和所述区域检测框置信度确定所述第二特征信息的权重;
根据所述第二特征信息的权重确定所述第一特征信息的权重;
根据所述第一特征信息、所述第一特征信息的权重、所述第二特征信息、和所述第二特征信息的权重,确定所述分类模型的特征损失函数。
11.一种图像的多标签类别预测装置,其特征在于,所述装置应用于分类模型,所述装置包括:
蒸馏特征提取模块,用于根据蒸馏特征对待预测图像进行特征提取,得到所述待预测图像的蒸馏特征信息,所述蒸馏特征包括从弱监督检测模型进行知识蒸馏后得到的特征,所述弱监督检测模型用于对图像进行类别检测;
类别预测置信度获取模块,用于根据蒸馏类别预测结果对所述蒸馏特征信息进行类别预测处理,得到所述待预测图像的类别预测置信度,所述蒸馏类别预测结果包括从所述弱监督检测模型进行知识蒸馏后得到的类别预测结果;
类别预测结果获取模块,用于根据所述待预测图像的类别预测置信度确定所述待预测图像的类别预测结果。
12.根据权利要求11所述的装置,其特征在于,所述分类模型包括:
第一训练模块,用于根据所述弱监督检测模型对所述分类模型进行训练。
13.根据权利要求12所述的装置,其特征在于,所述第一训练模块,包括:
第一特征提取子模块,用于将第一样本图像输入所述分类模型进行第一特征提取,得到所述第一样本图像的第一特征信息;
第二特征提取子模块,用于将所述第一样本图像输入所述弱监督检测模型进行第二特征提取,得到所述第一样本图像的第二特征信息;
特征损失函数确定子模块,用于根据所述第一特征信息和所述第二特征信息确定所述分类模型的特征损失函数;
第一反向传播子模块,用于根据所述特征损失函数,对所述分类模型进行反向传播。
14.根据权利要求13所述的装置,其特征在于,所述第一训练模块,还包括:
第一类别预测置信度获取子模块,用于将所述第一特征信息进行类别预测处理,得到所述第一样本图像的第一类别预测置信度;
第二类别预测置信度获取子模块,用于在所述弱监督检测模型中,将所述第二特征信息进行类别预测处理,得到所述第一样本图像的第二类别预测置信度;
类别预测损失函数确定子模块,用于根据所述第一类别预测置信度和所述第二类别预测置信度,确定所述分类模型的类别预测损失函数;
第二反向传播子模块,用于根据所述类别预测损失函数对所述分类模型进行反向传播。
15.根据权利要求14所述的装置,其特征在于,所述类别预测损失函数确定子模块,用于:
根据所述第一类别预测置信度、所述第二类别预测置信度和所述第一样本图像的实际标注类别,确定所述分类模型的类别预测损失函数。
16.根据权利要求15所述的装置,其特征在于,所述类别预测损失函数确定子模块,用于:
将所述第一类别预测置信度进行软化处理,得到所述第一类别预测置信度软化结果;
将所述第二类别预测置信度进行软化处理,得到所述第二类别预测置信度软化结果;
根据所述第一类别预测置信度、所述第一样本图像的实际标注类别、所述第一类别预测置信度软化结果和所述第二类别预测置信度软化结果,确定所述分类模型的类别预测损失函数。
17.根据权利要求16所述的装置,其特征在于,
所述软化处理,包括:根据类别进行的软化处理;
所述软化结果,包括:根据类别进行软化处理得到的结果。
18.根据权利要求13所述的装置,其特征在于,所述第一训练模块包括:
候选框提取子模块,用于将第二样本图像进行区域框提取处理,得到所述第二样本图像的区域候选框;
特征信息提取子模块,用于将所述第二样本图像进行第三特征提取,得到所述第二样本图像的第三特征信息;
合并子模块,用于根据所述区域候选框和所述第三特征信息,得到合并信息;
置信度获取子模块,用于将所述合并信息进行类别预测处理,得到所述第二样本图像的第三类别预测置信度;
第一损失函数获取子模块,用于根据所述第三类别预测置信度和所述第二样本图像的实际标注类别,确定弱监督检测损失函数;
第二反向传播子模块,用于根据所述弱监督检测损失函数对所述弱监督检测模型进行反向传播。
19.根据权利要求18所述的装置,其特征在于,所述候选框提取子模块用于:
将第二样本图像进行区域框提取处理,得到所述第二样本图像的区域候选框和区域候选框置信度;
所述合并子模块用于:
根据所述区域候选框、所述区域候选框置信度和所述第三特征信息,得到合并信息。
20.根据权利要求13所述的装置,其特征在于,所述第二特征信息包括所述第一样本图像的区域检测框和区域检测框置信度,所述特征损失函数确定子模块,包括:
第一权重获取子模块,用于根据所述区域检测框和所述区域检测框置信度确定所述第二特征信息的权重;
第二权重获取子模块,用于根据所述第二特征信息的权重确定所述第一特征信息的权重;
第二损失函数确定子模块,用于根据所述第一特征信息、所述第一特征信息的权重、所述第二特征信息、和所述第二特征信息的权重,确定所述分类模型的特征损失函数。
21.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:执行权利要求1至10中任意一项所述的方法。
22.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至10中任意一项所述的方法。
CN201810763572.3A 2018-07-12 2018-07-12 图像的多标签类别预测方法及装置、电子设备和存储介质 Active CN109034219B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810763572.3A CN109034219B (zh) 2018-07-12 2018-07-12 图像的多标签类别预测方法及装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810763572.3A CN109034219B (zh) 2018-07-12 2018-07-12 图像的多标签类别预测方法及装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN109034219A CN109034219A (zh) 2018-12-18
CN109034219B true CN109034219B (zh) 2021-08-24

Family

ID=64641111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810763572.3A Active CN109034219B (zh) 2018-07-12 2018-07-12 图像的多标签类别预测方法及装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN109034219B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109816636B (zh) * 2018-12-28 2020-11-27 汕头大学 一种基于智能终端的裂缝检测方法
CN110490212B (zh) * 2019-02-26 2022-11-08 腾讯科技(深圳)有限公司 钼靶影像处理设备、方法和装置
CN112825143A (zh) * 2019-11-20 2021-05-21 北京眼神智能科技有限公司 深度卷积神经网络压缩方法、装置、存储介质及设备
CN111242230A (zh) * 2020-01-17 2020-06-05 腾讯科技(深圳)有限公司 基于人工智能的图像处理方法及图像分类模型训练方法
CN112184508B (zh) * 2020-10-13 2021-04-27 上海依图网络科技有限公司 一种用于图像处理的学生模型的训练方法及装置
CN112348012B (zh) * 2020-10-26 2024-09-24 上海眼控科技股份有限公司 图像预测方法、装置、计算机设备和存储介质
CN112418278A (zh) * 2020-11-05 2021-02-26 中保车服科技服务股份有限公司 一种多类物体检测方法、终端设备及存储介质
CN112329885B (zh) * 2020-11-25 2021-07-09 江苏云从曦和人工智能有限公司 模型训练方法、装置以及计算机可读存储介质
CN113033603B (zh) * 2021-02-05 2022-11-15 浙江大学 一种基于元学习的弱监督图像多标签分类方法
CN113505719B (zh) * 2021-07-21 2023-11-24 山东科技大学 基于局部-整体联合知识蒸馏算法的步态识别模型压缩系统及方法
CN113888538B (zh) * 2021-12-06 2022-02-18 成都考拉悠然科技有限公司 一种基于内存分块模型的工业异常检测方法
CN114612824A (zh) * 2022-03-09 2022-06-10 清华大学 目标识别方法及装置、电子设备和存储介质
CN115936980B (zh) * 2022-07-22 2023-10-20 北京字跳网络技术有限公司 一种图像处理方法、装置、电子设备及存储介质
CN118196089B (zh) * 2024-05-16 2024-08-06 山东省计算中心(国家超级计算济南中心) 基于知识蒸馏的玻璃容器缺陷检测网络轻量化方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247989A (zh) * 2017-06-15 2017-10-13 北京图森未来科技有限公司 一种神经网络训练方法及装置
CN107833221A (zh) * 2017-11-29 2018-03-23 武汉大学 一种基于多通道特征融合和机器学习的漏水监测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247989A (zh) * 2017-06-15 2017-10-13 北京图森未来科技有限公司 一种神经网络训练方法及装置
CN107833221A (zh) * 2017-11-29 2018-03-23 武汉大学 一种基于多通道特征融合和机器学习的漏水监测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
distilling the knowledge in a neural network;Geoffrey Hinton等;《arXiv preprint arXiv:1503.02531》;20150509;第1-9页 *
Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition;Kaiming He等;《Computer Vision – ECCV 2014. ECCV 2014. Lecture Notes in Computer Science, Springer》;20141231;第8691卷;第346-361页 *

Also Published As

Publication number Publication date
CN109034219A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN109034219B (zh) 图像的多标签类别预测方法及装置、电子设备和存储介质
CN109598332B (zh) 神经网络生成方法及装置、电子设备和存储介质
CN108629414B (zh) 深度哈希学习方法及装置
CN111738172B (zh) 基于特征对抗学习和自相似性聚类的跨域目标重识别方法
CN109816039A (zh) 一种跨模态信息检索方法、装置和存储介质
CN109948478A (zh) 基于神经网络的大规模非均衡数据的人脸识别方法、系统
CN112488241B (zh) 一种基于多粒度融合网络的零样本图片识别方法
CN112597999B (zh) 一种题目识别方法、装置、电子设备及计算机存储介质
CN112434618B (zh) 基于稀疏前景先验的视频目标检测方法、存储介质及设备
CN111046275A (zh) 基于人工智能的用户标签确定方法及装置、存储介质
CN111753746B (zh) 属性识别模型训练方法、识别方法、电子设备、存储介质
CN111488873B (zh) 一种基于弱监督学习的字符级场景文字检测方法和装置
US20210004723A1 (en) Learning device, learning method, and learning program
CN110019849A (zh) 一种基于注意力机制的视频关注时刻检索方法及装置
CN108921190A (zh) 一种图像分类方法、装置及电子设备
CN114758199A (zh) 检测模型的训练方法、装置、设备和存储介质
CN113223011B (zh) 基于引导网络和全连接条件随机场的小样本图像分割方法
Vujasinović et al. Revisiting click-based interactive video object segmentation
CN112348001B (zh) 表情识别模型的训练方法、识别方法、装置、设备及介质
CN109784404A (zh) 一种融合标签信息的多标签分类原型系统及方法
CN110647917B (zh) 一种模型复用方法与系统
CN116776744A (zh) 一种基于增强现实的装备制造控制方法及电子设备
CN110705695A (zh) 搜索模型结构的方法、装置、设备和存储介质
CN114299435A (zh) 视频中的场景聚类方法、装置及相关设备
CN113031600B (zh) 一种轨迹生成方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant