CN114266920A - 基于知识驱动的深度学习图像分类方法和系统 - Google Patents

基于知识驱动的深度学习图像分类方法和系统 Download PDF

Info

Publication number
CN114266920A
CN114266920A CN202111531480.0A CN202111531480A CN114266920A CN 114266920 A CN114266920 A CN 114266920A CN 202111531480 A CN202111531480 A CN 202111531480A CN 114266920 A CN114266920 A CN 114266920A
Authority
CN
China
Prior art keywords
training
image classification
knowledge
model
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111531480.0A
Other languages
English (en)
Inventor
鄂海红
宋美娜
何佳雯
胡天翼
张如如
李国英
王莉菲
袁立飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202111531480.0A priority Critical patent/CN114266920A/zh
Publication of CN114266920A publication Critical patent/CN114266920A/zh
Priority to PCT/CN2022/087216 priority patent/WO2023108968A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出了一种基于知识驱动的深度学习图像分类方法和系统,涉及图像分类技术领域,该方法包括:构建基于知识驱动的深度学习图像分类模型,并对构建的模型进行训练;获取待分类的图像,使用特征提取模块对待分类的图像进行特征提取,得到特征向量;将特征向量分别输入先验知识预训练模块和图像分类模块,得到先验知识多标签分类结果和图像分类结果。采用上述方案的本申请能够增强图像特征提取及分类任务的准确度,降低深度学习模型对数据量的依赖程度,缓解部分专业领域的数据收集和标注压力。并且本申请采用多标签分类方式将先验知识融入到深度学习模型的学习中,有效缓解了分割标注带来的压力,提升了系统在部分专业图像分类领域的可用性。

Description

基于知识驱动的深度学习图像分类方法和系统
技术领域
本申请涉及图像分类技术领域,尤其涉及一种基于知识驱动的深度学习图像分类方法和系统。
背景技术
当前深度学习技术在图像分类任务的研究已经达到了相对成熟的阶段,卷积神经网络被认为是一种强大的用于视觉图像分析的深度学习模型,它可以很好地实现图像中复杂的特征提取和识别,例如在ImageNet图像分类任务中提出的AlexNet、Inception-v3、EfficientNet等模型,已实现了最高97.7%的Top-5准确率。
数据量的大小是深度学习模型分类效果的重要因素,模型在训练过程中,需要大量的标注数据进行自主学习,数据量过小会导致模型无法有效学习到图像中的关键特征,从而影响图像分类的准确率。在自然图像的分类任务中,如人脸识别、猫狗分类等,数据集的获取和标注较简单,因此当前已存在数据量丰富的数据集供研究者进行模型的训练。然而在一些专业领域中,如医学影像、电磁信号图像的智能识别等,训练数据集的获取和标注都非常困难且价格昂贵,相关数据集的数据量不够,为研究者带来了一定的挑战。
目前图像分类领域的主要研究方法有:数据驱动,直接使用大数据量的数据集进行模型的训练;数据增强,使用图像翻转、旋转、缩放、对比度增强等图像处理操作对数据进行人为扩充,使用扩充后的数据集进行模型的训练;迁移学习,在大批量的自然图像数据集上进行模型训练,并将模型参数迁移到数据量较少的专业领域上。
现有技术的缺点:数据驱动为深度学习模型提供了充足的训练数据,使模型可以有效学习到关键的图像特征,但该方案需要大批量的标注数据,无法适用于数据量不足的专业领域。数据增强,使用数据增强方式一定程度上弥补了数据量不足带来的影响,但扩充得到的图像与原图相似性较高,模型准确率的提升有限,并且如果数据增强方法使用不当,甚至有可能引入错误的标注数据,为模型的学习带来不利影响。迁移学习通过将已训练好的特征提取模型迁移至新任务的学习中,减少模型对数据量的依赖,但迁移的源域和目标域的数据分布往往不同,迁移学习引入模型权重的同时也为目标域任务引入了一定的误差。
综上所述,在现阶段的深度学习图像分类研究中,大部分的研究工作还未能提出有效的方法缓解某些专业领域的数据收集、数据标注压力,使深度学习技术在相关领域的发展受到限制。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种基于知识驱动的深度学习图像分类方法。
本申请的第二个目的在于提出一种基于知识驱动的深度学习图像分类系统。
为达上述目的,本申请第一方面实施例提出了一种基于知识驱动的深度学习图像分类方法,包括:构建基于知识驱动的深度学习图像分类模型,并对构建的模型进行训练,其中,基于知识驱动的深度学习图像分类模型包括特征提取模块、先验知识预训练模块、图像分类模块;获取待分类的图像,使用特征提取模块对待分类的图像进行特征提取,得到特征向量;将特征向量分别输入先验知识预训练模块和图像分类模块,得到先验知识多标签分类结果和图像分类结果,其中,对构建的模型进行训练包括先验知识预训练和图像分类任务的训练,训练使用的数据集的标注包括先验知识标注和分类标注,先验知识预训练,包括:步骤S1:使用特征提取模块和先验知识预训练模块,并使用先验知识标注的数据集进行训练,对特征提取模型的权重进行微调;步骤S2:若预训练结果未达到预期精度,调整超参数或者特征提取模型,重复进行步骤S1,直到预训练结果达到预期精度,完成先验知识预训练。
可选地,在本申请的一个实施例中,图像分类任务的训练,包括:步骤一:使用特征提取模块和图像分类模块,并使用分类标注的数据集,对经过先验知识预训练的基于知识驱动的深度学习图像分类模型进行分类任务的训练;步骤二:若模型分类任务训练结果未达到预期精度,调整超参数,重复进行步骤一,直到模型分类任务训练结果达到预期精度,完成分类任务训练。
可选地,在本申请的一个实施例中,使用特征提取模块对待分类的图像进行特征提取,得到特征向量,表示为:
F=Modelbaseline(x)
其中,Modelbaseline为特征提取模型,F为特征向量,x为输入图像。
可选地,在本申请的一个实施例中,将特征向量输入先验知识预训练模块,具体为使用全连接层得到先验知识得分,通过选择先验知识得分中得分大于预设阈值的类别得到输入图像的先验知识多标签分类结果,其中,先验知识得分表示为:
Figure BDA0003410952410000021
其中,F为特征向量,Wk为全连接层的权重矩阵。
可选地,在本申请的一个实施例中,将特征向量输入图像分类模块,具体为使用全连接层得到图像分类结果得分,通过选择图像分类结果得分中得分大于预设阈值的类别得到输入图像的图像分类结果,其中,图像分类结果得分表示为:
Figure BDA0003410952410000031
其中,F为特征向量,Wc为图像分类全连接层的权重矩阵。
可选地,在本申请的一个实施例中,基于知识驱动的深度学习图像分类模型还包括热力图可视化模块,使用热力图可视化模块对图像分类结果进行热力图可视化,得到热力图,包括以下步骤:
使用图像分类结果得分,反向传播至特征提取模型的最后一层卷积层,回流的梯度在宽度和高度维度上全局平均池化,获得特征图重要性权重;
将得到的特征图重要性权重与特征图激活值加权组合,然后通过RELU激活函数来获得热力图,
其中,特征图重要性权重表示为:
Figure BDA0003410952410000032
其中,h为最后一层特征图的高度,w为最后一层特征图的宽度,Z=h×w,
Figure BDA0003410952410000033
表示图像分类结果得分,A表示特征提取模型的最后一层卷积层,Ak ij表示最后一层卷积层在通道为k、高为i、宽为j处的值,
热力图表示为:
Figure BDA0003410952410000034
其中,RELU()表示RELU激活函数,Ak表示特征提取模型的最后一层卷积层在通道为k的矩阵,
Figure BDA0003410952410000035
表示特征图重要性权重。
为达上述目的,本申请第二方面实施例提出了一种基于知识驱动的深度学习图像分类系统,包括:获取模块和基于知识驱动的深度学习图像分类模型,基于知识驱动的深度学习图像分类模型包括特征提取模块、先验知识预训练模块、图像分类模块,其中,
获取模块,用于获取待分类的图像并输入基于知识驱动的深度学习图像分类模型中;
特征提取模块,用于使用特征提取模型对待分类的图像进行特征提取,得到特征向量;
先验知识预训练模块,用于将特征向量应用于先验知识预训练,得到先验知识多标签分类结果;
图像分类模块,用于将特征向量应用于图像分类,得到图像分类结果。
可选地,在本申请的一个实施例中,基于知识驱动的深度学习图像分类模型还包括热力图可视化模块,用于对图像分类结果进行热力图可视化,得到热力图。
可选地,在本申请的一个实施例中,还包括,对基于知识驱动的深度学习图像分类模型进行训练,包括:
步骤S1:根据数据集及任务特点选择合适的特征提取模型;
步骤S2:使用先验知识标注结果对特征提取模型进行先验知识预训练;
步骤S3:若预训练结果未达到预期精度,调整超参数或者特征提取模型,重复进行步骤S2,直到预训练结果达到预期精度,完成先验知识预训练;
步骤S4:使用分类标注结果对特征提取模型进行分类任务的训练;
步骤S5:若模型分类任务训练结果未达到预期精度,调整超参数,重复进行步骤S4,直到模型分类任务训练结果达到预期精度,完成分类任务训练。
本申请实施例的基于知识驱动的深度学习图像分类方法和系统,能够增强图像特征提取及分类任务的准确度,降低深度学习模型对数据量的依赖程度,缓解部分专业领域的数据收集和标注压力。并且本申请采用多标签分类方式将先验知识融入到深度学习模型的学习中,有效缓解了分割标注带来的压力,提升了系统在部分专业图像分类领域的可用性。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例一所提供的一种基于知识驱动的深度学习图像分类方法的流程图;
图2为本申请实施例的基于知识驱动的深度学习图像分类模型的框架示意图;
图3为本申请实施例的基于知识驱动的深度学习图像分类模型的结构图;
图4为本申请实施例的双模态场景下基于知识驱动的深度学习图像分类模型的示例图;
图5为本申请实施例的基于知识驱动的深度学习图像分类模型的训练流程图;
图6为本申请实施例的基于知识驱动的深度学习图像分类模型的使用流程图;
图7为本申请实施例二所提供的一种基于知识驱动的深度学习图像分类系统的结构示意图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
知识驱动不依赖于训练数据的数据量,通过人为添加先验知识提高模型的学习效率。通过引入先验知识的方式降低模型对数据的依赖程度,为数据集获取或标注困难的领域提供了很好的解决方法,但当前在该领域的研究较少,且大多数研究者将先验知识设计为图像特征的分割,在减少数据量的同时也进一步带来了数据的分割标注压力。
本申请提出的一种基于知识驱动的深度学习图像分类方法,减少了深度学习模型需要的训练数据量,并且不需要引入复杂的分割标注,降低了数据标注的压力。
下面参考附图描述本申请实施例的基于知识驱动的深度学习图像分类方法和系统。
图1为本申请实施例一所提供的一种基于知识驱动的深度学习图像分类方法的流程图。
如图1所示,该基于知识驱动的深度学习图像分类方法包括以下步骤:
步骤101,构建基于知识驱动的深度学习图像分类模型,并对构建的模型进行训练,其中,基于知识驱动的深度学习图像分类模型包括特征提取模块、先验知识预训练模块、图像分类模块;
步骤102,获取待分类的图像,使用特征提取模块对待分类的图像进行特征提取,得到特征向量;
步骤103,将特征向量分别输入先验知识预训练模块和图像分类模块,得到先验知识多标签分类结果和图像分类结果。
其中,对构建的模型进行训练包括先验知识预训练和图像分类任务的训练,训练使用的数据集的标注包括先验知识标注和分类标注,先验知识预训练,包括:步骤S1:使用特征提取模块和先验知识预训练模块,并使用先验知识标注的数据集进行训练,对特征提取模型的权重进行微调;步骤S2:若预训练结果未达到预期精度,调整超参数或者特征提取模型,重复进行步骤S1,直到预训练结果达到预期精度,完成先验知识预训练。
本申请实施例的基于知识驱动的深度学习图像分类方法,通过构建基于知识驱动的深度学习图像分类模型,并对构建的模型进行训练,其中,基于知识驱动的深度学习图像分类模型包括特征提取模块、先验知识预训练模块、图像分类模块;获取待分类的图像,使用特征提取模块对待分类的图像进行特征提取,得到特征向量;将特征向量分别输入先验知识预训练模块和图像分类模块,得到先验知识多标签分类结果和图像分类结果,其中,对构建的模型进行训练包括先验知识预训练和图像分类任务的训练,训练使用的数据集的标注包括先验知识标注和分类标注,先验知识预训练,包括:步骤S1:使用特征提取模块和先验知识预训练模块,并使用先验知识标注的数据集进行训练,对特征提取模型的权重进行微调;步骤S2:若预训练结果未达到预期精度,调整超参数或者特征提取模型,重复进行步骤S1,直到预训练结果达到预期精度,完成先验知识预训练。由此,能够增强图像特征提取及分类任务的准确度,降低深度学习模型对数据量的依赖程度,缓解部分专业领域的数据收集和标注压力。本申请采用多标签分类方式将先验知识融入到深度学习模型的学习中,有效缓解了分割标注带来的压力,提升了系统在部分专业图像分类领域的可用性。
本申请实施例的基于知识驱动的深度学习图像分类模型的特征提取模块突出图像中具有代表性的特征、先验知识预训练模块以预训练的形式让模型对先验知识进行充分学习、图像分类模块完成图像分类任务、热力图可视化模块提供可解释性。并且本申请创新性地引入了两阶段知识驱动方法,第一阶段对先验知识,即用于分类任务决策的关键图像特征进行训练学习,第二阶段进行图像分类任务的训练。
进一步地,在本申请实施例中,图像分类任务的训练,包括:
步骤一:使用特征提取模块和图像分类模块,并使用分类标注的数据集,对经过先验知识预训练的基于知识驱动的深度学习图像分类模型进行分类任务的训练;
步骤二:若模型分类任务训练结果未达到预期精度,调整超参数,重复进行步骤一,直到模型分类任务训练结果达到预期精度,完成分类任务训练。
进一步地,在本申请实施例中,特征提取模块对输入图像进行变换,以突出图像中具有代表性的特征,如:边缘、角、颜色等。计算机视觉中主流的特征提取模型皆可用于Knowledge_Model(基于知识驱动的深度学习图像分类模型),如VGGNet、GoogleNet、ResNet等。针对不同的图像分类任务,Knowledge_Model可选择不同的特征提取模型。
使用特征提取模块对待分类的图像进行特征提取,得到特征向量,表示为:
F=Modelbaseline(x)
其中,Modelbaseline为特征提取模型,F为特征向量,x为输入图像。
在执行图像分类任务之前,先借助于先验知识的多标签分类标注结果yk进行基于知识驱动的深度学习图像分类模型的预训练,通过这种方式让基于知识驱动的深度学习图像分类模型学习先验知识,降低基于知识驱动的深度学习图像分类模型对训练数据量的依赖,提高基于知识驱动的深度学习图像分类模型的学习效率和准确率。
其中,先验知识一般标注为图像中对分类任务起决定性作用的特征表现,例如,使用眼科影像进行眼底疾病辅助诊断的任务中,先验知识可标注为眼底影像中的视网膜出血、玻璃膜疣,或光学相干断层扫描中的视网膜内积液、黄斑区色素上皮脱离等病变体征;使用电磁信号图像进行信号类别分类的任务中,先验知识标注可标注为中心频率、带宽等频带信息,或正交相移键控、正交幅度调制等调制方式。
进一步地,在本申请实施例中,将特征向量输入先验知识预训练模块,具体为使用全连接层获得先验知识
Figure BDA0003410952410000061
的得分
Figure BDA0003410952410000062
通过选择先验知识得分中得分大于预设阈值的类别得到输入图像的先验知识多标签分类结果,例如,通过选择先验知识得分
Figure BDA0003410952410000063
中得分大于0.5的类别来得到输入图像的先验知识多标签分类结果,其中,先验知识得分表示为:
Figure BDA0003410952410000064
其中,F为特征向量,Wk为全连接层的权重矩阵。
在本申请实施例中,先验知识以多标签分类的形式进行标注,并使用全连接层对特征向量F进行处理。先验知识预训练模块的全连接层与图像分类模块的全连接层不相同。
在进行先验知识预训练的过程中,特征提取模型Modelbaseline会根据多标签分类结果对权重进行微调,通过这种方式强制基于知识驱动的深度学习图像分类模型学习图像中的特征与先验知识标签的对应关系,帮助基于知识驱动的深度学习图像分类模型更好地关注到对分类任务起决定性作用的图像特征。与此同时,多标签分类标注的难度远小于分割标注,相比于现有的知识驱动方法,有效降低了数据集标注的成本。
在先验知识多标签分类任务训练完成后,使用图像分类任务的标注标签y进行图像分类任务的训练。在这个阶段,舍弃掉先验知识多标签分类模块的全连接层,使用特征提取模块输出的特征向量F,并通过图像分类模块的全连接层实现图像的分类。
进一步地,在本申请实施例中,将特征向量输入图像分类模块,具体为使用全连接层获得图像分类结果
Figure BDA0003410952410000071
的得分
Figure BDA0003410952410000072
通过选择图像分类结果得分中得分大于预设阈值的类别得到输入图像的图像分类结果,例如,可以通过选择图像分类结果得分
Figure BDA0003410952410000073
中得分大于0.5的类别来得到输入图像的分类结果,其中,图像分类结果得分表示为:
Figure BDA0003410952410000074
其中,F为特征向量,Wc为图像分类全连接层的权重矩阵。
图像分类模块在先验知识多标签分类模块之后参与训练,并对特征提取模型Modelbaseline进行复用。Modelbaseline在预训练过程中已经对先验知识进行了有效的学习,在图像分类任务中可以更好地关注到对分类结果起决定性作用的图像特征,图像分类的训练可以更快地收敛,并能取得比直接训练图像分类模型更好的分类准确率。
为了更好地理解Knowledge_Model对于输入图像的关注区域,对图像分类任务在视觉上进行可视化解释,本申请对图像分类结果进行热力图可视化。
进一步地,在本申请实施例中,基于知识驱动的深度学习图像分类模型还包括热力图可视化模块,使用热力图可视化模块对图像分类结果进行热力图可视化,得到热力图,包括以下步骤:
Figure BDA0003410952410000075
为Knowledge_Model判断输入图像x是否为分类种类c时重点关注的图像区域热力图,首先使用图像分类结果类c对应分数
Figure BDA0003410952410000076
反向传播至特征提取模型Modelbaseline的最后一层卷积层A,回流的梯度在宽度和高度维度上全局平均池化,获得特征图重要性权重wc,表示为:
Figure BDA0003410952410000077
其中,h为最后一层特征图的高度,w为最后一层特征图的宽度,Z=h×w,
Figure BDA0003410952410000078
表示图像分类结果得分,A表示特征提取模型的最后一层卷积层,Ak ij表示最后一层卷积层在通道为k、高为i、宽为j处的值,
特征图重要性权重捕获了最后一个卷积层特征图的通道k对于目标类别c的影响程度,将得到的特征图重要性权重与特征图激活值加权组合,然后通过RELU激活函数来获得热力图,表示为:
Figure BDA0003410952410000081
其中,RELU()表示RELU激活函数,Ak表示特征提取模型的最后一层卷积层在通道为k的矩阵,
Figure BDA0003410952410000082
表示特征图重要性权重。
图2为本申请实施例的基于知识驱动的深度学习图像分类模型的框架示意图。
如图2所示,该基于知识驱动的深度学习图像分类模型,包括特征提取模块、先验知识预训练模块、图像分类模块,其中,特征提取模块,用于使用特征提取模型对待分类的图像进行特征提取,得到特征向量;先验知识预训练模块,用于将特征向量应用于先验知识预训练,得到先验知识多标签分类结果;图像分类模块,用于将特征向量应用于图像分类,得到图像分类结果。该基于知识驱动的深度学习图像分类模型还包括热力图可视化模块,用于对图像分类结果进行热力图可视化,得到热力图。
图3为本申请实施例的基于知识驱动的深度学习图像分类模型的结构图。
如图3所示,定义数据集D={x|yk,y},其中x为输入模型的图像数据,yk为x的先验知识标签,且以多标签形式标注,y为x的图像分类标签,Modelbaseline为特征提取模型。基于知识驱动的深度学习图像分类模型接收输入x,输出对图像的分类结果
Figure BDA0003410952410000083
以及做出分类所参考的关键特征多标签分类结果
Figure BDA0003410952410000084
可表示为:
Figure BDA0003410952410000085
其中,基于知识驱动的深度学习图像分类模型以“Knowledge_Model”表示。图像特征提取模块的输入为图像数据x,输出为特征提取模型提取得到的特征向量F。先验知识预训练模块的输入为特征向量F,输出为先验知识
Figure BDA0003410952410000086
的得分
Figure BDA0003410952410000087
通过选择
Figure BDA0003410952410000088
中得分大于预设阈值的类别来得到输入图像的先验知识多标签分类结果
Figure BDA0003410952410000089
在先验知识多标签分类任务训练完成后,使用图像分类任务的标注标签y进行图像分类任务的训练。在这个阶段,舍弃掉先验知识多标签分类模块的全连接层,使用特征提取模块输出的特征向量F,并通过图像分类模块的全连接层实现图像的分类。图像分类模块的输入是特征向量F,输出是分类结果
Figure BDA00034109524100000810
的得分
Figure BDA00034109524100000811
通过选择
Figure BDA00034109524100000812
中得分大于预设阈值的类别来得到输入图像的分类结果
Figure BDA00034109524100000813
热力图可视化模块,利用图像分类结果得分
Figure BDA00034109524100000814
反向传播至特征提取模型的最后一层卷积层,回流的梯度在宽度和高度维度上全局平均池化,获得特征图重要性权重,与特征图激活值加权组合,然后通过RELU激活函数来获得热力图。
在一些需要多模态图像进行分类的场景下,基于知识驱动的深度学习图像分类模型也同样适用。例如:综合多种医学影像进行疾病诊断的场景。
假设存在n种模态的图像,n≥1,则需要为每一种模态分别构建特征提取模块和先验知识预训练模块,整个模型只需要构建1个图像分类模块:
n个特征提取模块:共获取到n个特征向量{F1,F2,…,Fn},其中任意Fi∈RN,i∈{1,2,…,n}。特征提取模型相互独立,权重不共享。
n个先验知识预训练模块:不同模态图像的先验知识不相同,需根据具体的标注内容构建先验知识预训练模块,实现该模态图像的多标签分类任务。通过这种方式使每个特征提取模型更好地关注到对应模态的输入对分类任务起决定性作用的图像特征。
1个图像分类模块:将n个特征向量拼接形成融合多模态的特征向量Fcon∈Rn×N,图像分类模块以融合特征向量Fcon作为输入,并输出对图像分类结果
Figure BDA0003410952410000091
的得分
Figure BDA0003410952410000092
通过特征融合的方式对n个输入模态进行综合分析,并给出图像分类任务的最终结果。
图4为本申请实施例的双模态场景下基于知识驱动的深度学习图像分类模型的示例图。
如图4所示,在该双模态场景下基于知识驱动的深度学习图像分类模型的示例中,眼底影像和OCT影像分别进行图像特征提取和先验知识预训练,在先验知识被充分学习后,融合两个模态图像的特征向量F1和F2得到Fcon,并执行图像分类任务。
图5为本申请实施例的基于知识驱动的深度学习图像分类模型的训练流程图。
如图5所示,首先根据数据集及任务特点选择合适的特征提取模型Modelbaseline;之后使用特征提取模块和先验知识预训练模块,并使用先验知识标注的数据集进行先验知识预训练;判断模型预训练结果是否达到预期精度,若模型预训练结果未达到预期精度,则调整超参数或者特征提取模型Modelbaseline,再次使用先验知识标注数据集进行预训练,直到预训练结果达到预期精度;若预训练结果达到预期精度,则使用特征提取模块和图像分类模块,并使用分类标注数据集对基于知识驱动的深度学习图像分类模型进行分类任务的训练;判断基于知识驱动的深度学习图像分类模型分类任务训练结果是否达到预期精度,若基于知识驱动的深度学习图像分类模型分类任务训练结果未达到预期精度,则调整超参数,再次使用分类标注数据集对基于知识驱动的深度学习图像分类模型进行分类任务的训练,直到基于知识驱动的深度学习图像分类模型分类任务训练结果达到预期精度;若基于知识驱动的深度学习图像分类模型分类任务训练结果达到预期精度,则流程结束。
图6为本申请实施例的基于知识驱动的深度学习图像分类模型的使用流程图。
如图6所示,获取待分类的图像并上传至基于知识驱动的深度学习图像分类模型;基于知识驱动的深度学习图像分类模型的特征提取模块对图像进行特征提取,得到特征向量;分别将特征向量应用于先验知识预训练模块和图像分类模块;得到模型分类的依据(先验知识多标签分类结果)和模型分类结果(分类任务结果),对图像分类结果进行热力图可视化,得到模型分类时对输入图像的关注区域热力图。
图7为本申请实施例二所提供的一种基于知识驱动的深度学习图像分类系统的结构示意图。
如图7所示,该基于知识驱动的深度学习图像分类系统,包括获取模块和基于知识驱动的深度学习图像分类模型,基于知识驱动的深度学习图像分类模型包括特征提取模块、先验知识预训练模块、图像分类模块,其中,
获取模块10,用于获取待分类的图像并输入基于知识驱动的深度学习图像分类模型中;
特征提取模块20,用于使用特征提取模型对待分类的图像进行特征提取,得到特征向量;
先验知识预训练模块30,用于将特征向量应用于先验知识预训练,得到先验知识多标签分类结果;
图像分类模块40,用于将特征向量应用于图像分类,得到图像分类结果,
该基于知识驱动的深度学习图像分类模型还包括热力图可视化模块50,用于对图像分类结果进行热力图可视化,得到热力图。
进一步地,在本申请实施例中,还包括,对基于知识驱动的深度学习图像分类模型进行训练,包括:
步骤S1:根据数据集及任务特点选择合适的特征提取模型;
步骤S2:使用先验知识标注结果对特征提取模型进行先验知识预训练;
步骤S3:若预训练结果未达到预期精度,调整超参数或者特征提取模型,重复进行步骤S2,直到预训练结果达到预期精度,完成先验知识预训练;
步骤S4:使用分类标注结果对特征提取模型进行分类任务的训练;
步骤S5:若模型分类任务训练结果未达到预期精度,调整超参数,重复进行步骤S4,直到模型分类任务训练结果达到预期精度,完成分类任务训练。
本申请实施例的基于知识驱动的深度学习图像分类系统,包括获取模块和基于知识驱动的深度学习图像分类模型,基于知识驱动的深度学习图像分类模型包括特征提取模块、先验知识预训练模块、图像分类模块,其中,获取模块,用于获取待分类的图像并输入基于知识驱动的深度学习图像分类模型中;特征提取模块,用于使用特征提取模型对待分类的图像进行特征提取,得到特征向量;先验知识预训练模块,用于将特征向量应用于先验知识预训练,得到先验知识多标签分类结果;图像分类模块,用于将特征向量应用于图像分类,得到图像分类结果。由此,能够增强图像特征提取及分类任务的准确度,降低深度学习模型对数据量的依赖程度,缓解部分专业领域的数据收集和标注压力。并且本申请采用多标签分类方式将先验知识融入到深度学习模型的学习中,有效缓解了分割标注带来的压力,提升了系统在部分专业图像分类领域的可用性。
本申请实施例的基于知识驱动的深度学习图像分类模型的特征提取模块突出图像中具有代表性的特征、先验知识预训练模块以预训练的形式让模型对先验知识进行充分学习、图像分类模块完成图像分类任务、热力图可视化模块提供可解释性。并且本申请创新性地引入了两阶段知识驱动方法,第一阶段对先验知识,即用于分类任务决策的关键图像特征进行训练学习,第二阶段进行图像分类任务的训练。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (9)

1.一种基于知识驱动的深度学习图像分类方法,其特征在于,包括以下步骤:
构建基于知识驱动的深度学习图像分类模型,并对构建的模型进行训练,其中,所述基于知识驱动的深度学习图像分类模型包括特征提取模块、先验知识预训练模块、图像分类模块;
获取待分类的图像,使用所述特征提取模块对所述待分类的图像进行特征提取,得到特征向量;
将所述特征向量分别输入先验知识预训练模块和图像分类模块,得到先验知识多标签分类结果和图像分类结果,
其中,所述对构建的模型进行训练包括先验知识预训练和图像分类任务的训练,训练使用的数据集的标注包括先验知识标注和分类标注,
所述先验知识预训练,包括:
步骤S1:使用所述特征提取模块和所述先验知识预训练模块,并使用先验知识标注的数据集进行训练,对特征提取模型的权重进行微调;
步骤S2:若预训练结果未达到预期精度,调整超参数或者特征提取模型,重复进行步骤S1,直到预训练结果达到预期精度,完成先验知识预训练。
2.如权利要求1所述的方法,其特征在于,所述图像分类任务的训练,包括:
步骤一:使用所述特征提取模块和所述图像分类模块,并使用分类标注的数据集,对经过先验知识预训练的基于知识驱动的深度学习图像分类模型进行分类任务的训练;
步骤二:若模型分类任务训练结果未达到预期精度,调整超参数,重复进行步骤一,直到模型分类任务训练结果达到预期精度,完成分类任务训练。
3.如权利要求1所述的方法,其特征在于,所述使用所述特征提取模块对所述待分类的图像进行特征提取,得到特征向量,表示为:
F=Modelbaseline(x)
其中,Modelbaseline为特征提取模型,F为特征向量,x为输入图像。
4.如权利要求1所述的方法,其特征在于,将所述特征向量输入先验知识预训练模块,具体为使用全连接层得到先验知识得分,通过选择所述先验知识得分中得分大于预设阈值的类别得到输入图像的先验知识多标签分类结果,其中,所述先验知识得分表示为:
Figure FDA0003410952400000021
其中,F为特征向量,Wk为全连接层的权重矩阵。
5.如权利要求1所述得方法,其特征在于,将所述特征向量输入图像分类模块,具体为使用全连接层得到图像分类结果得分,通过选择所述图像分类结果得分中得分大于预设阈值的类别得到输入图像的图像分类结果,其中,所述图像分类结果得分表示为:
Figure FDA0003410952400000022
其中,F为特征向量,Wc为图像分类全连接层的权重矩阵。
6.如权利要求3或5所述的方法,其特征在于,所述基于知识驱动的深度学习图像分类模型还包括热力图可视化模块,使用所述热力图可视化模块对图像分类结果进行热力图可视化,得到热力图,包括以下步骤:
使用所述图像分类结果得分,反向传播至所述特征提取模型的最后一层卷积层,回流的梯度在宽度和高度维度上全局平均池化,获得特征图重要性权重;
将得到的特征图重要性权重与特征图激活值加权组合,然后通过RELU激活函数来获得热力图,
其中,所述特征图重要性权重表示为:
Figure FDA0003410952400000023
其中,h为最后一层特征图的高度,w为最后一层特征图的宽度,Z=h×w,
Figure FDA0003410952400000024
表示所述图像分类结果得分,A表示特征提取模型的最后一层卷积层,Ak ij表示最后一层卷积层在通道为k、高为i、宽为j处的值,
所述热力图表示为:
Figure FDA0003410952400000025
其中,RELU()表示RELU激活函数,Ak表示特征提取模型的最后一层卷积层在通道为k的矩阵,
Figure FDA0003410952400000026
表示所述特征图重要性权重。
7.一种基于知识驱动的深度学习图像分类系统,其特征在于,包括获取模块和基于知识驱动的深度学习图像分类模型,所述基于知识驱动的深度学习图像分类模型包括特征提取模块、先验知识预训练模块、图像分类模块,其中,
所述获取模块,用于获取待分类的图像并输入所述基于知识驱动的深度学习图像分类模型中;
所述特征提取模块,用于使用特征提取模型对待分类的图像进行特征提取,得到特征向量;
所述先验知识预训练模块,用于将所述特征向量应用于先验知识预训练,得到先验知识多标签分类结果;
所述图像分类模块,用于将所述特征向量应用于图像分类,得到图像分类结果。
8.如权利要求7所述的系统,其特征在于,所述基于知识驱动的深度学习图像分类模型还包括热力图可视化模块,用于对图像分类结果进行热力图可视化,得到热力图。
9.如权利要求7所述的系统,其特征在于,还包括,对所述基于知识驱动的深度学习图像分类模型进行训练,包括:
步骤S1:根据数据集及任务特点选择合适的特征提取模型;
步骤S2:使用先验知识标注结果对特征提取模型进行先验知识预训练;
步骤S3:若预训练结果未达到预期精度,调整超参数或者特征提取模型,重复进行步骤S2,直到预训练结果达到预期精度,完成先验知识预训练;
步骤S4:使用分类标注结果对特征提取模型进行分类任务的训练;
步骤S5:若模型分类任务训练结果未达到预期精度,调整超参数,重复进行步骤S4,直到模型分类任务训练结果达到预期精度,完成分类任务训练。
CN202111531480.0A 2021-12-14 2021-12-14 基于知识驱动的深度学习图像分类方法和系统 Pending CN114266920A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111531480.0A CN114266920A (zh) 2021-12-14 2021-12-14 基于知识驱动的深度学习图像分类方法和系统
PCT/CN2022/087216 WO2023108968A1 (zh) 2021-12-14 2022-04-15 基于知识驱动的深度学习图像分类方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111531480.0A CN114266920A (zh) 2021-12-14 2021-12-14 基于知识驱动的深度学习图像分类方法和系统

Publications (1)

Publication Number Publication Date
CN114266920A true CN114266920A (zh) 2022-04-01

Family

ID=80827252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111531480.0A Pending CN114266920A (zh) 2021-12-14 2021-12-14 基于知识驱动的深度学习图像分类方法和系统

Country Status (2)

Country Link
CN (1) CN114266920A (zh)
WO (1) WO2023108968A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023108968A1 (zh) * 2021-12-14 2023-06-22 北京邮电大学 基于知识驱动的深度学习图像分类方法和系统
CN117272134A (zh) * 2023-09-01 2023-12-22 中国地质大学(武汉) 深度学习模型、海底地貌分类模型构建方法及分类方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6748044B2 (en) * 2002-09-13 2004-06-08 Ge Medical Systems Global Technology Company, Llc Computer assisted analysis of tomographic mammography data
CN108665901B (zh) * 2018-05-04 2020-06-30 广州国音科技有限公司 一种音素/音节提取方法及装置
CN109934261B (zh) * 2019-01-31 2023-04-07 中山大学 一种知识驱动参数传播模型及其少样本学习方法
CN111028153B (zh) * 2019-12-09 2024-05-07 南京理工大学 图像处理和神经网络训练方法、装置及计算机设备
CN111429421B (zh) * 2020-03-19 2021-08-27 推想医疗科技股份有限公司 模型生成方法、医学图像分割方法、装置、设备及介质
CN112560668A (zh) * 2020-12-14 2021-03-26 南京航空航天大学 一种基于场景先验知识的人体行为识别方法
CN113781465A (zh) * 2021-09-18 2021-12-10 长春理工大学 基于Grad-CAM的医学图像分割模型可视化方法
CN114266920A (zh) * 2021-12-14 2022-04-01 北京邮电大学 基于知识驱动的深度学习图像分类方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023108968A1 (zh) * 2021-12-14 2023-06-22 北京邮电大学 基于知识驱动的深度学习图像分类方法和系统
CN117272134A (zh) * 2023-09-01 2023-12-22 中国地质大学(武汉) 深度学习模型、海底地貌分类模型构建方法及分类方法

Also Published As

Publication number Publication date
WO2023108968A1 (zh) 2023-06-22

Similar Documents

Publication Publication Date Title
Dalca et al. Learning conditional deformable templates with convolutional networks
Schlegl et al. Unsupervised anomaly detection with generative adversarial networks to guide marker discovery
Brosch et al. Deep 3D convolutional encoder networks with shortcuts for multiscale feature integration applied to multiple sclerosis lesion segmentation
Ren et al. UFO 2: A unified framework towards omni-supervised object detection
CN112102266B (zh) 基于注意力机制的脑梗死医学影像分类模型的训练方法
JP2018200685A (ja) 完全教師あり学習用のデータセットの形成
CN114266920A (zh) 基于知识驱动的深度学习图像分类方法和系统
Dai et al. Learning to localize detected objects
CN113807412B (zh) 一种多标签图像分类方法、装置、设备及存储介质
CN113662664B (zh) 一种基于仪器追踪的外科手术质量客观自动化评估方法
Liu et al. A framework for automatic burn image segmentation and burn depth diagnosis using deep learning
CN114155213A (zh) 基于主动学习的芯片缺陷检测方法和装置
Burwinkel et al. Adaptive image-feature learning for disease classification using inductive graph networks
CN116664840A (zh) 一种基于互关系知识蒸馏的语义分割方法、装置及设备
Kamranian et al. Joint motion boundary detection and CNN-based feature visualization for video object segmentation
Liu et al. Diagnosis of alzheimer’s disease using view-aligned hypergraph learning with incomplete multi-modality data
CN111128349A (zh) 基于gan的医学影像病灶检测标记数据增强方法及装置
CN116963657A (zh) 使用左右耳膜耳镜检查图像进行自动耳镜检查图像分析以诊断耳部病理的系统和方法
CN110728660B (zh) 基于缺血性脑卒中mri检测标记进行病灶分割的方法及装置
Vidaurre-Gallart et al. A deep learning-based workflow for dendritic spine segmentation
Oktay et al. Probabilistic edge map (PEM) for 3D ultrasound image registration and multi-atlas left ventricle segmentation
Nie et al. Semantic-guided encoder feature learning for blurry boundary delineation
Yao et al. Hippocampus segmentation in MRI using side U-net model
CN116342446A (zh) 多聚焦图像融合方法及装置、电子设备、存储介质
CN112634255B (zh) 脑部病灶检测模型的建立方法、装置以及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination