CN113924580A - 深度神经网络可视化 - Google Patents

深度神经网络可视化 Download PDF

Info

Publication number
CN113924580A
CN113924580A CN202080041624.1A CN202080041624A CN113924580A CN 113924580 A CN113924580 A CN 113924580A CN 202080041624 A CN202080041624 A CN 202080041624A CN 113924580 A CN113924580 A CN 113924580A
Authority
CN
China
Prior art keywords
neural network
deep neural
feature
library
elements
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080041624.1A
Other languages
English (en)
Inventor
B·J·巴科
D·马弗罗伊迪斯
S·特拉加诺维斯基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of CN113924580A publication Critical patent/CN113924580A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Abstract

各方面和实施例涉及一种提供由深度神经网络标识为与结果相关的特征的表示的方法、计算机程序产品和配置为执行该方法的装置。该方法包括:为深度神经网络提供训练库,训练库包括与结果相关联的多个样本;训练深度神经网络以识别与结果相关联的多个样本中的特征;通过在输入库中的多个样本中的每个样本中标识触发深度神经网络识别特征的一个或多个元素,从输入库创建特征识别库;使用特征识别库来合成样本的具有触发深度神经网络识别特征的特性的合成的多个一个或多个元素;和使用合成的多个一个或多个元素来提供由深度神经网络在与结果相关联的多个样本中标识的特征的表示。因此,代替可视化样本中触发与结果相关联的特征的一个或多个元素的单个实例,可以可视化包括会触发与结果相关联的特征的元素的一系列样本,从而实现对于特定特征有关的深度神经网络操作的更全面理解。

Description

深度神经网络可视化
技术领域
本发明涉及神经网络领域,并且更特别地,涉及提供由深度神经网络标识的特征的表示。
背景技术
深度学习方法可以用于从例如医学图像中单个像素的颜色值之类的非常低级的数据生成或标识有用的高级特征。深度学习方法可以减少对手工制作这种有用的高级特征的需要,并且可以允许自动定义“未知”特征。通过深度学习方法生成或学习到的特征经由深度神经网络中大量权重而被定义。
尽管被配置为基于输入样本集做出决定或标识结果的深度神经网络通常表现良好;但对用户而言它们看起来像是黑匣子。也就是说,很难解释或可视化深度神经网络是如何运作的以及它为什么操作为做出它所做出的决定。
存在用于可视化较大的样本或示例图像中激活所生成或学习到的特征(即,指示图像中存在特征)的区域(或图块)的技术。一种这样的技术被称为Grad-CAM(Grad-CAM:Visual Explanations from Deep Networks via Gradient-based Localization[Selvaraju et al,arXiv:1610.02391]),该技术提供了一种突出显示输入图像中有助于例如图像分类的那些像素的方法。在一个示例中,当图像被深度神经网络分类为“狗”时,图像中与有助于深度神经网络将该图像分类为“狗”的一个或多个特征相对应的像素被突出显示。Grad-CAM技术可以被应用于使用深度卷积神经网络的图像分析。这种技术允许用户检查触发网络识别特征的具体图像示例。
发明内容
本发明的第一方面涉及一种提供特征的表示的方法,该特征由深度神经网络标识为与结果相关,该方法包括:为深度神经网络提供训练库,训练库包括与结果相关联的多个样本;训练深度神经网络以识别与结果相关联的多个样本中的特征;通过在输入库中的多个样本中的每个样本中标识触发深度神经网络识别特征的一个或多个元素,从输入库来创建特征识别库;使用特征识别库来合成样本的具有触发深度神经网络识别特征的特性的合成的多个一个或多个元素;并且使用合成的多个一个或多个元素来提供由深度神经网络在与结果相关联的多个样本中标识的特征的表示。
本发明的第二方面提供了一种计算机程序产品,当在计算机上被执行时,该计算机程序产品可操作以执行第一方面的方法。
本发明的第三方面提供了一种提供特征的表示的装置,该特征由深度神经网络标识为与结果相关,该装置包括:用训练库来训练的深度神经网络,该训练库包括与结果相关联的多个样本并且深度神经网络通过训练被配置为识别多个样本中与结果相关联的特征;库创建逻辑,该库创建逻辑被配置为:通过在形成输入库的多个样本中的每个样本中标识触发深度神经网络识别特征的一个或多个元素,从输入库来创建特征识别库;合成逻辑,该合成逻辑被配置为:使用特征识别库来合成样本的具有触发深度神经网络识别特征的合成的多个一个或多个元素;和特征可视化逻辑,该特征可视化逻辑被配置为:使用合成的多个一个或多个元素来提供由深度神经网络在与结果相关联的多个样本中标识的特征的表示。
在所附的独立和从属权利要求中阐述了更多特定和优选的方面。从属权利要求的特征可以适当地与独立权利要求的特征进行组合,并且可以与权利要求中明确阐述的那些特征之外的特征进行组合。
本发明实施例的一个技术优点可以包括:改进由深度神经网络创建的模型的机制。本发明实施例的另一个优点可以包括:标识与结果相关的特征有关的、可能从提供给深度神经网络的训练库缺失的数据的机制。本发明实施例的又一个优点可以包括:可视化由深度神经网络中不同层标识的特征的机制。本发明实施例的另一优点可以包括:向领域专家提供由与深度神经网络创建的结果相关的模型所创建的特征的机制。本发明实施例的再一个优点可以包括:帮助领域专家理解深度神经网络的操作的机制。更多的技术优点可以在实施例的描述中被进一步描述。前述(多个)技术优势仅旨在作为非限制性示例。本领域技术人员将认识到,还可以应用其他未明确描述的技术优势,并且不同的优势可能适用于不同的实施例。
在装置特征被描述为可操作以提供功能的情况下,应当了解,这包括提供该功能或被适配或配置为提供该功能的装置特征。
附图说明
现在,将结合附图进一步描述本发明实施例,其中:
图1a图示了根据一个实施例的图像处理设备的布置;
图1b示意性地图示了用于图像分类的深度神经网络的典型轮廓图;
图2a是图示了根据本发明实施例的说明性一般示例的方法的可能步骤的示意图;
图2b是详细地图示了说明性示例的方法的可能步骤的示意图;
图2c图示了针对网络特征的GradCAM输出的示例;
图2d图示了根据一些实施例的可以形成特征识别库的一部分的图像部分的示例;并且
图3示出了特征探索图形用户界面的一个可能的说明性示例。
具体实施方式
在详细描述具体的说明性示例之前,提供一般概述。
通常,本发明实施例涉及一种方法和系统,其可以提供由深度神经网络标识为与结果相关的特征的表示。本发明实施例的方法通常包括:向深度神经网络提供训练库,该训练库包括与结果相关联的多个样本;以及使用深度神经网络来识别与结果相关联的多个样本中的特征。然后,有可能的是,通过在输入库中的多个样本中的每个样本中标识触发深度神经网络识别特征的一个或多个元素,从输入库创建特征识别库。该特征识别库可以被用来合成样本的具有触发深度神经网络识别特征的特性的多个一个或多个元素。然后,可以使用合成的多个一个或多个元素来提供由深度神经网络在与结果相关联的多个样本中标识的特征的表示。该可视化可以被用来改进深度神经网络的操作。例如,已知与结果有关的但不存在于深度神经网络所标识的那些特征中的感兴趣的特征可以被标识为从训练库中缺失,训练库可以被更新以包括包含那些缺失特征的训练材料和由改进的深度神经网络创建的模型。
已经认识到,向用户提供由深度神经网络标识为与结果相关的特征的表示的方法和装置可能是有用的。也就是说,向用户提供关于输入数据的导致识别或标识“结果”的一个或多个特征的视觉或以其他方式的人类可读或人类可理解的指示可以是一种有用的手段,以用于理解深度神经网络如何运作以及例如由深度神经网络建立的关于训练数据的连接或关联是否合理或是否对应于关于训练数据可能已知的信息。换言之,由深度神经网络标识的特征的表示可以帮助理解由深度神经网络创建的模型。
本发明的一些实施例认识到,提供由深度神经网络标识为与结果相关的特征的表示,以及因此提供人类可理解的信息以允许系统的操作被理解的一种可能的方式是,执行其中使用了各种信息库的多阶段过程。
例如关于图像来训练深度神经网络的一种典型方法可以是:为深度神经网络提供包括与结果相关联的多个样本(图像)的训练库;并且使用深度神经网络来识别与结果相关联的多个样本中的特征。例如,关于医学图像,结果可以是疾病、综合征或类似的诊断,并且该特征例如可以包括:对特定形状的器官的识别,或指示组织类型的特定图像模式。
在本发明的图示示例中,在完成标准的深度神经网络训练过程之后,可以对获得的信息进行进一步处理。例如,关于被深度神经网络识别为与结果相关的每个特征,从输入库创建特征识别库是可能的。通过在多个样本中的每个样本中标识触发深度神经网络识别特征的一个或多个元素,可以创建特征识别库。在图像的情况下,样本中的元素可以是输入库中图像的特定像素、图块、或像素和/或图块的组合。输入图像的相关元素(而不是整个输入图像)形成了特征识别库中的条目。
然后,特征识别库本身可以被用作工具来增强对深度神经网络操作的理解。关于每个特征,可以使用相关的特征识别库来合成样本的多个一个或多个元素,这些元素具有触发深度神经网络识别该特征的特性。一种实现方法可以是使用关于特征识别库的GAN。在概念层面,经适当训练的GAN(或类似模型)允许用户探索一系列表征样本的参数,这些参数将触发深度神经网络识别特征。
最后,在一些说明性示例中,应当了解,可能有用的是,用户能够使用合成的多个一个或多个元素来提供由深度神经网络在与结果相关的多个样本中标识的特征的表示。特别地,用户可以探索表征样本的一系列参数,这些参数将触发深度神经网络识别特征。
本发明的一些实施例认识到,可以可视化包括触发与结果相关联的特征的元素的一系列样本,而不是可视化触发与结果相关联的特征的样本中的一个或多个元素的单个实例,从而更全面地了解关于特定特征的深度神经网络的操作。
本发明的一些实施例认识到,允许人工智能(AI)和/或应用领域(例如,医学)专家分析由深度神经网络标识为与结果或决定相关的特征的可视化工具可以有所帮助。特别地,可视化工具可以帮助培养用户对深度神经网络的操作的信任,该可视化工具允许以一般术语,例如关于医学成像的医学术语,来识别或表达一些被标识或生成的特征。再者,可视化工具可能允许由深度神经网络标识的一些特征作为不需要的特征被摒弃,例如,过度拟合或医院特定的特征,并且允许在系统内对那些特征进行校正,或对训练数据进行适当的修正来考虑或以其他方式去除那些“不需要的特征”,以使得可以提供用于标识特征的更准确和精确的系统。
根据本发明的一些实施例的可视化工具可以帮助认识到,由深度神经网络标识的特征可以提供用于改进理解的新见解。还应当了解,如果特征可视化有效,领域专家就能够更全面地理解深度神经网络如何操作并且例如标识任何可能的“缺失”特征。然后可以使用来自领域专家的输入来扩展赋予神经网络的训练示例,从而允许深度神经网络执行改进的泛化。
本发明的一些实施例可以提供由深度神经网络标识为与结果相关的特征的表示或可视化。该表示可以包括人类可解释的表示。例如,可视化可以包括一个或多个图像,该图像包括一个或多个可以由人类成功解释的元素。由于深度神经网络还可以例如用于对图像以外的样本(例如轨迹信号、声音等)进行分类,所以可视化或表示可以包括这种人类可解释的轨迹或声音的一个或多个元素。该方法可以包括:提供具有训练库的深度神经网络,该训练库包括:与结果相关联的多个样本。该方法可以包括使用深度神经网络来识别与结果相关联的多个样本中的特征的若干步骤。因此,与结果有关的特征被深度神经网络构建,并且对那些特征的分析可以被执行。该方法可以包括从输入库创建特征识别库的步骤,输入库可以包括训练库、训练库的部分和一些领域样本的组合、训练库的子集、或与训练库中那些样本处于同一领域中的样本集。可以通过在输入库中的多个样本的每个样本中标识触发深度神经网络识别特征的一个或多个元素来创建特征识别库。该方法可以包括使用特征识别库来合成样本的多个一个或多个元素的步骤,这些元素具有触发深度神经网络识别特征的特性。合成过程可以使得能够生成领域中任何特定样本的一系列的一个或多个元素,每个元素都具有触发深度神经网络识别特征的特性。该方法可以允许使用合成的多个一个或多个元素来提供由深度神经网络在与结果相关联的多个样本中标识的特征的表示。
根据本发明的一个实施例,特征的表示包括:合成示例的连续库,这些合成示例具有触发深度神经网络识别特征的特性。换言之,创建多个合成的示例是可能的,那些示例在所标识范围内是无级可变或平滑的,该范围仍然会触发深度神经网络以触发对给定特征的识别。这种特征可以使领域专家能够理解触发神经网络识别特征的例如图像中的视觉特征的全部范围。连续范围的成像可以更好地帮助领域专家理解例如毛刺或组织异常的特征的参数,这些参数将触发深度神经网络识别该特征。
根据本发明的一个实施例,在多个样本中的每个样本中标识触发深度神经网络识别特征的一个或多个元素包括:使用基于梯度的方法,在多个样本中的每个样本中标识一个或多个元素,这些元素触发特征识别。这种基于梯度的方法允许生成关于样本的元素的热图或权重图,这些热图或权重图指示样本的哪些部分与深度神经网络识别与结果相关的给定特征是相关的或对其是“关键”的。
根据本发明的一个实施例,基于梯度的方法包括以下一项或多项:Grad-CAM、CAM、解卷积或引导反向传播(guided back-propagation)。如上所述,Grad-CAM提供了一种方法来突出显示输入图像中有助于例如图像分类的那些像素。CAM、解卷积和引导反向传播都包括用于识别样本的与深度神经网络标识该样本中的特征相关的元素的类似方法。使用那些方法可以允许系统仅关注图像的与触发识别与结果相关的特征相关的那些部分或元素。
根据本发明的一个实施例,特征识别库中的条目包括以下的组合:输入库中样本的一个或多个元素和从基于梯度的方法获得的指示,其指示输入库中的样本的一个或多个元素在触发深度神经网络识别特征时的相对重要性。这种特征允许仅从输入库中样本的与被触发特征相关的那些部分形成特征识别库。因此,与给定特征相关联的特征识别库可以是完整训练库的更简洁版本。这种更简洁的库可以帮助进行高效数据处理,并且允许更有效地提取与结果相关的被识别特征的相关信息。
根据本发明的一个实施例,合成样本的具有触发深度神经网络识别特征的特性的多个一个或多个元素包括:使用由特征识别库引导的生成式建模方法。这种方法可以帮助确保特征识别库中的条目被生成式建模方法智能地用于创建或模拟会触发深度神经网络识别与结果相关的特征的输入样本。能够生成会触发系统识别特征的“假”的图像的部分允许系统操作被理解并允许改进系统。例如,系统将特征识别为与结果相关,生成会触发对特征的识别的图像的(部分)的假版本可以允许分析该特征是否具有领域专家评估的与结果的真正相关性。假的或“生成的”图像可以将领域专家先前未知的图像各方面标识为与结果相关,并且这种信息可以被用来改进或提升对该特征的识别,以供其他系统寻求报告或标识特定的结果。假的或“生成的”图像可以向领域专家标识图像的一些方面,这些方面可以被评估为训练库中图像捕获的伪像,因此与结果无关,并且训练库可以被更新以去除包含这种伪像的图像,从而提供一种更准确和精确的系统。
根据本发明的一个实施例,生成式建模方法包括以下一种或多种:生成式对抗网络或变分自编码器。一种可以关于由深度神经网络标识的特征来使用的技术是广义对抗网络(GAN)(例如,参见生成式对抗网络[Ian J.Goodfellow,Generative adversarialnetworks,Jun 2014])。GAN通常操作来例如基于多个示例图像同时训练“生成器”和“鉴别器”。生成器操作以将来自随机数生成器的输入种子变换成与示例图像具有相同大小和形状的图像。换言之,生成器操作以创建假图像。鉴别器被优化以区分“真实”图像(示例)和“模拟的”、“假的”或“合成的”图像(由生成器创建的图像)之间的区别。生成器被优化以产生“愚弄”鉴别器的图像,即被误认为是真实图像。经训练的GAN的结果是生成器,其将随机数的连续空间变换成看起来像是多个示例图像中的图像的图像的连续空间。这种方法允许将生成的“数学”结果转换成领域专家可以考虑的图像,从而允许评估经训练的系统识别特定输出的适用性。
根据本发明的一个实施例,该方法包括:选择要被表示的与结果相关的特征。特征被链接到深度神经网络的所选层中的节点。当节点针对某个样本输入被激活(即输出高值)时,就称该样本包含对应的特征。通常,将从其表示特征的所选层是神经网络输出之前的最后层之一,因为这种层包含被组合成模型决定或输出的最高级的特征。然而,应当了解,可以取决于可视化需要来选择更深的层。在查看初始可视化之后,可以改变层的选择。例如,如果初始可视化显示的特征级别太高/太低,则可以选择更深/更浅的层。在一些示例中,可以表示层中的所有特征或节点,在一些布置中,作为对可视化所选层中所有特征或节点的备选,用户可以在网络中选择可以处于不同层中的具体节点。选择高级层允许生成更大更复杂的“特征”以评估系统的适用性。
根据本发明的一个实施例,该方法还包括:使用深度神经网络来识别与结果相关联的多个样本中的备选特征;通过在输入库中多个样本中的每个样本中标识触发深度神经网络识别备选特征的一个或多个元素,从输入库创建备选的特征识别库;使用备选的特征识别库来合成样本的具有触发深度神经网络识别备选特征的特性的多个一个或多个元素;并且使用合成的多个一个或多个元素来提供由深度神经网络在与结果相关联的多个样本中标识的备选特征的表示。因此,如上所提及,由深度神经网络构建的多于一个的特征可以被可视化。在一些示例中,可以表示层中的所有特征或节点,在一些布置中,作为可视化所选层中的所有特征或节点的备选,用户可以选择在网络中可以位于不同层中的具体节点。这种方法可以允许一种方式,其中系统可以从对用户透明的输入来标识结果。
根据本发明的一个实施例,由深度神经网络识别的备选特征被选择,以使得多个样本中的每个样本中触发深度神经网络识别特征与备选特征的一个或多个元素之间的差异最大化。因此,借助于第一方面的方法来表示或可视化的特征可以被尝试理解深度神经网络的操作的用户识别为“有区别的”。换言之,可以采取若干步骤,尝试保持特征识别库在由网络识别的有区别的“特征”上操作。在一些实施例中,使用深度神经网络基于训练示例集来识别与结果相关的特征可能涉及采取若干步骤,以使得被识别的特征彼此有所区别。
根据本发明的一个实施例,样本包括:图像、声音或信号轨迹(trace)。这种图像可以包括医学成像图像,诸如X射线、MRI图像、超声图像等,声音可以包括适当的医学记录并且信号轨迹可以包括诸如EEG或ECG轨迹的轨迹。每个样本都可能表现出特定于样本的“特征”。
现在转向更具体的说明性示例,其中关于图像使用了深度神经网络:
一般架构
图1a图示了根据一个实施例的图像处理设备的布置。提供了与用户显示器20耦合的数据处理器10。实时地或从存储装置50向数据处理器10提供图像数据40。图像数据可以以许多不同格式中的任何一种格式从各种各样的不同来源提供。图像数据可以包括单独的2维图像帧、3维图像数据、音频文件、轨迹记录等。应当了解,可以使用各种不同类型的图像数据中的任何一种。
机器学习算法架构
图1b示意性地图示了用于图像分类的深度神经网络的典型轮廓图。本发明实施例利用在数据处理器10上执行的深度神经网络(DNN)或模型来执行对图像数据的特征识别。图1b示意性地图示了用于图像分类的深度神经网络的典型略图。图1b中示意性示出的网络是这样的,输入图像从左侧进入,深度神经网络创建模型,以使得后续模型层随着图像前进通过深度神经网络而生成越来越多的抽象特征。
在图1b中所示的示例深度神经网络100中,可以提供输入图像110的训练库,输入图像110在这种情况下是面部的彩色图像。深度神经网络的输入层120可以操作以标识包括局部对比图的特征130。深度神经网络的“隐藏”层140可以操作以标识特征150,特征150包括表示面部特征的局部对比图的组合,例如,鼻子、眼睛等。深度神经网络的隐藏层160可以操作以标识特征170,特征170包括表示面部的面部特征的组合。深度神经网络的输出层180可以操作以标识特定类型的面部结果,例如,女性面部或儿童面部,这取决于深度神经网络被训练为要识别的结果。
应当了解,可以实现根据本发明的方法,以使得可以选择深度神经网络中处于期望抽象级别的层以用于特征可视化。换言之,在给出的示例中,本发明可以被用来可视化面部特征150、或面部170、或其二者。类似地,当实现根据本发明的方法时,可以针对具体的输入图像来激活层单元。
可以用于图像分类的深度神经网络的一个示例是标准的卷积神经网络。假设输入图像的维度是256×256×3(描述图像像素的RGB颜色信息的最终维度(3)),其架构可能如下:
Figure BDA0003392330370000111
Figure BDA0003392330370000121
在这种示例网络中,卷积层在每个像素周围3x3像素的区域内进行卷积。卷积层的第三维度是该层的输出特征数。每个卷积层都有一个整流线性单元(ReLU)输出激活函数。在计算卷积输出时,图像边界处的像素周围的卷积假设在图像周围加零(卷积模式“相同”)。最大池化层返回2x2像素块中的最大值,水平和垂直方向的步幅均为2。该模型假设了一个5类分类网络,其中softmax层确保模型的5个输出总和为1(输出归一化)。
说明性的示例是这样的,以使得图像特征可以由深度神经网络以惯常方式进行构建,即,在采取更多步骤之前,通过为上述具体的图像分析任务训练一个深度网络。图2a是图示了根据本发明的说明性一般示例的方法的主要步骤的示意图。
本发明实施例的方法通常包括以下步骤:
S1:提供如上所述的具有训练库的深度神经网络,训练库包括与结果相关联的多个样本。深度神经网络被用来识别训练库中的多个样本中与感兴趣的结果相关联的一个或多个特征。
S2:选择由深度神经网络标识为与感兴趣的结果相关联的特征,以进行进一步研究。例如,在上面给出的示例网络中,可以选择这种特征作为层12的输出节点数7。这一层的输出节点表示示例网络的16个最高级的特征。
S3:然后,将图像馈送到经训练的深度神经网络。这些图像可以来自训练库,也可以是分离的图像集。从馈送到深度神经网络的图像标识那些激活对所选特征(来自步骤S2)的识别的图像。术语“激活”可以以各种方式来定义:在最敏感的级别,如果对应节点采用非零值(请注意,relu激活将所有负输出设置为零),则可以认为特征已被激活。作为备选,可以将节点激活值的最高百分位作为激活阈值,或者如果节点输出值是该层中所有节点的最大输出值,则可以将其定义为被激活。
S4:然后,数据处理器(见图1a)被配置为在馈送到深度神经网络的多个样本中的每个样本中标识一个或多个元素,这些元素触发了深度神经网络对与结果相关的特征的识别。特别地,输入库中被标识为导致“激活”深度神经网络识别与结果相关的所选特征的图像元素被突出显示并标识,例如,通过使用梯度类型方法。
梯度类型方法及其实现的清晰解释可以在“Grad-CAM:Visual Explanationsfrom Deep Networks via Gradient-based Localization”(R.R.Selvarajuetal等人,2017,arXiv:1610.02391v3)中找到。
图2c图示了GradCAM输出显得与“狗”相关的网络特征的一个示例。通常,GradCAM方法被用来采用网络的最终输出特征作为要在输入图像中突出显示的示例。然而,根据本发明的可视化特征可以包括“更深的”特征。例如,在一个网络中,“有狗”是对模型输出/结果(例如,“有人居住的房屋”与“废弃房屋”)做出了贡献的特征之一。
图2a(A)示出了输入图像,图2a(B)示出了热图,指示每个像素对激活所选特征(狗)的相对贡献,图2a(C)示出了“引导的GradCAM”可视化,如Selvaraju等人于2017年所述。
S5:系统操作以从在步骤S4收集的信息来创建“特征识别库”。这个库是图像中导致激活深度神经网络识别特征的那些元素的集合。可以通过以下方式从S4的梯度类型方法的输出提取这种元素:
选择小于原始图像尺寸的特征图像尺寸(宽度和高度)。移动窗口的方法被用来标识一个或多个位置,在这些位置处落入窗口内的像素相加得出的像素贡献(如热图中所指示)之和形成局部最大值。实际上,在热图内,每个高贡献的团块(blob)周围都绘制了一个框。所选窗口位置的坐标随后被用来裁剪输入图像以创建特征图像,这些特征图像一起形成“特征识别库”。
图2d示出了图像的部分或“裁剪”的示例,其可以作为深度神经网络所识别的特征的可视化的一部分被找到并形成为特征识别库的一部分,这些特征被配置为将CT图像分类为“癌症”与“无癌症”。
S6:数据处理器10可以使用所生成的特征识别库,例如通过使用适当的迭代计算技术,合成样本的具有触发深度神经网络识别所选特征的特性的多个一个或多个元素。
S7:可以根据需要使用所合成的多个一个或多个元素。例如,能够合成图像中触发深度神经网络识别特征的元素,可以更好地理解深度神经网络的操作。有可能的是,提供由深度神经网络在与结果相关联的多个样本中标识的特征的表示。该表示可以是视觉的,并且该可视化可以简单地被呈现给领域专家。
S8:经由步骤S7获得的信息可以被用来改进深度神经网络的操作。例如,已知与结果有关的、不存在于由深度神经网络标识的那些特征中的特征可以被标识为从训练库缺失。因此,可以更新训练库,在训练阶段S1将其馈送到深度神经网络,从而改进系统。
换言之,根据本发明的系统是这样,一旦深度神经网络使用训练库被训练,就可以使用更大的图像集、输入库使深度神经网络激活所构建的特征。该系统操作以使得可以以每个特征为基础来标识并存储引起所构建特征的激活的图像区域。应当了解,只要图像与领域相关,就不需要对其进行注释。
所存储的信息表示与每个所构建特征有关的视觉示例的特定于特征的数据库。该系统在下一步中使用所创建的特定于特征的数据库,并且关于每个特征来训练适当的生成技术,例如GAN,以生成会触发经训练的深度神经网络识别特征的图像。应当了解,可以使用任何适当机制,该机制用于训练系统识别/生成图像的元素,这些元素导致深度神经网络激活与图像有关的特征,该机制不一定是GAN。
每个GAN的生成器都可以操作以在所生成的视觉示例之间进行插值来形成特定于特征的库,从而给出对于所学习的特征的更全面的视图。在某些布置中,GAN生成器可以与例如滑块的GUI工具结合使用,这可以让AI和医学领域专家分析由深度神经网络构建的视觉特征,并在适当的情况下用领域相关的术语来表达它们。
在一些说明性示例中认识到,最大化由深度神经网络构建的、馈送到GAN的特征之间的差异可能是有用的。换言之,最大化针对不同特征的GAN之间的差异。因此,可以最小化不同特征和所生成的不同特征视图之间的重叠,并且本领域技术人员可以更清楚地可视化每个特征(区别于由深度神经网络识别的任何其他构建的特征)。
图2b是图示根据一个说明性示例的方法步骤的示意图。如图所示,诸如图1a中所示的系统可以可操作以如下所述的若干连续步骤来执行一种方法。
步骤1(S1).卷积深度神经网络以惯常方式在图像分类或分割任务上进行训练(例如,参见ImageNet Classification with Deep Convolutional Neural Networks[AlexKrizhevsky,Ilya Sutskever和Geoffrey E.Hinton,Advances in Neural InformationProcessing Systems 25(NIPS 2012)],等等)。
步骤2(S2).可以选择深度神经网络层中靠近输出(分类、分割)的一层以使其特征可视化。所选层可以使其所有的特征都被可视化。特征被链接到所选层中的节点。当某节点针对某个图像输入被激活(即输出高值)时,就说该图像包含对应的特征。
通常,所选层是网络输出之前的最后层之一,因为这种层包含被组合成模型决定或输出的最高级的特征。然而,应当了解,可以取决于可视化需要来选择更深的层。在查看初始可视化之后,可以改变层的选择。例如,如果初始可视化示出的特征级别太高/太低,则可以选择更深/更浅的层。在一些示例中,作为对所选层中的所有特征或节点进行可视化的备选,用户可以选择在网络中处于不同层的具体节点。
步骤3(S3).许多示例图像(例如,来自与一个领域相关的训练或验证集,深度神经网络创建的模型在该领域上被相关地进行优化)被用作模型的输入。这些图像不需要注释。输入到模型的每个图像都可以激活所选层中的一个或多个特征节点。
步骤4(S4).例如Grad-CAM的可视化方法可以用于突出显示一个具体图像的针对一个具体的被激活特征节点的一个或多个元素(针对每个图像和所选层中的每个节点)。应当了解,对于图像分类,可能会突出显示整个(可能很大的)输入图像中的像素以解释对单个节点的激活。对于分割,被激活的节点通常对应于输入图像的子部分(或图块)。
被突出显示的图像可以包括原始输入图像(的一部分)和热图/权重图的叠加,所叠加的热图/权重图指示,例如针对每个像素,该像素对模型输出(即,特征激活)做出了多大贡献。关于说明性的示例,原始图像部分和热/权重图的组合本身可以被表达为示例图像,其大小与原始输入图像相同或小于原始输入图像。
可以了解,可以通过多种方式产生示例图像:
对于分割任务,模型输出本身就是一个图像,并且网络中的每一层也对应一个图像(通常分辨率较低,并且每像素比输入图像具有更多的特征)。因此,每个被激活的特征节点都与具体的输出或中间图像像素有关。卷积分割网络的本质在于,每个输出(或中间)像素只受原始图像的子集(或其中的图块)的影响,其最大尺寸(或“视场”)由网络架构确定。然后,被激活的特征节点的示例图像可以简单地是输入图像中与其视场有关的图块。
对于分类任务,最终模型输出(通常是倒数第二层)的视场是完整的输入图像。在此,较小的特征节点激活示例例如可以通过在输入图像上的移动窗口方法生成,其中如果所需尺寸的图块包含的像素被分配了超过输入图像的叠加热图/权重图中的最小平均权重,则该图块可以被选择。因此,不会选择热图中未突出显示的区域,而会选择鲜明“亮起”的区域(即,具有对其做出贡献的显著的热或权重)。
可以应用其他方法,但这些方法是最直接的。当然,窗口方法也可以被应用于分割模型。如果这种模型中的前述视场覆盖了输入图像的大部分,则这种方法可能是可取的。
步骤5(S5).通过步骤4中一般描述的可视化方法产生的所有的被突出显示的图像可以按特征被存储,从而针对每个特征产生一个图像数据库。
后续步骤将针对一个特征进行描述,但是可以针对每个特征分开地执行这些步骤,如图2b中示意性所示。
步骤6(S6).GAN生成器针对每个特征在突出显示的图像上被训练。GAN生成器被配置为生成与所选特征有关的代表性图像。
步骤7(S7).经训练的特征GAN生成器可以被嵌入图形用户界面中,图形用户界面允许专家用户探索特征图像示例空间。
应当了解,关于图2b描述的步骤1(S1)到步骤7(S7)对应于在关于图2a的方法的概述中阐述的一般步骤S1到S7。
图3示出了特征探索图形用户界面的可能的说明性示例,特征探索图形用户界面可以允许领域专家关于特征来探索经训练的GAN的输出。也就是说,可以将对图像中触发深度神经网络识别图像中的特征的元素的数学理解以视觉格式提供给用户。如下所述,用户可以探索特征图像示例空间。
a.GAN生成器通过将N维随机数空间变换成表示性(representative)图像来起作用。GUI开始于对与一个输出示例对应的随机输入值(随机选择、中心点等)的一个具体选择。
b.GUI具有在随机输入空间中导航的方法。实现导航方法的一种方法是提供N个滑块,滑块与随机输入空间的每个维度相关联,滑块从维度的最小值滑动到其最大允许值。可以使用其他方法来探索多维空间。
c.在随机输入空间中移动时,与所选的随机输入相对应的GAN生成的图像将被连续显示给用户,从而导致示例特征从一个变形成另一个。
d.代替用户主导的随机空间/特征空间探索,随机输入也可以经由在随机输入空间中的随机行走而生成,从而向用户显示平滑且连续地变化的特征示例的影片。
应当了解,所描述的说明性示例可以提供一种可视化工具,该工具可以向专家用户提供由深度神经网络构建或标识的视觉特征的平滑/连续的表示。在分配给具体任务的深度神经网络的开发和改进阶段中,可视化工具可以被用来协助AI和领域专家之间的协作。可视化工具可以例如在监管批准和临床应用阶段被用作与医疗应用有关的可解释人工智能的支持工具,根据本发明的系统和方法的输出可以允许一种机制来标识改进深度神经网络的操作的方法,例如,通过突出显示训练库中的差距、训练库中的异常图像(包括与预期结果无关的医院/图像捕获特征),以及通过识别与结果相关的但是领域专家之前不知道的特征,等等。
尽管本文已经参考附图详细公开了本发明的说明性实施例,但是应当理解,本发明不限于精确的实施例,并且本领域技术人员可以在其中进行各种变化和修改,而不会背离由所附权利要求及其等效物限定的本发明范围。
通过研究附图、公开内容和所附权利要求,本领域技术人员在实践要求保护的发明时可以理解并进行对所公开实施例的其他变化。在权利要求中,单词“包括”不排除其他元件或步骤,不定冠词“一”或“一个”不排除多个。单个处理器或其他单元可以实现权利要求中记载的数项的功能。在相互不同的从属权利要求中叙述某些措施的纯粹事实并不指示不能使用这些措施的组合以占优。计算机程序可以被存储/分布在合适的介质上,诸如与其他硬件一起或作为其他硬件的一部分提供的光存储介质或固态介质,但是也可以诸如经由互联网或其他有线或无线电信系统以其他形式分布。权利要求中的任何参考标记不应被解释为限制范围。

Claims (13)

1.一种提供特征的表示的方法,所述特征由深度神经网络标识为与结果相关,所述方法包括:
为所述深度神经网络提供训练库,所述训练库包括:与所述结果相关联的多个样本;
训练所述深度神经网络以识别与所述结果相关联的所述多个样本中的特征;
通过在输入库中的多个样本中的每个样本中标识触发所述深度神经网络识别所述特征的一个或多个元素,从所述输入库创建特征识别库;
使用所述特征识别库来合成样本的具有触发所述深度神经网络识别所述特征的特性的合成的多个一个或多个元素;以及
使用所述合成的多个一个或多个元素来提供由所述深度神经网络在与所述结果相关联的所述多个样本中标识的所述特征的表示。
2.根据权利要求1的方法,其中所述特征的所述表示包括:
合成示例的连续库,所述合成示例具有触发所述深度神经网络识别所述特征的特性。
3.根据权利要求1或权利要求2所述的方法,其中在所述输入库中的所述多个样本中的每个样本中标识触发所述深度神经网络识别所述特征的一个或多个元素包括:使用基于梯度的方法来在所述多个样本中的每个样本中标识触发对所述特征的识别的一个或多个元素。
4.根据权利要求3所述的方法,其中所述基于梯度的方法包括以下一项或多项:Grad-CAM、CAM、解卷积或引导反向传播。
5.根据权利要求3或权利要求4所述的方法,其中所述特征识别库中的条目包括以下项的组合:
所述输入库中的所述样本的一个或多个元素,和从所述基于梯度的方法获得的关于所述输入库中的所述样本的所述一个或多个元素在触发所述深度神经网络识别所述特征中的相对重要性的指示。
6.根据前述权利要求中任一项所述的方法,其中合成样本的具有触发所述深度神经网络识别所述特征的特性的多个一个或多个元素包括:使用由所述特征识别库引导的生成式建模方法。
7.根据权利要求6所述的方法,其中所述生成式建模方法包括以下一项或多项:生成式对抗网络或变分自编码器。
8.根据前述权利要求中任一项所述的方法,其中所述方法包括:选择要被表示的与结果相关的特征。
9.根据前述权利要求中任一项所述的方法,还包括:
使用所述深度神经网络来识别与所述结果相关联的所述多个样本中的备选特征;
通过在所述输入库中的所述多个样本中的每个样本中标识触发所述深度神经网络识别所述备选特征的一个或多个元素,从所述输入库创建备选特征识别库;
使用所述备选特征识别库来合成样本的具有触发所述深度神经网络识别所述备选特征的特性的多个一个或多个元素;以及
使用所合成的多个一个或多个元素来提供由所述深度神经网络在与所述结果相关联的所述多个样本中标识的所述备选特征的表示。
10.根据权利要求9的方法,其中由所述深度神经网络识别的所述备选特征被选择,以使得所述多个样本中的每个样本中触发所述深度神经网络识别所述特征和所述备选特征的所述一个或多个元素之间的差异被最大化。
11.根据前述权利要求中任一项所述的方法,其中所述样本包括图像、声音或信号轨迹。
12.一种计算机程序产品,可操作用于当在计算机上被执行时,执行根据权利要求1至11中任一项所述的方法。
13.一种提供特征的表示的装置,所述特征由深度神经网络标识为与结果相关,所述装置包括:
利用训练库被训练的深度神经网络,所述训练库包括与所述结果相关联的多个样本,并且所述深度神经网络通过所述训练被配置为识别与所述结果相关联的所述多个样本中的特征;
库创建逻辑,所述库创建逻辑被配置为:通过在形成输入库的多个样本中的每个样本中标识触发所述深度神经网络识别所述特征的一个或多个元素,从所述输入库创建特征识别库;
合成逻辑,所述合成逻辑被配置为:使用所述特征识别库来合成样本的具有触发所述深度神经网络识别所述特征的特性的合成的多个一个或多个元素;以及
特征可视化逻辑,所述特征可视化逻辑被配置为:使用所述合成的多个一个或多个元素来提供由所述深度神经网络在与所述结果相关联的所述多个样本中标识的所述特征的表示。
CN202080041624.1A 2019-06-06 2020-05-25 深度神经网络可视化 Pending CN113924580A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19178746.4 2019-06-06
EP19178746.4A EP3748540A1 (en) 2019-06-06 2019-06-06 Deep neural network visualisation
PCT/EP2020/064355 WO2020244941A1 (en) 2019-06-06 2020-05-25 Deep neural network visualisation

Publications (1)

Publication Number Publication Date
CN113924580A true CN113924580A (zh) 2022-01-11

Family

ID=66776213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080041624.1A Pending CN113924580A (zh) 2019-06-06 2020-05-25 深度神经网络可视化

Country Status (5)

Country Link
US (1) US20220319159A1 (zh)
EP (2) EP3748540A1 (zh)
JP (1) JP7476239B2 (zh)
CN (1) CN113924580A (zh)
WO (1) WO2020244941A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113963185A (zh) * 2021-10-25 2022-01-21 上海交通大学 一种对神经网络中层特征表达能力的可视化及定量分析方法和系统

Also Published As

Publication number Publication date
EP3980939A1 (en) 2022-04-13
EP3748540A1 (en) 2020-12-09
JP7476239B2 (ja) 2024-04-30
JP2022536087A (ja) 2022-08-12
US20220319159A1 (en) 2022-10-06
WO2020244941A1 (en) 2020-12-10

Similar Documents

Publication Publication Date Title
Huang et al. Instance-aware image and sentence matching with selective multimodal lstm
Nogas et al. Deepfall: Non-invasive fall detection with deep spatio-temporal convolutional autoencoders
US10929708B2 (en) Deep learning network for salient region identification in images
Hamidian et al. 3D convolutional neural network for automatic detection of lung nodules in chest CT
Zhou et al. Salient region detection via integrating diffusion-based compactness and local contrast
Hashemi et al. Mass detection in lung CT images using region growing segmentation and decision making based on fuzzy inference system and artificial neural network
Silva et al. Deepfake forensics analysis: An explainable hierarchical ensemble of weakly supervised models
Liu et al. Instance-level relative saliency ranking with graph reasoning
Cohen et al. Gifsplanation via latent shift: a simple autoencoder approach to counterfactual generation for chest x-rays
Ogiela et al. Natural user interfaces in medical image analysis
Sun et al. A novel gastric ulcer differentiation system using convolutional neural networks
Zhang et al. Modeling false positive error making patterns in radiology trainees for improved mammography education
Nie et al. Recent advances in diagnosis of skin lesions using dermoscopic images based on deep learning
JP7476239B2 (ja) ディープニューラルネットワーク可視化
Vuppala et al. Explainable deep learning methods for medical imaging applications
Haque et al. NeuroNet19: an explainable deep neural network model for the classification of brain tumors using magnetic resonance imaging data
Singamshetty et al. Brain Tumor Detection Using the Inception Deep Learning Technique
Skopal On visualizations in the role of universal data representation
Li et al. Deformation and refined features based lesion detection on chest X-ray
Shetty et al. Content-based medical image retrieval using deep learning-based features and hybrid meta-heuristic optimization
Sahatova et al. An overview and comparison of XAI methods for object detection in computer tomography
Prasad et al. Lung cancer detection and classification using deep neural network based on hybrid metaheuristic algorithm
Vishal et al. A Novel Survey on Copious Machine Learning Algorithms for Brain Tumor Detection
Das et al. Utilizing Deep Convolutional Neural Networks and Non-Negative Matrix Factorization for Multi-Modal Image Fusion
Hussain et al. GAN-Based One-Class Classification SVM for Real time Medical Image Intrusion Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination