CN116630286A - 一种图像异常检测与定位的方法、装置、设备及存储介质 - Google Patents

一种图像异常检测与定位的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116630286A
CN116630286A CN202310641328.0A CN202310641328A CN116630286A CN 116630286 A CN116630286 A CN 116630286A CN 202310641328 A CN202310641328 A CN 202310641328A CN 116630286 A CN116630286 A CN 116630286A
Authority
CN
China
Prior art keywords
feature
image
abnormal
network
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310641328.0A
Other languages
English (en)
Other versions
CN116630286B (zh
Inventor
林旭新
梁延研
李宁
李国钊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Boyan Technology Zhuhai Co ltd
Original Assignee
Boyan Technology Zhuhai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Boyan Technology Zhuhai Co ltd filed Critical Boyan Technology Zhuhai Co ltd
Priority to CN202310641328.0A priority Critical patent/CN116630286B/zh
Publication of CN116630286A publication Critical patent/CN116630286A/zh
Application granted granted Critical
Publication of CN116630286B publication Critical patent/CN116630286B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图像异常检测与定位的方法、装置、设备及存储介质,方法包括:根据仅包括正常图像的训练数据生成带有异常区域的异常图像和像素级标签;将异常图像分别输入到教师、学生网络,对应得到第一、第二特征图集合;教师、学生网络采用不同类型的神经网络模型;通过多尺度特征融合模块将第二特征图集合的特征图融合,得到第三特征图集合;根据像素级标签、可分辨蒸馏损失函数和第一、第三特征图集合,对异常图像中的正常、异常区域,在教师、学生网络间进行可分辨的知识蒸馏;通过教师网络和知识蒸馏后的学生网络对待识别图像的异常区域进行检测和定位。本发明解决了识别图像异常和定位精准度不足的问题,可广泛应用于计算机视觉领域。

Description

一种图像异常检测与定位的方法、装置、设备及存储介质
技术领域
本发明涉及计算机视觉领域,尤其是一种图像异常检测与定位的方法、装置、设备及存储介质。
背景技术
工业图像的异常检测及定位是计算机视觉领域中的一个非常重要的任务,工业图像异常检测及定位的难点在于在一些实际应用的场景下,人们很难收集带有异常的数据,比如:工厂在正常流水线生产工件的情况下,产生的都是正常的工件,很难收集到带有异常的工件。在此条件下,人们提出只使用正常样本作为训练数据去训练模型,让模型去做异常检测及定位的任务,这给模型带来的非常大的挑战。此任务包括两个子任务:不仅要判定图像是否含有异常而且需要定位到异常的位置。现有技术中,由于缺乏带有异常的数据,基于此训练的异常识别模型在判断图像是否含有异常以及定位异常时存在精准度不足的问题。
因此,上述问题亟待解决。
发明内容
有鉴于此,本发明实施例提供一种图像异常检测与定位的方法、装置、设备及存储介质,用于解决因缺乏异常区域而导致识别图像异常和定位精准度不足的问题。
本发明实施例的一方面提供了一种图像异常检测与定位的方法,包括:
根据仅包括正常图像的训练数据生成带有异常区域的异常图像和像素级标签;
将所述异常图像输入到教师网络得到一组分辨率不同的特征图,作为第一特征图集合;将所述异常图像输入到学生网络得到一组分辨率不同的特征图,作为第二特征图集合;所述教师网络与所述学生网络采用不同类型的神经网络模型;
通过多尺度特征融合模块将所述第二特征图集合中的特征图进行融合,得到对应的一组融合特征图,作为第三特征图集合;
根据所述像素级标签、预设的可分辨蒸馏损失函数、所述第一特征图集合以及所述第三特征图集合,对所述异常图像中的正常区域和异常区域,在所述教师网络和所述学生网络间进行可分辨的知识蒸馏;
通过所述教师网络和知识蒸馏后的所述学生网络对待识别图像中的异常区域进行检测和定位。
可选地,所述教师网络采用卷积神经网络,所述学生网络采用Transformer网络。
可选地,所述根据仅包括正常图像的训练数据生成带有异常区域的异常图像和像素级标签,包括:
生成柏林噪声图并二值化处理,得到二元噪声图;
将所述二元噪声图与所述训练图像结合,生成带有异常区域的异常图像和像素级标签。
可选地,所述将所述异常图像输入到教师网络得到一组分辨率不同的特征图,作为第一特征图集合,包括:
将所述异常图像输入到教师网络,所述教师网络输出多个阶段对应的特征图,其中,各个阶段逐渐增大感受野,输出不同分辨率的特征图,得到一组分辨率不同的特征图,作为第一特征图集合;
所述将所述异常图像输入到学生网络得到一组分辨率不同的特征图,作为第二特征图集合,包括:
将所述异常图像输入到学生网络,所述学生网络输出多个阶段对应的特征图,其中,各个阶段逐渐增大感受野,输出不同分辨率的特征图,得到一组分辨率不同的特征图,作为第二特征图集合。
可选地,所述通过多尺度特征融合模块将所述第二特征图集合中的特征图进行融合,得到对应的一组融合特征图,作为第三特征图集合,包括:
针对所述第二特征图集合中每个阶段的特征图作为目标图像,利用卷积块提取所述目标图像的卷积特征图,对所述卷积特征图进行通道注意力和空间注意力操作,得到卷积注意力图;利用残差块提取所述目标图像的残差特征图;根据所述卷积注意力图和所述残差特征图确定所述融合特征图;
所有阶段的所述目标图像对应的所述融合特征图作为第三特征图集合。
可选地,所述方法还包括:
将当前阶段的所述融合特征图与后续所有阶段的融合特征图进行融合,得到当期阶段的最终特征图;
将各个阶段对应的所述最终特征图作为新的所述第二特征图集合,执行所述通过多尺度特征融合模块将所述第二特征图集合中的特征图进行融合,得到对应的一组融合特征图,作为第三特征图集合的步骤。
可选地,所述根据所述像素级标签、预设的可分辨蒸馏损失函数、所述第一特征图集合以及所述第三特征图集合,对所述异常图像中的正常区域和异常区域,在所述教师网络和所述学生网络间进行可分辨的知识蒸馏,包括:
分别逐元素计算所述第一特征图集合与所述第三特征图集合的余弦距离,得到一组相似度图;
将每张所述相似度图经过最近邻线性插值操作上采样到与所述异常图像相同的大小,逐元素相加得到对应的异常分数图;
采用二元交叉熵损失函数根据所述像素级标签约束各张所述异常分数图,以在所述教师网络和所述学生网络间进行可分辨的知识蒸馏。
本发明实施例的另一方面还提供了一种图像异常检测与定位的装置,包括:
异常图像获取单元,用于根据仅包括正常图像的训练数据生成带有异常区域的异常图像和像素级标签;
特征图集合获取单元,用于将所述异常图像输入到教师网络得到一组分辨率不同的特征图,作为第一特征图集合;将所述异常图像输入到学生网络得到一组分辨率不同的特征图,作为第二特征图集合;所述教师网络与所述学生网络采用不同类型的神经网络模型;
融合特征图获取单元,用于通过多尺度特征融合模块将所述第二特征图集合中的特征图进行融合,得到对应的一组融合特征图,作为第三特征图集合;
知识蒸馏单元,用于根据所述像素级标签、预设的可分辨蒸馏损失函数、所述第一特征图集合以及所述第三特征图集合,对所述异常图像中的正常区域和异常区域,在所述教师网络和所述学生网络间进行可分辨的知识蒸馏;
异常分析单元,用于通过所述教师网络和知识蒸馏后的所述学生网络对待识别图像中的异常区域进行检测和定位。
本发明实施例的另一方面还提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现所述的一种图像异常检测与定位的方法。
本发明实施例的另一方面还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现所述的一种图像异常检测与定位的方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
本发明利用知识蒸馏方法可以解决现有图像异常检测中的不足,提高了检测的准确率。本发明使用两个不同的类型的神经网络模型作为教师网络和学生网络,降低了现有知识蒸馏方法中无法区别的特征的影响,而且加入了带有异常区域的异常图像和像素级标签,使得学生网络和教师网络对正常区域和异常区域进行可分辨的知识蒸馏,进而学生网络不仅可以从教师网络中学习到提取正常区域的能力,同时又增加了学生网络区区分异常区域的能力。因此,本发明教师网络和经过知识蒸馏后的学生网络对待识别图像中的异常区域可以准确检测并识别定位。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种图像异常检测与定位的方法的流程示意图;
图2为本发明实施例提供的一种跨框架可分辨知识蒸馏方法的流程示意图;
图3为本发明实施例提供的一种多尺度特征融合模型融合特征的流程示意图;
图4为本发明实施例提供的一种图像异常检测与定位的装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图像异常检测的本质就是利用一些数学知识将图像中的信息以一种特殊的形式映射到高维空间,在高维空间中将正常特征和缺陷特征分割开来,做到这一步需要很多神经网络模型中很多参数都要达到特定的值,然后固定这些值,此时神经网络模型就具有分辨正常和异常特征的能力。在现有一些主流的图像异常检测方法中,基于知识蒸馏的异常检测方法显的尤为重要,因此,本发明设计了一种跨框架可分辨的知识蒸馏的图像异常检测与定位的方法,本发明可以解决用于异常检测的现有知识蒸馏方法的不足,提高了检测的准确率。
参照图1,本发明实施例提供了一种图像异常检测与定位的方法,具体包括以下步骤:
S100:根据仅包括正常图像的训练数据生成带有异常区域的异常图像和像素级标签。
具体的,异常生成器利用只有正常图像的训练数据集生成带有异常区域的异常图像和像素级的GT(Ground Truth),这使得,训练数据集中不仅包括正常图像,也包括上述生成的异常图像。其中,训练数据集中可以包括多张仅包括正常区域的正常图像。
现有的用于图像异常检测的知识蒸馏方法,只用无异常区域的正常图像训练学生网络,目的是让学生网络只学习教师网络中正常图像的特征分布,但是这样会使得学生网络很难精确的识别正常特征和异常特征的边界。鉴于上述问题,本发明实施例相较于现有技术新加入了模拟的异常数据来训练学生网络,即上述的异常图像,让学生网络学习无异常图像和异常图像的联合表示。
因此,上述S100,根据仅包括正常图像的训练数据生成带有异常区域的异常图像和像素级标签的过程可以包括:
具体的,生成一张柏林噪声图,然后将柏林噪声图二值化,即根据预设的阈值得到一个二元噪声图,将该二元噪声图和一个与训练数据完全无关的纹理图片,示例如dtd纹理数据集,结合生成一个带有异常区域的异常图像和一张像素级的GT(Ground Truth)。
一种可选的实施方式下,本发明实施例可以根据柏林噪声的随机性和大量的纹理图片,模拟出大量的且各种各样的异常图像。
S110:将所述异常图像输入到教师网络得到一组分辨率不同的特征图,作为第一特征图集合;将所述异常图像输入到学生网络得到一组分辨率不同的特征图,作为第二特征图集合;所述教师网络与所述学生网络采用不同类型的神经网络模型。
现有的教师网络一般是用于图像异常检测的知识蒸馏方法利用一个大型数据集,示例如ImageNet数据集预训练后的神经网络模型,该教师网络可以具有非常强大的泛化能力,即它同时具有良好的提取正常和异常特征的能力。在只有正常数据的情况下让学生网络去学习教师网络提取图像特征的能力,因此,学生网络只能很好的提取正常特征。利用学生网络和教师网络不同的提取特征的能力定位确定异常区域。但是这些方法让教师网络和学生网络使用相同或者相似结构的网络,示例如ResNet18,由于提取特征的过程大致相同,教师和学生网络可能会存在相似的特征空间,当学生网络学习正常样本的特征分布的同时,有可能会学习到教师网络对异常特征的意外泛化能力,即学习到异常的特征分布,因此一些异常特征在教师网络和学生网络的特征空间中表现一致,导致学生网络无法区别这些特征,这与设计用于异常检测的知识蒸馏方法的初衷相矛盾。
因此,本发明实施例的教师网络和学生网络可以是不同类型不同框架的神经网络模型,其中,所述教师网络可以采用CNN,即卷积神经网络,所述学生网络可以采用Transformer网络。
本发明实施例设计了跨框架的知识蒸馏,用于抑制学生网络学习教师网络对异常特征的泛化能力,消除那些无法区别特征的影响,具体可以参照图2。具体的,本发明实施例可以使用基于Swin-Transformer的学生网络来代替现有技术中基于CNN的学生网络。由于Transoformer没有CNN中由权重共享的卷积核(或滤波器)和非线性激活函数(如ReLU)、池化等操作,而是由自注意力层和前馈全连接层组成,并且Transoformer网络可以很好的利用每一行数据之间的相关性,CNN和Transoformer两种不同框架的提取特征过程不同,会产生不同的数据流。据此可以在教师网络和学生网络知识传递过程中,降低学生网络受到无法区别特征干扰的可能性,即避免了学生网络学习到教师网络对异常特征的泛化能力。不同的框架之间蒸馏从本质上是建立了两个不同的特征空间,这也是不同的框架之间蒸馏可以带来性能提升的原因。
本发明实施例中采用的基于Swin-Transformer的学生网络和基于CNN的教师网络都可以包括多个阶段,每个阶段都会逐渐增大感受野,输出不同分辨率的特征图。其中,浅层特征可以包括一些低级语义信息,示例如:颜色、边缘或纹理等,深层的特征可以包括全局语义特征,更加抽象。因此,将上述步骤S100生成的异常图像同时输入到教师网络和学生网络中,分别得到两组特征图T={T1,…,Ti}和S={S1,…,Si},Ti和Si代表神经网络中第i个阶段输出的激活图,即特征图。其中,T={T1,…,Ti}表示教师网络生成的第一特征图集合,S={S1,…,Si}表示学生网络生成的第二特征图集合。
S120:通过多尺度特征融合模块将所述第二特征图集合中的特征图进行融合,得到对应的一组融合特征图,作为第三特征图集合。
现有的特征蒸馏模型都是在相同层次的特征上进行特征蒸馏。有研究表明利用教师网络的低层次特征来监督学生网络的深层次特征可以在知识蒸馏过程中充分利用教师的信息,即让学生网络的低层次特征结合一些高层次的特征一起接收教师网络低层次知识传递,会有利于学生网络更好的逼近教师网络的解空间。而现有的同层之间特征蒸馏方法,蒸馏损失函数作用在浅层,参与学习的参数较少。因此,现有的学生网络无法有效学习教师网络的浅层特征,需要更深的网络来学习教师网络的浅层特征,充分继承教师网络的知识。
具体的,由于本发明实施例中Transformer和CNN两个框架之间提取特征的过程不同,所以知识传递的难度要大于相同或者相似框架之间的知识传递。因此,本发明实施例设计了一个多尺度特征融合模块(Multi-Stage Fusion Module,简称MSF),用于更好的进行不同框架之间的知识传递,让学生网络在知识蒸馏中可以充分利用教师网络的信息。
融合得到第三特征图集合的过程可以包括:
针对所述第二特征图集合中每个阶段的特征图作为目标图像,利用卷积块提取所述目标图像的卷积特征图,对所述卷积特征图进行通道注意力和空间注意力操作,得到卷积注意力图;利用残差块提取所述目标图像的残差特征图;根据所述卷积注意力图和所述残差特征图确定所述融合特征图。所有阶段的所述目标图像对应的所述融合特征图作为第三特征图集合。
具体的,在多尺度特征融合模块(MSF)中,本发明实施例可以使用卷积块注意力模块(Convolutional Block Atention Module,简称CBAM)更好地融合不同层的特征。如图3所示,步骤S110中学生网络根据异常图像输出一组特征图S={s1,…,si},MSF模块将不同阶段的特征图si经过一个卷积块和一个残差块,分别得到fiandRi。一种可选的实施方式下,其中的卷积块由一个3x3卷积层、一个批量归一化层和一个ReLU激活层组成。残差块由一个最大池化操作和一个1x1卷积层组成。随后,依次在通道和空间维度上对fi进行注意力操作。然后将注意力操作后的卷积注意力图和残差特征图Ri逐元素求和,过程可表示为:
Fi_att=Res(MaxPool(si))+Con(cbam(si))
其中Res代表残差块,Con代表卷积块。cbam代表卷积块注意力模块。
具体的,上述根据所述卷积注意力图和所述残差特征图确定所述融合特征图的过程可以包括:
S1、将当前阶段的所述融合特征图与后续所有阶段的融合特征图进行融合,得到当期阶段的最终特征图。
具体的,由于MSF是动态模块,第i个阶段的MSF模块可以融合后面所有阶段的特征图。最后,生成输出融合特征图Fi的过程可以表示为:
Fi=Fi_att+…+F1_att
S2、将各个阶段对应的所述最终特征图作为新的所述第二特征图集合,执行所述通过多尺度特征融合模块将所述第二特征图集合中的特征图进行融合,得到对应的一组融合特征图,作为第三特征图集合的步骤。
具体的,本发明实施例还可以对学生网络最后一层的特征图单独做CBAM操作。经过多尺度特征融合后得到一组融合后的特征图F={F1,…,Fi}。
S130:根据所述像素级标签、预设的可分辨蒸馏损失函数、所述第一特征图集合以及所述第三特征图集合,对所述异常图像中的正常区域和异常区域,在所述教师网络和所述学生网络间进行可分辨的知识蒸馏。
本发明实施例在跨架构蒸馏模型使用不同类型的神经网络模型构建两个不同的特征空间,但是有些异常仍然可以在教师网络和学生网络的特征空间中被编码为相似的表示。因此,本发明实施例设计了可分辨蒸馏损失来指导学生网络对正常区域和异常区域进行可分辨的知识传递,让教师网络的正常特征分布和学生网络的正常特征分布之间的差异减小,教师网络的异常特征分布和学生网络的异常特征分布之间的差异增大。
具体的,本发明实施例使用可分辨蒸馏损失指导学生网络对正常区域和异常区域进行可分辨的知识蒸馏的过程可以包括:
S1、分别逐元素计算所述第一特征图集合与所述第三特征图集合的余弦距离,得到一组相似度图。
具体的,根据余弦距离分别逐元素的计算教师网络输出的特征图T={T1,…,Ti}和学生网络输出的特征图经过多尺度融合后得到的特征图F={F1,…,Fi}之间的相似度,因为余弦距离可以反应高维和低维信息中的关系,所以余弦距离值可以直接看作异常分数。其中 c,h和w分别代表特征图的通道数,高度和宽度。通过上式计算得到一组相似度图M={M1,…,Mi}。
S2、将每张所述相似度图经过最近邻线性插值操作上采样到与所述异常图像相同的大小,逐元素相加得到对应的异常分数图。
具体的,将每一张相似度图Mi上采样到原图大小,即与所述异常图像相同的大小,然后逐像素相加得到精确的异常分数图Ψ代表最近邻线性插值操作。
S3、采用二元交叉熵损失函数根据所述像素级标签约束各张所述异常分数图,以在所述教师网络和所述学生网络间进行可分辨的知识蒸馏。
具体的,步骤S130的S1、S2和S3中用到的计算余弦距离的余弦相似度、最近邻线性插值和二元交叉熵损失函数共同组成所述预设的可分辨蒸馏损失函数,约束Sp在训练的时候不断逼近GT。因为GT是由正常(0)和异常(1)这两种数值组成,Sp不断逼近GT就可以增加教师网络和学生网络对正常特征表达的相似性,同时增加异常特征之间的差异性,达到了可分辨蒸馏的效果。具体如下:
Loss=-(GT·log(Sp)+(1-GT)·log(1-Sp)
S140:通过所述教师网络和知识蒸馏后的所述学生网络对待识别图像中的异常区域进行检测和定位。
具体的,经过知识蒸馏的学生网络不仅能学习到和教师网络一致的提取正常特征的能力,同时又能学到和教师网络不一致的提取异常特征的能力,因此,通过计算教师网络和经过知识蒸馏后的学生网络对特征的一致性可以精准对待识别图像中的异常区域,并根据异常区域表现不一致进行检测和定位。
接下来将以具体实例说明本发明的应用过程。
具体的,在图像异常识别阶段,本发明实施例可以去掉异常区域模拟这个步骤,即上述步骤S100,和交叉熵损失函数,其余和知识蒸馏的训练阶段一样,同时输入测试图像到教师网络和学生网络,利用两个网络输出的特征图计算异常分数图。当图像中带有异常时,教师网络和学生网络在正常区域表现的一致,异常分数很小,教师网络和学生网络在异常区域表现的不一致,异常分数很大,由此来获取异常区域的位置。然后选择异常分数图中最大的值作为整张图像的异常分数,通过预先设定的阈值判定该测试图像是否含有异常区域。
参照图4,本发明实施例提供了一种图像异常检测与定位的装置,包括:
异常图像获取单元,用于根据仅包括正常图像的训练数据生成带有异常区域的异常图像和像素级标签;
特征图集合获取单元,用于将所述异常图像输入到教师网络得到一组分辨率不同的特征图,作为第一特征图集合;将所述异常图像输入到学生网络得到一组分辨率不同的特征图,作为第二特征图集合;所述教师网络与所述学生网络采用不同类型的神经网络模型;
融合特征图获取单元,用于通过多尺度特征融合模块将所述第二特征图集合中的特征图进行融合,得到对应的一组融合特征图,作为第三特征图集合;
知识蒸馏单元,用于根据所述像素级标签、预设的可分辨蒸馏损失函数、所述第一特征图集合以及所述第三特征图集合,对所述异常图像中的正常区域和异常区域,在所述教师网络和所述学生网络间进行可分辨的知识蒸馏;
异常分析单元,用于通过所述教师网络和知识蒸馏后的所述学生网络对待识别图像中的异常区域进行检测和定位。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims (10)

1.一种图像异常检测与定位的方法,其特征在于,包括:
根据仅包括正常图像的训练数据生成带有异常区域的异常图像和像素级标签;
将所述异常图像输入到教师网络得到一组分辨率不同的特征图,作为第一特征图集合;将所述异常图像输入到学生网络得到一组分辨率不同的特征图,作为第二特征图集合;所述教师网络与所述学生网络采用不同类型的神经网络模型;
通过多尺度特征融合模块将所述第二特征图集合中的特征图进行融合,得到对应的一组融合特征图,作为第三特征图集合;
根据所述像素级标签、预设的可分辨蒸馏损失函数、所述第一特征图集合以及所述第三特征图集合,对所述异常图像中的正常区域和异常区域,在所述教师网络和所述学生网络间进行可分辨的知识蒸馏;
通过所述教师网络和知识蒸馏后的所述学生网络对待识别图像中的异常区域进行检测和定位。
2.根据权利要求1所述的一种图像异常检测与定位的方法,其特征在于,所述教师网络采用卷积神经网络,所述学生网络采用Transformer网络。
3.根据权利要求1所述的一种图像异常检测与定位的方法,其特征在于,所述根据仅包括正常图像的训练数据生成带有异常区域的异常图像和像素级标签,包括:
生成柏林噪声图并二值化处理,得到二元噪声图;
将所述二元噪声图与所述训练图像结合,生成带有异常区域的异常图像和像素级标签。
4.根据权利要求1所述的一种图像异常检测与定位的方法,其特征在于,所述将所述异常图像输入到教师网络得到一组分辨率不同的特征图,作为第一特征图集合,包括:
将所述异常图像输入到教师网络,所述教师网络输出多个阶段对应的特征图,其中,各个阶段逐渐增大感受野,输出不同分辨率的特征图,得到一组分辨率不同的特征图,作为第一特征图集合;
所述将所述异常图像输入到学生网络得到一组分辨率不同的特征图,作为第二特征图集合,包括:
将所述异常图像输入到学生网络,所述学生网络输出多个阶段对应的特征图,其中,各个阶段逐渐增大感受野,输出不同分辨率的特征图,得到一组分辨率不同的特征图,作为第二特征图集合。
5.根据权利要求4所述的一种图像异常检测与定位的方法,其特征在于,所述通过多尺度特征融合模块将所述第二特征图集合中的特征图进行融合,得到对应的一组融合特征图,作为第三特征图集合,包括:
针对所述第二特征图集合中每个阶段的特征图作为目标图像,利用卷积块提取所述目标图像的卷积特征图,对所述卷积特征图进行通道注意力和空间注意力操作,得到卷积注意力图;利用残差块提取所述目标图像的残差特征图;根据所述卷积注意力图和所述残差特征图确定所述融合特征图;
所有阶段的所述目标图像对应的所述融合特征图作为第三特征图集合。
6.根据权利要求5所述的一种图像异常检测与定位的方法,其特征在于,所述方法还包括:
将当前阶段的所述融合特征图与后续所有阶段的融合特征图进行融合,得到当期阶段的最终特征图;
将各个阶段对应的所述最终特征图作为新的所述第二特征图集合,执行所述通过多尺度特征融合模块将所述第二特征图集合中的特征图进行融合,得到对应的一组融合特征图,作为第三特征图集合的步骤。
7.根据权利要求1所述的一种图像异常检测与定位的方法,其特征在于,所述根据所述像素级标签、预设的可分辨蒸馏损失函数、所述第一特征图集合以及所述第三特征图集合,对所述异常图像中的正常区域和异常区域,在所述教师网络和所述学生网络间进行可分辨的知识蒸馏,包括:
分别逐元素计算所述第一特征图集合与所述第三特征图集合的余弦距离,得到一组相似度图;
将每张所述相似度图经过最近邻线性插值操作上采样到与所述异常图像相同的大小,逐元素相加得到对应的异常分数图;
采用二元交叉熵损失函数根据所述像素级标签约束各张所述异常分数图,以在所述教师网络和所述学生网络间进行可分辨的知识蒸馏。
8.一种图像异常检测与定位的装置,其特征在于,包括:
异常图像获取单元,用于根据仅包括正常图像的训练数据生成带有异常区域的异常图像和像素级标签;
特征图集合获取单元,用于将所述异常图像输入到教师网络得到一组分辨率不同的特征图,作为第一特征图集合;将所述异常图像输入到学生网络得到一组分辨率不同的特征图,作为第二特征图集合;所述教师网络与所述学生网络采用不同类型的神经网络模型;
融合特征图获取单元,用于通过多尺度特征融合模块将所述第二特征图集合中的特征图进行融合,得到对应的一组融合特征图,作为第三特征图集合;
知识蒸馏单元,用于根据所述像素级标签、预设的可分辨蒸馏损失函数、所述第一特征图集合以及所述第三特征图集合,对所述异常图像中的正常区域和异常区域,在所述教师网络和所述学生网络间进行可分辨的知识蒸馏;
异常分析单元,用于通过所述教师网络和知识蒸馏后的所述学生网络对待识别图像中的异常区域进行检测和定位。
9.一种电子设备,其特征在于,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如权利要求1至7中任一项所述的一种图像异常检测与定位的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1至7中任一项所述的一种图像异常检测与定位的方法。
CN202310641328.0A 2023-05-31 2023-05-31 一种图像异常检测与定位的方法、装置、设备及存储介质 Active CN116630286B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310641328.0A CN116630286B (zh) 2023-05-31 2023-05-31 一种图像异常检测与定位的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310641328.0A CN116630286B (zh) 2023-05-31 2023-05-31 一种图像异常检测与定位的方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN116630286A true CN116630286A (zh) 2023-08-22
CN116630286B CN116630286B (zh) 2024-02-13

Family

ID=87641563

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310641328.0A Active CN116630286B (zh) 2023-05-31 2023-05-31 一种图像异常检测与定位的方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116630286B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116958148A (zh) * 2023-09-21 2023-10-27 曲阜师范大学 输电线路关键部件缺陷的检测方法、装置、设备、介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062951A (zh) * 2019-12-11 2020-04-24 华中科技大学 一种基于语义分割类内特征差异性的知识蒸馏方法
CN114120319A (zh) * 2021-10-09 2022-03-01 苏州大学 一种基于多层次知识蒸馏的连续图像语义分割方法
CN114240892A (zh) * 2021-12-17 2022-03-25 华中科技大学 一种基于知识蒸馏的无监督工业图像异常检测方法及系统
CN114492745A (zh) * 2022-01-18 2022-05-13 天津大学 基于知识蒸馏机制的类增量辐射源个体识别方法
CN114742799A (zh) * 2022-04-18 2022-07-12 华中科技大学 基于自监督异构网络的工业场景未知类型缺陷分割方法
CN114862838A (zh) * 2022-06-02 2022-08-05 深圳市华汉伟业科技有限公司 基于无监督学习的缺陷检测方法及设备
CN114898319A (zh) * 2022-05-25 2022-08-12 山东大学 基于多传感器决策级信息融合的车型识别方法及系统
CN114998294A (zh) * 2022-06-23 2022-09-02 西南交通大学 一种基于知识蒸馏的高铁绝缘子缺陷检测方法
CN115310555A (zh) * 2022-08-30 2022-11-08 浙江大学计算机创新技术研究院 一种基于局部感知知识蒸馏网络的图像异常检测方法
CN115375618A (zh) * 2022-06-28 2022-11-22 鲁班嫡系机器人(深圳)有限公司 一种缺陷检测、训练方法、装置、存储介质及设备
CN115471645A (zh) * 2022-11-15 2022-12-13 南京信息工程大学 一种基于u型学生网络的知识蒸馏异常检测方法
CN115861256A (zh) * 2022-12-15 2023-03-28 南京信息工程大学 基于知识蒸馏结合图像重构的异常检测方法
CN115861736A (zh) * 2022-12-14 2023-03-28 广州科盛隆纸箱包装机械有限公司 基于知识蒸馏的高速瓦楞纸箱印刷缺陷检测方法、系统及存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062951A (zh) * 2019-12-11 2020-04-24 华中科技大学 一种基于语义分割类内特征差异性的知识蒸馏方法
CN114120319A (zh) * 2021-10-09 2022-03-01 苏州大学 一种基于多层次知识蒸馏的连续图像语义分割方法
CN114240892A (zh) * 2021-12-17 2022-03-25 华中科技大学 一种基于知识蒸馏的无监督工业图像异常检测方法及系统
CN114492745A (zh) * 2022-01-18 2022-05-13 天津大学 基于知识蒸馏机制的类增量辐射源个体识别方法
CN114742799A (zh) * 2022-04-18 2022-07-12 华中科技大学 基于自监督异构网络的工业场景未知类型缺陷分割方法
CN114898319A (zh) * 2022-05-25 2022-08-12 山东大学 基于多传感器决策级信息融合的车型识别方法及系统
CN114862838A (zh) * 2022-06-02 2022-08-05 深圳市华汉伟业科技有限公司 基于无监督学习的缺陷检测方法及设备
CN114998294A (zh) * 2022-06-23 2022-09-02 西南交通大学 一种基于知识蒸馏的高铁绝缘子缺陷检测方法
CN115375618A (zh) * 2022-06-28 2022-11-22 鲁班嫡系机器人(深圳)有限公司 一种缺陷检测、训练方法、装置、存储介质及设备
CN115310555A (zh) * 2022-08-30 2022-11-08 浙江大学计算机创新技术研究院 一种基于局部感知知识蒸馏网络的图像异常检测方法
CN115471645A (zh) * 2022-11-15 2022-12-13 南京信息工程大学 一种基于u型学生网络的知识蒸馏异常检测方法
CN115861736A (zh) * 2022-12-14 2023-03-28 广州科盛隆纸箱包装机械有限公司 基于知识蒸馏的高速瓦楞纸箱印刷缺陷检测方法、系统及存储介质
CN115861256A (zh) * 2022-12-15 2023-03-28 南京信息工程大学 基于知识蒸馏结合图像重构的异常检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
PENGGUANG CHEN ET AL.: "Distilling Knowledge via Knowledge Review", 《2021 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION(CVPR)》 *
XUAN ZHANG ET AL.: "DeSTSeg: Segentation Guided Denoising Student-Teacher for Anomaly Detection", 《ARXIV:2211.11317V2 [CS.CV]》 *
蒋正锋 等: "融合卷积注意力机制与深度残差网络的遥感图像分类", 《激光杂志》, vol. 43, no. 4 *
陈亚当 等: "多尺度特征融合的知识蒸馏异常检测方法", 《计算机辅助设计与图形学学报》, vol. 34, no. 10 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116958148A (zh) * 2023-09-21 2023-10-27 曲阜师范大学 输电线路关键部件缺陷的检测方法、装置、设备、介质
CN116958148B (zh) * 2023-09-21 2023-12-12 曲阜师范大学 输电线路关键部件缺陷的检测方法、装置、设备、介质

Also Published As

Publication number Publication date
CN116630286B (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
CN111723732B (zh) 一种光学遥感图像变化检测方法、存储介质及计算设备
Lei et al. Scale insensitive and focus driven mobile screen defect detection in industry
EP3654248A1 (en) Verification of classification decisions in convolutional neural networks
CN113221740B (zh) 一种农田边界识别方法及系统
Lin et al. Image manipulation detection by multiple tampering traces and edge artifact enhancement
CN113591968A (zh) 一种基于非对称注意力特征融合的红外弱小目标检测方法
CN116630286B (zh) 一种图像异常检测与定位的方法、装置、设备及存储介质
Chen et al. CCDN: Checkerboard corner detection network for robust camera calibration
Davy et al. Reducing anomaly detection in images to detection in noise
CN112446869A (zh) 基于深度学习的无监督工业品缺陷检测方法及装置
CN115439442A (zh) 基于共性和差异的工业品表面缺陷检测与定位方法及系统
CN111144425B (zh) 检测拍屏图片的方法、装置、电子设备及存储介质
CN114677349A (zh) 编解码端边缘信息增强和注意引导的图像分割方法及系统
CN116664839B (zh) 一种弱监督半监督缺陷感知分割方法、装置及电子设备
CN116563285B (zh) 一种基于全神经网络的病灶特征识别与分割方法及系统
CN111310757B (zh) 视频弹幕检测识别方法及装置
CN113313077A (zh) 基于多策略和交叉特征融合的显著物体检测方法
CN117036715A (zh) 一种基于卷积神经网络的形变区边界自动提取方法
CN116862885A (zh) 超声图像病变检测的分割引导去噪知识蒸馏方法及装置
CN116403062A (zh) 一种点云目标检测方法、系统、设备及介质
CN111626972B (zh) Ct图像重构方法、模型训练方法及设备
CN113160146B (zh) 一种基于图神经网络的变化检测方法
Kee et al. Cracks identification using mask region-based denoised deformable convolutional network
CN109978863B (zh) 基于x射线图像的目标检测方法及计算机设备
CN113408356A (zh) 基于深度学习的行人重识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant