CN117710785A - 基于图像检测模型的异常图像检测方法、装置及设备 - Google Patents
基于图像检测模型的异常图像检测方法、装置及设备 Download PDFInfo
- Publication number
- CN117710785A CN117710785A CN202311756327.7A CN202311756327A CN117710785A CN 117710785 A CN117710785 A CN 117710785A CN 202311756327 A CN202311756327 A CN 202311756327A CN 117710785 A CN117710785 A CN 117710785A
- Authority
- CN
- China
- Prior art keywords
- feature
- features
- network
- scales
- scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 142
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 72
- 230000004927 fusion Effects 0.000 claims abstract description 122
- 238000005070 sampling Methods 0.000 claims abstract description 109
- 238000000034 method Methods 0.000 claims abstract description 101
- 230000003044 adaptive effect Effects 0.000 claims abstract description 54
- 230000009466 transformation Effects 0.000 claims abstract description 40
- 230000006978 adaptation Effects 0.000 claims abstract description 19
- 230000005856 abnormality Effects 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims description 54
- 238000011084 recovery Methods 0.000 claims description 51
- 238000006243 chemical reaction Methods 0.000 claims description 34
- 238000012545 processing Methods 0.000 claims description 26
- 230000006835 compression Effects 0.000 claims description 21
- 238000007906 compression Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 20
- 238000003860 storage Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 8
- 238000007499 fusion processing Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000011282 treatment Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 20
- 238000013473 artificial intelligence Methods 0.000 abstract description 19
- 230000006870 function Effects 0.000 description 21
- 230000008569 process Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 13
- 238000010801 machine learning Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 4
- 238000009795 derivation Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000003902 lesion Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000000137 annealing Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种基于图像检测模型的异常图像检测方法、装置及设备,属于人工智能技术领域。本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。该方法包括:对于待检测的第一图像,提取第一图像的N个尺度的编码特征;对N个尺度的编码特征进行融合,得到融合特征;对融合特征进行上采样,得到N个尺度的上采样特征;对N个尺度的上采样特征进行通道变换,得到N个尺度的适应特征;根据N个尺度的适应特征,得到N个尺度的重建特征;根据N个尺度的重建特征和N个尺度的编码特征,确定第一图像的异常检测结果。上述方法,可以得到多个尺度高质量的重建特征,从而实现更加准确和高效的异常图像检测。
Description
技术领域
本申请涉及人工智能技术领域,特别涉及一种基于图像检测模型的异常图像检测方法、装置及设备。
背景技术
计算机视觉领域的无监督异常图像检测任务仅需正常图像训练即可实现对异常图像的检测,因无监督的低成本训练方式及在实际应用中的重要意义,异常图像检测算法逐渐受到越来越多的关注,并广泛应用于工业缺陷检测、医学图像病变检测、视频异常检测等领域中。
在相关技术中,采用Reconstruction-based(基于重建特征)的图像检测方法来实现这一目标。具体来说,首先收集用于训练图像检测模型的样本图像,编码器将样本图像映射到高维隐空间得到编码特征,根据解码器恢复该编码特征得到重建特征,以最小化编码特征与重建特征的差异为目标,逐步优化模型参数,从而得到训练后的图像检测模型。我们可以输入一张待检测图像,通过训练后的图像检测模型根据编码特征以及重建特征的差异,实现对图像的异常检测。
上述方法,由于现有编码器网络通常采用CNN(Convolutional Neural Network,卷积神经网络)模型,仅提取输入图像的单一尺度的编码特征。这使得编码特征对图像信息的表征并不完整全面。解码器在这种信息不完整的情况下,仅能得到比较粗糙的重建特征。这时,编码特征与重建特征之间的差异不仅来源于异常的存在,也来源与编码-解码过程的信息丢失。针对待检测图像的异常检测,直接基于编码特征和重建特征的差异来进行异常图像检测容易引入误判。即通过解码器得到重建特征的效果差,会导致检测结果不准确的问题。
发明内容
本申请实施例提供了一种基于图像检测模型的异常图像检测方法、装置及设备。本申请实施例提供的技术方案如下:
根据本申请实施例的一个方面,提供了一种基于图像检测模型的异常图像检测方法,所述图像检测模型包括特征融合网络、上采样网络、风格转换网络和特征解码网络;所述方法包括:
对于待检测的第一图像,提取所述第一图像的N个尺度的编码特征,N为大于1的整数;
通过所述特征融合网络对所述N个尺度的编码特征进行融合,得到融合特征;
通过所述上采样网络对所述融合特征进行上采样,得到所述N个尺度的上采样特征;
通过所述风格转换网络对所述N个尺度的上采样特征进行通道变换,得到所述N个尺度的适应特征,其中,所述通道变换为通道压缩或通道扩展;
通过所述特征解码网络根据所述N个尺度的适应特征,得到所述N个尺度的重建特征;
根据所述N个尺度的重建特征和所述N个尺度的编码特征,确定所述第一图像的异常检测结果。
根据本申请实施例的一个方面,提供了一种图像检测模型的训练方法,所述图像检测模型包括特征融合网络、上采样网络、风格转换网络和特征解码网络;所述方法包括:
获取用于训练所述图像检测模型的样本图像,所述样本图像中不存在异常区域;
提取所述样本图像的N个尺度的编码特征,N为大于1的整数;
通过所述特征融合网络对所述N个尺度的编码特征进行融合,得到融合特征;
通过所述上采样网络对所述融合特征进行上采样,得到所述N个尺度的上采样特征;
通过所述风格转换网络对所述N个尺度的上采样特征进行通道变换,得到所述N个尺度的适应特征,其中,所述通道变换为通道压缩或通道扩展;
通过所述特征解码网络根据所述N个尺度的适应特征,得到所述N个尺度的重建特征;
以最小化所述N个尺度的重建特征和所述N个尺度的编码特征之间的差异为目标,对所述图像检测模型的参数进行调整,得到训练后的图像检测模型。
根据本申请实施例的一个方面,提供了一种基于图像检测模型的异常图像检测装置,所述图像检测模型包括特征融合网络、上采样网络、风格转换网络和特征解码网络;所述装置包括:
提取模块,用于对于待检测的第一图像,提取所述第一图像的N个尺度的编码特征,N为大于1的整数;
第一得到模块,用于通过所述特征融合网络对所述N个尺度的编码特征进行融合,得到融合特征;
第二得到模块,用于通过所述上采样网络对所述融合特征进行上采样,得到所述N个尺度的上采样特征;
第三得到模块,用于通过所述风格转换网络对所述N个尺度的上采样特征进行通道变换,得到所述N个尺度的适应特征,其中,所述通道变换为通道压缩或通道扩展;
第四得到模块,用于通过所述特征解码网络根据所述N个尺度的适应特征,得到所述N个尺度的重建特征;
确定模块,用于根据所述N个尺度的重建特征和所述N个尺度的编码特征,确定所述第一图像的异常检测结果。
根据本申请实施例的一个方面,提供了一种图像检测模型的训练装置,所述图像检测模型包括特征融合网络、上采样网络、风格转换网络和特征解码网络;所述装置包括:
获取模块,用于获取用于训练所述图像检测模型的样本图像,所述样本图像中不存在异常区域;
提取模块,用于提取所述样本图像的N个尺度的编码特征,N为大于1的整数;
第一得到模块,用于通过所述特征融合网络对所述N个尺度的编码特征进行融合,得到融合特征;
第二得到模块,用于通过所述上采样网络对所述融合特征进行上采样,得到所述N个尺度的上采样特征;
第三得到模块,用于通过所述风格转换网络对所述N个尺度的上采样特征进行通道变换,得到所述N个尺度的适应特征,其中,所述通道变换为通道压缩或通道扩展;
第四得到模块,用于通过所述特征解码网络根据所述N个尺度的适应特征,得到所述N个尺度的重建特征;
调整模块,用于以最小化所述N个尺度的重建特征和所述N个尺度的编码特征之间的差异为目标,对所述图像检测模型的参数进行调整,得到训练后的图像检测模型。
根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述基于图像检测模型的异常图像检测方法,或上述图像检测模型的训练方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述基于图像检测模型的异常图像检测方法,或上述图像检测模型的训练方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中,处理器从所述计算机可读存储介质读取并执行所述计算机程序,以实现上述基于图像检测模型的异常图像检测方法,或上述图像检测模型的训练方法。
本申请实施例提供的技术方案至少包括如下有益效果:
通过提取输入图像在多个尺度上的编码特征,有效保留了输入图像多个尺度的特征信息,特征融合网络对多个尺度的编码特征进行融合,得到融合特征。上采样网络对该融合特征进行上采样,得到多个尺度的上采样特征。进一步地,风格转换网络对不同尺度的上采样特征的通道维度进行变换,得到多个尺度的适应特征,能够增加特征表达的多样性。通过特征解码网络根据不同尺度的适应特征,可以得到不同尺度的高质量重建特征。一方面,本申请提出的上述网络中只包含卷积操作,简单且高效。另一方面,通过多个尺度的编码特征的融合利用,可以得到多个尺度高质量的重建特征,从而实现更加准确和高效的异常图像检测。
附图说明
图1是本申请一个实施例提供的方案实施环境的示意图;
图2是本申请一个实施例提供的基于图像检测模型的异常图像检测方法的流程图;
图3是本申请一个实施例提供的图像检测模型的示意图;
图4是本申请一个实施例提供的异常图像的示意图;
图5是本申请另一个实施例提供的异常图像的示意图;
图6是本申请一个实施例提供的图像检测模型的训练方法的示意图;
图7是本申请一个实施例提供的不同分辨率的实验结果对比的示意图;
图8是本申请一个实施例提供的不同训练轮次的实验结果对比的示意图;
图9是本申请一个实施例提供的基于图像检测模型的异常图像检测装置的框图;
图10是本申请一个实施例提供的图像检测模型的训练装置的框图;
图11是本申请一个实施例提供的计算机设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
人工智能(Artificial Intelligence,简称AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等技术。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,简称ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果,融合了以上技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、AIGC(Artificial Intelligence Generated Content,人工智能生成内容)、对话式交互、智能医疗、智能客服、游戏AI等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的机器学习和深度学习技术,具体通过如下实施例进行说明。
请参考图1,其示出了本申请一个实施例提供的方案实施环境的示意图。该方案实施环境可以包括模型训练设备110和模型使用设备120。
模型训练设备110可以是诸如手机、台式电脑、平板电脑、笔记本电脑、车载终端、服务器、智能机器人、智能电视、多媒体播放设备等电子设备,或者是其他一些具有较强计算能力的电子设备,本申请对此不作限定。模型训练设备110用于对图像检测模型进行训练。
在本申请实施例中,图像检测模型是深度神经网络模型。可选地,模型训练设备110可以采用机器学习的方式对该图像检测模型进行训练,以使得其具备较好的性能。可选地,图像检测模型的训练过程如下(此处仅为简述,具体的训练过程参见下述实施例):获取用于训练图像检测模型的样本图像,提取样本图像的N个尺度的编码特征,通过特征融合网络对N个尺度的编码特征进行融合,得到融合特征,通过上采样网络对融合特征进行上采样,得到N个尺度的上采样特征,通过风格转换网络对N个尺度的上采样特征进行通道变换,得到N个尺度的适应特征,通过特征解码网络根据N个尺度的适应特征,得到N个尺度的重建特征,以最小化N个尺度的重建特征和N个尺度的编码特征之间的差异为目标,对图像检测模型的参数进行调整,得到训练后的图像检测模型。
模型使用设备120可以是诸如手机、台式电脑、平板电脑、笔记本电脑、车载终端、服务器、智能机器人、智能电视、多媒体播放设备等电子设备,或者是其他一些具有较强计算能力的电子设备,本申请对此不作限定。模型使用设备120可以采用训练后的图像检测模型,对待检测的图像进行异常检测。
模型训练设备110和模型使用设备120可以是两个独立存在的设备,也可以是同一个设备。
本申请实施例提供的方法,各步骤的执行主体可以是计算机设备,该计算机设备是指具备数据计算、处理和存储能力的电子设备。其中,在该计算机设备是服务器时,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。计算机设备可以是图1中的模型训练设备110,也可以是模型使用设备120。
在一些实施例中,本申请提出的技术方案可以应用于交通检测场景,示例性地,可以帮助监测交通路口或交通路段的异常情况(例如重点车辆的违规行驶、交通事故等),有效提升交通监管的能力。也可以应用于工业产品异常检测场景,示例性地,在工业生产过程中能够对产品图像进行异常检测,即时发现产品质量问题,有助于提高生产效率和产品质量的稳定性。也可以应用于医学图像病变检测场景,可以有效辅助医生快速准确地发现人体器官等医学图像中的病变。本申请对方案的应用场景不作限定。
请参考图2,其示出了本申请一个实施例提供的基于图像检测模型的异常图像检测方法的流程图。该方法各步骤的执行主体可以是计算机设备,例如该计算机设备可以是图1所示的方案实施环境中的模型使用设备120。该方法可以包括如下步骤210~260中的至少一个步骤。
步骤210,对于待检测的第一图像,提取第一图像的N个尺度的编码特征,N为大于1的整数。
待检测的第一图像是指输入到图像检测模型中进行异常检测的原始图像。异常检测是指对于给定的图像数据集,通过构建模型学习正常图像样本的特征信息,然后根据数据分布的偏差检测出异常图像的技术或方法。尺度是指分辨率。N个尺度是指N个不同尺度。
在一些可能的实现方式中,可以通过用户本地选择和输入来获取待检测的第一图像,也可以通过从网络平台中下载检索到的图像来获取待检测的第一图像,第一图像可以是任意一张待检测其是否存在异常的图像,本申请对获取图像的方式不作限定。
在一些实施例中,可以先通过预训练模型提取出第一图像的N个尺度的特征,再将上述N个尺度的特征分别进行下采样从而得到第一图像的N个尺度的编码特征。示例性地,预训练模型可以是使用ImageNet-1K预训练的WideResNet50模型,也可以是其他通过输入原始图像输出为该原始图像多个尺度特征的预训练模型,本申请对此不作限定。
通过上述预训练模型提取第一图像的N个尺度的特征,示例性地,通过上述预训练模型提取第一图像的3个尺度的特征,如512×512尺度的特征、256×256尺度的特征、128×128尺度的特征。再对512×512尺度的特征进行下采样,从而得到256×256尺度的编码特征;对256×256尺度的特征进行下采样,从而得到128×128尺度的编码特征;对128×128尺度的特征进行下采样,从而得到64×64尺度的编码特征。
步骤220,通过特征融合网络对N个尺度的编码特征进行融合,得到融合特征。
融合是指将不同尺度的编码特征进行合并,以得到更全面或更高质量的特征。融合特征是指通过融合来自不同尺度的编码特征而得到的一个新的特征向量。
在一些实施例中,通过特征融合网络将N个尺度的编码特征转换成同一尺度的编码特征,得到N个同一尺度的编码特征;将N个同一尺度的编码特征进行通道拼接,得到融合特征。
特征融合网络通过卷积层的空间转换,将不同尺度的编码特征映射到同一尺度的特征空间中,这样可以让不同尺度的特征对齐到同一特征空间。
通道是指通道维度,N个尺度的编码特征对应N个通道维度。其中,N个尺度的编码特征对应的通道维度可以都相同,也可以至少有两个不同。如图3所示,其示出了3个不同尺度的编码特征,假设3个不同尺度分别为256×256、128×128和64×64。256×256尺度的编码特征31对应的通道维度为K1,128×128尺度的编码特征32对应的通道维度为K2,64×64尺度的编码特征33对应的通道维度为K3,K1、K2、K3为大于1的整数。K1、K2、K3可以都相同,或者K1、K2和K3可以都不相同,或者K1和K2相同但和K3不同,或者K1和K3相同但和K2不同,或者K2和K3相同但和K1不同,本申请对此不作限定。
通道拼接是指把经过空间对齐后的同一尺度的编码特征在通道维度上连接起来,拼接成一个更高维的融合特征。示例性地,256×256尺度的编码特征对应的通道维度为64,128×128尺度的编码特征对应的通道维度为64,64×64尺度的编码特征对应的通道维度为64,经过下采样可以将上述3个尺度的编码特征都转换到32×32尺度的编码特征,假设编码特征的通道数都不改变,则经过通道拼接后,可以得到尺度为32×32的融合特征,该融合特征的通道数为192。
上述方法,通过融合不同尺度的编码特征,可以将不同层次的特征进行融合,从而得到更全面、更丰富的特征表示。
在一些实施例中,可以将N个尺度中较大尺度的编码特征下采样到最小尺度,该最小尺度是指编码特征的N个尺度中的最小尺度。经过下采样后所有的编码特征具有相同的尺度大小。请参考图3,其中子图(a)为根据N个尺度的编码特征得到N个尺度的重建特征的特征转换图,子图(b)为根据适应特征得到重建特征的具体实现过程。子图(a)中,Ff为融合特征,FI为编码特征。如图3所示,其示出了3个不同尺度的编码特征,假设3个不同尺度的编码特征分别为256×256尺度的编码特征31、128×128尺度的编码特征32和64×64尺度的编码特征33。可以经过下采样分别将256×256尺度的编码特征和128×128尺度的编码特征转换到尺度为64×64的编码特征。再将3个64×64的编码特征进行通道拼接,得到融合特征Ff。
在一些实施例中,可以将N个尺度中较大尺度的编码特征下采样到目标尺度,该目标尺度小于编码特征的N个尺度中的最小尺度。如上述例子所示,假设此处目标尺度为32×32,可以经过下采样分别将256×256尺度的编码特征、128×128尺度的编码特征和64×64尺度的编码特征转换到尺度为32×32的编码特征。再将3个32×32的编码特征进行通道拼接,得到融合特征Ff。
在一些实施例中,得到融合特征后,还可以通过至少一个BottleNeck(瓶颈)层对融合特征进行特征变换,得到变换后的融合特征,其中,变换后的融合特征与融合特征具有相同的尺度和通道数,且变换后的融合特征与融合特征具有不同的数值表示,变换后的融合特征用于在下述步骤230中进行上采样得到N个尺度的上采样特征。
变换后的融合特征与融合特征具有不同的数值表示,这可以通过不同的卷积核或函数来实现。例如,可以使用具有不同权重参数的卷积核,或应用非线性函数,如ReLU(Rectified Linear Unit,整流线性单元)来引入非线性变换,从而改变特征的表示方式。
上述方法,通过BottleNeck层对融合特征进行特征变换,可以增强融合特征中的抽象特征表示能力,提高模型对复杂特征的学习能力。
步骤230,通过上采样网络对融合特征进行上采样,得到N个尺度的上采样特征。
上采样网络是指一种神经网络结构,用于将低分辨率的特征上采样到高分辨率,以得到更加精细的特征信息。
在一些实施例中,上采样网络包括N个上采样子网;对于N个上采样子网中的第i个上采样子网,通过第i个上采样子网,对第i个上采样子网的输入数据进行上采样,得到第i个上采样子网输出的上采样特征,i为小于或等于N的正整数,其中,当i等于1时,第i个上采样子网的输入数据为融合特征,当i大于1时,第i个上采样子网的输入数据为第i-1个上采样子网输出的上采样特征;将N个上采样子网输出的上采样特征,确定为N个尺度的上采样特征。
示例性地,如图3所示,其示出了3个不同尺度的上采样特征,FR是指上采样特征,假设3个不同尺度的上采样特征分别为64×64尺度的上采样特征34、128×128尺度的上采样特征35和256×256尺度的上采样特征36。可以经过上采样分别将融合特征Ff转换到64×64尺度的上采样特征。再对该64×64尺度的上采样特征进行上采样,得到128×128尺度的上采样特征。再对该128×128尺度的上采样特征进行上采样,得到256×256尺度的上采样特征。
上述方法,通过使用上采样子网逐级进行上采样,可以实现对融合特征的细化和放大。示例性地,假设输入数据为64×64尺度的融合特征,经过第1个上采样子网的上采样操作,可以得到128×128尺度的上采样特征;然后,再经过第2个上采样子网的上采样操作,得到256×256尺度的上采样特征。这些尺度不同、具有越来越高分辨率的上采样特征提供了多个尺度和更加细致的特征信息,有助于提高模型对图像的理解和感知。
在一些实施例中,第i个上采样子网包括一个上采样卷积层和至少一个普通卷积层;通过上采样卷积层对第i个上采样子网的输入数据进行上采样,得到第一中间特征;通过至少一个普通卷积层对第一中间特征进行卷积处理,得到第i个上采样子网输出的上采样特征。
第一中间特征是指从较小尺度的编码特征,通过上采样卷积层在中间过程中得到的特征表示。示例性地,可以通过上采样卷积对64×64尺度的上采样特征进行上采样,得到128×128尺度的上采样特征,此处128×128尺度的上采样特征作为第一中间特征。
上采样卷积层用于进行尺度扩展。可以通过上采样卷积将较小尺度的上采样特征转换到较大尺度的上采样特征。普通卷积层用于进行通道维度变换。可以通过普通卷积层对进行上采样卷积的上采样特征进行通道维度变换,此处通道维度变换包括通道压缩或通道扩展。示例性地,可以将上述得到的第一中间特征,如128×128尺度的上采样特征进行通道维度变换,得到通道维度变换后的上采样特征。
上述方法,通过上采样子网中的上采样卷积层和普通卷积层,可以实现对输入数据的尺度扩展和通道维度变换。以此可以得到更丰富的特征表达,有助于提高模型对图像的分析和理解。
步骤240,通过风格转换网络对N个尺度的上采样特征进行通道变换,得到N个尺度的适应特征,其中,通道变换为通道压缩或通道扩展。
通道压缩是指减小通道维度。示例性地,可以将通道维度为256的上采样特征压缩为通道维度为128的适应特征。这可以降低特征冗余,提升计算和存储效率。通道扩展是指增加通道维度。示例性地,可以将通道维度为128的上采样特征扩展为通道维度为256的适应特征。这可以增加特征表达的丰富性。
通过适当的通道压缩与扩展操作,可以更好地调整网络结构,使得特征在通道维度上适应当前任务的需求,保证后续的异常图像检测任务的高效性和准确性。
在一些实施例中,对于N个尺度中的第i个尺度,通过风格转换网络对第i个尺度的上采样特征进行通道维度的卷积处理,得到第i个尺度的适应特征,其中,通道维度的卷积处理用于实现通道压缩或通道扩展,i为小于或等于N的正整数。
进行通道维度的卷积处理是指在卷积过程中通过改变卷积核的通道数来实现通道压缩或通道扩展。卷积操作在卷积核的每个通道上与输入上采样特征的对应通道进行逐元素相乘,并将结果相加得到输出的单个通道。在通道维度的卷积处理中,我们可以通过改变卷积核的通道数来控制输出的通道数目。具体地,当通道维度的卷积核通道数少于输入上采样特征的通道数时,可以实现通道压缩,将原有的通道数目减少;当通道维度的卷积核通道数大于输入上采样特征的通道数时,可以实现通道扩展,将原有的通道数目增加。通过这种方式,我们可以对上采样特征的通道维度进行灵活的调整和优化,以适应不同任务的要求。
如图3所示,FS是指适应特征,可以对64×64尺度的上采样特征34进行通道维度变换得到其对应的适应特征37。可以对128×128尺度的上采样特征35进行通道维度变换,得到其对应的适应特征38。可以对256×256尺度的上采样特征36进行通道维度变换,得到其对应的适应特征39。
步骤250,通过特征解码网络根据N个尺度的适应特征,得到N个尺度的重建特征。
重建特征是指基于原始的编码特征,在经过特定的解码过程后,生成的与原始编码特征尺度相同的特征表示。示例性地,64×64尺度的编码特征对应着64×64尺度的重建特征。
在一些实施例中,对于N个尺度中的第i个尺度,通过特征解码网络根据第i个尺度的适应特征和第i个尺度初始的恢复特征,得到第i个尺度的重建特征,i为小于或等于N的正整数;其中,当i等于1时,第i个尺度初始的恢复特征为预设的固定特征,当i大于1时,第i个尺度初始的恢复特征为第i-1个尺度的重建特征。
如图3所示,FO是指重建特征,FConst为固定特征。子图(b)中,通过第i个尺度的适应特征和第i个尺度初始的恢复特征得到第i个尺度的重建特征,其中,当i为1时,等于固定特征FConst。
示例性地,如图3所示,第1个尺度为64×64。可以根据64×64尺度的适应特征37和固定特征FConst得到64×64尺度的重建特征310。其中,固定特征FConst随机产生,其尺度为64×64且通道数与该64×64尺度的适应特征的通道数相同。为了得到128×128尺度的重建特征,首先将64×64尺度的重建特征进行上采样,得到128×128尺度的初始恢复特征,如子图(b)所示。在根据128×128尺度的适应特征38和该128×128尺度的初始的恢复特征得到128×128尺度的重建特征311。根据同样的方法可以得到256×256尺度的重建特征312。
上述方法,通过特征解码网络根据多个尺度的适应特征和初始恢复特征,以此可以生成多个尺度的重建特征。
在一些实施例中,特征解码网络包括M个特征解码子网,M为正整数;对于M个特征解码子网中的第j个特征解码子网,通过第j个特征解码子网,对第j个特征解码子网的输入数据进行处理,得到第j个特征解码子网输出的恢复特征,j为小于或等于M的正整数,其中,当j等于1时,第j个特征解码子网的输入数据包括第i个尺度的适应特征和第i个尺度初始的恢复特征,当j大于1时,第j个特征解码子网的输入数据包括第i个尺度的适应特征和第j-1个特征解码子网输出的恢复特征;将M个特征解码子网中的第M个特征解码子网输出的恢复特征,确定为第i个尺度的重建特征。
恢复特征是指特征解码子网通过逐步解码和重建过程产生的中间特征表示,它恢复了部分原始图像的细节信息,但信息量比编码特征更少。
对于N个尺度的每一个尺度(如第i个尺度)的重建特征的求解,需要经过M个特征解码子网,每一个特征解码子网的输出结果为恢复特征,即逐步恢复了编码前原始图像部分细节的特征。将第M个特征解码子网输出的恢复特征,作为最终完全还原了原始图像细节信息的重建特征。也就是说,针对每一个尺度的编码特征,通过串联M个特征解码子网,逐步从适应特征反向恢复原始图像的细节,每一层子网的输出都包含部分恢复的细节信息,即恢复特征。到第M个子网的时候,图像细节信息就完全还原了,此时输出即为最终的重建特征。
上述方法,通过M个特征解码子网得到重建特征,可以提高图像重建的准确性和稳定性。
在一些实施例中,通过第j个特征解码子网,对第i个尺度的适应特征进行两种不同的线性处理,如如3的子图(b)所示,通过线性层1,得到第二中间特征通过线性层2,得到第三中间特征将第j个特征解码子网的输入数据中包括的恢复特征的各个数值,与恢复特征的各个数值的均值相减,得到第四中间特征;将第二中间特征与第四中间特征中对应位置的数值相乘,得到第五中间特征;将第五中间特征除以恢复特征的各个数值的标准差,得到第六中间特征;将第六中间特征与第三中间特征中对应位置的数值相加,得到第j个特征解码子网输出的恢复特征。
请参考公式1:
其中μ为均值,σ为方差。和分别是经过两个不同线性处理的第二中间特征和第三中间特征。是第i个尺度经过第j个特征解码子网得到的恢复特征,第四中间特征是指第五中间特征是指第六中间特征是指
上述方法,通过引入两个线性层,这两种线性层是两个独立的线性层,每个线性层都具有适当的权重和偏置,可以进一步优化恢复特征的表示能力。
步骤260,根据N个尺度的重建特征和N个尺度的编码特征,确定第一图像的异常检测结果。
在一些实施例中,对于N个尺度中的第i个尺度,根据第i个尺度的重建特征与第i个尺度的编码特征中对应位置数值之间的差异,得到第i个尺度的差异图像,其中,第i个尺度的差异图像中每一个像素的取值,为第i个尺度的重建特征与第i个尺度的编码特征中一组对应位置数值之间的差异,i为小于或等于N的正整数;将N个尺度的差异图像转换成第一图像的尺度,得到N个同一尺度的差异图像;对N个同一尺度的差异图像进行融合处理,得到最终差异图像;基于最终差异图像,确定第一图像的异常检测结果。
可以将第i个尺度上重建特征和编码特征看成两张图像,它们尺度相同,即分辨率相同。每一个像素位置对应一个向量,若第i个尺度上重建特征和编码特征的通道数为64,那么该重建特征和编码特征的每一个像素位置上对应一个64维度的向量。然后逐像素计算这两张图在对应位置上的数值差值。这个差异组成一张新的差异图像。差异图像突出显示了重建特征和编码特征在各个对应像素位置上数值的差异。差异图像的每个像素的值,反映了在该像素位置上,重建特征中的像素值与编码特征中像素值在向量空间上指向的差异程度。如果两者高度一致,向量差距很小,则差异图像中的像素值也很小。如果存在较大的偏差,则形成较大的向量距离,对应差异图像中的像素值也更高。通过分析差异图像的大小,可以检测出哪些像素区域在编码-解码过程中出现了较大的损失,从而反映异常情况。
上述方法,通过对重建特征和编码特征之间的差异进行分析和融合处理,能够有效地检测图像的异常情况。
在一些实施例中,这个差异可以用各个像素位置之间的余弦距离来量化。也可以使用其他距离度量方法来量化,例如欧式距离、曼哈顿距离或切比雪夫距离,本申请对此不作限定。
示例性地,如图3所示,可以计算64×64尺度的重建特征与64×64尺度的编码特征中对应位置数值之间的差异,从而得到64×64尺度的差异图像。根据相同的方法,可以得到128×128尺度的差异图像和256×256尺度的差异图像。
在一些实施例中,分别得到N个尺度的差异图像后,需要将N个尺度的差异图像分别转换成第一图像的尺度。对N个同一尺度的差异图像进行融合处理,得到最终差异图像。第一图像的尺度通常是指原始输入图像的分辨率尺度,比如512×512。可以通过上采样将其他较小尺度的差异图像逐步放大到512×512尺度。这样不同尺度上的差异信息就映射到了统一的尺度坐标空间中,可以对N个差异图像进行简单叠加等操作融合,最终输出一个综合了各个尺度差异信息的差异图像,融合后的差异图像即最终差异图像,可以基于该最终差异图像确定第一图像的异常情况。
在一些实施例中,将N个同一尺度的差异图像中对应位置数值相加,得到最终差异图像;或者,将N个同一尺度的差异图像中对应位置数值求平均,得到最终差异图像。
对于N个同一尺度的差异图像,在每个像素位置上,将N个尺度结果中的对应像素值直接相加,这样可以增强那些在多个尺度结果中都较大的疑似异常区域。也可以将N个同一尺度的差异图像对应位置数值求平均,原理与求和类似,不同在于最后输出的是N个尺度结果的平均值。本申请对此不作限定。
上述方法,通过将多个尺度的差异图像进行融合处理,可以提高异常检测的稳定性和准确性,更容易识别和定位异常区域。
在一些实施例中,若最终差异图像中存在异常像素,则确定第一图像为异常图像,异常像素是指取值属于设定取值范围的像素;基于异常像素,确定第一图像中的异常区域。
可以设定一个阈值,当差异图像中的某像素值超过该阈值时,判定其为异常像素,阈值可以通过统计正常样本差异分布确定,例如设定为正常样本均值上下P倍标准差范围,P为大于1的整数。
如果差异图像中存在异常像素,则直接判定对应的原始图像为异常图像,基于被判断为异常像素的位置坐标,划定出异常像素所在的连接区域构成异常区域,根据确定出的异常区域对第一图像进行异常标记,得到异常标记后的第一图像。如图4和图5所示,其分别示出了根据输入图像通过GT(Ground Truth,标注值)、RD(Recursive Deep Learning,递归深度学习)、UniAD(Unified Anomaly Detection,统一异常检测)和InvAD(InversionAnomaly Detection,基于特征反演的异常检测)方法得到的异常图,其中InvAD为本申请所提出的方法。
其中,每张异常图中使用虚线框圈住的区域为异常区域,输入图像中有一个明显的异常区域41。从InvAD的结果中可以看到,本方法正确检测出并标记了该异常区域,即图中的区域42。这验证了本申请提出的技术方案可以有效识别图像中的异常部分。示例性地,输入图像中有一个明显的异常区域43,从InvAD的结果中可以看到,本方法正确检测出并标记了该异常区域,即图中的区域44。示例性地,输入图像中有一个明显的异常区域45,从InvAD的结果中可以看到,本方法正确检测出并标记了该异常区域,即图中的区域46。示例性地,如图5所示,输入图像中有一个明显的异常区域51,从InvAD的结果中可以看到,本方法正确检测出并标记了该异常区域,即图中的区域52。
在一些实施例中,可以对确定出的异常区域进行后处理,例如平滑、形态学操作等,可以消除由于噪声导致的离散散点被误判为异常区域。
在一些实施例中,也可以先根据N个同一尺度的差异图像分别标注出各自的异常候选区域,最后结合N个差异图像分别对应的异常候选区域,确定第一图像中的异常区域。
本申请提出的技术方案,通过提取输入图像在多个尺度上的编码特征,有效保留了输入图像多个尺度的特征信息,特征融合网络对多个尺度的编码特征进行融合,得到融合特征。上采样网络对该融合特征进行上采样,得到多个尺度的上采样特征。进一步地,风格转换网络对不同尺度的上采样特征的通道维度进行变换,得到多个尺度的适应特征,能够增加特征表达的多样性。通过特征解码网络根据不同尺度的适应特征,可以得到不同尺度的高质量重建特征。一方面,本申请提出的上述网络中只包含卷积操作,简单且高效。另一方面,通过多个尺度的编码特征的融合利用,可以得到多个尺度高质量的重建特征,从而实现更加准确和高效的异常图像检测。
上文实施例介绍了基于图像检测模型的异常图像检测方法方案,下面将通过实施例介绍该图像检测模型的训练过程。对于图像检测模型的应用和训练,两者是相关联的,在一侧实施例中未做详细说明的细节,可参见另一侧实施例中的介绍说明。
请参考图6,其示出了本申请一个实施例提供的图像检测模型的训练方法的流程图。该方法各步骤的执行主体可以是计算机设备,例如该计算机设备可以是图1所示的方案实施环境中的模型训练设备110。该方法可以包括如下步骤610~670中的至少一个步骤。
步骤610,获取用于训练所图像检测模型的样本图像,样本图像中不存在异常区域。
样本图像是指用于训练图像检测模型的正常图像样本。其中不存在破损、缺陷、污迹等异常区域,样本图像中的所有内容都是正常的。这些正常样本可以来自生产线质检相机拍摄的通过产品图像,也可以来自人工标注筛选的无异常样本库。只要保证图像内容为完好、符合预期的正常情况即可作为训练用的样本图像,用以提供给模型学习正常的判别基准。仅学习正常图像样本的分布特征,可以避免模型“记住”训练样本中的特定异常情况,从而提高检测未知新类型缺陷的能力。
为了提高模型对异常图像的检测效果,我们引入了GAN Inversion(GenerativeAdversarial Network Inversion,生成对抗网络反演)概念,旨在通过恢复高质量的重建特征,实现更加准确的异常区域定位。本申请提出的图像检测模型采用了一系列关键网络组件,包括特征融合网络、上采样网络、风格转换网络和特征解码网络。各个网络的具体实现方式,请参考下文。
步骤620,提取样本图像的N个尺度的编码特征,N为大于1的整数。
在一些实施例中,可以先通过预训练模型提取出样本图像的N个尺度特征。示例性地,预训练模型可以是使用ImageNet-1K预训练的WideResNet50模型,也可以是其他通过输入原始图像输出为该原始图像多个尺度特征的预训练模型,本申请对此不作限定。
步骤630,通过特征融合网络对N个尺度的编码特征进行融合,得到融合特征。
在一些实施例中,通过特征融合网络将N个尺度的编码特征转换成同一尺度的编码特征,得到N个同一尺度的编码特征;将N个同一尺度的编码特征进行通道拼接,得到融合特征。
在一些实施例中,得到融合特征后,还可以通过至少一个BottleNeck(瓶颈)层对融合特征进行特征变换,得到变换后的融合特征,其中,变换后的融合特征与融合特征具有相同的尺度和通道数,且变换后的融合特征与融合特征具有不同的数值表示,变换后的融合特征用于在下述步骤640中进行上采样得到N个尺度的上采样特征。
步骤640,通过上采样网络对融合特征进行上采样,得到N个尺度的上采样特征。
在一些实施例中,上采样网络包括N个上采样子网;对于N个上采样子网中的第i个上采样子网,通过第i个上采样子网,对第i个上采样子网的输入数据进行上采样,得到第i个上采样子网输出的上采样特征,i为小于或等于N的正整数,其中,当i等于1时,第i个上采样子网的输入数据为融合特征,当i大于1时,第i个上采样子网的输入数据为第i-1个上采样子网输出的上采样特征;将N个上采样子网输出的上采样特征,确定为N个尺度的上采样特征。
在一些实施例中,第i个上采样子网包括一个上采样卷积层和至少一个普通卷积层;通过上采样卷积层对第i个上采样子网的输入数据进行上采样,得到第一中间特征;通过至少一个普通卷积层对第一中间特征进行卷积处理,得到第i个上采样子网输出的上采样特征。
步骤650,通过风格转换网络对N个尺度的上采样特征进行通道变换,得到N个尺度的适应特征,其中,通道变换为通道压缩或通道扩展。
在一些实施例中,对于N个尺度中的第i个尺度,通过风格转换网络对第i个尺度的上采样特征进行通道维度的卷积处理,得到第i个尺度的适应特征,其中,通道维度的卷积处理用于实现通道压缩或通道扩展,i为小于或等于N的正整数。
步骤660,通过特征解码网络根据N个尺度的适应特征,得到N个尺度的重建特征。
在一些实施例中,对于N个尺度中的第i个尺度,通过特征解码网络根据第i个尺度的适应特征和第i个尺度初始的恢复特征,得到第i个尺度的重建特征,i为小于或等于N的正整数;其中,当i等于1时,第i个尺度初始的恢复特征为预设的固定特征,当i大于1时,第i个尺度初始的恢复特征为第i-1个尺度的重建特征。
在一些实施例中,特征解码网络包括M个特征解码子网,M为正整数;对于M个特征解码子网中的第j个特征解码子网,通过第j个特征解码子网,对第j个特征解码子网的输入数据进行处理,得到第j个特征解码子网输出的恢复特征,j为小于或等于M的正整数,其中,当j等于1时,第j个特征解码子网的输入数据包括第i个尺度的适应特征和第i个尺度初始的恢复特征,当j大于1时,第j个特征解码子网的输入数据包括第i个尺度的适应特征和第j-1个特征解码子网输出的恢复特征;将M个特征解码子网中的第M个特征解码子网输出的恢复特征,确定为第i个尺度的重建特征。
在一些实施例中,通过第j个特征解码子网,对第i个尺度的适应特征进行两种不同的线性处理,如如3的子图(b)所示,通过线性层1,得到第二中间特征通过线性层2,得到第三中间特征将第j个特征解码子网的输入数据中包括的恢复特征的各个数值,与恢复特征的各个数值的均值相减,得到第四中间特征;将第二中间特征与第四中间特征中对应位置的数值相乘,得到第五中间特征;将第五中间特征除以恢复特征的各个数值的标准差,得到第六中间特征;将第六中间特征与第三中间特征中对应位置的数值相加,得到第j个特征解码子网输出的恢复特征。
步骤670,以最小化N个尺度的重建特征和N个尺度的编码特征之间的差异为目标,对图像检测模型的参数进行调整,得到训练后的图像检测模型。
以N个尺度的重建特征和N个尺度的编码特征的为损失函数,计算损失函数的值,以最小化损失函数的值为目标,调整图像检测模型的参数,当损失函数的值低于预设阈值时,停止训练,从而得到训练后的图像检测模型。损失函数可以为L1(绝对误差),也可以为MSE(Mean Squared Error,均方误差),也可以为余弦距离,本申请对此不作限定。
在一些实施例中,如图4所示,将本申请提出的InvAD与GT、RD、UniAD进行对比,相比之下,本文提出的InvAD产生了更加准确的异常定位结果。其他方法,会将正常区域误判为异常区域,示例性地,如RD方法将区域47和区域48错误定位为异常区域。UniAD方法将区域49、区域410错误定位成异常区域等。
在一些实施例中,请参考图7,其示出了本申请一个实施例提供的不同分辨率的实验结果对比的示意图。图7示出了从64到512的不同样本图像分辨率分别在mADI、mADP、mAU-PRO和mIoU-max指标上的结果。随着分辨率的增加,我们的方法可以得到更优的实验结果,当样本图像的分辨率大于或等于256×256时,与其他方法相比,本申请提出的方法显示出明显的优势。考虑到计算负荷和性能,本文在训练时采用默认分辨率256×256。
在一些实施例中,请参考图8,其示出了本申请一个实施例提供的不同训练轮次的实验结果对比的示意图。图8示出了从100、200、300、600、1000不同训练轮次分别在mADI、mADP、mAU-PRO和mIoU-max指标上的结果。我们的方法收敛速度比其他方法更快,只需要100次迭代就能得到接近稳定的结果。
在一些实施例中,本申请在MVTec AD数据集进行对比测试。NR和NS分别为N个尺度的上采样特征的通道数和N个尺度的适应特征的通道数,NB、NC和NL分别为BottleNeck的层数、上采样子网中普通卷积层的层数和特征解码网络的卷积层的层数。mADI、mADP、mAU-PRO和MIoU-max为评价指标。Channel Configure是指通道数的配置,Stack NumberConfigure是指层数配置。如表1所示:
表1
根据表1,显示了较少的通道数量足以获得满意的结果,而过多的通道数量并不能显著改善结果,反而会产生额外的计算成本。并且NB、NC和NL的层数分别为1层、1层和2层的配置,足以获得满意的结果,更多的层可能会对模型性能产生不利影响。
在一些实施例中,针对mADI、mADP、mAU-PRO和MIoU-max,5种指标,本申请对不同损失函数约束下的结果进行了分析,其中,LOSS是指损失函数,Cosf代表使用编码特征和解码特征之间的余弦距离作为损失函数,Cosp代表表示使用编码特征和解码特征之间的偏余弦距离作为损失函数。L1代表表示使用编码特征和解码特征之间的绝对距离作为损失函数,MSE代表表示使用编码特征和解码特征之间的均方误差作为损失函数。Sch.代表调度器,其中Cosine是指余弦退火调度器(cosine annealing scheduler),Step是指分步降低学习率(Step decay strategy),二者分别为两种不同的调度器。其中,如下表2所示:
表2
根据表2,本申请的方法在Cosf、Cosp、L1和MSE约束下具有较强的鲁棒性,本申请在Cosine与Step两种调度器下指标的结果没有显著差异。
在一些实施例中,在3个主流数据集上,分别为COCO-AD数据集、MVTec AD数据集和VisA数据集。我们的方法在14种指标上相较于DRAEM(Dynamic Routing for AspectExtraction and Modulation,动态路由方面提取和调制)、RD、UniAD、DeSTSeg(DeepSpatio-Temporal Semantic Segmentation,深度时空语义分割)、SimpleNet方法具有明显更高的优势。其中指标中前缀“m”表示所有类别的平均度量结果。
表3中,Image-level(Classification)是指在计算机视觉任务中对整个图像进行分类的级别。这意味着模型将输入的图像作为整体进行分类,而不考虑图像内部的具体区域或像素。Region-level是指在计算机视觉任务中对图像内特定区域进行分析和处理的级别。在这个级别上,模型关注的是图像中的特定区域。Pixel-level(Segmentation)是指在计算机视觉任务中对图像中每个像素进行分割和分类的级别。这意味着模型要为图像中的每个像素预测其所属的类别或标签,从而将图像分割成多个区域。像素级分割通常需要更精细的、像素级别的注释或标签信息。Averaged Metrics是指对多个指标进行综合考虑或平均的度量指标。在评估模型性能时,可以使用多个指标来度量不同方面的表现,如准确率、召回率、精确度等。Averaged Metrics将这些指标综合起来,通常是通过计算均值或加权平均来获取一个综合的评估指标。
Metric代表不同指标。其中,不同指标的含义如下:mAU-ROC(mean Average-precision of area under ROC curve):平均ROC-AUC(ROC曲线下面积)指标;mAP(meanAverage Precision):平均精确率指标;mF1-max:最大F1值指标,一种同时考虑精度和召回率的度量指标;mAU-PRO(mean Average-precision of Parzen-Rosenblatt estimatorOutput)是一个用于检测问题中的性能指标,与mAU-ROC类似。它使用大面积的概率密度函数(Parzen-Rosenblatt估计器)来模拟每个类的样本概率分布,并将这些概率值用于计算平均准确率;MIoU-max(maximum mean Intersection over Union):最大平均IoU值指标;mADI(mean Average Distance Intersection):平均交集距离指标;mADP(mean AverageDistance Precision):平均距离精度指标。如下表3所示:
表3
根据表3,其中表格中加粗的数字为最优结果,根据结果可知,无论是在通用复杂场景的数据集COCO-AD上、还是在工业MVTec AD数据集上,还是在小物体缺陷检测数据集VisA上,本文提出的InvAD框架在所有指标上都能取得显著的更优的结果。
本申请提出的技术方案,通过提取输入图像在多个尺度上的编码特征,有效保留了输入图像多个尺度的特征信息,特征融合网络对多个尺度的编码特征进行融合,得到融合特征。上采样网络对该融合特征进行上采样,得到多个尺度的上采样特征。进一步地,风格转换网络对不同尺度的上采样特征的通道维度进行变换,得到多个尺度的适应特征,能够增加特征表达的多样性。通过特征解码网络根据不同尺度的适应特征,可以得到不同尺度的高质量重建特征。一方面,本申请提出的上述网络中只包含卷积操作,简单且高效。另一方面,通过多个尺度的编码特征的融合利用,可以得到多个尺度高质量的重建特征,从而实现更加准确和高效的异常图像检测。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图9,其示出了本申请一个实施例提供的基于图像检测模型的异常图像检测装置的框图。该装置具有实现上述基于图像检测模型的异常图像检测方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置在计算机设备中。该装置900可以包括:提取模块910、第一得到模块920、第二得到模块930、第三得到模块940、第四得到模块950和确定模块960。
提取模块910,用于对于待检测的第一图像,提取所述第一图像的N个尺度的编码特征,N为大于1的整数。
第一得到模块920,用于通过所述特征融合网络对所述N个尺度的编码特征进行融合,得到融合特征。
第二得到模块930,用于通过所述上采样网络对所述融合特征进行上采样,得到所述N个尺度的上采样特征。
第三得到模块940,用于通过所述风格转换网络对所述N个尺度的上采样特征进行通道变换,得到所述N个尺度的适应特征,其中,所述通道变换为通道压缩或通道扩展。
第四得到模块950,用于通过所述特征解码网络根据所述N个尺度的适应特征,得到所述N个尺度的重建特征。
确定模块960,用于根据所述N个尺度的重建特征和所述N个尺度的编码特征,确定所述第一图像的异常检测结果。
在一些实施例中,所述第四得到模块950,包括:第一得到单元(图9中未示出)。
第一得到单元,用于对于所述N个尺度中的第i个尺度,通过所述特征解码网络根据所述第i个尺度的适应特征和所述第i个尺度初始的恢复特征,得到所述第i个尺度的重建特征,i为小于或等于N的正整数;其中,当i等于1时,所述第i个尺度初始的恢复特征为预设的固定特征,当i大于1时,所述第i个尺度初始的恢复特征为第i-1个尺度的重建特征。
在一些实施例中,所述特征解码网络包括M个特征解码子网,M为正整数;所述第一得到单元,包括:得到子单元和确定子单元(图9中未示出)。
得到子单元,用于对于所述M个特征解码子网中的第j个特征解码子网,通过所述第j个特征解码子网,对所述第j个特征解码子网的输入数据进行处理,得到所述第j个特征解码子网输出的恢复特征,j为小于或等于M的正整数,其中,当j等于1时,所述第j个特征解码子网的输入数据包括所述第i个尺度的适应特征和所述第i个尺度初始的恢复特征,当j大于1时,所述第j个特征解码子网的输入数据包括所述第i个尺度的适应特征和第j-1个特征解码子网输出的恢复特征。
确定子单元,用于将所述M个特征解码子网中的第M个特征解码子网输出的恢复特征,确定为所述第i个尺度的重建特征。
在一些实施例中,所述得到子单元,用于:通过所述第j个特征解码子网,对所述第i个尺度的适应特征进行两种不同的线性处理,得到第二中间特征和第三中间特征;将所述第j个特征解码子网的输入数据中包括的所述恢复特征的各个数值,与所述恢复特征的各个数值的均值相减,得到第四中间特征;将所述第二中间特征与所述第四中间特征中对应位置的数值相乘,得到第五中间特征;将所述第五中间特征除以所述恢复特征的各个数值的标准差,得到第六中间特征;将所述第六中间特征与所述第三中间特征中对应位置的数值相加,得到所述第j个特征解码子网输出的恢复特征。
在一些实施例中,所述确定模块960,包括:第二得到单元、第三得到单元、第四得到单元和确定单元(图9中未示出)。
第二得到单元,用于对于所述N个尺度中的第i个尺度,根据所述第i个尺度的重建特征与所述第i个尺度的编码特征中对应位置数值之间的差异,得到所述第i个尺度的差异图像,其中,所述第i个尺度的差异图像中每一个像素的取值,为所述第i个尺度的重建特征与所述第i个尺度的编码特征中一组对应位置数值之间的差异,i为小于或等于N的正整数。
第三得到单元,用于将所述N个尺度的差异图像转换成所述第一图像的尺度,得到N个同一尺度的差异图像。
第四得到单元,用于对所述N个同一尺度的差异图像进行融合处理,得到最终差异图像。
确定单元,用于基于所述最终差异图像,确定所述第一图像的异常检测结果。
在一些实施例中,所述第四得到单元,用于:将所述N个同一尺度的差异图像中对应位置数值相加,得到所述最终差异图像;或者,将所述N个同一尺度的差异图像中对应位置数值求平均,得到所述最终差异图像。
在一些实施例中,所述确定单元,用于:若所述最终差异图像中存在异常像素,则确定所述第一图像为异常图像,所述异常像素是指取值属于设定取值范围的像素;基于所述异常像素,确定所述第一图像中的异常区域。
在一些实施例中,所述第一得到模块920,包括:融合单元(图9中未示出)。
融合单元,用于通过所述特征融合网络将所述N个尺度的编码特征转换成同一尺度的编码特征,得到N个同一尺度的编码特征;将所述N个同一尺度的编码特征进行通道拼接,得到所述融合特征。
在一些实施例中,所述第一得到模块920,还包括:变换单元(图9中未示出)。
变换单元,用于通过至少一个BottleNeck层对所述融合特征进行特征变换,得到变换后的融合特征,其中,所述变换后的融合特征与所述融合特征具有相同的尺度和通道数,且所述变换后的融合特征与所述融合特征具有不同的数值表示,所述变换后的融合特征用于进行上采样得到所述N个尺度的上采样特征。
在一些实施例中,所述上采样网络包括N个上采样子网;所述第二得到模块930,包括:上采样单元和确定单元(图9中未示出)。
上采样单元,用于对于所述N个上采样子网中的第i个上采样子网,通过所述第i个上采样子网,对所述第i个上采样子网的输入数据进行上采样,得到所述第i个上采样子网输出的上采样特征,i为小于或等于N的正整数,其中,当i等于1时,所述第i个上采样子网的输入数据为所述融合特征,当i大于1时,所述第i个上采样子网的输入数据为第i-1个上采样子网输出的上采样特征。
确定单元,用于将所述N个上采样子网输出的上采样特征,确定为所述N个尺度的上采样特征。
在一些实施例中,所述第i个上采样子网包括一个上采样卷积层和至少一个普通卷积层;所述上采样单元,用于:通过所述上采样卷积层对所述第i个上采样子网的输入数据进行上采样,得到第一中间特征;通过所述至少一个普通卷积层对所述第一中间特征进行卷积处理,得到所述第i个上采样子网输出的上采样特征。
在一些实施例中,所述第三得到模块940,用于:对于所述N个尺度中的第i个尺度,通过所述风格转换网络对所述第i个尺度的上采样特征进行通道维度的卷积处理,得到所述第i个尺度的适应特征,其中,所述通道维度的卷积处理用于实现所述通道压缩或通道扩展,i为小于或等于N的正整数。
本申请提出的技术方案,通过提取输入图像在多个尺度上的编码特征,有效保留了输入图像多个尺度的特征信息,特征融合网络对多个尺度的编码特征进行融合,得到融合特征。上采样网络对该融合特征进行上采样,得到多个尺度的上采样特征。进一步地,风格转换网络对不同尺度的上采样特征的通道维度进行变换,得到多个尺度的适应特征,能够增加特征表达的多样性。通过特征解码网络根据不同尺度的适应特征,可以得到不同尺度的高质量重建特征。一方面,本申请提出的上述网络中只包含卷积操作,简单且高效。另一方面,通过多个尺度的编码特征的融合利用,可以得到多个尺度高质量的重建特征,从而实现更加准确和高效的异常图像检测。
请参照图10,其示出了本申请一个实施例提供的图像检测模型的训练装置的框图。该装置具有实现上述图像检测模型的训练方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置在计算机设备中。该装置1000可以包括:获取模块1010、提取模块1020、第一得到模块1030、第二得到模块1040、第三得到模块1050、第四得到模块1060和调整模块1070。
获取模块1010,用于获取用于训练所述图像检测模型的样本图像,所述样本图像中不存在异常区域。
提取模块1020,用于提取所述样本图像的N个尺度的编码特征,N为大于1的整数。
第一得到模块1030,用于通过所述特征融合网络对所述N个尺度的编码特征进行融合,得到融合特征。
第二得到模块1040,用于通过所述上采样网络对所述融合特征进行上采样,得到所述N个尺度的上采样特征。
第三得到模块1050,用于通过所述风格转换网络对所述N个尺度的上采样特征进行通道变换,得到所述N个尺度的适应特征,其中,所述通道变换为通道压缩或通道扩展。
第四得到模块1060,用于通过所述特征解码网络根据所述N个尺度的适应特征,得到所述N个尺度的重建特征。
调整模块1070,用于以最小化所述N个尺度的重建特征和所述N个尺度的编码特征之间的差异为目标,对所述图像检测模型的参数进行调整,得到训练后的图像检测模型。
本申请提出的技术方案,通过提取输入图像在多个尺度上的编码特征,有效保留了输入图像多个尺度的特征信息,特征融合网络对多个尺度的编码特征进行融合,得到融合特征。上采样网络对该融合特征进行上采样,得到多个尺度的上采样特征。进一步地,风格转换网络对不同尺度的上采样特征的通道维度进行变换,得到多个尺度的适应特征,能够增加特征表达的多样性。通过特征解码网络根据不同尺度的适应特征,可以得到不同尺度的高质量重建特征。一方面,本申请提出的上述网络中只包含卷积操作,简单且高效。另一方面,通过多个尺度的编码特征的融合利用,可以得到多个尺度高质量的重建特征,从而实现更加准确和高效的异常图像检测。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图11,其示出了本申请一个实施例提供的计算机设备1100的结构框图。
通常,计算机设备1100包括有:处理器1110和存储器1120。
处理器1110可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1110可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(FieldProgrammable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1110也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1110可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1110还可以包括AI处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1120可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1120还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1120中的非暂态的计算机可读存储介质用于存储计算机程序,所述计算机程序经配置以由一个或者一个以上处理器执行,以实现上述基于图像检测模型的异常图像检测方法或上述图像检测模型的训练方法。
本领域技术人员可以理解,图11中示出的结构并不构成对计算机设备1100的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在一些实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述基于图像检测模型的异常图像检测方法或上述图像检测模型的训练方法。
可选地,该计算机可读存储介质可以包括:ROM(Read-Only Memory,只读存储器)、RAM(Random-Access Memory,随机存储器)、SSD(Solid State Drives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory,动态随机存取存储器)。
在一些实施例中,还提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中,处理器从所述计算机可读存储介质读取并执行所述计算机程序,以实现上述基于图像检测模型的异常图像检测方法或上述图像检测模型的训练方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (18)
1.一种基于图像检测模型的异常图像检测方法,其特征在于,所述图像检测模型包括特征融合网络、上采样网络、风格转换网络和特征解码网络;所述方法包括:
对于待检测的第一图像,提取所述第一图像的N个尺度的编码特征,N为大于1的整数;
通过所述特征融合网络对所述N个尺度的编码特征进行融合,得到融合特征;
通过所述上采样网络对所述融合特征进行上采样,得到所述N个尺度的上采样特征;
通过所述风格转换网络对所述N个尺度的上采样特征进行通道变换,得到所述N个尺度的适应特征,其中,所述通道变换为通道压缩或通道扩展;
通过所述特征解码网络根据所述N个尺度的适应特征,得到所述N个尺度的重建特征;
根据所述N个尺度的重建特征和所述N个尺度的编码特征,确定所述第一图像的异常检测结果。
2.根据权利要求1所述的方法,其特征在于,所述通过所述特征解码网络根据所述N个尺度的适应特征,得到所述N个尺度的重建特征,包括:
对于所述N个尺度中的第i个尺度,通过所述特征解码网络根据所述第i个尺度的适应特征和所述第i个尺度初始的恢复特征,得到所述第i个尺度的重建特征,i为小于或等于N的正整数;
其中,当i等于1时,所述第i个尺度初始的恢复特征为预设的固定特征,当i大于1时,所述第i个尺度初始的恢复特征为第i-1个尺度的重建特征。
3.根据权利要求2所述的方法,其特征在于,所述特征解码网络包括M个特征解码子网,M为正整数;
所述通过所述特征解码网络根据所述第i个尺度的适应特征和所述第i个尺度初始的恢复特征,得到所述第i个尺度的重建特征,包括:
对于所述M个特征解码子网中的第j个特征解码子网,通过所述第j个特征解码子网,对所述第j个特征解码子网的输入数据进行处理,得到所述第j个特征解码子网输出的恢复特征,j为小于或等于M的正整数,其中,当j等于1时,所述第j个特征解码子网的输入数据包括所述第i个尺度的适应特征和所述第i个尺度初始的恢复特征,当j大于1时,所述第j个特征解码子网的输入数据包括所述第i个尺度的适应特征和第j-1个特征解码子网输出的恢复特征;
将所述M个特征解码子网中的第M个特征解码子网输出的恢复特征,确定为所述第i个尺度的重建特征。
4.根据权利要求3所述的方法,其特征在于,所述通过所述第j个特征解码子网,对所述第j个特征解码子网的输入数据进行处理,得到所述第j个特征解码子网输出的恢复特征,包括:
通过所述第j个特征解码子网,对所述第i个尺度的适应特征进行两种不同的线性处理,得到第二中间特征和第三中间特征;
将所述第j个特征解码子网的输入数据中包括的所述恢复特征的各个数值,与所述恢复特征的各个数值的均值相减,得到第四中间特征;
将所述第二中间特征与所述第四中间特征中对应位置的数值相乘,得到第五中间特征;
将所述第五中间特征除以所述恢复特征的各个数值的标准差,得到第六中间特征;
将所述第六中间特征与所述第三中间特征中对应位置的数值相加,得到所述第j个特征解码子网输出的恢复特征。
5.根据权利要求1所述的方法,其特征在于,所述根据所述N个尺度的重建特征和所述N个尺度的编码特征,确定所述第一图像的异常检测结果,包括:
对于所述N个尺度中的第i个尺度,根据所述第i个尺度的重建特征与所述第i个尺度的编码特征中对应位置数值之间的差异,得到所述第i个尺度的差异图像,其中,所述第i个尺度的差异图像中每一个像素的取值,为所述第i个尺度的重建特征与所述第i个尺度的编码特征中一组对应位置数值之间的差异,i为小于或等于N的正整数;
将所述N个尺度的差异图像转换成所述第一图像的尺度,得到N个同一尺度的差异图像;
对所述N个同一尺度的差异图像进行融合处理,得到最终差异图像;
基于所述最终差异图像,确定所述第一图像的异常检测结果。
6.根据权利要求5所述的方法,其特征在于,所述对所述N个同一尺度的差异图像进行融合处理,得到最终差异图像,包括:
将所述N个同一尺度的差异图像中对应位置数值相加,得到所述最终差异图像;
或者,
将所述N个同一尺度的差异图像中对应位置数值求平均,得到所述最终差异图像。
7.根据权利要求6所述的方法,其特征在于,所述基于所述最终差异图像,确定所述第一图像的异常检测结果,包括:
若所述最终差异图像中存在异常像素,则确定所述第一图像为异常图像,所述异常像素是指取值属于设定取值范围的像素;
基于所述异常像素,确定所述第一图像中的异常区域。
8.根据权利要求1所述的方法,其特征在于,所述通过所述特征融合网络对所述N个尺度的编码特征进行融合,得到融合特征,包括:
通过所述特征融合网络将所述N个尺度的编码特征转换成同一尺度的编码特征,得到N个同一尺度的编码特征;
将所述N个同一尺度的编码特征进行通道拼接,得到所述融合特征。
9.根据权利要求8所述的方法,其特征在于,所述将所述N个同一尺度的编码特征进行通道拼接,得到所述融合特征之后,还包括:
通过至少一个BottleNeck层对所述融合特征进行特征变换,得到变换后的融合特征,其中,所述变换后的融合特征与所述融合特征具有相同的尺度和通道数,且所述变换后的融合特征与所述融合特征具有不同的数值表示,所述变换后的融合特征用于进行上采样得到所述N个尺度的上采样特征。
10.根据权利要求1所述的方法,其特征在于,所述上采样网络包括N个上采样子网;
所述通过所述上采样网络对所述融合特征进行上采样,得到所述N个尺度的上采样特征,包括:
对于所述N个上采样子网中的第i个上采样子网,通过所述第i个上采样子网,对所述第i个上采样子网的输入数据进行上采样,得到所述第i个上采样子网输出的上采样特征,i为小于或等于N的正整数,其中,当i等于1时,所述第i个上采样子网的输入数据为所述融合特征,当i大于1时,所述第i个上采样子网的输入数据为第i-1个上采样子网输出的上采样特征;
将所述N个上采样子网输出的上采样特征,确定为所述N个尺度的上采样特征。
11.根据权利要求10所述的方法,其特征在于,所述第i个上采样子网包括一个上采样卷积层和至少一个普通卷积层;
所述通过所述第i个上采样子网,对所述第i个上采样子网的输入数据进行上采样,得到所述第i个上采样子网输出的上采样特征,包括:
通过所述上采样卷积层对所述第i个上采样子网的输入数据进行上采样,得到第一中间特征;
通过所述至少一个普通卷积层对所述第一中间特征进行卷积处理,得到所述第i个上采样子网输出的上采样特征。
12.根据权利要求1所述的方法,其特征在于,所述通过所述风格转换网络对所述N个尺度的上采样特征进行通道变换,得到所述N个尺度的适应特征,包括:
对于所述N个尺度中的第i个尺度,通过所述风格转换网络对所述第i个尺度的上采样特征进行通道维度的卷积处理,得到所述第i个尺度的适应特征,其中,所述通道维度的卷积处理用于实现所述通道压缩或通道扩展,i为小于或等于N的正整数。
13.一种图像检测模型的训练方法,其特征在于,所述图像检测模型包括特征融合网络、上采样网络、风格转换网络和特征解码网络;所述方法包括:
获取用于训练所述图像检测模型的样本图像,所述样本图像中不存在异常区域;
提取所述样本图像的N个尺度的编码特征,N为大于1的整数;
通过所述特征融合网络对所述N个尺度的编码特征进行融合,得到融合特征;
通过所述上采样网络对所述融合特征进行上采样,得到所述N个尺度的上采样特征;
通过所述风格转换网络对所述N个尺度的上采样特征进行通道变换,得到所述N个尺度的适应特征,其中,所述通道变换为通道压缩或通道扩展;
通过所述特征解码网络根据所述N个尺度的适应特征,得到所述N个尺度的重建特征;
以最小化所述N个尺度的重建特征和所述N个尺度的编码特征之间的差异为目标,对所述图像检测模型的参数进行调整,得到训练后的图像检测模型。
14.一种基于图像检测模型的异常图像检测装置,其特征在于,所述图像检测模型包括特征融合网络、上采样网络、风格转换网络和特征解码网络;所述装置包括:
提取模块,用于对于待检测的第一图像,提取所述第一图像的N个尺度的编码特征,N为大于1的整数;
第一得到模块,用于通过所述特征融合网络对所述N个尺度的编码特征进行融合,得到融合特征;
第二得到模块,用于通过所述上采样网络对所述融合特征进行上采样,得到所述N个尺度的上采样特征;
第三得到模块,用于通过所述风格转换网络对所述N个尺度的上采样特征进行通道变换,得到所述N个尺度的适应特征,其中,所述通道变换为通道压缩或通道扩展;
第四得到模块,用于通过所述特征解码网络根据所述N个尺度的适应特征,得到所述N个尺度的重建特征;
确定模块,用于根据所述N个尺度的重建特征和所述N个尺度的编码特征,确定所述第一图像的异常检测结果。
15.一种图像检测模型的训练装置,其特征在于,所述图像检测模型包括特征融合网络、上采样网络、风格转换网络和特征解码网络;所述装置包括:
获取模块,用于获取用于训练所述图像检测模型的样本图像,所述样本图像中不存在异常区域;
提取模块,用于提取所述样本图像的N个尺度的编码特征,N为大于1的整数;
第一得到模块,用于通过所述特征融合网络对所述N个尺度的编码特征进行融合,得到融合特征;
第二得到模块,用于通过所述上采样网络对所述融合特征进行上采样,得到所述N个尺度的上采样特征;
第三得到模块,用于通过所述风格转换网络对所述N个尺度的上采样特征进行通道变换,得到所述N个尺度的适应特征,其中,所述通道变换为通道压缩或通道扩展;
第四得到模块,用于通过所述特征解码网络根据所述N个尺度的适应特征,得到所述N个尺度的重建特征;
调整模块,用于以最小化所述N个尺度的重建特征和所述N个尺度的编码特征之间的差异为目标,对所述图像检测模型的参数进行调整,得到训练后的图像检测模型。
16.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至12任一项所述的方法,或者如权利要求13所述的方法。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至12任一项所述的方法,或者如权利要求13所述的方法。
18.一种计算机程序产品,其特征在于,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中,处理器从所述计算机可读存储介质读取并执行所述计算机程序,以实现如权利要求1至12任一项所述的方法,或者如权利要求13所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311756327.7A CN117710785A (zh) | 2023-12-18 | 2023-12-18 | 基于图像检测模型的异常图像检测方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311756327.7A CN117710785A (zh) | 2023-12-18 | 2023-12-18 | 基于图像检测模型的异常图像检测方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117710785A true CN117710785A (zh) | 2024-03-15 |
Family
ID=90156717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311756327.7A Pending CN117710785A (zh) | 2023-12-18 | 2023-12-18 | 基于图像检测模型的异常图像检测方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117710785A (zh) |
-
2023
- 2023-12-18 CN CN202311756327.7A patent/CN117710785A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Islam et al. | Revisiting salient object detection: Simultaneous detection, ranking, and subitizing of multiple salient objects | |
WO2021137946A1 (en) | Forgery detection of face image | |
CN115953665B (zh) | 一种目标检测方法、装置、设备及存储介质 | |
CN112598579A (zh) | 面向监控场景的图像超分辨率方法、装置及存储介质 | |
CN111626994A (zh) | 基于改进U-Net神经网络的设备故障缺陷诊断方法 | |
CN112784750B (zh) | 基于像素和区域特征匹配的快速视频物体分割方法和装置 | |
CN111027412A (zh) | 一种人体关键点识别方法、装置及电子设备 | |
CN115631112B (zh) | 一种基于深度学习的建筑轮廓矫正方法及装置 | |
CN112907569A (zh) | 头部图像区域的分割方法、装置、电子设备和存储介质 | |
CN115909445A (zh) | 人脸图像伪造检测方法及相关设备 | |
García-González et al. | Background subtraction by probabilistic modeling of patch features learned by deep autoencoders | |
CN114565035A (zh) | 一种舌象分析方法、终端设备及存储介质 | |
Niu et al. | Boundary-aware RGBD salient object detection with cross-modal feature sampling | |
CN117115900B (zh) | 一种图像分割方法、装置、设备及存储介质 | |
CN113822871A (zh) | 基于动态检测头的目标检测方法、装置、存储介质及设备 | |
CN113822144A (zh) | 一种目标检测方法、装置、计算机设备和存储介质 | |
WO2024066697A1 (zh) | 一种图像处理方法和相关装置 | |
CN112884702A (zh) | 一种基于内窥镜图像的息肉识别系统和方法 | |
CN114372944B (zh) | 一种多模态和多尺度融合的候选区域生成方法及相关装置 | |
CN117710785A (zh) | 基于图像检测模型的异常图像检测方法、装置及设备 | |
Huang et al. | Deep Multimodal Fusion Autoencoder for Saliency Prediction of RGB‐D Images | |
Shanqing et al. | A multi-level feature weight fusion model for salient object detection | |
CN112052863B (zh) | 一种图像检测方法及装置、计算机存储介质、电子设备 | |
CN115358981A (zh) | 胶水缺陷的确定方法、装置、设备及存储介质 | |
CN116883770A (zh) | 深度估计模型的训练方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |