CN116843614A - 一种基于先验引导多语义融合的图像异常检测和定位方法 - Google Patents
一种基于先验引导多语义融合的图像异常检测和定位方法 Download PDFInfo
- Publication number
- CN116843614A CN116843614A CN202310524403.5A CN202310524403A CN116843614A CN 116843614 A CN116843614 A CN 116843614A CN 202310524403 A CN202310524403 A CN 202310524403A CN 116843614 A CN116843614 A CN 116843614A
- Authority
- CN
- China
- Prior art keywords
- image
- semantic
- features
- global
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000001514 detection method Methods 0.000 title claims abstract description 21
- 230000005856 abnormality Effects 0.000 claims abstract description 14
- 239000013598 vector Substances 0.000 claims abstract description 7
- 230000002159 abnormal effect Effects 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims abstract description 5
- 238000012360 testing method Methods 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 16
- 238000004821 distillation Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000012512 characterization method Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000004807 localization Effects 0.000 claims 1
- 230000007547 defect Effects 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明涉及计算机视觉处理技术领域,特别涉及一种基于先验引导多语义融合的图像异常检测和定位方法,所述方法的实现包括内容如下:通过预先训练好的视觉‑语言网络提取正常图像的抽象全局语义,然后构建可学习的语义编码库,通过向量离散化来存储正常样本的代表性特征向量。最后,将上述多语义特征进行融合后,作为解码器的输入,引导异常图像重建为正常,以此来检测和定位异常。本发明通过能够在没有任何异常先验的情况下,准确检测并定位到图像中存在的异常。极大的提高了检测效率和准确性。
Description
技术领域
本发明涉及计算机视觉处理技术领域,具体提供一种基于先验引导多语义融合的图像异常检测和定位方法。
背景技术
无监督异常检测是指在没有任何异常先验的情况下检测并定位异常,近几年无监督异常检测受到越来越多的关注,并被广泛应用于许多领域的计算机视觉,如医学疾病诊断,工业缺陷检测,道路安全监测。由于工业产品表面缺陷对产品安全性和使用性带来不良影响,因此在工业领域特别需要异常检测技术。此外,在医学领域,异常检测可以帮助医生更好地诊断医学影像中存在的异常。
无监督异常检测方法通常能够通过检测异常的外观和行为偏差来成功发现异常。这些偏差主要分为两类:结构异常和逻辑异常。结构异常是指全新的局部结构与正常情况的差异,而逻辑异常则是违反正常样本的基本逻辑或几何约束的内容。预训练模型嵌入到异常检测模型中,并将网络提取的特征进行分类的方法被广泛采用,可以取得良好的效果。然而,对于逻辑异常而言,这种方法并不十分有效。
编码器-解码器架构具有很大的潜力,可以通过将输入图像压缩为低维瓶颈来捕获全局上下文信息,从而捕获逻辑异常。但是,仍有一些重要的问题尚未解决。虽然网络是在无异常数据集上进行训练的,但由于其泛化能力,它们具有天生的捕获测试样本异常的能力,尤其是在具有复杂语义的数据集上进行训练时。因此,在输入解码器的瓶颈中可能仍存在异常语义,从而减少了编码器和解码器在异常上的表示差异。其次,解码器试图从低维瓶颈中重建高维表示。然而,由于在低维瓶颈中缺乏不同的层次特征,重构总是模糊和不准确的。
发明内容
本发明的技术任务是针对上述存在的问题,提供了一种基于先验引导多语义融合的图像异常检测和定位方法。
本发明提供了如下技术方案:
一种基于先验引导多语义融合的图像异常检测和定位方法,所述方法的实现包括内容如下:
通过预训练的视觉-语言网络提取正常图像的抽象全局语义特征;
通过外部数据集训练的教师编码器网络提取正常图像的特征;
将教师网络每层提取的特征通过向量离散化并构建可学习的语义编码库对提取特征进行替换;
将上述多语义特征进行融合后,作为学生解码器网络的输入,引导异常图像重建为正常,以此来检测和定位异常。
所述方法实现步骤如下:
步骤1、获取待检测图像数据,并对图像进行预处理操作;
步骤2、将预处理后的图像输入到经过预训练的教师编码器网络中来获得全局的图像特征;
步骤3、将图像的文本标签输入到预训练的视觉-语言网络提取正常图像的抽象全局语义特征;
步骤4、将教师编码器网络中每一层的特征进行离散化,并构建可学习的语义编码库对提取的特征进行替换;
步骤5、将上述特征进行融合送入学生解码器中,进行蒸馏训练;
步骤6、将测试数据输入所述预训练网络和到预训练的视觉-语言网络进行测试;
步骤7、计算所述测试数据得到的重建误差,进而对异常进行检测和定位。
所述步骤1包括以下步骤:
步骤11,采集图像数据,定义原始图像为X∈RC×H×W;其中C代表图像维度,H表示图像的高,W表示图像的宽;
步骤12,对图像数据进行尺寸缩放处理,公式如下:
其中,S(x,y)表示缩放后的图像中对应的像素点,(x,y)为像素点坐标,X表示原始图像,Xw和Xh表示原始图像的宽和高,Sw和Sh表示缩放后图像的宽和高;
步骤13,对图像数据进行归一化,公式如下:
其中,Smax,Smin分别表示图像中全部像素具体数值的最大值和最小值;
步骤14,对图像数据进行标准化,公式如下:
其中mean(·)代表各个通道的均值,std(·)代表各个通道的标准差。
所述步骤2包括以下步骤:
步骤21,获得图像的全局特征,具体表示为:
其中,xi代表数据集中的数据,代表预训练的教师编码器网络。
步骤22,对全局特征fig进一步下采样获得全局特征Fig∈RC×H×W。
所述步骤3包括以下步骤:
步骤31,获得图像的全局语义特征,具体表示为:
其中,ti代表数据集中的图像的标签类别,代表预训练的视觉-语言网络,ti∈R1×512。
步骤32,对全局语义特征进行温度扩充并上采样,使得其尺寸与图像全局特征大小一致,获得特征Ti∈RC×H×W。
所述步骤4包括以下步骤:
步骤41,获得教师编码器网络中每一层的特征进,具体表示为:
其中,xi代表数据集中的数据,代表预训练网络,l代表不同层的特征,l选择1、2、3、4。
步骤42,将每一层的特征离散化,并构建可学习的语义编码库,具体表示为:
其中,Vl∈Rk×c,表示k个维度为c的fi,l(p,q)表示不同层(p,q)位置的图像特征,/>表示/>中的特征。通过重复上述操作,最终的通过聚合这些特征向量fi,l(p,q)'得到输出特性/>,所述重参数模块的优化目标为:
其中,sg[ ]表示停止梯度算符。
所述步骤5包括以下步骤:
步骤51,将全局语义特征Ti和图像全局特征Fig进行融合:
di=Ti⊕Fig
其中,⊕表示为拼接。
步骤52,将融合后的特征Di送入到LeWinBlocks注意力机制模块,并进行上采用操作得到特征Di。
步骤53,将全局语义特征Ti进行上采样和特征和对应层的特征fi,l(p,q)'进行融合:
重复步骤53,直到获得与输入大小相同的图像x'。
步骤54,采用蒸馏损失指导学生解码器网络进行学习,所述重参数模块的优化目标为:
Lmse=MSE(x,x'),
Ltotal=Lmse+Lcos+Lvg′,
所述步骤6包括以下步骤:
步骤61,将测试图像和对应文本标签分别送入预训练的教师编码器网络和预训练的视觉-语言网络。
步骤62,获得测试图像的全局语义特征和全局图像特征。
步骤63,利用训练阶段获得的语义编码库对测试图像的每一层的特征进行替换,得到替换后的特征。
步骤64,将三个特征按照训练阶段步骤送入学生解码器网络进行融合,并获得重建后的测试图像。
所述步骤7包括以下步骤:
步骤71:计算重建误差并根图像像素重建的差异检测和定位异常;
步骤72,通过双线性插值将特征图的大小调整为原始图像的分辨率,并用高斯核σ=4对其进行平滑处理。
与现有技术相比,本发明以下突出的有益效果:
本发明通过提出了一种新的正态先验引导多语义融合网络用于无监督异常检测。本发明通过提高异常输入与其重构之间的差异,显著提高了对异常的识别能力。通过融合抽象的全局上下文信息和不同层次的语义来构建正常图像的多语义特征,这有助于降低异常特征的再现。有效的提高了异常检测和定位的性能,本发明提出的无监督异常检测方法具有广泛的应用前景,可应用于医学疾病诊断、工业缺陷检测、道路安全监测等领域。
具体实施方式
下面将结合实施例,对本发明作进一步详细说明。
实施例1
一种基于先验引导多语义融合的图像异常检测和定位方法,所述方法实现步骤如下:
步骤1、获取待检测图像数据,并对图像进行预处理操作;
步骤11,采集图像数据,定义原始图像为X∈RC×H×W;其中C代表图像维度,H表示图像的高,W表示图像的宽;
步骤12,对图像数据进行尺寸缩放处理,公式如下:
其中,S(x,y)表示缩放后的图像中对应的像素点,(x,y)为像素点坐标,X表示原始图像,Xw和Xh表示原始图像的宽和高,Sw和Sh表示缩放后图像的宽和高;
步骤13,对图像数据进行归一化,公式如下:
其中,Smax,Smin分别表示图像中全部像素具体数值的最大值和最小值;
步骤14,对图像数据进行标准化,公式如下:
其中mean(·)代表各个通道的均值,std(·)代表各个通道的标准差。
步骤2、将预处理后的图像输入到经过预训练的教师编码器网络中来获得全局的图像特征;
步骤21,获得图像的全局特征,具体表示为:
其中,xi代表数据集中的数据,代表预训练的教师编码器网络。
步骤22,对全局特征fig进一步下采样获得全局特征Fig∈RC×H×W。
步骤3、将图像的文本标签输入到预训练的视觉-语言网络提取正常图像的抽象全局语义特征;
步骤31,获得图像的全局语义特征,具体表示为:
其中,ti代表数据集中的图像的标签类别,代表预训练的视觉-语言网络,ti∈R1×512。
步骤32,对全局语义特征进行温度扩充并上采样,使得其尺寸与图像全局特征大小一致,获得特征Ti∈RC×H×W。
步骤4、将教师编码器网络中每一层的特征进行离散化,并构建可学习的语义编码库对提取的特征进行替换;
步骤41,获得教师编码器网络中每一层的特征进,具体表示为:
其中,xi代表数据集中的数据,代表预训练网络,l代表不同层的特征,l选择1、2、3、4。
步骤42,将每一层的特征离散化,并构建可学习的语义编码库,具体表示为:
其中,Vl∈Rk×c,表示k个维度为c的fi,l(p,q)表示不同层(p,q)位置的图像特征,/>表示/>中的特征。通过重复上述操作,最终的通过聚合这些特征向量fi,l(p,q)'得到输出特性/>,所述重参数模块的优化目标为:
其中,sg[ ]表示停止梯度算符。
步骤5、将上述特征进行融合送入学生解码器中,进行蒸馏训练;
步骤51,将全局语义特征Ti和图像全局特征Fig进行融合:
di=Ti⊕Fig
其中,⊕表示为拼接。
步骤52,将融合后的特征Di送入到LeWinBlocks注意力机制模块,并进行上采用操作得到特征Di。
步骤53,将全局语义特征Ti进行上采样和特征和对应层的特征fi,l(p,q)'进行融合:
重复步骤53,直到获得与输入大小相同的图像x'。
步骤54,采用蒸馏损失指导学生解码器网络进行学习,所述重参数模块的优化目标为:
Lmse=MSE(x,x'),
Ltotal=Lmse+Lcos+Lvg′,
步骤6、将测试数据输入所述预训练网络和到预训练的视觉-语言网络进行测试;
步骤61,将测试图像和对应文本标签分别送入预训练的教师编码器网络和预训练的视觉-语言网络。
步骤62,获得测试图像的全局语义特征和全局图像特征。
步骤63,利用训练阶段获得的语义编码库对测试图像的每一层的特征进行替换,得到替换后的特征。
步骤64,将三个特征按照训练阶段步骤送入学生解码器网络进行融合,并获得重建后的测试图像。
步骤7、计算所述测试数据得到的重建误差,进而对异常进行检测和定位。
步骤71:计算重建误差并根图像像素重建的差异检测和定位异常;
步骤72,通过双线性插值将特征图的大小调整为原始图像的分辨率,并用高斯核σ=4对其进行平滑处理。
以上所述的实施例,只是本发明较优选的具体实施方式,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术工作人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
Claims (9)
1.一种基于先验引导多语义融合的图像异常检测和定位方法,其特征在于,所述方法的实现包括内容如下:
通过预训练的视觉-语言网络提取正常图像的抽象全局语义特征;
通过外部数据集训练的教师编码器网络提取正常图像的特征;
将教师网络每层提取的特征通过向量离散化并构建可学习的语义编码库对提取特征进行替换;
将上述多语义特征进行融合后,作为学生解码器网络的输入,引导异常图像重建为正常,以此来检测和定位异常。
2.根据权利要求1所述的一种基于先验引导多语义融合的图像异常检测和定位方法,其特征在于,所述方法实现步骤如下:
步骤1、获取待检测图像数据,并对图像进行预处理操作;
步骤2、将预处理后的图像输入到经过预训练的教师编码器网络中来获得全局的图像特征;
步骤3、将图像的文本标签输入到预训练的视觉-语言网络提取正常图像的抽象全局语义特征;
步骤4、将教师编码器网络中每一层的特征进行离散化,并构建可学习的语义编码库对提取的特征进行替换;
步骤5、将上述特征进行融合送入学生解码器中,进行蒸馏训练;
步骤6、将测试数据输入所述预训练网络和到预训练的视觉-语言网络进行测试;
步骤7、计算所述测试数据得到的重建误差,进而对异常进行检测和定位。
3.根据权利要求2所述的一种基于先验引导多语义融合的图像异常检测和定位方法,其特征在于,所述步骤1包括以下步骤:
步骤11,采集图像数据,定义原始图像为X∈RC×H×W;其中C代表图像维度,H表示图像的高,W表示图像的宽;
步骤12,对图像数据进行尺寸缩放处理,公式如下:
其中,S(x,y)表示缩放后的图像中对应的像素点,(x,y)为像素点坐标,X表示原始图像,Xw和Xh表示原始图像的宽和高,Sw和Sh表示缩放后图像的宽和高;
步骤13,对图像数据进行归一化,公式如下:
其中,Smax,Smin分别表示图像中全部像素具体数值的最大值和最小值;
步骤14,对图像数据进行标准化,公式如下:
其中mean(·)代表各个通道的均值,std(·)代表各个通道的标准差。
4.根据权利要求2所述的一种基于先验引导多语义融合的图像异常检测和定位方法,其特征在于,所述步骤2包括以下步骤:
步骤21,获得图像的全局特征,具体表示为:
其中,xi代表数据集中的数据,代表预训练的教师编码器网络。
步骤22,对全局特征fig进一步下采样获得全局特征Fig∈RC×H×W。
5.根据权利要求2所述的一种基于先验引导多语义融合的图像异常检测和定位方法,其特征在于,所述步骤3包括以下步骤:
步骤31,获得图像的全局语义特征,具体表示为:
其中,ti代表数据集中的图像的标签类别,代表预训练的视觉-语言网络,ti∈R1 ×512。
步骤32,对全局语义特征进行温度扩充并上采样,使得其尺寸与图像全局特征大小一致,获得特征Ti∈RC×H×W。
6.根据权利要求2所述的一种基于先验引导多语义融合的图像异常检测和定位方法,其特征在于,所述步骤4包括以下步骤:
步骤41,获得教师编码器网络中每一层的特征进,具体表示为:
其中,xi代表数据集中的数据,代表预训练网络,l代表不同层的特征,l选择1、2、3、4。
步骤42,将每一层的特征离散化,并构建可学习的语义编码库,具体表示为:
其中,Vl∈Rk×c,表示k个维度为c的fi,l(p,q)表示不同层(p,q)位置的图像特征,/>表示/>中的特征。通过重复上述操作,最终的通过聚合这些特征向量fi,l(p,q)'得到输出特性/>所述重参数模块的优化目标为:
其中,sg[ ]表示停止梯度算符。
7.根据权利要求2所述的一种基于先验引导多语义融合的图像异常检测和定位方法,其特征在于,所述步骤5包括以下步骤:
步骤51,将全局语义特征Ti和图像全局特征Fig进行融合:
其中,表示为拼接。
步骤52,将融合后的特征Di送入到LeWinBlocks注意力机制模块,并进行上采用操作得到特征Di。
步骤53,将全局语义特征Ti进行上采样和特征和对应层的特征fi,l(p,q)'进行融合:
重复步骤53,直到获得与输入大小相同的图像x'。
步骤54,采用蒸馏损失指导学生解码器网络进行学习,所述重参数模块的优化目标为:
Lmse=MSE(x,x′),
Ltotal=Lmse+Lcos+Lvg′。
8.根据权利要求2所述的一种基于先验引导多语义融合的图像异常检测和定位方法,其特征在于,所述步骤6包括以下步骤:
步骤61,将测试图像和对应文本标签分别送入预训练的教师编码器网络和预训练的视觉-语言网络。
步骤62,获得测试图像的全局语义特征和全局图像特征。
步骤63,利用训练阶段获得的语义编码库对测试图像的每一层的特征进行替换,得到替换后的特征。
步骤64,将三个特征按照训练阶段步骤送入学生解码器网络进行融合,并获得重建后的测试图像。
9.根据权利要求2所述的一种基于先验引导多语义融合的图像异常检测和定位方法,其特征在于,所述步骤7包括以下步骤:
步骤71:计算重建误差并根图像像素重建的差异检测和定位异常;
步骤72,通过双线性插值将特征图的大小调整为原始图像的分辨率,并用高斯核σ=4对其进行平滑处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310524403.5A CN116843614A (zh) | 2023-05-11 | 2023-05-11 | 一种基于先验引导多语义融合的图像异常检测和定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310524403.5A CN116843614A (zh) | 2023-05-11 | 2023-05-11 | 一种基于先验引导多语义融合的图像异常检测和定位方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116843614A true CN116843614A (zh) | 2023-10-03 |
Family
ID=88171442
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310524403.5A Pending CN116843614A (zh) | 2023-05-11 | 2023-05-11 | 一种基于先验引导多语义融合的图像异常检测和定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116843614A (zh) |
-
2023
- 2023-05-11 CN CN202310524403.5A patent/CN116843614A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110738697B (zh) | 基于深度学习的单目深度估计方法 | |
Saberironaghi et al. | Defect detection methods for industrial products using deep learning techniques: a review | |
CN114120102A (zh) | 边界优化的遥感图像语义分割方法、装置、设备及介质 | |
Zipfel et al. | Anomaly detection for industrial quality assurance: A comparative evaluation of unsupervised deep learning models | |
CN115294038A (zh) | 一种基于联合优化与混合注意力特征融合的缺陷检测方法 | |
CN111626994A (zh) | 基于改进U-Net神经网络的设备故障缺陷诊断方法 | |
Zheng et al. | A two-stage CNN for automated tire defect inspection in radiographic image | |
Chen et al. | Compound fault diagnosis for industrial robots based on dual-transformer networks | |
Moradi et al. | Automated anomaly detection and localization in sewer inspection videos using proportional data modeling and deep learning–based text recognition | |
Yao et al. | A feature memory rearrangement network for visual inspection of textured surface defects toward edge intelligent manufacturing | |
CN114972316A (zh) | 基于改进YOLOv5的电池壳端面缺陷实时检测方法 | |
Avola et al. | Real-time deep learning method for automated detection and localization of structural defects in manufactured products | |
CN116310916A (zh) | 一种高分辨率遥感城市图像语义分割方法及系统 | |
CN114663687A (zh) | 模型训练方法、目标识别方法、装置、设备及存储介质 | |
Shit et al. | An encoder‐decoder based CNN architecture using end to end dehaze and detection network for proper image visualization and detection | |
Luo et al. | Unsupervised defect segmentation via forgetting-inputting-based feature fusion and multiple hierarchical feature difference | |
CN111914706A (zh) | 一种文字检测输出结果质量检测和控制的方法与装置 | |
CN114841977B (zh) | 一种基于Swin Transformer结构结合SSIM和GMSD的疵点检测方法 | |
CN115205650B (zh) | 基于多尺度标准化流的无监督异常定位与检测方法及装置 | |
CN116580014A (zh) | 一种工业缺陷检测方法及系统 | |
CN116843614A (zh) | 一种基于先验引导多语义融合的图像异常检测和定位方法 | |
CN115984186A (zh) | 基于多分辨率知识提取的精细产品图像异常检测方法 | |
Zhang et al. | Automatic forgery detection for x-ray non-destructive testing of welding | |
Xu et al. | Discriminative feature learning framework with gradient preference for anomaly detection | |
CN112529881B (zh) | 一种电力控制柜线缆异常识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |