CN116109613A - 一种基于分布表征的缺陷检测方法和系统 - Google Patents

一种基于分布表征的缺陷检测方法和系统 Download PDF

Info

Publication number
CN116109613A
CN116109613A CN202310163563.1A CN202310163563A CN116109613A CN 116109613 A CN116109613 A CN 116109613A CN 202310163563 A CN202310163563 A CN 202310163563A CN 116109613 A CN116109613 A CN 116109613A
Authority
CN
China
Prior art keywords
distribution
image
data
neighborhood
characterization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310163563.1A
Other languages
English (en)
Inventor
李斌
李鹤
牛拴龙
王苗
刘保辉
柳春浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202310163563.1A priority Critical patent/CN116109613A/zh
Publication of CN116109613A publication Critical patent/CN116109613A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于分布表征的缺陷检测方法和系统,属于工业产品缺陷检测技术领域。本发明针对简单随机采样在缺陷样本量少的工业数据集上容易产生分布偏差的问题,本发明设计分布表征网络获取数据分布作为数据集拆分的理论依据;同时综合考虑了距离因素和密度因素,距离因素能够有效控制在整个数据分布上的各个区域中进行采样,保证样本区域采样的全面性,密度因素能够根据样本的聚集程度自适应调节样本采样的数量,保证抽取的样本均匀性。本发明能够有效保证拆分子集数据分布的一致性,有助于促进模型更稳定的性能表现以及更低达的分类误差。

Description

一种基于分布表征的缺陷检测方法和系统
技术领域
本发明属于工业产品缺陷检测技术领域,更具体地,涉及一种基于分布表征的缺陷检测方法和系统。
背景技术
缺陷检测对于监控生产过程和保障产品质量有着重要作用。随着深度学习在计算机领域的飞速发展,许多人员将图像分类、语义分割和目标检测等技术用于工业产品表面缺陷检测,相比于传统手工设计提取特征的方法取得了长足进步。数据拆分是深度学习模型开发中的一个基础而又重要的环节,其将数据集采样为训练集、测试集和验证集。需要注意的是数据拆分过程中引入额外的偏差会对模型性能产生显著影响,因此应尽可能保证训练集和测试集独立同分布,这样模型在测试集样本上的性能度量才能准确反应模型的泛化误差,从而获得真实可靠的性能评估。
目前使用最广泛的数据拆分方法仍然是简单随机采样。在样本数量多,图像多样性丰富的大型公有数据集上,依据概率论中心极限定理,随机拆分就能满足训练集和测试集在数据分布的一致性。而在工业场景中,生产线上产品合格率通常能达到99%以上,异常数据量少。随机拆分容易导致训练集、测试集在数据分布上差异过大而不能同等代表问题域,在多次数据拆分中无法保持模型性能的稳定,无法评估模型的真实性能。因此,随机拆分难以满足小型工业图像数据集拆分的需求,研究一种新的工业数据集拆分方法是非常必要的。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于分布表征的缺陷检测方法和系统,其目的在于解决随机拆分容易导致训练集、测试集在数据分布上差异过大而不能同等代表问题域,在多次数据拆分中无法保持模型性能稳定的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于分布表征的缺陷检测方法,包括:
S1.对工业图像数据集进行正常图像和缺陷类别图像标记;
S2.对标记的工业图像数据集图像进行多次数据增强,将来自同一张图像的两次增强视图作为正样本对,而来自不同图像的增强视图则作为负样本对;
S3.构建分布表征网络;所述分布表征网络包括编码器和投影头;所述编码器用于提取图像特征,将增强视图映射到潜在空间;所述投影头用于将编码器提取的图像特征进一步映射到单位超球面;
S4.将正样本对和负样本对输入分布表征网络,将标签先验信息引入对比损失作为损失函数迭代训练所述分布表征网络;
S5.将工业图像数据集输入训练好的分布表征模型,得到数据分布;所述数据分布中的表征向量与数据集中的每个图像一一对应;
S6.将所有表征向量划分为多个邻域:对向量间的特征差异进行量化,将特征差异小于设定阈值的向量划分为同一邻域;
S7.采样各个邻域的中心点,并根据邻域内样本的聚集程度确定各个邻域采样样本的数量α,在每个邻域中再次采样α个样本;将各个邻域的中心点以及α个样本点对应的图像构成测试集;
S8.将剩余图像作为训练集;并在剩余图像上重复步骤S6-S7得到验证集。
S9.利用划分的训练集、测试集和验证集进行缺陷检测。
进一步地,每一次数据增强具体过程为:
从数据变换空间中同等概率选取多种图像变换方式,对数据集图像进行初步数据增强;所述数据变换空间中包含像素值反转、直方图均衡化、随机涂抹、旋转、高斯模糊和仿射变换;
对初步增强的数据集图像进行常规的数据变换;常规的数据变换包括固定顺序的随机裁剪并归一化大小,随机水平翻转,改变图像属性和随机转换为灰度图。
进一步地,迭代训练所述分布表征网络的损失函数为:
Figure BDA0004095061640000031
C(i)是向量vi对应所有正样本的集合,i∈B={1,2,3...2N}是批次B中2N个增强视图的序号,vi=g(f(xi))为投影头输出的表示向量,(i,j)为一组正样本对的序号,1(k≠i)为指示函数当且仅当k≠i时值为1,τ为温度参数,sim(vi,vj)=vi·vj/||vi||||vj||为余弦相似度函数。
进一步地,分布表征网络训练过程中,采用轮廓系数作为分布表征质量评价指标,当其达到设定阈值,终止迭代训练。
进一步地,以表征向量x*为中心的邻域N(x*)满足:
N(x*)={xi∈D|dist(xi,x*)≤∈}
其中,dist(·)为距离度量函数用于将表示向量间的特征差异数值化,D={x1,x2,...,xn}为表征向量的集合,∈为设定的距离阈值。
进一步地,根据邻域内样本的聚集程度确定各个邻域采样样本的数量α的计算方式为:
Figure BDA0004095061640000032
其中ρ:0<ρ<1表示密度变量,调节ρ可以控制每个邻域内采样的密度,round为四舍五入取整函数,MinVecs为设定的阈值,|N(x)|体现了邻域中样本的聚集程度。
本发明还提供了一种基于分布表征的缺陷检测系统,包括:
图像标记模块,用于对工业图像数据集进行正常图像和缺陷类别图像标记;
数据增强模块,对标记的工业图像数据集图像进行多次数据增强,将来自同一张图像的两次增强视图作为正样本对,而来自不同图像的增强视图则作为负样本对;
分布表征网络构建模块;用于构建分布表征网络;所述分布表征网络包括编码器和投影头;所述编码器用于提取图像特征,将增强视图映射到潜在空间;所述投影头用于将编码器提取的图像特征进一步映射到单位超球面;
分布表征网络训练模块,用于将正样本对和负样本对输入分布表征网络,将标签先验信息引入对比损失作为损失函数迭代训练所述分布表征网络;
数据分布获取模块,用于将工业图像数据集输入训练好的分布表征模型,得到数据分布;所述数据分布中的表征向量与数据集中的每个图像一一对应;
邻域划分模块,用于将所有表征向量划分为多个邻域:对向量间的特征差异进行量化,将特征差异小于设定阈值的向量划分为同一邻域;
第一数据集拆分模块,用于采样各个邻域的中心点,并根据邻域内样本的聚集程度确定各个邻域采样样本的数量α,在每个邻域中再次采样α个样本;将各个邻域的中心点以及α个样本点对应的图像构成测试集;
第二数据集拆分模块,用于将剩余图像作为训练集;并在剩余图像上执行邻域划分模块和采样模块的处理过程得到验证集;
缺陷检测模块,利用划分的训练集、测试集和验证集进行缺陷检测。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果。
(1)本发明针对简单随机采样在缺陷样本量少的工业数据集上容易产生分布偏差的问题,本发明设计分布表征网络获取数据分布作为数据集拆分的理论依据;同时综合考虑了距离因素和密度因素,距离因素能够有效控制在整个数据分布上的各个区域中进行采样,保证样本区域采样的全面性,密度因素能够根据样本的聚集程度自适应调节样本采样的数量,保证抽取的样本均匀性,能够有效保证训练集和测试集数据分布上的一致性,克服数据拆分过程中引入潜在的偏差,获得更稳定的模型和更可靠的模型性能评估。
(2)本发明通过丰富多样的数据变换方式,对图像进行更强的数据变换,能够生成更多的有难度的负例,促使模型更全面的提取特征。
(3)本发明采用对比损失并将标签类别信息作为先验知识引入损失函数,来引导和约束分布表征网络特征的提取,能够减少模型训练样本的数量以及加强和后续缺陷检测任务的联系。
(4)本发明具有很好的泛化性和可迁移性,可适用于不同的工业图像数据集,无需进行繁琐的超参数优化,只需要在新的数据集上训练分布表征模型即可,涉及的超参数根据数据集拆分比例即可轻松确定。
附图说明
图1为本发明提供的一种新颖的基于分布表征的两阶段工业数据集拆分方法流程图;
图2为本发明实施例构建的工业图像数据集部分图像数据示意图。
图3为本发明构建的数据增强模块以及分布表征网络的示意图;
图4中(a)-(c)为本发明设计的拆分策略示意图;
图5为本发明实施例的记录了20次拆分实验中模型分类错误率的箱线图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供的基于分布表征的缺陷检测方法包括以下步骤,核心过程参考图1:
(1)数据集构建
由于本发明主要任务目标是拆分数据集,整个数据集需参与分布表征模型训练,因此训练前不需要拆分为训练集和测试集。所有图像归一化处理,像素大小为512x512,并对所有图像进行图像级标注,标记类别为正常图像和细分的缺陷类别图像,部分数据集图像见图2,三个数据集样本量及类别数见表1。
表1数据集样本量及类别数
数据集 样本量 类别数
NEU 1800 6
OCC 3300 4
MTD 1344 6
(2)数据增强
本发明数据增强的目的在于生成同一图像两个不同的增强视图,其包括一个常规的数据变换
Figure BDA0004095061640000061
一个更强的数据变换
Figure BDA0004095061640000062
详细信息见图3中(a),包括以下步骤:
(2-1)常规的数据变换方式
Figure BDA0004095061640000063
由固定顺序的随机裁剪、水平翻转、图像属性(亮度、对比度、饱和度和色相)改变和转换为灰度图组成,常规变换主要改变的是图像的位置和大小。
(2-2)选择像素值反转、直方图均衡化、随机涂抹以及常规变换中未包含的旋转、高斯模糊等7种数据变换方式构建数据变换空间,每次同等概率从其中选取两种数据变换方式组成
Figure BDA0004095061640000071
依据排列组合可知
Figure BDA0004095061640000072
有着
Figure BDA0004095061640000073
种组合方式。
(2-3)将
Figure BDA0004095061640000074
插入到
Figure BDA0004095061640000075
前来对图像进行更强的数据变换,提高变换多样性,生成更多的有难度的负例,促使模型更全面的提取特征,如图3中(a)示,输入图像x依次经过
Figure BDA0004095061640000076
Figure BDA0004095061640000077
成两个增强视图xi,xj
(3)构建分布表征网络。分布表征网络用于将输入数据映射到低维空间,其包括一个编码器和一个投影头。
(3-1)构建编码器f(·),编码器将经过数据增强模块的视图投影到图像特征信息丰富的潜在空间
Figure BDA0004095061640000078
编码器可以选择各种主流的特征提取模型,考虑工业数据集样本数量和模型特征提取能力,本发明编码器采用ResNet-50(不包含最后用于分类的全连接层)。
(3-2)构建投影头g(·),投影头为一个多层感知机,作为一个可选的实施例,本发明将其设置为具有单个大小为2048的隐藏层,将编码器提取的图像特征进一步映射到对比损失空间
Figure BDA0004095061640000079
输出空间为一个128维的单位超球面。
(4)模型迭代训练;包括对比损失,以及引入标签先验知识。
(4-1)构建对比损失,其目标是减少正样本对之间的差异,增大负样本对之间的距离来学习分布表示,计算公式如下。
Figure BDA00040950616400000710
其中i∈B={1,2,3...2N}是批次B中2N个增强视图的序号,vi=g(f(xi))为投影头输出的表示向量,(i,j)为一组正样本对的序号,1(k≠i)为指示函数当且仅当k≠i时值为1,τ为温度参数,sim(vi,vj)=vi·vj/||vi||||vj||为余弦相似度函数。
(4-2)将标签先验信息引入对比损失,来引导和约束特征的提取,来减少模型训练样本的数量以及加强和后续缺陷检测任务的联系,通过标签信息获取批次中与当前图像属于同一类别的样本,并将其增强视图加入到正例中,最终损失函数如下:
Figure BDA0004095061640000081
其中C(i)是向量vi对应所有正样本的集合。
(4-3)对样本数量为N的数据集中的图像随机排序,进行平均分配,每批次图像数量为256张。
(4-4)输入数据分批依次进入数据增强模块,数据增强模块对每一张图像进行两次增强生成2个相关的增强视图,因此总的训练图像数量为2N。
(4-5)训练图像分批依次输入模型,当一个批次中所有样本梯度下降数值计算完成后,进行网络参数权值的更新。重复上述过程直至所有批次样本更新完成,再进行下一轮迭代。
本发明采用轮廓系数(SC)作为模型的表征质量的评价指标,计算公式如下:
Figure BDA0004095061640000082
其中a(i)表示向量i到它所属簇中所有其他样本的平均距离,b(i)表示向量i到与其距离最近的簇中样本的平均距离,s(i)∈[-1,1]为样本轮廓系数,集合的轮廓系数是所有样本轮廓系数的平均值。轮廓系数使用样本之间的相似性度量来评估簇的密集与分散程度,很好的契合分布表征网络的表征质量评估的要求,计算SC值能够有效监控分布表征网络的训练进程,来确保分布表征网络获取的数据分布质量达到所设定的阈值。
(4-6)每迭代20次,用SC评价指标对当前训练模型进行评估,当SC值达到阈值0.3,停止训练。
(5)如图3中(b),整个数据集不经过数据增强模块,直接送入训练好的表征模型,获得分布表征向量,表征向量和样本一一对应,从而获得整个数据集的数据分布。
(6)在数据分布表示的基础上对数据集进行拆分,包括两个采样过程,依据距离因素采样和依据密度因素采样。
(6-1)依据距离因素采样(如图4中(a)-(b)所示),假设图4中(a)为获取的数据分布,随机抽取一个向量点并求出其邻域,在剩余的表征向量中重复这个过程直到所有表征向量点都包含于某一个邻域内。当∈取较小值时,形成的邻域范围较小,可以认为邻域中样本的特征是相近的。控制距离变量∈并选取每一个邻域的中心点,保证抽取的样本均匀分布在超球面的各个区域。
(6-2)依据密度因素采样(如图4中(b)-图4中(c)所示),遍历(6-1)中的每一个邻域,当邻域内向量点数量超过设定的阈值MinVecs时,再从邻域中随机抽取α个样本。
(6-3)将步骤(6-1)和(6-2)中采样的向量点对应的样本挑选出来组成测试集,数据集中剩余的样本为训练集,至此完成对数据集的拆分。
数据集拆分评价。
首先对拆分所得的训练集和测试集之间的数据分布差异进行评价,评价指标为MMD(maximum mean discrepancy)和EMD(earth mover’s distance)。
在训练集中应用本发明进一步拆分出验证集,最终的训练集,验证集和测试集样本量的比例为6:2:2,当模型在验证集上表现最佳时取测试集上的错误率作为最终结果。为进一步比较,再调换训练集和测试集,保持验证集不变,再做一组实验。
在数据集拆分结果上搭建缺陷分类模型进行测试,由于本发明关注的是数据拆分方法而非网络结构的有效性,为了更明显的观察到数据拆分带来的影响,选用最常用的ResNet并遵循一般的设置,使用分类误差和标准差评价拆分方法对模型性能的影响。
为充分验证方法有效性和保证实验的准确性,上述完整的实验步骤独立重复20次并记录实验数据。表2和表3分别为提出方法和简单随机采样(SRS)方法拆分所得训练集和测试集数据分布的MMD和EMD距离的均值和方差。
表2MMD和EMD距离的均值的定量比较
Figure BDA0004095061640000101
表3MMD和EMD距离的标准差的定量比较
Figure BDA0004095061640000102
通过表2和表3的结果,本发明的方法MMD及EMD距离均值和标准差均明显低于SRS方法。低的距离均值表明划分的训练集和测试集的数据分布是基本一致的,低的标准差表明所提划分方法各次划分之间数据分布差异的可变性低,稳定性好。相反,随机划分方法距离均值和标准差明显高于所提方法,SRS拆分结果的数据分布的差异大,同时各次划分结果的可变性大,稳定性差。
其次是缺陷分类结果的比较,表4和表5分别显示了20次划分结果上训练的模型的测试误差均值和标准差,图5中(a)-(c)为箱线图记录了20次测试误差的结果。本发明方法的数据集划分结果上缺陷分类模型性能的可变性低,稳定性好,能得到更准确的性能评价。而在随机划分结果上,模型性能高度可变,极不稳定,产生错误的性能评估。
表4模型分类误差均值的定量比较
Figure BDA0004095061640000111
表5模型分类误差标准差的定量比较
Figure BDA0004095061640000112
综上,本发明主要包括工业图像数据集收集,标记图像类别,数据增强模块和数据增强空间设计,分布表征网络设计,模型优化目标构建和标签先验知识的引入,最优模型选择,拆分策略设计,以此完成工业数据集的拆分。本发明首先通过设计的分布表征网络(DRN)并引入标签先验知识来准确获取待拆分数据集的数据分布。随后,用提议的拆分策略DDS对获取的表示向量进行拆分获得最终数据拆分结果。结果表明,本发明有着低的MMD和EMD距离,表明所提方法能够有效保证训练集和测试集数据分布的一致性,同时有着更低的分类误差和标准差,表明能得到更稳定的模型和更准确的性能评价。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于分布表征的缺陷检测方法,其特征在于,包括:
S1.对工业图像数据集进行正常图像和缺陷类别图像标记;
S2.对标记的工业图像数据集图像进行多次数据增强,将来自同一张图像的两次增强视图作为正样本对,而来自不同图像的增强视图则作为负样本对;
S3.构建分布表征网络;所述分布表征网络包括编码器和投影头;所述编码器用于提取图像特征,将增强视图映射到潜在空间;所述投影头用于将编码器提取的图像特征进一步映射到单位超球面;
S4.将正样本对和负样本对输入分布表征网络,将标签先验信息引入对比损失作为损失函数迭代训练所述分布表征网络;
S5.将工业图像数据集输入训练好的分布表征模型,得到数据分布;所述数据分布中的表征向量与数据集中的每个图像一一对应;
S6.将所有表征向量划分为多个邻域:对向量间的特征差异进行量化,将特征差异小于设定阈值的向量划分为同一邻域;
S7.采样各个邻域的中心点,并根据邻域内样本的聚集程度确定各个邻域采样样本的数量α,在每个邻域中再次采样α个样本;将各个邻域的中心点以及α个样本点对应的图像构成测试集;
S8.将剩余图像作为训练集;并在剩余图像上重复步骤S6-S7得到验证集;
S9.利用划分的训练集、测试集和验证集进行缺陷检测。
2.根据权利要求1所述的一种基于分布表征的缺陷检测方法,其特征在于,每一次数据增强具体过程为:
从数据变换空间中同等概率选取多种图像变换方式,对数据集图像进行初步数据增强;所述数据变换空间中包含像素值反转、直方图均衡化、随机涂抹、旋转、高斯模糊和仿射变换;
对初步增强的数据集图像进行常规的数据变换;常规的数据变换包括固定顺序的随机裁剪并归一化大小,随机水平翻转,改变图像属性和随机转换为灰度图。
3.根据权利要求2所述的一种基于分布表征的缺陷检测方法,其特征在于,迭代训练所述分布表征网络的损失函数为:
Figure FDA0004095061630000021
C(i)是向量vi对应所有正样本的集合,i∈B={1,2,3…2N}是批次B中2N个增强视图的序号,vi=g(f(xi))为投影头输出的表示向量,(i,j)为一组正样本对的序号,1(k≠i)为指示函数当且仅当k≠i时值为1,τ为温度参数,sim(vi,vj)=vi·vj/||vi||||vj||为余弦相似度函数。
4.根据权利要求3所述的一种基于分布表征的缺陷检测方法,其特征在于,分布表征网络训练过程中,采用轮廓系数作为分布表征质量评价指标,当其达到设定阈值,终止迭代训练。
5.根据权利要求1所述的一种基于分布表征的缺陷检测方法,其特征在于,以表征向量x*为中心的邻域N(x*)满足:
N(x*)={xi∈D|dist(xi,x*)≤∈}
其中,dist(·)为距离度量函数用于将表示向量间的特征差异数值化,D={x1,x2,…,xn}为表征向量的集合,∈为设定的距离阈值。
6.根据权利要求1所述的一种基于分布表征的缺陷检测方法,其特征在于,根据邻域内样本的聚集程度确定各个邻域采样样本的数量α的计算方式为:
Figure FDA0004095061630000022
其中ρ:0<ρ<1表示密度变量,调节ρ可以控制每个邻域内采样的密度,round为四舍五入取整函数,MinVecs为设定的阈值,|N(x)|体现了邻域中样本的聚集程度。
7.一种基于分布表征的缺陷检测系统,其特征在于,包括:
图像标记模块,用于对工业图像数据集进行正常图像和缺陷类别图像标记;
数据增强模块,对标记的工业图像数据集图像进行多次数据增强,将来自同一张图像的两次增强视图作为正样本对,而来自不同图像的增强视图则作为负样本对;
分布表征网络构建模块;用于构建分布表征网络;所述分布表征网络包括编码器和投影头;所述编码器用于提取图像特征,将增强视图映射到潜在空间;所述投影头用于将编码器提取的图像特征进一步映射到单位超球面;
分布表征网络训练模块,用于将正样本对和负样本对输入分布表征网络,将标签先验信息引入对比损失作为损失函数迭代训练所述分布表征网络;
数据分布获取模块,用于将工业图像数据集输入训练好的分布表征模型,得到数据分布;所述数据分布中的表征向量与数据集中的每个图像一一对应;
邻域划分模块,用于将所有表征向量划分为多个邻域:对向量间的特征差异进行量化,将特征差异小于设定阈值的向量划分为同一邻域;
第一数据集拆分模块,用于采样各个邻域的中心点,并根据邻域内样本的聚集程度确定各个邻域采样样本的数量α,在每个邻域中再次采样α个样本;将各个邻域的中心点以及α个样本点对应的图像构成测试集;
第二数据集拆分模块,用于将剩余图像作为训练集;并在剩余图像上执行邻域划分模块和采样模块的处理过程得到验证集;
缺陷检测模块,利用划分的训练集、测试集和验证集进行缺陷检测。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如权利要求1至5任一项所述的一种基于分布表征的缺陷检测方法。
CN202310163563.1A 2023-02-24 2023-02-24 一种基于分布表征的缺陷检测方法和系统 Pending CN116109613A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310163563.1A CN116109613A (zh) 2023-02-24 2023-02-24 一种基于分布表征的缺陷检测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310163563.1A CN116109613A (zh) 2023-02-24 2023-02-24 一种基于分布表征的缺陷检测方法和系统

Publications (1)

Publication Number Publication Date
CN116109613A true CN116109613A (zh) 2023-05-12

Family

ID=86256093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310163563.1A Pending CN116109613A (zh) 2023-02-24 2023-02-24 一种基于分布表征的缺陷检测方法和系统

Country Status (1)

Country Link
CN (1) CN116109613A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117593515A (zh) * 2024-01-17 2024-02-23 中数智科(杭州)科技有限公司 一种轨道车辆用螺栓松动检测系统、方法及存储介质
CN117690164A (zh) * 2024-01-30 2024-03-12 成都欣纳科技有限公司 基于边缘计算的机场飞鸟识别驱赶方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117593515A (zh) * 2024-01-17 2024-02-23 中数智科(杭州)科技有限公司 一种轨道车辆用螺栓松动检测系统、方法及存储介质
CN117593515B (zh) * 2024-01-17 2024-03-29 中数智科(杭州)科技有限公司 一种轨道车辆用螺栓松动检测系统、方法及存储介质
CN117690164A (zh) * 2024-01-30 2024-03-12 成都欣纳科技有限公司 基于边缘计算的机场飞鸟识别驱赶方法及系统
CN117690164B (zh) * 2024-01-30 2024-04-30 成都欣纳科技有限公司 基于边缘计算的机场飞鸟识别驱赶方法及系统

Similar Documents

Publication Publication Date Title
CN108171209B (zh) 一种基于卷积神经网络进行度量学习的人脸年龄估计方法
CN116109613A (zh) 一种基于分布表征的缺陷检测方法和系统
CN107292330B (zh) 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法
CN108428229A (zh) 一种基于深度神经网络提取表观和几何特征的肺部纹理识别方法
CN110135459B (zh) 一种基于双三元组深度度量学习网络的零样本分类方法
CN109993236A (zh) 基于one-shot Siamese卷积神经网络的少样本满文匹配方法
CN111860106B (zh) 一种无监督的桥梁裂缝识别方法
CN109344845A (zh) 一种基于Triplet深度神经网络结构的特征匹配方法
CN112633382A (zh) 一种基于互近邻的少样本图像分类方法及系统
CN108960142B (zh) 基于全局特征损失函数的行人再识别方法
CN110349170B (zh) 一种全连接crf级联fcn和k均值脑肿瘤分割算法
CN113889192B (zh) 一种基于深层降噪自编码器的单细胞RNA-seq数据聚类方法
Koziarski et al. DiagSet: a dataset for prostate cancer histopathological image classification
CN113657449A (zh) 一种含噪标注数据的中医舌象腐腻分类方法
CN114299567B (zh) 模型训练、活体检测方法、电子设备及存储介质
CN113408573B (zh) 基于机器学习的瓷砖色号自动分类归类的方法及装置
He et al. BCDnet: Parallel heterogeneous eight-class classification model of breast pathology
CN110443169B (zh) 一种边缘保留判别分析的人脸识别方法
CN109191452B (zh) 一种基于主动学习的腹腔ct图像腹膜转移自动标记方法
CN111127532A (zh) 基于深度学习特征光流的医学图像形变配准方法及系统
CN115661498A (zh) 一种自优化单细胞聚类方法
CN113177602B (zh) 图像分类方法、装置、电子设备和存储介质
CN112686881B (zh) 基于影像统计特征和lstm复合网络的颗粒物料混合均匀性检测方法
CN112101409B (zh) 基于病理图像的肿瘤突变负荷(tmb)分类方法与系统
CN115240065A (zh) 一种基于强化学习的无监督误匹配检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination