CN114612443B - 一种多模态数据复杂缺陷特征检测方法 - Google Patents
一种多模态数据复杂缺陷特征检测方法 Download PDFInfo
- Publication number
- CN114612443B CN114612443B CN202210256372.5A CN202210256372A CN114612443B CN 114612443 B CN114612443 B CN 114612443B CN 202210256372 A CN202210256372 A CN 202210256372A CN 114612443 B CN114612443 B CN 114612443B
- Authority
- CN
- China
- Prior art keywords
- feature
- feature extraction
- modal
- network
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Abstract
本发明公开了一种多模态数据复杂缺陷特征检测方法,包括多模态数据特征提取、多模态特征交叉引导学习以及多模态特征融合以及缺陷分类回归,首先构建多模态二维数据特征提取网络,并将缺陷数据集送入网络进行训练;在训练中利用多模态特征交叉引导网络实现了交叉引导学习;然后利用权重自适应方法进行特征融合;最后利用分类及回归子网络实现缺陷检测任务,本发明可以高效地实现多模态数据在复杂缺陷特征检测过程中的融合,能够更加有效地提升工业环境下复杂缺陷的检测能力,保证了工业制造过程中的生产效率。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种多模态数据复杂缺陷特征检测方法。
背景技术
随着基于深度学习的计算机视觉的快速发展,基于深度学习的目标检测方法在工业界工业缺陷检测中的应用也越来越深入和广泛。目前,在工业界大部分场景下的可视化缺陷都已经提出了充分的解决方案。同时,针对一些在多种传感器下都可以采集到多模态数据的复杂缺陷,一般利用计算机对不同数据进行处理融合,然后进行缺陷检测。这种图像融合方法具备冗余和互补的特性,能够克服原图像在分辨率、物理属性、信息量等方面的局限性,还可以抑制噪音,增强图像信息的聚集程度。最终,可以大规模提升在工业场景下针对具备多模态数据的复杂缺陷检测精度。
然而,现有的图像数据融合方法一方面计算过程复杂,难以应用于流水线状态下工业检测,另一方面融合效果差,无法在后续过程中检测复杂缺陷特征。因此,急需一种针对复杂缺陷的多模态数据融合检测方法。
发明内容
(一)解决的技术问题
本发明提供了一种基于多模态数据引导学习与自适应融合机制的复杂缺陷特征检测方法,以解决现有技术中无法针对多模态缺陷数据进行准确高效检测的问题。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:一种多模态数据复杂缺陷特征检测方法,具体包括以下步骤:
步骤S1:构建特征提取网络;
步骤S2:将多模态训练数据输入特征提取网络,进行多模态特征并行学习;
步骤S3:构建多模态特征交叉引导网络,在平行的多模态数据提取网络之间建立局部连接,形成了多模态特征交叉引导机制;
步骤S4:多模态权重自适应融合;
步骤S5:利用分类及回归子网络实现缺陷检测。
进一步的,所述步骤S1具体包括:利用卷积神经网络构建多个并行的特征提取网络,分别对应多种模态的数据提取,每个并行的特征提取网络都包含了六层,分别由不同的卷积层、池化层、密集块结构和膨胀瓶颈层结构构成。
进一步的,所述步骤S2具体包括:将工业缺陷多模态数据集分为训练集和测试集,将训练集首先输入到并行的所述特征提取网络中进行特征提取。
进一步的,所述步骤S3具体包括:与所述特征提取网络的第一、第三、第五阶段利用1×1卷积层建立了局部连接,相同阶段的特征先进行合并,然后再经过1×1卷积层,最后将合并特征在整体叠加到每个平行特征提取网络上,实现了多模态特征的交叉引导,建立了不同模态数据在特征提取中的特征流动机制。
进一步的,所述步骤S4具体包括:在每个平行特征提取网络特征通道之间建立相互依赖关系,通过学习的方法自动获取每个特征通道的重要程度,然后依照这个重要程度去提升有用的特征并抑制当前任务用处不大的特征。
进一步的,所述步骤S5具体包括:利用两个全卷积网络以及特征金字塔结构分布构建分类和回归子网络,将融合后的特征信息送入两个子网络进行缺陷的分类和定位。
(三)有益效果
本发明可以高效地实现多模态数据在复杂缺陷特征检测过程中的融合,能够更加有效地提升工业环境下复杂缺陷的检测能力,保证了工业制造过程中的生产效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例1的总体流程图;
图2是根据本发明实施例1中构建得到的基于卷积神经网络的特征提取网络结构图;
图3是根据本发明实施例1中多模态特征引导学习示意图;
图4是根据本发明实施例1的权重自适应融合示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1-4,作为本发明的一个实施例1,在本发明优选的实施例1中提供了一种基于多模态数据引导学习与自适应融合机制的复杂缺陷特征检测方法,该方法可以直接应用至各种基于多传感器采集得到的多模态二维数据的工业缺陷检测装置上,具体实现时。具体来说,图1示出该方法的总体流程图,如图1所示,该方法包括如下步骤:
首先,建立多个基于卷积神经网络的特征提取网络来实现多模态二维数据特征提取:具体地,基于卷积神经网络的特征提取网络的结构如图2所示:
具体地,该网络结构共分为6个层,包含了不同层次的密集连接结构、卷积层以及瓶颈层结构。
第1层包含了一个具有7×7卷积核的卷积层。
第2层包含了一个3×3的最大池化层和一个密集连接结构,密集连接结构包含了交替的1×1卷积层和3×3卷积层。
第3、4层包含了两层不同结构的密集连接结构,密集连接结构包含了交替的1×1卷积层和3×3卷积层。
第5、6层结构相同,都包含了两个膨胀瓶颈层结构以及一个平行设置1×1卷积层的膨胀瓶颈层结构,具体结构如图2所示。
构建对应的多模态工业缺陷数据集,并分为训练集和测试集。
然后基于上述特征提取网络结合数据集进行训练。
同时,我们基于以上建立的多个基于卷积神经网络的特征提取网络进行多模态特征交叉引导,具体地,这种多模态特征交叉引导结构如图3所示,纵向箭头表示特征提取网络中的全局特征学习流动,这是一个自顶向下的路径。在该过程中,浅层会显现出一个大致的轮廓特征,随着网络的加深,细节信息会逐渐丢失,深层卷积层输出语义信息。横向箭头表示在平行的多个特征提取网络的第1、第3、第5阶段通过1×1卷积层建立了局部连接,这些阶段的特征进行合并然后经过1×1卷积层叠加到每个平行的特征提取网络上,实现了多模态特征交叉引导,实现了不同模态数据在平行特征提取网络之间的流动,提高了训练效率。
然后进行多模态特征融合,为了解决多模态特征融合不平衡的问题,我们首先针对多模态特征引入了可学习的权重。具体地,如图4所示,将每个特征提取网络输出的特征图C×W×H进行全局平均池化,然后得到一个1×1×C大小的特征图,再经过两个全连接神经网络,得到特征图的权重矩阵ωi。然后,利用得到的权重,通过加权的方式进行多通道多模态数据特征的融合。为此,我们提出了一种权重自适应多模态融合方法:
针对学习权重引用Relu函数来确保ωi≥0,ε=0.0001是一个避免数值不稳定性的值,Ii表示待融合的多模态特征信息,0表示融合后的整体特征信息。同样的,每个归一化权重的值也落在0到1之间。
进一步地,在特征融合后得到的特征信息被送入分类和回归子网络进行缺陷目标包围框预测。分类子网络预测每个包围框和对象类别在每个空间位置出现对象的概率。这个子网络是一个小的全卷积网络连接每个特征金字塔级别;该子网的参数在所有层级上共享。回归子网络和分类子网络平行,我们将另一个全卷积网络附加到每个金字塔级别,以便每个包围框的偏移量回归到ground truth附近。其中,ground truth表示人工标注的缺陷检测数据。
在本公开中参照附图来描述本发明的各方面,附图中示出了许多说明的实施例。本公开的实施例不必定义在包括本发明的所有方面。应当理解,上面介绍的多种构思和实施例,以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施,这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外,本发明公开的一些方面可以单独使用,或者与本发明公开的其他方面的任何适当组合来使用。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (4)
1.一种多模态数据复杂缺陷特征检测方法,其特征在于,具体包括以下步骤:步骤S1:构建特征提取网络;步骤S2:将多模态训练数据输入特征提取网络,进行多模态特征并行学习;步骤S3:构建多模态特征交叉引导网络,在平行的多模态特征提取网络之间建立局部连接,形成了多模态特征交叉引导机制;步骤S4:将多个特征提取网络第六层输出的特征向量进行多模态权重自适应融合;步骤S5:将融合后的特征信息送入两个分类和回归子网络进行缺陷的分类和定位;
所述步骤S1具体包括:利用卷积神经网络构建多个并行的特征提取网络,分别对应多种模态的数据提取,每个并行的特征提取网络都包含了六层,分别由不同的卷积层、池化层、密集块结构和膨胀瓶颈层结构构成;
所述步骤S3具体包括:将所述特征提取网络的第一、第三、第五层利用1×1卷积层建立局部连接,相同阶段的特征先进行合并,然后再经过1×1卷积层,最后将合并特征在整体叠加到每个平行特征提取网络上,实现了多模态特征的交叉引导,建立了不同模态数据在特征提取中的特征流动机制。
2.根据权利要求1所述的一种多模态数据复杂缺陷特征检测方法,其特征在于,所述步骤S2具体包括:将工业缺陷多模态数据集分为训练集和测试集,将训练集首先输入到并行的所述特征提取网络中进行特征提取。
3.根据权利要求1所述的一种多模态数据复杂缺陷特征检测方法,其特征在于,所述步骤S4具体包括:在每个平行特征提取网络特征通道之间建立相互依赖关系,通过学习的方法自动获取每个特征通道的重要程度,然后依照这个重要程度去提升有用的特征并抑制当前任务用处不大的特征。
4.根据权利要求1所述的一种多模态数据复杂缺陷特征检测方法,其特征在于,所述步骤S5具体包括:利用两个全卷积网络以及特征金字塔结构分布构建分类和回归子网络,将融合后的特征信息送入两个子网络进行缺陷的分类和定位。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210256372.5A CN114612443B (zh) | 2022-03-16 | 2022-03-16 | 一种多模态数据复杂缺陷特征检测方法 |
US17/972,942 US20230316736A1 (en) | 2022-03-16 | 2022-10-25 | Method for feature detection of complex defects based on multimodal data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210256372.5A CN114612443B (zh) | 2022-03-16 | 2022-03-16 | 一种多模态数据复杂缺陷特征检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114612443A CN114612443A (zh) | 2022-06-10 |
CN114612443B true CN114612443B (zh) | 2022-11-22 |
Family
ID=81862638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210256372.5A Active CN114612443B (zh) | 2022-03-16 | 2022-03-16 | 一种多模态数据复杂缺陷特征检测方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230316736A1 (zh) |
CN (1) | CN114612443B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115035119B (zh) * | 2022-08-12 | 2023-03-24 | 山东省计算中心(国家超级计算济南中心) | 一种玻璃瓶底瑕疵图像检测剔除装置、系统及方法 |
CN117173530B (zh) * | 2023-11-02 | 2024-02-13 | 中国科学院自动化研究所 | 目标异常检测方法及装置 |
CN117218453B (zh) * | 2023-11-06 | 2024-01-16 | 中国科学院大学 | 一种不完备多模态医学影像学习方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392915A (zh) * | 2021-06-23 | 2021-09-14 | 宁波聚华光学科技有限公司 | 一种基于深度学习的工业零件缺陷检测方法 |
CN113421230A (zh) * | 2021-06-08 | 2021-09-21 | 浙江理工大学 | 基于目标检测网络的车载液晶屏导光板缺陷视觉检测方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960337B (zh) * | 2018-07-18 | 2020-07-17 | 浙江大学 | 一种基于深度学习模型的多模态复杂活动识别方法 |
CN110335270B (zh) * | 2019-07-09 | 2022-09-13 | 华北电力大学(保定) | 基于层级区域特征融合学习的输电线路缺陷检测方法 |
CN110532861B (zh) * | 2019-07-18 | 2021-03-23 | 西安电子科技大学 | 基于骨架引导多模态融合神经网络的行为识别方法 |
CN111738314B (zh) * | 2020-06-09 | 2021-11-02 | 南通大学 | 基于浅层融合的多模态图像能见度检测模型的深度学习方法 |
CN113076947B (zh) * | 2021-03-26 | 2023-09-01 | 东北大学 | 一种交叉引导融合的rgb-t图像显著性检测系统 |
CN113255817A (zh) * | 2021-05-31 | 2021-08-13 | 浙江科技学院 | 基于双向跨模态交互的机器人室内场景语义理解方法 |
CN114170477A (zh) * | 2021-11-30 | 2022-03-11 | 华东师范大学 | 一种基于注意力图卷积网络的多模态融合机械缺陷检测方法 |
CN114170533A (zh) * | 2021-12-08 | 2022-03-11 | 西安电子科技大学 | 基于注意力机制和多模态表征学习的滑坡识别方法及系统 |
CN114140480A (zh) * | 2021-12-09 | 2022-03-04 | 安徽大学 | 基于边缘辅助学习的热红外电气设备图像语义分割方法 |
-
2022
- 2022-03-16 CN CN202210256372.5A patent/CN114612443B/zh active Active
- 2022-10-25 US US17/972,942 patent/US20230316736A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113421230A (zh) * | 2021-06-08 | 2021-09-21 | 浙江理工大学 | 基于目标检测网络的车载液晶屏导光板缺陷视觉检测方法 |
CN113392915A (zh) * | 2021-06-23 | 2021-09-14 | 宁波聚华光学科技有限公司 | 一种基于深度学习的工业零件缺陷检测方法 |
Also Published As
Publication number | Publication date |
---|---|
US20230316736A1 (en) | 2023-10-05 |
CN114612443A (zh) | 2022-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114612443B (zh) | 一种多模态数据复杂缺陷特征检测方法 | |
CN109522966B (zh) | 一种基于密集连接卷积神经网络的目标检测方法 | |
CN111738110A (zh) | 基于多尺度注意力机制的遥感图像车辆目标检测方法 | |
CN110245678B (zh) | 一种基于异构孪生区域选取网络的图像匹配方法 | |
WO2020134082A1 (zh) | 一种路径规划方法、装置和移动设备 | |
CN108734210B (zh) | 一种基于跨模态多尺度特征融合的对象检测方法 | |
CN110633661A (zh) | 一种融合语义分割的遥感图像目标检测方法 | |
CN112883820B (zh) | 基于激光雷达点云的道路目标3d检测方法及系统 | |
CN111291826B (zh) | 基于相关性融合网络的多源遥感图像的逐像素分类方法 | |
CN111914720B (zh) | 一种输电线路绝缘子爆裂识别方法及装置 | |
CN113378686A (zh) | 一种基于目标中心点估计的两阶段遥感目标检测方法 | |
CN112801047B (zh) | 缺陷检测方法、装置、电子设备及可读存储介质 | |
CN111259710B (zh) | 采用停车位框线、端点的停车位结构检测模型训练方法 | |
CN114724021B (zh) | 一种数据的识别方法、装置、存储介质及电子装置 | |
CN115147745A (zh) | 一种基于城市无人机图像的小目标检测方法 | |
CN115082888A (zh) | 一种车道线检测方法和装置 | |
CN109903323B (zh) | 用于透明物体识别的训练方法、装置、存储介质及终端 | |
CN113887330A (zh) | 一种基于遥感图像的目标检测系统 | |
CN110619365B (zh) | 一种落水检测方法 | |
CN111260955B (zh) | 采用停车位框线、端点的停车位检测系统及方法 | |
CN111126561A (zh) | 一种基于多路并行卷积神经网络的图像处理方法 | |
CN115661189A (zh) | 一种场景动态信息检测方法及系统 | |
CN112508848B (zh) | 一种基于深度学习多任务端到端的遥感图像船舶旋转目标检测方法 | |
CN109272021B (zh) | 一种基于宽度学习的智能移动机器人导航方法 | |
CN114462490A (zh) | 图像目标的检索方法、检索设备、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |