CN114170477A - 一种基于注意力图卷积网络的多模态融合机械缺陷检测方法 - Google Patents

一种基于注意力图卷积网络的多模态融合机械缺陷检测方法 Download PDF

Info

Publication number
CN114170477A
CN114170477A CN202111438885.XA CN202111438885A CN114170477A CN 114170477 A CN114170477 A CN 114170477A CN 202111438885 A CN202111438885 A CN 202111438885A CN 114170477 A CN114170477 A CN 114170477A
Authority
CN
China
Prior art keywords
mechanical
defect
attention
defect detection
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111438885.XA
Other languages
English (en)
Inventor
马天龙
肖路巍
许俊杰
何峻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202111438885.XA priority Critical patent/CN114170477A/zh
Publication of CN114170477A publication Critical patent/CN114170477A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01MTESTING STATIC OR DYNAMIC BALANCE OF MACHINES OR STRUCTURES; TESTING OF STRUCTURES OR APPARATUS, NOT OTHERWISE PROVIDED FOR
    • G01M13/00Testing of machine parts
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01MTESTING STATIC OR DYNAMIC BALANCE OF MACHINES OR STRUCTURES; TESTING OF STRUCTURES OR APPARATUS, NOT OTHERWISE PROVIDED FOR
    • G01M13/00Testing of machine parts
    • G01M13/04Bearings
    • G01M13/045Acoustic or vibration analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力图卷积网络的多模态融合机械缺陷检测方法,首先利用摄像机采集不同缺陷状况下机械工作时的内部视频,将每段机械内部工作视频分解为一组图片,每张图片对应其相应的一段短音频;将音频特征提取编码器、图像特征提取网络、注意力图卷积网络以及全连接网络进行连接构成基于多模态融合深度学习的机械缺陷检测模型;以采集的各组机械检测数据中的音频和图像作为输入,以机械缺陷状况作为输出;利用采集的机械检测数据对建立的分类模型进行训练;最后利用训练完毕的所述分类模型对机械的缺陷状况进行检测。本发明利用听觉和视觉两类模态互补的信息,可在一定程度上提升机械缺陷检测的准确度和鲁棒性。

Description

一种基于注意力图卷积网络的多模态融合机械缺陷检测方法
技术领域
本发明涉及机械缺陷检测技术领域,具体涉及一种基于注意力图卷积网络的多模态融合机械缺陷检测方法。
背景技术
机械的缺陷检测是产品规模化生产过程中一个必不可少的环节,直接决定了生产出的各种产品的价值以及工厂的安全系数。机械的缺陷是指在机械的工作过程中,由于一些因素(轴断,轴承磨损,轴承卡死,螺丝松脱,皮带松,零部件损坏等),导致机械在工作过程中出现差错。这样的机械缺陷轻则会导致最终生产的产品的质量和品质下降,重则埋下安全隐患,随时可能引发一系列安全事故。
目前国内的大多数生产车间仍采用人眼识别的方法来检测机械缺陷,然而该方法需要经过大量培训的专业检测人员,并且检测人员还得具备一定的实际操作经验。此外,在实际检测过程中,仍会存在着效率低下、检测标准不一致等问题,这会大幅度降低机械缺陷检测的效率,并会使得机械生产出的产品质量参差不齐,甚至存在安全隐患。
为了克服人工缺陷检测暴露出的一系列问题,目前已有使用深度学习来识别机械缺陷检测的方法。但是这些方法大都是基于机械工作时的图像进行识别。在一些情况下机械内部构造不会展示出明显故障,但是其工作时会发出不一样的杂音,仅仅依赖基于图像特征提取的深度学习方法无法有效的对这种缺陷情况做出正确的分类。同时由于部分检测需要识别细小的结构性缺陷,基于图像的深度学习方法对于图像清晰度要求很高,而在复杂的工业生产环境中很难提供如此准确高质量的图像,因此引入不同模态的信息(例如音频)来对填补图像无法捕获到的缺陷特征,进一步提升缺陷检测模型的分类准确度,是一种可行的方案。
发明内容
有鉴于此,本发明的目的在于提供一种基于注意力图卷积网络的多模态融合机械缺陷检测方法。采用摄像机来收集机械工作时内部的音频和图像信息;使用基于注意力图卷积网络的多模态融合方法将听觉和视觉的信息结合,利用互补的模态信息可以大幅提高机械缺陷检测的准确度以及鲁棒性。
为实现上述目的,本发明采用如下技术方案:
一种基于注意力图卷积网络的多模态融合机械缺陷检测方法,包括以下步骤:
步骤1:建立不同类型的机械缺陷检测数据集
用摄像机收集不同缺陷状况下机械工作时内部视频,采集各种缺陷状况的机械音频信息和图像信息;所述缺陷状况为轴断、轴承磨损、轴承卡死、螺丝松脱、皮带松及零部件损坏;一段视频作为一组机械检测数据,以机械的缺陷状况作为每段视频的标签,即每组缺陷机械检测数据中,包含一段机械工作时的视频和一个缺陷状况标签;将采集到的所有组机械检测数据构成机械缺陷检测数据集;
步骤2:建立基于注意力图卷积网络的多模态融合机械缺陷检测分类模型
首先将每段机械内部工作视频分解为一组图片,每张图片对应其相应的一段短音频;将音频特征提取编码器、图像特征提取网络、注意力图卷积网络以及全连接网络进行连接构成基于多模态融合深度学习的机械缺陷检测模型;所述音频特征提取编码器使用协作语音分析存储库COVAREP,所述图像特征提取网络使用ResNet-101网络,分别以采集到的各组机械检测数据中的机械工作时发出的声音和机械内部图像作为输入,用于提取机械工作时的音频和内部图像的特征;得到一个T*N的音频特征矩阵和一个T*N图像特征矩阵;T为输入的每组图片和对应的音频的个数,N为维度;将音频特征矩阵与图像特征矩阵进行注意力运算,得到一个T*T的注意力权重矩阵;将注意力权重矩阵作为全连接的图,以及图像特征矩阵输入密集连接的图卷积网络,进行多模态特征融合;融合后对图卷积网络输出的特征表示矩阵进行最大池化操作,得到一个维度为N的特征表示向量;将该特征表示向量输入一个N*M的全连接网络,输出为表征机械缺陷状况的特征向量,该特征向量的维度等于输入的一组机械检测数据中含有的缺陷状况标签种类数M,该特征向量的各维度输出分别表示机械各类缺陷状况的置信度;
步骤3:训练机械缺陷检测模型
对步骤1中得到的机械缺陷检测视频数据集按照7∶3的比例进行训练集与测试集的划分;将训练集中属于同一组机械检测数据的视频分别输入步骤2建立的基于注意力图卷积网络的多模态融合分类模型,之后通过反向传播算法对机械缺陷检测模型中的各权重值进行训练;利用测试集来判断机械缺陷检测模型的训练效果,以得到训练完整的机械缺陷检测模型;
步骤4:采集待检测机械工作数据,输入训练好的模型
采集待检测的机械内部工作视频,将其输入到训练完毕的机械缺陷检测模型中,检测机械工作时的缺陷状况,由机械缺陷检测模型输出的表征机械缺陷状况的特征向量中置信度最高的缺陷状况标签即为缺陷状况。
本发明采用以上技术方案与现有技术相比,具有以下有益效果:
本发明提出一种基于注意力图卷积网络的多模态融合机械缺陷检测方法。采用摄像机来收集机械工作时内部的音频和图像信息;使用基于注意力图卷积网络的多模态融合方法将听觉和视觉的信息结合,利用互补的模态信息可以大幅提高机械缺陷检测的准确度以及鲁棒性。
附图说明
图1为本发明的流程图;
图 2为本发明实施例的流程示意图。
具体实施方式
下面结合具体的实例以及附图对本发明进行进一步说明。
如图1所示,本发明的基于注意力图卷积网络的多模态融合机械缺陷检测方法,包括以下步骤:
步骤1:建立不同类型的机械缺陷检测数据集
用摄像机收集不同缺陷情况下机械工作时内部视频,采集各种缺陷情况的机械音频信息和图像信息。机械的缺陷情况一般为轴断,轴承磨损,轴承卡死,螺丝松脱,皮带松,零部件损坏等;一段视频作为一组机械检测数据,以机械的缺陷情况作为每段视频的标签,即每组缺陷机械检测数据中,包含一段机械工作时的视频和一个缺陷情况标签;将采集到的所有组机械检测数据构成机械缺陷检测数据集;
步骤2:建立基于注意力图卷积网络的多模态融合机械缺陷检测分类模型
首先将每段机械内部工作视频分解为一组图片,每张图片对应其相应的一段短音频。将音频特征提取编码器、图像特征提取网络以及注意力图卷积网络进行连接构成基于多模态融合深度学习的机械缺陷检测模型;所述音频特征提取编码器使用协作语音分析存储库COVAREP,所述图像特征提取网络使用ResNet-101网络,分别以采集的各组机械检测数据中的机械工作时发出的声音和机械内部图像作为输入,用于提取机械工作时的音频和内部图像的特征。得到一个T*N的音频特征矩阵和一个T*N图像特征矩阵。将音频特征矩阵与图像特征矩阵进行注意力运算,得到一个T*T的注意力权重矩阵。将注意力权重矩阵作为全连接的图,以及图像特征矩阵输入密集连接的图卷积网络,进行多模态特征融合。融合后对特征表示矩阵进行最大池化操作,得到一个特征表示向量。将该特征表示向量输入全连接网络,输出为表征机械缺陷情况的特征向量,该特征向量的维度等于输入的一组机械检测数据中含有的缺陷情况标签种类数,该特征向量的各维度输出分别表示机械为各类缺陷情况的概率;
步骤3:训练机械缺陷检测模型
对步骤1中得到的机械检测视频数据集按照7∶3的比例进行训练集与测试集的划分;将训练集中属于同一组机械检测数据的视频分别输入步骤2建立的基于注意力图卷积网络的多模态融合分类模型,之后通过反向传播算法对机械缺陷检测模型中的各权重值进行训练;利用测试集来判断机械缺陷检测模型的训练效果,以得到训练完整的机械缺陷检测模型;
步骤4:采集待检测机械工作数据,输入训练好的模型
采集待检测的机械内部工作视频,将其输入到训练完毕的机械缺陷检测模型中,检测机械工作时的缺陷情况,该缺陷情况是由机械缺陷检测模型输出的表征机械缺陷情况的特征向量中置信度最高的缺陷情况标签。
实施例
参阅图2,本实施例用摄像机收集了缺陷情况下机械工作时内部视频,将一段视频进行预处理,分解为一组机械内部工作图片和一组机械工作时内部音频信号。一张图片对应一段音频。再将每张图像与其对应的音频信号分别输入到音频特征编码器和ResNet-101网络,得到一个T*N的音频特征矩阵和一个T*N图像特征矩阵。T表示输入的每组图片和对应的音频的个数,N表示维度。将音频特征矩阵与图像特征矩阵进行注意力运算,得到一个T*T的注意力权重矩阵。将注意力权重矩阵作为全连接的图,以及图像特征矩阵输入密集连接的图卷积网络,进行多模态特征融合。融合后对图卷积网络输出的特征表示矩阵进行最大池化操作,得到一个维度为N特征表示向量;将该特征表示向量输入一个全连接网络,输出为缺陷检测分类结果。
以上所述仅为本发明的较佳实施例,在本发明权利要求所限定的范围内可对其进行一定修改,但都将落入本发明的保护范围内。

Claims (3)

1.一种基于注意力图卷积网络的多模态融合机械缺陷检测方法,其特征在于,该方法包括以下具体步骤:
(1) 建立不同类型的机械缺陷检测数据集;
(2) 建立基于注意力图卷积网络的多模态融合机械缺陷检测分类模型;
(3) 训练机械缺陷检测模型;
(4) 采集待检测机械工作数据,输入训练好的模型,检测得到机械工作时的缺陷状况;其中:
所述步骤(2)具体为:
首先将每段机械内部工作视频分解为一组图片,每张图片对应其相应的一段短音频;将音频特征提取编码器、图像特征提取网络、注意力图卷积网络以及全连接网络进行连接构成基于多模态融合深度学习的机械缺陷检测模型;所述音频特征提取编码器使用协作语音分析存储库COVAREP,所述图像特征提取网络使用ResNet-101网络,分别以采集到的各组机械检测数据中的机械工作时发出的声音和机械内部图像作为输入,用于提取机械工作时的音频和内部图像的特征;得到一个T*N的音频特征矩阵和一个T*N图像特征矩阵;T为输入的每组图片和对应的音频的个数,N为维度;将音频特征矩阵与图像特征矩阵进行注意力运算,得到一个T*T的注意力权重矩阵;将注意力权重矩阵作为全连接的图,以及图像特征矩阵输入密集连接的图卷积网络,进行多模态特征融合;融合后对图卷积网络输出的特征表示矩阵进行最大池化操作,得到一个维度为N的特征表示向量;将该特征表示向量输入一个N*M的全连接网络,输出为表征机械缺陷状况的特征向量,该特征向量的维度等于输入的一组机械检测数据中含有的缺陷状况标签种类数M,该特征向量的各维度输出分别表示机械各类缺陷状况的置信度;
所述步骤(3)具体为:
对步骤1中得到的机械缺陷检测视频数据集按照7∶3的比例进行训练集与测试集的划分;将训练集中属于同一组机械检测数据的视频分别输入步骤2建立的基于注意力图卷积网络的多模态融合分类模型,之后通过反向传播算法对机械缺陷检测模型中的各权重值进行训练;利用测试集来判断机械缺陷检测模型的训练效果,以得到训练完整的机械缺陷检测模型。
2.根据权利要求1所述的一种基于注意力图卷积网络的多模态融合机械缺陷检测方法,其特征在于,所述步骤(1)具体为:
用摄像机收集不同缺陷状况下机械工作时内部视频,采集各种缺陷状况的机械音频信息和图像信息;所述缺陷状况为轴断、轴承磨损、轴承卡死、螺丝松脱、皮带松及零部件损坏;一段视频作为一组机械检测数据,以机械的缺陷状况作为每段视频的标签,即每组缺陷机械检测数据中,包含一段机械工作时的视频和一个缺陷状况标签;将采集到的所有组机械检测数据构成机械缺陷检测数据集。
3.根据权利要求1所述的一种基于注意力图卷积网络的多模态融合机械缺陷检测方法,其特征在于,所述步骤(4)具体为:
采集待检测的机械内部工作视频,将其输入到训练完毕的机械缺陷检测模型中,检测机械工作时的缺陷状况,由机械缺陷检测模型输出的表征机械缺陷状况的特征向量中置信度最高的缺陷状况标签即为缺陷状况。
CN202111438885.XA 2021-11-30 2021-11-30 一种基于注意力图卷积网络的多模态融合机械缺陷检测方法 Pending CN114170477A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111438885.XA CN114170477A (zh) 2021-11-30 2021-11-30 一种基于注意力图卷积网络的多模态融合机械缺陷检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111438885.XA CN114170477A (zh) 2021-11-30 2021-11-30 一种基于注意力图卷积网络的多模态融合机械缺陷检测方法

Publications (1)

Publication Number Publication Date
CN114170477A true CN114170477A (zh) 2022-03-11

Family

ID=80481630

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111438885.XA Pending CN114170477A (zh) 2021-11-30 2021-11-30 一种基于注意力图卷积网络的多模态融合机械缺陷检测方法

Country Status (1)

Country Link
CN (1) CN114170477A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114612443A (zh) * 2022-03-16 2022-06-10 南京航空航天大学 一种多模态数据复杂缺陷特征检测方法
CN116205918A (zh) * 2023-04-28 2023-06-02 锋睿领创(珠海)科技有限公司 基于图卷积的多模态融合半导体检测方法、装置及介质
CN117153188A (zh) * 2023-08-29 2023-12-01 安徽理工大学 一种基于声音频率的变功率设备故障分析方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114612443A (zh) * 2022-03-16 2022-06-10 南京航空航天大学 一种多模态数据复杂缺陷特征检测方法
CN116205918A (zh) * 2023-04-28 2023-06-02 锋睿领创(珠海)科技有限公司 基于图卷积的多模态融合半导体检测方法、装置及介质
CN117153188A (zh) * 2023-08-29 2023-12-01 安徽理工大学 一种基于声音频率的变功率设备故障分析方法及装置
CN117153188B (zh) * 2023-08-29 2024-05-28 安徽理工大学 一种基于声音频率的变功率设备故障分析方法及装置

Similar Documents

Publication Publication Date Title
CN114170477A (zh) 一种基于注意力图卷积网络的多模态融合机械缺陷检测方法
CN110992317B (zh) 一种基于语义分割的pcb板缺陷检测方法
CN110148130B (zh) 用于检测零件缺陷的方法和装置
US10634621B2 (en) Information processing method, information processing apparatus, and program
US11715190B2 (en) Inspection system, image discrimination system, discrimination system, discriminator generation system, and learning data generation device
CN112070727B (zh) 一种基于机器学习的金属表面缺陷检测方法
CN114240939B (zh) 一种主板元器件外观缺陷检测方法、系统、设备及介质
CN111415339B (zh) 一种复杂纹理工业产品图像缺陷检测方法
CN113470005B (zh) 一种圆柱电池盖帽的焊点检测装置和焊点检测方法
US20220076404A1 (en) Defect management apparatus, method and non-transitory computer readable medium
CN114037684B (zh) 一种基于yolov5和注意力机制模型的疵点检测方法
CN111882547A (zh) 一种基于神经网络的pcb漏件检测方法
CN114758125A (zh) 基于深度学习的齿轮表面缺陷检测方法与系统
CN113112482A (zh) 一种基于注意力机制网络的pcb缺陷检测方法
CN117197146A (zh) 一种铸件内部缺陷自动识别方法
CN117114420A (zh) 一种基于图像识别的工贸安全事故风险管控系统和方法
CN111738991A (zh) 一种焊缝缺陷的数字射线检测模型的创建方法
CN116523853A (zh) 一种基于深度学习的芯片检测系统及方法
CN116977249A (zh) 缺陷检测的方法、模型训练的方法和装置
CN113642473A (zh) 一种基于计算机视觉的矿下煤机状态识别方法
CN115100095A (zh) 一种基于非监督算法的pcb板检测方法
CN114140879A (zh) 基于多头级联注意网络与时间卷积网络的行为识别方法及装置
CN107123105A (zh) 基于fast算法的图像匹配缺陷检测方法
CN114596243A (zh) 缺陷检测方法、装置、设备及计算机可读存储介质
CN112001396A (zh) 一种轴承表面形变及文字混合缺陷图像检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220804

Address after: 200241 No. 500, Dongchuan Road, Shanghai, Minhang District

Applicant after: EAST CHINA NORMAL University

Applicant after: FUDAN University

Address before: 200241 No. 500, Dongchuan Road, Shanghai, Minhang District

Applicant before: EAST CHINA NORMAL University

TA01 Transfer of patent application right