CN117333777A - 一种坝体异常识别方法、装置及存储介质 - Google Patents

一种坝体异常识别方法、装置及存储介质 Download PDF

Info

Publication number
CN117333777A
CN117333777A CN202311628095.7A CN202311628095A CN117333777A CN 117333777 A CN117333777 A CN 117333777A CN 202311628095 A CN202311628095 A CN 202311628095A CN 117333777 A CN117333777 A CN 117333777A
Authority
CN
China
Prior art keywords
layer
mode
encoder
output
detection image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311628095.7A
Other languages
English (en)
Other versions
CN117333777B (zh
Inventor
葛新荣
刘勇
王斌
胡江蕾
齐瑞玲
胡昌波
范春丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Yuanmingqing Technology Co ltd
Original Assignee
Shandong Yuanmingqing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Yuanmingqing Technology Co ltd filed Critical Shandong Yuanmingqing Technology Co ltd
Priority to CN202311628095.7A priority Critical patent/CN117333777B/zh
Publication of CN117333777A publication Critical patent/CN117333777A/zh
Application granted granted Critical
Publication of CN117333777B publication Critical patent/CN117333777B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/176Urban or other man-made structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/467Encoded features or binary features, e.g. local binary patterns [LBP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种坝体异常识别方法、装置及存储介质,涉及坝体异常检测领域。本发明坝体异常识别模型根据模态编码自适应的对目标多模态异常检测图像进行异常分割,坝体异常识别模型包括通用的级联编码器、级联解码器和融合模块,级联编码器每一层根据模态编码自适应的对上一层提取的每个目标多模态异常检测图像特征进行处理,级联解码器每一层对级联解码器上一层和相应级联编码器层次提取的每个目标多模态异常检测图像的拼接特征进行处理,融合模块对全部目标多模态异常检测图像解码特征融合得到目标多模态异常检测图像中坝体异常的掩膜,利用掩膜提取坝体异常并通过异常分类模型进行分类识别。本申请能灵活适配不同模态异常检测图像的组合。

Description

一种坝体异常识别方法、装置及存储介质
技术领域
本发明涉及坝体异常检测领域,尤其涉及一种坝体异常识别方法、装置及存储介质。
背景技术
由于大坝失事原因是多方面的,其表现形式和可能发生的部位因各坝具体条件而异。大坝安全检查能够及时发现潜在的安全隐患,通过定期检查,可以发现坝体内部的结构问题、裂缝等潜在安全隐患,采取适当的措施进行修复,以避免大坝发生危险事故。常见的大坝内部结构无损检测手段如:声波探伤、射线探伤,对于声波探伤和射线探伤基于声波频率和射射频率又可以进一步的细分不同类型;电导率分布探测,利用电导率分布确定坝体渗透情况。现有基于语义分割的识别任务中,分割模型对输入的限制比较严格,往往限制输入为固定的几种模态,而实际不同大坝异常检测场景中受限于检测手段,采用的检测手段有限,若不能满足分割模型固定的输入要求,则不能运行模型。模型对检测手段的限制,实际上束缚了模型的通用性。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本发明提供一种坝体异常识别方法、装置及存储介质。
第一方面,本发明提供一种坝体异常识别方法,包括:
按照异常识别需求,选择并采集坝体目标区域的目标多模态异常检测图像;根据异常识别所采用的所述目标多模态异常检测图像的类型获取模态编码;将所述多模态异常检测图像和所述模态编码输入到坝体异常识别模型进行异常识别检测,所述坝体异常识别模型包括通用的级联编码器、对应级联编码器的级联解码器和融合模块,级联编码器包括第一灵活模态编码器、第二灵活模态编码器、第三灵活模态编码器、第四灵活模态编码器和第五灵活模态编码器,级联编码器每一层根据所述模态编码自适应的对上一层提取的每个目标多模态异常检测图像特征进行处理,第五灵活模态编码器的下采样结果与经Transformer提取的每个目标多模态异常检测图像特征拼接后输入级联解码器,级联解码器对应包括第五解码器、第四解码器、第三解码器、第二解码器和第一解码器,级联解码器每一层对级联解码器上一层和相应级联编码器层次提取的每个目标多模态异常检测图像的拼接特征进行解码处理,最终经融合模块对全部目标多模态异常检测图像解码特征融合得到目标多模态异常检测图像坝体异常的掩膜,利用掩膜提取目标多模态异常检测图像坝体异常并通过异常分类模型进行分类识别。
更进一步地,所述第一灵活模态编码器、第二灵活模态编码器、第三灵活模态编码器、第四灵活模态编码器和第五灵活模态编码器包括:采用残差架构的多头自注意力机制和至少一采用残差架构的多层感知机,所述多头自注意力机制和所述多层感知机前分别设置根据所述模态编码自适应的对输入进行处理的模态归一化。
更进一步地,所述模态归一化的方式如下:
;其中,me表示模态编码,/>、/>是通过不同模态异常检测图像训练数据学习到的参数。
,为根据特征批大小N和空间维度针对特征每个通道计算而来的平均值,Fi为被归一化的特征,H为特征高度,W为特征宽度,nchw指定特征点所在批、通道、高度和宽度。
,为根据特征批大小N和空间维度针对特征每个通道计算而来的标准差。
更进一步地,所述第四解码器、第三解码器、第二解码器和第一解码器通过双边线性插值实现上采样,并通过卷积、层归一化和Relu激活函数处理,所述第二灵活模态编码器、第三灵活模态编码器、第四灵活模态编码器和第五灵活模态编码器还包含用于实现下采样的最大池化层,最大池化处理后的通过卷积、层归一化和Relu激活函数处理。
更进一步地,所述第五灵活模态编码器的下采样的每个目标多模态异常检测图像特征经层五上采样后与所述第四灵活模态编码器的下采样的相应目标多模态异常检测图像特征经层四特征融合进行处理,处理后的特征与第一编码器输出的相应每个目标多模态异常检测图像特征拼接输入第二编码器处理。
所述第四灵活模态编码器的下采样的每个目标多模态异常检测图像特征经层四上采样1处理,层四特征融合的输出经层四上采样2处理;层四上采样1输出与所述第三灵活模态编码器的下采样的相应目标多模态异常检测图像特征经层三特征融合1进行处理;所述第三灵活模态编码器的下采样的相应目标多模态异常检测图像特征、层四上采样1输出、层四上采样2输出和层三特征融合1输出经层三特征融合2进行处理,处理后的特征与第二编码器输出的相应每个目标多模态异常检测图像特征拼接输入第三编码器处理。
所述第三灵活模态编码器的下采样的每个目标多模态异常检测图像特征经层三上采样1处理,层三特征融合1的输出经层三上采样2处理,层三特征融合2的输出经层三上采样3处理;层三上采样1输出与所述第二灵活模态编码器的下采样的相应目标多模态异常检测图像特征经层二特征融合1处理;所述第二灵活模态编码器的下采样的相应目标多模态异常检测图像特征、层三上采样1输出、层三上采样2输出和层二特征融合1输出经层二特征融合2处理;所述第二灵活模态编码器的下采样的相应目标多模态异常检测图像特征、层三上采样1输出、层三上采样2输出、层二特征融合1输出和层二特征融合2输出经层二特征融合3处理,处理后的特征与第三编码器输出的相应每个目标多模态异常检测图像特征拼接输入第四编码器处理。
所述第二灵活模态编码器的下采样的每个目标多模态异常检测图像特征经层二上采样1处理,层二特征融合1的输出经层二上采样2处理,层二特征融合2的输出经层二上采样3处理,层二特征融合3的输出经层二上采样4处理;层二上采样1输出与所述第一灵活模态编码器提取的相应目标多模态异常检测图像特征经层一特征融合1处理;所述第一灵活模态编码器提取的相应目标多模态异常检测图像特征、层二上采样1输出、层二上采样2输出和层一特征融合1输出经层一特征融合2处理;所述第一灵活模态编码器提取的相应目标多模态异常检测图像特征、层二上采样1输出、层二上采样2输出、层一特征融合1输出、层一特征融合2输出和层二上采样3输出经层一特征融合3处理;所述第一灵活模态编码器提取的相应目标多模态异常检测图像特征、层二上采样1输出、层二上采样2输出、层二上采样3输出、层一特征融合1输出、层一特征融合2输出、层一特征融合3输出和层二上采样4输出经层一特征融合4处理,处理后的特征与第四编码器输出的相应每个目标多模态异常检测图像特征拼接输入第五编码器处理。
更进一步地,特征融合采用残差网络,上采样采用双边线性插值。
更进一步地,所述级联编码器和所述融合模块采用dropout设计。
更进一步地,所述融合模块包括多对一卷积、归一化层和Relu激活函数。
第二方面,本发明提供一种坝体异常识别装置,包括:至少一处理单元,所述处理单元通过总线单元连接存储单元,所述存储单元存储计算机程序,所述计算机程序被所述处理单元执行时,实现所述的坝体异常识别方法。
第三方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序被处理器执行时,实现所述的坝体异常识别方法。
本发明实施例提供的上述技术方案与现有技术相比具有如下优点:
本发明的坝体异常识别模型根据模态编码自适应的对目标多模态异常检测图像进行异常分割,坝体异常识别模型包括通用的级联编码器、级联解码器和融合模块,级联编码器每一层根据模态编码自适应的对上一层提取的每个目标多模态异常检测图像特征进行处理,级联解码器每一层对级联解码器上一层和相应级联编码器层次提取的每个目标多模态异常检测图像的拼接特征进行处理,融合模块对全部目标多模态异常检测图像解码特征融合得到目标多模态异常检测图像中坝体异常的掩膜,利用掩膜提取坝体异常并通过异常分类模型进行分类识别。本申请中通用的级联编码器支持灵活适配不同模态异常检测图像的组合,使得本申请的坝体异常识别模型的通用性、泛化能力更强。从第一灵活模态编码器到第五灵活模态编码器,提取了不同感受野的多种特征,以综合考量全局局部的特征对异常区域进行语义分割,兼顾异常的整体和细节识别,识别效果更好。
级联编码器引入多头自注意力机制,捕获特征的长距离依赖,提供更好的识别效果。
本申请在对应的级联编码器和级联解码器之间,通过上采样和特征融合实现级联编码器和级联解码器各个层级之间特征关联,级联编码器和级联解码器之间的推理基于全部前序特征,保证坝体异常语义分割的准确性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种坝体异常识别方法的流程图;
图2为本发明实施例提供的坝体异常识别模型的结构图;
图3为本发明实施例提供的级联编码器的组成部分示意图;
图4为本发明实施例提供的另一坝体异常识别模型的示意图;
图5为本发明实施例提供的另一种坝体异常识别模型的局部示意图
图6为本发明实施例提供的一种坝体异常识别装置的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者装置中还存在另外的相同要素。
实施例1
参阅图1所示,本发明实施例提供一种坝体异常识别方法,包括:
按照异常识别需求,选择并采集坝体目标区域的目标多模态异常检测图像。
多模态异常检测图像的类型包括指定频率的超声波探伤图像,指定射线的射线探伤图像,介电分布图像。所述目标多模态异常检测图像为基于坝体异常检测实际场景中检测设备提取的目标区域的指定频率的超声波探伤图像,指定射线的射线探伤图像,介电分布图像中的任一种或几种的组合。
针对所述多模态异常检测图像的类型进行编码得到模态编码,所述模态编码给坝体异常识别模型提供目标多模态异常检测图像的类型。在进行异常识别过程中,根据异常识别所采用的所述目标多模态异常检测图像的类型获取模态编码。
将所述多模态异常检测图像和所述模态编码输入到坝体异常识别模型进行异常识别检测。参阅图2所示,所述坝体异常识别模型包括通用的级联编码器、对应级联编码器的级联解码器和融合模块,级联编码器包括:第一灵活模态编码器、第二灵活模态编码器、第三灵活模态编码器、第四灵活模态编码器和第五灵活模态编码器,级联编码器每一层根据所述模态编码自适应的对上一层提取的每个目标多模态异常检测图像特征进行处理,第五灵活模态编码器的下采样结果与经Transformer提取的每个目标多模态异常检测图像特征拼接后输入级联解码器,级联解码器对应包括第五解码器、第四解码器、第三解码器、第二解码器和第一解码器,级联解码器每一层对级联解码器上一层和相应级联编码器层次提取的每个目标多模态异常检测图像的拼接特征进行解码处理,最终经融合模块对全部目标多模态异常检测图像解码特征融合得到目标多模态异常检测图像坝体异常的掩膜。
具体的,参阅图3所示,所述第一灵活模态编码器、第二灵活模态编码器、第三灵活模态编码器、第四灵活模态编码器和第五灵活模态编码器包括:采用残差架构的多头自注意力机制和至少一采用残差架构的多层感知机,所述多头自注意力机制和所述多层感知机前分别设置根据所述模态编码自适应的对输入进行处理的模态归一化。所述第二灵活模态编码器、第三灵活模态编码器、第四灵活模态编码器和第五灵活模态编码器还包含用于实现下采样的最大池化层,最大池化处理后的通过卷积Conv、层归一化BN和Relu激活函数处理。
所述模态归一化的方式如下:
其中,me表示模态编码,、/>是通过不同模态异常检测图像训练数据学习到的参数。
,为根据特征批大小N和空间维度针对特征每个通道计算而来的平均值,Fi为被归一化的特征,H为特征高度,W为特征宽度,nchw指定特征点所在批、通道、高度和宽度。
,为根据特征批大小N和空间维度针对特征每个通道计算而来的标准差。
所述级联编码器根据所述模态编码自适应的对不同模态的目标多模态异常检测图像或目标多模态异常检测图像特征利用模态归一化处理后,根据输出创建多头自注意力机制所需的K、Q、V矩阵,利用QK求得注意力权重,将注意力权重加权V得到与输入(不同模态的目标多模态异常检测图像或目标多模态异常检测图像特征)维度一致的特征,通过残差架构将多头自注意力机制输出和输入相加,再次模态归一化后送到至少一所述多层感知机。所述级联编码器采用dropout设计,即,所述多层感知机采用dropout设计,避免过拟合。
具体实施过程中,所述第一灵活模态编码器根据模态编码自适应的提取每个目标多模态异常检测图像特征得到特征集F1,特征集F1包括:对应每个目标多模态异常检测图像的尺寸为H,W的特征;所述第二灵活模态编码器根据模态编码自适应的提取特征集F1中每个特征的特征得到特征集F2,特征集F2包括:对应每个目标多模态异常检测图像的尺寸为H/2,W/2的特征;所述第三灵活模态编码器根据模态编码自适应的提取特征集F2中每个特征的特征得到特征集F3,特征集F3包括:对应每个目标多模态异常检测图像的尺寸为H/4,W/4的特征;所述第四灵活模态编码器根据模态编码自适应的提取特征集F3中每个特征的特征得到特征集F4,特征集F4包括:对应每个目标多模态异常检测图像的尺寸为H/8,W/8的特征;所述第五灵活模态编码器根据模态编码自适应的提取特征集F4中每个特征的特征得到特征集F5,特征集F5包括:对应每个目标多模态异常检测图像的尺寸为H/16,W/16的特征;从第一灵活模态编码器到第五灵活模态编码器,提取了不同感受野的多种特征,以综合考量全局局部的特征对异常区域进行语义分割。
第五灵活模态编码器的下采样结果与经Transformer提取的每个目标多模态异常检测图像特征拼接后输入级联解码器。具体的,第一解码器将拼接的特征采用残差卷积网络进行处理,再经过双边线性插值实现上采样,并通过卷积、层归一化和Relu激活函数处理,得到特征集F’1,特征集F’1包括对应每个目标多模态异常检测图像的尺寸为H/8,W/8的特征;第二解码器将特征集F’1和特征集F4中对应特征的拼接特征采用残差卷积网络进行处理,再经过双边线性插值实现上采样,并通过卷积、层归一化和Relu激活函数处理,得到特征集F’2,特征集F’2包括对应每个目标多模态异常检测图像的尺寸为H/4,W/4的特征;第三解码器将特征集F’2和特征集F3中对应特征的拼接特征采用残差卷积网络进行处理,再经过双边线性插值实现上采样,并通过卷积、层归一化和Relu激活函数处理,得到特征集F’3,特征集F’3包括对应每个目标多模态异常检测图像的尺寸为H/2,W/2的特征;第四解码器将特征集F’3和特征集F2中对应特征的拼接特征采用残差卷积网络进行处理,再经过双边线性插值实现上采样,并通过卷积、层归一化和Relu激活函数处理,得到特征集F’4,特征集F’4包括对应每个目标多模态异常检测图像的尺寸为H,W的特征;第五解码器将特征集F’4和特征集F1中对应特征的拼接特征通过卷积、层归一化和Relu激活函数处理,得到特征集F’5,特征集F’5包括对应每个目标多模态异常检测图像的尺寸为H,W的特征。所述融合模块包括多对一卷积、归一化层和Relu激活函数。对特征集F’5中的特征进行融合得到目标多模态异常检测图像中坝体异常的掩膜。具体的,所述融合模块的卷积采用dropout设计。
利用掩膜提取目标多模态异常检测图像坝体异常并通过异常分类模型进行分类识别。所述异常分类模型采用CLIP模型,经预训练的CLIP模型支持坝体异常图像和异常文本描述的配对,便于分类查询目标多模态异常检测图像中的坝体异常。
实施例2
参阅图4和图5所示,本发明实施例相比实施例1区别在于,所述第五灵活模态编码器的下采样的每个目标多模态异常检测图像特征经层五上采样后与所述第四灵活模态编码器的下采样的相应目标多模态异常检测图像特征经层四特征融合进行处理,处理后的特征与第一编码器输出的相应每个目标多模态异常检测图像特征拼接输入第二编码器处理。
所述第四灵活模态编码器的下采样的每个目标多模态异常检测图像特征经层四上采样1处理,层四特征融合的输出经层四上采样2处理;层四上采样1输出与所述第三灵活模态编码器的下采样的相应目标多模态异常检测图像特征经层三特征融合1进行处理;所述第三灵活模态编码器的下采样的相应目标多模态异常检测图像特征、层四上采样1输出、层四上采样2输出和层三特征融合1输出经层三特征融合2进行处理,处理后的特征与第二编码器输出的相应每个目标多模态异常检测图像特征拼接输入第三编码器处理。
所述第三灵活模态编码器的下采样的每个目标多模态异常检测图像特征经层三上采样1处理,层三特征融合1的输出经层三上采样2处理,层三特征融合2的输出经层三上采样3处理;层三上采样1输出与所述第二灵活模态编码器的下采样的相应目标多模态异常检测图像特征经层二特征融合1处理;所述第二灵活模态编码器的下采样的相应目标多模态异常检测图像特征、层三上采样1输出、层三上采样2输出和层二特征融合1输出经层二特征融合2处理;所述第二灵活模态编码器的下采样的相应目标多模态异常检测图像特征、层三上采样1输出、层三上采样2输出、层二特征融合1输出和层二特征融合2输出经层二特征融合3处理,处理后的特征与第三编码器输出的相应每个目标多模态异常检测图像特征拼接输入第四编码器处理。
所述第二灵活模态编码器的下采样的每个目标多模态异常检测图像特征经层二上采样1处理,层二特征融合1的输出经层二上采样2处理,层二特征融合2的输出经层二上采样3处理,层二特征融合3的输出经层二上采样4处理;层二上采样1输出与所述第一灵活模态编码器提取的相应目标多模态异常检测图像特征经层一特征融合1处理;所述第一灵活模态编码器提取的相应目标多模态异常检测图像特征、层二上采样1输出、层二上采样2输出和层一特征融合1输出经层一特征融合2处理;所述第一灵活模态编码器提取的相应目标多模态异常检测图像特征、层二上采样1输出、层二上采样2输出、层一特征融合1输出、层一特征融合2输出和层二上采样3输出经层一特征融合3处理;所述第一灵活模态编码器提取的相应目标多模态异常检测图像特征、层二上采样1输出、层二上采样2输出、层二上采样3输出、层一特征融合1输出、层一特征融合2输出、层一特征融合3输出和层二上采样4输出经层一特征融合4处理,处理后的特征与第四编码器输出的相应每个目标多模态异常检测图像特征拼接输入第五编码器处理。
本实施例中的全部特征融合采用残差网络,全部上采样采用双边线性插值。
层四特征融合将第五灵活模态编码器输出上采样结果与述第四灵活模态编码器输出融合;层三特征融合1将层四上采样1输出与所述第三灵活模态编码器的下采样的相应目标多模态异常检测图像特征融合;层三特征融合2将所述第三灵活模态编码器的下采样的相应目标多模态异常检测图像特征、层四上采样1输出、层四上采样2输出和层三特征融合1输出融合;层二特征融合1将层三上采样1输出与所述第二灵活模态编码器的下采样的相应目标多模态异常检测图像特征融合;层二特征融合2将所述第二灵活模态编码器的下采样的相应目标多模态异常检测图像特征、层三上采样1输出、层三上采样2输出和层二特征融合1输出融合;层二特征融合3将所述第二灵活模态编码器的下采样的相应目标多模态异常检测图像特征、层三上采样1输出、层三上采样2输出、层二特征融合1输出和层二特征融合2输出融合;层一特征融合1将层二上采样1输出与所述第一灵活模态编码器提取的相应目标多模态异常检测图像特征融合;层一特征融合2将所述第一灵活模态编码器提取的相应目标多模态异常检测图像特征、层二上采样1输出、层二上采样2输出和层一特征融合1输出融合;层一特征融合3将所述第一灵活模态编码器提取的相应目标多模态异常检测图像特征、层二上采样1输出、层二上采样2输出、层一特征融合1输出、层一特征融合2输出和层二上采样3输出融合;层一特征融合4将所述第一灵活模态编码器提取的相应目标多模态异常检测图像特征、层二上采样1输出、层二上采样2输出、层二上采样3输出、层一特征融合1输出、层一特征融合2输出、层一特征融合3输出和层二上采样4输出融合;通过上采样和特征融合实现各个层级之间特征关联,级联编码器和级联解码器之间的推理基于前序特征,保证对坝体异常语义分割的准确性。
实施例3
参阅图6所示,本发明实施例提供一种坝体异常识别装置,包括:至少一处理单元,所述处理单元通过总线单元连接存储单元,所述存储单元存储计算机程序,所述计算机程序被所述处理单元执行时,实现所述的坝体异常识别方法,包括:按照异常识别需求,选择并采集坝体目标区域的目标多模态异常检测图像;根据异常识别所采用的所述目标多模态异常检测图像的类型获取模态编码;将所述多模态异常检测图像和所述模态编码输入到坝体异常识别模型进行异常识别检测,所述坝体异常识别模型包括通用的级联编码器、对应级联编码器的级联解码器和融合模块,级联编码器包括第一灵活模态编码器、第二灵活模态编码器、第三灵活模态编码器、第四灵活模态编码器和第五灵活模态编码器,级联编码器每一层根据所述模态编码自适应的对上一层提取的每个目标多模态异常检测图像特征进行处理,第五灵活模态编码器的下采样结果与经Transformer提取的每个目标多模态异常检测图像特征拼接后输入级联解码器,级联解码器对应包括第五解码器、第四解码器、第三解码器、第二解码器和第一解码器,级联解码器每一层对级联解码器上一层和相应级联编码器层次提取的每个目标多模态异常检测图像的拼接特征进行解码处理,最终经融合模块对全部目标多模态异常检测图像解码特征融合得到目标多模态异常检测图像中坝体异常的掩膜,利用掩膜提取目标多模态异常检测图像坝体异常并通过异常分类模型进行分类识别。
当然,本发明实施例所提供的一种坝体异常识别装置中的存储单元中的计算机程序不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的一种坝体异常识别方法中的相关操作。
实施例4
本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序被处理器执行时,实现所述的坝体异常识别方法,包括:按照异常识别需求,选择并采集坝体目标区域的目标多模态异常检测图像;根据异常识别所采用的所述目标多模态异常检测图像的类型获取模态编码;将所述多模态异常检测图像和所述模态编码输入到坝体异常识别模型进行异常识别检测,所述坝体异常识别模型包括通用的级联编码器、对应级联编码器的级联解码器和融合模块,级联编码器包括第一灵活模态编码器、第二灵活模态编码器、第三灵活模态编码器、第四灵活模态编码器和第五灵活模态编码器,级联编码器每一层根据所述模态编码自适应的对上一层提取的每个目标多模态异常检测图像特征进行处理,第五灵活模态编码器的下采样结果与经Transformer提取的每个目标多模态异常检测图像特征拼接后输入级联解码器,级联解码器对应包括第五解码器、第四解码器、第三解码器、第二解码器和第一解码器,级联解码器每一层对级联解码器上一层和相应级联编码器层次提取的每个目标多模态异常检测图像的拼接特征进行解码处理,最终经融合模块对全部目标多模态异常检测图像解码特征融合得到目标多模态异常检测图像中坝体异常的掩膜,利用掩膜提取目标多模态异常检测图像坝体异常并通过异常分类模型进行分类识别。
当然,本发明实施例所提供的一种计算机可读存储介质,其存储的计算机程序不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的一种坝体异常识别方法中的相关操作。
在本发明所提供的实施例中,应该理解到,所揭露的结构和方法,可以通过其它的方式实现。例如,以上所描述的结构实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,结构或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种坝体异常识别方法,其特征在于,包括:
按照异常识别需求,选择并采集坝体目标区域的目标多模态异常检测图像;根据异常识别所采用的所述目标多模态异常检测图像的类型获取模态编码;将所述多模态异常检测图像和所述模态编码输入到坝体异常识别模型进行异常识别检测,所述坝体异常识别模型包括通用的级联编码器、对应级联编码器的级联解码器和融合模块,级联编码器包括第一灵活模态编码器、第二灵活模态编码器、第三灵活模态编码器、第四灵活模态编码器和第五灵活模态编码器,级联编码器每一层根据所述模态编码自适应的对上一层提取的每个目标多模态异常检测图像特征进行处理,第五灵活模态编码器的下采样结果与经Transformer提取的每个目标多模态异常检测图像特征拼接后输入级联解码器,级联解码器对应包括第五解码器、第四解码器、第三解码器、第二解码器和第一解码器,级联解码器每一层对级联解码器上一层和相应级联编码器层次提取的每个目标多模态异常检测图像的拼接特征进行解码处理,最终经融合模块对全部目标多模态异常检测图像解码特征融合得到目标多模态异常检测图像中坝体异常的掩膜,利用掩膜提取目标多模态异常检测图像坝体异常并通过异常分类模型进行分类识别。
2.根据权利要求1所述的坝体异常识别方法,其特征在于,所述第一灵活模态编码器、第二灵活模态编码器、第三灵活模态编码器、第四灵活模态编码器和第五灵活模态编码器包括:采用残差架构的多头自注意力机制和至少一采用残差架构的多层感知机,所述多头自注意力机制和所述多层感知机前分别设置根据所述模态编码自适应的对输入进行处理的模态归一化。
3.根据权利要求2所述的坝体异常识别方法,其特征在于,所述模态归一化的方式如下:
其中,me表示模态编码,、/>是通过不同模态异常检测图像训练数据学习到的参数,
,为根据特征批大小N和空间维度针对特征每个通道计算而来的平均值,Fi为被归一化的特征,H为特征高度,W为特征宽度,nchw指定特征点所在批、通道、高度和宽度;
,为根据特征批大小N和空间维度针对特征每个通道计算而来的标准差。
4.根据权利要求1所述的坝体异常识别方法,其特征在于,所述第四解码器、第三解码器、第二解码器和第一解码器通过双边线性插值实现上采样,并通过卷积、层归一化和Relu激活函数处理,所述第二灵活模态编码器、第三灵活模态编码器、第四灵活模态编码器和第五灵活模态编码器还包含用于实现下采样的最大池化层,最大池化处理后的通过卷积、层归一化和Relu激活函数处理。
5.根据权利要求1所述的坝体异常识别方法,其特征在于,所述第五灵活模态编码器的下采样的每个目标多模态异常检测图像特征经层五上采样后与所述第四灵活模态编码器的下采样的相应目标多模态异常检测图像特征经层四特征融合进行处理,处理后的特征与第一编码器输出的相应每个目标多模态异常检测图像特征拼接输入第二编码器处理;
所述第四灵活模态编码器的下采样的每个目标多模态异常检测图像特征经层四上采样1处理,层四特征融合的输出经层四上采样2处理;层四上采样1输出与所述第三灵活模态编码器的下采样的相应目标多模态异常检测图像特征经层三特征融合1进行处理;所述第三灵活模态编码器的下采样的相应目标多模态异常检测图像特征、层四上采样1输出、层四上采样2输出和层三特征融合1输出经层三特征融合2进行处理,处理后的特征与第二编码器输出的相应每个目标多模态异常检测图像特征拼接输入第三编码器处理;
所述第三灵活模态编码器的下采样的每个目标多模态异常检测图像特征经层三上采样1处理,层三特征融合1的输出经层三上采样2处理,层三特征融合2的输出经层三上采样3处理;层三上采样1输出与所述第二灵活模态编码器的下采样的相应目标多模态异常检测图像特征经层二特征融合1处理;所述第二灵活模态编码器的下采样的相应目标多模态异常检测图像特征、层三上采样1输出、层三上采样2输出和层二特征融合1输出经层二特征融合2处理;所述第二灵活模态编码器的下采样的相应目标多模态异常检测图像特征、层三上采样1输出、层三上采样2输出、层二特征融合1输出和层二特征融合2输出经层二特征融合3处理,处理后的特征与第三编码器输出的相应每个目标多模态异常检测图像特征拼接输入第四编码器处理;
所述第二灵活模态编码器的下采样的每个目标多模态异常检测图像特征经层二上采样1处理,层二特征融合1的输出经层二上采样2处理,层二特征融合2的输出经层二上采样3处理,层二特征融合3的输出经层二上采样4处理;层二上采样1输出与所述第一灵活模态编码器提取的相应目标多模态异常检测图像特征经层一特征融合1处理;所述第一灵活模态编码器提取的相应目标多模态异常检测图像特征、层二上采样1输出、层二上采样2输出和层一特征融合1输出经层一特征融合2处理;所述第一灵活模态编码器提取的相应目标多模态异常检测图像特征、层二上采样1输出、层二上采样2输出、层一特征融合1输出、层一特征融合2输出和层二上采样3输出经层一特征融合3处理;所述第一灵活模态编码器提取的相应目标多模态异常检测图像特征、层二上采样1输出、层二上采样2输出、层二上采样3输出、层一特征融合1输出、层一特征融合2输出、层一特征融合3输出和层二上采样4输出经层一特征融合4处理,处理后的特征与第四编码器输出的相应每个目标多模态异常检测图像特征拼接输入第五编码器处理。
6.根据权利要求5所述的坝体异常识别方法,其特征在于,特征融合采用残差网络,上采样采用双边线性插值。
7.根据权利要求1所述的坝体异常识别方法,其特征在于,所述级联编码器和所述融合模块采用dropout设计。
8.根据权利要求1所述的坝体异常识别方法,其特征在于,所述融合模块包括多对一卷积、归一化层和Relu激活函数。
9.一种坝体异常识别装置,其特征在于,包括:至少一处理单元,所述处理单元通过总线单元连接存储单元,所述存储单元存储计算机程序,所述计算机程序被所述处理单元执行时,实现如权利要求1-8任一所述的坝体异常识别方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-8任一项所述的坝体异常识别方法。
CN202311628095.7A 2023-12-01 2023-12-01 一种坝体异常识别方法、装置及存储介质 Active CN117333777B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311628095.7A CN117333777B (zh) 2023-12-01 2023-12-01 一种坝体异常识别方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311628095.7A CN117333777B (zh) 2023-12-01 2023-12-01 一种坝体异常识别方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN117333777A true CN117333777A (zh) 2024-01-02
CN117333777B CN117333777B (zh) 2024-02-13

Family

ID=89279642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311628095.7A Active CN117333777B (zh) 2023-12-01 2023-12-01 一种坝体异常识别方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN117333777B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108257134A (zh) * 2017-12-21 2018-07-06 深圳大学 基于深度学习的鼻咽癌病灶自动分割方法和系统
CN109685819A (zh) * 2018-12-11 2019-04-26 厦门大学 一种基于特征增强的三维医学图像分割方法
CN112348770A (zh) * 2020-09-09 2021-02-09 陕西师范大学 一种基于多分辨率卷积网络的桥梁裂缝检测方法
CN114359283A (zh) * 2022-03-18 2022-04-15 华东交通大学 基于Transformer的缺陷检测方法和电子设备
CN114693952A (zh) * 2022-03-24 2022-07-01 安徽理工大学 一种基于多模态差异性融合网络的rgb-d显著性目标检测方法
US20220237830A1 (en) * 2021-01-22 2022-07-28 Adobe Inc. Automatic object re-colorization
CN115239740A (zh) * 2022-06-08 2022-10-25 北京师范大学 基于GT-UNet的全心分割算法
CN115620146A (zh) * 2022-11-07 2023-01-17 无锡学院 一种基于Transformer的农作物叶片病害检测方法
WO2023049209A1 (en) * 2021-09-22 2023-03-30 Volastra Therapeutics, Inc. Systems and methods for evaluation of mitotic events using machine-learning
WO2023108526A1 (zh) * 2021-12-16 2023-06-22 中国科学院深圳先进技术研究院 一种医学图像分割方法、系统、终端以及存储介质
CN116485717A (zh) * 2023-03-09 2023-07-25 三峡大学 一种基于像素级深度学习的混凝土坝表面裂缝检测方法
CN116523835A (zh) * 2023-03-20 2023-08-01 缤谷电力科技(上海)有限公司 一种融合多尺度和注意力机制的改进U-Net高温异常检测方法
CN116912257A (zh) * 2023-09-14 2023-10-20 东莞理工学院 基于深度学习的混凝土路面裂缝识别方法及存储介质
CN116912503A (zh) * 2023-09-14 2023-10-20 湖南大学 一种基于层级融合策略的多模态mri脑肿瘤语义分割方法
CN117036380A (zh) * 2023-07-17 2023-11-10 大连民族大学 一种基于级联Transformer的脑肿瘤分割方法
CN117058382A (zh) * 2023-08-16 2023-11-14 长沙理工大学 复杂环境下基于双编码器的裂缝图像分割方法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108257134A (zh) * 2017-12-21 2018-07-06 深圳大学 基于深度学习的鼻咽癌病灶自动分割方法和系统
CN109685819A (zh) * 2018-12-11 2019-04-26 厦门大学 一种基于特征增强的三维医学图像分割方法
CN112348770A (zh) * 2020-09-09 2021-02-09 陕西师范大学 一种基于多分辨率卷积网络的桥梁裂缝检测方法
US20220237830A1 (en) * 2021-01-22 2022-07-28 Adobe Inc. Automatic object re-colorization
WO2023049209A1 (en) * 2021-09-22 2023-03-30 Volastra Therapeutics, Inc. Systems and methods for evaluation of mitotic events using machine-learning
WO2023108526A1 (zh) * 2021-12-16 2023-06-22 中国科学院深圳先进技术研究院 一种医学图像分割方法、系统、终端以及存储介质
CN114359283A (zh) * 2022-03-18 2022-04-15 华东交通大学 基于Transformer的缺陷检测方法和电子设备
CN114693952A (zh) * 2022-03-24 2022-07-01 安徽理工大学 一种基于多模态差异性融合网络的rgb-d显著性目标检测方法
CN115239740A (zh) * 2022-06-08 2022-10-25 北京师范大学 基于GT-UNet的全心分割算法
CN115620146A (zh) * 2022-11-07 2023-01-17 无锡学院 一种基于Transformer的农作物叶片病害检测方法
CN116485717A (zh) * 2023-03-09 2023-07-25 三峡大学 一种基于像素级深度学习的混凝土坝表面裂缝检测方法
CN116523835A (zh) * 2023-03-20 2023-08-01 缤谷电力科技(上海)有限公司 一种融合多尺度和注意力机制的改进U-Net高温异常检测方法
CN117036380A (zh) * 2023-07-17 2023-11-10 大连民族大学 一种基于级联Transformer的脑肿瘤分割方法
CN117058382A (zh) * 2023-08-16 2023-11-14 长沙理工大学 复杂环境下基于双编码器的裂缝图像分割方法
CN116912257A (zh) * 2023-09-14 2023-10-20 东莞理工学院 基于深度学习的混凝土路面裂缝识别方法及存储介质
CN116912503A (zh) * 2023-09-14 2023-10-20 湖南大学 一种基于层级融合策略的多模态mri脑肿瘤语义分割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HONG FAN等: "Multi-Modal Magnetic Resonance Images Segmentation Based on An Improved 3DUNet", 《2022 15TH INTERNATIONAL CONGRESS ON IMAGE AND SIGNAL PROCESSING, BIOMEDICAL ENGINEERING AND INFORMATICS (CISP-BMEI)》, pages 1 - 6 *
周涛: "跨模态跨尺度跨维度的PET/CT图像的Transformer分割模型", 《电子与信息学报》, vol. 45, no. 10, pages 3529 - 3537 *

Also Published As

Publication number Publication date
CN117333777B (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
US20210081698A1 (en) Systems and methods for physical object analysis
CN111222513B (zh) 车牌号码识别方法、装置、电子设备及存储介质
WO2016157499A1 (ja) 画像処理装置、物体検知装置、画像処理方法
JP6844563B2 (ja) 検査装置、画像識別装置、識別装置、検査方法、及び検査プログラム
CN112465049A (zh) 异常检测模型生成方法和装置、异常事件检测方法和装置
JP7191139B2 (ja) 生体を検知するための方法及び装置
CN114821488B (zh) 基于多模态网络的人群计数方法、系统及计算机设备
WO2018120082A1 (en) Apparatus, method and computer program product for deep learning
CN110866475A (zh) 手部脱离方向盘及图像分割模型训练方法、装置、终端、介质
CN117333777B (zh) 一种坝体异常识别方法、装置及存储介质
JP2009501677A (ja) 受動的なワイヤ検出のためのシステムおよび方法
CN112907575B (zh) 人脸质量评估方法、装置及电子设备
Lee et al. Deep learning-based framework for monitoring wearing personal protective equipment on construction sites
CN114663871A (zh) 图像识别方法、训练方法、装置、系统及存储介质
CN116485777A (zh) 一种医学图像可解释性分析系统及分析方法
CN114064870B (zh) 面向多模态的对话方法、装置、电子设备、存储介质
WO2018155594A1 (ja) 情報処理装置、情報処理方法、及びコンピュータ読み取り可能な記録媒体
CN113792569B (zh) 对象识别方法、装置、电子设备及可读介质
CN113793326A (zh) 一种基于图像的疾病识别方法和装置
Maheswari et al. Thermal infrared image semantic segmentation for night-time driving scenes based on deep learning
KR20220128192A (ko) 합성 영상을 활용한 객체 검출장치 및 그 방법
CN115424278B (zh) 邮件检测方法及装置、电子设备
CN112528970A (zh) 路牌检测方法、装置、设备和计算机可读介质
CN210694184U (zh) 人工智能分析设备以及人工智能处理器
US20220406051A1 (en) Method and apparatus for distributed image data processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant