CN116778362B - 基于领域知识与深度学习的电力杆塔验收构件识别方法 - Google Patents

基于领域知识与深度学习的电力杆塔验收构件识别方法 Download PDF

Info

Publication number
CN116778362B
CN116778362B CN202310741356.XA CN202310741356A CN116778362B CN 116778362 B CN116778362 B CN 116778362B CN 202310741356 A CN202310741356 A CN 202310741356A CN 116778362 B CN116778362 B CN 116778362B
Authority
CN
China
Prior art keywords
acceptance
knowledge
power tower
classification
steps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310741356.XA
Other languages
English (en)
Other versions
CN116778362A (zh
Inventor
黄科文
冯科沥
刘海键
陈志忠
贾涛
蒙彦锡
谢俊波
张文钟
林俊名
姚东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Shanwei Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Wuhan University WHU
Shanwei Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU, Shanwei Power Supply Bureau of Guangdong Power Grid Co Ltd filed Critical Wuhan University WHU
Priority to CN202310741356.XA priority Critical patent/CN116778362B/zh
Publication of CN116778362A publication Critical patent/CN116778362A/zh
Application granted granted Critical
Publication of CN116778362B publication Critical patent/CN116778362B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Remote Sensing (AREA)
  • Animal Behavior & Ethology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于领域知识与深度学习的电力杆塔验收构件识别方法,属于电力杆塔验收构件识别领域,包括以下步骤:S1:构建数据集;S2:数据集预处理,并将预处理后的数据集分为训练集和测试集;S3:构建包含验收构件相互位置信息的知识图谱;S4:构建改进的融合知识图谱的RCNN模型,并将训练集输入改进的融合知识图谱的RCNN模型中训练模型;S5:将测试集输入到训练完毕的改进的融合知识图谱的RCNN模型,识别并定位出电力杆塔验收构件。本发明采用上述基于领域知识与深度学习的电力杆塔验收构件识别方法,利用知识图谱来表示电力杆塔验收构件之间的语义关系,并结合RCNN网络对图像进行特征提取,提高目标识别的准确率。

Description

基于领域知识与深度学习的电力杆塔验收构件识别方法
技术领域
本发明涉及电力杆塔验收构件识别技术领域,尤其涉及基于领域知识与深度学习的电力杆塔验收构件识别方法。
背景技术
人们生活用电和工业用电依赖于电力设施的输送,电力输送的质量和稳定性直接关系到民生。输电线路中电力线、杆塔和杆塔附件长期暴露在各种天气条件下,容易受到持续的电气闪络、材料老化、机械张力,导致输电线路本身产生磨损、腐蚀、断股等损伤,对以上所产生的严重后果若不及时修复与检查会导致严重事故,造成地区性的停电和巨大的经济损失。
电力杆塔是输电线路的重要组成部分,其主要构件包括导线、地线、绝缘子、塔材等。准确地检测和识别这些构件的状态,是保障输电线路正常运行的关键,在传统的电力设备检测方法中,通常是利用传感器采集数据或者利用图像处理技术对输电线路图像进行分析,从而获得线路的状态信息。然而,这种方法通常需要大量的人力和物力资源,并且存在着识别准确率低、误判率高等问题。
近年来,随着深度学习技术的快速发展,目标检测技术也取得了重大进展。在电力杆塔主要部件自动检测技术领域,许多深度学习模型被用来实现该任务。在深度学习算法中,目标检测是一项非常重要的任务,常见的目标检测算法包括Faster R-CNN、YOLO和SSD等。这些算法主要采用卷积神经网络(CNN)对图像中的目标进行分类和定位。
然而,在电力杆塔主要构件的识别任务中,仅仅使用单一的CNN模型,往往会出现一些问题。例如,当构件遮挡或者出现类似于其他物体的视觉干扰时,单一的CNN模型难以进行精确定位和准确分类。此外,由于电力杆塔主要构件的特点是具有复杂多样性和丰富的语义信息。对于不同型号和不同材质的电力杆塔,其构件的形状、大小、位置、纹理等特征差异较大。而且电力杆塔构件在实际运行中还会受到各种因素的影响,如恶劣的气候、环境污染和外部损伤等,进一步增加了构件的复杂性和多样性。使得单一的CNN模型也往往无法对它们进行有效的区分和识别。
发明内容
为解决上述问题,本发明提供一种基于领域知识与深度学习的电力杆塔验收构件识别方法,利用知识图谱来表示电力杆塔验收构件之间的语义关系,并结合RCNN网络对图像进行特征提取,提高目标识别的准确率。
为实现上述目的,本发明提供了基于领域知识与深度学习的电力杆塔验收构件识别方法,包括以下步骤:
步骤S1:利用无人机航拍采集电力杆塔图像数据,构建数据集;
步骤S2:数据集预处理:剔除重复电力杆塔图像数据以及清晰度低于设定值的电力杆塔图像数据,并将预处理后的数据集分为训练集和测试集;
步骤S3:结合本体论,构建包含验收构件相互位置信息的知识图谱,对电力杆塔构件知识进行显示表达;
步骤S4:构建改进的融合知识图谱的RCNN模型,并将训练集输入改进的融合知识图谱的RCNN模型中通过反向传播算法训练模型;
步骤S5:将测试集输入到训练完毕的改进的融合知识图谱的RCNN模型中,识别并定位出电力杆塔验收构件。
优选的,步骤S3具体包括以下步骤:
步骤S31:根据验收构件之间的位置关系做人工定义,并将人工定义信息用于构建验收构件之间的连接关系;
步骤S32:利用图论算法将连接关系转换为一个无向图,其中每个节点表示一个验收构件,每条边表示两个验收构件之间的连接关系;
步骤S33:遍历无向图,将每个验收构件之间的相互关系信息存储在知识图谱中。
优选的,步骤S31具体包括以下步骤:
步骤S311:通过观察电力杆塔的设计图纸和采集电力杆塔图像,确定需要识别和分类的验收构件类型;
步骤S312:人工对每个验收构件进行分类,将其与知识图谱中的实体进行关联,并为每个实体赋予一个唯一的标识符;
步骤S31所述的位置关系包括相邻关系、重叠关系、依附关系和贯穿关系。
优选的,步骤S4所述的改进的融合知识图谱的RCNN模型包括RENET101主干网络、RPN区域提取网络、知识图谱推理模块、区域池化层以及全连接层;
RENET101主干网络中的每个残差块均包含3个卷积层,其中第一个和第三个卷积层的卷积核大小为1×1,中间的卷积层的卷积核大小为3×3;
区域池化层利用ROI Align提取感兴趣区域;
全连接层利用分类和回归网络输出每个候选的目标框对应的类别和位置信息,分类和回归网络包括用于将每个候选的目标框中的验收构件进行分类并返回每个类别的概率值的分类网络和用于预测每个目标框相对于其默认区域的偏移量的分类网络;
分类和回归任务的目标是最小化预测输出与真实标签之间的差异;其中分类任务使用交叉熵损失函数来衡量模型输出的概率分布与真实标签之间的差异;回归任务使用平均绝对误差或均方误差损失函数来衡量模型输出的偏移量与真实偏移量之间的差异;且将上述损失函数作为模型的训练目标,通过反向传播算法更新模型的权重参数。
优选的,步骤S4具体包括以下步骤:
步骤S41:将训练集中的知识图谱输入改进的融合知识图谱的RCNN模型中的RENET101主干网络,提取包含语义信息的多个尺度的特征图;
步骤S42:将多个尺度的特征图送入RPN中,输出一系列候选的目标框和对应的类别信息;
步骤S43:将候选的目标框输入区域池化层,利用ROI Align技术提取具有固定大小的特征图;
步骤S44:将特征图和类别信息输入知识图谱推理模块,在每个候选的目标框内进行推理和推断;
步骤S45:通过全连接层进行分类和位置回归。
优选的,步骤S43中所述的ROI Align技术具体包括以下步骤:将每个ROI划分成一系列单元格,并对每个单元格内的像素使用双线性插值进行池化;然后,将每个单元格内的池化结果组合起来形成该ROI的最终特征表示。
优选的,步骤S44具体包括以下步骤:
步骤S441:将特征图和类别信息输入知识图谱推理模块,生成一个全局语义池,其通过收集原始分类层的权重来整合每个类别的高级语义表示:
步骤S442:输出各验收构件的关系矩阵以及该区域内各个验收构件对应的语义信息;
步骤S443:进行Mask预测,根据预测出的位置和类别信息,确定候选的目标框内是否存在目标,并输出其对应的掩膜信息。
优选的,步骤S441具体包括以下步骤:
步骤S4411:创建一个全局语义池,用于存储所有类别的高级语义表示:
通过从检测网络中bbox head的分类层复制参数M获得全局语义池,M∈RC*D,表示所有C类别的先前分类器的权重,并且在训练的每个迭代中更新分类器;
步骤S4412:定义并在训练和测试期间共享一个类别到类别的无向图G:G<=N,ε>,其中N是类别节点,每个边ei,j∈ε编码两个节点之间的一种知识,通过在无向图G上传播语义上下文,得到增强特征:
步骤S44121:通过无向图G中的边ε∈PC*C信息将M的连接类别进行传播,根据全局特征εM在所有的C个类别之间进行共享和全局传播;
步骤S44122:采用软映射寻找Nr个目标区域和C个类别之间的映射关系:
步骤S44123:通过先前分类器中C类别的得分函数softmax计算得到所有C类别的分类概率分布
步骤S44124:通过矩阵乘法PεMWG获得增强特征,其中,WG∈RD*E是所有图形共享的变换权重矩阵,E是知识图谱推理模块的输出维数;
步骤S4413:将增强区域特征与原始特征连接起来,输入到目标框的分类和回归网络中:
步骤S44131:利用Squeeze-and-Excitation进一步重新缩放正在考虑的类别:
步骤S441311:在Squeeze阶段,将整个图像特征F∈RW*H*D作为输入,通过一个CNN和全局池化操作将其压缩到之前的一半;
步骤S441312:应用softmax函数获取类别的注意力权重:
a=softmax(ZsWsMT)
式中,Zs=RD/64,D/64为卷积层的输出通道数;Ws∈RD/64*D表示全连接层的权重,a∈RC
步骤S44132:计算具有自适应推理的增强特征f':
式中,表示是逐通道乘积,其余为矩阵乘积;/>表示通过自适应全局图推理得到的具有E维的增强特征;
步骤S44133:将增强特征f'与原始区域特征f连接起来得到[f,f'],将[f,f']输入到目标框回归和分类网络中,以获取最终的检测结果,且f'是跨类别提取的信息,其中包括具有连接边的相似属性或关系;fi∈RD表示从主干网络中提取的所有Nr个目标框提议的D维视觉特征。
优选的,步骤S442具体包括以下步骤:
步骤S4421:设定一个C*C*4的张量来表示不同空间关系之间的相关性的,其中每个位置表示了两个验收构件之间的一个空间关系,而第三个维度则表示该关系的具体类型;
步骤S4422:在C*C*4张量的最后一个维度上增加一个全连接层,将张量中的每个元素与一个权重向量相乘,并将不同维度结果相加成一个单一的输出,变换得到矩阵C*C;
步骤S4423:对变换后的结果进行ReLU激活操作。
本发明具有以下有益效果:
1、采用基于领域知识与深度学习的目标检测方法,通过引入全局推理模块,利用了关系推理和空间感知的能力,可更有效地识别和定位电力杆塔主要构件,从而提高目标检测的准确性和可靠性;
具体来说,通过构建核心矩阵,利用特征向量中的相似度来衡量候选框之间的关系,进一步加强了目标识别的准确性和鲁棒性。此外,通过在Reasoning-RCNN的基础上进行改进,以进一步优化特征向量中相似度的细化。通过对空间关系的考虑,可以更准确地刻画候选框之间的相互关系,提高目标识别的准确率。
2、本方法通过学习图像中目标之间的位置关系,进行逻辑推理以改进目标检测的准确性和鲁棒性。
3、本方法利用知识图谱来表示电力杆塔验收构件之间的语义关系,并结合RCNN网络对图像进行特征提取。通过对构件之间的关系进行推理和探索,本方法可以更准确地定位和分类电力杆塔主要构件。同时,还具有较强的适应性和扩展性,可以根据具体的任务和场景进行调整和优化,从而进一步提高识别精度和性能。
4、通过建立电力杆塔验收构件之间位置关系的知识图谱,能够在电力杆塔图像数据中快速准确地识别和定位各个验收构件,并提高识别的准确性和效率。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明的基于领域知识与深度学习的电力杆塔验收构件识别方法的流程框图。
图2为本发明的基于领域知识与深度学习的电力杆塔验收构件识别方法的改进的融合知识图谱的RCNN模型框架图;
图3为本发明的基于领域知识与深度学习的电力杆塔验收构件识别方法的自适应全局推理模块的流程图;
图4为本发明的基于领域知识与深度学习的电力杆塔验收构件识别方法的空间知识图谱逻辑推理模块的流程图;
图5为本发明的基于领域知识与深度学习的电力杆塔验收构件识别方法的具体空间关系知识图谱结构框架图;
图6为本发明的实验例的电力杆塔验收构件识别置信度结果图。
具体实施方式
为了使本发明实施例公开的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明实施例进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明实施例,并不用于限定本发明实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。
需要说明的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
如图1所示,基于领域知识与深度学习的电力杆塔验收构件识别方法,包括以下步骤:
步骤S1:利用无人机航拍采集电力杆塔图像数据,构建数据集;
步骤S2:数据集预处理:剔除重复电力杆塔图像数据以及清晰度低于设定值的电力杆塔图像数据,并将预处理后的数据集分为训练集和测试集;
步骤S3:结合本体论,构建包含验收构件相互位置信息的知识图谱,对电力杆塔构件知识进行显示表达;
优选的,步骤S3具体包括以下步骤:
步骤S31:根据验收构件之间的位置关系做人工定义,并将人工定义信息用于构建验收构件之间的连接关系;
优选的,步骤S31具体包括以下步骤:
步骤S311:通过观察电力杆塔的设计图纸和采集电力杆塔图像,确定需要识别和分类的验收构件类型;
步骤S312:电力杆塔作为一种具有特殊结构的建筑物,构件之间的空间关系比较稳定,这种空间关系不仅是固定的,而且在大多数情况下,它们的空间位置也有一定的规律。同时,电力杆塔验收构件的种类较少,所以可以通过手动标注的方式对构件进行分类。
即人工对每个验收构件进行分类,将其与知识图谱中的实体进行关联,并为每个实体赋予一个唯一的标识符;
步骤S31所述的位置关系包括相邻关系、重叠关系、依附关系和贯穿关系。
步骤S32:利用图论算法将连接关系转换为一个无向图,其中每个节点表示一个验收构件,每条边表示两个验收构件之间的连接关系;
步骤S33:遍历无向图,将每个验收构件之间的相互关系信息存储在知识图谱中。
步骤S4:构建改进的融合知识图谱的RCNN模型,并将训练集输入改进的融合知识图谱的RCNN模型中通过反向传播算法训练模型;
优选的,步骤S4所述的改进的融合知识图谱的RCNN模型包括RENET101主干网络、RPN区域提取网络、知识图谱推理模块、区域池化层以及全连接层;
RENET101主干网络中的每个残差块均包含3个卷积层,其中第一个和第三个卷积层的卷积核大小为1×1,中间的卷积层的卷积核大小为3×3;RENET101在目标检测方面表现出色,具有较强的特征提取能力和泛化能力。且在主干网络上应用了FPN(FeaturePyramid Network特征金字塔网络),以生成具有多个尺度的特征图;
区域池化层利用ROI Align提取感兴趣区域;
全连接层利用分类和回归网络输出每个候选的目标框对应的类别和位置信息,分类和回归网络包括用于将每个候选的目标框中的验收构件进行分类并返回每个类别的概率值的分类网络和用于预测每个目标框相对于其默认区域的偏移量的分类网络;
分类和回归任务的目标是最小化预测输出与真实标签之间的差异;其中分类任务使用交叉熵损失函数来衡量模型输出的概率分布与真实标签之间的差异;回归任务使用平均绝对误差或均方误差损失函数来衡量模型输出的偏移量与真实偏移量之间的差异;且将上述损失函数作为模型的训练目标,通过反向传播算法更新模型的权重参数。
优选的,步骤S4具体包括以下步骤:
步骤S41:将训练集中的知识图谱输入改进的融合知识图谱的RCNN模型中的RENET101主干网络,提取包含语义信息的多个尺度的特征图;
步骤S42:将多个尺度的特征图送入RPN中,输出一系列候选的目标框和对应的类别信息;即在图像中可能包含目标的区域(RPN是一种全卷积网络,它能够对输入的任意大小的图像进行处理,并输出一系列固定数量的矩形框,这些区域称为候选的目标框(regionproposals));RPN的主要思想是通过滑动窗口的方式在图像上生成一系列锚点(anchor),每个锚点对应着不同的尺寸和长宽比,对应不同大小的目标。对于每个锚点,RPN通过卷积操作提取其特征,然后通过两个全连接层分别输出其包含目标的概率和对应的偏移量。具体来说,RPN使用一组预定义的锚点来对图像进行扫描。对于每个锚点,它会生成两个值:一个表示该锚点包含目标的概率,一个表示该锚点的位置偏移量,这个偏移量用来微调锚点的位置以更好的框住目标。
步骤S43:将候选的目标框输入区域池化层,利用ROI Align技术提取具有固定大小的特征图;
优选的,步骤S43中所述的ROI Align技术具体包括以下步骤:将每个ROI划分成一系列单元格,并对每个单元格内的像素使用双线性插值进行池化;然后,将每个单元格内的池化结果组合起来形成该ROI的最终特征表示。
步骤S44:将特征图和类别信息输入知识图谱推理模块,在每个候选的目标框内进行推理和推断;
优选的,步骤S44具体包括以下步骤:
步骤S441:将特征图和类别信息输入知识图谱推理模块,生成一个全局语义池,其通过收集原始分类层的权重来整合每个类别的高级语义表示:
优选的,步骤S441具体包括以下步骤:
步骤S4411:创建一个全局语义池,用于存储所有类别的高级语义表示:
通过从检测网络中bbox head的分类层复制参数M获得全局语义池,M∈RC*D,表示所有C类别的先前分类器的权重,并且在训练的每个迭代中更新分类器;
步骤S4412:定义并在训练和测试期间共享一个类别到类别的无向图G:G<=N,ε>,其中N是类别节点,每个边ei,j∈ε编码两个节点之间的一种知识,通过在无向图G上传播语义上下文,得到增强特征:
步骤S44121:通过无向图G中的边ε∈RC*C信息将M的连接类别进行传播,根据全局特征εM在所有的C个类别之间进行共享和全局传播;
步骤S44122:采用软映射寻找Nr个目标区域和C个类别之间的映射关系:
步骤S44123:通过先前分类器中C类别的得分函数softmax计算得到所有C类别的分类概率分布
步骤S44124:通过矩阵乘法PεMWG获得增强特征,其中,WG∈RD*E是所有图形共享的变换权重矩阵,E是知识图谱推理模块的输出维数;
步骤S4413:将增强区域特征与原始特征连接起来,输入到目标框的分类和回归网络中:
步骤S44131:利用Squeeze-and-Excitation进一步重新缩放正在考虑的类别:
步骤S441311:在Squeeze阶段,将整个图像特征F∈RW*H*D作为输入,通过一个CNN和全局池化操作将其压缩到之前的一半;
步骤S441312:应用softmax函数获取类别的注意力权重:
a=softmax(ZsWsMT)
式中,Zs=RD/64,D/64为卷积层的输出通道数;Ws∈RD/64*D表示全连接层的权重,a∈RC
步骤S44132:计算具有自适应推理的增强特征f':
式中,表示是逐通道乘积,其余为矩阵乘积;/>表示通过自适应全局图推理得到的具有E维的增强特征;
步骤S44133:将增强特征f'与原始区域特征f连接起来得到[f,f'],将[f,f']输入到目标框回归和分类网络中,以获取最终的检测结果,且f'是跨类别提取的信息,其中包括具有连接边的相似属性或关系;fi∈RD表示从主干网络中提取的所有Nr个目标框提议的D维视觉特征。
步骤S442:输出各验收构件的关系矩阵以及该区域内各个验收构件对应的语义信息;
优选的,步骤S442具体包括以下步骤:
步骤S4421:设定一个C*C*4的张量来表示不同空间关系之间的相关性的,其中每个位置表示了两个验收构件之间的一个空间关系,而第三个维度则表示该关系的具体类型;
步骤S4422:在C*C*4张量的最后一个维度上增加一个全连接层,将张量中的每个元素与一个权重向量相乘,并将不同维度结果相加成一个单一的输出,变换得到矩阵C*C;
步骤S4423:对变换后的结果进行ReLU激活操作。
步骤S443:进行Mask预测,根据预测出的位置和类别信息,确定候选的目标框内是否存在目标,并输出其对应的掩膜信息。
步骤S45:通过全连接层进行分类和位置回归。
可知,本网络结合了两个关键模块:Multi-Branch Reasoning模块和SpatialAttention模块。Multi-Branch Reasoning模块是一种结合不同尺度特征信息的方法,这种模型可以在不同的分支中学习不同的特征表达用于提高检测精度。Spatial Attention模块是一种自适应机制,能够对每个候选区域的重要性进行加权,从而进一步提高检测精度。
步骤S5:将测试集输入到训练完毕的改进的融合知识图谱的RCNN模型中,识别并定位出电力杆塔验收构件。
实验例:
为了保证数据集的质量和可用性和较少数据集对卷积神经网络的影像,本实验进行了一定的数据预处理。首先从大量的原始图像中筛选出清晰度较高、光照条件较好的图像作为样本,在剔除冗余的数据后得到5335张有效影像数据,其中4565张图片(包括3394张手持相机拍摄影像和1171张无人机航拍影像)用于训练电力杆塔主要构件识别模型,570张影像(包括433张手持相机拍摄影像和137张无人机航拍影像)用于测试验证。
其次利用人工标注的方式对图像中的电力杆塔主要构件进行标注,以便训练模型。在标注过程中,对于每个构件的位置、大小、形状等信息都进行精细的标注,并对标注结果进行了验证和修正,以确保标注的准确性和一致性。
本实验的精度评定和结果分析首先根据实际情况选择不同评价指标。在主要电力杆塔构件识别中首先绘制几种模型的混淆矩阵(Confusion Matrix)比较分类器预测结果和真实结果之间的差异,然后在从以下几个检测率参数分析结果:准确率、精确率、召回率、IoU、AP和mAP。
混淆矩阵(Confusion Matrix)是评估分类模型性能的一种常用工具,用于比较分类器预测结果和真实结果之间的差异。混淆矩阵的基本形式是一个二维矩阵,行表示实际标签,列表示预测标签,矩阵中每个元素的值代表在真实标签和预测标签下的样本数量。
表1为二类混淆矩阵(单位:个)
预测为正例 预测为反例
实际为正例 TP FN
实际为反例 FP TN
其中,TP(True Positive):表示模型将正例正确地预测为正例的数量。FP(FalsePositive):表示模型将负例错误地预测为正例的数量。FN(False Negative):表示模型将正例错误地预测为负例的数量。TN(True Negative):表示模型将负例正确地预测为负例的数量。
本实施例中由于有多个主要构件类别,则被建模为一个多分类任务。在多分类任务中,通常会将背景类别作为一种特殊的类别来考虑。因此,在混淆矩阵中也应该考虑到背景类别。对于一个有C*C个类别的多分类问题,混淆矩阵的大小为(C+1)*(C+1),其中包括了每个类别的真实标签和模型预测的标签。其中第一行和第一列表示背景类别的统计信息,其余行和列表示各个验收构件类别的统计信息。
表2为多类混淆矩阵(单位:个)
预测为背景 预测为类别1 预测为类别2 …… 预测为类别C
实际为背景 TN 0 0 …… 0
实际为类别1 FN N11 N21 …… NC1
实际为类别2 FN N12 N21 …… NC1
…… …… …… …… …… ……
实际为类别C FN NC1 NC1 …… NCC
在完成混淆矩阵的计算后,做以下计算以进行更加详细的精度指标评价,来更直观评价不同方法的好坏:
准确率(Acc):是指预测正确的目标数占总预测数的比例,其计算公式为:ACC=(TP+TN)/(TP+TN+FP+FN);
精确率(Pre):是指预测为正例的样本中,实际为正例的样本占比。精确率的计算公式:Pre=TP/(TP+FP),其关注点在于检测出的目标是否真正存在。如果精确率很低,说明检测出现较多误检情况;
召回率(Rec):是指实际为正例的样本中,被预测为正例的样本占比。召回率的计算公式:Rec=TP/(TP+FN),关注点在于检测系统是否能够发现所有真正存在的目标。如果召回率很低,说明检测出现较多漏检情况;
IoU(Intersection over Union):是指预测框和真实框之间的重叠度,用于衡量检测结果和真实结果的重合程度,IoU的计算公式:IoU=预测框与真实框的面积交集/预测框与真实框的面积并集;
AP(Average Precision):AP是指检测算法不同IOU阈值下的平均精度。用于衡量检测算法的精度和召回率,其是目标检测中常用的评价指标之一。
mAP:mAP(mean Average Precision)是指在不同类别下的AP的平均值,是综合考虑所有类别的检测性能的一个指标。用于比较不同检测算法的性能。
为了充分验证本发明所提出模型和方法在电力杆塔构件识别领域的可行性,本实验例将的Faster-RCNN、Reasoning-RCNN以及本发明提出的Improved Reasoning-RCNN进行对比分析。
表3为实验结果
模型 Acc Pre Rec mIoU mAP
Faster-RCNN 0.61129 0.83379 0.69611 0.78188 0.67843
Reasoning-RCNN 0.64516 0.74910 0.72870 0.86924 0.71574
本方法 0.85424 0.95100 0.84601 0.97307 0.82530
可知,本实验中所提出的改进的融合知识图谱的RCNN模型在各个指标均高于原有两个模型(Faster-RCNN、Reasoning-RCNN),因为通过有具体空间关系的知识图谱计算得到的更加详细的矩阵为原有模型中增强特征的提取提供了更多有效的信息,证明改进的模块在原理上和结果上都是可行的。
同时,如图6所示,本发明所提模型的准确度的提高主要来源于全局自适应推理模块可以自动地融合多种尺度和方法获取的特征,并综合考虑了电力构件多种类型的空间关系与知识图谱,从而提升目标框的识别置信度,在最后的非极大值抑制结果筛选中发挥作用。即可以明显地看出知识图谱推理模块对置信度的提高。
因此,本发明采用上述基于领域知识与深度学习的电力杆塔验收构件识别方法,利用知识图谱来表示电力杆塔验收构件之间的语义关系,并结合RCNN网络对图像进行特征提取,提高目标识别的准确率。
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims (7)

1.基于领域知识与深度学习的电力杆塔验收构件识别方法,其特征在于:包括以下步骤:
步骤S1:利用无人机航拍采集电力杆塔图像数据,构建数据集;
步骤S2:数据集预处理:剔除重复电力杆塔图像数据以及清晰度低于设定值的电力杆塔图像数据,并将预处理后的数据集分为训练集和测试集;
步骤S3:结合本体论,构建包含验收构件相互位置信息的知识图谱,对电力杆塔构件知识进行显示表达;
步骤S3具体包括以下步骤:
步骤S31:根据验收构件之间的位置关系做人工定义,并将人工定义信息用于构建验收构件之间的连接关系;
步骤S31具体包括以下步骤:
步骤S311:通过观察电力杆塔的设计图纸和采集电力杆塔图像,确定需要识别和分类的验收构件类型;
步骤S312:人工对每个验收构件进行分类,将其与知识图谱中的实体进行关联,并为每个实体赋予一个唯一的标识符;
步骤S31所述的位置关系包括相邻关系、重叠关系、依附关系和贯穿关系;
步骤S32:利用图论算法将连接关系转换为一个无向图,其中每个节点表示一个验收构件,每条边表示两个验收构件之间的连接关系;
步骤S33:遍历无向图,将每个验收构件之间的相互关系信息存储在知识图谱中;
步骤S4:构建改进的融合知识图谱的RCNN模型,并将训练集输入改进的融合知识图谱的RCNN模型中通过反向传播算法训练模型;
步骤S5:将测试集输入到训练完毕的改进的融合知识图谱的RCNN模型中,识别并定位出电力杆塔验收构件。
2.根据权利要求1所述的基于领域知识与深度学习的电力杆塔验收构件识别方法,其特征在于:步骤S4所述的改进的融合知识图谱的RCNN模型包括RENET101主干网络、RPN区域提取网络、知识图谱推理模块、区域池化层以及全连接层;
RENET101主干网络中的每个残差块均包含3个卷积层,其中第一个和第三个卷积层的卷积核大小为1×1,中间的卷积层的卷积核大小为3×3;
区域池化层利用ROI Align提取感兴趣区域;
全连接层利用分类和回归网络输出每个候选的目标框对应的类别和位置信息,分类和回归网络包括用于将每个候选的目标框中的验收构件进行分类并返回每个类别的概率值的分类网络和用于预测每个目标框相对于其默认区域的偏移量的分类网络;
分类和回归任务的目标是最小化预测输出与真实标签之间的差异;其中分类任务使用交叉熵损失函数来衡量模型输出的概率分布与真实标签之间的差异;回归任务使用平均绝对误差或均方误差损失函数来衡量模型输出的偏移量与真实偏移量之间的差异;且将上述损失函数作为模型的训练目标,通过反向传播算法更新模型的权重参数。
3.根据权利要求2所述的基于领域知识与深度学习的电力杆塔验收构件识别方法,其特征在于:步骤S4具体包括以下步骤:
步骤S41:将训练集中的知识图谱输入改进的融合知识图谱的RCNN模型中的RENET101主干网络,提取包含语义信息的多个尺度的特征图;
步骤S42:将多个尺度的特征图送入RPN中,输出一系列候选的目标框和对应的类别信息;
步骤S43:将候选的目标框输入区域池化层,利用ROI Align技术提取具有固定大小的特征图;
步骤S44:将特征图和类别信息输入知识图谱推理模块,在每个候选的目标框内进行推理和推断;
步骤S45:通过全连接层进行分类和位置回归。
4.根据权利要求3所述的基于领域知识与深度学习的电力杆塔验收构件识别方法,其特征在于:步骤S43中所述的ROI Align技术具体包括以下步骤:将每个ROI划分成一系列单元格,并对每个单元格内的像素使用双线性插值进行池化;然后,将每个单元格内的池化结果组合起来形成该ROI的最终特征表示。
5.根据权利要求3所述的基于领域知识与深度学习的电力杆塔验收构件识别方法,其特征在于:步骤S44具体包括以下步骤:
步骤S441:将特征图和类别信息输入知识图谱推理模块,生成一个全局语义池,其通过收集原始分类层的权重来整合每个类别的高级语义表示:
步骤S442:输出各验收构件的关系矩阵以及该区域内各个验收构件对应的语义信息;
步骤S443:进行Mask预测,根据预测出的位置和类别信息,确定候选的目标框内是否存在目标,并输出其对应的掩膜信息。
6.根据权利要求5所述的基于领域知识与深度学习的电力杆塔验收构件识别方法,其特征在于:步骤S441具体包括以下步骤:
步骤S4411:创建一个全局语义池,用于存储所有类别的高级语义表示:
通过从检测网络中bbox head的分类层复制参数M获得全局语义池,M∈RC*D,表示所有C类别的先前分类器的权重,并且在训练的每个迭代中更新分类器;
步骤S4412:定义并在训练和测试期间共享一个类别到类别的无向图G:G<=N,ε>,其中N是类别节点,每个边ei,j∈ε编码两个节点之间的一种知识,通过在无向图G上传播语义上下文,得到增强特征:
步骤S44121:通过无向图G中的边ε∈RC*C信息将M的连接类别进行传播,根据全局特征εM在所有的C个类别之间进行共享和全局传播;
步骤S44122:采用软映射寻找Nr个目标区域和C个类别之间的映射关系:
步骤S44123:通过先前分类器中C类别的得分函数softmax计算得到所有C类别的分类概率分布
步骤S44124:通过矩阵乘法PεMWG获得增强特征,其中,WG∈RD*E是所有图形共享的变换权重矩阵,E是Reasoning模块的输出维数;
步骤S4413:将增强区域特征与原始特征连接起来,输入到目标框的分类和回归网络中:
步骤S44131:利用Squeeze-and-Excitation进一步重新缩放正在考虑的类别:
步骤S441311:在Squeeze阶段,将整个图像特征F∈RW*H*D作为输入,通过一个CNN和全局池化操作将其压缩到之前的一半;
步骤S441312:应用softmax函数获取类别的注意力权重:
a=softmax(ZsWsMT)
式中,Zs=RD/64,D/64为卷积层的输出通道数;Ws∈RD/64*D表示全连接层的权重,a∈RC
步骤S44132:计算具有自适应推理的增强特征f′:
式中,表示是逐通道乘积,其余为矩阵乘积;/>表示通过自适应全局图推理得到的具有E维的增强特征;
步骤S44133:将增强特征f′与原始区域特征f连接起来得到[f,f′],将[f,f′]输入到目标框回归和分类网络中,以获取最终的检测结果,且f′是跨类别提取的信息,其中包括具有连接边的相似属性或关系;fi∈RD表示从主干网络中提取的所有Nr个目标框提议的D维视觉特征。
7.根据权利要求5所述的基于领域知识与深度学习的电力杆塔验收构件识别方法,其特征在于:步骤S442具体包括以下步骤:
步骤S4421:设定一个C*C*4的张量来表示不同空间关系之间的相关性的,其中每个位置表示了两个验收构件之间的一个空间关系,而第三个维度则表示该关系的具体类型;
步骤S4422:在C*C*4张量的最后一个维度上增加一个全连接层,将张量中的每个元素与一个权重向量相乘,并将不同维度结果相加成一个单一的输出,变换得到矩阵C*C;
步骤S4423:对变换后的结果进行ReLU激活操作。
CN202310741356.XA 2023-06-21 2023-06-21 基于领域知识与深度学习的电力杆塔验收构件识别方法 Active CN116778362B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310741356.XA CN116778362B (zh) 2023-06-21 2023-06-21 基于领域知识与深度学习的电力杆塔验收构件识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310741356.XA CN116778362B (zh) 2023-06-21 2023-06-21 基于领域知识与深度学习的电力杆塔验收构件识别方法

Publications (2)

Publication Number Publication Date
CN116778362A CN116778362A (zh) 2023-09-19
CN116778362B true CN116778362B (zh) 2024-03-05

Family

ID=88009424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310741356.XA Active CN116778362B (zh) 2023-06-21 2023-06-21 基于领域知识与深度学习的电力杆塔验收构件识别方法

Country Status (1)

Country Link
CN (1) CN116778362B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657596A (zh) * 2018-12-12 2019-04-19 天津卡达克数据有限公司 一种基于深度学习的车辆外观部件识别方法
CN110245644A (zh) * 2019-06-22 2019-09-17 福州大学 一种基于深度学习的无人机图像输电杆塔倒伏识别的方法
WO2020109016A1 (de) * 2018-11-26 2020-06-04 Osram Gmbh Verfahren zum gemeinsamen detektieren, verfolgen und klassifizieren von objekten
WO2020181685A1 (zh) * 2019-03-12 2020-09-17 南京邮电大学 一种基于深度学习的车载视频目标检测方法
DE102019208864A1 (de) * 2019-06-18 2020-12-24 Siemens Mobility GmbH Erkennungssystem, Arbeitsverfahren und Trainingsverfahren

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020109016A1 (de) * 2018-11-26 2020-06-04 Osram Gmbh Verfahren zum gemeinsamen detektieren, verfolgen und klassifizieren von objekten
CN109657596A (zh) * 2018-12-12 2019-04-19 天津卡达克数据有限公司 一种基于深度学习的车辆外观部件识别方法
WO2020181685A1 (zh) * 2019-03-12 2020-09-17 南京邮电大学 一种基于深度学习的车载视频目标检测方法
DE102019208864A1 (de) * 2019-06-18 2020-12-24 Siemens Mobility GmbH Erkennungssystem, Arbeitsverfahren und Trainingsverfahren
CN110245644A (zh) * 2019-06-22 2019-09-17 福州大学 一种基于深度学习的无人机图像输电杆塔倒伏识别的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Deep Learning Model for Small-size Defective Components Detection in Power Transmission Tower;Runhai Jiao 等;IEEE TRANSACTIONS ON POWER DELIVERY;第37卷(第4期);2551-2561 *
基于改进Faster R-CNN 的二维图纸中 建筑构件识别方法;周权 等;土木工程与管理学报;第38卷(第5期);110-117页 *

Also Published As

Publication number Publication date
CN116778362A (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
CN110569901B (zh) 一种基于通道选择的对抗消除弱监督目标检测方法
CN111368690B (zh) 基于深度学习的海浪影响下视频图像船只检测方法及系统
US20230418250A1 (en) Operational inspection system and method for domain adaptive device
CN109214452B (zh) 基于注意深度双向循环神经网络的hrrp目标识别方法
CN113705478B (zh) 一种基于改进YOLOv5的红树林单木目标检测方法
CN111444939B (zh) 电力领域开放场景下基于弱监督协同学习的小尺度设备部件检测方法
CN112837315B (zh) 一种基于深度学习的输电线路绝缘子缺陷检测方法
CN111814835B (zh) 计算机视觉模型的训练方法、装置、电子设备和存储介质
CN109117883A (zh) 基于长短时记忆网络的sar影像海冰分类方法及系统
CN113283282B (zh) 一种基于时域语义特征的弱监督时序动作检测方法
CN110751209A (zh) 一种融合深度图像分类和检索的智能台风定强方法
CN113469950A (zh) 一种基于深度学习的复合绝缘子异常发热缺陷的诊断方法
CN116977710A (zh) 一种遥感图像长尾分布目标半监督检测方法
CN117516937A (zh) 基于多模态特征融合增强的滚动轴承未知故障检测方法
CN115147418A (zh) 缺陷检测模型的压缩训练方法和装置
CN117252459A (zh) 一种基于深度学习的水果质量评估系统
CN116977859A (zh) 基于多尺度图像切割和实例困难度的弱监督目标检测方法
CN116778362B (zh) 基于领域知识与深度学习的电力杆塔验收构件识别方法
CN113673534B (zh) 一种基于Faster RCNN的RGB-D图像果实检测方法
CN112949630B (zh) 基于边框分级筛选的弱监督目标检测方法
CN115409776A (zh) 一种基于方位推理的输电线路金具图卷积检测方法及系统
CN114663751A (zh) 一种基于增量学习技术的输电线路缺陷识别方法和系统
CN112287929A (zh) 基于特征集成深度学习网络的遥感图像显著性分析方法
CN113963249B (zh) 一种星系图像的检测方法和系统
Yan et al. Feature Maps Training for Substation Defect Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230919

Address after: 516600 Xiangzhoutou, Shanwei Avenue, Shanwei City, Guangdong Province

Applicant after: GUANGDONG POWER GRID Co.,Ltd. SHANWEI POWER SUPPLY BUREAU

Applicant after: WUHAN University

Address before: 430072 No. 299 Bayi Road, Wuchang District, Hubei, Wuhan

Applicant before: WUHAN University

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant