CN111860332B - 基于多阈值级联检测器的双通道电力图零部件检测方法 - Google Patents

基于多阈值级联检测器的双通道电力图零部件检测方法 Download PDF

Info

Publication number
CN111860332B
CN111860332B CN202010707607.9A CN202010707607A CN111860332B CN 111860332 B CN111860332 B CN 111860332B CN 202010707607 A CN202010707607 A CN 202010707607A CN 111860332 B CN111860332 B CN 111860332B
Authority
CN
China
Prior art keywords
network
rois
sub
roi
original image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010707607.9A
Other languages
English (en)
Other versions
CN111860332A (zh
Inventor
李�昊
管荑
王杉
李慧聪
石玮
王黎
陈静
于嘉琳
吴建龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
QINGDAO POWER SUPPLY Co OF STATE GRID SHANDONG ELECTRIC POWER Co
State Grid Corp of China SGCC
Shandong University
Original Assignee
QINGDAO POWER SUPPLY Co OF STATE GRID SHANDONG ELECTRIC POWER Co
State Grid Corp of China SGCC
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by QINGDAO POWER SUPPLY Co OF STATE GRID SHANDONG ELECTRIC POWER Co, State Grid Corp of China SGCC, Shandong University filed Critical QINGDAO POWER SUPPLY Co OF STATE GRID SHANDONG ELECTRIC POWER Co
Priority to CN202010707607.9A priority Critical patent/CN111860332B/zh
Publication of CN111860332A publication Critical patent/CN111860332A/zh
Application granted granted Critical
Publication of CN111860332B publication Critical patent/CN111860332B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • G06V30/422Technical drawings; Geographical maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Abstract

本发明公开了一种基于多阈值级联检测器的双通道电力图零部件检测方法,属于电力图纸智能识别技术领域,所述方法包括:获取待检测的电力图的原图集,对原图集按零部件分布区域进行分割得到子图集,并记录下子图对于原图的相对位置;将所述原图集和子图集送入预先训练好的双通道检测模型,得到原图检测结果和子图检测结果;根据记录的子图相对位置,汇总所述原图检测结果和子图检测结果,即得电力图零部件检测结果。本发明利用基于卷积神经网络的目标检测技术,能够实现对各种不同类型的电力图零部件的快速精准定位与快速类型识别。

Description

基于多阈值级联检测器的双通道电力图零部件检测方法
技术领域
本发明涉及电力图纸智能识别技术领域,特别是指一种基于多阈值级联检测器的双通道电力图零部件检测方法。
背景技术
海量的电力工程图纸需要耗费极大的人力资源来进行信息统计和内容分析。现有技术中通过设计相关算法,对电力图中的零部件进行精准定位与类型识别,不仅能减轻工作人员对图像内容分析的压力,还是智能识图、图像重要信息抽取、图片内容自动纠错等技术不可或缺的一部分。目标检测是用于识别图像中目标的位置,并确定目标类型的技术。近年来,随着深度卷积神经网络的广泛应用,目标检测技术在精度和速度上均取得了长足的进步。
根据目标检测所需要的阶段数,现有基于CNN(Convolutional Neural Networks,卷积神经网络)的目标检测模型大致可以分为两类,分别为一阶段检测器和二阶段检测器。其中以YOLO(You Only Look Once)和SSD(Single Shot MultiBox Detector)为代表的一阶段检测模型直接使用前馈CNN来预测位置框,以Faster R-CNN和R-FCN为代表的二阶段检测模型则先通过RPN(Region Proposal Network,区域候选网络)网络生成RoI(Region ofInterest,感兴趣区域),然后利用CNN提取区域特征进行进一步的增强。与一阶段检测器相比,二阶段检测器具有较大的精度优势,但其计算量更大,进而导致速度较慢。
中国专利CN110956126A涉及电力设备检测控制领域,具体而言,涉及一种联合超分辨率重建的小目标检测方法,包括以下步骤:选择Microsoft COCO和SUN数据库中大量包含小目标的图像分别构建网络预训练的预训练集和预测试集;搜集电网环境下包含小目标的图像分别构建网络微调的微调训练集和微调测试集;基于上述预训练集和预测试集、微调训练集和微调测试集,通过结合4PP-EUSR超分辨率算法模型与上采样模型、鉴别器、质量评估构建超分辨率重建网络模型;通过在Faster R-CNN算法框架中对分辨率低的小目标对其所在的proposal利用上述超分辨率重建网络模型提升小目标的特征质量并进行后续小目标的检测,构建小目标检测深度卷积神经网络。
上述方法是针对小分辨率目标检测任务设计的网络架构,而电力工程图的特点是图像的整体分辨率很高、零部件形状较为规整,但不同的零部件分布密集且尺度差异很大,其中小尺度目标占比很高,但也有一些大尺度的零部件目标。并且很多零件间的形状特性极为相似。上述方法和目前业界常用的目标检测算法对于具有上述特征的目标的检测通常比较困难,很难达到较高的精度。
发明内容
针对现有技术的不足,本发明公开一种基于多阈值级联检测器的双通道电力图零部件检测方法,旨在利用基于卷积神经网络(CNN)的目标检测技术,实现对各种不同类型的电力图零部件的快速精准定位与快速类型识别。
为解决上述技术问题,本发明提供技术方案如下:
一种基于多阈值级联检测器的双通道电力图零部件检测方法,包括:
获取待检测的电力图的原图集,对原图集按零部件分布区域进行分割得到子图集,并记录下子图对于原图的相对位置;
将所述原图集和子图集送入预先训练好的双通道检测模型,得到原图检测结果和子图检测结果;
根据记录的子图相对位置,汇总所述原图检测结果和子图检测结果,即得电力图零部件检测结果;
其中,所述双通道检测模型的网络架构为:首先用残差网络ResNet101作为特征提取的网络,并在其中增加特征金字塔结构FPN,之后构建区域生成网络RPN子网络,以对FPN提取的不同尺度的特征图生成感兴趣区域RoIs,再对生成的RoIs进行RoI Align操作,最后搭建多阈值精准边框回归与类别检测子网络,以对RoI Align操作后的RoIs进行检测;分别利用原图训练集和子图训练集对该网络架构进行端到端的联合训练,即得所述双通道检测模型,所述双通道检测模型包括原图通道和子图通道。
根据本发明优选的,所述用残差网络ResNet101作为特征提取的网络,并在其中增加特征金字塔结构FPN,包括:
构建自底向上的特征提取卷积网络,获得增强的语义信息,得到ResNet101网络,所述ResNet101网络由若干卷积层组成,将大小相同的分成一组,共计有五组,由下而上每组的最后一卷积层依次为C1-C5,相邻组之间输出特征图的分辨率大小减半;
FPN使用一个1x1的卷积过滤器将C5的通道数降至256维,得到中间特征图M5,接着应用一个3x3的卷积操作,得到用于送入后续RPN子网络进行RoI生成的第一个特征图P5;
沿着自顶向下的路径往下,FPN对之前的层应用最近邻上采样使得空间分辨率翻倍,同时FPN对ResNet101网络自底向上通路中的相应特征映射应用1x1卷积,并把它加到上采样的结果里,接着同样应用3x3卷积得到减轻了上采样的混叠效应,且用于送入后续RPN子网络进行RoI生成的第二个特征图P4;重复该步骤,得到用于送入后续RPN子网络进行RoI生成的第三个特征图P3和第四个特征图P2。
根据本发明优选的,所述构建区域生成网络RPN子网络,以对FPN提取的不同尺度的特征图生成感兴趣区域RoIs,包括:
预定义候选框:具有{322,642,1282,2562,5122}五种大小尺度和{1:2,1:1,2:1}三种纵横比的一共15种Anchors为候选框,用于对特征图上的每个锚点处不同形状的零部件利用对应尺寸的候选框进行框选;
将FPN得到的特征图P2-P5进行3x3卷积操作,之后RPN子网络分为2条支路:第一条经过1x1的卷积得到2*15维度的特征图后,用softmax分别预测每个锚点处的15个Anchors属于正例和负例的概率;第二条用1x1的卷积得到4*15维度的特征图,得到每个Anchor的边框回归的四个偏移量数值,以获得精确的候选框;
由候选框生成层负责综合正例Anchors和对应的边框回归的偏移量,最终得到候选框RoIs。
根据本发明优选的,所述由候选框生成层负责综合正例Anchors和对应的边框回归的偏移量,最终得到候选框RoIs,包括:
对所有生成的Anchors按照边框回归的偏移量进行回归处理,得到修正后的Anchors;
按照输入的正例softmax得分由大到小排序Anchors,提取前预定数量个分数最高的正例Anchors;
舍弃超出图像部分的Anchors,剔除面积小于预设大小的正例Anchors;
对所有剩余的正例Anchors进行非极大值抑制,最后剩下预设数量个候选框RoIs。
根据本发明优选的,所述对所有剩余的正例Anchors进行非极大值抑制,最后剩下预设数量个候选框RoIs,包括:
在训练阶段为得到的预设数量个RoIs打上所属零部件类别标记;在RPN子网络训练过程中,若一个RoI和多个ground truth box相交,选择IoU最大的作为标签label,并得到候选框RoIs与ground truth box的坐标位置间的差别,便于最小化训练后续的分类和回归网络。
根据本发明优选的,所述对生成的RoIs进行RoI Align操作,包括:
根据候选区域的大小选择合适尺度的特征图;
将RoI映射到选择的特征图上后,遍历每一个特征图对应的RoI区域保持浮点数边界不做量化;将候选区域分割成7x7个单元,每个单元的边界也不做量化;在每个单元中计算固定四个坐标位置:用双线性内插的方法计算出这四个位置的值;然后对RoI选定的特征图区域进行最大池化操作。
根据本发明优选的,所述搭建多阈值精准边框回归与类别检测子网络,以对RoIAlign操作后的RoIs进行检测,包括:
RoI Align操作后的RoIs通过一个2048通道的全连接层后,再分别经过两个小的全连接层进行分类和边框回归;
进行分类的全连接层有N+1个通道,N为待检测的零部件的所有类别数,经过softmax后得到该RoI属于各个类别的概率;
进行边框回归的全连接层有4个通道,得到不同类别之间共享的坐标修正值;
用阈值0.5得到的边框回归结果修正RoI并送入阈值0.6的下阶段分类回归网络中,以此类推,将阈值0.7的分类和回归输出结果作为最终的检测结果。
根据本发明优选的,在训练阶段,RPN子网络得到预设数量个RoIs,首先计算每个RoI和ground truth box之间的IoU,通过阈值IoU=0.5,把这些ROIs分为正样本和负样本,并对这些正负样本采样,使得他们之间的比例尽量满足1:3,二者总数量达到128,然后,将这128个经过采样的RoIs送入RoI Align,之后再对这128个ROIs进行类别分类和精准边框回归;
在推理阶段,RPN子网络提取预设数量个RoIs,这些RoIs直接进入RoI Align,之后再进行类别分类和精准边框回归。
根据本发明优选的,所述原图训练集包括原图图片及其中待检测零部件的位置和种类的标注文件,所述子图训练集包括子图图片及其中待检测零部件的位置和种类的标注文件,所述子图图片是对所述原图图片按零部件分布区域进行分割得到。
根据本发明优选的,所述根据记录的子图相对位置,汇总所述原图检测结果和子图检测结果,即得电力图零部件检测结果,包括:
将原图检测结果和子图检测结果均汇总到原图上,取置信度高的分类作为结果,再对检测框进行非极大抑制运算,去除重合度较高的多余检测框,得到最终的检测结果。
本发明具有以下有益效果:
本发明创新性地采用目标检测领域的相关技术,能够实现对各种不同类型的电力图零部件的快速精准定位与快速类型识别。
附图说明
图1是本发明的基于多阈值级联检测器的双通道电力图零部件检测方法的流程示意图;
图2是本发明中ResNet101与FPN结构图;
图3是本发明中RPN子网络结构图;
图4是本发明中改进的多阈值精准边框回归与类别检测子网络结构图;
图5是本发明整体网络结构图;
图6是接线图单一模型检测效果图;
图7是接线图采用本发明方法的检测效果图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明提供一种基于多阈值级联检测器的双通道电力图零部件检测方法,如图1所示,包括:
步骤101:获取待检测的电力图的原图集,并对原图集按零部件分布区域进行分割得到子图集,并记录下子图对于原图的相对位置;
本步骤中,可以将电力图的原图集按图像的零部件分布区域划分成多个子图,构建子图集;此处划分成几个子图所用的算法可以选用常规的图像处理算法进行对应处理,例如用opencv进行图像截取、切割。
电力图的原图集和子图集优选经过预处理,以符合预先设定的大小要求,例如短边调整为800像素,长边限制为1200像素。
步骤102:将所述原图集和子图集送入预先训练好的双通道检测模型,得到原图检测结果和子图检测结果;
步骤103:根据记录的子图相对位置,汇总所述原图检测结果和子图检测结果,即得电力图零部件检测结果;
其中,所述双通道检测模型的网络架构为:
S1:首先用残差网络ResNet101作为特征提取的网络,并在其中增加特征金字塔结构FPN;
S2:之后构建区域生成网络RPN子网络,以对FPN提取的不同尺度的特征图生成感兴趣区域RoIs;
S3:再对生成的RoIs进行RoI Align操作;
S4:最后搭建多阈值精准边框回归与类别检测子网络,以对RoI Align操作后的RoIs进行检测;
S5:分别利用原图训练集和子图训练集对该网络架构进行端到端的联合训练,即得所述双通道检测模型,所述双通道检测模型包括原图通道和子图通道。
本发明基于卷积神经网络提出了一种特征融合与多阈值级联检测的算法。首先为了提高检测速度,我们对Faster R-CNN的分类子网络(目标检测经典算法结构)结构进行了调整,控制全连接层的个数以减少网络的参数量和计算量。其次,为了提高小目标零件的检测精度,我们用图像处理算法,将原始电力图按零部件分布划分成若干子图,然后对原图和子图分别训练一个检测网络。在检测时,将双网络的检测结果进行汇总筛选,得到最终的检测结果。此外,为了进一步实现对不同尺度目标零件的精准检测,我们采用特征金字塔技术进行特征增强,并且构建了一种新型的多阈值精准边框回归与类别检测结构,在递进的阈值条件下选择候选框进行边框回归和类别预测,从而进一步提高检测准确率。
本发明实施例中,所述用残差网络ResNet101作为特征提取的网络,并在其中增加特征金字塔结构FPN(步骤S1),如图2所示,可以包括:
S11:构建自底向上的特征提取卷积网络,获得增强的语义信息,得到ResNet101网络,所述ResNet101网络由若干卷积层组成,将大小相同的分成一组,共计有五组,由下而上每组的最后一卷积层依次为C1-C5,相邻组之间输出特征图的分辨率大小减半;
S12:FPN使用一个1x1的卷积过滤器将C5的通道数降至256维,得到中间特征图M5(用1x1卷积进行横向连接后的特征图),接着应用一个3x3的卷积操作,得到用于送入后续RPN子网络进行RoI生成的第一个特征图P5;
S13:沿着自顶向下的路径往下,FPN对之前的层应用最近邻上采样使得空间分辨率翻倍,同时FPN对ResNet101网络自底向上通路中的相应特征映射应用1x1卷积,并把它加到上采样的结果里,接着同样应用3x3卷积得到减轻了上采样的混叠效应,且用于送入后续RPN子网络进行RoI生成的第二个特征图P4。重复该步骤,得到用于送入后续RPN子网络进行RoI生成的第三个特征图P3和第四个特征图P2。
由于C1层的特征图尺寸过大,会严重影响速度,所以不生成特征图P1。得到的特征图P2-P5的通道数都为256,它们共享生成RoIs的RPN子网络,并会与对应尺度的RoI参与后续的RoI Align操作。
本发明实施例中,所述构建区域生成网络RPN子网络,以对FPN提取的不同尺度的特征图生成感兴趣区域RoIs(步骤S2),如图3所示,可以包括:
S20:预定义候选框:具有{322,642,1282,2562,5122}五种大小尺度和{1:2,1:1,2:1}三种纵横比的一共15种Anchors为候选框,用于对特征图上的每个锚点处不同形状的零部件利用对应尺寸的候选框进行框选;
S21:将FPN得到的特征图P2-P5进行3x3卷积操作,之后RPN子网络分为2条支路:第一条经过1x1的卷积得到2*15维度的特征图后,用softmax分别预测每个锚点处的15个Anchors属于正例和负例的概率;第二条用1x1的卷积得到4*15维度的特征图,得到每个Anchor的边框回归的四个偏移量数值,以获得精确的候选框;
S22:由候选框生成层负责综合正例Anchors(舍弃被判断为负例的Anchors)和对应的边框回归的偏移量,最终得到候选框RoIs。
上述步骤S20-S22,实现了将FPN得到的特征图P2-P5送入RPN子网络中生成各自对应的初步零部件候选框RoIs。
优选的,所述由候选框生成层负责综合正例Anchors和对应的边框回归的偏移量,最终得到候选框RoIs(步骤S22),具体可以包括:
步骤S221:对所有生成的Anchors按照边框回归的偏移量进行回归处理,得到修正后的Anchors;
步骤S222:按照输入的正例softmax得分由大到小排序Anchors,提取前预定数量(根据需要灵活设定,例如6000)个分数最高(即前景概率最大)的正例Anchors;
步骤S223:舍弃超出图像部分的Anchors,剔除面积小于预设大小(例如面积<全图的1%)的正例Anchors;
步骤S224:对所有剩余的正例Anchors进行非极大值抑制,最后剩下预设数量个(剩下的Anchors数目可以灵活设定,本方法依照经验,选定数目为500个)候选框RoIs;
优选的,在训练阶段还需要为步骤S224得到的预设数量个RoIs打上所属零部件类别标记;在RPN子网络训练过程中,若一个RoI和多个ground truth box相交,选择IoU(Intersection over Union,交并比)最大的作为标签label,并得到候选框RoIs与groundtruth box的坐标位置间的差别,便于最小化训练后续的分类和回归网络。该步骤只限于训练阶段,推理时没有ground truth box,该步骤不再进行。
本发明实施例中,所述对生成的RoIs进行RoI Align操作(步骤S3),可以包括:
S31:FPN得到了多个不同尺度的特征图P2-P5(见图2),根据候选区域的大小选择合适尺度的特征图,从而提高不同尺度目标后续分类和回归的精度。
具体的计算公式可以为:
Figure BDA0002594891910000091
在公式(I)中,224为ImageNet(一个大型图像数据集)的标准输入;k0为基准值,设置为5,代表选取的特征图为P5层的输出;w和h分别是RoI区域的长和宽。计算得到k后,选择Pk层的特征图进行后续操作;
S32:RoI Align:将RoI映射到S31选择的特征图上后,遍历每一个特征图对应的RoI区域保持浮点数边界不做量化;将候选区域分割成7x7个单元,每个单元的边界也不做量化;在每个单元中计算固定四个坐标位置:用双线性内插的方法计算出这四个位置的值;然后对RoI选定的特征图区域进行最大池化操作,即可较好地完成对生成的RoIs的RoIAlign操作。
本发明实施例中,所述搭建多阈值精准边框回归与类别检测子网络,以对RoIAlign操作后的RoIs进行检测(步骤S4),如图4所示,可以包括:
步骤S41:RoI Align操作后的RoIs通过一个2048通道的全连接层(无Drop Out)后,再分别经过两个小的全连接层进行分类和边框回归;
步骤S42:进行分类的全连接层有N+1个通道,N为待检测的零部件的所有类别数,经过softmax后得到该RoI属于各个类别的概率;
步骤S43:进行边框回归的全连接层有4个通道,得到不同类别之间共享的坐标修正值;
步骤S44:用阈值0.5得到的边框回归结果修正RoI并送入阈值0.6的下阶段分类回归网络中,以此类推,将阈值0.7的分类和回归输出结果作为最终的检测结果。
优选的,在训练阶段,RPN子网络可以得到预设数量个RoIs(本方法依照经验,选定数目为500个),首先计算每个RoI和ground truth box之间的IoU,通过阈值IoU=0.5,把这些ROIs分为正样本和负样本,并对这些正负样本采样,使得他们之间的比例尽量满足1:3,二者总数量达到128,然后,将这128个经过采样的RoIs送入RoI Align,之后再对这128个ROIs进行类别分类和精准边框回归;
在推理阶段,RPN子网络可以提取预设数量个RoIs(选定数目同样可以为500个),这些RoIs被送入到分类与回归子网络结构中。和训练阶段不同的是,推理阶段无法依据ground truth box对这些RoIs进行采样,所以他们直接进入RoI Align,之后再进行类别分类和精准边框回归。
本发明实施例中,所述分别利用原图训练集和子图训练集对该网络架构进行端到端的联合训练,即得所述双通道检测模型(步骤S5),其中:
为提高训练精度,所述原图训练集优选包括原图图片及其中待检测零部件的位置和种类的标注文件,所述子图训练集优选包括子图图片及其中待检测零部件的位置和种类的标注文件,所述子图图片是对所述原图图片按零部件分布区域进行分割得到。
与前相同,原图图片可以按图像的零部件分布区域划分成多个子图,从而构建出子图图片。至于标注文件,可由人工借助标注软件(如LabelImg)分别对原图图片和子图图片中的待检测零部件的位置和种类进行标注得到。
在训练RPN子网络时,从得到的候选框中选出256个进行回归和分类,其中正负样本各128个,其中,和ground truth box有最高IoU的Anchor和与ground truth box的IoU超过0.7的为正样本;如果和所有的ground truth box的IoU都小于0.3,则设置为负样本,用它们来最小化RPN网络的损失函数;
RPN子网络损失函数:
Figure BDA0002594891910000111
在公式(III)中λ代表分类与回归的权重平衡参数,这里令λ=10。
i是一个处理批次中的Anchor的索引,
pi是被预测的Anchor中有待检测零部件的可能性,
Figure BDA0002594891910000112
如果是正样本就为1,如果是负样本就为0,
Ncls是使用的Anchor数,这里Ncls=256,
Figure BDA0002594891910000113
是两个类别(包含零部件与不包含零部件)的对数损失,
Figure BDA0002594891910000114
Nreg是特征图的分辨率大小,
ti={tx,ty,tw,th}代表了被预测的Anchor偏移量,其中:
tx=(x-xa)/wa,ty=(y-ya)/ha
tw=log(w/wa),th=log(h/ha)
Figure BDA0002594891910000121
Figure BDA0002594891910000122
其中,x,y,w,h是Predicted Box的中心点坐标、宽度、高度;x,xa,x*分别对应于Predicted Box,Anchor Box,Ground Truth Box;y,w,h也类似,
Figure BDA0002594891910000123
是与ti维度相同的向量,表示Anchor相对于ground truth box的实际偏移量。
Figure BDA0002594891910000124
其中R是smoothL1,其定义如下:
Figure BDA0002594891910000125
在训练多阈值精准边框回归与类别检测子网络部分,损失函数的计算形式与RPN子网络大体一致,对每一个阈值模块都计算一个分类损失Lcls和回归损失Lreg。但由于边框回归的损失往往比分类损失低很多,故将ti={tx,ty,tw,th}用均值和方差进行标准化;
用Adam梯度下降法和神经网络的反向传播来最小化RPN网络和多阈值精准边框回归与类别检测子网络的损失函数,其中,
RoI Align的反向转播计算方法为:
Figure BDA0002594891910000126
在公式(I)中,xi代表池化前特征图上的像素点;yrj代表池化后的第r个候选区域的第j个点;d表示像素点之间的距离;i*(r,j)是一个浮点数的坐标位置(前向传播时计算出来的采样点),Δh和Δw表示xi与i*(r,j)横纵坐标的差值,在池化前的特征图中,每一个与i*(r,j)横纵坐标均小于1的点都应该接受与此对应的点yrj回传的梯度。
用端到端的形式(端到端指的是不做额外处理,从原始数据输入到任务结果输出,整个训练和预测过程,都是在模型里完成的)对图5所示的整体网络进行训练,最小化损失函数,训练以0.002的学习速度开始,60k和90K迭代时学习速率减少10倍,在100k迭代时停止。最终得到所述双通道检测模型,所述双通道检测模型包括原图通道和子图通道,或者,也可以将双通道检测模型理解为由单通道的原图检测模型和单通道的子图检测模型组合而成。
本发明实施例中,所述根据记录的子图相对位置,汇总所述原图检测结果和子图检测结果,即得电力图零部件检测结果(步骤103),可以包括:
将原图检测结果和子图检测结果均汇总到原图上,取置信度高的分类作为结果,再对检测框进行非极大抑制运算,去除重合度较高的多余检测框,得到最终的检测结果。
具体的,可以按照记录的子图在原图中的相对位置,对子图检测框的坐标进行换算,并将其标入电力图原图之中,即先将原图和子图的检测结果均汇总到原图上,取置信度高(网络输出分类结果时也会输出预测为该分类的置信度)的分类作为结果,再对检测框进行非极大抑制(NMS)运算,去除重合度较高的多余检测框,得到最终的检测结果。
本发明创新性地采用目标检测领域的相关技术,实现对电力工程图片的各种零部件的精准定位与类别识别。
对于电力工程图零部件尺度跨度大、小尺度零部件占比高、很多零部件形状相似的特点,本发明除了在特征提取网络和RPN生成网络中加入特征金字塔结构,以获得增强的语义信息、增加检测体系对小尺度目标的敏感性之外,还采用一种新型的多阈值精准回归分类结构,以逐步提高回归与分类精度。这种结构还能够避免单阈值结构中由于正样本过少造成的过拟合问题和预测时的检测框质量较低造成的质量不匹配问题。附图6是只训练一个原图检测模型,并将其应用于电力图中的厂站一次接线图的元件检测的结果,由图6以看出,本发明在电力图的零部件检测任务上取得了很好的结果,绝大多数零部件可以被精准定位,但从图6中也可以看出仍然存在漏检的情况。
为了进一步提高检测的精度,本发明通过原图检测和子图检测的双通道检测模式,融合汇总双通道检测模型的结果,大大提升了检测的精度。附图7是本发明双通道模型的检测效果,解决了图6中存在的漏检问题,进一步降低了元件的漏检率和误检率,获得了更好的检测效果。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种基于多阈值级联检测器的双通道电力图零部件检测方法,其特征在于,包括:
获取待检测的电力图的原图集,对原图集按零部件分布区域进行分割得到子图集,并记录下子图对于原图的相对位置;
将所述原图集和子图集送入预先训练好的双通道检测模型,得到原图检测结果和子图检测结果;
根据记录的子图相对位置,汇总所述原图检测结果和子图检测结果,即得电力图零部件检测结果;
其中,所述双通道检测模型的网络架构为:首先用残差网络ResNet101作为特征提取的网络,并在其中增加特征金字塔结构FPN,之后构建区域生成网络RPN子网络,以对FPN提取的不同尺度的特征图生成感兴趣区域RoIs,再对生成的RoIs进行RoI Align操作,最后搭建多阈值精准边框回归与类别检测子网络,以对RoI Align操作后的RoIs进行检测;分别利用原图训练集和子图训练集对该网络架构进行端到端的联合训练,即得所述双通道检测模型,所述双通道检测模型包括原图通道和子图通道;
所述用残差网络ResNet101作为特征提取的网络,并在其中增加特征金字塔结构FPN,包括:
构建自底向上的特征提取卷积网络,获得增强的语义信息,得到ResNet101网络,所述ResNet101网络由若干卷积层组成,将大小相同的分成一组,共计有五组,由下而上每组的最后一卷积层依次为C1-C5,相邻组之间输出特征图的分辨率大小减半;
FPN使用一个1x1的卷积过滤器将C5的通道数降至256维,得到中间特征图M5,接着应用一个3x3的卷积操作,得到用于送入后续RPN子网络进行RoI生成的第一个特征图P5;
沿着自顶向下的路径往下,FPN对之前的层应用最近邻上采样使得空间分辨率翻倍,同时FPN对ResNet101网络自底向上通路中的相应特征映射应用1x1卷积,并把它加到上采样的结果里,接着同样应用3x3卷积得到减轻了上采样的混叠效应,且用于送入后续RPN子网络进行RoI生成的第二个特征图P4;重复该步骤,得到用于送入后续RPN子网络进行RoI生成的第三个特征图P3和第四个特征图P2。
2.根据权利要求1所述的方法,其特征在于,所述构建区域生成网络RPN子网络,以对FPN提取的不同尺度的特征图生成感兴趣区域RoIs,包括:
预定义候选框:具有{322,642,1282,2562,5122}五种大小尺度和{1:2, 1:1, 2:1} 三种纵横比的一共15种Anchors为候选框,用于对特征图上的每个锚点处不同形状的零部件利用对应尺寸的候选框进行框选;
将FPN得到的特征图P2-P5进行3x3卷积操作,之后RPN子网络分为2条支路:第一条经过1x1的卷积得到2*15维度的特征图后,用softmax分别预测每个锚点处的15个Anchors属于正例和负例的概率;第二条用1x1的卷积得到4*15维度的特征图,得到每个Anchor的边框回归的四个偏移量数值,以获得精确的候选框;
由候选框生成层负责综合正例 Anchors和对应的边框回归的偏移量,最终得到候选框RoIs。
3.根据权利要求2所述的方法,其特征在于,所述由候选框生成层负责综合正例Anchors和对应的边框回归的偏移量,最终得到候选框RoIs,包括:
对所有生成的Anchors按照边框回归的偏移量进行回归处理,得到修正后的Anchors;
按照输入的正例softmax得分由大到小排序Anchors,提取前预定数量个分数最高的正例Anchors;
舍弃超出图像部分的Anchors,剔除面积小于预设大小的正例Anchors;
对所有剩余的正例Anchors进行非极大值抑制,最后剩下预设数量个候选框RoIs。
4.根据权利要求3所述的方法,其特征在于,所述对所有剩余的正例Anchors进行非极大值抑制,最后剩下预设数量个候选框RoIs,包括:
在训练阶段为得到的预设数量个RoIs打上所属零部件类别标记;在RPN子网络训练过程中,若一个RoI和多个ground truth box相交,选择IoU最大的作为标签label,并得到候选框RoIs与ground truth box的坐标位置间的差别,便于最小化训练后续的分类和回归网络。
5.根据权利要求1所述的方法,其特征在于,所述对生成的RoIs进行RoI Align操作,包括:
根据候选区域的大小选择合适尺度的特征图;
将RoI映射到选择的特征图上后,遍历每一个特征图对应的RoI区域保持浮点数边界不做量化;将候选区域分割成7x7个单元,每个单元的边界也不做量化;在每个单元中计算固定四个坐标位置:用双线性内插的方法计算出这四个位置的值;然后对RoI选定的特征图区域进行最大池化操作。
6.根据权利要求1所述的方法,其特征在于,所述搭建多阈值精准边框回归与类别检测子网络,以对RoI Align操作后的RoIs进行检测,包括:
RoI Align操作后的RoIs通过一个2048通道的全连接层后,再分别经过两个小的全连接层进行分类和边框回归;
进行分类的全连接层有N+1个通道,N为待检测的零部件的所有类别数,经过softmax后得到该RoI属于各个类别的概率;
进行边框回归的全连接层有4个通道,得到不同类别之间共享的坐标修正值;
用阈值0.5得到的边框回归结果修正RoI并送入阈值0.6的下阶段分类回归网络中,以此类推,将阈值0.7的分类和回归输出结果作为最终的检测结果。
7.根据权利要求6所述的方法,其特征在于,在训练阶段,RPN子网络得到预设数量个RoIs,首先计算每个RoI和ground truth box之间的IoU,通过阈值IoU= 0.5,把这些ROIs分为正样本和负样本,并对这些正负样本采样,使得他们之间的比例尽量满足1:3,二者总数量达到128,然后,将这128个经过采样的RoIs送入RoI Align,之后再对这128个ROIs进行类别分类和精准边框回归;
在推理阶段,RPN子网络提取预设数量个RoIs,这些RoIs直接进入RoI Align,之后再进行类别分类和精准边框回归。
8.根据权利要求1所述的方法,其特征在于,所述原图训练集包括原图图片及其中待检测零部件的位置和种类的标注文件,所述子图训练集包括子图图片及其中待检测零部件的位置和种类的标注文件,所述子图图片是对所述原图图片按零部件分布区域进行分割得到。
9.根据权利要求1-8中任一所述的方法,其特征在于,所述根据记录的子图相对位置,汇总所述原图检测结果和子图检测结果,即得电力图零部件检测结果,包括:
将原图检测结果和子图检测结果均汇总到原图上,取置信度高的分类作为结果,再对检测框进行非极大抑制运算,去除重合度较高的多余检测框,得到最终的检测结果。
CN202010707607.9A 2020-07-21 2020-07-21 基于多阈值级联检测器的双通道电力图零部件检测方法 Active CN111860332B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010707607.9A CN111860332B (zh) 2020-07-21 2020-07-21 基于多阈值级联检测器的双通道电力图零部件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010707607.9A CN111860332B (zh) 2020-07-21 2020-07-21 基于多阈值级联检测器的双通道电力图零部件检测方法

Publications (2)

Publication Number Publication Date
CN111860332A CN111860332A (zh) 2020-10-30
CN111860332B true CN111860332B (zh) 2022-05-31

Family

ID=73001465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010707607.9A Active CN111860332B (zh) 2020-07-21 2020-07-21 基于多阈值级联检测器的双通道电力图零部件检测方法

Country Status (1)

Country Link
CN (1) CN111860332B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117314898B (zh) * 2023-11-28 2024-03-01 中南大学 一种多阶段列车轨边零部件检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008901A (zh) * 2019-04-04 2019-07-12 天津工业大学 一种基于Mask R-CNN的绝缘子故障识别与定位方法
CN110363769A (zh) * 2019-06-19 2019-10-22 西南交通大学 一种高铁接触网支撑装置腕臂系统图像分割方法
CN110852176A (zh) * 2019-10-17 2020-02-28 陕西师范大学 一种基于Mask-RCNN的高分三号SAR图像道路检测方法
CN111210443A (zh) * 2020-01-03 2020-05-29 吉林大学 基于嵌入平衡的可变形卷积混合任务级联语义分割方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6181825B1 (en) * 1994-12-02 2001-01-30 Comsat Corporation Methods for performing 2-dimensional maximum differences coding and decoding during real-time facsimile image compression and apparatus therefor
CN109325938B (zh) * 2018-08-23 2021-11-30 武汉嫦娥医学抗衰机器人股份有限公司 一种基于光密度空间的中心化图像通道差的色素分离方法
CN109670591B (zh) * 2018-12-14 2022-09-27 深圳市商汤科技有限公司 一种神经网络的训练方法及图像匹配方法、装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008901A (zh) * 2019-04-04 2019-07-12 天津工业大学 一种基于Mask R-CNN的绝缘子故障识别与定位方法
CN110363769A (zh) * 2019-06-19 2019-10-22 西南交通大学 一种高铁接触网支撑装置腕臂系统图像分割方法
CN110852176A (zh) * 2019-10-17 2020-02-28 陕西师范大学 一种基于Mask-RCNN的高分三号SAR图像道路检测方法
CN111210443A (zh) * 2020-01-03 2020-05-29 吉林大学 基于嵌入平衡的可变形卷积混合任务级联语义分割方法

Also Published As

Publication number Publication date
CN111860332A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN108961235B (zh) 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法
CN111223088B (zh) 一种基于深层卷积神经网络的铸件表面缺陷识别方法
CN107346420A (zh) 一种基于深度学习的自然场景下文字检测定位方法
CN110163213B (zh) 基于视差图和多尺度深度网络模型的遥感图像分割方法
CN112508090A (zh) 一种外包装缺陷检测方法
CN111310756A (zh) 一种基于深度学习的损伤玉米颗粒检测和分类方法
CN113591617B (zh) 基于深度学习的水面小目标检测与分类方法
CN115731533A (zh) 一种基于改进YOLOv5的车载目标检测方法
CN112819837A (zh) 一种基于多源异构遥感影像的语义分割方法
CN111667461A (zh) 一种输电线路异常目标检测方法
CN111860332B (zh) 基于多阈值级联检测器的双通道电力图零部件检测方法
CN113077438B (zh) 针对多细胞核彩色图像的细胞核区域提取方法及成像方法
CN115830514B (zh) 一种适用于带弯曲河道的全河段表面流速计算方法及系统
CN115830302B (zh) 一种多尺度特征提取融合配电网设备定位识别方法
CN111881914A (zh) 一种基于自学习阈值的车牌字符分割方法及系统
CN114078106A (zh) 基于改进Faster R-CNN的疵点检测方法
CN111832508A (zh) 基于die_ga的低照度目标检测方法
CN110889418A (zh) 一种气体轮廓识别方法
CN117132802A (zh) 一种田间小麦病虫害识别方法、装置及存储介质
CN116342894A (zh) 基于改进YOLOv5的GIS红外特征识别系统及方法
CN116129327A (zh) 一种基于改进YOLOv7算法的红外车辆检测方法
CN116188943A (zh) 太阳射电频谱爆发信息检测方法及装置
CN115937736A (zh) 基于注意力和上下文感知的小目标检测方法
Aldabbagh et al. Classification of chili plant growth using deep learning
CN113673534A (zh) 一种基于Faster RCNN的RGB-D图像果实检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant