CN117292119A - 一种输电多尺度目标检测方法及系统 - Google Patents

一种输电多尺度目标检测方法及系统 Download PDF

Info

Publication number
CN117292119A
CN117292119A CN202311575142.6A CN202311575142A CN117292119A CN 117292119 A CN117292119 A CN 117292119A CN 202311575142 A CN202311575142 A CN 202311575142A CN 117292119 A CN117292119 A CN 117292119A
Authority
CN
China
Prior art keywords
image
target detection
model
quality
power transmission
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311575142.6A
Other languages
English (en)
Other versions
CN117292119B (zh
Inventor
王童
王万国
王振利
刘广秀
李振宇
王勇
刘晗
徐康
陈霞
梁栋
张纪伟
邱镇
卢大玮
王晓辉
郭鹏天
李黎
陈勇
周飞
张国梁
王博
宋明黎
宋杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Intelligent Technology Co Ltd
Jinan Power Supply Co of State Grid Shandong Electric Power Co Ltd
Original Assignee
State Grid Intelligent Technology Co Ltd
Jinan Power Supply Co of State Grid Shandong Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Intelligent Technology Co Ltd, Jinan Power Supply Co of State Grid Shandong Electric Power Co Ltd filed Critical State Grid Intelligent Technology Co Ltd
Priority to CN202311575142.6A priority Critical patent/CN117292119B/zh
Publication of CN117292119A publication Critical patent/CN117292119A/zh
Application granted granted Critical
Publication of CN117292119B publication Critical patent/CN117292119B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明属于目标检测技术领域,提供了一种输电多尺度目标检测方法及系统,在预训练的视觉大模型的输入空间中引入适配于所述检测任务的参数,形成微调后的预训练大模型;利用微调后的预训练大模型作为特征提取网络,对不同质量等级的训练样本集进行特征提取;利用深度强化学习网络进行学习,直至满足迭代要求,得目标检测任务下最终的多尺度目标检测模型;利用多尺度目标检测模型对目标检测任务下的巡视图像进行处理,得到图像处理结果。本发明能够实现电力系统输电多尺度目标检测模型的构建,使其适用于各种各样的检测任务,具有较高的通用性,且对于巡视图像的处理精度上也有一定的提升。

Description

一种输电多尺度目标检测方法及系统
技术领域
本发明属于目标检测技术领域,具体涉及一种输电多尺度目标检测方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
以人工智能技术为代表的数字化技术正快速推动构建新型电力系统。随着高清视频的广泛部署和无人机、机器人等智巡装备的应用,人工智能技术赋予了传统硬件智能分析、快速诊断和实时预警的能力,有效降低了人员成本和工作强度,提升了巡视效率和准确性。
目前人工智能技术已被广泛使用在电力行业的输电线路巡检、作业现场安全管控等场景中,现有的人工智能技术依赖特定场景下的海量标注数据,需要针对不同场景开发不同的模型,面临标注数据少、技术复用差、迁移能力弱的问题。近年来,以ChatGPT为代表的预训练大模型技术成为人工智能发展史的里程碑,得到了广泛的关注和研究。基于自监督学习的预训练大模型能够有效利用海量的无标注数据,具备强大的迁移学习能力,适用于不同业务场景下的多种下游任务。
在电力领域,目前常用的业务模型涉及人员、设备等多种目标的检测,而受拍摄角度、安装位置和目标尺寸等影响,对多尺度目标和多角度目标的识别还存在较大提升空间。强化学习技术通过智能体与图像的交互学习,能够有效提升特殊目标的检测识别精度。
因此,有必要结合预训练大模型和强化学习技术构建输电多尺度目标检测模型,基于预训练大模型的泛化性、迁移性、通用性显著减少输电巡检模型对标注数据、训练算力的要求;基于强化学习技术提升对多尺度、多角度目标的检测精度。
据发明人了解,目前常用的传统深度学习模型研发需要大量的有标注样本,极大的增加了基层员工的负担,并且部分检测目标类别存在缺陷、故障等样本稀缺情况,难以满足模型泛化性和精确性要求,导致故障检出率低和误检率高双重困难。
另一方面,当前电力视觉模型开发过程与具体的检测任务场景紧密相关,由于应用环境复杂多变、数据分布差异等原因,现有模型难以进行迁移复用,导致需要不断开发类似的模型,造成了大量人力、算力等资源的消耗。
同时,深度学习模型与实际应用之间存在较大差异,在复杂场景下通常存在边界框内冗余过多的情况,而冗余信息的增加也会对模型计算速度产生较大影响。对电力不同尺度和多角度旋转目标的检测精度较低。
发明内容
本发明为了解决上述问题,提出了一种输电多尺度目标检测方法及系统,本发明能够提升对输电线路不同尺度目标检测和缺陷识别能力,且对于巡视图像的处理精度上也有一定的提升。
根据一些实施例,本发明采用如下技术方案:
一种输电多尺度目标检测方法,包括以下步骤:
对已有的目标检测任务下的巡视图像进行质量评估,依据评估结果,将巡视图像分为不同质量等级的训练样本集;
在预训练的视觉大模型的输入空间中引入适配于所述检测任务的参数,形成微调后的预训练大模型;
利用所述微调后的预训练大模型作为特征提取网络,对不同质量等级的训练样本集进行特征提取;
提取后的特征通过RPN网络得到初步的候选检测框,所述候选检测框经过ROI池化层筛选出感兴趣区域,根据所述感兴趣区域提取和拼接图像特征;
将得到的图像特征和历史动作向量相结合,得到融合特征,利用深度强化学习网络对融合特征进行学习,直至满足迭代要求,得到目标检测任务下最终的多尺度目标检测模型;
利用所述多尺度目标检测模型对目标检测任务下的巡视图像进行处理,得到图像处理结果。
作为可选择的实施方式,对已有的目标检测任务下的巡视图像进行质量评估的具体过程包括:
对已有的目标检测任务下的巡视图像进行预处理;
利用图像特征提取网络提取预处理后的图像的全局特征;
利用区域提取网络提取全局特征中的区域特征;
基于所述全局特征和区域特征,计算图像的清晰度,根据图像的清晰度,对图像进行质量评估和分级。
作为可选择的实施方式,所述预处理的过程包括:将图像由RGB图像空间转换为Lab图像空间,计算转换后的图像的像素及均值,根据像素及均值,对转换后的图像进行去中心化处理,将像素归一化至指定区间范围。
作为可选择的实施方式,根据图像的清晰度,对图像进行质量评估和分级的具体过程包括:使用Softmax函数计算图像的清晰度,设定清晰度评价的阈值等级,依据各个图像的清晰度和阈值等级的关系,确定相应图像的所属等级,对图像质量分级。
作为可选择的实施方式,将巡视图像分为不同质量等级的训练样本集的具体过程包括:将巡视图像在质量方面,分为第一质量训练样本集、第二质量训练样本集,以及两种质量混合样本集,其中第一质量的质量高于第二质量;在数量方面,按照依次递增的比例增加样本数量,构建出不同的样本集合。
作为可选择的实施方式,在预训练的视觉大模型的输入空间中引入适配于所述检测任务的参数的具体过程包括:根据视觉大模型的Transformer层数量,使用视觉提示技术对视觉大模型中的第一个Transformer层或所有Transformer层的输入序列中预先添加提示符;
所述Transformer主干网络保持不变。
作为可选择的实施方式,利用微调后的预训练大模型提取不同尺度的特征图,提取的特征图进入RPN网络生成包含目标的候选框,使用非极大值抑制方法减少冗余的候选框,再通过ROI池化层生成感兴趣区域。
作为可选择的实施方式,利用深度强化学习网络进行学习的具体过程包括当处理后的特征进入深度强化学习网络后,给定当前的状态,智能体以指定的概率ε从动作集合中随机选取一个动作a或以1-ε的概率选取最大Q值对应的动作,以进行检测框的搜索和调整;
执行动作后,根据环境反馈计算奖励R,智能体根据奖励R选取下一步动作,同时动作a进入到历史动作向量,与当前的图像特征构成状态表示,随后对当前状态进行更新;
重复上述过程,直至动作结束或到达最大搜索步数。
作为可选择的实施方式,所述动作包含向上、向下、向左、向右、放大、缩小、拉伸、压缩、旋转和停止。
一种输电多尺度目标检测系统,包括:
样本构建模块,被配置为对已有的目标检测任务下的巡视图像进行质量评估,依据评估结果,将巡视图像分为不同质量等级的训练样本集;
大模型微调模块,被配置为在预训练的视觉大模型的输入空间中引入适配于所述检测任务的参数,形成微调后的预训练大模型;
特征提取模块,被配置为利用所述微调后的预训练大模型作为特征提取网络,对不同质量等级的训练样本集进行特征提取;
特征检测模块,被配置为提取后的特征通过RPN网络得到初步的候选检测框,所述候选检测框经过ROI池化层筛选出感兴趣区域,根据所述感兴趣区域提取和拼接图像特征;
强化学习模块,被配置为将得到的图像特征和历史动作向量相结合,得到融合特征,利用深度强化学习网络对融合特征进行学习,直至满足迭代要求,得到目标检测任务下最终的多尺度目标检测模型;
图像处理模块,被配置为利用所述多尺度目标检测模型对目标检测任务下的巡视图像进行处理,得到图像处理结果。
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述方法中的步骤。
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述方法中的步骤。
与现有技术相比,本发明的有益效果为:
本发明创新性提供了一种输电多尺度目标检测方法,通过对视觉大模型进行针对于目标检测任务场景的微调,再配合特征提取、特征检测和强化学习,得到适配于目标检测任务场景的多尺度目标检测模型,利用最终的多尺度目标检测模型对相应检测任务场景获取的巡视图像进行处理,实现了能够构成电力系统多种输电多尺度目标检测模型,适配于相应的电力输电检测任务场景,且无需不断开发不同的模型,只需微调和对该场景下的图像数据训练学习即可,具有一定的通用性、灵活性,提升了各检测任务场景下的图像处理精度和速度。
本发明创新性提供一种输电多尺度目标检测系统,基于视觉大模型,利用其在预训练过程中学习到的海量电力业务知识,涵盖各种各样的检测任务,保证了整个处理方法可以在不同场景间迁移复用。且视觉大模型已经构建的基础上,输电多尺度目标检测模型的构建仅需要少量(几百至上千张)标注数据,无需海量数据人工标注,无需专业人工智能开发人员,无需大规模算力支撑,有效降低开发成本。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本实施例的总体流程示意图;
图2是本实施例的图像样本质量智能评价流程图;
图3是本实施例的图像质量智能评价网络训练过程示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
为方便本领域内的技术人员理解本实施例的方案,首先进行如下的术语解释:
大模型/预训练大模型/视觉大模型:是指通过无标注的电力行业图片数据,基于自监督预训练技术训练得到的参数规模较大(通常亿级以上)的预训练模型。本实施例中选用现有模型。
强化学习:又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
自监督预训练:在无标签的数据上完成训练,从而可以学习到对下游任务有价值的表征。
输电多尺度目标检测模型:在输电线路目标检测中,被测目标(输电线路设备部件)大小不固定,例如销钉和绝缘子等设备之间的尺寸差异极大,且受拍照角度、距离远近的影响,相同的设备在不同图片中也呈现出不同尺度。因此,同时进行较大和较小目标的检测存在一定挑战。输电多尺度目标检测模型是指在预训练模型的基础上,利用标注好的图片数据(标签数据),基于迁移学习、模型微调等技术生成适用于不同输电图像处理场景/任务的视觉人工智能模型,例如输电线路巡检、输电通道可视化监拍等,即最终的适配于某目标检测场景的模型。
本实施例提供了一种输电多尺度目标检测方法,包括:利用输电多尺度目标检测模型对目标检测场景下的巡视图像进行处理,得到图像处理结果。
所述输电多尺度目标检测模型的构建、训练过程如图1所示,包括以下步骤:
对于目标任务场景,首先经过图像质量评估,构建不同数量和质量训练样本集,基于不同训练样本集的输电多尺度目标检测模型训练,综合评价不同模型的表现,得到输电多尺度目标检测模型训练下的图像质量和数量的边界条件,为后续训练提供模型-样本供需关系的一般性规律。
应用视觉Prompt技术,在预训练大模型输入空间中引入少量可适配于目标任务场景的训练的参数(本实施例中不到预训练大模型参数的1%),经过提示微调的预训练大模型作为输电多尺度目标检测模型的特征提取网络,通过RPN网络得到初步的候选检测框,然后经过ROI池化层筛选出感兴趣区域,提取和拼接图像特征。
强化学习网络将ROI池化层输出的特征向量和历史-动作向量结合作为深度强化学习网络的特征输入,对于RPN生成的大量初始候选框,应用深度强化学习进行区域搜索以实现初始候选框的筛选,通过智能体的对图像探索交互的反馈来训练生成高质量的目标候选框。
为了解决电力不同尺度目标以及多角度旋转的检测难题,本实施例设置了9种候选框动作和1个停止动作,实现对候选框的移动、旋转和放缩等,提升对多尺度目标和旋转目标的检测精度。
为方便本领域的技术人员更加了解本实施例的细节,下面对每个步骤进行详细的说明。
首先是图像质量评估。
由于拍摄角度、拍摄距离、目标尺寸等因素的影响,在电力场景采集的样本质量存在较大差异性,有些目标较大且倾斜,而有些图像模糊不清目标尺寸较小,这些质量各异的图像会对输电多尺度目标检测模型训练过程产生影响;此外,输电多尺度目标检测模型所需的样本数量也是不同的,当样本数量超过特定值时,可能会增加训练成本而模型精度不会有相应提升。因此,在进行输电多尺度目标检测模型训练时,首先对图像质量进行评价,在此基础上构建不同质量和数量样本集,进而得出在生产环境下,输电多尺度目标检测模型训练和推理过程中所能接受的输入样本的边界条件,指导模型训练,提升模型生产效率。
本实施例中图像的质量评价是基于卷积神经网络自动提取图像特征,构造图像质量评估的无监督网络模型,对图像质量智能评价。
如图2所示,包括以下步骤:
1)首先对样本进行预处理,包括颜色空间转换、去中心化和归一化。RGB图像经过颜色空间转换为Lab图像空间,提高图像颜色表征区域;对图像的像素及均值计算,进行去中心化,降低噪声和偏离像素的权重;最后将像素归一化至指定区间范围,像素近似服从高斯分布。
2)构建基于IQF-CNN(CNN based on Image quality features)的图像特征提取网络,对多层网络结构和网络性质进行设定,提取图像的深层次特征。
3)训练区域提取与图像智能评分网络。构建区域提取网络,通过金字塔结构提取多尺度、不同位置的图像特征;构建智能评分层,使用Softmax函数计算图像的清晰度,设定清晰度评价的阈值等级,实现对图像的质量分级。
4)图像样本的智能评价。在完成图像预处理操作后,依次进入前述特征提取网络和区域提取网络,如图3所示,全局特征和区域特征信息经智能评分层,随后实现图像等级的评价。
在评价结果的基础上构建不同数量和质量训练样本集,在样本质量方面,包含低质量训练样本集,高质量训练样本集,以及高低质量混合样本集;在数量方面,按照依次递增的比例增加样本数量,构建出不同的样本集合。
其次是对预训练大模型进行提示微调。
对于亿级以上参数超大规模电力预训练视觉模型,若进行参数的全面调整来适应下游业务,消耗的资源和时间将会十分巨大,难以高效支撑输电多尺度目标检测模型开发,因此使用视觉Prompt技术对模型参数进行微调。通过在大模型的每个Transformer层的输入序列中预先添加少量参数,在输电多尺度目标检测模型训练过程中进行微调训练,为其提供高效便捷训练方案。
给定一个预训练的视觉大模型VisionTransformer(以下简称为ViT),首先将输电图像划分为mpatch(小块),,其中/>,/>分别是图像小块的高度和宽度,然后对每个patch进行位置编码,嵌入到d维潜在空间,R表示实数集,N是自然数集,I j表示第j个patch(小块),前述符号中,R 3*h*w表示大小为3*h*w的矩阵。
然后对每个图像块进行位置编码,嵌入到d维潜在空间:,其中,/>表示包含位置编码的图像块编码信息,是一个d维向量,j属于N,表示j为自然数,图像块嵌入的集合表示为/>,作为第i+1层Transformer层的输入,其中,Rd表示d维向量,R表示实数集,d表示维度。加上一个额外的可学习的分类token([CLS]),整个ViT被表述为:/>;/>
其中表示[CLS]在/>层输入空间的嵌入。[·,·]表示序列长度维度上的叠加拼接,即[xi,Ei]∈/>。每个层/>由多头自注意(MSA)和前馈网络(FFN)以及LayerNorm和残差连接组成。神经分类头用于将最后一层的[CLS]嵌入/>映射到预测的类概率分布y中。
给定一个预先训练好的Transformer模型,在Embed层之后的输入空间中引入一组d维的p个连续嵌入,即提示符prompts。在微调的过程中,仅仅与任务相关的prompts是需要进行调整的,而加载的Transformer主干网络是保持不变的。根据涉及的Transformer层的数量,使用VPT-shallowVPT-deep
VPT-Shallowprompts仅仅被加入到第一层L 1。每一个prompt符号是一个可学习的d维向量。pprompts的组合,记为P,因此,shallow-promptedViT被记为:;/>
其中,P是可学习的,x 0是固定的,L 1L i等网络层参数也是固定的,Head是动态调整的,Zi为第i层Transformer计算出的特征向量。
VPT-Deep:是在模型每一层的Transformer输入时,都加入prompts。对于第i+1层来说,可以表达为:,/>
根据目标检测任务的复杂程度,选择VPT-ShallowVPT-Deep不同的方式,将插入prompts的微调大模型作为后续多尺度目标检测模型训练的特征提取网络,在多尺度目标检测模型训练的时候保持骨干网络冻结,只微调部分参数,实现预训练模型在目标检测的迁移应用。
预训练模型的优点特别是技术复用性体现如下:当存在多个电力输电多尺度目标检测模型时,只需要为每个任务存储学习到的提示和分类头,并复用预训练的Transformer模型的原始副本,从而显著降低了存储成本。例如,给定一个参数为8600万(M)且d=768的ViT-base模型,50个浅层提示和50个深层提示分别产生p×d=50×768=0.038MN×p×d=0.46M的额外参数,分别仅占所有ViT-base参数的0.04%和0.53%。
然后是结合提示微调预训练大模型和深度强化学习的多尺度目标检测模型的构建。
强化学习网络将ROI池化层输出的特征向量和历史-动作向量结合作为深度强化学习网络的特征输入。此时强化学习的环境(environment)为整幅图像,当前的检测框为智能体(agent),agent通过对环境的探索交互得到奖励函数的反馈,实现对检测框的调整和目标实例的搜索定位。通过检测框的放缩、移动和旋转等,提升多尺度目标检测模型目标检测的精度。
强化学习的过程符合马尔科夫过程,下面对这个强化学习过程进行建模描述:
(1)状态集合S。使用二元组表示agent的状态,其中/>经过ROI池化层后产生的特征向量,即智能体对图像提取的特征;/>是一个固定大小的向量,表示agent曾采用的历史动作。
(2)动作集合Aagent在当前时刻根据当前观测到的状态,从动作集合中选取一个动作。这里定义{向上、向下、向左、向右、放大、缩小、拉伸、压缩、旋转、停止}。
(3)奖励。在当前时刻,当agent执行动作a且由状态s进入到状态s’,环境会反馈给智能体奖励R,奖励的数值表示动作的好坏。即,采取动作后,候选区域b’与真实区域g的重叠率大于当前候选区域b与真实区域g的重叠率,那么给予奖励,反之给予惩罚。则定义如下的奖励函数:
其中,bb’分别表示采取动作前后的变化,使用来衡量候选区域b与真实区域g之间的相对位置关系,其中,/>为b和g交集的区域大小,/>为b和g并集的区域大小。
对于终止动作,其奖励函数定义为:,其中,/>是为交并比设定的阈值,高于该阈值时,认为检测区域是正确的,否则为错误的检测。值得注意的是,如果/>数值过大,则对性能有负面影响。
其中,是一个根据实际情况定义的奖励数值,可以定义为1、3或5,根据算法测试过程进行调整。本实施例这里取6。
(4)强化学习方法,可采用不同的强化学习方法。强化学习通过agent与环境的探索交互,根据奖励和惩罚机制引导agent学习到最优的策略。深度强化学习的方法将使用深度学习和强化学习结合在一起。这里使用深度Q学习网络(DQN),网络由目标Q网络和当前Q网络构成,后面连接Relu函数和dropout层,输出为agent候选检测框对应的10个动作。为了保证训练的稳定性,DQN采用间隔多次迭代更新目标Q网络的方法,即先固定目标Q网络的参数不变,迭代一定次数后,再将更新过的当前Q网络的参数复制给目标Q网络。这样的方法避免训练时目标Q网络随着当前Q网络变化带来的不稳定性。
根据前述对状态集合、动作集合以及奖励函数的定义,通过深度Q学习网络(DeepQlearningnetwork,DQN)学习最优策略Q(s,a),agent根据最优QQ*(s,a)选取对应的动作。DQN的目标函数为:
其中,DQN网络中第i次迭代后当前Q网络的参数,/>为目标Q网络的参数。s表示当前状态,s’表示下一时刻状态;a表示当前动作,a’表示下一时刻动作。R(s,a)的含义是在s状态下,执行a动作获取的奖励值,/>是折扣系数。
最终形成的多尺度目标检测模型需要进行两部分的训练,一是提示微调预训练大模型、RPN网络和ROI参数;二是深度强化学习网络。两部分参数采用交替训练的方式进行优化:当强化学习部分参数进行更新后(此时微调预训练大模型、RPN网络和ROI参数保持不变),模型将固定强化学习部分参数并使用该强化学习策略进行自适应候选框调整,挑选出的候选框将被送入后续检测器进行目标分类和回归,并以此来更新微调预训练大模型、RPN网络和ROI参数的参数。两部分参数交替更新,模型反复迭代至收敛。
具体的,对于输入的一幅图像,使用视觉微调预训练大模型提取不同尺度的特征图,特征进入RPN网络生成目标可能的候选框,使用非极大值抑制(Non-MaximumSuppression,NMS)方法减少冗余的候选框,再通过ROI池化层生成感兴趣的区域。当特征进入到DQN网络,给定当前的状态s,agent以指定的概率ε从动作集合中随机选取一个动作a或以1-ε的概率选取最大Q值对应的动作,以进行检测框的搜索和调整。执行动作后,根据计算奖励Ragent根据奖励R选取下一步动作,同时动作a进入到历史动作向量,与当前的图像特征构成状态表示。随后状态由s更迭为s’。重复上述过程,直至动作结束或到达最大搜索步数。
本实施例提出基于预训练大模型的电力多尺度目标检测模型,来处理目标检测任务的图像,基于微调预训练大模型的特征提取网络通过微调少量参数,达到全参微调类似性能,具有高精度、高效率以及技术复用性高的特点。预训练大模型具有更强的图像特征提取能力,深度强化学习能够对多尺度目标检测模型的目标检测框进行自动搜索和调整,提升多尺度和多角度目标检测精度。
本实施例基于已构建的不同质量、数量样本集合,形成对应的多尺度目标检测模型,集成图像数据增强技术,提升多尺度目标检测模型在少样本条件下的学习推理能力。
在部分实施例中,还可以包含集成发现率、误检率和MAP等指标,全方面评价不同多尺度目标检测模型的精度表现;从目标长宽比、整幅图像占比、特征表现等多维度给出样本数量和质量对当前多尺度目标检测模型的影响,确定多尺度目标检测模型训练与样本需求的一般性策略。
实施例二
一种输电多尺度目标检测系统,包括:
样本构建模块,被配置为对已有的目标检测任务下的巡视图像进行质量评估,依据评估结果,将巡视图像分为不同质量等级的训练样本集;
大模型微调模块,被配置为在预训练的视觉大模型的输入空间中引入适配于所述检测任务的参数,形成微调后的预训练大模型;
特征提取模块,被配置为利用所述微调后的预训练大模型作为特征提取网络,对不同质量等级的训练样本集进行特征提取;
特征检测模块,被配置为提取后的特征通过RPN网络得到初步的候选检测框,所述候选检测框经过ROI池化层筛选出感兴趣区域,根据所述感兴趣区域提取和拼接图像特征;
强化学习模块,被配置为将得到的图像特征和历史动作向量相结合,得到融合特征,利用深度强化学习网络对融合特征进行学习,直至满足迭代要求,得到目标检测任务下最终的多尺度目标检测模型;
图像处理模块,被配置为利用所述多尺度目标检测模型对目标检测任务下的巡视图像进行处理,得到图像处理结果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,本领域技术人员不需要付出创造性劳动所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种输电多尺度目标检测方法,其特征是,包括以下步骤:
对已有的目标检测任务下的巡视图像进行质量评估,依据评估结果,将巡视图像分为不同质量等级的训练样本集;
在预训练的视觉大模型的输入空间中引入适配于所述检测任务的参数,形成微调后的预训练大模型;
利用所述微调后的预训练大模型作为特征提取网络,对不同质量等级的训练样本集进行特征提取;
提取后的特征通过RPN网络得到初步的候选检测框,所述候选检测框经过ROI池化层筛选出感兴趣区域,根据所述感兴趣区域提取和拼接图像特征;
将得到的图像特征和历史动作向量相结合,得到融合特征,利用深度强化学习网络对融合特征进行学习,直至满足迭代要求,得到目标检测任务下最终的多尺度目标检测模型;
利用所述多尺度目标检测模型对目标检测任务下的巡视图像进行处理,得到图像处理结果。
2.如权利要求1所述的一种输电多尺度目标检测方法,其特征是,对已有的目标检测任务下的巡视图像进行质量评估的具体过程包括:
对已有的目标检测任务下的巡视图像进行预处理;
利用图像特征提取网络提取预处理后的图像的全局特征;
利用区域提取网络提取全局特征中的区域特征;
基于所述全局特征和区域特征,计算图像的清晰度,根据图像的清晰度,对图像进行质量评估和分级。
3.如权利要求2所述的一种输电多尺度目标检测方法,其特征是,所述预处理的过程包括:将图像由RGB图像空间转换为Lab图像空间,计算转换后的图像的像素及均值,根据像素及均值,对转换后的图像进行去中心化处理,将像素归一化至指定区间范围。
4.如权利要求2或3所述的一种输电多尺度目标检测方法,其特征是,根据图像的清晰度,对图像进行质量评估和分级的具体过程包括:使用Softmax函数计算图像的清晰度,设定清晰度评价的阈值等级,依据各个图像的清晰度和阈值等级的关系,确定相应图像的所属等级,对图像质量分级。
5.如权利要求1所述的一种输电多尺度目标检测方法,其特征是,将巡视图像分为不同质量等级的训练样本集的具体过程包括:将巡视图像在质量方面,分为第一质量训练样本集、第二质量训练样本集,以及两种质量混合样本集,其中第一质量的质量高于第二质量;在数量方面,按照依次递增的比例增加样本数量,构建出不同的样本集合。
6.如权利要求1所述的一种输电多尺度目标检测方法,其特征是,在预训练的视觉大模型的输入空间中引入适配于所述检测任务的参数的具体过程包括:根据视觉大模型的Transformer层数量,使用视觉提示技术对视觉大模型中的第一个Transformer层或所有Transformer层的输入序列中预先添加提示符;
所述Transformer主干网络保持不变。
7.如权利要求1所述的一种输电多尺度目标检测方法,其特征是,利用微调后的预训练大模型提取不同尺度的特征图,提取的特征图进入RPN网络生成包含目标的候选框,使用非极大值抑制方法减少冗余的候选框,再通过ROI池化层生成感兴趣区域。
8.如权利要求1所述的一种输电多尺度目标检测方法,其特征是,利用深度强化学习网络进行学习的具体过程包括当处理后的特征进入深度强化学习网络后,给定当前的状态,智能体以指定的概率ε从动作集合中随机选取一个动作a或以1-ε的概率选取最大Q值对应的动作,以进行检测框的搜索和调整;
执行动作后,根据环境反馈计算奖励R,智能体根据奖励R选取下一步动作,同时动作a进入到历史动作向量,与当前的图像特征构成状态表示,随后对当前状态进行更新;
重复上述过程,直至动作结束或到达最大搜索步数。
9.如权利要求8所述的一种输电多尺度目标检测方法,其特征是,所述动作包含向上、向下、向左、向右、放大、缩小、拉伸、压缩、旋转和停止。
10.一种输电多尺度目标检测系统,其特征是,包括:
样本构建模块,被配置为对已有的目标检测任务下的巡视图像进行质量评估,依据评估结果,将巡视图像分为不同质量等级的训练样本集;
大模型微调模块,被配置为在预训练的视觉大模型的输入空间中引入适配于所述检测任务的参数,形成微调后的预训练大模型;
特征提取模块,被配置为利用所述微调后的预训练大模型作为特征提取网络,对不同质量等级的训练样本集进行特征提取;
特征检测模块,被配置为提取后的特征通过RPN网络得到初步的候选检测框,所述候选检测框经过ROI池化层筛选出感兴趣区域,根据所述感兴趣区域提取和拼接图像特征;
强化学习模块,被配置为将得到的图像特征和历史动作向量相结合,得到融合特征,利用深度强化学习网络对融合特征进行学习,直至满足迭代要求,得到目标检测任务下最终的多尺度目标检测模型;
图像处理模块,被配置为利用所述多尺度目标检测模型对目标检测任务下的巡视图像进行处理,得到图像处理结果。
11.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-9中任一项所述的方法中的步骤。
12.一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-9中任一项所述的方法中的步骤。
CN202311575142.6A 2023-11-24 2023-11-24 一种输电多尺度目标检测方法及系统 Active CN117292119B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311575142.6A CN117292119B (zh) 2023-11-24 2023-11-24 一种输电多尺度目标检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311575142.6A CN117292119B (zh) 2023-11-24 2023-11-24 一种输电多尺度目标检测方法及系统

Publications (2)

Publication Number Publication Date
CN117292119A true CN117292119A (zh) 2023-12-26
CN117292119B CN117292119B (zh) 2024-03-22

Family

ID=89258878

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311575142.6A Active CN117292119B (zh) 2023-11-24 2023-11-24 一种输电多尺度目标检测方法及系统

Country Status (1)

Country Link
CN (1) CN117292119B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180292270A1 (en) * 2017-04-07 2018-10-11 International Business Machines Corporation Environmental factor assessment by a non-intrusive sensor in a fluid transfer pumping system
US20200005130A1 (en) * 2018-07-02 2020-01-02 Kabushiki Kaisha Toshiba Reinforcement learning system
GB202106035D0 (en) * 2021-04-28 2021-06-09 Bae Systems Plc Method and apparatus
CN113723536A (zh) * 2021-09-02 2021-11-30 国网智能科技股份有限公司 一种电力巡检目标识别方法及系统
CN114821271A (zh) * 2022-05-19 2022-07-29 平安科技(深圳)有限公司 模型训练方法、图像描述生成方法、装置及存储介质
CN115130644A (zh) * 2021-03-26 2022-09-30 斯特拉德视觉公司 对基于深度学习的检测网络进行自监督学习的方法及装置
CN115240075A (zh) * 2022-09-22 2022-10-25 山东大学 电力视觉多粒度预训练大模型的构建与训练方法
CN116958825A (zh) * 2023-08-28 2023-10-27 中国公路工程咨询集团有限公司 一种移动式遥感图像采集方法及公路维护监测方法
CN117057413A (zh) * 2023-09-27 2023-11-14 珠高智能科技(深圳)有限公司 强化学习模型微调方法、装置、计算机设备及存储介质
WO2023225037A1 (en) * 2022-05-17 2023-11-23 Pisner Derek Connectome ensemble transfer learning

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180292270A1 (en) * 2017-04-07 2018-10-11 International Business Machines Corporation Environmental factor assessment by a non-intrusive sensor in a fluid transfer pumping system
US20200005130A1 (en) * 2018-07-02 2020-01-02 Kabushiki Kaisha Toshiba Reinforcement learning system
CN115130644A (zh) * 2021-03-26 2022-09-30 斯特拉德视觉公司 对基于深度学习的检测网络进行自监督学习的方法及装置
GB202106035D0 (en) * 2021-04-28 2021-06-09 Bae Systems Plc Method and apparatus
CN113723536A (zh) * 2021-09-02 2021-11-30 国网智能科技股份有限公司 一种电力巡检目标识别方法及系统
WO2023225037A1 (en) * 2022-05-17 2023-11-23 Pisner Derek Connectome ensemble transfer learning
CN114821271A (zh) * 2022-05-19 2022-07-29 平安科技(深圳)有限公司 模型训练方法、图像描述生成方法、装置及存储介质
CN115240075A (zh) * 2022-09-22 2022-10-25 山东大学 电力视觉多粒度预训练大模型的构建与训练方法
CN116958825A (zh) * 2023-08-28 2023-10-27 中国公路工程咨询集团有限公司 一种移动式遥感图像采集方法及公路维护监测方法
CN117057413A (zh) * 2023-09-27 2023-11-14 珠高智能科技(深圳)有限公司 强化学习模型微调方法、装置、计算机设备及存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
DAOXING LI ET.AL.: ""Automated deep learning system for power line inspection image analysis and processing: Architecture and design issues"", 《GLOBAL ENERGY INTERCONNECTION》, vol. 6, no. 5, pages 614 - 633 *
JIA, ML ET.AL.: ""Visual Prompt Tuning"", 《COMPUTER VISION-ECCV 2022》, vol. 13693, pages 709 - 727 *
张智斌: ""基于深度强化学习的多模图像感兴趣区域配准算法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2023, no. 01, pages 138 - 2356 *
王万国等: ""融合深度学习的无人机巡检绝缘子自爆检测研究"", 《应用科学学报》, vol. 39, no. 2, pages 222 - 231 *
王光耀: ""基于深度强化学习的目标检测算法与应用研究"", 《中国博士学位论文全文数据库信息科技辑》, vol. 2023, no. 01, pages 138 - 146 *
郑远攀;李广阳;李晔;: "深度学习在图像识别中的应用研究综述", 计算机工程与应用, no. 12, pages 25 - 41 *

Also Published As

Publication number Publication date
CN117292119B (zh) 2024-03-22

Similar Documents

Publication Publication Date Title
CN107609525B (zh) 基于剪枝策略构建卷积神经网络的遥感图像目标检测方法
CN110009013A (zh) 编码器训练及表征信息提取方法和装置
CN111161315B (zh) 一种基于图神经网络的多目标跟踪方法和系统
CN111832608B (zh) 一种基于单阶段检测模型yolov3的铁谱图像多磨粒识别方法
CN111179249A (zh) 一种基于深度卷积神经网络的电力设备检测方法和装置
CN109829414B (zh) 一种基于标签不确定性和人体组件模型的行人再识别方法
CN107945210A (zh) 基于深度学习和环境自适应的目标跟踪算法
CN113313684B (zh) 一种暗光条件下基于视频的工业缺陷检测系统
CN113780242A (zh) 一种基于模型迁移学习的跨场景水声目标分类方法
CN112749675A (zh) 一种基于卷积神经网络的马铃薯病害识别方法
CN114049305A (zh) 基于改进ALI和Faster-RCNN的配电线路销钉缺陷检测方法
CN111126155B (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN112149612A (zh) 一种基于深度神经网络的海洋生物识别系统及识别方法
CN112377332B (zh) 一种基于计算机视觉的火箭发动机极性测试方法及系统
CN117292119B (zh) 一种输电多尺度目标检测方法及系统
CN117710841A (zh) 一种无人机航拍图像的小目标检测方法、装置
CN111354028A (zh) 基于双目视觉的输电通道隐患物识别追踪方法
CN116232699A (zh) 细粒度网络入侵检测模型的训练方法和网络入侵检测方法
CN113205163B (zh) 数据标注方法及装置
CN115512214A (zh) 一种基于因果注意力的室内视觉导航方法
CN113537307A (zh) 一种基于元学习的自监督域适应方法
Bi et al. CASA-Net: a context-aware correlation convolutional network for scale-adaptive crack detection
Li et al. Object detection in hazy environment enhanced by preprocessing image dataset with synthetic haze
CN114119382A (zh) 一种基于注意力生成对抗网络的图像去雨滴方法
Tennakoon et al. Visual Inspection of Storm-Water Pipe Systems using Deep Convolutional Neural Networks.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant