CN115330778B - 变电站目标检测网络模型训练方法及系统 - Google Patents

变电站目标检测网络模型训练方法及系统 Download PDF

Info

Publication number
CN115330778B
CN115330778B CN202211250272.8A CN202211250272A CN115330778B CN 115330778 B CN115330778 B CN 115330778B CN 202211250272 A CN202211250272 A CN 202211250272A CN 115330778 B CN115330778 B CN 115330778B
Authority
CN
China
Prior art keywords
block
picture
target
width
height
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211250272.8A
Other languages
English (en)
Other versions
CN115330778A (zh
Inventor
叶建标
温志伟
陈江海
朱佳豪
李军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Whyis Technology Co ltd
Original Assignee
Zhejiang Whyis Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Whyis Technology Co ltd filed Critical Zhejiang Whyis Technology Co ltd
Priority to CN202211250272.8A priority Critical patent/CN115330778B/zh
Publication of CN115330778A publication Critical patent/CN115330778A/zh
Application granted granted Critical
Publication of CN115330778B publication Critical patent/CN115330778B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4023Scaling of whole images or parts thereof, e.g. expanding or contracting based on decimating pixels or lines of pixels; based on inserting pixels or lines of pixels
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种变电站目标检测网络模型训练方法及系统。该方法包括:步骤S101,统计训练集中所有图片中目标的最长宽和最长高;步骤S102,对训练集中每张图片进行分块;将当前张图片中的分块图片输入到目标分类网络中训练,得到每块分块图片中是否有目标;将有目标的分块图片重新组合,得到新的提取图片;将提取图片进行尺度缩放,并将缩放后的图片输入到目标检测网络中进行训练,得到缩放后的图片中目标的类别和坐标、当前目标检测网络模型以及检测损失值;步骤S103,重复步骤S102,直至检测损失值在第二预设范围内波动,得到目标检测网络模型。本发明的方法能够在变电站场景的大范围内检测小目标,且训练出来的目标检测网络模型推理速度快,准确率高。

Description

变电站目标检测网络模型训练方法及系统
技术领域
本发明涉及变电站目标检测技术领域,具体而言,涉及一种变电站目标检测网络模型训练方法及系统。
背景技术
随着深度学习快速的发展,各个领域在不断广泛的使用,基于检测的深度学习在工程中被广泛的使用,其中变电站在近几年被广泛的引用。变电站是一个极其容易发生人员事故的地方,因此变电站的安全极其重要,往常的方法采用工作人员监控现场,需要付出大量的成本。随着基于深度学习的目标检测算法快速发展,通过目标检测自动监控现场可以减少成本和减少因人为因素导致的事故发生。但由于变电站场景范围广,检测目标小,采用常规的目标检测算法存在以下问题:1)随着目标检测算法网络深度加深,目标有效特征可能会丢失;2)常规的小目标检测方法放大图片缩放尺度,这样会带来模型推理速度慢、对硬件设备算力要求高和误检增加等问题。
针对现有技术中变电站场景范围广、检测目标小,采用常规的目标检测算法存在目标有效特征丢失的情况,以及采用常规的小目标检测方法放大图片尺寸,导致模型推理速度慢,误检增加的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例中提供一种变电站目标检测网络模型训练方法及系统,以解决现有技术中变电站场景范围广、检测目标小,采用常规的目标检测算法存在目标有效特征丢失的情况,以及采用常规的小目标检测方法放大图片尺寸,导致模型推理速度慢,误检增加的问题。
为达到上述目的,一方面,本发明提供了一种变电站目标检测网络模型训练方法,该方法包括:步骤S102,将所述训练集中每张图片均按如下操作:计算所述训练集中当前张图片的分块高、分块宽、分块高步长、分块宽步长;根据所述分块高、分块宽、分块高步长、分块宽步长对所述训练集中当前张图片进行分块;将当前张图片的分块图片组成子训练集,并输入到目标分类网络中进行训练,得到每块分块图片的预测结果,所述预测结果为分块图片中是否有目标;根据每块分块图片的预测结果计算每块分块图片的块损失值;根据所述每块分块图片的块损失值对所述目标分类网络中的参数进行反向传播,得到当前目标分类网络模型;将有目标的所述分块图片组合提取或拼接提取得到提取图片;将所述提取图片进行尺度缩放,并将缩放后的图片输入到目标检测网络中进行训练,得到缩放后的图片中目标的类别和坐标;根据所述缩放后的图片中目标的类别和坐标计算得到检测损失值;根据检测损失值对所述目标检测网络中的参数进行反向传播,得到当前目标检测网络模型;步骤S103,重复所述步骤S102,直至所述块损失值在第一预设范围内波动,所述检测损失值在第二预设范围内波动,得到目标检测网络模型。
可选的,还包括:步骤S101,统计训练集中所有图片中目标的最长宽和最长高;所述当前张图片的分块高、分块宽、分块高步长、分块宽步长根据以下公式计算:
Figure 803951DEST_PATH_IMAGE001
Figure 767359DEST_PATH_IMAGE002
Figure 909758DEST_PATH_IMAGE003
Figure 859391DEST_PATH_IMAGE004
其中,
Figure 138056DEST_PATH_IMAGE005
表示所述当前张图片的原始高,
Figure 396999DEST_PATH_IMAGE006
表示所述当前张图片的原始宽,
Figure 26695DEST_PATH_IMAGE007
表示所述训练集中所有图片中目标的最长高,
Figure 639073DEST_PATH_IMAGE008
表示所述训练集中所有图片中目标的最长宽,
Figure 37825DEST_PATH_IMAGE009
表示所述当前张图片的分块高,
Figure 467669DEST_PATH_IMAGE010
表示所述当前张图片的分块宽,max表示求最大值,
Figure 319081DEST_PATH_IMAGE011
表示所述当前张图片的分块高步长,
Figure 735150DEST_PATH_IMAGE012
表示所述当前张图片的分块宽步长。
可选的,所述块损失值根据以下公式计算:
Figure 253987DEST_PATH_IMAGE013
其中,
Figure 589154DEST_PATH_IMAGE014
表示块损失值,
Figure 193442DEST_PATH_IMAGE015
表示目标可能的第
Figure 147622DEST_PATH_IMAGE015
个类别,C表示目标可能的类别数量,
Figure 645600DEST_PATH_IMAGE016
表示分块图片中是否有目标,有目标为1,没有目标为0,
Figure 27034DEST_PATH_IMAGE017
表示分块图片中目标可能是第
Figure 118618DEST_PATH_IMAGE015
个类别的概率。
可选的,所述将有目标的所述分块图片组合提取或拼接提取得到提取图片包括:判断有目标的所述分块图片是否有重叠,若是,将有目标的所述分块图片进行组合提取得到所述提取图片;反之,将有目标的所述分块图片进行拼接处理得到所述提取图片。
可选的,所述组合提取根据以下公式提取:
Figure 1123DEST_PATH_IMAGE018
Figure 228973DEST_PATH_IMAGE019
Figure 171521DEST_PATH_IMAGE020
Figure 360188DEST_PATH_IMAGE021
其中,
Figure 656172DEST_PATH_IMAGE022
表示有目标的第一块分块图片的左上角的横坐标,
Figure 4107DEST_PATH_IMAGE023
表示有目标的第二块分块图片的左上角的横坐标,
Figure 851978DEST_PATH_IMAGE024
表示有目标的第n块分块图片的左上角的横坐标,
Figure 652575DEST_PATH_IMAGE025
表示有目标的第一块分块图片的左上角的纵坐标,
Figure 627615DEST_PATH_IMAGE026
表示有目标的第二块分块图片的左上角的纵坐标,
Figure 954691DEST_PATH_IMAGE027
表示有目标的第n块分块图片的左上角的纵坐标,
Figure 114408DEST_PATH_IMAGE028
表示有目标的第一块分块图片的右下角的横坐标,
Figure 402301DEST_PATH_IMAGE029
表示有目标的第二块分块图片的右下角的横坐标,
Figure 164721DEST_PATH_IMAGE030
表示有目标的第n块分块图片的右下角的横坐标,
Figure 221670DEST_PATH_IMAGE031
表示有目标的第一块分块图片的右下角的纵坐标,
Figure 676922DEST_PATH_IMAGE032
表示有目标的第二块分块图片的右下角的纵坐标,
Figure 452111DEST_PATH_IMAGE033
表示有目标的第n块分块图片的右下角的纵坐标,
Figure 893588DEST_PATH_IMAGE034
为提取图片的左上角最小x坐标,
Figure 929677DEST_PATH_IMAGE035
为提取图片的左上角最小y坐标,min表示求最小值,max表示求最大值,
Figure 555830DEST_PATH_IMAGE036
为提取图片的右下角最大x坐标,
Figure 818315DEST_PATH_IMAGE037
表示提取图片的右下角最大y坐标。
可选的,所述将所述提取图片进行尺度缩放,包括:
根据下式计算缩放比例:
Figure 922538DEST_PATH_IMAGE038
根据下式进行尺度缩放:
Figure 954079DEST_PATH_IMAGE039
Figure 603062DEST_PATH_IMAGE040
其中,
Figure 87264DEST_PATH_IMAGE041
表示提取图片的高,
Figure 260756DEST_PATH_IMAGE042
表示提取图片的宽,
Figure 271438DEST_PATH_IMAGE043
表示目标标准图片的高,
Figure 114760DEST_PATH_IMAGE044
表示目标标准图片的宽,
Figure 86258DEST_PATH_IMAGE045
表示缩放比例,
Figure 532283DEST_PATH_IMAGE046
表示缩放后的图片的高,
Figure 538416DEST_PATH_IMAGE047
表示缩放后的图片的宽。
可选的,所述根据所述缩放后的图片中目标的类别和坐标计算得到检测损失值包括:将所述缩放后的图片中目标的坐标映射到所述当前张图片中,得到所述目标在所述当前张图片中的坐标;根据所述当前张图片中目标的坐标计算得到检测损失值。
另一方面,本发明提供了一种变电站目标检测网络模型训练系统,该系统包括:分块提取训练单元,用于将所述训练集中每张图片均按如下操作:计算所述训练集中当前张图片的分块高、分块宽、分块高步长、分块宽步长;根据所述分块高、分块宽、分块高步长、分块宽步长对所述训练集中当前张图片进行分块;将当前张图片的分块图片组成子训练集,并输入到目标分类网络中进行训练,得到每块分块图片的预测结果,所述预测结果为分块图片中是否有目标;根据每块分块图片的预测结果计算每块分块图片的块损失值;根据所述每块分块图片的块损失值对所述目标分类网络中的参数进行反向传播,得到当前目标分类网络模型;将有目标的所述分块图片组合提取或拼接提取得到提取图片;将所述提取图片进行尺度缩放,并将缩放后的图片输入到目标检测网络中进行训练,得到缩放后的图片中目标的类别和坐标;根据所述缩放后的图片中目标的类别和坐标计算得到检测损失值;根据检测损失值对所述目标检测网络中的参数进行反向传播,得到当前目标检测网络模型;重复训练单元,用于重复所述分块提取训练单元,直至所述块损失值在第一预设范围内波动,所述检测损失值在第二预设范围内波动,得到目标检测网络模型。
可选的,还包括:统计单元,用于统计训练集中所有图片中目标的最长宽和最长高;所述当前张图片的分块高、分块宽、分块高步长、分块宽步长根据以下公式计算:
Figure 677274DEST_PATH_IMAGE001
Figure 136068DEST_PATH_IMAGE048
Figure 385784DEST_PATH_IMAGE003
Figure 246423DEST_PATH_IMAGE004
其中,
Figure 556182DEST_PATH_IMAGE005
表示当前张图片的原始高,
Figure 502272DEST_PATH_IMAGE006
表示当前张图片的原始宽,
Figure 555679DEST_PATH_IMAGE007
表示训练集中所有图片中目标的最长高,
Figure 395459DEST_PATH_IMAGE008
表示训练集中所有图片中目标的最长宽,
Figure 751485DEST_PATH_IMAGE009
表示当前张图片的分块高,
Figure 43926DEST_PATH_IMAGE010
表示当前张图片的分块宽,max表示求最大值,
Figure 651756DEST_PATH_IMAGE011
表示当前张图片的分块高步长,
Figure 221409DEST_PATH_IMAGE012
表示当前张图片的分块宽步长。
可选的,所述块损失值根据以下公式计算:
Figure 872970DEST_PATH_IMAGE013
其中,
Figure 793653DEST_PATH_IMAGE014
表示块损失值,
Figure 188862DEST_PATH_IMAGE015
表示目标可能的第
Figure 488388DEST_PATH_IMAGE015
个类别,C表示目标可能的类别数量,
Figure 576429DEST_PATH_IMAGE016
表示分块图片中是否有目标,有目标为1,没有目标为0,
Figure 718829DEST_PATH_IMAGE017
表示分块图片中目标可能是第
Figure 652150DEST_PATH_IMAGE015
个类别的概率。
本发明的有益效果:
本发明提供了一种变电站目标检测网络模型训练方法及系统,其中,该方法包括:统计训练集中所有图片中目标的最长宽和最长高;对训练集中每张图片进行分块;将当前张图片中每块分块图片输入到目标分类网络中训练,得到每块分块图片中是否有目标;将有目标的分块图片重新组合,得到新的提取图片;将所有的提取图片进行尺度缩放,并将缩放后的图片输入到目标检测网络中进行训练,得到缩放后的图片中目标的类别和坐标以及目标检测网络模型。
通过上述设计,将训练集中每张图片进行分块,宽高采用训练集中所有图片中目标的最长宽和最长高,步长设置为最长宽和最长高的二分之一,或大于最长宽和最长高的二分之一,这样得到的分块图片尽可能包含整个目标,降低分块图片包含目标少的问题;将分块图片输入到目标分类网络中,可以得到分块图片中是否有目标,从而提取有目标的分块图片;将有目标的分块图片重新组合,得到新的提取图片,保证目标完整的同时,减少了图片的尺寸和背景的噪音,进而减少有效目标特征的损失;提取图片进行尺度缩放,将缩放后的图片输入到目标检测网络中进行训练,保证了目标检测网络输入的图片的尺寸要求,且提取图片中的目标不发生移位。该方法训练出来的目标检测网络模型推理速度快,且准确率高。
附图说明
图1是本发明实施例提供的一种变电站目标检测网络模型训练方法的流程图;
图2是本发明实施例提供的一种变电站目标检测网络模型训练系统的结构示意图;
图3是本发明第一实施例提供的一张图片进行分块的结构示意图;
图4是本发明第二实施例提供的一张图片进行分块的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
随着深度学习快速的发展,各个领域在不断广泛的使用,基于检测的深度学习在工程中被广泛的使用,其中变电站在近几年被广泛的引用。变电站是一个极其容易发生人员事故的地方,因此变电站的安全极其重要,往常的方法采用工作人员监控现场,需要付出大量的成本。随着基于深度学习的目标检测算法快速发展,通过目标检测自动监控现场可以减少成本和减少因人为因素导致的事故发生。但由于变电站场景范围广,检测目标小,采用常规的目标检测算法存在以下问题:1)随着目标检测算法网络深度加深,目标有效特征可能会丢失;2)常规的小目标检测方法放大图片缩放尺度,这样会带来模型推理速度慢、对硬件设备算力要求高和误检增加等问题。
因而,本发明提供了一种变电站目标检测网络模型训练方法,可以降低有效目标特征的损失,且模型推力速度快。图1是本发明实施例提供的一种变电站目标检测网络模型训练方法的流程图,如图1所示,该方法包括:
步骤S101,统计训练集中所有图片中目标的最长宽和最长高;
具体的,假设训练集为1000张图片,每张图片有很多个目标;若1000张图片中总共有2000个目标,则统计2000个目标的最长宽和最长高;
假设目标有4类,人、安全帽、工具、动物;则分别统计4类目标的最长高和最长宽;即统计所有人的最长高和最长宽;统计所有安全帽的最长高和最长宽;统计所有工具的最长高和最长宽;统计所有动物的最长高和最长宽。
步骤S102,将所述训练集中每张图片均按如下操作:
(1)计算所述训练集中当前张图片的分块高、分块宽、分块高步长、分块宽步长;根据所述分块高、分块宽、分块高步长、分块宽步长对所述训练集中当前张图片进行分块;
所述当前张图片的分块高、分块宽、分块高步长、分块宽步长根据以下公式计算:
Figure 196395DEST_PATH_IMAGE049
Figure 330704DEST_PATH_IMAGE050
Figure 819454DEST_PATH_IMAGE051
Figure 697411DEST_PATH_IMAGE052
其中,
Figure 220797DEST_PATH_IMAGE005
表示所述当前张图片的原始高,
Figure 385062DEST_PATH_IMAGE006
表示所述当前张图片的原始宽,
Figure 502053DEST_PATH_IMAGE007
表示所述训练集中所有图片中目标的最长高,
Figure 42756DEST_PATH_IMAGE008
表示所述训练集中所有图片中目标的最长宽,
Figure 296014DEST_PATH_IMAGE009
表示所述当前张图片的分块高,
Figure 772126DEST_PATH_IMAGE010
表示所述当前张图片的分块宽,max表示求最大值,
Figure 110834DEST_PATH_IMAGE011
表示所述当前张图片的分块高步长,
Figure 330594DEST_PATH_IMAGE012
表示所述当前张图片的分块宽步长。
假设当前张图片中有一个目标,即人,则
Figure 828572DEST_PATH_IMAGE007
表示训练集中所有人的最长高,
Figure 210006DEST_PATH_IMAGE008
表示训练集中所有人的最长宽。
假设当前张图片中有两个目标,即人和安全帽,则
Figure 426223DEST_PATH_IMAGE007
表示训练集中所有人的最长高,
Figure 184095DEST_PATH_IMAGE008
表示训练集中所有人的最长宽。因人比安全帽大,则需要选择最大目标的最长高和最长宽,以使分块图片尽可能包含整个目标,保证目标的完整性。
假设当前张图片中有两个目标,即工具和安全帽,则
Figure 536579DEST_PATH_IMAGE007
表示训练集中所有工具的最长高,
Figure 88914DEST_PATH_IMAGE008
表示训练集中所有工具的最长宽。
图3是本发明第一实施例提供的一张图片进行分块的结构示意图,如图3所示,该张图片分了9块,其中编号为1、2、5、6的为第一块分块图片,编号为2、3、6、7的为第二块分块图片,编号为3、4、7、8的为第三块分块图片,编号为5、6、9、10的为第四块分块图片,编号为6、7、10、11的为第五块分块图片,编号为7、8、11、12的为第六块分块图片,编号为9、10、13、14的为第七块分块图片,编号为10、11、14、15的为第八块分块图片,编号为11、12、15、16的为第九块分块图片,将每块分块图片按顺序进行编号。图3中圆圈代表目标,该图中编号2中有目标,编号1、3、4、5、6、7、8、9、10、11、12、13、14、15、16中没有目标。
(2)将当前张图片的分块图片组成子训练集,并输入到目标分类网络中进行训练,得到每块分块图片的预测结果,所述预测结果为分块图片中是否有目标;根据每块分块图片的预测结果计算每块分块图片的块损失值;根据所述每块分块图片的块损失值对所述目标分类网络中的参数进行反向传播,得到当前目标分类网络模型;
例如:将上述图3中的9块分块图片组成子训练集,并输入到目标分类网络中进行训练,得到每块分块图片的预测结果,所述预测结果为分块图片中是否有目标;即第一块分块图片中有目标,第二块分块图片中有目标,第三块分块图片、第四块分块图片、第五块分块图片、第六块分块图片、第七块分块图片、第八块分块图片、第九块分块图片中均没有目标。
进一步的,在得到第一块分块图片和第二块分块图片中有目标后,观察第一块分块图片和第二块分块图片中是否有违章目标,若有,将有违章目标的分块图片去除。
根据每块分块图片的预测结果计算每块分块图片的块损失值;根据下式计算块损失值:
Figure 526849DEST_PATH_IMAGE013
其中,
Figure 88411DEST_PATH_IMAGE014
表示块损失值,
Figure 295402DEST_PATH_IMAGE015
表示目标可能的第
Figure 284217DEST_PATH_IMAGE015
个类别,C表示目标可能的类别数量(例如:本发明中,目标可能的类别为人、安全帽、工具和动物,则C为4。),
Figure 209448DEST_PATH_IMAGE016
表示分块图片中是否有目标,有目标为1,没有目标为0,
Figure 309122DEST_PATH_IMAGE017
表示分块图片中目标可能是第
Figure 511564DEST_PATH_IMAGE015
个类别的概率。
在得到第一块分块图片的块损失值后,根据第一块分块图片的块损失值对目标分类网络中的参数进行反向传播,得到初始更新的目标分类网络;在得到第二块分块图片的块损失值后,根据第二块分块图片的块损失值对初始更新的目标分类网络中的参数进行反向传播,得到再次更新的目标分类网络;依次类推,直至将所有块分块图片训练完,得到当前目标分类网络模型。
(3)将有目标的所述分块图片(该分块图片不包含违章目标)组合提取或拼接提取得到提取图片;
所述将有目标的所述分块图片组合提取或拼接提取得到提取图片包括:
判断有目标的所述分块图片是否有重叠,若是,将有目标的所述分块图片进行组合提取得到所述提取图片;反之,将有目标的所述分块图片进行拼接处理得到所述提取图片。
在一个可选的实施例中,如图3所示,有目标的分块图片为第一块分块图片和第二块分块图片,第一块分块图片和第二块分块图片有重叠,将第一块分块图片和第二块分块图片进行组合提取得到所述提取图片;
具体的,所述组合提取根据以下公式提取:
Figure 795915DEST_PATH_IMAGE018
Figure 818229DEST_PATH_IMAGE019
Figure 745032DEST_PATH_IMAGE020
Figure 926614DEST_PATH_IMAGE021
其中,
Figure 257233DEST_PATH_IMAGE022
表示有目标的第一块分块图片的左上角的横坐标,
Figure 32422DEST_PATH_IMAGE023
表示有目标的第二块分块图片的左上角的横坐标,
Figure 598532DEST_PATH_IMAGE024
表示有目标的第n块分块图片的左上角的横坐标,
Figure 634621DEST_PATH_IMAGE025
表示有目标的第一块分块图片的左上角的纵坐标,
Figure 136141DEST_PATH_IMAGE026
表示有目标的第二块分块图片的左上角的纵坐标,
Figure 257681DEST_PATH_IMAGE027
表示有目标的第n块分块图片的左上角的纵坐标,
Figure 502848DEST_PATH_IMAGE028
表示有目标的第一块分块图片的右下角的横坐标,
Figure 659023DEST_PATH_IMAGE029
表示有目标的第二块分块图片的右下角的横坐标,
Figure 331444DEST_PATH_IMAGE030
表示有目标的第n块分块图片的右下角的横坐标,
Figure 815646DEST_PATH_IMAGE031
表示有目标的第一块分块图片的右下角的纵坐标,
Figure 598926DEST_PATH_IMAGE032
表示有目标的第二块分块图片的右下角的纵坐标,
Figure 609607DEST_PATH_IMAGE033
表示有目标的第n块分块图片的右下角的纵坐标,
Figure 452929DEST_PATH_IMAGE034
为提取图片的左上角最小x坐标,
Figure 549061DEST_PATH_IMAGE035
为提取图片的左上角最小y坐标,min表示求最小值,max表示求最大值,
Figure 136031DEST_PATH_IMAGE036
为提取图片的右下角最大x坐标,
Figure 266798DEST_PATH_IMAGE037
表示提取图片的右下角最大y坐标。
本实施例中,
Figure 281022DEST_PATH_IMAGE053
Figure 474237DEST_PATH_IMAGE054
Figure 989532DEST_PATH_IMAGE055
Figure 850172DEST_PATH_IMAGE056
其中,
Figure 35297DEST_PATH_IMAGE022
表示有目标的第一块分块图片的左上角的横坐标,
Figure 840442DEST_PATH_IMAGE023
表示有目标的第二块分块图片的左上角的横坐标,
Figure 769214DEST_PATH_IMAGE025
表示有目标的第一块分块图片的左上角的纵坐标,
Figure 608994DEST_PATH_IMAGE026
表示有目标的第二块分块图片的左上角的纵坐标,
Figure 965021DEST_PATH_IMAGE028
表示有目标的第一块分块图片的右下角的横坐标,
Figure 398407DEST_PATH_IMAGE029
表示有目标的第二块分块图片的右下角的横坐标,
Figure 989925DEST_PATH_IMAGE031
表示有目标的第一块分块图片的右下角的纵坐标,
Figure 949791DEST_PATH_IMAGE032
表示有目标的第二块分块图片的右下角的纵坐标,
Figure 476719DEST_PATH_IMAGE034
为提取图片的左上角最小x坐标即
Figure 131822DEST_PATH_IMAGE022
Figure 527031DEST_PATH_IMAGE035
为提取图片的左上角最小y坐标即
Figure 216770DEST_PATH_IMAGE025
,min表示求最小值,max表示求最大值,
Figure 39232DEST_PATH_IMAGE036
为提取图片的右下角最大x坐标即
Figure 181632DEST_PATH_IMAGE029
Figure 380532DEST_PATH_IMAGE037
表示提取图片的右下角最大y坐标即
Figure 49411DEST_PATH_IMAGE032
提取图片的左上角坐标为
Figure 918141DEST_PATH_IMAGE057
,提取图片的右下角坐标为
Figure 547836DEST_PATH_IMAGE058
在另一个可选的实施例中,图4是本发明第二实施例提供的一张图片进行分块的结构示意图,如图4所示,该张图片分了9块,其中编号为1、2、5、6的为第一块分块图片,编号为2、3、6、7的为第二块分块图片,编号为3、4、7、8的为第三块分块图片,编号为5、6、9、10的为第四块分块图片,编号为6、7、10、11的为第五块分块图片,编号为7、8、11、12的为第六块分块图片,编号为9、10、13、14的为第七块分块图片,编号为10、11、14、15的为第八块分块图片,编号为11、12、15、16的为第九块分块图片;图4中圆圈代表目标,该图中编号2、13中有目标,编号1、3、4、5、6、7、8、9、10、11、12、14、15、16中没有目标。有目标的分块图片为第一块分块图片、第二块分块图片和第七块分块图片,第一块分块图片和第二块分块图片有重叠,第一块分块图片和第二块分块图片与第七块分块图片没有重叠,则将第一块分块图片、第二块分块图片和第七块分块图片进行拼接提取得到所述提取图片;
具体的,按第一块分块图片、第二块分块图片和第七块分块图片的原有位置进行拼接,拼接后的图片为不规则形状,需将其补充为矩形结构,即该矩形的高为第一块分块图片的高与第七块分块图片的高之和,宽为第一块分块图片的宽与第二块分块图片的宽之和。
(4)将所述提取图片进行尺度缩放,并将缩放后的图片输入到目标检测网络中进行训练,得到缩放后的图片中目标的类别和坐标;根据所述缩放后的图片中目标的类别和坐标计算得到检测损失值;根据检测损失值对所述目标检测网络中的参数进行反向传播,得到当前目标检测网络模型;
具体的,所述将所述提取图片进行尺度缩放,包括:
根据下式计算缩放比例:
Figure 550427DEST_PATH_IMAGE038
根据下式进行尺度缩放:
Figure 73812DEST_PATH_IMAGE039
Figure 113444DEST_PATH_IMAGE040
其中,
Figure 355069DEST_PATH_IMAGE041
表示提取图片的高,
Figure 646504DEST_PATH_IMAGE042
表示提取图片的宽,
Figure 24396DEST_PATH_IMAGE043
表示目标标准图片的高(即要输入到目标检测网络中标准图片的高),
Figure 625142DEST_PATH_IMAGE044
表示目标标准图片的宽(即要输入到目标检测网络中标准图片的宽),
Figure 963850DEST_PATH_IMAGE045
表示缩放比例,
Figure 308244DEST_PATH_IMAGE046
表示缩放后的图片的高,
Figure 416008DEST_PATH_IMAGE047
表示缩放后的图片的宽。
所述根据所述缩放后的图片中目标的类别和坐标计算得到检测损失值包括:
将所述缩放后的图片中目标的坐标映射到所述当前张图片中,得到所述目标在所述当前张图片中的坐标;
根据所述当前张图片中目标的坐标计算得到检测损失值。
根据检测损失值对所述目标检测网络中的参数进行反向传播,得到当前目标检测网络模型。
步骤S103,重复所述步骤S102,直至所述块损失值在第一预设范围内波动,所述检测损失值在第二预设范围内波动,得到目标检测网络模型。
具体的,将训练集中全部图片训练完为一轮训练,将训练集进行多轮训练,直至所述块损失值在第一预设范围内波动,所述检测损失值在第二预设范围内波动,停止模型训练,分别得到目标分类网络模型,目标检测网络模型。
本发明中,将训练集中每张图片进行分块,宽高采用训练集中所有图片中目标的最长宽和最长高,步长设置为最长宽和最长高的二分之一,或大于最长宽和最长高的二分之一,这样得到的分块图片尽可能包含整个目标,降低分块图片包含目标少的问题;将分块图片输入到目标分类网络中,可以得到分块图片中是否有目标,从而提取有目标的分块图片;将有目标的分块图片重新组合,得到新的提取图片,保证目标完整的同时,减少了图片的尺寸和背景的噪音,进而减少有效目标特征的损失;提取图片进行尺度缩放,将缩放后的图片输入到目标检测网络中进行训练,保证了目标检测网络输入的图片的尺寸要求,且提取图片中的目标不发生移位。
图2是本发明实施例提供的一种变电站目标检测网络模型训练系统的结构示意图,如图2所示,该系统包括:
统计单元201,用于统计训练集中所有图片中目标的最长宽和最长高;
具体的,假设训练集为1000张图片,每张图片有很多个目标;若1000张图片中总共有2000个目标,则统计2000个目标的最长宽和最长高;
假设目标有4类,人、安全帽、工具、动物;则分别统计4类目标的最长高和最长宽;即统计所有人的最长高和最长宽;统计所有安全帽的最长高和最长宽;统计所有工具的最长高和最长宽;统计所有动物的最长高和最长宽。
分块提取训练单元202,用于将所述训练集中每张图片均按如下操作:
(1)计算所述训练集中当前张图片的分块高、分块宽、分块高步长、分块宽步长;根据所述分块高、分块宽、分块高步长、分块宽步长对所述训练集中当前张图片进行分块;
所述当前张图片的分块高、分块宽、分块高步长、分块宽步长根据以下公式计算:
Figure 63022DEST_PATH_IMAGE001
Figure 13660DEST_PATH_IMAGE002
Figure 771532DEST_PATH_IMAGE059
Figure 999382DEST_PATH_IMAGE004
其中,
Figure 941930DEST_PATH_IMAGE005
表示所述当前张图片的原始高,
Figure 255231DEST_PATH_IMAGE006
表示所述当前张图片的原始宽,
Figure 793356DEST_PATH_IMAGE007
表示所述训练集中所有图片中目标的最长高,
Figure 875712DEST_PATH_IMAGE008
表示所述训练集中所有图片中目标的最长宽,
Figure 989162DEST_PATH_IMAGE009
表示所述当前张图片的分块高,
Figure 789759DEST_PATH_IMAGE010
表示所述当前张图片的分块宽,max表示求最大值,
Figure 14067DEST_PATH_IMAGE011
表示所述当前张图片的分块高步长,
Figure 216509DEST_PATH_IMAGE012
表示所述当前张图片的分块宽步长。
假设当前张图片中有一个目标,即人,则
Figure 235281DEST_PATH_IMAGE007
表示训练集中所有人的最长高,
Figure 398540DEST_PATH_IMAGE008
表示训练集中所有人的最长宽。
假设当前张图片中有两个目标,即人和安全帽,则
Figure 301905DEST_PATH_IMAGE007
表示训练集中所有人的最长高,
Figure 483488DEST_PATH_IMAGE008
表示训练集中所有人的最长宽。因人比安全帽大,则需要选择最大目标的最长高和最长宽,以使分块图片尽可能包含整个目标,保证目标的完整性。
假设当前张图片中有两个目标,即工具和安全帽,则
Figure 814106DEST_PATH_IMAGE007
表示训练集中所有工具的最长高,
Figure 448350DEST_PATH_IMAGE008
表示训练集中所有工具的最长宽。
图3是本发明第一实施例提供的一张图片进行分块的结构示意图,如图3所示,该张图片分了9块,其中编号为1、2、5、6的为第一块分块图片,编号为2、3、6、7的为第二块分块图片,编号为3、4、7、8的为第三块分块图片,编号为5、6、9、10的为第四块分块图片,编号为6、7、10、11的为第五块分块图片,编号为7、8、11、12的为第六块分块图片,编号为9、10、13、14的为第七块分块图片,编号为10、11、14、15的为第八块分块图片,编号为11、12、15、16的为第九块分块图片,将每块分块图片按顺序进行编号。图3中圆圈代表目标,该图中编号2中有目标,编号1、3、4、5、6、7、8、9、10、11、12、13、14、15、16中没有目标。
(2)将当前张图片的分块图片组成子训练集,并输入到目标分类网络中进行训练,得到每块分块图片的预测结果,所述预测结果为分块图片中是否有目标;根据每块分块图片的预测结果计算每块分块图片的块损失值;根据所述每块分块图片的块损失值对所述目标分类网络中的参数进行反向传播,得到当前目标分类网络模型;
例如:将上述图3中的9块分块图片组成子训练集,并输入到目标分类网络中进行训练,得到每块分块图片的预测结果,所述预测结果为分块图片中是否有目标;即第一块分块图片中有目标,第二块分块图片中有目标,第三块分块图片、第四块分块图片、第五块分块图片、第六块分块图片、第七块分块图片、第八块分块图片、第九块分块图片中均没有目标。
进一步的,在得到第一块分块图片和第二块分块图片中有目标后,观察第一块分块图片和第二块分块图片中是否有违章目标,若有,将有违章目标的分块图片去除。
根据每块分块图片的预测结果计算每块分块图片的块损失值;根据下式计算块损失值:
Figure 640559DEST_PATH_IMAGE013
其中,
Figure 942227DEST_PATH_IMAGE014
表示块损失值,
Figure 568380DEST_PATH_IMAGE015
表示目标可能的第
Figure 565286DEST_PATH_IMAGE015
个类别,C表示目标可能的类别数量(例如:本发明中,目标可能的类别为人、安全帽、工具和动物,则C为4。),
Figure 561187DEST_PATH_IMAGE016
表示分块图片中是否有目标,有目标为1,没有目标为0,
Figure 592728DEST_PATH_IMAGE017
表示分块图片中目标可能是第
Figure 389782DEST_PATH_IMAGE015
个类别的概率。
在得到第一块分块图片的块损失值后,根据第一块分块图片的块损失值对目标分类网络中的参数进行反向传播,得到初始更新的目标分类网络;在得到第二块分块图片的块损失值后,根据第二块分块图片的块损失值对初始更新的目标分类网络中的参数进行反向传播,得到再次更新的目标分类网络;依次类推,直至将所有块分块图片训练完,得到当前目标分类网络模型。
(3)将有目标的所述分块图片(该分块图片不包含违章目标)组合提取或拼接提取得到提取图片;
所述将有目标的所述分块图片组合提取或拼接提取得到提取图片包括:
判断有目标的所述分块图片是否有重叠,若是,将有目标的所述分块图片进行组合提取得到所述提取图片;反之,将有目标的所述分块图片进行拼接处理得到所述提取图片。
在一个可选的实施例中,如图3所示,有目标的分块图片为第一块分块图片和第二块分块图片,第一块分块图片和第二块分块图片有重叠,将第一块分块图片和第二块分块图片进行组合提取得到所述提取图片;
具体的,所述组合提取根据以下公式提取:
Figure 873984DEST_PATH_IMAGE018
Figure 781898DEST_PATH_IMAGE019
Figure 667945DEST_PATH_IMAGE020
Figure 635901DEST_PATH_IMAGE021
其中,
Figure 607399DEST_PATH_IMAGE022
表示有目标的第一块分块图片的左上角的横坐标,
Figure 319003DEST_PATH_IMAGE023
表示有目标的第二块分块图片的左上角的横坐标,
Figure 59557DEST_PATH_IMAGE024
表示有目标的第n块分块图片的左上角的横坐标,
Figure 198415DEST_PATH_IMAGE025
表示有目标的第一块分块图片的左上角的纵坐标,
Figure 657209DEST_PATH_IMAGE026
表示有目标的第二块分块图片的左上角的纵坐标,
Figure 172504DEST_PATH_IMAGE027
表示有目标的第n块分块图片的左上角的纵坐标,
Figure 767564DEST_PATH_IMAGE028
表示有目标的第一块分块图片的右下角的横坐标,
Figure 77323DEST_PATH_IMAGE029
表示有目标的第二块分块图片的右下角的横坐标,
Figure 23413DEST_PATH_IMAGE030
表示有目标的第n块分块图片的右下角的横坐标,
Figure 952186DEST_PATH_IMAGE031
表示有目标的第一块分块图片的右下角的纵坐标,
Figure 791966DEST_PATH_IMAGE032
表示有目标的第二块分块图片的右下角的纵坐标,
Figure 272626DEST_PATH_IMAGE033
表示有目标的第n块分块图片的右下角的纵坐标,
Figure 706013DEST_PATH_IMAGE034
为提取图片的左上角最小x坐标,
Figure 172897DEST_PATH_IMAGE035
为提取图片的左上角最小y坐标,min表示求最小值,max表示求最大值,
Figure 867184DEST_PATH_IMAGE036
为提取图片的右下角最大x坐标,
Figure 659690DEST_PATH_IMAGE037
表示提取图片的右下角最大y坐标。
本实施例中,
Figure 314794DEST_PATH_IMAGE053
Figure 710003DEST_PATH_IMAGE054
Figure 399742DEST_PATH_IMAGE055
Figure 222204DEST_PATH_IMAGE056
其中,
Figure 364604DEST_PATH_IMAGE022
表示有目标的第一块分块图片的左上角的横坐标,
Figure 563504DEST_PATH_IMAGE023
表示有目标的第二块分块图片的左上角的横坐标,
Figure 107749DEST_PATH_IMAGE025
表示有目标的第一块分块图片的左上角的纵坐标,
Figure 976479DEST_PATH_IMAGE026
表示有目标的第二块分块图片的左上角的纵坐标,
Figure 730808DEST_PATH_IMAGE028
表示有目标的第一块分块图片的右下角的横坐标,
Figure 467820DEST_PATH_IMAGE029
表示有目标的第二块分块图片的右下角的横坐标,
Figure 890009DEST_PATH_IMAGE031
表示有目标的第一块分块图片的右下角的纵坐标,
Figure 195219DEST_PATH_IMAGE032
表示有目标的第二块分块图片的右下角的纵坐标,
Figure 436845DEST_PATH_IMAGE034
为提取图片的左上角最小x坐标即
Figure 587335DEST_PATH_IMAGE022
Figure 230806DEST_PATH_IMAGE035
为提取图片的左上角最小y坐标即
Figure 441338DEST_PATH_IMAGE025
,min表示求最小值,max表示求最大值,
Figure 45626DEST_PATH_IMAGE036
为提取图片的右下角最大x坐标即
Figure 124440DEST_PATH_IMAGE029
Figure 622418DEST_PATH_IMAGE037
表示提取图片的右下角最大y坐标即
Figure 269431DEST_PATH_IMAGE032
提取图片的左上角坐标为
Figure 95436DEST_PATH_IMAGE057
,提取图片的右下角坐标为
Figure 977941DEST_PATH_IMAGE058
在另一个可选的实施例中,图4是本发明第二实施例提供的一张图片进行分块的结构示意图,如图4所示,该张图片分了9块,其中编号为1、2、5、6的为第一块分块图片,编号为2、3、6、7的为第二块分块图片,编号为3、4、7、8的为第三块分块图片,编号为5、6、9、10的为第四块分块图片,编号为6、7、10、11的为第五块分块图片,编号为7、8、11、12的为第六块分块图片,编号为9、10、13、14的为第七块分块图片,编号为10、11、14、15的为第八块分块图片,编号为11、12、15、16的为第九块分块图片;图4中圆圈代表目标,该图中编号2、13中有目标,编号1、3、4、5、6、7、8、9、10、11、12、14、15、16中没有目标。有目标的分块图片为第一块分块图片、第二块分块图片和第七块分块图片,第一块分块图片和第二块分块图片有重叠,第一块分块图片和第二块分块图片与第七块分块图片没有重叠,则将第一块分块图片、第二块分块图片和第七块分块图片进行拼接提取得到所述提取图片;
具体的,按第一块分块图片、第二块分块图片和第七块分块图片的原有位置进行拼接,拼接后的图片为不规则形状,需将其补充为矩形结构,即该矩形的高为第一块分块图片的高与第七块分块图片的高之和,宽为第一块分块图片的宽与第二块分块图片的宽之和。
(4)将所述提取图片进行尺度缩放,并将缩放后的图片输入到目标检测网络中进行训练,得到缩放后的图片中目标的类别和坐标;根据所述缩放后的图片中目标的类别和坐标计算得到检测损失值;根据检测损失值对所述目标检测网络中的参数进行反向传播,得到当前目标检测网络模型;
具体的,所述将所述提取图片进行尺度缩放,包括:
根据下式计算缩放比例:
Figure 205791DEST_PATH_IMAGE038
根据下式进行尺度缩放:
Figure 23706DEST_PATH_IMAGE039
Figure 337006DEST_PATH_IMAGE040
其中,
Figure 757623DEST_PATH_IMAGE041
表示提取图片的高,
Figure 105559DEST_PATH_IMAGE042
表示提取图片的宽,
Figure 219009DEST_PATH_IMAGE043
表示目标标准图片的高(即要输入到目标检测网络中标准图片的高),
Figure 19606DEST_PATH_IMAGE044
表示目标标准图片的宽(即要输入到目标检测网络中标准图片的宽),
Figure 243914DEST_PATH_IMAGE045
表示缩放比例,
Figure 180777DEST_PATH_IMAGE046
表示缩放后的图片的高,
Figure 465128DEST_PATH_IMAGE047
表示缩放后的图片的宽。
所述根据所述缩放后的图片中目标的类别和坐标计算得到检测损失值包括:
将所述缩放后的图片中目标的坐标映射到所述当前张图片中,得到所述目标在所述当前张图片中的坐标;
根据所述当前张图片中目标的坐标计算得到检测损失值。
根据检测损失值对所述目标检测网络中的参数进行反向传播,得到当前目标检测网络模型。
重复训练单元203,用于重复所述分块提取训练单元,直至所述块损失值在第一预设范围内波动,所述检测损失值在第二预设范围内波动,得到目标检测网络模型。
具体的,将训练集中全部图片训练完为一轮训练,将训练集进行多轮训练,直至所述块损失值在第一预设范围内波动,所述检测损失值在第二预设范围内波动,停止模型训练,分别得到目标分类网络模型,目标检测网络模型。
本发明的有益效果:
本发明提供了一种变电站目标检测网络模型训练方法及系统,其中,该方法包括:统计训练集中所有图片中目标的最长宽和最长高;对训练集中每张图片进行分块;将当前张图片中每块分块图片输入到目标分类网络中训练,得到每块分块图片中是否有目标;将有目标的分块图片重新组合,得到新的提取图片;将所有的提取图片进行尺度缩放,并将缩放后的图片输入到目标检测网络中进行训练,得到缩放后的图片中目标的类别和坐标以及目标检测网络模型。
通过上述设计,将训练集中每张图片进行分块,宽高采用训练集中所有图片中目标的最长宽和最长高,步长设置为最长宽和最长高的二分之一,或大于最长宽和最长高的二分之一,这样得到的分块图片尽可能包含整个目标,降低分块图片包含目标少的问题;将分块图片输入到目标分类网络中,可以得到分块图片中是否有目标,从而提取有目标的分块图片;将有目标的分块图片重新组合,得到新的提取图片,保证目标完整的同时,减少了图片的尺寸和背景的噪音,进而减少有效目标特征的损失;提取图片进行尺度缩放,将缩放后的图片输入到目标检测网络中进行训练,保证了目标检测网络输入的图片的尺寸要求,且提取图片中的目标不发生移位。该方法训练出来的目标检测网络模型推理速度快,且准确率高。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种变电站目标检测网络模型训练方法,其特征在于,包括:
步骤S102,将训练集中每张图片均按如下操作:
计算所述训练集中当前张图片的分块高、分块宽、分块高步长、分块宽步长;根据所述分块高、分块宽、分块高步长、分块宽步长对所述训练集中当前张图片进行分块;
将当前张图片的分块图片组成子训练集,并输入到目标分类网络中进行训练,得到每块分块图片的预测结果,所述预测结果为分块图片中是否有目标;根据每块分块图片的预测结果计算每块分块图片的块损失值;根据所述每块分块图片的块损失值对所述目标分类网络中的参数进行反向传播,得到当前目标分类网络模型;
将有目标的所述分块图片组合提取或拼接提取得到提取图片;
将所述提取图片进行尺度缩放,并将缩放后的图片输入到目标检测网络中进行训练,得到缩放后的图片中目标的类别和坐标;根据所述缩放后的图片中目标的类别和坐标计算得到检测损失值;根据检测损失值对所述目标检测网络中的参数进行反向传播,得到当前目标检测网络模型;
步骤S103,重复所述步骤S102,直至所述块损失值在第一预设范围内波动,所述检测损失值在第二预设范围内波动,得到目标检测网络模型。
2.根据权利要求1所述的方法,其特征在于,还包括:
步骤S101,统计训练集中所有图片中目标的最长宽和最长高;
所述当前张图片的分块高、分块宽、分块高步长、分块宽步长根据以下公式计算:
heightsplit=max(heightimg/4,heightobj)
widthsplit=max(widthimg/4,widthobj)
Figure FDA0003965890560000011
Figure FDA0003965890560000012
其中,heightimg表示所述当前张图片的原始高,widthimg表示所述当前张图片的原始宽,heightobj表示所述训练集中所有图片中目标的最长高,widthobj表示所述训练集中所有图片中目标的最长宽,heightsplit表示所述当前张图片的分块高,widthsplit表示所述当前张图片的分块宽,max表示求最大值,
Figure FDA0003965890560000021
表示所述当前张图片的分块高步长,
Figure FDA0003965890560000022
表示所述当前张图片的分块宽步长。
3.根据权利要求1所述的方法,其特征在于,所述块损失值根据以下公式计算:
Figure FDA0003965890560000023
其中,loss表示块损失值,i表示目标第i个类别,C表示目标类别数量,yi表示分块图片中是否有目标,有目标为1,没有目标为0,pi表示分块图片中目标是第i个类别的概率。
4.根据权利要求1所述的方法,其特征在于,所述将有目标的所述分块图片组合提取或拼接提取得到提取图片包括:
判断有目标的所述分块图片是否有重叠,若是,将有目标的所述分块图片进行组合提取得到所述提取图片;反之,将有目标的所述分块图片进行拼接处理得到所述提取图片。
5.根据权利要求4所述的方法,其特征在于,所述组合提取根据以下公式提取:
topx=min(x10,x11,......,x1n)
topy=min(y10,y11,......,y1n)
botx=max(x20,x21,......,x2n)
boty=max(y20,y21,......,y2n)
其中,x10表示有目标的第一块分块图片的左上角的横坐标,x11表示有目标的第二块分块图片的左上角的横坐标,x1n表示有目标的第n块分块图片的左上角的横坐标,y10表示有目标的第一块分块图片的左上角的纵坐标,y11表示有目标的第二块分块图片的左上角的纵坐标,y1n表示有目标的第n块分块图片的左上角的纵坐标,x20表示有目标的第一块分块图片的右下角的横坐标,x21表示有目标的第二块分块图片的右下角的横坐标,x2n表示有目标的第n块分块图片的右下角的横坐标,y20表示有目标的第一块分块图片的右下角的纵坐标,y21表示有目标的第二块分块图片的右下角的纵坐标,y2n表示有目标的第n块分块图片的右下角的纵坐标,topx为提取图片的左上角最小x坐标,topy为提取图片的左上角最小y坐标,min表示求最小值,max表示求最大值,botx为提取图片的右下角最大x坐标,boty表示提取图片的右下角最大y坐标。
6.根据权利要求1所述的方法,其特征在于,所述将所述提取图片进行尺度缩放,包括:
根据下式计算缩放比例:
Figure FDA0003965890560000031
根据下式进行尺度缩放:
heightreship=heightdet×rationmin
widthreship=widthdet×rationmin
其中,heightdet表示提取图片的高,widthdet表示提取图片的宽,heightscale表示目标标准图片的高,widthscale表示目标标准图片的宽,rationmin表示缩放比例,heightreship表示缩放后的图片的高,widthreship表示缩放后的图片的宽。
7.根据权利要求1所述的方法,其特征在于,所述根据所述缩放后的图片中目标的类别和坐标计算得到检测损失值包括:
将所述缩放后的图片中目标的坐标映射到所述当前张图片中,得到所述目标在所述当前张图片中的坐标;
根据所述当前张图片中目标的坐标计算得到检测损失值。
8.一种变电站目标检测网络模型训练系统,其特征在于,包括:
分块提取训练单元,用于将训练集中每张图片均按如下操作:
计算所述训练集中当前张图片的分块高、分块宽、分块高步长、分块宽步长;根据所述分块高、分块宽、分块高步长、分块宽步长对所述训练集中当前张图片进行分块;
将当前张图片的分块图片组成子训练集,并输入到目标分类网络中进行训练,得到每块分块图片的预测结果,所述预测结果为分块图片中是否有目标;根据每块分块图片的预测结果计算每块分块图片的块损失值;根据所述每块分块图片的块损失值对所述目标分类网络中的参数进行反向传播,得到当前目标分类网络模型;
将有目标的所述分块图片组合提取或拼接提取得到提取图片;
将所述提取图片进行尺度缩放,并将缩放后的图片输入到目标检测网络中进行训练,得到缩放后的图片中目标的类别和坐标;根据所述缩放后的图片中目标的类别和坐标计算得到检测损失值;根据检测损失值对所述目标检测网络中的参数进行反向传播,得到当前目标检测网络模型;
重复训练单元,用于重复所述分块提取训练单元,直至所述块损失值在第一预设范围内波动,所述检测损失值在第二预设范围内波动,得到目标检测网络模型。
9.根据权利要求8所述的系统,其特征在于,还包括:
统计单元,用于统计训练集中所有图片中目标的最长宽和最长高;
所述当前张图片的分块高、分块宽、分块高步长、分块宽步长根据以下公式计算:
heightsplit=max(heightimg/4,heightobj)
widthsplit=max(widthimg/4,widthobj)
Figure FDA0003965890560000041
Figure FDA0003965890560000042
其中,heightimg表示当前张图片的原始高,widthimg表示当前张图片的原始宽,heightobj表示训练集中所有图片中目标的最长高,widthobj表示训练集中所有图片中目标的最长宽,heightsplit表示当前张图片的分块高,widthsplit表示当前张图片的分块宽,max表示求最大值,
Figure FDA0003965890560000051
表示当前张图片的分块高步长,
Figure FDA0003965890560000052
表示当前张图片的分块宽步长。
10.根据权利要求8所述的系统,其特征在于,所述块损失值根据以下公式计算:
Figure FDA0003965890560000053
其中,loss表示块损失值,i表示目标第i个类别,C表示目标类别数量,yi表示分块图片中是否有目标,有目标为1,没有目标为0,pi表示分块图片中目标是第i个类别的概率。
CN202211250272.8A 2022-10-13 2022-10-13 变电站目标检测网络模型训练方法及系统 Active CN115330778B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211250272.8A CN115330778B (zh) 2022-10-13 2022-10-13 变电站目标检测网络模型训练方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211250272.8A CN115330778B (zh) 2022-10-13 2022-10-13 变电站目标检测网络模型训练方法及系统

Publications (2)

Publication Number Publication Date
CN115330778A CN115330778A (zh) 2022-11-11
CN115330778B true CN115330778B (zh) 2023-03-10

Family

ID=83913477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211250272.8A Active CN115330778B (zh) 2022-10-13 2022-10-13 变电站目标检测网络模型训练方法及系统

Country Status (1)

Country Link
CN (1) CN115330778B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018097506A (ja) * 2016-12-12 2018-06-21 株式会社日立製作所 衛星画像処理システム及び方法
CN108765386A (zh) * 2018-05-16 2018-11-06 中铁科学技术开发公司 一种隧道裂缝检测方法、装置、电子设备及存储介质
WO2019108695A1 (en) * 2017-11-30 2019-06-06 Nantomics, Llc Detecting intratumor heterogeneity of molecular subtypes in pathology slide images using deep-learning
CN113344948A (zh) * 2021-07-06 2021-09-03 湖南博远翔电子科技有限公司 一种高分辨率图片识别小目标的方法
CN114067097A (zh) * 2021-10-20 2022-02-18 广东科学技术职业学院 基于深度学习的图像分块目标检测方法、系统及介质
CN114373185A (zh) * 2022-01-06 2022-04-19 中国工商银行股份有限公司 票据图像的分类方法及其装置、电子设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11308628B2 (en) * 2020-04-14 2022-04-19 Adobe Inc. Patch-based image matting using deep learning
CN115082775B (zh) * 2022-07-27 2022-12-02 中国科学院自动化研究所 基于图像分块的超分辨率增强小目标检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018097506A (ja) * 2016-12-12 2018-06-21 株式会社日立製作所 衛星画像処理システム及び方法
WO2019108695A1 (en) * 2017-11-30 2019-06-06 Nantomics, Llc Detecting intratumor heterogeneity of molecular subtypes in pathology slide images using deep-learning
CN108765386A (zh) * 2018-05-16 2018-11-06 中铁科学技术开发公司 一种隧道裂缝检测方法、装置、电子设备及存储介质
CN113344948A (zh) * 2021-07-06 2021-09-03 湖南博远翔电子科技有限公司 一种高分辨率图片识别小目标的方法
CN114067097A (zh) * 2021-10-20 2022-02-18 广东科学技术职业学院 基于深度学习的图像分块目标检测方法、系统及介质
CN114373185A (zh) * 2022-01-06 2022-04-19 中国工商银行股份有限公司 票据图像的分类方法及其装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Automated Lung Nodule Detection and Classification Using Deep Learning Combined with Multiple Strategies;nasrullah et al.;《sensors》;20190828;第1-10页 *
Multi-class geospatial object detection and geographic image classification based on collection of part detectors;gong cheng et al.;《ISPRS journal of photogrammetry and remote sensing》;20141231;第119-132页 *
基于深度学习的动车组运行安全图像异物检测;周雯等;《交通信息与安全》;20191228(第06期);第54-61页 *

Also Published As

Publication number Publication date
CN115330778A (zh) 2022-11-11

Similar Documents

Publication Publication Date Title
CN111914819B (zh) 一种多摄像头融合的人群密度预测方法、装置、存储介质及终端
CN103903008B (zh) 一种基于图像识别输电线路的雾等级的方法以及系统
CN109740444A (zh) 人流量信息展示方法及相关产品
US11490164B2 (en) Method and electronic device for displaying video
CN116628123B (zh) 基于空间数据库的动态切片生成方法和系统
WO2023273344A1 (zh) 车辆跨线识别方法、装置、电子设备和存储介质
CN109960980A (zh) 动态手势识别方法及装置
CN107509059A (zh) 摄像机镜头遮挡检测方法
CN112861998A (zh) 神经网络模型构建方法、安全通道异常监测方法及系统
CN115330778B (zh) 变电站目标检测网络模型训练方法及系统
CN113435801B (zh) 基于人工智能的输电线安全隐患评估的方法、装置及设备
CN113177941B (zh) 一种钢卷边裂识别方法、系统、介质和终端
CN107301373B (zh) 数据处理方法、装置及存储介质
Zhai et al. Extracting worker unsafe behaviors from construction images using image captioning with deep learning–based attention mechanism
CN105678268B (zh) 一种基于双区域学习的地铁站场景行人计数实现方法
CN114827590B (zh) 摄像头位置分布合理性分析方法、装置和电子设备
CN116524428A (zh) 基于目标检测及场景融合的电力作业安全风险识别方法
CN113920535B (zh) 一种基于YOLOv5的电子区域检测方法
CN113469150B (zh) 一种用于对风险行为进行识别的方法及系统
CN116071696A (zh) 一种基于YOLOv7的楼宇楼梯拥挤检测方法及装置
CN115049875A (zh) 一种基于深度学习的变电站中佩戴绝缘手套的检测方法
CN103530406B (zh) 基于纹理内容的旋转图像搜索方法
CN113326793A (zh) 一种远距离行人位置识别方法、系统及存储介质
CN111738125A (zh) 客户人数确定方法及装置
CN114120620B (zh) 基于dikw的区域感知和通行提示方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant