CN117011658A - 图像处理方法、装置、设备、存储介质和计算机程序产品 - Google Patents

图像处理方法、装置、设备、存储介质和计算机程序产品 Download PDF

Info

Publication number
CN117011658A
CN117011658A CN202310967597.6A CN202310967597A CN117011658A CN 117011658 A CN117011658 A CN 117011658A CN 202310967597 A CN202310967597 A CN 202310967597A CN 117011658 A CN117011658 A CN 117011658A
Authority
CN
China
Prior art keywords
mask
target area
image
source image
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310967597.6A
Other languages
English (en)
Inventor
王红斌
王勇
孔令明
陈俊
刘俊翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd filed Critical Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority to CN202310967597.6A priority Critical patent/CN117011658A/zh
Publication of CN117011658A publication Critical patent/CN117011658A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种图像处理方法、装置、设备、存储介质和计算机程序产品。其中方法包括:从源图像数据集中提取目标区域的掩膜;其中,源图像数据集是标注了目标区域的源图像的集合,目标区域为目标检测物所在的区域,源图像是预先采集的包含目标检测物的图像;对目标区域的掩膜进行形态学运算,以得到增强后的目标区域的掩膜;将增强后的目标区域的掩膜融合至源图像中,获得融合后的图像;融合后的图像用于训练电力设备的缺陷识别模型。本方法能够使电力缺陷识别模型的训练样本更加充足和多样化,有助于提高电力设备缺陷识别模型的准确性。

Description

图像处理方法、装置、设备、存储介质和计算机程序产品
技术领域
本申请涉及图像处理技术领域,特别是涉及一种图像处理方法、装置、设备、存储介质和计算机程序产品。
背景技术
电力巡检包括对输电线路和变电站的检查,是保障电力系统安全的重要工作之一,近年来,随着无人机和图像采集设备的广泛运用,拍摄电力场景的图像并利用基于深度学习的图像识别技术对缺陷进行识别已经成为电力巡检的常用手段。
然而,基于深度学习的图像识别技术需要大量样本对模型进行训练,以保障识别的准确性,用于训练模型的样本通常是由图像采集设备直接采集的图像,当样本数量不足时,可以人为制造包含需识别的目标的场景并采集这些场景的图像以增加样本数量。但电力系统的缺陷往往意味着存在安全隐患,人为制造隐患场景以获取样本图像会影响电力系统的安全性,用于缺陷识别的样本图像只有在检测到电力系统中存在缺陷时才能进行采集,数量上难以满足模型训练的需求。因此,在电力系统的缺陷检测方面,存在着样本图像缺乏,缺陷识别不准确的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够有效扩充电力系统的缺陷检测样本的图像处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种图像处理方法,该方法包括:
从源图像数据集中提取目标区域的掩膜;其中,源图像数据集是标注了目标区域的源图像的集合,目标区域为目标检测物所在的区域,源图像是预先采集的包含目标检测物的图像;
对目标区域的掩膜进行形态学运算,以得到增强后的目标区域的掩膜;
将增强后的目标区域的掩膜融合至源图像中,获得融合后的图像;融合后的图像用于训练电力设备的缺陷识别模型。
在其中一个实施例中,从源图像数据集中提取目标区域的掩膜包括:
将源图像数据集输入预训练的掩膜提取模型,获得目标区域的多个预测掩膜和对应于多个预测掩膜的预测概率;
基于预测概率在多个预测掩膜中确定目标区域的掩膜。
在其中一个实施例中,该方法还包括:
计算预测掩膜与源图像中的目标区域的重合度,在重合度低于预设的阈值的源图像中增加前景点和/或剔除背景点,获得更新后的源图像数据集;
从更新后的源图像数据集中提取目标区域的掩膜。
在其中一个实施例中,对目标区域的掩膜进行形态学运算,包括:
使用边长为源图像短边的第一预设倍数的正方形结构元素,对目标区域的掩膜进行开运算;以及
使用边长为源图像短边的第二预设倍数正方形结构元素,对目标区域的掩膜进行闭运算。
在其中一个实施例中,在将图像增强后的目标区域的掩膜融合至源图像中之前,该方法还包括:
对源图像和将图像增强后的目标区域的掩膜进行图像变换,其中,图像变换包括旋转、缩放或镜像中的至少一种。
在其中一个实施例中,将增强后的目标区域的掩膜融合至源图像中,包括:
将源图像和增强后的目标区域的掩膜进行泊松融合和/或阿尔法融合。
第二方面,本申请还提供了一种图像处理装置,其特征在于,该装置包括:
掩膜提取模块,用于从源图像数据集中提取目标区域的掩膜;其中,源图像数据集是标注了目标区域的源图像的集合,目标区域为目标检测物所在的区域,源图像是预先采集的包含目标检测物的图像;
形态学运算模块,用于对目标区域的掩膜进行形态学运算,以得到增强后的目标区域的掩膜;
融合模块,用于将增强后的目标区域的掩膜融合至源图像中,获得融合后的图像;融合后的图像用于训练电力设备的缺陷识别模型。
第三方面,本申请还提供了一种图像处理设备,包括存储器和处理器,该存储器存储有计算机程序,处理器执行该计算机程序时实现以下步骤:
从源图像数据集中提取目标区域的掩膜;其中,源图像数据集是标注了目标区域的源图像的集合,目标区域为目标检测物所在的区域,源图像是预先采集的包含目标检测物的图像;
对目标区域的掩膜进行形态学运算,以得到增强后的目标区域的掩膜;
将增强后的目标区域的掩膜融合至源图像中,获得融合后的图像;融合后的图像用于训练电力设备的缺陷识别模型。
第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,其中,该计算机程序被处理器执行时实现以下步骤:
从源图像数据集中提取目标区域的掩膜;其中,源图像数据集是标注了目标区域的源图像的集合,目标区域为目标检测物所在的区域,源图像是预先采集的包含目标检测物的图像;
对目标区域的掩膜进行形态学运算,以得到增强后的目标区域的掩膜;
将增强后的目标区域的掩膜融合至源图像中,获得融合后的图像;融合后的图像用于训练电力设备的缺陷识别模型。
第五方面,本申请还提供了一种计算机程序产品,包括计算机程序,其中,该计算机程序被处理器执行时实现以下步骤:
从源图像数据集中提取目标区域的掩膜;其中,源图像数据集是标注了目标区域的源图像的集合,目标区域为目标检测物所在的区域,源图像是预先采集的包含目标检测物的图像;
对目标区域的掩膜进行形态学运算,以得到增强后的目标区域的掩膜;
将增强后的目标区域的掩膜融合至源图像中,获得融合后的图像;融合后的图像用于训练电力设备的缺陷识别模型。
上述图像处理方法、装置、设备、存储介质和计算机程序产品,从源图像数据集中提取目标区域的掩膜,可以将目标检测物所在的区域分离出来并减轻噪声或其他干扰因素对目标识别的影响,使模型更有可能学习到与缺陷相关的有效特征,提高缺陷识别的准确性;对掩膜进行形态学运算可以填充提取的掩膜中存在的空洞或毛刺,并连接分散的区域,从而提升掩膜的完整性和连通性,提升掩膜的质量,将增强后的掩膜融合至源图像中获得的图像既包含目标区域的特征也包含于目标区域相关的背景信息,通过以上方法能够得到包含形态各异的多种目标且目标分布在不同区域的图像,使电力缺陷识别模型的训练样本更加充足和多样化,有助于提高电力设备缺陷识别模型的准确性和鲁棒性,使训练出的模型能够更好地应用于实际场景中的缺陷检测。
附图说明
图1为一个实施例中图像处理方法的应用环境图;
图2为一个实施例中图像处理方法的流程示意图;
图3为另一个实施例中图像处理方法的流程示意图;
图4为一个实施例中图像处理装置的结构框图;
图5为一个实施例中图像处理装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的图像处理方法,可以应用于如图1所示的应用环境中。该应用环境可以包括终端102和服务器104,终端102通过网络与服务器104进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,终端102可以是图像采集终端。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。图1中示出的应用环境,仅仅是与本申请方案相关的部分场景,并不构成对本申请方案应用环境的限定。
本申请实施例提供的图像处理方法所获得的图像,可以作为目标识别模型的训练样本。目标识别模型通常需要经过大量的数据训练得到,若样本数目过少,会影响模型对目标识别的准确度。用于训练的图像数据集通常是预先采集的与目标相关的图像组成的集合。当需要识别的是人、动物或交通工具等常见对象时,图像数据集较易获取;而对于一些特殊的目标,例如电力系统中的缺陷,当难以通过直接采集的方式获得足够的样本图像时,需要对已有的样本图像进行处理,以实现样本扩增,获得充足的样本图像的目的。
在一个实施例中,提供了一种图像处理方法,该图像处理方法可以应用于图1中的应用环境,如图2所示,该方法包括以下步骤:
步骤202,从源图像数据集中提取目标区域的掩膜;其中,源图像数据集是标注了目标区域的源图像的集合,目标区域为目标检测物所在的区域,源图像是预先采集的包含目标检测物的图像。
其中,源图像是指包含目标检测物的图像,例如,可以是包含目标检测物的照片或视频截图等。目标检测物是指通过计算机视觉算法或深度学习模型来识别和定位的特定物体或目标。目标检测物可以是不同的物体,例如,对于电力系统而言,电线杆、绝缘子、导线等实体均可以作为目标检测物,对于电力系统的缺陷识别而言,该目标检测物可以是包含裂缝或倾斜的电线杆、污损或爆裂的绝缘子以及电力设备上的鸟巢等有可能带来安全隐患的异物。目标区域则是包含目标检测物的区域,可以用边界框来表示,在源图像中标注目标区域,可以是在源图像中标注出边界框或边界框的角坐标,例如,当边界框是矩形框时,可以标注其左上角的横纵坐标和右下角的横纵坐标,对目标区域进行标注,是为了在后续的步骤中能够准确地定位目标区域。掩膜是指用于对待处理图像的局部区域进行遮挡的特定图像,本实施例通过提取掩膜可以将包含目标检测物的区域单独提取出来,用于进行图像融合以获得更多包含目标检测物的图像。
示例性地,掩膜的提取可以使用基于深度学习的目标检测算法来实现,例如Faster R-CNN算法、YOLO算法和SSD算法等。在本申请实施例中,可以使用SegmentAnything Model(SAM)模型来进行掩膜的提取。
步骤204,对目标区域的掩膜进行形态学运算,以得到增强后的目标区域的掩膜。
其中,形态学运算是用于处理二值图像的数学操作,主要用于改变图像中特定区域的形状和大小。形态学运算包括腐蚀、膨胀、开运算、闭运算、击中变换和裂开变换等。通过形态学运算,能够起到对目标区域的掩膜进行增强作用。
示例性地,可以根据所提取的掩膜的质量来确定具体进行哪些形态学运算以及进行形态学运算的顺序,以实现对目标区域的掩膜的增强。当掩膜中存在较多噪点时,可以对掩膜进行开运算,即先进行腐蚀操作,再进行膨胀操作,这样可以去除掩膜中细小的噪点;又如,当掩膜的目标区域存在小孔或边界不平滑时,可以对掩膜进行闭运算,即先进行膨胀操作,再进行腐蚀操作,这样可以填充目标区域中的小孔,或使目标区域的边界变得平滑。
步骤206,将增强后的目标区域的掩膜融合至源图像中,获得融合后的图像;融合后的图像用于训练电力设备的缺陷识别模型。
其中,将增强后的目标区域的掩膜融合至源图像中是指对增强后的目标区域的掩膜和源图像进行图像融合。图像融合是指将两个或多个图像合并成一个图像的过程,图像融合可以将不同图像中的特征或信息进行有效地结合。
示例性地,将目标区域的掩膜融合至源图像中,可以通过调整融合的方法和位置,使融合后的图像更多样化,从而能够更好地满足训练需求。可以采用Alpha融合、多层融合、泊松融合以及透视变换融合等融合方法中的一种或多种,将掩膜以不同的形态或不同的透明度融合至源图像中,以使得融合后的图像更多样化,丰富用于训练模型的样本。
上述图像处理方法从源图像数据集中提取目标区域的掩膜,可以将目标检测物所在的区域分离出来并减轻噪声或其他干扰因素对目标识别的影响,使模型更有可能学习到与缺陷相关的有效特征,提高缺陷识别的准确性;对掩膜进行形态学运算可以填充提取的掩膜中存在的空洞或毛刺,并连接分散的区域,从而提升掩膜的完整性和连通性,提升掩膜的质量;将增强后的掩膜融合至源图像中获得的图像既包含目标区域的特征也包含与目标区域相关的背景信息,通过以上方法能够得到包含形态各异的多种目标且目标分布在不同区域的图像,使电力缺陷识别模型的训练样本更加充足和多样化,有助于提高电力设备缺陷识别模型的准确性和鲁棒性,使训练出的模型能够更好地应用于实际场景中的缺陷检测。
在其中一个实施例中,从源图像数据集中提取目标区域的掩膜包括:将源图像数据集输入预训练的掩膜提取模型,获得目标区域的多个预测掩膜和对应于多个预测掩膜的预测概率;基于预测概率在多个预测掩膜中确定目标区域的掩膜。
其中,源图像数据集包含多张图像,每张图像可以包含一个或多个目标区域。将源图像数据集输入预训练的掩膜提取模型,模型对这些图像进行分割,以获得包含目标区域的掩膜。
示例性地,可以将图像中的像素分成不同的类别,将目标区域分配为一类,其他区域则分配为另一类,并为每个目标区域生成一个或多个预测掩膜,以及为每个预测掩膜生成对应的预测概率,这些概率表示该预测掩膜中每个像素属于目标区域的可能性,其中预测概率可以视为置信度分数,表示模型对预测的准确性和信任程度。在获得多个预测掩膜和对应的预测概率之后,可以选取预测概率最高的预测掩膜,以获得最可靠的目标区域提取结果,还可以设置阈值来筛选掉置信度较低的掩膜,提高结果的准确性和稳定性。
在其中一个实施例中,该方法还包括:计算预测掩膜与源图像中的目标区域的重合度,在重合度低于预设的阈值的源图像中增加前景点和/或剔除背景点,获得更新后的源图像数据集;从更新后的源图像数据集中提取目标区域的掩膜。
其中,重合度的计算是指将预测掩膜与源图像中的目标区域的真实掩膜进行比较,并计算预测掩膜与真实掩膜之间的重叠程度。重合度反映了模型的准确性,根据重合度来调整数据,可以对模型的预测进行校正和改进,使其更接近真实情况。
示例性地,重合度可以使用IoU(Intersection over Union)或Dice系数等指标来衡量,指标越高表示预测与真实的目标区域匹配得越好。如果重合度低于预设的阈值时,说明模型预测的目标区域与真实目标区域匹配程度不佳,预测存在误差的可能性较大,在这种情况下,可以选择在这些样本中增加前景点或剔除背景点,以修正预测的偏差,使得更新后的数据更加准确和可靠,提高分割模型的性能和精度。有助于使获得的掩膜更加符合实际情况,从而提高模型在真实场景中的泛化能力。
以上实施方式,通过计算重合度并根据阈值进行数据增减,可以使用于图像融合的掩膜质量更高。
在其中一个实施例中,对目标区域的掩膜进行形态学运算,包括:使用边长为源图像短边的第一预设倍数的正方形结构元素,对目标区域的掩膜进行开运算;以及使用边长为源图像短边的第二预设倍数正方形结构元素,对目标区域的掩膜进行闭运算。
其中,形态学运算中开运算和闭运算均由腐蚀操作和膨胀操作组成。其中,开运算是指对目标先进行腐蚀,再进行膨胀,闭运算的过程与开运算相反,是指对目标先进行膨胀,再进行腐蚀。通过对目标区域的掩膜进行开运算和闭运算,可以起到去除噪声、平滑边缘、填补空洞等作用。
示例性地,开运算可以是首先将目标区域的掩膜与一个边长为源图像短边的第一预设倍数的正方形结构元素进行腐蚀,以去除目标区域边缘的一些细小的不连续部分,再对腐蚀后的结果进行膨胀,这将使目标区域恢复到一定程度,同时又可以保持边缘的平滑性。通过开运算有助于去除目标区域掩膜中的小噪声或孤立像素点,同时保持目标区域的整体形状和结构不变,提高后续图像分析和处理的准确性和稳定性。闭运算可以是先将目标区域的掩膜与一个边长为源图像短边的第二预设倍数正方形结构元素进行膨胀。膨胀操作可以填补目标区域中的一些小空洞或断裂部分;再对膨胀后的结果进行腐蚀,使得目标区域边缘保持平滑。通过以上操作有助于填补目标区域掩膜中的小空洞或断裂,使得目标区域的形状更加完整和连续,减少空洞对后续图像处理和分析造成的干扰。通过以上实施方式,能够得到更加准确和完整的目标区域掩膜,提高掩膜的质量,有助于在后续的融合过程中获得质量更好的图像。
在其中一个实施例中,在将图像增强后的目标区域的掩膜融合至源图像中之前,该方法还包括:对源图像和将图像增强后的目标区域的掩膜进行图像变换,其中,图像变换包括旋转、缩放或镜像中的至少一种。
其中,旋转是指对源图像和/或目标区域的掩膜进行旋转操作,即围绕图像中心或其他指定点旋转源图像和/或目标区域的掩膜;缩放是指源图像和/或目标区域的掩膜进行缩放操作,即调整源图像和/或目标区域的掩膜的尺寸大小;镜像是指图像和目标区域的掩膜进行翻转,例如水平镜像和垂直镜像分别是指对图像进行左右翻转和上下翻转。
示例性地,源图像和目标区域的掩膜可以按照相同的旋转角度、缩放比例或镜像方式进行变换,这样,将变换后的掩膜与掩膜对应的源图像融合,能够获得目标区域增强后的样本图像。源图像和目标区域的掩膜也可以按照不同的旋转角度、缩放比例或镜像方式进行变换,这样,将不同形态的掩膜和源图像融合,可以生成多样化的图像和掩膜,从而增加数据集的多样性,能够提升模型的准确性以及对不同角度、尺寸和姿态的图像的鲁棒性;更适应实际应用。
在其中一个实施例中,将增强后的目标区域的掩膜融合至源图像中,包括:将源图像和增强后的目标区域的掩膜进行泊松融合和/或阿尔法融合。
其中,泊松融合是通过应用泊松方程来确定融合区域的梯度,使融合区域的亮度变化更加平滑自然。阿尔法融合,即Alpha融合,是通过使用目标掩膜的Alpha通道(或其他的透明度信息)来控制融合图像中不同区域的透明度。
示例性地,将源图像和增强后的目标区域的掩膜进行泊松融合,能够更好地保持目标对象的细节和纹理,使得合成图像看起来更真实。将泊松融合和阿尔法融合在图像融合过程中结合使用,可以在目标对象与背景之间实现平滑过渡,确保边缘的自然性和连续性,同时又能够让目标对象具有可变的透明度,从而使合成图像更灵活和逼真。
示例性地,当应用本申请实施例中的图像处理方法来处理电力系统缺陷检测模型的样本图像时,可以以鸟巢、绝缘子串和绝缘子串的缺陷部位作为目标区域。其中,绝缘子串是指两个或多个绝缘子元件组合在一起,用于悬挂导线的组件。如图3所示的实施例中,图像处理方法可以包括以下步骤:
步骤302,收集含有缺陷的绝缘子串的图像和鸟巢的图像,并对目标区域进行标注。将标注后的图像作为源图像,建立电力设备缺陷图像数据集。为便于图像的批量处理,可以采用矩形框标注图像中的目标区域。
步骤304,将标注后的含有缺陷的绝缘子串的图像和鸟巢的图像输入SAM模型(Segment Anything Model,分割一切模型),以提取目标区域的掩膜。其中,提取掩膜可以通过调用模型中的SamPredictor类的predict()函数来实现。
在提取掩膜的过程中,可以输入提示点的坐标、提示点的标签、定位框的坐标等参数对模型进行调整,以获得更理想的掩膜。
步骤306,根据预测掩膜与源图像中的目标区域的重合度,获得更新后的源图像数据集。计算预测掩膜与源图像中的目标区域的重合度,在重合度低于预设的阈值的源图像中增加前景点和/或剔除背景点,使用增加了前景点和/或剔除了背景点的源图像替换初始的源图像数据集中的对应图像,获得更新后的源图像数据集。增加掩膜应该包含的前景点和剔除掩膜不该包含的背景点,可以使模型输出的掩膜能够更好地增加或剔除相关区域,直到得到满意的结果。
步骤308,对SAM模型所提取的掩膜进行形态学运算。首先进行一次开操作,使用一个边长为源图像短边的0.05的正方形结构元素,以去除掩膜周围的噪声。然后进行一次膨胀操作,使用一个长为源图像短边的0.02的正方形结构元素,以填补空洞并适当扩充掩膜的范围,使掩膜区域膨胀并与周围区域连接,进一步改善掩膜的连通性和形状。
步骤310,对源图像及掩膜进行图像变换,以获得更为多样的数据集。其中,图像变换可以包括镜像,±20%的随机缩放,以及旋转操作中的至少一种。源图像及其掩膜的镜像,缩放,旋转操作分别使用OpenCV中的flip(),resize(),rotate()函数完成。同时对标签中矩形框坐标作相应修改,例如,当矩形框的标注格式为[xc,yc,w,h]时,其中xc是物体中心的横坐标,yc是物体中心的纵坐标,w是物体的宽度,h是物体的高度,每一项都被归一化到0-1之间。经过不同的几何变化以后,新的矩形框坐标可以表达为如下形式:
水平镜像:[xc',yc',w',h']=[1-xc,1-yc,w,h];
随机缩放:[xc',yc',w',h']=[xc,yc,w·r,h·r];
其中,xc′、yc′、w′、h′分别表示变换后目标检测物的中心的横坐标、纵坐标以及目标检测物的宽度、高度,r表示缩放比例,θ表示旋转角度,W,H分别是源图像的宽和高。
步骤312,将掩膜和源图像进行图像融合。可以将掩膜以Alpha融合和泊松融合的方式融合到源图像的任意区域,为了不影响图片中原有的标注,可以通过控制融合的位置来避免掩膜对源图像中原本的目标检测物形成大面积的覆盖,例如,可以限制掩膜的融合位置的边界与原有目标检测物的标注边界之间的距离至少为5像素。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的图像处理方法的图像处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个图像处理装置实施例中的具体限定可以参见上文中对于图像处理方法的限定,在此不再赘述。
在一个实施例中,如图4所示,提供了一种图像处理装置,该装置包括:
掩膜提取模块402,用于从源图像数据集中提取目标区域的掩膜;其中,源图像数据集是标注了目标区域的源图像的集合,目标区域为目标检测物所在的区域,源图像是预先采集的包含目标检测物的图像;
形态学运算模块404,用于对目标区域的掩膜进行形态学运算,以得到增强后的目标区域的掩膜;
融合模块406,用于将增强后的目标区域的掩膜融合至源图像中,获得融合后的图像;融合后的图像用于训练电力设备的缺陷识别模型。
在其中一个实施例中,掩膜提取模块402还用于:将源图像数据集输入预训练的掩膜提取模型,获得目标区域的多个预测掩膜和对应于多个预测掩膜的预测概率;基于预测概率在多个预测掩膜中确定目标区域的掩膜。
在其中一个实施例中,掩膜提取模块402还用于:计算预测掩膜与源图像中的目标区域的重合度,在重合度低于预设的阈值的源图像中增加前景点和/或剔除背景点,获得更新后的源图像数据集;从更新后的源图像数据集中提取目标区域的掩膜。
在其中一个实施例中,形态学运算模块404还用于:使用边长为源图像短边的第一预设倍数的正方形结构元素,对目标区域的掩膜进行开运算;以及使用边长为源图像短边的第二预设倍数正方形结构元素,对目标区域的掩膜进行闭运算。
在其中一个实施例中,如图5所示,提供了一种图像处理装置500,该装置包括:
掩膜提取模块502,用于从源图像数据集中提取目标区域的掩膜;其中,源图像数据集是标注了目标区域的源图像的集合,目标区域为目标检测物所在的区域,源图像是预先采集的包含目标检测物的图像;
形态学运算模块504,用于对目标区域的掩膜进行形态学运算,以得到增强后的目标区域的掩膜;
图像变换模块506,用于对源图像和将图像增强后的目标区域的掩膜进行图像变换,其中,图像变换包括旋转、缩放或镜像中的至少一种;
融合模块508,用于将增强后的目标区域的掩膜融合至源图像中,获得融合后的图像;融合后的图像用于训练电力设备的缺陷识别模型。
在其中一个实施例中,融合模块508还用于:将源图像和增强后的目标区域的掩膜进行泊松融合和/或阿尔法融合。
上述图像处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种图像处理方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种图像处理设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。该图像处理设备可以是如图6中所示的计算机设备。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种图像处理方法,其特征在于,所述方法包括:
从源图像数据集中提取目标区域的掩膜;其中,所述源图像数据集是标注了目标区域的源图像的集合,所述目标区域为目标检测物所在的区域,所述源图像是预先采集的包含所述目标检测物的图像;
对所述目标区域的掩膜进行形态学运算,以得到增强后的所述目标区域的掩膜;
将增强后的所述目标区域的掩膜融合至源图像中,获得融合后的图像;所述融合后的图像用于训练电力设备的缺陷识别模型。
2.根据权利要求1所述的方法,其特征在于,所述从源图像数据集中提取目标区域的掩膜包括:
将源图像数据集输入预训练的掩膜提取模型,获得目标区域的多个预测掩膜和对应于所述多个预测掩膜的预测概率;
基于所述预测概率在所述多个预测掩膜中确定所述目标区域的掩膜。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
计算所述预测掩膜与所述源图像中的目标区域的重合度,在重合度低于预设的阈值的所述源图像中增加前景点和/或剔除背景点,获得更新后的源图像数据集;
从所述更新后的源图像数据集中提取所述目标区域的掩膜。
4.根据权利要求1所述的方法,其特征在于,所述对所述目标区域的掩膜进行形态学运算,包括:
使用边长为源图像短边的第一预设倍数的正方形结构元素,对所述目标区域的掩膜进行开运算;以及
使用边长为源图像短边的第二预设倍数正方形结构元素,对所述目标区域的掩膜进行闭运算。
5.根据权利要求1所述的方法,其特征在于,在将图像增强后的所述目标区域的掩膜融合至源图像中之前,所述方法还包括:
对所述源图像和所述将图像增强后的所述目标区域的掩膜进行图像变换,其中,所述图像变换包括旋转、缩放或镜像中的至少一种。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述将增强后的所述目标区域的掩膜融合至源图像中,包括:
将源图像和增强后的所述目标区域的掩膜进行泊松融合和/或阿尔法融合。
7.一种图像处理装置,其特征在于,所述装置包括:
掩膜提取模块,用于从源图像数据集中提取目标区域的掩膜;其中,所述源图像数据集是标注了目标区域的源图像的集合,所述目标区域为目标检测物所在的区域,所述源图像是预先采集的包含所述目标检测物的图像;
形态学运算模块,用于对所述目标区域的掩膜进行形态学运算,以得到增强后的所述目标区域的掩膜;
融合模块,用于将增强后的所述目标区域的掩膜融合至源图像中,获得融合后的图像;所述融合后的图像用于训练电力设备的缺陷识别模型。
8.一种图像处理设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202310967597.6A 2023-08-02 2023-08-02 图像处理方法、装置、设备、存储介质和计算机程序产品 Pending CN117011658A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310967597.6A CN117011658A (zh) 2023-08-02 2023-08-02 图像处理方法、装置、设备、存储介质和计算机程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310967597.6A CN117011658A (zh) 2023-08-02 2023-08-02 图像处理方法、装置、设备、存储介质和计算机程序产品

Publications (1)

Publication Number Publication Date
CN117011658A true CN117011658A (zh) 2023-11-07

Family

ID=88572217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310967597.6A Pending CN117011658A (zh) 2023-08-02 2023-08-02 图像处理方法、装置、设备、存储介质和计算机程序产品

Country Status (1)

Country Link
CN (1) CN117011658A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117236433A (zh) * 2023-11-14 2023-12-15 山东大学 辅助盲人生活的智能通信感知方法、系统、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117236433A (zh) * 2023-11-14 2023-12-15 山东大学 辅助盲人生活的智能通信感知方法、系统、设备及介质
CN117236433B (zh) * 2023-11-14 2024-02-02 山东大学 辅助盲人生活的智能通信感知方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN110176027B (zh) 视频目标跟踪方法、装置、设备及存储介质
CN108764048B (zh) 人脸关键点检测方法及装置
CN108960229B (zh) 一种面向多方向的文字检测方法和装置
CN110276264B (zh) 一种基于前景分割图的人群密度估计方法
WO2022078041A1 (zh) 遮挡检测模型的训练方法及人脸图像的美化处理方法
Yin et al. FD-SSD: An improved SSD object detection algorithm based on feature fusion and dilated convolution
US10726599B2 (en) Realistic augmentation of images and videos with graphics
CN113221743B (zh) 表格解析方法、装置、电子设备和存储介质
WO2023082784A1 (zh) 一种基于局部特征注意力的行人重识别方法和装置
CN110942456B (zh) 篡改图像检测方法、装置、设备及存储介质
CN110267101B (zh) 一种基于快速三维拼图的无人机航拍视频自动抽帧方法
CN111476710A (zh) 基于移动平台的视频换脸方法及系统
CN115797350A (zh) 桥梁病害检测方法、装置、计算机设备和存储介质
WO2023212997A1 (zh) 基于知识蒸馏的神经网络训练方法、设备及存储介质
CN117011658A (zh) 图像处理方法、装置、设备、存储介质和计算机程序产品
CN111768415A (zh) 一种无量化池化的图像实例分割方法
WO2022002262A1 (zh) 基于计算机视觉的字符序列识别方法、装置、设备和介质
CN111027538A (zh) 一种基于实例分割模型的集装箱检测方法
CN113850136A (zh) 基于yolov5与BCNN的车辆朝向识别方法及系统
CN114519819B (zh) 一种基于全局上下文感知的遥感图像目标检测方法
CN115984226A (zh) 绝缘子缺陷检测方法、设备、介质及程序产品
CN115719416A (zh) 刀闸状态识别方法、装置、计算机设备和存储介质
WO2021258955A1 (zh) 目标图像中的对象轮廓的标注方法及装置、存储介质和电子装置
CN113570615A (zh) 一种基于深度学习的图像处理方法、电子设备及存储介质
CN115953330B (zh) 虚拟场景图像的纹理优化方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination