CN113947529B - 图像增强方法、模型训练方法、构件识别方法及相关设备 - Google Patents
图像增强方法、模型训练方法、构件识别方法及相关设备 Download PDFInfo
- Publication number
- CN113947529B CN113947529B CN202111199995.5A CN202111199995A CN113947529B CN 113947529 B CN113947529 B CN 113947529B CN 202111199995 A CN202111199995 A CN 202111199995A CN 113947529 B CN113947529 B CN 113947529B
- Authority
- CN
- China
- Prior art keywords
- image
- initial
- component
- target
- transparent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 130
- 238000012549 training Methods 0.000 title claims abstract description 31
- 230000009466 transformation Effects 0.000 claims abstract description 47
- 238000012545 processing Methods 0.000 claims abstract description 7
- 238000004891 communication Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 238000000844 transformation Methods 0.000 description 3
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 235000003642 hunger Nutrition 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000037351 starvation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/60—Rotation of a whole image or part thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
Abstract
本申请涉及一种图像增强方法、模型训练方法、构件识别方法及相关设备,应用于数据处理技术领域,其中,方法包括:获取初始图像以及初始图像的图像类型标识,初始图像为CAD图纸图像;根据图像类型标识对初始图像进行图像变换,得到变换图像,变换图像的背景透明;将至少一个变换图像与预设的背景图像合并,得到增强图像,预设的背景图像包括包含几何图形的图像,和/或不包含几何图形的图像。以解决现有技术中,对于CAD图纸图像,其纹理特征较少,由点和线相互连接和相互重叠组成,采用深度学习方法增强数据图像数据质量比较难控,并且成本较高的问题。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种图像增强方法、模型训练方法、构件识别方法及相关设备。
背景技术
随着人工智能的发展,计算机视觉技术被广泛应用于图像处理、图像识别、视频语义理解等场景中。但是,机器学习前常常会遇到数据不足的情况。例如,在遇到的一个学习任务,目前只有小几百的数据,然而,神经网络都是依据成千上万的数据进行学习的,所需数据量较大,因此,需要根据现有的数据进行数据增强。
相关技术中,往往是对RGB图像(如人脸图像、指纹图像等)进行的增强,并采用深度学习方法,直接使用图像或者图像与矢量信息相结合增强数据,如GAN方法。
然而,对于CAD图纸图像,其纹理特征较少,由点和线相互连接和相互重叠组成,采用上述的深度学习方法增强数据图像数据质量比较难控,并且成本较高。
发明内容
本申请提供了一种图像增强方法、模型训练方法、构件识别方法及相关设备,用以解决现有技术中,对于CAD图纸图像,其纹理特征较少,由点和线相互连接和相互重叠组成,采用深度学习方法增强数据图像数据质量比较难控,并且成本较高的问题。
第一方面,本申请实施例提供了一种图像增强方法,包括:
获取初始图像以及所述初始图像的图像类型标识,所述初始图像为CAD图纸图像;
根据所述图像类型标识对所述初始图像进行图像变换,得到变换图像,所述变换图像的背景透明;
将至少一个所述变换图像与预设的背景图像合并,得到增强图像,所述预设的背景图像包括包含几何图形的图像,和/或不包含几何图形的图像。
可选的,所述初始图像中包括构件的标注信息和图形信息,所述根据所述图像类型标识对所述初始图像进行图像变换,得到变换图像,包括:
所述图像类型标识为标注图像标识时,确定每个所述标注信息对应的图形信息;
从所述初始图像中裁剪目标图形信息预设范围内的图像,得到裁剪图像,所述目标图形信息为目标标注信息对应的图形信息,所述目标标注信息为所述标注信息中的任意一个;
对所述裁剪图像进行二值化,得到二值化图像;
根据目标图像生成背景透明的构件图像,所述目标图像包括所述二值化图像;
确定所述背景透明的构件图像为所述变换图像。
可选的,所述目标图像还包括所述裁剪图像;所述根据目标图像生成背景透明的构件图像,包括:
创建第一透明图像;
获取所述目标图像中的所述二值化图像中,像素点的第一像素值大于第二预设值的第一坐标;
将所述第一透明图像中所述第一坐标所在的像素点赋值第二像素值,得到所述背景透明的构件图像;所述第二像素值为所述目标图像中的所述裁剪图像中所述第一坐标的像素点的像素值。
可选的,所述根据目标图像生成背景透明的构件图像,包括:
对所述目标图像中的所述二值化图像进行矢量化,得到矢量图像;
获取所述矢量图像中所述图形信息的第一坐标集合;
对所述矢量图像进行仿射变换,得到变换矩阵;
将所述第一坐标集合按照所述变换矩阵进行映射,得到第二坐标集合;
创建第二透明图像;
在所述第二透明图像中,按照所述第二坐标集合中的坐标点进行绘制,得到所述背景透明的构件图像。
可选的,所述根据所述图像类型标识对所述初始图像进行图像变换,得到变换图像,包括:
所述图像类型标识为标准构件图像标识时,对所述初始图像进行旋转和/或缩放,得到所述变换图像,所述标准构件图像标识指示图像中包括标准构件。
可选的,所述变换图像与所述预设的背景图像的并交比小于第二预设值。
可选的,所述对所述裁剪图像进行二值化之前,还包括:
过滤所述裁剪图像中的噪点。
第二方面,本申请实施例提供了一种模型训练方法,包括:
获取训练样本图像;
基于第一方面所述的图像增强方法,对所述训练样本图像进行数据增强,得到增强样本图像;
基于增强样本图像对初始模型进行训练,得到构件识别模型。
第三方面,本申请实施例提供了一种构件识别方法,包括:
获取待识别图像;
将所述待识别图像输入第二方面所述的构件识别模型,识别所述待识别图像中的构件信息;
将所述构件信息标注在所述待识别图像上。
第四方面,本申请实施例提供了一种图像增强装置,包括:
获取模块,用于获取初始图像以及所述初始图像的图像类型标识,所述初始图像为CAD图纸图像;
变换模块,用于根据所述图像类型标识对所述初始图像进行图像变换,得到变换图像,所述变换图像的背景透明;
合并模块,用于将至少一个所述变换图像与预设的背景图像合并,得到增强图像,所述预设的背景图像包括包含几何图形的图像,和/或不包含几何图形的图像。
第五方面,本申请实施例提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述存储器中所存储的程序,实现第一方面所述的图像增强方法或第二方面所述的模型训练方法或第三方面所述的构件识别方法。
第六方面,本申请实施例提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的图像增强方法或第二方面所述的模型训练方法或第三方面所述的构件识别方法。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供的该方法,通过获取初始图像以及初始图像的图像类型标识,初始图像为CAD图纸图像;根据图像类型标识对初始图像进行图像变换,得到变换图像,变换图像的背景透明;将至少一个变换图像与预设的背景图像合并,得到增强图像,预设的背景图像包括包含几何图形的图像,和/或不包含几何图形的图像。如此,无需对图像进行深度学习,通过将图像变换为透明背景的变换图像,并与预设的背景图像合并,即可实现对CAD图纸图像的数据增强,降低了数据增强的成本。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的图像增强方法的应用场景图;
图2为本申请一实施例提供的图像增强方法的流程图;
图3为本申请另一实施例提供的图像增强方法的流程图;
图4为本申请一实施例提供的模型训练方法的流程图;
图5为本申请一实施例提供的构件识别方法的流程图;
图6为本申请一实施例提供的图像增强装置的结构图;
图7为本申请一实施例提供的电子设备的结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
根据本申请一实施例提供了一种图像增强方法。可选地,在本申请实施例中,上述图像增强方法可以应用于如图1所示的由终端101和服务器102所构成的硬件环境中。如图1所示,服务器102通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供服务(如应用服务等),可在服务器上或独立于服务器设置数据库,用于为服务器102提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端101并不限定于PC、手机、平板电脑等。
本申请实施例的图像增强方法可以由服务器102来执行,也可以由终端101来执行,还可以是由服务器102和终端101共同执行。其中,终端101执行本申请实施例的图像增强方法,也可以是由安装在其上的客户端来执行。
以终端执行本申请实施例的图像增强方法为例,图2是根据本申请实施例的一种可选的图像增强方法的流程示意图,如图2所示,该方法的流程可以包括以下步骤:
步骤201、获取初始图像以及初始图像的图像类型标识,初始图像为CAD图纸图像。
一些实施例中,初始图像的种类有多种,例如,可以已经标注了构件的标注图像,或者也可以是预先绘制的标准构件图像。其中,初始图像的图像类型标识可以是在获取到初始图像后,对初始图像进行识别后得到的,也可以是,由工作人员,在查看到初始图像后,人为设置的。在得到初始图像的图像类型标识后,可以将初始图像与该初始图像的图像类型标识进行绑定,从而能够将二者同时获取到。
可以理解的是,在初始图像与该初始图像的图像类型标识未绑定时,二者也可以先后获取。其中,初始图像的图像类型标识中存储有初始图像的唯一的身份信息,从而能够在获取到初始图像后,依据该初始图像的身份信息查找到对应的初始图像的图像类型标识。
其中,初始图像为标准构件图像时,该初始图像可以是,相关人员在确定需要识别的构件画法后,使用点和线进行绘制后得到的标准构件图像。初始图像为标注图像时,该标注图像可以是任一工程图纸,或工程图纸中的部分图像。
具体的,绘制标准构件图像的过程可以是,相关人员通过opencv的点和线绘制函数,绘制具有透明背景的构件图像,通过设置图像阿尔法通道值生成透明背景的标准构件图像。
进一步的,为了让模型在训练过程中学习到标准构件的形状信息,对模型学习的非标准构件信息作进一步补充,提高模型的识别泛化能力。
步骤202、根据图像类型标识对初始图像进行图像变换,得到变换图像,变换图像的背景透明。
一些实施例中,在获取到初始图像和其图像类型标识后,便可以根据不同的图像类型标识,确定初始图像的变换策略,对初始图像进行变换,得到背景透明的变换图像。
其中,在图像类型标识不同时,对初始图像的变换过程也不同,具体的,通过以下内容进行具体说明。
在一个可选实施例中,图像类型标识为标注图像标识时,根据图像类型标识对初始图像进行图像变换,得到变换图像,包括:
确定每个标注信息对应的图形信息;从初始图像中裁剪目标图形信息预设范围内的图像,得到裁剪图像目标图形信息为目标标注信息对应的图形信息,目标标注信息为标注信息中的任意一个;对裁剪图像进行二值化,得到二值化图像;根据目标图像生成背景透明的构件图像,目标图像包括二值化图像;确定背景透明的构件图像为变换图像。
一些实施例中,初始图像中包括构件的标注信息和图形信息,在初始图像的图像类型标识为标注图像标识时,为了提高模型对真实场景构件的识别能力,本申请对已经的标注的构件的数据进行增强。
由于标注图像中包括多种构件的标注信息和图形信息,因此,先确定每个标注信息对应的图形信息,然后从初始图像中将目标图形信息预设范围内的图像裁剪出来,得到裁剪图像。
其中,在实际图纸绘制时,绘制的构件往往不够标准,因此,可以将预设范围设置为目标图形信息所在的范围,裁剪到包含构件形状信息的裁剪图像。或者,在不同的图纸中,构件相同其表示的含义不同,因此,在裁剪时,可以在目标图形信息所在位置少打裁剪较大的裁剪图像,使裁剪图像不仅包括目标图形信息还包括其上下文信息,使得裁剪图像包含了这类构件与周围哪种信息有关,进而解决了相同画法的不同类别构件难识别问题。
其中,裁剪较大的裁剪图像时,可以对标注的目标图形信息所在位置,原始宽高基础上分别以图像中心点为原点向外扩展宽高的1.5倍,对形状不是方正的构件,在短边方向上可以适当扩展比较的多的像素,但是保证扩展的像素数不能超过长边扩展的像素数。
进一步的,在得到裁剪图像后,对裁剪图像进行二值化,得到的二值化图像便会将前景和背景区分开来,为降低干扰,可以将裁剪图像中像素值大于5的像素点,标记为前景像素点,从而过滤掉图像中一些噪点信息。
进一步的,在得到二值化图像后,便可以将其转换为背景透明的图像,以得到变换图像。
其中,根据目标图像生成背景透明的构件图像的方式有多种,以以下两种方式,进行具体说明。
第一种,创建第一透明图像;获取二值化图像中像素点的第一像素值大于第二预设值的第一坐标;将第一透明图像中第一坐标所在的像素点赋值第二像素值,得到背景透明的构件图像;第二像素值为目标图像中的裁剪图像中第一坐标的像素点的像素值。
一些实施例中,第一透明图像的大小可以与二值化图像的大小相同。在第一透明图像创建完成后,通过统计二值化图像中像素值大于第二预设值(例如,第二预设值为0)的像素点的第一坐标,并将裁剪图像中第一坐标的第二像素值赋予第一透明图像,保证得到的背景透明的构件图像与初始图像颜色一样。
第二种,对二值化图像进行矢量化,得到矢量图像;获取矢量图像中图形信息的第一坐标集合;对矢量图像进行仿射变换,得到变换矩阵;将第一坐标集合按照变换矩阵进行映射,得到第二坐标集合;创建第二透明图像;在第二透明图像中,按照第二坐标集合中的坐标点进行绘制,得到背景透明的构件图像。
一些实施例中,在得到二值化图像后,将其矢量化得到的矢量图像,易于进行编辑,对矢量图像进行编辑的时候,如进行旋转、拉伸、平移等操作时,仅需要修改相应几何图元的参数信息;用矢量表示的对象易于放大或者压缩,而且不会降低其在计算机中的显示质量,矢量图像的放缩能够保持边角的尖锐等特性,不会出现模糊影响显示质量。
进一步的,可以通过opencv轮廓提取函数,得到矢量图像的前景的每个点像素坐标,进而得到整个轮廓的第一坐标集合,该第一坐标集合描述了整个二值图前景轮廓的整体形状。
进一步的,可以使用opencv仿射变换函数对矢量图像进行旋转,缩放变换,得到变换矩阵;使用该变换矩阵将得到的第一坐标集合中的每个坐标映射到新的坐标位置,得到新的坐标集合(即第二坐标集合),该第二坐标集合描述了变换后的二值图像形状。
通过创建第二透明图像,以第二坐标集合中的每个坐标点为中心,1个到2个像素距离为半径在该第二透明图像上绘制实心圆,进而得到整个变换后的背景透明的构件图像,保证了变换后图像不会出现线条断裂或马赛克现象。
在一个可选实施例中,图像类型标识为标准构件图像标识时,根据图像类型标识对初始图像进行图像变换,得到变换图像,包括:
对初始图像进行旋转和/或缩放,得到变换图像,标准构件图像标识指示图像中包括标准构件。
一些实施例中,在初始图像为标准构件图像时,由于标准构件图像中没有干扰线条,只包括绘制标准构件所需的线条,因此,可以将该初始图像进行旋转和/或缩放。在绘制标准构件图像时,可以采用透明背景的图像进行绘制,因此得到的变换图像即为背景透明的变换图像。
步骤203、将至少一个变换图像与预设的背景图像合并,得到增强图像,预设的背景图像包括包含几何图形的图像,和/或不包含几何图形的图像。
一些实施例中,通过将至少一个变换图像与预设的背景图像合并,由于预设的背景图像有多种,便能够实现从一到多,从而完成图像的增强。
另外,通过设置不包含几何图形的图像作为背景图像,能够使模型学习到最理想情况下的构件形状信息。
在合并图像的过程中,需要避免贴图的位置与预设的背景图像中已有的构件不能重叠区域过大。本申请中,设置变换图像与预设的背景图像的并交比(IOU)小于第二预设值(例如,可以为0.5),这样既能尽可能保证构件的主要形状信息,同时当两个构件有部分重叠时候,增加了样本的多样性,更能提高模型的泛化能力。
在一个具体实施例中,参见图3,在初始图像为绘制的标准构件图像时,采用A方法,进行图像增强;在初始图像为已经标注的标注构件图像时,采用BCD方法,进行图像增强。
具体可以按照以下四种方法对图像进行图像增强。
方法A:
绘制标准构件增强数据。从CAD图纸中标注的构件数据基本不是标准的构件形状,为了让模型在训练过程中学习到标准构件的形状信息,对模型学习的非标准构件信息作进一步补充,提高模型的识别泛化能力。具体方法如下,确定需要识别的构件画法后,使用点和线绘制标准构件图像,本发明使用opencv的点和线绘制函数绘制具有透明背景的png构件图像,通过设置图像阿尔法通道值生成透明背景图,;对绘制的图像进行各种变换或者不进行变换,变换过程为了避免变换的图像边缘出现锯齿或者断裂现象,绘制图像的边缘像素宽度尽可能大同时绘制的图像分辨率较大;然后将变换的图像贴到背景图像上,此处背景图像分两种,一种是没有任何几何图形像素的纯背景图像,为了使模型学习到最理想情况下的构件形状信息,一种是包含几何图形像素的背景图像。同时本发明贴图的过程中需要避免贴图的位置与原来背景图像中已有的构件不能重叠区域过大,本发明设置两者IOU<0.5,这样既能尽可能保证构件的主要形状信息,同时当两个构件有部分重叠时候,增加了样本的多样性,更能提高模型的泛化能力。
方法B:
方法A主要是增加标准构件以及包含少量噪声标准构件数据。为了进一步提高模型对真实场景构件的识别能力,本发明对已经的标注的构件的数据进行增强。具体方法如下,从标注图像中裁切标注的构件小图像,为了保留真实场景的构件形状信息,对小图不做任何处理,包括各种图像变换,直接转换小图为透明背景的PNG图像并贴图到背景图像,贴图过程与方法A贴图过程相同。原图中像素值大于5的标记为前景,这样设置主要是为了过滤掉图像中一些噪点信息;创建一幅与原图一样大小的RGBA四通道透明背景图像;统计二值化图像中像素值大于0的像素位置坐标,并将原图中这些坐标的像素值赋予透明背景图像,保证得到的几何图形颜色与原始几何图像颜色一样,此时就得到了具有透明背景的构件图像。
方法C:
方法A和方B主要增强的数据仅仅包含了构件自身的形状信息,为了提高模型对具有相同画法的不同类别构件识别率,同时提高模型整体的识别泛化能力,需要增加包含有上下文信息的构件图像数据,即以原来标注构件为基础裁切比较大的构件图像,这样得到的图像数据包含了这类难识别构件与周围哪种信息有关,进而解决了相同画法的不同类别构件难识别问题。具体方法如下,对标注的原始构件图像在原图像宽高基础上分别以图像中心点为原点向外扩展宽高的1.5倍,对形状不是方正的构件在短边方向上可以适当扩展比较的多的像素,但是保证扩展的像素数不能超过长边扩展的像素数。这样带有上下文信息的大图送入模型CNN层后得到的特征层会带有上下文的信息,更有利于提高相同画法不同类别的构件识别率。之后将大裁切的大图转换为透明背景的png图像并不进行任何变化贴到背景图像上,该步骤与方法B中的转换和贴图相同。
方法D:
方法C虽然包含了识别构件的上下文信息,然而没有考虑到相同构件在不同场景下的形状,因此方法D在方法C的基础上增加了对包含上下文信息构件图像的变换操作。具体方法如下,对从原标注图像截取包含上下文信息的构件图像,转换成二值图像,该步骤与方法B中转换二值图方法相同;由于在裁切图像上进行各种传统图像增强变换,例如旋转,缩放等操作会导致图像CAD线条图线段出现断裂或者马赛克现象,不利于模型训练和识别,所以本发明在得到的二值图基础上,对二值图像形状进行矢量化,通过opencv轮廓提取函数可以得到二值图的前景的每个点像素坐标,进而得到整个轮廓的坐标集合,该坐标集合描述了整个二值图前景轮廓的整体形状;使用opencv仿射变换函数对二值图像进行旋转,缩放变换,得到变换矩阵;使用该变换矩阵将得到的像素坐标集合中的每个坐标映射到新的坐标位置,得到新的坐标集合,该坐标集合描述了变换后的二值图像形状;生成一幅背景透明的PNG图像,以新坐标集合中的每个坐标点为中心,1个到2个像素距离为半径在该图像上绘制实心圆,进而得到整个变换后的图像,保证了变换后图像不会出现线条断裂或马赛克现象;使用与A中相同贴图方法将生成的图像贴到背景上,得到增强的图像数据。
针对CAD线条形特点的图纸图像识别任务,本发明依次通过ABCD四种不同数据增强方法依次增加了训练数据的数量和质量。
方法A生成了最标准的构件形状图像,保证模型可以学习到最标准的构件图像形状信息;方法B生成了真实应用场景的数据,同时通过IOU操作对一部分数据增加了噪声,增加了模型的鲁棒性;为了提高模型对不同类别但画法相同的构件识别率,方法C增强的数据考虑了图像上下文信息,在方法A和B的基础上更加丰富了数据的类型;虽然方法C考虑图像上下文信息,但是增强的数据类型有限,因此方法D在方法C基础上根据矢量坐标对图像进行旋转和缩放变换,进一步增加了数据的质量和数量。
通过方法ABCD从粗到细依次增加了训练数据的数量和质量,使用yolov5训练的模型识别率明显提高,同时降低了人工标注数据的成本。
基于同一构思,本申请实施例中提供了一种模型训练方法,该方法的具体实施可参见图像增强方法实施例部分的描述,重复之处不再赘述,如图4所示,该方法主要包括:
步骤401、获取训练样本图像;
步骤402、基于上述的图像增强方法,对训练样本图像进行数据增强,得到增强样本图像;
步骤403、基于增强样本图像对初始模型进行训练,得到构件识别模型。
其中,初始模型可以但不限于为yolov5模型。
基于同一构思,本申请实施例中提供了一种构件识别方法,该方法的具体实施可参见图像增强方法和模型训练方法实施例部分的描述,重复之处不再赘述,如图5所示,该方法主要包括:
步骤501、获取待识别图像;
步骤502、将待识别图像输入上述的构件识别模型,识别待识别图像中的构件信息;
步骤503、将构件信息标注在待识别图像上。
通过训练的构件识别模型,识别图像中的构件,并将构件信息标注在相应的构件上,降低了人工标注数据的成本。
基于同一构思,本申请实施例中提供了一种图像增强装置,该装置的具体实施可参见方法实施例部分的描述,重复之处不再赘述,如图6所示,该装置主要包括:
获取模块601,用于获取初始图像以及初始图像的图像类型标识,初始图像为CAD图纸图像;
变换模块602,用于根据图像类型标识对初始图像进行图像变换,得到变换图像,变换图像的背景透明;
合并模块603,用于将至少一个变换图像与预设的背景图像合并,得到增强图像,预设的背景图像包括包含几何图形的图像,和/或不包含几何图形的图像。
基于同一构思,本申请实施例中还提供了一种电子设备,如图7所示,该电子设备主要包括:处理器701、存储器702和通信总线703,其中,处理器701和存储器702通过通信总线703完成相互间的通信。其中,存储器702中存储有可被至处理器701执行的程序,处理器701执行存储器702中存储的程序,实现如下步骤:
获取初始图像以及初始图像的图像类型标识,初始图像为CAD图纸图像;
根据图像类型标识对初始图像进行图像变换,得到变换图像,变换图像的背景透明;
将至少一个变换图像与预设的背景图像合并,得到增强图像,预设的背景图像包括包含几何图形的图像,和/或不包含几何图形的图像。或,
获取训练样本图像;
基于上述的图像增强方法,对训练样本图像进行数据增强,得到增强样本图像;
基于增强样本图像对初始模型进行训练,得到构件识别模型。或,获取待识别图像;
将待识别图像输入上述的构件识别模型,识别待识别图像中的构件信息;
将构件信息标注在待识别图像上。
上述电子设备中提到的通信总线703可以时外设部件互连标准(PeripheralComponent Interconnect,简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture,简称EISA)总线等。该通信总线703可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器702可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器701的存储装置。
上述的处理器701可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等,还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当该计算机程序在计算机上运行时,使得计算机执行上述实施例中所描述的图像增强方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机指令时,全部或部分地产生按照本申请实施例所述的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、微波等)方式向另外一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如软盘、硬盘、磁带等)、光介质(例如DVD)或者半导体介质(例如固态硬盘)等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种图像增强方法,其特征在于,包括:
获取初始图像以及所述初始图像的图像类型标识,所述初始图像为CAD图纸图像;
根据所述图像类型标识对所述初始图像进行图像变换,得到变换图像,所述变换图像的背景透明;
将至少一个所述变换图像与预设的背景图像合并,得到增强图像;
其中,所述初始图像中包括构件的标注信息和图形信息,所述根据所述图像类型标识对所述初始图像进行图像变换,得到变换图像,包括:
所述图像类型标识为标注图像标识时,确定每个所述标注信息对应的图形信息;
从所述初始图像中裁剪目标图形信息预设范围内的图像,得到裁剪图像,所述目标图形信息为目标标注信息对应的图形信息,所述目标标注信息为所述标注信息中的任意一个;
对所述裁剪图像进行二值化,得到二值化图像;
根据目标图像生成背景透明的构件图像,所述目标图像包括所述二值化图像;
确定所述背景透明的构件图像为所述变换图像;
其中,所述目标图像还包括所述裁剪图像;所述根据目标图像生成背景透明的构件图像,包括:
创建第一透明图像;
获取所述目标图像中的所述二值化图像中,像素点的第一像素值大于第二预设值的第一坐标;
将所述第一透明图像中所述第一坐标所在的像素点赋值第二像素值,得到所述背景透明的构件图像;所述第二像素值为所述目标图像中的所述裁剪图像中所述第一坐标的像素点的像素值。
2.根据权利要求1所述的图像增强方法,其特征在于,所述根据目标图像生成背景透明的构件图像,包括:
对所述目标图像中的所述二值化图像进行矢量化,得到矢量图像;
获取所述矢量图像中所述图形信息的第一坐标集合;
对所述矢量图像进行仿射变换,得到变换矩阵;
将所述第一坐标集合按照所述变换矩阵进行映射,得到第二坐标集合;
创建第二透明图像;
在所述第二透明图像中,按照所述第二坐标集合中的坐标点进行绘制,得到所述背景透明的构件图像。
3.根据权利要求1所述的图像增强方法,其特征在于,所述根据所述图像类型标识对所述初始图像进行图像变换,得到变换图像,包括:
所述图像类型标识为标准构件图像标识时,对所述初始图像进行旋转和/或缩放,得到所述变换图像,所述标准构件图像标识指示图像中包括标准构件。
4.一种模型训练方法,其特征在于,包括:
获取训练样本图像;
基于权利要求1-3任一项所述的图像增强方法,对所述训练样本图像进行数据增强,得到增强样本图像;
基于增强样本图像对初始模型进行训练,得到构件识别模型。
5.一种构件识别方法,其特征在于,包括:
获取待识别图像;
将所述待识别图像输入权利要求4所述的构件识别模型,识别所述待识别图像中的构件信息;
将所述构件信息标注在所述待识别图像上。
6.一种图像增强装置,其特征在于,包括:
获取模块,用于获取初始图像以及所述初始图像的图像类型标识,所述初始图像为CAD图纸图像;
变换模块,用于根据所述图像类型标识对所述初始图像进行图像变换,得到变换图像,所述变换图像的背景透明;
合并模块,用于将至少一个所述变换图像与预设的背景图像合并,得到增强图像;
其中,所述初始图像中包括构件的标注信息和图形信息,所述根据所述图像类型标识对所述初始图像进行图像变换,得到变换图像,包括:
所述图像类型标识为标注图像标识时,确定每个所述标注信息对应的图形信息;
从所述初始图像中裁剪目标图形信息预设范围内的图像,得到裁剪图像,所述目标图形信息为目标标注信息对应的图形信息,所述目标标注信息为所述标注信息中的任意一个;
对所述裁剪图像进行二值化,得到二值化图像;
根据目标图像生成背景透明的构件图像,所述目标图像包括所述二值化图像;
确定所述背景透明的构件图像为所述变换图像;
其中,所述目标图像还包括所述裁剪图像;所述根据目标图像生成背景透明的构件图像,包括:
创建第一透明图像;
获取所述目标图像中的所述二值化图像中,像素点的第一像素值大于第二预设值的第一坐标;
将所述第一透明图像中所述第一坐标所在的像素点赋值第二像素值,得到所述背景透明的构件图像;所述第二像素值为所述目标图像中的所述裁剪图像中所述第一坐标的像素点的像素值。
7.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述存储器中所存储的程序,实现权利要求1-3任一项所述的图像增强方法或权利要求4所述的模型训练方法或权利要求5所述的构件识别方法。
8.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-3任一项所述的图像增强方法或权利要求4所述的模型训练方法或权利要求5所述的构件识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111199995.5A CN113947529B (zh) | 2021-10-14 | 2021-10-14 | 图像增强方法、模型训练方法、构件识别方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111199995.5A CN113947529B (zh) | 2021-10-14 | 2021-10-14 | 图像增强方法、模型训练方法、构件识别方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113947529A CN113947529A (zh) | 2022-01-18 |
CN113947529B true CN113947529B (zh) | 2023-01-10 |
Family
ID=79330581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111199995.5A Active CN113947529B (zh) | 2021-10-14 | 2021-10-14 | 图像增强方法、模型训练方法、构件识别方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113947529B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114596353A (zh) * | 2022-03-04 | 2022-06-07 | 腾讯科技(深圳)有限公司 | 一种题目处理方法、装置、设备及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102789523A (zh) * | 2012-07-02 | 2012-11-21 | 东莞职业技术学院 | 基于图像处理的鞋样设计方法 |
CN111512344A (zh) * | 2017-08-08 | 2020-08-07 | 西门子股份公司 | 使用增强用生成式对抗神经网络从cad数据生成合成深度图像 |
CN111815602A (zh) * | 2020-07-06 | 2020-10-23 | 清华大学 | 基于深度学习和形态学的建筑pdf图纸墙体识别装置和方法 |
CN113052067A (zh) * | 2021-03-24 | 2021-06-29 | Oppo广东移动通信有限公司 | 实时翻译方法、装置、存储介质及终端设备 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104966318B (zh) * | 2015-06-18 | 2017-09-22 | 清华大学 | 具有图像叠加和图像特效功能的增强现实方法 |
CN106373086A (zh) * | 2016-09-29 | 2017-02-01 | 福州大学 | 一种基于增强现实的戒指2d在线实时试戴方法及系统 |
CN110070552B (zh) * | 2019-05-07 | 2021-09-07 | 西南石油大学 | 一种基于语义分割的岩石图像孔隙类型识别方法 |
CN110322468A (zh) * | 2019-06-04 | 2019-10-11 | 广东工业大学 | 一种图像自动编辑方法 |
CN112700513A (zh) * | 2019-10-22 | 2021-04-23 | 阿里巴巴集团控股有限公司 | 图像处理方法及装置 |
CN110956681B (zh) * | 2019-11-08 | 2023-06-30 | 浙江工业大学 | 一种结合卷积网络和邻域相似性的人像背景自动替换方法 |
CN111899202B (zh) * | 2020-05-19 | 2024-03-15 | 武汉东智科技股份有限公司 | 一种视频图像中叠加时间字符的增强方法 |
-
2021
- 2021-10-14 CN CN202111199995.5A patent/CN113947529B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102789523A (zh) * | 2012-07-02 | 2012-11-21 | 东莞职业技术学院 | 基于图像处理的鞋样设计方法 |
CN111512344A (zh) * | 2017-08-08 | 2020-08-07 | 西门子股份公司 | 使用增强用生成式对抗神经网络从cad数据生成合成深度图像 |
CN111815602A (zh) * | 2020-07-06 | 2020-10-23 | 清华大学 | 基于深度学习和形态学的建筑pdf图纸墙体识别装置和方法 |
CN113052067A (zh) * | 2021-03-24 | 2021-06-29 | Oppo广东移动通信有限公司 | 实时翻译方法、装置、存储介质及终端设备 |
Non-Patent Citations (2)
Title |
---|
基于目标轮廓增强的GrabCut图像分割方法;杨国萍等;《软件》;20200215(第02期);全文 * |
基于肺部CT图像的计算机辅助诊断系统构建;王洪洋等;《中国医学装备》;20181024(第10期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113947529A (zh) | 2022-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8000529B2 (en) | System and method for creating an editable template from a document image | |
WO2021143059A1 (zh) | 地图区域的确定方法、装置、设备及存储介质 | |
US11625871B2 (en) | System and method for capturing and interpreting images into triple diagrams | |
CN111290684B (zh) | 图像显示方法、图像显示装置及终端设备 | |
CN111191582A (zh) | 三维目标检测方法、检测装置、终端设备及计算机可读存储介质 | |
CN111899270A (zh) | 卡片边框检测方法、装置、设备及可读存储介质 | |
CN111667556A (zh) | 表格矫正方法及装置 | |
CN112819720A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN113947529B (zh) | 图像增强方法、模型训练方法、构件识别方法及相关设备 | |
CN112651953A (zh) | 图片相似度计算方法、装置、计算机设备及存储介质 | |
CN113592720B (zh) | 图像的缩放处理方法、装置、设备、存储介质 | |
CN111767889A (zh) | 公式识别方法、电子设备及计算机可读介质 | |
CN113205024B (zh) | 工程图纸的预处理方法、装置、电子设备和存储介质 | |
CN114444565A (zh) | 一种图像篡改检测方法、终端设备及存储介质 | |
CN113628181A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN113506305A (zh) | 三维点云数据的图像增强方法、语义分割方法及装置 | |
CN114519788A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN115661851A (zh) | 获取样本数据及构件识别方法及电子设备 | |
CN111967460B (zh) | 文本检测方法、装置、电子设备及计算机存储介质 | |
CN111401365B (zh) | Ocr图像自动生成方法及装置 | |
CN114140805A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN112036342A (zh) | 单证抓拍方法、设备及计算机存储介质 | |
CN111191580A (zh) | 合成渲染方法、装置、电子设备及介质 | |
CN113033562A (zh) | 一种图像处理方法、装置、设备及存储介质 | |
CN112825141B (zh) | 识别文本的方法、装置、识别设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |