CN115601616A - 一种样本数据生成方法、装置、电子设备和存储介质 - Google Patents
一种样本数据生成方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN115601616A CN115601616A CN202211339645.9A CN202211339645A CN115601616A CN 115601616 A CN115601616 A CN 115601616A CN 202211339645 A CN202211339645 A CN 202211339645A CN 115601616 A CN115601616 A CN 115601616A
- Authority
- CN
- China
- Prior art keywords
- image
- sample image
- sample
- target object
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000003860 storage Methods 0.000 title claims abstract description 18
- 238000005520 cutting process Methods 0.000 claims abstract description 32
- 230000009466 transformation Effects 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims description 143
- 230000008569 process Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 16
- 230000008859 change Effects 0.000 claims description 14
- 230000000007 visual effect Effects 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 3
- 238000002372 labelling Methods 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 16
- 238000012549 training Methods 0.000 description 15
- 238000001514 detection method Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 239000002131 composite material Substances 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 4
- 230000001629 suppression Effects 0.000 description 4
- 238000009966 trimming Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000007797 corrosion Effects 0.000 description 3
- 238000005260 corrosion Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- GYOZYWVXFNDGLU-XLPZGREQSA-N dTMP Chemical compound O=C1NC(=O)C(C)=CN1[C@@H]1O[C@H](COP(O)(O)=O)[C@@H](O)C1 GYOZYWVXFNDGLU-XLPZGREQSA-N 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003628 erosive effect Effects 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Abstract
本发明公开了一种样本数据生成方法、装置、电子设备和存储介质。该方法包括:获取多个目标物体和对应的三维物体模型;根据模型确定每个目标物体对应的样本图像集;对每个样本图像集中的每个样本图像进行目标物体的轮廓提取,并基于提取出的轮廓信息,确定每个样本图像对应的标签框信息;从各个样本图像集中循环地选取至少两个样本图像集,并从中选取第一样本图像;对每个第一样本图像进行目标物体姿态变换和标签框信息更新,获得第二样本图像和第二标签框信息;对各个第二样本图像中的目标物体进行裁剪混叠,生成第三样本图像,并将各个第二标签框信息进行合并,获得第三标签框信息,从而实现对少量样本数据进行数据增强和自动标注。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种样本数据生成方法、装置、电子设备和存储介质。
背景技术
随着计算机技术的发展,深度学习(Deep Learning)得以快速发展,使其越来越接近机器学习的最终目标,即人工智能。目标检测方向是人工智能的主要研究方向之一。
目前,想要获得输出准确的目标检测网络模型,需要大量已标注的训练数据集作为训练基础;在训练数据集中训练数据不充足的情况下进行目标检测网络模型的训练,容易使获得的目标检测网络出现过拟合现象。
然而,用于训练目标检测网络模型所需的样本图像都是人工选取和标注的。人工选取的样本图像数量少,并且人工标注费时费力。
发明内容
本发明提供了一种样本数据生成方法、装置、电子设备和存储介质,以实现少量样本数据的自动生成,并对少量样本数据进行数据增强和自动标注,保证了有充足的样本图像用于训练目标检测网络模型。
根据本发明的一方面,提供了一种样本数据生成方法,该方法包括:
获取待识别的多个目标物体以及每个所述目标物体对应的三维物体模型;
根据所述三维物体模型,确定每个所述目标物体对应的样本图像集,所述样本图像集包括不同观测视角下的样本图像;
对每个所述样本图像集中的每个样本图像进行目标物体的轮廓提取,并基于提取出的目标物体轮廓信息,确定每个所述样本图像对应的标签框信息;
从各个所述样本图像集中循环地选取用于样本增强的至少两个所述样本图像集,并从当次选取的每个所述样本图像集中选取一个样本图像作为第一样本图像;
对当次选取的每个所述第一样本图像进行目标物体姿态变换处理和标签框信息更新处理,获得处理后的第二样本图像和所述第二样本图像对应的第二标签框信息;
对各个所述第二样本图像中的目标物体进行裁剪混叠,生成当次样本增强后的第三样本图像,并将各个所述第二样本图像对应的第二标签框信息进行合并,获得所述第三样本图像对应的第三标签框信息。
根据本发明的另一方面,提供了一种样本数据生成装置,该装置包括:
模型获取模块,用于获取待识别的多个目标物体以及每个所述目标物体对应的三维物体模型;
样本图像集确定模块,用于根据所述三维物体模型,确定每个所述目标物体对应的样本图像集,所述样本图像集包括不同观测视角下的样本图像;
轮廓提取模块,用于对每个所述样本图像集中的每个样本图像进行目标物体的轮廓提取,并基于提取出的目标物体轮廓信息,确定每个所述样本图像对应的标签框信息;
图像选取模块,用于从各个所述样本图像集中循环地选取用于样本增强的至少两个所述样本图像集,并从当次选取的每个所述样本图像集中选取一个样本图像作为第一样本图像;
图像处理模块,用于对当次选取的每个所述第一样本图像进行目标物体姿态变换处理和标签框信息更新处理,获得处理后的第二样本图像和所述第二样本图像对应的第二标签框信息;
图像裁剪混叠模块,用于对各个所述第二样本图像中的目标物体进行裁剪混叠,生成当次样本增强后的第三样本图像,并将各个所述第二样本图像对应的第二标签框信息进行合并,获得所述第三样本图像对应的第三标签框信息。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的样本数据生成方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的样本数据生成方法。
本发明实施例的技术方案,通过获取待识别的多个目标物体以及每个所述目标物体对应的三维物体模型;根据所述三维物体模型,确定每个所述目标物体对应的样本图像集,所述样本图像集包括不同观测视角下的样本图像;对每个所述样本图像集中的每个样本图像进行目标物体的轮廓提取,并基于提取出的目标物体轮廓信息,确定每个所述样本图像对应的标签框信息,从而实现少量样本数据的自动生成;从各个所述样本图像集中循环地选取用于样本增强的至少两个所述样本图像集,并从当次选取的每个所述样本图像集中选取一个样本图像作为第一样本图像;对当次选取的每个所述第一样本图像进行目标物体姿态变换处理和标签框信息更新处理,获得处理后的第二样本图像和所述第二样本图像对应的第二标签框信息;对各个所述第二样本图像中的目标物体进行裁剪混叠,生成当次样本增强后的第三样本图像,并将各个所述第二样本图像对应的第二标签框信息进行合并,获得所述第三样本图像对应的第三标签框信息,从而可以实现对少量样本数据进行数据增强和自动标注,保证了有充足的样本图像用于训练目标检测网络模型。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例一提供的一种样本数据生成方法的流程图;
图2是根据本发明实施例一所涉及的一种目标物体对应的三维物体模型的示例图;
图3是根据本发明实施例一所涉及的一种高斯核的示意图;
图4是根据本发明实施例一所涉及的一种非极大抑制的示意图;
图5是根据本发明实施例一所涉及的一种轮廓和标签的示例图;
图6是根据本发明实施例二提供的一种样本数据生成方法的流程图;
图7是根据本发明实施例二所涉及的部分样本图像的示例图;
图8是根据本发明实施例二所涉及的一种双线性插值的示意图;
图9是根据本发明实施例二所涉及的一种背景掩模图像和裁剪掩模图像的示例图;
图10是根据本发明实施例二所涉及的一种图像合成后的示例图;
图11是根据本发明实施例二所涉及的一种样本图像为纯背景图像的第三样本图像;
图12是根据本发明实施例三提供的一种样本数据生成装置的结构示意图;
图13是实现本发明实施例的样本数据生成方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1为本发明实施例一提供了一种样本数据生成方法的流程图,本实施例可适用于对样本图像集进行扩充的情况,该方法可以由样本数据生成装置来执行,该样本数据生成装置可以采用硬件和/或软件的形式实现,该样本数据生成装置可配置于电子设备中。如图1所示,该方法包括:
S110、获取待识别的多个目标物体以及每个目标物体对应的三维物体模型。
其中,目标物体可以是指目标检测网络模型训练所需的物体。训练所需的物体可以包括但不限于目标检测网络模型需要检测的物体和训练所用的干扰物体。三维物体模型可以是指物体的多边形表示。三维物体模型通常用计算机或者其它视频设备进行显示。
具体地,针对每个目标物体,可以将高反光带黑边标记点分散粘贴于目标物体表面,并将目标物体放置在置物平台上。可以通过三维扫描设备对待识别的目标物体进行环绕扫描处理,确定第一扫描模型。目标物体的底部与置物平台的接触部分在第一次扫描时无法被三维扫描设备的结构光光源照射,所以需要将目标物体翻转,以使目标物体的底部与置物平台分离。再次进行环绕扫描处理,确定第二扫描模型。此时,第一扫描模型和第二扫描模型中会存在置物平台的表面。可以将第一扫描模型和第二扫描模型中的目标物体保留,并对除目标物体外的部分进行抹除处理。基于粘贴的标记点以及两个扫描模重复的标记点,可以将抹除处理后两个扫描模型的重复部分进行对齐和合并处理,并确定目标物体对应的三维物体模型,从而可以获得具有目标物体所有表面纹理的三维物体模型。
例如,图2给出了一种目标物体对应的三维物体模型的示例图。参见图2,(a)中的长方体纸盒为目标物体;目标物体之外是置物平台表面;在选后置物平台表面后,可以对置物平台表面进行抹除处理,得到(c)中只有目标物体的模型。将另一个角度扫描生成的模型也进行上述处理,得到只有目标物体的另一模型。将模型的重复部分对齐并进行合并处理,得到(d)中的三维物体模型。
需要说明的是,三维物体模型可以由第一文件和第二文件组成;第一文件可以是文件名后缀为OBJ格式的几何体图形文件,用于表示三维几何图形的数据;第一文件可以包含模型每个顶点的位置、UV位置、法线以及组成面(多边形)的顶点列表等数据;第二文件可以是第一文件对应的MTL格式的纹理描述文件,用于描述第一文件中目标物体的着色属性或是材质属性。当第一文件被导入时会自动导入对应的第二文件。此时,可以展示带有目标物体所有纹理特征的三维模型。
S120、根据三维物体模型,确定每个目标物体对应的样本图像集,样本图像集包括不同观测视角下的样本图像。
其中,样本图像集可以是指多个带有目标物体的图像所组成的图像集合。样本图像集包括不同观测视角下的样本图像。
具体地,根据三维物体模型,确定每个目标物体对应的样本图像集,样本图像集包括不同观测视角下的样本图像。
针对每个三维物体模型,可以依据三维物体模型和视频生成功能,生成一个包含三维物体模型所有角度的视频;并基于预设的视频截取间隔,对生成的视频进行截取处理,得到多个不同观测视角下的样本图像;将所有截取到的样本图像作为目标物体对应的样本图像集。
S130、对每个样本图像集中的每个样本图像进行目标物体的轮廓提取,并基于提取出的目标物体轮廓信息,确定每个样本图像对应的标签框信息。
其中,目标物体轮廓信息可以是指但不限于在样本图像中目标物体轮廓的坐标信息。标签框可以是指在样本图像中能包含目标物体的矩形标签框。标签框信息可以是指但不限于标签框的坐标信息和标签框的尺寸信息。
具体地,针对每个样本图像,可以基于多级边缘检测(Canny)算法样本图像进行目标物体轮廓的初步提取;可以基于图像运算方式对初步提取的轮廓进行细节调整,将初步提取的轮廓外不是目标物体的轮廓进行抹除处理,并将初步提取的轮廓内的纹理轮廓进行填充,最终获取到一个简单准确的目标物体轮廓。图像运算方式可以是但不限于腐蚀运算和膨胀运算。基于细节调整后轮廓提取出的目标物体轮廓信息。基于目标物体轮廓信息,确定目标物体在每个轮廓方向上的轮廓最大值,并基于轮廓最大值确定标签框的四个顶点坐标信息;基于四个顶点坐标信息和样本图像尺寸进行归一化处理,确定样本图像对应的标签框信息。
例如,使用Canny算法对目标物体轮廓进行初步提取的过程如下:
(1)使用高斯滤波器平滑样本图像。样本图像的大多数噪声均属于高斯噪声,而高斯滤波是一种线性平滑滤波,可适用于抑制符合高斯分布的噪声;因而本申请将高斯滤波器应用在样本图像的降噪处理过程中。常用高斯函数作平滑滤波器。二维高斯分布函数如下所示:
在实际对样本图像进行降噪处理的过程中,以符合高斯二维均值分布并且进行归一化后的高斯核作为权重核;图3给出了一种高斯核的示意图。参见图3,图中为一个5*5,标准差为1.0的高斯核。将样本图像中目标物体的像素及其周边像素进行加权平均,从而进行高斯滤波。
(2)计算梯度值和方向。样本图像中目标物体的轮廓会指向不同的方向。Canny算法用了四个梯度算子来分别计算水平、垂直和对角线方向的梯度。并使用如下公式和索伯(Sobel)边缘差分算子来计算水平和垂直方向的差分Gx和Gy,具体公式如下:
可以基于如下公式、Gx和Gy计算梯度模G和方向θ,具体公式如下:
其中,角度θ范围可以是从弧度-π到π。将角度θ近似到分别代表水平,垂直和两个对角线方向的四个方向。
(3)非极大值抑制:非极大值抑制可以寻找像素点局部最大值,并沿着梯度方向,对前面和后面的梯度值进行比较。图4给出了一种非极大抑制的示意图。参见图4,g1、g2、g3、g4都代表像素点;C点是需要判断的点;斜线为(2)中计算出来的梯度方向。若C点为局部极大值,则C点的梯度幅值要大于直线与g1g2和g2g3的交点以及dTmp1和dTmp2处的梯度幅值。由于dTmp1和dTmp2不是整像素,坐标为浮点值,所以还需用到线性插值来通过dTmp1在g1、g2之间的比例计算出对应的梯度幅值。线性插值的公式如下:
M(dTmp1)=ωM(g2)+(1-ω)M(g1)
上述两公式中,M(g1)为g1的幅值;M(g2)为g2的幅值;ω为比例系数;dis(g1,g2)为g1点与g2点之间的距离。
(4)双阈值的选取。可以应用双阈值来区分边缘像素,其中,双阈值可以是指一个高阈值和一个低阈值。若边缘像素点梯度值大于高阈值,则标记为强边缘点;若边缘梯度值小于高阈值,大于低阈值,则标记为弱边缘点。小于低阈值的点直接被抑制掉。
(5)滞后边界跟踪。强边缘点可认定为是目标物体真正的轮廓。弱边缘点则可能是目标物体真正的轮廓,也可能是由噪声等引起的。为得到精确的轮廓边缘,由噪声等引起的弱边缘点应该剔除。通常目标物体真实边缘引起的弱边缘点和强边缘点是连通的,而由噪声引起的弱边缘点则不与强边缘点连通。滞后边界跟踪算法用于检查一个弱边缘点的8个连通领域像素。只要有强边缘点存在,那么这个弱边缘点被认为是真实边缘并保留下来。图5给出了一种轮廓和标签的示例图。参见图5,初步提取的目标物体轮廓为(e)初步轮廓;只能展示目标物体的特征。
需要说明的是,由于输入的是三通道RGB彩色样本图像,所以需将三个通道分别各自求取单通道轮廓,并将三个通道轮廓进行合成,从而获得三通道彩色RGB轮廓图像。在本申请中,高斯滤波核优选为3*3;Canny算子上下阈值分别选取40和90。
在目标物体轮廓初步提取后,可以采用闭运算,即先进行膨胀运算再进行腐蚀运算,从而可以填充初步提取轮廓内的细小空洞,并实现邻近物体与平滑边界的连接。基于图像运算方式对初步提取的轮廓进行细节调整,将初步提取的轮廓外不是目标物体的轮廓进行抹除处理,并将初步提取的轮廓内的纹理轮廓进行填充,最终获取到一个简单准确的目标物体轮廓。具体的调整过程如下:
例如,首先定义一个11*11的矩形结构元素,并通过使用此元素对样本图像进行迭代次数为20次的闭运算操作,以使初步提取的轮廓从带纹理轮廓的复杂样本图像转变为简单准确的目标物体轮廓。参见图5,简单准确的目标物体轮廓为(f)精准轮廓。
(1)腐蚀运算:结构A被结构B腐蚀的定义为:
其中,结构A为初步提取的轮廓;移动结构B,如果结构B与结构A的交集完全在结构A的区域内,则保存该位置点,所有满足条件的点构成结构A被结构B腐蚀的结果。
(2)膨胀运算:结构A被结构B膨胀的定义为:
其中,结构A为初步提取的轮廓;移动结构B的过程中,与结构A存在重叠区域,记录该位置,所有移动结构B与结构A存在交集的位置的集合为结构A在结构B作用下的膨胀结果。
在生成目标物体轮廓并提取目标物体轮廓信息后,可以基于目标物体轮廓信息,确定目标物体在每个轮廓方向上的轮廓最大值,并基于轮廓最大值确定标签框的四个顶点坐标信息;基于四个顶点坐标信息和样本图像尺寸进行归一化处理,确定样本图像对应的标签框信息。
例如,可以根据轮廓四个方向最大值可得出标签框的四个顶点,并将、四个顶点分别记为左上(x0,y0),右上(x1,y1),左下(x2,y2),右下(x3,y3);将样本图像尺寸的宽度可记为w,高度记为h。归一化后的标签为(x,y,width,height)。其中,
通过上述公式可以获取目标检测网络模型(如YOLOv3)训练所需要的归一化后的标签。
需要说明的是,可以根据当前轮廓、当前轮廓对应的标签以及上述公式,计算经过处理后的轮廓与标签,从而实现了数据的变换以及标签的对应变换,进而实现自动标注。参见图5,(g)轮廓验证可以用于验证目标物体是否全被精准轮廓包围;若存在目标物体在精准轮廓之外,则该精准轮廓不合格,需要再次进行调整。(h)标签验证可以用于直观的确定标签是否有效;若存在目标物体在标签框之外,则该标签不合格。
S140、从各个样本图像集中循环地选取用于样本增强的至少两个样本图像集,并从当次选取的每个样本图像集中选取一个样本图像作为第一样本图像。
其中,第一样本图像可以是指从样本图像集直接选取的图像。
具体地,从各个样本图像集中循环地选取用于样本增强的至少两个样本图像集;选取的样本图像集可以是同一个样本图像集,也可以是不同的样本图像集。可以从当次选取的每个样本图像集中选取一个样本图像作为第一样本图像。
S150、对当次选取的每个第一样本图像进行目标物体姿态变换处理和标签框信息更新处理,获得处理后的第二样本图像和第二样本图像对应的第二标签框信息。
其中,第二样本图像可以是指经过目标物体姿态变换处理后的第一样本图像。第二标签框信息可以是指经过目标物体姿态变换处理后的第一样本图像对应的标签框信息。
具体地,可以对当次选取的每个第一样本图像进行目标物体姿态变换处理,如目标物体旋转等。基于第二样本图像重新计算对应的标签框信息,从而实现对标签框信息的更新处理。获得每个处理后的第二样本图像和第二样本图像对应的第二标签框信息。
S160、对各个第二样本图像中的目标物体进行裁剪混叠,生成当次样本增强后的第三样本图像,并将各个第二样本图像对应的第二标签框信息进行合并,获得第三样本图像对应的第三标签框信息。
其中,第三样本图像可以是指将样本图像中的目标物体进行裁剪混叠后获得的图像。
具体地,若存在两个需要裁剪混叠的第二样本图像,则需要将两个第二样本图像进行裁剪混叠处理,生成当次样本增强后的第三样本图像,并将两个第二样本图像对应的第二标签框信息进行合并,获得第三样本图像对应的第三标签框信息。若存在三个及以上需要裁剪混叠的第二样本图像,则需要先将两个第二样本图像进行裁剪混叠处理,并将处理后的样本图像与剩余的第二样本图像之一进行裁剪混叠处理,直至全部第二样本图像都完成裁剪混叠处理。此时,获得增强后的第三样本图像中可以包含各个第二样本图像中的目标物体。并将各个第二样本图像对应的第二标签框信息进行合并,获得第三样本图像对应的第三标签框信息。
示例性地,S160中“对各个第二样本图像中的目标物体进行裁剪混叠,生成当次样本增强后的第三样本图像”可以包括:对每个第二样本图像进行目标物体模糊、亮度和对比度的调整处理,并将处理后的图像作为更新后的第二样本图像;对各个更新后的第二样本图像中的目标物体进行裁剪混叠,生成当次样本增强后的第三样本图像。
具体地,对每个第二样本图像进行目标物体模糊、亮度和对比度的调整处理,并将处理后的图像作为更新后的第二样本图像;因为目标物体模糊、亮度和对比度的调整处理不会将目标物体在图像中的位置改变,所以目标物体的标签框信息不会发生变化,也就不用对标签框信息进行更新处理;对各个更新后的第二样本图像中的目标物体进行裁剪混叠,生成当次样本增强后的第三样本图像,从而提高样本图像集的丰富程度,并提高单张样本图像中的信息量。
例如,目标物体模糊处理时可以选用高斯模糊处理方式;与初步提取目标物体轮廓中Canny算法步骤里的高斯平滑去噪处理方式相同,并根据目标物体当前图层位置的不同有参考性的随机选择不同大小的高斯核;例如,在最下层的物体,会被认为距离较远,从而尽可能选取较大的高斯核生成更加模糊的效果。
例如,亮度和对比度的调整处理可以对亮度、对比度进行调整,以来模仿不同光照强度拍摄环境下的样本图像。调整公式为:
g(x)=αf(x)+β
其中,f(x)为原始图像;g(x)为输出图像;α为增益系数,用来调节对比度;β为偏置系数,用于变换图像的亮度。α增益的取值范围为0.75~1.10之间;β偏置的取值范围为-65~75之间并通过随机调整α和β来实现增强数据。
本发明实施例的技术方案,通过获取待识别的多个目标物体以及每个目标物体对应的三维物体模型;根据三维物体模型,确定每个目标物体对应的样本图像集,样本图像集包括不同观测视角下的样本图像;对每个样本图像集中的每个样本图像进行目标物体的轮廓提取,并基于提取出的目标物体轮廓信息,确定每个样本图像对应的标签框信息,从而实现少量样本数据的自动生成;从各个样本图像集中循环地选取用于样本增强的至少两个样本图像集,并从当次选取的每个样本图像集中选取一个样本图像作为第一样本图像;对当次选取的每个第一样本图像进行目标物体姿态变换处理和标签框信息更新处理,获得处理后的第二样本图像和第二样本图像对应的第二标签框信息;对各个第二样本图像中的目标物体进行裁剪混叠,生成当次样本增强后的第三样本图像,并将各个第二样本图像对应的第二标签框信息进行合并,获得第三样本图像对应的第三标签框信息,从而可以实现对少量样本数据进行数据增强和自动标注,保证了有充足的样本图像用于训练目标检测网络模型。
实施例二
图6为本发明实施例二提供的一种样本数据生成方法的流程图,本实施例在上述实施例的基础上,对各个第二样本图像中的目标物体进行裁剪混叠,生成当次样本增强后的第三样本图像的过程进行了详细描述。其中与上述各公开实施例相同或相应的术语的解释在此不再赘述。如图6所示,该方法包括:
S210、获取待识别的多个目标物体以及每个目标物体对应的三维物体模型。
S220、根据三维物体模型,确定每个目标物体对应的样本图像集,样本图像集包括不同观测视角下的样本图像。
示例性地,S220可以包括:基于三维物体模型,生成每个目标物体观测视角变化的目标视频;对目标视频进行图像帧采样,确定每个目标物体对应的样本图像集。
其中,目标视频可以是指带有目标物体,且目标物体随观测视角变化而旋转的视频。每一帧视频都是一张带有目标物体的图像。
具体地,针对每个三维物体模型,可以基于鼠标拖拽三维物体模型和录屏处理,生成目标物体观测视角变化的目标视频;对目标视频进行图像帧采样,获得多个带有目标物体的样本图像,并将多个带有目标物体的样本图像作为目标物体对应的样本图像集,从而可以避免人工采集样本图像或是人工采集的样本图像不合格的情况,保证了样本图像质量的同时提高了样本图像的采集效率。
例如,基于鼠标拖拽三维物体模型和录屏处理,生成一段时长为6分钟、帧数为30的目标视频。基于Open CV的视频读取方法逐帧读取并每隔30帧保存一张样本图像,可以获取360张样本图像。该360张样本图像可以组成目标物体对应的样本图像集。图7给出了部分样本图像的示例图。参见图7,其中6张图像是目标物体在不同观测视角下的样本图像。每个样本图像都具有目标物体的纹理特征。
S230、对每个样本图像集中的每个样本图像进行目标物体的轮廓提取,并基于提取出的目标物体轮廓信息,确定每个样本图像对应的标签框信息。
S240、从各个样本图像集中循环地选取用于样本增强的至少两个样本图像集,并从当次选取的每个样本图像集中选取一个样本图像作为第一样本图像。
S250、对当次选取的每个第一样本图像进行目标物体姿态变换处理和标签框信息更新处理,获得处理后的第二样本图像和第二样本图像对应的第二标签框信息。
示例性地,S250可以包括:对当次选取的每个第一样本图像进行旋转处理和标签框信息更新处理,获得旋转处理后的第四样本图像和第四样本图像对应的第四标签框信息;对获得的第四样本图像进行尺度变化处理和标签框信息更新处理,获得尺度变化处理后的第五样本图像和第五样本图像对应的第五标签框信息;对获得的第五样本图像进行位置偏移处理和标签框信息更新处理,获得位置偏移处理后的第二样本图像和第二样本图像对应的第二标签框信息。
具体地,可以对当次选取的每个第一样本图像进行旋转处理生成第四样本图像。基于第四样本图像重新计算对应的标签框信息,从而实现对标签框信息的更新处理。获得每个处理后的第四样本图像和第四样本图像对应的第四标签框信息。可以对当次选取的每个第四样本图像进行尺度变化处理生成第五样本图像。基于第五样本图像重新计算对应的标签框信息,从而实现对标签框信息的更新处理。获得每个处理后的第五样本图像和第五样本图像对应的第五标签框信息。可以对当次选取的每个第五样本图像进行位置偏移处理生成第二样本图像。基于第二样本图像重新计算对应的标签框信息,从而实现对标签框信息的更新处理。获得每个处理后的第二样本图像和第二样本图像对应的第二标签框信息。
例如,对当次选取的每个第四样本图像进行尺度变化处理时,可以将物体等比放大或者缩小一定的倍数,来提升样本图像中不同尺度目标物体之间的多样性,并可以模拟距离镜头距离远近不同的情况下的多个目标物体成像尺度不同的情况。图8给出了一种双线性插值的示意图。参见图8,尺度变换处理是通过双线性插值来实现的。其中,设原始数据点Q11为(x1,y1)、Q21为(x2,y1)、Q12为(x1,y2)、Q22为(x2,y2);设欲求点P=(x,y)在未知函数f中的值。在x方向进行线性插值,并基于如下公式确定R1与R2;
再在y方向进行线性插值;
并基于上述公式、R1与R2确定得到P。
例如,位置偏移处理可以是将样本图像像素的对应位置进行偏移量更新,并以底色补全偏移出现的空余即可。其中,偏移量可以是在一定阈值内随机生成的数值中进行选取,以保证生成图像的真实性,可用性。
针对样本图像中的目标物体进行旋转、尺度放大和缩小等处理,从而增加不同角度,不同尺度之间物体的在同一张图像上出现、堆叠的可能性,进而大幅增加样本图像中信息的丰富程度。
示例性地,“对当次选取的每个第一样本图像进行旋转处理和标签框信息更新处理,获得旋转处理后的第四样本图像和第四样本图像对应的第四标签框信息”可以包括:对当次选取的每个第一样本图像进行旋转处理,获得旋转处理后的第四样本图像;将第一样本图像中心点作为该图像的旋转中心,并将第一样本图像的原点移至该图像中心位置;基于第一样本图像的图像中心位置、旋转角度和旋转后的图像尺寸进行标签框信息更新处理,并获得第四样本图像对应的第四标签框信息。
其中,图像的原点可以是在左上角。
具体地,对当次选取的每个第一样本图像进行旋转处理,获得旋转处理后的第四样本图像;第一样本图像的旋转中心是以图像中心点为准,而图像的原点在左上角,所以在计算的时候需要先将左上角的原点移到图像中心,并且Y轴需要翻转。设一点(X0,Y0),图像宽为W,高为H,原点变换后的点为(X1,Y1)。通过如下变换公式确定(X1,Y1)。
图像旋转角度为θ,设原点变换后通过旋转矩阵旋转后θ的点为(X2,Y2),通过如下变换公式确定(X2,Y2)。
旋转后的图像的宽为W′,高为H′,则从笛卡尔坐标原点变换回左上角的公式如下:
综上可得,旋转处理前的样本图像的一点(X0,Y0),经过如下公式:
可以变换到旋转后的(X3,Y3),从而可以基于第四样本图像与上述方式自动确定第四样本图像对应的第四标签框信息;避免人工重新标注,费时费力;提高了标签框信息的更新效率和准确性。
S260、若仅存在两个第二样本图像,则选取一个第二样本图像作为背景图像,另一个作为第二样本图像裁剪图像。
具体地,若仅存在两个第二样本图像,则选取一个第二样本图像作为背景图像,另一个作为第二样本图像裁剪图像;若存在三个及以上第二样本图像,则选取一个第二样本图像作为背景图像,其余第二样本图像作为第二样本图像裁剪图像。
需要说明的是,混叠操作的基本规律可以是:当背景图像与裁剪图像混叠成为一张合成图像时,生成的合成图像(第三样本图像)中有两个目标物体;这两个目标物体分别对应背景图像与裁剪图像中的目标物体;两个目标物体对应两个图层,分别为下方图层(背景图像)与上方图层(裁剪图像)。因为两个目标物体可能出现堆叠遮挡的情况,所以混叠增强处理的规则需要与现实中成像规则保持的一致。其中,设定下方图层为远端物体,且模糊概率会较大,同时尺度变化时会尽量偏小,以符合实际成像规则中远小近大,远端未对焦物体模糊,近端对焦物体清晰等成像规则。例如,若合成图像(第三样本图像)生成之后,两个目标物体有重叠发生时,则上方图层的目标物体会遮挡下方图层中的目标物体。
S270、基于裁剪图像中的目标物体轮廓信息,对背景图像进行二值化处理,确定背景图像对应的背景掩模图像。
其中,掩模图像可以是用选定的图像、图形或物体、对待处理的图像(全部或局部)进行遮挡生成的图像,用于控制图像处理的区域或处理过程。背景掩模图像可以是指用目标物体轮廓对背景图像进行处理生成的图像。
具体地,基于裁剪图像中的目标物体轮廓信息,确定目标物体轮廓的尺寸和在裁剪图像中的位置等信息;基于目标物体轮廓的尺寸和在裁剪图像中的位置等信息,确定目标物体轮廓在背景图像中的位置,并对背景图像进行二值化处理,将处理后的背景图像作为背景掩模图像,从而利用二值化处理更准确的确定背景掩模图像。
示例性地,S270可以包括:基于裁剪图像中的目标物体轮廓信息,将背景图像中的目标物体轮廓内的像素点进行置黑处理,以及背景图像中的目标物体轮廓外的像素点进行置白处理;将处理后的背景图像与背景图像进行图层叠加处理,生成背景掩模图像。
其中,像素点可以是指显示器显示画面的最小发光单位。像素点可以是由红、绿、蓝三个像素单元组成。样本图像可以是由多个像素点进行组合并展示的图像。
具体地,图9给出了一种背景掩模图像和裁剪掩模图像的示例图。基于裁剪图像中的目标物体轮廓信息,将背景图像中的目标物体轮廓内像素点的RPG值全部设置为0,以使背景图像中的目标物体轮廓内像素点变为黑色;将背景图像中的目标物体轮廓外像素点的RPG值全部设置为255,以使背景图像中的目标物体轮廓外像素点变为白色;参见图9,获得(j)二值化处理后的背景图像;将处理后的背景图像与背景图像进行图层叠加处理,生成(l)背景掩模图像。
S280、基于裁剪图像中的目标物体轮廓信息,对裁剪图像进行二值化处理,确定裁剪图像对应的裁剪掩模图像。
其中,裁剪掩模图像可以是指用目标物体轮廓对裁剪图像进行处理生成的图像。
具体地,基于裁剪图像中的目标物体轮廓信息,确定目标物体轮廓的尺寸和在裁剪图像中的位置等信息;基于目标物体轮廓的尺寸和在裁剪图像中的位置等信息,确定目标物体轮廓在裁剪图像中的位置,并对裁剪图像进行二值化处理,将处理后的裁剪图像作为裁剪掩模图像,从而利用二值化处理更准确的确定裁剪掩模图像。
示例性地,S280可以包括:基于裁剪图像中的目标物体轮廓信息,将裁剪图像中的目标物体轮廓内的像素点进行置白处理,以及裁剪图像中的目标物体轮廓外的像素点进行置黑处理;将处理后的裁剪图像与裁剪图像进行图层叠加处理,生成裁剪掩模图像。
具体地,基于裁剪图像中的目标物体轮廓信息,将裁剪图像中的目标物体轮廓内像素点的RPG值全部设置为255,以使裁剪图像中的目标物体轮廓内像素点变为白色;将裁剪图像中的目标物体轮廓外像素点的RPG值全部设置为0,以使裁剪图像中的目标物体轮廓外像素点变为黑色;参见图9,获得(i)二值化处理后的裁剪图像;将处理后的裁剪图像与裁剪图像进行图层叠加处理,生成(k)裁剪掩模图像。
S290、对背景掩模图像和裁剪掩模图像进行相加,生成当次样本增强后的第三样本图像。
具体地,图10给出了一种图像合成后的示例图。将背景掩模图像中各个图层和裁剪掩模图像中的各个图层进行相加合并处理,生成增强后的第三样本图像;参见图10,得到(m)合成图像是增强后的第三样本图像。
S291、将各个第二样本图像对应的第二标签框信息进行合并,获得第三样本图像对应的第三标签框信息。
例如,参见图10,第三样本图像对应的第三标签框信息可以是指(n)合成后对应的标签。
需要说明的是,本发明中涉及的第一样本图像、第二样本图像、第三样本图像、第四样本图像和第五样本图像均可作为目标检测网络模型的训练基础,从而提高样本图像集的丰富程度,并提高单张样本图像信息量与目标物体组合的多样性。
需要说明的是,背景图像也可以是无目标物体的纯背景图像。图11给出了一种样本图像为纯背景图像的第三样本图像。参见图11,可以将一个目标物体与纯背景图像进行混叠增强处理和标签框信息更新处理;再将第二个目标物体与经过依次混叠增强处理后的图像进行混叠增强处理和标签框信息更新处理,得到存在两个目标物体且带有实际场景的第三样本图像。同样的,若存在三个及以上的目标物体与纯背景图像进行混叠增强处理,则可以重复上述步骤直至所有目标物体都已置于最终的第三样本图像中。
本发明实施例的技术方案,通过在选中的第二样本图像中选取一个第二样本图像作为背景图像,另一个作为第二样本图像裁剪图像;基于裁剪图像中的目标物体轮廓信息,对背景图像进行二值化处理,确定背景图像对应的背景掩模图像;基于裁剪图像中的目标物体轮廓信息,对背景图像进行二值化处理,确定背景图像对应的背景掩模图像;对背景掩模图像和裁剪掩模图像进行相加,生成当次样本增强后的第三样本图像,从而利用二值化处理更加简单、快速的获得增强后的第三样本图像,进一步提高样本图像集的丰富程度,并提高单张样本图像信息量与目标物体组合的多样性。
以下是本发明实施例提供的样本数据生成装置的实施例,该装置与上述各实施例的样本数据生成方法属于同一个发明构思,在样本数据生成装置的实施例中未详尽描述的细节内容,可以参考上述样本数据生成方法的实施例。
实施例三
图12为本发明实施例三提供的一种样本数据生成装置的结构示意图。如图12所示,该装置包括:模型获取模块310、样本图像集确定模块320、轮廓提取模块330、图像选取模块340、图像处理模块350和图像裁剪混叠模块360。
其中,模型获取模块310,用于获取待识别的多个目标物体以及每个目标物体对应的三维物体模型;样本图像集确定模块320,用于根据三维物体模型,确定每个目标物体对应的样本图像集,样本图像集包括不同观测视角下的样本图像;轮廓提取模块330,用于对每个样本图像集中的每个样本图像进行目标物体的轮廓提取,并基于提取出的目标物体轮廓信息,确定每个样本图像对应的标签框信息;图像选取模块340,用于从各个样本图像集中循环地选取用于样本增强的至少两个样本图像集,并从当次选取的每个样本图像集中选取一个样本图像作为第一样本图像;图像处理模块350,用于对当次选取的每个第一样本图像进行目标物体姿态变换处理和标签框信息更新处理,获得处理后的第二样本图像和第二样本图像对应的第二标签框信息;图像裁剪混叠模块360,用于对各个第二样本图像中的目标物体进行裁剪混叠,生成当次样本增强后的第三样本图像,并将各个第二样本图像对应的第二标签框信息进行合并,获得第三样本图像对应的第三标签框信息。
本发明实施例的技术方案,通过获取待识别的多个目标物体以及每个目标物体对应的三维物体模型;根据三维物体模型,确定每个目标物体对应的样本图像集,样本图像集包括不同观测视角下的样本图像;对每个样本图像集中的每个样本图像进行目标物体的轮廓提取,并基于提取出的目标物体轮廓信息,确定每个样本图像对应的标签框信息,从而实现少量样本数据的自动生成;从各个样本图像集中循环地选取用于样本增强的至少两个样本图像集,并从当次选取的每个样本图像集中选取一个样本图像作为第一样本图像;对当次选取的每个第一样本图像进行目标物体姿态变换处理和标签框信息更新处理,获得处理后的第二样本图像和第二样本图像对应的第二标签框信息;对各个第二样本图像中的目标物体进行裁剪混叠,生成当次样本增强后的第三样本图像,并将各个第二样本图像对应的第二标签框信息进行合并,获得第三样本图像对应的第三标签框信息,从而可以实现对少量样本数据进行数据增强和自动标注,保证了有充足的样本图像用于训练目标检测网络模型。
可选地,样本图像集确定模块320具体用于:基于三维物体模型,生成每个目标物体观测视角变化的目标视频;对目标视频进行图像帧采样,确定每个目标物体对应的样本图像集。
可选地,图像处理模块350可以包括:
图像旋转子模块,用于对当次选取的每个第一样本图像进行旋转处理和标签框信息更新处理,获得旋转处理后的第四样本图像和第四样本图像对应的第四标签框信息;
图像尺度变化子模块,用于对获得的第四样本图像进行尺度变化处理和标签框信息更新处理,获得尺度变化处理后的第五样本图像和第五样本图像对应的第五标签框信息;
图像位置偏移子模块,用于对获得的第五样本图像进行位置偏移处理和标签框信息更新处理,获得位置偏移处理后的第二样本图像和第二样本图像对应的第二标签框信息。
可选地,图像旋转子模块具体用于:对当次选取的每个第一样本图像进行旋转处理,获得旋转处理后的第四样本图像;将第一样本图像中心点作为该图像的旋转中心,并将第一样本图像的原点移至该图像中心位置;基于第一样本图像的图像中心位置、旋转角度和旋转后的图像尺寸进行标签框信息更新处理,并获得第四样本图像对应的第四标签框信息。
可选地,图像裁剪混叠模块360可以包括:
图像分类子模块,用于若仅存在两个第二样本图像,则选取一个第二样本图像作为背景图像,另一个作为第二样本图像裁剪图像;
背景掩模图像确定子模块,用于基于裁剪图像中的目标物体轮廓信息,对背景图像进行二值化处理,确定背景图像对应的背景掩模图像;
裁剪掩模图像确定子模块,用于基于裁剪图像中的目标物体轮廓信息,对裁剪图像进行二值化处理,确定裁剪图像对应的裁剪掩模图像;
图像相加子模块,用于对背景掩模图像和裁剪掩模图像进行相加,生成当次样本增强后的第三样本图像。
可选地,背景掩模图像确定子模块具体用于:基于裁剪图像中的目标物体轮廓信息,将背景图像中的目标物体轮廓内的像素点进行置黑处理,以及背景图像中的目标物体轮廓外的像素点进行置白处理;将处理后的背景图像与背景图像进行图层叠加处理,生成背景掩模图像;
裁剪掩模图像确定子模块具体用于:基于裁剪图像中的目标物体轮廓信息,将裁剪图像中的目标物体轮廓内的像素点进行置白处理,以及裁剪图像中的目标物体轮廓外的像素点进行置黑处理;将处理后的裁剪图像与裁剪图像进行图层叠加处理,生成裁剪掩模图像。
可选地,图像裁剪混叠模块360具体用于:对每个第二样本图像进行目标物体模糊、亮度和对比度的调整处理,并将处理后的图像作为更新后的第二样本图像;对各个更新后的第二样本图像中的目标物体进行裁剪混叠,生成当次样本增强后的第三样本图像。
本发明实施例所提供的样本数据生成装置可执行本发明任意实施例所提供的样本数据生成方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,上述样本数据生成装置的实施例中,所包括的各个模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
实施例四
图13示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图13所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如样本数据生成方法。
在一些实施例中,样本数据生成方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的样本数据生成方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行样本数据生成方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种样本数据生成方法,其特征在于,包括:
获取待识别的多个目标物体以及每个所述目标物体对应的三维物体模型;
根据所述三维物体模型,确定每个所述目标物体对应的样本图像集,所述样本图像集包括不同观测视角下的样本图像;
对每个所述样本图像集中的每个样本图像进行目标物体的轮廓提取,并基于提取出的目标物体轮廓信息,确定每个所述样本图像对应的标签框信息;
从各个所述样本图像集中循环地选取用于样本增强的至少两个所述样本图像集,并从当次选取的每个所述样本图像集中选取一个样本图像作为第一样本图像;
对当次选取的每个所述第一样本图像进行目标物体姿态变换处理和标签框信息更新处理,获得处理后的第二样本图像和所述第二样本图像对应的第二标签框信息;
对各个所述第二样本图像中的目标物体进行裁剪混叠,生成当次样本增强后的第三样本图像,并将各个所述第二样本图像对应的第二标签框信息进行合并,获得所述第三样本图像对应的第三标签框信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述三维物体模型,确定每个所述目标物体对应的样本图像集,所述样本图像集包括不同观测视角下的样本图像,包括:
基于所述三维物体模型,生成每个所述目标物体观测视角变化的目标视频;
对所述目标视频进行图像帧采样,确定每个所述目标物体对应的样本图像集。
3.根据权利要求1所述的方法,其特征在于,所述对当次选取的每个所述第一样本图像进行目标物体姿态变换处理和标签框信息更新处理,获得处理后的第二样本图像和所述第二样本图像对应的第二标签框信息,包括:
对当次选取的每个所述第一样本图像进行旋转处理和标签框信息更新处理,获得旋转处理后的第四样本图像和所述第四样本图像对应的第四标签框信息;
对获得的所述第四样本图像进行尺度变化处理和标签框信息更新处理,获得尺度变化处理后的第五样本图像和所述第五样本图像对应的第五标签框信息;
对获得的所述第五样本图像进行位置偏移处理和标签框信息更新处理,获得位置偏移处理后的所述第二样本图像和所述第二样本图像对应的第二标签框信息。
4.根据权利要求3所述的方法,其特征在于,所述对当次选取的每个所述第一样本图像进行旋转处理和标签框信息更新处理,获得旋转处理后的第四样本图像和所述第四样本图像对应的第四标签框信息,包括:
对当次选取的每个所述第一样本图像进行旋转处理,获得旋转处理后的第四样本图像;
将所述第一样本图像中心点作为该图像的旋转中心,并将所述第一样本图像的原点移至该图像中心位置;
基于所述第一样本图像的图像中心位置、旋转角度和旋转后的图像尺寸进行标签框信息更新处理,并获得所述第四样本图像对应的第四标签框信息。
5.根据权利要求1所述的方法,其特征在于,所述对各个所述第二样本图像中的目标物体进行裁剪混叠,生成当次样本增强后的第三样本图像,包括:
若仅存在两个所述第二样本图像,则选取一个第二样本图像作为背景图像,另一个作为第二样本图像裁剪图像;
基于所述裁剪图像中的目标物体轮廓信息,对所述背景图像进行二值化处理,确定所述背景图像对应的背景掩模图像;
基于所述裁剪图像中的目标物体轮廓信息,对所述裁剪图像进行二值化处理,确定所述裁剪图像对应的裁剪掩模图像;
对所述背景掩模图像和所述裁剪掩模图像进行相加,生成当次样本增强后的第三样本图像。
6.根据权利要求5所述的方法,其特征在于,所述基于所述裁剪图像中的目标物体轮廓信息,对所述背景图像进行二值化处理,确定所述背景图像对应的背景掩模图像,包括:
基于所述裁剪图像中的目标物体轮廓信息,将所述背景图像中的目标物体轮廓内的像素点进行置黑处理,以及所述背景图像中的目标物体轮廓外的像素点进行置白处理;
将处理后的背景图像与所述背景图像进行图层叠加处理,生成背景掩模图像;
所述基于所述裁剪图像中的目标物体轮廓信息,对所述裁剪图像进行二值化处理,确定所述裁剪图像对应的裁剪掩模图像,包括:
基于所述裁剪图像中的目标物体轮廓信息,将所述裁剪图像中的目标物体轮廓内的像素点进行置白处理,以及所述裁剪图像中的目标物体轮廓外的像素点进行置黑处理;
将处理后的裁剪图像与所述裁剪图像进行图层叠加处理,生成裁剪掩模图像。
7.根据权利要求1所述的方法,其特征在于,所述对各个所述第二样本图像中的目标物体进行裁剪混叠,生成当次样本增强后的第三样本图像,包括:
对每个所述第二样本图像进行目标物体模糊、亮度和对比度的调整处理,并将处理后的图像作为更新后的第二样本图像;
对各个更新后的第二样本图像中的目标物体进行裁剪混叠,生成当次样本增强后的第三样本图像。
8.一种样本数据生成装置,其特征在于,包括:
模型获取模块,用于获取待识别的多个目标物体以及每个所述目标物体对应的三维物体模型;
样本图像集确定模块,用于根据所述三维物体模型,确定每个所述目标物体对应的样本图像集,所述样本图像集包括不同观测视角下的样本图像;
轮廓提取模块,用于对每个所述样本图像集中的每个样本图像进行目标物体的轮廓提取,并基于提取出的目标物体轮廓信息,确定每个所述样本图像对应的标签框信息;
图像选取模块,用于从各个所述样本图像集中循环地选取用于样本增强的至少两个所述样本图像集,并从当次选取的每个所述样本图像集中选取一个样本图像作为第一样本图像;
图像处理模块,用于对当次选取的每个所述第一样本图像进行目标物体姿态变换处理和标签框信息更新处理,获得处理后的第二样本图像和所述第二样本图像对应的第二标签框信息;
图像裁剪混叠模块,用于对各个所述第二样本图像中的目标物体进行裁剪混叠,生成当次样本增强后的第三样本图像,并将各个所述第二样本图像对应的第二标签框信息进行合并,获得所述第三样本图像对应的第三标签框信息。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的样本数据生成方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的样本数据生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211339645.9A CN115601616A (zh) | 2022-10-27 | 2022-10-27 | 一种样本数据生成方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211339645.9A CN115601616A (zh) | 2022-10-27 | 2022-10-27 | 一种样本数据生成方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115601616A true CN115601616A (zh) | 2023-01-13 |
Family
ID=84851889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211339645.9A Pending CN115601616A (zh) | 2022-10-27 | 2022-10-27 | 一种样本数据生成方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115601616A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115880470A (zh) * | 2023-03-08 | 2023-03-31 | 深圳佑驾创新科技有限公司 | 3d图像数据的生成方法、装置、设备及存储介质 |
-
2022
- 2022-10-27 CN CN202211339645.9A patent/CN115601616A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115880470A (zh) * | 2023-03-08 | 2023-03-31 | 深圳佑驾创新科技有限公司 | 3d图像数据的生成方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2680765C1 (ru) | Автоматизированное определение и обрезка неоднозначного контура документа на изображении | |
CN109978839B (zh) | 晶圆低纹理缺陷的检测方法 | |
US8780131B2 (en) | Systems and methods for text-based personalization of images | |
CN111612882B (zh) | 图像处理方法、装置、计算机存储介质及电子设备 | |
CN111563908B (zh) | 一种图像处理方法及相关装置 | |
CN110717489A (zh) | Osd的文字区域的识别方法、装置及存储介质 | |
Hua et al. | Extended guided filtering for depth map upsampling | |
CN111583381B (zh) | 游戏资源图的渲染方法、装置及电子设备 | |
Cui et al. | Single image dehazing by latent region‐segmentation based transmission estimation and weighted L1‐norm regularisation | |
CN108230376A (zh) | 遥感图像处理方法、装置和电子设备 | |
CN111027538A (zh) | 一种基于实例分割模型的集装箱检测方法 | |
Liu et al. | Texture filtering based physically plausible image dehazing | |
CN113609984A (zh) | 一种指针式仪表读数识别方法、装置及电子设备 | |
CN112883900A (zh) | 遥感影像裸地反演可视图的方法及装置 | |
CN108537868A (zh) | 信息处理设备和信息处理方法 | |
CN114937050A (zh) | 绿幕抠图方法、装置及电子设备 | |
CN113487473B (zh) | 一种添加图像水印的方法、装置、电子设备及存储介质 | |
CN115601616A (zh) | 一种样本数据生成方法、装置、电子设备和存储介质 | |
CN113506305B (zh) | 三维点云数据的图像增强方法、语义分割方法及装置 | |
JP2014106713A (ja) | プログラム、方法、及び情報処理装置 | |
CN109448010B (zh) | 一种基于内容特征的四方连续纹样自动生成方法 | |
CN115937537A (zh) | 一种目标图像的智能识别方法、装置、设备及存储介质 | |
Mahmoudpour et al. | Superpixel-based depth map estimation using defocus blur | |
Liu et al. | Fog effect for photography using stereo vision | |
CN115375847A (zh) | 材质恢复方法、三维模型的生成方法和模型的训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |