CN116912621A - 图像样本构建方法、目标识别模型的训练方法及相关装置 - Google Patents
图像样本构建方法、目标识别模型的训练方法及相关装置 Download PDFInfo
- Publication number
- CN116912621A CN116912621A CN202310868302.XA CN202310868302A CN116912621A CN 116912621 A CN116912621 A CN 116912621A CN 202310868302 A CN202310868302 A CN 202310868302A CN 116912621 A CN116912621 A CN 116912621A
- Authority
- CN
- China
- Prior art keywords
- target
- area
- image
- image sample
- length
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012549 training Methods 0.000 title claims abstract description 27
- 238000010276 construction Methods 0.000 title claims abstract description 18
- 238000002372 labelling Methods 0.000 claims abstract description 55
- 230000011218 segmentation Effects 0.000 claims abstract description 33
- 230000003321 amplification Effects 0.000 claims description 4
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 5
- 238000005192 partition Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种图像样本构建方法、目标识别模型的训练方法及相关装置,该方法包括:获取包括多个目标的原始图像,确定原始图像中的第一目标和第二目标;其中,每个目标对应有标注框,第一目标对应的标注框的面积超过面积阈值,第二目标对应的标注框的面积未超过面积阈值;基于标注框的宽高尺寸确定滑动窗口和滑动步长,利用滑动窗口和滑动步长,遍历原始图像得到多个分割区域,将包括至少一第一目标的分割区域作为第一目标匹配的图像样本;从原始图像中获取第二目标对应的多个拓展区域,将每个拓展区域作为第二目标匹配的图像样本;其中,每个拓展区域中第二目标之外的背景区域相互区别。上述方案,能够提高小目标识别的精度。
Description
技术领域
本申请涉及图像处理技术领域,特别是涉及一种图像样本构建方法、目标识别模型的训练方法及相关装置。
背景技术
随着监控设备所部署的场景愈发广泛,大量图像中的目标需要进行识别,现有技术中通常是利用训练后的目标识别模型对图像中的目标进行目标识别,但是,部分场景中所采集到的原始图像中的目标占整个原始图像的比例较小,属于难以准确识别的小目标,在训练过程中小目标很可能被认为是无效目标而被抛弃,导致小目标识别的精度不高。有鉴于此,如何提高小目标识别的精度成为了亟待解决的问题。
发明内容
本申请主要解决的技术问题是提供一种图像样本构建方法、目标识别模型的训练方法及相关装置,能够提高小目标识别的精度。
为解决上述技术问题,本申请第一方面提供一种图像样本构建方法,包括:获取包括多个目标的原始图像,确定所述原始图像中的第一目标和第二目标;其中,每个所述目标对应有标注框,所述第一目标对应的标注框的面积超过面积阈值,所述第二目标对应的标注框的面积未超过所述面积阈值;
基于所述标注框的宽高尺寸确定滑动窗口和滑动步长,利用所述滑动窗口和所述滑动步长,遍历所述原始图像得到多个分割区域,将包括至少一所述第一目标的分割区域作为所述第一目标匹配的图像样本;
从所述原始图像中获取所述第二目标对应的多个拓展区域,将每个所述拓展区域作为所述第二目标匹配的图像样本;其中,每个所述拓展区域中所述第二目标之外的背景区域相互区别。
为解决上述技术问题,本申请第二方面提供一种目标识别模型的训练方法,包括:获取多个图像样本;其中,所述图像样本是基于上述第一方面所述的图像样本构建方法获得的;利用多个所述图像样本训练目标识别模型,得到训练后的所述目标识别模型。
为解决上述技术问题,本申请第三方面提供一种电子设备,该电子设备包括:相互耦接的存储器和处理器,其中,所述存储器存储有程序数据,所述处理器调用所述程序数据以执行上述第一方面所述的方法。
为解决上述技术问题,本申请第四方面提供一种计算机可读存储介质,其上存储有程序数据,所述程序数据被处理器执行时实现上述第一方面所述的方法。
上述方案,获取包括多个目标的原始图像,每个目标对应有各自的标注框,基于标注框的面积与面积阈值的关系,将原始图像中的所有目标分成第一目标和第二目标,其中,第二目标对应的标注框的面积小于第一目标对应的标注框的面积,因此,第二目标为极小目标。基于标注框的宽高尺寸确定滑动窗口的窗口长度以及滑动窗口对应的滑动步长,利用滑动窗口按滑动步长在原始图像上进行滑动,直至遍历原始图像得到多个分割区域,随着滑动窗口的滑动过程,每个第一目标的至少部分区域都有可能被围设在至少一个分割区域内,而同一分割区域内也可能包括多个第一目标,将包括至少一个第一目标的分割区域作为第一目标匹配的图像样本,以使第一目标在其对应的图像样本中所占比例较高,同时避免了极小的第二目标在分割区域中占比仍然较小的问题,从原始图像中获取多个能够围设第二目标的拓展区域,将每个拓展区域作为第二目标匹配的图像样本,且每个拓展区域中第二目标之外的背景区域相互区别,以使第二目标在其对应的图像样本中所占比例较高,从而第一目标和第二目标各自匹配的图像样本用于训练目标识别模型时,能够提高目标识别模型对小目标识别的精度,并且相较于第一目标更小的第二目标必然包括多个图像样本,每个图像样本中第二目标的位置相互区别,从而对于极小的目标可以进行多次识别和验证,进一步提高小目标识别的精度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请图像样本构建方法一实施方式的流程示意图;
图2是本申请图像样本构建方法另一实施方式的流程示意图;
图3是图2中步骤S204对应的一实施方式的应用场景示意图;
图4是图2中步骤S205对应的一实施方式的应用场景示意图;
图5是本申请目标识别模型的训练方法一实施方式的流程示意图;
图6是本申请电子设备一实施方式的结构示意图;
图7是本申请计算机可读存储介质一实施方式的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
本申请所提供的图像样本构建方法用于对图像进行处理,其对应的执行主体为能够调用图像的处理终端。
请参阅图1,图1是本申请图像样本构建方法一实施方式的流程示意图,该方法包括:
S101:获取包括多个目标的原始图像,确定原始图像中的第一目标和第二目标,其中,每个目标对应有标注框,第一目标对应的标注框的面积超过面积阈值,第二目标对应的标注框的面积未超过面积阈值。
具体地,获取包括多个目标的原始图像,每个目标对应有各自的标注框,基于标注框的面积与面积阈值的关系,将原始图像中的所有目标分成第一目标和第二目标。
可以理解的是,第二目标对应的标注框的面积小于第一目标对应的标注框的面积,因此,第二目标为极小目标。
在一应用方式中,面积阈值与至少一标注框的面积相关,以使面积阈值与目标的大小相适配,将标注框的面积超过面积阈值的目标作为第一目标,将标注框的面积未超过面积阈值的目标作为第二目标。
在另一应用方式中,面积阈值与原始图像的面积相关,以使面积阈值与是否能从原始图像中识别到目标相适配,将标注框的面积超过面积阈值的目标作为第一目标,将标注框的面积未超过面积阈值的目标作为第二目标。
在一应用场景中,获取所有标识框的面积对应的面积均值,将面积均值与第一比例的乘积作为面积阈值。
在另一应用场景中,获取所有标识框的面积对应的面积中位数,将面积中位数与第二比例的乘积作为面积阈值。
在又一应用场景中,获取原始图像的面积,将原始图像的面积与第三比例的乘积作为面积阈值。其中,占比小于第三比例的目标在原始图像中被认为是无效目标。
需要说明的是,标注框的面积以及原始图像的面积与像素的数量相关。
S102:基于标注框的宽高尺寸确定滑动窗口和滑动步长,利用滑动窗口和滑动步长,遍历原始图像得到多个分割区域,将包括至少一第一目标的分割区域作为第一目标匹配的图像样本。
具体地,基于标注框的宽高尺寸确定滑动窗口的窗口长度以及滑动窗口对应的滑动步长,利用滑动窗口按滑动步长在原始图像上进行滑动,直至遍历原始图像得到多个分割区域。
可以理解的是,随着滑动窗口的滑动过程,每个第一目标的至少部分区域都有可能被围设在至少一个分割区域内,而同一分割区域内也可能包括多个第一目标,将包括至少一个第一目标的分割区域作为第一目标匹配的图像样本,以使第一目标在其对应的图像样本中所占比例较高。
需要说明的是,当分割区域中包括第一目标对应的标注框中超过面积比例的框内区域时,即可认为分割区域包括对应的第一目标,其中,面积比例可以是50%或60%等任意自定义的数值,本申请对此不做具体限制。故此,将包括至少一第一目标的分割区域作为第一目标匹配的图像样本,包括:将包括至少一个参考选取区域的分割区域作为第一目标匹配的图像样本。其中,参考选取区域包括第一目标对应的标注框中超过面积比例的框内区域,从而利用图像样本中不完整的第一目标能够用于训练目标识别模型对于存在遮挡的目标的识别能力。
进一步地,在分割区域中并不关注第二目标,从而避免了极小的第二目标在分割区域中占比仍然较小的问题。
需要说明的是,为便于理解,本实施例中目标对应的标注框为目标对应的最小外接矩形,在其他实施例中标注框也可以是其他任意形状,基于所有标注框的尺寸,确定一个大于最大尺寸的滑动窗口并设置能够遍历到所有第一目标的滑动步长即可。
在一应用方式中,获取所有标注框的宽高尺寸对应的最大宽度和最大高度,将最大宽度和最大高度中的较大值作为最大长度,按预设放大倍率对最大长度进行放大,得到参考长度,当参考长度小于限制长度时,将参考长度作为滑动窗口的窗口长度,当参考长度大于或等于限制长度时,将限制长度作为滑动窗口的窗口长度,得到正方形滑动窗口,其中,限制长度为原始图像的短边与上限比例的乘积,从而避免滑动窗口过大。将窗口长度与最大宽度的差值作为横向滑动步长,将窗口长度与最大高度的差值作为纵向滑动步长,从而得到滑动窗口的滑动步长,确保每个第一目标均能够在滑动窗口的滑动过程中被至少一个分割区域包围。
在另一应用方式中,获取所有标注框的宽高尺寸对应的最大宽度和最大高度,将最大宽度增加第一长度,确定窗口宽度,将最大高度增加第二长度,确定窗口高度,得到矩形的滑动窗口,其中,第一长度和第二长度可以相同或不同,将第一长度作为横向滑动步长,将第二长度作为纵向滑动步长,从而提高滑动窗口确定效率并确保每个第一目标均能够在滑动窗口的滑动过程中被至少一个分割区域包围。
进一步地,获得滑动窗口及其对应的横向滑动步长以及纵向滑动步长后,利用滑动窗口从左上角开始按横向滑动步长横向移动遍历当前横向上原始图像的区域后,返回至左侧边缘并向下纵向移动纵向滑动步长,从而按横向滑动步长横向移动遍历当前横向上原始图像的区域,重复上述过程直至原始图像的所有区域均被遍历,得到多个分割区域。其中,当滑动窗口超过了原始图像的边缘时,则进行补黑边的操作补齐滑动窗口得到包括原始图像边缘的分割区域。
可以理解的是,当原始图像中的第一目标较小或数量较少时,部分分割区域可能不存在第一目标,当多个第一目标相对集中时,部分分割区域可能存在多个第一目标,将包括至少一第一目标的分割区域作为第一目标匹配的图像样本。
S103:从原始图像中获取第二目标对应的多个拓展区域,将每个拓展区域作为第二目标匹配的图像样本,其中,每个拓展区域中第二目标之外的背景区域相互区别。
具体地,从原始图像中获取多个能够围设第二目标的拓展区域,将每个拓展区域作为第二目标匹配的图像样本,且每个拓展区域中第二目标之外的背景区域相互区别,以使第二目标在其对应的图像样本中所占比例较高。
在一应用方式中,以第二目标对应的标注框为中心,按不同的倍率放大第二目标对应的标注框,得到多个背景区域相互区别且第二目标所占比例各不相同的拓展区域,将每个拓展区域从原始图像中抠出,得到第二目标匹配的多个图像样本,使第二目标在多个图像样本中所占比例相互区别,丰富第二目标的图像样本,且在图像样本中能够确定第二目标的位置信息。
在另一应用方式中,基于第二目标对应的标注框和额定倍率乘积,确定待拓展面积,在原始图像中选取多个面积为待拓展面积且能从不同方向包围第二目标的拓展区域,得到多个背景区域相互区别且第二目标的位置各不相同的拓展区域,将每个拓展区域从原始图像中抠出,得到第二目标匹配的多个图像样本,使第二目标在多个图像样本中的位置相互区别,丰富第二目标的图像样本。
需要说明的是,基于标注框在图像样本中的位置能够获得目标在图像样本中的位置信息,位置信息作为图像样本的训练标签,在获得第一目标和第二目标各自对应的图像样本后,即可用于对目标识别模型进行有监督训练,以使训练后的目标识别模型能够识别出图像样本中目标的准确位置。
进一步地,当目标还标注有目标类型时,则图像样本还包括目标的目标类型作为训练标签,用于对目标识别模型进行有监督训练,以使训练后的目标识别模型能够识别出图像样本中目标的准确位置以及目标的目标类型。
可以理解的是,将第一目标和第二目标各自匹配的图像样本用于训练目标识别模型时,能够提高目标识别模型对小目标识别的精度,并且相较于第一目标更小的第二目标必然包括多个图像样本,每个图像样本中第二目标的位置相互区别,从而对于极小的目标可以进行多次识别和验证,进一步提高小目标识别的精度。
上述方案,获取包括多个目标的原始图像,每个目标对应有各自的标注框,基于标注框的面积与面积阈值的关系,将原始图像中的所有目标分成第一目标和第二目标,其中,第二目标对应的标注框的面积小于第一目标对应的标注框的面积,因此,第二目标为极小目标。基于标注框的宽高尺寸确定滑动窗口的窗口长度以及滑动窗口对应的滑动步长,利用滑动窗口按滑动步长在原始图像上进行滑动,直至遍历原始图像得到多个分割区域,随着滑动窗口的滑动过程,每个第一目标的至少部分区域都有可能被围设在至少一个分割区域内,而同一分割区域内也可能包括多个第一目标,将包括至少一个第一目标的分割区域作为第一目标匹配的图像样本,以使第一目标在其对应的图像样本中所占比例较高,同时避免了极小的第二目标在分割区域中占比仍然较小的问题,从原始图像中获取多个能够围设第二目标的拓展区域,将每个拓展区域作为第二目标匹配的图像样本,且每个拓展区域中第二目标之外的背景区域相互区别,以使第二目标在其对应的图像样本中所占比例较高,从而将第一目标和第二目标各自匹配的图像样本用于训练目标识别模型时,能够提高目标识别模型对小目标识别的精度,并且相较于第一目标更小的第二目标必然包括多个图像样本,每个图像样本中第二目标的位置相互区别,从而对于极小的目标可以进行多次识别和验证,进一步提高小目标识别的精度。
请参阅图2,图2是本申请图像样本构建方法另一实施方式的流程示意图,该方法包括:
S201:获取包括多个目标的原始图像,确定原始图像中的第一目标和第二目标,其中,每个目标对应有标注框,第一目标对应的标注框的面积超过面积阈值,第二目标对应的标注框的面积未超过面积阈值。
具体地,获取包括多个目标的原始图像,对所有目标对应的标注框的面积按数值大小进行排序,得到面积分布序列;基于面积分布序列确定面积阈值,将面积超过面积阈值的标注框中的目标作为第一目标,将面积未超过面积阈值的目标作为第二目标;其中,面积分布序列中预设比例的面积超过面积阈值。
可以理解的是,原始图像中每个目标对应有各自的标注框,基于所有标注框的面积按从小到大或从大到小的顺序排列,均可得到面积分布序列。
进一步地,基于面积分布序列中所有标注框面积的分布情况,从面积分布序列中选择一个面积的数值作为面积阈值,以使面积分布序列中预设比例的面积超过面积阈值,将面积超过面积阈值的标注框中的目标作为第一目标,将面积未超过面积阈值的目标作为第二目标,从而面积阈值可以根据不同场景中目标对应的标注框进行适应性设置,以提高面积阈值与场景的适配度,提高第一目标和第二目标分配的合理性。
S202:获取所有标注框对应的最大长度,基于最大长度确定滑动窗口的窗口长度,其中,所有标注框的宽高尺寸对应有最大宽度和最大高度,最大长度与最大宽度和最大高度中的较大值对应,窗口长度大于最大长度。
具体地,每个标注框对应各自的宽高尺寸,所有标注框的宽高尺寸中对应有最大宽度和最大高度,最大宽度和最大高度中的较大值即为所有标注框对应的最大长度,基于最大长度确定滑动窗口的窗口长度,且窗口长度大于最大长度,以确保滑动窗口能够容纳具有最大长度的标注框。
在一应用场景中,基于最大长度确定滑动窗口的窗口长度,包括:按预设放大倍率对最大长度进行放大,得到参考长度;将参考长度临近的预设长度,作为滑动窗口的窗口长度;其中,预设长度为二的幂次方。
具体地,将最大长度按预设放大倍率进行放大处理,得到参考长度,将参考长度与多个预设长度相比,将与参考长度最近且大于最大长度的预设长度作为滑动窗口的窗口长度,其中,预设长度为二的幂次方,从而得到的窗口长度与常规的图像所对应的图像尺寸适配的概率更高。
可以理解的是,预设放大倍率在不同的应用场景中可以是两倍、三倍或四倍等任意自定义的倍率,本申请对此不做具体限制。
S203:基于窗口长度相对最大宽度的差值,得到横向滑动步长,基于窗口长度相对最大高度的差值,得到纵向滑动步长。
具体地,将窗口长度减去最大宽度得到的差值作为横向滑动步长,将窗口长度减去最大高度得到的差值作为纵向滑动步长,从而在滑动窗口在遍历的过程中,能够确保具有最大宽度和/或最大高度的标注框能够被至少一个滑动窗口所对应的分割区域包围,因此每个标注框均能够完整位于至少一个分割区域中。
S204:利用滑动窗口和滑动步长,遍历原始图像得到多个分割区域,将包括至少一第一目标的分割区域作为第一目标匹配的图像样本。
具体地,请参阅图3,图3是图2中步骤S204对应的一实施方式的应用场景示意图,从原始图像左上顶点开始,按照滑动窗口的尺寸切割出对应大小的分割区域,若存在第一目标且第一目标对应的标注框中超过面积比例的框内区域落在分割区域内,则将对应的分割区域作为第一目标匹配的图像样本,然后按照横向滑动步长向右平移滑动窗口,依次得到多个分割区域,直至达到原始图像右侧边缘,若滑动窗口超过了原始图像边缘,则进行补黑边的操作补齐滑动窗口。
进一步地,将滑动窗口移回到素材最左侧边缘,并向下平移纵向滑动步长的距离,依次从左往右移动滑动窗口进行切块,获取第二行分割区域。以此类推从左往右从上往下逐行对原始图像进行切割,最终从一张大的原始图像上得到多个分割区域,并将包括至少一个参考选取区域的分割区域作为第一目标匹配的图像样本。其中,参考选取区域包括第一目标对应的标注框中超过面积比例的框内区域。
可以理解的是,请再次参阅图3,原始图像中的部分第一目标会处于不同的分割区域中,则多个分割区域均作为该第一目标对应的图像样本,且对应的多个图像样本中第一目标之外的背景区域相互区别,从而提高第一目标对应的图像样本的多样性。
S205:从原始图像中获取第二目标对应的多个拓展区域,将每个拓展区域作为第二目标匹配的图像样本,其中,每个拓展区域中第二目标之外的背景区域相互区别。
具体地,向多个预设方向拓展围设第二目标对应的标注框的区域,得到第二目标对应的多个拓展区域;其中,拓展区域的面积至少为第二目标对应的标注框的预设倍数,且第二目标对应的标注框偏离拓展区域的中心;将每个拓展区域分别从原始图像中抠出,得到第一抠图区域,并将第一抠图区域作为第二目标匹配的图像样本。
可以理解的是,以第二目标对应的标注框为起始位置,向多个预设方向拓展围设第二目标对应的标注框的区域,得到多个面积至少为第二目标对应的标注框的预设倍数的拓展区域,从而提高第二目标在对应的拓展区域中的占比的合理性。
进一步地,第二目标对应的标注框偏离拓展区域的中心,从而丰富第二目标在拓展区域中的位置,将第二目标对应的每个拓展区域分别从原始图像中抠出,得到第一抠图区域,将第一抠图区域作为第二目标匹配的图像样本。
在一应用场景中,请参阅图4,图4是图2中步骤S205对应的一实施方式的应用场景示意图,将第二目标对应的标注框的宽高尺寸翻倍,得到拓展区域的宽高尺寸,以第二目标对应的标注框为起始位置,将标注框的顶点分别设置于临近拓展区域的四个顶点的位置,向四个角部拓展围设第二目标对应的标注框的区域,从而得到如图4中所示的四种拓展区域,每个拓展区域中第二目标之外的背景区域相互区别。在其他应用场景中,预设方向可以是任意自定义的方向,本申请对此不做具体限制。
可选地,从原始图像中获取第二目标对应的多个拓展区域,将每个拓展区域作为第二目标匹配的图像样本之前或之后,还包括针对每个目标执行以下步骤:以目标对应的标注框为中心向外扩充围设目标对应的标注框的区域,得到每个目标各自对应的扩充区域;将每个扩充区域分别从原始图像中抠出,得到第二抠图区域;将第一目标对应的第二抠图区域作为第一目标匹配的图像样本,将第二目标对应的第二抠图区域作为第二目标匹配的图像样本。
具体地,将每个第一目标和第二目标对应的标注框分别作为中心,从而以中心位置向外扩充围设目标对应的标注框的区域,得到每个目标各自对应的扩充区域,以使每个目标位于扩张区域的中心,将每个扩充区域分别从原始图像中抠出,得到第二抠图区域,从而将第一目标对应的第二抠图区域作为第一目标匹配的图像样本,对第一目标的图像样本进行补充,获得第一目标位于中心区域的图像样本,将第二目标对应的第二抠图区域作为第二目标匹配的图像样本,对第二目标的图像样本进行补偿,获得第二目标位于中心区域的图像样本。
在一应用场景中,获取所有目标对应的标注框,将每个目标的宽高各增加一定数量的像素,例如:十个或二十个,从而每个目标各自对应的扩充区域,将每个扩充区域分别从原始图像中抠出。
需要说明的是,每个目标预先标注有匹配的目标类型,从原始图像中获取第二目标对应的多个拓展区域,将每个拓展区域作为第二目标匹配的图像样本之后,还包括:基于每个图像样本的预设角部构建每个图像样本各自对应的样本坐标系;基于每个图像样本所匹配的目标对应的标注框的位置,确定每个图像样本所匹配的目标对应的位置信息;基于每个图像样本所匹配的目标对应的位置信息和目标类型,得到每个图像样本对应的标注数据。
具体地,在得到图像样本后,以图像样本的预设角部为坐标原点构建图像样本对应的样本坐标系,从而确定每个图像样本所匹配的目标对应的标注框在样本坐标系中的坐标,其中,目标框在样本坐标系中的坐标即为目标标注框相对于图像样本的坐标偏移量,得到每个图像样本所匹配的目标对应的位置信息,获取每个目标预先标注的目标类型,基于图像样本中的所有目标各自对应的位置信息和目标类型,生成每个图像样本对应的标注数据,以便于将图像样本应用于对目标识别模型进行训练时,能够进行有监督训练。
可以理解的是,上述生成图像样本对应的标注数据的过程也可以是在第一目标或第二目标得到对应的任一图像样本之后,即刻基于图像样本中的所有目标各自对应的位置信息和目标类型,生成每个图像样本对应的标注数据,本申请对此不做具体限制。
可选地,标注数据为轻量级的数据交换格式(JavaScript Object Notation,JSON),以便于解析和生成。
在本实施例中,针对原始图像中较小的第一目标和第二目标通过多种构建图像样样本的方式,构建第一目标和第二目标对应的多个图像样本,且为图像样本生成对应的标注数据,将第一目标和第二目标各自匹配的图像样本用于训练目标识别模型时,能够提高目标识别模型对小目标识别的精度。
请参阅图5,图5是本申请目标识别模型的训练方法一实施方式的流程示意图,该方法包括:
S501:获取多个图像样本。
具体地,图像样本是基于上述任一实施例中所述的图像样本构建方法获得的,因此,图像样本中的目标在图像样本中所占的比例较为合理。
S502:利用多个图像样本训练目标识别模型,得到训练后的目标识别模型。
具体地,图像样本包括目标对应的标注框的位置信息,将图像样本输入至目标识别模型,得到目标识别模型对应的预测位置,基于预测位置和图像样本中目标的标注框,确定训练损失,基于训练损失对目标识别模型的参数进行调整,直至满足预设收敛条件,得到训练后的目标识别模型。
可选地,图像样本对应有标注数据,标注数据包括目标对应的标注框的位置信息和目标类型,将图像样本输入至目标识别模型,得到目标识别模型对应的预测位置和预测类型,基于预测位置和位置信息之间的差值以及预测类型和目标类型之间的差值,确定训练损失,基于训练损失对目标识别模型的参数进行调整,直至满足预设收敛条件,得到训练后的目标识别模型。
可以理解的是,图像样本从原始图像中获取,原始图像对应有采集场景,当获得训练后的目标识别模型后,响应于获得从同一采集场景中获得的待处理图像,基于上述任一实施例中滑动窗口及其对应的滑动步长遍历待处理图像,将待处理图像分成多个待处理子图,将待处理图像和待处理子图输入至训练后的目标识别模型,得到目标识别模型输出的目标识别结果。其中,由于待处理图像和原始图像对应同一采集场景,则上述任一实施例中所采用的滑动窗口和滑动步长可以沿用,获取尺寸更小的待处理子图,将待处理图像和待处理子图均输入至训练后的目标识别模型,从而通过对待处理子图的识别提高对小目标识别的精度,通过对待处理图像的识别,降低因滑动窗口未获得完整的大目标遗漏大目标的概率,提高目标识别结果的准确率。
请参阅图6,图6是本申请电子设备一实施方式的结构示意图,该电子设备60包括相互耦接的存储器601和处理器602,其中,存储器601存储有程序数据(图未示),处理器602调用程序数据以实现上述任一实施例中的方法,相关内容的说明请参见上述方法实施例的详细描述,在此不再赘叙。
请参阅图7,图7是本申请计算机可读存储介质一实施方式的结构示意图,该计算机可读存储介质70存储有程序数据700,该程序数据700被处理器执行时实现上述任一实施例中的方法,相关内容的说明请参见上述方法实施例的详细描述,在此不再赘叙。
需要说明的是,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种图像样本构建方法,其特征在于,所述方法包括:
获取包括多个目标的原始图像,确定所述原始图像中的第一目标和第二目标;其中,每个所述目标对应有标注框,所述第一目标对应的标注框的面积超过面积阈值,所述第二目标对应的标注框的面积未超过所述面积阈值;
基于所述标注框的宽高尺寸确定滑动窗口和滑动步长,利用所述滑动窗口和所述滑动步长,遍历所述原始图像得到多个分割区域,将包括至少一所述第一目标的分割区域作为所述第一目标匹配的图像样本;
从所述原始图像中获取所述第二目标对应的多个拓展区域,将每个所述拓展区域作为所述第二目标匹配的图像样本;其中,每个所述拓展区域中所述第二目标之外的背景区域相互区别。
2.根据权利要求1所述的图像样本构建方法,其特征在于,所述基于所述标注框的宽高尺寸确定滑动窗口和滑动步长,包括:
获取所有所述标注框对应的最大长度,基于所述最大长度确定所述滑动窗口的窗口长度;其中,所有所述标注框的宽高尺寸对应有最大宽度和最大高度,所述最大长度与所述最大宽度和所述最大高度中的较大值对应,所述窗口长度大于所述最大长度;
基于所述窗口长度相对所述最大宽度的差值,得到横向滑动步长,基于所述窗口长度相对所述最大高度的差值,得到纵向滑动步长。
3.根据权利要求2所述的图像样本构建方法,其特征在于,所述基于所述最大长度确定所述滑动窗口的窗口长度,包括:
按预设放大倍率对所述最大长度进行放大,得到参考长度;
将所述参考长度临近的预设长度,作为所述滑动窗口的窗口长度;其中,所述预设长度为二的幂次方。
4.根据权利要求1所述的图像样本构建方法,其特征在于,所述从所述原始图像中获取所述第二目标对应的多个拓展区域,将每个所述拓展区域作为所述第二目标匹配的图像样本,包括:
向多个预设方向拓展围设所述第二目标对应的标注框的区域,得到所述第二目标对应的多个所述拓展区域;其中,所述拓展区域的面积至少为所述第二目标对应的标注框的预设倍数,且所述第二目标对应的标注框偏离所述拓展区域的中心;
将每个所述拓展区域分别从所述原始图像中抠出,得到第一抠图区域,并将所述第一抠图区域作为所述第二目标匹配的图像样本。
5.根据权利要求1或4所述的图像样本构建方法,其特征在于,所述从所述原始图像中获取所述第二目标对应的多个拓展区域,将每个所述拓展区域作为所述第二目标匹配的图像样本之前或之后,还包括针对每个所述目标执行以下步骤:
以所述目标对应的标注框为中心向外扩充围设所述目标对应的标注框的区域,得到每个所述目标各自对应的扩充区域;
将每个所述扩充区域分别从所述原始图像中抠出,得到第二抠图区域;
将所述第一目标对应的第二抠图区域作为所述第一目标匹配的图像样本,将所述第二目标对应的第二抠图区域作为所述第二目标匹配的图像样本。
6.根据权利要求5所述的图像样本构建方法,其特征在于,每个所述目标预先标注有匹配的目标类型,所述从所述原始图像中获取所述第二目标对应的多个拓展区域,将每个所述拓展区域作为所述第二目标匹配的图像样本之后,还包括:
基于每个所述图像样本的预设角部构建每个所述图像样本各自对应的样本坐标系;
基于每个所述图像样本所匹配的目标对应的标注框的位置,确定每个所述图像样本所匹配的目标对应的位置信息;
基于每个所述图像样本所匹配的目标对应的所述位置信息和所述目标类型,得到每个所述图像样本对应的标注数据。
7.根据权利要求1所述的图像样本构建方法,其特征在于,所述获取包括多个目标的原始图像,确定所述原始图像中的第一目标和第二目标,包括:
获取包括多个目标的原始图像,对所有所述目标对应的标注框的面积按数值大小进行排序,得到面积分布序列;
基于所述面积分布序列确定所述面积阈值,将面积超过所述面积阈值的标注框中的目标作为所述第一目标,将面积未超过所述面积阈值的目标作为所述第二目标;其中,所述面积分布序列中预设比例的面积超过所述面积阈值。
8.一种目标识别模型的训练方法,其特征在于,所述方法包括:
获取多个图像样本;其中,所述图像样本是基于权利要求1-7中任一项所述的图像样本构建方法获得的;
利用多个所述图像样本训练目标识别模型,得到训练后的所述目标识别模型。
9.一种电子设备,其特征在于,包括:相互耦接的存储器和处理器,其中,所述存储器存储有程序数据,所述处理器调用所述程序数据以执行如权利要求1-7或8中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有程序数据,其特征在于,所述程序数据被处理器执行时实现如权利要求1-7或8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310868302.XA CN116912621B (zh) | 2023-07-14 | 2023-07-14 | 图像样本构建方法、目标识别模型的训练方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310868302.XA CN116912621B (zh) | 2023-07-14 | 2023-07-14 | 图像样本构建方法、目标识别模型的训练方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116912621A true CN116912621A (zh) | 2023-10-20 |
CN116912621B CN116912621B (zh) | 2024-02-20 |
Family
ID=88350581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310868302.XA Active CN116912621B (zh) | 2023-07-14 | 2023-07-14 | 图像样本构建方法、目标识别模型的训练方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116912621B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160328856A1 (en) * | 2015-05-08 | 2016-11-10 | Qualcomm Incorporated | Systems and methods for reducing a plurality of bounding regions |
CN112532871A (zh) * | 2020-11-11 | 2021-03-19 | 浙江大华技术股份有限公司 | 图像下采样方法、电子设备及存储介质 |
WO2021066290A1 (ko) * | 2019-10-04 | 2021-04-08 | 에스케이텔레콤 주식회사 | 고해상도 객체 검출을 위한 장치 및 방법 |
CN113420745A (zh) * | 2021-08-25 | 2021-09-21 | 江西中业智能科技有限公司 | 基于图像的目标识别方法、系统、存储介质及终端设备 |
CN113420727A (zh) * | 2021-08-20 | 2021-09-21 | 北京世纪好未来教育科技有限公司 | 表格检测模型的训练方法、装置及表格检测方法、装置 |
CN113780110A (zh) * | 2021-08-25 | 2021-12-10 | 中国电子科技集团公司第三研究所 | 一种图像序列中弱小目标实时检测方法及设备 |
CN113807407A (zh) * | 2021-08-25 | 2021-12-17 | 西安电子科技大学广州研究院 | 目标检测模型训练方法、模型性能检测方法及装置 |
CN113947768A (zh) * | 2021-10-15 | 2022-01-18 | 京东鲲鹏(江苏)科技有限公司 | 一种基于单目3d目标检测的数据增强方法和装置 |
CN114219070A (zh) * | 2021-11-18 | 2022-03-22 | 浙江大华技术股份有限公司 | 图像处理模型的训练方法、目标检测方法和属性识别方法 |
CN114387199A (zh) * | 2020-10-19 | 2022-04-22 | 杭州海康威视数字技术股份有限公司 | 图像标注方法及装置 |
CN114782412A (zh) * | 2022-05-26 | 2022-07-22 | 马上消费金融股份有限公司 | 图像检测方法、目标检测模型的训练方法及装置 |
WO2023273668A1 (zh) * | 2021-06-29 | 2023-01-05 | 腾讯科技(深圳)有限公司 | 图像分类方法、装置、设备、存储介质及程序产品 |
CN115880358A (zh) * | 2022-11-01 | 2023-03-31 | 北京邮电大学 | 定位模型的构建方法、影像标志点的定位方法及电子设备 |
CN116188938A (zh) * | 2022-12-31 | 2023-05-30 | 浙江大华技术股份有限公司 | 目标对象的确定方法、装置、存储介质及电子装置 |
-
2023
- 2023-07-14 CN CN202310868302.XA patent/CN116912621B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160328856A1 (en) * | 2015-05-08 | 2016-11-10 | Qualcomm Incorporated | Systems and methods for reducing a plurality of bounding regions |
WO2021066290A1 (ko) * | 2019-10-04 | 2021-04-08 | 에스케이텔레콤 주식회사 | 고해상도 객체 검출을 위한 장치 및 방법 |
CN114387199A (zh) * | 2020-10-19 | 2022-04-22 | 杭州海康威视数字技术股份有限公司 | 图像标注方法及装置 |
CN112532871A (zh) * | 2020-11-11 | 2021-03-19 | 浙江大华技术股份有限公司 | 图像下采样方法、电子设备及存储介质 |
WO2023273668A1 (zh) * | 2021-06-29 | 2023-01-05 | 腾讯科技(深圳)有限公司 | 图像分类方法、装置、设备、存储介质及程序产品 |
CN113420727A (zh) * | 2021-08-20 | 2021-09-21 | 北京世纪好未来教育科技有限公司 | 表格检测模型的训练方法、装置及表格检测方法、装置 |
CN113420745A (zh) * | 2021-08-25 | 2021-09-21 | 江西中业智能科技有限公司 | 基于图像的目标识别方法、系统、存储介质及终端设备 |
CN113807407A (zh) * | 2021-08-25 | 2021-12-17 | 西安电子科技大学广州研究院 | 目标检测模型训练方法、模型性能检测方法及装置 |
CN113780110A (zh) * | 2021-08-25 | 2021-12-10 | 中国电子科技集团公司第三研究所 | 一种图像序列中弱小目标实时检测方法及设备 |
CN113947768A (zh) * | 2021-10-15 | 2022-01-18 | 京东鲲鹏(江苏)科技有限公司 | 一种基于单目3d目标检测的数据增强方法和装置 |
CN114219070A (zh) * | 2021-11-18 | 2022-03-22 | 浙江大华技术股份有限公司 | 图像处理模型的训练方法、目标检测方法和属性识别方法 |
CN114782412A (zh) * | 2022-05-26 | 2022-07-22 | 马上消费金融股份有限公司 | 图像检测方法、目标检测模型的训练方法及装置 |
CN115880358A (zh) * | 2022-11-01 | 2023-03-31 | 北京邮电大学 | 定位模型的构建方法、影像标志点的定位方法及电子设备 |
CN116188938A (zh) * | 2022-12-31 | 2023-05-30 | 浙江大华技术股份有限公司 | 目标对象的确定方法、装置、存储介质及电子装置 |
Non-Patent Citations (3)
Title |
---|
MATE KISANTAL等: "Augmentation for small object detection", 《ARXIV》, pages 1 - 15 * |
QI-JIN WANG等: "Pest24: A large-scale very small object data set of agricultural pests for multi-target detection", 《COMPUTERS AND ELECTRONICS IN AGRICULTURE》, vol. 175, pages 105585 * |
孙福艳等: "深度学习在结肠息肉分割中的应用综述", 《计算机工程与应用》, pages 1 - 16 * |
Also Published As
Publication number | Publication date |
---|---|
CN116912621B (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110647795B (zh) | 一种表格识别方法 | |
CN108986152B (zh) | 一种基于差分图像的异物检测方法及装置 | |
CN109977952B (zh) | 基于局部最大值的候选目标检测方法 | |
CN105260740B (zh) | 一种元件识别方法及装置 | |
JP5974589B2 (ja) | 画像処理装置およびプログラム | |
US9477885B2 (en) | Image processing apparatus, image processing method and image processing program | |
JP2006059351A (ja) | 劣化辞書生成プログラム、方法および装置 | |
CN113435240A (zh) | 一种端到端的表格检测和结构识别方法及系统 | |
CN111179287A (zh) | 人像实例分割方法、装置、设备及存储介质 | |
CN102831428A (zh) | 图像内快速响应矩阵码区域的提取方法 | |
CN113657369B (zh) | 一种文字识别方法及其相关设备 | |
CN113657370A (zh) | 一种文字识别方法及其相关设备 | |
CN113657225B (zh) | 一种目标检测方法 | |
JP5879291B2 (ja) | 画像処理装置、画像処理プログラムおよび画像処理装置の作動方法 | |
CN116912621B (zh) | 图像样本构建方法、目标识别模型的训练方法及相关装置 | |
EP4075381B1 (en) | Image processing method and system | |
JP2018180646A (ja) | 物体候補領域推定装置、物体候補領域推定方法、及び物体候補領域推定プログラム | |
CN110826488A (zh) | 一种针对电子文档的图像识别方法、装置及存储设备 | |
CN116152474A (zh) | 扫描数据的处理方法、装置、设备及介质 | |
WO2024197829A1 (zh) | 单字检测方法、模型的训练方法、装置、设备及介质 | |
CN113177995B (zh) | Cad图纸的文本重组方法和计算机可读存储介质 | |
JP6613625B2 (ja) | 画像処理プログラム、画像処理装置、及び画像処理方法 | |
CN118229711B (zh) | 感兴趣区域遮罩提取方法、装置、设备和存储介质 | |
EP4336444A1 (en) | Corner detection method and apparatus | |
CN111126571B (zh) | 基于dht网络的r-cnn网络优化方法、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |