CN113870196A - 一种基于锚点切图的图像处理方法、装置、设备和介质 - Google Patents
一种基于锚点切图的图像处理方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN113870196A CN113870196A CN202111063785.3A CN202111063785A CN113870196A CN 113870196 A CN113870196 A CN 113870196A CN 202111063785 A CN202111063785 A CN 202111063785A CN 113870196 A CN113870196 A CN 113870196A
- Authority
- CN
- China
- Prior art keywords
- image
- sliding window
- information
- target object
- size information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 238000001514 detection method Methods 0.000 claims abstract description 101
- 238000012549 training Methods 0.000 claims description 42
- 238000012545 processing Methods 0.000 claims description 30
- 238000000034 method Methods 0.000 claims description 24
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 11
- 238000002372 labelling Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 abstract description 15
- 238000010586 diagram Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/62—Analysis of geometric attributes of area, perimeter, diameter or volume
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/75—Determining position or orientation of objects or cameras using feature-based methods involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Geometry (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种基于锚点切图的图像处理方法、装置、设备和介质,基于图像的标注信息,获取图像的锚点信息;锚点信息可以包括中心点信息和锚点识别框的尺寸信息。按照设定的滑窗最大值、滑窗最小值、尺寸倍数以及锚点识别框的尺寸信息,可以较为准确的确定出滑窗尺寸信息;基于滑窗尺寸信息以及中心点信息,可以从图像中截取包含目标物的切图,利用切图对初始深度检测网络模型进行训练,得到用于检测图像中目标物所在位置的深度检测网络模型。对于超大图像而言,通过切图的方式可以将图像截取为像素值较小的切图,从而使得初始深度检测网络模型可以实现对切图的检测分析,达到对超大图像检测分析的目的。
Description
技术领域
本申请涉及计算机视觉技术领域,特别是涉及一种基于锚点切图的图像处理方法、装置、设备和计算机可读存储介质。
背景技术
目标检测是计算机视觉领域最重要的研究方向之一。由于其较强的实用性和落地前景,大量科研人员跻身目标算法优化的科研社区之列。目标检测算法逐渐趋于成熟,各种算法和模型也不断涌现出来。现阶段,由于深度学习的普及和算力的普遍提高,前沿目标检测算法如Yolo v5和目标检测网络(Center Net)模型等均在效率和准确性上取得了较好的表现。其中,Yolo v5是一种快速紧凑的开源对象检测模型,与其它网络相比,同等尺寸信息下性能更强,并且具有很不错的稳定性,可以预测对象的类别和边界框的端对端神经网络。
模型的训练依赖于数据集。COCO数据库是一个大型图像数据集,专为对象检测、分割、人体关键点检测、语义分割和字幕生成而设计。但是由于现实场景中,摄像机收集到的图像像素要远大于目前公开数据集的标准尺寸信息,如COCO大多数图像的单边像素均在1000以内,而现实场景总摄像头、手机等拍摄工具收集到图像单边像素大多在3000以上,更有超大像素图像如PANDA数据集,单边像素在15000到32000之间。
因此,现有的检测算法无法解决超大像素图像的检测问题。一方面,现有算法的算力无法满足将整张图像输入到算法模型中进行推理;另一方面,对图像进行单纯的缩放会丢失大量的细节特征从而导致小目标的严重漏检。如何在现有检测模型基础上,设计适用于自然场景超大像素图像或视频的检测流程,是提升现有算法落地性的关键,也是现有检测算法在超大像素图像上的瓶颈所在。
可见,如何实现对超大像素图像的检测分析,是本领域技术人员需要解决的问题。
发明内容
本申请实施例的目的是提供一种基于锚点切图的图像处理方法、装置、设备和计算机可读存储介质,可以实现对超大图像的检测分析。
为解决上述技术问题,本申请实施例提供一种基于锚点切图的图像处理方法,包括:
基于图像的标注信息,获取所述图像的锚点信息;其中,所述锚点信息包括中心点信息和锚点识别框的尺寸信息;
按照设定的滑窗最大值、滑窗最小值、尺寸倍数以及所述锚点识别框的尺寸信息,确定出滑窗尺寸信息;
基于所述滑窗尺寸信息以及所述中心点信息,从所述图像中截取包含目标物的切图;
利用所述切图对初始深度检测网络模型进行训练,得到用于检测图像中目标物所在位置的深度检测网络模型。
可选地,在所述利用所述切图对初始深度检测网络模型进行训练,得到用于检测图像中目标物所在位置的深度检测网络模型还包括:
在获取到新图像的情况下,按照设定的多种尺寸信息对所述新图像进行切分;
按照所述深度检测网络模型要求的尺寸信息,对切分得到的各切片图像进行缩放;
利用所述深度检测网络模型对缩放后的各切片图像进行分析,得到包含目标物的检测框集合。
可选地,还包括:
利用soft-nms算法,从所述检测框集合中删除冗余检测框。
可选地,所述按照设定的滑窗最大值、滑窗最小值、尺寸倍数以及所述锚点识别框的尺寸信息,确定出滑窗尺寸信息包括:
按照如下公式,计算所述滑窗尺寸信息S,
S=max(mn,min(mx,λw))
其中,mx表示滑窗最大值,mn表示滑窗最小值,λ表示尺寸倍数,w表示锚点识别框的尺寸信息。
可选地,在所述基于所述滑窗尺寸信息以及所述中心点信息,从所述图像中截取包含目标物的切图之后还包括:
计算所述滑窗尺寸信息对应的滑窗与所述锚点信息对应的目标框的交并比;
将所述交并比大于或等于预设阈值的切图作为训练样本,利用所述训练样本对初始深度检测网络模型进行训练。
可选地,还包括:
抹除所述交并比小于所述预设阈值的切图。
可选地,所述目标物所在位置包括目标物的中心点横纵坐标、目标物对应的目标滑框的宽高值、所述目标滑框包含的目标物属于设定物品的概率以及所述目标滑框包含的目标物所属的类别。
本申请实施例还提供了一种基于锚点切图的图像处理装置,包括获取单元、确定单元、截取单元和训练单元;
所述获取单元,用于基于图像的标注信息,获取所述图像的锚点信息;其中,所述锚点信息包括中心点信息和锚点识别框的尺寸信息;
所述确定单元,用于按照设定的滑窗最大值、滑窗最小值、尺寸倍数以及所述锚点识别框的尺寸信息,确定出滑窗尺寸信息;
所述截取单元,用于基于所述滑窗尺寸信息以及所述中心点信息,从所述图像中截取包含目标物的切图;
所述训练单元,用于利用所述切图对初始深度检测网络模型进行训练,得到用于检测图像中目标物所在位置的深度检测网络模型。
可选地,还包括切分单元、缩放单元和分析单元;
所述切分单元,用于在获取到新图像的情况下,按照设定的多种尺寸信息对所述新图像进行切分;
所述缩放单元,用于按照所述深度检测网络模型要求的尺寸信息,对切分得到的各切片图像进行缩放;
所述分析单元,用于利用所述深度检测网络模型对缩放后的各切片图像进行分析,得到包含目标物的检测框集合。
可选地,还包括删除单元;
所述删除单元,用于利用soft-nms算法,从所述检测框集合中删除冗余检测框。
可选地,所述确定单元用于按照如下公式,计算所述滑窗尺寸信息S,
S=max(mn,min(mx,λw))
其中,mx表示滑窗最大值,mn表示滑窗最小值,λ表示尺寸倍数,w表示锚点识别框的尺寸信息。
可选地,在所述基于所述滑窗尺寸信息以及所述中心点信息,从所述图像中截取包含目标物的切图之后还包括计算单元和作为单元;
所述计算单元,用于计算所述滑窗尺寸信息对应的滑窗与所述锚点信息对应的目标框的交并比;
所述作为单元,用于将所述交并比大于或等于预设阈值的切图作为训练样本,利用所述训练样本对初始深度检测网络模型进行训练。
可选地,还包括抹除单元;
所述抹除单元,用于抹除所述交并比小于所述预设阈值的切图。
可选地,所述目标物所在位置包括目标物的中心点横纵坐标、目标物对应的目标滑框的宽高值、所述目标滑框包含的目标物属于设定物品的概率以及所述目标滑框包含的目标物所属的类别。
本申请实施例还提供了一种基于锚点切图的图像处理设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如上述任意一项所述基于锚点切图的图像处理方法的步骤。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项所述基于锚点切图的图像处理方法的步骤。
由上述技术方案可以看出,基于图像的标注信息,获取图像的锚点信息;其中,锚点信息可以包括中心点信息和锚点识别框的尺寸信息。标注信息可以用于表示图像中目标物的位置,但是该位置并不精确,因此需要获取图像的锚点信息。按照设定的滑窗最大值、滑窗最小值、尺寸倍数以及锚点识别框的尺寸信息,可以较为准确的确定出用于截取目标物的滑窗尺寸信息;基于滑窗尺寸信息以及中心点信息,可以从图像中截取包含目标物的切图,利用切图对初始深度检测网络模型进行训练,得到用于检测图像中目标物所在位置的深度检测网络模型。在该技术方案中,依赖于图像中目标物所在的位置,可以确定出截取目标物的滑窗尺寸信息,从而可以从图像中截取包含目标物的切图。对于超大图像而言,通过切图的方式可以将图像截取为像素值较小的切图,从而使得初始深度检测网络模型可以实现对切图的检测分析,通过改变图像的形式,达到对超大图像检测分析的目的。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基于锚点切图的图像处理方法的流程图;
图2为本申请实施例提供的一种从图像中截取切图的示意图;
图3为本申请实施例提供的一种基于锚点切图的图像处理装置的结构示意图;
图4为本申请另一实施例提供的一种基于锚点切图的图像处理设备的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本申请保护范围。
本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。
接下来,详细介绍本申请实施例所提供的一种基于锚点切图的图像处理方法。图1为本申请实施例提供的一种基于锚点切图的图像处理方法的流程图,该方法包括:
S101:基于图像的标注信息,获取图像的锚点信息。
其中,锚点信息可以包括中心点信息和锚点识别框的尺寸信息。
图像的标注信息可以是图像中目标物所在区域的位置。根据目标物所在区域的位置,可以粗略的确定出目标物所在的区域,可以将目标物所在区域的中心点信息以及该区域边框的尺寸信息作为图像的锚点信息。锚点识别框的尺寸信息可以包括锚点识别框的宽度值和高度值。
目标物可以是行人,也可以是建筑物、动物等,对于目标物的具体形式不做限定。
S102:按照设定的滑窗最大值、滑窗最小值、尺寸倍数以及锚点识别框的尺寸信息,确定出滑窗尺寸信息。
一张图像中包含的目标物个数可能为多个,每个目标物的处理方式相同,因此在后续介绍中均以图像中一个目标物的处理为例展开的介绍。
在本申请实施例中,为了实现对超大像素图像进行合理的切图处理,保证每张切图中尽可能包含完整的目标物,因此需要确定出目标物所在的区域对应的合适的滑窗尺寸信息。
其中,滑窗尺寸信息可以包括滑窗的宽度值和高度值。
在实际应用中,可以根据所需检测的目标物的类型,设定好滑窗最大值、滑窗最小值和尺寸倍数。
在具体实现中,可以按照如下公式,计算滑窗尺寸信息S,
S=max(mn,min(mx,λw))
其中,mx表示滑窗最大值,mn表示滑窗最小值,λ表示尺寸倍数,w表示锚点识别框的尺寸信息。
w为锚点识别框的宽度值时,计算出的S为滑窗的宽度值;w为锚点识别框的高度值时,计算出的S为滑窗的高度值。
S103:基于滑窗尺寸信息以及中心点信息,从图像中截取包含目标物的切图。
基于上述S101和S102的操作可以确定出图像中每个目标物所对应的滑窗尺寸信息。中心点信息可以用于标识目标物所在区域的中心点,在确定出目标物对应的中心点以及滑窗尺寸信息之后,便可以从图像中截取出包含该目标物的切图。
如图2所示为本申请实施例提供的一种从图像中截取切图的示意图,图2中黑色椭圆表示目标物,虚线框表示所需截取的切图边框。
在本申请实施例中,针对于每个目标物计算其对应的滑窗尺寸信息,从而保证截取得到的切图可以尽可能的包含完整的目标物。
S104:利用切图对初始深度检测网络模型进行训练,得到用于检测图像中目标物所在位置的深度检测网络模型。
从图像中截取切图,使得超大像素图像可以截取为多个小像素图像,初始深度检测网络模型的处理能力可以实现对切图的分析处理。
并且各切图中基本都包含了完整的目标物,利用切图对初始深度检测网络模型进行训练,使得训练后的深度检测网络模型具有较高的检测准确率。
在本申请实施例中,目标物所在位置为深度检测网络模型的输出信息,为了详细的了解目标物的信息,可以预先设置好深度检测网络模型输出信息的类型。目标物所在位置可以包括目标物的中心点横纵坐标、目标物对应的目标滑框的宽高值。并且为了实现对不同类型的目标物的识别,目标物所在位置还可以包括目标滑框包含的目标物属于设定物品的概率以及目标滑框包含的目标物所属的类别。
在具体实现中,可以将获得的切图作为训练样本输入到Input中进行归一化处理并转化成矩阵,将处理后的矩阵输入到初始深度网络模型中提取高维特征,再将特征经过卷机映射为空间特征,在空间特征上的区域则代表原图对应区域的特征向量。训练过程中,在空间特征上按照规则产出若干个框,每个滑窗可以对应一个输出结果,该输出结果可以包含6个参数:目标物的中心点横坐标和纵坐标、目标物对应的目标滑框的宽度值和高度值、目标滑框包含的目标物属于设定物品的概率以及目标滑框包含的目标物所属的类别。通过对这6个参数与输入标注信息进行最大似然拟合,计算梯度并反向传播,优化网络模型中的权重参数使梯度下降,令网络收敛。上述模型训练过程属于现有较为成熟的模型训练流程,在此不再展开介绍。
在实际应用中,模型能够识别的目标物类型可以有多种,模型的输出结果中目标滑框包含的目标物属于设定物品的概率,可以是目标物属于所需识别的各目标物类型的概率。概率最高的目标物类型即为目标物所属的类别。
举例说明,设定的物品可以是所需识别的目标物,例如,行人、动物、建筑物等。假设图像中一个目标滑框包含的目标物属于行人的概率为90%,属于动物的概率为10%,属于建筑物的概率为0%,则目标滑框包含的目标物所属的类别为行人。
由上述技术方案可以看出,基于图像的标注信息,获取图像的锚点信息;其中,锚点信息可以包括中心点信息和锚点识别框的尺寸信息。标注信息可以用于表示图像中目标物的位置,但是该位置并不精确,因此需要获取图像的锚点信息。按照设定的滑窗最大值、滑窗最小值、尺寸倍数以及锚点识别框的尺寸信息,可以较为准确的确定出用于截取目标物的滑窗尺寸信息;基于滑窗尺寸信息以及中心点信息,可以从图像中截取包含目标物的切图,利用切图对初始深度检测网络模型进行训练,得到用于检测图像中目标物所在位置的深度检测网络模型。在该技术方案中,依赖于图像中目标物所在的位置,可以确定出截取目标物的滑窗尺寸信息,从而可以从图像中截取包含目标物的切图。对于超大图像而言,通过切图的方式可以将图像截取为像素值较小的切图,从而使得初始深度检测网络模型可以实现对切图的检测分析,通过改变图像的形式,达到对超大图像检测分析的目的。
在本申请实施例中,在完成对深度检测网络模型的训练之后,可以利用深度检测网络模型对新图像进行处理,在将新图像输入至深度检测网络模型之前,需要对新图像进行切分和缩放,从而使得缩放后的图像可以符合深度检测网络模型对输入图像的尺寸要求。
在具体实现中,可以在获取到新图像的情况下,按照设定的多种尺寸信息对新图像进行切分。
由于系统无法提前获知新图像中包含目标物的标注信息,因此为了保证切分的图像能够尽可能包含完整的目标物,可以按照多种不同的尺寸对新图像进行切分。
例如,在实际应用中,可以按照1*1,2*2和3*5这三种尺寸对新图像进行切分。
深度检测网络模型对输入的图片一般会有尺寸要求,因此在按照设定的多种尺寸信息对新图像进行切分之后,可以按照深度检测网络模型要求的尺寸信息,对切分得到的各切片图像进行缩放。利用深度检测网络模型对缩放后的各切片图像进行分析,得到包含目标物的检测框集合。
考虑到实际应用中,由于按照不同的尺寸信息对新图像进行了切分,可能会出现同一个目标物在多张图像中出现的情况,导致得到的检测框集合出现冗余检测框,因此,在本申请实施例中可以利用soft-nms算法,从检测框集合中删除冗余检测框。
soft-nms算法可以用来去除重复框,降低误检。其实现原理可以参见现有技术,在此不做赘述。
在本申请实施例中,采用多种尺寸信息对新图像进行切分,从而保证切分得到的某些图像中可以包含有完整的目标物,从而使得检测网络模型可以较为准确的分析出包含目标物的检测框集合。并且进一步对检测框集合去除冗余,使最终得到的检测框集合更加精简。
训练样本的好坏是影响深度检测网络模型训练结果的重要因素,因此在本申请实施例中,为了提升深度检测网络模型的检测准确性,可以在基于滑窗尺寸信息以及中心点信息,从图像中截取包含目标物的切图之后,计算滑窗尺寸信息对应的滑窗与锚点信息对应的目标框的交并比;将交并比大于或等于预设阈值的切图作为训练样本,利用训练样本对初始深度检测网络模型进行训练。
训练样本包括正样本和负样本,正样本可以是包含目标物的图像,负样本可以是不包含目标物的图像。一般情况下,会将交并比大于或等于预设阈值的切图作为训练样本的正样本,将交并比小于预设阈值的切图作为训练样本的负样本。但是交并比小于预设阈值的切图可能包含的是不完整的目标物,其不适合作为负样本,为了避免其对模型训练造成影响,可以抹除交并比小于预设阈值的切图。在实际应用中,可以采用填充灰度的方式达到抹除切图的效果。
在实际应用中,可以将交并比大于或等于预设阈值的切图作为正样本。将填充灰度之后的切图作为负样本,或者将预先设定好的不包含目标物的图像作为负样本。
通过计算目标框的交并比,可以有效的筛选出适合模型训练的正样本。并且通过填充灰度的方式,可以降低交并比小于预设阈值的切图对模型训练造成的影响,保证了模型训练的准确性。
图3为本申请实施例提供的一种基于锚点切图的图像处理装置的结构示意图,包括获取单元31、确定单元32截取单元33和训练单元34;
获取单元31,用于基于图像的标注信息,获取图像的锚点信息;其中,锚点信息包括中心点信息和锚点识别框的尺寸信息;
确定单元32,用于按照设定的滑窗最大值、滑窗最小值、尺寸倍数以及锚点识别框的尺寸信息,确定出滑窗尺寸信息;
截取单元33,用于基于滑窗尺寸信息以及中心点信息,从图像中截取包含目标物的切图;
训练单元34,用于利用切图对初始深度检测网络模型进行训练,得到用于检测图像中目标物所在位置的深度检测网络模型。
可选地,还包括切分单元、缩放单元和分析单元;
切分单元,用于在获取到新图像的情况下,按照设定的多种尺寸信息对新图像进行切分;
缩放单元,用于按照深度检测网络模型要求的尺寸信息,对切分得到的各切片图像进行缩放;
分析单元,用于利用深度检测网络模型对缩放后的各切片图像进行分析,得到包含目标物的检测框集合。
可选地,还包括删除单元;
删除单元,用于利用soft-nms算法,从检测框集合中删除冗余检测框。
可选地,确定单元用于按照如下公式,计算滑窗尺寸信息S,
S=max(mn,min(mx,λw))
其中,mx表示滑窗最大值,mn表示滑窗最小值,λ表示尺寸倍数,w表示锚点识别框的尺寸信息。
可选地,在基于滑窗尺寸信息以及中心点信息,从图像中截取包含目标物的切图之后还包括计算单元和作为单元;
计算单元,用于计算滑窗尺寸信息对应的滑窗与锚点信息对应的目标框的交并比;
作为单元,用于将交并比大于或等于预设阈值的切图作为训练样本,利用训练样本对初始深度检测网络模型进行训练。
可选地,还包括抹除单元;
抹除单元,用于抹除交并比小于预设阈值的切图。
可选地,目标物所在位置包括目标物的中心点横纵坐标、目标物对应的目标滑框的宽高值、目标滑框包含的目标物属于设定物品的概率以及目标滑框包含的目标物所属的类别。
图3所对应实施例中特征的说明可以参见图1所对应实施例的相关说明,这里不再一一赘述。
由上述技术方案可以看出,基于图像的标注信息,获取图像的锚点信息;其中,锚点信息可以包括中心点信息和锚点识别框的尺寸信息。标注信息可以用于表示图像中目标物的位置,但是该位置并不精确,因此需要获取图像的锚点信息。按照设定的滑窗最大值、滑窗最小值、尺寸倍数以及锚点识别框的尺寸信息,可以较为准确的确定出用于截取目标物的滑窗尺寸信息;基于滑窗尺寸信息以及中心点信息,可以从图像中截取包含目标物的切图,利用切图对初始深度检测网络模型进行训练,得到用于检测图像中目标物所在位置的深度检测网络模型。在该技术方案中,依赖于图像中目标物所在的位置,可以确定出截取目标物的滑窗尺寸信息,从而可以从图像中截取包含目标物的切图。对于超大图像而言,通过切图的方式可以将图像截取为像素值较小的切图,从而使得初始深度检测网络模型可以实现对切图的检测分析,通过改变图像的形式,达到对超大图像检测分析的目的。
图4为本申请另一实施例提供的一种基于锚点切图的图像处理设备的结构图,如图4所示,基于锚点切图的图像处理设备包括:存储器20,用于存储计算机程序;
处理器21,用于执行计算机程序时实现如上述实施例基于锚点切图的图像处理方法的步骤。
本实施例提供的基于锚点切图的图像处理设备可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。
其中,处理器21可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器21可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器21可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器21还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器20可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器20至少用于存储以下计算机程序201,其中,该计算机程序被处理器21加载并执行之后,能够实现前述任一实施例公开的基于锚点切图的图像处理方法的相关步骤。另外,存储器20所存储的资源还可以包括操作系统202和数据203等,存储方式可以是短暂存储或者永久存储。其中,操作系统202可以包括Windows、Unix、Linux等。数据203可以包括但不限于图像的标注信息、滑窗最大值、滑窗最小值、尺寸倍数等。
在一些实施例中,基于锚点切图的图像处理设备还可包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。
本领域技术人员可以理解,图4中示出的结构并不构成对基于锚点切图的图像处理设备的限定,可以包括比图示更多或更少的组件。
可以理解的是,如果上述实施例中的基于锚点切图的图像处理方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、磁碟或者光盘等各种可以存储程序代码的介质。
基于此,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述任意一项基于锚点切图的图像处理方法的步骤。
本发明实施例所述计算机可读存储介质的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
以上对本申请实施例所提供的一种基于锚点切图的图像处理方法、装置、设备和计算机可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上对本申请所提供的一种基于锚点切图的图像处理方法、装置、设备和计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
Claims (10)
1.一种基于锚点切图的图像处理方法,其特征在于,包括:
基于图像的标注信息,获取所述图像的锚点信息;其中,所述锚点信息包括中心点信息和锚点识别框的尺寸信息;
按照设定的滑窗最大值、滑窗最小值、尺寸倍数以及所述锚点识别框的尺寸信息,确定出滑窗尺寸信息;
基于所述滑窗尺寸信息以及所述中心点信息,从所述图像中截取包含目标物的切图;
利用所述切图对初始深度检测网络模型进行训练,得到用于检测图像中目标物所在位置的深度检测网络模型。
2.根据权利要求1所述的基于锚点切图的图像处理方法,其特征在于,在所述利用所述切图对初始深度检测网络模型进行训练,得到用于检测图像中目标物所在位置的深度检测网络模型之后还包括:
在获取到新图像的情况下,按照设定的多种尺寸信息对所述新图像进行切分;
按照所述深度检测网络模型要求的尺寸信息,对切分得到的各切片图像进行缩放;
利用所述深度检测网络模型对缩放后的各切片图像进行分析,得到包含目标物的检测框集合。
3.根据权利要求2所述的基于锚点切图的图像处理方法,其特征在于,还包括:
利用soft-nms算法,从所述检测框集合中删除冗余检测框。
4.根据权利要求1所述的基于锚点切图的图像处理方法,其特征在于,所述按照设定的滑窗最大值、滑窗最小值、尺寸倍数以及所述锚点识别框的尺寸信息,确定出滑窗尺寸信息包括:
按照如下公式,计算所述滑窗尺寸信息S,
S=max(mn,min(mx,λw))
其中,mx表示滑窗最大值,mn表示滑窗最小值,λ表示尺寸倍数,w表示锚点识别框的尺寸信息。
5.根据权利要求1所述的基于锚点切图的图像处理方法,其特征在于,在所述基于所述滑窗尺寸信息以及所述中心点信息,从所述图像中截取包含目标物的切图之后还包括:
计算所述滑窗尺寸信息对应的滑窗与所述锚点信息对应的目标框的交并比;
将所述交并比大于或等于预设阈值的切图作为训练样本,利用所述训练样本对初始深度检测网络模型进行训练。
6.根据权利要求5所述的基于锚点切图的图像处理方法,其特征在于,还包括:
抹除所述交并比小于所述预设阈值的切图。
7.根据权利要求1至6任意一项所述的基于锚点切图的图像处理方法,其特征在于,所述目标物所在位置包括目标物的中心点横纵坐标、目标物对应的目标滑框的宽高值、所述目标滑框包含的目标物属于设定物品的概率以及所述目标滑框包含的目标物所属的类别。
8.一种基于锚点切图的图像处理装置,其特征在于,包括获取单元、确定单元、截取单元和训练单元;
所述获取单元,用于基于图像的标注信息,获取所述图像的锚点信息;其中,所述锚点信息包括中心点信息和锚点识别框的尺寸信息;
所述确定单元,用于按照设定的滑窗最大值、滑窗最小值、尺寸倍数以及所述锚点识别框的尺寸信息,确定出滑窗尺寸信息;
所述截取单元,用于基于所述滑窗尺寸信息以及所述中心点信息,从所述图像中截取包含目标物的切图;
所述训练单元,用于利用所述切图对初始深度检测网络模型进行训练,得到用于检测图像中目标物所在位置的深度检测网络模型。
9.一种基于锚点切图的图像处理设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至7任意一项所述基于锚点切图的图像处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述基于锚点切图的图像处理方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111063785.3A CN113870196A (zh) | 2021-09-10 | 2021-09-10 | 一种基于锚点切图的图像处理方法、装置、设备和介质 |
PCT/CN2022/078357 WO2023035558A1 (zh) | 2021-09-10 | 2022-02-28 | 一种基于锚点切图的图像处理方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111063785.3A CN113870196A (zh) | 2021-09-10 | 2021-09-10 | 一种基于锚点切图的图像处理方法、装置、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113870196A true CN113870196A (zh) | 2021-12-31 |
Family
ID=78995334
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111063785.3A Pending CN113870196A (zh) | 2021-09-10 | 2021-09-10 | 一种基于锚点切图的图像处理方法、装置、设备和介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113870196A (zh) |
WO (1) | WO2023035558A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115108117A (zh) * | 2022-05-26 | 2022-09-27 | 盈合(深圳)机器人与自动化科技有限公司 | 一种切割方法、系统、终端及计算机存储介质 |
WO2023035558A1 (zh) * | 2021-09-10 | 2023-03-16 | 苏州浪潮智能科技有限公司 | 一种基于锚点切图的图像处理方法、装置、设备和介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781839A (zh) * | 2019-10-29 | 2020-02-11 | 北京环境特性研究所 | 一种基于滑窗的大尺寸图像中小目标识别方法 |
WO2020164282A1 (zh) * | 2019-02-14 | 2020-08-20 | 平安科技(深圳)有限公司 | 基于yolo的图像目标识别方法、装置、电子设备和存储介质 |
CN111626170A (zh) * | 2020-05-20 | 2020-09-04 | 中铁二院工程集团有限责任公司 | 一种铁路边坡落石侵限检测的图像识别方法 |
CN112001912A (zh) * | 2020-08-27 | 2020-11-27 | 北京百度网讯科技有限公司 | 目标检测方法和装置、计算机系统和可读存储介质 |
CN111994377A (zh) * | 2020-07-21 | 2020-11-27 | 浙江大华技术股份有限公司 | 包装箱工序检测的方法、装置和计算机设备 |
CN112927247A (zh) * | 2021-03-08 | 2021-06-08 | 常州微亿智造科技有限公司 | 基于目标检测的切图方法、切图装置和存储介质 |
CN113221768A (zh) * | 2021-05-18 | 2021-08-06 | 北京百度网讯科技有限公司 | 识别模型训练方法、识别方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113870196A (zh) * | 2021-09-10 | 2021-12-31 | 苏州浪潮智能科技有限公司 | 一种基于锚点切图的图像处理方法、装置、设备和介质 |
-
2021
- 2021-09-10 CN CN202111063785.3A patent/CN113870196A/zh active Pending
-
2022
- 2022-02-28 WO PCT/CN2022/078357 patent/WO2023035558A1/zh unknown
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020164282A1 (zh) * | 2019-02-14 | 2020-08-20 | 平安科技(深圳)有限公司 | 基于yolo的图像目标识别方法、装置、电子设备和存储介质 |
CN110781839A (zh) * | 2019-10-29 | 2020-02-11 | 北京环境特性研究所 | 一种基于滑窗的大尺寸图像中小目标识别方法 |
CN111626170A (zh) * | 2020-05-20 | 2020-09-04 | 中铁二院工程集团有限责任公司 | 一种铁路边坡落石侵限检测的图像识别方法 |
CN111994377A (zh) * | 2020-07-21 | 2020-11-27 | 浙江大华技术股份有限公司 | 包装箱工序检测的方法、装置和计算机设备 |
CN112001912A (zh) * | 2020-08-27 | 2020-11-27 | 北京百度网讯科技有限公司 | 目标检测方法和装置、计算机系统和可读存储介质 |
CN112927247A (zh) * | 2021-03-08 | 2021-06-08 | 常州微亿智造科技有限公司 | 基于目标检测的切图方法、切图装置和存储介质 |
CN113221768A (zh) * | 2021-05-18 | 2021-08-06 | 北京百度网讯科技有限公司 | 识别模型训练方法、识别方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
史磊 等: "基于R-CNN算法的分割检测算法", 复旦学报(自然科学版), no. 04, 15 August 2020 (2020-08-15), pages 36 - 42 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023035558A1 (zh) * | 2021-09-10 | 2023-03-16 | 苏州浪潮智能科技有限公司 | 一种基于锚点切图的图像处理方法、装置、设备和介质 |
CN115108117A (zh) * | 2022-05-26 | 2022-09-27 | 盈合(深圳)机器人与自动化科技有限公司 | 一种切割方法、系统、终端及计算机存储介质 |
CN115108117B (zh) * | 2022-05-26 | 2023-06-27 | 盈合(深圳)机器人与自动化科技有限公司 | 一种切割方法、系统、终端及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2023035558A1 (zh) | 2023-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018103608A1 (zh) | 一种文字检测方法、装置及存储介质 | |
CN111476284A (zh) | 图像识别模型训练及图像识别方法、装置、电子设备 | |
CN109918969A (zh) | 人脸检测方法及装置、计算机装置和计算机可读存储介质 | |
WO2022227770A1 (zh) | 目标对象检测模型的训练方法、目标对象检测方法和设备 | |
US20220406090A1 (en) | Face parsing method and related devices | |
CN111325271A (zh) | 图像分类方法及装置 | |
CN111696080B (zh) | 一种基于静态纹理的人脸欺诈检测方法、系统及存储介质 | |
CN113870196A (zh) | 一种基于锚点切图的图像处理方法、装置、设备和介质 | |
CN109948533B (zh) | 一种文本检测方法、装置、设备及可读存储介质 | |
WO2021077947A1 (zh) | 图像处理方法、装置、设备及存储介质 | |
WO2021129466A1 (zh) | 检测水印的方法、装置、终端及存储介质 | |
CN112989995B (zh) | 文本检测方法、装置及电子设备 | |
CN110942456B (zh) | 篡改图像检测方法、装置、设备及存储介质 | |
CN112990086A (zh) | 遥感影像建筑物检测方法、装置及计算机可读存储介质 | |
CN115239644B (zh) | 混凝土缺陷识别方法、装置、计算机设备和存储介质 | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN114429637B (zh) | 一种文档分类方法、装置、设备及存储介质 | |
CN111353544A (zh) | 一种基于改进的Mixed Pooling-YOLOV3目标检测方法 | |
CN110599453A (zh) | 一种基于图像融合的面板缺陷检测方法、装置及设备终端 | |
CN111860369A (zh) | 一种欺诈识别方法、装置以及存储介质 | |
CN111597845A (zh) | 一种二维码检测方法、装置、设备及可读存储介质 | |
CN113378668A (zh) | 积水类别的确定方法、装置、设备及存储介质 | |
CN112651953A (zh) | 图片相似度计算方法、装置、计算机设备及存储介质 | |
CN113780297A (zh) | 图像处理方法、装置、设备以及存储介质 | |
CN113570615A (zh) | 一种基于深度学习的图像处理方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |