CN117934818A - 图像处理方法、装置、电子设备及存储介质 - Google Patents
图像处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117934818A CN117934818A CN202410151526.3A CN202410151526A CN117934818A CN 117934818 A CN117934818 A CN 117934818A CN 202410151526 A CN202410151526 A CN 202410151526A CN 117934818 A CN117934818 A CN 117934818A
- Authority
- CN
- China
- Prior art keywords
- detected
- sample
- key point
- image
- target detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 40
- 238000001514 detection method Methods 0.000 claims abstract description 336
- 238000012545 processing Methods 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000012216 screening Methods 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 13
- 230000001629 suppression Effects 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 abstract description 22
- 238000004422 calculation algorithm Methods 0.000 abstract description 18
- 230000000007 visual effect Effects 0.000 abstract description 6
- 239000003550 marker Substances 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000036544 posture Effects 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本申请公开了一种图像处理方法、装置、电子设备及存储介质,属于图像处理技术领域。该方法包括:获取待检测对象的图像;对所述待检测对象的图像进行目标检测,得到所述待检测对象的多个关键点检测框;基于所述多个关键点检测框,确定所述待检测对象的多个关键点;基于多个所述关键点,确定所述待检测对象对应的目标检测框。该方法通过识别待检测对象的关键点检测框,确定出多个关键点,进而得到待检测对象的图像中的目标检测框,通过关键点的目标检测替代旋转目标检测,使得待检测对象的候选区域的表示更加简洁直观,克服了旋转目标检测算法的模型复杂和训练难度大的问题,提高了旋转目标的检测框的效率和准确率。
Description
技术领域
本申请属于图像处理技术领域,尤其涉及一种图像处理方法、装置、电子设备及存储介质。
背景技术
图像处理在计算机视觉和人工智能领域具有广泛应用,很多目标以不同的旋转角度存在于图像中,如车辆、人体等,传统的目标检测算法在对旋转、非规则形状目标进行图像处理时性能较差。
目前,基于深度学习的旋转目标检测算法能够使用旋转矩形框对存在旋转角度的目标进行标记,便于目标与背景的分离。
然而,旋转目标检测算法存在模型复杂和训练难度大的问题,且准确率不高。
发明内容
本申请旨在至少解决现有技术中存在的技术问题之一。为此,本申请提出一种图像处理方法、装置、电子设备及存储介质,克服了旋转目标检测算法的模型复杂和训练难度大的问题,提高了旋转目标的检测框的准确率。
第一方面,本申请提供了一种图像处理方法,该方法包括:
获取待检测对象的图像;
对所述待检测对象的图像进行目标检测,得到所述待检测对象的多个关键点检测框;
基于所述多个关键点检测框,确定所述待检测对象的多个关键点;
基于多个所述关键点,确定所述待检测对象对应的目标检测框。
根据本申请的图像处理方法,通过识别待检测对象的关键点检测框,确定出多个关键点,进而得到待检测对象的图像中的目标检测框,通过关键点的目标检测替代旋转目标检测,使得待检测对象的候选区域的表示更加简洁直观,克服了旋转目标检测算法的模型复杂和训练难度大的问题,提高了旋转目标的检测框的效率和准确率。
根据本申请的一个实施例,所述基于多个所述关键点,确定所述待检测对象对应的目标检测框,包括:
构建多个所述关键点对应的最小外接矩形;
基于所述最小外接矩形,确定所述目标检测框。
根据本申请的一个实施例,所述对所述待检测对象的图像进行目标检测,得到所述待检测对象的多个关键点检测框,包括:
将所述待检测对象的图像输入至目标检测模型,得到所述目标检测模型输出的所述多个关键点检测框;
其中,所述目标检测模型是基于图像样本集训练得到的。
根据本申请的一个实施例,所述图像样本集包括多个样本图像,以及每个所述样本图像对应的多个样本关键点检测框,所述样本关键点检测框基于如下步骤得到:
获取样本对象的所述多个样本图像;
确定所述样本对象的多个样本关键点;
对所述多个样本图像中的每个所述样本关键点进行矩形框标注,得到每个所述样本关键点对应的样本关键点检测框。
根据本申请的一个实施例,所述基于所述多个关键点检测框,确定所述待检测对象的多个关键点,包括:
基于所述样本关键点检测框和所述样本关键点检测框对应的样本关键点之间的位置关系,对所述关键点检测框对应的所述关键点进行定位。
根据本申请的一个实施例,所述基于所述多个关键点检测框,确定所述待检测对象的多个关键点,包括:
基于所述待检测对象的标志位置对应的至少两个所述关键点检测框;
对所述关键点检测框或所述关键点检测框对应的关键点执行筛选程序,确定出每个所述标志位置对应的所述关键点。
根据本申请的一个实施例,所述筛选程序包括距离先验筛选操作、非极大值抑制筛选操作和标识唯一性筛选操作中的至少一个。
第二方面,本申请提供了一种图像处理装置,该装置包括:
获取模块,用于获取待检测对象的图像;
第一处理模块,用于对所述待检测对象的图像进行目标检测,得到所述待检测对象的多个关键点检测框;
第二处理模块,用于基于所述多个关键点检测框,确定所述待检测对象的多个关键点;
第三处理模块,用于基于多个所述关键点,确定所述待检测对象对应的目标检测框。
根据本申请的图像处理装置,通过识别待检测对象的关键点检测框,确定出多个关键点,进而得到待检测对象的图像中的目标检测框,通过关键点的目标检测替代旋转目标检测,使得待检测对象的候选区域的表示更加简洁直观,克服了旋转目标检测算法的模型复杂和训练难度大的问题,提高了旋转目标的检测框的效率和准确率。
第三方面,本申请提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的图像处理方法。
第四方面,本申请提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的图像处理方法。
第五方面,本申请提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的图像处理方法。
第六方面,本申请提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的图像处理方法。
本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请实施例提供的图像处理方法的流程示意图;
图2是本申请实施例提供的目标检测框的位置示意图;
图3是本申请实施例提供的样本关键点检测框和样本关键点的位置关系示意图;
图4是本申请实施例提供的图像处理装置的结构示意图;
图5是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
在目标检测任务的执行中,大多使用目标检测算法进行检测,目标检测算法对于水平或竖直位置的检测目标具有较高的检出率,得到的检测框也比较准确,但对于具有一定旋转角度的旋转目标,存在检出率低,以及检测框对旋转目标的框选的准确度低的问题。
对于旋转目标,一般通过旋转目标算法进行检测,输出带有角度的检测框,并标识出旋转目标的位置和角度,其模型至少具有用于检测位置和角度的两个检测头,旋转目标检测模型需要学习旋转目标的整体特征,模型结构复杂、处理效率低,且对于这类模型的样本需要同时标注角度和检测框,并计算角度和检测框的损失函数,训练难度大。
本申请实施例提供一种图像处理方法,无需使用旋转目标算法,通过将复杂、训练难度大、准确率低的旋转目标检测,替换成对明显局部特征的水平边界框检测,使用成熟的目标检测技术对局部特征进行易于操作且高精度的目标检测,通过该操作,得到水平边界框标记的点,并将这些点进行边界框计算,得到带有旋转角度的目标检测框,相对于传统的旋转目标检测技术直接得到旋转目标的旋转检测框,本申请对旋转目标的检测分步执行,每一步都易于操作且准确,整个图像处理方法具有高效、快速且准确的特点,可以解决旋转目标检测算法存在的模型架构复杂、训练难度大和准确率低的问题。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的图像处理方法、图像处理装置、电子设备和可读存储介质进行详细地说明。
其中,图像处理方法可应用于终端,具体可由,终端中的硬件或软件执行。
该终端包括但不限于具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的移动电话或平板电脑等便携式通信设备。还应当理解的是,在某些实施例中,该终端可以不是便携式通信设备,而是具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的台式计算机。
以下各个实施例中,描述了包括显示器和触摸敏感表面的终端。然而,应当理解的是,终端可以包括诸如物理键盘、鼠标和控制杆的一个或多个其它物理用户接口设备。
本申请实施例提供的图像处理方法,该图像处理方法的执行主体可以为电子设备或者电子设备中能够实现该图像处理方法的功能模块或功能实体,本申请实施例提及的电子设备包括但不限于手机、平板电脑、电脑、相机和可穿戴设备等,下面以电子设备作为执行主体为例对本申请实施例提供的图像处理方法进行说明。
如图1所示,该图像处理方法包括:步骤110至步骤140。
步骤110、获取待检测对象的图像。
其中,待检测对象可以是具有旋转角度的检测目标,例如,待检测对象可以是平面地图中的建筑、工业场景下的工件产品,或者影像分析中的危险物品。
平面地图中的建筑在规划上具有差异性,使得平面地图中的部分建筑可能存在一定的旋转角度。
可以理解的是,待检测对象的图像可以是由图像采集设备或摄像头对待检测对象进行图像采集得到的,图像可以是RGB图像、远红外图像或X光图像等。
在实际的执行中,使用图像采集设备或摄像头对待检测对象进行图像采集,得到待检测对象的图像。
步骤120、对待检测对象的图像进行目标检测,得到待检测对象的多个关键点检测框。
需要说明的是,关键点检测框可以是水平的矩形检测框,用于标记待检测对象在图像中的外部轮廓的明显的局部特征。
例如,平面地图中的建筑的外部轮廓为矩形,其局部特征可以为矩形的4个顶点,对建筑进行目标检测后,得到多个关键点检测框,关键点检测框分别用于标记矩形的顶点的位置。
在实际的执行中,目标检测可以是通过滑动窗口法、选择搜索法、区域卷积神经网络(Region-based Convolutional Neural Networks,R-CNN)或单阶段多尺度检测器(Single Shot Multi Box Detector,SSD)等实现的。
如图2所示,目标检测后,得到了位于待检测对象的四个顶点上的黑色的关键点检测框。
目前,目标检测通常是对整个目标进行检测,存在学习难度高、模型复杂和检测效率低的问题。
在该步骤中,将对整个目标的检测转换成对局部特征的检测,规避了学习难度高和复杂度高的模型,通过现有的、易于操作的目标检测方法,对待检测对象的图像中的待检测对象的局部特征进行快速且准确的检测,得到多个关键点检测框,提高了目标检测的准确度和效率。
步骤130、基于多个关键点检测框,确定待检测对象的多个关键点。
可以理解的是,关键点可以位于待检测对象的外部轮廓,具有明显的纹理特征,用于标记任意形状的待检测对象的外部轮廓的局部特征,关键点的集合可以表征待检测对象的位置和姿态。
其中,在待检测对象的外部轮廓上,一个局部特征对应至少一个关键点检测框,一个关键点检测框对应一个关键点。
例如,平面地图中的建筑的外部轮廓为矩形,其局部特征可以为矩形的4个顶点,得到标记4个顶点的位置的关键点检测框后,可以定位出每个关键点检测框对应的关键点,关键点用于标记矩形的顶点。
在该步骤中,每个关键点检测框与对应的关键点之间存在对应关系,能够通过任意一个关键点检测框的位置信息,定位出对应的关键点。
例如,若关键点检测框的形心为关键点,则根据关键点检测框的四个顶点的坐标,通过易于操作的数学计算,可以得出关键点的位置坐标。
再例如,矩形框的某一顶点为关键点,则将该顶点的坐标作为关键点的位置坐标。
如图2所示,局部特征为目标检测对象的四个角的顶点,从目标检测对象的左上角起的逆时针方向,四个关键点对应的身份标识码(Identity,ID)依次为0、1、2和3,每个关键点对应的局部特征的ID是唯一的。
在实际的执行中,通过关键点检测框对关键点的标记位置,在待检测对象的图像上确定出多个关键点的位置坐标。
步骤140、基于多个关键点,确定待检测对象对应的目标检测框。
在该步骤中,目标检测框为带有旋转角度的矩形框,用于精准地标识和定位待检测对象,可以是图2中的白色的旋转矩形框,待检测对象位于该矩形框中。
在实际的执行中,将多个关键点进行包围盒(Bounding Box)或旋转卡壳算法等边界框计算多个关键点的外接矩形,能够得到一个带有旋转角度的矩形的边界框,将该边界框作为待检测对象对应的目标检测框,可以确定出该目标检测框的位置信息、面积和旋转角度。
其中,位置信息可以是目标检测框的四个顶点的位置坐标,或者目标检测框的形心的坐标。
例如,遍历所有的关键点的位置坐标,确定所有关键点在横坐标轴的最小坐标和最大坐标,得到至少两个关键点A和B,两个关键点对应连线AB,求得每个关键点到连线AB的垂线距离,得到垂线距离最大的至少一个关键点C,将关键点A、B、C作为目标检测框的顶点,可以求得目标检测框的第四个顶点,进而得到一个带有旋转角度的矩形框作为目标检测框,并计算目标检测框的旋转角度。
对旋转目标的检测通常由旋转目标检测算法构建的模型实现,生成的检测结果是个带角度的矩形框,这类旋转目标检测模型在训练时,需要标注和学习检测框和角度,对应地,旋转目标检测模型至少需要边界框检测头和旋转角度检测头,存在结构复杂和参数复杂的问题。
此外,由于旋转目标可能存在多种姿态,旋转目标在图像中的表现形式多样化,使得旋转目标检测模型训练困难,由于旋转目标的旋转角度,可能存在部分旋转目标被其他物体遮挡,导致旋转目标的一部分信息缺失,存在检出率和准确率低的问题,在处理旋转目标时,通常需要使用更复杂的模型或技术,例如旋转不变特征、旋转不变的神经网络结构等,增加了旋转目标检测模型的模型复杂度。
针对上述问题,本申请实施例提供的图像处理方法,将旋转目标检测转化为特征明显的局部目标检测,由于局部的目标检测关注特征少,检测精度和速率会大幅提升,局部的目标检测得到无旋转角度的方框作为关键点检测框,确定出表征位置姿态特征的多个关键点,局部的目标检测关注数据量小,直接得到无旋转角度的方框,使得关键点查找速率和精度也随之提高,最后根据关键点快速且准确地定位出待检测对象的目标检测框,根据关键点得到的旋转矩形框,可以在一定程度上规避旋转目标被遮挡导致的检出率低和准确率低的风险,具有较高的鲁棒性。
根据本申请实施例提供的图像处理方法,通过识别待检测对象的关键点检测框,确定出多个关键点,进而得到待检测对象的图像中的目标检测框,通过关键点的目标检测替代旋转目标检测,使得待检测对象的候选区域的表示更加简洁直观,克服了旋转目标检测算法的模型复杂和训练难度大的问题,提高了旋转目标的检测框的效率和准确率。
在一些实施例中,步骤120,对待检测对象的图像进行目标检测,得到待检测对象的多个关键点检测框,包括:
将待检测对象的图像输入至目标检测模型,得到目标检测模型输出的多个关键点检测框;
其中,目标检测模型是基于图像样本集训练得到的。
可以理解的是,目标检测模型可以是基于快速区域卷积神经网络(FasterRegion-based Convolutional Neural Networks,Faster R-CNN)、实时目标检测算法(YouOnly Look Once,YOLO)系列等算法构建的,可以执行对待检测对象的图像中关键点的目标检测任务。
其中,图像样本集用于训练目标检测模型,使得训练后的目标检测模型具备对关键点的目标检测能力,图像样本集中的训练样本可以不带标签,也可以带有标签,标签可以是关键点对应的矩形框。
常规的旋转目标检测模型的输出为带有角度的检测框,至少具有检测位置和角度的检测头,模型结构复杂、处理效率低。
本申请实施例的目标检测模型,通过局部目标检测,得到水平的矩形框作为关键点检测框,无需对模型结构做出改进,模型结构和参数简单,目标检测的准确率也更高,检测速度更快。
在实际的执行中,将待检测对象的图像输入至目标检测模型,通过目标检测模型对待检测对象的图像中的关键点进行目标检测,得到目标检测模型输出的关键点对应的关键点检测框。
该实施例中,通过目标检测模型对待检测对象的关键点进行目标检测,能够在模型复杂程度低的前提下,快速准确地进行目标检测。
在一些实施例中,图像样本集包括多个样本图像,以及每个样本图像对应的多个样本关键点检测框,样本关键点检测框基于如下步骤得到:
获取样本对象的多个样本图像;
确定样本对象的多个样本关键点;
对多个样本图像中的每个样本关键点进行矩形框标注,得到每个样本关键点对应的样本关键点检测框。
其中,矩形框标注可以是水平矩形框,能够降低目标检测模型的训练难度和模型复杂程度。
可以理解的是,在对样本图像进行数据标注时,在样本对象上选取N个纹理特征明显的点作为一组样本关键点,每个样本关键点对应唯一的ID。
样本关键点一般在样本对象的边界上选取,如图2所示,对于四边形的样本对象,可以选择4个标志位置,并使用4个样本关键点分别对这4个标志位置进行标记。
如图3所示,对于任一关键点O,从关键点O开始,向左边扩展w1,向右扩展w2,向上扩展h1,向下扩展h2,得到一个实线的水平矩形框,将该水平矩形框作为标记关键点O的样本关键点检测框,样本关键点检测框的宽高为(w1+w2,h1+h2)。
再例如,也可以将关键点作为样本关键点检测框的左上角的点,或者某一边界的中点。
需要说明的是,每个样本关键点与样本关键点对应的样本关键点检测框具有相同的位置关系,使得训练好的目标检测模型识别出的关键点检测框与该关键点检测框对应的关键点也具有该位置关系。
常规的旋转目标检测需要使用旋转矩形标记整个样本,作为样本框,还需计算每个样本框的旋转角度,由于样本框和旋转角度不易获得,存在样本获取方式复杂的问题,整个标记过程耗时耗力,且使用旋转的矩形框样本的标记过程极易存在误差,影响旋转目标检测模型的精度,旋转目标检测模型需要学习整个旋转目标的复杂特征,训练难度大。
本申请实施例通过样本关键点对旋转目标的局部特征进行标记,并将样本关键点扩展成水平矩形框,作为样本关键点检测框,无需标记旋转角度,样本关键点的位置标记精准、获取容易,误差极小,节省了时间和人力物力,且相对于旋转样本框,误差可以忽略不计,几乎不会影响目标检测模型的精度。
对应地,本申请实施例的目标检测模型只需学习简单的局部特征,更容易训练,训练好的目标检测模型结构和参数简单,对局部特征的目标检测的准确率也更高,检测速度更快。
在实际的执行中,通过图像采集设备对一个或多个样本对象进行图像采集,得到多个样本图像,在确定样本对象的样本关键点后,使用矩形框对样本图像中的样本关键点进行标注,得到带有一组样本关键点检测框的样本图像。
该实施例中,通过对样本图像进行样本关键点检测框的标注,使得目标检测模型只用学习检测样本关键点的局部特征,无需学习检测整个旋转的样本对象,降低了目标检测模型的训练难度。
在一些实施例中,步骤130、基于多个关键点检测框,确定待检测对象的多个关键点,包括:
基于样本关键点检测框和样本关键点检测框对应的样本关键点之间的位置关系,对对应的关键点进行定位。
可以理解的是,每个样本关键点检测框和样本关键点检测框对应的样本关键点之间的位置关系是确定的,例如,样本关键点O距离样本关键点检测框的四条边的比例关系固定。
在实际的执行中,将得到的关键点检测框转换成关键点的坐标。
例如,样本关键点O距离样本关键点检测框的左边界w1,距离右边界w2,距离上边界h1,距离下边界h2,对应地,某一关键点检测框为(x,y,w,h),其中,x、y为关键点检测框的左上角顶点的坐标,w、h分别为关键点检测框的宽和高,则关键点的坐标为(x0,y0),计算公式为:
该实施例中,通过样本关键点与样本关键点检测框之间的位置关系,可以准确地根据关键点检测框确定出关键点的位置坐标,提升了目标检测框的准确性。
在一些实施例中,步骤130、基于多个关键点检测框,确定待检测对象的多个关键点,包括:
基于待检测对象的标志位置对应的至少两个关键点检测框;
对关键点检测框或关键点检测框对应的关键点执行筛选程序,确定出每个标志位置对应的关键点。
其中,标志位置可以是待检测对象的局部特征所在的位置。
需要说明的是,待检测对象可以有多个标志位置,每个标志位置对应一个唯一的ID,标志位置对应一个或者多个关键点检测框,在样本图像中,样本对象的标志位置可以使用样本关键点进行标记。
在目标检测后,一个标志位置可能检测出至少两个关键点检测框。
可以理解的是,筛选程序是对关键点检测框/关键点进行筛选的筛选规则,用于去掉可能存在的误检关键点/关键点检测框,可以基于多个标准构建,例如,每个关键点检测框的置信度、边界框回归或得分。
在实际的执行中,根据待检测对象的标志位置,对所有的关键点检测框进行分组,可以得到每个标志位置对应的一组关键点检测框,需要对每组关键点检测框执行筛选程序,选出每个标志位置对应的一个关键点检测框,再定位出每个关键点检测框对应的一个关键点。
或者,对每组关键点检测框对应的关键点进行定位,可以得到每个标志位置对应的一组关键点,从每组关键点中筛选出一个关键点,此时,得到了每个标志位置对应的一个关键点。
该实施例中,通过对关键点检测框/关键点进行筛选,从而定位出每个标志位置对应的关键点,为目标检测框的确定提供基础。
在一些实施例中,筛选程序包括距离先验筛选操作、非极大值抑制筛选操作和标识唯一性筛选操作中的至少一个。
可以理解的是,距离先验操作可以是将待检测对象在图像中的尺度和横纵比例分布作为距离先验,距离先验筛选操作可以是对间隔距离过小的关键点检测框/关键点进行基于置信度的筛选,例如,筛选置信度最大的关键点/关键点检测框。
非极大值抑制筛选操作可以是对每个关键点检测框/关键点对应的置信度按照置信度进行降序排列,选择置信度最高的关键点检测框/关键点,并遍历剩余的关键点检测框/关键点,计算剩余的关键点检测框/关键点与置信度最高的关键点检测框/关键点之间的重叠程度,删除重叠程度高的关键点检测框/关键点。
标识唯一性筛选操作可以是将每个标志位置对应的至少两个关键点检测框/关键点按照置信度进行筛选,确定出置信度最高的一个关键点检测框/关键点,使得每个标志位置的ID对应唯一的关键点检测框/关键点。
在实际的执行中,通过对关键点检测框/关键点执行距离先验筛选操作、非极大值抑制筛选操作和标识唯一性筛选操作中的至少一个操作,可以得到每个标志位置对应的一个关键点。
该实施例中,通过对关键点检测框/关键点进行至少一项筛选操作,为目标检测框的确定提供基础,提升了目标检测框的准确性。
在一些实施例中,步骤140、基于多个关键点,确定待检测对象对应的目标检测框,包括:
构建多个关键点对应的最小外接矩形;
基于最小外接矩形,确定目标检测框。
其中,最小外接矩形是一个包围所有关键点的最小面积的矩形。
在实际的执行中,根据每个关键点的坐标,计算这些关键点的凸包,凸包是能够包围所有关键点的最小凸多边形,计算凸包上每组相邻两点之间的距离,根据距离最大的两点所在的直线,确定矩形的一条边位于该直线上,旋转该直线,计算每次旋转能包含所有关键点的最小矩形的面积,选择面积最小的最小矩形为最小外接矩形,计算最小外接矩形的位置、宽度、高度和旋转角度等信息,将该最小外接矩形作为待检测对象的目标检测框。
该实施例中,通过计算关键点的最小外接矩形,提高了目标检测框的精确度。
下面介绍一个具体的实施例。
在目标检测模型的训练阶段,通过图像采集设备对一个或多个样本对象进行图像采集,得到多个样本图像,在确定样本对象的样本关键点后,使用矩形框对样本图像中的样本关键点进行标注,得到带有一组样本关键点检测框的样本图像。
如图2所示,对于四边形的样本对象,可以选择4个标志位置,并使用4个样本关键点分别对这4个标志位置进行标记。
如图3所示,对于任一关键点O,从关键点O开始,向左边扩展w1,向右扩展w2,向上扩展h1,向下扩展h2,组成一个实线的水平矩形框,将该水平矩形框作为标记关键点O的样本关键点检测框,样本关键点检测框的宽高为(w1+w2,h1+h2)。
将多张带有一组样本关键点检测框的样本图像构建成图像样本集。
将图像样本集中的样本图像依次输入至目标检测模型,对目标检测模型进行训练,直至目标检测模型收敛。
其中,目标检测模型用于对标志位置的目标检测,输出水平矩形的检测框。
在目标检测模型的推理阶段,将待检测对象的图像输入至目标检测模型,通过目标检测模型对待检测对象的图像中的关键点进行目标检测,得到目标检测模型输出的关键点对应的关键点检测框。
根据待检测对象的标志位置,对所有的关键点检测框进行分组,可以得到每个标志位置对应的一组关键点检测框,需要对每组关键点检测框执行筛选程序,选出每个标志位置对应的一个关键点检测框,再定位出每个关键点检测框对应的一个关键点。
例如,样本关键点O距离样本关键点检测框的左边界w1,距离右边界w2,距离上边界h1,距离下边界h2,对应地,某一关键点检测框为(x,y,w,h),其中,x、y为关键点检测框的左上角顶点的坐标,w、h分别为关键点检测框的宽和高,则关键点的坐标为(x0,y0),计算公式为:
或者,对每组关键点检测框对应的关键点进行定位,可以得到每个标志位置对应的一组关键点,从每组关键点中筛选出一个关键点,此时,得到了每个标志位置对应的一个关键点。
根据每个关键点的坐标,计算这些关键点的凸包,凸包是能够包围所有关键点的最小凸多边形,计算凸包上每组相邻两点之间的距离,根据距离最大的两点所在的直线,确定矩形的一条边位于该直线上,旋转该直线,计算每次旋转能包含所有关键点的最小矩形的面积,选择面积最小的最小矩形为最小外接矩形,并计算最小外接矩形的位置、宽度、高度和旋转角度等信息,将该最小外接矩形作为待检测对象的目标检测框。
在使用旋转目标检测算法对旋转目标进行检测的过程中,由于旋转目标可能存在多种姿态,且旋转目标在图像中表现形式的多样化,使得旋转目标检测模型训练困难,由于旋转目标的旋转,可能会有部分旋转目标被其他物体遮挡,导致旋转目标的一部分信息缺失,存在检出率和准确率低的问题,在处理旋转目标时,通常需要使用更复杂的模型或技术,例如旋转不变特征、旋转不变的神经网络结构等,增加了旋转目标检测模型的模型复杂度。
针对旋转目标检测模型存在的模型架构复杂、训练困难和准确率低的问题,本申请实施例提供了图像处理方法,通过将更复杂、训练难度更大、准确率更低的旋转目标检测,替换成特征明显的局部水平边界框目标检测,采用简单的目标检测模型,通过水平的关键点检测框来定位图像中的待检测对象,只需要部分关键点就可以拟合出最终旋转矩形框,避免了信息缺失导致的检测准确率低的问题,使候选区域的表示更加简洁直观,通过关键点对待检测对象进行目标表示,能够准确快速地检测各种表现形式的旋转目标,降低了目标检测模型的训练难度和模型复杂度,提高待检测对象的检测准确率,根据关键点计算最小外接矩形,可以在一定程度上规避旋转目标被遮挡导致的检出率低和准确率低的风险,具有较高的鲁棒性。
由于关键点选取的灵活性,本申请实施例提供的图像处理方法可以应用于任意形状的待检测对象的目标检测,得到精确的边界,实现高效、准确地旋转目标检测。
本申请实施例提供的图像处理方法,执行主体可以为图像处理装置。本申请实施例中以图像处理装置执行图像处理方法为例,说明本申请实施例提供的图像处理装置。
本申请实施例还提供一种图像处理装置。
如图4所示,该图像处理装置包括:获取模块410、第一处理模块420、第二处理模块430和第三处理模块440。
获取模块410,用于获取待检测对象的图像;
第一处理模块420,用于对待检测对象的图像进行目标检测,得到待检测对象的多个关键点检测框;
第二处理模块430,用于基于多个关键点检测框,确定待检测对象的多个关键点;
第三处理模块440,用于基于多个关键点,确定待检测对象对应的目标检测框。
根据本申请实施例提供的图像处理装置,通过识别待检测对象的关键点检测框,确定出多个关键点,进而得到待检测对象的图像中的目标检测框,通过关键点的目标检测替代旋转目标检测,使得待检测对象的候选区域的表示更加简洁直观,克服了旋转目标检测算法的模型复杂和训练难度大的问题,提高了旋转目标的检测框的效率和准确率。
在一些实施例中,第三处理模块440,进一步用于:
构建多个关键点对应的最小外接矩形;
基于最小外接矩形,确定目标检测框。
在一些实施例中,第一处理模块420,进一步用于:
将待检测对象的图像输入至目标检测模型,得到目标检测模型输出的多个关键点检测框;
其中,目标检测模型是基于图像样本集训练得到的。
在一些实施例中,图像样本集包括多个样本图像,以及每个样本图像对应的多个样本关键点检测框,图像处理装置还用于:
获取样本对象的多个样本图像;
确定样本对象的多个样本关键点;
对多个样本图像中的每个样本关键点进行矩形框标注,得到每个样本关键点对应的样本关键点检测框。
在一些实施例中,第二处理模块430,进一步用于:
基于样本关键点检测框和样本关键点检测框对应的样本关键点之间的位置关系,对关键点检测框对应的关键点进行定位。
在一些实施例中,第二处理模块430,进一步用于:
基于待检测对象的标志位置对应的至少两个关键点检测框;
对关键点检测框或关键点检测框对应的关键点执行筛选程序,确定出每个标志位置对应的关键点。
在一些实施例中,筛选程序包括距离先验筛选操作、非极大值抑制筛选操作和标识唯一性筛选操作中的至少一个。
本申请实施例中的图像处理装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device,MID)、增强现实(augmented reality,AR)/虚拟现实(virtualreality,VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,还可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personalcomputer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的图像处理装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为iOS操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的图像处理装置能够实现图1至图3的图像处理方法实施例实现的各个过程,为避免重复,这里不再赘述。
在一些实施例中,如图5所示,本申请实施例还提供一种电子设备500,包括处理器501、存储器502及存储在存储器502上并可在处理器501上运行的计算机程序,该程序被处理器501执行时实现上述图像处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。
本申请实施例还提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述图像处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,处理器为上述实施例中的电子设备中的处理器。可读存储介质,包括计算机可读存储介质,如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。
本申请实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述图像处理方法。
其中,处理器为上述实施例中的电子设备中的处理器。可读存储介质,包括计算机可读存储介质,如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。
本申请实施例另提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现上述图像处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的图像处理方法。
在本申请的描述中,“多个”的含义是两个或两个以上。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本申请的实施例,本领域的普通技术人员可以理解:在不脱离本申请的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本申请的范围由权利要求及其等同物限定。
Claims (10)
1.一种图像处理方法,其特征在于,包括:
获取待检测对象的图像;
对所述待检测对象的图像进行目标检测,得到所述待检测对象的多个关键点检测框;
基于所述多个关键点检测框,确定所述待检测对象的多个关键点;
基于多个所述关键点,确定所述待检测对象对应的目标检测框。
2.根据权利要求1所述的图像处理方法,其特征在于,所述基于多个所述关键点,确定所述待检测对象对应的目标检测框,包括:
构建多个所述关键点对应的最小外接矩形;
基于所述最小外接矩形,确定所述目标检测框。
3.根据权利要求1所述的图像处理方法,其特征在于,所述对所述待检测对象的图像进行目标检测,得到所述待检测对象的多个关键点检测框,包括:
将所述待检测对象的图像输入至目标检测模型,得到所述目标检测模型输出的所述多个关键点检测框;
其中,所述目标检测模型是基于图像样本集训练得到的。
4.根据权利要求3所述的图像处理方法,其特征在于,所述图像样本集包括多个样本图像,以及每个所述样本图像对应的多个样本关键点检测框,所述样本关键点检测框基于如下步骤得到:
获取样本对象的所述多个样本图像;
确定所述样本对象的多个样本关键点;
对所述多个样本图像中的每个所述样本关键点进行矩形框标注,得到每个所述样本关键点对应的样本关键点检测框。
5.根据权利要求4所述的图像处理方法,其特征在于,所述基于所述多个关键点检测框,确定所述待检测对象的多个关键点,包括:
基于所述样本关键点检测框和所述样本关键点检测框对应的样本关键点之间的位置关系,对所述关键点检测框对应的所述关键点进行定位。
6.根据权利要求1-5任一项所述的图像处理方法,其特征在于,所述基于所述多个关键点检测框,确定所述待检测对象的多个关键点,包括:
基于所述待检测对象的标志位置对应的至少两个所述关键点检测框;
对所述关键点检测框或所述关键点检测框对应的关键点执行筛选程序,确定出每个所述标志位置对应的所述关键点。
7.根据权利要求6所述的图像处理方法,其特征在于,所述筛选程序包括距离先验筛选操作、非极大值抑制筛选操作和标识唯一性筛选操作中的至少一个。
8.一种图像处理装置,其特征在于,包括:
获取模块,用于获取待检测对象的图像;
第一处理模块,用于对所述待检测对象的图像进行目标检测,得到所述待检测对象的多个关键点检测框;
第二处理模块,用于基于所述多个关键点检测框,确定所述待检测对象的多个关键点;
第三处理模块,用于基于多个所述关键点,确定所述待检测对象对应的目标检测框。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述图像处理方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7任一项所述的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410151526.3A CN117934818A (zh) | 2024-02-02 | 2024-02-02 | 图像处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410151526.3A CN117934818A (zh) | 2024-02-02 | 2024-02-02 | 图像处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117934818A true CN117934818A (zh) | 2024-04-26 |
Family
ID=90763208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410151526.3A Pending CN117934818A (zh) | 2024-02-02 | 2024-02-02 | 图像处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117934818A (zh) |
-
2024
- 2024-02-02 CN CN202410151526.3A patent/CN117934818A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Romero-Ramirez et al. | Speeded up detection of squared fiducial markers | |
CN110232311B (zh) | 手部图像的分割方法、装置及计算机设备 | |
CN107292234B (zh) | 一种基于信息边缘和多模态特征的室内场景布局估计方法 | |
Schmidt et al. | COMPARATIVE ASSESSMENT OF POINT FEATURE DETECTORS AND DESCRIPTORS IN THE CONTEXT OF ROBOT NAVIGATION. | |
CN109977997B (zh) | 基于卷积神经网络快速鲁棒的图像目标检测与分割方法 | |
JPH10214346A (ja) | ハンドジェスチャ認識システムおよび方法 | |
JPH10214346A6 (ja) | ハンドジェスチャ認識システムおよび方法 | |
CN109740606B (zh) | 一种图像识别方法及装置 | |
US8340433B2 (en) | Image processing apparatus, electronic medium, and image processing method | |
CN108717709A (zh) | 图像处理系统及图像处理方法 | |
CN113894799B (zh) | 机器人及辅助环境定位的标识物识别方法和装置 | |
Araujo et al. | Air-sslam: A visual stereo indoor slam for aerial quadrotors | |
Zhou et al. | Vision-based pose estimation from points with unknown correspondences | |
JP2018036770A (ja) | 位置姿勢推定装置、位置姿勢推定方法、及び位置姿勢推定プログラム | |
CN108447092B (zh) | 视觉定位标识物的方法及装置 | |
CN114359383A (zh) | 一种图像定位方法、装置、设备以及存储介质 | |
CN116958145B (zh) | 图像处理方法、装置、视觉检测系统及电子设备 | |
CN113297963A (zh) | 多人姿态的估计方法、装置、电子设备以及可读存储介质 | |
Simion et al. | Finger detection based on hand contour and colour information | |
CN117934818A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
US11978197B2 (en) | Inspection method for inspecting an object and machine vision system | |
WO2018135326A1 (ja) | 画像処理装置、画像処理システム、画像処理プログラム、及び画像処理方法 | |
US20230360262A1 (en) | Object pose recognition method based on triangulation and probability weighted ransac algorithm | |
Sanusi et al. | Humanoid robosoccer goal detection using hough transform | |
Lu et al. | Slicing-tracking-detection: Simultaneous multi-cylinder detection from large-scale and complex point clouds |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |