CN115205634A - 模型训练方法、装置、设备及可读存储介质 - Google Patents
模型训练方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN115205634A CN115205634A CN202210895990.4A CN202210895990A CN115205634A CN 115205634 A CN115205634 A CN 115205634A CN 202210895990 A CN202210895990 A CN 202210895990A CN 115205634 A CN115205634 A CN 115205634A
- Authority
- CN
- China
- Prior art keywords
- frame information
- candidate
- object detection
- target object
- detection model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提出了一种模型训练方法、装置、设备及可读存储介质,该方法包括:获取样本图像以及对应的第一标记框信息,第一标记框信息用于指示样本图像中的第一目标对象的位置和相对于参考轴的旋转角度;将样本图像输入至对象检测模型,得到多个候选框信息和多个预测框信息,预测框信息为对候选框信息进行位置回归得到;根据多个候选框信息和第一标记框信息,在多个预测框信息中确定第一预测框信息;根据第一预测框信息、第一候选框信息、以及第一标记框信息,对对象检测模型进行训练,以得到目标对象检测模型。通过本申请实施例,有利于目标对象检测模型输出图像中目标对象的位置和旋转角度,提高目标对象检测的准确性。
Description
技术领域
本申请涉及计算机技术领域,具体涉及模型训练方法、处理装置、计算机设备以及计算机可读存储介质。
背景技术
随着图像处理技术的不断发展,越来越多的场景需要对待检测图像中的目标对象进行检测,并对检测出的目标对象进行标记。目前,在进行目标检测时,通过标准的水平标记框框定目标对象以完成对目标对象的标记。上述方法对于摆放角度不一、长宽比例较大目标对象来说,会造成各个标记框之间出现大量的重叠,从而降低了目标对象检测的精度。
发明内容
本申请提供了一种模型训练方法、装置、设备及可读存储介质,有利于目标对象检测模型输出图像中目标对象的位置和旋转角度,提高目标对象检测的准确性。
第一方面,本申请提供了一种模型训练方法,该方法包括:
获取样本图像,以及获取上述样本图像对应的第一标记框信息,上述第一标记框信息用于指示上述样本图像中的第一目标对象的位置和相对于参考轴的旋转角度;
将上述样本图像输入至上述对象检测模型,以得到上述候选框输出网络输出的上述样本图像对应的多个候选框信息和上述回归输出网络输出的上述多个候选框信息对应的多个预测框信息,上述候选框信息用于指示上述对象检测模型输出的上述目标对象的候选位置和候选旋转角度,上述预测框信息为对上述候选框信息进行位置回归得到;
根据上述多个候选框信息和上述第一标记框信息,在上述多个预测框信息中确定第一预测框信息,上述第一预测框信息对应的第一候选框信息所对应的候选框与上述第一标记框信息对应的标记框的重合度大于预设阈值;
根据上述第一预测框信息与上述第一候选框信息之间的第一关系参数、以及上述第一标记框信息与上述第一候选框信息之间的第二关系参数,对上述对象检测模型进行训练,以得到目标对象检测模型。
第二方面,本申请提供了一种图像处理方法,该方法包括:
获取待检测图像;
通过目标对象检测模型对上述待检测图像进行对象检测处理,确定上述待检测图像中的第二目标对象的第二标记框信息,上述第二标记框信息用于指示上述第二目标对象在上述待检测图像中的位置和相对于参考轴的旋转角度,上述目标对象检测模型为通过上述第一方面所述的模型训练方法得到;
根据上述第二标记框信息,在上述待检测图像中针对上述第二目标对象添加标记框。
第三方面,本申请提供了一种处理装置,该装置包括用以实现上述的模型训练方法的模块,或者,用以实现上述的图像处理方法的模块。
第四方面,本申请提供了一种计算机设备,包括:处理器、存储装置和通信接口,上述处理器、上述通信接口和上述存储装置相互连接,其中,上述存储装置存储有可执行程序代码,上述处理器用于调用上述可执行程序代码,用以实现上述的模型训练方法的模块,或者,用以实现上述的图像处理方法的模块。
第五方面,本申请提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序包括程序指令,上述程序指令被处理器执行,用以实现上述的模型训练方法,或者,用以实现上述的图像处理方法。
第六方面,本申请提供了一种计算机程序产品,上述计算机程序产品包括计算机程序或计算机指令,上述计算机程序或计算机指令被处理器执行,用以实现上述的模型训练方法,或者,用以实现上述的图像处理方法。
本申请提出的方法首先获取样本图像,以及用于指示样本图像中的第一目标对象的位置和相对于参考轴的旋转角度的第一标记框信息;再将样本图像输入至对象检测模型,以得到候选框输出网络输出的样本图像对应的多个候选框信息和回归输出网络输出的多个候选框信息对应的多个预测框信息;再基于重合度在多个预测框信息中确定第一预测框信息,根据第一预测框信息与第一候选框信息之间的第一关系参数、以及第一标记框信息与第一候选框信息之间的第二关系参数,对对象检测模型进行训练,以此结合多维度的特征信息,保证了模型的训练效果,最终得到目标对象检测模型。本申请通过在训练过程中引入旋转角度这一特征,使得模型能够学习到第一目标对象在样本图像中的旋转角度特征。相比于传统的水平矩形框检测方法来说,通过本申请提出的模型训练方法训练得到目标对象检测模型,有利于目标对象检测模型输出图像中目标对象的位置和旋转角度,使得检测结果能够与目标对象在图像中的真实位置和旋转角度更加匹配,从而提高目标对象检测的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的一种目标对象检测的效果示意图;
图2是本申请一个示例性实施例提供的一种图像处理系统的架构示意图;
图3是本申请一个示例性实施例提供的一种模型训练方法的流程示意图;
图4A是本申请一个示例性实施例提供的另一种目标对象检测的效果示意图;
图4B是本申请一个示例性实施例提供的一种对象检测模型的网络结构图;
图4C是本申请一个示例性实施例提供的一种生成候选框的示意图;
图4D是本申请一个示例性实施例提供的通过目标检测模型进行目标对象检测的效果示意图;
图5是本申请一个示例性实施例提供的一种图像处理方法的流程示意图;
图6是本申请一个示例性实施例提供的一种处理装置的示意框图;
图7是本申请一个示例性实施例提供的一种计算机设备的示意框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中所涉及到的“第一”、“第二”等描述仅用于描述目的,而不能理解为指示或者暗示其相对重要性或者隐含指明所指示的技术特征的数量。因此,限定有“第一”、“第二”的技术特征可以明示或者隐含的包括至少一个该特征。
随着信息化系统的发展,用户可以通过图像采集设备采集待检测图像,然后利用目标检测方法对待检测图像中的目标对象进行检测,并对检测出的目标对象进行标记。传统的目标检测算法中对目标对象的框定采用标准的水平矩形框,但对于摆放角度不一且长宽比例较大的目标对象(例如长条状的猪只)来说,这种框定方法会造成检测框之间出现大量的重叠,从而降低了检测精度。通过传统的框定方法进行目标对象检测的效果示意图如图1所示。图中包括多个猪只,通过传统的目标检测算法,可以对待检测图像中的各个猪只所在位置的水平矩形框标记出来。由于目标对象在待检测图像中分布不均匀(有可能分散分布,有可能集群分布),当目标对象集群分布时,会导致多个目标对象对应的检测框之间出现重叠。例如,在图1中,三个倾斜分布的猪只通过水平矩形框进行框定后,三个猪只的检测框之间出现大量的重叠。其中,图中的黑色点为标记的猪只的边界点,水平矩形框为标记的猪只的检测框。基于通过水平矩形框进行标记的训练数据进行模型训练,影响了模型的训练效果。并且,利用通过上述训练数据训练得到的模型对待检测图像进行目标对象的检测,使得待检测图像中检测到的目标的对象以水平矩形框的形式进行标定,降低了检测的准确度。
基于上述方法的缺陷,本申请针对通过俯视拍摄的目标对象形态各异且身体的长宽比例较大的特点,提出了一种目标对象检测模型来实现目标对象的检测,通过能够旋转的标记框框定检测出来的目标对象。并且,在训练阶段,将候选框设置为具有旋转角度的候选框,能够使目标对象检测模型能够学习到标记框的位置和旋转角度等特征,有利于目标对象检测模型输出图像中目标对象的位置和旋转角度,提高目标对象检测的准确性。
可以理解的是,在本申请的具体实施方式中,涉及到待检测图像、样本图像等相关的数据,当本申请以上实施例运用到具体产品或技术中时,相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本申请将具体通过如下实施例进行说明:
请参阅图2,该图是本申请一个示例性实施例提供的一种图像处理系统的架构示意图。图像处理系统具体可以包括终端设备201和服务器202。其中,终端设备201和服务器202之间通过网络连接,比如,通过局域网、广域网、移动互联网等连接。操作对象在终端设备201的浏览器或者客户端应用上进行操作,对各种图像数据进行检测操作。服务器202可以响应于该操作,为操作对象提供各种图像数据检测的服务。
在一实施例中,终端设备201可以是图像采集设备(例如安装在猪舍顶部的摄像头),服务器202中包括目标对象检测模型。终端设备201可以采集(例如实时采集、间隔采集)包括目标对象的待检测图像;服务器202从终端设备201获取待检测图像,并对待检测图像中的目标对象进行检测处理,得到目标对象的检测结果(例如在待检测图像中针对目标对象添加标记框);服务器202可以根据目标对象的检测结果进行目标对象的处理分析操作(例如,进行目标对象数量统计、目标对象分布分析等)。
在一实施例中,终端设备201可以是计算机设备,终端设备201中存储有包括目标对象的待检测图像,服务器202中包括目标对象检测模型。服务器202从终端设备201获取待检测图像,并对待检测图像中的目标对象进行检测处理,得到目标对象的检测结果(例如在待检测图像中针对目标对象添加标记框);服务器202将目标对象的检测结果返回终端设备201,以便于终端设备201基于返回结果进行目标对象的处理分析操作(例如,进行目标对象数量统计、目标对象分布分析等)。
终端设备201也称为终端(Terminal)、用户设备(user equipment,UE)、接入终端、用户单元、移动设备、用户终端、无线通信设备、用户代理或用户装置。终端设备可以是智能家电、具有无线通信功能的手持设备(例如智能手机、平板电脑)、计算设备(例如个人电脑(personal computer,PC)、车载终端、智能语音交互设备、可穿戴设备或者其他智能装置等,但并不局限于此。
服务器202可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在一实施例中,本申请提出的图像处理系统的架构还可以包括数据库,数据库用于待检测图像、目标对象的检测结果、标记框信息等,还可以用于存储目标对象检测模型的相关数据,这些数据在数据库中可以通过不同的数据库表格记录。例如,数据库可以是设于服务器中的数据库,即可以是服务器内置或自带的数据库;数据库也可以是与服务器相连接的外设数据库,例如云数据库(即部署在云端的数据库),具体可以基于私有云、公有云、混合云、边缘云等中的任一种部署,从而使得云数据库侧重的功能不同。例如部署在私有云中的数据库,基础云硬件是用户个人的设备,更侧重服务于小部分用户,而部署在公有云中的数据库,是基于第三方提供的云平台部署的,可以让数据库中存储的数据实现共享,任何用户的数据都可以存储至该数据库中,任何用户也可以使用数据库中的数据。
可以理解的是,本申请实施例描述的系统的架构示意图是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定。例如,本申请实施例所提供的方法除了可以由服务器202执行,还可以由不同于服务器202且能够与终端设备201和/或服务器202通信的其他服务器或服务器集群执行。本领域普通技术人员可知,图2中的终端设备和服务器的数目仅仅是示意性的。根据业务实现需要,可以配置具有任意数目的终端设备和服务器。并且,随着系统架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。在后续实施例中,将以终端设备指代上述终端设备201,以服务器指代上述服务器202,后续实施例中将不再赘述。
请参阅图3,图3是本申请一个示例性实施例提供的一种模型训练方法的流程示意图,以该方法应用于对目标对象进行检测的服务器为例进行说明(例如,图2中的服务器202),该方法可包括以下步骤:
S301、获取样本图像,以及获取样本图像对应的第一标记框信息,第一标记框信息用于指示样本图像中的第一目标对象的位置和相对于参考轴的旋转角度。
本申请实施例中,样本图像是包含至少一个第一目标对象的图像。针对样本图像中包含的每个第一目标对象,对应一个第一标记框信息,第一标记框信息用于指示样本图像中的第一目标对象的位置和相对于参考轴的旋转角度,也即是说通过第一标记框信息可以表征出第一目标对象在样本图像中的姿态与参考轴(例如基于样本图像边框的水平参考轴或垂直参考轴)所形成的旋转角度。基于上述包括旋转角度特征的第一标记框信息作为目标对象检测模型的训练数据进行模型训练,使得模型能够学习到目标对象在样本图像中的旋转角度特征,有利于目标对象检测模型输出图像中目标对象的旋转角度,相比于传统的水平矩形框检测方法,本申请可以降低多个目标对象对应的检测框之间的重叠率,以提高目标对象检测的准确性。
在本申请中,每一个标记框信息在样本图像中对应一个标记框,由于第一标记框信息中包括了用于指示第一目标对象相对于参考轴的旋转角度的参数,那么,也即是说每个标记框信息对应的标记框可以在样本图像中以某一旋转角度进行展示(例如,通过能够与参考轴之间呈任意旋转角度的矩形框进行展示)。
在一实施例中,第一目标对象可以是图像中的人、动物(例如猪只)、植物等。样本图像可以是针对第一目标对象的俯视图像,也可以是针对第一目标对象与参考平面呈任意角度的图像。
在一实施例中,上述获取所述样本图像对应的第一标记框信息的过程,可以包括以下步骤(a1-a2):
(a1)、对样本图像中的第一目标对象进行边界点标注,并计算第一目标对象的边界点的最小外接矩形。
(a2)、将最小外接矩形的位置参数确定为样本图像对应的第一标记框信息,最小外接矩形的位置参数包括最小外接矩形在样本图像中的位置和最小外接矩形相对参考轴的旋转角度。
在一实施例中,本申请可以应用于猪只检测的场景中。在该场景中,第一目标对象可以是猪只,样本图像可以是包含猪只的图像。样本图像可以通过安装在猪舍顶部的摄像头对猪栏进行图像采集得到。第一标记框信息是通过对样本图像进行标记得到的。下面将基于上述场景对步骤(a1-a2)进行阐述。
在步骤(a1-a2)中,对样本图像进行标记的标记方法如下:第一步,对样本图像中的每个猪只进行边界点标注,边界点标注的数量为多个,需要能够较大程度的指示出猪只在样本图像中的大致轮廓和姿态;第二步,针对样本图像中的每个猪只,计算每个猪只的边界点的最小外接矩形,该最小外接矩形即视为猪只对应的第一标记框;第三步,针对样本图像中的每个猪只对应的最小外接矩形,确定最小外接矩形的中心点坐标(x,y)、最小外接矩形的宽(w)和高(h),以及最小外接矩形相对于水平方向(即参考轴)的逆时针角度θ(0<θ<π)(即旋转角度),以此得到一个第一标记框对应的第一标记框信息(x,y,w,h,θ)。上述旋转角度也即是指最小外接矩形相对参考轴的旋转角度。如图4A所示,该图是基于本申请提供的方法进行目标对象检测的效果示意图,该图中包括多个猪只,图中的黑色点为标记的猪只的边界点,具有旋转角度的矩形框为标记出的猪只的第一标记框。该第一标记框相比于通过传统的目标检测算法得到的水平矩形框来说,相对于参考轴的旋转角度可以是任意的,降低了多个第一目标对象对应的检测框之间的重叠率。
其中,为了第一标记框表达的唯一性,在进行第一标记框的标注时,如果旋转角度大于π/2,则将旋转角度标注为θ-π/2,并将w和h替换,即通过第一标记框信息(x,y,h,w,θ-π/2)表达该第一标记框。通过上述方法,避免了因为第一标记框的旋转角度标注不准确导致的计算误差,进而保证了对象检测模型的训练效果。
S302、将样本图像输入至对象检测模型,以得到候选框输出网络输出的样本图像对应的多个候选框信息和回归输出网络输出的多个候选框信息对应的多个预测框信息,候选框信息用于指示对象检测模型输出的第一目标对象的候选位置和候选旋转角度,预测框信息为对候选框信息进行位置回归得到。
本申请实施例中,对象检测模型包括候选框输出网络和回归输出网络。候选框输出网络用于在样本图像中生成多个候选框信息,每个候选框信息对应一个候选框。回归输出网络用于对候选框信息进行位置回归处理,得到多个候选框信息对应的多个预测框信息(也即是得到多个候选框对应的多个预测框)。每个候选框唯一对应一个预测框,预测框与候选框的区别在于,候选框的候选框信息是预先设定的,使得候选框只能呈现固定的多种形态(例如每个候选框只能是预先设定的多个尺寸、多个长宽比、多个旋转角度的任意组合);而预测框是基于候选框信息进行位置回归处理得到的,位置回归处理可以看作是对候选框进行微调后得到的,使得预测框能够更准确、更细粒度的呈现出第一目标对象的形态(例如每个预测框可以是任意尺寸、任意长宽比、任意旋转角度的任意组合)。通过上述方法将候选框进行位置回归得到预测框,使得预测框能够与第一目标对象在图像中的真实位置和旋转角度更加匹配,而不仅仅限定于固定的多个尺寸、多个长宽比和多个旋转角度,后续基于候选框进行位置回归得到的预测框进行模型训练,可以提高模型预测的准确性。
在一实施例中,本申请的对象检测模型还包括特征提取网络,特征提取网络用于对样本图像进行特征提取,以得到样本图像对应的特征图。
基于该实施例,将对上述候选框输出网络输出样本图像对应的多个候选框信息的步骤进行说明:第一步,利用特征提取网络对样本图像进行特征提取处理,得到样本图像对应的多个特征图;第二步,针对多个特征图中的任意一个特征图,对任意一个特征图中的每个特征点进行映射处理,将其映射到样本图像中的像素点(也即是,从样本图像中确定与多个特征图中的目标特征点对应的像素点,目标特征点为多个特征图中任意特征图包括的各个特征点中的任意一个);第三步,针对任意一个特征点映射到样本图像的像素点,利用候选框输出网络输出该像素点对应的多个候选框信息,每个候选框信息对应一个候选框。通过上述第一步到第三步的过程,得到了多个候选框信息。
其中,针对任意一个特征点映射到样本图像的像素点,利用候选框输出网络得到该像素点对应的多个候选框信息,每个候选框信息对应的尺寸、长宽比、旋转角度不完全相同。具体的,利用特征提取网络对样本图像进行特征提取处理,得到样本图像对应的多个特征图,每个特征图的大小可以不同。对于特征图中的任意一个特征点,可以基于该特征图的大小,在特征点对应于样本图像中的像素点生成不同尺寸、长宽比、旋转角度的多个候选框。
在一实施例中,本申请综合考虑检测精度和检测速度,采用RetinaNet网络作为基础的对象检测模型的主网络,网络结构如图4B所示,图中包括特征提取网络、特征金字塔网络(FPN)、回归输出网络(包括分类回归网络、位置回归网络)和候选框输出网络。首先,通过特征提取网络(例如Resnet50网络)对样本图像进行特征提取处理,得到样本图像不同阶段的特征图(包括图中C1、C2、C3、C4、C5五种特征图)。上述步骤可以看作是卷积网络的前向过程,在前向过程生成的多个特征图的大小会发生改变(例如,C1与C2的特征图大小是一样的,C2、C3、C4、C5的特征图大小是不同的)。然后,利用样本图像不同阶段的特征图(本实施例选择C3、C4、C5三个特征图)建立特征图金字塔结构,即利用特征金字塔网络中包括的2d卷积核对C3、C4、C5三个特征图进行卷积处理和上采样处理,得到经过特征金字塔网络处理后的多种特征图(例如图中P3、P4、P5、P6、P7五种特征图)。其中,特征图P3,P4,P5和卷积网络的前向过程产生的C3,C4,C5分别对应。由于低层次的特征图语义不够丰富,不能直接用于预测和分类,而深层的特征更值得信赖。通过上述构建特征金字塔网络的方法,可以得到不同分辨率的特征图,它们都包含了原来最深层特征图的语义信息。通过对不同分辨率的特征图进行处理,能够在增加较少计算量的前提下融合低分辨率语义信息较强的特征图和高分辨率语义信息较弱但空间信息丰富的特征图,从而保证了模型训练效果。
在对象检测模型中,候选框输出网络用于在样本图像中的映射点生成多个候选框,映射点是针对经过特征金字塔网络处理后的多个特征图中的每个特征点映射在样本图像中的像素点。也即是说,候选框输出网络可以对图中P3、P4、P5、P6、P7五种特征图中的任意特征点,在样本图像中生成对应的候选框。
回归输出网络中的分类回归网络可以对每个候选框进行处理,输出每个候选框的置信度。同时,每个候选框对应一个预测框,每个候选框的置信度和该候选框对应的预测框的置信度保持一致。回归输出网络中的位置回归网络用于对候选框信息进行位置回归处理,得到多个候选框信息对应的多个预测框信息(也即是得到多个候选框对应的多个预测框)。通过上述特征提取网络和特征图金字塔网络,可以实现多层级的特征融合及目标检测处理,充分利用图像多维度的特征信息,提高了目标检测的准确率。
示例性的,针对多个特征图(例如P3,P4,P5,P6,P7五个特征图,五个特征图是按照特征图大小从小到大排列的)中任意一个特征图的某一特征点,可以先设置a个候选框的尺寸(例如8*8*20,8*8*21/3,8*8*22/3三个候选框的尺寸);然后设置b个宽高比(例如1:2、1:4、4:1、2:1四个宽高比),再设置c个旋转角度(例如0度、30度、60度三个旋转角度)。基于此,对于任意一个特征图的某一特征点能够生成a*b*c个候选框,也即是生成3*4*3共36个候选框。每个特征图将会产生36*wi*hi个候选框(i=3,4,5,6,7),其中wi、hi代表第i个特征图的宽和高,wi*hi即为特征图包括的特征点的数量。
其中,上述设置a个候选框的尺寸可以通过以下步骤实现:针对P3,P4,P5,P6,P7五个特征图,可以先设置多个特征图对应的候选框的基础尺寸(例如P3,P4,P5,P6,P7五个特征图分别对应的基础尺寸为[8*8,16*16,32*32,64*64,128*128]),每个特征图包括了不同的特征信息,例如特征图P3为低分辨率但语义信息较强的特征图,特征图P7为高分辨率的语义信息较弱但空间信息丰富的特征图;然后设置多个尺度(例如[20,21/3,22/3]);再基于多个特征图对应的候选框的基础尺寸以及多个尺度,即可确定多个候选框的尺寸(例如在特征图P3中的任意一个特征点,需要生成的候选框的尺寸可以是8*8*20,8*8*21/3,8*8*22/3三个候选框的尺寸;在特征图P4中的任意一个特征点,需要生成的候选框的尺寸可以是16*16*20,16*16*21/3,16*16*22/3三个候选框的尺寸)。
如图4C所示,图中展示的是在某一特征图中的某一特征点上,生成候选框的示意图。该图中包括401和402。401展示的基于传统的目标检测算法生成的多个水平矩形框,水平矩形框与参考轴之间的旋转角度为固定值,导致无法基于实际情况对水平矩形框进行旋转角度的调整。402展示的是基于本申请提出的方法生成的具有旋转角度的候选框,通过预设候选框的候选框信息(包括候选框的尺寸参数、宽高比参数、旋转角度参数),使得候选框可以以多种候选框的尺寸(例如8*8*20,8*8*21/3,8*8*22/3三个候选框的尺寸)、多种宽高比(例如1:2、1:4、4:1、2:1四个宽高比)、多种旋转角度(例如0度、30度、60度三个旋转角度)的形式呈现。
在一实施例中,回归输出网络用于对候选框信息进行位置回归处理,得到多个候选框信息对应的多个预测框信息。多个预测框信息包括多组预测框信息,一组预测框信息包括一个特征图中的一个特征点对应的多个预测框信息,一个特征点对应的多个预测框信息中的任意两个预测框信息不相匹配,任意两个预测框信息不相匹配是指任意两个预测框信息对应的两个预测框的尺寸参数、宽高比参数和旋转角度参数中的一个或者多个不同。也即是说,由于一个特征点对应的多个候选框信息中的任意两个候选框信息不相匹配,并且每个候选框通过位置回归处理得到对应的一个预测框,使得每个一个特征点对应的多个预测框信息中的任意两个预测框信息不相匹配。其中,回归输出网络和分类回归网络在各个特征图之间单独进行,网络权值共享,用以输出各个特征图中所包括的候选框的候选框类型、候选框对应的预测框。
在一实施例中,利用回归输出网络对候选框信息进行位置回归处理,得到预测框的方法,可以利用位置回归公式进行处理。位置回归公式如下:
xpredicet=px*widtha+xa
ypredicet=py*heighta+ya
θpredicet=arctan(tanθa+pθ)
其中,xa、ya、widtha、heighta、tanθa分别为候选框信息中候选框的中心点横坐标、中心点纵坐标、宽度、高度和旋转角度。xpredicet、ypredicet、widthpredicet、heightpredicet、θpredicet分别为预测框信息中预测框的中心点横坐标、中心点纵坐标、宽度、高度和旋转角度。px、py、pw、ph、pθ为回归输出网络需要训练得到的回归参数。回归参数的训练方法将在后续实施例中详细叙述,此处不再赘述。通过上述方法,即可利用位置回归公式确定出一个候选框信息对应的预测框信息。
S303、根据多个候选框信息和第一标记框信息,在多个预测框信息中确定第一预测框信息,第一预测框信息对应的第一候选框信息所对应的候选框与第一标记框信息对应的标记框的重合度大于预设阈值。
本申请实施例中,通过多个预测框信息对应的候选框与标记框的重合度,可以在多个预测框信息中确定第一预测框信息。第一预测框信息对应的第一预测框的数量可以为一个或多个,一个或多个第一预测框在一定程度上可以指示样本图像中第一目标对象的位置和旋转角度。由于第一预测框信息是从多个预测框信息中确定的,第一预测框相比于预测框的区别点在于,预测框是与候选框一一对应的,针对特征图中的每一个特征点,都会对应在样本图像中生成多个候选框,导致候选框对应的预测框与样本图像中第一目标对象的位置没有关联性(也即是说,任意一个预测框并不一定能表征第一目标对象在样本图像中的位置和旋转角度)。而第一预测框信息是基于多个预测框信息对应的候选框与标记框的重合度,在多个预测框信息中确定的满足重合度条件的预测框,也即是说,第一预测框信息对应的第一预测框是与样本图像中第一目标对象部分重合的预测框,任意一个第一预测框能在一定程度上表征第一目标对象在样本图像中的位置和旋转角度。基于第一预测框对对象检测模型进行训练,提高了模型训练效果,提高了模型的预测准确度。
在一实施例中,上述根据多个候选框信息和第一标记框信息,在多个预测框信息中确定第一预测框信息的过程,可以包括以下步骤(b1-b3):
(b1)、根据多个候选框信息和第一标记框信息,确定多个候选框信息各自对应的候选框与第一标记框信息对应的标记框之间的重合度。
其中,候选框与标记框之间的重合度计算可以采用交并比(IntersectionoverUnion,IoU)计算的方法,交并比计算的是两个边框的交叠率,即它们的交集和并集的比值。在本申请中,也即是计算候选框与标记框之间的交集和并集的比值。
(b2)、将重合度大于预设阈值的候选框确定为第一候选框。
其中,预设阈值可以预先设置(例如预设阈值设置为0.5)。如果多个候选框中的某个候选框与第一标记框的重合度大于或等于预设阈值(例如IoU≥0.5),则将该候选框确定为第一候选框;如果多个候选框中的某个候选框与第一标记框的重合度小于预设阈值(例如IoU<0.5),则将该候选框不为第一候选框。需要说明的是,预设阈值可以根据实际业务情况灵活设置,例如,如果需要将候选框与标记框之间存在较小部分重合区域就作为第一候选框,那么可以将预设阈值设置为较小值(例如预设阈值设置为0.4);如果需要将候选框与标记框之间存在较大部分重合区域才作为第一候选框,那么可以将预设阈值设置为较大值(例如预设阈值设置为0.8)。
(b3)、将第一候选框对应的预测框所对应的预测框信息确定为第一预测框信息。
其中,第一候选框是从多个候选框中选择的,多个候选框中的每个候选框对应一个预测框,因此,每个第一候选框也对应一个预测框。然后将第一候选框对应的预测框所对应的预测框信息确定为第一预测框信息。
S304、根据第一预测框信息与第一候选框信息之间的第一关系参数、以及第一标记框信息与第一候选框信息之间的第二关系参数,对对象检测模型进行训练,以得到目标对象检测模型。
本申请实施例中,利用第一预测框信息、第一候选框信息、第一标记框信息对对对象检测模型进行训练,以此结合多维度的特征信息,保证了模型的训练效果。
在一实施例中,回归输出网络包括位置回归网络和分类回归网络,位置回归网络用于输出多个预测框信息,分类回归网络用于输出多个预测框信息各自对应的置信度。
其中,分类回归网络可以对每个候选框进行处理,输出每个候选框的置信度。同时,每个候选框对应一个预测框,每个候选框的置信度和该候选框对应的预测框的置信度保持一致。
上述根据第一预测框信息与第一候选框信息之间的第一关系参数、以及第一标记框信息与第一候选框信息之间的第二关系参数,对对象检测模型进行训练,以得到目标对象检测模型的过程,可以包括以下步骤(c1-c3):
(c1)、根据第一预测框信息与第一候选框信息之间的第一关系参数、以及第一标记框信息与第一候选框信息之间的第二关系参数,计算对象检测模型的第一损失,第一损失用于指示对象检测模型定位第一目标对象的位置的准确度。
本申请实施例中,对象检测模型的第一损失用于指示对象检测模型定位第一目标对象的位置的准确度,也即是对象检测模型中位置回归网络对应的损失。
其中,第一关系参数可以通过第一预测框信息、第一候选框信息和前述实施例中的位置回归公式得到;第二关系参数可以通过第一标记框信息、第一候选框信息和前述实施例中的位置回归公式得到。可以理解的是,在前述实施例中,是在位置回归公式px、py、pw、ph、pθ通过模型训练已经确定的情况下,利用位置回归公式确定候选框对应的预测框。而在本实施例中描述的是如何利用第一预测框信息、第一候选框信息和第一标记框信息确定位置回归公式中的回归参数,也即是回归参数的训练方法。
示例性的,第一损失的计算公式如下:
x=y1-y2
y1=(p1x,p1y,p1w,p1h,p1θ)
y2=(p2x,p2y,p2w,p2h,p2θ)
其中,smooth L为第一损失(也即是位置回归损失),(p1x,p1y,p1w,p1h,p1θ)为第一预测框信息与第一候选框信息之间的第一关系参数,(p2x,p2y,p2w,p2h,p2θ)为第一标记框信息与第一候选框信息之间的第二关系参数。
(p1x,p1y,p1w,p1h,p1θ)可以基于第一预测框信息、第一候选框信息和位置回归公式确定;(p2x,p2y,p2w,p2h,p2θ)可以基于第一标记框信息、第一候选框信息和位置回归公式确定。
示例性的,针对任意一组训练数据(包括任意一个第一预测框信息、第一预测框信息对应的第一候选框信息、第一标记框信息),可以将第一预测框信息中的第一预测框的中心点横坐标、中心点纵坐标、宽度、高度和旋转角度作为位置回归公式中的xpredicet、ypredicet、widthpredicet、heightpredicet和θpredicet;将第一候选框信息中的第一候选框的中心点横坐标、中心点纵坐标、宽度、高度和旋转角度作为位置回归公式中的xa、ya、widtha、heighta和tanθa;将上述第一候选框信息和第一预测框信息代入位置回归公式,可以求得该组训练数据所对应的一组回归参数的值(例如y1)。
然后将第一标记框信息中的第一标记框的中心点横坐标、中心点纵坐标、宽度、高度和旋转角度作为位置回归公式中的xpredicet、ypredicet、widthpredicet、heightpredicet和θpredicet;将第一候选框信息中的第一候选框的中心点横坐标、中心点纵坐标、宽度、高度和旋转角度作为位置回归公式中的xa、ya、widtha、heighta和tanθa;将上述第一候选框信息和第一标记框信息代入位置回归公式,可以求得该组训练数据所对应的一组回归参数的值(例如y2)。此时,已经求得第一关系参数和第二关系参数,即可对对象检测模型进行调参处理。通过多组训练数据可以得到多组第一关系参数和第二关系参数,通过多组第一关系参数和第二关系参数分别对对象检测模型进行迭代调参,直到对象检测模型收敛,得到目标对象检测模型。通过第一关系参数和第二关系参数计算第一损失,使得第一损失可以充分学习到第一预测框信息与第一候选框信息之间的差异信息,以及第一标记框信息与第一候选框信息之间差异信息,以此结合多维度的特征信息,保证了模型的训练效果。再基于第一损失进行对对象检测模型进行训练,得到目标对象检测模型,从而提高目标对象检测模型进行目标对象检测的准确性。
在一实施例中,可以将在本次调参操作时位置回归网络当前的回归参数作为上述第一预测框信息与第一候选框信息之间的第一关系参数。本实施例只计算第一标记框信息与第一候选框信息之间的第二关系参数,通过上述第一损失的计算公式对对象检测模型进行调参处理,可以减少计算量,提高训练效率。
(c2)、根据多个预测框信息各自对应的置信度,计算对象检测模型的第二损失,第二损失用于指示对象检测模型分类的准确度。
本申请实施例中,对象检测模型的第二损失用于指示对象检测模型分类的准确度,也即是对象检测模型中分类回归网络对应的损失。多个预测框信息各自对应的置信度是多个预测框信息对应的候选框的置信度,候选框的置信度是分类回归网络对候选框进行处理得到的。在本申请中,可以根据每个预测框信息对应的预测框与第一标记框信息对应的第一标记框之间的重合度确定参考置信度,再根据多个预测框信息各自对应的置信度,以及通过上述方法计算得到的参考置信度,计算对象检测模型的第二损失。
示例性的,第二损失的计算公式如下:
FL(PT)=-αt(1-pt)γlog(pt)
其中,FL(PT)为第二损失(也即是分类损失),α取值一般为0.25,γ取值一般为2,p为预测框的置信度,预测框的置信度等于预测框对应的候选框的置信度,候选框的置信度是分类回归网络对候选框进行处理得到的。k为预测框的样本类型,当k=1时,表示该预测框对应的候选框的样本类型为正样本类型(即候选框与标记框的重合度大于等于预设阈值)。当k≠1时,表示该预测框对应的候选框的样本类型为负样本类型(即候选框与标记框的重合度小于预设阈值)。
通过第二损失的计算公式可以利用多个预测框信息各自对应的置信度以及参考置信度确定多个第二损失,根据多个第二损失分别对对象检测模型进行迭代调参,直到对象检测模型收敛,得到目标对象检测模型。
(c3)、根据第一损失和第二损失,对对象检测模型进行迭代调参,以得到目标对象检测模型。
在一实施例中,上述步骤(c3)根据第一损失和第二损失,对对象检测模型进行迭代调参,以得到目标对象检测模型的过程,可以包括以下步骤(c31-c32):
(c31)、根据第一损失、第二损失以及第一预测框信息的数量,计算对象检测模型的总损失。
示例性的,总损失的计算公式如下:
其中,smooth L为第一损失,FL(PT)为第二损失,s为第一预测框信息的数量。
(c32)、根据总损失,对对象检测模型进行迭代调参,以得到目标对象检测模型。
本申请实施例中,通过对第一损失、第二损失进行处理,得到总损失,再利用总损失对对象检测模型进行迭代调参,使得在针对位置回归网络和分类回归网络中的任意网络进行参数调整时,能够基于融合了位置回归特征和分类特征的总损失调整各自对应的参数,保证了训练效果,进而提高目标对象检测模型的预测准确度。
在一实施例中,上述步骤(c31-c32)是利用第一损失、第二损失确定的总损失,对对象检测模型进行迭代调参,以得到目标对象检测模型。除此之外,本申请也可以通过第一损失对对象检测模型中的位置回归网络进行迭代调参;通过第二损失对对象检测模型中的分类回归网络进行迭代调参,然后基于调参后的位置回归网络和分类回归网络构建目标对象检测模型。模型的具体训练方法而可以根据实际业务情况灵活选择,本申请不对其进行限定。
请参见图4D,该图为通过目标检测模型对待检测图像进行目标对象检测的效果示意图,图中包括多个猪只,每个猪只通过一个具有旋转角度的矩形框(标记框)进行标记。
基于上述实施例,本申请的有益效果在于:本申请通过在训练过程中引入旋转角度这一特征,使得模型能够学习到第一目标对象在样本图像中的旋转角度特征。相比于传统的水平矩形框检测方法来说,通过本申请提出的模型训练方法训练得到目标对象检测模型,有利于目标对象检测模型输出图像中目标对象的位置和旋转角度,降低多个目标对象对应的检测框之间的重叠率,从而提高目标对象检测的准确性。
本申请还提出通过候选框输出网络在样本图像中生成多个候选框信息,通过回归输出网络对候选框信息进行位置回归处理,得到多个候选框信息对应的多个预测框信息。预测框与候选框的区别在于,候选框的候选框信息是预先设定的,使得候选框只能呈现预先设定的多种形态;而预测框是基于候选框信息进行位置回归处理得到的,位置回归处理可以看作是对候选框进行微调后得到的,使得预测框能够更准确、更细粒度的呈现出目标对象的各种形态(例如每个预测框可以是任意尺寸、任意长宽比、任意旋转角度的任意组合)。通过上述方法将候选框进行位置回归得到预测框,使得预测框能够与目标对象在图像中的真实位置和旋转角度更加匹配,后续基于候选框进行位置回归得到的预测框进行模型训练,可以提高模型预测的准确性。
本申请还提出通过多个预测框信息对应的候选框与标记框的重合度,可以在多个预测框信息中确定第一预测框信息。第一预测框信息对应的第一预测框的数量可以为一个或多个,一个或多个第一预测框在一定程度上可以指示样本图像中目标对象的位置和旋转角度。基于第一预测框对对象检测模型进行训练,提高了模型训练效果,提高了模型的预测准确度。本申请还提出通过第一损失和第二损失确定的总损失对对象检测模型进行迭代调参,使得在针对位置回归网络和分类回归网络中的任意网络进行参数调整时,能够基于融合了位置回归特征和分类特征的总损失调整各自对应的参数,保证了训练效果,进而提高目标对象检测模型的预测准确度。
请参阅图5,图5是本申请一个示例性实施例提供的一种图像处理方法的流程示意图,以该方法应用于对目标对象进行检测的服务器为例进行说明(例如,图2中的服务器202),该方法可包括以下步骤:
S501、获取待检测图像。
在一实施例中,待检测图像为需要利用目标对象检测模型对第二目标对象进行检测的图像,待检测图像可以包含至少一个第二目标对象,通过步骤S501-S503提供的方法可以对待检测图像可以包含的第二目标对象进行检测。其中,第二目标对象可以是图像中的人、动物(例如猪只)、植物等。第二目标对象和第一目标对象可以相同(例如猪只),也可以不同。待检测图像可以是针对第二目标对象的俯视图像,也可以是针对第二目标对象与参考平面呈任意角度的图像。
S502、通过目标对象检测模型对待检测图像进行对象检测处理,确定待检测图像中的第二目标对象的第二标记框信息,第二标记框信息用于指示第二目标对象在待检测图像中的位置和相对于参考轴的旋转角度。
本申请实施例中,第二目标对象的第二标记框信息用于指示第二目标对象在待检测图像中的位置和相对于参考轴的旋转角度,也即是说通过第二标记框信息可以表征出第二目标对象在样本图像中的姿态与参考轴(例如基于样本图像边框的水平参考轴或垂直参考轴)所形成的旋转角度。
其中,目标对象检测模型可以是对象检测模型基于前述实施例所提供的模型训练方法训练得到,具体训练过程请参见步骤S301-S304的相关描述,本实施例不再赘述。
需要说明的是,在目标检测模型的训练过程中,使用了第一预测框信息、第一候选框信息、第一标记框信息进行训练。第一候选框信息是样本图像中所产生的所有候选框中与第一标记框信息对应的标记框的重合度大于预设阈值的候选框,也即是说,在训练过程中,使用的第一候选框信息和第一标记框信息为正样本数据。而在目标检测模型的应用过程中,会基于正样本数据和负样本数据进行处理,以此得到第二目标对象的第二标记框信息。下面将对目标对象检测模型对待检测图像进行对象检测处理,确定待检测图像中的第二目标对象的第二标记框信息的过程进行介绍:
第一步,目标对象检测模型首先会利用特征提取网络对待检测图像进行特征提取,以得到待检测图像对应的至少一个特征图。第二步,对于任意特征图,目标对象检测模型从任意特征图包括的所有特征点,找到所有特征点映射到待检测图像中的多个像素点。第三步,对于任意像素点,目标对象检测模型利用候选框输出网络生成任意像素点对应的多个候选框信息,多个候选框信息中任意两个候选框信息的尺寸参数、宽高比参数和旋转角度参数中的一个或者多个不同。第四步,目标对象检测模型利用位置回归网络对映射到待检测图像中的多个像素点所对应的所有候选框信息进行位置回归处理,得到多个预测框信息。第五步,目标对象检测模型利用分类回归网络对映射到待检测图像中的多个像素点所对应的所有候选框信息进行分类回归处理,得到多个候选框信息各自对应的置信度,每个候选框信息的置信度与该候选框信息通过位置回归处理得到的预测框信息的置信度相同。第六步,目标对象检测模型从待检测图像中的多个像素点中所有候选框信息对应的预测框信息中,将置信度满足条件的预测框信息作为待筛选的预测框信息(该预测框信息的类型是为第二目标对象的预测框信息),再对待筛选的预测框信息进行非极大值抑制处理,最终得到至少一个第二标记框信息,每个第二标记框信息用于生成指示待检测图像中的一个第二目标对象的标记框。
S503、根据第二标记框信息,在待检测图像中针对第二目标对象添加标记框。
其中,第二标记框信息包括的第二标记框的中心点坐标(x,y)、第二标记框的宽(w)、第二标记框的高(h),以及第二标记框的相对于参考轴的旋转角度。根据第二标记框信息,即可在待检测图像中针对第二目标对象添加标记框。
基于上述实施例,本申请的有益效果在于:本申请通过能够旋转的标记框框定检测出来的第二目标对象,有利于目标对象检测模型输出图像中第二目标对象的位置和旋转角度,使得检测结果能够与第二目标对象在图像中的真实位置和旋转角度更加匹配,从而提高目标对象检测的准确性。通过本申请生成的标记框相比于通过传统的目标检测算法得到的水平矩形框来说,相对于参考轴的旋转角度可以是任意的,降低了多个第二目标对象对应的标记框之间的重叠率,同时也便于操作者通过标记框更直观的查看检测结果,提升了体验感。
请参阅图6,图6是本申请实施例提供的一种处理装置的示意框图。在一实施例中,处理装置具体可以包括:
数据获取模块601,用于获取样本图像,以及获取上述样本图像对应的第一标记框信息,上述第一标记框信息用于指示上述样本图像中的第一目标对象的位置和相对于参考轴的旋转角度;
处理模块602,用于将上述样本图像输入至上述对象检测模型,以得到上述候选框输出网络输出的上述样本图像对应的多个候选框信息和上述回归输出网络输出的上述多个候选框信息对应的多个预测框信息,上述候选框信息用于指示上述对象检测模型输出的上述目标对象的候选位置和候选旋转角度,上述预测框信息为对上述候选框信息进行位置回归得到;
上述处理模块602,还用于根据上述多个候选框信息和上述第一标记框信息,在上述多个预测框信息中确定第一预测框信息,上述第一预测框信息对应的第一候选框信息所对应的候选框与上述第一标记框信息对应的标记框的重合度大于预设阈值;
训练模块603,用于根据上述第一预测框信息与上述第一候选框信息之间的第一关系参数、以及上述第一标记框信息与上述第一候选框信息之间的第二关系参数,对上述对象检测模型进行训练,以得到目标对象检测模型。
可选的,上述数据获取模块601在用于获取上述样本图像对应的第一标记框信息时,具体用于:
对上述样本图像中的目标对象进行边界点标注,并计算上述目标对象的边界点的最小外接矩形;
将上述最小外接矩形的位置参数确定为上述样本图像对应的第一标记框信息,上述最小外接矩形的位置参数包括上述最小外接矩形在上述样本图像中的位置和上述最小外接矩形相对参考轴的旋转角度。
可选的,上述回归输出网络包括位置回归网络和分类回归网络,上述位置回归网络用于输出上述多个预测框信息,上述分类回归网络用于输出上述多个预测框信息各自对应的置信度;
上述训练模块603在用于根据上述第一预测框信息与上述第一候选框信息之间的第一关系参数、以及上述第一标记框信息与上述第一候选框信息之间的第二关系参数,对上述对象检测模型进行训练,以得到目标对象检测模型时,具体用于:
根据上述第一预测框信息与上述第一候选框信息之间的第一关系参数、以及上述第一标记框信息与上述第一候选框信息之间的第二关系参数,计算上述对象检测模型的第一损失,上述第一损失用于指示上述对象检测模型定位上述第一目标对象的位置的准确度;
根据上述多个预测框信息各自对应的置信度,计算上述对象检测模型的第二损失,上述第二损失用于指示上述对象检测模型分类的准确度;
根据上述第一损失和上述第二损失,对上述对象检测模型进行迭代调参,以得到上述目标对象检测模型。
可选的,上述训练模块603在用于根据上述第一损失和上述第二损失,对上述对象检测模型进行迭代调参,以得到上述目标对象检测模型时,具体用于:
根据上述第一损失、上述第二损失以及上述第一预测框信息的数量,计算上述对象检测模型的总损失;
根据上述总损失,对上述对象检测模型进行迭代调参,以得到上述目标对象检测模型。
可选的,上述处理模块602在用于根据上述多个候选框信息和上述第一标记框信息,在上述多个预测框信息中确定第一预测框信息时,具体用于:
根据上述多个候选框信息和上述第一标记框信息,确定上述多个候选框信息各自对应的候选框与上述第一标记框信息对应的标记框之间的重合度;
将重合度大于上述预设阈值的候选框确定为第一候选框;
将上述第一候选框对应的预测框所对应的预测框信息确定为上述第一预测框信息。
可选的,上述对象检测模型还包括特征提取网络,上述特征提取网络用于对上述样本图像进行特征提取,以得到上述样本图像对应的特征图;上述多个预测框信息包括多组预测框信息,一组预测框信息包括一个特征图中的一个特征点对应的多个预测框信息,一个特征点对应的多个预测框信息中的任意两个预测框信息不相匹配,上述任意两个预测框信息不相匹配是指上述任意两个预测框信息对应的两个预测框的尺寸参数、宽高比参数和旋转角度参数中的一个或者多个不同。
在一实施例中,处理装置具体可以包括:
数据获取模块601,用于获取待检测图像;
处理模块602,用于通过目标对象检测模型对上述待检测图像进行对象检测处理,确定上述待检测图像中的第二目标对象的第二标记框信息,上述第二标记框信息用于指示上述第二目标对象在上述待检测图像中的位置和相对于参考轴的旋转角度,上述目标对象检测模型为通过权利要求1-6任一项所述的模型训练方法得到;
标记框输出模块604,用于根据上述第二标记框信息,在上述待检测图像中针对上述第二目标对象添加标记框。
需要说明的是,本申请实施例的处理装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
请参阅图7,图7是本申请实施例提供的一种计算机设备的示意框图。如图所示的本实施例中的智能终端可以包括:处理器701、存储装置702以及通信接口703。上述处理器701、存储装置702以及通信接口703之间可以进行数据交互。
上述存储装置702可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储装置702也可以包括非易失性存储器(non-volatilememory),例如快闪存储器(flash memory),固态硬盘(solid-state drive,SSD)等;上述存储装置702还可以包括上述种类的存储器的组合。
上述处理器701可以是中央处理器(central processing unit,CPU)。在一个实施例中,上述处理器701还可以是图形处理器(Graphics Processing Unit,GPU)。上述处理器701也可以是由CPU和GPU的组合。在一个实施例中,上述存储装置702用于存储程序指令,上述处理器701可以调用上述程序指令,执行如下操作:
获取样本图像,以及获取上述样本图像对应的第一标记框信息,上述第一标记框信息用于指示上述样本图像中的第一目标对象的位置和相对于参考轴的旋转角度;
将上述样本图像输入至上述对象检测模型,以得到上述候选框输出网络输出的上述样本图像对应的多个候选框信息和上述回归输出网络输出的上述多个候选框信息对应的多个预测框信息,上述候选框信息用于指示上述对象检测模型输出的上述目标对象的候选位置和候选旋转角度,上述预测框信息为对上述候选框信息进行位置回归得到;
根据上述多个候选框信息和上述第一标记框信息,在上述多个预测框信息中确定第一预测框信息,上述第一预测框信息对应的第一候选框信息所对应的候选框与上述第一标记框信息对应的标记框的重合度大于预设阈值;
根据上述第一预测框信息与上述第一候选框信息之间的第一关系参数、以及上述第一标记框信息与上述第一候选框信息之间的第二关系参数,对上述对象检测模型进行训练,以得到目标对象检测模型。
可选的,上述处理器701在用于获取上述样本图像对应的第一标记框信息时,具体用于:
对上述样本图像中的目标对象进行边界点标注,并计算上述目标对象的边界点的最小外接矩形;
将上述最小外接矩形的位置参数确定为上述样本图像对应的第一标记框信息,上述最小外接矩形的位置参数包括上述最小外接矩形在上述样本图像中的位置和上述最小外接矩形相对参考轴的旋转角度。
可选的,上述回归输出网络包括位置回归网络和分类回归网络,上述位置回归网络用于输出上述多个预测框信息,上述分类回归网络用于输出上述多个预测框信息各自对应的置信度;
上述处理器701在用于根据上述第一预测框信息与上述第一候选框信息之间的第一关系参数、以及上述第一标记框信息与上述第一候选框信息之间的第二关系参数,对上述对象检测模型进行训练,以得到目标对象检测模型时,具体用于:
根据上述第一预测框信息与上述第一候选框信息之间的第一关系参数、以及上述第一标记框信息与上述第一候选框信息之间的第二关系参数,计算上述对象检测模型的第一损失,上述第一损失用于指示上述对象检测模型定位上述第一目标对象的位置的准确度;
根据上述多个预测框信息各自对应的置信度,计算上述对象检测模型的第二损失,上述第二损失用于指示上述对象检测模型分类的准确度;
根据上述第一损失和上述第二损失,对上述对象检测模型进行迭代调参,以得到上述目标对象检测模型。
可选的,上述处理器701在用于根据上述第一损失和上述第二损失,对上述对象检测模型进行迭代调参,以得到上述目标对象检测模型时,具体用于:
根据上述第一损失、上述第二损失以及上述第一预测框信息的数量,计算上述对象检测模型的总损失;
根据上述总损失,对上述对象检测模型进行迭代调参,以得到上述目标对象检测模型。
可选的,上述处理器701在用于根据上述多个候选框信息和上述第一标记框信息,在上述多个预测框信息中确定第一预测框信息时,具体用于:
根据上述多个候选框信息和上述第一标记框信息,确定上述多个候选框信息各自对应的候选框与上述第一标记框信息对应的标记框之间的重合度;
将重合度大于上述预设阈值的候选框确定为第一候选框;
将上述第一候选框对应的预测框所对应的预测框信息确定为上述第一预测框信息。
可选的,上述对象检测模型还包括特征提取网络,上述特征提取网络用于对上述样本图像进行特征提取,以得到上述样本图像对应的特征图;上述多个预测框信息包括多组预测框信息,一组预测框信息包括一个特征图中的一个特征点对应的多个预测框信息,一个特征点对应的多个预测框信息中的任意两个预测框信息不相匹配,上述任意两个预测框信息不相匹配是指上述任意两个预测框信息对应的两个预测框的尺寸参数、宽高比参数和旋转角度参数中的一个或者多个不同。
在另一个实施例中,上述存储装置702用于存储程序指令,上述处理器701可以调用上述程序指令,执行如下操作:
获取待检测图像;
通过目标对象检测模型对上述待检测图像进行对象检测处理,确定上述待检测图像中的第二目标对象的第二标记框信息,上述第二标记框信息用于指示上述第二目标对象在上述待检测图像中的位置和相对于参考轴的旋转角度,上述目标对象检测模型为通过权利要求1-6任一项所述的模型训练方法得到;
根据上述第二标记框信息,在上述待检测图像中针对上述第二目标对象添加标记框。
具体实现中,本申请实施例中所描述的处理器701、存储装置702以及通信接口703可执行本申请实施例图3或图5提供的模型训练方法或图像处理方法的相关实施例中所描述的实现方式,也可执行本申请实施例图6提供的处理装置的相关实施例中所描述的实现方式,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法、装置和系统,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的;例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式;例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的处理装置所执行的计算机程序,且该计算机程序包括程序指令,当处理器执行上述程序指令时,能够执行前文图3、图5所对应实施例中的方法,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可以被部署在一个计算机设备上,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备可以执行前文图3、图5所对应实施例中的方法,因此,这里将不再进行赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本申请的部分实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (10)
1.一种模型训练方法,其特征在于,应用于对象检测模型,所述对象检测模型包括候选框输出网络和回归输出网络;所述方法包括:
获取样本图像,以及获取所述样本图像对应的第一标记框信息,所述第一标记框信息用于指示所述样本图像中的第一目标对象的位置和相对于参考轴的旋转角度;
将所述样本图像输入至所述对象检测模型,以得到所述候选框输出网络输出的所述样本图像对应的多个候选框信息和所述回归输出网络输出的所述多个候选框信息对应的多个预测框信息,所述候选框信息用于指示所述对象检测模型输出的所述第一目标对象的候选位置和候选旋转角度,所述预测框信息为对所述候选框信息进行位置回归得到;
根据所述多个候选框信息和所述第一标记框信息,在所述多个预测框信息中确定第一预测框信息,所述第一预测框信息对应的第一候选框信息所对应的候选框与所述第一标记框信息对应的标记框的重合度大于预设阈值;
根据所述第一预测框信息与所述第一候选框信息之间的第一关系参数、以及所述第一标记框信息与所述第一候选框信息之间的第二关系参数,对所述对象检测模型进行训练,以得到目标对象检测模型。
2.根据权利要求1所述的方法,其特征在于,所述获取所述样本图像对应的第一标记框信息,包括:
对所述样本图像中的第一目标对象进行边界点标注,并计算所述第一目标对象的边界点的最小外接矩形;
将所述最小外接矩形的位置参数确定为所述样本图像对应的第一标记框信息,所述最小外接矩形的位置参数包括所述最小外接矩形在所述样本图像中的位置和所述最小外接矩形相对参考轴的旋转角度。
3.根据权利要求1所述的方法,其特征在于,所述回归输出网络包括位置回归网络和分类回归网络,所述位置回归网络用于输出所述多个预测框信息,所述分类回归网络用于输出所述多个预测框信息各自对应的置信度;
所述根据所述第一预测框信息与所述第一候选框信息之间的第一关系参数、以及所述第一标记框信息与所述第一候选框信息之间的第二关系参数,对所述对象检测模型进行训练,以得到目标对象检测模型,包括:
根据所述第一预测框信息与所述第一候选框信息之间的第一关系参数、以及所述第一标记框信息与所述第一候选框信息之间的第二关系参数,计算所述对象检测模型的第一损失,所述第一损失用于指示所述对象检测模型定位所述第一目标对象的位置的准确度;
根据所述多个预测框信息各自对应的置信度,计算所述对象检测模型的第二损失,所述第二损失用于指示所述对象检测模型分类的准确度;
根据所述第一损失和所述第二损失,对所述对象检测模型进行迭代调参,以得到所述目标对象检测模型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一损失和所述第二损失,对所述对象检测模型进行迭代调参,以得到所述目标对象检测模型,包括:
根据所述第一损失、所述第二损失以及所述第一预测框信息的数量,计算所述对象检测模型的总损失;
根据所述总损失,对所述对象检测模型进行迭代调参,以得到所述目标对象检测模型。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述根据所述多个候选框信息和所述第一标记框信息,在所述多个预测框信息中确定第一预测框信息,包括:
根据所述多个候选框信息和所述第一标记框信息,确定所述多个候选框信息各自对应的候选框与所述第一标记框信息对应的标记框之间的重合度;
将重合度大于所述预设阈值的候选框确定为第一候选框;
将所述第一候选框对应的预测框所对应的预测框信息确定为所述第一预测框信息。
6.根据权利要求1-4中任一项所述的方法,其特征在于,所述对象检测模型还包括特征提取网络,所述特征提取网络用于对所述样本图像进行特征提取,以得到所述样本图像对应的特征图;所述多个预测框信息包括多组预测框信息,一组预测框信息包括一个特征图中的一个特征点对应的多个预测框信息,一个特征点对应的多个预测框信息中的任意两个预测框信息不相匹配,所述任意两个预测框信息不相匹配是指所述任意两个预测框信息对应的两个预测框的尺寸参数、宽高比参数和旋转角度参数中的一个或者多个不同。
7.一种图像处理方法,其特征在于,所述方法包括:
获取待检测图像;
通过目标对象检测模型对所述待检测图像进行对象检测处理,确定所述待检测图像中的第二目标对象的第二标记框信息,所述第二标记框信息用于指示所述第二目标对象在所述待检测图像中的位置和相对于参考轴的旋转角度,所述目标对象检测模型为通过权利要求1-6任一项所述的模型训练方法得到;
根据所述第二标记框信息,在所述待检测图像中针对所述第二目标对象添加标记框。
8.一种处理装置,其特征在于,所述装置包括用以实现如权利要求1-6中任一项所述的模型训练方法的模块,或者,包括用以实现如权利要求7所述的图像处理方法的模块。
9.一种计算机设备,其特征在于,包括:处理器、存储装置和通信接口,所述处理器、所述通信接口和所述存储装置相互连接,其中,所述存储装置存储有可执行程序代码,所述处理器用于调用所述可执行程序代码,用以实现如权利要求1-6中任一项所述的模型训练方法,或者,包括用以实现如权利要求7所述的图像处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行,用以实现如权利要求1-6中任一项所述的模型训练方法,或者,用以实现如权利要求7所述的图像处理方法的模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210895990.4A CN115205634A (zh) | 2022-07-26 | 2022-07-26 | 模型训练方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210895990.4A CN115205634A (zh) | 2022-07-26 | 2022-07-26 | 模型训练方法、装置、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115205634A true CN115205634A (zh) | 2022-10-18 |
Family
ID=83584050
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210895990.4A Pending CN115205634A (zh) | 2022-07-26 | 2022-07-26 | 模型训练方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115205634A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117611513A (zh) * | 2022-11-08 | 2024-02-27 | 郑州英视江河生态环境科技有限公司 | 微观生物图像处理方法、设备及系统 |
CN117710697A (zh) * | 2023-08-09 | 2024-03-15 | 荣耀终端有限公司 | 对象检测方法、电子设备、存储介质及程序产品 |
-
2022
- 2022-07-26 CN CN202210895990.4A patent/CN115205634A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117611513A (zh) * | 2022-11-08 | 2024-02-27 | 郑州英视江河生态环境科技有限公司 | 微观生物图像处理方法、设备及系统 |
CN117710697A (zh) * | 2023-08-09 | 2024-03-15 | 荣耀终端有限公司 | 对象检测方法、电子设备、存储介质及程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109146892B (zh) | 一种基于美学的图像裁剪方法及装置 | |
CN109784181B (zh) | 图片水印识别方法、装置、设备及计算机可读存储介质 | |
CN109977956B (zh) | 一种图像处理方法、装置、电子设备以及存储介质 | |
US11328401B2 (en) | Stationary object detecting method, apparatus and electronic device | |
CN115205634A (zh) | 模型训练方法、装置、设备及可读存储介质 | |
WO2021190321A1 (zh) | 图像处理方法和装置 | |
CN111985281B (zh) | 图像生成模型的生成方法、装置及图像生成方法、装置 | |
CN110648397A (zh) | 场景地图生成方法、装置、存储介质及电子设备 | |
CN111008935B (zh) | 一种人脸图像增强方法、装置、系统及存储介质 | |
KR20130028734A (ko) | 얼굴 검출을 위한 방법 및 장치 | |
CN112614110B (zh) | 评估图像质量的方法、装置及终端设备 | |
CN112836625A (zh) | 人脸活体检测方法、装置、电子设备 | |
CN113112511B (zh) | 试卷批改的方法、装置、存储介质及电子设备 | |
WO2022002262A1 (zh) | 基于计算机视觉的字符序列识别方法、装置、设备和介质 | |
CN111353956A (zh) | 图像修复方法、装置、计算机设备及存储介质 | |
CN116958962A (zh) | 一种基于改进YOLOv8s的疏果前石榴果实检测方法 | |
CN111353325A (zh) | 关键点检测模型训练方法及装置 | |
CN111144156B (zh) | 一种图像数据处理方法和相关装置 | |
CN113157956B (zh) | 图片搜索方法、系统、移动终端及存储介质 | |
US11223815B2 (en) | Method and device for processing video | |
CN113537359A (zh) | 训练数据的生成方法及装置、计算机可读介质和电子设备 | |
CN113537193A (zh) | 光照估计方法、光照估计装置、存储介质与电子设备 | |
CN113537194A (zh) | 光照估计方法、光照估计装置、存储介质与电子设备 | |
CN112733565A (zh) | 二维码粗定位方法、设备及存储介质 | |
CN117649358B (zh) | 图像处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 2601, 2602, 2603, 2606, Zhongzhou building, No. 3088, Jintian Road, Gangxia community, Futian street, Futian District, Shenzhen, Guangdong 518000 Applicant after: Shenzhen Xiaoyudian Digital Technology Co.,Ltd. Address before: 2601, 2602, 2603, 2606, Zhongzhou building, No. 3088, Jintian Road, Gangxia community, Futian street, Futian District, Shenzhen, Guangdong 518000 Applicant before: Shenzhen Huace Huihong Technology Co.,Ltd. |