CN115908781A - 密集旋转目标检测方法、模型训练方法和装置 - Google Patents
密集旋转目标检测方法、模型训练方法和装置 Download PDFInfo
- Publication number
- CN115908781A CN115908781A CN202211358733.3A CN202211358733A CN115908781A CN 115908781 A CN115908781 A CN 115908781A CN 202211358733 A CN202211358733 A CN 202211358733A CN 115908781 A CN115908781 A CN 115908781A
- Authority
- CN
- China
- Prior art keywords
- target frame
- predicted
- target
- information
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
Abstract
一种密集旋转目标检测方法、模型训练方法和装置,将输入图像输入特征提取网络中得到多层第一特征图,将多层第一特征图输入特征融合网络中得到多层第一融合特征图,将多层第一融合特征图输入目标框检测网络中得到预测目标框,根据标记目标框的标记信息和预测目标框的预测信息,计算难度系数,以确定每个标记目标框所匹配的一个或多个预测目标框,根据标记目标框的标记信息及其所匹配的预测目标框的预测信息,构建模型损失函数,以更新密集旋转目标检测模型的参数,从而完成对密集旋转目标检测模型的训练,发明通过计算难度系数,找到标记目标框和预测目标框之间的匹配关系,有效降低了密集旋转目标检测模型的训练难度,加快了训练速度。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及一种密集旋转目标检测方法、模型训练方法和装置。
背景技术
随着深度学习的发展,卷积神经网络在目标检测领域取得突破性进展,在自然场景下,对人、汽车等的检测效果已经符合现实的运用需求。但是,和自然场景相比,工业场景下的目标检测算法仍具备优化空间。工业相机成像的图像具有以下检测难点:分辨率较大、无关背景较多、待检测物体形状不规则(如极端长宽比等)以及待检测物体摆放密集等。以上原因造成工业场景下目标检测容易产生漏检或者误检。
传统的目标检测方法主要是找到目标的水平矩形框,水平矩形框存在一种弊端是在目标识别时,当存在两个靠近的待检测目标时,水平矩形框存在交叠的情况。对于一些目标长宽比较大,且具有一定角度的目标而言,传统的目标检测方法会包围大部分的背景区域,当目标处于不同的背景下,传统的目标检测方法会影响最终的检测精度。
对于上述传统的目标检测方法存在的问题,目前一些技术人员提出了采用旋转目标检测方法来解决背景复杂性以及检测矩形框存在交叠的情况,旋转目标检测中的紧凑型矩形框可以旋转一定的角度,能够对两个靠近的待检测目标进行检测。
然而,由于很多工业图像的采集视野范围内会存在多个产品或者工件,并且多个产品或者工件之间相互交错堆叠,其包含的空间场景更大、更复杂且种类和数量更多,因此工业图像的目标检测难点主要包括目标较小、目标密集以及目标方向任意。在现有技术中,无论是两阶段还是单阶段的检测方法大多都是基于锚框,均为网络引入了大量的超参数,但是超参数的确定需要大量的专业知识和不断地调优,并且难以应对跟踪过程中可能出现的复杂的目标变化和环境变化;而无锚框的检测方法直接对角度进行预测,其不可避免的会产生预测偏差,对检测精度会产生一定的影响。
发明内容
本发明主要解决的技术问题是如何更好地对密集场景下旋转目标物体进行检测。
根据第一方面,一种实施例中提供一种密集旋转目标检测模型的训练方法,所述密集旋转目标检测模型包括特征提取网络、特征融合网络和目标框检测网络,所述训练方法包括:
获取包括一个或多个目标物体的输入图像和标注数据,所述标注数据包括输入图像中标记目标框的标记信息,所述标记信息包括标记旋转角度信息、标记尺寸信息、标记中心点位置信息和标记类别信息;
采用特征提取网络提取所述输入图像中的特征信息,得到多层具有不同分辨率的第一特征图;
采用特征融合网络对部分层具有不同分辨率的第一特征图进行特征融合,得到与第一特特征图具有相同层数的第一融合特征图;其中,任意一层的所述第一特征图都对应有一个具有相同分辨率的第一融合特征图,且所有第一融合特征图都具有相同的通道数;
采用目标框检测网络对各层第一融合特征图进行检测,得到各层第一融合特征图中所有预测目标框的预测信息,所述预测信息包括预测旋转角度信息、预测尺寸信息、预测中心点位置信息和预测类别信息;
基于所述标记目标框的标记信息和所述预测目标框的预测信息,确定所述标记目标框与所述预测目标框之间的难度系数,所述难度系数用于表征所述标记目标框和所述预测目标框之间的训练难度;
基于所述难度系数确定所述标记目标框和所述预测目标框之间的最佳对应关系;
根据所述标记目标框和所述预测目标框之间的最佳对应关系,确定每个所述标记目标框所匹配的一个或多个所述预测目标框;
根据所述标记目标框的标记信息及其所匹配的预测目标框的预测信息,构建模型损失函数;
根据所述模型损失函数采用反向传播算法,对所述密集旋转目标检测模型的参数进行更新。
根据第二方面,一种实施例中提供一种密集旋转目标检测方法,包括:
获取包括一个或多个目标物体的输入图像;
将所述输入图像输入由如上述任一实施例所述的训练方法所训练的密集旋转目标检测模型中,得到所有预测目标框的预测信息,所述预测信息包括预测旋转角度信息、预测尺寸信息、预测中心点位置信息和预测类别信息中;
按照预设规则对所有预测目标框进行筛选,得到筛选后的预测目标框;
基于筛选后的预测目标框的预测信息,得到目标物体的检测结果。
根据第三方面,一种实施例中提供一种密集旋转目标检测装置,包括:
图像采集装置,用于获取输入图像;
处理器,用于执行如上述任一实施例所述的密集旋转目标检测方法。
根据第四方面,一种实施例中提供一种计算机可读存储介质,所述介质上存储有程序,所述程序能够被处理器执行以实现如上述任一实施例所述的方法。
依据上述实施例的密集旋转目标检测方法、模型训练方法和装置,其中,密集旋转目标检测模型包括特征提取网络、特征融合网络和目标框检测网络,在对密集旋转目标检测模型进行训练时,将输入图像输入特征提取网络中得到多层第一特征图,将多层第一特征图输入特征融合网络中得到多层第一融合特征图,将多层第一融合特征图输入目标框检测网络中得到各层第一融合特征图中所有预测目标框的预测信息,根据输入图像中标记目标框的标记信息和预测目标框的预测信息,确定各个标记目标框与预测目标框之间的难度系数,基于该难度系数确定标记目标框和预测目标框之间的最佳对应关系,以确定每个标记目标框所匹配的一个或多个预测目标框,根据标记目标框的标记信息及其所匹配的预测目标框的预测信息,构建模型损失函数,并采用反向传播算法,对密集旋转目标检测模型的参数进行更新;由此,本发明通过计算难度系数,找到标记目标框和预测目标框之间的匹配关系,有效降低了密集旋转目标检测模型的训练难度,加快了训练速度;
此外,在通过训练完成的密集旋转目标检测模型检测密集旋转目标时,本发明实施例对所检测到的预测目标框进行了筛选,能够去掉冗余的预测目标框,从而提升目标物体的检测精度。
附图说明
图1为目标物体的旋转角度在一种角度定义方式下的示意图;
图2为目标物体的旋转角度在另一种角度定义方式下的示意图;
图3为一种实施例的预测目标框和标记目标框的旋转角度示意图;
图4为一种实施例的密集旋转目标检测模型的神经网络结构示意图;
图5为一种实施例的密集旋转目标检测模型的结构示意图;
图6为一种实施例的密集旋转目标检测模型的训练方法流程图;
图7为一种实施例的特征融合过程示意图;
图8为一种实施例的第一融合特征图中检测点与其所检测的预测目标框的关系示意图;
图9为另一种实施例的第一融合特征图中检测点与其所检测的预测目标框的关系示意图;
图10为标记目标框同时与两个预测目标框产生相交区域的示意图;
图11为一种实施例的难度系数矩阵的示意图;
图12为一种实施例的二部图的示意图;
图13为一种实施例的相等子图的示意图;
图14为一种实施例的更新后的相等子图的示意图;
图15为对图14所示的相等子图的一条增广路径取反操作后得到的相等子图的示意图;
图16为对图14所示的相等子图的另一条增广路径取反操作后得到的相等子图的示意图;
图17为一种实施例的密集旋转目标检测方法流程图;
图18为一种实施例的密集旋转目标检测装置的结构示意图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。而本申请所说“连接”、“联接”,如无特别说明,均包括直接和间接连接(联接)。
常用的目标物体的旋转角度具有两种定义方式:1、如图1所示,旋转角度α指目标物体对应的目标框与X轴的夹角的锐角,角度范围为[-90°,0°),其中,图1中的(a)为第一种角度定义方式下目标框对应的旋转角度的一个例子示意图,图1中的(b)为第一种角度定义方式下目标框对应的旋转角度的另一个例子示意图;2、如图2所示,旋转角度α指目标物体对应的目标框的较长边与X轴的夹角的锐角,角度范围为[-90°,90°),其中,图2中的(a)为第二种角度定义方式下目标框对应的旋转角度的一个例子示意图,图2中的(b)为第二种角度定义方式下目标框对应的旋转角度的另一个例子示意图。
在预测目标物体的旋转角度时,一个较常采用的方法是基于回归的方法进行训练。然而,由于角度的周期性和矩形边的交换性等特性,在某些特定情况下,基于回归的损失函数值并不能有效地反映真实的拟合情况。如图3所示,使用第一种角度定义方式时,虚线矩形框表示目标物体的预测目标框,预测目标框的旋转角度为80°,实线矩形框表示目标物体的标记目标框,旋转角度为20°,这两个旋转角度的偏差为60°。对于上述图3所示的例子,理想的回归路线是,逆时针进行角度1的旋转,但因为通过这个路径回归会使预测目标框的旋转角度变大以及预测目标框与标记目标框的偏差值增大,从而导致损失函数增大。在实际训练过程中,为了使损失函数变小,卷积神经网络可能采用更复杂的方式进行回归,如顺时针进行角度2的旋转,同时缩放预测目标框的长和宽。
为了提高检测精度,另外一个常用的方法是将旋转角度的检测范围划分成若干个较小的第二检测范围。实际运行时,先确定旋转角度落在某个第二检测范围内,再分别回归第二检测范围内的角度偏移。例如,检测范围为(0°,180°),按照60°进行划分,所划分的第二检测范围如下:(0°,60°),(60°,120°),(120°,180°),使用三个不同的卷积网络层分别对旋转角度在第二检测范围内的偏差进行回归,同时旋转角度将被换算成第二检测范围和检测范围内的偏移量(例如155°被换算为第3个第二检测范围(120°,180°),偏移量为155°-120°=35°)。但在训练过程中,第二检测范围之间的不连续会造成损失函数值的不稳定,例如标记信息为第1个第二检测范围(0°,60°),偏移量为59°,预测信息为第2个第二检测范围(60°,120°),偏移量为1°,上述预测信息和标记信息的差别不大,但计算结果却是不同的两个第二检测范围,相差较大的偏移量,这使得损失函数不能很好地反映实际偏差量。
目前,常用的全卷积目标检测网络按照工作流程可以分为三个相对独立的阶段,对应三类不同的卷积神经网络结构,分别的backbone(检测主干,负责提取特征),neck(检测颈,负责对backbone提取的特征进行再加工和合理利用),head(检测头,使用neck加工的特征,负责拟合具体任务的结果)。
通常情况下,全卷积目标检测网络由一个骨干网络(backbone),多个检测颈(neck)和多个检测头(head)组成,且检测颈与检测头的数量相同。实际工作流程如下:
a)骨干网络负责提取输入图像的特征。骨干网络可能输出多个不同尺度的特征,因此可能需要多个检测颈和检测头负责处理。
b)检测颈负责加工处理骨干网络输出的特征。
c)检测头负责利用检测颈加工过的特征,拟合出任务结果。
现有的目标检测算法多是基于锚框的目标检测算法,其认为具备显著区分性的特征位于目标物体的中心区域。但对于不规则的目标物体而言,其显著区分性的特征不一定位于中心区域,因此在这一类场景下,基于锚框的目标检测网络不一定适用。此外,对于密集摆放的目标物体,在一定的局部区域内特征响应相似,因此难以通过局部特征响应的不同判断出相异的两个或两个以上的目标物体。
基于上述问题,如图4所示,本发明实施例构建了一个检测颈连接若干个检测头的密集旋转目标检测模型进行检测,其中,检测头的数量根据不同的检测场景灵活调整;此外,本发明实施例采用角度分类检测方法和标记平滑方法,解决了旋转角度回归难的技术问题;最后,通过计算难度系数,本发明实施例找到标记目标框和预测目标框之间的匹配关系,有效降低了训练难度,加快了训练速度。
请参考图5,本实施例提供的密集旋转目标检测模型包括特征提取网络101、特征融合网络102和目标框检测网络103,输入图像输入至特征提取网络101中得到多层第一特征图;多层第一特征图输入至特征融合网络102中得到相同层数的第一融合特征图,将多层第一融合特征图输入目标框检测网络103中得到多个预测目标框。其中,目标框检测网络103包括:目标框角度检测模块、目标框尺寸检测模块、目标框中心检测模块和目标框类别检测模块中的一者或多者。
下面基于密集旋转目标检测模型中各个网络的结构分别对密集旋转目标检测模型的训练方法和推理方法进行说明。
请参考图6,图6为一种实施例的密集旋转目标检测模型的训练方法流程图,以下简称模型训练方法,本实施例提供的模型训练方法包括步骤201至步骤209,下面详细说明。
步骤201:获取包括一个或多个目标物体的输入图像和标注数据,其中,标注数据包括输入图像中标记目标框的标记信息,标记信息包括标记旋转角度信息、标记尺寸信息、标记中心点位置信息和标记类别信息。标记旋转角度信息是指标记目标框的旋转角度,其中旋转角度的定义在上述实施例中已进行了说明,此处不再赘述,标记尺寸信息是指标记目标框的宽度和长度,标记中心点位置信息是指标记目标框的标记中心点的位置坐标,标记类别信息是指标记目标框所属类别对应的置信度。本实施例中,标注数据可通过人为对输入图像中的真实目标框以及目标框的各类信息进行标记,也可通过样本数据库直接进行获取。
步骤202:采用特征提取网络101提取输入图像中的特征信息,得到多层具有不同分辨率的第一特征图。
步骤203:采用特征融合网络102对部分层具有不同分辨率的第一特征图进行特征融合,得到相同层数的第一融合特征图;其中,任意一层的第一特征图都对应有一个具有相同分辨率的第一融合特征图,且所有第一融合特征图都具有相同的通道数。在本实施例中,对于多层第一特征图,可以将第一层第一特征图直接作为对应的第一层第一融合特征图,然后对除第一层第一特征图以外的其他层第一特征图进行特征融合,得到对应的其他层第一融合特征图;此外,在其他实施例中,还可以将除第一层第一特征图以外的任一层第一特征图直接作为对应的一层第一融合特征图,例如,将最后一层第一特征图直接作为最后一层第一融合特征图,然后将除最后一层第一特征图以外的其他层第一特征图进行特征融合,得到对应的其他层第一融合特征图,需要说明的是,具体的特征融合方法在后续会进行详细介绍,此处不再重复说明。
步骤204:采用目标框检测网络103对各层第一融合特征图进行检测,得到各层第一融合特征图中所有预测目标框的预测信息,其中,预测信息包括预测旋转角度信息、预测尺寸信息、预测中心点位置信息和预测类别信息。与标记目标框的标记信息类似,预测信息中的预测旋转角度信息是指预测目标框的旋转角度,预测尺寸信息是指预测目标框的宽度和长度,预测中心点位置信息是指预测目标框的预测中心点的位置坐标,预测类别信息是指预测目标框所属类别对应的置信度。
步骤205:基于标记目标框的标记信息和预测目标框的预测信息,确定标记目标框与预测目标框之间的难度系数,其中,难度系数用于表征标记目标框和预测目标框之间的训练难度。
步骤206:基于难度系数确定标记目标框和预测目标框之间的最佳对应关系。
步骤207:根据标记目标框和预测目标框之间的最佳对应关系,确定每个标记目标框所匹配的一个或多个预测目标框。
步骤208:根据标记目标框的标记信息及其所匹配的预测目标框的预测信息,构建模型损失函数。
步骤209:根据模型损失函数采用反向传播算法,对密集旋转目标检测模型的参数进行更新。
在一实施例中,特征提取网络101包括多层神经网络层,每层神经网络层用于输出一层第一特征图,各层神经网络层输出的第一特征图具有不同的分辨率,且通道数量也不一定相同。以ResNet50网络结构为例,其基本模块包括依次连接的卷积层、批标准化层和激活函数层,多个基本模块首尾相连,堆叠形成特征提取网络101。在本实施例中,由于使用池化或者步长大于1的卷积,较深层的神经网络层会输出分辨率较低且语义信息较丰富的第一特征图,较浅层的神经网络层输出分辨率较大且位置信息比较精准的第一特征图,此外,一般较浅层的神经网络层产生的第一特征图的尺寸是较深层的神经网络产生的第一特征图的尺寸的整数倍。
在一实施例中,如图7所示,特征融合网络102采用金字塔特征融合方法,将具有较低分辨率且较丰富语义信息的第一特征图与具有较高分辨率且较精准位置信息的第一特征图进行特征融合,具体包括步骤2031至步骤2032,下面详细说明。
步骤2031:将第1层第一特征图进行1×1卷积处理,作为第1层第一融合特征图。
步骤2032:按照以下方式得到除第1层第一融合特征图以外的其他层第一融合特征图:
对第q层第一融合特征图和第q+1层第一特征图进行特征融合,得到第q+1层第一融合特征图;其中,q表示第一特征图和第一融合特征图的层数索引,q为大于等于1的自然数,多层第一特征图的分辨率按照所述第一特征图的层数索引q从小到大的顺序呈递增趋势,第q+1层第一融合特征图与第q+1层第一特征图具有相同的分辨率。
其中,对第q层第一融合特征图和第q+1层第一特征图进行特征融合包括:
(1)对第q层第一融合特征图进行上采样处理,以得到与第q+1层第一特征图具有相同分辨率的第q层第二特征图。
(2)对第q+1层第一特征图进行1×1卷积处理,以得到与第q层第二特征图具有相同通道数和相同分辨率的第q层第三特征图。
(3)对第q层第三特征图与第q层第二特征图进行特征融合,得到第q+1层第一融合特征图。
经过将具有较低分辨率且较丰富语义信息的第一特征图与具有较高分辨率且较精准位置信息的第一特征图进行特征融合,使得特征融合后得到的多层第一融合特征图能够兼顾大目标物体和小目标物体的检测效果。
在一实施例中,在步骤204中,采用目标框检测网络103对多层第一融合特征图进行检测,得到多层第一融合特征图中所有的预测目标框的预测旋转角度信息、预测尺寸信息、预测中心点位置信息和预测类别信息包括步骤2041至步骤2045,下面详细说明。
步骤2041:采用目标框角度检测模块检测多层第一融合特征图中目标框的旋转角度信息,得到多层第一融合特征图对应的角度特征图,其中,角度特征图具有S个通道,角度特征图中各个像素点对应于每个通道的像素值用于表征对应像素点所预测的预测目标框在各个预测旋转角度的置信度,在本实施例中,取置信度最大的通道对应的角度作为预测旋转角度,例如,假设一目标物体的旋转角度范围为(0°,180°),检测精度为2°,则S取值为90,每个通道对应于一个角度范围,即,第0个通道对应的角度范围为(0°,2°),则角度特征图中第0个通道对应的像素点的像素值表示该像素点所预测的预测目标框在(0°,2°)角度范围内的置信度。
步骤2042:采用目标框尺寸检测模块检测所述多层第一融合特征图中目标框的尺寸信息,得到多层第一融合特征图对应的尺寸特征图,其中,尺寸特征图具有2个通道,尺寸特征图中各个像素点对应于不同通道的2个像素值分别用于表征对应像素点所预测的预测目标框的长度和宽度。
步骤2043:采用目标框中心检测模块检测多层第一融合特征图中目标框的中心点位置信息,得到多层第一融合特征图对应的中心特征图,其中,中心特征图具有2个通道,中心特征图中各个像素点对应于不同通道的2个像素值分别用于表征对应像素点所预测的预测目标框的中心点相对于该像素点中心位置的X坐标偏移量和Y坐标偏离量。
步骤2044:采用目标框类别检测模块检测多层第一融合特征图中目标框的类别信息,得到多层第一融合特征图对应的类别特征图,其中,类别特征图具有n个通道,类别特征图中各个像素点对应于不同通道的像素值用于表征对应像素点所预测的预测目标框的不同类别的置信度。
步骤2045:基于多层第一融合特征图对应的角度特征图、多层第一融合特征图对应的尺寸特征图、多层第一融合特征图对应的中心特征图和多层第一融合特征图对应的类别特征图,得到多层第一融合特征图中所有预测目标框的预测旋转角度信息、预测尺寸信息、预测中心点位置信息和预测类别信息。
其中,获取多层第一融合特征图中所有预测目标框的预测旋转角度信息、预测尺寸信息、预测中心点位置信息和预测类别信息具体包括:
获取各层角度特征图中各个像素点对应于不同通道的置信度,将最大置信度对应的通道所表征的预测旋转角度作为对应层第一融合特征图中对应像素点所预测的预测目标框的预测旋转角度。
获取各层尺寸特征图中各个像素点对应于不同通道的两个像素值,将这两个像素值分别作为对应层第一融合特征图中对应像素点所预测的预测目标框的长度和宽度,以得到对应层第一融合特征图中对应像素点所预测的预测目标框的预测尺寸信息。
获取各层中心特征图中各个像素点对应于不同通道的两个像素值,将这两个像素值分别作为对应层第一融合特征图中对应像素点所预测的预测目标框的中心点相对于该像素点中心位置的X坐标偏移量和Y坐标偏离量,以得到对应层第一融合特征图中对应像素点所预测的预测目标框的预测中心点信息。
获取各层类别特征图中各个像素点对应于不同通道的置信度,将最大且大于预设值的置信度对应的通道所表征的类别作为对应层第一融合特征图中对应像素点所预测的预测目标框的预测类别信息。
在本实施例中,目标框检测网络103在对多层第一融合特征图中的预测目标框进行检测时,提前设置了第一预设阈值δ,也就是,在第一融合特征图中的每一个检测点(像素点)上所检测的预测目标框的数量需小于等于δ,在一实施例中,δ可以设置为2,如图8和图9所示,图8表示了第一融合特征图中检测点和其所检测的一个预测目标框的关系,其中第一融合特征图上每一个像素点均为一个检测点,图9表示了第一融合特征图中一个检测点所检测到的δ个预测目标框。本实施例通过第一预设阈值δ,避免了目标框检测网络103输出的预测目标框或者预测目标框的中心点高度重合的情况。
在获取到所有预测目标框后,需要根据标记目标框的标记信息和预测目标框的预测信息构建模型损失函数,以对密集旋转目标检测模型进行训练,由于对于密集摆放的目标物体,一个标记目标框可能同时与两个或两个以上预测目标框产生相交区域,如图10所示,可以看出,预测目标框1更接近标记目标框,若将预测目标框1和标记目标框作为一对训练数据进行模型训练,训练难度较小,因此,在训练时,需要选择训练难度较小的预测目标框和标记目标框作为一对训练数据参与训练。
对于上述问题,本实施例提出了标记目标框与预测目标框之间的难度系数以量化模型的训练难度,并根据难度系数对标记目标框和预测目标框进行匹配,以减小训练难度。
在一实施例中,步骤205中,基于标记目标框的标记信息和预测目标框的预测信息,确定标记目标框与预测目标框之间的难度系数,包括:计算标记目标框和预测目标框的之间的分类难度系数、交并比难度系数和检测位置难度系数中的一者或多者;其中:
根据标记目标框的标记类别信息所对应的置信度和预测目标框的预测类别信息所对应的置信度,计算标记目标框和预测目标框之间的分类难度系数。
根据以下表达式计算标记目标框与预测目标框之间的分类难度系数Lcls(p,t):
其中,p表示预测目标框,t表示标记目标框,tc表示标记目标框的标记类别信息对应的置信度,当标记目标框的标记类别为c时,tc等于1,否则tc等于0,pc表示预测目标框的预测类别c的置信度。
根据标记目标框的标记尺寸信息、标记中心点位置信息、标记旋转角度信息,和预测目标框的预测尺寸信息、预测中心点位置信息、预测旋转角度信息,确定标记目标框和预测目标框的交并比;根据标记目标框和预测目标框的交并比,计算标记目标框和预测目标框之间的交并比难度系数。
根据以下表达式计算标记目标框和预测目标框之间的交并比难度系数Liou(p,t):
Liou(p,t)=1-IoU(p,t)
其中,p表示预测目标框,t表示标记目标框,IoU(p,t)表示预测目标框和标记目标框的交并比。
根据预测目标框对应的中心点是否位于标记目标框内或是否位于标记目标框的中心点邻域的预设个像素内,计算标记目标框和预测目标框之间的检测位置难度系数Lloc(p,t),当预测目标框p对应的预测中心点位于标记目标框t内或标记目标框t的标记中心点邻域的r个像素内,则Lloc(p,t)=0;否则,Lloc(p,t)=1,其中,r为大于等于2的自然数,本实施例中,r取值为2。
根据标记目标框和预测目标框之间的分类难度系数、交并比难度系数和检测位置难度系数中的一者或多者,计算标记目标框和预测目标框之间的难度系数。
根据以下表达式计算标记目标框和预测目标框之间的难度系数Lhard(p,t):
Lhard(p,t)=ε0Lcls(p,t)+ε1Liou(p,t)+ε2Lloc(p,t)
其中,Lhard(p,t)表示难度系数,p表示预测目标框,t表示标记目标框,ε0表示目标框类别拟合难度缩放因子,ε1表示目标框交并比拟合难度缩放因子,ε2表示检测位置难度缩放因子。作为一个示例,ε0可以取值为1,ε1取值为10,ε2取值为1000。本领域技术人员可以理解的是,ε0、ε1和ε2还可以赋予其他取值,本实施例不进行具体限定。
在本实施例中,当ε0取值为0时,则无需计算标记目标框与预测目标框之间的分类难度系数,当ε1取值为0时,则无需计算标记目标框与预测目标框之间的交并比难度系数,当ε2取值为0时,则无需计算标记目标框与预测目标框之间的检测位置难度系数。因此,本实施例中的难度系数可根据计算标记目标框和预测目标框的之间的分类难度系数、交并比难度系数和检测位置难度系数中的一者或多者获取。
获取到所有预测目标框和标记目标框之间的难度系数后,还需要根据这些难度系数,找到预测目标框和标记目标框之间的匹配关系,由于多个预测目标框可以对应一个标记目标框,但多个标记目标框不能对应一个预测目标框。本实施基于上述标记目标框与预测目框之间对应关系的限定,提供了动态分配损失算法,其根据标记目标框与预测目标框之间的难度系数,构建难度系数矩阵,再采用动态分配损失算法,在难度系数矩阵中找到标记目标框和预测目标框之间的最佳对应关系。如图11所示,图11为难度系数矩阵的一个例子,对于该难度系数矩阵,采用动态分配损失算法,可找到预测目标框2对应标记目标框1,预测目标框3对应标记目标框2这样的最佳对应关系,记为M0={(2,1),(3,2)}。
在一实施例中,在难度系数矩阵中找到标记目标框和预测目标框之间的最佳对应关系包括步骤2061至2066,下面详细说明。
步骤2061:采用一个预设数减去难度系数矩阵中的各个难度系数,得到匹配分数矩阵;其中,预设数大于难度系数矩阵中的各个难度系数;本实施例中,预设数可以为一个较大的任意数,其大于难度系数矩阵中的各个难度系数即可。
步骤2062:根据匹配分数矩阵,构造二部图,在二部图中将标记目标框作为A部,将预测目标框作为B部,A部中的各个顶点表征不同的标记目标框,B部中的各个顶点表征不同的预测目标框,A部中的各个顶点均与B部中的各个顶点连接形成边,将匹配分数矩阵中标记目标框和预测目标框之间的匹配分数作为对应的A部顶点和B部顶点之间的边的权值。如图12所示,图12为二部图的一个例子,图12中,A部顶点为1、2,B部顶点为a、b、c,A部顶点和B部顶点连接形成的边上标记的数为A部顶点和B部顶点之间的边的权值。
步骤2063:将A部各个顶点所连接的具有最大权值的边作为该A部顶点的顶标,将B部各个顶点的顶标设置为0,根据A部顶点的顶标、B部顶点的顶标以及A部顶点和B部顶点之间的边的权值,构建相等子图,在所述相等子图中每一条边上的两个顶点的顶标之和等于该边的权值。如图13所示,图13为相等子图的一个例子,在图13中,相等子图中的A部顶点为1、2,B部顶点为c,A部顶点和B部顶点旁边标记的数为对应的A部顶点和B部顶点的顶标,相等子图中A部顶点与B部顶点之间的边以实线标记,其他不属于相等子图的二部图中A部顶点与B部顶点之间的边以虚线标记,边上标记的数为对应边的权值。
步骤2064:在相等子图中,若A部的每个顶点均能连接到B部的顶点,且A部的顶点与B部的顶点一一对应,则A部中每个顶点对应连接的B部的顶点为匹配关系,将该匹配关系作为相应A部中顶点对应的标记目标框和B部中顶点对应的预测目标框之间的最佳对应关系;否则,判断A部的每个顶点在相等子图中是否能够找到一条增广路径;其中,增广路径为从A部一个顶点出发通过交替路径路过一个B部的顶点的路径,且始于非匹配边终于非匹配边,交替路径为从A部一个顶点出发依次交替经过非匹配边和匹配边的路径,非匹配边为相等子图中对应边所连接的两个顶点为非匹配关系,匹配边为相等子图中对应边所连接的两个顶点为匹配关系。
步骤2065:在相等子图中,若找到增广路径,则将增广路径上的匹配边取反为非匹配边,将增广路径上的非匹配边取反为匹配边,返回步骤2064;在相等子图中,若未找到增广路径,获取A部中顶点和B部中顶点的顶标之和与对应顶点之间的边的权值的差值,根据差值确定最小差值对应的A部顶点和B部顶点,得到至少一对具有匹配关系的A部顶点和B部顶点组成的顶点集合H。
步骤2066:在顶点集合H中,将每个A部顶点的顶标减去对应的最小差值,并将A部顶点对应的B部顶点的顶标加上对应的最小差值,得到顶点集合H中更新后的A部顶点的顶标和B部顶点的顶标,根据顶点集合H中更新后的A部顶点的顶标和B部顶点的顶标,得到更新后的相等子图,返回步骤2065。如图14所示,图14为更新后的相等子图的一个例子,相比于图13所示的相等子图,更新后的相等子图中A部顶点1的顶标从4修改为3,A部顶点2的顶标从3修改为2,B部顶点c的顶标从0修改为1。
在更新相等子图后,对于更新后的相等子图,可以找到两条增广路径,对两条增广路径进行取反操作后得到的相等子图,分别如图15和图16所示。
在一实施例中,步骤207中,根据标记目标框的标记信息以及与其所匹配的预测目标框的预测信息,构建模型损失函数包括:构建目标框角度损失函数、目标框位置和尺寸损失函数以及目标框类别损失函数;其中:
步骤2071:获取预测旋转角度信息,得到预测目标框对应的预测角度系数;对标记目标框的角度标签值进行平滑处理,得到标记目标框对应的标记角度系数;根据预测目标框的预测角度系数和标记目标框对应的标记角度系数,构建目标框角度损失函数。在使用目标框检测网络103在进行预测目标框的旋转角度预测时,为了区分不同的旋转角度的偏差带来的不同损失值,本实施例对旋转角度采用平滑处理,例如标记旋转角度为45°时,那么应该给予44°的预测旋转角度值较小的损失值,同时给予20°的预测旋转角度较大的损失值。因此,对标记目标框的角度标签值进行平滑处理,得到标记目标框对应的标记角度系数包括:
根据如下表达式确定标记目标框对应的标记角度系数:
其中,θ表示标记目标框的标记旋转角度,tθ,η表示标记目标框在旋转角度为η时对应的标记角度系数,u表示平滑度,在一实施例中,u可取值为3.6。
需要说明的是,预测目标框对应的预测角度系数与标记目标框对应的标记角度系数的计算方式相同,此处不再重复说明。
那么,目标框角度损失函数Langle(pi,tj)的表达式如下:
步骤2072:根据标记目标框对应的标记尺寸信息和标记中心点位置信息以及预测目标框对应的预测尺寸信息和预测中心点位置信息,构建目标框位置和尺寸损失函数。
在本实施例中,根据如下表达式确定目标框位置和尺寸损失函数Lrect(pi,tj):
其中,pi表示第i个预测目标框,tj表示第j个标记目标框,预测目标框pi与标记目标框tj为相匹配关系,表示预测目标框pi的预测中心点位置信息中的X坐标,表示预测目标框pi的预测中心点位置信息中的Y坐标,表示预测目标框pi的预测尺寸信息中的宽度,表示预测目标框pi的预测尺寸信息中的长度,表示标记目标框tj的标记中心点位置信息中的X坐标,表示标记目标框tj的标记中心点位置信息中的Y坐标,表示标记目标框tj的标记尺寸信息的宽度,表示标记目标框tj的标记尺寸信息的长度。
步骤2073:根据标记目标框对应的标记类别信息和预测目标框对应的预测类别信息,构建目标框类别损失函数。
在本实施例中,根据如下表达式确定目标框类别损失函数Lcls(pi,tj):
步骤2074:根据目标框角度损失函数、目标框位置和尺寸损失函数和目标框类别损失函数,构建模型损失函数。
根据上述步骤2071至步骤2073得到的目标框角度损失函数、目标框位置和尺寸损失函数、目标框类别损失函数,得到如下表达式的模型损失函数Lcost:
其中,pi表示第i个预测目标框,tj表示第j个标记目标框,预测目标框pi与标记目标框tj为相匹配关系,ν0表示目标框类别损失函数的权值,ν1表示目标框角度损失函数的权值,ν2表示目标框位置和尺寸损失函数的权值。
Langle(pi,tj)表示目标框角度损失函数,Lrect(pi,tj)表示目标框位置和尺寸损失函数;Lcls(pi,tj)表示目标框类别损失函数,M表示标记目标框与预测目标框之间的最佳对应关系的集合。
在本实施例中,根据上述获取到的模型损失函数Lcost,采用反向传播算法,对密集旋转目标检测模型的参数进行更新,直至模型损失函数Lcost的函数值收敛,即完成密集旋转目标检测模型的训练。
本发明实施例使用目标框的旋转角度细化预测和标记平滑技术,实现了旋转角度的预测范围和预测精度的灵活设置,还能够有效解决旋转角度的检测范围不连续、模型损失函数值无法准确表征实际偏差情况等问题;此外,本发明实施例采用动态分配损失算法,根据预测目标框的预测信息和标记目标框的标记信息,确定预测目标框和标记目标框之间的最佳对应关系,能够快速确定全局范围内更好的预测目标框和标记目标框之间的对应关系,降低训练难度;最后,本发明实施例更易于发现潜在的显著性特征区域,并通过反馈作用逐步加强在具有显著性特征区域的预测,使得预测结果更具备鲁棒性。
基于上述训练完成的密集旋转目标检测模型,请参考图17,本实施例提供了一种密集旋转目标检测方法,包括步骤301至步骤304,下面详细说明。
步骤301:获取包括一个或多个目标物体的输入图像。
步骤302:将输入图像输入经过上述实施例训练完成的密集旋转目标检测模型中,得到所有预测目标框的预测信息,其中,预测信息包括预测旋转角度信息、预测尺寸信息、预测中心点位置信息和预测类别信息中。需要说明的是,密集旋转目标检测模型的训练过程在上述实施例中上述实施例中已进行了详细说明,此处不再赘述。
步骤303:按照预设规则对所有预测目标框进行筛选,得到筛选后的预测目标框。在推理过程中,需要去掉冗余的预测目标框,因此需要对预测目标框进行筛选。
步骤304:基于筛选后的预测目标框的预测信息,得到目标物体的检测结果。
在一实施例中,步骤303中,按照预设规则对所有预测目标框进行筛选,得到筛选后的预测目标框包括步骤3031至步骤3032,下面详细说明。
步骤3031:获取所有预测目标框中任意两个预测目标框之间的交并比。
步骤3032:若两个预测目标框的交并比大于第二预设阈值,则保留两个预测目标框中类别信息对应的置信度较大的预测目标框,得到筛选后的预测目标框。本实施例通过仅保留类别信息对应的置信度较大的预测目标框,可以去掉冗余的预测目标框。
请参考图18,本发明实施例还提供了一种密集旋转目标检测装置,该实例分割装置包括:图像采集装置401和处理器402。各元件之间可以采用总线的方式实现连接,也可以采用其他方式连接。
其中,图像采集装置401用于获取包括至少一个或多个物体实例的输入图像;处理器402用于执行如上述任一实施例所提供的密集旋转目标检测方法。
图像采集装置401例如可以采用视觉传感器,或者其他能够获取图像数据的装置。处理器402可以是一种集成电路芯片,具有信号的处理能力。上述的处理器402可以是通用处理器,包括中央处理器(Central Processing Unit,简称:CPU)、网络处理器(NetworkProcessor,简称:NP)等。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
可以理解,图18的结构仅为示意,还可以包括比图18中所示更多或者更少的组件,或者具有与图18不同的配置。图18中所示的各组件可以采用硬件和/或软件实现。例如还可以包括存储器(图中未示出),用于存储采集到的图像数据,用于存储可以被处理器402执行以实现上述任一方法实施例提供的多尺度物体的实例分割方法的技术方案的计算机程序。存储器可以是,但不限于,随机存取存储器(Random Access Memory,简称:RAM),只读存储器(Read Only Memory,简称:ROM),可编程只读存储器(Programmable Read-Only Memory,简称:PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,简称:EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,简称:EEPROM)等。
本领域技术人员可以理解,上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。
Claims (19)
1.一种密集旋转目标检测模型的训练方法,其特征在于,所述密集旋转目标检测模型包括特征提取网络、特征融合网络和目标框检测网络,所述训练方法包括:
获取包括一个或多个目标物体的输入图像和标注数据,所述标注数据包括输入图像中标记目标框的标记信息,所述标记信息包括标记旋转角度信息、标记尺寸信息、标记中心点位置信息和标记类别信息;
采用特征提取网络提取所述输入图像中的特征信息,得到多层具有不同分辨率的第一特征图;
采用特征融合网络对部分层具有不同分辨率的第一特征图进行特征融合,得到与第一特征图具有相同层数的第一融合特征图;其中,任意一层的所述第一特征图都对应有一个具有相同分辨率的第一融合特征图,且所有第一融合特征图都具有相同的通道数;
采用目标框检测网络对各层第一融合特征图进行检测,得到各层第一融合特征图中所有预测目标框的预测信息,所述预测信息包括预测旋转角度信息、预测尺寸信息、预测中心点位置信息和预测类别信息;
基于所述标记目标框的标记信息和所述预测目标框的预测信息,确定所述标记目标框与所述预测目标框之间的难度系数,所述难度系数用于表征所述标记目标框和所述预测目标框之间的训练难度;
基于所述难度系数确定所述标记目标框和所述预测目标框之间的最佳对应关系;
根据所述标记目标框和所述预测目标框之间的最佳对应关系,确定每个所述标记目标框所匹配的一个或多个所述预测目标框;
根据所述标记目标框的标记信息及其所匹配的预测目标框的预测信息,构建模型损失函数;
根据所述模型损失函数采用反向传播算法,对所述密集旋转目标检测模型的参数进行更新。
2.如权利要求1所述的方法,其特征在于,所述基于所述标记目标框的标记信息和所述预测目标框的预测信息,确定所述标记目标框与所述预测目标框之间的难度系数,包括:
计算所述标记目标框和所述预测目标框的之间的分类难度系数、交并比难度系数和检测位置难度系数中的一者或多者;其中:
根据所述标记目标框的标记类别信息所对应的置信度和所述预测目标框的预测类别信息所对应的置信度,计算所述标记目标框和所述预测目标框之间的分类难度系数;
根据所述标记目标框的标记尺寸信息、标记中心点位置信息、标记旋转角度信息,和所述预测目标框的预测尺寸信息、预测中心点位置信息、预测旋转角度信息,确定所述标记目标框和所述预测目标框的交并比;根据所述标记目标框和所述预测目标框的交并比,计算所述标记目标框和所述预测目标框之间的交并比难度系数;
根据所述预测目标框对应的中心点是否位于标记目标框内或是否位于标记目标框的中心点邻域的预设个像素内,计算所述标记目标框和所述预测目标框之间的检测位置难度系数;
根据所述标记目标框和所述预测目标框之间的分类难度系数、交并比难度系数和检测位置难度系数中的一者或多者,计算所述标记目标框和所述预测目标框之间的难度系数。
3.如权利要求2所述的方法,其特征在于,根据所述标记目标框和所述预测目标框之间的分类难度系数、交并比难度系数和检测位置难度系数中的一者或多者,计算所述标记目标框和所述预测目标框之间的难度系数:
所述难度系数根据如下表达式确定:
Lhard(p,t)=ε0Lcls(p,t)+ε1Liou(p,t)+ε2Lloc(p,t)
其中,Lhard(p,t)表示难度系数,p表示预测目标框,t表示标记目标框,ε0表示目标框类别拟合难度缩放因子,ε1表示目标框交并比拟合难度缩放因子,ε2表示检测位置难度缩放因子;
Lcls(p,t)表示标记目标框与预测目标框之间的分类难度系数,计算方式为:
tc表示标记目标框的标记类别信息对应的置信度,当标记目标框的标记类别为c时,tc等于1,否则tc等于0,pc表示预测目标框的预测类别c的置信度;
Liou(p,t)表示标记目标框与预测目标框之间的交并比难度系数,计算方式为:
Liou(p,t)=1-IoU(p,t)
IoU(p,t)表示预测目标框和标记目标框的交并比;
Lloc(p,t)表示标记目标框与预测目标框之间的检测位置难度系数,当所述预测目标框p对应的预测中心点位于标记目标框t内或标记目标框t的标记中心点邻域的r个像素内,则Lloc(p,t)=0;否则,Lloc(p,t)=1;r为大于等于2的自然数。
4.如权利要求1所述的方法,其特征在于,所述基于所述难度系数,确定所述标记目标框和所述预测目标框之间的对应关系包括:
基于所述标记目标框与所述预测目标框之间的难度系数,构建难度系数矩阵;
采用动态分配损失算法,在所述难度系数矩阵中找到标记目标框与预测目标框之间的最佳对应关系。
5.如权利要求4所述的方法,其特征在于,所述采用动态分配损失算法,在所述难度系数矩阵中找到标记目标框与预测目标框之间的最佳对应关系包括:
步骤2061:采用一个预设数减去所述难度系数矩阵中的各个难度系数,得到匹配分数矩阵;其中,所述预设数大于所述难度系数矩阵中的各个难度系数;
步骤2062:根据匹配分数矩阵,构造二部图,在二部图中将所述标记目标框作为A部,将所述预测目标框作为B部,A部中的各个顶点表征不同的标记目标框,B部中的各个顶点表征不同的预测目标框,A部中的各个顶点均与B部中的各个顶点连接形成边,将所述匹配分数矩阵中标记目标框和预测目标框之间的匹配分数作为对应的A部顶点和B部顶点之间的边的权值;
步骤2063:将A部各个顶点所连接的具有最大权值的边作为该A部顶点的顶标,将B部各个顶点的顶标设置为0,根据A部顶点的顶标、B部顶点的顶标以及A部顶点和B部顶点之间的边的权值,构建相等子图,在所述相等子图中每一条边上的两个顶点的顶标之和等于该边的权值;
步骤2064:在相等子图中,若A部的每个顶点均能连接到B部的顶点,且A部的顶点与B部的顶点一一对应,则A部中每个顶点对应连接的B部的顶点为匹配关系,将该匹配关系作为相应A部中顶点对应的标记目标框和B部中顶点对应的预测目标框之间的最佳对应关系;否则,判断A部的每个顶点在相等子图中是否能够找到一条增广路径;其中,增广路径为从A部一个顶点出发通过交替路径路过一个B部的顶点的路径,且始于非匹配边终于非匹配边,交替路径为从A部一个顶点出发依次交替经过非匹配边和匹配边的路径,非匹配边为相等子图中对应边所连接的两个顶点为非匹配关系,匹配边为相等子图中对应边所连接的两个顶点为匹配关系;
步骤2065:在相等子图中,若找到增广路径,则将增广路径上的匹配边取反为非匹配边,将增广路径上的非匹配边取反为匹配边,返回步骤2064;在相等子图中,若未找到增广路径,获取A部中顶点和B部中顶点的顶标之和与对应顶点之间的边的权值的差值,根据所述差值确定最小差值对应的A部顶点和B部顶点,得到至少一对具有匹配关系的A部顶点和B部顶点组成的顶点集合H;
步骤2066:在顶点集合H中,将每个A部顶点的顶标减去对应的最小差值,并将A部顶点对应的B部顶点的顶标加上对应的最小差值,得到顶点集合H中更新后的A部顶点的顶标和B部顶点的顶标,根据顶点集合H中更新后的A部顶点的顶标和B部顶点的顶标,得到更新后的相等子图,返回步骤2065。
6.如权利要求1所述的方法,其特征在于,所述根据所述标记目标框的标记信息以及与其所匹配的预测目标框的预测信息,构建模型损失函数包括:
构建目标框角度损失函数、目标框位置和尺寸损失函数以及目标框类别损失函数;其中:
获取所述预测旋转角度信息,得到所述预测目标框对应的预测角度系数;对所述标记目标框的角度标签值进行平滑处理,得到所述标记目标框对应的标记角度系数;根据所述预测目标框的预测角度系数和所述标记目标框对应的标记角度系数,构建目标框角度损失函数;
根据所述标记目标框对应的标记尺寸信息和标记中心点位置信息以及所述预测目标框对应的预测尺寸信息和预测中心点位置信息,构建目标框位置和尺寸损失函数;
根据所述标记目标框对应的标记类别信息和所述预测目标框对应的预测类别信息,构建目标框类别损失函数;
根据所述目标框角度损失函数、目标框位置和尺寸损失函数和目标框类别损失函数,构建所述模型损失函数。
9.如权利要求6所述的方法,其特征在于,根据所述标记目标框对应的标记尺寸信息和标记中心点位置信息以及所述预测目标框对应的预测尺寸信息和预测中心点位置信息,构建目标框位置和尺寸损失函数包括:
根据如下表达式确定所述目标框位置和尺寸损失函数Lrect(pi,tj):
其中,pi表示第i个预测目标框,tj表示第j个标记目标框,预测目标框pi与标记目标框tj为相匹配关系,表示预测目标框pi的预测中心点位置信息中的X坐标,表示预测目标框pi的预测中心点位置信息中的Y坐标,表示预测目标框pi的预测尺寸信息中的宽度,表示预测目标框pi的预测尺寸信息中的长度,表示标记目标框tj的标记中心点位置信息中的X坐标,表示标记目标框tj的标记中心点位置信息中的Y坐标,表示标记目标框tj的标记尺寸信息的宽度,表示标记目标框tj的标记尺寸信息的长度;
11.如权利要求6所述的方法,其特征在于,根据所述目标框角度损失函数、目标框位置和尺寸损失函数、目标框类别损失函数,构建模型损失函数包括:
根据如下表达式确定所述模型损失函数Lcost:
其中,pi表示第i个预测目标框,tj表示第j个标记目标框,预测目标框pi与标记目标框tj为相匹配关系,ν0表示目标框类别损失函数的权值,ν1表示目标框角度损失函数的权值,ν2表示目标框位置和尺寸损失函数的权值;
Langle(pi,tj)表示目标框角度损失函数,Lrect(pi,tj)表示目标框位置和尺寸损失函数;Lcls(pi,tj)表示目标框类别损失函数,M表示标记目标框与预测目标框之间的最佳对应关系的集合。
12.如权利要求1所述的方法,其特征在于,所述采用特征融合网络对部分层具有不同分辨率的第一特征图进行特征融合,得到与第一特征图具有相同层数的第一融合特征图包括:
将第1层第一特征图进行1×1卷积处理,作为第1层第一融合特征图;
按照以下方式得到除第1层第一融合特征图以外的其他层第一融合特征图:
对第q层第一融合特征图和第q+1层第一特征图进行特征融合,得到第q+1层第一融合特征图;其中,q表示第一特征图和第一融合特征图的层数索引,q为大于等于1的自然数,多层第一特征图的分辨率按照所述第一特征图的层数索引q从小到大的顺序呈递增趋势,第q+1层第一融合特征图与第q+1层第一特征图具有相同的分辨率。
13.如权利要求12所述的方法,其特征在于,所述对第q层第一融合特征图和第q+1层第一特征图进行特征融合,得到第q+1层第一融合特征图包括:
对第q层第一融合特征图进行上采样处理,以得到与第q+1层第一特征图具有相同分辨率的第q层第二特征图;
对第q+1层第一特征图进行1×1卷积处理,以得到与第q层第二特征图具有相同通道数和相同分辨率的第q层第三特征图;
对第q层第三特征图与第q层第二特征图进行特征融合,得到第q+1层第一融合特征图。
14.如权利要求1所述的方法,其特征在于,所述目标框检测网络包括:目标框角度检测模块、目标框尺寸检测模块、目标框中心检测模块和目标框类别检测模块中的一者或多者;
所述采用目标框检测网络对多层第一融合特征图进行检测,得到多层第一融合特征图中所有的预测目标框的预测旋转角度信息、预测尺寸信息、预测中心点位置信息和预测类别信息包括:
采用所述目标框角度检测模块检测所述多层第一融合特征图中目标框的旋转角度信息,得到多层第一融合特征图对应的角度特征图,所述角度特征图具有S个通道,所述角度特征图中各个像素点对应于每个通道的像素值用于表征对应像素点所预测的预测目标框在各个预测旋转角度的置信度;
采用所述目标框尺寸检测模块检测所述多层第一融合特征图中目标框的尺寸信息,得到多层第一融合特征图对应的尺寸特征图,所述尺寸特征图具有2个通道,所述尺寸特征图中各个像素点对应于不同通道的2个像素值分别用于表征对应像素点所预测的预测目标框的长度和宽度;
采用所述目标框中心检测模块检测所述多层第一融合特征图中目标框的中心点位置信息,得到多层第一融合特征图对应的中心特征图,所述中心特征图具有2个通道,所述中心特征图中各个像素点对应于不同通道的2个像素值分别用于表征对应像素点所预测的预测目标框的中心点相对于该像素点中心位置的X坐标偏移量和Y坐标偏离量;
采用所述目标框类别检测模块检测所述多层第一融合特征图中目标框的类别信息,得到多层第一融合特征图对应的类别特征图,所述类别特征图具有n个通道,所述类别特征图中各个像素点对应于不同通道的像素值用于表征对应像素点所预测的预测目标框的不同类别的置信度;
基于多层所述第一融合特征图对应的角度特征图、多层所述第一融合特征图对应的尺寸特征图、多层所述第一融合特征图对应的中心特征图和多层所述第一融合特征图对应的类别特征图,得到多层第一融合特征图中所有预测目标框的预测旋转角度信息、预测尺寸信息、预测中心点位置信息和预测类别信息。
15.如权利要求14所述的方法,其特征在于,基于多层所述第一融合特征图对应的角度特征图、多层所述第一融合特征图对应的尺寸特征图、多层所述第一融合特征图对应的中心特征图和多层所述第一融合特征图对应的类别特征图,得到多层第一融合特征图中所有预测目标框的预测旋转角度信息、预测尺寸信息、预测中心点位置信息和预测类别信息包括:
获取各层角度特征图中各个像素点对应于不同通道的置信度,将最大置信度对应的通道所表征的预测旋转角度作为对应层第一融合特征图中对应像素点所预测的预测目标框的预测旋转角度;
获取各层尺寸特征图中各个像素点对应于不同通道的两个像素值,将这两个像素值分别作为对应层第一融合特征图中对应像素点所预测的预测目标框的长度和宽度,以得到对应层第一融合特征图中对应像素点所预测的预测目标框的预测尺寸信息;
获取各层中心特征图中各个像素点对应于不同通道的两个像素值,将这两个像素值分别作为对应层第一融合特征图中对应像素点所预测的预测目标框的中心点相对于该像素点中心位置的X坐标偏移量和Y坐标偏离量,以得到对应层第一融合特征图中对应像素点所预测的预测目标框的预测中心点信息;
获取各层类别特征图中各个像素点对应于不同通道的置信度,将最大且大于预设值的置信度对应的通道所表征的类别作为对应层第一融合特征图中对应像素点所预测的预测目标框的预测类别信息。
16.一种密集旋转目标检测方法,其特征在于,包括:
获取包括一个或多个目标物体的输入图像;
将所述输入图像输入由如权利要求1至15中任一项所述的训练方法所训练的密集旋转目标检测模型中,得到所有预测目标框的预测信息,所述预测信息包括预测旋转角度信息、预测尺寸信息、预测中心点位置信息和预测类别信息中;
按照预设规则对所有预测目标框进行筛选,得到筛选后的预测目标框;
基于筛选后的预测目标框的预测信息,得到目标物体的检测结果。
17.如权利要求16所述的方法,其特征在于,所述按照预设规则对所有预测目标框进行筛选,得到筛选后的预测目标框包括:
获取所有预测目标框中任意两个预测目标框之间的交并比;
若两个所述预测目标框的交并比大于第二预设阈值,则保留两个所述预测目标框中类别信息对应的置信度较大的预测目标框,得到筛选后的预测目标框。
18.一种密集旋转目标检测装置,其特征在于,包括:
图像采集装置,用于获取输入图像;
处理器,用于执行如权利要求16或17所述的密集旋转目标检测方法。
19.一种计算机可读存储介质,其特征在于,所述介质上存储有程序,所述程序能够被处理器执行以实现如权利要求1至17中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211358733.3A CN115908781A (zh) | 2022-11-01 | 2022-11-01 | 密集旋转目标检测方法、模型训练方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211358733.3A CN115908781A (zh) | 2022-11-01 | 2022-11-01 | 密集旋转目标检测方法、模型训练方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115908781A true CN115908781A (zh) | 2023-04-04 |
Family
ID=86471759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211358733.3A Pending CN115908781A (zh) | 2022-11-01 | 2022-11-01 | 密集旋转目标检测方法、模型训练方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115908781A (zh) |
-
2022
- 2022-11-01 CN CN202211358733.3A patent/CN115908781A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Automatic pavement crack detection by multi-scale image fusion | |
Zhang et al. | Vision-based parking-slot detection: A DCNN-based approach and a large-scale benchmark dataset | |
Lipson et al. | Coupled iterative refinement for 6d multi-object pose estimation | |
CN110427932B (zh) | 一种识别图像中多个票据区域的方法及装置 | |
CN103390164B (zh) | 基于深度图像的对象检测方法及其实现装置 | |
EP3654248A1 (en) | Verification of classification decisions in convolutional neural networks | |
CN108305260B (zh) | 一种图像中角点的检测方法、装置及设备 | |
CN111626295B (zh) | 车牌检测模型的训练方法和装置 | |
Yang et al. | The Euclidean embedding learning based on convolutional neural network for stereo matching | |
CN108875903B (zh) | 图像检测的方法、装置、系统及计算机存储介质 | |
Rangesh et al. | Ground plane polling for 6dof pose estimation of objects on the road | |
CN115578616A (zh) | 多尺度物体实例分割模型的训练方法、分割方法和装置 | |
CN111814852A (zh) | 图像检测方法、装置、电子设备和计算机可读存储介质 | |
CN113454640A (zh) | 用于利用在线学习进行对象跟踪的方法及系统 | |
Ma et al. | Location-aware box reasoning for anchor-based single-shot object detection | |
Cho et al. | Real-time precise object segmentation using a pixel-wise coarse-fine method with deep learning for automated manufacturing | |
WO2023072633A1 (en) | Inspection method for inspecting an object and machine vision system | |
Fang et al. | Lane boundary detection algorithm based on vector fuzzy connectedness | |
CN113420648A (zh) | 一种具有旋转适应性的目标检测方法及系统 | |
Lima et al. | 3D pedestrian localization using multiple cameras: A generalizable approach | |
CN110766728A (zh) | 基于深度学习的组合图像特征精确匹配算法 | |
CN115908781A (zh) | 密集旋转目标检测方法、模型训练方法和装置 | |
CN113255702B (zh) | 一种基于图匹配的目标检测方法及目标检测装置 | |
CN113112475B (zh) | 一种基于机器学习的中医耳部五脏区域分割方法和装置 | |
CN114445371A (zh) | 基于椭圆交并比的遥感图像目标检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |