CN111178207B - 一种基于复平面坐标系定位的目标检测方法及装置 - Google Patents
一种基于复平面坐标系定位的目标检测方法及装置 Download PDFInfo
- Publication number
- CN111178207B CN111178207B CN201911328287.XA CN201911328287A CN111178207B CN 111178207 B CN111178207 B CN 111178207B CN 201911328287 A CN201911328287 A CN 201911328287A CN 111178207 B CN111178207 B CN 111178207B
- Authority
- CN
- China
- Prior art keywords
- image
- prediction
- loss function
- rectangular frame
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供了基于复数平面坐标系定位的目标检测方法,包括:获取待检测图像;将待检测图像输入目标检测DCNN模型确定待检测目标的类型及在待检测图像中位置,其中目标检测DCNN模型通过以下步骤生成:获取初始目标检测DCNN模型及图像样本;标记目标对象的位置得到标记矩形框;基于标记矩形框以及复数平面坐标系确定真值向量(x*,y*,w*,h*,α*,β*);标记目标对象的类型得到标记类型,将标记类型及真值向量确定为标定标签;将图像样本输入初始目标检测DCNN模型得到预测标签;基于预测标签及标定标签的差异调整模型的参数得到目标检测DCNN模型。采用本发明实施例,可以提高检测结果中目标定位的准确度。
Description
技术领域
本发明涉及图像识别技术领域,特别是涉及一种基于复平面坐标系定位的目标检测方法及装置。
背景技术
随着神经网络技术水平的日益提高,DCNN(Deep Convolutional NeuralNetwork,深度卷积神经网络)已经被广泛应用于图像识别领域。例如,在导航、通信、搜救等工作中,利用DCNN识别图像中的船只、飞机、汽车等交通工具已经成为常用的技术手段。
目前,在多方向的目标检测领域,确定待检测图像中的待检测目标及其方向的常用的图像识别方法之一为基于DCNN的RRPN(Rotational Region Proposal Network,旋转的区域建议网络)的图像识别。
以船只检测为例,首先可以获取包含待检测船只的待检测图像,然后将待检测图像输入预先训练完成的RRPN,根据待检测图像的图像特征识别待检测船只,进而获得表示待检测船只在待检测图像中位置的预测矩形框。其中,预测矩形框由五元向量(x,y,w,h,θ)表示,(x,y)为待检测船只中心点的坐标,w表示预测矩形框的长度,h表示预测矩形框的宽度,θ为w对应的预测矩形框的边与x轴的夹角,取值范围为(0°,180°),表示预测矩形框的朝向,也就是待检测船只的方向。
在上述RRPN的训练过程中,当θ为接近取值范围边界的角度时,θ的变化是不连续的,导致上述RRPN的损失函数计算不连续,这样会出现网络无法收敛的问题,导致RRPN对待检测目标的方向检测的结果准确度较低。例如,当θ为179°和1°,待检测目标的实际方向为0°时,待检测目标的实际方向与θ都相差1°,但是θ为179°时上述RRPN的损失函数与θ为1°时上述RRPN的损失函数相差非常大,这种情况下上述RRPN会出现无法收敛的问题,导致电子设备对待检测目标的检测结果不准确。
发明内容
本发明实施例的目的在于提供一种基于复数平面坐标系定位的目标检测方法及装置,以提高检测结果中目标定位的准确度。具体技术方案如下:
第一方面,本发明实施例提供了一种基于复数平面坐标系定位的目标检测方法,所述方法包括:
获取待检测图像,其中,所述待检测图像中包括待检测目标;
将所述待检测图像输入目标检测DCNN模型,根据所述待检测图像的图像特征确定所述待检测目标的类型及待检测目标在所述待检测图像中位置,其中,所述目标检测DCNN模型为通过以下步骤生成的:
获取初始目标检测DCNN模型及多个图像样本,其中,每个所述图像样本中包括目标对象;
标记所述目标对象在每个图像样本中的位置,得到所述每个图像样本对应的标记矩形框;
基于所述标记矩形框在所述图像样本的图像坐标系中的位置,以及预设复数平面坐标系,确定所述每个图像样本对应的真值向量(x*,y*,w*,h*,α*,β*),其中,(x*,y*)为所述图像坐标系中标记矩形框中心点的坐标,w*为所述标记矩形框的长度,h*为所述标记矩形框的宽度,(α*,β*)为所述目标对象的朝向与预设复数平面坐标系中单位圆交点的坐标;
标记所述目标对象的类型得到标记类型,并将所述标记类型及所述真值向量确定为所述每个图像样本对应的标定标签;
将每个所述图像样本输入初始目标检测DCNN模型,根据每个所述图像样本的图像特征进行检测,得到每个所述图像样本包括的目标对象的预测类型及预测向量,作为每个所述图像样本的预测标签;
基于所述预测标签及对应的图像样本的标定标签的差异,调整所述初始目标检测DCNN模型的参数,直到所述初始目标检测DCNN模型收敛,停止训练,得到所述目标检测DCNN模型。
可选的,所述将每个所述图像样本输入初始目标检测DCNN模型,根据每个所述图像样本的图像特征进行检测,得到每个所述图像样本包括的目标对象的预测类型及预测向量,作为每个所述图像样本的预测标签的步骤,包括:
基于所述预设复数平面坐标系,根据每个所述图像样本的图像特征及多个预设矩形框在所述图像样本中对应的图像特征的差异,调整每个预设矩形框对应的预设向量,得到表示所述目标对象在图像样本中的位置的每个预测矩形框对应的预测向量,作为每个所述图像样本的预测标签。
可选的,所述基于所述预测标签及对应的图像样本的标定标签的差异,调整所述初始目标检测DCNN模型的参数的步骤,包括:
根据所述标定标签中目标对象的标记类型与其对应的预测标签中目标对象的预测类型之间的差异,确定类型的损失函数;
基于所述预设复数平面坐标系,根据所述标定标签中目标对象的位置与其对应的预测标签包括的目标对象的预测向量之间的差异,确定位置的损失函数;
根据所述类型的损失函数与所述位置的损失函数,确定总损失函数;
基于所述总损失函数调整所述初始目标检测DCNN模型的参数。
可选的,所述根据所述标定标签中目标对象的标记类型与其对应的预测标签中目标对象的预测类型之间的差异,确定类型的损失函数的步骤,包括:
根据每个所述标定标签中的标记矩形框在图像样本中对应的图像特征及其对应的预测标签中的预测矩形框在图像样本中对应的图像特征之间的差异,确定所述预测标签中目标对象的预测类型的置信度;
根据公式Lcls(p,l)=-l×logp,确定所述类型的损失函数;
其中,Lcls(p,l)为所述类型的损失函数,l表示所述预测标签中目标对象的预测类型,p表示所述预测类型的置信度;
所述基于所述预设复数平面坐标系,根据所述标定标签中目标对象的真值向量与其对应的预测标签包括的目标对象的预测向量之间的差异,确定位置的损失函数的步骤,包括:
根据公式Lreg(v*,v)=smoothL1(v*-v),确定所述位置的损失函数;
其中,Lreg(v*,v)为所述位置的损失函数,v*为回归向量的真值(t*x,t*y,t*w,t*h,t*α,t*β), t* α=α*-αa,t* β=β*-βa,v为回归向量的预测值(tx,ty,tw,th,tα,tβ),tα=α-αa,tβ=β-βa,(xa,ya,wa,ha,αa,βa)为所述预设向量,(xa,ya)为所述图像坐标系中预设矩形框中心点的坐标,wa为所述预设矩形框的长度,ha为所述预设矩形框的宽度,(αa,βa)为所述预设矩形框的朝向与所述预设复数平面坐标系中单位圆交点的坐标,(x,y,w,h,α,β)为所述预测向量,(x,y)为所述图像坐标系中预测矩形框中心点的坐标,w为所述预测矩形框的长度,h为所述预测矩形框的宽度,(α,β)为所述预测矩形框的朝向与所述预设复数平面坐标系中单位圆交点的坐标。
可选的,所述根据所述类型的损失函数与所述位置的损失函数,确定总损失函数的步骤,包括:
根据公式确定所述总损失函数;
其中,L为所述总损失函数,Lcls(pi,li)为第i个所述预测矩形框对应的类型的损失函数,Lreg(v* j,vj)为第j个所述预测矩形框对应的位置的损失函数,N为所述预测矩形框的个数,pj表示第j个所述预测矩形框对应的目标对象的预测类型的置信度,λ1、λ2为预设的超参数。
第二方面,本发明实施例提供了一种基于复数平面坐标系定位的目标检测装置,所述装置包括:
待检测图像获取模块,用于获取待检测图像,其中,所述待检测图像中包括待检测目标;
检测模块,用于将所述待检测图像输入目标检测DCNN模型,根据所述待检测图像的图像特征确定所述待检测目标的类型及待检测目标在所述待检测图像中位置,其中,所述目标检测DCNN模型为通过目标检测DCNN模型生成模块预先训练完成的;
所述目标检测DCNN模型生成模块包括:
初始模型及图像样本获取子模块,用于获取初始目标检测DCNN模型及多个图像样本,其中,每个所述图像样本中包括目标对象;
位置标注子模块,用于标记所述目标对象在每个图像样本中的位置,得到所述每个图像样本对应的标记矩形框;
真值向量确定子模块,用于基于所述标记矩形框在所述图像样本的图像坐标系中的位置,以及预设复数平面坐标系,确定所述每个图像样本对应的真值向量(x*,y*,w*,h*,α*,β*),其中,(x*,y*)为所述图像坐标系中标记矩形框中心点的坐标,w*为所述标记矩形框的长度,h*为所述标记矩形框的宽度,(α*,β*)为所述目标对象的朝向与预设复数平面坐标系中单位圆交点的坐标;
标定标签确定子模块,用于标记所述目标对象的类型得到标记类型,并将所述标记类型及所述真值向量确定为所述每个图像样本对应的标定标签;
预测标签确定子模块,用于将每个所述图像样本输入初始目标检测DCNN模型,根据每个所述图像样本的图像特征进行检测,得到每个所述图像样本包括的目标对象的预测类型及预测向量,作为每个所述图像样本的预测标签;
参数调整及迭代子模块,用于基于所述预测标签及对应的图像样本的标定标签的差异,调整所述初始目标检测DCNN模型的参数,直到所述初始目标检测DCNN模型收敛,停止训练,得到所述目标检测DCNN模型。
可选的,所述预测标签确定子模块包括:
预测向量确定单元,用于基于所述预设复数平面坐标系,根据每个所述图像样本的图像特征及预设矩形框在所述图像样本中对应的图像特征的差异,调整预设向量,得到表示每个所述目标对象在图像样本中的位置的预测矩形框对应的预测向量。
可选的,所述参数调整及迭代子模块包括:
类型的损失函数确定单元,用于根据所述标定标签中目标对象的标记类型与其对应的预测标签中目标对象的预测类型之间的差异,确定类型的损失函数;
位置的损失函数确定单元,用于基于所述预设复数平面坐标系,根据所述标定标签中目标对象的真值向量与其对应的预测标签包括的目标对象的预测向量之间的差异,确定位置的损失函数;
总损失函数确定单元,用于根据所述类型的损失函数与所述位置的损失函数,确定总损失函数;
参数调整单元,用于基于所述总损失函数调整所述初始目标检测DCNN模型的参数。
可选的,所述类型的损失函数确定单元包括:
预测类型的置信度确定子单元,用于根据每个所述标定标签中的标记矩形框在图像样本中对应的图像特征及其对应的预测标签的图像特征的差异,确定所述预测标签中目标对象的预测类型的置信度;
类型的损失函数确定子单元,用于根据公式Lcls(p,l)=-l×logp,确定所述类型的损失函数;
其中,Lcls(p,l)为所述类型的损失函数,l表示所述预测标签中目标对象的预测类型,p表示所述预测类型的置信度;
所述位置的损失函数确定单元包括:
位置的损失函数确定子单元,用于根据公式Lreg(v*,v)=smoothL1(v*-v),确定所述位置的损失函数;
其中,Lreg(v*,v)为所述位置的损失函数,v*为回归向量的真值(t* x,t* y,t* w,t* h,t* α,t* β), t* α=α*-αa,t* β=β*-βa,v为回归向量的预测值(tx,ty,tw,th,tα,tβ),tα=α-αa,tβ=β-βa,(xa,ya,wa,ha,αa,βa)为所述预设向量,(xa,ya)为所述图像坐标系中预设矩形框中心点的坐标,wa为所述预设矩形框的长度,ha为所述预设矩形框的宽度,(αa,βa)为所述预设矩形框的朝向与所述预设复数平面坐标系中单位圆交点的坐标,(x,y,w,h,α,β)为所述预测向量,(x,y)为所述图像坐标系中预测矩形框中心点的坐标,w为所述预测矩形框的长度,h为所述预测矩形框的宽度,(α,β)为所述预测矩形框的朝向与所述预设复数平面坐标系中单位圆交点的坐标。
可选的,所述总损失函数确定单元包括:
总损失函数确定子单元,用于根据公式 确定所述总损失函数;
其中,L为所述总损失函数,Lcls(pi,li)为第i个所述预测矩形框对应的类型的损失函数,Lreg(v* j,vj)为第j个所述预测矩形框对应的位置的损失函数,N为所述预测矩形框的个数,pj表示第j个所述预测矩形框对应的目标对象的预测类型的置信度,λ1、λ2为预设的超参数。
本发明实施例所提供的方案中,电子设备可以获取待检测图像,将所述待检测图像输入目标检测DCNN模型,根据所述待检测图像的图像特征确定所述待检测目标的类型及待检测目标在所述待检测图像中位置,其中,所述目标检测DCNN模型为通过以下步骤生成的:获取初始目标检测DCNN模型及多个图像样本,标记所述目标对象在每个图像样本中的位置,得到所述每个图像样本对应的标记矩形框,然后基于所述标记矩形框在所述图像样本的图像坐标系中的位置,以及预设复数平面坐标系,确定所述每个图像样本对应的真值向量(x*,y*,w*,h*,α*,β*),标记所述目标对象的类型得到标记类型,并将所述标记类型及所述真值向量确定为所述每个图像样本对应的标定标签,进而将每个所述图像样本输入初始目标检测DCNN模型,根据每个所述图像样本的图像特征进行检测,得到每个所述图像样本包括的目标对象的预测类型及预测向量,作为每个所述图像样本的预测标签,便可以基于所述预测标签及对应的图像样本的标定标签的差异,调整所述初始目标检测DCNN模型的参数,直到所述初始目标检测DCNN模型收敛,停止训练,得到所述目标检测DCNN模型。这样,由于预设复数平面坐标系中表示目标对象的朝向的坐标(α*,β*)为连续的,那么根据坐标(α*,β*)确定的损失函数也为连续的,因此电子设备根据上述方法生成的目标检测DCNN模型可以收敛,那么电子设备利用目标检测DCNN模型对图像进行检测可以得到更加准确的检测结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的一种基于复数平面坐标系定位的目标检测方法的流程图;
图2为基于图1所示实施例的目标检测DCNN模型生成方式的具体流程图;
图3为基于图2所示实施例的标记矩形框的示意图;
图4(a)为基于图2所示实施例的图像坐标系的示意图;
图4(b)为基于图2所示实施例的复数平面坐标系的示意图;
图5为基于图2所示实施例的初始目标检测DCNN模型参数的调整方式的流程图;
图6为基于图5所示实施例的类型的损失函数的确定方式的流程图;
图7为本发明实施例所提供的一种基于复数平面坐标系定位的目标检测装置的结构示意图;
图8为基于图7所示实施例的目标检测DCNN模型生成模块的结构示意图;
图9为本发明实施例所提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了提高检测结果中目标定位的准确度,本发明实施例提供了一种基于复数平面坐标系定位的目标检测方法、装置、电子设备及计算机可读存储介质。
下面首先对本发明实施例所提供的一种基于复数平面坐标系定位的目标检测方法进行介绍。
本发明实施例所提供的一种基于复数平面坐标系定位的目标检测方法可以应用于任意需要对待检测图像进行检测的电子设备,例如,可以为电脑、手机、处理器等,在此不做具体限定。为了描述方便,后续简称电子设备。
如图1所示,一种基于复数平面坐标系定位的目标检测方法,所述方法可以包括:
S101,获取待检测图像;
其中,所述待检测图像中包括待检测目标。
S102,将所述待检测图像输入目标检测DCNN模型,根据所述待检测图像的图像特征确定所述待检测目标的类型及待检测目标在所述待检测图像中位置;
其中,如图2所示,所述目标检测DCNN模型为通过以下步骤生成的:
S201,获取初始目标检测DCNN模型及多个图像样本;
其中,每个所述图像样本中包括目标对象。
S202,标记所述目标对象在每个图像样本中的位置,得到所述每个图像样本对应的标记矩形框;
S203,基于所述标记矩形框在所述图像样本的图像坐标系中的位置,以及预设复数平面坐标系,确定所述每个图像样本对应的真值向量(x*,y*,w*,h*,α*,β*);
其中,(x*,y*)为所述图像坐标系中标记矩形框中心点的坐标,w*为所述标记矩形框的长度,h*为所述标记矩形框的宽度,(α*,β*)为所述目标对象的朝向与预设复数平面坐标系中单位圆交点的坐标。
S204,标记所述目标对象的类型得到标记类型,并将所述标记类型及所述真值向量确定为所述每个图像样本对应的标定标签;
S205,将每个所述图像样本输入初始目标检测DCNN模型,根据每个所述图像样本的图像特征进行检测,得到每个所述图像样本包括的目标对象的预测类型及预测向量,作为每个所述图像样本的预测标签;
S206,基于所述预测标签及对应的图像样本的标定标签的差异,调整所述初始目标检测DCNN模型的参数,直到所述初始目标检测DCNN模型收敛,停止训练,得到所述目标检测DCNN模型。
可见,本发明实施例所提供的方案中,电子设备可以获取待检测图像,将所述待检测图像输入目标检测DCNN模型,根据所述待检测图像的图像特征确定所述待检测目标的类型及待检测目标在所述待检测图像中位置,其中,所述目标检测DCNN模型为通过以下步骤生成的:获取初始目标检测DCNN模型及多个图像样本,标记所述目标对象在每个图像样本中的位置,得到所述每个图像样本对应的标记矩形框,然后基于所述标记矩形框在所述图像样本的图像坐标系中的位置,以及预设复数平面坐标系,确定所述每个图像样本对应的真值向量(x*,y*,w*,h*,α*,β*),标记所述目标对象的类型得到标记类型,并将所述标记类型及所述真值向量确定为所述每个图像样本对应的标定标签,进而将每个所述图像样本输入初始目标检测DCNN模型,根据每个所述图像样本的图像特征进行检测,得到每个所述图像样本包括的目标对象的预测类型及预测向量,作为每个所述图像样本的预测标签,便可以基于所述预测标签及对应的图像样本的标定标签的差异,调整所述初始目标检测DCNN模型的参数,直到所述初始目标检测DCNN模型收敛,停止训练,得到所述目标检测DCNN模型。这样,由于预设复数平面坐标系中表示目标对象的朝向的坐标(α*,β*)为连续的,那么根据坐标(α*,β*)确定的损失函数也为连续的,因此电子设备根据上述方法生成的目标检测DCNN模型可以收敛,那么电子设备利用目标检测DCNN模型对图像进行检测可以得到更加准确的检测结果。
为了确定上述待检测目标的类型及待检测目标在上述待检测图像中位置,在上述步骤S101中,电子设备可以获取待检测图像。其中,上述待检测图像可以为高分辨率遥感图像、航拍图像等图像,上述待检测目标可以为船只、车辆、飞机等目标。
获取上述待检测图像之后,电子设备便可以将上述待检测图像输入预先训练生成的目标检测DCNN模型,目标检测DCNN模型可以根据待检测图像的图像特征及其在训练过程中学习到的图像特征与类型以及位置的对应关系,确定待检测目标的类型及待检测目标在待检测图像中的位置。
其中,上述目标检测DCNN模型可以为任意能够进行模型训练的电子设备训练生成的,该电子设备可以为电脑、处理器等,在此不做具体限定。上述进行模型训练的电子设备与上述对待检测图像进行检测的电子设备可以为同一设备,也可以为不同设备,这都是合理的。
由于生成目标检测DCNN模型需要利用大量图像样本对初始目标检测DCNN模型进行训练,所以在上述步骤S201中,电子设备可以获取初始目标检测DCNN模型及多个图像样本。其中,每个上述图像样本包括目标对象。目标对象为图像中需要检测的对象,例如,可以为船只、车辆、飞机等。
初始目标检测DCNN模型可以为深度卷积神经网络等深度学习模型,其参数可以随时初始化,对于初始目标检测DCNN模型的结构在此不做具体限定。
在获取多个图像样本后,为了训练上述初始目标检测DCNN模型,电子设备可以执行上述步骤S202,即标记目标对象在每个图像样本中的位置,得到每个图像样本对应的标记矩形框。
在一种实施方式中,电子设备可以按照如下规则标记目标对象在图像样本中的位置:标记矩形框为目标对象的外接矩形,且朝向与目标对象的朝向一致。举例来说,如图3所示,可以按照顺时针方向,以图像样本300中目标对象301头部的左上角302为第一标记点,以目标对象301头部的右上角303为第二标记点,以目标对象301尾部的右下角304为第三标记点,以目标对象301尾部的左下角305为第四标记点,得到每个图像样本对应的标记矩形框306。那么,以第三、第四标记点的中心点为端点,经过第一、第二标记点的中心点的射线307的方向也就是目标对象的朝向。
在得到每个图像样本对应的标记矩形框后,电子设备便可以执行上述步骤S203,即基于标记矩形框在图像样本的图像坐标系中的位置,以及预设复数平面坐标系,确定每个图像样本对应的真值向量(x*,y*,w*,h*,α*,β*)。
其中,(x*,y*)为上述图像坐标系中标记矩形框中心点的坐标,w*为上述标记矩形框的长度,h*为上述标记矩形框的宽度,(α*,β*)为上述目标对象的朝向与预设复数平面坐标系中单位圆交点的坐标。
如图4(a)所示,在图像样本403的图像坐标系中,(x*,y*)为标记矩形框404的中心点402的坐标,w*为标记矩形框404的长度,h*为标记矩形框404的宽度,目标对象401的朝向405与图像坐标系的x轴正方向的夹角为θ。如图4(b)所示,在预设复数平面坐标系中,(α*,β*)为目标对象的朝向405与单位圆的交点406的坐标。
由于上述朝向405与预设复数平面坐标系的Re轴正方向夹角也为θ,上述单位圆的半径为单位长度,也就是1,所以说α*=cosθ,β*=sinθ。这样,上述夹角θ就可以由预设复数平面坐标系中上述朝向405与单位圆的交点406的坐标(α*,β*)表示。
例如,若上述夹角θ为60°,那么α*=cos60°=0.5,
由于上述坐标(α*,β*)对应的点位于预设复数平面坐标系中单位圆上,当上述夹角θ发生变化时,上述坐标(α*,β*)的变化是连续的,所以,当θ为接近取值范围边界的角度时,根据上述坐标(α*,β*)确定的损失函数仍然是连续的,在这种情况下,初始目标检测DCNN模型便可以收敛。
在一种实施方式中,上述目标对象的朝向与上述图像坐标系的x轴正方向的夹角θ的取值范围可以为(-180°,180°),当目标对象的朝向为图像坐标系的x轴正方向时夹角θ为0°,目标对象的朝向顺时针旋转时θ递增,逆时针旋转时θ递减。
由于电子设备需要通过训练完成的目标检测DCNN模型对图像进行检测,确定图像中目标对象的类型及目标对象在图像中的位置,所以,电子设备便可以执行上述步骤S204,即标记目标对象的类型得到标记类型,并将上述标记类型及上述真值向量确定为每个图像样本对应的标定标签。
对图像样本进行标记得到上述标定标签后,电子设备可以执行上述步骤S205,将每个图像样本输入上述初始目标检测DCNN模型,初始目标检测DCNN模型可以基于当前参数对每个图像样本进行检测,根据每个图像样本的图像特征确定其包括的目标对象的预测类型及对应的预测向量,也就是预测标签。
在一种实施方式中,上述初始目标检测DCNN模型可以包括深度为101层的残差神经网络ResNet-101、RPN(Region Proposal Network,区域建议网络)及ROI Pooling(Region ofInterest Pooling,感兴趣区域池化)。在这种情况下,电子设备可以将图像样本输入ResNet-101,ResNet-101可以对图像样本进行图像特征提取,进而得到图像样本的特征图。然后,电子设备可以将上述特征图输入RPN,RPN可以根据上述特征图包括的图像特征及预设矩形框在特征图中对应的图像特征的差异,调整预设矩形框对应的预设向量,获得表示目标对象在图像样本中位置的预测矩形框对应的第一预测向量。
进而,电子设备可以从预测矩形框在特征图中对应的图像特征中通过ROIPooling提取图像特征,将提取的图像特征输入ResNet-101中用于确定目标对象的位置的第一全连接层,第一全连接层可以根据提取的图像特征与第一预测向量对应的预测矩形框所对应的图像特征的差异,调整第一预测向量,得到第二预测向量。同时,电子设备可以将提取的图像特征输入ResNet-101中用于确定目标对象的位置的第二全连接层,第二全连接层可以根据上述提取的图像特征,确定目标对象的预测类型。这样,电子设备便可以将上述目标对象的预测类型及对应的第二预测向量作为预测标签。
由于当前阶段的初始目标检测DCNN模型可能还无法准确对图像样本进行检测得到准确的检测结果,所以得到上述预测标签及标定标签后,电子设备可以执行上述步骤S206,即基于预测标签及对应的图像样本的标定标签的差异,调整初始目标检测DCNN模型的参数,直到初始目标检测DCNN模型收敛,停止训练,得到目标检测DCNN模型。
电子设备可以将上述预测标签与对应的标定标签进行对比,进而根据预测标签与对应的标定标签之间的差异,调整初始目标检测DCNN模型的参数,以使初始目标检测DCNN模型的参数更加合适。其中,调整初始目标检测DCNN模型的参数的方式可以为梯度下降算法、随机梯度下降算法等模型参数调整方式,在此不做具体限定及说明。
为了确定上述初始目标检测DCNN模型是否收敛,电子设备可以判断初始目标检测DCNN模型的迭代次数是否达到预设次数,或,初始目标检测DCNN模型的总损失函数是否不大于预设值。
如果初始目标检测DCNN模型的迭代次数达到预设次数,或,初始目标检测DCNN模型的总损失函数不大于预设值,说明当前初始目标检测DCNN模型已经收敛,也就是说,当前初始目标检测DCNN模型可以对图像进行检测得到准确的输出结果,所以此时可以停止训练,得到目标检测DCNN模型。
其中,上述预设次数可以根据检测要求、模型结构等因素设定,例如,可以为6000次、9000次、12000次等,在此不做具体限定。预设值可以根据检测要求、模型结构等因素设定,例如可以为1、0.9、0.75等,在此不做具体限定。
如果初始目标检测DCNN模型的迭代次数未达到预设次数,或,初始目标检测DCNN模型的总损失函数大于预设值,说明当前初始目标检测DCNN模型还未收敛,也就是说,当前初始目标检测DCNN模型对图像进行检测得到输出结果还不够准确,那么电子设备需要继续训练初始目标检测DCNN模型。
在一种实施方式中,电子设备可以根据如下公式,确定每个预测向量(x,y,w,h,α,β)对应的预测矩形框的朝向与待检测图像的图像坐标系中x轴正方向的夹角θout:
θout=F(α,β)*360/2π
其中,θout的取值范围可以为(-180°,180°),当预测矩形框的朝向为上述图像坐标系的x轴正方向时夹角θ为0°,预测矩形框的朝向顺时针旋转时θout递增,逆时针旋转时θout递减。F(α,β)为如下所示的分段函数:
这样,电子设备便可以根据每个预测向量(x,y,w,h,α,β)对应的五元向量(x,y,w,h,θout),通过旋转非极大值抑制算法,在多个预测矩形框中确定所对应的预测类型的置信度较高的预测矩形框及其对应的五元向量(x,y,w,h,θout),表示待检测目标在待检测图像中的位置。
作为本发明实施例的一种实施方式,上述将每个所述图像样本输入初始目标检测DCNN模型,根据每个所述图像样本的图像特征进行检测,得到每个所述图像样本包括的目标对象的预测类型及预测向量,作为每个所述图像样本的预测标签的步骤,可以包括:
基于所述预设复数平面坐标系,根据每个图像样本的图像特征及预设矩形框在图像样本中对应的图像特征的差异,调整预设向量,得到表示每个目标对象在图像样本中的位置的预测矩形框对应的预测向量。
为了检测目标对象在图像样本中的位置,在获取上述多个图像样本后,电子设备可以在每个图像样本的预设位置设置矩形框,也就是预设矩形框,其中,预设矩形框可以为多个。电子设备可以基于每个预设矩形框在图像样本的图像坐标系中的位置,以及预设复数平面坐标系,确定每个预设矩形框对应的预设向量。
其中,确定预设向量的具体方式与上述确定预测向量的具体方式相同,可以参见上述步骤S203部分的说明,在此不再赘述。
由于预设矩形框在图像样本中对应的图像特征可能不是目标对象的图像特征,为了得到可以准确表示目标对象在图像样本中位置的预测矩形框对应的预测向量,电子设备便可以根据预设复数平面坐标系、每个图像样本的图像特征及每个预设矩形框在图像样本中对应的图像特征的差异调整每个预设矩形框对应的预设向量,得到每个预设矩形框对应的预测向量。
具体来说,电子设备可以根据每个图像样本的标记矩形框对应的图像特征及每个预设矩形框在图像样本中对应的图像特征的差异,调整每个预设矩形框的中心点,以使其接近上述标记矩形框的中心点,调整每个预设矩形框的长度,以使其接近上述标记矩形框的长度,调整每个预设矩形框的宽度,以使其接近上述标记矩形框的宽度,调整每个预设矩形框的朝向,以使其接近上述标记矩形框的朝向。
电子设备可以根据如下所示的公式,确定回归向量的真值(t* x,t* y,t* w,t* h,t* α,t* β)和回归向量的预测值(tx,ty,tw,th,tα,tβ),然后根据回归向量的真值及其对应的回归向量的预测值,调整每个预设矩形框对应的预设向量(xa,ya,wa,ha,αa,βa),得到每个预设矩形框对应的预测向量(x,y,w,h,α,β):
t* α=α*-αa,t* β=β*-βa
tα=α-αa,tβ=β-βa
其中,(x*,y*,w*,h*,α*,β*)为上述真值向量。
可见,本发明实施例所提供的方案中,电子设备可以根据每个图像样本的图像特征及预设矩形框在图像样本中对应的图像特征的差异,调整预设向量,得到表示每个目标对象在图像样本中的位置的预测矩形框对应的预测向量。这样,电子设备便可以根据图像样本的图像特征,调整预设向量,快速地得到准确的预测向量。
作为本发明实施例的一种实施方式,如图5所示,上述基于所述预测标签及对应的图像样本的标定标签的差异,调整所述初始目标检测DCNN模型的参数的步骤,可以包括:
S501,根据所述标定标签中目标对象的标记类型与其对应的预测标签中目标对象的预测类型之间的差异,确定类型的损失函数;
训练完成的目标检测DCNN模型需要对图像进行检测,确定图像中目标对象的类型,为了确定上述预测标签中目标对象的类型的准确程度,电子设备可以根据标定标签中目标对象的标记类型与预测标签中目标对象的预测类型之间的差异,确定类型的损失函数。
S502,基于所述预设复数平面坐标系,根据所述标定标签中目标对象的真值向量与其对应的预测标签包括的目标对象的预测向量之间的差异,确定位置的损失函数;
训练完成的目标检测DCNN模型需要对图像进行检测,确定图像中目标对象的位置,为了确定上述预测标签中目标对象的位置的准确程度,电子设备可以根据标定标签中目标对象的真值向量与预测标签中目标对象的预测向量之间的差异,确定位置的损失函数。
S503,根据所述类型的损失函数与所述位置的损失函数,确定总损失函数;
在确定上述类型的损失函数及位置的损失函数后,为了确定初始目标检测DCNN模型输出的检测结果的整体准确程度,电子设备便可以根据类型的损失函数与位置的损失函数确定表示上述整体准确程度的损失函数,也就是总损失函数。
S504,基于所述总损失函数调整所述初始目标检测DCNN模型的参数。
在确定总损失函数后,由于初始目标检测DCNN模型的参数与上述总损失函数存在关联,为了使初始目标检测DCNN模型的参数更加合适,电子设备可以加快基于上述总损失函数,调整初始目标检测DCNN模型的参数。
在一种实施方式中,电子设备在确定总损失函数后,可以通过反向传播算法调整初始目标检测DCNN模型的参数,使初始目标检测DCNN模型的参数更加合适。
可见,本发明实施例所提供的方案中,电子设备可以确定类型的损失函数及位置的损失函数,然后根据类型的损失函数与位置的损失函数,确定总损失函数,进而基于总损失函数调整初始目标检测DCNN模型的参数。这样,电子设备便可以根据总损失函数调整初始目标检测DCNN模型的参数,可以使初始目标检测DCNN模型的参数更加合适,最终获得符合检测准确度要求的目标检测DCNN模型。
作为本发明实施例的一种实施方式,如图6所示,上述步骤S501,可以包括:
S601,根据每个所述标定标签中的标记矩形框在图像样本中对应的图像特征及其对应的预测标签中的预测矩形框在图像样本中对应的图像特征之间的差异,确定所述预测标签中目标对象的预测类型的置信度;
预测标签中的预测向量与标定标签中的真值向量很可能存在偏差。为了确定上述预测向量与真值向量之间的偏差,电子设备可以根据每个标定标签中的标记矩形框在图像样本中对应的图像特征及其对应的预测标签中的预测矩形框在图像样本中对应的图像特征之间的差异,通过归一化指数函数确定预测标签中目标对象的预测类型为正确的类型的概率,也就是预测类型的置信度。
S602,根据公式Lcls(p,l)=-l×logp,确定类型的损失函数。
在确定上述预测类型的置信度后,电子设备便可以根据如下公式确定类型的损失函数:
Lcls(p,l)=-l×logp (1)
其中,Lcls(p,l)为类型的损失函数,l表示预测标签中目标对象的预测类型,p表示预测类型的置信度。
上述步骤S502,可以包括:
根据公式Lreg(v*,v)=smoothL1(v*-v),确定位置的损失函数。
电子设备便可以根据如下公式确定位置的损失函数:
Lreg(v*,v)=smoothL1(v*-v) (2)
其中,smoothL1函数为如下所示的分段函数:
其中,Lreg(v*,v)为位置的损失函数,v*为回归向量的真值(t* x,t* y,t* w,t* h,t* α,t* β), t* α=α*-αa,t* β=β*-βa,v为回归向量的预测值(tx,ty,tw,th,tα,tβ),tα=α-αa,tβ=β-βa,(xa,ya,wa,ha,αa,βa)为预设向量,(xa,ya)为图像坐标系中预设矩形框中心点的坐标,wa为预设矩形框的长度,ha为预设矩形框的宽度,(αa,βa)为预设矩形框的朝向与预设复数平面坐标系中单位圆交点的坐标,(x,y,w,h,α,β)为预测向量,(x,y)为图像坐标系中预测矩形框中心点的坐标,w为预测矩形框的长度,h为预测矩形框的宽度,(α,β)为预测矩形框的朝向与预设复数平面坐标系中单位圆交点的坐标。
可见,本发明实施例所提供的方案中,电子设备可以根据每个标定标签的图像特征及其对应的预测标签的图像特征的差异,确定预测标签中目标对象的预测类型的置信度,然后根据上述公式(1)确定类型的损失函数,根据上述公式(2)确定位置的损失函数。这样,电子设备可以根据上述公式(1)与公式(2)确定损失函数,进而可以确定初始目标检测DCNN模型的总损失函数。
作为本发明实施例的一种实施方式,上述根据所述类型的损失函数与所述位置的损失函数,确定总损失函数的步骤,可以包括:
根据公式确定总损失函数。
其中,L为总损失函数,Lcls(pi,li)为第i个预测矩形框对应的类型的损失函数,Lreg(v* j,vj)为第j个预测矩形框对应的位置的损失函数,N为预测矩形框的个数,pj表示第j个预测矩形框对应的目标对象的预测类型的置信度,λ1、λ2为预设的超参数。
在确定上述类型损失函数Lcls(p,l)和上述位置损失函数Lreg(v*,v)后,由于上述预测标签中包括多个预测向量及对应的预测类型,电子设备便可以根据如下所示公式确定总损失函数:
其中,∑i∈NLcls(pi,li)表示所有预测矩形框对应的目标对象的类型的损失函数加和,∑j∈NpjLreg(v* j,vj)表示所有预测矩形框的位置的损失函数与其对应的预测类型的置信度乘积的加和。
可见,本发明实施例所提供的方案中,电子设备可以根据上述公式(3)确定总损失函数。这样,由于上述总损失函数与目标检测DCNN模型的参数相关,电子设备在确定总损失函数后,便可以根据总损失函数,将初始目标检测DCNN模型的参数调整的更加合适。
相应于上述基于复数平面坐标系定位的目标检测方法,本发明实施例还提供了一种基于复数平面坐标系定位的目标检测装置。下面对本发明实施例所提供的一种基于复数平面坐标系定位的目标检测装置进行介绍。
如图7所示,一种基于复数平面坐标系定位的目标检测装置,所述装置可以包括:
待检测图像获取模块701,用于获取待检测图像;
其中,所述待检测图像中包括待检测目标。
检测模块702,用于将所述待检测图像输入目标检测DCNN模型,根据所述待检测图像的图像特征确定所述待检测目标的类型及待检测目标在所述待检测图像中位置;
其中,所述目标检测DCNN模型为通过目标检测DCNN模型生成模块预先训练完成的。
如图8所示,所述目标检测DCNN模型生成模块可以包括:
初始模型及图像样本获取子模块801,用于获取初始目标检测DCNN模型及多个图像样本;
其中,每个所述图像样本中包括目标对象。
位置标注子模块802,用于标记所述目标对象在每个图像样本中的位置,得到所述每个图像样本对应的标记矩形框;
真值向量确定子模块803,用于基于所述标记矩形框在所述图像样本的图像坐标系中的位置,以及预设复数平面坐标系,确定所述每个图像样本对应的真值向量(x*,y*,w*,h*,α*,β*);
其中,(x*,y*)为所述图像坐标系中标记矩形框中心点的坐标,w*为所述标记矩形框的长度,h*为所述标记矩形框的宽度,(α*,β*)为所述目标对象的朝向与预设复数平面坐标系中单位圆交点的坐标。
标定标签确定子模块804,用于标记所述目标对象的类型标记类型,并将所述标记类型及所述真值向量确定为所述每个图像样本对应的标定标签;
预测标签确定子模块805,用于将每个所述图像样本输入初始目标检测DCNN模型,根据每个所述图像样本的图像特征进行检测,得到每个所述图像样本包括的目标对象的预测类型及预测向量,作为每个所述图像样本的预测标签;
参数调整及迭代子模块806,用于基于所述预测标签及对应的图像样本的标定标签的差异,调整所述初始目标检测DCNN模型的参数,直到所述初始目标检测DCNN模型收敛,停止训练,得到所述目标检测DCNN模型。
可见,本发明实施例所提供的方案中,电子设备可以获取待检测图像,将所述待检测图像输入目标检测DCNN模型,根据所述待检测图像的图像特征确定所述待检测目标的类型及待检测目标在所述待检测图像中位置,其中,所述目标检测DCNN模型为通过以下步骤生成的:获取初始目标检测DCNN模型及多个图像样本,标记所述目标对象在每个图像样本中的位置,得到所述每个图像样本对应的标记矩形框,然后基于所述标记矩形框在所述图像样本的图像坐标系中的位置,以及预设复数平面坐标系,确定所述每个图像样本对应的真值向量(x*,y*,w*,h*,α*,β*),标记所述目标对象的类型得到标记类型,并将所述标记类型及所述真值向量确定为所述每个图像样本对应的标定标签,进而将每个所述图像样本输入初始目标检测DCNN模型,根据每个所述图像样本的图像特征进行检测,得到每个所述图像样本包括的目标对象的预测类型及预测向量,作为每个所述图像样本的预测标签,便可以基于所述预测标签及对应的图像样本的标定标签的差异,调整所述初始目标检测DCNN模型的参数,直到所述初始目标检测DCNN模型收敛,停止训练,得到所述目标检测DCNN模型。这样,由于预设复数平面坐标系中表示目标对象的朝向的坐标(α*,β*)为连续的,那么根据坐标(α*,β*)确定的损失函数也为连续的,因此电子设备根据上述方法生成的目标检测DCNN模型可以收敛,那么电子设备利用目标检测DCNN模型对图像进行检测可以得到更加准确的检测结果。
作为本发明实施例的一种实施方式,上述预测标签确定子模块805可以包括:
预测向量确定单元(图8中未示出),用于基于所述预设复数平面坐标系,根据每个所述图像样本的图像特征及预设矩形框在所述图像样本中对应的图像特征的差异,调整预设向量,得到表示每个所述目标对象在图像样本中的位置的预测矩形框对应的预测向量。
作为本发明实施例的一种实施方式,上述参数调整及迭代子模块806可以包括:
类型的损失函数确定单元(图8中未示出),用于根据所述标定标签中目标对象的标记类型与其对应的预测标签中目标对象的预测类型之间的差异,确定类型的损失函数;
位置的损失函数确定单元(图8中未示出),用于基于所述预设复数平面坐标系,根据所述标定标签中目标对象的真值向量与其对应的预测标签包括的目标对象的预测向量之间的差异,确定位置的损失函数;
总损失函数确定单元(图8中未示出),用于根据所述类型的损失函数与所述位置的损失函数,确定总损失函数;
参数调整单元(图8中未示出),用于基于所述总损失函数调整所述初始目标检测DCNN模型的参数。
作为本发明实施例的一种实施方式,上述类型的损失函数确定单元可以包括:
预测类型的置信度确定子单元(图8中未示出),用于根据每个所述标定标签中的标记矩形框在图像样本中对应的图像特征及其对应的预测标签的图像特征的差异,确定所述预测标签中目标对象的预测类型的置信度;
类型的损失函数确定子单元(图8中未示出),用于根据公式Lcls(p,l)=-l×logp,确定所述类型的损失函数;
其中,Lcls(p,l)为所述类型的损失函数,l表示所述预测标签中目标对象的预测类型,p表示所述预测类型的置信度。
上述位置的损失函数确定单元,可以包括:
位置的损失函数确定子单元(图8中未示出),用于根据公式Lreg(v*,v)=smoothL1(v*-v),确定所述位置的损失函数;
其中,Lreg(v*,v)为所述位置的损失函数,v*为回归向量的真值(t* x,t* y,t* w,t* h,t* α,t* β), t* α=α*-αa,t* β=β*-βa,v为回归向量的预测值(tx,ty,tw,th,tα,tβ),tα=α-αa,tβ=β-βa,(xa,ya,wa,ha,αa,βa)为所述预设向量,(xa,ya)为所述图像坐标系中预设矩形框中心点的坐标,wa为所述预设矩形框的长度,ha为所述预设矩形框的宽度,(αa,βa)为所述预设矩形框的朝向与所述预设复数平面坐标系中单位圆交点的坐标,(x,y,w,h,α,β)为所述预测向量,(x,y)为所述图像坐标系中预测矩形框中心点的坐标,w为所述预测矩形框的长度,h为所述预测矩形框的宽度,(α,β)为所述预测矩形框的朝向与所述预设复数平面坐标系中单位圆交点的坐标。
作为本发明实施例的一种实施方式,上述总损失函数确定单元可以包括:
总损失函数确定子单元(图8中未示出),用于根据公式确定所述总损失函数;
其中,L为所述总损失函数,Lcls(pi,li)为第i个所述预测矩形框对应的类型的损失函数,Lreg(v* j,vj)为第j个所述预测矩形框对应的位置的损失函数,N为所述预测矩形框的个数,pj表示第j个所述预测矩形框对应的目标对象的预测类型的置信度,λ1、λ2为预设的超参数。
本发明实施例还提供了一种电子设备,如图9所示,包括处理器901、通信接口902、存储器903和通信总线904,其中,处理器901,通信接口902,存储器903通过通信总线904完成相互间的通信,
存储器903,用于存放计算机程序;
处理器901,用于执行存储器903上所存放的程序时,实现上述任一实施例所述的基于复数平面坐标系定位的目标检测方法。
可见,本发明实施例所提供的方案中,电子设备可以获取待检测图像,将所述待检测图像输入目标检测DCNN模型,根据所述待检测图像的图像特征确定所述待检测目标的类型及待检测目标在所述待检测图像中位置,其中,所述目标检测DCNN模型为通过以下步骤生成的:获取初始目标检测DCNN模型及多个图像样本,标记所述目标对象在每个图像样本中的位置,得到所述每个图像样本对应的标记矩形框,然后基于所述标记矩形框在所述图像样本的图像坐标系中的位置,以及预设复数平面坐标系,确定所述每个图像样本对应的真值向量(x*,y*,w*,h*,α*,β*),标记所述目标对象的类型得到标记类型,并将所述标记类型及所述真值向量确定为所述每个图像样本对应的标定标签,进而将每个所述图像样本输入初始目标检测DCNN模型,根据每个所述图像样本的图像特征进行检测,得到每个所述图像样本包括的目标对象的预测类型及预测向量,作为每个所述图像样本的预测标签,便可以基于所述预测标签及对应的图像样本的标定标签的差异,调整所述初始目标检测DCNN模型的参数,直到所述初始目标检测DCNN模型收敛,停止训练,得到所述目标检测DCNN模型。这样,由于预设复数平面坐标系中表示目标对象的朝向的坐标(α*,β*)为连续的,那么根据坐标(α*,β*)确定的损失函数也为连续的,因此电子设备根据上述方法生成的目标检测DCNN模型可以收敛,那么电子设备利用目标检测DCNN模型对图像进行检测可以得到更加准确的检测结果。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended IndustryStandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的基于复数平面坐标系定位的目标检测方法的步骤。
可见,本发明实施例所提供的方案中,计算机可读存储介质内存储的计算机程序被处理器执行时,可以获取待检测图像,将所述待检测图像输入目标检测DCNN模型,根据所述待检测图像的图像特征确定所述待检测目标的类型及待检测目标在所述待检测图像中位置,其中,所述目标检测DCNN模型为通过以下步骤生成的:获取初始目标检测DCNN模型及多个图像样本,标记所述目标对象在每个图像样本中的位置,得到所述每个图像样本对应的标记矩形框,然后基于所述标记矩形框在所述图像样本的图像坐标系中的位置,以及预设复数平面坐标系,确定所述每个图像样本对应的真值向量(x*,y*,w*,h*,α*,β*),标记所述目标对象的类型得到标记类型,并将所述标记类型及所述真值向量确定为所述每个图像样本对应的标定标签,进而将每个所述图像样本输入初始目标检测DCNN模型,根据每个所述图像样本的图像特征进行检测,得到每个所述图像样本包括的目标对象的预测类型及预测向量,作为每个所述图像样本的预测标签,便可以基于所述预测标签及对应的图像样本的标定标签的差异,调整所述初始目标检测DCNN模型的参数,直到所述初始目标检测DCNN模型收敛,停止训练,得到所述目标检测DCNN模型。这样,由于预设复数平面坐标系中表示目标对象的朝向的坐标(α*,β*)为连续的,那么根据坐标(α*,β*)确定的损失函数也为连续的,因此电子设备根据上述方法生成的目标检测DCNN模型可以收敛,那么电子设备利用目标检测DCNN模型对图像进行检测可以得到更加准确的检测结果。
需要说明的是,对于上述装置、电子设备及计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
进一步需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (6)
1.一种目标检测模型生成方法,其特征在于,所述方法包括:
获取初始目标检测模型及多个图像样本,其中,每个所述图像样本中包括目标对象;
标记所述目标对象在每个图像样本中的位置,得到所述每个图像样本对应的标记矩形框;
基于所述标记矩形框在所述图像样本的图像坐标系中的位置,以及预设复数平面坐标系,确定所述每个图像样本对应的真值向量(x*,y*,W*,h*,α*,β*),其中,(x*,y*)为所述图像坐标系中标记矩形框中心点的坐标,w*为所述标记矩形框的长度,h*为所述标记矩形框的宽度,(α*,β*)为所述目标对象的朝向与预设复数平面坐标系中单位圆交点的坐标;
标记所述目标对象的类型得到标记类型,并将所述标记类型及所述真值向量确定为所述每个图像样本对应的标定标签;
将每个所述图像样本输入初始目标检测模型,根据每个所述图像样本的图像特征进行检测,得到每个所述图像样本包括的目标对象的预测类型及预测向量,作为每个所述图像样本的预测标签;
基于所述预测标签及对应的图像样本的标定标签的差异,调整所述初始目标检测模型的参数,直到所述初始目标检测模型收敛,停止训练,得到目标检测模型;
所述基于所述预测标签及对应的图像样本的标定标签的差异,调整所述初始目标检测模型的参数的步骤,包括:根据所述标定标签中目标对象的标记类型与其对应的预测标签中目标对象的预测类型之间的差异,确定类型的损失函数;基于所述预设复数平面坐标系,根据所述标定标签中目标对象的真值向量与其对应的预测标签包括的目标对象的预测向量之间的差异,确定位置的损失函数;根据所述类型的损失函数与所述位置的损失函数,确定总损失函数;基于所述总损失函数调整所述初始目标检测模型的参数;
所述根据所述标定标签中目标对象的标记类型与其对应的预测标签中目标对象的预测类型之间的差异,确定类型的损失函数的步骤,包括:根据每个所述标定标签中的标记矩形框在图像样本中对应的图像特征及其对应的预测标签中的预测矩形框在图像样本中对应的图像特征之间的差异,确定所述预测标签中目标对象的预测类型的置信度;根据公式Lcls(p,l)=-logpl,确定所述类型的损失函数;其中,Lcls(p,l)为所述类型的损失函数,l表示所述预测标签中目标对象的预测类型,p表示所述预测类型的置信度;所述基于所述预设复数平面坐标系,根据所述标定标签中目标对象的真值向量与其对应的预测标签包括的目标对象的预测向量之间的差异,确定位置的损失函数的步骤,包括:根据公式Lreg(v*,v)=smoothL1(v*-v),确定所述位置的损失函数;其中,Lreg(v*,v)为所述位置的损失函数,v*为回归向量的真值(t* x,t* y,t* w,t* h,t* α,t* β), t* α=α*-αa,t* β=β*-βa,v为回归向量的预测值(tx,ty,tw,th,tα,tβ),tα=α-αa,tβ=β-βa,(xa,ya,wa,ha,αa,βa)为预设向量,(xa,ya)为所述图像坐标系中预设矩形框中心点的坐标,wa为所述预设矩形框的长度,ha为所述预设矩形框的宽度,(αa,βa)为所述预设矩形框的朝向与所述预设复数平面坐标系中单位圆交点的坐标,(x,y,w,h,α,β)为所述预测向量,(x,y)为所述图像坐标系中预测矩形框中心点的坐标,w为所述预测矩形框的长度,h为所述预测矩形框的宽度,(α,β)为所述预测矩形框的朝向与所述预设复数平面坐标系中单位圆交点的坐标;
所述根据所述类型的损失函数与所述位置的损失函数,确定总损失函数的步骤,包括:根据公式确定所述总损失函数;其中,L为所述总损失函数,Lcls(pi,li)为第i个所述预测矩形框对应的类型的损失函数,Lreg(v* j,vj)为第j个所述预测矩形框对应的位置的损失函数,N为所述预测矩形框的个数,pj表示第j个所述预测矩形框对应的目标对象的预测类型的置信度,λ1、λ2为预设的超参数。
2.根据权利要求1所述的方法,其特征在于,所述将每个所述图像样本输入初始目标检测模型,根据每个所述图像样本的图像特征进行检测,得到每个所述图像样本包括的目标对象的预测类型及预测向量,作为每个所述图像样本的预测标签的步骤,包括:
基于所述预设复数平面坐标系,根据每个所述图像样本的图像特征及多个预设矩形框在所述图像样本中对应的图像特征的差异,调整每个预设矩形框对应的预设向量,得到表示所述目标对象在图像样本中的位置的每个预测矩形框对应的预测向量,作为每个所述图像样本的预测标签。
3.一种目标检测方法,其特征在于,所述方法包括:
获取待检测图像,其中,所述待检测图像中包括待检测目标;
将所述待检测图像输入目标检测模型,根据所述待检测图像的图像特征确定所述待检测目标的类型及待检测目标在所述待检测图像中位置,其中,所述目标检测模型为利用权利要求1-2任一项所述的目标检测模型生成方法生成的。
4.一种目标检测模型生成装置,其特征在于,所述装置包括:
初始模型及图像样本获取模块,用于获取初始目标检测模型及多个图像样本,其中,每个所述图像样本中包括目标对象;
位置标注模块,用于标记所述目标对象在每个图像样本中的位置,得到所述每个图像样本对应的标记矩形框;
真值向量确定模块,用于基于所述标记矩形框在所述图像样本的图像坐标系中的位置,以及预设复数平面坐标系,确定所述每个图像样本对应的真值向量(x*,y*,w*,h*,α*,β*),其中,(x*,y*)为所述图像坐标系中标记矩形框中心点的坐标,w*为所述标记矩形框的长度,h*为所述标记矩形框的宽度,(α*,β*)为所述目标对象的朝向与预设复数平面坐标系中单位圆交点的坐标;
标定标签确定模块,用于标记所述目标对象的类型得到标记类型,并将所述标记类型及所述真值向量确定为所述每个图像样本对应的标定标签;
预测标签确定模块,用于将每个所述图像样本输入初始目标检测模型,根据每个所述图像样本的图像特征进行检测,得到每个所述图像样本包括的目标对象的预测类型及预测向量,作为每个所述图像样本的预测标签;
参数调整及迭代模块,用于基于所述预测标签及对应的图像样本的标定标签的差异,调整所述初始目标检测模型的参数,直到所述初始目标检测模型收敛,停止训练,得到目标检测模型;
所述参数调整及迭代模块包括:类型的损失函数确定子模块,用于根据所述标定标签中目标对象的标记类型与其对应的预测标签中目标对象的预测类型之间的差异,确定类型的损失函数;位置的损失函数确定子模块,用于基于所述预设复数平面坐标系,根据所述标定标签中目标对象的真值向量与其对应的预测标签包括的目标对象的预测向量之间的差异,确定位置的损失函数;总损失函数确定子模块,用于根据所述类型的损失函数与所述位置的损失函数,确定总损失函数;参数调整子模块,用于基于所述总损失函数调整所述初始目标检测模型的参数;
所述位置损失函数确定子模块,包括:位置的损失函数确定单元,用于根据公式Lreg(v*,v)=smoothL1(v*-v),确定所述位置的损失函数;其中,Lreg(v*,v)为所述位置的损失函数,v*为回归向量的真值(t* x,t* y,t* w,t* h,t* α,t* β), t* α=α*-αa,t* β=β*-βa,v为回归向量的预测值(tx,ty,tw,th,tα,tβ),tα=α-αa,tβ=β-βa,(xa,ya,wa,ha,αa,βa)为预设向量,(xa,ya)为所述图像坐标系中预设矩形框中心点的坐标,wa为所述预设矩形框的长度,ha为所述预设矩形框的宽度,(αa,βa)为所述预设矩形框的朝向与所述预设复数平面坐标系中单位圆交点的坐标,(x,y,w,h,α,β)为所述预测向量,(x,y)为所述图像坐标系中预测矩形框中心点的坐标,w为所述预测矩形框的长度,h为所述预测矩形框的宽度,(α,β)为所述预测矩形框的朝向与所述预设复数平面坐标系中单位圆交点的坐标;
所述总损失函数确定子模块,包括:总损失函数确定单元用于根据公式确定所述总损失函数;其中,L为所述总损失函数,Lcls(pi,li)为第i个所述预测矩形框对应的类型的损失函数,Lreg(v* j,vj)为第j个所述预测矩形框对应的位置的损失函数,N为所述预测矩形框的个数,pj表示第j个所述预测矩形框对应的目标对象的预测类型的置信度,λ1、λ2为预设的超参数。
5.根据权利要求4所述的装置,其特征在于,所述预测标签确定模块包括:
预测向量确定子模块,用于基于所述预设复数平面坐标系,根据每个所述图像样本的图像特征及预设矩形框在所述图像样本中对应的图像特征的差异,调整预设向量,得到表示每个所述目标对象在图像样本中的位置的预测矩形框对应的预测向量。
6.一种目标检测装置,其特征在于,所述装置包括:
待检测图像获取模块,用于获取待检测图像,其中,所述待检测图像中包括待检测目标;
检测模块,用于将所述待检测图像输入目标检测模型,根据所述待检测图像的图像特征确定所述待检测目标的类型及待检测目标在所述待检测图像中位置,其中,所述目标检测模型为利用权利要求1-2任一项所述的目标检测模型生成方法生成的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911328287.XA CN111178207B (zh) | 2019-12-20 | 2019-12-20 | 一种基于复平面坐标系定位的目标检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911328287.XA CN111178207B (zh) | 2019-12-20 | 2019-12-20 | 一种基于复平面坐标系定位的目标检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111178207A CN111178207A (zh) | 2020-05-19 |
CN111178207B true CN111178207B (zh) | 2023-08-01 |
Family
ID=70655586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911328287.XA Active CN111178207B (zh) | 2019-12-20 | 2019-12-20 | 一种基于复平面坐标系定位的目标检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111178207B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114387346A (zh) * | 2022-03-25 | 2022-04-22 | 阿里巴巴达摩院(杭州)科技有限公司 | 一种图像识别、预测模型处理方法、三维建模方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110148142A (zh) * | 2019-05-27 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 图像分割模型的训练方法、装置、设备和存储介质 |
CN110310264A (zh) * | 2019-06-25 | 2019-10-08 | 北京邮电大学 | 一种基于dcnn的大尺度目标检测方法、装置 |
CN110516700A (zh) * | 2019-07-18 | 2019-11-29 | 西安电子科技大学 | 基于度量学习的细粒度图像分类方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106157307B (zh) * | 2016-06-27 | 2018-09-11 | 浙江工商大学 | 一种基于多尺度cnn和连续crf的单目图像深度估计方法 |
US11019355B2 (en) * | 2018-04-03 | 2021-05-25 | Electronics And Telecommunications Research Institute | Inter-prediction method and apparatus using reference frame generated based on deep learning |
-
2019
- 2019-12-20 CN CN201911328287.XA patent/CN111178207B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110148142A (zh) * | 2019-05-27 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 图像分割模型的训练方法、装置、设备和存储介质 |
CN110310264A (zh) * | 2019-06-25 | 2019-10-08 | 北京邮电大学 | 一种基于dcnn的大尺度目标检测方法、装置 |
CN110516700A (zh) * | 2019-07-18 | 2019-11-29 | 西安电子科技大学 | 基于度量学习的细粒度图像分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111178207A (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10769774B2 (en) | Method and device for detecting a defect in a steel plate, as well as apparatus and server therefor | |
CN108038474B (zh) | 人脸检测方法、卷积神经网络参数的训练方法、装置及介质 | |
US10755120B2 (en) | End-to-end lightweight method and apparatus for license plate recognition | |
CN112257692B (zh) | 一种行人目标的检测方法、电子设备及存储介质 | |
US20190095739A1 (en) | Adaptive Auto Meter Detection Method based on Character Segmentation and Cascade Classifier | |
CN110598512B (zh) | 一种车位检测方法及装置 | |
US20180025249A1 (en) | Object Detection System and Object Detection Method | |
Zhao et al. | Aircraft recognition based on landmark detection in remote sensing images | |
CN109785335B (zh) | 扫描对象的直线轮廓的确定方法、装置及存储介质 | |
CN112001406B (zh) | 一种文本区域检测方法及装置 | |
Mo et al. | The deep poincaré map: A novel approach for left ventricle segmentation | |
CN111985458B (zh) | 一种检测多目标的方法、电子设备及存储介质 | |
CN111144398A (zh) | 目标检测方法、装置、计算机设备和存储介质 | |
CN112651490B (zh) | 人脸关键点检测模型的训练方法及设备、可读存储介质 | |
CN111862189B (zh) | 体尺信息确定方法、装置、电子设备和计算机可读介质 | |
CN111178207B (zh) | 一种基于复平面坐标系定位的目标检测方法及装置 | |
WO2020175818A1 (ko) | 온라인 학습을 이용한 객체 트래킹을 위한 방법 및 시스템 | |
CN113406623A (zh) | 基于雷达高分辨距离像的目标识别方法、装置及介质 | |
CN113643311B (zh) | 一种对边界误差鲁棒的图像分割方法和装置 | |
CN117057443B (zh) | 视觉语言模型的提示学习方法及电子设备 | |
CN111553223B (zh) | 舰船目标识别方法、装置、设备及可读存储介质 | |
Chang et al. | Confidence level estimation in multi-target classification problems | |
Sagar et al. | Metric based on morphological dilation for the detection of spatially significant zones | |
CN117078985B (zh) | 一种景象匹配方法、装置、存储介质及电子设备 | |
US20230360381A1 (en) | Method and apparatus with data labeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |