CN112183529A - 四边形物体检测、模型训练方法、装置、设备及存储介质 - Google Patents
四边形物体检测、模型训练方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112183529A CN112183529A CN202011012425.6A CN202011012425A CN112183529A CN 112183529 A CN112183529 A CN 112183529A CN 202011012425 A CN202011012425 A CN 202011012425A CN 112183529 A CN112183529 A CN 112183529A
- Authority
- CN
- China
- Prior art keywords
- vertex
- value
- target detection
- detection frame
- quadrilateral
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 244
- 238000012549 training Methods 0.000 title claims abstract description 113
- 238000000034 method Methods 0.000 title claims description 41
- 238000003062 neural network model Methods 0.000 claims abstract description 84
- 238000012545 processing Methods 0.000 claims abstract description 32
- 238000004891 communication Methods 0.000 claims description 12
- 230000000694 effects Effects 0.000 abstract description 5
- 238000006073 displacement reaction Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种四边形物体检测、模型训练方法、装置、设备及存储介质,检测方法包括:获取包含待检测的四边形物体的待检测图像;使用预先训练好的神经网络模型对待检测图像进行处理,得到包含四边形物体的目标检测框,以及目标检测框的四个顶点对应的偏移变量值;将目标检测框的各顶点按照各顶点对应的偏移变量值进行偏移,得到四边形物体的预测顶点。这样得到的四边形物体的预测顶点,相对于相关技术而言,不受到目标检测框的边的限制,是基于目标检测框的四个顶点,来预测四边形物体顶点的偏移,即使在四边形物体倾斜超过45度或是四边形物体倾斜角度特别小时,检测效果也能保持准确与稳定。
Description
技术领域
本申请涉及图像处理技术领域,具体而言,涉及一种四边形物体检测、模型训练方法、装置、设备及存储介质。
背景技术
在图像检测领域,常常需要对图片中的四边形物体(如图片中的车牌、车位、房屋、中文句子等)进行准确定位。
目前,常规的检测方式输出的是包含该四边形物体的一个水平的矩形框(即检测框)。在实际应用中,四边形物体确实存在在图片中是水平的情况,但是,也存在着四边形物体在图片中是倾斜着的情况,这时,输出的矩形框是无法与四边形物体的轮廓相重合的,即无法实现对于四边形物料的准确检测。
对此,在论文《gliding vertex on the horizontal bounding box for multi-oriented object detection》中,提出了一种可以实现对于四边形物体的准确定位的方案。其首先检测一个包含四边形物体的大的矩形方框(即检测框),然后通过在这个矩形方框的4个点构成的边上做顺时针滑动,重新确定四边形物体的四个顶点位置,从而得到物体的四边形框。
但这种方法在四边形物体倾斜超过45度时,效果不好。而当四边形物体倾斜角度特别小时,检测效果不稳定。
发明内容
本申请实施例的目的在于提供一种四边形物体检测、模型训练方法、装置、设备及存储介质,用以实现对于四边形物体的位置检测。
本申请实施例提供了一种四边形物体检测方法,包括:获取待检测图像;所述待检测图像中包含待检测的四边形物体;使用预先训练好的神经网络模型对所述待检测图像进行处理,得到包含所述四边形物体的目标检测框,以及所述目标检测框的四个顶点对应的偏移变量值;将所述目标检测框的各顶点按照各顶点对应的偏移变量值进行偏移,得到所述四边形物体的预测顶点。
在本申请实施例中,通过神经网络模型直接输出包含四边形物体的目标检测框,以及目标检测框的四个顶点对应的偏移变量值,进而将目标检测框的各顶点按照各顶点对应的偏移变量值进行偏移,得到四边形物体的预测顶点。这样得到的四边形物体的预测顶点,相对于相关技术而言,不受到目标检测框的边的限制,不限定四边形物体的顶点必然在目标检测框的边上。也即不是基于目标检测框的边来预测四边形物体顶点的偏移,而是基于目标检测框的四个顶点,来预测四边形物体顶点的偏移,使得即使在四边形物体倾斜超过45度或是四边形物体倾斜角度特别小时,检测效果也能保持准确与稳定。
进一步地,所述顶点具有x坐标值和y坐标值;所述顶点对应的偏移变量值包括:所述顶点的x坐标值对应的x轴偏移变量值,和所述顶点的y坐标值对应的y轴偏移变量值;将所述目标检测框的各顶点按照各顶点对应的偏移变量值进行偏移,得到所述四边形物体的预测顶点,包括:确定所述目标检测框的宽和高;根据所述宽,以及所述目标检测框的各顶点的x坐标值以及对应的x轴偏移变量值,确定所述四边形物体的各预测顶点的x坐标预测值;根据所述高,以及所述目标检测框的各顶点的y坐标值以及对应的y轴偏移变量值,确定所述四边形物体的各预测顶点的y坐标预测值。
进一步地,根据所述宽,以及所述目标检测框的各顶点的x坐标值以及对应的x轴偏移变量值,确定所述四边形物体的各预测顶点的x坐标预测值;以及,根据所述高,以及所述目标检测框的各顶点的y坐标值以及对应的y轴偏移变量值,确定所述四边形物体的各预测顶点的y坐标预测值,包括:
按照下述公式确定所述四边形物体的各预测顶点的x坐标预测值和y坐标预测值:
其中:
x0和y0构成一个预测顶点的坐标,x1和y1构成一个预测顶点的坐标值,x2和y2构成一个预测顶点的坐标值,x3和y3构成一个预测顶点的坐标值;
rw为所述目标检测框的宽,rh为所述目标检测框的高,xmin为所述目标检测框的各顶点中的最小x坐标值,xmax为所述目标检测框的各顶点中的最大x坐标值,ymin为所述目标检测框的各顶点中的最小y坐标值,ymax为所述目标检测框的各顶点中的最大y坐标值;
进一步地,使用预先训练好的神经网络模型对所述待检测图像进行处理,得到包含所述四边形物体的目标检测框,以及所述目标检测框的四个顶点对应的偏移变量值,包括:将所述待检测图像输入至所述神经网络模型中,得到所述待检测图像中感兴趣区域的候选检测框以及各候选检测框对应的类别得分以及偏移变量值;确定出类别得分高于预设得分阈值的所述候选检测框;所述类别得分高于预设得分阈值的所述候选检测框为所述目标检测框。
应理解,在实际检测过程中,神经网络模型得到的候选检测框可能会有多个,因此需要从这多个候选检测框中确定出实际所需的目标检测框,从而才能进一步执行本申请实施例的方案。而基于神经网络分类思想,通过神经网络模型输出各候选检测框对应的类别得分,从而可以有效实现对于目标检测框的确定。
进一步地,在确定出类别得分高于预设得分阈值的所述候选检测框之前,所述方法还包括:对所述候选检测框进行去冗余处理。
应理解的是,在实际应用过程中,神经网络模型得到的候选检测框通常数量很多,为了提高处理效率,可以先对候选检测框进行去冗余处理,从而降低候选检测框的数量,提高确定出目标检测框的效率。
本申请实施例提供了一种模型训练方法,包括:获取训练图像集;所述训练图像集中的各训练图像包含待检测的四边形物体,且标注有所述四边形物体的准确顶点;使用所述训练图像集对待训练的神经网络模型进行训练,得到各训练图像中的包含所述四边形物体的目标检测框,以及所述目标检测框的四个顶点对应的偏移变量值;将所述目标检测框的各顶点按照各顶点对应的偏移变量值进行偏移,得到所述四边形物体的预测顶点;计算所述四边形物体的预测顶点与准确顶点之间的回归损失值;根据所述回归损失值确定所述神经网络模型是否训练完毕;若未训练完毕,则更新所述神经网络模型的参数,重新进行训练,直至根据所述回归损失值确定所述神经网络模型训练完毕为止。
通过上述方式训练得到的神经网络模型,对于四边形物体的顶点的预测,是基于目标检测框的四个顶点,来预测四边形物体顶点的偏移。因此预测得到的偏移较相关技术而言偏差更小,训练时更易收敛。而使用该神经网络模型进行四边形物体的检测时,也是输出目标检测框的各顶点以及各顶点对应的偏移变量值,因此检测时也是基于目标检测框的四个顶点,来预测四边形物体顶点,使得即使在四边形物体倾斜超过45度或是四边形物体倾斜角度特别小时,检测效果也能保持准确与稳定。
进一步地,所述训练图像集中的各训练图像标注有所述四边形物体的所属类别;在得到所述四边形物体的预测顶点后,所述神经网络模型还会输出所述预测顶点构成的四边形框属于各分类类别的类别得分;所述方法还包括:基于所述四边形框属于各分类类别的类别得分,以及所述四边形框对应的四边形物体的所属类别,计算所述神经网络模型的分类损失值;根据所述回归损失值确定所述神经网络模型是否训练完毕,包括:根据所述四边形物体对应的回归损失值和分类损失值,确定所述神经网络模型的总损失值;在所述总损失值收敛时,确定所述神经网络模型训练完毕;否则,确定所述神经网络模型未训练完毕。
本申请实施例还提供了一种四边形物体检测装置,包括:第一获取模块和处理模块;所述第一获取模块,用于获取待检测图像;所述待检测图像中包含待检测的四边形物体;所述处理模块,用于使用预先训练好的神经网络模型对所述待检测图像进行处理,得到包含所述四边形物体的目标检测框,以及所述目标检测框的四个顶点对应的偏移变量值;所述处理模块,还用于将所述目标检测框的各顶点按照各顶点对应的偏移变量值进行偏移,得到所述四边形物体的预测顶点。
本申请实施例还提供了一种模型训练装置,包括:第二获取模块和训练模块;所述第二获取模块,用于获取训练图像集;所述训练图像集中的各训练图像包含待检测的四边形物体,且标注有所述四边形物体的准确顶点;所述训练模块,用于使用所述训练图像集对待训练的神经网络模型进行训练,得到各训练图像中的包含所述四边形物体的目标检测框,以及所述目标检测框的四个顶点对应的偏移变量值;所述训练模块,还用于将所述目标检测框的各顶点按照各顶点对应的偏移变量值进行偏移,得到所述四边形物体的预测顶点,并计算所述四边形物体的预测顶点与准确顶点之间的回归损失值,根据所述回归损失值确定所述神经网络模型是否训练完毕;若未训练完毕,则更新所述神经网络模型的参数,重新进行训练,直至根据所述回归损失值确定所述神经网络模型训练完毕为止。
本申请实施例还提供了一种电子设备,包括:处理器、存储器及通信总线;所述通信总线用于实现所述处理器和存储器之间的连接通信;所述处理器用于执行存储器中存储的一个或者多个程序,以实现上述任一种的四边形物体检测方法,或实现上述任一种的模型训练方法。
本申请实施例中还提供了一种可读存储介质,所述可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述任一种的四边形物体检测方法,或实现上述任一种的模型训练方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种模型训练方法的流程示意图;
图2为本申请实施例提供的一种四边形物体检测方法的流程示意图;
图3为本申请实施例提供的一种神经网络模型的结构示意图;
图4为本申请实施例提供的一种四边形物体检测装置的结构示意图;
图5为本申请实施例提供的一种模型训练装置的结构示意图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
实施例一:
本申请实施例提供了一种模型训练方法和四边形物体检测方法,该模型训练方法所训练得到的神经网络模型可用于四边形物体检测方法中实现四边形物体的位置检测。
参见图1所示,模型训练方法包括:
S101:获取训练图像集。
在本申请实施例中,工程师可以通过各种方式(比如现场拍摄、网络收集等方式)获取到包含有待检测的四边形物体的训练图像,并汇总为训练图像集。
在本申请实施例中,为了便于进行训练,可以对采集到的图像进行诸如灰度化、分辨率调整等预处理操作。
需要注意的是,在本申请实施例中,对于训练图像集中的各训练图像,工程师需要标注各训练图像中的待检测的四边形物体的准确顶点,从而便于进行损失计算。
S102:使用训练图像集对待训练的神经网络模型进行训练,得到各训练图像中的包含四边形物体的目标检测框,以及目标检测框的四个顶点对应的偏移变量值。
在本申请实施例中,可以配置神经网络模型的最后一层输出目标检测框的至少两个对角上的顶点坐标(由于检测框是水平的矩形,因此确定了对角上的两个顶点的坐标,那么4个顶点的坐标实际就全部知晓了),并配置神经网络模型的最后一层还输出8个偏移变量值,该8个偏移变量值分别表示相对于目标检测框的4个顶点的x轴和y轴的偏移。
需要理解的是,在本申请实施例中,目标检测框的每一个顶点会对应两个偏移变量值。这对应的两个偏移变量值中,一个为与目标检测框的x坐标值对应的x轴偏移变量值,另一个为与目标检测框的y坐标值对应的y轴偏移变量值,从而可以基于目标检测框的4个顶点产生四边形的4个顶点的预测坐标。
需要说明的是,在本申请实施例中,神经网络模型需采用可实现物体的检测框获取的神经网络模型,例如可以采用Faster RCNN模型、efficientdet模型等。
S103:将目标检测框的各顶点按照各顶点对应的偏移变量值进行偏移,得到四边形物体的预测顶点。
在本申请实施例中,配置的偏移变量可以是四边形物体的顶点相对于目标检测框4个顶点,在x轴方向上和y轴方向上的偏移量相对于目标检测框的宽和高的比值(可以为正,也可以为负)。
此时即有:
上式中:x0和y0构成四边形物体的一个预测顶点的坐标,x1和y1构成四边形物体的一个预测顶点的坐标值,x2和y2构成四边形物体的一个预测顶点的坐标值,x3和y3构成四边形物体的一个预测顶点的坐标值。
此外,上式中:rw为目标检测框的宽,rh为目标检测框的高,xmin为目标检测框的各顶点中的最小x坐标值,xmax为目标检测框的各顶点中的最大x坐标值,ymin为目标检测框的各顶点中的最小y坐标值,ymax为目标检测框的各顶点中的最大y坐标值;
应理解,在本申请实施例中,除了可以设置偏移变量是四边形物体的顶点相对于目标检测框4个顶点,在x轴方向上和y轴方向上的偏移量相对于目标检测框的宽和高的比值外,也可以直接设置偏移变量是四边形物体的顶点相对于目标检测框4个顶点,在x轴方向上和y轴方向上的偏移量(可以为正,也可以为负)。此时,四边形物体的预测顶点的计算公式即直接用目标检测框的x坐标或y坐标与相应的x轴偏移量或y轴偏移量相加即可。
S104:计算四边形物体的预测顶点与准确顶点之间的回归损失值。
在本申请实施例中,计算回归损失值的回归损失函数可以由工程师根据实际需要进行设定,只要满足预测顶点与准确顶点之间的偏差约定,这回归损失值就越大的原则即可。
需要理解的是,在实际应用过程中,发明人发现大量的四边形物体的顶点的偏差接近于0,而少数四边形框(即根据四边形物体的四个预测顶点得到的框)偏差较大。因此在本申请实施例的一种可行实施方式中,可以参考分类focal损失函数,加大对偏差较大的预测得到的四边形框的惩罚,损失函数如下:
式中,Xi,Yi为四边形物体的准确顶点的x坐标值和y坐标值,Lreg为回归损失值。
S105:根据回归损失值确定神经网络模型是否训练完毕。若未训练完毕,则转至步骤S106;若训练完毕,则结束。
在本申请实施例的一种可行示例中,可以通过判断回归损失值是否收敛来确定神经网络模型是否训练完毕。
需要理解的是,在一个图像中,四边形物体可能不止一个,因此对应得到的四边形框也就不止一个。因此可以综合所有的四边形框对应的回归损失值,确定神经网络模型是否训练完毕。
在本申请实施例中,神经网络模型可以采用分类模型,从而可以通过神经网络模型输出的各候选检测框的类别得分确定目标检测框。
应理解,对于分类模型而言,其会输出一个N维向量(假设总共有N个类别),该N维向量中的每一个数值即对应一个类别的类别得分。
在实际应用中,所需定位的四边形物体通常也是需要分类识别的物体。基于此,通过对各候选检测框的各类别得分来与预设得分阈值进行比较,即可有效筛选出目标检测框。而该目标检测框的类别得分即为后续确定出的该目标检测框对应的四边形框的类别得分。
应理解的是,在实际应用过程中,神经网络模型得到的候选检测框通常数量很多。为了提高处理效率,在本申请实施例中,可以先对候选检测框进行去冗余处理(比如对于所有候选检测框使用非极大抑制计算,实现去冗余处理),从而降低候选检测框的数量,提高确定出目标检测框的效率。
而为了确保神经网络模型的分类识别可靠性,需要计算神经网络模型的分类损失值。
用于计算分类损失值的分类损失函数可以由工程师根据实际需要进行设定。示例性的,对于每一个四边形框或目标检测框的分类损失函数可以为:
上式中,K为类别数(之所以总类别数为K+1,是因为对于图像不在K类以内的情况也作为了一个类别),r为幂超参数(由工程师根据实际需要设定,或通过大量实验数据得到,本申请实施例中可以取2),y表征该四边形框或目标检测框对应的四边形物体是否是这个类别,是为1,不是为0。
在本申请实施例中,可以结合分类损失值和回归损失值确定神经网络模型是否训练完毕。
示例性的,可以根据四边形物体对应的回归损失值和分类损失值,确定神经网络模型的总损失值,比如按照下式确定总损失值:
在总损失值收敛时,确定神经网络模型训练完毕;否则,确定神经网络模型未训练完毕。
S106:更新神经网络模型的参数,转至S102重新进行训练。
在神经网络模型训练完毕之后,神经网络模型即可用于进行四边形物体的位置检测。
参见图2所示,四边形物体检测方法包括:
S201:获取待检测图像。
待检测图像中包含待检测的四边形物体。
S202:使用训练好的神经网络模型对待检测图像进行处理,得到包含四边形物体的目标检测框,以及目标检测框的四个顶点对应的偏移变量值。
S203:将目标检测框的各顶点按照各顶点对应的偏移变量值进行偏移,得到四边形物体的预测顶点。
在本申请实施例中,顶点具有x坐标值和y坐标值,偏移变量值的相关介绍可参见前述训练过程的介绍。偏移变量值在不同定义下,预测顶点对应的计算不同。
示例性的,在配置的偏移变量是四边形物体的顶点相对于目标检测框4个顶点,在x轴方向上和y轴方向上的偏移量相对于目标检测框的宽和高的比值时,可以确定目标检测框的宽和高,根据宽,以及目标检测框的各顶点的x坐标值以及对应的x轴偏移变量值,确定四边形物体的各预测顶点的x坐标预测值;根据高,以及目标检测框的各顶点的y坐标值以及对应的y轴偏移变量值,确定四边形物体的各预测顶点的y坐标预测值。
此时即有:
上式中:x0和y0构成四边形物体的一个预测顶点的坐标,x1和y1构成四边形物体的一个预测顶点的坐标值,x2和y2构成四边形物体的一个预测顶点的坐标值,x3和y3构成四边形物体的一个预测顶点的坐标值。
此外,上式中:rw为目标检测框的宽,rh为目标检测框的高,xmin为目标检测框的各顶点中的最小x坐标值,xmax为目标检测框的各顶点中的最大x坐标值,ymin为目标检测框的各顶点中的最小y坐标值,ymax为目标检测框的各顶点中的最大y坐标值;
需要注意的是,在实际检测过程中,神经网络模型得到的候选检测框可能会有多个,因此需要从这多个候选检测框中确定出实际所需的目标检测框,从而才能进一步执行本申请实施例的方案。而基于神经网络分类思想,通过神经网络模型输出各候选检测框对应的类别得分,可以有效实现对于目标检测框的确定。
为此,在本申请实施例中,神经网络模型可以采用分类模型。神经网络模型在对待检测图像进行处理时,还输出各候选检测框的N维向量,N维向量中的每一个数值表征该候选检测框内的物体属于某一类别的得分。
可以将候选检测框对应的各类别得分分别与预设得分阈值进行比较(也可以直接将候选检测框对应的各类别得分中的最高类别得分与预设得分阈值进行比较),从而确定出类别得分高于预设得分阈值的候选检测框,该确定出的类别得分高于预设得分阈值的候选检测框即为目标检测框。
应理解的是,在实际应用过程中,神经网络模型得到的候选检测框通常数量很多,为了提高处理效率,在本申请实施例中,可以先对候选检测框进行去冗余处理,从而降低候选检测框的数量,进行再进行目标检测框的确定,从而提高确定出目标检测框的效率。
本申请实施例中提供的四边形物体检测方法和模型训练方法,通过神经网络模型直接输出包含四边形物体的目标检测框,以及目标检测框的四个顶点对应的偏移变量值,进而将目标检测框的各顶点按照各顶点对应的偏移变量值进行偏移,得到四边形物体的预测顶点。这样得到的四边形物体的预测顶点,相对于相关技术而言,不受到目标检测框的边的限制,不限定四边形物体的顶点必然在目标检测框的边上。也即不是基于目标检测框的边来预测四边形物体顶点的偏移,而是基于目标检测框的四个顶点,来预测四边形物体顶点的偏移,使得即使在四边形物体倾斜超过45度或是四边形物体倾斜角度特别小时,检测效果也能保持准确与稳定。
实施例二:
本实施例在实施例一的基础上,以一种具体的训练及检测过程为例,对本申请的方案进行示例说明。
参见图3所示,图3为本申请实施例提供的一种具体的神经网络模型的结构。
图3中,使用Faster RCNN作为检测框架,并在最后一层输出目标检测框的左上角顶点和右下角定点的坐标,得到四个坐标值xmin、xmax、ymin、ymax。
式中,rw=xmax-xmin,rh=ymax-ymin。
接着,使用四边形物体的4个顶点坐标的真实值,计算与预测值之间的偏差,计算网络损失。
网络损失函数:
每个anchor(四边形框)类别损失函数如下,其中K为类别数,r为幂超参数,本项目中取2,y表征是否是这个类别,是为1,不是为0:
每个anchor的回归损失函数如下,其中Xi,Yi为对应四边形物体的真实坐标值:
对于所有anchor,网络总体损失函数如下:
检测阶段,处理过程如下:
1.将待检测图像作为神经网络模型的输入,前向传递,计算得到Faster RCNN中RPN(Region Proposal Network,区域候选网络)的每个ROI(region of interest,感兴趣区域)的类别,候选检测框,候选检测框的左上角顶点和右下角定点的坐标,以及对应的8个偏移变量值。
2.对于所有ROI计算的结果,使用NMS(non maximum suppression,非极大抑制)进行计算,初步得到稀疏的候选检测框。然后再根据保留的各候选检测框的类别得分,通过阈值过滤,得到目标检测框。
3.对每个目标检测框,根据目标检测框的顶点坐标,和对应的8个偏移变量值,按照前文的计算公式计算得到四边形物体的四个顶点坐标。
实施例三:
基于同一发明构思,本申请实施例中还提供了一种应用于电子设备上的四边形物体检测装置和模型训练装置。请参阅图4和图5所示,图4示出了与实施例一所示的四边形物体检测方法对应的四边形物体检测装置100,图5示出了与实施例一所示的模型训练方法对应的模型训练装置200。应理解,四边形物体检测装置100和模型训练装置200具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。四边形物体检测装置100和模型训练装置200包括至少一个能以软件或固件的形式存储于存储器中或固化在四边形物体检测装置100和模型训练装置200的操作系统中的软件功能模块。具体地:
参见图4所示,四边形物体检测装置100包括:第一获取模块101和处理模块102。其中:
所述第一获取模块101,用于获取待检测图像;所述待检测图像中包含待检测的四边形物体;
所述处理模块102,用于使用预先训练好的神经网络模型对所述待检测图像进行处理,得到包含所述四边形物体的目标检测框,以及所述目标检测框的四个顶点对应的偏移变量值;
所述处理模块102,还用于将所述目标检测框的各顶点按照各顶点对应的偏移变量值进行偏移,得到所述四边形物体的预测顶点。
在本申请实施例中,所述顶点具有x坐标值和y坐标值;所述顶点对应的偏移变量值包括:所述顶点的x坐标值对应的x轴偏移变量值,和所述顶点的y坐标值对应的y轴偏移变量值;所述处理模块102具体用于,确定所述目标检测框的宽和高;根据所述宽,以及所述目标检测框的各顶点的x坐标值以及对应的x轴偏移变量值,确定所述四边形物体的各预测顶点的x坐标预测值;根据所述高,以及所述目标检测框的各顶点的y坐标值以及对应的y轴偏移变量值,确定所述四边形物体的各预测顶点的y坐标预测值。
在本申请实施例的一种可行实施方式中,所述处理模块102具体用于,按照下述公式确定所述四边形物体的各预测顶点的x坐标预测值和y坐标预测值:
其中:
x0和y0构成一个预测顶点的坐标,x1和y1构成一个预测顶点的坐标值,x2和y2构成一个预测顶点的坐标值,x3和y3构成一个预测顶点的坐标值;
rw为所述目标检测框的宽,rh为所述目标检测框的高,xmin为所述目标检测框的各顶点中的最小x坐标值,xmax为所述目标检测框的各顶点中的最大x坐标值,ymin为所述目标检测框的各顶点中的最小y坐标值,ymax为所述目标检测框的各顶点中的最大y坐标值;
在本申请实施例的一种可行实施方式中,所述处理模块102具体用于,将所述待检测图像输入至所述神经网络模型中,得到所述待检测图像中感兴趣区域的候选检测框以及各候选检测框对应的类别得分以及偏移变量值;确定出类别得分高于预设得分阈值的所述候选检测框;所述类别得分高于预设得分阈值的所述候选检测框为所述目标检测框。
在上述可行实施方式中,所述处理模块102还用于,在确定出类别得分高于预设得分阈值的所述候选检测框之前,对所述候选检测框进行去冗余处理。
参见图5所示,模型训练装置200包括:第二获取模块201和训练模块202。其中:
所述第二获取模块201,用于获取训练图像集;所述训练图像集中的各训练图像包含待检测的四边形物体,且标注有所述四边形物体的准确顶点;
所述训练模块202,用于使用所述训练图像集对待训练的神经网络模型进行训练,得到各训练图像中的包含所述四边形物体的目标检测框,以及所述目标检测框的四个顶点对应的偏移变量值;
所述训练模块202,还用于将所述目标检测框的各顶点按照各顶点对应的偏移变量值进行偏移,得到所述四边形物体的预测顶点,并计算所述四边形物体的预测顶点与准确顶点之间的回归损失值,根据所述回归损失值确定所述神经网络模型是否训练完毕;若未训练完毕,则更新所述神经网络模型的参数,重新进行训练,直至根据所述回归损失值确定所述神经网络模型训练完毕为止。
在本申请实施例中,所述训练图像集中的各训练图像标注有所述四边形物体的所属类别;
所述训练模块202,还用于在得到所述四边形物体的预测顶点后,输出所述预测顶点构成的四边形框属于各分类类别的类别得分;
所述训练模块202,还用于基于所述四边形框属于各分类类别的类别得分,以及所述四边形框对应的四边形物体的所属类别,计算所述神经网络模型的分类损失值。
而根据所述回归损失值确定所述神经网络模型是否训练完毕,包括:根据所述四边形物体对应的回归损失值和分类损失值,确定所述神经网络模型的总损失值;在所述总损失值收敛时,确定所述神经网络模型训练完毕;否则,确定所述神经网络模型未训练完毕。
需要理解的是,出于描述简洁的考量,部分实施例一中描述过的内容在本实施例中不再赘述。
实施例四:
本实施例提供了一种电子设备,可以参见图6所示,其包括处理器601、存储器602、通信总线603。其中:
通信总线603用于实现处理器601、存储器6023之间的连接通信。
处理器601用于执行存储器602中存储的一个或多个程序,以实现上述实施例一/二中的四边形物体检测方法或模型训练方法。
可以理解,图6所示的结构仅为示意,电子设备还可包括比图6中所示更多或者更少的组件,或者具有与图6所示不同的配置,例如还可以具有输入/输出端口、显示屏等部件。
本实施例还提供了一种可读存储介质,如软盘、光盘、硬盘、闪存、U盘、SD(SecureDigital Memory Card,安全数码卡)卡、MMC(Multimedia Card,多媒体卡)卡等,在该可读存储介质中存储有实现上述各个步骤的一个或者多个程序,这一个或者多个程序可被一个或者多个处理器执行,以实现上述实施例一/二中的四边形物体检测方法或模型训练方法。在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
在本文中,多个是指两个或两个以上。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (11)
1.一种四边形物体检测方法,其特征在于,包括:
获取待检测图像;所述待检测图像中包含待检测的四边形物体;
使用预先训练好的神经网络模型对所述待检测图像进行处理,得到包含所述四边形物体的目标检测框,以及所述目标检测框的四个顶点对应的偏移变量值;
将所述目标检测框的各顶点按照各顶点对应的偏移变量值进行偏移,得到所述四边形物体的预测顶点。
2.如权利要求1所述的四边形物体检测方法,其特征在于,所述顶点具有x坐标值和y坐标值;所述顶点对应的偏移变量值包括:所述顶点的x坐标值对应的x轴偏移变量值,和所述顶点的y坐标值对应的y轴偏移变量值;
将所述目标检测框的各顶点按照各顶点对应的偏移变量值进行偏移,得到所述四边形物体的预测顶点,包括:
确定所述目标检测框的宽和高;
根据所述宽,以及所述目标检测框的各顶点的x坐标值以及对应的x轴偏移变量值,确定所述四边形物体的各预测顶点的x坐标预测值;
根据所述高,以及所述目标检测框的各顶点的y坐标值以及对应的y轴偏移变量值,确定所述四边形物体的各预测顶点的y坐标预测值。
3.如权利要求2所述的四边形物体检测方法,其特征在于,根据所述宽,以及所述目标检测框的各顶点的x坐标值以及对应的x轴偏移变量值,确定所述四边形物体的各预测顶点的x坐标预测值;以及,根据所述高,以及所述目标检测框的各顶点的y坐标值以及对应的y轴偏移变量值,确定所述四边形物体的各预测顶点的y坐标预测值,包括:
按照下述公式确定所述四边形物体的各预测顶点的x坐标预测值和y坐标预测值:
其中:
x0和y0构成一个预测顶点的坐标,x1和y1构成一个预测顶点的坐标值,x2和y2构成一个预测顶点的坐标值,x3和y3构成一个预测顶点的坐标值;
rw为所述目标检测框的宽,rh为所述目标检测框的高,xmin为所述目标检测框的各顶点中的最小x坐标值,xmax为所述目标检测框的各顶点中的最大x坐标值,ymin为所述目标检测框的各顶点中的最小y坐标值,ymax为所述目标检测框的各顶点中的最大y坐标值;
4.如权利要求1至3任一项所述的四边形物体检测方法,其特征在于,使用预先训练好的神经网络模型对所述待检测图像进行处理,得到包含所述四边形物体的目标检测框,以及所述目标检测框的四个顶点对应的偏移变量值,包括:
将所述待检测图像输入至所述神经网络模型中,得到所述待检测图像中感兴趣区域的候选检测框以及各候选检测框对应的类别得分以及偏移变量值;
确定出类别得分高于预设得分阈值的所述候选检测框;所述类别得分高于预设得分阈值的所述候选检测框为所述目标检测框。
5.如权利要求4所述的四边形物体检测方法,其特征在于,在确定出类别得分高于预设得分阈值的所述候选检测框之前,所述方法还包括:
对所述候选检测框进行去冗余处理。
6.一种模型训练方法,其特征在于,包括:
获取训练图像集;所述训练图像集中的各训练图像包含待检测的四边形物体,且标注有所述四边形物体的准确顶点;
使用所述训练图像集对待训练的神经网络模型进行训练,得到各训练图像中的包含所述四边形物体的目标检测框,以及所述目标检测框的四个顶点对应的偏移变量值;
将所述目标检测框的各顶点按照各顶点对应的偏移变量值进行偏移,得到所述四边形物体的预测顶点;
计算所述四边形物体的预测顶点与准确顶点之间的回归损失值;
根据所述回归损失值确定所述神经网络模型是否训练完毕;
若未训练完毕,则更新所述神经网络模型的参数,重新进行训练,直至根据所述回归损失值确定所述神经网络模型训练完毕为止。
7.如权利要求6所述的模型训练方法,其特征在于,所述训练图像集中的各训练图像标注有所述四边形物体的所属类别;
在得到所述四边形物体的预测顶点后,所述神经网络模型还会输出所述预测顶点构成的四边形框属于各分类类别的类别得分;
所述方法还包括:
基于所述四边形框属于各分类类别的类别得分,以及所述四边形框对应的四边形物体的所属类别,计算所述神经网络模型的分类损失值;
根据所述回归损失值确定所述神经网络模型是否训练完毕,包括:
根据所述四边形物体对应的回归损失值和分类损失值,确定所述神经网络模型的总损失值;
在所述总损失值收敛时,确定所述神经网络模型训练完毕;否则,确定所述神经网络模型未训练完毕。
8.一种四边形物体检测装置,其特征在于,包括:第一获取模块和处理模块;
所述第一获取模块,用于获取待检测图像;所述待检测图像中包含待检测的四边形物体;
所述处理模块,用于使用预先训练好的神经网络模型对所述待检测图像进行处理,得到包含所述四边形物体的目标检测框,以及所述目标检测框的四个顶点对应的偏移变量值;
所述处理模块,还用于将所述目标检测框的各顶点按照各顶点对应的偏移变量值进行偏移,得到所述四边形物体的预测顶点。
9.一种模型训练装置,其特征在于,包括:第二获取模块和训练模块;
所述第二获取模块,用于获取训练图像集;所述训练图像集中的各训练图像包含待检测的四边形物体,且标注有所述四边形物体的准确顶点;
所述训练模块,用于使用所述训练图像集对待训练的神经网络模型进行训练,得到各训练图像中的包含所述四边形物体的目标检测框,以及所述目标检测框的四个顶点对应的偏移变量值;
所述训练模块,还用于将所述目标检测框的各顶点按照各顶点对应的偏移变量值进行偏移,得到所述四边形物体的预测顶点,并计算所述四边形物体的预测顶点与准确顶点之间的回归损失值,根据所述回归损失值确定所述神经网络模型是否训练完毕;若未训练完毕,则更新所述神经网络模型的参数,重新进行训练,直至根据所述回归损失值确定所述神经网络模型训练完毕为止。
10.一种电子设备,其特征在于,包括:处理器、存储器及通信总线;
所述通信总线用于实现所述处理器和存储器之间的连接通信;
所述处理器用于执行存储器中存储的一个或者多个程序,以实现如权利要求1至5任一项所述的四边形物体检测方法,或实现如权利要求6至7任一项所述的模型训练方法。
11.一种可读存储介质,其特征在于,所述可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至5任一项所述的四边形物体检测方法,或实现如权利要求6至7任一项所述的模型训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011012425.6A CN112183529A (zh) | 2020-09-23 | 2020-09-23 | 四边形物体检测、模型训练方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011012425.6A CN112183529A (zh) | 2020-09-23 | 2020-09-23 | 四边形物体检测、模型训练方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112183529A true CN112183529A (zh) | 2021-01-05 |
Family
ID=73957096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011012425.6A Pending CN112183529A (zh) | 2020-09-23 | 2020-09-23 | 四边形物体检测、模型训练方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112183529A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114119733A (zh) * | 2022-01-27 | 2022-03-01 | 成都合能创越软件有限公司 | 物体空间位置检测方法、装置、计算机设备及其存储介质 |
WO2022170554A1 (zh) * | 2021-02-10 | 2022-08-18 | Oppo广东移动通信有限公司 | 图像显示方法、终端、芯片及存储介质 |
WO2022266996A1 (zh) * | 2021-06-25 | 2022-12-29 | 烟台创迹软件有限公司 | 物体检知方法及物体检知装置 |
CN117274205A (zh) * | 2023-09-27 | 2023-12-22 | 深圳市六六六国际旅行社有限公司 | 一种基于新型数据标注与数据增强的四边形检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107833209A (zh) * | 2017-10-27 | 2018-03-23 | 浙江大华技术股份有限公司 | 一种x光图像检测方法、装置、电子设备及存储介质 |
CN109858569A (zh) * | 2019-03-07 | 2019-06-07 | 中国科学院自动化研究所 | 基于目标检测网络的多标签物体检测方法、系统、装置 |
CN110674802A (zh) * | 2019-09-09 | 2020-01-10 | 电子科技大学 | 一种改进的平行四边形候选框的文本检测方法 |
CN110807459A (zh) * | 2019-10-31 | 2020-02-18 | 深圳市捷顺科技实业股份有限公司 | 车牌矫正方法、装置以及可读存储介质 |
CN111241947A (zh) * | 2019-12-31 | 2020-06-05 | 深圳奇迹智慧网络有限公司 | 目标检测模型的训练方法、装置、存储介质和计算机设备 |
-
2020
- 2020-09-23 CN CN202011012425.6A patent/CN112183529A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107833209A (zh) * | 2017-10-27 | 2018-03-23 | 浙江大华技术股份有限公司 | 一种x光图像检测方法、装置、电子设备及存储介质 |
CN109858569A (zh) * | 2019-03-07 | 2019-06-07 | 中国科学院自动化研究所 | 基于目标检测网络的多标签物体检测方法、系统、装置 |
CN110674802A (zh) * | 2019-09-09 | 2020-01-10 | 电子科技大学 | 一种改进的平行四边形候选框的文本检测方法 |
CN110807459A (zh) * | 2019-10-31 | 2020-02-18 | 深圳市捷顺科技实业股份有限公司 | 车牌矫正方法、装置以及可读存储介质 |
CN111241947A (zh) * | 2019-12-31 | 2020-06-05 | 深圳奇迹智慧网络有限公司 | 目标检测模型的训练方法、装置、存储介质和计算机设备 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022170554A1 (zh) * | 2021-02-10 | 2022-08-18 | Oppo广东移动通信有限公司 | 图像显示方法、终端、芯片及存储介质 |
WO2022266996A1 (zh) * | 2021-06-25 | 2022-12-29 | 烟台创迹软件有限公司 | 物体检知方法及物体检知装置 |
CN114119733A (zh) * | 2022-01-27 | 2022-03-01 | 成都合能创越软件有限公司 | 物体空间位置检测方法、装置、计算机设备及其存储介质 |
CN117274205A (zh) * | 2023-09-27 | 2023-12-22 | 深圳市六六六国际旅行社有限公司 | 一种基于新型数据标注与数据增强的四边形检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | Disp r-cnn: Stereo 3d object detection via shape prior guided instance disparity estimation | |
CN112183529A (zh) | 四边形物体检测、模型训练方法、装置、设备及存储介质 | |
US10880541B2 (en) | Stereo correspondence and depth sensors | |
US9135710B2 (en) | Depth map stereo correspondence techniques | |
US8520981B2 (en) | Document retrieval of feature point groups using a geometrical transformation | |
WO2021072696A1 (zh) | 目标检测与跟踪方法、系统、可移动平台、相机及介质 | |
CN108875723B (zh) | 对象检测方法、装置和系统及存储介质 | |
CN106952338B (zh) | 基于深度学习的三维重建的方法、系统及可读存储介质 | |
US10169673B2 (en) | Region-of-interest detection apparatus, region-of-interest detection method, and recording medium | |
EP3772037A1 (en) | Image processing apparatus, method of tracking a target object, and program | |
CN103428511A (zh) | 图案处理装置和图案处理方法 | |
US20240029448A1 (en) | Parking space detection method, apparatus, device and storage medium | |
CN111915657A (zh) | 一种点云配准方法、装置、电子设备及存储介质 | |
CN111598088A (zh) | 目标检测方法、装置、计算机设备及可读存储介质 | |
US10089764B2 (en) | Variable patch shape synthesis | |
CN111260675A (zh) | 一种图像真实边界高精度提取方法及系统 | |
US10853657B2 (en) | Object region identifying apparatus, object region identifying method, and computer program product | |
CN112101139B (zh) | 人形检测方法、装置、设备及存储介质 | |
CN115223173A (zh) | 对象识别方法、装置、电子设备及存储介质 | |
CN114550062A (zh) | 图像中运动对象的确定方法、装置、电子设备和存储介质 | |
CN112581500A (zh) | 用于在目标跟踪中匹配行人和人脸的方法和装置 | |
US11227166B2 (en) | Method and device for evaluating images, operating assistance method, and operating device | |
CN116681884B (zh) | 一种对象检测方法和相关装置 | |
US11941820B1 (en) | Method for tracking an object in a low frame-rate video and object tracking device using the same | |
CN114694137B (zh) | 图像检测方法,三维成像方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |