CN109214389B - 一种目标识别方法、计算机装置及可读存储介质 - Google Patents

一种目标识别方法、计算机装置及可读存储介质 Download PDF

Info

Publication number
CN109214389B
CN109214389B CN201811104977.2A CN201811104977A CN109214389B CN 109214389 B CN109214389 B CN 109214389B CN 201811104977 A CN201811104977 A CN 201811104977A CN 109214389 B CN109214389 B CN 109214389B
Authority
CN
China
Prior art keywords
boundary
bounding box
confidence
confidence coefficient
box
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811104977.2A
Other languages
English (en)
Other versions
CN109214389A (zh
Inventor
周鸿�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Weimeng Enterprise Development Co.,Ltd.
Original Assignee
Shanghai Xiaomeng Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xiaomeng Technology Co ltd filed Critical Shanghai Xiaomeng Technology Co ltd
Priority to CN201811104977.2A priority Critical patent/CN109214389B/zh
Publication of CN109214389A publication Critical patent/CN109214389A/zh
Application granted granted Critical
Publication of CN109214389B publication Critical patent/CN109214389B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/247Aligning, centring, orientation detection or correction of the image by affine transforms, e.g. correction due to perspective effects; Quadrilaterals, e.g. trapezoids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明适用于计算机视觉领域,提供了一种目标识别方法、计算机装置及可读存储介质,该方法包括:获取目标物体的原始检测图片,确定所述原始检测图片的边界框;对所述边界框的四个顶点坐标进行反畸变矫正,获得与所述四个顶点坐标相对应的修正坐标;根据所述修正坐标计算所述边界框的置信度,并修正得到修正后的边界框置信度;输出置信度最高的边界框,完成目标识别。实施本发明,通过反畸变矫正可有效地降低目标物体的漏检率,尤其是可有效的降低处于角落处的目标物体的漏检率,而且还通过修正计算,获得修正后的边界框置信度,有效地消除伪边界框,从而提高目标物体识别的准确率。

Description

一种目标识别方法、计算机装置及可读存储介质
技术领域
本发明属于计算机视觉领域,尤其涉及一种目标识别方法、计算机装置及可读存储介质。
背景技术
目标检测(Object Detection)是计算机视觉领域的基本任务之一,而目标检测的最终结果是以边界框(boudingbox,下文简称Bbox)的方式给出检出物体的具体信息(x,y,w,h):中心点坐标和宽高。
现有非极大值抑制(NMS)算法通过计算Bbox之间的交并比(交集除以并集,下文简称IOU),剔除IOU值较大(大于阈值的剔除,小于的保留)的Bbox,保留置信度最高的Bbox。这样的方法本质是调节参数,特别在鱼眼镜头情况下在角落处的邻近框由于畸变影响,使得真实的两个Bbox的IOU也很高从而出现漏检如图1所示,很难保证通过调节阈值既能消除错误的Bbox,又能将正确的Bbox都保留下来,同时也不能保证消除伪框(同一个物体出现多个边界框,一般将除了最能表征该物体的边界框之外的其他边界框均称为伪框。如图2所示)。
另外,现有的软非极大值抑制(SoftNMS)算法,用高斯权重代替NMS非0即1的阶跃函数,但调节高斯分布会改变对应NMS的阈值,也难以消除伪框。
由此可见,采用现有的NMS或者SoftNMS算法进行目标物体识别仍然存在对目标物体的漏检、以及难以消除伪框,从而导致目标物体识别的准确率不高的问题。
发明内容
本发明实施例提供一种目标识别方法,旨在解决现有的NMS或者SoftNMS算法进行目标物体识别仍然存在对目标物体的漏检、以及难以消除伪框,从而导致目标物体识别的准确率不高的问题。
本发明实施例是这样实现的,一种目标识别方法,包括如下步骤:
获取目标物体的原始检测图片,确定所述原始检测图片的边界框;
对所述边界框的四个顶点坐标进行反畸变矫正,获得与所述四个顶点坐标相对应的修正坐标;
根据所述修正坐标计算边界框的置信度,并修正得到修正后的边界框置信度;
输出置信度最高的边界框,完成目标识别。
本发明实施例还提供一种计算机装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述方法的各步骤。
本发明实施例还提供一种计算机可读存储介质,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述方法的各步骤。
本发明实施例提供的目标物体识别方法,通过反畸变矫正可有效地降低目标物体的漏检率,尤其是可有效的降低处于角落处的目标物体的漏检率,而且还通过修正计算,获得修正后的边界框置信度,有效地消除伪边界框,从而提高目标物体识别的准确率。
附图说明
图1是现有技术提供的角落处的目标物体出现漏检情况的示意图;
图2是现有技术提供的伪框实验示意图(左起第2排的中间横跨两个咸蛋黄饼的边界框为伪框);
图3是本发明实施例一提供的目标识别方法的实现流程图;
图4是本发明实施例二提供的目标识别方法的实现流程图;
图5是本发明实施例提供的反畸变矫正前后的边界框示意图;
图6是本发明实施例三提供的目标识别方法的实现流程图;
图7是本发明实施例四提供的目标识别方法的实现流程图;
图8是本发明实施例提供的调节逻辑回归函数曲线的陡峭程度的效果图;
图9是本发明实施例提供的调节逻辑回归函数曲线的阈值的效果图;
图10是本发明实施例五提供的目标识别方法的实现流程图;
图11是本发明实施例提供的一种目标识别装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和 / 或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一边界框称为第二边界框,且类似地,可将第二边界框称为第一边界框。
本发明实施例提供的目标物体识别方法,通过反畸变矫正可有效地降低目标物体的漏检率,尤其是可有效的降低处于角落处的目标物体的漏检率,而且还通过修正计算,获得修正后的边界框置信度,有效地消除伪边界框,从而提高目标物体识别的准确率。
图3示出了本发明实施例一提供的目标识别方法的实现流程,详述如下:
本发明实施例提供的目标识别方法,包括如下步骤:
在步骤S101中,获取目标物体的原始检测图片,确定原始检测图片的边界框。
在本发明实施例中,目标物体可以指存放在冰柜、冰箱、自动售卖机等商品销售柜中的饮料、食品、保健品等。
在本发明实施例中,确定原始检测图片的边界框,具体是指确定每个被检测的目标物体的框选区域,一般来说,一个框选区域中有一个目标物体。通过确定原始检测图片的边界框可以基本确定当前具有多少数量的目标物体。
在步骤S102中,对边界框的四个顶点坐标进行反畸变矫正,获得与四个顶点坐标相对应的修正坐标。
在本发明实施例中,每个边界框可以为正方形或长方形,因此,每个边界框具有四个顶点,例如,将某个边界框的四个顶点的原始坐标记录为(x1,y1),(x2,y2),(x3,y3)和(x4,y4)。分别对上述的四个顶点原始坐标进行反畸变矫正,获得与该四个顶点原始坐标相对应的修正坐标(x1*,y1*),(x2*,y2*),(x3*,y3*)和(x4*,y4*)。
在步骤S103中,根据修正坐标计算边界框的置信度,并修正得到修正后的边界框置信度。
在本发明实施例中,根据上述的修正坐标(x1*,y1*),(x2*,y2*),(x3*,y3*)和(x4*,y4*)计算该边界框的面积,并根据该边界框的面积重新计算确定其置信度。
在本发明实施例中,鉴于经验和直觉上的认知,一般地,真正的伪框往往其置信度在前期神经网络的输出值比真正的Bbox(即边界框)置信度值偏低(与其邻近的真正的Bbox相比),因此,需要对重新计算确定的边界框置信度进行修正,以进一步消除伪框,提高检测的准确度。
在步骤S104中,输出置信度最高的边界框,完成目标识别。
在本发明实施例中,将重新计算确定的边界框置信度按照置信度从小到大(或者从大到小)的规则进行排序,并输出其中置信度最高的边界框,完成目标识别。
本发明实施例提供的目标物体识别方法,通过反畸变矫正可有效地降低目标物体的漏检率,尤其是可有效的降低处于角落处的目标物体的漏检率,而且还通过修正计算,获得修正后的边界框置信度,有效地消除伪边界框,从而提高目标物体识别的准确率。
在本发明实施例中,上述步骤S101具体包括:获取通过鱼眼摄像装置摄取目标物体的原始检测图片。
具体的,鱼眼摄像装置包括鱼眼摄像头等。通过鱼眼摄像装置摄取置于冰柜、冰箱等中的商品的图像。鱼眼摄像头具有拍摄范围广、拍摄视角广等优点,通常用于全景监控冰箱或冰柜等中的商品的数量及种类,以便于销售的结算。
图4示出了本发明实施例二提供的目标识别方法的实现流程,详述如下:
本实施例与实施例一基本相同,其不同之处在于:将上述步骤S102替换为步骤S201。
在步骤S201中,基于反畸变函数对边界框的四个顶点坐标进行反畸变矫正,获得与四个顶点坐标相对应的修正坐标。
在本发明实施例中,假设某边界框的四个顶点原始坐标分别为A(x1,y1),B(x2,y2),C(x3,y3)和D(x4,y4),那么将A、B、C、D四个原始坐标分别代入反畸变函数f(x)和f(y)中,得到修正后的A’(x1*,y1*),B’(x2*,y2*),C’(x3*,y3*)和D’(x4*,y4*)。其中反畸变矫正前后的示意图如图5所示,其中,A距离鱼眼中心点较近,D距离鱼眼中心点较远。
反畸变函数f是通过测量鱼眼镜头的畸变参数获得,属于鱼眼镜头内参标定的范畴(属于现有技术),在此不做赘述。
在本发明实施例中,通过对边界框的原始坐标进行反畸变矫正,可以将畸变的坐标修正过来,可有效降低目标识别的漏检率,即使得正确的邻近的Bbox的交并比值减小。
图6示出了本发明实施例三提供的目标识别方法的实现流程,详述如下:
本实施例与实施例一基本相同,其不同之处在于:将上述步骤S102替换为步骤S301。
在步骤S301中,基于修正函数对边界框的四个顶点坐标进行反畸变矫正,获得与四个顶点坐标相对应的修正坐标。
在本发明实施例中,假设某边界框的四个顶点原始坐标分别为A(x1,y1),B(x2,y2),C(x3,y3)和D(x4,y4),那么将A、B、C、D四个原始坐标分别代入修正函数α(x)和α(y)中,分别得到修正后的A’(x1’,y1’),B’(x2’,y2’),C’(x3’,y3’)和D’(x4’,y4’)。α为修正参数,跟边界框的当前坐标值相关。
图7示出了本发明实施例四提供的目标识别方法的实现流程,为了便于说明,图中仅示出了本实施例与实施例一的不同之处,详述如下:
本实施例与实施例一基本相同,其不同之处在于:上述步骤S103包括步骤S401、步骤S402、步骤S403以及步骤S404,上述步骤S104中包括步骤S405。
在步骤S401中,计算并获得同一类目标物体的所有边界框的置信度,并将置信度最高的边界框确定为第一边界框,将其他置信度的边界框确定为第二边界框。
在本发明实施例中,在冰柜、冰箱或其他商品售卖机中存放售卖的商品通常会有很多种类。计算并获得同一类目标物体的所有边界框的置信度,具体而言,采用NMS算法中的硬阈值的方法计算同一类目标物体的每个边界框的交并比值(即IOU,两两边界框之间的交集与并集的比值),当IOU小于某个阈值(一般为0~1之间的某值)时,该边界框的置信度(即gain)仍为其自身的值(即gain为1,不被抑制),当IOU大于该阈值时,则该边界框的置信度设置为0(即gain为0,完全抑制)。此时,NMS的调制曲线为阶跃函数。
进一步的,将NMS的阶跃函数换为Gaussian函数,即将其转换成高斯函数,取代传统的置信度非0即1的情况,从而降低对NMS的安全性的要求,以便于后续对边界框的置信度进行微调,进而提高目标识别的准确度。
在本发明实施例中,第一边界框通常是为一个边界框,或者置信度相同的至少两个边界框;同理,第二边界框也可以为一个边界框或者至少两个边界框(其中各边界框的置信度可相同或者不同)。
在步骤S402中,按照预设的规则计算所述第二边界框与所述第一边界框的交并比。
在本发明实施例中,为了进一步调整每个边界框的置信度,确保能够保留最能表征目标物体的边界框,剔除伪框,可将上述得到的NMS曲线进行调制。并先根据修正坐标计算出第一边界框和第二边界框的面积,再根据交集和并集的计算公式计算出第一边界框和第二边界框的交并比值。
在步骤S403中,当判定所述交并比为0时,则确定所述第二边界框的置信度为1,否则,通过所述逻辑回归函数计算得到所述第二边界框的置信度。
在本发明实施例中,当判断第一边界框和第二边界框的交并比不为0时,可以通过下述逻辑回归函数对上述NMS曲线进行调制,并得到第二边界框的置信度:
Figure 869529DEST_PATH_IMAGE001
其中,nms_th相当于上述阶跃函数的硬阈值,t相当于IOU,r0用于调节曲线的陡峭程度,K和P0用于调节曲线高度。优选的,限制曲线的高度在0~1之间。
结合图8和图9,图8展示了nms_th不变,只调节r0的曲线调制效果图,图9展示了r0不变,只调节nsm_th的曲线调制效果图,从图8和图9的调制效果可以看出,本发明的逻辑回归函数相较于传统的NMS算法在调制曲线上具有更高、更好的灵活性,可满足不同的调节需求。
在步骤S404中,对所述第二边界框的置信度进行修正,得到修正后的第二边界框置信度。
进一步的,鉴于经验和直觉上的认知,发明人在研究实践时发现,真正的伪框往往其置信度在前期神经网络的输出值比真正的Bbox值偏低(与其邻近的真正的Bbox相比),因此,提出了在逻辑回归函数计算第二边界框的置信度的基础上,补充了修正值,当被抑制的Bbox置信度本身较大时,修正值也比较大(从而其置信度更接近1),本身较小时,修正值较小,更接近于逻辑回归函数的计算值。
在本发明的一个实施例中,可采用下述方式对第二边界框的置信度进行修正,获得修正后的第二边界框的置信度:
Figure 488729DEST_PATH_IMAGE002
Figure 552500DEST_PATH_IMAGE003
;其中,gain是上面逻辑回归函数计算得到的置信度,gain_fine是对gain的调整,prob是该Bbox的置信度,miu是参考均值,sigma调整修正曲线的幅度。
在步骤S405中,根据所述第一边界框和所述第二边界框的置信度的比较结果,输出置信度最高的边界框,完成目标物体的识别。
图10示出了本发明实施例五提供的目标识别方法的实现流程,为了便于说明,图中仅示出了其与实施例一的不同之处,详述如下:
本实施例与实施例一基本相同,其不同之处在于,上述步骤S103包括步骤S501、步骤S502和步骤S503,上述步骤S104包括步骤S504。
在步骤S501中,计算并获得不同种类目标物体的所有边界框的置信度,并将置信度最高的边界框确定为第三边界框,将其他置信度的边界框确定为第四边界框。
在本发明实施例中,计算并获得不同种类目标物体的所有边界框的置信度,具体的计算方法可参见上述实施例四,在此不再赘述。
在步骤S502中,按照预设的规则计算所述第三边界框与所述第四边界框的交并比。
在本发明实施例中,按照预设的规则计算所述第三边界框与所述第四边界框的交并比可以参照上述实施例四的计算方式,在此不做赘述。
在步骤S503中,当判定所述交并比大于预设的阈值时,则将所述第四边界框的置信度设置为0,否则保持所述第四边界框的置信度不变。
在本发明实施例中,预设的阈值一般为0~1之间的某点值。
在步骤S504中,根据所述第三边界框与所述第四边界框的置信度比较结果,输出置信度最高的边界框,完成目标物体的识别。
本发明实施例的目标识别方法简单,尤其适用于对同一位置处确定不会出现多个不同类物体聚焦的情况。
为了更好地说明本发明各实施例的技术效果,下面通过具体的实验例进行详细说明:
一、实验对象:某冰柜中的商品,包括饼干、饮料和干果三个种类的产品。
二、实验方法:将通过鱼眼摄像头获取的饼干、饮料和干果的原始检测图片分别采用传统的NMS算法进行目标识别处理和采用本发明实施例一至五提供的目标识别方法进行识别处理,然后记录并比较两种处理方式对于处于角落目标物体的漏检率和伪框的消除效果。
三、实验效果:与传统的NMS算法识别目标物体相比,本发明实施例一至五所提供的目标识别方法对于处于角落的目标物体的漏检率降低,伪框的消除率提高了,且没有引起其他的误检情况。
图11示出了本发明实施例提供的一种目标识别装置的结构,为了便于说明,图中仅示出了与本实施例相关的部分,详述如下:
本发明实施例提供的目标识别装置,包括:确定单元61、修正坐标获得单元62、置信度修正单元63以及输出单元64。
确定单元61,用于获取目标物体的原始检测图片,确定原始检测图片的边界框。
在本发明实施例中,目标物体可以指存放在冰柜、冰箱、自动售卖机等商品销售柜中的饮料、食品、保健品等。
在本发明实施例中,确定原始检测图片的边界框,具体是指确定每个被检测的目标物体的框选区域,一般来说,一个框选区域中有一个目标物体。通过确定原始检测图片的边界框可以基本确定当前具有多少数量的目标物体。
修正坐标获得单元62,用于对边界框的四个顶点坐标进行反畸变矫正,获得与四个顶点坐标相对应的修正坐标。
在本发明实施例中,每个边界框可以为正方形或长方形,因此,每个边界框具有四个顶点,例如,将某个边界框的四个顶点的原始坐标记录为(x1,y1),(x2,y2),(x3,y3)和(x4,y4)。修正坐标获得单元62分别对上述的四个顶点原始坐标进行反畸变矫正,获得与该四个顶点原始坐标相对应的修正坐标(x1*,y1*),(x2*,y2*),(x3*,y3*)和(x4*,y4*)。
置信度修正单元63,用于根据修正坐标计算边界框的置信度,并修正得到修正后的边界框置信度。
在本发明实施例中,置信度修正单元63根据上述的修正坐标(x1*,y1*),(x2*,y2*),(x3*,y3*)和(x4*,y4*)计算该边界框的面积,并根据该边界框的面积重新计算确定其置信度。
在本发明实施例中,鉴于经验和直觉上的认知,一般地,真正的伪框往往其置信度在前期神经网络的输出值比真正的Bbox(即边界框)置信度值偏低(与其邻近的真正的Bbox相比),因此,需要对重新计算确定的边界框置信度进行修正,以进一步消除伪框,提高检测的准确度。
输出单元64,用于输出置信度最高的边界框,完成目标识别。
在本发明实施例中,输出单元64将重新计算确定的边界框置信度按照置信度从小到大(或者从大到小)的规则进行排序,并输出其中置信度最高的边界框,完成目标识别。
本发明实施例提供的目标物体识别装置,通过反畸变矫正可有效地降低目标物体的漏检率,尤其是可有效的降低处于角落处的目标物体的漏检率,而且还通过修正计算,获得修正后的边界框置信度,有效地消除伪边界框,从而提高目标物体识别的准确率。
在本发明实施例中,上述确定单元61具体用于:获取通过鱼眼摄像装置摄取目标物体的原始检测图片。
具体的,鱼眼摄像装置包括鱼眼摄像头等。通过鱼眼摄像装置摄取置于冰柜、冰箱等中的商品的图像。鱼眼摄像头具有拍摄范围广、拍摄视角广等优点,通常用于全景监控冰箱或冰柜等中的商品的数量及种类,以便于销售的结算。
在本发明实施例中,上述修正坐标获得单元62可用于:基于反畸变函数对边界框的四个顶点坐标进行反畸变矫正,获得与四个顶点坐标相对应的修正坐标。
在本发明实施例中,假设某边界框的四个顶点原始坐标分别为A(x1,y1),B(x2,y2),C(x3,y3)和D(x4,y4),那么将A、B、C、D四个原始坐标分别代入反畸变函数f(x)和f(y)中,得到修正后的A’(x1*,y1*),B’(x2*,y2*),C’(x3*,y3*)和D’(x4*,y4*)。其中反畸变矫正前后的示意图如图5所示,其中,A距离鱼眼中心点较近,D距离鱼眼中心点较远。
反畸变函数f是通过测量鱼眼镜头的畸变参数获得,属于鱼眼镜头内参标定的范畴(属于现有技术),在此不做赘述。
在本发明实施例中,通过对边界框的原始坐标进行反畸变矫正,可以将畸变的坐标修正过来,可有效降低目标识别的漏检率,即使得正确的邻近的Bbox的交并比值减小。
在本发明另一实施例中,上述修正坐标获得单元62还可用于:基于修正函数对边界框的四个顶点坐标进行反畸变矫正,获得与四个顶点坐标相对应的修正坐标。
在本发明实施例中,假设某边界框的四个顶点原始坐标分别为A(x1,y1),B(x2,y2),C(x3,y3)和D(x4,y4),那么将A、B、C、D四个原始坐标分别代入修正函数α(x)和α(y)中,分别得到修正后的A’(x1’,y1’),B’(x2’,y2’),C’(x3’,y3’)和D’(x4’,y4’)。α为修正参数,跟边界框的当前坐标值相关。
在本发明实施例中,上述置信度修正单元63包括置信度确定模块、交并比计算模块、置信度调整模块和置信度修正模块。
置信度确定模块,用于计算并获得同一类目标物体的所有边界框的置信度,并将置信度最高的边界框确定为第一边界框,将其他置信度的边界框确定为第二边界框。
在本发明实施例中,在冰柜、冰箱或其他商品售卖机中存放售卖的商品通常会有很多种类。计算并获得同一类目标物体的所有边界框的置信度,具体而言,采用NMS算法中的硬阈值的方法计算同一类目标物体的每个边界框的交并比值(即IOU,两两边界框之间的交集与并集的比值),当IOU小于某个阈值(一般为0~1之间的某值)时,该边界框的置信度(即gain)仍为其自身的值(即gain为1,不被抑制),当IOU大于该阈值时,则该边界框的置信度设置为0(即gain为0,完全抑制)。此时,NMS的调制曲线为阶跃函数。
进一步的,将NMS的阶跃函数换为Gaussian函数,即将其转换成高斯函数,取代传统的置信度非0即1的情况,从而降低对NMS的安全性的要求,以便于后续对边界框的置信度进行微调,进而提高目标识别的准确度。
在本发明实施例中,第一边界框通常是为一个边界框,或者置信度相同的至少两个边界框;同理,第二边界框也可以为一个边界框或者至少两个边界框(其中各边界框的置信度可相同或者不同)。
交并比计算模块,用于按照预设的规则计算所述第二边界框与所述第一边界框的交并比。
在本发明实施例中,为了进一步调整每个边界框的置信度,确保能够保留最能表征目标物体的边界框,剔除伪框,可将上述得到的NMS曲线进行调制。并先根据修正坐标计算出第一边界框和第二边界框的面积,再根据交集和并集的计算公式计算出第一边界框和第二边界框的交并比值。
置信度调整模块,用于当判定所述交并比为0时,则确定所述第二边界框的置信度为1,否则,通过所述逻辑回归函数计算得到所述第二边界框的置信度。
在本发明实施例中,当判断第一边界框和第二边界框的交并比不为0时,可以通过下述逻辑回归函数对上述NMS曲线进行调制,并得到第二边界框的置信度:
Figure 800335DEST_PATH_IMAGE001
其中,nms_th相当于上述阶跃函数的硬阈值,t相当于IOU,r0用于调节曲线的陡峭程度,K和P0用于调节曲线高度。优选的,限制曲线的高度在0~1之间。
结合图8和图9,图8展示了nms_th不变,只调节r0的曲线调制效果图,图9展示了r0不变,只调节nsm_th的曲线调制效果图,从图8和图9的调制效果可以看出,本发明的逻辑回归函数相较于传统的NMS算法在调制曲线上具有更高、更好的灵活性,可满足不同的调节需求。
置信度修正模块,用于对所述第二边界框的置信度进行修正,得到修正后的第二边界框置信度。
进一步的,鉴于经验和直觉上的认知,发明人在研究实践时发现,真正的伪框往往其置信度在前期神经网络的输出值比真正的Bbox值偏低(与其邻近的真正的Bbox相比),因此,提出了在逻辑回归函数计算第二边界框的置信度的基础上,补充了修正值,当被抑制的Bbox置信度本身较大时,修正值也比较大(从而其置信度更接近1),本身较小时,修正值较小,更接近于逻辑回归函数的计算值。
在本发明的一个实施例中,可采用下述方式对第二边界框的置信度进行修正,获得修正后的第二边界框的置信度:
Figure 265952DEST_PATH_IMAGE002
Figure 806786DEST_PATH_IMAGE003
;其中,gain是上面逻辑回归函数计算得到的置信度,gain_fine是对gain的调整,prob是该Bbox的置信度,miu是参考均值,sigma调整修正曲线的幅度。
在本发明实施例中,上述输出单元64具体用于:根据所述第一边界框和所述第二边界框的置信度的比较结果,输出置信度最高的边界框,完成目标物体的识别。
在本发明的另一实施例中,上述置信度修正单元63包括第一置信度确定模块、第一交并比计算模块和第一置信度调整模块。
第一置信度确定模块,用于计算并获得不同种类目标物体的所有边界框的置信度,并将置信度最高的边界框确定为第三边界框,将其他置信度的边界框确定为第四边界框。
在本发明实施例中,计算并获得不同种类目标物体的所有边界框的置信度,具体的计算方法可参见上述实施例,在此不再赘述。
第一交并比计算模块,用于按照预设的规则计算所述第三边界框与所述第四边界框的交并比。
在本发明实施例中,按照预设的规则计算所述第三边界框与所述第四边界框的交并比可以参照上述实施例的计算方式,在此不做赘述。
第一置信度调整模块,用于当判定所述交并比大于预设的阈值时,则将所述第四边界框的置信度设置为0,否则保持所述第四边界框的置信度不变。
在本发明实施例中,预设的阈值一般为0~1之间的某点值。
在本发明实施例中,上述输出单元64还可用于:根据所述第三边界框与所述第四边界框的置信度比较结果,输出置信度最高的边界框,完成目标物体的识别。
本发明实施例的目标识别装置结构简单,尤其适用于对同一位置处确定不会出现多个不同类物体聚焦的情况。
本发明实施例还提供了一种计算机装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述目标识别方法的各步骤。
本发明实施例还提供了一种计算机可读存储介质,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述目标识别方法的各步骤。
示例性的,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行,以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机装置中的执行过程。例如,所述计算机程序可以被分割成上述各个方法实施例提供的字库样本自动生成方法的步骤。
本领域技术人员可以理解,上述计算机装置的描述仅仅是示例,并不构成对计算机装置的限定,可以包括比上述描述更多或更少的部件,或者组合某些部件,或者不同的部件,例如可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个用户终端的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述计算机装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种目标识别方法,其特征在于,所述方法包括如下步骤:
获取目标物体的原始检测图片,确定所述原始检测图片的边界框;
对所述边界框的四个顶点坐标进行反畸变矫正,获得与所述四个顶点坐标相对应的修正坐标,其步骤包括:基于反畸变函数对所述边界框的四个顶点坐标进行反畸变矫正,获得与所述四个顶点坐标相对应的修正坐标;基于修正函数对所述边界框的四个顶点坐标进行反畸变矫正,获得与所述四个顶点坐标相对应的修正坐标;
根据所述修正坐标计算边界框的置信度,并修正得到修正后的边界框置信度,其步骤包括:计算并获得同一类目标物体的所有边界框的置信度,并将置信度最高的边界框确定为第一边界框,将其他置信度的边界框确定为第二边界框;
按照预设的规则计算所述第二边界框与所述第一边界框的交并比;
当判定所述交并比为0时,则确定所述第二边界框的置信度为1,否则,通过逻辑回归函数计算得到所述第二边界框的置信度;
对所述第二边界框的置信度进行修正,得到修正后的第二边界框置信度;
输出置信度最高的边界框,完成目标识别的步骤,包括:
根据所述第一边界框和所述第二边界框的置信度的比较结果,输出置信度最高的边界框,完成目标物体的识别;还包括:
计算并获得不同种类目标物体的所有边界框的置信度,并将置信度最高的边界框确定为第三边界框,将其他置信度的边界框确定为第四边界框;
按照预设的规则计算所述第三边界框与所述第四边界框的交并比;
当判定所述交并比大于预设的阈值时,则将所述第四边界框的置信度设置为0,否则保持所述第四边界框的置信度不变;
所述输出置信度最高的边界框,完成目标识别的步骤,包括:
根据所述第三边界框与所述第四边界框的置信度比较结果,输出置信度最高的边界框,完成目标物体的识别;
输出置信度最高的边界框,完成目标识别。
2.如权利要求1所述的目标识别方法,其特征在于,所述获取目标物体的原始检测图片的步骤,具体包括:
获取通过鱼眼摄像装置摄取目标物体的原始检测图片。
3.一种计算机装置,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至2中任一项权利要求所述方法的步骤。
4.一种计算机可读存储介质,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至2中任一项权利要求所述方法的步骤。
CN201811104977.2A 2018-09-21 2018-09-21 一种目标识别方法、计算机装置及可读存储介质 Active CN109214389B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811104977.2A CN109214389B (zh) 2018-09-21 2018-09-21 一种目标识别方法、计算机装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811104977.2A CN109214389B (zh) 2018-09-21 2018-09-21 一种目标识别方法、计算机装置及可读存储介质

Publications (2)

Publication Number Publication Date
CN109214389A CN109214389A (zh) 2019-01-15
CN109214389B true CN109214389B (zh) 2021-09-28

Family

ID=64984509

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811104977.2A Active CN109214389B (zh) 2018-09-21 2018-09-21 一种目标识别方法、计算机装置及可读存储介质

Country Status (1)

Country Link
CN (1) CN109214389B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950328A (zh) * 2019-05-15 2020-11-17 阿里巴巴集团控股有限公司 确定图片中目标物类别的方法及装置
SG10201905273VA (en) * 2019-06-10 2019-08-27 Alibaba Group Holding Ltd Method and system for evaluating an object detection model
CN110619350B (zh) * 2019-08-12 2021-06-18 北京达佳互联信息技术有限公司 图像检测方法、装置及存储介质
CN110781819A (zh) * 2019-10-25 2020-02-11 浪潮电子信息产业股份有限公司 一种图像目标检测方法、系统、电子设备及存储介质
CN113516673B (zh) * 2020-04-10 2022-12-02 阿里巴巴集团控股有限公司 图像检测方法、装置、设备和存储介质
CN111461260B (zh) * 2020-04-29 2023-04-18 上海东普信息科技有限公司 基于特征融合的目标检测方法、装置、设备及存储介质
CN113095301B (zh) * 2021-05-21 2021-08-31 南京甄视智能科技有限公司 占道经营监测方法、系统与服务器
CN113408509B (zh) * 2021-08-20 2021-11-09 智道网联科技(北京)有限公司 用于自动驾驶的标识牌识别方法及装置
CN113642510A (zh) * 2021-08-27 2021-11-12 北京京东乾石科技有限公司 目标检测方法、装置、设备和计算机可读介质
CN115937010B (zh) * 2022-08-17 2023-10-27 北京字跳网络技术有限公司 一种图像处理方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1937698A (zh) * 2006-10-19 2007-03-28 上海交通大学 图像畸变自动校正的图像处理方法
CN101908122A (zh) * 2010-06-01 2010-12-08 福建新大陆电脑股份有限公司 条空边界处理模块、条码识别装置及其方法
CN106295678A (zh) * 2016-07-27 2017-01-04 北京旷视科技有限公司 神经网络训练与构建方法和装置以及目标检测方法和装置
CN107169421A (zh) * 2017-04-20 2017-09-15 华南理工大学 一种基于深度卷积神经网络的汽车驾驶场景目标检测方法
CN107871134A (zh) * 2016-09-23 2018-04-03 北京眼神科技有限公司 一种人脸检测方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101618814B1 (ko) * 2012-10-09 2016-05-09 에스케이텔레콤 주식회사 단일객체에 대한 기울기를 추정하는 영상을 감시하는 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1937698A (zh) * 2006-10-19 2007-03-28 上海交通大学 图像畸变自动校正的图像处理方法
CN101908122A (zh) * 2010-06-01 2010-12-08 福建新大陆电脑股份有限公司 条空边界处理模块、条码识别装置及其方法
CN106295678A (zh) * 2016-07-27 2017-01-04 北京旷视科技有限公司 神经网络训练与构建方法和装置以及目标检测方法和装置
CN107871134A (zh) * 2016-09-23 2018-04-03 北京眼神科技有限公司 一种人脸检测方法及装置
CN107169421A (zh) * 2017-04-20 2017-09-15 华南理工大学 一种基于深度卷积神经网络的汽车驾驶场景目标检测方法

Also Published As

Publication number Publication date
CN109214389A (zh) 2019-01-15

Similar Documents

Publication Publication Date Title
CN109214389B (zh) 一种目标识别方法、计算机装置及可读存储介质
EP3712841A1 (en) Image processing method, image processing apparatus, and computer-readable recording medium
CN108986097B (zh) 一种镜头起雾状态检测方法、计算机装置及可读存储介质
US10559095B2 (en) Image processing apparatus, image processing method, and medium
TWI581213B (zh) 物品缺陷檢測方法、影像處理系統與電腦可讀取記錄媒體
CN109272016B (zh) 目标检测方法、装置、终端设备和计算机可读存储介质
US10484601B2 (en) Image processing apparatus, image processing method, and storage medium
US9967516B2 (en) Stereo matching method and device for performing the method
US20130004079A1 (en) Image processing apparatus, image processing method, and program thereof
CN111027546B (zh) 一种字符分割方法、装置以及计算机可读存储介质
US11205272B2 (en) Information processing apparatus, robot system, information processing method and program
CN111866501B (zh) 一种摄像模组检测方法、装置、电子设备及介质
JP6507843B2 (ja) 映像解析方法及び映像解析装置
CN115239653A (zh) 支持多分屏的黑屏检测方法、装置、电子设备及可读存储介质
US11024033B2 (en) Method and apparatus for processing image and computer program product thereof
CN111524153B (zh) 图像解析力确定方法、装置及计算机存储介质
US9916663B2 (en) Image processing method and process simulation apparatus
CN112950468A (zh) 图像拼接方法、电子设备及可读存储介质
CN113438386A (zh) 一种应用于视频处理的动静判定方法及装置
JP6403207B2 (ja) 情報端末装置
Rosli et al. Some technique for an Image of defect in inspection process based on image processing
CN113850843A (zh) 目标跟踪方法、装置、电子设备及存储介质
Fisher 3d plane labeling stereo matching with content aware adaptive windows
US10643312B2 (en) Smoothed image generating device, abnormality determining device, and smoothed image generating method
CN116030450B (zh) 棋盘格角点识别方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220224

Address after: Room b1-8008, building 3, 258 Changjiang Road, Baoshan District, Shanghai 200441

Patentee after: Shanghai Weimeng Enterprise Development Co.,Ltd.

Address before: Room b1-4002, building 3, No. 258, Changjiang Road, Baoshan District, Shanghai 201900

Patentee before: SHANGHAI XIAOMENG TECHNOLOGY Co.,Ltd.