CN112907501A - 物体检测方法、装置及电子设备 - Google Patents
物体检测方法、装置及电子设备 Download PDFInfo
- Publication number
- CN112907501A CN112907501A CN201911229946.4A CN201911229946A CN112907501A CN 112907501 A CN112907501 A CN 112907501A CN 201911229946 A CN201911229946 A CN 201911229946A CN 112907501 A CN112907501 A CN 112907501A
- Authority
- CN
- China
- Prior art keywords
- preset object
- bounding box
- probability distribution
- determining
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 56
- 238000009826 distribution Methods 0.000 claims abstract description 127
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000004422 calculation algorithm Methods 0.000 claims description 20
- 238000010606 normalization Methods 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 18
- 238000004364 calculation method Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
公开了一种物体检测方法及装置,其中方法包括:确定图像中预设物体的初始边界框;确定所述预设物体的实例掩码;基于所述预设物体的初始边界框和所述预设物体的实例掩码,确定所述预设物体的边界框位置的后验概率分布;基于所述预设物体的边界框位置的后验概率分布,确定所述预设物体的最终边界框;装置包括:初始边界框确定模块、实例掩码确定模块、后验概率分布确定模块和最终边界框确定模块;本公开提供的技术方案可以提高最终边界框的定位精度。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种物体检测方法、装置及电子设备。
背景技术
图像目标检测与实例分割是无人驾驶、智能安防、自动控制等应用的研究基础。图像目标检测中一个重要的步骤是对图像中的物体进行检测预测物体边界框,现有预测物体边界框大多依赖回归方法,而基于回归方法得到的物体边界框经常存在一定的定位误差,难以满足实际应用需求。
发明内容
为了解决上述技术问题,本申请实施例提供了一种物体检测方法、装置及电子设备。
根据本申请的一个方面,提供了一种物体检测方法,包括:确定图像中预设物体的初始边界框;确定所述预设物体的实例掩码;基于所述预设物体的初始边界框和所述预设物体的实例掩码,确定所述预设物体的边界框位置的后验概率分布;基于所述预设物体的边界框位置的后验概率分布,确定所述预设物体的最终边界框。
根据本申请的另一个方面,提供了一种物体检测装置,包括:初始边界框确定模块,用于确定图像中预设物体的初始边界框;实例掩码确定模块,用于确定所述预设物体的实例掩码;后验概率分布确定模块,用于基于所述预设物体的初始边界框和所述预设物体的实例掩码,确定所述预设物体的边界框位置的后验概率分布;最终边界框确定模块,用于基于所述预设物体的边界框位置的后验概率分布,确定所述预设物体的最终边界框。
根据本申请的另一个方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述任一所述的方法。
根据本申请的另一个方面,提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于执行上述任一所述的方法。
本申请实施例提供的物体检测方法,基于确定的预设物体的初始边界框和预设物体的实例掩码,确定预设物体的边界框位置的后验概率分布,基于预设物体的边界框位置的后验概率分布,确定预设物体的最终边界框,可以利用预测的实例掩码,对预设物体的初始边界框进行优化,确定预设物体的最终边界框,不需要重复进行回归计算,可以减少计算量,且实例掩码可以更好体现边界框的位置,提高最终边界框的定位精度。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本申请一示例性实施例提供的一种物体检测方法的流程示意图;
图2是本申请一示例性实施例提供的一种基于预设物体的初始边界框和预设物体的实例掩码,确定预设物体的边界框位置的后验概率分布的流程示意图;
图3是本申请一示例性实施例提供的一种基于预设物体的实例掩码,确定预设物体的边界框位置的第二概率分布的流程示意图;
图4是本申请一示例性实施例提供的另一种物体检测方法的流程示意图;
图5是本申请一示例性实施例提供的高度为h、宽度为w的图像;
图6是本申请一示例性实施例提供的确定图像中摩托车的最终边界框的具体过程;
图7是本申请一示例性实施例提供的图像中预设物体摩托车的初始边界框示意图;
图8是本申请一示例性实施例提供的图像中预设物体摩托车的实例掩码示意图;
图9是本申请一示例性实施例提供的确定预设物体摩托车的最终左边界框的图形示例过程示意图;
图10是本申请一示例性实施例提供的一种物体检测装置的结构示意图;
图11是本申请一示例性实施例提供的一种物体检测装置中后验概率分布确定模块的结构示意图;
图12是本申请一示例性实施例提供的一种后验概率分布确定模块中第二概率分布确定单元的结构示意图;
图13是本申请一示例性实施例提供的另一种物体检测装置的结构示意图;
图14是本申请一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述
现有的基于回归方法进行物体检测得到物体边界框的技术方案,主要是通过多级回归逐步优化物体边界的位置,确定物体边界框。
然而,基于回归方法确定物体边界框经常存在一定的定位误差,且多级回归方法需要相对较大的计算量,难以满足实际应用需求。
针对上述技术问题,本申请的基本构思是提出一种物体检测方法、装置及电子设备。
下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性方法
图1是本申请一示例性实施例提供的物体检测方法的流程示意图。本申请实施例提供的物体检测方法可应用到计算机技术领域。如图1所示,本申请实施例提供的物体检测方法包括如下步骤:
步骤101,确定图像中预设物体的初始边界框。
在一实施例中,输入高度为h,宽度为w的图像,图像中包含有多个物体,例如人、摩托车等,确定图像中预设物体摩托车的初始边界框。
步骤102,确定预设物体的实例掩码。
在一实施例中,输入高度为h,宽度为w的图像,图像中包含有多个物体,例如人、摩托车等,确定图像中预设物体摩托车的实例掩码。
需要说明的是,步骤101和步骤102没有先后顺序要求,可以根据实际应用状况进行设置。
步骤103,基于预设物体的初始边界框和预设物体的实例掩码,确定预设物体的边界框位置的后验概率分布。
在一实施例中,输入高度为h,宽度为w的图像,图像中包含有多个物体,例如人、摩托车等,基于图像中预设物体摩托车的初始边界框和图像中预设物体摩托车的实例掩码,确定预设物体摩托车的边界框位置的后验概率分布。
步骤104,基于预设物体的边界框位置的后验概率分布,确定预设物体的最终边界框。
在一实施例中,输入高度为h,宽度为w的图像,图像中包含有多个物体,例如人、摩托车等,基于预设物体摩托车的边界框位置的后验概率分布,确定预设物体摩托车的最终边界框。
本申请实施例提供的物体检测方法,基于确定的预设物体的初始边界框和预设物体的实例掩码,确定预设物体的边界框位置的后验概率分布,基于预设物体的边界框位置的后验概率分布,确定预设物体的最终边界框,可以利用预测的实例掩码,对预设物体的初始边界框进行优化,确定预设物体的最终边界框,不需要重复进行回归计算,可以减少计算量,且实例掩码可以更好体现边界框的位置,提高最终边界框的定位精度。
本申请一示例性实施例提供了一种确定图像中预设物体的初始边界框的方法。在本申请图1所示实施例的基础上延伸出本申请所示实施例,下面着重叙述本申请所示实施例与图1所示实施例的不同之处,相同之处不再赘述。
在本申请实施例提供的物体检测方法中,确定图像中预设物体的初始边界框(即步骤101),包括:
利用目标检测算法,得到图像中预设物体的初始边界框。
具体地,利用目标检测算法(如Faster R-CNN(Faster Region CNN,快速区域卷积神经网络)、SSD(Single Shot MultiBox Detector)、YOLO(You Only Look Once)、RetinaNet等)得到图像中预设物体的初始边界框,预设物体的初始边界框记为(t*,b*,l*,r*),其中,t*表示上边界的纵坐标,b*表示下边界的纵坐标,l*表示左边界的横坐标,r*表示右边界的横坐标。
本申请实施例提供的物体检测方法,利用目标检测算法,得到图像中预设物体的初始边界框,目标检测算法确定速度快,且精度高,可以提高得到图像中预设物体的初始边界框的速度和精度。
本申请一示例性实施例提供了一种确定预设物体的实例掩码的方法。在本申请图1所示实施例的基础上延伸出本申请所示实施例,下面着重叙述本申请所示实施例与图1所示实施例的不同之处,相同之处不再赘述。
在本申请实施例提供的物体检测方法中,确定预设物体的实例掩码(即步骤102),包括:
利用实例分割算法,得到预设物体的实例掩码。
具体地,利用实例分割算法如Mask R-CNN(Mask Region-CNN,掩码区域卷积神经网络)等,得到预设物体的实例掩码M,M为高度为h,宽度为w的连续值图像,即该连续值图像中的每个像素的值是0到1之间的小数。
本申请实施例所提及的物体检测方法,利用实例分割算法,得到预设物体的实例掩码,实例分割算法分割效率高,可以提高得到预设物体的实例掩码的效率。
图2是本申请一示例性实施例提供的基于预设物体的初始边界框和预设物体的实例掩码,确定预设物体的边界框位置的后验概率分布的流程示意图。在本申请上述任一所示实施例的基础上延伸出本申请图2所示实施例,下面着重叙述图2所示实施例与上述任一所示实施例的不同之处,相同之处不再赘述。
如图2所示,在本申请实施例提供的物体检测方法中,基于预设物体的初始边界框和预设物体的实例掩码,确定预设物体的边界框位置的后验概率分布(即步骤103),包括:
步骤1031,基于预设物体的初始边界框,确定预设物体的边界框位置的第一概率分布。
在一实施例中,第一概率分布为先验概率分布,基于预设物体的初始边界框,确定预设物体的边界框位置的第一概率分布(即先验概率分布)。其中,预设物体的边界框位置包括预设物体的上边界框位置、下边界框位置、左边界框位置、右边界框位置。例如:确定预设物体的边界框位置的先验概率P(X=i)为:
其中,X表示初始边界框的坐标,当X为左边界框位置的坐标、右边界框位置的坐标时,i∈{1,2,…,w},w表示图像的宽度,当X为上边界框位置的坐标、下边界框位置的坐标时,i∈{1,2,…,h},h表示图像的高度;μ为由回归算法得到的初始边界框的坐标(与X对应,例如:当X为左边界框位置的坐标时,μ为由回归算法得到的左边界框位置的坐标),σ为高斯分布的方差(需人为设定)。
步骤1032,基于预设物体的实例掩码,确定预设物体的边界框位置的第二概率分布。
在一实施例中,第二概率分布为类条件概率分布,基于预设物体的实例掩码,确定预设物体的边界框位置的第二概率分布(即类条件概率分布)。其中,预设物体的边界框位置包括预设物体的上边界框位置、下边界框位置、左边界框位置、右边界框位置。例如:基于预设物体的实例掩码M(M的高度为h,宽度为w),确定预设物体的边界框位置的类条件概率分布P(M|X=i),其中,X与步骤1032中X的含义相同,此处不再赘述,i为正整数。
需要说明的是,步骤1031和步骤1032没有先后顺序要求,可以根据实际应用状况进行设置。
步骤1033,基于预设物体的边界框位置的第一概率分布和预设物体的边界框位置的第二概率分布,确定预设物体的边界框位置的后验概率分布。
在一实施例中,确定预设物体的边界框位置的后验概率分布,可以采用贝叶斯定理实现。例如:应用贝叶斯公式确定预设物体的边界框位置的后验概率分布:
其中,X、M的含义与上述X、M的含义相同,此处不再赘述,i、j为正整数。
本申请实施例所提及的物体检测方法,基于确定的预设物体的边界框位置的第一概率分布和预设物体的边界框位置的第二概率分布,即可确定预设物体的边界框位置的后验概率分布,不需要反复回归计算,可以提高确定图像中预设物体的最终边界框的效率。
图3是本申请一示例性实施例提供的基于预设物体的实例掩码,确定预设物体的边界框位置的第二概率分布的流程示意图。在本申请图2所示实施例的基础上延伸出本申请图3所示实施例,下面着重叙述图3所示实施例与上述图2所示实施例的不同之处,相同之处不再赘述。
如图3所示,在本申请实施例提供的物体检测方法中,基于预设物体的实例掩码,确定预设物体的边界框位置的第二概率分布(即步骤1032),包括:
步骤10321,对预设物体的实例掩码,按列取最大、进行一维卷积并归一化,得到预设物体的左边界框位置的第二概率分布和右边界框位置的第二概率分布。
在一实施例中,第二概率分布为类条件概率分布。对预设物体的实例掩码M(M为高度为h,宽度为w的连续值图像),按列取最大得到mi为:
其中,Mij表示实例掩码M中第(i,j)个元素,i、j为正整数。
对mi进行一维卷积并归一化,得到预设物体的左边界框位置的第二概率分布(即类条件概率分布)和右边界框位置的第二概率分布(即类条件概率分布)为:
P(M|X=i)=B(A(mi))
其中,A表示卷积操作,B表示归一化操作(如sigmoid函数)。
步骤10322,对预设物体的实例掩码,按行取最大、进行一维卷积并归一化,得到预设物体的上边界框位置的第二概率分布和下边界框位置的第二概率分布。
在一实施例中,第二概率分布为类条件概率分布。对预设物体的实例掩码M(M为高度为h,宽度为w的连续值图像),按行取最大得到mj为:
其中,Mij表示实例掩码M中第(i,j)个元素,i、j为正整数。
对mj进行一维卷积并归一化,得到预设物体的左边界框位置的第二概率分布(即类条件概率分布)和右边界框位置的第二概率分布(即类条件概率分布)为:
P(M|X=j)=B(A(mj))
其中,A表示卷积操作,B表示归一化操作(如sigmoid函数)。
需要说明的是,步骤10321、步骤10322之间的先后顺序不固定,可以先执行步骤10321,再执行步骤10322,也可以先执行步骤10322,再执行步骤10321,可以根据实际需要进行选择,不做具体限定。
本申请实施例所提及的物体检测方法,对预设物体的实例掩码,按列(行)取最大、进行一维卷积并归一化,得到预设物体的左(上)边界框位置的第二概率分布和右(下)边界框位置的第二概率分布,按列(行)取最大、进行一维卷积并归一化,计算速度快,且精度高,可以提高计算速度和精度。
图4是本申请一示例性实施例提供的另一种物体检测方法的流程示意图。在本申请图2所示实施例的基础上延伸出本申请图4所示实施例,下面着重叙述图4所示实施例与上述图2所示实施例的不同之处,相同之处不再赘述。
如图4所示,在本申请实施例提供的物体检测方法中,还包括:
步骤105,基于预设物体的最终边界框,确定预设物体在图像中的位置。
例如,预设物体为摩托车,可以基于摩托车的最终边界框,确定摩托车在图像中的位置,从而方便后续对摩托车进行相关操作。
本申请实施例所提及的物体检测方法,基于预设物体的最终边界框,确定预设物体在图像中的位置,由于预设物体的最终边界框位置比较准确,可以提高确定的预设物体在图像中的位置的准确度。
为了便于理解本申请实施例,下面以具体的应用为例,对本申请实例进行进一步地说明,参见图5,输入高度为h、宽度为w的图像,图像中有人、摩托车,预设物体为摩托车。参见图6,确定图像中摩托车的最终边界框的具体过程如下:
步骤201,利用目标检测算法,得到图像中预设物体的初始边界框。
在一实施例中,目标检测算法可以是Faster R-CNN、SSD、YOLO、RetinaNet等。为了便于说明,参见图7,图像中预设物体摩托车的初始边界框记为(t*,b*,l*,r*),其中,t*表示上边界的纵坐标,b*表示下边界的纵坐标,l*表示左边界的横坐标,r*表示右边界的横坐标。
步骤202,利用实例分割算法,得到图像中预设物体的实例掩码。
在一实施例中,实例分割算法可以是Mask R-CNN等。为了便于说明,参见图8,预设物体摩托车的实例掩码记为M,M为高度为h,宽度为w的连续值图像。
步骤203,基于预设物体的初始边界框和预设物体的实例掩码,确定预设物体的边界框位置的后验概率分布;基于预设物体的边界框位置的后验概率分布,确定预设物体的最终边界框。
具体地,预设物体的初始边界框记为(t*,b*,l*,r*),其中,t*表示上边界的纵坐标,b*表示下边界的纵坐标,l*表示左边界的横坐标,r*表示右边界的横坐标。确定预设物体的最终边界框,对于左边界l*,确定左边界最终边界框的过程如下:
其中,L为左边界框位置的坐标,σx=λ(r*-l*),λ需人为设定,建议参考值为0.05,w表示图像的宽度。
e)确定左边界最终边界框的坐标值l=argmax1≤i≤wP(L=i|M)。
具体地,确定预设物体的最终边界框,对于右边界l*,确定右边界最终边界框的过程如下:
g)对步骤b)中得到的mx卷积并归一化:
i)确定右边界最终边界框的坐标值r=argmax1≤i≤wP(R=i|M)。
具体地,确定预设物体的最终边界框,对于上边界t*,确定上边界最终边界框的过程如下:
其中,σy=λ(b*-t*),λ与a)中的λ相同,此处不再赘述。
n)确定上边界最终边界框的坐标值t=argmax1≤j≤hP(T=j|M)。
具体地,确定预设物体的最终边界框,对于下边界b*,确定下边界最终边界框的过程如下:
其中,σy与j)中的σy相同,此处不再赘述。
r)确定下边界最终边界框的坐标值b=argmax1≤j≤hP(B=j|M)。
参见图9,为确定预设物体摩托车的最终左边界框的图形示例过程示意图,①确定摩托车的初始边框(t*,b*,l*,r*),②确定摩托车的实例掩码M,③a左先验概率P(L=i)分布图;③b实例掩码M按列取最大得到的mx的分布图;③c左边界类条件概率P(M|L=i)分布图;③d左边界后验概率P(L=i|M)分布图;③d左边界最终边框分布图。
本申请实施例提供的物体检测方法,在以预设物体为摩托车的情形下,基于确定的摩托车的初始边界框和摩托车的实例掩码,确定摩托车的边界框位置的后验概率分布,基于摩托车的边界框位置的后验概率分布,确定摩托车的最终边界框,可以利用预测的实例掩码,对摩托车的初始边界框进行优化,确定摩托车的最终边界框,不需要重复进行回归计算,可以减少计算量,且实例掩码可以更好体现边界框的位置,提高最终边界框的定位精度。
示例性装置
图10是本申请一示例性实施例提供的物体检测装置的结构示意图。如图10所示,本申请实施例提供的物体检测装置,包括:
初始边界框确定模块301,用于确定图像中预设物体的初始边界框;
实例掩码确定模块302,用于确定预设物体的实例掩码;
后验概率分布确定模块303,用于基于预设物体的初始边界框和预设物体的实例掩码,确定预设物体的边界框位置的后验概率分布;
最终边界框确定模块304,用于基于预设物体的边界框位置的后验概率分布,确定预设物体的最终边界框。
本申请一示例性实施例提供了物体检测装置中初始边界框确定模块。在本申请图10所示实施例的基础上延伸出本申请所示实施例,下面着重叙述本申请所示实施例与图10所示实施例的不同之处,相同之处不再赘述。
在本申请实施例提供的物体检测装置中,初始边界框确定模块301,具体用于利用目标检测算法,得到图像中预设物体的初始边界框。
本申请一示例性实施例提供了物体检测装置中实例掩码确定模块的结构示意图。在本申请图10所示实施例的基础上延伸出本申请所示实施例,下面着重叙述本申请所示实施例与图10所示实施例的不同之处,相同之处不再赘述。
在本申请实施例提供的物体检测装置中,实例掩码确定模块302,具体用于利用实例分割算法,得到预设物体的实例掩码。
图11是本申请一示例性实施例提供的物体检测装置中后验概率分布确定模块303的结构示意图。在本申请上述任一所示实施例的基础上延伸出本申请图11所示实施例,下面着重叙述图11所示实施例与上述任一实施例的不同之处,相同之处不再赘述。
如图11所示,在本申请实施例提供的物体检测装置中,后验概率分布确定模块303包括:
第一概率分布确定单元3031,用于基于预设物体的初始边界框,确定预设物体的边界框位置的第一概率分布;
第二概率分布确定单元3032,用于基于预设物体的实例掩码,确定预设物体的边界框位置的第二概率分布;
后验概率分布确定单元3033,用于基于预设物体的边界框位置的第一概率分布和预设物体的边界框位置的第二概率分布,确定预设物体的边界框位置的后验概率分布。
图12是本申请一示例性实施例提供的后验概率分布确定模块中第二概率分布确定单元的结构示意图。在本申请上述图11所示实施例的基础上延伸出本申请图12所示实施例,下面着重叙述图12所示实施例与图11所示实施例的不同之处,相同之处不再赘述。
如图12所示,在本申请实施例提供的物体检测装置中,第二概率分布确定单元3032包括:
第二概率分布确定第一子单元30321,用于对预设物体的实例掩码,按列取最大、进行一维卷积并归一化,得到预设物体的左边界框位置的第二概率分布和右边界框位置的第二概率分布;
第二概率分布确定第二子单元30322,用于对预设物体的实例掩码,按行取最大、进行一维卷积并归一化,得到预设物体的上边界框位置的第二概率分布和下边界框位置的第二概率分布。
图13是本申请一示例性实施例提供的另一种物体检测装置的结构示意图。在本申请上述图11所示实施例的基础上延伸出本申请图13所示实施例,下面着重叙述图13所示实施例与图11所示实施例的不同之处,相同之处不再赘述。
如图13所示,在本申请实施例提供的物体检测装置中,还包括:
位置确定模块305,用于基于预设物体的最终边界框,确定预设物体在图像中的位置。
应当理解,图10至图13提供的物体检测装置中的初始边界框确定模块301、实例掩码确定模块302、后验概率分布确定模块303、最终边界框确定模块304和位置确定模块305,后验概率分布确定模块303中的第一概率分布确定单元3031、第二概率分布确定单元3032、后验概率分布确定单元3033,第二概率分布确定单元3032中的第二概率分布确定第一子单元30321、第二概率分布确定第二子单元30322的操作和功能可以参考上述图1至图9提供的物体检测方法,为了避免重复,在此不再赘述。
示例性电子设备
图14图示了本申请实施例的电子设备的框图。
如图14所示,电子设备11包括一个或多个处理器111和存储器112。
处理器111可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备11中的其他组件以执行期望的功能。
存储器112可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器111可以运行所述程序指令,以实现上文所述的本申请的各个实施例的物体检测方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、运行结果等各种内容。
在一个示例中,电子设备11还可以包括:输入装置113和输出装置114,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,该输入装置113可以是摄像头或麦克风、麦克风阵列等,用于捕捉图像或声源的输入信号。在该电子设备是单机设备时,该输入装置113可以是通信网络连接器,用于从网络处理器接收所采集的输入信号。
此外,该输入设备113还可以包括例如键盘、鼠标等等。
该输出装置114可以向外部输出各种信息,包括确定出的输出电压、输出电流信息等。该输出设备114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图14中仅示出了该电子设备11中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备11还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的物体检测方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的物体检测方法的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (10)
1.一种物体检测方法,包括:
确定图像中预设物体的初始边界框;
确定所述预设物体的实例掩码;
基于所述预设物体的初始边界框和所述预设物体的实例掩码,确定所述预设物体的边界框位置的后验概率分布;
基于所述预设物体的边界框位置的后验概率分布,确定所述预设物体的最终边界框。
2.根据权利要求1所述的方法,其中,确定图像中预设物体的初始边界框,包括:
利用目标检测算法,得到所述图像中所述预设物体的初始边界框。
3.根据权利要求1所述的方法,其中,确定所述预设物体的实例掩码,包括:
利用实例分割算法,得到所述预设物体的实例掩码。
4.根据权利要求1-3任一权利要求所述的方法,其中,基于所述预设物体的初始边界框和所述预设物体的实例掩码,确定所述预设物体的边界框位置的后验概率分布,包括:
基于所述预设物体的初始边界框,确定所述预设物体的边界框位置的第一概率分布;
基于所述预设物体的实例掩码,确定所述预设物体的边界框位置的第二概率分布;
基于所述预设物体的边界框位置的第一概率分布和所述预设物体的边界框位置的第二概率分布,确定所述预设物体的边界框位置的后验概率分布。
5.根据权利要求4所述的方法,基于所述预设物体的实例掩码,确定所述预设物体的边界框位置的第二概率分布,包括:
对所述预设物体的实例掩码,按列取最大、进行一维卷积并归一化,得到所述预设物体的左边界框位置的第二概率分布和右边界框位置的第二概率分布;
对所述预设物体的实例掩码,按行取最大、进行一维卷积并归一化,得到所述预设物体的上边界框位置的第二概率分布和下边界框位置的第二概率分布。
6.根据权利要求4所述的方法,还包括:
基于所述预设物体的最终边界框,确定所述预设物体在所述图像中的位置。
7.一种物体检测装置,包括:
初始边界框确定模块,用于确定图像中预设物体的初始边界框;
实例掩码确定模块,用于确定所述预设物体的实例掩码;
后验概率分布确定模块,用于基于所述预设物体的初始边界框和所述预设物体的实例掩码,确定所述预设物体的边界框位置的后验概率分布;
最终边界框确定模块,用于基于所述预设物体的边界框位置的后验概率分布,确定所述预设物体的最终边界框。
8.根据权利要求7所述的装置,其中,所述初始边界框确定模块,具体用于利用目标检测算法,得到所述图像中所述预设物体的初始边界框。
9.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-6任一所述的物体检测方法。
10.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于执行上述权利要求1-6任一所述的物体检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911229946.4A CN112907501A (zh) | 2019-12-04 | 2019-12-04 | 物体检测方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911229946.4A CN112907501A (zh) | 2019-12-04 | 2019-12-04 | 物体检测方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112907501A true CN112907501A (zh) | 2021-06-04 |
Family
ID=76111194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911229946.4A Pending CN112907501A (zh) | 2019-12-04 | 2019-12-04 | 物体检测方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112907501A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210279883A1 (en) * | 2020-03-05 | 2021-09-09 | Alibaba Group Holding Limited | Image processing method, apparatus, electronic device, and storage medium |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110254950A1 (en) * | 2008-10-09 | 2011-10-20 | Isis Innovation Limited | Visual tracking of objects in images, and segmentation of images |
US20150170002A1 (en) * | 2013-05-31 | 2015-06-18 | Google Inc. | Object detection using deep neural networks |
CN108846795A (zh) * | 2018-05-30 | 2018-11-20 | 北京小米移动软件有限公司 | 图像处理方法及装置 |
CN109583425A (zh) * | 2018-12-21 | 2019-04-05 | 西安电子科技大学 | 一种基于深度学习的遥感图像船只集成识别方法 |
US20190171871A1 (en) * | 2017-12-03 | 2019-06-06 | Facebook, Inc. | Systems and Methods for Optimizing Pose Estimation |
CN109948474A (zh) * | 2019-03-04 | 2019-06-28 | 成都理工大学 | Ai热成像全天候智能监控方法 |
CN110472534A (zh) * | 2019-07-31 | 2019-11-19 | 厦门理工学院 | 基于rgb-d数据的3d目标检测方法、装置、设备和存储介质 |
-
2019
- 2019-12-04 CN CN201911229946.4A patent/CN112907501A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110254950A1 (en) * | 2008-10-09 | 2011-10-20 | Isis Innovation Limited | Visual tracking of objects in images, and segmentation of images |
US20150170002A1 (en) * | 2013-05-31 | 2015-06-18 | Google Inc. | Object detection using deep neural networks |
US20190171871A1 (en) * | 2017-12-03 | 2019-06-06 | Facebook, Inc. | Systems and Methods for Optimizing Pose Estimation |
CN108846795A (zh) * | 2018-05-30 | 2018-11-20 | 北京小米移动软件有限公司 | 图像处理方法及装置 |
CN109583425A (zh) * | 2018-12-21 | 2019-04-05 | 西安电子科技大学 | 一种基于深度学习的遥感图像船只集成识别方法 |
CN109948474A (zh) * | 2019-03-04 | 2019-06-28 | 成都理工大学 | Ai热成像全天候智能监控方法 |
CN110472534A (zh) * | 2019-07-31 | 2019-11-19 | 厦门理工学院 | 基于rgb-d数据的3d目标检测方法、装置、设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
SHAORU WANG, ETAL.: "RDSNet: A New Deep Architecture for Reciprocal Object Detection and Instance Segmentation", AAAI 2020, pages 1 - 8 * |
熊丽婷等: "基于搜索区域条件概率CNN的精确目标探测方法", 计算机工程与应用, no. 20, pages 134 - 140 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210279883A1 (en) * | 2020-03-05 | 2021-09-09 | Alibaba Group Holding Limited | Image processing method, apparatus, electronic device, and storage medium |
US11816842B2 (en) * | 2020-03-05 | 2023-11-14 | Alibaba Group Holding Limited | Image processing method, apparatus, electronic device, and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10558893B2 (en) | Systems and methods for recognizing characters in digitized documents | |
CN115203380B (zh) | 基于多模态数据融合的文本处理系统及其方法 | |
US9697423B1 (en) | Identifying the lines of a table | |
CN111144242B (zh) | 一种三维目标检测方法、装置及终端 | |
CN110222780B (zh) | 物体检测方法、装置、设备和存储介质 | |
US11232273B2 (en) | Multiplication-free approximation for neural networks and sparse coding | |
CN111414987A (zh) | 神经网络的训练方法、训练装置和电子设备 | |
US11508170B2 (en) | Digital handwriting synthesis | |
CN113361527B (zh) | 多目标对象的识别定位方法及装置、电子设备、存储介质 | |
CN111160288A (zh) | 手势关键点检测方法、装置、计算机设备和存储介质 | |
CN108229658B (zh) | 基于有限样本的物体检测器的实现方法及装置 | |
CN111428805B (zh) | 显著性物体的检测方法、模型、存储介质及电子设备 | |
WO2024060940A1 (zh) | 图像处理方法、装置、电子设备和存储介质 | |
JP2017527894A (ja) | 手書きを使用するユーザ識別登録の管理 | |
WO2022021695A1 (zh) | 图像处理方法、用于图像处理的指令的生成方法及装置 | |
CN112907501A (zh) | 物体检测方法、装置及电子设备 | |
CN111523351A (zh) | 神经网络的训练方法、装置和电子设备 | |
CN109145991B (zh) | 图像组生成方法、图像组生成装置和电子设备 | |
CN116189208A (zh) | 用于文本识别的方法、装置、设备和介质 | |
CN112084443B (zh) | 页面缓存方法及装置 | |
CN111127502B (zh) | 生成实例掩码的方法、装置及电子设备 | |
CN112215247A (zh) | 对特征向量进行聚类的方法、装置及电子设备 | |
EP4343603A1 (en) | System and method for managing geometric designs | |
US20240012966A1 (en) | Method and system for providing a three-dimensional computer aided-design (cad) model in a cad environment | |
CN111309850B (zh) | 一种数据特征提取方法、装置、终端设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |