CN112989872B - 一种目标检测方法以及相关装置 - Google Patents
一种目标检测方法以及相关装置 Download PDFInfo
- Publication number
- CN112989872B CN112989872B CN201911274171.2A CN201911274171A CN112989872B CN 112989872 B CN112989872 B CN 112989872B CN 201911274171 A CN201911274171 A CN 201911274171A CN 112989872 B CN112989872 B CN 112989872B
- Authority
- CN
- China
- Prior art keywords
- pixel point
- pixel
- region
- value
- bounding box
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 119
- 238000012545 processing Methods 0.000 claims abstract description 111
- 238000003709 image segmentation Methods 0.000 claims abstract description 56
- 238000012937 correction Methods 0.000 claims description 124
- 238000000034 method Methods 0.000 claims description 60
- 230000015654 memory Effects 0.000 claims description 56
- 239000011159 matrix material Substances 0.000 claims description 30
- 238000004364 calculation method Methods 0.000 abstract description 16
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000004422 calculation algorithm Methods 0.000 description 24
- 230000006870 function Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 10
- 239000013598 vector Substances 0.000 description 10
- 101100421134 Schizosaccharomyces pombe (strain 972 / ATCC 24843) sle1 gene Proteins 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 238000005259 measurement Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- MHABMANUFPZXEB-UHFFFAOYSA-N O-demethyl-aloesaponarin I Natural products O=C1C2=CC=CC(O)=C2C(=O)C2=C1C=C(O)C(C(O)=O)=C2C MHABMANUFPZXEB-UHFFFAOYSA-N 0.000 description 4
- 239000004065 semiconductor Substances 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 239000000872 buffer Substances 0.000 description 2
- 229910044991 metal oxide Inorganic materials 0.000 description 2
- 150000004706 metal oxides Chemical class 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004148 unit process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种目标检测方法以及相关装置,该目标检测方法包括:获取待检测图像;对待检测图像进行目标检测处理,生成第一边界框;对待检测图像进行图像分割处理,生成第一感兴趣区域;根据第一边界框和第一感兴趣区域,确定第一像素区域,第一像素区域内仅包含部分第一边界框或部分第一感兴趣区域;根据第一像素区域校正第一边界框,确定第二边界框。使用图像分割得到的感兴趣区域,校正目标检测所得到的边界框。提高边界框的边沿准确度。相比现有的目标检测技术,融合图像分割结果和目标检测结果,在不增加过多算力开销的基础上,提高检测结果可靠性。
Description
技术领域
本申请涉及图像处理领域,尤其涉及一种目标检测方法以及相关装置。
背景技术
图像分割(image segmentation)是根据图像内容对指定区域进行标记的计算机视觉任务,简言之,对图像中的特定内容进行标记并进行分割。更具体地讲,其图像分割的目的在于标记图片中每一个像素,并将每一个像素分成各个具有相应特性的类别。通常将图像分割得到的包含特定内容的像素区域称为感兴趣区域(region of interest,ROI)。
目标检测(object detection)是标记图像中所有感兴趣的区域,确定它们的位置和大小,是机器视觉领域的核心问题之一。目标检测通常使用边界框(bounding box,bbox)标记图像中感兴趣的区域,边界框是一种像素坐标下的虚拟矩形框,它包围了图像上被检测到的物体,如道路上的行人和车辆等。例如,通过车载摄像头采集的路面图像,在该路面图像中,使用边界框标记车辆对应的区域,行人对应的区域等等。
现有技术中,目标检测容易受到图像中噪声的影响,目标检测所得到的边界框的边沿,相较于实际目标所对应的区域,存在误差较大的问题。
发明内容
本申请实施例提供了一种目标检测方法以及相关装置,使用图像分割得到的感兴趣区域,校正目标检测所得到的边界框。提高边界框的边沿准确度。
第一方面,本申请实施例提出了一种目标检测方法,包括:
通过图像传感器获取待检测图像,该待检测图像中包括至少一个目标对象,该图像传感器可以是红外线图像传感器、可见光图像传感器或雷达图像传感器中的一种或多种。也可以通过图库获取待检测图像,该图库中包括预先存储的一张或多张图。目标对象可以包括路面目标,例如:行人、车辆、交通信号等等;对该待检测图像进行目标检测处理,生成至少一个第一边界框,该第一边界框为第一置信度大于第一阈值的像素点集合,该第一置信度指示当前像素区域为该目标对象的概率,该第一置信度对应于该目标对象。目标检测装置通过目标检测算法,例如“YOLO(you only look once)”算法或“SSD(single shotmultibox detector)”算法等等,对该待检测图像进行目标检测,对具体的算法类型不作限制。该第一置信度为预先设置的对应于目标对象的置信度。第一检测框为第一置信度大于第一阈值的像素点集合。对于一个边界框,存在一个第一置信度;对该待检测图像进行图像分割处理,生成至少一个第一感兴趣区域,该第一感兴趣区域为第二置信度大于其它置信度的像素点集合,该第二置信度和该其它置信度为该图像分割处理输出的像素点的置信度,该第二置信度指示当前像素区域为该目标对象的概率。当目标检测装置对待检测图像进行图像分割处理时,使用不同的置信度标记图像中不同类别的对象。例如:目标对象为汽车的置信度称为第二置信度,除了目标对象以外的其它事物的置信度称为其它置信度,例如树木/行人等对象的置信度称为其它置信度。第一感兴趣区域为像素点的第二置信度大于其它置信度的像素点集合。进行图像分割处理时,会输出对应于每个像素点的第二置信度和其它置信度;根据该第一边界框和该第一感兴趣区域,确定第一像素区域,该第一像素区域内仅包含部分该第一边界框或部分该第一感兴趣区域;根据该第一像素区域校正该第一边界框,确定第二边界框。
本申请实施例中,使用图像分割得到的感兴趣区域,校正目标检测所得到的边界框。提高边界框的边沿准确度。相比现有的目标检测技术,融合图像分割结果和目标检测结果,在不增加过多算力开销的基础上,提高检测结果可靠性。
结合第一方面,在一些实现方式中,该根据该第一边界框和该第一感兴趣区域,确定该第一像素区域,可以包括:
首先确定该第一边界框包括的第一像素点,该第一像素点为该第一边界框中横坐标值和/或纵坐标值为最值的像素点。例如,第一像素点为第一边界框最大横坐标值的像素点(第一边界框右边沿的像素点),或第一像素点为第一边界框最大纵坐标值的像素点(第一边界框下边沿的像素点),或第一像素点为第一边界框最大横坐标值且最大纵坐标值的像素点(第一边界框右下角端点的像素点);其次,确定该第一感兴趣区域包括的第二像素点,该第二像素点为该第一感兴趣区域中横坐标值和/或纵坐标值为最值的像素点。例如,第二像素点为第一感兴趣区域最大横坐标值的像素点(第一感兴趣区域右边沿的像素点),或第二像素点为第一感兴趣区域最大纵坐标值的像素点(第一感兴趣区域下边沿的像素点),或第二像素点为第一感兴趣区域最大横坐标值且最大纵坐标值的像素点(第一感兴趣区域右下角端点的像素点);再次,根据该第一像素点和该第二像素点的坐标值,确定第一像素区域。通过对待处理图像建立坐标系,为根据该待处理图像生成的边界框与感兴趣区域的各个像素点标记对应的坐标。便于确定第一像素区域在待处理图像中的位置。
结合第一方面,在一些实现方式中,该根据该第一像素区域校正该第一边界框,确定该第二边界框,可以包括:
当该第一像素区域仅包括部分该第一感兴趣区域,且,该第二像素点的纵坐标值大于该第一像素点的纵坐标值,且,该第二像素点为该第一感兴趣区域中纵坐标值为最大值的像素点,该第一像素点为该第一边界框中纵坐标值为最大值的像素点时,确定该第二像素点的纵坐标值至该第一像素点的纵坐标值范围内,该第一像素区域中,每一行像素点集合中像素点的最大的该第二置信度;对该每一行像素点集合中最大的该第二置信度求和,确定垂直校正量;根据该垂直校正量,确定该第二边界框。
结合第一方面,在一些实现方式中,该根据该第一像素区域校正该第一边界框,确定该第二边界框,可以包括:
当该第一像素区域仅包括部分该第一感兴趣区域,且,该第二像素点的纵坐标值小于该第一像素点的纵坐标值,且,该第二像素点为该第一感兴趣区域中纵坐标值为最小值的像素点,该第一像素点为该第一边界框中纵坐标值为最小值的像素点时,确定该第二像素点的纵坐标值至该第一像素点的纵坐标值范围内,该第一像素区域中,每一行像素点集合中像素点的最大的该第二置信度;对该每一行像素点集合中最大的该第二置信度求和,确定垂直校正量;根据该垂直校正量,确定该第二边界框。
结合第一方面,在一些实现方式中,该根据该第一像素区域校正该第一边界框,确定该第二边界框,可以包括:
当该第一像素区域仅包括部分该第一感兴趣区域,且,该第二像素点的横坐标值大于该第一像素点的横坐标值,且,该第二像素点为该第一感兴趣区域中横坐标值为最大值的像素点,该第一像素点为该第一边界框中横坐标值为最大值的像素点时,确定该第二像素点的横坐标值至该第一像素点的横坐标值范围内,该第一像素区域中,每一列像素点集合中像素点的最大的该第二置信度;对该每一列像素点集合中最大的该第二置信度求和,确定水平校正量;根据该水平校正量,确定该第二边界框。
结合第一方面,在一些实现方式中,该根据该第一像素区域校正该第一边界框,确定该第二边界框,可以包括:
当该第一像素区域仅包括部分该第一感兴趣区域,且,该第二像素点的横坐标值小于该第一像素点的横坐标值,且,该第二像素点为该第一感兴趣区域中横坐标值为最小值的像素点,该第一像素点为该第一边界框中横坐标值为最小值的像素点时,确定该第二像素点的横坐标值至该第一像素点的横坐标值范围内,该第一像素区域中,每一列像素点集合中像素点的最大的该第二置信度;对该每一列像素点集合中最大的该第二置信度求和,确定水平校正量;根据该水平校正量,确定该第二边界框。
结合第一方面,在一些实现方式中,该每一列像素点集合中像素点的最大的该第二置信度大于最大的该第一置信度,和/或,该每一行像素点集合中像素点的最大的该第二置信度大于最大的该第一置信度。
结合第一方面,在一些实现方式中,该垂直校正量满足:
其中,该Y为该垂直校正量,该为该第一像素点的纵坐标值,该/>为该第二像素点的纵坐标值,该/>为该第一边界框中横坐标值的最小值,该/>为该第一边界框中横坐标值的最大值,该Pij seg为该第一感兴趣区域内像素点的该第二置信度,该i为该每一行像素点集合中像素点的横坐标,该j为该每一行像素点集合中像素点的纵坐标,该为该每一行像素点集合中像素点的最大的该第二置信度,该jPij seg为该每一行像素点集合中像素点的该第二置信度,该Pbbox为该第一置信度,该/>为该每一列像素点集合中像素点的最大的该第二置信度大于最大的该第一置信度。
结合第一方面,在一些实现方式中,该根据该第一像素区域校正该第一边界框,确定该第二边界框,可以包括:当该第一像素区域仅包括部分该第一边界框,且,该第一像素点的纵坐标值大于该第二像素点的纵坐标值,且,该第二像素点为该第一感兴趣区域中纵坐标值为最大值的像素点,该第一像素点为该第一边界框中纵坐标值为最大值的像素点时,确定该第一像素点的纵坐标值至该第二像素点的纵坐标值范围内,该第一像素区域中,每一行像素点集合中像素点的最大的第三置信度,该第三置信度指示当前像素区域为非该目标对象的概率;对该每一行像素点集合中最大的该第三置信度求和,确定垂直校正量;根据该垂直校正量,确定该第二边界框。
结合第一方面,在一些实现方式中,该根据该第一像素区域校正该第一边界框,确定该第二边界框,可以包括:
当该第一像素区域仅包括部分该第一边界框,且,该第一像素点的纵坐标值小于该第二像素点的纵坐标值,且,该第二像素点为该第一感兴趣区域中纵坐标值为最小值的像素点,该第一像素点为该第一边界框中纵坐标值为最小值的像素点时,确定该第一像素点的纵坐标值至该第二像素点的纵坐标值范围内,该第一像素区域中,每一行像素点集合中像素点的最大的第三置信度,该第三置信度指示当前像素区域为非该目标对象的概率;对该每一行像素点集合中最大的该第三置信度求和,确定垂直校正量;根据该垂直校正量,确定该第二边界框。
结合第一方面,在一些实现方式中,该根据该第一像素区域校正该第一边界框,确定该第二边界框,可以包括:
当该第一像素区域仅包括部分该第一边界框,且,该第一像素点的横坐标值大于该第二像素点的横坐标值,且,该第二像素点为该第一感兴趣区域中横坐标值为最大值的像素点,该第一像素点为该第一边界框中横坐标值为最大值的像素点时,确定该第二像素点的横坐标值至该第一像素点的横坐标值范围内,该第一像素区域中,每一列像素点集合中像素点的最大的第三置信度,该第三置信度指示当前像素区域为非该目标对象的概率;对该每一列像素点集合中最大的该第三置信度求和,确定水平校正量;根据该水平校正量,确定该第二边界框。
结合第一方面,在一些实现方式中,该根据该第一像素区域校正该第一边界框,确定该第二边界框,可以包括:
当该第一像素区域仅包括部分该第一边界框,且,该第一像素点的横坐标值小于该第二像素点的横坐标值,且,该第二像素点为该第一感兴趣区域中横坐标值为最小值的像素点,该第一像素点为该第一边界框中横坐标值为最小值的像素点时,确定该第二像素点的横坐标值至该第一像素点的横坐标值范围内,该第一像素区域中,每一列像素点集合中像素点的最大的第三置信度,该第三置信度指示当前像素区域为非该目标对象的概率;对该每一列像素点集合中最大的该第三置信度求和,确定水平校正量;根据该水平校正量,确定该第二边界框。
结合第一方面,在一些实现方式中,该每一列像素点集合中像素点的最大的该第三置信度大于最大的该第一置信度,和/或,该每一行像素点集合中像素点的最大的该第三置信度大于最大的该第一置信度。
结合第一方面,在一些实现方式中,该垂直校正量满足:
其中,该Y为该垂直校正量,该为该第一像素点的纵坐标值,该/>为该第二像素点的纵坐标值,该/>为该第一边界框中横坐标值的最小值,该/>为该第一边界框中横坐标值的最大值,该Pij seg为该第一感兴趣区域内像素点的该第二置信度,该i为该每一行像素点集合中像素点的横坐标,该j为该每一行像素点集合中像素点的纵坐标,该为该每一行像素点集合中像素点的最大的该第三置信度,该j(1-Pij seg)为该每一行像素点集合中像素点的该第三置信度,该Pbbox为该第一置信度,该为该每一列像素点集合中像素点的最大的该第三置信度大于最大的该第一置信度。
结合第一方面,在一些实现方式中,该根据该第一边界框和该第一感兴趣区域,确定该第一像素区域之前,还可以包括:
对边界框集合与感兴趣区域集合进行匹配处理,确定该边界框集合与该感兴趣区域集合中任一边界框与任一感兴趣区域像素点的重合率,其中,该边界框集合中包括至少一个该第一边界框,该感兴趣区域集合中包括至少一个该第一感兴趣区域;根据该任一边界框与该任一感兴趣区域的重合率,确定该边界框集合与该感兴趣区域集合的重合率矩阵;确定当重合率矩阵的总重合率最大时,相互匹配的边界框与感兴趣区域。将其中一对相互匹配的边界框和感兴趣区域,称为第一边界框和第一感兴趣区域。匹配算法可以是匈牙利算法(hungarian algorithm),也可以是其它匹配算法,此处不作限定。通过计算边界框集合与感兴趣区域集合中任一边界框与任一感兴趣区域像素点的重合率,由这些重合率构成重合率矩阵,并使用匹配算法确定该重合率矩阵中总重合率最大时感兴趣区域与边界框的匹配情况。使得边界框集合中的边界框,与感兴趣区域集合中的感兴趣区域在总重合率最高的情况下,相互匹配。降低后续确定第一像素点区域以及校正第一边界框的工作量,节省目标检测装置的计算资源。
结合第一方面,在一些实现方式中,该第一像素区域与该第一边界框满足:该第一像素区域的最大水平距离与该第一边界框的最大水平距离之比小于或等于第二阈值,和/或,该第一像素区域的最大垂直距离与该第一边界框的最大垂直距离之比小于或等于该第二阈值,其中,该最大水平距离为像素点的横坐标的最大值与最小值的差值,该最大垂直距离为像素点的纵坐标的最大值与最小值的差值。可选的,该第二阈值可以是0.2。第一像素区域与该第一边界框之间的偏离程度较小(小于或等于第二阈值)的情况下,才根据第一像素区域校正第一边界框,节省目标检测装置的计算资源,避免在偏离程度较大的情况下,仍然浪费计算资源进行校正。
第二方面,本申请实施例提出一种目标检测装置,该目标检测装置包括:
获取模块,用于获取待检测图像,该待检测图像中包括至少一个目标对象;
处理模块,用于对该待检测图像进行目标检测处理,生成至少一个第一边界框,该第一边界框为第一置信度大于第一阈值的像素点集合,该第一置信度指示当前像素区域为该目标对象的概率,该第一置信度对应于该目标对象;
该处理模块,还用于对该待检测图像进行图像分割处理,生成至少一个第一感兴趣区域,该第一感兴趣区域为第二置信度大于其它置信度的像素点集合,该第二置信度和该其它置信度为该图像分割处理输出的像素点的置信度,该第二置信度指示当前像素区域为该目标对象的概率;
确定模块,用于根据该第一边界框和该第一感兴趣区域,确定第一像素区域,该第一像素区域内仅包含部分该第一边界框或部分该第一感兴趣区域;
该确定模块,还用于根据该第一像素区域校正该第一边界框,确定第二边界框。
本申请实施例中,目标检测装置包括:获取模块、处理模块以及确定模块;获取模块,用于获取待检测图像,该待检测图像中包括至少一个目标对象;处理模块,用于对获取模块获取的该待检测图像进行目标检测处理,生成至少一个第一边界框,该第一边界框为第一置信度大于第一阈值的像素点集合,该第一置信度指示当前像素区域为该目标对象的概率,该第一置信度对应于该目标对象;该处理模块,还用于对获取模块获取的该待检测图像进行图像分割处理,生成至少一个第一感兴趣区域,该第一感兴趣区域为第二置信度大于其它置信度的像素点集合,该第二置信度和该其它置信度为该图像分割处理输出的像素点的置信度,该第二置信度指示当前像素区域为该目标对象的概率;确定模块,用于根据处理模块生成的该第一边界框和处理模块生成的该第一感兴趣区域,确定第一像素区域,该第一像素区域内仅包含部分该第一边界框或部分该第一感兴趣区域;该确定模块,还用于根据确定模块确定的该第一像素区域校正处理模块生成的该第一边界框,确定第二边界框。使用图像分割得到的感兴趣区域,校正目标检测所得到的边界框。提高边界框的边沿准确度。相比现有的目标检测技术,融合图像分割结果和目标检测结果,在不增加过多算力开销的基础上,提高检测结果可靠性。对于每次图像分割处理与目标检测处理,还可以通过先验、加权以及滤波等多种处理方式,提升处理结果的可靠性,进而提升第二边界框的进而提升准确度和稳定性。提高行人、车辆等目标对象的检测精度,为测速测距等后续环节提供更准确的输入。
结合第二方面,在一些实现方式中,
该确定模块,具体用于确定该第一边界框包括的第一像素点,该第一像素点为该第一边界框中横坐标值和/或纵坐标值为最值的像素点,其中,确定该待检测图像的任意一个端点为原点,并以该原点建立坐标系;
该确定模块,具体用于确定该第一感兴趣区域包括的第二像素点,该第二像素点为该第一感兴趣区域中横坐标值和/或纵坐标值为最值的像素点;
该确定模块,具体用于根据该第一像素点和该第二像素点的坐标值,确定该第一像素区域。
结合第二方面,在一些实现方式中,
该确定模块,具体用于当该第一像素区域仅包括部分该第一感兴趣区域,且,该第二像素点的纵坐标值大于该第一像素点的纵坐标值,且,该第二像素点为该第一感兴趣区域中纵坐标值为最大值的像素点,该第一像素点为该第一边界框中纵坐标值为最大值的像素点时,
确定该第二像素点的纵坐标值至该第一像素点的纵坐标值范围内,该第一像素区域中,每一行像素点集合中像素点的最大的该第二置信度;
该确定模块,具体用于对该每一行像素点集合中最大的该第二置信度求和,确定垂直校正量;
该确定模块,具体用于根据该垂直校正量,确定该第二边界框。
结合第二方面,在一些实现方式中,
该确定模块,具体用于当该第一像素区域仅包括部分该第一感兴趣区域,且,该第二像素点的纵坐标值小于该第一像素点的纵坐标值,且,该第二像素点为该第一感兴趣区域中纵坐标值为最小值的像素点,该第一像素点为该第一边界框中纵坐标值为最小值的像素点时,
该确定模块,具体用于确定该第二像素点的纵坐标值至该第一像素点的纵坐标值范围内,该第一像素区域中,每一行像素点集合中像素点的最大的该第二置信度;
该确定模块,具体用于对该每一行像素点集合中最大的该第二置信度求和,确定垂直校正量;
该确定模块,具体用于根据该垂直校正量,确定该第二边界框。
结合第二方面,在一些实现方式中,
该确定模块,具体用于当该第一像素区域仅包括部分该第一感兴趣区域,且,该第二像素点的横坐标值大于该第一像素点的横坐标值,且,该第二像素点为该第一感兴趣区域中横坐标值为最大值的像素点,该第一像素点为该第一边界框中横坐标值为最大值的像素点时,
该确定模块,具体用于确定该第二像素点的横坐标值至该第一像素点的横坐标值范围内,该第一像素区域中,每一列像素点集合中像素点的最大的该第二置信度;
该确定模块,具体用于对该每一列像素点集合中最大的该第二置信度求和,确定水平校正量;
该确定模块,具体用于根据该水平校正量,确定该第二边界框。
结合第二方面,在一些实现方式中,
该确定模块,具体用于当该第一像素区域仅包括部分该第一感兴趣区域,且,该第二像素点的横坐标值小于该第一像素点的横坐标值,且,该第二像素点为该第一感兴趣区域中横坐标值为最小值的像素点,该第一像素点为该第一边界框中横坐标值为最小值的像素点时,
该确定模块,具体用于确定该第二像素点的横坐标值至该第一像素点的横坐标值范围内,该第一像素区域中,每一列像素点集合中像素点的最大的该第二置信度;
该确定模块,具体用于对该每一列像素点集合中最大的该第二置信度求和,确定水平校正量;
该确定模块,具体用于根据该水平校正量,确定该第二边界框。
结合第二方面,在一些实现方式中,该每一列像素点集合中像素点的最大的该第二置信度大于最大的该第一置信度,和/或,该每一行像素点集合中像素点的最大的该第二置信度大于最大的该第一置信度。
结合第二方面,在一些实现方式中,该垂直校正量满足:
其中,该Y为该垂直校正量,该为该第一像素点的纵坐标值,该/>为该第二像素点的纵坐标值,该/>为该第一边界框中横坐标值的最小值,该/>为该第一边界框中横坐标值的最大值,该Pij seg为该第一感兴趣区域内像素点的该第二置信度,该i为该每一行像素点集合中像素点的横坐标,该j为该每一行像素点集合中像素点的纵坐标,该为该每一行像素点集合中像素点的最大的该第二置信度,该jPij seg为该每一行像素点集合中像素点的该第二置信度,该Pbbox为该第一置信度,该/>为该每一列像素点集合中像素点的最大的该第二置信度大于最大的该第一置信度。
结合第二方面,在一些实现方式中,
该确定模块,具体用于当该第一像素区域仅包括部分该第一边界框,且,该第一像素点的纵坐标值大于该第二像素点的纵坐标值,且,该第二像素点为该第一感兴趣区域中纵坐标值为最大值的像素点,该第一像素点为该第一边界框中纵坐标值为最大值的像素点时,
该确定模块,具体用于确定该第一像素点的纵坐标值至该第二像素点的纵坐标值范围内,该第一像素区域中,每一行像素点集合中像素点的最大的第三置信度,该第三置信度指示当前像素区域为非该目标对象的概率;
该确定模块,具体用于对该每一行像素点集合中最大的该第三置信度求和,确定垂直校正量;
该确定模块,具体用于根据该垂直校正量,确定该第二边界框。
结合第二方面,在一些实现方式中,
该确定模块,具体用于当该第一像素区域仅包括部分该第一边界框,且,该第一像素点的纵坐标值小于该第二像素点的纵坐标值,且,该第二像素点为该第一感兴趣区域中纵坐标值为最小值的像素点,该第一像素点为该第一边界框中纵坐标值为最小值的像素点时,
该确定模块,具体用于确定该第一像素点的纵坐标值至该第二像素点的纵坐标值范围内,该第一像素区域中,每一行像素点集合中像素点的最大的第三置信度,该第三置信度指示当前像素区域为非该目标对象的概率;
该确定模块,具体用于对该每一行像素点集合中最大的该第三置信度求和,确定垂直校正量;
该确定模块,具体用于根据该垂直校正量,确定该第二边界框。
结合第二方面,在一些实现方式中,
该确定模块,具体用于当该第一像素区域仅包括部分该第一边界框,且,该第一像素点的横坐标值大于该第二像素点的横坐标值,且,该第二像素点为该第一感兴趣区域中横坐标值为最大值的像素点,该第一像素点为该第一边界框中横坐标值为最大值的像素点时,
该确定模块,具体用于确定该第二像素点的横坐标值至该第一像素点的横坐标值范围内,该第一像素区域中,每一列像素点集合中像素点的最大的第三置信度,该第三置信度指示当前像素区域为非该目标对象的概率;
该确定模块,具体用于对该每一列像素点集合中最大的该第三置信度求和,确定水平校正量;
该确定模块,具体用于根据该水平校正量,确定该第二边界框。
结合第二方面,在一些实现方式中,
该确定模块,具体用于当该第一像素区域仅包括部分该第一边界框,且,该第一像素点的横坐标值小于该第二像素点的横坐标值,且,该第二像素点为该第一感兴趣区域中横坐标值为最小值的像素点,该第一像素点为该第一边界框中横坐标值为最小值的像素点时,
该确定模块,具体用于确定该第二像素点的横坐标值至该第一像素点的横坐标值范围内,该第一像素区域中,每一列像素点集合中像素点的最大的第三置信度,该第三置信度指示当前像素区域为非该目标对象的概率;
该确定模块,具体用于对该每一列像素点集合中最大的该第三置信度求和,确定水平校正量;
该确定模块,具体用于根据该水平校正量,确定该第二边界框。
结合第二方面,在一些实现方式中,该每一列像素点集合中像素点的最大的该第三置信度大于最大的该第一置信度,和/或,该每一行像素点集合中像素点的最大的该第三置信度大于最大的该第一置信度。
结合第二方面,在一些实现方式中,该垂直校正量满足:
其中,该Y为该垂直校正量,该为该第一像素点的纵坐标值,该/>为该第二像素点的纵坐标值,该/>为该第一边界框中横坐标值的最小值,该/>为该第一边界框中横坐标值的最大值,该Pij seg为该第一感兴趣区域内像素点的该第二置信度,该i为该每一行像素点集合中像素点的横坐标,该j为该每一行像素点集合中像素点的纵坐标,该为该每一行像素点集合中像素点的最大的该第三置信度,该j(1-Pij seg)为该每一行像素点集合中像素点的该第三置信度,该Pbbox为该第一置信度,该为该每一列像素点集合中像素点的最大的该第三置信度大于最大的该第一置信度。
结合第二方面,在一些实现方式中,
该确定模块,还用于对边界框集合与感兴趣区域集合进行匹配处理,确定该边界框集合与该感兴趣区域集合中任一边界框与任一感兴趣区域像素点的重合率,其中,该边界框集合中包括至少一个该第一边界框,该感兴趣区域集合中包括至少一个该第一感兴趣区域;
该确定模块,还用于根据该任一边界框与该任一感兴趣区域的重合率,确定该边界框集合与该感兴趣区域集合的重合率矩阵;
该确定模块,还用于当该重合率矩阵的总重合率最大时,确定该第一边界框与该第一感兴趣区域匹配。
结合第二方面,在一些实现方式中,该第一像素区域与该第一边界框满足:
该第一像素区域的最大水平距离与该第一边界框的最大水平距离之比小于或等于第二阈值,和/或,该第一像素区域的最大垂直距离与该第一边界框的最大垂直距离之比小于或等于该第二阈值,其中,该最大水平距离为像素点的横坐标的最大值与最小值的差值,该最大垂直距离为像素点的纵坐标的最大值与最小值的差值。
第三方面,本申请实施例提供了一种目标检测装置,该目标检测装置包括至少一个处理器和存储器,该存储器中存储有可在处理器上运行的计算机指令,当该计算机指令被该处理器执行时,该处理器执行如上述第一方面或第一方面任意一种可能的实现方式该的方法。
第四方面,本申请实施例提供了一种终端设备,该终端设备包括至少一个处理器、存储器、通信端口、显示器以及存储在存储器中并可在处理器上运行的计算机执行指令,当该计算机执行指令被该处理器执行时,该处理器执行如上述第一方面或第一方面任意一种可能的实现方式该的方法。
第五方面,本申请实施例提供了一种存储一个或多个计算机执行指令的计算机可读存储介质,当该计算机执行指令被处理器执行时,该处理器执行如上述第一方面或第一方面任意一种可能的实现方式该的方法。
第六方面,本申请实施例提供一种存储一个或多个计算机执行指令的计算机程序产品(或称计算机程序),当该计算机执行指令被该处理器执行时,该处理器执行上述第一方面或第一方面任意一种可能实现方式的方法。
第七方面,本申请提供了一种芯片系统,该芯片系统包括处理器,用于支持终端设备实现上述方面中所涉及的功能。在一种可能的设计中,该芯片系统还包括存储器,该存储器,用于保存终端设备必要的程序指令和数据。该芯片系统,可以由芯片构成,也可以包括芯片和其他分立器件。
第八方面,本申请实施例提供了一种汽车,该汽车包括至少一个处理器、存储器、通信端口、图像传感器以及存储在存储器中并可在处理器上运行的计算机执行指令,当该计算机执行指令被该处理器执行时,该处理器执行如上述第一方面或第一方面任意一种可能的实现方式该的方法。
其中,第二至第八方面或者其中任一种可能实现方式所带来的技术效果可参见第一方面或第一方面不同可能实现方式所带来的技术效果,此处不再赘述。
从以上技术方案可以看出,本申请实施例具有以下优点:
获取待检测图像,待检测图像中包括至少一个目标对象;对待检测图像进行目标检测处理,生成至少一个第一边界框,第一边界框为第一置信度大于第一阈值的像素点集合,第一置信度指示当前像素区域为目标对象的概率,第一置信度对应于目标对象;对待检测图像进行图像分割处理,生成至少一个第一感兴趣区域,第一感兴趣区域为第二置信度大于其它置信度的像素点集合,第二置信度和其它置信度为图像分割处理输出的像素点的置信度,第二置信度指示当前像素区域为目标对象的概率;根据第一边界框和第一感兴趣区域,确定第一像素区域,第一像素区域内仅包含部分第一边界框或部分第一感兴趣区域;根据第一像素区域校正第一边界框,确定第二边界框。
使用图像分割得到的感兴趣区域,校正目标检测所得到的边界框。提高边界框的边沿准确度。相比现有的目标检测技术,融合图像分割结果和目标检测结果,在不增加过多算力开销的基础上,提高检测结果可靠性。
附图说明
图1为本申请实施例提供的一种应用场景示意图;
图2为本申请实施例提出的一种目标检测方法的实施例示意图;
图3为本申请实施例涉及的待检测图像的示意图;
图4为本申请实施例涉及的一种边界框集合的示意图;
图5为本申请实施例涉及的一种感兴趣区域集合的示意图;
图6为本申请实施例中目标检测装置的一种实施例示意图;
图7是本申请实施例提供的计算设备一种结构示意图;
图8为本申请实施例提供的芯片的一种结构示意图。
具体实施方式
本申请实施例提供了一种目标检测方法以及相关装置,使用图像分割得到的感兴趣区域,校正目标检测所得到的边界框。提高边界框的边沿准确度。
下面结合附图,对本申请的实施例进行描述。本领域普通技术人员可知,随着技术的发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请的说明书和权利要求书及上述附图中的术语“第一”、第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
请参阅图1,图1为本申请实施例提供的一种应用场景示意图。如图1所示,本申请实施例提供的目标检测方法以及相关装置部署于车辆中的场景。具体的,车辆前端部署有图像传感器以及雷达传感器,其中,图像传感器可以为下列图像传感器中的一种或多种,例如:
1)红外线图像传感器(infrared radiation-red green blue image sensor,IR-RGB image sensor),采用电荷耦合器件单元(charge-coupled device,CCD)或标准互补金属氧化物半导体单元(complementary meta-oxide semiconductor,CMOS),通过滤波片滤波,只允许透过彩色波长段和设定的红外波长段的光,在图像信号处理器中分离红外(infrared radiation,IR)图像数据流以及三原色(red green blue,RGB)图像数据流,IR图像数据流为微光环境下得到的图像数据流,分离得到的该两个图像数据流用做其他应用处理。
2)可见光图像传感器,采用CCD单元(charge-coupled device,电荷耦合器件)或标准CMOS单元(complementary meta-oxide semiconductor,互补金属氧化物半导体),获得可见光数据图像。
3)雷达图像传感器,包括:一、毫米波雷达,是工作在毫米波波段(millimeterwav)探测的雷达。通常毫米波是指30~300吉赫(GHz)频域(波长为1~10毫米)的。毫米波的波长介于微波和厘米波之间,因此毫米波雷达兼有微波雷达和光电雷达的一些优点;二、激光雷达,工作在红外和可见光波段的,以激光为工作光束的雷达称为激光雷达。而激光雷达的工作原理是向目标发射探测信号(激光束),然后将接收到的从目标反射回来的信号(目标回波)与发射信号进行比较,作适当处理后,就可获得目标的有关信息,如目标距离、方位、高度、速度、姿态、甚至形状等参数;三、超声波雷达,超声波是指频率高于20千赫兹的机械波。为了以超声波作为检测手段,必须产生超生波和接收超声波。完成这种功能的装置就是超声波雷达。超声波雷达有发送器和接收器,但一个超声波雷达也可具有发送和接收声波的双重作用。超声波雷达是利用压电效应的原理将电能和超声波相互转化,即在发射超声波的时候,将电能转换,发射超声波;而在收到回波的时候,则将超声振动转换成电信号。
图1中,部署于车辆前端的图像传感器可感知如虚线框所示的扇形区域,该扇形区域为图像感知区域,当图像传感器感知到图像感知区域中存在目标对象时(即图像传感器采集该图像感知区域内的图像时),将图像传输至处理单元,由处理单元进行进一步处理。处理单元在接收到图像传感器的图像(也称为待检测图像)后,对该待检测图像进行处理,生成第二边界框。
需要说明的是,图1中的处理单元既可以是独立于图像传感器的计算机或计算机中的软件模块,还可以是部署于图像传感器中的计算机或计算机中的软件模块,此处不作限定。
请参阅图2,图2为本申请实施例提出的一种目标检测方法的实施例示意图。本申请提出的一种目标检测方法包括:
201、获取待检测图像,待检测图像中包括至少一个目标对象。
本实施例中,部署该目标检测方法的目标检测装置,通过图像传感器获取待检测图像。该待检测图像中包括至少一个目标对象。具体的,目标对象可以包括路面目标,例如:行人、车辆、交通信号等等。为了便于理解,请参阅图3,图3为本申请实施例涉及的待检测图像的示意图。
202、对待检测图像进行目标检测处理,生成边界框集合,边界框集合中包括至少一个第一边界框。
本实施例中,目标检测装置对该待检测图像进行目标检测处理,生成边界框集合。由于该待检测图像中包括至少一个目标对象,因此,该边界框集合中包括至少一个第一边界框(bounding box,bbox)。具体的,目标检测装置通过目标检测算法,例如“YOLO(youonly look once)”算法或“SSD(single shot multibox detector)”算法等等,对该待检测图像进行目标检测,对具体的算法类型不作限制。
目标检测装置对图像进行目标检测处理时,可以结合前次目标检测输出的边界框集合的结果,验证本次输出的边界框集合的结果,这一步处理称为先验(prior),例如对视频中各帧图像进行目标检测处理,可以使用前一帧或多帧的目标检测结果作为先验信息,为当前帧进行目标检测处理时提供参考。还可以结合前次目标检测输出的边界框集合的结果与实际图像中包括的目标对象,调整目标检测处理算法中的各项权重,使用新的目标检测处理算法对图像进行目标检测处理,这一步处理称为加权。还可以对本次输出的边界框集合的结果进行滤波处理,去除边界框边沿抖动较大的边界框结果。通过上述处理,提升输出的第一边界框的边缘准确度。
为了便于理解,请参阅图4,图4为本申请实施例涉及的一种边界框集合的示意图。目标检测装置对图3所示的待检测图像进行目标检测处理后,生成的边界框集合如图4所示,图4中包括“1”、“2”和“3”三个边界框。分别对应于图3中的3个汽车图像对应的像素区域。当目标检测装置对待检测图像进行目标检测处理时,检测到这三个图像区域中,像素点的第一置信度大于第一阈值。该第一置信度为预先设置的对应于目标对象的置信度,在本实施例中,以该目标对象设置为汽车为例进行介绍。该第一置信度指示当前像素点对应的像素区域为目标对象的概率,当像素点的第一置信度大于第一阈值时,可确定该像素点对应的区域为汽车。该第一阈值的具体数值此处不作限定,在一种可选的实现方式中,第一阈值可以是0.8。第一检测框为第一置信度大于第一阈值的像素点集合。对于一个边界框,存在一个第一置信度。
203、对待检测图像进行图像分割处理,生成感兴趣区域集合,感兴趣区域集合中包括至少一个第一感兴趣区域。
本实施例中,目标检测装置对待检测图像进行图像分割处理,生成感兴趣区域集合。由于该待检测图像中包括至少一个目标对象,因此,该感兴趣区域集合中包括至少一个第一感兴趣区域(region of interest,ROI)。
为了便于理解,请参阅图5,图5为本申请实施例涉及的一种感兴趣区域集合的示意图。目标检测装置对图3所示的待检测图像进行图像分割处理后,生成的感兴趣区域集合如图5所示。图5中包括“1”、“2”、“3”和“4”四个感兴趣区域。当目标检测装置对待检测图像进行图像分割处理时,使用不同的置信度标记图像中不同类别的对象,例如:A置信度为行人的置信度,A置信度的大小指示当前像素区域为行人的概率;B置信度为树木的置信度,B置信度的大小指示当前像素区域为树木的概率,以此类推。在本实施例中,将图像分割处理时,目标对象为汽车的置信度称为第二置信度,除了目标对象以外的其它事物的置信度称为其它置信度,例如树木/行人等对象的置信度称为其它置信度。例如:当任意一个像素点的第二置信度(汽车)为0.7,而该像素点的其它置信度为0.3时,可以确定该像素点对应的像素区域为汽车。第一感兴趣区域为像素点的第二置信度大于其它置信度的像素点集合。进行图像分割处理时,会输出对应于每个像素点的第二置信度和其它置信度。
可选的,图像分割装置对图像进行图像分割处理时,可以结合前次图像分割输出的感兴趣区域集合的结果,验证本次输出的感兴趣区域集合的结果,这一步处理称为先验(prior),例如对视频中各帧图像进行图像分割处理,可以使用前一帧或多帧的图像分割处理结果作为先验信息,为当前帧进行图像分割处理时提供参考。还可以结合前次图像分割输出的感兴趣区域集合的结果与实际图像中包括的目标对象,调整图像分割处理算法中的各项权重,使用新的图像分割处理算法对图像进行图像分割处理,这一步处理称为加权。还可以对本次输出的感兴趣区域集合的结果进行滤波处理。通过上述处理,提升输出的第一感兴趣区域的边缘准确度。
需要说明的是,步骤203与步骤202的执行顺序此处不作限定,既可以先执行步骤202,后执行步骤203;也可以先执行步骤203,后执行步骤202。
204、确定边界框集合与感兴趣区域集合中任一边界框与任一感兴趣区域像素点的重合率。
本实施例中,目标检测装置确定边界框集合与感兴趣区域集合中任一边界框与任一感兴趣区域像素点的重合率。为了便于理解,以图4所示的边界框集合和图5所示的感兴趣区域集合为例进行说明。图4所示的边界框集合中包括“1”、“2”和“3”三个边界框,为了便于说明,将“1”边界框称为“bbox1”,“2”边界框称为“bbox2”,“3”边界框称为“bbox3”。以此类推,将图5中所示的感兴趣区域集合中的“1”感兴趣区域称为“seg1”、“2”感兴趣区域称为“seg2”、“3”感兴趣区域称为“seg3”和“4”感兴趣区域称为“seg4”。
首先,确定待检测图像的任意一个端点为原点,并以原点建立坐标系。以图3为例,以左上角的端点为原点,水平方向向右横坐标值增大,垂直方向向下纵坐标值增大,建立坐标系。
其次,确定边界框集合与感兴趣区域集合中任一边界框与任一感兴趣区域像素点的重合率,具体如下:以“bbox1”和“seg1”为例,将“bbox1”所有像素点的坐标与“seg1”所有像素点的坐标进行对比,记录“bbox1”与“seg1”像素点坐标一致的像素点数量(也称为重叠像素点的数量)。
再次,将“bbox1”与“seg1”像素点坐标一致的像素点数量,除以“bbox1”中总的像素点的数量(也就是“bbox1”的面积),所得结果即为“bbox1”与“seg1”的重合率。
示例性的,以图4所示的边界框集合和图5所示的感兴趣区域集合为例。三个边界框与四个感兴趣区域之间,每个边界框与每个感兴趣区域之间需要计算一次重合率,一共需要进行12次计算。计算结果如下:“bbox1”和“seg1”:重合率0.95;“bbox1”和“seg2”:没有重叠像素点,重合率0;“bbox1”和“seg3”:没有重叠像素点,重合率0;“bbox1”和“seg4”:没有重叠像素点,重合率0;“bbox2”和“seg1”:没有重叠像素点,重合率0;“bbox2”和“seg2”:重合率0.89;“bbox2”和“seg3”:重合率0.1;“bbox2”和“seg4”:没有重叠像素点,重合率0;“bbox3”和“seg1”:没有重叠像素点,重合率0;“bbox3”和“seg2”:没有重叠像素点,重合率0;“bbox3”和“seg3”:没有重叠像素点,重合率0;“bbox3”和“seg4”:重合率0.5。
205、根据任一边界框与任一感兴趣区域的重合率,确定边界框集合与感兴趣区域集合的重合率矩阵。
本实施例中,根据任一边界框与任一感兴趣区域的重合率,确定边界框集合与感兴趣区域集合的重合率矩阵。
示例性的,以图4所示的边界框集合和图5所示的感兴趣区域集合为例。得到如表1所示的重合率矩阵:
seg1 | seg2 | seg3 | seg4 | |
bbox1 | 0.95 | 0 | 0 | 0 |
bbox2 | 0 | 0.89 | 0.1 | 0 |
bbox3 | 0 | 0 | 0 | 0.5 |
表1
206、当重合率矩阵的总重合率最大时,确定第一边界框与第一感兴趣区域匹配。
本实施例中,通过匹配算法处理步骤205得到的重合率矩阵,确定当重合率矩阵的总重合率最大时,相互匹配的边界框与感兴趣区域。本实施例中,将其中一对相互匹配的边界框和感兴趣区域,称为第一边界框和第一感兴趣区域。匹配算法可以是匈牙利算法(hungarian algorithm),也可以是其它匹配算法,此处不作限定。
207、根据第一边界框和第一感兴趣区域,确定第一像素区域。
本实施例中,目标检测装置根据第一边界框和第一感兴趣区域,确定第一像素区域,第一像素区域内仅包含部分第一边界框或部分第一感兴趣区域。
具体的,首先确定该第一边界框包括的第一像素点,该第一像素点为该第一边界框中横坐标值和/或纵坐标值为最值的像素点。例如,第一像素点为第一边界框最大横坐标值的像素点(第一边界框右边沿的像素点),或第一像素点为第一边界框最大纵坐标值的像素点(第一边界框下边沿的像素点),或第一像素点为第一边界框最大横坐标值且最大纵坐标值的像素点(第一边界框右下角端点的像素点);
其次,确定该第一感兴趣区域包括的第二像素点,该第二像素点为该第一感兴趣区域中横坐标值和/或纵坐标值为最值的像素点。例如,第二像素点为第一感兴趣区域最大横坐标值的像素点(第一感兴趣区域右边沿的像素点),或第二像素点为第一感兴趣区域最大纵坐标值的像素点(第一感兴趣区域下边沿的像素点),或第二像素点为第一感兴趣区域最大横坐标值且最大纵坐标值的像素点(第一感兴趣区域右下角端点的像素点);
再次,根据该第一像素点和该第二像素点的坐标值,确定第一像素区域。
208、检测第一像素区域与第一边界框的偏离程度。
本实施例中,目标检测装置确定第一像素区域后,检测第一像素区域与第一边界框的偏离程度。具体的,检测第一像素区域与第一边界框是否满足如下条件:该第一像素区域的最大水平距离与该第一边界框的最大水平距离之比小于或等于第二阈值,和/或,该第一像素区域的最大垂直距离与该第一边界框的最大垂直距离之比小于或等于该第二阈值,其中,该最大水平距离为像素点的横坐标的最大值与最小值的差值,该最大垂直距离为像素点的纵坐标的最大值与最小值的差值。可选地,第二阈值可以是0.2,第二阈值根据实际需求确定,此处对第二阈值的具体数值不做限制。
需要说明的是,步骤208为可选步骤,当不执行步骤208时,执行完毕步骤207后,执行步骤209。
209、根据第一像素区域校正第一边界框,确定第二边界框。
本实施例中,目标检测装置根据第一像素区域校正第一边界框,确定垂直校正量和/或水平校正量。最终根据垂直校正量和/或水平校正量,以及第一边界框,确定第二边界框。下面,依据第一像素区域仅包括第一边界框或仅包括第一感兴趣区域分别进行说明。
(1)、第一像素区域仅包括第一感兴趣区域:
一、当第一像素区域仅包括部分第一感兴趣区域,且,第二像素点的纵坐标值大于第一像素点的纵坐标值,且,第二像素点为第一感兴趣区域中纵坐标值为最大值的像素点,第一像素点为第一边界框中纵坐标值为最大值的像素点时,确定第二像素点的纵坐标值至第一像素点的纵坐标值范围内,第一像素区域中,每一行像素点集合中像素点的最大的第二置信度,每一行像素点集合中像素点的最大的第二置信度大于最大的第一置信度;
对每一行像素点集合中最大的第二置信度求和,确定垂直校正量。
二、当第一像素区域仅包括部分第一感兴趣区域,且,第二像素点的纵坐标值小于第一像素点的纵坐标值,且,第二像素点为第一感兴趣区域中纵坐标值为最小值的像素点,第一像素点为第一边界框中纵坐标值为最小值的像素点时,确定第二像素点的纵坐标值至第一像素点的纵坐标值范围内,第一像素区域中,每一行像素点集合中像素点的最大的第二置信度;
对每一行像素点集合中最大的第二置信度求和,确定垂直校正量,每一行像素点集合中像素点的最大的第二置信度大于最大的第一置信度。
三、当第一像素区域仅包括部分第一感兴趣区域,且,第二像素点的横坐标值大于第一像素点的横坐标值,且,第二像素点为第一感兴趣区域中横坐标值为最大值的像素点,第一像素点为第一边界框中横坐标值为最大值的像素点时,确定第二像素点的横坐标值至第一像素点的横坐标值范围内,第一像素区域中,每一列像素点集合中像素点的最大的第二置信度,每一列像素点集合中像素点的最大的第二置信度大于最大的第一置信度;
对每一列像素点集合中最大的第二置信度求和,确定水平校正量。
四、当第一像素区域仅包括部分第一感兴趣区域,且,第二像素点的横坐标值小于第一像素点的横坐标值,且,第二像素点为第一感兴趣区域中横坐标值为最小值的像素点,第一像素点为第一边界框中横坐标值为最小值的像素点时,确定第二像素点的横坐标值至第一像素点的横坐标值范围内,第一像素区域中,每一列像素点集合中像素点的最大的第二置信度;
对每一列像素点集合中最大的第二置信度求和,确定水平校正量,每一列像素点集合中像素点的最大的第二置信度大于最大的第一置信度。
其中,垂直校正量满足:
其中,Y为垂直校正量,为第一像素点的纵坐标值,/>为第二像素点的纵坐标值,/>为第一边界框中横坐标值的最小值,/>为第一边界框中横坐标值的最大值,Pij seg为第一感兴趣区域内像素点的第二置信度,i为每一行像素点集合中像素点的横坐标,j为每一行像素点集合中像素点的纵坐标,/>为每一行像素点集合中像素点的最大的第二置信度,jPij seg为每一行像素点集合中像素点的第二置信度,Pbbox为第一置信度,/>为每一列像素点集合中像素点的最大的第二置信度大于最大的第一置信度。
(2)、第一像素区域仅包括第一边界框:
五、当第一像素区域仅包括部分第一边界框,且,第一像素点的纵坐标值大于第二像素点的纵坐标值,且,第二像素点为第一感兴趣区域中纵坐标值为最大值的像素点,第一像素点为第一边界框中纵坐标值为最大值的像素点时,确定第一像素点的纵坐标值至第二像素点的纵坐标值范围内,第一像素区域中,每一行像素点集合中像素点的最大的第三置信度,第三置信度指示当前像素区域为非目标对象的概率;
对每一行像素点集合中最大的第三置信度求和,确定垂直校正量,每一行像素点集合中像素点的最大的第三置信度大于最大的第一置信度。
六、当第一像素区域仅包括部分第一边界框,且,第一像素点的纵坐标值小于第二像素点的纵坐标值,且,第二像素点为第一感兴趣区域中纵坐标值为最小值的像素点,第一像素点为第一边界框中纵坐标值为最小值的像素点时,确定第一像素点的纵坐标值至第二像素点的纵坐标值范围内,第一像素区域中,每一行像素点集合中像素点的最大的第三置信度,第三置信度指示当前像素区域为非目标对象的概率;
对每一行像素点集合中最大的第三置信度求和,确定垂直校正量,每一行像素点集合中像素点的最大的第三置信度大于最大的第一置信度。
七、当第一像素区域仅包括部分第一边界框,且,第一像素点的横坐标值大于第二像素点的横坐标值,且,第二像素点为第一感兴趣区域中横坐标值为最大值的像素点,第一像素点为第一边界框中横坐标值为最大值的像素点时,确定第二像素点的横坐标值至第一像素点的横坐标值范围内,第一像素区域中,每一列像素点集合中像素点的最大的第三置信度,第三置信度指示当前像素区域为非目标对象的概率;
对每一列像素点集合中最大的第三置信度求和,确定水平校正量,每一列像素点集合中像素点的最大的第三置信度大于最大的第一置信度。
八、当第一像素区域仅包括部分第一边界框,且,第一像素点的横坐标值小于第二像素点的横坐标值,且,第二像素点为第一感兴趣区域中横坐标值为最小值的像素点,第一像素点为第一边界框中横坐标值为最小值的像素点时,确定第二像素点的横坐标值至第一像素点的横坐标值范围内,第一像素区域中,每一列像素点集合中像素点的最大的第三置信度,第三置信度指示当前像素区域为非目标对象的概率;
对每一列像素点集合中最大的第三置信度求和,确定水平校正量,每一列像素点集合中像素点的最大的第三置信度大于最大的第一置信度。
其中,垂直校正量满足:
其中,Y为垂直校正量,为第一像素点的纵坐标值,/>为第二像素点的纵坐标值,/>为第一边界框中横坐标值的最小值,/>为第一边界框中横坐标值的最大值,Pij seg为第一感兴趣区域内像素点的第二置信度,i为每一行像素点集合中像素点的横坐标,j为每一行像素点集合中像素点的纵坐标,/>为每一行像素点集合中像素点的最大的第三置信度,j(1-Pij seg)为每一行像素点集合中像素点的第三置信度,Pbbox为第一置信度,/>为每一列像素点集合中像素点的最大的第三置信度大于最大的第一置信度。
当确定水平校正量和/或垂直校正量后,在第一边界框的水平坐标范围和/或垂直坐标范围的基础上,根据该水平校正量和/或该垂直校正量,确定第二边界框的各个端点的坐标。
本申请实施例中,使用图像分割得到的感兴趣区域,校正目标检测所得到的边界框。提高边界框的边沿准确度。相比现有的目标检测技术,融合图像分割结果和目标检测结果,在不增加过多算力开销的基础上,提高检测结果可靠性。对于每次图像分割处理与目标检测处理,还可以通过先验、加权以及滤波等多种处理方式,提升处理结果的可靠性,进而提升第二边界框的进而提升准确度和稳定性。提高行人、车辆等目标对象的检测精度,为测速测距等后续环节提供更准确的输入。
上述主要以方法的角度对本申请实施例提供的方案进行了介绍。可以理解的是,上述目标检测装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对目标检测装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个确定模块603中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
下面对本申请中的目标检测装置进行详细描述,请参阅图6,图6为本申请实施例中目标检测装置的一种实施例示意图。目标检测装置60包括:获取模块601、处理模块602以及确定模块603;
获取模块601,用于获取待检测图像,该待检测图像中包括至少一个目标对象;
处理模块602,用于对获取模块601获取的该待检测图像进行目标检测处理,生成至少一个第一边界框,该第一边界框为第一置信度大于第一阈值的像素点集合,该第一置信度指示当前像素区域为该目标对象的概率,该第一置信度对应于该目标对象;
该处理模块602,还用于对获取模块601获取的该待检测图像进行图像分割处理,生成至少一个第一感兴趣区域,该第一感兴趣区域为第二置信度大于其它置信度的像素点集合,该第二置信度和该其它置信度为该图像分割处理输出的像素点的置信度,该第二置信度指示当前像素区域为该目标对象的概率;
确定模块603,用于根据处理模块602生成的该第一边界框和处理模块602生成的该第一感兴趣区域,确定第一像素区域,该第一像素区域内仅包含部分该第一边界框或部分该第一感兴趣区域;
该确定模块603,还用于根据确定模块603确定的该第一像素区域校正处理模块602生成的该第一边界框,确定第二边界框。
在本申请的一些实施例中,
该确定模块603,具体用于确定处理模块602生成的该第一边界框包括的第一像素点,该第一像素点为该第一边界框中横坐标值和/或纵坐标值为最值的像素点,其中,确定该待检测图像的任意一个端点为原点,并以该原点建立坐标系;
该确定模块603,具体用于确定处理模块602生成的该第一感兴趣区域包括的第二像素点,该第二像素点为该第一感兴趣区域中横坐标值和/或纵坐标值为最值的像素点;
该确定模块603,具体用于根据确定该第一像素点和该第二像素点的坐标值,确定该第一像素区域。
在本申请的一些实施例中,
该确定模块603,具体用于当该第一像素区域仅包括部分该第一感兴趣区域,且,该第二像素点的纵坐标值大于该第一像素点的纵坐标值,且,该第二像素点为该第一感兴趣区域中纵坐标值为最大值的像素点,该第一像素点为该第一边界框中纵坐标值为最大值的像素点时,
确定该第二像素点的纵坐标值至该第一像素点的纵坐标值范围内,该第一像素区域中,每一行像素点集合中像素点的最大的该第二置信度;
该确定模块603,具体用于对该每一行像素点集合中最大的该第二置信度求和,确定垂直校正量;
该确定模块603,具体用于根据该垂直校正量,确定该第二边界框。
在本申请的一些实施例中,
该确定模块603,具体用于当该第一像素区域仅包括部分该第一感兴趣区域,且,该第二像素点的纵坐标值小于该第一像素点的纵坐标值,且,该第二像素点为该第一感兴趣区域中纵坐标值为最小值的像素点,该第一像素点为该第一边界框中纵坐标值为最小值的像素点时,
该确定模块603,具体用于确定该第二像素点的纵坐标值至该第一像素点的纵坐标值范围内,该第一像素区域中,每一行像素点集合中像素点的最大的该第二置信度;
该确定模块603,具体用于对该每一行像素点集合中最大的该第二置信度求和,确定垂直校正量;
该确定模块603,具体用于根据该垂直校正量,确定该第二边界框。
在本申请的一些实施例中,
该确定模块603,具体用于当该第一像素区域仅包括部分该第一感兴趣区域,且,该第二像素点的横坐标值大于该第一像素点的横坐标值,且,该第二像素点为该第一感兴趣区域中横坐标值为最大值的像素点,该第一像素点为该第一边界框中横坐标值为最大值的像素点时,
该确定模块603,具体用于确定该第二像素点的横坐标值至该第一像素点的横坐标值范围内,该第一像素区域中,每一列像素点集合中像素点的最大的该第二置信度;
该确定模块603,具体用于对该每一列像素点集合中最大的该第二置信度求和,确定水平校正量;
该确定模块603,具体用于根据该水平校正量,确定该第二边界框。
在本申请的一些实施例中,
该确定模块603,具体用于当该第一像素区域仅包括部分该第一感兴趣区域,且,该第二像素点的横坐标值小于该第一像素点的横坐标值,且,该第二像素点为该第一感兴趣区域中横坐标值为最小值的像素点,该第一像素点为该第一边界框中横坐标值为最小值的像素点时,
该确定模块603,具体用于确定该第二像素点的横坐标值至该第一像素点的横坐标值范围内,该第一像素区域中,每一列像素点集合中像素点的最大的该第二置信度;
该确定模块603,具体用于对该每一列像素点集合中最大的该第二置信度求和,确定水平校正量;
该确定模块603,具体用于根据该水平校正量,确定该第二边界框。
在本申请的一些实施例中,该每一列像素点集合中像素点的最大的该第二置信度大于最大的该第一置信度,和/或,该每一行像素点集合中像素点的最大的该第二置信度大于最大的该第一置信度。
在本申请的一些实施例中,该垂直校正量满足:
其中,该Y为该垂直校正量,该为该第一像素点的纵坐标值,该/>为该第二像素点的纵坐标值,该/>为该第一边界框中横坐标值的最小值,该/>为该第一边界框中横坐标值的最大值,该Pij seg为该第一感兴趣区域内像素点的该第二置信度,该i为该每一行像素点集合中像素点的横坐标,该j为该每一行像素点集合中像素点的纵坐标,该为该每一行像素点集合中像素点的最大的该第二置信度,该jPij seg为该每一行像素点集合中像素点的该第二置信度,该Pbbox为该第一置信度,该/>为该每一列像素点集合中像素点的最大的该第二置信度大于最大的该第一置信度。
在本申请的一些实施例中,
该确定模块603,具体用于当该第一像素区域仅包括部分该第一边界框,且,该第一像素点的纵坐标值大于该第二像素点的纵坐标值,且,该第二像素点为该第一感兴趣区域中纵坐标值为最大值的像素点,该第一像素点为该第一边界框中纵坐标值为最大值的像素点时,
该确定模块603,具体用于确定该第一像素点的纵坐标值至该第二像素点的纵坐标值范围内,该第一像素区域中,每一行像素点集合中像素点的最大的第三置信度,该第三置信度指示当前像素区域为非该目标对象的概率;
该确定模块603,具体用于对该每一行像素点集合中最大的该第三置信度求和,确定垂直校正量;
该确定模块603,具体用于根据该垂直校正量,确定该第二边界框。
在本申请的一些实施例中,
该确定模块603,具体用于当该第一像素区域仅包括部分该第一边界框,且,该第一像素点的纵坐标值小于该第二像素点的纵坐标值,且,该第二像素点为该第一感兴趣区域中纵坐标值为最小值的像素点,该第一像素点为该第一边界框中纵坐标值为最小值的像素点时,
该确定模块603,具体用于确定该第一像素点的纵坐标值至该第二像素点的纵坐标值范围内,该第一像素区域中,每一行像素点集合中像素点的最大的第三置信度,该第三置信度指示当前像素区域为非该目标对象的概率;
该确定模块603,具体用于对该每一行像素点集合中最大的该第三置信度求和,确定垂直校正量;
该确定模块603,具体用于根据该垂直校正量,确定该第二边界框。
在本申请的一些实施例中,
该确定模块603,具体用于当该第一像素区域仅包括部分该第一边界框,且,该第一像素点的横坐标值大于该第二像素点的横坐标值,且,该第二像素点为该第一感兴趣区域中横坐标值为最大值的像素点,该第一像素点为该第一边界框中横坐标值为最大值的像素点时,
该确定模块603,具体用于确定该第二像素点的横坐标值至该第一像素点的横坐标值范围内,该第一像素区域中,每一列像素点集合中像素点的最大的第三置信度,该第三置信度指示当前像素区域为非该目标对象的概率;
该确定模块603,具体用于对该每一列像素点集合中最大的该第三置信度求和,确定水平校正量;
该确定模块603,具体用于根据该水平校正量,确定该第二边界框。
在本申请的一些实施例中,
该确定模块603,具体用于当该第一像素区域仅包括部分该第一边界框,且,该第一像素点的横坐标值小于该第二像素点的横坐标值,且,该第二像素点为该第一感兴趣区域中横坐标值为最小值的像素点,该第一像素点为该第一边界框中横坐标值为最小值的像素点时,
该确定模块603,具体用于确定该第二像素点的横坐标值至该第一像素点的横坐标值范围内,该第一像素区域中,每一列像素点集合中像素点的最大的第三置信度,该第三置信度指示当前像素区域为非该目标对象的概率;
该确定模块603,具体用于对该每一列像素点集合中最大的该第三置信度求和,确定水平校正量;
该确定模块603,具体用于根据该水平校正量,确定该第二边界框。
在本申请的一些实施例中,该每一列像素点集合中像素点的最大的该第三置信度大于最大的该第一置信度,和/或,该每一行像素点集合中像素点的最大的该第三置信度大于最大的该第一置信度。
在本申请的一些实施例中,该垂直校正量满足:
其中,该Y为该垂直校正量,该为该第一像素点的纵坐标值,该/>为该第二像素点的纵坐标值,该/>为该第一边界框中横坐标值的最小值,该/>为该第一边界框中横坐标值的最大值,该Pij seg为该第一感兴趣区域内像素点的该第二置信度,该i为该每一行像素点集合中像素点的横坐标,该j为该每一行像素点集合中像素点的纵坐标,该为该每一行像素点集合中像素点的最大的该第三置信度,该j(1-Pij seg)为该每一行像素点集合中像素点的该第三置信度,该Pbbox为该第一置信度,该为该每一列像素点集合中像素点的最大的该第三置信度大于最大的该第一置信度。
在本申请的一些实施例中,
该确定模块603,还用于对处理模块602生成的边界框集合与处理模块602生成的感兴趣区域集合进行匹配处理,确定该边界框集合与该感兴趣区域集合中任一边界框与任一感兴趣区域像素点的重合率,其中,该边界框集合中包括至少一个该第一边界框,该感兴趣区域集合中包括至少一个该第一感兴趣区域;
该确定模块603,还用于根据该任一边界框与该任一感兴趣区域的重合率,确定该边界框集合与该感兴趣区域集合的重合率矩阵;
该确定模块603,还用于当确定模块603确定该重合率矩阵的总重合率最大时,确定该第一边界框与该第一感兴趣区域匹配。
在本申请的一些实施例中,该第一像素区域与该第一边界框满足:
该第一像素区域的最大水平距离与该第一边界框的最大水平距离之比小于或等于第二阈值,和/或,该第一像素区域的最大垂直距离与该第一边界框的最大垂直距离之比小于或等于该第二阈值,其中,该最大水平距离为像素点的横坐标的最大值与最小值的差值,该最大垂直距离为像素点的纵坐标的最大值与最小值的差值。
在本申请的一些实施例中,获取模块601可以执行如图2所示的实施例中步骤201;生成模块602可以执行如图2所示的实施例中步骤202以及步骤203;确定模块603可以执行如图2所示的实施例中步骤204-207;确定模块603可以执行如图2所示的实施例中步骤209。
通过前述实施例的举例说明可知,本申请实施例中,目标检测装置60包括:获取模块601、处理模块602以及确定模块603;获取模块601,用于获取待检测图像,该待检测图像中包括至少一个目标对象;处理模块602,用于对获取模块601获取的该待检测图像进行目标检测处理,生成至少一个第一边界框,该第一边界框为第一置信度大于第一阈值的像素点集合,该第一置信度指示当前像素区域为该目标对象的概率,该第一置信度对应于该目标对象;该处理模块602,还用于对获取模块601获取的该待检测图像进行图像分割处理,生成至少一个第一感兴趣区域,该第一感兴趣区域为第二置信度大于其它置信度的像素点集合,该第二置信度和该其它置信度为该图像分割处理输出的像素点的置信度,该第二置信度指示当前像素区域为该目标对象的概率;确定模块603,用于根据处理模块602生成的该第一边界框和处理模块602生成的该第一感兴趣区域,确定第一像素区域,该第一像素区域内仅包含部分该第一边界框或部分该第一感兴趣区域;该确定模块603,还用于根据确定模块603确定的该第一像素区域校正处理模块602生成的该第一边界框,确定第二边界框。使用图像分割得到的感兴趣区域,校正目标检测所得到的边界框。提高边界框的边沿准确度。相比现有的目标检测技术,融合图像分割结果和目标检测结果,在不增加过多算力开销的基础上,提高检测结果可靠性。对于每次图像分割处理与目标检测处理,还可以通过先验、加权以及滤波等多种处理方式,提升处理结果的可靠性,进而提升第二边界框的进而提升准确度和稳定性。提高行人、车辆等目标对象的检测精度,为测速测距等后续环节提供更准确的输入。
本申请实施例还提供了一种计算设备,请参阅图7,图7是本申请实施例提供的计算设备一种结构示意图,计算设备700上可以部署有图6对应实施例中所描述的目标检测装置60,用于实现图6对应实施例中目标检测装置的功能,具体的,计算设备700可以是云计算设备系统、终端设备或边缘计算设备系统中的一个计算设备。需要说明的是,目标检测装置60可以部署在计算设备700上以实现前述目标检测装置实现的功能。计算设备700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)722(例如,一个或一个以上处理器)和存储器732,一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对计算设备中的一系列指令操作。更进一步地,中央处理器722可以设置为与存储介质730通信,在计算设备700上执行存储介质730中的一系列指令操作。
计算设备700还可以包括一个或一个以上电源726,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口758,和/或,一个或一个以上操作系统741,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本申请实施例中,中央处理器722,用于执行前述描述的目标检测方法。
需要说明的是,中央处理器722执行上述各个步骤的具体方式,与本申请中前述各个方法实施例基于同一构思,其带来的技术效果与本申请中前述各个方法实施例相同,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
应注意,本申请实施例中的处理器可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
可以理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DR RAM)。应注意,本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本申请实施例中还提供一种包括计算机程序产品,当其在计算机上运行时,使得计算机执行如前述实施例描述的方法中目标检测装置所执行的步骤。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有用于进行目标检测处理与图像分割处理的程序,当其在计算机上运行时,使得计算机执行如前述实施例描述的方法中目标检测装置所执行的步骤。
本申请实施例还提供一种芯片,芯片包括:处理单元和通信单元,该处理单元例如可以是处理器,该通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令,以使执行设备内的芯片执行上述实施例描述的构建训练集的方法。可选地,该存储单元为该芯片内的存储单元,如寄存器、缓存等,该存储单元还可以是该目标检测装置内的位于该芯片外部的存储单元,如只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(randomaccess memory,RAM)等。
具体的,请参阅图8,图8为本申请实施例提供的芯片的一种结构示意图,该芯片可以表现为神经网络处理器NPU 800,NPU 800作为协处理器挂载到主CPU(Host CPU)上,由Host CPU分配任务。NPU的核心部分为运算电路803,通过控制器804控制运算电路803提取存储器中的矩阵数据并进行乘法运算。
在一些实现中,运算电路803内部包括多个处理单元(Process Engine,PE)。在一些实现中,运算电路803是二维脉动阵列。运算电路803还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中,运算电路803是通用的矩阵处理器。
举例来说,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路从权重存储器802中取矩阵B相应的数据,并缓存在运算电路中每一个PE上。运算电路从输入存储器801中取矩阵A数据与矩阵B进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器(accumulator)808中。
统一存储器806用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(Direct Memory Access Controller,DMAC)805,DMAC被搬运到权重存储器802中。输入数据也通过DMAC被搬运到统一存储器806中。
BIU为Bus Interface Unit即,总线接口单元810,用于AXI总线与DMAC和取指存储器(Instruction Fetch Buffer,IFB)809的交互。
总线接口单元810(Bus Interface Unit,简称BIU),用于取指存储器809从外部存储器获取指令,还用于存储单元访问控制器805从外部存储器获取输入矩阵A或者权重矩阵B的原数据。
DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器806或将权重数据搬运到权重存储器802中或将输入数据数据搬运到输入存储器801中。
向量计算单元807包括多个运算处理单元,在需要的情况下,对运算电路的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。主要用于神经网络中非卷积/全连接层网络计算,如Batch Normalization(批归一化),像素级求和,对特征平面进行上采样等。
在一些实现中,向量计算单元807能将经处理的输出的向量存储到统一存储器806。例如,向量计算单元807可以将线性函数和/或非线性函数应用到运算电路803的输出,例如对卷积层提取的特征平面进行线性插值,再例如累加值的向量,用以生成激活值。在一些实现中,向量计算单元807生成归一化的值、像素级求和的值,或二者均有。在一些实现中,处理过的输出的向量能够用作到运算电路803的激活输入,例如用于在神经网络中的后续层中的使用。
控制器804连接的取指存储器(instruction fetch buffer)809,用于存储控制器804使用的指令;
统一存储器806,输入存储器801,权重存储器802以及取指存储器809均为On-Chip存储器。外部存储器私有于该NPU硬件架构。
其中,图2所示的图像分割处理与目标检测处理中各层的运算可以由运算电路803或向量计算单元807执行。
其中,上述任一处提到的处理器,可以是一个通用中央处理器,微处理器,ASIC,或一个或多个用于控制上述第一方面方法的程序执行的集成电路。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本申请提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令用以使得一台计算机设备执行本申请各个实施例所述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、目标检测装置、计算设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、目标检测装置、计算设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
另外,本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应理解,在本申请实施例中,“与A相应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。
总之,以上所述仅为本申请技术方案的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (38)
1.一种目标检测方法,其特征在于,包括:
获取待检测图像,所述待检测图像中包括至少一个目标对象;
对所述待检测图像进行目标检测处理,生成至少一个第一边界框,所述第一边界框为第一置信度大于第一阈值的像素点集合,所述第一置信度指示当前像素区域为所述目标对象的概率,所述第一置信度对应于所述目标对象;
对所述待检测图像进行图像分割处理,生成至少一个第一感兴趣区域,所述第一感兴趣区域为第二置信度大于其它置信度的像素点集合,所述第二置信度和所述其它置信度为所述图像分割处理输出的像素点的置信度,所述第二置信度指示当前像素区域为所述目标对象的概率;
根据所述第一边界框和所述第一感兴趣区域,确定第一像素区域,所述第一像素区域内仅包含部分所述第一边界框或部分所述第一感兴趣区域;
根据所述第一像素区域校正所述第一边界框,确定第二边界框。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一边界框和所述第一感兴趣区域,确定所述第一像素区域,包括:
确定所述第一边界框包括的第一像素点,所述第一像素点为所述第一边界框中横坐标值和/或纵坐标值为最值的像素点,其中,确定所述待检测图像的任意一个端点为原点,并以所述原点建立坐标系;
确定所述第一感兴趣区域包括的第二像素点,所述第二像素点为所述第一感兴趣区域中横坐标值和/或纵坐标值为最值的像素点;
根据所述第一像素点和所述第二像素点的坐标值,确定所述第一像素区域。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一像素区域校正所述第一边界框,确定所述第二边界框,包括:
当所述第一像素区域仅包括部分所述第一感兴趣区域,且,所述第二像素点的纵坐标值大于所述第一像素点的纵坐标值,且,所述第二像素点为所述第一感兴趣区域中纵坐标值为最大值的像素点,所述第一像素点为所述第一边界框中纵坐标值为最大值的像素点时,
确定所述第二像素点的纵坐标值至所述第一像素点的纵坐标值范围内,所述第一像素区域中,每一行像素点集合中像素点的最大的所述第二置信度;
对所述每一行像素点集合中最大的所述第二置信度求和,确定垂直校正量;
根据所述垂直校正量,确定所述第二边界框。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第一像素区域校正所述第一边界框,确定所述第二边界框,包括:
当所述第一像素区域仅包括部分所述第一感兴趣区域,且,所述第二像素点的纵坐标值小于所述第一像素点的纵坐标值,且,所述第二像素点为所述第一感兴趣区域中纵坐标值为最小值的像素点,所述第一像素点为所述第一边界框中纵坐标值为最小值的像素点时,
确定所述第二像素点的纵坐标值至所述第一像素点的纵坐标值范围内,所述第一像素区域中,每一行像素点集合中像素点的最大的所述第二置信度;
对所述每一行像素点集合中最大的所述第二置信度求和,确定垂直校正量;
根据所述垂直校正量,确定所述第二边界框。
5.根据权利要求2所述的方法,其特征在于,所述根据所述第一像素区域校正所述第一边界框,确定所述第二边界框,包括:
当所述第一像素区域仅包括部分所述第一感兴趣区域,且,所述第二像素点的横坐标值大于所述第一像素点的横坐标值,且,所述第二像素点为所述第一感兴趣区域中横坐标值为最大值的像素点,所述第一像素点为所述第一边界框中横坐标值为最大值的像素点时,
确定所述第二像素点的横坐标值至所述第一像素点的横坐标值范围内,所述第一像素区域中,每一列像素点集合中像素点的最大的所述第二置信度;
对所述每一列像素点集合中最大的所述第二置信度求和,确定水平校正量;
根据所述水平校正量,确定所述第二边界框。
6.根据权利要求2所述的方法,其特征在于,所述根据所述第一像素区域校正所述第一边界框,确定所述第二边界框,包括:
当所述第一像素区域仅包括部分所述第一感兴趣区域,且,所述第二像素点的横坐标值小于所述第一像素点的横坐标值,且,所述第二像素点为所述第一感兴趣区域中横坐标值为最小值的像素点,所述第一像素点为所述第一边界框中横坐标值为最小值的像素点时,
确定所述第二像素点的横坐标值至所述第一像素点的横坐标值范围内,所述第一像素区域中,每一列像素点集合中像素点的最大的所述第二置信度;
对所述每一列像素点集合中最大的所述第二置信度求和,确定水平校正量;
根据所述水平校正量,确定所述第二边界框。
7.根据权利要求5-6中任一项所述的方法,其特征在于,所述每一列像素点集合中像素点的最大的所述第二置信度大于最大的所述第一置信度。
8.根据权利要求3-4中任一项所述的方法,其特征在于,所述每一行像素点集合中像素点的最大的所述第二置信度大于最大的所述第一置信度。
9.根据权利要求8所述的方法,其特征在于,所述垂直校正量满足:
其中,所述Y为所述垂直校正量,所述为所述第一像素点的纵坐标值,所述/>为所述第二像素点的纵坐标值,所述/>为所述第一边界框中横坐标值的最小值,所述/>为所述第一边界框中横坐标值的最大值,所述Pij seg为所述第一感兴趣区域内像素点的所述第二置信度,所述i为所述每一行像素点集合中像素点的横坐标,所述j为所述每一行像素点集合中像素点的纵坐标,所述/>为所述每一行像素点集合中像素点的最大的所述第二置信度,所述jPijseg为所述每一行像素点集合中像素点的所述第二置信度,所述Pbbox为所述第一置信度,所述/>为每一列像素点集合中像素点的最大的所述第二置信度大于最大的所述第一置信度。
10.根据权利要求2所述的方法,其特征在于,所述根据所述第一像素区域校正所述第一边界框,确定所述第二边界框,包括:
当所述第一像素区域仅包括部分所述第一边界框,且,所述第一像素点的纵坐标值大于所述第二像素点的纵坐标值,且,所述第二像素点为所述第一感兴趣区域中纵坐标值为最大值的像素点,所述第一像素点为所述第一边界框中纵坐标值为最大值的像素点时,
确定所述第一像素点的纵坐标值至所述第二像素点的纵坐标值范围内,所述第一像素区域中,每一行像素点集合中像素点的最大的第三置信度,所述第三置信度指示当前像素区域为非所述目标对象的概率;
对所述每一行像素点集合中最大的所述第三置信度求和,确定垂直校正量;
根据所述垂直校正量,确定所述第二边界框。
11.根据权利要求2所述的方法,其特征在于,所述根据所述第一像素区域校正所述第一边界框,确定所述第二边界框,包括:
当所述第一像素区域仅包括部分所述第一边界框,且,所述第一像素点的纵坐标值小于所述第二像素点的纵坐标值,且,所述第二像素点为所述第一感兴趣区域中纵坐标值为最小值的像素点,所述第一像素点为所述第一边界框中纵坐标值为最小值的像素点时,
确定所述第一像素点的纵坐标值至所述第二像素点的纵坐标值范围内,所述第一像素区域中,每一行像素点集合中像素点的最大的第三置信度,所述第三置信度指示当前像素区域为非所述目标对象的概率;
对所述每一行像素点集合中最大的所述第三置信度求和,确定垂直校正量;
根据所述垂直校正量,确定所述第二边界框。
12.根据权利要求2所述的方法,其特征在于,所述根据所述第一像素区域校正所述第一边界框,确定所述第二边界框,包括:
当所述第一像素区域仅包括部分所述第一边界框,且,所述第一像素点的横坐标值大于所述第二像素点的横坐标值,且,所述第二像素点为所述第一感兴趣区域中横坐标值为最大值的像素点,所述第一像素点为所述第一边界框中横坐标值为最大值的像素点时,
确定所述第二像素点的横坐标值至所述第一像素点的横坐标值范围内,所述第一像素区域中,每一列像素点集合中像素点的最大的第三置信度,所述第三置信度指示当前像素区域为非所述目标对象的概率;
对所述每一列像素点集合中最大的所述第三置信度求和,确定水平校正量;
根据所述水平校正量,确定所述第二边界框。
13.根据权利要求2所述的方法,其特征在于,所述根据所述第一像素区域校正所述第一边界框,确定所述第二边界框,包括:
当所述第一像素区域仅包括部分所述第一边界框,且,所述第一像素点的横坐标值小于所述第二像素点的横坐标值,且,所述第二像素点为所述第一感兴趣区域中横坐标值为最小值的像素点,所述第一像素点为所述第一边界框中横坐标值为最小值的像素点时,
确定所述第二像素点的横坐标值至所述第一像素点的横坐标值范围内,所述第一像素区域中,每一列像素点集合中像素点的最大的第三置信度,所述第三置信度指示当前像素区域为非所述目标对象的概率;
对所述每一列像素点集合中最大的所述第三置信度求和,确定水平校正量;
根据所述水平校正量,确定所述第二边界框。
14.根据权利要求12-13中任一项所述的方法,其特征在于,所述每一列像素点集合中像素点的最大的所述第三置信度大于最大的所述第一置信度。
15.根据权利要求10-11中任一项所述的方法,其特征在于,所述每一行像素点集合中像素点的最大的所述第三置信度大于最大的所述第一置信度。
16.根据权利要求15所述的方法,其特征在于,所述垂直校正量满足:
其中,所述Y为所述垂直校正量,所述为所述第一像素点的纵坐标值,所述/>为所述第二像素点的纵坐标值,所述/>为所述第一边界框中横坐标值的最小值,所述/>为所述第一边界框中横坐标值的最大值,所述Pij seg为所述第一感兴趣区域内像素点的所述第二置信度,所述i为所述每一行像素点集合中像素点的横坐标,所述j为所述每一行像素点集合中像素点的纵坐标,所述/>为所述每一行像素点集合中像素点的最大的所述第三置信度,所述j(1-Pij seg)为所述每一行像素点集合中像素点的所述第三置信度,所述Pbbox为所述第一置信度,所述/>为每一列像素点集合中像素点的最大的所述第三置信度大于最大的所述第一置信度。
17.根据权利要求1-6中任一项所述的方法,其特征在于,所述根据所述第一边界框和所述第一感兴趣区域,确定所述第一像素区域之前,所述方法还包括:
对边界框集合与感兴趣区域集合进行匹配处理,确定所述边界框集合与所述感兴趣区域集合中任一边界框与任一感兴趣区域像素点的重合率,其中,所述边界框集合中包括至少一个所述第一边界框,所述感兴趣区域集合中包括至少一个所述第一感兴趣区域;
根据所述任一边界框与所述任一感兴趣区域的重合率,确定所述边界框集合与所述感兴趣区域集合的重合率矩阵;
当所述重合率矩阵的总重合率最大时,确定所述第一边界框与所述第一感兴趣区域匹配。
18.根据权利要求17所述的方法,其特征在于,所述第一像素区域与所述第一边界框满足:
所述第一像素区域的最大水平距离与所述第一边界框的最大水平距离之比小于或等于第二阈值,和/或,
所述第一像素区域的最大垂直距离与所述第一边界框的最大垂直距离之比小于或等于所述第二阈值,其中,所述最大水平距离为像素点的横坐标的最大值与最小值的差值,所述最大垂直距离为像素点的纵坐标的最大值与最小值的差值。
19.一种目标检测装置,其特征在于,包括:
获取模块,用于获取待检测图像,所述待检测图像中包括至少一个目标对象;
处理模块,用于对所述待检测图像进行目标检测处理,生成至少一个第一边界框,所述第一边界框为第一置信度大于第一阈值的像素点集合,所述第一置信度指示当前像素区域为所述目标对象的概率,所述第一置信度对应于所述目标对象;
所述处理模块,还用于对所述待检测图像进行图像分割处理,生成至少一个第一感兴趣区域,所述第一感兴趣区域为第二置信度大于其它置信度的像素点集合,所述第二置信度和所述其它置信度为所述图像分割处理输出的像素点的置信度,所述第二置信度指示当前像素区域为所述目标对象的概率;
确定模块,用于根据所述第一边界框和所述第一感兴趣区域,确定第一像素区域,所述第一像素区域内仅包含部分所述第一边界框或部分所述第一感兴趣区域;
所述确定模块,还用于根据所述第一像素区域校正所述第一边界框,确定第二边界框。
20.根据权利要求19所述的装置,其特征在于,
所述确定模块,具体用于确定所述第一边界框包括的第一像素点,所述第一像素点为所述第一边界框中横坐标值和/或纵坐标值为最值的像素点,其中,确定所述待检测图像的任意一个端点为原点,并以所述原点建立坐标系;
所述确定模块,具体用于确定所述第一感兴趣区域包括的第二像素点,所述第二像素点为所述第一感兴趣区域中横坐标值和/或纵坐标值为最值的像素点;
所述确定模块,具体用于根据所述第一像素点和所述第二像素点的坐标值,确定所述第一像素区域。
21.根据权利要求20所述的装置,其特征在于,
所述确定模块,具体用于当所述第一像素区域仅包括部分所述第一感兴趣区域,且,所述第二像素点的纵坐标值大于所述第一像素点的纵坐标值,且,所述第二像素点为所述第一感兴趣区域中纵坐标值为最大值的像素点,所述第一像素点为所述第一边界框中纵坐标值为最大值的像素点时,
确定所述第二像素点的纵坐标值至所述第一像素点的纵坐标值范围内,所述第一像素区域中,每一行像素点集合中像素点的最大的所述第二置信度;
所述确定模块,具体用于对所述每一行像素点集合中最大的所述第二置信度求和,确定垂直校正量;
所述确定模块,具体用于根据所述垂直校正量,确定所述第二边界框。
22.根据权利要求20所述的装置,其特征在于,
所述确定模块,具体用于当所述第一像素区域仅包括部分所述第一感兴趣区域,且,所述第二像素点的纵坐标值小于所述第一像素点的纵坐标值,且,所述第二像素点为所述第一感兴趣区域中纵坐标值为最小值的像素点,所述第一像素点为所述第一边界框中纵坐标值为最小值的像素点时,
所述确定模块,具体用于确定所述第二像素点的纵坐标值至所述第一像素点的纵坐标值范围内,所述第一像素区域中,每一行像素点集合中像素点的最大的所述第二置信度;
所述确定模块,具体用于对所述每一行像素点集合中最大的所述第二置信度求和,确定垂直校正量;
所述确定模块,具体用于根据所述垂直校正量,确定所述第二边界框。
23.根据权利要求20所述的装置,其特征在于,
所述确定模块,具体用于当所述第一像素区域仅包括部分所述第一感兴趣区域,且,所述第二像素点的横坐标值大于所述第一像素点的横坐标值,且,所述第二像素点为所述第一感兴趣区域中横坐标值为最大值的像素点,所述第一像素点为所述第一边界框中横坐标值为最大值的像素点时,
所述确定模块,具体用于确定所述第二像素点的横坐标值至所述第一像素点的横坐标值范围内,所述第一像素区域中,每一列像素点集合中像素点的最大的所述第二置信度;
所述确定模块,具体用于对所述每一列像素点集合中最大的所述第二置信度求和,确定水平校正量;
所述确定模块,具体用于根据所述水平校正量,确定所述第二边界框。
24.根据权利要求20所述的装置,其特征在于,
所述确定模块,具体用于当所述第一像素区域仅包括部分所述第一感兴趣区域,且,所述第二像素点的横坐标值小于所述第一像素点的横坐标值,且,所述第二像素点为所述第一感兴趣区域中横坐标值为最小值的像素点,所述第一像素点为所述第一边界框中横坐标值为最小值的像素点时,
所述确定模块,具体用于确定所述第二像素点的横坐标值至所述第一像素点的横坐标值范围内,所述第一像素区域中,每一列像素点集合中像素点的最大的所述第二置信度;
所述确定模块,具体用于对所述每一列像素点集合中最大的所述第二置信度求和,确定水平校正量;
所述确定模块,具体用于根据所述水平校正量,确定所述第二边界框。
25.根据权利要求23-24中任一项所述的装置,其特征在于,所述每一列像素点集合中像素点的最大的所述第二置信度大于最大的所述第一置信度。
26.根据权利要求21-22中任一项所述的装置,其特征在于,所述每一行像素点集合中像素点的最大的所述第二置信度大于最大的所述第一置信度。
27.根据权利要求26所述的装置,其特征在于,所述垂直校正量满足:
其中,所述Y为所述垂直校正量,所述为所述第一像素点的纵坐标值,所述/>为所述第二像素点的纵坐标值,所述/>为所述第一边界框中横坐标值的最小值,所述/>为所述第一边界框中横坐标值的最大值,所述Pij seg为所述第一感兴趣区域内像素点的所述第二置信度,所述i为所述每一行像素点集合中像素点的横坐标,所述j为所述每一行像素点集合中像素点的纵坐标,所述/>为所述每一行像素点集合中像素点的最大的所述第二置信度,所述jPij seg为所述每一行像素点集合中像素点的所述第二置信度,所述Pbbox为所述第一置信度,所述/>为每一列像素点集合中像素点的最大的所述第二置信度大于最大的所述第一置信度。
28.根据权利要求20所述的装置,其特征在于,
所述确定模块,具体用于当所述第一像素区域仅包括部分所述第一边界框,且,所述第一像素点的纵坐标值大于所述第二像素点的纵坐标值,且,所述第二像素点为所述第一感兴趣区域中纵坐标值为最大值的像素点,所述第一像素点为所述第一边界框中纵坐标值为最大值的像素点时,
所述确定模块,具体用于确定所述第一像素点的纵坐标值至所述第二像素点的纵坐标值范围内,所述第一像素区域中,每一行像素点集合中像素点的最大的第三置信度,所述第三置信度指示当前像素区域为非所述目标对象的概率;
所述确定模块,具体用于对所述每一行像素点集合中最大的所述第三置信度求和,确定垂直校正量;
所述确定模块,具体用于根据所述垂直校正量,确定所述第二边界框。
29.根据权利要求20所述的装置,其特征在于,
所述确定模块,具体用于当所述第一像素区域仅包括部分所述第一边界框,且,所述第一像素点的纵坐标值小于所述第二像素点的纵坐标值,且,所述第二像素点为所述第一感兴趣区域中纵坐标值为最小值的像素点,所述第一像素点为所述第一边界框中纵坐标值为最小值的像素点时,
所述确定模块,具体用于确定所述第一像素点的纵坐标值至所述第二像素点的纵坐标值范围内,所述第一像素区域中,每一行像素点集合中像素点的最大的第三置信度,所述第三置信度指示当前像素区域为非所述目标对象的概率;
所述确定模块,具体用于对所述每一行像素点集合中最大的所述第三置信度求和,确定垂直校正量;
所述确定模块,具体用于根据所述垂直校正量,确定所述第二边界框。
30.根据权利要求20所述的装置,其特征在于,
所述确定模块,具体用于当所述第一像素区域仅包括部分所述第一边界框,且,所述第一像素点的横坐标值大于所述第二像素点的横坐标值,且,所述第二像素点为所述第一感兴趣区域中横坐标值为最大值的像素点,所述第一像素点为所述第一边界框中横坐标值为最大值的像素点时,
所述确定模块,具体用于确定所述第二像素点的横坐标值至所述第一像素点的横坐标值范围内,所述第一像素区域中,每一列像素点集合中像素点的最大的第三置信度,所述第三置信度指示当前像素区域为非所述目标对象的概率;
所述确定模块,具体用于对所述每一列像素点集合中最大的所述第三置信度求和,确定水平校正量;
所述确定模块,具体用于根据所述水平校正量,确定所述第二边界框。
31.根据权利要求20所述的装置,其特征在于,
所述确定模块,具体用于当所述第一像素区域仅包括部分所述第一边界框,且,所述第一像素点的横坐标值小于所述第二像素点的横坐标值,且,所述第二像素点为所述第一感兴趣区域中横坐标值为最小值的像素点,所述第一像素点为所述第一边界框中横坐标值为最小值的像素点时,
所述确定模块,具体用于确定所述第二像素点的横坐标值至所述第一像素点的横坐标值范围内,所述第一像素区域中,每一列像素点集合中像素点的最大的第三置信度,所述第三置信度指示当前像素区域为非所述目标对象的概率;
所述确定模块,具体用于对所述每一列像素点集合中最大的所述第三置信度求和,确定水平校正量;
所述确定模块,具体用于根据所述水平校正量,确定所述第二边界框。
32.根据权利要求30-31中任一项所述的装置,其特征在于,所述每一列像素点集合中像素点的最大的所述第三置信度大于最大的所述第一置信度。
33.根据权利要求28-29中任一项所述的装置,其特征在于,所述每一行像素点集合中像素点的最大的所述第三置信度大于最大的所述第一置信度。
34.根据权利要求33所述的装置,其特征在于,所述垂直校正量满足:
其中,所述Y为所述垂直校正量,所述为所述第一像素点的纵坐标值,所述/>为所述第二像素点的纵坐标值,所述/>为所述第一边界框中横坐标值的最小值,所述/>为所述第一边界框中横坐标值的最大值,所述Pij seg为所述第一感兴趣区域内像素点的所述第二置信度,所述i为所述每一行像素点集合中像素点的横坐标,所述j为所述每一行像素点集合中像素点的纵坐标,所述/>为所述每一行像素点集合中像素点的最大的所述第三置信度,所述j(1-Pij seg)为所述每一行像素点集合中像素点的所述第三置信度,所述Pbbox为所述第一置信度,所述/>为每一列像素点集合中像素点的最大的所述第三置信度大于最大的所述第一置信度。
35.根据权利要求19-24中任一项所述的装置,其特征在于,
所述确定模块,还用于对边界框集合与感兴趣区域集合进行匹配处理,确定所述边界框集合与所述感兴趣区域集合中任一边界框与任一感兴趣区域像素点的重合率,其中,所述边界框集合中包括至少一个所述第一边界框,所述感兴趣区域集合中包括至少一个所述第一感兴趣区域;
所述确定模块,还用于根据所述任一边界框与所述任一感兴趣区域的重合率,确定所述边界框集合与所述感兴趣区域集合的重合率矩阵;
所述确定模块,还用于当所述重合率矩阵的总重合率最大时,确定所述第一边界框与所述第一感兴趣区域匹配。
36.根据权利要求35所述的装置,其特征在于,所述第一像素区域与所述第一边界框满足:
所述第一像素区域的最大水平距离与所述第一边界框的最大水平距离之比小于或等于第二阈值,和/或,
所述第一像素区域的最大垂直距离与所述第一边界框的最大垂直距离之比小于或等于所述第二阈值,其中,所述最大水平距离为像素点的横坐标的最大值与最小值的差值,所述最大垂直距离为像素点的纵坐标的最大值与最小值的差值。
37.一种计算设备,其特征在于,包括存储器和处理器,
所述存储器,用于存储计算机指令;
所述处理器执行所述存储器存储的计算机指令,以执行上述权利要求1至18中任一项所述的方法。
38.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令被计算设备执行时,所述计算设备执行上述权利要求1至18中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911274171.2A CN112989872B (zh) | 2019-12-12 | 2019-12-12 | 一种目标检测方法以及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911274171.2A CN112989872B (zh) | 2019-12-12 | 2019-12-12 | 一种目标检测方法以及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112989872A CN112989872A (zh) | 2021-06-18 |
CN112989872B true CN112989872B (zh) | 2024-05-07 |
Family
ID=76332034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911274171.2A Active CN112989872B (zh) | 2019-12-12 | 2019-12-12 | 一种目标检测方法以及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112989872B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113706555B (zh) * | 2021-08-12 | 2024-09-06 | 北京达佳互联信息技术有限公司 | 一种视频帧处理方法、装置、电子设备及存储介质 |
CN115131552A (zh) * | 2022-07-20 | 2022-09-30 | 上海联影智能医疗科技有限公司 | 目标检测方法、计算机设备和存储介质 |
CN115063323B (zh) * | 2022-08-16 | 2022-11-15 | 威海凯思信息科技有限公司 | 一种基于自适应网络的图像处理方法及装置 |
CN118351288A (zh) * | 2024-04-16 | 2024-07-16 | 北京积加科技有限公司 | 图像区域标记修正方法、装置、设备和计算机可读介质 |
CN118411381B (zh) * | 2024-07-02 | 2024-09-24 | 杭州百子尖科技股份有限公司 | 边界坐标检测方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1423237A (zh) * | 2001-11-16 | 2003-06-11 | 株式会社三丰 | 图像边界检测系统与方法 |
US9147255B1 (en) * | 2013-03-14 | 2015-09-29 | Hrl Laboratories, Llc | Rapid object detection by combining structural information from image segmentation with bio-inspired attentional mechanisms |
CN108154129A (zh) * | 2017-12-29 | 2018-06-12 | 北京华航无线电测量研究所 | 基于车辆视觉系统的目标区域确定方法及系统 |
CN109697397A (zh) * | 2017-10-24 | 2019-04-30 | 高德软件有限公司 | 一种目标检测方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060115159A1 (en) * | 2004-11-30 | 2006-06-01 | Astrit Rexhepi | Boundary detection for images using coocurrence matrices |
-
2019
- 2019-12-12 CN CN201911274171.2A patent/CN112989872B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1423237A (zh) * | 2001-11-16 | 2003-06-11 | 株式会社三丰 | 图像边界检测系统与方法 |
US9147255B1 (en) * | 2013-03-14 | 2015-09-29 | Hrl Laboratories, Llc | Rapid object detection by combining structural information from image segmentation with bio-inspired attentional mechanisms |
CN109697397A (zh) * | 2017-10-24 | 2019-04-30 | 高德软件有限公司 | 一种目标检测方法及装置 |
CN108154129A (zh) * | 2017-12-29 | 2018-06-12 | 北京华航无线电测量研究所 | 基于车辆视觉系统的目标区域确定方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112989872A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112989872B (zh) | 一种目标检测方法以及相关装置 | |
US11354779B2 (en) | Point cloud denoising systems and methods | |
CN109886997B (zh) | 基于目标检测的识别框确定方法、装置及终端设备 | |
US10852420B2 (en) | Object detection system, autonomous vehicle using the same, and object detection method thereof | |
US9384556B2 (en) | Image processor configured for efficient estimation and elimination of foreground information in images | |
US9582881B2 (en) | Machine vision image sensor calibration | |
US9305360B2 (en) | Method and apparatus for image enhancement and edge verification using at least one additional image | |
US9384411B2 (en) | Image processor with edge-preserving noise suppression functionality | |
US9674505B2 (en) | Disparity search range determination for images from an image sensor array | |
CN111247525A (zh) | 一种车道检测方法、装置及车道检测设备、移动平台 | |
CN111950543B (zh) | 一种目标检测方法和装置 | |
CN111091592B (zh) | 图像处理方法、图像处理装置、电子设备及可读存储介质 | |
CN108154149B (zh) | 基于深度学习网络共享的车牌识别方法 | |
CN111476099B (zh) | 一种目标检测方法、目标检测装置及终端设备 | |
WO2014065887A1 (en) | Image processing method and apparatus for elimination of depth artifacts | |
CN113950820B (zh) | 用于像素到像素信号扩散的校正 | |
EP3479345A1 (en) | Method and apparatus for removing turbid objects in an image | |
CN112927306B (zh) | 拍摄装置的标定方法、装置及终端设备 | |
WO2023279584A1 (zh) | 一种目标检测方法、目标检测装置及机器人 | |
CN111062927A (zh) | 一种无人机图像质量检测的方法、系统及设备 | |
US9798950B2 (en) | Feature amount generation device, feature amount generation method, and non-transitory medium saving program | |
US9712807B2 (en) | Disparity determination for images from an array of disparate image sensors | |
CN116977671A (zh) | 基于图像空间定位的目标跟踪方法、装置、设备及存储介质 | |
WO2019148894A1 (zh) | 一种利用图像斑块追踪测量偏移的方法、装置及存储介质 | |
KR101911860B1 (ko) | 깊이 영상에서 카메라 모델 및 필터를 이용한 도로 검출 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |