CN113537158B - 一种图像目标检测方法、装置、设备及存储介质 - Google Patents

一种图像目标检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113537158B
CN113537158B CN202111053211.8A CN202111053211A CN113537158B CN 113537158 B CN113537158 B CN 113537158B CN 202111053211 A CN202111053211 A CN 202111053211A CN 113537158 B CN113537158 B CN 113537158B
Authority
CN
China
Prior art keywords
candidate region
target
target candidate
target object
key point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111053211.8A
Other languages
English (en)
Other versions
CN113537158A (zh
Inventor
许琢
金博伟
支洪平
孙萍
王旭
鲁盈悦
金玥
高逸晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iflytek Suzhou Technology Co Ltd
Original Assignee
Iflytek Suzhou Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iflytek Suzhou Technology Co Ltd filed Critical Iflytek Suzhou Technology Co Ltd
Priority to CN202111053211.8A priority Critical patent/CN113537158B/zh
Publication of CN113537158A publication Critical patent/CN113537158A/zh
Application granted granted Critical
Publication of CN113537158B publication Critical patent/CN113537158B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请提出一种图像目标检测方法、装置、设备及存储介质,该方法包括:从待检测图像中提取目标候选区域,以及获取目标候选区域特征;基于所述目标候选区域特征,从所述目标候选区域中确定出关键点坐标集合;所述关键点坐标集合中,包括沿特定的检测方向检测到的目标对象边界框的各个关键点在对应的检测方向上的坐标值,基于所述关键点坐标集合,确定目标对象边界框的各个关键点的位置坐标。该方案可以避免逐点检测目标对象边界框的关键点的位置坐标而产生的关键点顺序敏感的问题,而且,从各个坐标轴方向分别检测关键点,可以更加细致地确定关键点在各个坐标轴方向上的坐标值,从而可以提高目标对象边界框关键点位置坐标的检测精度和稳定性。

Description

一种图像目标检测方法、装置、设备及存储介质
技术领域
本申请涉及计算机视觉技术领域,尤其涉及一种图像目标检测方法、装置、设备及存储介质。
背景技术
在计算机视觉目标区域检测任务中,基于四边形框的区域检测是一种常用形式,即,从图像中检测并标记目标对象的四边形边界框,从而实现对目标对象的检出和标记。
常规的目标对象四边形边界框检测方案是借助检测模型来预测图像中的目标对象的四边形边界框的顶点坐标。这种方法在实际应用中会遇到一种叫做顺序标注敏感的问题。通常情况下,四边形框由其四个顶点的位置坐标表示,当检测模型从标注中读取四边形框顶点的顺序发生改变时,模型即将学习的目标数值也会改变,即使同一张图片经过同样的模型,学习得到的特征图的对应关系依然会发生改变,而这种改变对模型进行正确的学习通常是不利的,因为不是按正确且统一的顺序规则的标注,会让模型在学习的过程产生混淆。
然而在模型训练过程中,计算机程式化地处理标注数据,在没有人眼监督的情况下,很难确定四边形框正确的顶点顺序,因此标注顺序敏感问题导致的模型训练效果不佳十分常见,所以,常规的借助检测模型来预测目标对象的四边形边界框顶点坐标的效果并不好。
发明内容
基于上述技术现状,本申请提出一种图像目标检测方法、装置、设备及存储介质,能够有效避免顶点顺序敏感问题,提高图像目标检测质量。
为了达到上述目的,本申请提出的技术方案具体如下:
一种图像目标检测方法,包括:
从待检测图像中提取目标候选区域,以及获取目标候选区域特征;所述目标候选区域为包含目标对象的图像区域;
基于所述目标候选区域特征,从所述目标候选区域中确定出关键点坐标集合;所述关键点坐标集合中,包括沿特定的检测方向检测到的目标对象边界框的各个关键点在对应的检测方向上的坐标值,其中,所述特定的检测方向包括目标候选区域的各个坐标轴方向;
通过将所述关键点坐标集合中的对应各个坐标轴方向的坐标值进行匹配,确定目标对象边界框的各个关键点的位置坐标。
可选的,基于所述目标候选区域特征,从所述目标候选区域中确定出关键点坐标集合,以及,通过将所述关键点坐标集合中的对应各个坐标轴方向的坐标值进行匹配,确定目标对象边界框的各个关键点的位置坐标,包括:
将所述目标候选区域特征输入预先训练的目标对象边界框检测模型,得到所述目标对象边界框检测模型输出的目标对象边界框的各个关键点的位置坐标;
其中,所述目标对象边界框检测模型基于所述目标候选区域特征,从所述目标候选区域中确定出关键点坐标集合,以及,通过将所述关键点坐标集合中的对应各个坐标轴方向的坐标值进行匹配,确定目标对象边界框的各个关键点的位置坐标。
可选的,基于所述目标候选区域特征,从所述目标候选区域中确定出关键点坐标集合,包括:
基于所述目标候选区域特征,沿特定的检测方向从所述目标候选区域检测目标对象边界框关键点,并确定检测出的各个关键点在对应的检测方向上的坐标值;
利用检测出的各个关键点在其对应的检测方向上的坐标值,组成关键点坐标集合。
可选的,基于所述目标候选区域特征,沿特定的检测方向从所述目标候选区域检测目标对象边界框关键点,并确定检测出的各个关键点在对应的检测方向上的坐标值,包括:
基于所述目标候选区域特征,沿水平方向从所述目标候选区域检测目标对象边界框关键点,并确定检测出的关键点在水平方向上的坐标值;
以及,基于所述目标候选区域特征,沿竖直方向从所述目标候选区域检测目标对象边界框关键点,并确定检测出的关键点在竖直方向上的坐标值。
可选的,所述基于所述目标候选区域特征,沿水平方向从所述目标候选区域检测目标对象边界框关键点,并确定检测出的关键点在水平方向上的坐标值,包括:
利用竖直卷积核,与目标候选区域特征图的每一列分别进行卷积处理,从目标候选区域特征图中确定出关键特征点;其中,所述竖直卷积核的行数与所述目标候选区域特征图的行数相同;
根据目标候选区域特征图中的关键特征点,从目标候选区域中确定出目标对象边界框关键点;
获取各个目标对象边界框关键点在水平方向上的坐标值。
可选的,所述基于所述目标候选区域特征,沿竖直方向从所述目标候选区域检测目标对象边界框关键点,并确定检测出的关键点在竖直方向上的坐标值,包括:
利用水平卷积核,与目标候选区域特征图中的每一行分别进行卷积处理,从目标候选区域特征图中确定出关键特征点;其中,所述水平卷积核的列数与所述目标候选区域特征图的列数相同;
根据目标候选区域特征图中的关键特征点,从目标候选区域中确定出目标对象边界框关键点;
获取各个目标对象边界框关键点在竖直方向上的坐标值。
可选的,所述根据目标候选区域特征图中的关键特征点,从目标候选区域中确定出目标对象边界框关键点,包括:
根据目标候选区域与目标候选区域特征图的对应关系,从目标候选区域中确定出与目标候选区域特征图中的关键特征点对应的像素点,作为目标对象边界框关键点。
可选的,所述通过将所述关键点坐标集合中的对应各个坐标轴方向的坐标值进行匹配,确定目标对象边界框的各个关键点的位置坐标,包括:
将所述关键点坐标集合中的、对应目标候选区域的各个坐标轴方向的坐标值进行匹配,得到各个位置坐标;
基于所述目标候选区域特征,从各个位置坐标中,筛选出对应目标对象边界框的各个关键点的位置坐标。
可选的,从待检测图像中提取目标候选区域,以及获取目标候选区域特征;基于所述目标候选区域特征,从所述目标候选区域中确定出关键点坐标集合;以及,基于所述关键点坐标集合,确定目标对象边界框的各个关键点的位置坐标,包括:
将待检测图像输入预先训练的图像目标检测模型,得到该图像目标检测模型输出的目标对象边界框的各个关键点的位置坐标;
其中,所述图像目标检测模型具备从待检测图像中提取目标候选区域,以及获取目标候选区域特征;基于所述目标候选区域特征,从所述目标候选区域中确定出关键点坐标集合;以及,通过将所述关键点坐标集合中的对应各个坐标轴方向的坐标值进行匹配,确定目标对象边界框的各个关键点的位置坐标的能力。
可选的,所述图像目标检测模型,包括:
候选区域提取网络,用于从待检测图像中提取目标候选区域,以及获取目标候选区域特征;根据目标候选区域特征,从目标候选区域中检测目标对象边界框,并对各个目标候选区域进行分类,以及,根据目标对象边界框检测结果和分类结果,对从待检测图像中提取的目标候选区域进行筛选;
目标对象边界框检测网络,用于基于所述候选区域提取网络提取的目标候选区域特征,从所述目标候选区域中确定出关键点坐标集合;以及,通过将所述关键点坐标集合中的对应各个坐标轴方向的坐标值进行匹配,确定目标对象边界框的各个关键点的位置坐标。
可选的,所述图像目标检测模型的训练过程,包括:
将训练样本输入所述图像目标检测模型,得到所述候选区域提取网络输出的目标对象分类结果,以及所述目标对象边界框检测网络输出的关键点坐标集合;
基于所述候选区域提取网络输出的目标对象分类结果的置信度,以及所述目标对象边界框检测网络输出的关键点坐标集合中的各个坐标值的置信度平均值,对所述图像目标检测模型进行参数校正。
一种图像目标检测装置,包括:
候选区域检测单元,用于从待检测图像中提取目标候选区域,以及获取目标候选区域特征;所述目标候选区域为包含目标对象的图像区域;
坐标值检测单元,用于通过将所述关键点坐标集合中的对应各个坐标轴方向的坐标值进行匹配,从所述目标候选区域中确定出关键点坐标集合;所述关键点坐标集合中,包括沿特定的检测方向检测到的目标对象边界框的各个关键点在对应的检测方向上的坐标值,其中,所述特定的检测方向包括目标候选区域的各个坐标轴方向;
位置坐标确定单元,用于基于所述关键点坐标集合,确定目标对象边界框的各个关键点的位置坐标。
一种图像目标检测设备,包括:
存储器和处理器;
其中,所述存储器与所述处理器连接,用于存储程序;
所述处理器,用于通过运行所述存储器中的程序,实现上述的图像目标检测方法。
一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现上述的图像目标检测方法。
本申请实施例提出的图像目标检测方法,通过沿目标候选区域的各个坐标轴方向检测目标对象边界框的各个关键点,并且确定检测到的关键点在对应的检测方向上的坐标值,得到关键点坐标集合。然后,通过将所述关键点坐标集合中的对应各个坐标轴方向的坐标值进行匹配,确定目标对象边界框的各个关键点的位置坐标。该方法将目标对象边界框检测任务,转换为基于空间上下文信息的关键点检测任务,通过关键点检测,实现对关键点在目标候选区域各个坐标轴方向上的坐标值的确定,进而可以确定目标对象边界框的各个关键点在目标候选区域中的位置坐标。该方案可以避免逐点检测目标对象边界框的关键点的位置坐标而产生的关键点顺序敏感的问题,而且,从各个坐标轴方向分别检测关键点,可以更加细致地确定关键点在各个坐标轴方向上的坐标值,从而可以提高目标对象边界框关键点位置坐标的检测精度和稳定性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本申请实施例提供的一种图像目标检测方法的流程示意图;
图2是本申请实施例提供的目标对象边界框检测模型的工作过程示意图;
图3是本申请实施例提供的图像目标检测模型的框架结构示意图;
图4是本申请实施例提供的一种图像目标检测装置的结构示意图;
图5是本申请实施例提供的一种图像目标检测设备的结构示意图。
具体实施方式
本申请实施例技术方案应用于图像目标检测应用场景中,采用本申请实施例技术方案,能够准确地从图像中检测出目标对象的边界框位置,从而实现对图像中的目标对象的检出和标记。
在计算机视觉目标检测任务中,基于四边形框的区域检测是一种常用形式,即,从图像中检测并标记目标对象的四边形边界框,从而实现对目标对象的检出和标记。常规的目标对象四边形边界框检测方案是借助检测模型来预测图像中的目标对象的四边形边界框的顶点坐标。
近年来的目标检测方法,大多数方法是基于预测水平矩形框标注的数据。实际应用需求中,常常会遇到不仅仅需要对图像中的目标进行定位,算法输出结果中还需要包含其它解析信息,例如目标是以什么姿态在图像中呈现,在遥感图像中常常有船只检测的任务,需要判断船头的朝向,因此除了定位需求之外,还需要算法的输出内容包含旋转角度的信息。
最近提出的一些针对旋转矩形目标检测的方法,主要分为两类,一种是直接预测一定顺序的ground truth目标矩形框的顶点坐标;另一类是基于目标实例分割方法,根据分割结果,求最小外接矩形,判断目标的倾斜方向。这些方法的共同问题是对标注框的顶点顺序过于敏感,即存在顺序标注敏感的问题。通常情况下,四边形框由其四个顶点的位置坐标表示,当检测模型从标注中读取四边形框顶点的顺序发生改变时,模型即将学习的目标数值也会改变,即使同一张图片经过同样的模型,学习得到的特征图的对应关系依然会发生改变,而这种改变对模型进行正确的学习通常是不利的,因为不是按正确且统一的顺序规则的标注,会让模型在学习的过程产生混淆。
然而在模型训练过程中,计算机程式化地处理标注数据,在没有人眼监督的情况下,很难确定四边形框正确的顶点顺序,因此标注顺序敏感问题导致的模型训练效果不佳十分常见,一旦出现同类别目标的标注框顶点标注顺序不一致的情况,会导致模型精度的下降。
所以,常规的借助检测模型来预测目标对象的四边形边界框顶点坐标的效果并不好。
为了解决上述问题,本申请实施例提出一种图像目标检测方案,该方案摒弃了传统的基于模型直接预测目标对象标注框顶点坐标的技术思想,通过将目标对象边界框(即用于标示目标对象的标注框)检测任务转化为利用空间上下文信息的目标对象边界框关键点检测任务,实现对目标对象边界框的位置预测,从而实现图像目标检测。经试验验证,该方案相对于现有技术方案具有更高的目标检测精度。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提出一种图像目标检测方法,参见图1所示,该方法包括:
S101、从待检测图像中提取目标候选区域,以及获取目标候选区域特征。
其中,所述目标候选区域为包含目标对象的图像区域。
具体的,提取待检测图像的特征图,然后基于待检测图像的特征图从中识别包含目标对象的图像区域,作为目标候选区域。进而,获取目标候选区域的特征图,即得到候选区域特征。
作为可选的实现方式,首先利用特征提取网络backbone对待检测图像进行特征提取处理,得到待检测图像的特征图。然后,利用RPN候选区域生成网络对待检测图像的特征图进行处理,生成可能包含目标对象的图像区域,得到目标候选区域。最后,RPN输出的候选区域与待检测图像特征图进行aligned roi pooling处理,从待检测图像特征图中提取得到各个候选区域的特征图。
S102、基于所述目标候选区域特征,从所述目标候选区域中确定出关键点坐标集合。
所述关键点坐标集合中,包括沿特定的检测方向检测到的目标对象边界框的各个关键点在对应的检测方向上的坐标值,其中,所述特定的检测方向包括目标候选区域的各个坐标轴方向。
具体的,上述的关键点,具体可以是目标对象边界框(即目标对象的标注框)的顶点。当确定了目标对象边界框的各个顶点的坐标时,即确定了目标对象边界框。例如,假设目标对象边界框以矩形框表示,则当确定了目标对象边界框的四个顶点的位置坐标时,即可根据该四个位置坐标,确定目标对象边界框的位置和形状。因此,通过从目标候选区域中检测关键点,可以实现对目标对象边界框的检测。
为了克服传统目标矩形框顶点位置检测对顶点标注顺序过于敏感的问题,本申请实施例创造性地提出新的目标对象边界框顶点标注方法,即,不对各个顶点的位置坐标按顺序进行标注,而是将顶点在各个坐标轴的坐标值按照坐标轴方向进行排列标注。这样既可以达到记载顶点位置坐标的目的,又不会造成对各个顶点位置坐标的标注顺序限定。
例如,对于原始标注起始点未知的(x1, y1), (x2, y2), (x3, y3), (x4, y4)四个顶点位置坐标,将其转变为顺序已知的一种表达方式:(xmin, x2, x3, xmax, ymin, y2, y3,ymax),其中xmin≤x2≤x3≤xmax, ymin≤y2≤y3≤ymax, 该表达方法利用了四边形顶点在水平方向和竖直方向上的坐标分别按照从左至右递增、从上至下递增的已知顺序,而并非人为规定以某个顶点为起点顺序标注各个顶点的位置坐标。
根据上述的目标对象边界框的顶点坐标表示方式可见,只要确定了目标对象边界框的顶点在目标候选区域的各个坐标轴方向上的坐标值,就可以根据这些坐标值还原出目标对象边界框的各个顶点的位置坐标,进而可以确定目标对象边界框的位置、形状。
基于上述原理,本申请实施例在从待检测图像中提取到目标候选区域,以及获取目标候选区域特征后,对每一目标候选区域,分别以该目标候选区域的每一坐标轴方向为检测方向,进行该检测方向上的关键点检测处理,并记录检测到的关键点在其对应的检测方向上的坐标值,组成关键点坐标集合。
例如,假设目标候选区域为二维图像区域,其坐标轴包括X轴和Y轴。则,对于该目标候选区域,沿X轴方向进行关键点检测处理,并记录检测到的各个关键点在X轴方向上的坐标值,假设沿X轴检测到4个关键点,则这4个关键点在X轴方向上的坐标值分别可记为x1,x2, x3, x4;同时,沿Y轴方向进行关键点检测处理,并记录检测到的各个关键点在Y轴方向上的坐标值,假设沿Y轴检测到4个关键点,则这4个关键点在Y轴方向上的坐标值分别可记为y1, y2, y3, y4。最后,将沿各个检测方向检测到的关键点在其对应的检测方向上的坐标值进行组合,即可得到关键点坐标集合{ x1, x2, x3, x4,y1, y2, y3, y4}。
示例性的,上述的沿坐标轴方向检测关键点,可以是按照坐标轴延伸方向进行关键点检测,即从坐标轴的原点位置开始,沿坐标值增大的方向依次从目标候选区域中检测关键点,则确定出的各个关键点在该坐标轴方向上的坐标值是递增的。例如,从X轴的原点开始,沿X轴增大方向依次从目标候选区域中检测关键点,并记录检测出的各个关键点在X轴方向的坐标值,最终记录的各个关键点在X轴方向上的坐标值x1, x2, x3, x4为递增关系,即x1≤x2≤x3≤x4。因此,这种检测方式可以使得直接记录的关键点坐标符合已知的递增顺序。
在实际应用中,也可以通过其他方式执行沿坐标轴方向的关键点检测处理,例如,可以按照与坐标轴延伸方向的反方向进行关键点检测处理。或者,在记录检测到的各个关键点在检测方向上的坐标值时,也可以不限定一定要将各个坐标值按照递增的顺序记录。
总之,只要通过执行不同坐标轴方向的关键点检测,确定各个关键点在各个坐标轴方向上的坐标值,即可。
S103、通过将所述关键点坐标集合中的对应各个坐标轴方向的坐标值进行匹配,确定目标对象边界框的各个关键点的位置坐标。
通过上述步骤S102的介绍可见,关键点坐标集合中的坐标值包含了目标对象边界框的各个关键点在目标候选区域各个坐标轴方向上的坐标值。因此,基于该关键点坐标集合中的坐标值,可以组合得到目标对象边界框的各个关键点的位置坐标。当目标对象边界框的各个关键点的位置坐标确定时,即可以将目标对象边界框的各个关键点作为顶点,确定目标对象边界框的形状、位置、尺寸等信息,也就是从目标候选区域中检测并标记出目标对象。
具体的,在上述的顺序无关的目标对象边界框量化的基础之上,可以获得到(xmin,x2, x3, xmax, ymin, y2, y3, ymax)全体数值,但是该结果无法直接生成目标对象边界框,原因如下:目标对象边界框中,最左边的点的水平坐标为xmin,但是该点的竖直坐标不好确定,只知道该数值为(ymin, y2, y3, ymax)其中之一, 一旦匹配出错,输出的结果十分糟糕。
针对该问题,本申请实施例提出了一种可选的确定目标对象边界框的各个关键点的位置坐标的实施方式,具体如下:
由于关键点坐标集合中包含了目标对象边界框的各个关键点在各个坐标轴方向上的坐标值,因此,通过将关键点坐标集合中的各个坐标轴方向上的坐标值进行匹配、组合,即可得到各个不同的位置坐标。
例如,假设关键点坐标集合中包含4个X轴方向坐标(xmin, x2, x3, xmax),以及4个Y轴方向坐标(ymin, y2, y3, ymax),则通过将一个X轴方向坐标与一个Y轴方向坐标进行匹配,即可得到总共
Figure 991629DEST_PATH_IMAGE001
个位置坐标的组合,即得到24个关键点位置坐标。
在这24个关键点位置坐标中,只有4个是正确的关键点位置坐标,因此,再从各个位置坐标中,筛选出对应目标对象边界框的各个关键点的位置坐标,也就是,再从这24个位置坐标中,筛选出对应目标对象边界框的4个关键点的位置坐标即可。
示例性的,可以以目标候选区域特征为依据,从各个位置坐标中,筛选出对应目标对象边界框的各个关键点的位置坐标。
具体的,对于目标候选区域特征图进行卷积处理,将其转换为1维的特征向量。例如,假设目标候选区域特征图为M×M的特征图,则对该特征图经过1×1的卷积处理和M×M的卷积处理,将其转换为1维特征向量。
然后,利用该特征向量,对上述匹配得到的各个位置坐标进行softmax分类处理,从中确定出softmax分类置信度最高的4个位置坐标,作为最终确定出的目标对象边界框的各个关键点的位置坐标。
例如,将上述的1维特征向量输入24通道的softmax损失函数,该24通道即对应上述匹配得到的24个位置坐标,根据softmax损失函数的输出确定置信度最高的4个位置坐标,作为确定的目标对象边界框的各个关键点的位置坐标。上述的softmax损失函数,可以预先进行训练,使其具备较高的分类精度。
通过上述介绍可见,本申请实施例提出的图像目标检测方法,通过沿目标候选区域的各个坐标轴方向检测目标对象边界框的各个关键点,并且确定检测到的关键点在对应的检测方向上的坐标值,得到关键点坐标集合。然后,通过将所述关键点坐标集合中的对应各个坐标轴方向的坐标值进行匹配,确定目标对象边界框的各个关键点的位置坐标。该方法将目标对象边界框检测任务,转换为基于空间上下文信息的关键点检测任务,通过关键点检测,实现对关键点在目标候选区域各个坐标轴方向上的坐标值的确定,进而可以确定目标对象边界框的各个关键点在目标候选区域中的位置坐标。该方案可以避免逐点检测目标对象边界框的关键点的位置坐标而产生的关键点顺序敏感的问题,而且,从各个坐标轴方向分别检测关键点,可以更加细致地确定关键点在各个坐标轴方向上的坐标值,从而可以提高目标对象边界框关键点位置坐标的检测精度和稳定性。
在上述实施例中,以检测图像中的单个目标对象的边界框为例,介绍通过各个方向的关键点检测,确定对目标对象边界框顶点坐标的技术方案。可以理解的是,在某些场景下,一幅图像中可能不止包含一个目标对象,此时涉及到多个目标对象的边界框的检出顺序问题。针对多个目标对象的边界框的检出问题,也可以通过本申请实施例技术方案所采用的基于各个方向的关键点坐标检测来实现。
比如,依然沿各个坐标轴方向进行关键点检测,从中检测出各个目标对象的边界框的各个顶点在各个坐标轴方向上的坐标值。然后,再通过对检测出的各坐标轴方向上的坐标值进行组合,得到多种边界框顶点坐标组合,然后,参见上述步骤S103的介绍,依据图像特征,对各组边界框顶点坐标组合进行分类,从中确定出正确的边界框顶点坐标组合,也就是确定各个目标对象的边界框的顶点坐标。
可见,在本申请实施例提出的将图像中的目标对象的边界框的顶点检测任务转化为基于空间上下文信息的关键点检测任务的基础上,对于任意形状、任意姿态、任意数量的目标对象,都可以准确检测其边界框顶点坐标,也就是可以准确识别目标对象。
作为一种优选的实现方式,上述的步骤S102、S103的处理内容,可以通过预先训练的目标对象边界框检测模型来实现。
上述的目标对象边界框检测模型被训练为能够基于目标候选区域特征,从目标获选区域中确定出关键点坐标集合,以及,通过将所述关键点坐标集合中的对应各个坐标轴方向的坐标值进行匹配,确定目标对象边界框的各个关键点的位置坐标。
当从待检测图像中提取到目标候选区域,以及获取目标候选区域特征后,将目标候选区域特征输入上述预先训练的目标对象边界框检测模型,使该目标对象边界框检测模型基于目标候选区域特征,从目标获选区域中确定出关键点坐标集合,以及,基于确定出的关键点坐标集合确定目标对象边界框的各个关键点的位置坐标。然后,即可获取该目标对象边界框检测模型输出的目标对象边界框的各个关键点的位置坐标。
下面结合图2所示的目标对象边界框检测模型工作过程示意图,对其各处理步骤进行具体介绍。
首先,上述的目标对象边界框检测模型执行上述的步骤S102、基于所述目标候选区域特征,从所述目标候选区域中确定出关键点坐标集合,具体包括:
S1021、基于所述目标候选区域特征,沿特定的检测方向从所述目标候选区域检测目标对象边界框关键点,并确定检测出的各个关键点在对应的检测方向上的坐标值。
具体的,上述的目标候选区域特征,通常是目标候选区域的特征图。
参见图2所示,将目标候选区域的特征图输入目标对象边界框检测模型后,目标候选区域的特征图首先接入到一系列堆叠的卷积层,通过卷积-解卷积conv-deconv处理,提高目标候选区域的特征图的分辨率,将目标候选区域的特征图处理为M×M分辨率的特征图。在本申请实施例中,M=56。
然后,基于上述的M×M的特征图,分别执行如下步骤A1以及步骤A2,其中,步骤A1以及步骤A2的执行顺序不做限定。
A1、基于所述目标候选区域特征,沿水平方向从所述目标候选区域检测目标对象边界框关键点,并确定检测出的关键点在水平方向上的坐标值。
具体的,上述的水平方向,即对应目标候选区域的坐标轴的X轴方向。
在本申请实施例中,假设目标对象边界框为四边形边界框,则需要确定目标对象边界框的4个顶点的位置坐标,才能确定目标对象边界框的位置和形状,也就是需要确定目标对象边界框的4个关键点的X轴坐标和Y轴坐标。
首先,沿水平方向从目标候选区域检测目标对象边界框关键点,并确定检测到的各个关键点在水平方向上的坐标值。
如图2所示,利用M×1的竖直卷积核,对M×M的目标候选区域特征图进行水平方向的滚动卷积处理,即,利用M×1的卷积核,从水平方向原点开始,沿水平方向的延伸方向,依次与M×M的目标候选区域特征图的每一列分别进行卷积处理,从目标候选区域特征图中确定出关键特征点。
上述的关键特征点,是指从目标候选区域特征图中检测出的对应目标对象边界框的关键点的特征点。
由于需要从目标候选区域中确定出目标对象边界框的4个关键点的水平方向坐标,因此,该M×1的竖直卷积核的输出通道数量为4个,即,从目标候选区域特征图中确定出的关键特征点的数量为4个。
在实际检测过程中,在每个通道内,分别对各个特征点进行softmax分类,确定其作为关键点的置信度。最终确定出置信度最高的一个或多个特征点(本申请实施例中选择置信度最高的一个特征点),作为关键特征点。
然后,根据目标候选区域特征图中的关键特征点,从目标候选区域中确定出目标对象边界框关键点。
示例性的,根据目标候选区域与目标候选区域特征图的对应关系,从目标候选区域中确定出与目标候选区域特征图中的关键特征点对应的像素点,即为目标对象边界框关键点。
例如,假设目标候选区域为H×W尺寸的图像区域,目标候选区域特征图为M×M尺寸的特征图,则,可以将M×M尺寸的特征图中的关键特征点在该M×M尺寸的特征图中的坐标,映射到H×W尺寸的图像区域中,映射的像素点,即为与该关键特征点对应的目标对象边界框关键点。
当从目标候选区域中确定出目标对象边界框关键点后,分别获取各个目标对象边界框关键点在水平方向上的坐标值。
例如,通过上述处理确定出目标对象边界框的4个关键点,然后分别获取这4个关键点在水平方向上的坐标值x1, x2, x3, x4。进一步的,由于4个关键点是按照水平方向延伸方向依次检出的,因此,可以每检出一个关键点就确定检出的关键点的水平方向坐标,这样,也可以将检出的4个关键点的水平方向坐标按递增顺序排列表示为xmin, x2, x3, xmax
A2、基于所述目标候选区域特征,沿竖直方向从所述目标候选区域检测目标对象边界框关键点,并确定检测出的关键点在竖直方向上的坐标值。
具体的,上述的竖直方向,即对应目标候选区域的坐标轴的Y轴方向。
当确定目标对象边界框的关键点的Y轴坐标时,沿竖直方向从目标候选区域检测目标对象边界框关键点,并确定检测到的各个关键点在竖直方向上的坐标值。
示例性的,如图2所示,利用1×M的水平卷积核,对M×M的目标候选区域特征图进行竖直方向的滚动卷积处理,即,利用1×M的卷积核,从竖直方向原点开始,沿竖直方向的延伸方向,依次与M×M的目标候选区域特征图的每一行分别进行卷积处理,从目标候选区域特征图中确定出关键特征点。
上述的关键特征点,是指从目标候选区域特征图中检测出的对应目标对象边界框的关键点的特征点。
由于需要从目标候选区域中确定出目标对象边界框的4个关键点的竖直方向坐标,因此,该1×M的水平卷积核的输出通道数量为4个,即,从目标候选区域特征图中确定出的关键特征点的数量为4个。
然后,根据目标候选区域特征图中的关键特征点,从目标候选区域中确定出目标对象边界框关键点。
示例性的,根据目标候选区域与目标候选区域特征图的对应关系,从目标候选区域中确定出与目标候选区域特征图中的关键特征点对应的像素点,即为目标对象边界框关键点。
例如,假设目标候选区域为H×W尺寸的图像区域,目标候选区域特征图为M×M尺寸的特征图,则,可以将M×M尺寸的特征图中的关键特征点在该M×M尺寸的特征图中的坐标,映射到H×W尺寸的图像区域中,映射的像素点,即为与该关键特征点对应的目标对象边界框关键点。
当从目标候选区域中确定出目标对象边界框关键点后,分别获取各个目标对象边界框关键点在竖直方向上的坐标值。
例如,通过上述处理确定出目标对象边界框的4个关键点,然后分别获取这4个关键点在竖直方向上的坐标值y1, y2, y3, y4。进一步的,由于4个关键点是按照竖直方向的延伸方向依次检出的,因此,可以每检出一个关键点就确定检出的关键点的竖直方向坐标,这样,也可以将检出的4个关键点的竖直方向坐标按递增顺序排列表示为ymin, y2, y3,ymax
其中,上述的通过卷积核与目标候选区域特征图进行卷积从而确定关键点的处理,类似于常规的heat map关键点预测方式,其具体的关键点预测过程也可以参见常规的heat map关键点预测过程。
相应的,在上述的目标对象边界框检测模型的训练过程中,通过计算模型预测的关键点坐标与标注的关键点坐标之间的交叉熵损失函数,来对模型进行参数校正。
S1022、利用检测出的各个关键点在其对应的检测方向上的坐标值,组成关键点坐标集合。
具体的,按照上述处理分别确定目标对象边界框各个关键点在其对应的检测方向上的坐标值,即确定沿水平方向检测出的关键点的水平方向坐标,以及确定沿竖直方向检测出的关键点的竖直方向坐标后,将各坐标值进行组合,得到关键点坐标集合。
例如,对上述的各个水平方向坐标xmin, x2, x3, xmax以及各个竖直方向坐标ymin,y2, y3, ymax进行组合,得到关键点坐标集合(xmin, x2, x3, xmax, ymin, y2, y3, ymax)。
可见,通过目标对象边界框检测模型的上述处理,可以获得到(xmin, x2, x3, xmax,ymin, y2, y3, ymax)全体数值,但是该结果无法直接生成目标对象边界框,原因如下:目标对象边界框中,最左边的点的水平坐标为xmin,但是该点的竖直坐标不好确定,只知道该数值为(ymin, y2, y3, ymax)其中之一, 一旦匹配出错,输出的结果十分糟糕。
针对该问题,上述的目标对象边界框检测模型按照如下方式,从关键点坐标集合中确定出目标对象边界框的各个关键点的位置坐标:
通过将一个水平方向坐标与一个竖直方向坐标进行匹配,即可得到总共
Figure 391518DEST_PATH_IMAGE001
个位置坐标的组合,即得到24个关键点位置坐标。
对于目标候选区域特征图进行卷积处理,将其转换为1维的特征向量。例如图2所示,M×M的目标候选区域特征图经过1×1的卷积处理和M×M的卷积处理,将其转换为1维特征向量。
然后,利用该特征向量,对上述匹配得到的各个位置坐标进行softmax分类处理,从中确定出softmax分类置信度最高的4个位置坐标,作为最终确定出的目标对象边界框的各个关键点的位置坐标。
例如图2所示,将上述的1维特征向量输入24通道的softmax损失函数,该24通道即对应上述匹配得到的24个位置坐标,根据softmax损失函数的输出确定置信度最高的4个位置坐标,作为确定的目标对象边界框的各个关键点的位置坐标。
综上,目标对象边界框检测模型通过对目标候选区域特征图进行各个方向上的卷积处理,分别获取各个方向上的关键点坐标值,然后对各个方向上的关键点坐标值进行组合、分类,最终确定目标对象边界框的各个关键点的位置坐标。
上述的目标对象边界框检测模型,能够嵌入到任意的图像目标检测框架中,使之具有学习旋转矩形、甚至任意多边形的标注数据,不仅能够提高检测框架的检测旋转矩形的精度,在不同应用场景中也表现出超强的泛化能力。
作为一种可选的实施方式,可以将本申请上述实施例介绍的目标对象边界框检测模型嵌入到faster rcnn目标检测框架中,得到图像目标检测模型。该图像目标检测模型的整体框架可参见图3所示。
该图像目标检测模型经过训练后,具备从待检测图像中提取目标候选区域,以及获取目标候选区域特征;基于所述目标候选区域特征,从所述目标候选区域中确定出关键点坐标集合;以及,通过将所述关键点坐标集合中的对应各个坐标轴方向的坐标值进行匹配,确定目标对象边界框的各个关键点的位置坐标的能力。
基于上述的图像目标检测模型,本申请实施例提出的图像目标检测方法包含的上述步骤S101~S103的处理内容可以借助该图像目标检测模型来实现。
即,将待检测图像输入上述预先训练的图像目标检测模型,得到该图像目标检测模型输出的目标对象边界框的各个关键点的位置坐标。
参见图3所示,上述的图像目标检测模型,包括由faster rcnn构成的候选区域提取网络,以及由上述的目标对象边界框检测模型构成的目标对象边界框检测网络OI-Net(order independent network,顺序无关网络)。
其中,候选区域特征提取网络,用于从到检测图像中提取目标候选区域,以及获取目标候选区域特征;根据目标候选区域特征,从目标候选区域中检测目标对象边界框,并对各个目标候选区域进行分类,以及,根据目标对象边界框检测结果和分类结果,对从待检测图像中提取的目标候选区域进行筛选。
具体的,待检测图像输入候选区域特征提取网络后,先经过backbone主干网络提取待检测图像特征图,然后通过RPN候选区域生成网络基于backbone输出的待检测图像特征图生成目标候选区域,然后利用RPN输出的目标候选区域与backbone输出的待检测图像特征图进行aligned roi pooling的池化处理,得到目标候选区域特征图。
上述的目标候选区域特征图分别输入回归网络和分类网络,确定目标对象边界框位置和对目标对象进行分类。
进而,根据对各个目标候选区域的目标对象边界框回归结果和分类结果,对从待检测图像中提取的目标候选区域进行筛选,具体是筛选出符合图像目标检测需求的目标候选区域,作为目标对象边界框检测网络的处理基础。
例如,假设图像目标检测需求是从待检测图像中检测出船只,则经过上述的候选区域特征提取网络的处理,可能从待检测图像中提取出多个候选区域,并且从各个候选区域中检测出对象边界框,以及对各个候选区域中的对象进行了分类。但是可能并不是所有的候选区域中的对象一定是船只,也可能是岛礁。此时,如果将候选区域特征提取网络提取的所有的候选区域都作为目标对象边界框检测网络的处理基础,则会大大增加目标对象边界框检测网络的处理量。为了使目标对象边界框检测网络的处理效率更高,本申请实施例设定,当候选区域提取网络利用其对各个目标候选区域的目标对象边界框回归结果和分类结果,从待检测图像中提取的目标候选区域中,筛选出符合图像目标检测需求的目标候选区域,作为目标对象边界框检测网络的处理基础。
筛选后的目标候选区域再与待检测图像的特征图进行aligned roi pooling,得到目标候选区域特征。
目标候选区域特征输入目标对象边界框检测网络,该网络基于目标候选区域特征,从目标候选区域中确定出关键点坐标集合;以及,基于关键点坐标集合,确定目标对象边界框的各个关键点的位置坐标。
最终,利用候选区域提取网络输出的对候选区域的分类结果,以及目标对象边界框检测网络输出的目标对象边界框的各个关键点位置坐标,即可得到图像目标检测所需的目标对象分类结果和位置回归结果。
在实际应用中发现,该图像目标检测模型存在一些检测窗口的模型评分虚高,导致采用极大值抑制后处理时,产生误检或边界框不贴合目标等问题。这是由于卷积特征对图像内容表达具有平行变稳定性。
针对该问题,本申请实施例在训练图像目标检测模型时,对检测出的目标对象边界框的分类置信度进行了优化。
在训练过程中,将训练样本输入图像目标检测模型,得到候选区域提取网络输出的目标对象分类结果,以及得到目标对象边界框检测网络输出的关键点坐标集合。
然后,基于候选区域提取网络输出的目标对象分类结果的置信度,以及目标对象边界框检测网络输出的关键点坐标集合中的各个坐标值的置信度平均值,对图像目标检测模型进行参数校正。
具体的,对候选区域提取网络输出的目标对象分类结果的置信度,以及目标对象边界框检测网络输出的关键点坐标集合中的各个坐标值的置信度平均值进行加权求和,作为优化后的模型置信度
Figure 880268DEST_PATH_IMAGE002
Figure 148438DEST_PATH_IMAGE003
其中,
Figure 78348DEST_PATH_IMAGE004
是加权系数,满足
Figure 708525DEST_PATH_IMAGE005
Figure 481309DEST_PATH_IMAGE006
是候选区域提取网络输出的目标对象分类结果的置信度;
Figure 490853DEST_PATH_IMAGE007
表示目标对象边界框检测网络输出的关键点坐标集合中的各个坐标值的置信度平均值,其具体计算公式如下:
Figure 540849DEST_PATH_IMAGE008
其中,K表示关键点坐标集合中的关键点个数,例如四边形边界框对应K=8(4个水平x轴坐标,4个竖直y轴坐标);
Figure 672753DEST_PATH_IMAGE009
表示在检测第k个坐标值时得到的第i个可能的坐标值的置信度;
Figure 808199DEST_PATH_IMAGE010
表示从检测第k个坐标值时得到的i个可能的坐标值中选择置信度最大的坐标值对应的置信度。
在训练过程中,利用上述的优化后的模型置信度
Figure 621434DEST_PATH_IMAGE011
对模型参数进行优化校正,不仅可以减少误检,还能提高模型检测目标对象边界框的质量。
例如,将上述的图像目标检测模型在HRSC 2016开源数据集上进行测试,该数据集包含大量不同朝向和形态的垂直俯视角度的船,并且提供了对应的旋转矩形标注。总共包含436181张图像做为训练集,444张图像做测试集,使用map作为验证度量。在训练集上耗时2小时进行训练,测试集上结果如表1所示。测试结果证实了本申请实施例提供的图像目标检测方案明显的超越了先前方法,其中对比最近的SOTA方法RRD,该方法表现出超过RRD检测结果7.7%的精度提升。
表1
Figure 650570DEST_PATH_IMAGE012
为了证实该方案的泛化能力, 另外,在ICDAR 2015数据集上测试了该模型的表现。该数据集是最流行的多方向自然场景文本检测数据集,该数据集包含1k张图像的训练数据和500张图像的测试数据。具体结果如表2所示。可以看出,对比其他方法,该方案仍然变现出极其优越的检测精度。
表2
Figure 359900DEST_PATH_IMAGE013
与上述的图像目标检测方法相对应的,本申请实施例提出一种图像目标检测装置,参见图4所示,该装置包括:
候选区域检测单元100,用于从待检测图像中提取目标候选区域,以及获取目标候选区域特征;所述目标候选区域为包含目标对象的图像区域;
坐标值检测单元110,用于基于所述目标候选区域特征,从所述目标候选区域中确定出关键点坐标集合;所述关键点坐标集合中,包括沿特定的检测方向检测到的目标对象边界框的各个关键点在对应的检测方向上的坐标值,其中,所述特定的检测方向包括目标候选区域的各个坐标轴方向;
位置坐标确定单元120,用于通过将所述关键点坐标集合中的对应各个坐标轴方向的坐标值进行匹配,确定目标对象边界框的各个关键点的位置坐标。
本申请实施例提出的图像目标检测装置,通过沿目标候选区域的各个坐标轴方向检测目标对象边界框的各个关键点,并且确定检测到的关键点在对应的检测方向上的坐标值,得到关键点坐标集合。然后,基于该关键点坐标集合,确定目标对象边界框的各个关键点的位置坐标。该装置将目标对象边界框检测任务,转换为基于空间上下文信息的关键点检测任务,通过关键点检测,实现对关键点在目标候选区域各个坐标轴方向上的坐标值的确定,进而可以确定目标对象边界框的各个关键点在目标候选区域中的位置坐标。该装置所执行的方案可以避免逐点检测目标对象边界框的关键点的位置坐标而产生的关键点顺序敏感的问题,而且,从各个坐标轴方向分别检测关键点,可以更加细致地确定关键点在各个坐标轴方向上的坐标值,从而可以提高目标对象边界框关键点位置坐标的检测精度和稳定性。
可选的,基于所述目标候选区域特征,从所述目标候选区域中确定出关键点坐标集合,以及,通过将所述关键点坐标集合中的对应各个坐标轴方向的坐标值进行匹配,确定目标对象边界框的各个关键点的位置坐标,包括:
将所述目标候选区域特征输入预先训练的目标对象边界框检测模型,得到所述目标对象边界框检测模型输出的目标对象边界框的各个关键点的位置坐标;
其中,所述目标对象边界框检测模型基于所述目标候选区域特征,从所述目标候选区域中确定出关键点坐标集合,以及,通过将所述关键点坐标集合中的对应各个坐标轴方向的坐标值进行匹配,确定目标对象边界框的各个关键点的位置坐标。
可选的,基于所述目标候选区域特征,从所述目标候选区域中确定出关键点坐标集合,包括:
基于所述目标候选区域特征,沿特定的检测方向从所述目标候选区域检测目标对象边界框关键点,并确定检测出的各个关键点在对应的检测方向上的坐标值;
利用检测出的各个关键点在其对应的检测方向上的坐标值,组成关键点坐标集合。
可选的,基于所述目标候选区域特征,沿特定的检测方向从所述目标候选区域检测目标对象边界框关键点,并确定检测出的各个关键点在对应的检测方向上的坐标值,包括:
基于所述目标候选区域特征,沿水平方向从所述目标候选区域检测目标对象边界框关键点,并确定检测出的关键点在水平方向上的坐标值;
以及,基于所述目标候选区域特征,沿竖直方向从所述目标候选区域检测目标对象边界框关键点,并确定检测出的关键点在竖直方向上的坐标值。
可选的,所述基于所述目标候选区域特征,沿水平方向从所述目标候选区域检测目标对象边界框关键点,并确定检测出的关键点在水平方向上的坐标值,包括:
利用竖直卷积核,与目标候选区域特征图的每一列分别进行卷积处理,从目标候选区域特征图中确定出关键特征点;其中,所述竖直卷积核的行数与所述目标候选区域特征图的行数相同;
根据目标候选区域特征图中的关键特征点,从目标候选区域中确定出目标对象边界框关键点;
获取各个目标对象边界框关键点在水平方向上的坐标值。
可选的,所述基于所述目标候选区域特征,沿竖直方向从所述目标候选区域检测目标对象边界框关键点,并确定检测出的关键点在竖直方向上的坐标值,包括:
利用水平卷积核,与目标候选区域特征图中的每一行分别进行卷积处理,从目标候选区域特征图中确定出关键特征点;其中,所述水平卷积核的列数与所述目标候选区域特征图的列数相同;
根据目标候选区域特征图中的关键特征点,从目标候选区域中确定出目标对象边界框关键点;
获取各个目标对象边界框关键点在竖直方向上的坐标值。
可选的,所述根据目标候选区域特征图中的关键特征点,从目标候选区域中确定出目标对象边界框关键点,包括:
根据目标候选区域与目标候选区域特征图的对应关系,从目标候选区域中确定出与目标候选区域特征图中的关键特征点对应的像素点,作为目标对象边界框关键点。
可选的,所述通过将所述关键点坐标集合中的对应各个坐标轴方向的坐标值进行匹配,确定目标对象边界框的各个关键点的位置坐标,包括:
将所述关键点坐标集合中的、对应目标候选区域的各个坐标轴方向的坐标值进行匹配,得到各个位置坐标;
基于所述目标候选区域特征,从各个位置坐标中,筛选出对应目标对象边界框的各个关键点的位置坐标。
可选的,从待检测图像中提取目标候选区域,以及获取目标候选区域特征;基于所述目标候选区域特征,从所述目标候选区域中确定出关键点坐标集合;以及,通过将所述关键点坐标集合中的对应各个坐标轴方向的坐标值进行匹配,确定目标对象边界框的各个关键点的位置坐标,包括:
将待检测图像输入预先训练的图像目标检测模型,得到该图像目标检测模型输出的目标对象边界框的各个关键点的位置坐标;
其中,所述图像目标检测模型具备从待检测图像中提取目标候选区域,以及获取目标候选区域特征;基于所述目标候选区域特征,从所述目标候选区域中确定出关键点坐标集合;以及,通过将所述关键点坐标集合中的对应各个坐标轴方向的坐标值进行匹配,确定目标对象边界框的各个关键点的位置坐标的能力。
可选的,所述图像目标检测模型,包括:
候选区域提取网络,用于从待检测图像中提取目标候选区域,以及获取目标候选区域特征;根据目标候选区域特征,从目标候选区域中检测目标对象边界框,并对各个目标候选区域进行分类,以及,根据目标对象边界框检测结果和分类结果,对从待检测图像中提取的目标候选区域进行筛选;
目标对象边界框检测网络,用于基于所述候选区域提取网络提取的目标候选区域特征,从所述目标候选区域中确定出关键点坐标集合;以及,通过将所述关键点坐标集合中的对应各个坐标轴方向的坐标值进行匹配,确定目标对象边界框的各个关键点的位置坐标。
可选的,所述图像目标检测模型的训练过程,包括:
将训练样本输入所述图像目标检测模型,得到所述候选区域提取网络输出的目标对象分类结果,以及所述目标对象边界框检测网络输出的关键点坐标集合;
基于所述候选区域提取网络输出的目标对象分类结果的置信度,以及所述目标对象边界框检测网络输出的关键点坐标集合中的各个坐标值的置信度平均值,对所述图像目标检测模型进行参数校正。
具体的,上述的图像目标检测装置的各个单元的具体工作内容,请参见上述方法实施例的内容,此处不再重复。
本申请另一实施例还提出一种图像目标检测设备,参见图5所示,该设备包括:
存储器200和处理器210;
其中,所述存储器200与所述处理器210连接,用于存储程序;
所述处理器210,用于通过运行所述存储器200中存储的程序,实现上述任一实施例公开的图像目标检测方法。
具体的,上述图像目标检测设备还可以包括:总线、通信接口220、输入设备230和输出设备240。
处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中:
总线可包括一通路,在计算机系统各个部件之间传送信息。
处理器210可以是通用处理器,例如通用中央处理器(CPU)、微处理器等,也可以是特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
处理器210可包括主处理器,还可包括基带芯片、调制解调器等。
存储器200中保存有执行本发明技术方案的程序,还可以保存有操作系统和其他关键业务。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。更具体的,存储器200可以包括只读存储器(read-only memory,ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory,RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。
输入设备230可包括接收用户输入的数据和信息的装置,例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。
输出设备240可包括允许输出信息给用户的装置,例如显示屏、打印机、扬声器等。
通信接口220可包括使用任何收发器一类的装置,以便与其他设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(WLAN)等。
处理器210执行存储器200中所存放的程序,以及调用其他设备,可用于实现本申请实施例所提供的图像目标检测方法的各个步骤。
本申请另一实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时,实现上述任一实施例提供的图像目标检测方法的各个步骤。
具体的,上述的图像目标检测设备的各个部分的具体工作内容,以及上述的存储介质上的计算机程序被处理器运行时的具体处理内容,均可以参见上述的图像目标检测方法的各个实施例的内容,此处不再赘述。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,各实施例中记载的技术特征可以进行替换或者组合。
本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
本申请所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,模块或子模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个子模块或模块可以结合或者可以集成到另一个模块,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的,作为模块或子模块的部件可以是或者也可以不是物理模块或子模块,即可以位于一个地方,或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中,也可以是各个模块或子模块单独物理存在,也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现,也可以采用软件功能模块或子模块的形式实现。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元,或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (12)

1.一种图像目标检测方法,其特征在于,包括:
从待检测图像中提取目标候选区域,以及获取目标候选区域特征;所述目标候选区域为包含目标对象的图像区域;
基于所述目标候选区域特征,从所述目标候选区域中确定出关键点坐标集合;所述关键点坐标集合中,包括沿特定的检测方向检测到的目标对象边界框的各个关键点在对应的检测方向上的坐标值,其中,所述特定的检测方向包括目标候选区域的各个坐标轴方向;
通过将所述关键点坐标集合中的对应各个坐标轴方向的坐标值进行排列组合,得到各个不同的位置坐标,并基于所述目标候选区域特征,从各个位置坐标中,筛选出对应目标对象边界框的各个关键点的位置坐标。
2.根据权利要求1所述的方法,其特征在于,基于所述目标候选区域特征,从所述目标候选区域中确定出关键点坐标集合,以及,通过将所述关键点坐标集合中的对应各个坐标轴方向的坐标值进行排列组合,得到各个不同的位置坐标,并基于所述目标候选区域特征,从各个位置坐标中,筛选出对应目标对象边界框的各个关键点的位置坐标,包括:
将所述目标候选区域特征输入预先训练的目标对象边界框检测模型,得到所述目标对象边界框检测模型输出的目标对象边界框的各个关键点的位置坐标;
其中,所述目标对象边界框检测模型基于所述目标候选区域特征,从所述目标候选区域中确定出关键点坐标集合,以及,通过将所述关键点坐标集合中的对应各个坐标轴方向的坐标值进行排列组合,确定目标对象边界框的各个关键点的位置坐标。
3.根据权利要求1或2所述的方法,其特征在于,基于所述目标候选区域特征,从所述目标候选区域中确定出关键点坐标集合,包括:
基于所述目标候选区域特征,沿特定的检测方向从所述目标候选区域检测目标对象边界框关键点,并确定检测出的各个关键点在对应的检测方向上的坐标值;
利用检测出的各个关键点在其对应的检测方向上的坐标值,组成关键点坐标集合。
4.根据权利要求3所述的方法,其特征在于,基于所述目标候选区域特征,沿特定的检测方向从所述目标候选区域检测目标对象边界框关键点,并确定检测出的各个关键点在对应的检测方向上的坐标值,包括:
基于所述目标候选区域特征,沿水平方向从所述目标候选区域检测目标对象边界框关键点,并确定检测出的关键点在水平方向上的坐标值;
以及,基于所述目标候选区域特征,沿竖直方向从所述目标候选区域检测目标对象边界框关键点,并确定检测出的关键点在竖直方向上的坐标值。
5.根据权利要求4所述的方法,其特征在于,所述基于所述目标候选区域特征,沿水平方向从所述目标候选区域检测目标对象边界框关键点,并确定检测出的关键点在水平方向上的坐标值,包括:
利用竖直卷积核,与目标候选区域特征图的每一列分别进行卷积处理,从目标候选区域特征图中确定出关键特征点;其中,所述竖直卷积核的行数与所述目标候选区域特征图的行数相同;
根据目标候选区域特征图中的关键特征点,从目标候选区域中确定出目标对象边界框关键点;
获取各个目标对象边界框关键点在水平方向上的坐标值。
6.根据权利要求4所述的方法,其特征在于,所述基于所述目标候选区域特征,沿竖直方向从所述目标候选区域检测目标对象边界框关键点,并确定检测出的关键点在竖直方向上的坐标值,包括:
利用水平卷积核,与目标候选区域特征图中的每一行分别进行卷积处理,从目标候选区域特征图中确定出关键特征点;其中,所述水平卷积核的列数与所述目标候选区域特征图的列数相同;
根据目标候选区域特征图中的关键特征点,从目标候选区域中确定出目标对象边界框关键点;
获取各个目标对象边界框关键点在竖直方向上的坐标值。
7.根据权利要求1所述的方法,其特征在于,从待检测图像中提取目标候选区域,以及获取目标候选区域特征;基于所述目标候选区域特征,从所述目标候选区域中确定出关键点坐标集合;以及,基于所述关键点坐标集合,确定目标对象边界框的各个关键点的位置坐标,包括:
将待检测图像输入预先训练的图像目标检测模型,得到该图像目标检测模型输出的目标对象边界框的各个关键点的位置坐标;
其中,所述图像目标检测模型具备从待检测图像中提取目标候选区域,以及获取目标候选区域特征;基于所述目标候选区域特征,从所述目标候选区域中确定出关键点坐标集合;以及,通过将所述关键点坐标集合中的对应各个坐标轴方向的坐标值进行排列组合,确定目标对象边界框的各个关键点的位置坐标的能力。
8.根据权利要求7所述的方法,其特征在于,所述图像目标检测模型,包括:
候选区域提取网络,用于从待检测图像中提取目标候选区域,以及获取目标候选区域特征;根据目标候选区域特征,从目标候选区域中检测目标对象边界框,并对各个目标候选区域进行分类,以及,根据目标对象边界框检测结果和分类结果,对从待检测图像中提取的目标候选区域进行筛选;
目标对象边界框检测网络,用于基于所述候选区域提取网络提取的目标候选区域特征,从所述目标候选区域中确定出关键点坐标集合;以及,通过将所述关键点坐标集合中的对应各个坐标轴方向的坐标值进行排列组合,确定目标对象边界框的各个关键点的位置坐标。
9.根据权利要求8所述的方法,其特征在于,所述图像目标检测模型的训练过程,包括:
将训练样本输入所述图像目标检测模型,得到所述候选区域提取网络输出的目标对象分类结果,以及所述目标对象边界框检测网络输出的关键点坐标集合;
基于所述候选区域提取网络输出的目标对象分类结果的置信度,以及所述目标对象边界框检测网络输出的关键点坐标集合中的各个坐标值的置信度平均值,对所述图像目标检测模型进行参数校正。
10.一种图像目标检测装置,其特征在于,包括:
候选区域检测单元,用于从待检测图像中提取目标候选区域,以及获取目标候选区域特征;所述目标候选区域为包含目标对象的图像区域;
坐标值检测单元,用于基于所述目标候选区域特征,从所述目标候选区域中确定出关键点坐标集合;所述关键点坐标集合中,包括沿特定的检测方向检测到的目标对象边界框的各个关键点在对应的检测方向上的坐标值,其中,所述特定的检测方向包括目标候选区域的各个坐标轴方向;
位置坐标确定单元,用于通过将所述关键点坐标集合中的对应各个坐标轴方向的坐标值进行排列组合,得到各个不同的位置坐标,并基于所述目标候选区域特征,从各个位置坐标中,筛选出对应目标对象边界框的各个关键点的位置坐标。
11.一种图像目标检测设备,其特征在于,包括:
存储器和处理器;
其中,所述存储器与所述处理器连接,用于存储程序;
所述处理器,用于通过运行所述存储器中的程序,实现如权利要求1至9中任意一项所述的图像目标检测方法。
12.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现如权利要求1至9中任意一项所述的图像目标检测方法。
CN202111053211.8A 2021-09-09 2021-09-09 一种图像目标检测方法、装置、设备及存储介质 Active CN113537158B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111053211.8A CN113537158B (zh) 2021-09-09 2021-09-09 一种图像目标检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111053211.8A CN113537158B (zh) 2021-09-09 2021-09-09 一种图像目标检测方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113537158A CN113537158A (zh) 2021-10-22
CN113537158B true CN113537158B (zh) 2022-03-08

Family

ID=78123051

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111053211.8A Active CN113537158B (zh) 2021-09-09 2021-09-09 一种图像目标检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113537158B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115063739B (zh) * 2022-06-10 2023-06-16 嘉洋智慧安全科技(北京)股份有限公司 异常行为的检测方法、装置、设备及计算机存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6509027B2 (ja) * 2015-05-12 2019-05-08 キヤノン株式会社 被写体追跡装置、光学機器、撮像装置、被写体追跡装置の制御方法、プログラム
CN109902806B (zh) * 2019-02-26 2021-03-16 清华大学 基于卷积神经网络的噪声图像目标边界框确定方法
CN110473428A (zh) * 2019-09-18 2019-11-19 珠海格力电器股份有限公司 一种智能停车方法、设备和系统
CN111814827B (zh) * 2020-06-08 2024-06-11 湖南腓腓动漫有限责任公司 基于yolo的关键点目标检测方法
CN112270278A (zh) * 2020-11-02 2021-01-26 重庆邮电大学 一种基于关键点的蓝顶房检测方法
CN112949766A (zh) * 2021-04-07 2021-06-11 成都数之联科技有限公司 目标区域检测模型训练方法及系统及装置及介质

Also Published As

Publication number Publication date
CN113537158A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
Tong et al. Saliency detection with multi-scale superpixels
CN108520229B (zh) 图像检测方法、装置、电子设备和计算机可读介质
US9824294B2 (en) Saliency information acquisition device and saliency information acquisition method
CN108920580B (zh) 图像匹配方法、装置、存储介质及终端
CN109815770B (zh) 二维码检测方法、装置及系统
WO2018108129A1 (zh) 用于识别物体类别的方法及装置、电子设备
CN109343920B (zh) 一种图像处理方法及其装置、设备和存储介质
JP5261501B2 (ja) 不変の視覚場面及び物体の認識
CN113785305A (zh) 一种检测倾斜文字的方法、装置及设备
US20150154471A1 (en) Image processing device and method, and computer readable medium
CN110443242B (zh) 读数框检测方法、目标识别模型训练方法及相关装置
CN115457565A (zh) 一种ocr文字识别方法、电子设备及存储介质
CN111400528B (zh) 一种图像压缩方法、装置、服务器及存储介质
CN113490947A (zh) 检测模型训练方法、装置、检测模型使用方法及存储介质
CN115375917B (zh) 一种目标边缘特征提取方法、装置、终端及存储介质
CN113901972A (zh) 遥感图像建筑物的检测方法、装置、设备及存储介质
CN110942473A (zh) 一种基于特征点网格化匹配的运动目标跟踪检测方法
CN114419313A (zh) 影像辨识方法及影像辨识系统
CN113537158B (zh) 一种图像目标检测方法、装置、设备及存储介质
US9424484B2 (en) Feature interpolation
CN112241736A (zh) 一种文本检测的方法及装置
JP2014010633A (ja) 画像認識装置、画像認識方法、及び画像認識プログラム
Kim et al. Improving the search accuracy of the VLAD through weighted aggregation of local descriptors
CN116246161A (zh) 领域知识引导下的遥感图像目标精细类型识别方法及装置
CN112560857B (zh) 文字区域边界检测方法、设备、存储介质及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant