CN114419390A

CN114419390A - 目标对象的预测方法、装置、电子设备和存储介质

Info

Publication number: CN114419390A
Application number: CN202111604280.3A
Authority: CN
Inventors: 张珂; 罗钧峰; 苏金明; 范铭源; 魏晓明; 魏晓林
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-29

Abstract

本发明实施例提供了一种目标对象的预测方法和装置，其中，所述方法包括：将原始图像输入至第一检测模型，输出目标对象的第一位置信息和粗略类别信息；对原始图像进行裁剪得到多个目标对象区域图像，将多个目标对象区域图像输入至第二检测模型，输出每个目标对象的多个第二位置信息和多个精细类别信息；若存在目标类别对象则选择出目标预测对象；根据第一位置信息和第二位置信息生成位置预测结果，将精细类别信息作为类别预测结果。本发明实施例增加了目标对象的上下文信息，从而提高从第二检测模型输出的精细类别信息的准确率。针对目标类别对象选择出目标预测对象，避免了非目标预测对象的干扰，进一步提升目标对象预测的准确率。

Description

目标对象的预测方法、装置、电子设备和存储介质

技术领域

本发明涉及互联网技术领域，特别是涉及一种目标对象的预测方法、装置、电子设备和计算机可读存储介质。

背景技术

目标对象预测作为计算机视觉中的基本技术，一般分为两个子任务。第一个子任务是通过判断前景与背景来确定目标对象的位置，第二个子任务是需要对确定位置后的目标对象进行分类。在满足这两个子任务的前提下，需要预测模型对确定位置后的目标对象具有足够强的外观差异性判断能力和尺度差异性判断能力。一个预测模型的好坏通常通过召回率、准确率来衡量。其中，召回率反映了预测模型预测到的某类别的目标对象中真正的属于该类别的数量占该类别真实数据(Ground Truth)数量的比例，准确率反映了预测模型预测到的真正的属于该类别的目标对象的数量与所有类别的目标对象的数量的比例。与准确率类似的一个指标是虚警率，虚警率反映了预测模型预测到的不属于该类别的目标对象(误检目标对象)的数量与所有类别的目标对象的数量的比例。

针对预测模型对目标对象预测过程中的背景噪声这类负样本进行去除的问题，通常以均衡正负样本比例的方式来解决。例如，在网络学习过程中设计的在线困难样本挖掘和在损失函数层面设计的方法。除此之外，还可以将区域建议网络(Region ProposalNetwork，简称RPN)层预测的负样本收集起来，用于后续预测模型的离线学习。这些方法在降低虚警率提高准确率上都有较为明显的优势，但是对于预测模型需要保证高召回的场景而言，在线困难样本挖掘的方法只保留损失函数较高的样本，完全忽略简单的样本，这本质上是改变了训练时的输入分布(仅包含困难样本)，会导致预测模型在学习的时候失去对易分类样本的判别能力，不能完全保证简单样本的全部召回。对于损失函数层面设计的方法来说，参数的设置会对正负样本的学习起决定性作用，不利于稳定的结果输出。而对于收集负样本用于预测模型离线学习的方案来说，会增加预测模型类间误差的判断，虽然可以将大多数负样本识别出来，但是因为负样本本身与正样本具有高度外观相似性，在没有上下文参考的情况下，引起的类间误差会降低召回率。另一方面，挖掘的负样本是具有局限性的，只能符合当前训练集合的误检目标，泛化能力不足。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种目标对象的预测方法、装置、电子设备和计算机可读存储介质。

为了解决上述问题，根据本发明实施例的第一方面，公开了一种目标对象的预测方法，所述方法包括：获取待处理的原始图像，所述原始图像包含至少一个目标对象；将所述原始图像输入至训练完毕的第一检测模型，输出至少一个所述目标对象的第一位置信息和粗略类别信息；针对每个所述目标对象，根据所述第一位置信息对所述原始图像进行裁剪得到多个目标对象区域图像，将多个所述目标对象区域图像输入至训练完毕的第二检测模型，输出每个所述目标对象的多个第二位置信息和多个精细类别信息；针对每个所述目标对象，根据所述粗略类别信息、所述第一位置信息、多个所述第二位置信息和预设交并比阈值，判断每个所述目标对象是否属于预设类别的目标类别对象；若至少一个所述目标对象中存在所述目标类别对象，则计算所述目标类别对象的置信度，并根据所述置信度从所述目标类别对象中选择出目标预测对象；根据所述目标预测对象的所述第一位置信息和所述第二位置信息生成所述目标预测对象的位置预测结果，并将所述目标预测对象对应的所述精细类别信息作为类别预测结果。

可选地，所述根据所述粗略类别信息、所述第一位置信息、多个所述第二位置信息和预设交并比阈值，判断每个所述目标对象是否属于预设类别的目标类别对象，包括：当所述粗略类别信息属于所述预设类别时，根据所述第一位置信息、多个所述第二位置信息和预设交并比阈值，判断所述目标对象是否位于多个所述目标对象区域图像的中心区域；将位于至少一个所述目标对象区域图像的中心区域的所述目标对象确定为所述目标类别对象。

可选地，所述根据所述第一位置信息、多个所述第二位置信息和预设交并比阈值，判断所述目标对象是否位于多个所述目标对象区域图像的中心区域，包括：根据所述第一位置信息和多个所述第二位置信息计算所述目标对象的多个交并比参数；若存在至少一个大于或等于所述预设交并比阈值的交并比参数，则确认所述目标对象位于至少一个所述目标对象区域图像的中心区域。

可选地，所述计算所述目标类别对象的置信度，包括：统计所述目标类别对象位于所述中心区域的数量，根据所述数量和包含所述目标类别对象的所述目标对象区域图像的数量计算所述置信度。

可选地，所述根据所述置信度从所述目标类别对象中选择出目标预测对象，包括：从所述目标类别对象中选择所述置信度满足预设条件的所述目标预测对象。

可选地，所述根据所述目标预测对象的所述第一位置信息和所述第二位置信息生成所述目标预测对象的位置预测结果，包括：计算所述第一位置信息和所述第二位置信息的平均值，将所述平均值作为所述位置预测结果。

可选地，所述第一检测模型包含Two-stage网络模型，所述第二检测模型包含One-stage网络模型。

根据本发明实施例的第二方面，还公开了一种目标对象的预测装置，所述装置包括：图像获取模块，用于获取待处理的原始图像，所述原始图像包含至少一个目标对象；第一检测模块，用于将所述原始图像输入至训练完毕的第一检测模型，输出至少一个所述目标对象的第一位置信息和粗略类别信息；第二检测模块，用于针对每个所述目标对象，根据所述第一位置信息对所述原始图像进行裁剪得到多个目标对象区域图像，将多个所述目标对象区域图像输入至训练完毕的第二检测模型，输出每个所述目标对象的多个第二位置信息和多个精细类别信息；对象判断模块，用于针对每个所述目标对象，根据所述粗略类别信息、所述第一位置信息、多个所述第二位置信息和预设交并比阈值，判断每个所述目标对象是否属于预设类别的目标类别对象；对象选择模块，用于若至少一个所述目标对象中存在所述目标类别对象，则计算所述目标类别对象的置信度，并根据所述置信度从所述目标类别对象中选择出目标预测对象；结果确定模块，用于根据所述目标预测对象的所述第一位置信息和所述第二位置信息生成所述目标预测对象的位置预测结果，并将所述目标预测对象对应的所述精细类别信息作为类别预测结果。

可选地，所述对象判断模块，包括：中心判断模块，用于当所述粗略类别信息属于所述预设类别时，根据所述第一位置信息、多个所述第二位置信息和预设交并比阈值，判断所述目标对象是否位于多个所述目标对象区域图像的中心区域；对象确定模块，用于将位于至少一个所述目标对象区域图像的中心区域的所述目标对象确定为所述目标类别对象。

可选地，所述中心判断模块，包括：参数计算模块，用于根据所述第一位置信息和多个所述第二位置信息计算所述目标对象的多个交并比参数；中心确定模块，用于若存在至少一个大于或等于所述预设交并比阈值的交并比参数，则确认所述目标对象位于至少一个所述目标对象区域图像的中心区域。

可选地，所述对象选择模块，用于统计所述目标类别对象位于所述中心区域的数量，根据所述数量和包含所述目标类别对象的所述目标对象区域图像的数量计算所述置信度。

可选地，所述对象选择模块，用于从所述目标类别对象中选择所述置信度满足预设条件的所述目标预测对象。

可选地，所述结果确定模块，用于计算所述第一位置信息和所述第二位置信息的平均值，将所述平均值作为所述位置预测结果。

根据本发明实施例的第三方面，还公开了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面所述的目标对象的预测方法。

根据本发明实施例的第四方面，还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面所述的目标对象的预测方法。

与现有技术相比，本发明实施例提供的技术方案具有如下优点：

本发明实施例提供的一种目标对象的预测方案，获取包含有至少一个目标对象的原始图像，先将原始图像输入至训练完毕的第一检测模型，输出至少一个目标对象的第一位置信息和粗略类别信息，再针对每个目标对象，根据第一位置信息对原始图像进行裁剪得到多个目标对象区域图像，进而将多个目标对象区域图像输入至训练完毕的第二检测模型，输出每个目标对象的多个第二位置信息和多个精细类别信息。接下来，针对每个目标对象，根据粗略类别信息、第一位置信息、多个第二位置信息和预设交并比阈值，判断每个目标对象是否属于预设类别的目标类别对象。若存在目标类别对象，则计算目标类别对象的置信度，并根据置信度从目标类别对象中选择出目标预测对象。最终，根据目标预测对象的第一位置信息和第二位置信息生成目标预测对象的位置预测结果，并将目标预测对象对应的精细类别信息作为类别预测结果。

本发明实施例在从第一检测模型输出目标对象的第一位置信息之后，根据第一位置信息对原始图像进行裁剪得到目标对象区域图像，将目标对象区域图像输入至第二检测模型，使得输入至第二检测模型的图像增加了目标对象的上下文信息，从而提高从第二检测模型输出的精细类别信息的准确率。

本发明实施例判断每个目标对象是否为目标类别对象，后续针对目标类别对象选择出目标预测对象，避免了非目标预测对象，如背景噪声的干扰，进一步提升了目标对象预测的准确率。

附图说明

图1是本发明实施例的一种目标对象的预测方法的步骤流程图；

图2a、2b和2c分别是本发明实施例的按照裁剪方式得到的训练样本数据的示意图；

图3a、3b和3c分别是本发明实施例的按照替换背景的方式得到的训练样本数据的示意图；

图4a是本发明实施例的交通标志中的警告标志的示意图；

图4b是本发明实施例的交通标志中的禁止标志的示意图；

图4c是本发明实施例的交通标志中的指示标志的示意图；

图5是本发明实施例的一种基于局部坐标对齐和全局坐标对齐的目标对象预测方案的示意图；

图6是本发明实施例的一种目标对象的预测装置的结构框图；

图7是本发明实施例的一种电子设备的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明实施例的一种目标对象的预测方法的步骤流程图。该目标对象的预测方法具体可以包括如下步骤：

步骤101，获取待处理的原始图像。

在本发明的实施例中，原始图像可以包含至少一个目标对象。在实际应用中，目标对象可以为建筑物、动物、人体、车辆、船舶、交通标志等等，本发明实施例对目标对象的种类、数量、颜色、尺寸等不做具体限制。

步骤102，将原始图像输入至训练完毕的第一检测模型，输出至少一个目标对象的第一位置信息和粗略类别信息。

在本发明的实施例中，第一检测模型可以输出原始图像中每个目标对象的第一位置信息和粗略类别信息，第一检测模型具有高召回特性。

在实际应用中，第一检测模型的训练样本数据可以目标对象预测领域中的常规训练样本数据。例如，该常规训练样本数据为包含交通标志的图像，该常规训练样本数据还可以包含交通标志在图像中的坐标信息和粗略类别信息。其中，交通标志可以理解为常规训练样本数据中目标对象。

步骤103，针对每个目标对象，根据第一位置信息对原始图像进行裁剪得到多个目标对象区域图像，将多个目标对象区域图像输入至训练完毕的第二检测模型，输出每个目标对象的多个第二位置信息和多个精细类别信息。

在本发明的实施例中，第二检测模型可以输出目标对象区域图像中目标对象的第二位置信息和精细类别信息，第二检测模型具有高准确特性。而且，在将目标对象区域图像输入第二检测模型之前，需要获得目标对象区域图像。具体可以根据第一位置信息对原始图像进行裁剪得到多个目标对象区域图像。例如，第一位置信息表示一个矩形区域，则以该矩形区域为中心区域，按照不同的比例将原始图像裁剪为多个目标对象区域图像。需要说明的是，目标对象可以位于目标对象区域图像的中心区域。

在实际应用中，第二检测模型的训练样本数据可以根据第一检测模型的训练样本数据经过转换得到。例如，第一检测模型的训练样本数据为包含交通标志的图像。针对第一检测模型的训练样本数据中的每一张图像，以交通标志所在区域为中心区域，按照不同的比例将第一检测模型的训练样本数据中的每一张图像进行裁剪得到一部分第二检测模型的训练样本数据。参照图2a、2b和2c，图2a、2b和2c分别示出了按照裁剪方式得到的训练样本数据的示意图。由于交通标志数量有限，如果仅仅按照不同的比例将第一检测模型的训练样本数据中的每一张图像进行裁剪，得到的第二检测模型的训练样本数据不具备多样性。因此，针对第一检测模型的训练样本数据中的每个交通标志，还可以通过替换不同的背景的方式得到另一部分第二检测模型的训练样本数据。参照图3a、3b和3c，图3a、3b和3c分别示出了按照替换背景的方式得到的训练样本数据的示意图。

而且，第二检测模型的训练样本数据还可以包含交通标志在图像中的坐标信息和精细类别信息。

步骤104，针对每个目标对象，根据粗略类别信息、第一位置信息、多个第二位置信息和预设交并比阈值，判断每个目标对象是否属于预设类别的目标类别对象。

在本发明的实施例中，并非每个目标对象均为待预测的对象，而且，经过第一检测模型输出的第一位置信息，和经过第二检测模型输出的第二位置信息并非绝对准确，因此，需要从目标对象中筛选出目标类别对象，为后续预测做准备。

步骤105，若至少一个目标对象中存在目标类别对象，则计算目标类别对象的置信度，并根据置信度从目标类别对象中选择出目标预测对象。

在本发明的实施例中，若目标对象中存在目标类别对象，则可以进一步根据置信度从目标类别对象中选择出目标预测对象，其中，置信度可以表示目标类别对象为最终需要预测的目标预测对象的概率。

步骤106，根据目标预测对象的第一位置信息和第二位置信息生成目标预测对象的位置预测结果，并将目标预测对象对应的精细类别信息作为类别预测结果。

在本发明的实施例中，在确定目标预测对象之后，可以根据目标预测对象的第一位置信息和第二位置信息生成位置预测结果，并将目标预测对象对应的精细类别信息作为类别预测结果，最终，将位置预测结果和类别预测结果作为目标预测对象的预测结果。

在本发明的一种优选实施例中，根据粗略类别信息、第一位置信息、多个第二位置信息和预设交并比阈值，判断每个目标对象是否属于预设类别的目标类别对象的一种实施方式为，判断粗略类别信息是否属于预测类别。当粗略类别信息不属于预设类别时，确定目标对象不为目标类别对象；当粗略类别信息属于预设类别时，进一步根据第一位置信息、多个第二位置信息和预设交并比阈值，判断目标对象是否位于多个目标对象区域图像的中心区域，进而将位于至少一个目标对象区域图像的中心区域的目标对象确定为目标类别对象。

在实际应用中，若预设类别为交通标志类别。首先，可以判断目标对象a的粗略类别信息是否属于交通标志类别，若粗略类别信息不属于交通标志类别，则可以不对该目标对象a进行后续处理。若粗略类别信息属于交通标志类别，则进一步判断目标对象a是否位于多个目标对象区域图像的中心区域。如果目标对象a不位于目标对象区域图像的中心区域，由于输入至第二检测模型的目标对象图像均为中心区域存在目标对象，则表示第一检测模型输出的第一位置信息和粗略类别信息并非对应于属于交通标志类别的目标对象，而是对应于背景噪声。在此情况下，需要根据目标对象区域图像的坐标对齐来判断第一检测模型输出的第一位置信息和粗略类别信息是否对应于属于交通标志类别的目标对象。如果第一检测模型输出的目标对象b的第一位置信息和粗略类别信息不对应于属于交通标志类别的目标对象，则将该目标对象b去除。

在本发明的一种优选实施例中，根据第一位置信息、多个第二位置信息和预设交并比阈值，判断目标对象是否位于多个目标对象区域图像的中心区域的一种实施方式为，根据第一位置信息和多个第二位置信息计算目标对象的多个交并比(IntersecTIon overUnion，简称IoU)参数；若存在至少一个大于或等于预设交并比阈值的交并比参数，则确认目标对象位于至少一个目标对象区域图像的中心区域。若某目标对象的IoU参数小于预设交并比阈值，则认为该目标对象为背景噪声，直接去除该目标对象。

在本发明的一种优选实施例中，计算目标类别对象的置信度的一种实施方式为，统计目标类别对象位于中心区域的数量，根据数量和包含目标类别对象的目标对象区域图像的数量计算置信度。例如，目标类别对象c位于10个目标对象区域图像的中心区域，即目标类别对象c位于中心区域的数量为10，包含该目标类别对象c的目标对象区域图像的数量为15，则可以将目标类别对象c位于中心区域的数量为10与包含该目标类别对象c的目标对象区域图像的数量15相除，得到目标类别对象c的置信度0.667。

在本发明的一种优选实施例中，根据置信度从目标类别对象中选择出目标预测对象的一种实施方式为，从目标类别对象中选择置信度满足预设条件的目标预测对象。在实际应用中，预设条件可以为置信度最高的一个或几个，即从目标类别对象中选择置信度最高的一个目标类别对象为目标预测对象，或者，从目标类别对象中选择置信度最高的几个目标类别对象为目标预测对象。本发明实施例中的置信度最高可以为1。

在本发明的一种优选实施例中，根据目标预测对象的第一位置信息和第二位置信息生成目标预测对象的位置预测结果的一种实施方式为，计算第一位置信息和第二位置信息的平均值，将平均值作为位置预测结果。例如，目标预测对象d的第一位置信息为(xd1，yd1)，目标预测对象d的第二位置信息为(xd2，yd2)，则计算目标预测对象d的第一位置信息中的横坐标xd1与目标预测对象d的第二位置信息的横坐标xd2的平均值为xd，并计算目标预测对象d的第一位置信息中的纵坐标yd1与目标预测对象d的第二位置信息的纵坐标yd2的平均值为yd。将平均值(xd，yd)作为位置预测结果。

在本发明的一种优选实施例中，第一检测模型可以包含Two-stage网络模型，第二检测模型可以包含One-stage网络模型。其中，Two-stage网络模型和One-stage网络模型为主流的目标检测算法模型。One-stage网络模型直接对anchor进行分类和回归，具有速度快的特点。Two-stage网络模型先生成anchor，再对anchor进行分类和回归，具有精度高的特点。

基于上述关于一种目标对象的预测方法实施例的相关说明，下面介绍一种基于局部坐标对齐和全局坐标对齐的目标对象预测方案。该目标对象预测方案主要用于从图像中预测得到交通标志的位置预测结果和类别预测结果。参照图4a、4b和4c，图4a示出了交通标志中的警告标志的示意图。图4b示出了交通标志中的禁止标志的示意图。图4c示出了交通标志中的指示标志的示意图。

参照图5，图5示出了本发明实施例的一种基于局部坐标对齐和全局坐标对齐的目标对象预测方案的示意图。该目标对象预测方案使用Two-stage网络模型回归目标对象的粗类别信息(即回归得到警告标志、禁止标志和指示标志，不区分每个标志下的细类别)的高召回特性，结合One-stage网络模型回归细类别信息(区分警告标志、禁止标志和指示标志下的每一个小类)的高准确特性，以全局坐标对齐和局部坐标对齐的方式，结合两个网络模型的预测结果作为输出结果。不仅重新对简单样本和困难样本做了二次判别，而且没有参数设置的困难。One-stage网络模型用于细类别信息的判断，结合上下文信息，可以减少类间误差和背景噪声的误检，该目标对象预测方案没有局限性的负例挖掘，仅仅针对两个网络模型对于同一个背景噪声回归结果不一致的思路来判断背景噪声。实验证明，该目标对象预测方案可以有效解决负样本的干扰，在提高准确率的同时不降低召回率。

将待处理的原始图像输入至Two-stage网络模型，从Two-stage网络模型输出原始图像中目标对象的第一位置信息和粗略类别信息。根据第一位置信息将原始图像进行裁剪，得到具有上下文信息的目标对象区域图像(patch)，并将该patch输入至One-stage网络模型。

从One-stage网络模型输出patch中的目标对象的第二位置信息和精细类别信息。如果在One-stage网络模型输出的第二位置信息和精细类别信息不加入本发明实施例中的全局坐标对齐方法和局部坐标对齐方法，直接评估准确率和召回率，得到的结果如表1中的第二行所示。表1中的第一行表示不加入One-stage网络模型，只依靠Two-stage网络模型输出的结果。从表1中可知，因为在One-stage网络模型中加入了上下文信息，可以减小类间误差和背景噪声，一定程度上提升了准确率和召回率。

召回率	准确率
		96.07％	92.83％
96.36％	94.3％
		95.92％	94.68％
96.36％	94.71％

表1

利用局部坐标对齐方法对One-stage网络模型输出的第二位置信息进行约束。因为One-stage网络模型在训练时只有图像的中心区域存在目标对象，如果预测的目标对象不在中心区域，说明Two-stage网络模型的输出结果中，目标对象是背景噪声。在这种情况下，需要根据patch中输入和输出目标的坐标对齐来判断Two-stage网络模型预测的是正样本还是负样本。正样本表示目标对象为交通标志，负样本表示目标对象不为交通标志。如果是正样本，则输出该样本在One-stage网络模型中的精细类别信息，如果是负样本则去除。其中，局部坐标对齐的方法是判断IoU是否满足给定阈值。当IoU小于阈值时，局部坐标对齐方法判定该目标对象为背景，直接去除。局部坐标对齐方法得到的结果如表1中第三行所示，可以看出，局部坐标对齐方法可以去除背景误检，但是One-stage网络模型检测到的目标对象不在patch的中心区域不一定就是背景，直接去除的方式会影响召回。

One-stage网络模型输出的目标对象的第二位置信息需要和Two-stage网络模型输出的第一位置信息结合起来判断。当One-stage网络模型回归了不在中心区域的目标对象，且该目标对象在输入至One-stage网络模型的另一张图像中被回归到中心区域，则该目标对象不被去除，而是以较高的置信度保留，因为该目标对象大概率是正样本。局部坐标对齐方法是考虑到同一个负样本，One-stage网络模型和Two-stage网络模型的两次检测结果会有差异，从而可以判断出背景噪声。全局坐标对齐是考虑到同一个正样本，One-stage网络模型和Two-stage网络模型的两次检测结果基本一致，通过合并的方式保留置信度最高的样本，提高召回率。如表1中第四行所示，合并全局坐标对齐后的结果和局部坐标对齐后的结果，相比第一行的结果，在召回率和准确率上均得到了提升。

最后，目标对象的位置预测结果为正样本分别经过One-stage网络模型和Two-stage网络模型输出的第二位置信息和第一位置信息的平均值，类别预测结果为One-stage网络模型输出的精细类别结果。

本发明实施例中的Two-stage网络模型负责粗略类别信息的召回，针对输出的目标对象，裁剪原始图像得到patch，将patch输入One-stage网络模型，One-stage网络模型负责精细了别信息的识别，一方面，One-stage网络模型的识别可以加入上下文信息，获得更准确的分类结果，另一方面，通过全局坐标对齐和局部坐标对齐的方式，将One-stage网络模型的输出结果与Two-stage网络模型的输出结果相结合，有效进行背景噪声的判断。在地图自动化生产需要的样本集合里可以明显地提升准确率和召回率。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图6，示出了本发明实施例的一种目标对象的预测装置的结构框图，该目标对象的预测装置具体可以包括如下模块：

图像获取模块61，用于获取待处理的原始图像，所述原始图像包含至少一个目标对象；

第一检测模块62，用于将所述原始图像输入至训练完毕的第一检测模型，输出至少一个所述目标对象的第一位置信息和粗略类别信息；

第二检测模块63，用于针对每个所述目标对象，根据所述第一位置信息对所述原始图像进行裁剪得到多个目标对象区域图像，将多个所述目标对象区域图像输入至训练完毕的第二检测模型，输出每个所述目标对象的多个第二位置信息和多个精细类别信息；

对象判断模块64，用于针对每个所述目标对象，根据所述粗略类别信息、所述第一位置信息、多个所述第二位置信息和预设交并比阈值，判断每个所述目标对象是否属于预设类别的目标类别对象；

对象选择模块65，用于若至少一个所述目标对象中存在所述目标类别对象，则计算所述目标类别对象的置信度，并根据所述置信度从所述目标类别对象中选择出目标预测对象；

结果确定模块66，用于根据所述目标预测对象的所述第一位置信息和所述第二位置信息生成所述目标预测对象的位置预测结果，并将所述目标预测对象对应的所述精细类别信息作为类别预测结果。

在本发明的一种优选实施例中，所述对象判断模块64，包括：

中心判断模块，用于当所述粗略类别信息属于所述预设类别时，根据所述第一位置信息、多个所述第二位置信息和预设交并比阈值，判断所述目标对象是否位于多个所述目标对象区域图像的中心区域；

对象确定模块，用于将位于至少一个所述目标对象区域图像的中心区域的所述目标对象确定为所述目标类别对象。

在本发明的一种优选实施例中，所述中心判断模块，包括：

参数计算模块，用于根据所述第一位置信息和多个所述第二位置信息计算所述目标对象的多个交并比参数；

中心确定模块，用于若存在至少一个大于或等于所述预设交并比阈值的交并比参数，则确认所述目标对象位于至少一个所述目标对象区域图像的中心区域。

在本发明的一种优选实施例中，所述对象选择模块65，用于统计所述目标类别对象位于所述中心区域的数量，根据所述数量和包含所述目标类别对象的所述目标对象区域图像的数量计算所述置信度。

在本发明的一种优选实施例中，所述对象选择模块65，用于从所述目标类别对象中选择所述置信度满足预设条件的所述目标预测对象。

在本发明的一种优选实施例中，所述结果确定模块66，用于计算所述第一位置信息和所述第二位置信息的平均值，将所述平均值作为所述位置预测结果。

在本发明的一种优选实施例中，所述第一检测模型包含Two-stage网络模型，所述第二检测模型包含One-stage网络模型。

本发明实施例还提供了一种电子设备，参见图7，包括：处理器701、存储器702以及存储在所述存储器702上并可在所述处理器701上运行的计算机程序7021，所述处理器701执行所述程序7021时实现前述实施例的目标对象的预测方法。

本发明实施例还提供了一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述实施例的目标对象的预测方法。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、系统、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种目标对象的预测方法和装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种目标对象的预测方法，其特征在于，所述方法包括：

获取待处理的原始图像，所述原始图像包含至少一个目标对象；

将所述原始图像输入至训练完毕的第一检测模型，输出至少一个所述目标对象的第一位置信息和粗略类别信息；

针对每个所述目标对象，根据所述第一位置信息对所述原始图像进行裁剪得到多个目标对象区域图像，将多个所述目标对象区域图像输入至训练完毕的第二检测模型，输出每个所述目标对象的多个第二位置信息和多个精细类别信息；

针对每个所述目标对象，根据所述粗略类别信息、所述第一位置信息、多个所述第二位置信息和预设交并比阈值，判断每个所述目标对象是否属于预设类别的目标类别对象；

若至少一个所述目标对象中存在所述目标类别对象，则计算所述目标类别对象的置信度，并根据所述置信度从所述目标类别对象中选择出目标预测对象；

根据所述目标预测对象的所述第一位置信息和所述第二位置信息生成所述目标预测对象的位置预测结果，并将所述目标预测对象对应的所述精细类别信息作为类别预测结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所述粗略类别信息、所述第一位置信息、多个所述第二位置信息和预设交并比阈值，判断每个所述目标对象是否属于预设类别的目标类别对象，包括：

当所述粗略类别信息属于所述预设类别时，根据所述第一位置信息、多个所述第二位置信息和预设交并比阈值，判断所述目标对象是否位于多个所述目标对象区域图像的中心区域；

将位于至少一个所述目标对象区域图像的中心区域的所述目标对象确定为所述目标类别对象。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一位置信息、多个所述第二位置信息和预设交并比阈值，判断所述目标对象是否位于多个所述目标对象区域图像的中心区域，包括：

根据所述第一位置信息和多个所述第二位置信息计算所述目标对象的多个交并比参数；

若存在至少一个大于或等于所述预设交并比阈值的交并比参数，则确认所述目标对象位于至少一个所述目标对象区域图像的中心区域。

4.根据权利要求2或3所述的方法，其特征在于，所述计算所述目标类别对象的置信度，包括：

统计所述目标类别对象位于所述中心区域的数量，根据所述数量和包含所述目标类别对象的所述目标对象区域图像的数量计算所述置信度。

5.根据权利要求1所述的方法，其特征在于，所述根据所述置信度从所述目标类别对象中选择出目标预测对象，包括：

从所述目标类别对象中选择所述置信度满足预设条件的所述目标预测对象。

6.根据权利要求1所述的方法，其特征在于，所述根据所述目标预测对象的所述第一位置信息和所述第二位置信息生成所述目标预测对象的位置预测结果，包括：

计算所述第一位置信息和所述第二位置信息的平均值，将所述平均值作为所述位置预测结果。

7.根据权利要求1所述的方法，其特征在于，所述第一检测模型包含Two-stage网络模型，所述第二检测模型包含One-stage网络模型。

8.一种目标对象的预测装置，其特征在于，所述装置包括：

图像获取模块，用于获取待处理的原始图像，所述原始图像包含至少一个目标对象；

第一检测模块，用于将所述原始图像输入至训练完毕的第一检测模型，输出至少一个所述目标对象的第一位置信息和粗略类别信息；

第二检测模块，用于针对每个所述目标对象，根据所述第一位置信息对所述原始图像进行裁剪得到多个目标对象区域图像，将多个所述目标对象区域图像输入至训练完毕的第二检测模型，输出每个所述目标对象的多个第二位置信息和多个精细类别信息；

对象判断模块，用于针对每个所述目标对象，根据所述粗略类别信息、所述第一位置信息、多个所述第二位置信息和预设交并比阈值，判断每个所述目标对象是否属于预设类别的目标类别对象；

对象选择模块，用于若至少一个所述目标对象中存在所述目标类别对象，则计算所述目标类别对象的置信度，并根据所述置信度从所述目标类别对象中选择出目标预测对象；

结果确定模块，用于根据所述目标预测对象的所述第一位置信息和所述第二位置信息生成所述目标预测对象的位置预测结果，并将所述目标预测对象对应的所述精细类别信息作为类别预测结果。

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任意一项所述的目标对象的预测方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至7中任意一项所述的目标对象的预测方法。