CN114627438A

CN114627438A - 目标检测模型生成方法、目标检测方法、设备及介质

Info

Publication number: CN114627438A
Application number: CN202011345959.0A
Authority: CN
Inventors: 赵一欣
Original assignee: Qianxun Spatial Intelligence Inc
Current assignee: Qianxun Spatial Intelligence Inc
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2022-06-14

Abstract

本公开是关于一种目标检测模型生成方法、基于机器视觉的目标检测方法、设备及介质，涉及机器视觉技术领域，可以应用于自动驾驶场景。该基于机器视觉的目标检测方法，包括：获取地面正视图像，并计算地面正视图像对应的鸟瞰图像；针对鸟瞰图像进行矩形框标注，以确定鸟瞰图像中目标对象的矩形框标注信息；根据矩形框标注信息确定地面正视图像中目标对象的多边形框标注信息，多边形框为非矩形框；获取初始模型，根据地面正视图像和多边形框标注信息对初始模型进行模型训练，以得到第一目标检测模型。本公开可以确定出道路地面中目标对象的多边形检测框的预测信息，使得确定出的目标对象的位置信息更加准确。

Description

目标检测模型生成方法、目标检测方法、设备及介质

技术领域

本公开涉及机器视觉技术领域，具体而言，涉及一种目标检测模型生成方法、基于机器视觉的目标检测方法、电子设备以及计算机可读存储介质。

背景技术

自动驾驶汽车依靠人工智能、视觉计算、雷达、监控装置和全球定位系统协同合作，让电脑可以在没有任何人类主动的操作下，自动安全地操作机动车辆。

自动驾驶需要对道路面上的目标(例如地面印刷物)有感知能力。基于机器视觉的自动驾驶可通过车载摄像头获取道路图像，再使用基于深度学习的检测或分割方法提取道路面上的目标，用于车辆定位、导航决策等。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种目标检测模型生成方法、基于机器视觉的目标检测方法、电子设备以及计算机可读存储介质，进而至少在一定程度上克服现有的分割算法在目标检测时耗时过长，且检测算法的检测框的框选范围过大而将地面相邻对象框选入内导致确定出的检测范围不准确的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本公开的第一方面，提供一种目标检测模型生成方法，包括：获取地面正视图像，并计算地面正视图像对应的鸟瞰图像；针对鸟瞰图像进行矩形框标注，以确定鸟瞰图像中目标对象的矩形框标注信息，矩形框标注信息包括矩形框在鸟瞰图像中的像素位置和目标类别；根据矩形框标注信息确定地面正视图像中目标对象的多边形框标注信息，多边形框标注信息包括多边形框在地面正视图像中的像素位置和目标类别，所述多边形框为非矩形框；获取初始模型，根据地面正视图像和多边形框标注信息对初始模型进行模型训练，以得到第一目标检测模型。

可选的，计算地面正视图像对应的鸟瞰图像，包括：获取拍摄地面正视图像的成像设备参数，根据成像设备参数确定逆透视变换矩阵；根据逆透视变换矩阵对地面正视图像进行逆透视变换处理，以生成鸟瞰图像。

可选的，根据矩形框标注信息确定地面正视图像中目标对象的多边形框标注信息，包括：将鸟瞰图像中矩形框的像素位置进行透视变换处理，以生成地面正视图像中多边形框的像素位置。

可选的，根据地面正视图像和多边形框标注信息对初始模型进行模型训练，包括：根据地面正视图像和多边形框标注信息，通过损失函数驱动初始模型进行模型训练，其中，损失函数包括多边形轮廓匹配函数。

根据本公开的第二方面，提供一种目标检测模型生成方法，包括：获取地面正视图像，并计算地面正视图像对应的鸟瞰图像；针对鸟瞰图像进行多边形框标注，以确定鸟瞰图像中目标对象的第一多边形框标注信息，鸟瞰图像的第一多边形框标注信息包括第一多边形框在鸟瞰图像中的像素位置和目标类别，所述第一多边形框为非矩形框；根据鸟瞰图像的第一多边形框标注信息确定地面正视图像的第二多边形框标注信息，地面正视图像的第二多边形框标注信息包括第二多边形框在地面正视图像中的像素位置和目标类别；获取初始模型，根据地面正视图像和第二多边形框标注信息对初始模型进行模型训练，以得到第二目标检测模型。

可选的，计算地面正视图像对应的鸟瞰图像，包括：获取拍摄地面正视图像的成像设备参数，根据成像设备参数确定逆透视变换矩阵；以及根据逆透视变换矩阵对地面正视图像进行逆透视变换处理，以生成鸟瞰图像。

可选的，根据鸟瞰图像的第一多边形框标注信息确定地面正视图像的第二多边形框标注信息，包括：将鸟瞰图像中第一多边形框的像素位置进行透视变换处理，以生成地面正视图像中第二多边形框的像素位置。

可选的，根据地面正视图像和第二多边形框标注信息进行模型训练，包括：根据地面正视图像和第二多边形框标注信息，通过损失函数驱动初始模型进行模型训练，其中，损失函数包括多边形轮廓匹配函数。

根据本公开的第三方面，提供一种基于机器视觉的目标检测方法，包括：获取目标地面正视图像；将目标地面正视图像输入至目标检测模型，由目标检测模型输出目标地面正视图像中目标对象对应的多边形检测框预测信息，多边形检测框为非矩形检测框。

根据本公开的第四方面，提供一种电子设备，包括：处理器；以及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现根据上述任意一项所述的目标检测模型生成方法或基于机器视觉的目标检测方法。

根据本公开的第五方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据上述任意一项所述的目标检测模型生成方法或基于机器视觉的目标检测方法。

本公开提供的技术方案可以包括以下有益效果：

本公开的示例性实施例中的目标检测模型生成方法，获取地面正视图像，并计算地面正视图像对应的鸟瞰图像；针对鸟瞰图像进行矩形框标注，以确定鸟瞰图像中目标对象的矩形框标注信息，矩形框标注信息包括矩形框在鸟瞰图像中的像素位置和目标类别；根据矩形框标注信息确定地面正视图像中目标对象的多边形框标注信息，多边形框标注信息包括多边形框在地面正视图像中的像素位置和目标类别，多边形框为非矩形框；获取初始模型，根据地面正视图像和多边形框标注信息对初始模型进行模型训练，以得到第一目标检测模型。通过本公开的目标检测模型生成方法，一方面，将透视失真的学习过程引入数据标注过程，可以解决人工标注无法模拟透视失真，且不具有唯一性的问题。另一方面，采用上述方法得到的目标检测模型输出的检测结果可以避免地面上的相邻对象出现在同一检测框内，进一步提升预测结果的准确性。

采用本公开的基于机器视觉的目标检测方法，一方面，采用多边形框预测结果替代矩形框预测结果，与分割方案相比，具有检测算法速度快，输出数据量小的优势。另一方面，将透视失真的学习过程引入数据标注过程，可以减少目标检测过程中对成像设备参数的依赖，避免在目标检测过程中引入透视变换的耗时。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示意性示出了现有技术中采用矩形框标注确定目标对象的得到的检测结果图；

图2示意性示出了根据本公开的示例性实施方式的第一目标检测模型生成方法的流程图；

图3示意性示出了根据本公开的示例性实施方式的对地面正视图像进行逆透视变换处理后生成的鸟瞰图像；

图4示意性示出了根据本公开的示例性实施方式的第二目标检测模型生成方法的流程图；

图5示意性示出了根据本公开的示例性实施方式的基于机器视觉的目标检测方法的流程图；

图6示意性示出了根据本公开的示例性实施方式的使用目标检测模型进行目标检测的整体流程图；

图7示意性示出了根据本公开一示例性实施例的电子设备的框图；

图8示意性示出了根据本公开一示例性实施例的计算机可读存储介质的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知结构、方法、装置、实现、材料或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个软件硬化的模块中实现这些功能实体或功能实体的一部分，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

自动驾驶需要对道路面上的目标(例如地面印刷物)有感知能力。基于机器视觉的自动驾驶可通过车载摄像头获取道路图像，再使用基于深度学习的检测或分割方法提取道路面上的目标，用于车辆定位、导航决策等。目前可以采用检测算法和分割算法提取地面上的目标对象。

其中，检测算法使用矩形框框出目标位置，其优点是速度快。缺点是会将周边物体一并框选入内，对后续的应用(如目标分类、特征提取等)造成干扰。参考图1，图1示意性示出了现有技术中采用矩形框标注确定目标对象的得到的检测结果图。对图1中的地面正视图像100进行矩形框标注后，可以得到多个矩形框，此处以图1中得到矩形框110、矩形框120和矩形框130进行说明，矩形框120和矩形框130存在重叠，130将路面上的周边目标(车道线)一同圈入框中。为提升检测框的准确性，也有算法使用最小外接矩形或带旋转角度的矩形框等实现对象目标位置的描述，但仍无法解决将周边物体框选入内的问题。

分割算法能描述目标边缘准确信息，不同物体目标轮廓各自独立、目标轮廓位置准确且不会包含周边其他物体，相互不会造成干扰，但缺点是算法整体耗时长，对算力要求高，输出数据量急剧增加使得存储和数据传输压力增大。对自动驾驶而言，计算速度是一个重要因素，因此，分割算法无法满足自动驾驶实时性的需求。

在一种方法中，对车载摄像头拍摄图像进行射影变换，生成鸟瞰图再进行检测，可避免目标检测范围内出现其他目标的问题。但采用该方法在整个算法流程中需要获取相机参数，且增加射影变换步骤将增加整体耗时。

另外，在车载摄像头拍摄图像上进行目标的多边形检测框人工标注，该方法无法反映车载摄像头拍摄图像的透视失真信息，标注结果难保证唯一性。深度学习基于人工标注数据进行目标检测，仍可能出现将周边目标一并框选入内的情况发生。

基于此，在本示例实施方式中，首先提供了一种目标检测模型生成方法，可以利用服务器来实现本公开的目标检测模型生成方法，也可以利用终端设备来实现本公开所述的方法，其中，本公开中描述的终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)等移动终端，以及诸如台式计算机等固定终端。图2示意性示出了根据本公开的一些实施例的目标检测模型生成方法流程的示意图。参考图2，该目标检测模型生成方法可以包括以下步骤：

步骤S210，获取地面正视图像，并计算地面正视图像对应的鸟瞰图像。

步骤S220，针对鸟瞰图像进行矩形框标注，以确定鸟瞰图像中目标对象的矩形框标注信息，矩形框标注信息包括矩形框在鸟瞰图像中的像素位置和目标类别。

步骤S230，根据矩形框标注信息确定地面正视图像中目标对象的多边形框标注信息，多边形框标注信息包括多边形框在地面正视图像中的像素位置和目标类别，所述多边形框为非矩形框。

步骤S240，获取初始模型，根据地面正视图像和多边形框标注信息对初始模型进行模型训练，以得到第一目标检测模型。

根据本示例实施例中的目标检测模型生成方法，一方面，将透视失真的学习过程引入数据标注过程，可以解决人工标注无法模拟透视失真，且不具有唯一性的问题。另一方面，采用上述方法得到的目标检测模型输出的检测结果可以避免地面上的相邻对象出现在同一检测框内，进一步提升预测结果的准确性。

下面，将对本示例实施例中的目标检测模型生成方法进行进一步的说明。

在步骤S210中，获取地面正视图像，并计算地面正视图像对应的鸟瞰图像。

在本公开的一些示例性实施方式中，地面正视图像，又称为地面真实图像，可以是自动驾驶相关设备在行驶过程中实时拍摄的地面图像。例如，图1中的地面图像100即为地面正视图像。鸟瞰图像可以是以在空中俯视地面的视角拍摄到的地面图像，鸟瞰图像也可称为地面俯视图像。

通过自动驾驶相关设备或其他成像设备获取一定数量的地面正视图像，在获取到地面正视图像之后，可以计算地面正视图像对应的鸟瞰图像，以对得到的鸟瞰图像进行数据标注处理。

根据本公开的一些示例性实施例，获取拍摄地面正视图像的成像设备参数，根据成像设备参数确定逆透视变换矩阵；根据逆透视变换矩阵对地面正视图像进行逆透视变换处理，以生成鸟瞰图像。成像设备参数可以是用于拍摄地面正视图像所采用的成像设备的设备参数，成像设备参数可以包括内部参数和外部参数等。逆透视变换矩阵可以是根据成像设备的内部参数和外部参数确定以进行逆透视变换处理的矩阵。逆透视变换处理可以是将地面正视图像转换为对应的鸟瞰图像的处理过程。

根据地面正视图像计算对应的鸟瞰图像可以通过下述步骤进行：

首先，获取拍摄地面正视图像的成像设备参数；具体的，成像设备的内部参数可以包括相机焦距、相机光学中心、相机高度、相机的俯仰角、相机的偏航角以及相机拍摄出的图像尺寸等。成像设备的外部参数可以包括旋转矩阵和平移矩阵；其中，旋转矩阵可以描述世界坐标系的坐标轴相对于摄像机坐标轴的方向；平移矩阵可以描述在摄像机坐标系下空间原点的位置；旋转矩阵和平移矩阵共同描述了如何把点从世界坐标系转换到摄像机坐标系。在确定出成像设备参数后，可以根据成像设备参数确定出逆透视变换矩阵。其次，根据确定出的逆透视变换矩阵对地面正视图像进行逆透视变换处理，以生成鸟瞰图像。参考图3，图3示意性示出了根据本公开的示例性实施方式的对地面正视图像进行逆透视变换处理后生成的鸟瞰图像。地面正视图像100经过逆透视变换处理后生成对应的鸟瞰图像300。

在步骤S220中，针对鸟瞰图像进行矩形框标注，以确定鸟瞰图像中目标对象的矩形框标注信息，矩形框标注信息包括矩形框在鸟瞰图像中的像素位置和目标类别。矩形框标注可以是采用矩形框标注地面正视图像中的目标对象的信息标注方式。矩形框标注信息可以是对地面正视图像进行矩形框标注后得到的目标对象的信息。矩形框标注信息包括矩形框在鸟瞰图像中的像素位置和目标对象的目标类别。

在本公开的一些示例性实施方式中，在计算得到鸟瞰图像后，可以对鸟瞰图像进行目标标注，如矩形框标注。参考图3，可以对鸟瞰图像300进行矩形框标注，经过矩形框标注后的鸟瞰图像300可以包括矩形框310和矩形框320等。以矩形框310为例，矩形框310对应的矩形框标注信息可以包括矩形框310的左上顶点的位置坐标、矩形框的长和宽、以及矩形框框选的目标对象的对象类别。得到的鸟瞰图像中的矩形框可以确保相互之间无重叠。

在步骤S230中，根据矩形框标注信息确定地面正视图像中目标对象的多边形框标注信息，多边形框标注信息包括多边形框在地面正视图像中的像素位置和目标类别，多边形框为非矩形框。

在本公开的一些示例性实施方式中，多边形框标注信息可以是将带有矩形框标注信息的鸟瞰图像转换为地面正视图像后，地面正视图像中包含的多边形框对应的标注信息。多边形框标注信息包括多边形框在地面正视图像中的像素位置和目标对象的目标类别，且多边形框为非矩形框。其中，像素位置可以采用多边形的顶点位置坐标表示。目标类别可以是目标对象所属的类别。例如，目标类别可以包括双黄线、斑马线、虚线、实线等类别。

在完成对鸟瞰图像的矩形框标注后，可以根据鸟瞰图像的矩形框标注信息确定地面正视图像中目标对象的多边形框标注信息。举例而言，可以通过透视变换处理将经过标注的鸟瞰图像转换为带有标注的地面正视图像，也可以仅计算鸟瞰图中矩形框顶点在正视图像中对应的像素坐标，本发明并不以此为限。由于透视变换的变换规律，鸟瞰图像中的矩形框在经过透视变换后，形状可能产生变化，不再是标准的矩形，因此，可以采用多边形框表示经过透视变换处理后的地面正视图像中的标注框，得到针对地面正视图像的多边形框标注真值。多边形框标注信息可以包括多边形框在地面正视图像中的像素位置，即各个顶点的位置坐标，以及多边形框中框选的目标对象的类别。

根据本公开的一些示例性实施例，将鸟瞰图像中矩形框的像素位置进行透视变换处理，以生成地面正视图像中多边形框的像素位置。矩形框的像素位置可以是组成矩形框的所有像素点对应的像素位置坐标。多边形框的像素位置可以是组成多边形框的所有像素点对应的像素位置坐标。

在根据矩形框标注信息确定地面正视图像中目标对象的多边形框标注信息时，可以采用对鸟瞰图像进行透视变换处理还原为地面正视图像。可以对逆透视变换处理过程中所使用的逆透视变换矩阵求逆，得到对应的透视变换矩阵，进而根据透视变换矩阵对鸟瞰图像中矩形框的像素位置进行透视变换处理，经过透视变换处理的地面正视图像中包含标注信息，即确定出了地面正视图像中多边形框的像素位置。

在步骤S240中，获取初始模型，根据地面正视图像和多边形框标注信息对初始模型进行模型训练，以得到第一目标检测模型。

在本公开的一些示例性实施方式中，初始模型可以是未经过模型训练的模型；其中，初始模型的对应输出为多边形框输出。例如，初始模型可以是根据残差网络ResNet构建的模型，还可以是根据深度学习网络GoogLeNet构建的模型，也可以是基于VGG(VisualGeometry Group Network)模型构建得到的。

具体的，初始模型可以是预先构建的模型，即已有的模型；初始模型还可以是在模型训练开始时，随机初始化的一个模型。获取已有的初始模型或随机初始化的初始模型，在得到多边形框标注信息后，可以采用地面正视图像和多边形框标注信息对初始模型进行训练，直至初始模型的损失函数收敛后得到第一目标检测模型。将获取到的地面正视图像输入至第一目标检测模型，第一目标检测模型可以直接输出地面正视图像对应的多边形框预测信息。

根据本公开的一些示例性实施例，根据地面正视图像和多边形框标注信息，通过损失函数驱动初始模型进行模型训练，其中，损失函数包括多边形轮廓匹配函数。损失函数可以是对初始模型进行模型训练，以生成第一目标检测模型所采用的函数。损失函数可以包括多边形轮廓匹配函数，即可以使用多种度量多边形相似性的方式进行损失函数计算，例如，损失函数可以是判断多边形框与真值的形状相似性、各顶点与真值之间的距离、各角角度与真值之间的差值等。

将地面正视图像和多边形框标注信息输入至初始模型，并由损失函数驱动初始模型进行模型训练，本实施例中的损失函数的值是根据模型输出的多边形框预测结果与真值(即多边形框标注信息)之间的误差进行对比而计算得到的。在模型训练过程中，为了确定模型中的最优参数(如隐藏层的权重和偏置)，可以通过寻找使损失函数的值尽可能小的参数进行。因此，通过损失函数驱动初始模型进行模型训练，直至损失函数收敛时，确定出模型对应的参数，得到第一目标检测模型。

在本一些示例实施方式中，还提供了一种目标检测模型生成方法，可以利用服务器来实现本公开的目标检测模型生成方法，也可以利用终端设备来实现本公开所述的方法，其中，本公开中描述的终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)等移动终端，以及诸如台式计算机等固定终端。图4示意性示出了根据本公开的一些实施例的目标检测模型生成方法流程的示意图。参考图4，该目标检测模型生成方法可以包括以下步骤：

步骤S410，获取地面正视图像，并计算地面正视图像对应的鸟瞰图像。

步骤S420，针对鸟瞰图像进行多边形框标注，以确定鸟瞰图像中目标对象的第一多边形框标注信息，鸟瞰图像的第一多边形框标注信息包括第一多边形框在鸟瞰图像中的像素位置和目标类别，第一多边形框为非矩形框。

步骤S430，根据鸟瞰图像的第一多边形框标注信息确定地面正视图像的第二多边形框标注信息，地面正视图像的第二多边形框标注信息包括第二多边形框在地面正视图像中的像素位置和目标类别。

步骤S440，获取初始模型，根据地面正视图像和第二多边形框标注信息对初始模型进行模型训练，以得到第二目标检测模型。

下面，将对本示例实施例中的目标检测模型生成方法方法进行进一步的说明。

在步骤S410中，获取地面正视图像，并计算地面正视图像对应的鸟瞰图像。

在本公开的一些示例性实施方式中，获取地面正视图像，并计算地面正视图像对应的鸟瞰图像的过程与上述中计算正视图像对应的鸟瞰图像的方法相同，本公开对此不再赘述。

根据本公开的一些示例性实施例，获取拍摄地面正视图像的成像设备参数，根据成像设备参数确定逆透视变换矩阵；以及根据逆透视变换矩阵对地面正视图像进行逆透视变换处理，以生成鸟瞰图像。

具体的，根据逆透视变换矩阵对地面正视图像进行逆透视变换处理，以生成鸟瞰图像的过程，已在上文中进行详细阐述，本公开对此不再进行赘述。

在步骤S420中，针对鸟瞰图像进行多边形框标注，以确定鸟瞰图像中目标对象的第一多边形框标注信息，鸟瞰图像的第一多边形框标注信息包括第一多边形框在鸟瞰图像中的像素位置和目标类别，第一多边形框为非矩形框。

在本公开的一些示例性实施方式中，多边形框标注可以是采用多边形框对地面图像中的目标对象进行标注的方法，此处采用的第一多边形框为非矩形框，例如，第一多边形框可以是普通的四边形或其他边数的多边形(如五边形等)。第一多边形框标注信息可以是采用多边形框对鸟瞰图像中的目标对象进行标注后得到的标注信息。第一多边形框标注信息包括第一多边形框在鸟瞰图像中框选的目标对象的像素位置和目标类别。

在得到鸟瞰图像后，可以对鸟瞰图像进行多边形框标注，以得到第一多边形框标注信息。鸟瞰图像中第一多边形框标注信息可以包括多边形框的各个顶点的位置坐标以及多边形框框选的目标对象的对象类别。

在步骤S430中，根据鸟瞰图像的第一多边形框标注信息确定地面正视图像的第二多边形框标注信息，地面正视图像的第二多边形框标注信息包括第二多边形框在地面正视图像中的像素位置和目标类别。

在本公开的一些示例性实施方式中，第二多边形框标注信息可以是将带有第一多边形框标注信息的鸟瞰图像转换为地面正视图像后，地面正视图像中包含的第二多边形框对应的标注信息。第二多边形框标注信息同样包括第二多边形框在地面正视图像中的像素位置和目标对象的目标类别。

在完成对鸟瞰图像的第一多边形框标注后，可以根据鸟瞰图像的第一多边形框标注信息确定地面正视图像中目标对象的第二多边形框标注信息。例如，通过透视变换处理可以将带有第一多边形框标注信息的鸟瞰图像转换为带有第二多边形框标注信息的地面正视图像。由于透视变换的变换规律，鸟瞰图像中的第一多边形框在经过透视变换后，形状可能产生变化，变为与第一多边形框不同的其他形状的第二多边形框，因此，可以采用第二多边形框表示经过透视变换处理后的地面正视图像中的标注框。

根据本公开的一些示例性实施例，将鸟瞰图像中第一多边形框的像素位置进行透视变换处理，以生成地面正视图像中第二多边形框的像素位置。第一多边形框的像素位置可以是组成第一多边形框的所有像素点对应的像素位置坐标。第二多边形框的像素位置可以是组成第二多边形框的所有像素点对应的像素位置坐标。

在根据第一多边形框标注信息确定地面正视图像中目标对象的第二多边形框标注信息时，可以采用对鸟瞰图像进行透视变换处理的方式进行。具体的透视变换处理过程与上文中的相似，本公开对此不再进行赘述。

在步骤S440中，获取初始模型，根据地面正视图像和第二多边形框标注信息对初始模型进行模型训练，以得到第二目标检测模型。

在本公开的一些示例性实施方式中，初始模型可以是未经过模型训练的模型；其中，初始模型的对应输出为多边形框输出。

具体的，初始模型可以是预先构建的模型，也可以是在模型训练之前，随机初始化的一个模型。在得到第二多边形框标注信息后，可以采用地面正视图像和第二多边形框标注信息对初始模型进行训练，直至初始模型的损失函数收敛后得到第二目标检测模型。将获取到的地面正视图像输入至第二目标检测模型，第二目标检测模型可以直接输出地面正视图像对应的多边形框预测信息。

根据本公开的一些示例性实施例，根据地面正视图像和第二多边形框标注信息，通过损失函数驱动初始模型进行模型训练，其中，损失函数包括多边形轮廓匹配函数。

具体的，将地面正视图像和第二多边形框标注信息输入至初始模型，并由损失函数驱动初始模型进行模型训练，本实施例中的损失函数的值是根据模型输出的多边形框预测结果与真值(即多边形框标注信息)之间的误差进行对比而计算得到的。在模型训练过程中，为了确定模型中的最优参数(如隐藏层的权重和偏置)，可以通过寻找使损失函数的值尽可能小的参数进行。因此，通过损失函数驱动初始模型进行模型训练，直至损失函数收敛时，确定出模型对应的参数，得到第二目标检测模型。

另外，在本示例实施例中，提供了一种基于机器视觉的目标检测方法，可以利用服务器来实现本公开的基于机器视觉的目标检测方法，也可以利用无人驾驶设备来实现本公开的基于机器视觉的目标检测方法，其中，本公开中描述的无人驾驶设备可以包括机动车、非机动车、飞机、无人机等；还可以利用终端设备来实现本公开所述的方法，其中，本公开中描述的终端可以包括诸如手机、摄像采集器、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)、导航装置等。图5示意性示出了根据本公开的另一示例性实施方式的基于机器视觉的目标检测方法的流程图。参考图5，该基于机器视觉的目标检测方法可以包括以下步骤：

步骤S510，获取目标地面正视图像。

步骤S520，将目标地面正视图像输入至目标检测模型，由目标检测模型输出目标地面正视图像中目标对象对应的多边形检测框预测信息。

根据本示例实施例中的基于机器视觉的目标检测方法，一方面，采用多边形框预测结果替代矩形框预测结果，与分割方案相比，具有检测算法速度快，输出数据量小的优势。另一方面，将透视失真的学习过程引入数据标注过程，可以减少目标检测过程中对成像设备参数的依赖，避免在目标检测过程中引入透视变换的耗时。

下面，将对本示例实施例中的基于机器视觉的目标检测方法进行进一步的说明。

在步骤S510中，获取目标地面正视图像。

在本公开的一些示例性实施方式中，目标地面正视图像可以在某一行驶过程中拍摄到的地面正视图像。在自动驾驶过程中，自动驾驶的相关设备可以通过成像设备实时获取目标地面正视图像，以预测出目标地面正视图像中目标对象的位置信息和目标类别。

在步骤S520中，将目标地面正视图像输入至目标检测模型，由目标检测模型输出目标地面正视图像中目标对象对应的多边形检测框预测信息，多边形检测框为非矩形检测框。

在本公开的一些示例性实施方式中，目标检测模型可以是用于检测地面正视图像中的目标对象的模型，例如，目标检测模型可以是上述生成的第一目标检测模型或第二目标检测模型。将目标地面正视图像输入至目标检测模型中，可以得到目标地面正视图像中目标对象的多边形检测框预测信息，例如，输出框选目标对象的多边形的顶点位置坐标，以及输出目标对象对应的目标类别和置信度。

当采用第一目标检测模型对目标地面正视图像进行目标检测时，将目标地面正视图像输入至第一目标检测模型中，可以得到目标地面正视图像中目标对象的多边形检测框预测信息。由于在检测算法中，通常采用矩形框标注目标对象，以确定目标对象在地面正视图像中的像素位置和目标类别，而采用矩形框标注信息将导致框选范围过大，或框选范围中包含相邻对象的情况。采用第一目标检测模型可以得到目标地面正视图像的多边形框预测信息，得到的多边形框预测信息与矩形框预测信息相比，得到的预测结果更贴合目标对象的像素边缘，大量减少框选的多余区域。

具体的，第一目标检测模型是根据地面正视图像以及地面正视图像中目标对象的多边形框标注信息进行模型训练后得到的目标检测模型。并且，在第一目标检测模型的模型训练过程中，地面正视图像中目标对象的多边形框标注信息是根据鸟瞰图像中的矩形框标注信息进行透视变换处理后得到的，因此，本实施例将第一目标检测模型对透视变换规律的学习过程在数据标注时引入，可以减少在后续模型使用过程中对成像设备参数的依赖，避免预测过程中引入透视变换的耗时。

当采用第二目标检测模型对目标地面正视图像进行目标检测时，将目标地面正视图像输入至第二目标检测模型中，可以得到目标地面正视图像中目标对象的多边形检测框预测信息；其中，采用第二目标检测模型进行目标检测，输出的多边形框更贴合目标对象的像素边缘，大量减少框选的多余区域。

具体的，第二目标检测模型是根据地面正视图像以及地面正视图像中目标对象的第二多边形框标注信息进行模型训练后得到的目标检测模型。在第二目标检测模型的模型训练过程中，地面正视图像中目标对象的第二多边形框标注信息是根据鸟瞰图像中的第一多边形框标注信息进行透视变换处理后得到的；本实施例中的第二多边形框标注信息区别于上述描述的多边形框标注信息。本实施例同样将第二目标检测模型对透视变换规律的学习过程在数据标注时引入，可以减少在后续模型使用过程中对成像设备参数的依赖，避免预测过程中引入透视变换的耗时。

参考图6，图6示意性示出了根据本公开的示例性实施方式的使用目标检测模型进行目标检测的整体流程图。在步骤S610中，可以获取地面正视图像；在步骤S620中，对获取到的地面正视图像进行逆透视变换生成对应的鸟瞰图像。在步骤S630中，对生成的鸟瞰图像进行目标标注，如进行矩形框标注或第一多边形框标注，得到对应的矩形框标注信息或第一多边形框标注信息。在步骤S640中，对带有矩形框标注信息或第一多边形框标注信息的鸟瞰图像进行透视变换处理，可以生成带有多边形框标注信息的地面正视图像。在步骤S650中，在得到带有多边形框标注信息的地面正视图像后，可以根据地面正视图像和多边形框标注信息进行模型训练，得到目标检测模型。在步骤S660中，可以将训练得到的目标检测模型部署在自动驾驶相关设备中，例如，可以部署在机动车中，当机动车在自动驾驶过程中，实时拍摄到地面正视图像后，可以将实时获取到的目标地面正视图像输入至目标检测模型中，由目标检测模型进行目标对象检测，输出目标地面正视图像的多边形框预测信息。

需要说明的是，本公开所使用的术语“第一”、“第二”等，仅是为了区分不同的目标检测模型不同的矩形框标注信息，并不应对本公开造成任何限制。

综上所述，本公开的目标检测模型生成方法，获取地面正视图像，并计算地面正视图像对应的鸟瞰图像；针对鸟瞰图像进行矩形框标注，以确定鸟瞰图像中目标对象的矩形框标注信息，矩形框标注信息包括矩形框在鸟瞰图像中的像素位置和目标类别；根据矩形框标注信息确定地面正视图像中目标对象的多边形框标注信息，多边形框标注信息包括多边形框在地面正视图像中的像素位置和目标类别，多边形框为非矩形框；获取初始模型，根据地面正视图像和多边形框标注信息对初始模型进行模型训练，以得到目标检测模型。通过本公开的目标检测模型生成方法，一方面，将透视失真的学习过程引入数据标注过程，可以解决人工标注无法模拟透视失真，且不具有唯一性的问题。另一方面，采用上述方法得到的目标检测模型输出的检测结果可以避免地面上的相邻对象出现在同一检测框内，可以提升检测范围的准确性。又一方面，在模型训练过程中，可以将多边形框预测信息与真值(即多边形框标注信息)进行对比以计算损失函数，根据损失函数驱动模型训练以确定模型的最优参数。

对于本公开的基于机器视觉的目标检测方法，一方面，采用多边形框预测结果替代矩形框预测结果，与分割方案相比，具有检测算法速度快，输出数据量小的优势。另一方面，将透视失真的学习过程引入数据标注过程，可以减少目标检测过程中对成像设备参数的依赖，避免在目标检测过程中引入透视变换的耗时。又一方面，采用上述方法得到的预测结果可避免地面上的相邻对象出现在同一检测框内，可以提升预测结果的准确性。

需要说明的是，尽管在附图中以特定顺序描述了本发明中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

此外，在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施例、完全的软件实施例(包括固件、微代码等)，或硬件和软件方面结合的实施例，这里可以统称为“电路”、“模块”或“系统”。

下面参考图7来描述根据本发明的这种实施例的电子设备700。图7显示的电子设备700仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于：上述至少一个处理单元710、上述至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730、显示单元740。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元710执行，使得所述处理单元710执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。

存储单元720可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)721和/或高速缓存存储单元722，还可以进一步包括只读存储单元(ROM)723。

存储单元720可以包括具有一组(至少一个)程序模块725的程序/实用工具724，这样的程序模块725包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线730可以表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备700也可以与一个或多个外部设备770(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备700交互的设备通信，和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且，电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器760通过总线730与电子设备700的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备700使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。

参考图8所示，描述了根据本发明的实施例的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种目标检测模型生成方法，其特征在于，包括：

获取地面正视图像，并计算所述地面正视图像对应的鸟瞰图像；

针对所述鸟瞰图像进行矩形框标注，以确定所述鸟瞰图像中目标对象的矩形框标注信息，所述矩形框标注信息包括所述矩形框在所述鸟瞰图像中的像素位置和目标类别；

根据所述矩形框标注信息确定所述地面正视图像中所述目标对象的多边形框标注信息，所述多边形框标注信息包括所述多边形框在所述地面正视图像中的像素位置和目标类别，所述多边形框为非矩形框；

获取初始模型，根据所述地面正视图像和所述多边形框标注信息对所述初始模型进行模型训练，以得到第一目标检测模型。

2.根据权利要求1所述的方法，其特征在于，所述计算所述地面正视图像对应的鸟瞰图像，包括：

获取拍摄所述地面正视图像的成像设备参数，根据所述成像设备参数确定逆透视变换矩阵；

根据所述逆透视变换矩阵对所述地面正视图像进行逆透视变换处理，以生成所述鸟瞰图像。

3.根据权利要求2所述的方法，其特征在于，所述根据所述矩形框标注信息确定所述地面正视图像中所述目标对象的多边形框标注信息，包括：

将所述鸟瞰图像中矩形框的像素位置进行透视变换处理，以生成所述地面正视图像中多边形框的像素位置。

4.根据权利要求1所述的方法，其特征在于，所述根据所述地面正视图像和所述多边形框标注信息对所述初始模型进行模型训练，包括：

根据所述地面正视图像和所述多边形框标注信息，通过损失函数驱动所述初始模型进行模型训练，其中，所述损失函数包括多边形轮廓匹配函数。

5.一种目标检测模型生成方法，其特征在于，包括：

针对所述鸟瞰图像进行多边形框标注，以确定所述鸟瞰图像中目标对象的第一多边形框标注信息，所述鸟瞰图像的第一多边形框标注信息包括所述第一多边形框在所述鸟瞰图像中的像素位置和目标类别，所述第一多边形框为非矩形框；

根据所述鸟瞰图像的第一多边形框标注信息确定所述地面正视图像的第二多边形框标注信息，所述地面正视图像的第二多边形框标注信息包括所述第二多边形框在所述地面正视图像中的像素位置和目标类别；

获取初始模型，根据所述地面正视图像和所述第二多边形框标注信息对所述初始模型进行模型训练，以得到第二目标检测模型。

6.根据权利要求5所述的方法，其特征在于，所述计算所述地面正视图像对应的鸟瞰图像，包括：

获取拍摄所述地面正视图像的成像设备参数，根据所述成像设备参数确定逆透视变换矩阵；以及

7.根据权利要求6所述的方法，其特征在于，所述根据所述鸟瞰图像的第一多边形框标注信息确定所述地面正视图像的第二多边形框标注信息，包括：

将所述鸟瞰图像中第一多边形框的像素位置进行透视变换处理，以生成所述地面正视图像中第二多边形框的像素位置。

8.根据权利要求5所述的方法，其特征在于，所述根据所述地面正视图像和所述第二多边形框标注信息对所述初始模型进行模型训练，包括：

根据所述地面正视图像和所述第二多边形框标注信息，通过损失函数驱动初始模型进行模型训练，其中，所述损失函数包括多边形轮廓匹配函数。

9.一种基于机器视觉的目标检测方法，其特征在于，包括：

获取目标地面正视图像；

将所述目标地面正视图像输入至目标检测模型，由所述目标检测模型输出所述目标地面正视图像中目标对象对应的多边形检测框预测信息，所述多边形检测框为非矩形检测框。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至8中任一项所述的目标检测模型生成方法，或实现如权利要求9所述的基于机器视觉的目标检测方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至8中任一项所述的目标检测模型生成方法，或实现如权利要求9所述的基于机器视觉的目标检测方法。