CN112990136B

CN112990136B - 一种目标检测方法及装置

Info

Publication number: CN112990136B
Application number: CN202110470953.4A
Authority: CN
Inventors: 沈庆阳
Original assignee: Chengdu Deep Blue Thinking Information Technology Co ltd
Current assignee: Chengdu Deep Blue Thinking Information Technology Co ltd
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-08-03
Anticipated expiration: 2041-04-29
Also published as: CN112990136A

Abstract

本申请公开了一种目标检测方法及装置，通过利用基于不同虚拟场景生成的不同视角下的虚拟场景数据来获得全景虚拟图像样本，在对全景虚拟图像样本完成标注后，将其作为训练集对初始目标检测模型进行训练，使得训练后的目标检测模型能够对实际全景图像样本进行目标检测，相较于仅利用真实全景图像作为训练集对初始目标检测模型进行训练的方式，由于虚拟场景数据可以在虚拟场景中灵活调整，可以为虚拟场景数据引入更多和更丰富的场景多样特征，从而提高在虚拟场景数据上训练的目标检测模型的实际应用性能，此外可以克服传统透视图像的训练数据集在全景图像中由于缺乏物体畸变特征产生的目标检测失真误差问题。

Description

一种目标检测方法及装置

技术领域

本申请涉及自动驾驶过程中的目标感知技术领域，具体而言，涉及一种目标检测方法及装置。

背景技术

随着自动驾驶技术的飞速发展，在全景图像上进行实时目标检测变得越来越重要。例如，随着深度学习技术在自动驾驶中发挥越来越重要的作用。针对全景图像上的目标检测模型可以为车辆提供完全的周围环境感知，而不会出现视线死角。相关技术中，等距柱状投影（ERP）是常用的全景格式。但是，其易于投影的方式会导致全景图像极点区域周围的扭曲和失真，这对全景图像上的目标检测提出了挑战。

发明人研究发现，在当前真实全景图像上训练实时目标检测网络的过程中，收集具有足够失真样本的真实全景图像数据集存在较大难度，而采用传统透视图像的训练数据集进行训练时，其在全景图像中会缺乏物体畸变特征，从而应用到实际存在失真的真实全景图像的目标检测的过程中，会产生较大的检测误差。

发明内容

本申请提供一种目标检测方法及装置，基于虚拟场景数据生成的全景虚拟图像样本进行训练，得到能够高效准确地检测全景图像中目标的目标检测模型。

第一方面，本申请实施例提供一种目标检测方法，应用于计算机设备，方法包括：

获取基于不同虚拟场景生成的不同视角下的虚拟场景数据；

对每个虚拟场景下的不同视角下的虚拟场景数据进行全景图像合成，获得每个虚拟场景下的全景虚拟图像样本，并对每个全景虚拟图像样本进行目标标注，获得每个全景虚拟图像样本对应的目标标注信息；

基于每个全景虚拟图像样本以及每个全景虚拟图像样本对应的目标标注信息对初始目标检测模型进行训练，获得用于对实际全景图像样本进行目标检测的目标检测模型。

在第一方面的一种可能的实施方式中，获取基于不同虚拟场景生成的不同视角下的虚拟场景数据的步骤，包括：

根据场景生成指令生成对应的目标虚拟场景；

在目标虚拟场景中生成虚拟全景相机，并调用虚拟全景相机获取目标虚拟场景的不同视角下的虚拟场景数据。

在第一方面的一种可能的实施方式中，根据场景生成指令生成对应的目标虚拟场景的步骤，包括以下方式中的一种或者多种组合；

根据第一场景生成指令在目标虚拟场景中的对应场景位置生成不同的静态虚拟场景元素；

根据第二场景生成指令在目标虚拟场景中随机生成不同的动态虚拟场景元素；

根据第三场景生成指令在目标虚拟场景中模拟不同的虚拟环境全局外观。

在第一方面的一种可能的实施方式中，调用虚拟全景相机获取目标虚拟场景的不同视角下的虚拟场景数据的步骤，包括：

旋转虚拟全景相机到不同方向，在以目标虚拟场景所在平面的垂直视场和水平视场的每个视角平面分别采集对应的视角平面图像，以获取目标虚拟场景的不同视角下的虚拟场景数据；

对每个虚拟场景下的不同视角下的虚拟场景数据进行全景图像合成，获得每个虚拟场景下的全景虚拟图像样本的步骤，包括：

将每个视角平面分别对应的视角平面图像存储到临时立方体图像对应平面的纹理中；

对临时立方体图像进行格式转换，得到目标等距柱状投影图像，作为全景虚拟图像样本。

在第一方面的一种可能的实施方式中，对临时立方体图像进行格式转换，得到目标等距柱状投影图像的步骤，包括：

获取临时立方体图像包括的每个第一像素的像素值；

建立初始等距柱状投影图的第一像素与临时立方体图像的第二像素之间的映射关系；

根据映射关系将第二像素的像素值替换为对应第一像素的像素值，得到目标等距柱状投影图像。

在第一方面的一种可能的实施方式中，对每个全景虚拟图像样本进行目标标注，获得每个全景虚拟图像样本对应的目标标注信息的步骤，包括：

将全景虚拟图像样本中每个虚拟目标的实例标识编码为RGB编码；

将每个虚拟目标的实例渲染为各自对应的RGB编码对应的颜色，得到每个虚拟目标的实例分割图；

根据实例分割图，计算每个虚拟目标的边界框信息，将每个虚拟目标的边界框信息作为每个全景虚拟图像样本对应的目标标注信息。

在第一方面的一种可能的实施方式中，根据实例分割图，计算每个虚拟目标的边界框信息，将每个虚拟目标的边界框信息作为每个全景虚拟图像样本对应的目标标注信息的步骤，包括：

根据实例分割图，计算得到每个虚拟目标的边界框信息；

根据每个虚拟目标的预设类别，对每个虚拟目标进行分类，得到多个校验虚拟目标组；

利用预设算法对每个校验虚拟目标组所包括的虚拟目标进行筛选，并根据筛选结果删除每个校验虚拟目标组中不满足预设条件的虚拟目标，得到多个筛选后虚拟目标，将多个筛选后虚拟目标的边界框信息作为每个全景虚拟图像样本对应的目标标注信息。

在第一方面的一种可能的实施方式中，利用预设算法对每个校验虚拟目标组所包括的虚拟目标进行筛选，并根据筛选结果删除每个校验虚拟目标组中不满足预设条件的虚拟目标，得到多个筛选后虚拟目标，包括：

通过预设聚类算法计算第一校验虚拟目标组的第一分类簇，第一校验虚拟目标组为多个校验虚拟目标组中的任一个校验虚拟目标组；

计算第一校验虚拟目标组包括的每个虚拟目标距离第一分类簇的簇中心的欧几里得距离；

将欧几里得距离小于预设距离阈值的虚拟目标删除，得到多个筛选后虚拟目标。

在第一方面的一种可能的实施方式中，初始目标检测模型包括多个分离卷积特征融合块，每个分离卷积特征融合块包括依次连接的分离卷积层、批标准化层和线性整流函数层，基于每个全景虚拟图像样本以及每个全景虚拟图像样本对应的目标标注信息对初始目标检测模型进行训练，获得用于对实际全景图像样本进行目标检测的目标检测模型的步骤，包括：

将全景虚拟图像样本输入初始目标检测模型的分离卷积特征融合块，通过分离卷积层对全景虚拟图像样本进行分离卷积特征提取，获得分离卷积特征图；

将分离卷积特征图输入到批标准化层和线性整流函数层进行批标准化和线性整流处理，获得处理后的分离卷积特征图；

将处理后的分离卷积特征图作为下一个分离卷积特征融合块的输入，返回执行通过分离卷积层对全景虚拟图像样本进行分离卷积特征提取，获得分离卷积特征图的步骤，直至完成最后一个分离卷积特征融合块的处理后，获得最终处理后的分离卷积特征图；

基于最终处理后的分离卷积特征图进行目标检测，获得目标检测信息，并根据目标检测信息和对应的目标标注信息对初始目标检测模型进行模型参数更新后，判断初始目标检测模型是否满足收敛条件；

当初始目标检测模型满足收敛条件时，获得用于对实际全景图像样本进行目标检测的目标检测模型；

当初始目标检测模型不满足收敛条件时，返回执行将全景虚拟图像样本输入初始目标检测模型的分离卷积特征融合块的步骤；

其中，全景虚拟图像样本包括第一数量的图像通道，通过分离卷积层对全景虚拟图像样本进行分离卷积特征提取，获得分离卷积特征图的步骤，包括：

根据分离卷积层对全景虚拟图像样本进行逐通道卷积，并将第一数量的逐通道卷积结果进行叠加，得到第一分离卷积特征图，第一分离卷积特征图包括第一数量的通道数；

根据预设形状的滤波器对第一分离卷积特征图进行第二数量的逐点卷积，并将第二数量的逐点卷积结果进行叠加，得到第二分离卷积特征图，作为全景虚拟图像样本的分离卷积特征图，第二分离卷积特征图包括第二数量的通道数。

第二方面，本申请实施例提供一种目标检测装置，应用于计算机设备，装置包括：

获取模块，用于获取基于不同虚拟场景生成的不同视角下的虚拟场景数据；

标注模块，用于对每个虚拟场景下的不同视角下的虚拟场景数据进行全景图像合成，获得每个虚拟场景下的全景虚拟图像样本，并对每个全景虚拟图像样本进行目标标注，获得每个全景虚拟图像样本对应的目标标注信息；

检测模块，用于基于每个全景虚拟图像样本以及每个全景虚拟图像样本对应的目标标注信息对初始目标检测模型进行训练，获得用于对实际全景图像样本进行目标检测的目标检测模型。

采用本申请实施例提供的目标检测方法及装置，通过利用基于不同虚拟场景生成的不同视角下的虚拟场景数据来获得全景虚拟图像样本，在对全景虚拟图像样本完成标注后，将其作为训练集对初始目标检测模型进行训练，使得训练后的目标检测模型能够对实际全景图像样本进行目标检测，相较于仅利用真实全景图像作为训练集对初始目标检测模型进行训练的方式，由于虚拟场景数据可以在虚拟场景中灵活调整，可以为虚拟场景数据引入更多和更丰富的场景多样特征，从而提高在虚拟场景数据上训练的目标检测模型的实际应用性能，此外可以克服传统透视图像的训练数据集在全景图像中由于缺乏物体畸变特征产生的目标检测失真误差问题。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍。应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定。对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的目标检测方法的步骤流程示意图；

图2为本申请实施例提供的虚拟全景相机位置示意图；

图3为本申请实施例提供的临时立方体图像转化为目标等距柱状投影图像的过程示意图；

图4为本申请实施例提供的生成实例分割图的流程示意图；

图5为本申请实施例提供的聚类算法应用示意图；

图6为本申请实施例提供的目标检测模型的测试结果示意图；

图7为本申请实施例提供的对应于目标检测方法的目标检测装置的结构示意框图；

图8为本申请实施例提供的用于实现目标检测方法的计算机设备的结构示意框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

此外，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请的描述中，还需要说明的是，除非另有明确的规定和限定，“设置”、“连接”等术语应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接连接，也可以通过中间媒介间接连接，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

下面结合附图，对本申请的具体实施方式进行详细说明。

为了解决前述背景技术中的技术问题，图1为本公开实施例提供的目标检测方法的流程示意图，本实施例提供的目标检测方法可以由计算机设备执行，下面对该目标检测方法进行详细介绍。

步骤S201，获取基于不同虚拟场景生成的不同视角下的虚拟场景数据。

步骤S202，对每个虚拟场景下的不同视角下的虚拟场景数据进行全景图像合成，获得每个虚拟场景下的全景虚拟图像样本，并对每个全景虚拟图像样本进行目标标注，获得每个全景虚拟图像样本对应的目标标注信息。

步骤S203，基于每个全景虚拟图像样本以及每个全景虚拟图像样本对应的目标标注信息对初始目标检测模型进行训练，获得用于对实际全景图像样本进行目标检测的目标检测模型。

真实全景图像的样本获取较为困难，而要从中筛选出能够作为有效训练数据的图像则更为不易，在本申请实施例中，可以基于不同的虚拟场景得到的虚拟场景数据进行全景图像合成，以获得每个虚拟场景下的全景虚拟图像样本，虚拟场景可以是预先合成的任意仿真场景，也可以是实时生成的任意仿真场景，在此不做限制。

虚拟场景相较于现实场景而言，其可以灵活进行调整，例如虚拟场景中所包含的目标可以是人为设置的，也是可以计算设备自动生成的，不论采取哪种方式，对其进行处理得到的全景虚拟图像样本，可以引入更多和更丰富的场景多样特，从而提高在虚拟场景数据上训练的目标检测模型的实际应用性能。

通过上述方案，通过利用基于不同虚拟场景生成的不同视角下的虚拟场景数据来获得全景虚拟图像样本，在对全景虚拟图像样本完成标注后，将其作为训练集对初始目标检测模型进行训练，使得训练后的目标检测模型能够对实际全景图像样本进行目标检测，相较于仅利用真实全景图像作为训练集对初始目标检测模型进行训练的方式，由于虚拟场景数据可以在虚拟场景中灵活调整，可以为虚拟场景数据引入更多和更丰富的场景多样特征，从而提高在虚拟场景数据上训练的目标检测模型的实际应用性能，此外可以克服传统透视图像的训练数据集在全景图像中由于缺乏物体畸变特征产生的目标检测失真误差问题。

在一种可能的实施方式中，前述步骤S201可以通过以下具体的实施方式执行实施。

子步骤S201-1，根据场景生成指令生成对应的目标虚拟场景。

子步骤S201-2，在目标虚拟场景中生成虚拟全景相机，并调用虚拟全景相机获取目标虚拟场景的不同视角下的虚拟场景数据。

可以由用户通过输入场景生成指令，或者由计算机设备自动触发场景生成指令，生成对应的目标虚拟场景，例如，可以利用Unity3D（3D创作引擎）实现，利用Unity3D制作的目标虚拟场景除了能够在保证目标虚拟场景中的虚拟目标符合用户需求的位置、布局外，还能够保证目标的多样性，以丰富训练数据的特征，而真实采集的全景图像样本难以具有这些特性。一种实施例中，为了获取不同视角下的虚拟场景数据，可以利用设置虚拟全景相机的方式实现对图像的采集。

在一种可能的实施方式中，前述子步骤S201-1可以包括以下方式中的一种或者多种组合。

（1）根据第一场景生成指令在目标虚拟场景中的对应场景位置生成不同的静态虚拟场景元素。

（2）根据第二场景生成指令在目标虚拟场景中随机生成不同的动态虚拟场景元素。

（3）根据第三场景生成指令在目标虚拟场景中模拟不同的虚拟环境全局外观。

在本申请实施例中，以自动驾驶场景为例，为了能够反映真实丰富的自动驾驶模拟场景，静态虚拟场景元素可以是指城市道路场景、街道以及建筑等静态场景。动态虚拟场景元素可以是指汽车和人等动态目标，即需要进行检测的目标。在此基础上，虚拟环境全局外观可以是指交通系统、昼夜循环系统和天气系统，以模拟不同的时间和季节，应当理解的是，该目标虚拟场景可以是动静目标结合的虚拟场景，从而可以准确地模拟真实的城市环境。

在一种可能的实施方式中，前述子步骤S201-2可以通过以下具体的实施方式实现。

（1）旋转虚拟全景相机到不同方向，在以目标虚拟场景所在平面的垂直视场和水平视场的每个视角平面分别采集对应的视角平面图像，以获取目标虚拟场景的不同视角下的虚拟场景数据。

请结合参阅图2，在制作得到前述的目标虚拟场景后，可以将虚拟全景相机的垂直视场和水平视场均设置为90°，虚拟全景相机可以设置在目标虚拟场景的几何中心，以便能够采集能够构成立方面的六个方向（如上、下、前、后、左和右）的视角平面图像。

相应的，前述步骤S202可以包括以下实施方式。

子步骤S202-1，将每个视角平面分别对应的视角平面图像存储到临时立方体图像对应平面的纹理中。

子步骤S202-2，对临时立方体图像进行格式转换，得到目标等距柱状投影图像，作为全景虚拟图像样本。

例如，可以将采集到的各个视角对应的视角平面图像存储到临时立方体图像对应平面的纹理中，而后对其进行格式转化，以便得到能够用于训练的目标等距柱状投影图像（Equirectangular Projection，简称ERP）。

在一种可能的实施方式中，前述子步骤S202-2可以通过以下具体的实施方式实现。

（1）获取临时立方体图像包括的每个第一像素的像素值。

（2）建立初始等距柱状投影图的第一像素与临时立方体图像的第二像素之间的映射关系。

（3）根据映射关系将第二像素的像素值替换为对应第一像素的像素值，得到目标等距柱状投影图像。

例如，请结合参阅图3，图3中的（a）为临时立方体图像的数据展示形式，（d）为临时立方体图像的视觉展示形式，通过过程（c）可以将（a）转换为目标等距柱状投影图像的数据展示形式（b），（e）为目标等距柱状投影图像的数据展示形式（b）对应的目标等距柱状投影图像的视觉展示形式。

过程（c）可以表述为先计算得到临时立方体图像包括的每个第一像素的像素值，像素值用于表征对应像素的颜色，可以利用单位球面上的像素投射光线建立初始等距柱状投影图的第一像素与临时立方体图像的第二像素之间的映射关系。

单位球面的几何中心可以与临时立方体图像的几何中心重合，可以根据单位球面上的像素投射光线与临时立方体图像以及初始等距柱状投影图的相交点建立映射关系，同一像素投射光线分别会与临时立方体图像和初始等距柱状投影图有一个相交点。这两个相交点便可以建立映射关系，可以将临时立方体图像在该点的第一像素的像素值替换至初始等距柱状投影图的对应点的第二像素的像素值，实现目标等距柱状投影图像的构建。

在一种可能的实施方式中，前述步骤S202可以由以下详细步骤实现。

子步骤S202-3，将全景虚拟图像样本中每个虚拟目标的实例标识编码为RGB编码。

子步骤S202-4，将每个虚拟目标的实例渲染为各自对应的RGB编码对应的颜色，得到每个虚拟目标的实例分割图。

子步骤S202-5，根据实例分割图，计算每个虚拟目标的边界框信息，将每个虚拟目标的边界框信息作为每个全景虚拟图像样本对应的目标标注信息。

例如，请结合参阅图4，图4中的（a）为渲染得到的360°全景图像，即全景虚拟图像样本（Rendered 360°image），（b）为物体实例分割图（Object instance segmentationmap），在相关技术中，一般获取符合要求的真实图像后，需要人工对真实图像中的目标进行标注，以此来制作训练集。由于本申请实施例中采取了从虚拟场景这种数字化场景中获取训练集的方式，所有数据信息都可以直接提取得到，能够提高全景虚拟图像样本中对虚拟目标进行标注的效率。

例如，可以将每个虚拟目标的实例标识编码为RGB编码，每个虚拟目标的RGB编码不同，可以将每个虚拟目标渲染为各自RGB编码对应的颜色，每个虚拟目标渲染显示的颜色不同，如此可以得到每个虚拟目标的实例分割图。

在一种可能的实施方式中，前述子步骤S202-5可以由以下详细的示例实现。

（1）根据实例分割图，计算得到每个虚拟目标的边界框信息。

（2）根据每个虚拟目标的预设类别，对每个虚拟目标进行分类，得到多个校验虚拟目标组。

（3）利用预设算法对每个校验虚拟目标组所包括的虚拟目标进行筛选，并根据筛选结果删除每个校验虚拟目标组中不满足预设条件的虚拟目标，得到多个筛选后虚拟目标，将多个筛选后虚拟目标的边界框信息作为每个全景虚拟图像样本对应的目标标注信息。

在获取每个虚拟目标的实例分割图后，便可以计算得到每个虚拟目标的边界框信息，例如可以遍历像素点，基于每个虚拟目标被渲染的颜色的不同，利用像素颜色改变作为评判依据，能够准确地标注出每个虚拟目标的边界框信息。

在采集到的图像中，由于设置的虚拟目标数量多、种类多，很可能出现虚拟目标之间存在遮挡、重叠的现象，这使得一些虚拟目标是不完整的，参与后续模型的训练会降低训练精度和训练效率，需要进行排除。可以根据已知的每个虚拟目标的预设类别，对每个虚拟目标进行分类，例如可以分为汽车和人两类，还可以分为公交车、私家车、货车、电动车、人五类，在此不做限制。

在一种可能的实施方式中，前述子步骤S202-5中的（3）部分可以由以下实施方式执行实施。

一、通过预设聚类算法计算第一校验虚拟目标组的第一分类簇，第一校验虚拟目标组为多个校验虚拟目标组中的任一个校验虚拟目标组。

二、计算第一校验虚拟目标组包括的每个虚拟目标距离第一分类簇的簇中心的欧几里得距离。

三、将欧几里得距离小于预设距离阈值的虚拟目标删除，得到多个筛选后虚拟目标。

例如，可以基于三维实矢量作为观测维度，三维实矢量可以包括宽度w，高度h和到虚拟摄像机的距离d，利用K-means++算法能够对每个虚拟目标应该所在的簇进行分类，为了提高数据处理效率，可以按照分类完成的多个类别的校验虚拟目标组的顺序依次进行处理。

例如，请结合参阅图5，以多个校验虚拟目标组中的任一校验虚拟目标组为例，第一校验虚拟目标组可以是指虚拟目标的类别为汽车的校验虚拟目标组，可以计算得到虚拟目标类别为汽车的第一分类簇，然后判断每个类别为汽车的虚拟目标距离该第一分类簇的簇中心的欧几里得距离是否达到了预设距离阈值，若未达到，则证明该虚拟目标被遮挡部分较多，特征噪声较大，因此可以进行删除。例如，通过K-means++算法对虚拟目标的类别为汽车的校验虚拟目标组聚类后可以得到“大物体Large Objects”、“中物体MediumObjects”、“小物体Small Objects”和“特小物体Tiny Objects”,其中，“Tiny Objects”所包括的虚拟目标存在欧几里得距离未达到预设距离阈值的情况，可以将“Tiny Objects”所包括的虚拟目标删除，保留“Large Objects”、“Medium Objects”和“Small Objects”，所包括的虚拟目标，完成数据清洗。

通过上述方案，利用虚拟场景数据中获取的全景虚拟图像样本作为训练集，由于虚拟场景数据可以在虚拟场景中灵活调整，可以为虚拟场景数据引入更多和更丰富的场景多样特征，从而提高在虚拟场景数据上训练的目标检测模型的实际应用性能，不仅如此，由于全景虚拟图像样本中的所有目标均可以由数字表述，可以减少每个虚拟目标的分类以及标注的过程的工作量。

在一种可能的实施方式中，初始目标检测模型包括多个分离卷积特征融合块，每个分离卷积特征融合块包括依次连接的分离卷积层、批标准化层和线性整流函数层，前述步骤S203可以通过以下详细的步骤实现。

子步骤S203-1，将全景虚拟图像样本输入初始目标检测模型的分离卷积特征融合块，通过分离卷积层对全景虚拟图像样本进行分离卷积特征提取，获得分离卷积特征图。

子步骤S203-2，将分离卷积特征图输入到批标准化层和线性整流函数层进行批标准化和线性整流处理，获得处理后的分离卷积特征图。

子步骤S203-3，将处理后的分离卷积特征图作为下一个分离卷积特征融合块的输入，返回执行通过分离卷积层对全景虚拟图像样本进行分离卷积特征提取，获得分离卷积特征图的步骤，直至完成最后一个分离卷积特征融合块的处理后，获得最终处理后的分离卷积特征图。

子步骤S203-4，基于最终处理后的分离卷积特征图进行目标检测，获得目标检测信息，并根据目标检测信息和对应的目标标注信息对初始目标检测模型进行模型参数更新后，判断初始目标检测模型是否满足收敛条件。

子步骤S203-5，当初始目标检测模型满足收敛条件时，获得用于对实际全景图像样本进行目标检测的目标检测模型。

子步骤S203-6，当初始目标检测模型不满足收敛条件时，返回执行将全景虚拟图像样本输入初始目标检测模型的分离卷积特征融合块的步骤。

在相关技术中，可以利用双阶段检测框架实现目标检测，具体可以是从图像中先生成区域建议，然后提取CNN（Convolutional Neural Network，卷积神经网络）特征来区域建议表征的区域进行分类识别。然而，这类方法耗费时间较多，例如R-CNN（Region-CNN），Fast-RCNN 和Faster-RCNN 等。该类方案对于自动驾驶技术所需求的实时检测无法满足。

在另一相关技术中，可以利用单阶段检测框架实现目标检测，具体可以是从是完整图像中直接预测待检测目标的类概率和边界框，例如CornerNet（基于检测角点对的目标检测），SSD（single shot multibox detector，基于全卷积的网络的检测器）和YOLO（基于回归问题的物体检测算法），然而，这类方法准确性较低。该类方案对于自动驾驶技术所需求的准确性无法满足，容易出现安全隐患。

可以利用包括分离卷积特征融合块的初始目标检测模型解决上述问题，在一种实施方式中，初始目标检测模型的网络框架可以参考YOLOv3网络，可以将传统的YOLOv3网络所包括的残差块均替换为分离卷积特征融合块，以构建得到本申请实施例提供的初始目标检测模型。

应当理解的是，相关技术中卷积神经网络输入的图像大小一般较小，以YOLOv3网络为例，输入尺寸可以为320×320、416×416、608×608，而这些尺寸映射到360°全景图像上后会出现某些小物体因为太小而无法被检测到的问题，在本申请实施例中，利用虚拟场景数据提取虚拟全景图像得到的目标等距柱状投影图像能够实现分辨率为2048×1024，而目标等距柱状投影图像与全景虚拟图像样本的映射比例为1:2，因此可以将分辨率为1024×512的目标等距柱状投影图像大小作为输入初始目标检测模型的大小，实现了能够对高清图像进行处理的方案。

传统的YOLOv3模型共有65252682个参数，YOLOv3中采用了残差块来连接层，以获取多个比例下的特征图，在每个残差块中，经过多次1×1卷积和3×3卷积后，输入xi（样本图像）然后作为输出xi+1加到原先的输入xi上，相加操作可以保留来自先前层的信息，重复了具有不同卷积核大小的残差块，以提取特征，但这也增加了层和参数的数量，导致了传统的YOLOv3模型对于全景图像目标检测无法实现实时检测，需要消耗较多的时间。

基于此，发明人提出了利用深度可分离卷积和残差网络组合成一个分离卷积特征融合块来替代传统的YOLOv3模型中的残差块，分离卷积特征融合块可以称之为SCFF_Block，每个分离卷积特征融合块由前述的分离卷积层SC、批标准化层BN和线性整流函数层ReLU构成。

为了能够更加清楚的描述本申请实施例提供的方案，全景虚拟图像样本包括第一数量的图像通道，前述子步骤S203-3可以包括以下的实施方式。

（1）根据分离卷积层对全景虚拟图像样本进行逐通道卷积，并将第一数量的逐通道卷积结果进行叠加，得到第一分离卷积特征图，第一分离卷积特征图包括第一数量的通道数。

（2）根据预设形状的滤波器对第一分离卷积特征图进行第二数量的逐点卷积，并将第二数量的逐点卷积结果进行叠加，得到第二分离卷积特征图，作为全景虚拟图像样本的分离卷积特征图，第二分离卷积特征图包括第二数量的通道数。

以任一分离卷积特征融合块对全景虚拟图像样本进行特征提取的过程为例，对于全景虚拟图像样本的n（第一数量）个通道，在通道的特征图上执行3×3的逐通道卷积，然后将结果叠加到一起，得到通道数不变的第一分离卷积特征图，然后对第一分离卷积特征图进行逐点卷积，利用m（第二数量）次形状为1×1×n的滤波器实现深度方向上前几层的特征图的加权组合，获得了以m为通道数的新特征图，即第二分离卷积特征图。

通过上述方案，构建的初始目标检测模型具备21480122个参数，比传统的YOLOv3少67.08％的参数。

为了能够更加清楚的描述本申请实施例提供的方案，发明人对本申请提出的方案进行了验证，一种示例中，验证过程是在Intel Xeon W-2145（3.70GHz）CPU，64GB RAM和具有24GB VRAM的Nvidia Titan RTX图形卡上进行的。

可以获取手动标记的200张真实世界的360°街景图像，作为StreetView数据集。然后利用传统的YOLOv3检测模型分别对本申请采集的全景虚拟图像样本构成的数据集、StreetView数据集以及KITTI数据集进行训练。请结合参阅表一和图6。

表一

其中，可以将IoU（测量在特定数据集中检测相应物体准确度的一个标准）[20，21]阈值设置为0.5，ours是指本申请采集的全景虚拟图像样本构成的虚拟数据集，验证结果以平均精度AP作为参考标准，Train表示用于训练初始模型的训练集，Test表示用于测试训练完成的模型的测试集，可以清楚地看到以检测汽车和行人为例进行训练后的测试结果，本申请提供的在虚拟数据集上训练的模型已优于在KITTI数据集上训练的模型，检测汽车的AP（AP-car）值提高了81.43％，检测行人的AP（AP-pedestrian）值提高26.07％，这正是由于传统透视图数据集所缺乏的全景图像特征在本申请的数据集中具有失真的结果。结合参阅图6也可以得知，通过虚拟数据集训练得到的目标检测模型能够应用于真实世界的图像，其中，图6中的（a）表征本申请实施例提供的目标检测模型检测本申请实施例提供的虚拟数据集的结果，可以清楚地看出，图6中的（a）包括的六幅图能够反映前述的昼夜循环系统下虚拟数据集的结果，例如在图6中的（a）包括的第一行图像从左到右可以分别为昼夜循环系统下08:00、12:00和16:00时目标检测模型检测虚拟数据集的识别结果，图6中的（a）包括的第二行图像从左到右可以分别为昼夜循环系统下20:00、24:00和04:00时目标检测模型检测虚拟数据集的识别结果，图6中的（b）表征本申请实施例提供的目标检测模型检测StreetView数据集的结果，其中，从左至右的三幅图可以分别为真实情况下08:00、12:00和16:00目标检测模型检测StreetView数据集的结果。

发明人继续进行了验证，利用本申请采集的全景虚拟图像样本构成的虚拟数据集分别测试本申请提供的目标检测模型和传统YOLOv3模型的性能，请结合参阅表二。

表二

其中，Pano-YOLO为本申请实施例提供的目标检测模型，验证结果以平均精度（mAP）和每秒帧数（FPS）表示，其中IoU设置为0.5，Model为模型类型，Parameters表示对应模型所包含的参数量。可以得知，YOLOv3的输入大小（Input Size）为1024×1024，与608×608相比，mAP高17.73％，而速度则慢67.0％。这表明较大的输入大小使模型更准确，但检测速度较慢。但是，使用1024×512作为输入大小时，mAP几乎与1024×1024相同，原因是调整为检测器大小的输入图像的比例是固定的。由于ERP图像的比例为2：1，因此选用前述方案中提供的分辨率为1024×512的输入形状效果最佳。

发明人继续进行了验证，请再次参阅表2，本申请提供的目标检测模型与传统的YOLOv3进行了比较，并在本申请提供的全景虚拟数据集上对输入大小进行了训练和测试。通过减少参数数量67.08％，本申请提供的目标检测模型的速度提高了42.21％。本申请提供的目标检测模型的性能表现mAP的82.04和21.9FPS，能够对高分辨率全景图像和视频执行实时目标检测。

通过上述方案，本申请实施例提供的目标检测方法，通过利用基于不同虚拟场景生成的不同视角下的虚拟场景数据来获得全景虚拟图像样本，在对全景虚拟图像样本完成标注后，将其作为训练集对初始目标检测模型进行训练，使得训练后的目标检测模型能够对实际全景图像样本进行目标检测，相较于仅利用真实全景图像作为训练集对初始目标检测模型进行训练的方式，由于虚拟场景数据可以在虚拟场景中灵活调整，可以为虚拟场景数据引入更多和更丰富的场景多样特征，从而提高在虚拟场景数据上训练的目标检测模型的实际应用性能，此外可以克服传统透视图像的训练数据集在全景图像中由于缺乏物体畸变特征产生的目标检测失真误差问题。

基于同一发明构思，对应于前述实施例所述的目标检测方法，请结合参考图7，本申请实施例提供一种目标检测装置110，目标检测装置110包括：

获取模块1101，用于获取基于不同虚拟场景生成的不同视角下的虚拟场景数据。

标注模块1102，用于对每个虚拟场景下的不同视角下的虚拟场景数据进行全景图像合成，获得每个虚拟场景下的全景虚拟图像样本，并对每个全景虚拟图像样本进行目标标注，获得每个全景虚拟图像样本对应的目标标注信息。

检测模块1103，用于基于每个全景虚拟图像样本以及每个全景虚拟图像样本对应的目标标注信息对初始目标检测模型进行训练，获得用于对实际全景图像样本进行目标检测的目标检测模型。

需要说明的是，前述目标检测装置110的实现原理可以参考前述目标检测方法的实现原理，在此不再赘述。应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，目标检测装置110可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上目标检测装置110的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所描述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(application specific integrated circuit，ASIC)，或，一个或多个微处理器(digital signal processor，DSP)，或，一个或者多个现场可编程门阵列(field programmable gate array，FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(centralprocessing unit，CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，SOC)的形式实现。

基于同一发明构思，请参阅图8，本申请实施例提供一种计算机设备100，计算机设备100包括处理器及存储有计算机指令的非易失性存储器，计算机指令被处理器执行时，计算机设备100执行前述的目标检测装置110。例如，计算机设备100包括目标检测装置110、存储器111、处理器112及通信单元113。

为实现数据的传输或交互，存储器111、处理器112以及通信单元113各元件相互之间直接或间接地电性连接。例如，可通过一条或多条通讯总线或信号线实现这些元件相互之间电性连接。目标检测装置110包括至少一个可以软件或固件（firmware）的形式存储于存储器111中或固化在计算机设备100的操作系统（operating system，OS）中的软件功能模块。处理器112用于执行存储器111中存储的目标检测装置110，例如目标检测装置110所包括的软件功能模块及计算机程序等。

本申请实施例提供一种可读存储介质，可读存储介质包括计算机程序，计算机程序运行时控制可读存储介质所在计算机设备执行前述的目标检测方法。

出于说明目的，前面的描述是参考具体实施例而进行的。但是，上述说明性论述并不打算穷举或将本公开局限于所公开的精确形式。根据上述教导，众多修改和变化都是可行的。选择并描述这些实施例是为了最佳地说明本公开的原理及其实际应用，从而使本领域技术人员最佳地利用本公开，并利用具有不同修改的各种实施例以适于预期的特定应用。

Claims

1.一种目标检测方法，其特征在于，应用于计算机设备，所述方法包括：

获取基于不同虚拟场景生成的不同视角下的虚拟场景数据；

基于每个全景虚拟图像样本以及每个全景虚拟图像样本对应的目标标注信息对初始目标检测模型进行训练，获得用于对实际全景图像样本进行目标检测的目标检测模型；

所述初始目标检测模型包括多个分离卷积特征融合块，每个所述分离卷积特征融合块包括依次连接的分离卷积层、批标准化层和线性整流函数层，所述基于每个全景虚拟图像样本以及每个全景虚拟图像样本对应的目标标注信息对初始目标检测模型进行训练，获得用于对实际全景图像样本进行目标检测的目标检测模型的步骤，包括：

将所述全景虚拟图像样本输入所述初始目标检测模型的分离卷积特征融合块，通过所述分离卷积层对所述全景虚拟图像样本进行分离卷积特征提取，获得分离卷积特征图；

将所述分离卷积特征图输入到所述批标准化层和线性整流函数层进行批标准化和线性整流处理，获得处理后的分离卷积特征图；

将所述处理后的分离卷积特征图作为下一个分离卷积特征融合块的输入，返回执行通过所述分离卷积层对所述全景虚拟图像样本进行分离卷积特征提取，获得分离卷积特征图的步骤，直至完成最后一个分离卷积特征融合块的处理后，获得最终处理后的分离卷积特征图；

基于所述最终处理后的分离卷积特征图进行目标检测，获得目标检测信息，并根据所述目标检测信息和对应的目标标注信息对所述初始目标检测模型进行模型参数更新后，判断所述初始目标检测模型是否满足收敛条件；

当所述初始目标检测模型满足收敛条件时，获得用于对实际全景图像样本进行目标检测的目标检测模型；

当所述初始目标检测模型不满足收敛条件时，返回执行将所述全景虚拟图像样本输入所述初始目标检测模型的分离卷积特征融合块的步骤；

其中，所述全景虚拟图像样本包括第一数量的图像通道，所述通过所述分离卷积层对所述全景虚拟图像样本进行分离卷积特征提取，获得分离卷积特征图的步骤，包括：

根据所述分离卷积层对所述全景虚拟图像样本进行逐通道卷积，并将第一数量的逐通道卷积结果进行叠加，得到第一分离卷积特征图，所述第一分离卷积特征图包括第一数量的通道数；

根据预设形状的滤波器对所述第一分离卷积特征图进行第二数量的逐点卷积，并将第二数量的逐点卷积结果进行叠加，得到第二分离卷积特征图，作为所述全景虚拟图像样本的分离卷积特征图，所述第二分离卷积特征图包括第二数量的通道数。

2.根据权利要求1所述的目标检测方法，其特征在于，所述获取基于不同虚拟场景生成的不同视角下的虚拟场景数据的步骤，包括：

根据场景生成指令生成对应的目标虚拟场景；

在所述目标虚拟场景中生成虚拟全景相机，并调用所述虚拟全景相机获取目标虚拟场景的不同视角下的虚拟场景数据。

3.根据权利要求2所述的目标检测方法，其特征在于，所述根据场景生成指令生成对应的目标虚拟场景的步骤，包括以下方式中的一种或者多种组合；

根据第一场景生成指令在所述目标虚拟场景中的对应场景位置生成不同的静态虚拟场景元素；

根据第二场景生成指令在所述目标虚拟场景中随机生成不同的动态虚拟场景元素；

根据第三场景生成指令在所述目标虚拟场景中模拟不同的虚拟环境全局外观。

4.根据权利要求2所述的目标检测方法，其特征在于，所述调用所述虚拟全景相机获取目标虚拟场景的不同视角下的虚拟场景数据的步骤，包括：

旋转所述虚拟全景相机到不同方向，在以所述目标虚拟场景所在平面的垂直视场和水平视场的每个视角平面分别采集对应的视角平面图像，以获取目标虚拟场景的不同视角下的虚拟场景数据；

所述对每个虚拟场景下的不同视角下的虚拟场景数据进行全景图像合成，获得每个虚拟场景下的全景虚拟图像样本的步骤，包括：

将所述每个视角平面分别对应的视角平面图像存储到临时立方体图像对应平面的纹理中；

对所述临时立方体图像进行格式转换，得到目标等距柱状投影图像，作为所述全景虚拟图像样本。

5.根据权利要求4所述的目标检测方法，其特征在于，所述对所述临时立方体图像进行格式转换，得到目标等距柱状投影图像的步骤，包括：

获取所述临时立方体图像包括的每个第一像素的像素值；

建立初始等距柱状投影图的第一像素与所述临时立方体图像的第二像素之间的映射关系；

根据所述映射关系将所述第二像素的像素值替换为对应第一像素的像素值，得到目标等距柱状投影图像。

6.根据权利要求1所述的目标检测方法，其特征在于，所述对每个全景虚拟图像样本进行目标标注，获得每个全景虚拟图像样本对应的目标标注信息的步骤，包括：

将每个所述虚拟目标的实例渲染为各自对应的RGB编码对应的颜色，得到每个所述虚拟目标的实例分割图；

根据所述实例分割图，计算每个所述虚拟目标的边界框信息，将每个所述虚拟目标的边界框信息作为每个全景虚拟图像样本对应的目标标注信息。

7.根据权利要求6所述的目标检测方法，其特征在于，所述根据所述实例分割图，计算每个所述虚拟目标的边界框信息，将每个所述虚拟目标的边界框信息作为每个全景虚拟图像样本对应的目标标注信息的步骤，包括：

根据所述实例分割图，计算得到每个所述虚拟目标的边界框信息；

根据每个所述虚拟目标的预设类别，对每个所述虚拟目标进行分类，得到多个校验虚拟目标组；

利用预设算法对每个所述校验虚拟目标组所包括的虚拟目标进行筛选，并根据筛选结果删除每个所述校验虚拟目标组中不满足预设条件的虚拟目标，得到多个筛选后虚拟目标，将所述多个筛选后虚拟目标的边界框信息作为每个全景虚拟图像样本对应的目标标注信息。

8.根据权利要求7所述的目标检测方法，其特征在于，所述利用预设算法对每个所述校验虚拟目标组所包括的虚拟目标进行筛选，并根据筛选结果删除每个所述校验虚拟目标组中不满足预设条件的虚拟目标，得到多个筛选后虚拟目标，包括：

通过预设聚类算法计算第一校验虚拟目标组的第一分类簇，所述第一校验虚拟目标组为所述多个校验虚拟目标组中的任一个校验虚拟目标组；

计算所述第一校验虚拟目标组包括的每个所述虚拟目标距离所述第一分类簇的簇中心的欧几里得距离；

9.一种目标检测装置，其特征在于，应用于计算机设备，所述装置包括：

检测模块，用于基于每个全景虚拟图像样本以及每个全景虚拟图像样本对应的目标标注信息对初始目标检测模型进行训练，获得用于对实际全景图像样本进行目标检测的目标检测模型；

所述初始目标检测模型包括多个分离卷积特征融合块，每个所述分离卷积特征融合块包括依次连接的分离卷积层、批标准化层和线性整流函数层，所述检测模块具体用于：