CN114766039A

CN114766039A - 对象检测方法、对象检测设备、终端设备、以及介质

Info

Publication number: CN114766039A
Application number: CN202080084709.8A
Authority: CN
Inventors: 徐毅
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-12-12
Filing date: 2020-09-08
Publication date: 2022-07-19
Also published as: US20220301176A1; WO2021114775A1; EP4073698A4; EP4073698A1

Abstract

本公开提供一种对象检测方法。该方法包括：(101)获取场景的场景图像；(102)获取场景的三维点云；(103)将场景图像分割为多个子区域；(104)根据三维点云合并多个子区域以生成多个候选区域；(105)对多个候选区域执行对象检测，以确定场景图像中待检测的目标对象。另外，本公开还提供了一种对象检测设备、终端设备、和介质。

Description

对象检测方法、对象检测设备、终端设备、以及介质

相关申请的交叉参考

本申请要求于2019年12月12日向美国专利商标局提交的申请号为62/947,372的美国专利申请的优先权和权益，其全部内容通过引用并入本文。

技术领域

本公开涉及图像识别技术领域，尤其涉及一种对象检测方法、对象检测设备、终端设备、及介质。

背景技术

通过对象检测，可以检测出图像中的人脸或者汽车等对象，这在图像识别技术领域中得到了广泛的应用。

当前，主流的对象检测方法包括两个阶段。第一阶段是基于图像通过使用候选区域生成方法提取可包括对象的多个区域(即，候选区域)。第二阶段是对提取的候选区域进行特征提取，然后通过分类器识别候选区域中的对象的类别。

在相关技术中，在对象检测期间，第一阶段通常采用选择性搜索、深度学习等方法来生成候选区域，这可能生成不合理的冗余候选区域。因此，在对候选区域进行后续特征提取等过程中，由于存在冗余的候选区域，容易造成计算资源和计算时间的浪费。

发明内容

本公开的实施例提供了一种对象检测方法、对象检测设备、终端设备和计算机可读存储介质，用于解决相关技术中的以下技术问题。相关技术中的对象检测方法可能产生一些不合理的冗余候选区域，这可能导致对候选区域进行后续特征提取等过程中计算资源和计算时间的浪费。

为此，第一方面的实施例提供了一种对象检测方法。该方法包括：获取场景的场景图像；获取场景的三维点云；将场景图像分割为多个子区域；根据三维点云合并多个子区域以生成多个候选区域；以及对多个候选区域执行对象检测，以确定场景图像中待检测的目标对象。

第二方面的实施例提供了一种对象检测设备。该设备包括：第一获取模块，被配置为获取场景的场景图像；第二获取模块，被配置为获取场景的三维点云；分割模块，被配置为将场景图像分割为多个子区域；合并模块，被配置为根据三维点云合并多个子区域以生成多个候选区域；以及检测模块，被配置为对多个候选区域执行对象检测，以确定场景图像中待检测的目标对象。

第三方面的实施例提供了一种终端设备，包括：存储器、处理器和存储在存储器中并且可由处理器执行的计算机程序。当处理器执行计算机程序时，实现根据第一方面的实施例的对象检测方法。

第四方面的实施例提供了一种计算机可读存储介质，其内存储有计算机程序。当计算机程序被处理器执行时，实现根据第一方面的实施例的对象检测方法。

本公开公开的技术方案具有如下有益效果。

本公开的实施例的对象检测方法，在将场景图像分割为多个子区域后，根据场景的三维点云将多个子区域合并，以生成多个候选区域，使得生成的候选区域更加准确，大大减少了生成的候选区域的数量。由于减少了生成的候选区域的数量，减少了计算时间，后续的候选区域的特征提取等消耗较少的计算资源，从而节省了对象检测的计算时间和计算资源，提高了对象检测的效率。

附图说明

从以下参考附图的描述中，本公开的实施例的上述和/或另外的方面和优点将变得明显并且更容易理解，其中：

图1为根据本公开的实施例的对象检测方法的流程图。

图2为根据本公开的实施例的对象检测方法的流程图。

图3是根据本公开的实施例的合并子区域的方法的示意图。

图4是根据本公开的实施例的对象检测设备的框图。

图5是根据本公开的实施例的对象检测设备的框图。

图6是根据本公开的实施例的终端设备的框图。

具体实施方式

将详细描述本公开的实施例，并且在附图中示出实施例的示例。在整个说明书中，相同或相似的元件以及具有相同或相似功能的元件由相同的附图标记表示。在此参考附图描述的实施例是解释性的，用于解释本公开，并且不解释为限制本公开的实施例。

当前，主流的对象检测方法包括两个阶段。第一阶段是基于图像通过使用候选区域生成方法来提取可能包括对象的多个区域(即，候选区域)。第二阶段是对提取的候选区域进行特征提取，然后通过分类器识别候选区域中的对象的类别。

相关技术中，在目标检测过程中，第一阶段通常采用诸如选择性搜索、深度学习等方法生成候选区域，这可生成不合理的冗余候选区域。因此，在对候选区域进行后续特征提取等过程中，由于存在冗余的候选区域，容易造成计算资源和计算时间的浪费。

本公开的实施例提供了一种针对上述技术问题的对象检测方法。在获取场景的场景图像后，获取场景的三维点云。将场景图像分割为多个子区域。根据三维点云合并多个子区域以生成多个候选区域。对多个候选区域执行对象检测，以确定场景图像中待检测的目标对象。

本公开的实施例的对象检测方法，在进行对象检测时，在将场景图像分割为多个子区域后，根据稀疏的三维点云对多个子区域进行合并，以生成多个候选区域，使得生成的候选区域更加准确，大大减少了生成的候选区域的数量。由于减少了生成的候选区域的数量，减少了计算时间，后续的候选区域的特征提取等消耗较少的计算资源，从而节省了对象检测的计算时间和计算资源，提高了对象检测的效率。

下面参考附图描述对象检测方法、对象检测设备、终端设备和计算机可读存储介质。

以下结合图1详细说明根据本公开的实施例的对象检测方法。图1为本公开的实施例的对象检测方法的流程图。

如图1所示，根据本公开的对象检测方法可以包括以下动作。

在图框101处，获取场景的场景图像。

详细地，根据本公开的对象检测方法可以由根据本公开的对象检测设备执行。对象检测设备可以被配置在终端设备中以对场景的场景图像执行对象检测。根据本公开的实施例的终端设备可以是能够进行数据处理的任何硬件设备，例如手机、平板电脑、机器人和如头戴式移动设备的可穿戴设备。

应当理解的是，可以在终端设备中配置相机以拍摄场景的场景图像。

该场景可以是实体场景或虚拟场景，在此不做限制。场景图像可为静态的或动态的，在此不加以限制。

在图框102处，获取场景的三维点云。

详细地，可以通过使用同步定位与地图构建(SLAM)系统扫描场景来生成场景的三维点云，或者可以通过深度相机获取场景的密集三维点云，或者可以通过其他方法获取场景的三维点云，在此不做限制。

在图框103处，将场景图像分割为多个子区域。

每个子区域最多属于一个对象。子区域可以包括单个像素或多个像素，并且子区域的尺寸和形状可以根据需要任意设置，在此不做限制。

详细地，场景图像可以采用任何方法进行分割，例如分水岭分割算法、金字塔分割算法、均值漂移分割算法等，在此不做限制。

此外，可以同时执行图框102和103处的动作，或者可以先执行图框102处的动作然后再执行图框103处的动作，或者可以先执行图框103处的动作然后再执行图框102处的动作，在此不做限制。换句话说，在图框102和图框103处的动作需要在图框104处的动作之前实现。

在图框104处，根据三维点云合并多个子区域以生成多个候选区域。

详细地，可以通过按照在图框104a和图框104b处的动作来实现在图框104处的动作。

在图框104a处，获取与第一子区域至第n子区域对应的第一子图像至第n子图像以及第一子三维点云至第n子三维点云，其中，n为大于1的正整数。

在实施方式中，如果将场景图像分割为n个子区域，并标记为第一子区域至第n子区域，则可以根据场景图像获取与第一子区域至第n子区域对应的第一子图像至第n子图像。根据场景的三维点云，获取与第一子区域至第n子区域对应的第一子三维点云至第n子三维点云。第一子图像至第n子图像对应于第一子三维点云至第n子三维点云。

在图框104b处，根据第一子图像至第n子图像以及第一子三维点云至第n子三维点云，合并n个子区域以形成多个候选区域。

详细地，可获取从第一子图像到第n子图像的子图像之间的图像相似度，并且可获取从第一子三维点云到第n子三维点云的子三维点云之间的三维点相似度。根据图像相似度和三维点相似度来合并n个子区域，这里将不再描述。

在图框105处，对多个候选区域执行对象检测，以确定场景图像中待检测的目标对象。

详细地，在形成多个候选区域后，可以利用神经网络提取多个候选区域的特征图，然后采用分类方法识别每个候选区域中的对象的类别，再对每个对象的边界框进行回归，从而确定每个对象的尺寸以实现对多个候选区域的对象检测，从而确定场景图像中的待检测的目标对象。

用于提取候选区域的特征图的神经网络可以是任意特征提取网络。任何图像分类神经网络都可以用于确定对象类别。当对对象的边界框进行回归时，可以使用任何回归神经网络，在此不做限制。

可以理解的是，在执行本公开的实施例的对象检测时，在将场景图像分割为多个子区域之后，同时根据子区域之间的图像相似度和由场景的稀疏三维点云所确定的子区域之间的三维点相似度，对子区域进行合并，使得生成的候选区域更加准确，数量更少。

可以理解的是，本公开的实施例的对象检测方法可以应用于AR软件开发工具包(SDK)中，以提供对象检测功能，并且开发者可以利用AR SDK中的对象检测功能来实现场景中对象的识别，进而实现电子商务领域的产品推荐等各种功能。

根据本公开的实施例的对象检测方法，获取场景的场景图像，并且获取场景的三维点云。将场景图像分割为多个子区域，根据三维点云对多个子区域进行合并以生成多个候选区域。最后，对多个候选区域执行对象检测，以确定场景图像中待检测的目标对象。因此，在对象检测过程中，在将场景图像分割为多个子区域后，使用场景的三维点云对多个子区域进行合并来生成多个候选区域，使得生成的候选区域更加准确，大大减少了生成的候选区域的数量。由于减少了生成的候选区域的数量，减少了计算时间，后续的候选区域的特征提取等消耗较少的计算资源，从而节省了对象检测的计算时间和计算资源，提高了对象检测的效率。

下面参考图2进一步描述根据本公开的实施例的对象检测方法。图2为本公开的另一实施例的对象检测方法的流程图。

如图2所示，根据本公开的实施例的对象检测方法可以包括以下动作。

在图框201处，获取场景的场景图像。

在图框202处，通过同步定位与地图构建(SLAM)系统扫描场景以生成场景的三维点云。

下面将简要描述本公开的实施例中使用的SLAM系统。

SLAM系统，顾名思义，同时能够进行定位和地图构建。当用户持有或佩戴终端设备，从未知环境中的未知位置出发时，终端设备中的SLAM系统通过相机在运动过程中观察到的特征点，估计相机在每个时刻的位置和姿态，并将相机在不同时刻采集的图像帧合并从而重构为用户周围场景的完整三维地图。SLAM系统被广泛用于机器人定位导航、虚拟现实(VR)、增强现实(AR)、无人机和无人驾驶。相机在每个时刻的位置和姿态可以由包含旋转和平移信息的矩阵或向量来表示。

SLAM系统通常可被划分为视觉前端模块和优化后端模块。

视觉前端的主要任务是通过使用相机在运动期间在不同时刻采集的图像帧以及通过特征匹配，解决相邻帧间的相机位姿变换，以及完成图像帧的融合以重建地图。

视觉前端依赖于安装在诸如机器人或手机之类的终端设备中的传感器。常见的传感器包括相机(例如单目相机、双目相机、TOF相机)、惯性测量单元(IMU)和激光雷达，并且被配置为收集实际环境中的各种类型的原始数据，包括激光扫描数据、视频图像数据和点云数据。

SLAM系统的优化后端主要是优化和微调由视觉前端获得的不准确的相机位姿和重构地图，其可以作为离线操作与视觉前端分离或集成到视觉前端中。

在实施方式中，可以使用SLAM系统通过使用以下方式获得场景的三维点云。

详细地，可以预先校准终端设备中包括的相机以确定相机的内部参数，然后使用校准后的相机扫描场景，并使用SLAM系统生成场景的三维点云。

为了校准相机，可以先在A4纸上打印7*9黑白校准板，校准板上的棋盘格尺寸为29.1mm。将该校准板贴在整洁且平坦的墙壁上，并且使用待校准的相机对着该校准板拍摄视频。拍摄时，连续移动相机，从不同的角度和不同的距离拍摄校准板。校准程序是使用封装了OpenCV的算法和函数编写的。最后将视频转换为图像，并选择图像中的50幅作为校准图像，连同校准板的基本参数一起输入校准程序，然后计算出相机的内部参数。

世界坐标系中的点是根据物理尺寸来测量的，而图像平面中的点是以像素来测量的。使用内部参数以在两个坐标系之间进行线性变化。空间中的点Q(X，Y，Z)可以通过内部参数矩阵进行变换以获得由射线投影到图像平面上的像素坐标系上的点的对应点Q(u，v)，其中：

K为相机的内参数矩阵。

其中，f是以毫米为单位的相机的焦距，dx和dy是以毫米为单位的每个像素的长度和宽度，u₀、v₀是通常以像素为单位的图像中心的坐标。

根据相机的内部参数和相机拍摄场景时得到的场景图像的高度和宽度，按照DSO程序所需的格式编写相机参数文件，并以相机参数文件作为输入启动DSO程序。换句话说，当使用相机扫描场景时，可以实时地构建场景的三维点云。

需要说明的是，上述方法只是通过SLAM系统扫描场景以生成场景的三维点云的一种实施方式。在实际应用中，可以使用SLAM系统通过其他任何方法生成场景的三维点云，在此不做限制。

此外，在前述实施例中，SLAM系统被配置为扫描场景以生成该场景的三维点云。在实际应用中，可以通过深度相机获取场景的密集三维点云，或者可以通过其他方法获取场景的三维点云，在此不做限制。

在图框203处，将场景图像分割为多个子区域。

在图框204处，获取与第一子区域至第n子区域对应的第一子图像至第n子图像以及第一子三维点云至第n子三维点云，其中n为大于1的正整数。

在图框205处，获取n个子区域中的第i子区域以及第j子区域，其中，i和j为小于或等于n的正整数。

图框201至205的动作的实施过程和原理参见上述实施例的描述，在此不再赘述。

在图框206处，根据第i子区域的第i子图像以及第j子区域的第j子图像，生成第i子区域与第j子区域之间的图像相似度。

详细地，可以计算第i子区域的第i子图像与第j子区域的第j子图像之间的结构相似度(SSIM)、余弦相似度、相互信息、颜色相似度、或直方图相似度，以生成第i子区域与第j子区域之间的图像相似度。

在图框207处，根据第i子区域的第i子三维点云和第j子区域的第j子三维点云，生成第i子区域和第j子区域之间的三维点相似度。

详细地，可通过计算第i子区域的第i子三维点云中的每个三维点与第j子区域的第j子三维点云中的每个三维点之间的距离来确定第i子区域与第j子区域之间的三维点相似度。

可以理解，在第i子三维点云中以及在第j子三维点云中可以有多个三维点。对应地，第i子三维点云中的三维点和第j子三维点云中的三维点之间存在多个距离参数。在本公开的实施例中，根据第i子三维点云中的三维点与第j子三维点云中的三维点之间的最大距离，或者第i子三维点云中的三维点与第j子三维点云中的三维点之间的距离的平均值，生成第i子区域与第j子区域之间的三维点相似度。

在本实施方式中，可以预先设置三维点之间的距离与三维点相似度的对应关系，从而根据第i子三维点云中的三维点与第j子三维点云中的三维点之间的最大距离，或者第i子三维点云中的三维点与第j子三维点云中的三维点之间的距离的平均值，生成第i子区域与第j子区域之间的三维点相似度。三维点之间的距离和三维点相似度可以成反比，即，距离越大，三维点相似度越小。

或者，将第i子区域的第i子三维点云中的每个三维点和第j子区域的第j子三维点云中的每个三维点拟合到预设模型，以计算不同的子三维点云中的每个三维点拟合的预设模型之间的距离，生成第i子区域和第j子区域之间的三维点相似度。

详细地，可以将预设模型之间的距离与三维点相似度之间的对应关系进行预先设置。将第i子区域的第i子三维点云中的每个三维点用第一预设模型拟合，将第j子区域的第j子三维点云中的每个三维点用第二预设模型拟合，然后确定第一预设模型与第二预设模型之间的距离。根据预设模型之间的距离与三维点相似度的对应关系，确定第i子区域与第j子区域之间的三维点相似度。

该预设模型可以是预设的几何基本模型，如球体、圆柱体、平面、椭球体，或者由几何基本模型组成的复杂几何模型，或者其他预设模型，在此不作限制。

此外，将子三维点云中的三维点拟合到预设模型的方式可以是最小二乘法或任何其他方式，在此不做限制。

例如，通过将第i子三维点云中的三维点拟合到圆柱体，将圆柱体参数化，例如，空间中的圆柱体可以由例如三维空间中的中心坐标(X，Y，Z)、底部半径、高度、和取向之类的参数来表示，然后每次通过随机抽样一致(RANSAC)算法从子三维点云中随机选择一些三维点。假设这些三维点在圆柱体中，计算圆柱体的参数，然后统计子三维点云中的三维点在圆柱体上的数量，并判断该数量是否超过预设的数量阈值。若未超过，则随机选择另外一些三维点重复上述过程，否则，则可以确定子三维点云中在圆柱体上的三维点可以用圆柱体拟合，从而获取第i子三维点云中的每个三维点拟合的圆柱体。然后通过类似的算法，得到第j子三维点云中的每个三维点拟合的第二预设模型，并假设第二预设模型为椭圆。然后计算圆柱与椭圆之间的距离，根据距离与三维点相似度的对应关系，确定第i子区域与第j子区域之间的三维点相似度。

数量阈值可以根据需要设置，此处不作限制。

此外，可以设置距离阈值，并且可以计算子三维点云中所有三维点到圆柱体的距离，从而将距离小于距离阈值的三维点确定为圆柱体上的三维点。

在图框208处，根据图像相似度和三维点相似度将第i子区域和第j子区域合并。

详细地，可以预先设置图像相似度阈值和三维点相似度阈值，使得在确定第i子区域和第j子区域之间的图像相似度和三维点相似度之后，比较图像相似度和图像相似度阈值，以及比较三维点相似度和三维点相似度阈值。如果图像相似度大于图像相似度阈值，并且三维点相似度大于三维点相似度阈值，则可以确定第i子区域的第i子图像和第j子区域的第j子图像是同一对象的不同部分的图像，并可以作为一个候选区域使用，从而可以将第i子区域和第j子区域合并。

此外，如果第i子区域和第j子区域之间的图像相似度小于或等于图像相似度阈值，或者第i子区域和第j子区域之间的三维点相似度小于或等于三维点相似度阈值，则可以确定第i子区域的第i子图像和第j子区域的第j子图像是不同对象的图像，从而不能合并第i子区域和第j子区域。

例如，假设图像相似度阈值是80％并且三维点相似度阈值是70％。图3是将场景图像分割为多个子区域之后的部分子区域。区域1和区域2之间的图像相似度为90％，区域1和区域2之间的三维点相似度为80％。区域1与其他区域的图像相似度小于80％，区域1与其他区域的三维点相似度小于70％。区域2与其他区域的图像相似度小于80％，区域2与其他区域的三维点相似度小于70％。区域3与其他区域的图像相似度小于80％，区域3与其他区域的三维点相似度小于70％。区域1和区域2合并形成一个候选区域。区域2和区域3被确定为分离的候选区域。

在图框209处，对多个候选区域执行对象检测，以确定场景图像中待检测的目标对象。

详细地，在形成多个候选区域之后，可通过使用神经网络来提取多个候选区域的特征图，然后使用分类方法来识别每个候选区域中的对象的类别，然后对每个对象的边界框进行回归。确定每个对象的尺寸，以实现对多个候选区域的对象检测，从而确定场景图像中待检测的目标对象。

用于提取候选区域的特征图的神经网络可以是任意特征提取网络。任何图像分类神经网络都可以用于确定对象类别。当对对象的边界框进行回归时，可以使用任何回归神经网络，此处不作限制。

在执行本公开的实施例的对象检测时，将场景图像分割为多个子区域后，可以根据稀疏的三维点云生成子区域之间的三维点相似度和子区域之间的图像相似度，并根据相似度对子区域进行合并以生成多个候选区域，进而确定场景图像中的待检测的目标对象，使得生成的候选区域更加准确，生成的候选区域数量大大减少。由于减少了生成的候选区域的数量，减少了计算时间，后续的候选区域的特征提取等消耗较少的计算资源，从而节省了对象检测的计算时间和计算资源，提高了对象检测的效率。

下面结合图4描述根据本公开的实施例的对象检测设备。图4是根据本公开的实施例的对象检测设备的框图。

如图4所示，对象检测设备包括第一获取模块11、第二获取模块12、分割模块13、合并模块14和检测模块15。

第一获取模块11被配置为获取场景的场景图像。

第二获取模块12被配置为获取场景的三维点云。

分割模块13被配置为将场景图像分割为多个子区域。

合并模块14被配置为根据三维点云合并多个子区域以生成多个候选区域。

检测模块15被配置为对多个候选区域执行对象检测，以确定场景图像中待检测的目标对象。

在一个示例性实施例中，第二获取模块12被配置为通过同步定位与地图构建(SLAM)系统扫描场景以生成场景的三维点云。

详细地，对象检测设备可以执行在前述实施例中描述的对象检测方法。该设备可以被配置在终端设备中以对场景的场景图像执行对象检测。本公开的实施例中的终端设备可以是能够进行数据处理的任何硬件设备，例如手机、平板电脑、机器人、头戴式移动设备等可穿戴设备。

需要说明的是，本实施例的对象检测设备的实施过程和技术原理，参考上述第一方面的实施例的对象检测方法的说明，在此不再赘述。

根据本公开的实施例的对象检测设备，获取场景的场景图像，并且获取场景的三维点云。将场景图像分割为多个子区域，根据三维点云对多个子区域进行合并以生成多个候选区域。最后，对多个候选区域执行对象检测，以确定场景图像中待检测的目标对象。因此，在对象检测过程中，将场景图像分割为多个子区域后，使用场景的三维点云对多个子区域进行合并而生成多个候选区域，使得生成的候选区域更加准确，大大减少了生成的候选区域的数量。由于减少了生成的候选区域的数量，减少了计算时间，后续的候选区域的特征提取等消耗较少的计算资源，从而节省了对象检测的计算时间和计算资源，提高了对象检测的效率。

下面结合图5进一步描述根据本公开的实施例的对象检测设备。图5是根据本公开的另一实施例的对象检测设备的框图。

如图5所示，基于图4，合并模块14包括：获取单元141和合并单元142。

获取单元141被配置为获取与第一子区域至第n子区域对应的第一子图像至第n子图像以及第一子三维点云至第n子三维点云，其中n为大于1的正整数。

合并单元142被配置为根据第一子图像至第n子图像以及第一子三维点云至第n子三维点云合并n个子区域以形成多个候选区域。

在示例性实施例中，合并单元142被配置为：获取n个子区域中的第i子区域和第j子区域，其中i和j是小于或等于n的正整数；根据第i子区域的第i子图像和第j子区域的第j子图像，生成第i子区域和第j子区域之间的图像相似度；根据第i子区域的第i子三维点云和第j子区域的第j子三维点云，生成第i子区域和第j子区域之间的三维点相似度；以及根据图像相似度和三维点相似度来合并第i子区域和第j子区域。

在示例性实施例中，合并单元142被配置为当图像相似度大于图像相似度阈值并且三维点相似度大于三维点相似度阈值时，将第i子区域和第j子区域合并。

使用根据本公开的实施例的对象检测设备，获取场景的场景图像，并且获取场景的三维点云。将场景图像分割为多个子区域，根据三维点云对多个子区域进行合并以生成多个候选区域。最后，对多个候选区域执行对象检测，以确定场景图像中待检测的目标对象。因此，在目标检测过程中，将场景图像分割为多个子区域后，使用场景的三维点云对多个子区域进行合并来生成多个候选区域，使得生成的候选区域更加准确，大大减少了生成的候选区域的数量。由于减少了生成的候选区域的数量，减少了计算时间，后续的候选区域的特征提取等消耗较少的计算资源，从而节省了对象检测的计算时间和计算资源，提高了对象检测的效率。

为了实现上述实施例，本公开还提供了一种终端设备。

图6是根据本公开的实施例的终端设备的框图。

如图6所示，终端设备包括：存储器、处理器和存储在存储器中并且能够由处理器执行的计算机程序。当处理器执行计算机程序时，实现根据第一方面的实施例的对象检测方法。

需要说明的是，本实施例的终端设备的实施过程和技术原理，参考上述第一方面的实施例的对象检测方法的说明，在此不再赘述。

使用根据本公开的实施例的终端设备，获取场景的场景图像，并且获取场景的三维点云。将场景图像分割为多个子区域，根据三维点云对多个子区域进行合并以生成多个候选区域。最后，对多个候选区域执行对象检测，以确定场景图像中待检测的目标对象。因此，在对象检测过程中，将场景图像分割为多个子区域后，通过使用场景的三维点云对多个子区域进行合并，以生成多个候选区域，使得生成的候选区域更加准确，大大减少了生成的候选区域的数量。由于减少了生成的候选区域的数量，减少了计算时间，后续的候选区域的特征提取等消耗较少的计算资源，从而节省了对象检测的计算时间和计算资源，提高了对象检测的效率。

为了实现上述实施例，本公开还提供了一种计算机可读存储介质，其内存储有计算机程序。当计算机程序被处理器执行时，实现根据第一方面的实施例的对象检测方法。

为了实现上述实施例，本公开还提供了计算机程序。当计算机程序被处理器执行时，实现根据实施例的对象检测方法。

在整个说明书中，对“实施例”、“一些实施例”、“示例”、“具体示例”或“一些示例”的引用意味着结合实施例或示例描述的特定特征、结构、材料或特性被包括在本公开的至少一个实施例或示例中。

此外，例如“第一”和“第二”的术语在此用于描述的目的，并且不旨在指示或暗示相对重要性或显著性。因此，用“第一”和“第二”限定的特征可以包括一个或多个这种特征。

流程图中描述的或本文以其他方式描述的任何过程或方法可以被理解为包括用于实现过程中的特定逻辑功能或步骤的可执行指令的代码的一个或多个模块、片段或部分，并且本公开的优选实施例的范围包括其他实施方式，这是本领域技术人员应当理解的。

应当理解的是，本公开的每个部分可以通过硬件、软件、固件或其组合来实现。在上述实施例中，多个步骤或方法可以由存储在存储器中并由适当的指令执行系统执行的软件或固件来实现。例如，如果它由硬件实现，同样在另一实施例中，步骤或方法可以通过本领域已知的以下技术中的一个或组合来实现：具有用于实现数据信号的逻辑功能的逻辑门电路的离散逻辑电路、具有适当组合逻辑门电路的专用集成电路、可编程门阵列(PGA)、现场可编程门阵列(FPGA)等。

本领域技术人员应当理解的是，上述实施例中的方法所执行的所有或部分步骤可以由程序所指示的相关硬件来完成。程序可以存储在计算机可读存储介质中。当执行程序时，可以完成上述实施例中的方法的步骤中的一个或组合。

上述存储介质可以是只读存储器、磁盘或CD等。尽管已经示出和描述了说明性实施例，但是本领域技术人员应该理解，上述实施例不能被解释为限制本公开，并且在不脱离本公开的范围的情况下，可以对实施例进行改变、替换和修改。

Claims

1.一种对象检测方法，包括：

获取场景的场景图像；

获取所述场景的三维点云；

将所述场景图像分割为多个子区域；

根据所述三维点云合并所述多个子区域以生成多个候选区域；以及

对所述多个候选区域执行对象检测，以确定所述场景图像中待检测的目标对象。

2.根据权利要求1所述的方法，其中，获取所述场景的三维点云包括：

通过同步定位与地图构建(SLAM)系统扫描所述场景以生成所述场景的所述三维点云。

3.根据权利要求1所述的方法，其中，根据所述三维点云合并所述多个子区域以生成所述多个候选区域包括：

获取与第一子区域至第n子区域对应的第一子图像至第n子图像以及第一子三维点云至第n子三维点云，其中，n为大于1的正整数；以及

根据所述第一子图像至所述第n子图像以及所述第一子三维点云至所述第n子三维点云合并n个子区域以形成所述多个候选区域。

4.根据权利要求3所述的方法，其中，根据所述第一子图像到所述第n子图像以及所述第一子三维点云到所述第n子三维点云合并所述n个子区域以形成所述多个候选区域包括：

获取所述n个子区域中的第i子区域和第j子区域，其中，i和j是小于或等于n的正整数；

根据所述第i子区域的第i子图像和所述第j子区域的第j子图像，生成所述第i子区域和所述第j子区域之间的图像相似度；

根据所述第i子区域的第i子三维点云和所述第j子区域的第j子三维点云，生成所述第i子区域和所述第j子区域之间的三维点相似度；以及

根据所述图像相似度和所述三维点相似度合并所述第i子区域和所述第j子区域。

5.根据权利要求4所述的方法，其中，根据所述图像相似度和所述三维点相似度合并所述第i子区域和所述第j子区域包括：

当所述图像相似度大于图像相似度阈值并且所述三维点相似度大于三维点相似度阈值时，合并所述第i子区域和所述第j子区域。

6.一种对象检测设备，包括：

第一获取模块，被配置为获取场景的场景图像；

第二获取模块，被配置为获取所述场景的三维点云；

分割模块，被配置为将所述场景图像分割为多个子区域；

合并模块，被配置为根据所述三维点云合并所述多个子区域以生成多个候选区域；以及

检测模块，被配置为对所述多个候选区域执行对象检测，以确定所述场景图像中待检测的目标对象。

7.根据权利要求6所述的设备，其中，所述第二获取模块被配置为通过同步定位与地图构建(SLAM)系统扫描所述场景以生成所述场景的所述三维点云。

8.根据权利要求6所述的设备，其中，所述合并模块包括：

获取单元，被配置为获取与第一子区域至第n子区域对应的第一子图像至第n子图像以及第一子三维点云至第n子三维点云，其中，n为大于1的正整数；以及

合并单元，被配置为根据所述第一子图像至所述第n子图像以及所述第一子三维点云至所述第n子三维点云合并n个子区域以形成所述多个候选区域。

9.根据权利要求8所述的设备，其中，所述合并单元被配置为：

10.根据权利要求9所述的设备，其中，所述合并单元被配置为：当所述图像相似度大于图像相似度阈值并且所述三维点相似度大于三维点相似度阈值时，合并所述第i子区域和所述第j子区域。

11.一种终端设备，包括：存储器、处理器和存储在所述存储器中并且能够由所述处理器执行的计算机程序，其中，当所述处理器执行所述计算机程序时，实现根据权利要求1至5中任一项所述的对象检测方法。

12.一种计算机可读存储介质，其内存储有计算机程序，其中，当所述计算机程序被处理器执行时，实现根据权利要求1至5中任一项所述的对象检测方法。