CN111091117B

CN111091117B - 用于二维全景图像的目标检测方法、装置、设备、介质

Info

Publication number: CN111091117B
Application number: CN201911414125.8A
Authority: CN
Inventors: 不公告发明人
Original assignee: Beijing Urban Network Neighbor Information Technology Co Ltd
Current assignee: Beijing Urban Network Neighbor Information Technology Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2021-01-29
Anticipated expiration: 2039-12-31
Also published as: CN111091117A

Abstract

公开了用于二维全景图像的目标检测方法、装置、设备、介质。所述方法包括：基于所述二维全景图像，确定对应于预设的至少两个全景视角方向的至少两个待检测二维全景图像；对所述至少两个待检测二维全景图像执行目标检测，以确定所示至少两个待检测二维全景图像的候选目标检测结果；以及基于所述至少两个待检测二维全景图像的候选目标检测结果，确定所述二维全景图像的全景目标检测结果。

Description

用于二维全景图像的目标检测方法、装置、设备、介质

技术领域

本申请涉及图像处理领域，更具体地涉及一种目标检测方法、装置、设备、介质。

背景技术

二维全景图像可以用二维的方式展示360°的全景信息。可以利用全景相机获取二维的全景图像。基于所获取的二维全景图像，可以通过电子设备直接显示平面的全景图像或者基于全景图像生成对应的三维模型，并以三维的方式显示所生成的模型。

全景图像可以向用户提供360°视角内的所有场景信息。为了能够包含全部的场景信息，全景图像中的物体展示遵循极坐标系的规则。因此，二维的全景图像中展示的物体和场景存在一定程度上的变形。

发明内容

根据本申请的一方面，提出了一种用于二维全景图像的目标检测方法，包括：基于所述二维全景图像，确定对应于预设的至少两个全景视角方向的至少两个待检测二维全景图像；对所述至少两个待检测二维全景图像执行目标检测，以确定所示至少两个待检测二维全景图像的候选目标检测结果；以及基于所述至少两个待检测二维全景图像的候选目标检测结果，确定所述二维全景图像的全景目标检测结果。

在一些实施例中，针对所述至少两个待检测二维全景图像中的每个待检测二维全景图像，所述候选目标检测结果指示在该待检测二维全景图像中存在的属于预定类别的候选目标的概率和所述预定类别的候选目标在该待检测二维全景图像中的位置。

在一些实施例中，其中所述二维全景图像对应于三维空间，所述三维空间通过所述三维空间的墙面和地面形成为至少部分封闭。

在一些实施例中，其中所述目标是所述三维空间中墙面上存在的对象。

在一些实施例中，基于所述二维全景图像，确定对应于预设的至少两个全景视角方向的至少两个待检测二维全景图像包括：基于所述三维空间的坐标系，将所述二维全景图像转换为三维空间中的全方位图像；基于预设的至少两个全景视角方向对所述全方位图像进行展开，以得到所述至少两个待检测二维全景图像。

在一些实施例中，基于预设的至少两个全景视角方向对所述全方位图像进行展开，以得到所述至少两个待检测二维全景图像包括：针对预设的每个全景视角方向，在所述三维空间中的至少一个方向上对所述全方位图像进行缩放，以确定缩放后的全方位图像；基于预设的该全景视角方向对所述缩放后的全方位图像进行展开，以得到对应于预设的该全景视角方向的待检测二维全景图像。

在一些实施例中，所述至少一个方向包括平行于所述地面的水平方向和垂直于所述地面的竖直方向。

在一些实施例中，在基于所述二维全景图像，确定对应于预设的至少两个全景视角方向的至少两个待检测二维全景图像之前，所述方法还包括：对所述二维全景图像进行垂直校正，以使得校正后的二维全景图像中的地面平行于水平线。

在一些实施例中，其中，对所述至少两个待检测二维全景图像执行目标检测，以确定所示至少两个待检测二维全景图像的候选目标检测结果包括：利用用于目标检测的深度神经网络对所述至少两个待检测二维全景图像分别进行处理以得到所述候选目标检测结果。

在一些实施例中，所述深度神经网络是以下各项中的至少一种：

YOLO；RCNN；Fast-RCNN；Faster-RCNN；SSD。

在一些实施例中，对所述至少两个待检测二维全景图像执行目标检测，以确定所示至少两个待检测二维全景图像的候选目标检测结果包括：针对每个待检测二维全景图像，确定用于该待检测二维全景图像的一维特征表示，对所述一维特征表示进行目标检测，以得到所述一维特征表示的一维目标检测结果，其中所述一维目标检测结果指示所述一维特征表示中每个元素对应的该待检测二维全景图像中的像素点属于预定类别的候选目标的概率，基于所述一维特征表示的一维目标检测结果确定该待检测二维全景图像的候选目标检测结果。

在一些实施例中，确定用于该待检测二维全景图像的一维特征表示包括：利用包括至少一个卷积层和至少一个池化层的卷积神经网络对该待检测二维全景图像进行处理，以得到该待检测二维全景图像的图像特征；将该待检测二维全景图像的图像特征确定为所述一维特征表示；其中，该待检测二维全景图像的尺寸为H×W，所述待检测二维全景图像的图像特征的尺寸为 1×W，其中H是该待检测二维全景图像在高度方向上的像素个数，W是该待检测二维全景图像在宽度方向上的像素个数，所述一维特征表示的每个元素对应于该待检测二维全景图像中的一列像素点。

在一些实施例中，对所述一维特征表示进行目标检测包括：利用LSTM 网络对所述一维特征表示进行处理，以得到所述一维特征表示的检测特征；利用全连接层对所述检测特征进行处理，以得到所述一维目标检测结果，其中所述一维目标检测结果指示一维特征表示中每个元素属于预定的多个类别的目标的分数。

在一些实施例中，基于所述一维特征表示的一维目标检测结果确定该待检测二维全景图像的候选目标检测结果包括：针对所述一维特征表示中的每个元素，基于所述一维目标检测结果确定该元素的最高分数，并将该元素确定为属于具有最高分数的预定类别的目标；基于所述一维特征表示中属于所述预定类别的目标的各元素的位置确定该待检测二维全景图像中的全景目标的尺寸和位置。

在一些实施例中，基于所述至少两个待检测二维全景图像的候选目标检测结果，确定所述二维全景图像的全景目标检测结果包括：当至少两个待检测二维全景图像的候选目标检测结果指示在所述三维空间的同一位置存在候选目标时，将该候选目标确定为所述二维全景图像中存在的全景目标。

根据本申请的另一方面，还提供了一种用于二维全景图像的目标检测装置，包括：待检测图像确定单元，配置成基于所述二维全景图像，确定对应于预设的至少两个全景视角方向的至少两个待检测二维全景图像；目标检测单元，配置成对所述至少两个待检测二维全景图像执行目标检测，以确定所示至少两个待检测二维全景图像的候选目标检测结果；以及结果确定单元，配置成基于所述至少两个待检测二维全景图像的候选目标检测结果，确定所述二维全景图像的全景目标检测结果。

在一些实施例中，所述目标是所述三维空间中墙面上存在的对象。

在一些实施例中，所述待检测图像确定单元配置成基于所述三维空间的坐标系，将所述二维全景图像转换为三维空间中的全方位图像；基于预设的至少两个全景视角方向对所述全方位图像进行展开，以得到所述至少两个待检测二维全景图像。

在一些实施例中，所述装置还包括垂直校正单元，配置成对所述二维全景图像进行垂直校正，以使得校正后的二维全景图像中的地面平行于水平线。

在一些实施例中，所述目标检测单元配置成利用用于目标检测的深度神经网络对所述至少两个待检测二维全景图像分别进行处理以得到所述候选目标检测结果。

YOLO；RCNN；Fast-RCNN；Faster-RCNN；SSD。

在一些实施例中，所述目标检测单元配置成针对每个待检测二维全景图像，确定用于该待检测二维全景图像的一维特征表示，对所述一维特征表示进行目标检测，以得到所述一维特征表示的一维目标检测结果，其中所述一维目标检测结果指示所述一维特征表示中每个元素对应的该待检测二维全景图像中的像素点属于预定类别的候选目标的概率，基于所述一维特征表示的一维目标检测结果确定该待检测二维全景图像的候选目标检测结果。

根据本申请的又一方面，还提供了一种目标检测设备，包括：处理器；以及存储器，其中存储计算机可读程序指令，其中，在所述计算机可读程序指令被所述处理器运行时执行如前所述的目标检测方法的指令。

根据本申请的又一方面，还提供了一种计算机可读存储介质，用于存储计算机可读指令，当所述计算机可读指令由计算机执行时，所述计算机实现如前所述的目标检测方法。

利用本申请提供的用于二维全景图像的目标检测方法、装置、设备、介质，可以根据针对不同的全景视角下的全景图像的候选目标检测结果确定二维全景图像的全景目标检测结果。利用上述方法，能够扩充目标检测过程中使用的待检测图像的数量，其中不同的待检测二维全景图像包括针对同一三维空间不同视角的图像信息，从而提高针对二维全景图像的目标检测效果。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员而言，在没有做出创造性劳动的前提下，还可以根据这些附图获得其他的附图。以下附图并未刻意按实际尺寸等比例缩放绘制，重点在于示出本申请的主旨。

图1示出了根据本申请的图像处理系统的示例性的场景图；

图2示出了根据本申请的实施例的用于二维全景图像的目标检测方法的示意性的流程图；

图3A示出了垂直校正前的二维全景图像；

图3B示出了经过垂直校正的二维全景图像；

图4示出了根据本申请的实施例的一种确定待检测图像的方法的示意性的流程图；

图5是根据本申请的实施例的二维全景图像的坐标系以及二维全景图像中像素点的坐标的一个示例；

图6A-图6D示出了根据图4中示出的方法生成的视角分别为0°、 90°、180°、270°的待检测二维全景图像的示例；

图7示出了根据本申请的另一种确定待检测图像的方法的示意性的流程图；

图8A-图8F示出了根据图7中的方法生成的透视图片的示例；

图9示出了根据本申请的实施例的有一种确定待检测图像的方法的示意性的流程图；

图10示出了根据本申请的实施例的多个放缩后的二维全景图像的示例；

图11示出了根据本申请的实施例的目标检测方法的示意性的流程图；

图12示出了根据本申请的实施例的用于二维全景图像的目标检测装置的示意性的框图；以及

图13示出了根据本申请的实施例的计算设备的架构。

具体实施方式

下面将结合附图对本申请实施例中的技术方案进行清楚、完整地描述，显而易见地，所描述的实施例仅仅是本申请的部分实施例，而不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，也属于本申请保护的范围。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用，然而，任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的，并且所述系统和方法的不同方面可以使用不同模块。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，根据需要，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

可以利用基于深度学习的一阶段或二阶段目标检测模型(例如YOLO、FastRCNN)等对二维全景图像执行目标检测来确定全景目标检测结果。其中全景目标检测结果指示二维全景图像中存在的属于预设类别的全景目标以及该全景目标在二维全景图像中的位置。然而，由于全景图像中的物体展示遵循的是极坐标系，会产生程度大小不同的弯曲，因此为目标检测增加了难度。由于基于深度学习的模型的输出结果在一定程度上与训练使用的数据集的数量和准确程度相关联，由于全景图像的显示效果与通常用于目标检测的图像中的物体(即基于直角坐标系展示的物体)是不同的，因此，利用现有的目标检测模型对二维全景图像直接进行目标检测得到的全景目标检测结果的精度不高。

为了提高全景图像中的全景目标检测结果的精度，本申请提供了一种用于对全景图像进行目标检测的方法。

图1示出了根据本申请的图像处理系统的示例性的场景图。如图1所示，该图像处理系统100可以包括用户终端110、网络120、服务器130以及数据库140。

用户终端110可以是例如图1中示出的电脑110-1、手机110-2。可以理解的是，事实上，用户终端可以是能够执行数据处理的任何其他类型的电子设备，其可以包括但不限于台式电脑、笔记本电脑、平板电脑、智能手机、智能家居设备、可穿戴设备等。

根据本申请提供的用户终端可以用于接收待处理的图像，并利用本申请提供的方法实现图像处理。在一些实施例中，用户终端可以通过用户终端上设置的图像采集设备(例如照相机、摄像机等)采集待处理的图像。例如，用户终端也可以实现为包括图像采集单元和处理单元的全景图像采集设备。在另一些实施例中，用户终端也可以从独立设置的图像采集设备(例如照相机、摄像机、全景照相机等)接收待处理的图像。再例如，用户终端也可以经由网络从服务器接收待处理的图像。这里所述的待处理的图像可以是单独的图像，也可以是视频中的一帧。

在一些实施例中，待处理的图像可以是二维全景图像。二维全景图像可以是利用全景照相机直接采集得到的图像，也可以是基于三维的全方位图像展开得到的二维图像，还可以是基于空间中的多张透视图像生成的二维全景图像。

在一些实现方式中，二维全景图像对应于三维空间，也即，二维全景图像为三维空间的全景图像。例如，此处的二维全景图像是单个三维空间(例如，单个客厅或者单个卧室)的二维全景图像。例如，二维全景图像的长度和宽度的比值可以为2:1。

三维空间可以为居住空间、办公空间(例如，办公室)、销售空间(例如，卖场)、展览空间(例如，展厅)或其它适用的空间。例如，居住空间可以为卧室、客厅、厨房、酒店或民宿房间等。例如，三维空间通过三维空间的墙面和地面形成为至少部分封闭。

在一些实施例中，可以利用用户终端的处理单元执行本申请提供的图像处理方法。在一些实现方式中，用户终端可以利用用户终端内置的应用程序执行本申请的图像处理方法。在另一些实现方式中，用户终端可以通过调用用户终端外部存储的应用程序执行本申请提供的图像处理方法。

在另一些实施例中，用户终端将接收的待处理的图像经由网络120发送至服务器130，并由服务器130执行图像处理方法。在一些实现方式中，服务器130可以利用服务器内置的应用程序执行本申请的图像处理方法。在另一些实现方式中，服务器130可以通过调用服务器外部存储的应用程序执行本申请的图像处理方法。在利用服务器130执行本申请的图像处理方法并得到相应地图像处理结果后，服务器130可以将图像处理结果发送给集成在用户终端130上的输出设备和/或独立于用户终端130的任何输出设备。输出设备可以以图像、文字、视频、音频等任何方式输出图像处理结果。

网络120可以是单个网络，或至少两个不同网络的组合。例如，网络 120可以包括但不限于局域网、广域网、公用网络、专用网络等中的一种或几种的组合。

服务器130可以是一个单独的服务器，或一个服务器群组，群组内的各个服务器通过有线的或无线的网络进行连接。一个服务器群组可以是集中式的，例如数据中心，也可以是分布式的。服务器130可以是本地的或远程的。

数据库140可以泛指具有存储功能的设备。数据库130主要用于存储从用户终端110和服务器130工作中所利用、产生和输出的各种数据。数据库 140可以是本地的，或远程的。数据库140可以包括各种存储器、例如随机存取存储器(Random Access Memory(RAM))、只读存储器(Read Only Memory(ROM))等。以上提及的存储设备只是列举了一些例子，该系统可以使用的存储设备并不局限于此。

数据库140可以经由网络120与服务器130或其一部分相互连接或通信，或直接与服务器130相互连接或通信，或是上述两种方式的结合。

在一些实施例中，数据库150可以是独立的设备。在另一些实施例中，数据库150也可以集成在用户终端110和服务器140中的至少一个中。例如，数据库150可以设置在用户终端110上，也可以设置在服务器140上。又例如，数据库150也可以是分布式的，其一部分设置在用户终端110上，另一部分设置在服务器140上。

下文中将详细阐述本申请提供的用于二维全景图像的目标检测的图像处理方法的流程。下文中也将这样的图像处理方法称作是目标检测方法。

图2示出了根据本申请的实施例的用于二维全景图像的目标检测方法的示意性的流程图。可以利用图1中示出的用户终端或服务器执行图2中示出的目标检测方法。

在步骤S202中，可以基于待处理的二维全景图像确定至少一个待检测图像。

在一些实施例中，可以通过对待处理的二维全景图像进行视角转换以确定至少一个视角转换后的二维全景图像。可以将原始的待处理的二维全景图像和至少一个视角转换后的二维全景图像确定为待检测图像。

在另一些实施例中，可以将对应于待处理的二维全景图像的透视图像确定为待检测图像。由于全景图像中的物体是基于极坐标系进行展示的，因此全景图像中的物体和实际物体相比存在形变。然而，透视图像中的物体是基于直角坐标系进行展示的，因此和实际物体相比形变较少。

在又一些实施例中，可以将待处理的二维全景图像在三维空间中的至少一个方向上进行放缩，并将放缩后的二维全景图像确定为待检测图像。在一些实现方式中，三维空间中的至少一个方向可以是平行于三维空间的地面的水平方向和垂直于地面的竖直方向中的至少一个。可以通过在多个方向上对二维全景图像进行放缩，并可以将对应于每个方向的多个放缩后的二维全景图像确定为待检测图像。

可以理解的是，可以基于上述方法中的至少一种对待处理的二维全景图像进行处理，以获得包括待处理的二维全景图像的图像信息的待检测图像。基于上述用于确定待检测图像的方法，可以确定每个待检测图像和待处理的二维全景图像之间的映射关系。基于这样的映射关系，在利用下文中将描述的目标检测方法确定待检测图像中的候选目标后，可以基于候选目标在待检测图像中的位置确定相应的全景目标在待处理的二维全景图像中的位置。例如，在待检测图像是透视图像的情况下，可以基于透视图像和全方位图像之间的映射关系确定透视图像中的候选目标在全方位图像中的位置。进一步地，可以基于待处理的二维全景图像和全方位图像之间的映射关系确定待处理的二维全景图像中存在的全景目标的位置。

在步骤S204中，可以对至少一个待检测图像执行目标检测，以确定至少一个候选目标检测结果。可以通过对至少一个待检测图像分别执行目标检测获得对应于每个待检测图像的候选目标检测结果。

候选目标检测结果可以指示在对应的待检测图像中存在的候选目标的位置和候选目标所属的类别。

候选目标可以是三维空间中的墙面上存在的对象。例如，候选目标可以是位于墙面上的门、窗、家具、灯、装饰品等任何类别的对象。候选目标也可以是位于三维空间中的任何对象，例如人、动物、放置在水平地面上的家具如桌子、椅子等等。

下文中将以候选目标所属的类别的数量是二为例描述本申请的原理。可以理解的是，根据实际应用情况，本领域技术人员可以根据实际需要对候选目标所属的类别进行设置，以包含更多或更少数量的类别。

此外，下文中将以候选目标所属的类别是“门”和“窗”为例描述本申请的原理。类似地，本领域技术人员也可以根据实际需要将候选目标所属的类别设置为其他对象。

在一些实施例中，可以利用基于深度学习的模型对至少一个待检测图像进行目标检测。例如，可以利用一阶段的或二阶段的深度神经网络模型对至少一个待检测图像进行目标检测。深度神经网络模型可以包括YOLO、 RCNN、Fast-RCNN、Faster-RCNN、SSD中的至少一种。

可以理解的是，在不脱离本申请原理的情况下，本领域技术人员也可以利用上述深度神经网络模型的任何变型或与上述深度神经网络模型具有相同作用的其他深度神经网络模型对至少一个待检测图像进行目标检测。

利用上述基于深度学习的模型对至少一个待检测图像进行目标检测，可以确定每个待检测图像中是否存在预定类别的候选目标以及存在的候选目标在待检测图像中的位置。

例如，在基于深度学习的模型用于检测的预定类别的候选目标包括门和窗的情况下，候选目标检测结果可以包括待检测图像中存在的候选目标分别属于类别“门”和类别“窗”的概率，以及用于指示待检测图像中存在的候选目标的目标框的位置。其中目标框的位置可以包括目标框的尺寸以及目标框上的特征点(例如目标框的中心点)在待检测图像中的坐标。目标框可以是圆形、矩形、平行四边形等任何规则或不规则的几何图形。

在另一些实施例中，可以对每个待检测图像的一维特征表示进行目标检测，以确定对应于每个待检测图像的候选目标检测结果。一维特征表示可以被表示为一维向量的形式。在待检测图像的尺寸是H×W的情况下，移位特征表示的尺寸可以是1×W。其中H是待检测图像在高度方向上的像素个数，W是待检测图像在宽度方向上的像素个数。一维特征表示中的每个元素可以表示对应的待检测图像中的一列像素的特征信息。

在这种情况下，候选目标检测结果可以包括一维特征表示中每个元素是属于预定类别的候选目标的概率，即属于类别“门”或类别“窗”的概率。此外，被确定为属于预定类别的候选目标的元素在移位特征表示中的位置可以用于表示待检测图像中存在的预定类别的候选目标的位置。

如前所述，一维特征表示中的一个元素可以对应于待检测图像中的一列像素。因此，当一维特征表示中的一个元素被确定为属于预定类别的候选目标时，可以将该元素对应的待检测图像中的一列像素确定为属于预定类别的候选目标的像素。以待检测图像的尺寸为512*1024为例，该待检测图像的一维特征表示的尺寸可以为1*1024，即1024维的向量。当该待检测图像的一维特征表示的第100-500个元素被确定为属于预定类别的候选目标时，可以将该待检测图像中第100-500列像素确定为预定类别的目标。

在步骤S206中，可以基于步骤S204确定的候选目标检测结果确定待处理的二维全景图像的全景目标检测结果。

在一些实施例中，可以合并每个待检测图像的候选目标检测结果，以得到全景目标检测结果。在一些实现方式中，全景目标检测结果可以包括每个候选目标检测结果中包括的候选目标。可以基于待检测图像和待处理的二维全景图像之间的关系确定每个候选目标检测结果中指示的候选目标在待处理的二维全景图像中的位置。在另一些实现方式中，可以对每个待检测图像的候选目标检测结果进行筛选，并可以基于筛选后的候选目标检测结果确定待处理的二维全景图像中的全景目标检测结果。可以理解的是，在待检测图像的数量大于等于二的情况下，不同的待检测图像的候选目标检测结果中可以包括针对同一目标的检测结果。在这种情况下，可以仅将在至少两个待检测图像的候选目标检测结果中出现的候选目标确定为全景目标。也就是说，如果仅在一个待检测图像中检测到某一候选目标，该候选目标可以被确定为是误检测，并因此不被当做是待处理的二维全景图像中存在的全景目标。

在一些实施例中，当在两个不同的待检测图像中检测到在二维全景图像的同一位置存在类别不同的两种候选目标时，可以基于目标检测方法输出的该位置存在不同候选目标的概率高低，将概率更高的候选目标确定为二维全景图像的该位置处存在的全景目标。

在一些实施例中，在步骤S202之前，方法200还可以包括垂直校正步骤(图中未示出)。如前所述，二维全景图像可以对应于单个三维空间。当利用全景相机采集二维全景图像时，如果全景相机的拍摄位置不是垂直于水平面，那么得到的二维全景图像中的物体将存在歪斜。垂直校正步骤可以用于消除二维全景图像中物体的歪斜，使得在二维全景图像中进行展示时，在真实世界中本应该平行于水平面的地面平行于二维全景图像的水平方向，本应该垂直于地面的线条垂直于二维全景图像的水平方向。

垂直校正步骤可以包括将基于极坐标系展示的二维全景图像转换为基于直角坐标系展示的全方位图像。然后，可以提取基于直角坐标系的全方位图像中与二维全景图像的地面垂直的至少两条线条。基于至少两条线条的平均方向和标准的竖直方向之间的角度差可以确定当前的全方位图像的拍摄的竖直方向和实际的竖直方向之间的角度差。通过这样的角度差调整基于极坐标的二维全景图像的俯仰角使得至少两条线条的平均方向和标准的竖直方向之间的角度差为零，即可得到垂直校正后的二维全景图像。

图3A示出了垂直校正前的二维全景图像。图3B示出了经过垂直校正的二维全景图像。可以看出，图3A中的二维全景图像中表示竖直墙面的线条与地面之间存在不垂直的情况。经过垂直校正步骤的处理后得到的图3B 中的二维全景图像中的每条表示竖直墙面的线条都与地面是垂直的。

然后，可以通过对垂直校正后的二维全景图像执行图2中示出的步骤 S202、S204以及S206以得到二维全景图像中的全景目标检测结果。

利用本申请提供的用于二维全景图像的目标检测方法，可以基于原始的二维全景图像确定包括二维全景图像的图像信息的待检测图像。待检测图像可以以改变的方式展示原始的二维全景图像中的图像信息。通过待检测图像对利用不同方式展示的图像信息进行目标检测，可以提高针对二维全景图像的目标检测的检测精度。此外，本申请提供了一种基于图像的一维特征表示进行目标检测的方法。通过将图像的一维特征表示看作由图像中的各列像素点形成的序列，可以将图像中的目标检测任务转换为对由各列像素点形成的序列进行的序列标注问题，可以简化针对二维全景图像的目标检测过程。

图4示出了根据本申请的实施例的一种确定待检测图像的方法的示意性的流程图。

如图4所示，在步骤S402中，可以基于三维空间的坐标系，将二维全景图像转换为三维空间中的全方位图像。

图5是根据本申请的实施例的二维全景图像的坐标系以及二维全景图像中像素点的坐标的一个示例。

二维全景图像500的宽度和长度可以分别为W和H。在一些实施例中，二维全景图像500的宽度和长度的单位可以是二维全景图像在宽度方向和长度方向像素的数目。例如，W和H可以分别为1000像素和500像素。

如图5所示，二维全景图像的坐标系可以由两个互相垂直并相交的坐标轴U和V组成，坐标轴U和V的交点为二维全景图像的坐标系的坐标原点o1，坐标原点o1设置在二维全景图像500的中心；此种情况下，二维全景图像500的像素点T的坐标可以由(u，v)表示，此处，u和v分别为上述标注的像素点T对应于坐标轴U和V的坐标值。

在二维全景图像500中的像素点T与坐标轴V的垂直距离为t1像素、且与坐标轴U的垂直距离为t2像素的情况下，u＝t1/W，v＝t2/H，也即，像素点T的坐标可以由(t1/W，t2/H)表示，由此可以基于二维全景图像中的至少两条线条的端点的位置信息获取至少两条线条的端点在二维全景图像的坐标系中的坐标的方法做示例性说明。

例如，在像素点T与坐标轴V的垂直距离为500像素、且与坐标轴U 的垂直距离为250像素的情况下，可以得到像素点T的坐标为(0.5，0.5)。又例如，在像素点T与坐标轴V的垂直距离为1000像素、且与坐标轴U的垂直距离为500像素的情况下，可以得到像素点T的坐标为(1，1)。

需要说明的是，二维直角坐标系的原点o1不限于设置在二维全景图像 500的中心，根据实际应用需求，二维直角坐标系的原点o1还可以设置在二维全景图像500的左下角，右下角或者左上角；对应地，标注的像素点T 在二维全景图像的坐标系中的坐标以及获取的像素点的位置信息将适应性变化。

可以利用等距柱状投影的逆过程将二维全景图像500中的像素点投影到三维投影空间，以获取二维全景图像500中的像素点在三维投影空间中的投影点。

等距柱状投影可以用于球面上的各个点投影到圆柱面(例如，圆柱面与球面相切于球面的赤道)上，然后沿圆柱面的一条母线将圆柱面展开为平面。通过等距柱状投影可以将球面的经线映射为平面上恒定间距的垂直线 (也即，沿平面的宽度方向延伸的线条)，将球面的纬线映射为平面上恒定间距的水平线(也即，沿平面的长度方向延伸的线条)。

例如，在等距柱状投影中，球面上的经线λ和纬线α与平面上点的坐标(u，v)满足以下的表达式(1)。

此处，α0为标准纬线，λ0为中心子午线，u是平面上的像素点在平面的长度方向上的坐标值，v是平面上的像素点在平面的宽度方向上的坐标值。

可以利用二维全景图像500中的像素点在二维全景图像的坐标系中的坐标(u，v)并基于上述的表达式(1)获取像素点在三维投影空间中的投影点在球面上的经线和纬线；然后，可以基于投影点在球面上的经线和纬线获取投影点在三维投影空间中的球坐标，并基于三维球坐标与三维直角坐标之间的转换关系获投影点在三维投影空间中的三维直角坐标。

在三维的直角坐标系下，可以用表达式(2)表示三维直角坐标系和二维全景图像的uv坐标之间的变换：

其中v’＝π*(v-0.5)，u’＝2π*(u-0.5)，u、v是二维全景图像中的像素点的坐标，r指的是全方位图像的半径。可以根据实际情况设置r的值。

返回参考图4，利用结合图5描述的过程，可以将二维全景图像转换为三维空间中的全方位图像。

可以理解的是，尽管在本申请中仅以图5中示出的投影方式为例描述了将将二维全景图像转换为三维空间中的全方位图像一种可能的过程，然而，步骤S402的实现方式不限于此。例如，也可以基于用于获取二维全景图像的相机的光学参数将二维全景图像转换为三维空间中的全方位图像。

在步骤S404中，可以基于预设的至少两个视角方向对步骤S402中确定的全方位图像进行展开，以得到至少两个待检测图像。步骤S404确定的待检测图像是对应于预设的至少两个视角方向的二维全景图像，因此，在本申请中，步骤S404中确定的待检测图像也被称作是待检测二维全景图像。

在一些实施例中，预设的至少两个视角方向可以包括0°、90°、180°、270°中的至少两个。其中，对应于0°的视角方向的二维全景图像和在步骤 S402中用于生成全方位图像的二维全景图像是相同的。针对其他的视角方向，通过在三维空间中根据预设的视角方向旋转全方位图像的水平旋转角，再将旋转后的全方位图像展开成二维全景图像，就可以得到对应于预设的视角方向的待检测二维全景图像。

可以理解的是，本领域技术人员可以根据实际情况设置更多或更少数量的视角方向。此外，本领域技术人员也可以根据实际需要将视角方向设置为 [0,360)的区间中的任何值。

图6A-图6D示出了根据图4中示出的方法生成的视角分别为0°、 90°、180°、270°的待检测二维全景图像的示例。可以看出，图6A、图6B、图6C、图6D分别以不同的视角展示了同一个三维空间中的信息。可以看出，在图6A中，由于二维全景图像展示的局限性，图6A的左侧边缘和右侧边缘处存在一个窗户的一部分的图像。可以理解的是，如果仅利用图6D 中的二维全景图像进行目标检测，这样被分割成两部分的不完整的目标可能无法被检测出。然而，利用本申请提供的技术方案，由于待检测图像包括对应于预设的至少两个视角方向的待检测二维全景图像，即使在其中的一张待检测二维全景图像的边缘存在不完整的目标，在对应于其他视角的待检测二维全景图像中，由于该目标已经偏离图像边缘，因此将不再以被分割的方式被展示。参考图6B-图6D可以看出，图6A中被图像边缘分割成两部分的窗户在图6B-图6D中被呈现为完整的一扇窗户。因此，如果在图6A中检测不到这扇窗户，可以利用针对图6B、图6C、图6D中的待检测二维全景图像得到的候选目标检测结果进行弥补，使得在最终的全景目标检测结果中不会遗漏该扇窗户的检测结果。

利用本申请提供的确定待检测图像的方法，可以确定对应于不同全景视角的至少两个待检测二维全景图像。利用本申请下文中提供的目标检测方法，可以确定对应于不同全景视角的至少两个待检测二维全景图像的候选目标检测结果。通过合并不同全景视角的待检测二维全景图像的候选目标检测结果可以得到完整的全景目标检测结果。

图7示出了根据本申请的另一种确定待检测图像的方法的示意性的流程图。

如图7所示，在步骤S702中，可以基于三维空间的坐标系，将二维全景图像转换为三维空间中的全方位图像。可以采用与结合图4描述的步骤 S402相同的方式执行步骤S702，在此不再加以赘述。

在步骤S704中们可以基于步骤S702确定的全方位图像确定二维全景图像的至少两个透视图像，并将该至少两个透视图像确定为待检测图像。其中该至少两个透视图像分别包括二维全景图像中的部分图像信息。

可以基于至少两个预定的透视视角对全方位图像进行透视展开，以得到分别对应于预定的透视视角的透视图像。其中透视视角可以包括视线方向和视域范围。可以利用球面重投影算法在以该全方位图像的球心为视点的不同视线和视域范围方向上对二维全景图像进行重构，以生成对应于不同视线方向的透视图。

图8A-图8F示出了根据图7中的方法生成的透视图片的示例。在图8A- 图8F示出的透视图片中，可以将全方位图像的俯仰角方向上的视角范围确定为60°，将全方位图像的旋转角方向上的视角范围确定为60°，旋转一周360°即可以得到图8A-图8F中示出的六张透视图片。可以看出，由于透视图像中的物体的像素点是沿着以全方位图像的球心为视点中心的视线投影在透视图像上的，因此，透视图像中的物体是以符合人眼观察的方式进行展示的，不存在二维全景图像中存在的物体变形。

可以理解的是，本领域技术人员可以根据实际需要设置透视图像的透视视角的参数。例如，本领域技术人员可以在0至180度的范围内设置透视图像在全方位图像的俯仰角方向上的视角范围，可以在0-360度的范围内设置全方位图像的旋转角方向上的视角范围。

在一些实施例中，对应于不同的透视视角的透视图像之间可以是部分重叠的，也可以是彼此独立的。也就是说，不同的透视图像中可以具有部分相同的图像信息。

利用本申请提供的确定待检测图像的方法，可以确定对应于不同透视视角的至少两个待检测的透视图像。利用本申请下文中提供的目标检测方法，可以确定对应于不同透视视角的至少两个待检测图像的候选目标检测结果。通过合并不同视角的待检测图像的候选目标检测结果可以得到完整的全景目标检测结果。

图9示出了根据本申请的实施例的有一种确定待检测图像的方法的示意性的流程图。

在步骤902中，可以基于三维空间的坐标系，将二维全景图像转换为三维空间中的全方位图像。可以采用与结合图4描述的步骤S402相同的方式执行步骤S902，在此不再加以赘述。

在步骤S904中，可以在三维空间中的至少一个方向上对全方位图像进行缩放，以确定缩放后的全方位图像。

在一些实施例中，三维空间中的至少一个方向可以包括平行于地面的水平方向和垂直于地面的竖直方向。

如前所述，当将二维全景图像转换为三维直角坐标系中的全方位图像时，可以利用表达式(2)确定二维全景图像中的像素点和全方位图像中的像素点之间的映射关系。

然后，在步骤S904中，可以对x方向和z方向的映射关系进行拉伸。可以用表达式(3)表示对三维空间中的全方位图像进行缩放后的变换：

其中v’＝π*(v-0.5)，u’＝2π*(u-0.5)，u、v是二维全景图像中的像素点的坐标，r指的是全方位图像的半径。可以根据实际情况设置r的值。k_x、 k_y、k_z是分别用于x、y、z方向的缩放系数。通过设置k_x、k_y、k_z可以确定全方位图像在三维空间中的缩放效果。

在步骤S906中，可以对缩放后的全方位图像进行展开，以得到至少一个待检测图像。可以利用例如等距柱状投影的方式对放缩后的全方位图像进行展开，以得到待检测图像。步骤S906生成的待检测图像可以是放缩后的二维全景图像。

可以理解的是。通过步骤S904中的缩放处理，全方位图像在x、y、z 的至少一个方向上发生了变形。当对变形后的全方位图像展开为与原始的二维全景图像的尺寸相同的待检测图像时，放缩后的二维全景图像中的物体也将在一个方向上发生变形。

图10示出了根据本申请的实施例的多个放缩后的二维全景图像的示例。其中以k_y＝1为例，当k_x＝1、k_z＝1时，事实上全方位图像没有放生缩放，因此得到的待检测图像与原始二维全景图像是相同的。当k_x＝2、k_z＝1 时，可以看出，放缩后的二维全景图像中展示的物体相对于原始的二维全景图像发生了变形。类似地，当k_x、k_z取其他数值，例如k_x＝1、k_z＝2或 k_x＝2、k_z＝2时，放缩后的二维全景图像中的物体将以不同的方式产生变形。

返回参考图9，利用步骤S906生成的待检测图像中可以放大或缩小图像中的部分信息。并且通过设置不同的缩放参数，可以得到以不同的方式进行缩放的至少两个待检测图像。

在一些实施例中，还可以结合图4、图7中描述的原理确定待检测图像。例如，步骤S906可以包括基于预设的至少两个全景视角对缩放后的全方位图像进行展开，以确定分别对应于至少两个全景视角的缩放后的全方位图像作为待检测图像。又例如，步骤S906还可以包括基于缩放后的全方位图像确定缩放后的二维全景图像的至少两个透视图作为待检测图像。

利用本申请下文中提供的目标检测方法，可以确定对应于不同缩放效果的至少两个待检测图像的候选目标检测结果。通过合并不同缩放效果的待检测图像的候选目标检测结果可以得到完整的全景目标检测结果。

图11示出了根据本申请的实施例的目标检测方法的示意性的流程图。图11中以对待检测图像执行目标检测为例描述了本申请提供的目标检测方法。然而，可以理解的是，图11中示出的目标检测方法可以应用于任何要执行目标检测的图像。例如，可以利用图11示出的方法对待处理的二维全景图像进行处理并直接得到用于待处理的二维全景图像的全景目标检测结果。此外，可以理解的是，图11中涉及的待检测图像可以是利用图4、图7 和图9中描述的方法确定的待检测图像。

如图11所示，在步骤S1102中，可以确定用于待检测图像的一维特征表示。在一些实施例中，可以利用卷积神经网络对待检测图像进行处理，以确定用于表示待检测图像的图像特征的一维特征表示。例如，可以利用包括至少一个卷积层和至少一个池化层的卷积神经网络对待检测图像进行处理，以得到待检测图像的图像特征，并将待检测图像的图像特征确定为一维特征表示。其中一维特征表示可以被表示为一维向量，并且一维向量中包括多个用于表示向量信息的向量元素。

在一种实现方式中，可以利用Densenet169网络对待检测图像进行处理，以将待检测图像降维成一维特征表示。可以理解的是，也可以利用任何其他卷积神经网络模型对待检测图像进行处理以得到待检测图像的一维特征表示。例如，当待检测图像是尺寸为512*1024的待检测二维全景图像时，卷积神经网络可以输出一个尺寸为1*1024的一维特征表示。一维特征表示中的每个元素都代表了待检测二维全景图像中一列像素的图像信息的整体特征。

在一些实施例中，在步骤1102中，可以在所述三维空间中的至少一个方向上对所述待检测图像进行缩放，以确定缩放后的待检测图像。然后，再利用包括至少一个卷积层和至少一个池化层的卷积神经网络对所述缩放后的待检测图像进行处理，以得到所述缩放后的待检测图像的图像特征，并将所述缩放后的待检测图像的图像特征确定为所述一维特征表示。

在步骤S1104中，可以对一维特征表示进行目标检测，以得到一维特征表示的一维目标检测结果。其中一维目标检测结果指示一维特征表示中的元素属于预定的类别的目标的概率。

在一些实施例中，可以利用LSTM系列模型对一维特征表示进行目标检测。例如，可以利用Bi-LSTM对一维特征表示进行目标检测。

在一些实现方式中，可以利用LSTM对一维特征表示进行处理，以得到一维特征表示的检测特征，然后，可以利用全连接层对检测特征进行处理，以得到一维特征表示的一维目标检测结果。

利用上述方法，对待检测图像执行的目标检测不同于传统的一阶段或两阶段的目标检测方法，而是被转换成一个序列标注任务。利用LSTM模型可以标注出一维特征表示中的每个元素是否属于预定类别的候选目标。以预定类别包括类别“门”和类别“窗”为例，LSTM模型可以输出一维特征表示中每个元素分别属于类别“门”和类别“窗”的概率。可以通过比较每个元素分别属于类别“门”和类别“窗”的概率和预设的概率阈值判断该元素是否属于预定的类别。也就是说，当一维特征表示中的元素属于类别“门”的概率大于概率阈值时，可以将该元素确定为属于类别“门”。当一维特征表示中的元素属于类别“窗”的概率大于概率阈值时，可以将该元素确定为属于类别“窗”。在一种实现方式中，预设的概率阈值可以被设置为0.5。

在另一些实施例中，其中所述一维目标检测结果指示一维特征表示中每个元素属于预定的多个类别的目标的分数。以预定的多个类别的目标包括“门”、“窗”、“背景”为例，一维目标检测结果可以包括每个元素分别属于这三个预定类别的目标的分数。例如，针对一维特征表示中的一个元素，可以输出结果[0.8 0.3 1.1]，其中0.8表示该元素属于“门”的分数，0.3表示该元素属于“窗”的分数，以及1.1表示该元素属于“背景”的分数。可以确定用于该元素的最高分数，并将该元素确定为属于具有最高分数的预定类别的目标。在上面的示例中，该元素属于“背景”的分数最高，因此可以确定该元素属于“背景”。由于一维特征表示中的每个元素表示待检测图像中一列像素的图像特征，因此该元素属于“背景”意味着该元素对应的待检测图像中的该列像素属于“背景”。

在步骤S1106中，可以基于一维目标检测结果确定待检测图像中存在的目标以及该目标在待检测图像中的位置。

如前所述，待检测图像的一维特征表示中的每个元素对应于待检测图像中一列像素点的整体特征。因此，当一维特征表示中的元素在步骤S1104中被确定为属于类别“门”或类别“窗”时，可以确定该元素对应的待检测图像中的一列像素点属于类别“门”或类别“窗”。并且，该像素在一维特征表示中的位置指示了待检测图像中对应的一列像素点在待检测图像中的位置。当该待检测图像的一维特征表示的第100-500个元素被确定为属于预定类别的候选目标时，可以将该待检测图像中第100-500列像素确定为预定类别的目标。

可以理解的是，利用图11中提供的目标检测方法，可以确定三维空间中在水平方向上是否存在预定类别的目标，而无需考虑该目标在三维空间中竖直方向上的位置。

利用本申请提供的上述目标检测方法，可以将二维的待检测图像降维至一维特征表示，并通过对一维特征表示进行序列标注以得到一维特征表示的一维目标检测结果。与传统的一阶段或两阶段的目标检测方法相比，本申请提供的目标检测方法要处理的对象具有更小的数据量，因此具有更快的计算速度并消耗更少的计算资源。

图12示出了根据本申请的实施例的用于二维全景图像的目标检测装置的示意性的框图。可以利用图1中示出的用户终端或服务器实现图12中示出的目标检测装置。

如图12所示，目标检测装置1200可以包括待检测图像确定单元 1210、目标检测单元1220以及结果确定单元1230。

待检测图像确定单元1210可以配置成基于待处理的二维全景图像确定至少一个待检测图像。

在一些实施例中，可以通过对待处理的二维全景图像进行视角转换以确定至少一个视角转换后的二维全景图像。可以将原始的待处理的二维全景图像和至少一个视角转换后的二维全景图像确定为待检测图像。例如，待检测图像确定单元1210可以配置成执行上文中结合图4描述的确定待检测图像的方法。

在另一些实施例中，可以将对应于待处理的二维全景图像的透视图像确定为待检测图像。由于全景图像中的物体是基于极坐标系进行展示的，因此全景图像中的物体和实际物体相比存在形变。然而，透视图像中的物体是基于直角坐标系进行展示的，因此和实际物体相比形变较少。例如，待检测图像确定单元1210可以配置成执行上文中结合图7描述的确定待检测图像的方法。

在又一些实施例中，可以将待处理的二维全景图像在三维空间中的至少一个方向上进行放缩，并将放缩后的二维全景图像确定为待检测图像。在一些实现方式中，三维空间中的至少一个方向可以是平行于三维空间的地面的水平方向和垂直于地面的竖直方向中的至少一个。可以通过在多个方向上对二维全景图像进行放缩，并可以将对应于每个方向的多个放缩后的二维全景图像确定为待检测图像。例如，待检测图像确定单元1210可以配置成执行上文中结合图11描述的确定待检测图像的方法。

可以理解的是，可以基于上述方法中的至少一种对待处理的二维全景图像进行处理，以获得包括待处理的二维全景图像的图像信息的待检测图像。基于上述用于确定待检测图像的方法，可以确定每个待检测图像和待处理的二维全景图像之间的映射关系。基于这样的映射关系，在利用下文中将描述的目标检测方法确定待检测图像中的候选目标后，可以基于候选目标在待检测图像中的位置确定相应的全景目标在待处理的二维全景图像中的位置。

目标检测单元1220可以配置成对至少一个待检测图像执行目标检测，以确定至少一个候选目标检测结果。可以通过对至少一个待检测图像分别执行目标检测获得对应于每个待检测图像的候选目标检测结果。

在另一些实施例中，目标检测单元1220可以配置成之前上文中参考图 11描述的目标检测方法。

也就是说，目标检测单元1220可以配置成对每个待检测图像的一维特征表示进行目标检测，以确定对应于每个待检测图像的候选目标检测结果。一维特征表示可以被表示为一维向量的形式。在待检测图像的尺寸是H×W 的情况下，移位特征表示的尺寸可以是1×W。其中H是待检测图像在高度方向上的像素个数，W是待检测图像在宽度方向上的像素个数。一维特征表示中的每个元素可以表示对应的待检测图像中的一列像素的特征信息。

目标检测单元1220可以包括特征表示确定单元和一维目标检测。特征表示确定单元可以配置成确定用于待检测图像的一维特征表示。在一些实施例中，可以利用卷积神经网络对待检测图像进行处理，以确定用于表示待检测图像的图像特征的一维特征表示。例如，可以利用包括至少一个卷积层和至少一个池化层的卷积神经网络对待检测图像进行处理，以得到待检测图像的图像特征，并将待检测图像的图像特征确定为一维特征表示。其中一维特征表示可以被表示为一维向量，并且一维向量中包括多个用于表示向量信息的向量元素。

在一种实现方式中，特征表示确定单元可以利用Densenet169网络对待检测图像进行处理，以将待检测图像降维成一维特征表示。可以理解的是，也可以利用任何其他卷积神经网络模型对待检测图像进行处理以得到待检测图像的一维特征表示。例如，当待检测图像是尺寸为512*1024的待检测二维全景图像时，卷积神经网络可以输出一个尺寸为1*1024的一维特征表示。一维特征表示中的每个元素都代表了待检测二维全景图像中一列像素的图像信息的整体特征。

在一些实施例中，特征表示确定单元可以配置成在三维空间中的至少一个方向上对待检测图像进行缩放，以确定缩放后的待检测图像。然后，特征表示确定单元可以配置成利用包括至少一个卷积层和至少一个池化层的卷积神经网络对所述缩放后的待检测图像进行处理，以得到所述缩放后的待检测图像的图像特征，并将所述缩放后的待检测图像的图像特征确定为所述一维特征表示。

一维目标检测单元可以配置成对一维特征表示进行目标检测，以得到一维特征表示的一维目标检测结果。其中一维目标检测结果指示一维特征表示中的元素属于预定的类别的目标的概率。

在一些实施例中，一维目标检测单元可以利用LSTM系列模型对一维特征表示进行目标检测。例如，可以利用Bi-LSTM对一维特征表示进行目标检测。

在一些实现方式中，一维目标检测单元可以利用LSTM对一维特征表示进行处理，以得到一维特征表示的检测特征，然后，可以利用全连接层对检测特征进行处理，以得到一维特征表示的一维目标检测结果。

结果确定单元1230可以配置成基于目标检测单元1220确定的候选目标检测结果确定待处理的二维全景图像的全景目标检测结果。

在一些实施例中，结果确定单元1230可以配置成基于一维目标检测结果确定待检测图像中存在的目标以及该目标在待检测图像中的位置。如前所述，待检测图像的一维特征表示中的每个元素对应于待检测图像中一列像素点的整体特征。因此，当一维特征表示中的元素在步骤S1104中被确定为属于类别“门”或类别“窗”时，可以确定该元素对应的待检测图像中的一列像素点属于类别“门”或类别“窗”。并且，该像素在一维特征表示中的位置指示了待检测图像中对应的一列像素点在待检测图像中的位置。当该待检测图像的一维特征表示的第100-500个元素被确定为属于预定类别的候选目标时，可以将该待检测图像中第100-500列像素确定为预定类别的目标。

在一些实施例中，装置1200还可以包括垂直校正单元(图中未示出)。如前所述，二维全景图像可以对应于单个三维空间。当利用全景相机采集二维全景图像时，如果全景相机的拍摄位置不是垂直于水平面，那么得到的二维全景图像中的物体将存在歪斜。垂直校正步骤可以用于消除二维全景图像中物体的歪斜，使得在二维全景图像中进行展示时，在真实世界中本应该平行于水平面的地面平行于二维全景图像的水平方向，本应该垂直于地面的线条垂直于二维全景图像的水平方向。

垂直校正单元可以配置成将基于极坐标系展示的二维全景图像转换为基于直角坐标系展示的全方位图像。然后，可以提取基于直角坐标系的全方位图像中与二维全景图像的地面垂直的至少两条线条。基于至少两条线条的平均方向和标准的竖直方向之间的角度差可以确定当前的全方位图像的拍摄的竖直方向和实际的竖直方向之间的角度差。通过这样的角度差调整基于极坐标的二维全景图像的俯仰角使得至少两条线条的平均方向和标准的竖直方向之间的角度差为零，即可得到垂直校正后的二维全景图像。

此外，根据本申请实施例的方法或装置也可以借助于图13所示的计算设备的架构来实现。图13示出了该计算设备的架构。如图13所示，计算设备1300可以包括总线1310、一个或至少两个CPU 1320、只读存储器 (ROM)1330、随机存取存储器(RAM)1340、连接到网络的通信端口1350、输入/输出组件1360、硬盘1370等。计算设备1300中的存储设备，例如ROM1330或硬盘1370可以存储本申请提供的目标检测方法的处理和/ 或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备800 还可以包括用户界面1380。当然，图13所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图13示出的计算设备中的一个或至少两个组件。

根据本申请的另一方面，还提供了一种非易失性的计算机可读存储介质，其上存储有计算机可读的指令，当利用计算机执行所述指令时可以执行如前所述的方法。

技术中的程序部分可以被认为是以可执行的代码和/或相关数据的形式而存在的“产品”或“制品”，通过计算机可读的介质所参与或实现的。有形的、永久的储存介质可以包括任何计算机、处理器、或类似设备或相关的模块所用到的内存或存储器。例如，各种半导体存储器、磁带驱动器、磁盘驱动器或者类似任何能够为软件提供存储功能的设备。

所有软件或其中的一部分有时可能会通过网络进行通信，如互联网或其他通信网络。此类通信可以将软件从一个计算机设备或处理器加载到另一个。例如：从视频目标检测设备的一个服务器或主机计算机加载至一个计算机环境的硬件平台，或其他实现系统的计算机环境，或与提供目标检测所需要的信息相关的类似功能的系统。因此，另一种能够传递软件元素的介质也可以被用作局部设备之间的物理连接，例如光波、电波、电磁波等，通过电缆、光缆或者空气等实现传播。用来载波的物理介质如电缆、无线连接或光缆等类似设备，也可以被认为是承载软件的介质。在这里的用法除非限制了有形的“储存”介质，其他表示计算机或机器“可读介质”的术语都表示在处理器执行任何指令的过程中参与的介质。

本申请使用了特定词语来描述本申请的实施例。如“第一/第二实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

除非另有定义，这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

上面是对本发明的说明，而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例，但本领域技术人员将容易地理解，在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解，上面是对本发明的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。

Claims

1.一种用于二维全景图像的目标检测方法，包括：

基于所述二维全景图像，确定对应于预设的至少两个全景视角方向的至少两个待检测二维全景图像；

对所述至少两个待检测二维全景图像执行目标检测，以确定所述至少两个待检测二维全景图像分别对应的候选目标检测结果；以及

基于所述至少两个待检测二维全景图像分别对应的候选目标检测结果，确定所述二维全景图像的全景目标检测结果；

其中，对所述至少两个待检测二维全景图像执行目标检测，以确定所述至少两个待检测二维全景图像分别对应的候选目标检测结果包括：

利用用于目标检测的深度神经网络对所述至少两个待检测二维全景图像分别进行处理，以得到每个待检测二维全景图像对应的候选目标检测结果。

2.如权利要求1所述的目标检测方法，其中，针对所述至少两个待检测二维全景图像中的每个待检测二维全景图像，所述候选目标检测结果指示在该待检测二维全景图像中存在的属于预定类别的候选目标的概率和所述预定类别的候选目标在该待检测二维全景图像中的位置。

3.如权利要求1所述的目标检测方法，其中所述二维全景图像对应于三维空间，所述三维空间通过所述三维空间的墙面和地面形成为至少部分封闭。

4.如权利要求3所述的目标检测方法，其中所述目标是所述三维空间中墙面上存在的对象。

5.如权利要求4所述的目标检测方法，其中，基于所述二维全景图像，确定对应于预设的至少两个全景视角方向的至少两个待检测二维全景图像包括：

基于所述三维空间的坐标系，将所述二维全景图像转换为三维空间中的全方位图像；

基于预设的至少两个全景视角方向对所述全方位图像进行展开，以得到所述至少两个待检测二维全景图像。

6.如权利要求5所述的目标检测方法，基于预设的至少两个全景视角方向对所述全方位图像进行展开，以得到所述至少两个待检测二维全景图像包括：

针对预设的每个全景视角方向，

在所述三维空间中的至少一个方向上对所述全方位图像进行缩放，以确定缩放后的全方位图像；

基于预设的该全景视角方向对所述缩放后的全方位图像进行展开，以得到对应于预设的该全景视角方向的待检测二维全景图像。

7.如权利要求6所述的目标检测方法，其中所述至少一个方向包括平行于所述地面的水平方向和垂直于所述地面的竖直方向。

8.如权利要求1所述的目标检测方法，其中，在基于所述二维全景图像，确定对应于预设的至少两个全景视角方向的至少两个待检测二维全景图像之前，所述方法还包括：

对所述二维全景图像进行垂直校正，以使得校正后的二维全景图像中的地面平行于水平线。

9.如权利要求1所述的目标检测方法，其中所述深度神经网络是以下各项中的至少一种：

YOLO；

RCNN；

Fast-RCNN；

Faster-RCNN；

SSD。

10.如权利要求1任一项所述的目标检测方法，其中，对所述至少两个待检测二维全景图像执行目标检测，以确定所述至少两个待检测二维全景图像的候选目标检测结果包括：

针对每个待检测二维全景图像，

确定用于该待检测二维全景图像的一维特征表示，

对所述一维特征表示进行目标检测，以得到所述一维特征表示的一维目标检测结果，其中所述一维目标检测结果指示所述一维特征表示中每个元素对应的该待检测二维全景图像中的像素点属于预定类别的候选目标的概率，

基于所述一维特征表示的一维目标检测结果确定该待检测二维全景图像的候选目标检测结果。

11.如权利要求10所述的目标检测方法，其中，确定用于该待检测二维全景图像的一维特征表示包括：

利用包括至少一个卷积层和至少一个池化层的卷积神经网络对该待检测二维全景图像进行处理，以得到该待检测二维全景图像的图像特征；

将该待检测二维全景图像的图像特征确定为所述一维特征表示；

其中，该待检测二维全景图像的尺寸为H×W，所述待检测二维全景图像的图像特征的尺寸为1×W，其中H是该待检测二维全景图像在高度方向上的像素个数，W是该待检测二维全景图像在宽度方向上的像素个数，所述一维特征表示的每个元素对应于该待检测二维全景图像中的一列像素点。

12.如权利要求11所述的目标检测方法，其中，对所述一维特征表示进行目标检测包括：

利用LSTM网络对所述一维特征表示进行处理，以得到所述一维特征表示的检测特征；

利用全连接层对所述检测特征进行处理，以得到所述一维目标检测结果，其中所述一维目标检测结果指示一维特征表示中每个元素属于预定的多个类别的目标的分数。

13.如权利要求10所述的目标检测方法，其中，基于所述一维特征表示的一维目标检测结果确定该待检测二维全景图像的候选目标检测结果包括：

针对所述一维特征表示中的每个元素，基于所述一维目标检测结果确定该元素的最高分数，并将该元素确定为属于具有最高分数的预定类别的目标；

基于所述一维特征表示中属于所述预定类别的目标的各元素的位置确定该待检测二维全景图像中的全景目标的尺寸和位置。

14.如权利要求3-7任一项所述的目标检测方法，其中，基于所述至少两个待检测二维全景图像的候选目标检测结果，确定所述二维全景图像的全景目标检测结果包括：

当至少两个待检测二维全景图像的候选目标检测结果指示在所述三维空间的同一位置存在候选目标时，将该候选目标确定为所述二维全景图像中存在的全景目标。

15.一种用于二维全景图像的目标检测装置，包括：

待检测图像确定单元，配置成基于所述二维全景图像，确定对应于预设的至少两个全景视角方向的至少两个待检测二维全景图像；

目标检测单元，配置成对所述至少两个待检测二维全景图像执行目标检测，以确定所述至少两个待检测二维全景图像分别对应的候选目标检测结果；以及

结果确定单元，配置成基于所述至少两个待检测二维全景图像分别对应的候选目标检测结果，确定所述二维全景图像的全景目标检测结果；

其中，所述目标检测单元利用用于目标检测的深度神经网络对所述至少两个待检测二维全景图像分别进行处理，以得到每个待检测二维全景图像对应的候选目标检测结果。

16.一种目标检测设备，包括：

处理器；以及

存储器，其中存储计算机可读程序指令，

其中，在所述计算机可读程序指令被所述处理器运行时执行如权利要求1-14任一所述的用于二维全景图像的目标检测方法的指令。

17.一种计算机可读存储介质，用于存储计算机可读指令，当所述计算机可读指令由计算机执行时，所述计算机实现权利要求1-14任一所述的用于二维全景图像的目标检测方法。