CN117689714A

CN117689714A - 基于图像的目标位置识别方法、装置及电子设备

Info

Publication number: CN117689714A
Application number: CN202311641360.5A
Authority: CN
Inventors: 向禹帆
Original assignee: Chongqing Changan Automobile Co Ltd
Current assignee: Chongqing Changan Automobile Co Ltd
Priority date: 2023-11-30
Filing date: 2023-11-30
Publication date: 2024-03-12

Abstract

本申请实施例涉及一种基于图像的目标位置识别方法、装置及电子设备，上述方法包括：确定相机的拍摄范围对应的网格尺寸，在目标场景地图中，确定地图子区域；基于网格尺寸，对地图子区域进行网格化处理，得到网格化地图；基于网格尺寸，对目标场景图像进行网格化处理，得到网格化图像；从目标场景图像中确定目标对象的坐标，并基于坐标，确定目标对象对应的至少一个目标网格图像块；基于网格化图像与网格化地图之间的网格映射关系，确定至少一个目标网格图像块对应的至少一个目标网格地图块；基于至少一个目标网格地图块在网格化地图中的位置，确定目标对象的位置信息。本申请实施例提高了确定目标对象的位置的效率，以及提高了适用范围。

Description

基于图像的目标位置识别方法、装置及电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种基于图像的目标位置识别方法、基于多图像的目标位置识别方法、装置、电子设备及存储介质。

背景技术

随着人工智能技术使用的不断深入，目前除了能够对被摄物体进行识别之外，在一些场景下，还需要更加进一步差别出物体的位置。例如：在商场等公共区域的监控领域，需要判断出被识别对象在货架中的具体位置；在重点监控区域，如重要十字路口、停车场等，需要判断区域内被识别对象的位置，以识别人员、车辆等行动轨迹，行进方向；在智能汽车领域，也需要在停车时对车辆周边环境进行更加准确的感知。

然而目前所使用的智能摄像头往往缺乏对物体在平面空间位置的感知判断能力，不能轻易识别出物体相对摄像头的位置以及具体场景下的空间位置。而使用激光雷达等装置又无法对被摄物体的类型进行识别。此外，还可以使用神经网络模型等方法对目标进行位置识别，但这种方法需要较强的算力支持，且计算速度较慢，无法满足快速识别的要求。

发明内容

鉴于此，为解决上述部分或全部技术问题，本申请实施例提供一种基于图像的目标位置识别方法、基于多图像的目标位置识别方法、装置、电子设备及存储介质。

第一方面，本申请实施例提供一种基于图像的目标位置识别方法，该方法包括：确定相机在目标场景下的拍摄范围对应的网格尺寸，并在预设的目标场景地图中，确定拍摄范围对应的地图子区域；基于网格尺寸，对地图子区域进行网格化处理，得到网格化地图；获取拍摄范围对应的包含目标对象的目标场景图像；基于网格尺寸，对目标场景图像进行网格化处理，得到网格化图像；从目标场景图像中确定目标对象的坐标，并基于坐标，确定目标对象对应的至少一个目标网格图像块；基于网格化图像与网格化地图之间的网格映射关系，确定至少一个目标网格图像块对应的至少一个目标网格地图块；基于至少一个目标网格地图块在网格化地图中的位置，确定目标对象的位置信息。

在一个可能的实施方式中，基于至少一个目标网格地图块在网格化地图中的位置，确定目标对象的位置信息，包括：确定拍摄目标场景图像的相机在目标场景地图中的相机位置；基于相机位置，从至少一个目标网格地图块中，确定距离相机最近的目标网格地图块的位置作为目标位置；将目标位置和相机位置之间的距离确定为目标对象的位置信息。

在一个可能的实施方式中，从目标场景图像中确定目标对象的坐标，并基于坐标，确定目标对象对应的至少一个目标网格图像块，包括：从目标场景图像中，确定包含目标对象的矩形框；确定矩形框的对角点坐标作为目标对象的坐标；从网格图像中，确定对角点坐标所在的网格图像块的目标网格坐标；基于目标网格坐标，确定目标对象对应的至少一个目标网格图像块。

在一个可能的实施方式中，从网格图像中，确定对角点坐标所在的网格图像块的目标网格坐标，包括：基于目标场景图像的像素分辨率和网格化图像的网格分辨率，对对角点坐标进行坐标转换，得到目标网格坐标。

在一个可能的实施方式中，确定相机在目标场景下的拍摄范围对应的网格尺寸，包括：确定目标场景下的目标对象的类型；基于类型和相机的位置，确定拍摄范围对应的网格尺寸。

第二方面，本申请实施例提供一种基于多图像的目标位置识别方法，该方法包括：确定相机在目标场景下的至少两个拍摄范围；对至少两个拍摄范围中的每个拍摄范围，分别执行上述第一方面任一实施例的方法，得到相机在每个拍摄范围针对目标对象拍摄的目标场景图像分别对应的初始位置信息；基于得到的至少两个初始位置信息，确定目标对象的位置信息。

在一个可能的实施方式中，确定相机在目标场景下的至少两个拍摄范围，包括：确定至少两个相机在目标场景下分别对应的拍摄范围。

在一个可能的实施方式中，基于得到的至少两个初始位置信息，确定目标对象的位置信息，包括：确定至少两个初始位置信息是否均相同；若不相同，对至少两个初始位置信息进行相同多数判决处理；若判决结果表示至少两个初始位置信息中存在相同多数的初始位置信息，将相同多数的初始位置信息确定为目标对象的位置信息。

在一个可能的实施方式中，在对至少两个初始位置信息进行相同多数判决处理之后，方法还包括：若判决结果表示至少两个初始位置信息中不存在相同多数的初始位置信息，确定至少两个目标场景图像分别对应的权重；基于至少两个目标场景图像分别对应的权重，从至少两个初始位置信息中确定目标初始位置信息作为目标对象的位置信息。

第三方面，本申请实施例提供一种基于图像的目标位置识别装置，该装置包括：第一确定模块，用于确定相机在目标场景下的拍摄范围对应的网格尺寸，并在预设的目标场景地图中，确定拍摄范围对应的地图子区域；第一处理模块，用于基于网格尺寸，对地图子区域进行网格化处理，得到网格化地图；获取模块，用于获取拍摄范围对应的包含目标对象的目标场景图像；第二处理模块，用于基于网格尺寸，对目标场景图像进行网格化处理，得到网格化图像；第二确定模块，用于从目标场景图像中确定目标对象的坐标，并基于坐标，确定目标对象对应的至少一个目标网格图像块；第三确定模块，用于基于网格化图像与网格化地图之间的网格映射关系，确定至少一个目标网格图像块对应的至少一个目标网格地图块；第四确定模块，用于基于至少一个目标网格地图块在网格化地图中的位置，确定目标对象的位置信息。

第四方面，本申请实施例提供一种基于多图像的目标位置识别装置，该装置包括：第五确定模块，用于确定相机在目标场景下的至少两个拍摄范围；第六确定模块，用于对至少两个拍摄范围中的每个拍摄范围，分别执行上述第一方面任一实施例的方法，得到相机在每个拍摄范围针对目标对象拍摄的目标场景图像分别对应的初始位置信息；第七确定模块，用于基于得到的至少两个初始位置信息，确定目标对象的位置信息。

第五方面，本申请实施例提供一种电子设备，包括：存储器，用于存储计算机程序；处理器，用于执行存储器中存储的计算机程序，且计算机程序被执行时，实现本申请上述第一方面的基于图像的目标位置识别方法或第二方面的基于多图像的目标位置识别方法中任一实施例的方法。

第六方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时，实现如上述第一方面的基于图像的目标位置识别方法或第二方面的基于多图像的目标位置识别方法中任一实施例的方法。

第七方面，本申请实施例提供一种计算机程序，计算机程序包括计算机可读代码，当计算机可读代码在设备上运行时，使得该设备中的处理器实现如上述第一方面的基于图像的目标位置识别方法或第二方面的基于多图像的目标位置识别方法中任一实施例的方法。

本申请实施例提供的基于图像的目标位置识别方法、装置、电子设备及存储介质，通过确定相机的拍摄范围对应的网格尺寸和拍摄范围对应的地图子区域，基于网格尺寸，对地图子区域和目标场景图像进行网格化处理，得到网格化地图和网格化图像，在网格化图像中确定目标对象的位置，根据该位置在网格化地图中确定目标对象所处的至少一个目标网格地图，最后基于至少一个目标网格地图块在网格化地图中的位置，确定目标对象的位置信息。本申请实施例实现了根据目标对象在二维图像中的网格的位置，即可确定目标对象在三维空间中的实际位置，无需利用复杂的算法对图像进行分析，也无需利用相机内外参等进行坐标系转换，大大提高了确定目标对象的位置的效率。此外，本申请实施例可以适应各种类型的场景，对各种类型的目标对象进行识别，从而提高了适用范围。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1为本申请实施例提供的一种基于图像的目标位置识别方法的流程示意图；

图2A为本申请实施例提供的目标场景图像的示意图；

图2B为本申请实施例提供的网格化图像的示意图；

图2C为本申请实施例提供的网格化地图的示意图；

图3为本申请实施例提供的另一种基于图像的目标位置识别方法的流程示意图；

图4为本申请实施例提供的另一目标场景图像的示意图；

图5为本申请实施例提供的另一种基于图像的目标位置识别方法的流程示意图；

图6为本申请实施例提供的另一种基于图像的目标位置识别方法的流程示意图；

图7为本申请实施例提供的一种基于多图像的目标位置识别方法的流程示意图；

图8为本申请实施例提供的利用两个相机对目标场景拍摄的示意图；

图9为本申请实施例提供的另一种基于多图像的目标位置识别方法的流程示意图；

图10为本申请实施例提供的一种基于图像的目标位置识别装置的结构示意图；

图11为本申请实施例提供的一种基于多图像的目标位置识别装置的结构示意图；

图12为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值并不限制本申请的范围。

本领域技术人员可以理解，本申请实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等对象，既不代表任何特定技术含义，也不表示它们之间的逻辑顺序。

还应理解，在本实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本申请实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本申请中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本申请对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，上述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。为便于对本申请实施例的理解，下面将参考附图并结合实施例来详细说明本申请。显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了解决现有技术中目标对象的位置检测成本高、效率低的技术问题，本申请提供了一种基于图像的目标位置识别方法，可以提高对目标对象进行位置检测的效率，降低使用成本。

图1为本申请实施例提供的一种基于图像的目标位置识别方法的流程示意图。本方法可以应用于车辆(例如，智能驾驶车辆)、智能手机、笔记本电脑、台式电脑、便携式计算机、服务器等一个或多个电子设备上。此外，本方法的执行主体可以是硬件，也可以是软件。当上述执行主体为硬件时，该执行主体可以为上述电子设备中的一个或多个。例如，单个电子设备可以执行本方法，或者，多个电子设备可以彼此配合来执行本方法。当上述执行主体为软件时，本方法可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块。在此不作具体限定。

如图1所示，该方法具体包括：

步骤101，确定相机在目标场景下的拍摄范围对应的网格尺寸，并在预设的目标场景地图中，确定拍摄范围对应的地图子区域。

在本实施例中，相机的拍摄范围可以是预先设置的，即设置了相机的拍摄范围，也就确定了相机拍摄的图像的尺寸。拍摄范围网格尺寸也可以预先设定。通常，网格尺寸的大小可以设置为小于目标对象在图像中的一般尺寸。例如，在可以准确识别出目标对象的情况下，目标对象的尺寸不小于30×30，则上述网格尺寸可以设置为小于30×30。

在本实施例中，目标场景地图即表示目标场景所在区域的地图。上述拍摄范围对应的地图子区域的范围可以预先根据相机的拍摄范围标定，也可以根据相机的实时位置以及拍摄范围，从目标场景地图中实时确定。

如图2C所示，目标场景地图中的G区域，即上述拍摄范围对应的地图子区域。

步骤102，基于网格尺寸，对地图子区域进行网格化处理，得到网格化地图。

在本实施例中，网格化地图中的网格的数量可以与相机拍摄的图像中的网格数量相同，即按照相机拍摄的图像和地图子区域的尺寸比例关系，确定地图子区域中的网格尺寸，改进该网格尺寸，可以对地图子区域进行网格化处理，如此，网格化地图中的网格地图块与相机拍摄的图像中的网格图像块一一对应。例如，相机拍摄的图像包括的网格数量为40×30，则网格化地图包括的网格数量也为40×30。

如图2C所示，包含网格的G区域即网格化地图。

步骤103，获取拍摄范围对应的包含目标对象的目标场景图像。

在本实施例中，目标场景图像为相机对目标场景拍摄的图像，例如，目标场景为道路、停车场、车站等各种场景。目标对象可以是位于目标场景的各种类型的物体。例如车辆、行人、路牌、障碍物等。本实施例中的目标对象的类型可以预先指定，例如，如图2A所示，目标对象为车辆。

步骤104，基于网格尺寸，对目标场景图像进行网格化处理，得到网格化图像。

在本实施例中，电子设备对目标场景图像进行网格化处理的方式可以包括多种。例如，可以在目标场景图像中直接绘制网格，得到网格化图像；或者，也可以预先生成一个空白的网格图像模板，将目标场景图像填充进该模板，测到网格化图像。网格化图像中的每个网格包含的子图像，即网格图像块。

如图2B所示，其示出了对如图1所示的目标场景图像进行网格化处理得到的网格化图像的示意图。

步骤105，从目标场景图像中确定目标对象的坐标，并基于坐标，确定目标对象对应的至少一个目标网格图像块。

在本实施例中，从目标场景图像中确定目标对象的坐标的方法，可以采用本领域相关的目标检测方法实现。例如，目标检测方法可以通过目标检测网络(例如SSD(SingleShot MultiBox Detector)、DPM(Deformable Part Model)、RPN(Region ProposalNetworks)等)实现。通常，目标对象的坐标可以包括目标对象范围内的任意点的坐标。例如，可以包括包含目标对象的矩形框的两个对角坐标。

确定了目标对象的坐标，即可确定目标对象在目标场景图像中的位置，进而可以确定覆盖目标对象的所在区域的至少一个目标网格图像块。如图2B所示，其中的网格图像块a、b、c、d、e、f即目标网格图像块。

步骤106，基于网格化图像与网格化地图之间的网格映射关系，确定至少一个目标网格图像块对应的至少一个目标网格地图块。

在本实施例中，由于网格化地图中的网格地图块与网格化图像中的网格图像块一一对应，因此，可以确定上述至少一个目标网格图像块对应的至少一个目标网格地图块。

如图2C所示，其中的网格地图块a′-f′即目标网格地图块，对应图2B中的目标网格图像块a-f。

步骤107，基于至少一个目标网格地图块在网格化地图中的位置，确定目标对象的位置信息。

在本实施例中，由于至少一个目标网格地图块对应于目标场景图像中的目标对象，因此，至少一个目标网格地图在网格化地图中的位置，即可以表示目标对象在三维空间中的位置。

可选的，上述位置信息可以包括目标对象在三维空间中的坐标信息，该坐标信息可以表示目标对象的绝对位置。上述位置信息也可以包括目标对象与相机的距离信息，该距离信息可以间接表示目标对象在三维空间中的位置。

本申请实施例提供的基于图像的目标位置识别方法，通过确定相机的拍摄范围对应的网格尺寸和拍摄范围对应的地图子区域，基于网格尺寸，对地图子区域和目标场景图像进行网格化处理，得到网格化地图和网格化图像，在网格化图像中确定目标对象的位置，根据该位置在网格化地图中确定目标对象所处的至少一个目标网格地图，最后基于至少一个目标网格地图块在网格化地图中的位置，确定目标对象的位置信息。本申请实施例实现了根据目标对象在二维图像中的网格的位置，即可确定目标对象在三维空间中的实际位置，无需利用复杂的算法对图像进行分析，也无需利用相机内外参等进行坐标系转换，大大提高了确定目标对象的位置的效率。此外，本申请实施例可以适应各种类型的场景，对各种类型的目标对象进行识别，从而提高了适用范围。

在本实施例的一些可选的实现方式中，如图3所示，步骤107包括：

步骤1071，确定拍摄目标场景图像的相机在目标场景地图中的相机位置。

如图2C所示，C点即相机位置。具体地，相机与上述地图子区域的相对位置关系通常是固定的，因此，可以在目标场景地图中确定相机位置。

可选的，当相机的位置固定不动时，相机位置可以预先设置。当相机的位置可移动时，可以基于各种定位方法(例如卫星定位方法、基站定位方法等)，确定相机位置。

步骤1072，基于相机位置，从至少一个目标网格地图块中，确定距离相机最近的目标网格地图块的位置作为目标位置。

如图2C所示，网格地图块f′为目标网格地图块，该网格地图块的位置即目标位置。可选的，目标网格地图块包含的区域中的任意点的位置均可以表示目标位置。例如，可以将目标网格地图块的中心点的位置作为目标位置，也可以将目标网格地图块中，与相机距离最近的点的位置作为目标位置。

步骤1073，将目标位置和相机位置之间的距离确定为目标对象的位置信息。

本步骤得到的位置信息即表示相机与目标对象之间的最小距离。

通常，当相机的高度较低时，在地图子区域中，目标对象在网格化图像中占据的多个目标网格图像块对应的多个目标网格地图块，无法反映目标对象的真实位置，因此，可以基于本实施例提供的方法确定相机与目标对象的最小距离作为目标对象的位置信息。

作为示例，如图4所示，相机设置在车辆上，其拍摄的目标场景图像中，包括另一车辆，该车辆即为目标对象。目标对象虽然占据多个网格图像块，但这些网格图像块对应的网格地图块无法反映目标对象的真实位置，因此，将目标对象的最靠下位置所在的网格图像块(即图4中的图像块g)对应的网格地图块与相机位置之间的距离，作为目标对象的位置信息。

本实施例通过确定距离相机最近的目标网格地图块与相机位置之间的距离作为目标对象的位置信息，实现了对目标对象进行距离估计，该方法实现简单，无需使用复杂的算法，也无需使用测距装置，从而实现了基于图像识别，高效地对目标对象进行距离估计。

在本实施例的一些可选的实现方式中，如图5所示，步骤105包括：

步骤1051，从目标场景图像中，确定包含目标对象的矩形框。

通常，上述矩形框可以是包含目标对象的最小矩形。

步骤1052，确定矩形框的对角点坐标作为目标对象的坐标。

例如，对角点坐标可以包括左上角点坐标和右下角点坐标。如图2B所示，坐标(x1，y1)、(x2，y2)为对角点坐标。

步骤1053，从网格图像中，确定对角点坐标所在的网格图像块的目标网格坐标。

目标网格坐标即对角点坐标所在的网格图像块的行、列序号。如图2B所示，(x1，y1)、(x2，y2)对应的目标网格坐标为(3，5)、(5，4)，即表示第3列、第5行的网格图像块和第5列、第4行的网格图像块。

步骤1054，基于目标网格坐标，确定目标对象对应的至少一个目标网格图像块。

上述至少一个目标网格图像块包含的区域即目标对象所在的区域。通常，由于目标网格坐标表示覆盖目标对象的边缘的网格图像块，因此，可以根据目标网格坐标，确定一个矩形区域，该矩形区域覆盖了整个目标对象，该矩形区域内的所有网格图像块即上述至少一个目标网格图像块。

本实施例通过基于包含目标对象的矩形框的角点坐标，确定对应的目标网格坐标，实现了根据目标对象的坐标快速确定网格化图像中对应的网格图像块，从而有助于提高将至少一个目标网格图像块映射到网格化地图的效率，进而提高目标对象的位置检测效率。

在本实施例的一些可选的实现方式中，上述步骤1053可以如下执行：

基于目标场景图像的像素分辨率和网格化图像的网格分辨率，对对角点坐标进行坐标转换，得到目标网格坐标。

其中，像素分辨率即表示目标场景图像的像素行数和列数，网格分辨率即表示网格化图像包括的网格的行数和列数。根据像素分辨率和网格分辨率，可以确定像素坐标和网格坐标的对应关系，从而将对角点坐标转换为目标网格坐标。

作为示例，设目标场景图像的像素分辨率为X×Y，即目标场景图像中的像素包括X列、Y行，网格化图像的网格分辨率为U×V，即网格化图像中的网格包括A列、B行。根据下式(1)和(2)，可以计算得到目标网格坐标：

其中，(x1，y1)、(x2，y2)为目标场景图像中的矩形框的左上角点和右下角点坐标；(u1，v1)、(u2，v2)为目标网格坐标，根据(u1，v1)、(u2，v2)，可以确定一个覆盖目标对象的矩形区域，该矩形区域的左上角网格坐标即(u1，v1)，该矩形区域的右下角网格坐标即(u2，v2)。如图2C所示，(u1，v1)即(3，5)，(u2，v2)即(5，4)。

本实施例根据像素分辨率和网格分辨率，对对角点坐标进行坐标转换，可以实现快速确定对角点对应的网格，进而提高了确定至少一个目标网格图像块的效率。

在本实施例的一些可选的实现方式中，如图6所示，步骤101包括：

步骤1011，确定目标场景图像下的目标对象的类型。

其中，目标对象的类型可以预先设定。作为示例，可以预先设定目标对象的类型为车辆，即需要确定相机拍摄范围内的车辆的位置信息。

步骤1012，基于类型和相机的位置，确定拍摄范围对应的网格尺寸。

具体地，对于同一类型的被识别对象，相机在不同的位置可以设置不同的网格尺寸，并且，不同的被识别对象的类型也可以对应不同的网格尺寸，且类型、相机位置和网格尺寸的对应关系可以是预先设定的。

例如，在室外设置的相机，由于其与目标对象的距离通常较远，即目标对象映射到图像中的尺寸较小，因此，可以设置更小的网格尺寸。而不同类型的被识别对象，由于映射到图像中的尺寸不同，因此，可以设置不同的网格尺寸。通常，为了提高定位精度，网格尺寸可以设置为小于等于目标场景图像中可被识别的目标对象的最小尺寸，即目标对象通常占据至少两个网格图像块。例如，若目标对象的类型为车辆，车辆在目标场景图像中可被识别的最小尺寸为30×30，则网格尺寸设置为30×30。

本实施例通过确定目标对象的类型和相机位置，确定相应的网格尺寸，实现了根据具体的被识别的对象的类型和相机所处的场景，对目标场景图像进行相应尺寸地网格化处理，有助于提高本实施例对各种类型的目标对象的适应能力，使网格尺寸与被测对象达到最佳匹配，进而提高了对目标对象进行位置识别的准确性。

图7为本申请实施例提供的一种基于多图像的目标位置识别方法的流程图。该方法具体包括：

步骤701，确定相机在目标场景下的至少两个拍摄范围。

在本实施例中，上述至少两个拍摄范围即相机在不同位置拍摄时的拍摄范围。

可选的，步骤701可以如下执行：

确定至少两个相机在目标场景下分别对应的拍摄范围。

在后续的步骤中可以利用上述至少两个相机分别拍摄的目标场景图像对目标对象进行位置识别。

如图8所示，其示出了利用两个相机对目标场景拍摄的示意图。图8中的C1、C2表示两个相机，分别对应不同的拍摄范围，可以拍摄得到不同的目标场景图像。G1、G2表示两个相机分别对应的网格化地图，G1、G2的重叠区域中存在目标对象。利用G1和G2可以得到两个初始位置信息，若两个初始位置信息表示的位置在预设地图中位于同一位置，则确定初始位置信息为目标对象的位置信息。

通过使用至少两个相机对目标场景进行拍摄，实现了对识别出的目标对象的位置进行相互验证，从而提高了目标对象的位置识别准确性。

可选的，至少两个拍摄范围也可以是同一相机在不同位置的拍摄范围。

步骤702，对至少两个拍摄范围中的每个拍摄范围，分别执行上述基于图像的目标位置识别方法，得到相机在每个拍摄范围针对目标对象拍摄的目标场景图像分别对应的初始位置信息。

在本实施例中，对每个目标场景图像进行目标位置识别的方法，即上述图1-图6任一实施例描述的方法，这里不再赘述。通过多次执行上述方法，可以得到每个目标场景图像对应的位置信息作为初始位置信息。

步骤703，基于得到的至少两个初始位置信息，确定目标对象的位置信息。

在本实施例中，由于至少两个初始位置信息可以相同也可能不同，因此，在相同的情况下，可以确定初始位置信息为目标对象的位置信息；在不同的情况下，可以根据至少两个初始位置信息，通过多种方式确定目标对象的位置信息。

作为示例，可以设置每个相机的权重(例如距离目标场景越近，权重越高；图像分辨率越高，权重越高)，若至少两个初始位置信息不同，则选择权重最高的相机拍摄的目标场景图像对应的初始位置信息作为目标对象的位置信息。再例如，可以采用类似投票的方式，从至少两个初始位置信息中选择数量最多的相同初始位置信息作为目标对象的位置信息。

本申请实施例提供的基于多图像的目标位置识别方法，通过对至少两个目标场景图像分别执行上述图1-图6对应实施例描述的方法，实现了从同一目标对象对应的多个初始位置信息中，选择准确性最高的初始位置信息作为最终确定的位置信息，从而进一步提高了对目标对象进行位置识别的准确性。

在本实施例的一些可选的实现方式中，如图9所示，步骤703包括：

步骤7031，确定至少两个初始位置信息是否均相同。

若相同，可以直接确定至少两个初始位置信息为目标对象的位置信息。

步骤7032，若不相同，对至少两个初始位置信息进行相同多数判决处理。

其中，多数判决处理即从至少两个初始位置信息中确定相同的且数量做多的初始位置信息。

步骤7033，若判决结果表示至少两个初始位置信息中存在相同多数的初始位置信息，将相同多数的初始位置信息确定为目标对象的位置信息。

作为示例，若目标场景图像的数量为三，则得到的初始位置信息的数量也为三，三个初始位置信息中存在两个相同的初始位置信息，则这两个相同的初始位置信息可以确定为目标对象的位置信息。

本实施例通过在至少两个初始位置信息不一致的情况下，对至少两个初始位置信息进行多数判决处理，实现了根据多个初始位置信息对同一目标对象进行相互验证，从而进一步提高了确定目标对象的位置信息的准确性。

在本实施例的一些可选的实现方式中，如图9所示，在步骤7032之后，该方法还包括：

步骤7034，若判决结果表示至少两个初始位置信息中不存在相同多数的初始位置信息，确定至少两个目标场景图像分别对应的权重。

其中，每个目标场景图像对应的权重可以预先设定，也可以实时确定。作为示例，当上述至少两个目标场景图像由至少两个相机分别拍摄得到时，每个相机可以对应一个预设权重，每个相机对应的权重可以根据相机的特性设置。例如，根据距离目标场景的远近设置权重(距离越近，权重越高)，或者，根据相机拍摄的图像质量确定权重(相机分辨率越高，权重越高)。

步骤7035，基于至少两个目标场景图像分别对应的权重，从至少两个初始位置信息中确定目标初始位置信息作为目标对象的位置信息。

具体地，可以从至少两个初始位置信息中，将权重最高的目标场景图像对应的初始位置信息作为目标初始位置信息。

本实施例通过确定每个目标场景图像的权重，根据权重从至少两个初始位置信息中确定目标对象的位置信息，实现了在无法从多个初始位置信息中选择相同多数的初始位置信息的情况下，通过权重选择准确性相对最高的位置信息，从而提高了位置识别方法的场景适应性。

图10为本申请实施例提供的一种基于图像的目标位置识别装置的结构示意图。具体包括：第一确定模块1001，用于确定相机在目标场景下的拍摄范围对应的网格尺寸，并在预设的目标场景地图中，确定拍摄范围对应的地图子区域；第一处理模块1002，用于基于网格尺寸，对地图子区域进行网格化处理，得到网格化地图；获取模块1003，用于获取拍摄范围对应的包含目标对象的目标场景图像；第二处理模块1004，用于基于网格尺寸，对目标场景图像进行网格化处理，得到网格化图像；第二确定模块1005，用于从目标场景图像中确定目标对象的坐标，并基于坐标，确定目标对象对应的至少一个目标网格图像块；第三确定模块1006，用于基于网格化图像与网格化地图之间的网格映射关系，确定至少一个目标网格图像块对应的至少一个目标网格地图块；第四确定模块1007，用于基于至少一个目标网格地图块在网格化地图中的位置，确定目标对象的位置信息。

在一个可能的实施方式中，第四确定模块包括：第一确定单元，用于确定拍摄目标场景图像的相机在目标场景地图中的相机位置；第二确定单元，用于基于相机位置，从至少一个目标网格地图块中，确定距离相机最近的目标网格地图块的位置作为目标位置；第三确定单元，用于将目标位置和相机位置之间的距离确定为目标对象的位置信息。

在一个可能的实施方式中，第五确定模块包括：第四确定单元，用于从目标场景图像中，确定包含目标对象的矩形框；第五确定单元，用于确定矩形框的对角点坐标作为目标对象的坐标；第六确定单元，用于从网格图像中，确定对角点坐标所在的网格图像块的目标网格坐标；第七确定单元，用于基于目标网格坐标，确定目标对象对应的至少一个目标网格图像块。

在一个可能的实施方式中，第六确定单元进一步用于：基于目标场景图像的像素分辨率和网格化图像的网格分辨率，对对角点坐标进行坐标转换，得到目标网格坐标。

在一个可能的实施方式中，第一处理模块包括：第八确定单元，用于确定所述目标场景下的目标对象的类型；第九确定单元，用于基于所述类型和所述相机的位置，确定所述拍摄范围对应的网格尺寸。

本实施例提供的基于图像的目标位置识别装置可以是如图10中所示的基于图像的目标位置识别装置，可执行以上的各基于图像的目标位置识别方法的所有步骤，进而实现以上的各基于图像的目标位置识别方法的技术效果，具体请参照以上相关描述，为简洁描述，在此不作赘述。

图11为本申请实施例提供的一种基于多图像的目标位置识别装置的结构示意图。具体包括：第五确定模块1101，用于确定相机在目标场景下的至少两个拍摄范围；第六确定模块1102，用于对至少两个拍摄范围中的每个拍摄范围，分别执行上述基于图像的目标位置识别方法，得到相机在每个拍摄范围针对目标对象拍摄的目标场景图像分别对应的初始位置信息；第七确定模块1103，用于基于得到的至少两个初始位置信息，确定目标对象的位置信息。

在一个可能的实施方式中，第五确定模块进一步用于：确定至少两个相机在目标场景下分别对应的拍摄范围。

在一个可能的实施方式中，第七确定模块包括：第十确定单元，用于确定至少两个初始位置信息是否均相同；处理单元，用于若不相同，对至少两个初始位置信息进行相同多数判决处理；第十一确定单元，用于若判决结果表示至少两个初始位置信息中存在相同多数的初始位置信息，将相同多数的初始位置信息确定为目标对象的位置信息。

在一个可能的实施方式中，第七确定模块还包括：第十二确定单元，用于若判决结果表示至少两个初始位置信息中不存在相同多数的初始位置信息，确定至少两个目标场景图像分别对应的权重；第十三确定单元，用于基于至少两个目标场景图像分别对应的权重，从至少两个初始位置信息中确定目标初始位置信息作为目标对象的位置信息。

本实施例提供的基于多图像的目标位置识别装置可以是如图11中所示的基于多图像的目标位置识别装置，可执行以上的各基于多图像的目标位置识别方法的所有步骤，进而实现以上的各基于多图像的目标位置识别方法的技术效果，具体请参照以上相关描述，为简洁描述，在此不作赘述。

图12为本申请实施例提供的一种电子设备的结构示意图，图12所示的电子设备1200包括：至少一个处理器1201、存储器1202、至少一个网络接口1204和其他用户接口1203。电子设备1200中的各个组件通过总线系统1205耦合在一起。可理解，总线系统1205用于实现这些组件之间的连接通信。总线系统1205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图12中将各种总线都标为总线系统1205。

其中，用户接口1203可以包括显示器、键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

可以理解，本申请实施例中的存储器1202可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本文描述的存储器1202旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器1202存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统12021和应用程序12022。

其中，操作系统12021，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序12022，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本申请实施例方法的程序可以包含在应用程序12022中。

在本实施例中，通过调用存储器1202存储的程序或指令，具体的，可以是应用程序12022中存储的程序或指令，处理器1201用于执行各基于图像的目标位置识别方法实施例所提供的方法步骤，例如包括：

确定相机在目标场景下的拍摄范围对应的网格尺寸，并在预设的目标场景地图中，确定拍摄范围对应的地图子区域；基于网格尺寸，对地图子区域进行网格化处理，得到网格化地图；获取拍摄范围对应的包含目标对象的目标场景图像；基于网格尺寸，对目标场景图像进行网格化处理，得到网格化图像；从目标场景图像中确定目标对象的坐标，并基于坐标，确定目标对象对应的至少一个目标网格图像块；基于网格化图像与网格化地图之间的网格映射关系，确定至少一个目标网格图像块对应的至少一个目标网格地图块；基于至少一个目标网格地图块在网格化地图中的位置，确定目标对象的位置信息。

处理器1201还用于执行各基于多图像的目标位置识别方法实施例所提供的方法步骤，例如包括：

确定相机在目标场景下的至少两个拍摄范围；对至少两个拍摄范围中的每个拍摄范围，分别执行上述基于图像的目标位置识别方法，得到相机在每个拍摄范围针对目标对象拍摄的目标场景图像分别对应的初始位置信息；基于得到的至少两个初始位置信息，确定目标对象的位置信息。

上述本申请实施例揭示的方法可以应用于处理器1201中，或者由处理器1201实现。处理器1201可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1201中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1201可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1202，处理器1201读取存储器1202中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits，ASIC)、数字信号处理器(Digital Signal Processing，DSP)、数字信号处理设备(DSPDevice，DSPD)、可编程逻辑设备(Programmable LogicDevice，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请的上述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文上述功能的单元来实现本文上述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本实施例提供的电子设备可以是如图12中所示的电子设备，可执行以上所述的各基于图像的目标位置识别方法的所有步骤，进而实现以上所述的各基于图像的目标位置识别方法的技术效果，具体请参照以上相关描述，为简洁描述，在此不作赘述。

本申请实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中，存储介质可以包括易失性存储器，例如随机存取存储器；存储器也可以包括非易失性存储器，例如只读存储器、快闪存储器、硬盘或固态硬盘；存储器还可以包括上述种类的存储器的组合。

当存储介质中一个或者多个程序可被一个或者多个处理器执行，以实现上述在电子设备侧执行的基于图像的目标位置识别方法。

上述处理器用于执行存储器中存储的目标检测程序，以实现以下在电子设备侧执行的基于图像的目标位置识别方法的步骤：

上述处理器还用于执行存储器中存储的目标检测程序，以实现以下在电子设备侧执行的基于多图像的目标位置识别方法的步骤：

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

应理解的是，文中使用的术语仅出于描述特定示例实施方式的目的，而无意于进行限制。除非上下文另外明确地指出，否则如文中使用的单数形式“一”、“一个”以及“所述”也可以表示包括复数形式。术语“包括”、“包含”、“含有”以及“具有”是包含性的，并且因此指明所陈述的特征、步骤、操作、元件和/或部件的存在，但并不排除存在或者添加一个或多个其它特征、步骤、操作、元件、部件、和/或它们的组合。文中描述的方法步骤、过程、以及操作不解释为必须要求它们以所描述或说明的特定顺序执行，除非明确指出执行顺序。还应当理解，可以使用另外或者替代的步骤。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于图像的目标位置识别方法，其特征在于，所述方法包括：

确定相机在目标场景下的拍摄范围对应的网格尺寸，并在预设的目标场景地图中，确定所述拍摄范围对应的地图子区域；

基于所述网格尺寸，对所述地图子区域进行网格化处理，得到网格化地图；

获取所述拍摄范围对应的包含目标对象的目标场景图像；

基于所述网格尺寸，对所述目标场景图像进行网格化处理，得到网格化图像；

从所述目标场景图像中确定目标对象的坐标，并基于所述坐标，确定所述目标对象对应的至少一个目标网格图像块；

基于所述网格化图像与所述网格化地图之间的网格映射关系，确定所述至少一个目标网格图像块对应的至少一个目标网格地图块；

基于所述至少一个目标网格地图块在所述网格化地图中的位置，确定所述目标对象的位置信息。

2.根据权利要求1所述的方法，其特征在于，所述基于所述至少一个目标网格地图块在所述网格化地图中的位置，确定所述目标对象的位置信息，包括：

确定拍摄所述目标场景图像的相机在所述目标场景地图中的相机位置；

基于所述相机位置，从所述至少一个目标网格地图块中，确定距离所述相机最近的目标网格地图块的位置作为目标位置；

将所述目标位置和所述相机位置之间的距离确定为所述目标对象的位置信息。

3.根据权利要求1所述的方法，其特征在于，所述从所述目标场景图像中确定目标对象的坐标，并基于所述坐标，确定所述目标对象对应的至少一个目标网格图像块，包括：

从所述目标场景图像中，确定包含所述目标对象的矩形框；

确定所述矩形框的对角点坐标作为所述目标对象的坐标；

从所述网格图像中，确定所述对角点坐标所在的网格图像块的目标网格坐标；

基于所述目标网格坐标，确定所述目标对象对应的至少一个目标网格图像块。

4.根据权利要求3所述的方法，其特征在于，所述从所述网格图像中，确定所述对角点坐标所在的网格图像块的目标网格坐标，包括：

基于所述目标场景图像的像素分辨率和所述网格化图像的网格分辨率，对所述对角点坐标进行坐标转换，得到所述目标网格坐标。

5.根据权利要求1所述的方法，其特征在于，所述确定相机在目标场景下的拍摄范围对应的网格尺寸，包括：

确定所述目标场景下的目标对象的类型；

基于所述类型和所述相机的位置，确定所述拍摄范围对应的网格尺寸。

6.一种基于多图像的目标位置识别方法，其特征在于，所述方法包括：

确定相机在目标场景下的至少两个拍摄范围；

对所述至少两个拍摄范围中的每个拍摄范围，分别执行权利要求1-5任一项所述的方法，得到相机在每个拍摄范围针对目标对象拍摄的目标场景图像分别对应的初始位置信息；

基于得到的至少两个初始位置信息，确定所述目标对象的位置信息。

7.根据权利要求6所述的方法，其特征在于，所述确定相机在目标场景下的至少两个拍摄范围，包括：

确定至少两个相机在目标场景下分别对应的拍摄范围。

8.根据权利要求6或7所述的方法，其特征在于，所述基于得到的至少两个初始位置信息，确定所述目标对象的位置信息，包括：

确定所述至少两个初始位置信息是否均相同；

若不相同，对所述至少两个初始位置信息进行相同多数判决处理；

若判决结果表示所述至少两个初始位置信息中存在相同多数的初始位置信息，将所述相同多数的初始位置信息确定为所述目标对象的位置信息。

9.根据权利要求8所述的方法，其特征在于，在所述对所述至少两个初始位置信息进行相同多数判决处理之后，所述方法还包括：

若所述判决结果表示所述至少两个初始位置信息中不存在相同多数的初始位置信息，确定所述至少两个目标场景图像分别对应的权重；

基于所述至少两个目标场景图像分别对应的权重，从所述至少两个初始位置信息中确定目标初始位置信息作为所述目标对象的位置信息。

10.一种基于图像的目标位置识别装置，其特征在于，所述装置包括：

第一确定模块，用于确定相机在目标场景下的拍摄范围对应的网格尺寸，并在预设的目标场景地图中，确定所述拍摄范围对应的地图子区域；

第一处理模块，用于基于所述网格尺寸，对所述地图子区域进行网格化处理，得到网格化地图；

获取模块，用于获取所述拍摄范围对应的包含目标对象的目标场景图像；

第二处理模块，用于基于所述网格尺寸，对所述目标场景图像进行网格化处理，得到网格化图像；

第二确定模块，用于从所述目标场景图像中确定目标对象的坐标，并基于所述坐标，确定所述目标对象对应的至少一个目标网格图像块；

第三确定模块，用于基于所述网格化图像与所述网格化地图之间的网格映射关系，确定所述至少一个目标网格图像块对应的至少一个目标网格地图块；

第四确定模块，用于基于所述至少一个目标网格地图块在所述网格化地图中的位置，确定所述目标对象的位置信息。

11.一种基于多图像的目标位置识别装置，其特征在于，所述装置包括：

第五确定模块，用于确定相机在目标场景下的至少两个拍摄范围；

第六确定模块，用于对所述至少两个拍摄范围中的每个拍摄范围，分别执行权利要求1-5任一项所述的方法，得到相机在每个拍摄范围针对目标对象拍摄的目标场景图像分别对应的初始位置信息；

第七确定模块，用于基于得到的至少两个初始位置信息，确定所述目标对象的位置信息。

12.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述权利要求1-9任一所述的方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现上述权利要求1-9任一所述的方法。