CN114926655A

CN114926655A - 地理与视觉跨模态预训练模型的训练方法、位置确定方法

Info

Publication number: CN114926655A
Application number: CN202210638232.4A
Authority: CN
Inventors: 黄际洲; 刘希岩; 夏德国; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-05-20
Filing date: 2022-06-07
Publication date: 2022-08-19
Anticipated expiration: 2042-06-07
Also published as: CN114926655B

Abstract

本公开提供了一种地理与视觉跨模态预训练模型的训练方法、位置确定方法，涉及人工智能技术领域，尤其涉及自然语言处理、计算机视觉等领域，具体实现方案为：基于地图数据构建预训练数据集，根据预训练数据集和预训练目标，对待训练模型进行模型训练，得到多视觉任务约束的第一预训练模型。采用本公开，可以提高模型的精度。

Description

地理与视觉跨模态预训练模型的训练方法、位置确定方法

相关申请的交叉引用

本公开主张2022年5月20日提交的中国专利申请号为202210557379.0的优先权，其全部内容通过引用包含于此。

技术领域

本公开涉及人工智能技术领域，尤其涉及自然语言处理、计算机视觉等领域。

背景技术

随着技术的发展，可以通过人工智能改善硬件性能，所适用的应用场景多种多样，比如涉及图像处理、视频处理、人脸识别、目标定位等与计算机视觉相关的应用场景的硬件设计中，都可以采用人工智能技术，即：将训练好的模型部署于硬件中，以提高硬件的处理速度及处理准确率。图像处理的精度为影响计算机视觉效果的关键一环，如何提高图像处理精度是要解决的问题。

发明内容

本公开提供了一种地理与视觉跨模态预训练模型的训练方法、位置确定方法、装置、电子设备以及存储介质。

根据本公开的一方面，提供了一种地理与视觉跨模态预训练模型的训练方法，包括：

基于地图数据构建预训练数据集；

根据预训练数据集和预训练目标，对待训练模型进行模型训练，得到多视觉任务约束的第一预训练模型。

根据本公开的另一方面，提供了一种位置确定方法，包括：

从获取的众包数据中提取第一图像信息及与第一图像信息对应的第一地理位置信息；

将第一图像信息及第一地理位置信息输入多视觉任务约束的第一预训练模型，输出目标特征；

根据目标特征，对所述多视觉任务中的任一个视觉任务进行图像处理，得到图像对应的地理位置信息。

根据本公开的另一方面，提供了一种地理与视觉跨模态预训练模型的训练装置，包括：

构建模块，用于基于地图数据构建预训练数据集；

训练模块，用于根据预训练数据集和预训练目标，对待训练模型进行模型训练，得到多视觉任务约束的第一预训练模型。

根据本公开的另一方面，提供了一种位置确定装置，包括：

提取模块，用于从获取的众包数据中提取第一图像信息及与第一图像信息对应的第一地理位置信息；

输入模块，用于将第一图像信息及第一地理位置信息输入多视觉任务约束的第一预训练模型，输出目标特征；

第一处理模块，用于根据目标特征，对多视觉任务中的任一个视觉任务进行图像处理，得到图像对应的地理位置信息。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开任意一实施例所提供的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使该计算机执行本公开任意一项实施例所提供的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机指令，该计算机指令被处理器执行时实现本公开任意一项实施例所提供的方法。

采用本公开，可以基于地图数据构建预训练数据集，可以根据预训练数据集和预训练目标，对待训练模型进行模型训练，从而得到多视觉任务约束的第一预训练模型，提高了模型的精度。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的一分布式集群处理场景的示意图；

图2是根据本公开实施例的地理与视觉跨模态预训练模型的训练方法的流程示意图；

图3是根据本公开实施例的位置确定方法的流程示意图；

图4是根据本公开实施例的应用示例中地理与视觉跨模态预训练模型训练的示意图；

图5是根据本公开实施例的应用示例中地理与视觉跨模态预训练模型训练的示意图；

图6是根据本公开实施例的应用示例中地理与视觉跨模态预训练模型组成结构的示意图；

图7是根据本公开实施例的位置确定装置的组成结构示意图；

图8是根据本公开实施例的地理与视觉跨模态预训练模型的训练装置的组成结构示意图；

图9是用来实现本公开实施例的位置确定方法/地理与视觉跨模态预训练模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。本文中术语“第一”、“第二”表示指代多个类似的技术用语并对其进行区分，并不是限定顺序的意思，或者限定只有两个的意思，例如，第一特征和第二特征，是指代有两类/两个特征，第一特征可以为一个或多个，第二特征也可以为一个或多个。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

随着AI应用技术的不断发展，预训练模型在自然语言处理以及计算机视觉等领域取得瞩目成绩。通过在大规模数据集上进行模型的预训练，充分学习数据之间的关系，在下游任务中通过微调便可以取得非常好的任务处理效果。

以地图数据更新为例，可以通过模型训练来挖掘“地理-视觉”之间的关系来解决众包数据中图像信息定位精度差的问题，换言之，模型预先训练好，可以直接学习“地理-视觉”之间的映射关系，从而实现模型端到端的、更为精确的地理信息编码的预测，预测出用于高精地图数据更新的目标数据，使得基于该众包数据中的图像信息来更新高精地图数据成为可能。

针对多视觉任务而言，一种情况：基于高精地图数据的多视觉任务是分开训练的，即：针对特定的某个视觉任务，训练特定的模型来匹配该视觉任务需求，视觉任务分开训练特定模型，由于没有充分利用大规模数据的优势，缺乏统一的预训练模型，因此，使得视觉特征没有被充分学习，导致模型性能受限。另一种情况：基于高精地图数据的多视觉任务是基于通用预训练的模型来获得高质量的视觉特征，然后将视觉特征应用于下游任务，由于通用预训练的模型面临边际效应，即随着通用预训练的模型的效果提升，其应用在高精地图数据业务中的提升效果反而愈发不明显，这是因为该通用预训练模型缺乏地理知识，而这些地理知识在高精地图数据集业务中是极其重要的。

综上所述，基于高精地图数据的多视觉任务是分开训练的，使高精地图数据的代表性特征没有被充分挖掘和利用，这不仅是对数据资源的浪费，也严重制约了下游的多视觉任务(如图像识别、图像检测、图像分割、目标跟踪等)的发展。基于高精地图数据的多视觉任务是基于通用预训练的模型来获得高质量的视觉特征，但是该视觉特征缺乏与地理特征的关联，也严重制约了下游的多视觉任务(如图像识别、图像检测、图像分割、目标跟踪等)的发展。

根据本公开的实施例，图1是根据本公开实施例的一自动驾驶车辆与云端通信的应用场景示意图，如图1所示，包括：后台服务器100、多个车辆(如车辆107-车辆109)，以及用于该后台服务器与该多个车辆间通信的“云”106。该后台服务器一侧可以采用该分布式集群系统，示例性的描述了可以利用该分布式集群系统接收多个车辆上报的用于表征地理与视觉间关系的“地理-视觉数据”，该“地理-视觉数据”可以为众包数据，在众包数据中包括图像及其对应地理位置编码，从而可以根据该众包数据和多视觉任务约束的第一预训练模型得到目标特征，以根据该目标特征对多视觉任务中的任一个视觉任务进行图像处理，得到图像对应的地理位置信息。其中，该第一预训练模型(即地理与视觉跨模态预训练模型)可以部署于多个车辆对应的车载终端侧，也可以部署于后台服务器侧。若该第一预训练模型部署于多个车辆对应的车载终端侧，则基于车载终端执行图像处理任务，若该第一预训练模型部署于后台服务器侧，如图1所示，在该分布式集群系统中包括多个节点(如服务器集群101、服务器102、服务器集群103、服务器104、服务器105)，多个节点间可以共同执行一个或多个图像处理任务。可选地，该分布式集群系统中的多个节点可以执行图像处理任务中的部分处理流程，也可以执行图像处理任务中的全部处理流程。可选地，在每一轮数据处理任务完成后，多个节点之间都可以进行数据交换(如数据同步)。

根据本公开的实施例，提供了一种地理与视觉跨模态预训练模型的训练方法，图2是根据本公开实施例的地理与视觉跨模态预训练模型的训练方法的流程示意图，该方法可以应用于地理与视觉跨模态预训练模型的训练装置，例如，该装置可以部署于单机、多机或集群系统中的终端或服务器或其它处理设备执行的情况下，可以实现模型训练等等处理。其中，终端可以为用户设备(UE，User Equipment)、移动设备、个人数字处理(PDA，PersonalDigital Assistant)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图2所示，该方法应用于图1所示的集群系统中的任一节点或电子设备(手机或台式机等)或车载终端中，包括：

S201、基于地图数据构建预训练数据集。

S202、根据预训练数据集和预训练目标，对待训练模型进行模型训练，得到多视觉任务约束的第一预训练模型。

S201-S202的一示例中，该地图数据可以为高精地图数据，考虑到高精地图数据定位精度更高，则基于高精地图数据构建的该预训练数据集更利于提高模型训练的精度。预训练目标可以为符合模型训练所期望达到的模型性能指标，比如，将模型训练阶段所输出的分类标签与满足该预训练目标的目标标签进行损失运算，得到损失函数，以根据损失函数进行模型训练后得到该预训练的第一预训练模型(即地理与视觉跨模态预训练模型)。

采用本公开，可以根据地图数据构建预训练数据集，从而根据预训练数据集和预训练目标对待训练模型进行模型训练，得到多视觉任务约束的第一预训练模型，由于地图数据采用的是定位精度高的高精地图数据，因此，该第一预训练模型，其模型性能(如模型的精度)更高。

根据本公开的实施例，提供了一种位置确定方法，图3是根据本公开实施例的位置确定方法的流程示意图，该方法可以应用于位置确定装置，例如，该装置可以部署于单机、多机或集群系统中的终端或服务器或其它处理设备执行的情况下，可以实现地理位置确定等等处理。其中，终端可以为用户设备(UE，User Equipment)、移动设备、个人数字处理(PDA，Personal Digital Assistant)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图3所示，该方法应用于图1所示的集群系统中的任一节点或电子设备(手机或台式机等)中或车载终端中，包括：

S301、从获取的众包数据中提取第一图像信息及与第一图像信息对应的第一地理位置信息。

S302、将第一图像信息及第一地理位置信息输入多视觉任务约束的第一预训练模型，输出目标特征。

S303、根据目标特征，对多视觉任务中的任一个视觉任务进行图像处理，得到图像对应的地理位置信息。

S301-S303的一示例中，该众包数据可以是车主采集的数据，该众包数据可以包括第一图像信息及其第一地理位置信息，该第一预训练模型(即地理与视觉跨模态预训练模型)可以是基于多视觉任务(如与计算机视觉相关的多个图像处理任务)的多任务学习框架训练得到的模型。将各个视觉任务分开训练得到的模型，只适应特定的视觉任务，精度低、泛化性差，由于该第一预训练模型是基于多视觉任务共同约束所得到的，因此，该第一预训练模型可以满足多视觉任务的需求，在模型使用阶段，输入该众包数据，通过模型的端到端处理可以直接得到满足多视觉任务的需求的该目标特征，通过该目标特征对该多视觉任务中的任一个视觉任务进行图像处理，都可以得到精确的图像处理结果，无需针对某个特定的视觉任务，分别训练对应的模型。其中，“端到端”是指在模型训练阶段，将原始输入直接作为模型训练的输入数据，相较于非端到端而言，非端到端是将原始数据经过人工提取特征后再输入模型进行训练，人工提取特征可能有偏差导致不准确的可能性，而端到端，不涉及非端到端的人工提取特征，模型训练效果更好，模型性能(如模型精度)更高。

采用本公开，可以从获取的众包数据中提取第一图像信息及与第一图像信息对应的第一地理位置信息，将第一图像信息及第一地理位置信息输入多视觉任务约束的第一预训练模型，可以输出目标特征，根据目标特征，对多视觉任务中的任一个视觉任务进行图像处理，可以得到图像处理结果，从而，基于多视觉任务约束的第一预训练模型进行图像处理，提高了图像处理精度。

基于如图3所示的位置确定方法的实施例，描述如下：

一实施方式中，根据目标特征对多视觉任务中的任一个视觉任务进行图像处理，得到图像对应的地理位置信息，包括：任一个视觉任务为第一任务的情况下，对该第一图像信息进行图像块划分，得到第一图像信息中各个图像块。根据该目标特征对该第一图像信息中各个图像块进行地理位置信息的预测，得到与该第一图像信息中各个图像块对应的第二地理位置信息。

一些示例中，模型使用阶段中，该第一预训练模型输出的目标特征可以用于多个与计算机视觉相关的下游任务，比如，第一任务可以为图像分类任务，用于预测图像中各个图像块的地理位置编码。将第一图像信息及其对应的地理位置编码信息作为该第一预训练模型的输入，输出该目标特征，该第一任务应用该目标特征，可以得到第一图像信息中划分的各个图像块对应的地理位置编码信息，该各个图像块对应的地理位置编码信息用于表征：将各个图像块关联到真实世界高精地图坐标系中的多层级的字符化表达。

采用本实施方式，对于与计算机视觉相关的下游任务，比如，图像分类任务，可以预测出第一图像信息中各个图像块的地理位置编码，提高了定位精度。

一实施方式中，根据目标特征对多视觉任务中的任一个视觉任务进行图像处理，得到图像对应的地理位置信息，包括：任一个视觉任务为第二任务的情况下，根据目标特征对第一图像信息进行深度图信息的预测，得到与该第一图像信息相关的该深度图信息。

一些示例中，模型使用阶段中，该第一预训练模型输出的目标特征可以用于多个与计算机视觉相关的下游任务，比如，第二任务可以为图像深度估计任务，用于预测深度图信息。将第一图像信息及其对应的地理位置编码信息作为该第一预训练模型的输入，输出该目标特征，该第二任务应用该目标特征，可以得到与第一图像信息同样分辨率的深度图信息。

采用本实施方式，对于与计算机视觉相关的下游任务，比如，图像深度估计任务，可以预测出与第一图像信息同样分辨率的深度图信息，深度图信息包括了更多的语义特征，提高了可解释性。

一实施方式中，根据目标特征对多视觉任务中的任一个视觉任务进行图像处理，得到图像对应的地理位置信息，包括：任一个视觉任务为第三任务的情况下，根据目标特征对第一图像信息中的目标对象进行预测，得到与该第一图像信息对应的分割图信息，该分割图信息用于确定该目标对象在该第一图像信息中的位置。

一些示例中，模型使用阶段中，该第一预训练模型输出的目标特征可以用于多个与计算机视觉相关的下游任务，比如，第二任务可以为图像分割任务，用于预测图像中的各个目标对象。将第一图像信息及其对应的地理位置编码信息作为该第一预训练模型的输入，输出该目标特征，该第三任务应用该目标特征，可以得到第一图像信息中的各个目标对象，如车道线、车辆、周边建筑物等。

采用本实施方式，对于与计算机视觉相关的下游任务，比如，图像分割任务，可以预测出第一图像信息中的各个目标对象，可以更准确的识别出图像中的各个目标对象，还可以基于各个目标对象进行检测。

一实施方式中，多视觉任务约束的第一预训练模型，为：基于多视觉任务中的任一个视觉任务分别对应的损失函数共同对模型训练进行约束得到的第一预训练模型。

一些示例中，该多视觉任务包括：图像分类任务、图像深度估计任务及图像分割任务，根据图像分类任务、图像深度估计任务及图像分割任务分别对应的损失函数进行加权运算，以得到总损失函数，通过总损失函数对模型训练进行约束，得到第一预训练模型。

采用本实施方式，该第一预训练模型是基于多视觉任务共同约束所得到的，因此，该第一预训练模型可以满足多视觉任务的需求，在模型使用阶段，输入该众包数据，通过模型的端到端处理可以直接得到满足多视觉任务的需求的该目标特征，通过该目标特征对该多视觉任务中的任一个视觉任务进行图像处理，都可以得到精确的图像处理结果，无需针对某个特定的视觉任务，分别训练对应的模型。

一实施方式中，还包括：对第一地理位置信息进行编码，得到第一图像位置编码信息。

一些示例中，可以将第一图像信息及第一图像位置编码信息输入第一预训练模型中。

采用本实施方式，可以通过编码得到比该第一地理位置信息更精确的第一图像位置编码信息，从而，将该第一图像信息及该第一图像位置编码信息输入该第一预训练模型进行预测，可以输出更精确的第二地理位置信息，如在地图数据坐标系中该第一图像信息中各个图像块对应的图像块位置编码信息。

一实施方式中，还包括：在地图数据坐标系中建立第一图像信息与第一地理位置信息之间的映射关系。该第二地理位置信息可以为：根据映射关系在地图数据坐标系中确定的该第一图像信息中各个图像块对应的图像块位置编码信息。

采用本实施方式，针对众包数据而言，对第一地理位置信息进行编码后，将众包数据中的第一图像信息及第一图像位置编码信息输入该第一预训练模型，即可预测得到第二地理位置信息，该第二地理位置信息可以为定位精度高的图像块位置编码信息，由于众包数据更新频率快，因此，不仅满足了数据更新频率快的需求，而且，提高了众包数据的定位精度，使其匹配高精地图数据的定位精度，也满足了定位精度的需求。

基于如图2所示的地理与视觉跨模态预训练模型的训练方法的实施例，描述如下：

一实施方式中，基于地图数据构建预训练数据集，包括：地图数据为历史地图数据的情况下，从历史地图数据中筛选出满足第一条件的第三图像信息及与该第三图像信息对应的第三地理位置信息。对该第三图像信息和第三地理位置信息进行预处理，得到用于表征图像特征和地理位置编码特征的预处理结果。根据该预处理结果构建该预训练数据集。

一些示例中，该第一条件包括：在历史采集次数超过N次(N为大于2的正整数)的覆盖区域所得到的该历史地图数据中携带深度图信息。

一些示例中，对第三图像信息和所述第三地理位置信息进行预处理，得到用于表征图像特征和地理位置编码特征的预处理结果，包括：对第三图像信息进行图像预处理，得到与众包数据分辨率相同的第四图像信息，对该第三地理位置信息进行编码预处理，得到第四图像位置编码信息。对该第四图像信息进行划分预处理，得到第四图像信息中各个图像块，对该第四图像信息中各个图像块进行编码预处理，得到第四图像信息中各个图像块位置编码信息。将该第四图像信息、该第四图像位置编码信息、该第四图像信息中各个图像块位置编码信息作为预处理结果。

采用本实施方式，在模型训练阶段，通过图像预处理，可以得到与众包数据分辨率相同的第四图像信息，比如，将众包数据中提取的图像信息称之为众包图像，与该众包图像分辨率相同的第四图像信息为高精地图数据中的图像信息，可以称之为高精图像，通过分辨率的匹配，将该高精图像的分辨率调整为与众包图像一致，那么，在模型使用阶段，输入众包图像所得到的模型输出结果，与模型训练阶段互相适配，从而有利于在模型使用阶段得到更为精确的输出结果。在模型训练阶段，相比地理位置信息，通过编码预处理得到的地理位置编码信息更为精确，在模型使用阶段，针对输入模型的众包图像，可以精确的预测出众包图像中每个图像块在高精地图坐标系中对应的地理位置，提高了定位精度。

一实施方式中，根据预训练数据集和预训练目标，对待训练模型进行模型训练，得到多视觉任务约束的第一预训练模型，包括：将从预训练数据集获取的预处理结果输入该待训练模型，对该预处理结果进行图像特征和地理位置编码特征的第一融合处理，得到第一融合数据，对该第一融合数据进行特征提取，得到第一特征。将该第一特征和该地理位置编码特征进行第二融合处理，得到第二特征，将该第二特征输入多视觉任务学习框架中，得到用于表征多视觉任务学习框架预训练目标的总损失函数。根据该总损失函数对该待训练模型进行模型训练，得到第一预训练模型。

一些示例中，该第一预训练模型可以包括2个模块：特征提取模块(如transformer)、异构特征融合模块；针对预训练目标而言，模型输入是图像和其对应的地理位置编码，输出是应用于多视觉任务(如图像分类任务、图像深度估计任务及图像分割任务)的第二特征。首先通过图像特征与其地理位置编码特征的第一融合处理(如图像特征与其地理位置编码的像素级融合处理)，得到第一融合数据，然后，通过特征提取模块对该第一融合数据进行特征提取，得到第一特征，通过异构特征融合模块将该第一特征和该地理位置编码特征进行第二融合处理，得到第二特征，将第二特征作为该第一预训练模型的输出。为了基于多视觉任务共同约束该第一预训练模型的模型训练，还可以将该第二特征输入多视觉任务学习框架中，以得到用于表征多视觉任务学习框架预训练目标的总损失函数，从而根据该总损失函数进行模型训练，提高模型性能(如模型精度)。

一些示例中，将第二特征输入多视觉任务学习框架中，得到用于表征多视觉任务学习框架预训练目标的总损失函数，包括：根据该多视觉任务学习框架中第一任务对应的第一损失函数(如图像块的分类损失函数)、多视觉任务学习框架中第二任务对应的第二损失函数(如深度估计的分类损失函数)、及多视觉任务学习框架中第三任务对应的第三损失函数(如图像分割的损失函数)，得到该总损失函数，通过总损失函数的反向传播，来共同约束模型训练。

采用本实施方式，在模型训练阶段，对该预处理结果进行图像特征和地理位置编码特征的多次融合处理后再基于多视觉任务学习框架共同约束模型训练，可以得到更为精确的第二特征。在模型使用阶段，针对众包数据，将众包数据中的图像信息及其图像位置编码信息输入该第一预训练模型，将第一预训练模型输出的该第二特征应用于多视觉任务，可以满足多视觉任务的需求，泛化性好、精度高。

采用如下的应用示例，本公开基于高精地图数据进行模型训练，以及基于可拓展的多任务学习框架，以便基于该多任务学习框架中的多视觉任务共同约束模型的训练，提高模型的性能(如模型精度)。第一预训练模型可以采用异构数据(即图像信息及其地理位置编码信息)作为输入，以基于高精地图数据的多任务学习为预训练目标，实现对该第一预训练模型端到端地训练。

本应用示例中，针对图像信息对应的轨迹，可以计算该图像信息对应的地理位置编码信息，将该地理位置编码信息逐像素地与图像信息连接在一起，得到用于表征“图像-地理”关系的数据。该第一预训练模型包括特征提取模块和异构特征融合模块，其中，特征提取模块可以基于卷积神经网络(Convolutional Neural Networks，CNN)或转换网络(Transformer)的架构来实现。输入该第一预训练模型后会得到一组融合特征，将该融合特征送入该多任务学习框架中不同的视觉任务中以计算各个视觉任务分别对应的损失函数，得到总损失函数，从而通过该总损失函数来约束模型训练。

具体的，针对预训练数据集的构建而言，包括如下内容：

(1)根据历史高精地图数据，即历史高精图像进行筛选。用于筛选的第一条件，可以包括：同一区域采集次数、覆盖范围下是否含有深度图信息。其中，选择历史采集次数超过2次的区域，且尽量保证覆盖范围更广、涵盖多样化场景(包括但不限于道路级别、城区与郊区、季节、天气、光照变化、复杂街景等)、以及元素尽量多等等。对于深度图信息而言，由于该深度图信息是计算真值(Groundtruth)的有效信息，可以只选择带有深度图信息的历史高精图像，以提高模型训练的性能。

(2)对于可拓展的多任务学习框架，通过L＝L₁+L₂+L₃+…这种模式来增加预训练任务，以从多个维度约束模型训练，其中，L表示总损失函数，L_i,

表示每个预训练任务分别对应的损失函数。该多任务学习框架下，既可以同时训练，也可以增量训练。

如图4所示，该多任务学习框架可以包括N个下游任务(N为大于2的整数)，将第一预训练模型的输出，应用于N个下游任务的任务处理中。如图5所示，以该多任务学习框架中的3个下游任务(即图像分类，深度估计以及图像分割)为例，相应的，这3个任务需要三种真值，分别是图像块的地理位置编码，图像的深度图信息，以及图像的分割图。深度图信息以及图像的分割图可以直接从数据库获取。

(i)对于图像的地理位置编码信息而言，可以采用S2编码方式。将真实世界的高精地图坐标系分成若干区块，每个区块都对应一个标记(token)表示，相应的，把高精图像切割成不重叠的分块(patch)序列，对应到每个区块。token长度不同，则对应区块的粒度不同。由于每2n-1和2n个粒度级别的同一区块token表示只在最后一个字符不同，因此，可以直接对token中的每个位置进行预测：2n-1级别的字符，2n级别的字符，以及2n-1和2n级别所共享的倒数第二个字符。

(ii)对于图像块划分以及S2编码方式而言，可以基于与图像匹配的深度图信息来计算高精图像中每个像素点的经纬度，然后以距离d为最小粒度，针对高精图像中的可视区域而言，将该高精图像中的可视区域划分为K份图像块(K为大于2的正整数)。基于(i)中的S2编码方式对每个图像块进行编码，比如d＝4米，对应S2编码的22级。其中，针对S2编码方式而言，高精图像定位精度高，而众包图像与高精图像的定位精度一般差个几十米(如90米)这样一个定位偏差，通过S2编码方式可以事先配置好高精图像与众包图像的定位范围，将方圆几十米(如90米)之内的经纬度配置到同一个编码中，从而规避众包图像与高精图像之间的定位偏差。

(iii)除了对图像块进行编码，还可以采用同样的S2编码方式直接编码图像本身对应的地理位置编码信息。

(3)最终得到该预训练数据集，该预训练数据集为：图像集I＝{I₁，I₂，…，I_N}，图像深度信息集D＝{D₁，D₂，…，D_N}，图像分割信息集S＝{S₁，S₂，…，S_N}，图像地理位置编码集G＝{g₁，g₂，…，g_N}以及图像块地理位置编码集B＝{B₁，B₂，…，B_N}。其中，N表示数据集样本数，

表示第i张图像的图像块地理位置编码，K表示每张图像划分块数，S表示每个图像块的编码维度。

具体的，针对模型训练而言，包括如下内容：

(1)如图6所示，该第一预训练模型，其模型主体为特征提取模块，该特征提取模块可以采用Transformer结构，此外，该第一预训练模型还可以包括异构特征融合模块。与该第一预训练模型输出相连的多任务学习框架中还可以包括分类模块和回归模块。

(i)针对Transformer结构而言，可以将原始图像I逐像素地与图像的地理位置编码G连接在一起，得到用于表征“图像-地理”关系的第一融合数据，对图像进行切块，得到不重叠的分块(patch)序列，构建一个集成了多层级(Transformer Layer)的结构，通过学习各个patch之间的关系来捕获上下文信息，最终，采用如下公式(1)计算出融合了原始图像以及地理知识的特征，Transformer()表示采用Transformer结构的特征提取模块，输入数据为原始图像I及其图像地理位置编码G，F_cv-geo为经第一融合处理(如像素级融合处理)得到第一融合数据后，对该第一融合数据采用该Transformer结构的特征提取模块进行特征提取所得到的第一特征：

F_cv-geo＝Transformer(I，G) (1)

(ii)如图6所示，在异构特征融合模块中，将F_cv-geo与原始地理位置编码G进行第二融合处理，以得到输入多视觉任务学习框架中的第二特征。具体的，针对输入的高精图像及其对应的地理位置编码，可以构建一个双线性模块以将该高精图像及其对应的地理位置编码(即图像特征和地理信息编码特征)这两个因素融合在一起。其中，该双线性模块是具有可分离性数学特性的双因素模型，可以让模型自适应的学习该图像特征和地理信息编码特征，当一个因素保持不变时，输出在任何一个因素上都是线性的。通过这种方式，图像特征和地理位置编码特征可以无缝分离和组合。基于该双线性模块实现的第二融合处理，采用如下公式(2)来实现：

F＝F_cv-geoWG (2)

公式(1)中，W是一个可学习的矩阵，其维度是C×K×Q。

F_cv-geo为经第一融合处理(如像素级融合处理)得到第一融合数据后，对该第一融合数据采用该Transformer结构的特征提取模块进行特征提取所得到的第一特征，第一特征也属于图像特征，G为地理位置编码特征，F可被认为经第二融合处理得到的融合特征。

(iii)在得到融合特征F之后，将融合特征F输入多任务学习框架中，多任务学习框架中针对多个预训练任务，包括：

a)针对图像块地理位置预测任务而言，设置了分类器，该分类器可以是由深度神经网络(Deep Neural Networks，DNN)构成，也可以是支持向量机(Support VectorMachine，SVM)等，在这里以多层感知机(Multilayer Perceptron，MLP)结构为例，它以融合特征F作为输入，直接预测图像块的地理位置编码；

b)针对深度估计任务而言，设置了回归期，该回归器可以为解码器结构Decoder_d(它可以是逐层上采样，也可以是多层级特征汇集并经过卷积和插值构成)，它以融合特征F作为输入，采用如下公式(3)预测一个与图像I同样分辨率的深度图

c)针对图像分割任务，设置解码器结构Decoder_s，其结构与b)中的解码器结构Decoder_d类似，采用如下公式(4)可以预测与图像I同样分辨率的分割图

(2)针对预训练目标而言，在该多任务学习框架中，以3个预训练任务为例。任务一是基于视觉的地理信息编码(GeoCoding)，该任务的输入是图像和其对应的地理位置编码，输出是图像中划分的块所关联坐标的多层级的字符化表达(即图像块的地理位置编码)。该任务的设计目标是让模型学习图像与其在真实世界的位置之间的关联。任务二是单目深度预估，该任务的目标是预测图像的深度信息，从而促使模型关注到图像中元素的像素级地理信息。任务三是图像分割，引入该任务可以使得模型对图像中的元素目标有着更多的关注和学习。通过集成这三个任务，可以使得模型从多个粒度上(图像块位置信息，像素位置信息)学习图像和地理知识之间的映射，同时关注街景图像中的上下文元素信息。最终，采用如下公式(5)-公式(6)计算出总损失函数：

L＝L₁+L₂+L₃ (5)

L为总损失函数，L₁、L₂、L₃为各个任务对应的损失函数，其中，L₁为图像块位置编码分类损失，L₂为深度估计损失，L₃为图像分割损失；y和

分别表示图像块位置编码的真实标签和模型预测的标签；D和

分别表示深度图真值和预测值。y和

分别表示像素级语义标签和模型预测的标签；N表示图像数，n表示求和运算中从n＝1取值，…，直至n＝N。K表示每张图像划分的块的个数，k表示求和运算中从k＝1取值，…，直至k＝K。C表示图像中元素类别数，c表示求和运算中从c＝1取值，…，直至c＝C。

具体的，针对模型使用而言，包括如下内容：

(1)地理位置预测：基于众包模式的高精地图更新，面临众包数据定位精度差的问题。基于第一预训练模型，利用部分带标签的数据微调，从而实现针对众包数据中典型目标的高精定位。即：输入该第一预训练模型是一张众包图像以及粗糙的地理位置编码，输出是图像中目标的高精度位置信息。

(2)街景光学字符识别(Optical Character Recognition，OCR)：基于第一预训练模型，根据学习到的地理位置和图像的先验信息，可以提高OCR识别精度，潜在地重点解决众包数据质量不一致，商家标牌缺字，拍摄角度较偏等。

采用本应用示例，通过构造大规模的预训练数据集、融合异构数据、预训练模型、多任务学习框架，可以基于高精地图数据进行模型训练，提高基于基于高精地图数据的各类下游任务的任务处理效率(如提高任务处理精度、任务处理速度等)。其中，基于大规模预训练模型的方式，直接学习“地理-视觉”的映射关系，从而将视觉信息和地理知识有机融合起来，可以为多样化的下游任务提供服务，无需专业的特定模型或大量的标注数据即可满足预训目标。多任务学习框架可以结合多个任务，以地理信息编码、深度估计以及图像分割3个任务为例，实现了基于地理知识与图像跨模态端到端训练。对异构数据进行融合处理，可以将不同模态的数据(图像、地理位置编码)有机结合起来作为第一预训练模型的统一输入，可以表征更多的语义特征，具备更好的可解释性。

根据本公开的实施例，提供了一种位置确定装置，图7是根据本公开实施例的位置确定装置的组成结构示意图，如图7所示，位置确定装置包括：提取模块701，用于从获取的众包数据中提取第一图像信息及与所述第一图像信息对应的第一地理位置信息；输入模块702，用于将所述第一图像信息及所述第一地理位置信息输入多视觉任务约束的第一预训练模型，输出目标特征；第一处理模块703，用于根据所述目标特征，对所述多视觉任务中的任一个视觉任务进行图像处理，得到图像对应的地理位置信息。

一实施方式中，所述第一处理模块，用于所述任一个视觉任务为第一任务的情况下，对所述第一图像信息进行图像块划分，得到所述第一图像信息中各个图像块；根据所述目标特征对所述第一图像信息中所述各个图像块进行地理位置信息的预测，得到与所述第一图像信息中所述各个图像块对应的第二地理位置信息。

一实施方式中，所述第一处理模块，用于所述任一个视觉任务为第二任务的情况下，根据所述目标特征对所述第一图像信息进行深度图信息的预测，得到与所述第一图像信息相关的所述深度图信息。

一实施方式中，所述第一处理模块，用于所述任一个视觉任务为第三任务的情况下，根据所述目标特征对所述第一图像信息中的目标对象进行预测，得到与所述第一图像信息对应的分割图信息，所述分割图信息用于确定所述目标对象在所述第一图像信息中的位置。

一实施方式中，所述输入模块，为：基于所述多视觉任务中的所述任一个视觉任务分别对应的损失函数共同对模型训练进行约束所得到的所述第一预训练模型。

一实施方式中，还包括：编码模块，用于对所述第一地理位置信息进行编码，得到第一图像位置编码信息。

一实施方式中，所述输入模块，用于将所述第一图像信息及所述第一图像位置编码信息输入所述第一预训练模型。

一实施方式中，还包括：第二处理模块，用于在地图数据坐标系中建立所述第一图像信息与所述第一地理位置信息之间的映射关系；所述第二地理位置信息，为根据所述映射关系在所述地图数据坐标系中确定的所述第一图像信息中所述各个图像块对应的图像块位置编码信息。

根据本公开的实施例，提供了一种地理与视觉跨模态预训练模型的训练装置，图8是根据本公开实施例的地理与视觉跨模态预训练模型的训练装置的组成结构示意图，如图8所示，地理与视觉跨模态预训练模型的训练装置包括：构建模块801，用于基于地图数据构建预训练数据集；训练模块802，用于根据所述预训练数据集和预训练目标，对待训练模型进行模型训练，得到多视觉任务约束的第一预训练模型。

一实施方式中，所述构建模块，用于所述地图数据为历史地图数据的情况下，从所述历史地图数据中筛选出满足第一条件的第三图像信息及与所述第三图像信息对应的第三地理位置信息；对所述第三图像信息和所述第三地理位置信息进行预处理，得到用于表征图像特征和地理位置编码特征的预处理结果；根据所述预处理结果，构建所述预训练数据集。

一实施方式中，所述第一条件包括：在历史采集次数超过N次的覆盖区域所得到的所述历史地图数据中携带深度图信息；所述N为大于2的正整数。

一实施方式中，所述构建模块，用于对所述第三图像信息进行图像预处理，得到与众包数据分辨率相同的第四图像信息；对所述第三地理位置信息进行编码预处理，得到第四图像位置编码信息；对所述第四图像信息进行划分预处理，得到所述第四图像信息中各个图像块；对所述第四图像信息中各个图像块进行编码预处理，得到所述第四图像信息中各个图像块位置编码信息；将所述第四图像信息、所述第四图像位置编码信息、所述第四图像信息中各个图像块位置编码信息作为所述预处理结果。

一实施方式中，所述训练模块，用于将从所述预训练数据集获取的所述预处理结果输入所述待训练模型，对所述预处理结果进行所述图像特征和所述地理位置编码特征的第一融合处理，得到第一融合数据；对所述融合数据进行特征提取，得到第一特征；将所述第一特征和所述地理位置编码特征第二融合处理，得到第二特征；将所述第二特征输入多视觉任务学习框架中，得到用于表征所述多视觉任务学习框架预训练目标的总损失函数；根据所述总损失函数对所述待训练模型进行所述模型训练，得到所述第一预训练模型。

一实施方式中，所述训练模块，用于根据所述多视觉任务学习框架中第一任务对应的第一损失函数、所述多视觉任务学习框架中第二任务对应的第二损失函数、及所述多视觉任务学习框架中第三任务对应的第三损失函数，得到所述总损失函数。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，电子设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储电子设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

电子设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元909，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许电子设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如位置确定方法/地理与视觉跨模态预训练模型的训练方法。例如，在一些实施例中，位置确定方法/地理与视觉跨模态预训练模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到电子设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的位置确定方法/地理与视觉跨模态预训练模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行位置确定方法/地理与视觉跨模态预训练模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种地理与视觉跨模态预训练模型的训练方法，包括：

基于地图数据构建预训练数据集；

根据所述预训练数据集和预训练目标，对待训练模型进行模型训练，得到多视觉任务约束的第一预训练模型。

2.根据权利要求1所述的方法，其中，所述基于地图数据构建预训练数据集，包括：

所述地图数据为历史地图数据的情况下，从所述历史地图数据中筛选出满足第一条件的第三图像信息及与所述第三图像信息对应的第三地理位置信息；

对所述第三图像信息和所述第三地理位置信息进行预处理，得到用于表征图像特征和地理位置编码特征的预处理结果；

根据所述预处理结果，构建所述预训练数据集。

3.根据权利要求2所述的方法，其中，所述第一条件包括：在历史采集次数超过N次的覆盖区域所得到的所述历史地图数据中携带深度图信息；所述N为大于2的正整数。

4.根据权利要求2所述的方法，其中，所述对所述第三图像信息和所述第三地理位置信息进行预处理，得到用于表征图像特征和地理位置编码特征的预处理结果，包括：

对所述第三图像信息进行图像预处理，得到与众包数据分辨率相同的第四图像信息；

对所述第三地理位置信息进行编码预处理，得到第四图像位置编码信息；

对所述第四图像信息进行划分预处理，得到所述第四图像信息中各个图像块；

对所述第四图像信息中各个图像块进行编码预处理，得到所述第四图像信息中各个图像块位置编码信息；

将所述第四图像信息、所述第四图像位置编码信息、所述第四图像信息中各个图像块位置编码信息作为所述预处理结果。

5.根据权利要求2-4中任一项所述的方法，其中，所述根据所述预训练数据集和预训练目标，对待训练模型进行模型训练，得到多视觉任务约束的第一预训练模型，包括：

将从所述预训练数据集获取的所述预处理结果输入所述待训练模型，对所述预处理结果进行所述图像特征和所述地理位置编码特征的第一融合处理，得到第一融合数据；

对所述第一融合数据进行特征提取，得到第一特征；

将所述第一特征和所述地理位置编码特征进行第二融合处理，得到第二特征；

将所述第二特征输入多视觉任务学习框架中，得到用于表征所述多视觉任务学习框架预训练目标的总损失函数；

根据所述总损失函数对所述待训练模型进行所述模型训练，得到所述第一预训练模型。

6.根据权利要求5所述的方法，其中，所述将所述第二特征输入多视觉任务学习框架中，得到用于表征所述多视觉任务学习框架预训练目标的总损失函数，包括：

根据所述多视觉任务学习框架中第一任务对应的第一损失函数、所述多视觉任务学习框架中第二任务对应的第二损失函数、及所述多视觉任务学习框架中第三任务对应的第三损失函数，得到所述总损失函数。

7.一种位置确定方法，包括：

从获取的众包数据中提取第一图像信息及与所述第一图像信息对应的第一地理位置信息；

将所述第一图像信息及所述第一地理位置信息输入多视觉任务约束的第一预训练模型，输出目标特征；

根据所述目标特征，对所述多视觉任务中的任一个视觉任务进行图像处理，得到图像对应的地理位置信息。

8.根据权利要求7所述的方法，其中，所述根据所述目标特征，对所述多视觉任务中的任一个视觉任务进行图像处理，得到图像对应的地理位置信息，包括：

所述任一个视觉任务为第一任务的情况下，对所述第一图像信息进行图像块划分，得到所述第一图像信息中各个图像块；

根据所述目标特征对所述第一图像信息中所述各个图像块进行地理位置信息的预测，得到与所述第一图像信息中所述各个图像块对应的第二地理位置信息。

9.根据权利要求7所述的方法，其中，所述根据所述目标特征，对所述多视觉任务中的任一个视觉任务进行图像处理，得到图像对应的地理位置信息，包括：

所述任一个视觉任务为第二任务的情况下，根据所述目标特征对所述第一图像信息进行深度图信息的预测，得到与所述第一图像信息相关的所述深度图信息。

10.根据权利要求7所述的方法，其中，所述根据所述目标特征，对所述多视觉任务中的任一个视觉任务进行图像处理，得到图像对应的地理位置信息，包括：

所述任一个视觉任务为第三任务的情况下，根据所述目标特征对所述第一图像信息中的目标对象进行预测，得到与所述第一图像信息对应的分割图信息，所述分割图信息用于确定所述目标对象在所述第一图像信息中的位置。

11.根据权利要求7-10中任一项所述的方法，其中，所述多视觉任务约束的第一预训练模型，为：基于所述多视觉任务中的所述任一个视觉任务分别对应的损失函数共同对模型训练进行约束所得到的所述第一预训练模型。

12.根据权利要求7-10中任一项所述的方法，还包括：

对所述第一地理位置信息进行编码，得到第一图像位置编码信息。

13.根据权利要求12所述的方法，其中，所述将所述第一图像信息及所述第一地理位置信息输入多视觉任务约束的第一预训练模型，包括：

将所述第一图像信息及所述第一图像位置编码信息输入所述第一预训练模型。

14.根据权利要求8所述的方法，还包括：

在地图数据坐标系中建立所述第一图像信息与所述第一地理位置信息之间的映射关系；

所述第二地理位置信息，为根据所述映射关系在所述地图数据坐标系中确定的所述第一图像信息中所述各个图像块对应的图像块位置编码信息。

15.一种地理与视觉跨模态预训练模型的训练装置，包括：

构建模块，用于基于地图数据构建预训练数据集；

训练模块，用于根据所述预训练数据集和预训练目标，对待训练模型进行模型训练，得到多视觉任务约束的第一预训练模型。

16.根据权利要求15所述的装置，其中，所述构建模块，用于：

根据所述预处理结果，构建所述预训练数据集。

17.根据权利要求16所述的装置，其中，所述第一条件包括：在历史采集次数超过N次的覆盖区域所得到的所述历史地图数据中携带深度图信息；所述N为大于2的正整数。

18.根据权利要求16所述的装置，其中，所述构建模块，用于：

19.根据权利要求16-18中任一项所述的装置，其中，所述训练模块，用于：

对所述第一融合数据进行特征提取，得到第一特征；

20.根据权利要求19所述的装置，其中，所述训练模块，用于：

21.一种位置确定装置，包括：

提取模块，用于从获取的众包数据中提取第一图像信息及与所述第一图像信息对应的第一地理位置信息；

输入模块，用于将所述第一图像信息及所述第一地理位置信息输入多视觉任务约束的第一预训练模型，输出目标特征；

第一处理模块，用于根据所述目标特征，对所述多视觉任务中的任一个视觉任务进行图像处理，得到图像对应的地理位置信息。

22.根据权利要求21所述的装置，其中，所述第一处理模块，用于：

23.根据权利要求21所述的装置，其中，所述第一处理模块，用于：

24.根据权利要求21所述的装置，其中，所述第一处理模块，用于：

25.根据权利要求21-24中任一项所述的装置，其中，所述输入模块，为：基于所述多视觉任务中的所述任一个视觉任务分别对应的损失函数共同对模型训练进行约束所得到的所述第一预训练模型。

26.根据权利要求21-24中任一项所述的装置，还包括：编码模块，用于：

27.根据权利要求26所述的装置，其中，所述输入模块，用于：

28.根据权利要求22所述的装置，还包括：第二处理模块，用于：

29.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-14中任一项所述的方法。

30.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-14中任一项所述的方法。

31.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-14中任一项所述的方法。