CN110335351B

CN110335351B - 多模态ar处理方法、装置、系统、设备及可读存储介质

Info

Publication number: CN110335351B
Application number: CN201910589238.5A
Authority: CN
Inventors: 张永杰; 陈思利; 刘赵梁
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-07-02
Filing date: 2019-07-02
Publication date: 2023-03-24
Anticipated expiration: 2039-07-02
Also published as: CN110335351A

Abstract

本发明提供一种多模态AR处理方法、装置、系统、设备及可读存储介质，通过获取用户请求数据，其中，所述用户请求数据包括待处理帧图像和用户位置信息；从所述待处理帧图像中，获取目标物体图像；在多个预建模型中，获取与所述目标物体图像和所述用户位置信息相对应的目标模型，其中，所述预建模型是根据与物体类型对应的模型建立方式建立的三维模型；根据所述目标模型，获取与所述待处理帧图像对应的AR数据，从而兼容了多种适应不同场景的地图构建方式构建的预建模型，提高了AR处理的准确性和可靠性。

Description

多模态AR处理方法、装置、系统、设备及可读存储介质

技术领域

本发明涉及信号处理技术，尤其涉及一种多模态AR处理方法、装置、系统、设备及可读存储介质。

背景技术

随着增强现实(Augmented Reality，简称：AR)交互技术的发展，逐步将室内的交互体验扩展至户外的物理世界。在一些基于位置服务的AR应用中，根据用户的不同需求，可能需要对不同类型的物体进行AR跟踪和处理。因此如何提高AR处理的鲁棒性和可靠性，是目前AR处理中亟需解决的问题之一。

现有的AR处理方法中，通常是基于多视角的重建方式进行二维到三维特征的地图重建，基于地图中的点云数据对用户请求图像中的目标对象进行跟踪和AR模型的叠加处理。

然而，在用户请求图像中目标对象的类型多种多样，对于纹理特征丰富的目标对象，或者是难以进行多视角采集的目标对象，现有技术中依靠基于多视角的重建方式重建地图难度较大且准确性不高，导致最终的AR处理效果不佳。因此，现有的AR处理方法可靠性不够高。

发明内容

本发明实施例提供一种多模态AR处理方法、装置、系统、设备及可读存储介质，提高了AR处理的可靠性。

本发明实施例的第一方面，提供一种多模态AR处理方法，包括：

获取用户请求数据，其中，所述用户请求数据包括待处理帧图像和用户位置信息；

从所述待处理帧图像中，获取目标物体图像；

在多个预建模型中，获取与所述目标物体图像和所述用户位置信息相对应的目标模型，其中，所述预建模型是根据与物体类型对应的模型建立方式建立的三维模型；

根据所述目标模型，获取与所述待处理帧图像对应的AR数据。

本发明实施例的第二方面，提供一种多模态AR处理装置，包括：

获取模块，用于获取用户请求数据，其中，所述用户请求数据包括待处理帧图像和用户位置信息；

识别模块，用于从所述待处理帧图像中，获取目标物体图像；

处理模块，用于在多个预建模型中，获取与所述目标物体图像和所述用户位置信息相对应的目标模型，其中，所述预建模型是根据与物体类型对应的模型建立方式建立的三维模型；

AR模块，用于根据所述目标模型，获取与所述待处理帧图像对应的AR数据。

本发明实施例的第三方面，提供一种系统，包括：用户终端和服务器；

所述用户终端用于从摄像头获取待处理帧图像，并根据所述待处理帧图像和用户位置信息想所述服务器发送用户请求数据；以及从所述服务器接收AR数据；

所述服务器用于执行本发明第一方面及第一方面各种可能设计的所述多模态AR处理方法，得到所述AR数据。

本发明实施例的第四方面，提供一种设备，包括：存储器、处理器以及计算机程序，所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序执行本发明第一方面及第一方面各种可能设计的所述多模态AR处理方法。

本发明实施例的第五方面，提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现本发明第一方面及第一方面各种可能设计的所述多模态AR处理方法。

本发明提供的一种多模态AR处理方法、装置、系统、设备及可读存储介质，通过获取用户请求数据，其中，所述用户请求数据包括待处理帧图像和用户位置信息；从所述待处理帧图像中，获取目标物体图像；在多个预建模型中，获取与所述目标物体图像和所述用户位置信息相对应的目标模型，其中，所述预建模型是根据与物体类型对应的模型建立方式建立的三维模型；根据所述目标模型，获取与所述待处理帧图像对应的AR数据，从而兼容了多种适应不同场景的地图构建方式构建的预建模型，提高了AR处理的准确性和可靠性。

附图说明

图1是本发明实施例提供的一种应用场景示意图；

图2是本发明实施例提供的一种多模态AR处理方法流程示意图；

图3是本发明提供的另一种多模态AR处理方法流程示意图；

图4是本发明提供的一种多模态AR处理装置结构示意图；

图5是本发明实施例提供的一种设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

应当理解，在本发明的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

应当理解，在本发明中，“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本发明中，“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含，“包含A、B或C”是指包含A、B、C三者之一，“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。

应当理解，在本发明中，“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”，表示B与A相关联，根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。A与B的匹配，是A与B的相似度大于或等于预设的阈值。

应当理解，在本发明中，术语“IMU信息”是由用户终端内置的IMU单元测量得到的用于指示用户终端三轴姿态角(或角速率)以及加速度的信息。IMU单元通常包含了三个单轴的加速度计和三个单轴的陀螺，加速度计检测用户终端在用户终端坐标系统独立三轴的加速度信号，而陀螺检测用户终端相对于导航坐标系的角速度信号，测量用户终端在三维空间中的角速度和加速度，并以此解算出用户终端的姿态。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

在目前AR处理方法的地图构建阶段，通常通过对主体目标进行多角度拍摄得到多个视角采集图像，并进行视觉匹配后恢复主体目标的三维几何，最终生成主体目标的三维点云数据。这些三维点就是地图点，而其中每个三维点都附加有特征描述信息。在视觉定位阶段，从用户定位请求的待处理帧图像中提取特征点描述信息，与地图数据中的地图点的特征描述信息进行匹配，由此建立2D至3D的关联性并对待处理帧图像中的物体进行视觉定位。最后根据视觉定位信息在待处理帧图像上叠加显示具有AR效果的AR信息，完成AR处理。

然而，现有技术中在地图构建阶段需要对主体目标进行多角度采集图像，才能进行三维重建。而对于超大型的建筑物，进行地图构建的成本巨大。例如对大型体育馆、地标高塔等建筑物，现有技术在预先采集建筑物的图像数据时需要围绕建筑物实地采集，不仅需要非常高的采集成本，还由于数据采集时需满足一定的几何关系、同时建筑物上的纹理特性丰富，该类建筑物主体所在的图像屏占比极低，因此以现有的三维重建算法构建地图难度较大。可见，现有技术中依靠基于多视角的重建方式重建地图难度较大且准确性不高，导致最终的AR处理效果不佳。因此，现有的AR处理方法可靠性不够高。

为了解决现有技术中存在的问题，本发明实施例提供一种多模态AR处理方法，充分考虑了实际物理场景中物体数据的特性，根据与物体类型对应的模型建立方式建立各物体的三维模型，根据不同的物体选择相应的模型进行匹配，实现多模态的场景解决方案。本发明实施例兼容了多种适应不同场景的地图构建方式，降低了地图构建难度，提高了准确性和可靠性。

参见图1，是本发明实施例提供的一种应用场景示意图。图1所示的应用场景中示意了由用户终端1和服务器2构成的系统。用户手持用户终端1对周围的地标建筑物拍摄视频帧图像并上传至服务器2。服务器2接收到视频帧图像后，从预存储的以适应物体类型的方式建立的多个预建模型，对用户拍摄的包括地标建筑的视频帧图像进行多模态AR处理，向用户终端1返回AR数据，以使得用户终端1实时在视频帧图像上对地标建筑物显示叠加翅膀动画和文字(XX教堂)的AR效果。

参见图2，是本发明实施例提供的一种多模态AR处理方法流程示意图，图2所示方法的执行主体可以是软件和/或硬件装置，例如可以是图1所示应用场景中的服务器，或者是服务器中的软件模块。下面以服务器为执行为例对各种实施例进行举例说明。图2所示方法包括步骤S101至步骤S104，具体如下：

S101，获取用户请求数据，其中，所述用户请求数据包括待处理帧图像和用户位置信息。

用户在例如用户终端的游戏应用程序或者娱乐应用程序中，将摄像头对地标建筑进行拍摄，并将实时获取到的视频以用户请求数据实时上传至服务器。服务器从视频信息中获取到多个待处理帧图像。同时，用户在上传的用户请求数据中还包括了用户位置信息。用户位置信息例如可以是全球定位系统(Global Positioning System，简称：GPS)信息和惯性测量单元(Inertial measurement unit，简称：IMU)信息。其中，GPS信息可以用于指示待处理帧图像大致的绝对位置，可用于粗定位。IMU信息可以用于指示待处理帧图像的拍摄位姿信息，可用户在粗定位基础上进一步定位。

S102，从所述待处理帧图像中，获取目标物体图像。

假如获取到目标物体图像，则进行后续的AR处理，假如获取不到目标物体图像，例如用户拍摄的待处理帧图像中没有包含可供AR处理的标志建筑，那么停止AR处理步骤。

获取目标物体图像的方式可以有多种。在一些实施例中，对一些物体和全景场景预建了三维模型，且三维模型的构建方式又可以根据具体物体的特征而有多种选择。那么，可以对这两类模型对应的待处理帧图像进行AR处理。例如，可以先对待处理帧图像进行目标检测，如果检测到例如地标建筑的目标物体，则将待处理帧图像中包含的该地标建筑的图像作为目标物体图像，以目标物体作为AR处理的对象。如果检测不到目标物体，则进行场景识别，若识别为全景类型图，则将整个待处理帧图像作为获取到的目标物体图像，例如用户在山顶鸟瞰场景拍摄的俯视图，无法检测到具体的目标，则以整幅图作为AR处理的对象。其中，可选地，进行目标检测得到的目标物体，都是预先建立了三维模型的物体。而识别为全景类型图的待处理帧图像，都是能与预建的全景三维图匹配上的，例如预先建立了山顶周围的全景三维图。

也可以先进行场景识别，在确定不是全景类型图时进行目标检测。假如全景识别和目标检测都失败，表明待处理帧图像既不包含可进行AR处理的单个物体，也不是可进行全景AR处理的全景类型图，则可以不做处理，或向用户提示未检测到可添加AR特性的目标。

S103，在多个预建模型中，获取与所述目标物体图像和所述用户位置信息相对应的目标模型，其中，所述预建模型是根据与物体类型对应的模型建立方式建立的三维模型。

服务器中可以预先存储有多种预建模型，参见图3，是本发明提供的另一种多模态AR处理方法流程示意图。服务器接收到用户请求数据后，对用户请求数据进行数据预分析，确定能够对该用户请求数据中待处理帧图像进行匹配的目标模型，然后转入该目标模型对应的视觉定位处理流程、或者CAD模型定位处理流程，或者全景三维处理流程，或者是其他AR跟踪定位流程。具体的AR跟踪定位流程是依据该目标模型的建立方式而确定的。

在一些实施例中，多个预建模型可以包括对单个物体建立的第一类模型和/或对全景场景建立的第二类模型。其中，对单个物体建立三维模型的方式可以有多种，例如基于视觉定位的三维点云重建三维模型，或者是基于计算机辅助设计建立的三维模型。计算机辅助设计例如是CAD建模。在对一些形状有规律的建筑物进行三维建模时，采用多视角图像采集的工程量较大，则可以采用引入物体(真实建筑物)的GPS信息和IMU信息的CAD建模的方式预先建立三维模型，由此，提高三维模型的准确性。上述第一类模型可以包括：三维点云类模型和计算机辅助设计类模型。所述第二类模型可以包括：三维全景模型。三维全景模型的构建方式例如可以是以计算虚拟深度的方式进行模型构建。本发明中对单个物体和全景场景建模的方式应根据对象特征而采用相应的建模方式，不限于上述提到的各种可能。

为了提高模型选择中的准确性，每个预建模型都附加有位置属性，例如可以是坐标信息。用户位置信息体现了用户拍摄到目标物体图像时的拍摄位置，由此，可以根据用户位置信息和预建模型的位置属性的匹配程度，粗定位可用于对目标物体图像进行匹配的模型。

在一些实施例中，步骤S103可以是服务器根据多个预建模型的位置属性和所述用户位置信息，在多个预建模型中确定至少一个附近模型，其中，所述附近模型是位置属性与所述用户位置信息相匹配的预建模型。这种匹配可以理解为与用户位置信息指示的位置距离最近的预设个数的预建模型，例如离用户位置最近的3个预建模型都作为附近模型。或者，可以理解为位置属性指示位置和所述用户位置信息指示位置之间距离在预设距离阈值之内。例如，可以根据所述用户位置信息，获取位置匹配范围。在用户位置信息指示了用户位置的实施例中，假设预设范围半径为1000米，那么位置匹配范围可以是以用户位置信息指示位置为中心，以1000米为半径的范围。在用户位置信息指示了用户位置和拍摄朝向的实施例中，可以是以用户位置为边缘，结合拍摄朝向确定位置匹配范围。例如，用户位置信息可以包括：全球定位系统GPS信息和惯性测量单元IMU信息。那么，服务器可以根据所述用户位置信息，获取位置匹配范围的方式，例如可以是根据所述GPS信息，获取用户拍摄位置；根据所述IMU信息，获取用户拍摄朝向信息。然后根据所述用户拍摄位置和所述用户拍摄朝向信息，获取位置匹配范围。确定位置匹配范围后，服务器获取多个预建模型的位置属性，并将位置属性指示位置在所述位置匹配范围之内的所述预建模型，作为附近模型。

在同以上述各种可能的实施例确定了附近模型之后，附近模型可以有一个或者多个。

在附近模型只有一个的实施例中，该附近模型就是与所述目标物体图像相似度最高的附近模型，服务器直接将附近模型作为目标模型。

而在附近模型有多个的实施例中，服务器再根据所述目标物体图像，在所述至少一个附近模型中确定目标模型，其中，所述目标模型是所述至少一个附近模型中与所述目标物体图像相似度最高的附近模型。例如，服务器获取各所述附近模型的关键帧图像，其中，所述关键帧图像是所述附近模型在预设的多个三维姿态下的投影图像。例如体育馆的三维模型在正向、左向、右向、背向的头像，分别得到四个关键帧图像。又例如全景三维图像对上方、各种角度斜上方的投影得到多个关键帧图像。这些关键帧图像可以是在模型构建完成后就获取并对应存储的。然后，服务器将各所述附近模型的关键帧图像与所述目标物体图像比较，获取各所述附近模型与所述目标物体图像的相似度，其中，所述附近模型对应的相似度是所述附近模型的各所述关键帧图像与所述目标物体图像的相似度总和。例如，目标物体图像与体育馆模型的四个关键帧图像进行比较，分别得到4个子相似度值，这4个子相似度值的总和作为体育馆模型与目标物体图像的相似度。最终，服务器将所述相似度最高的附近模型，作为目标模型。通过关键帧图像进行目标模型的确定，提高了选择目标模型的准确性。

S104，根据所述目标模型，获取与所述待处理帧图像对应的AR数据。

在根据上述各种实现方式得到与目标物体图像对应的目标模型后，以该目标模型对待处理帧图像进行相应的AR处理，得到AR数据。例如，以所述目标模型对所述待处理帧图像中目标物体图像指示的目标物体进行定位和跟踪处理，获取目标物体的三维位姿信息；根据AR模型和所述三维位姿信息，获取用于形成对所述目标物体图像AR叠加显示的AR数据，其中，所述AR模型为预设的与所述目标模型对应的AR模型，或者为根据用户操作指定的AR模型。

本实施例中上述各种预建模型的构建方法不限定于CAD模型，也可以是其他模型构建方式，通过对多种建模方式得到的三维模型的兼容实现多模态的AR处理，并通过降低传统视觉定位流程中所必须的数据采集成本，或提高三维模型的准确性，来提高多模态AR处理的可靠性。

本实施例提供的一种多模态AR处理方法、装置、系统、设备及可读存储介质，通过获取用户请求数据，其中，所述用户请求数据包括待处理帧图像和用户位置信息；从所述待处理帧图像中，获取目标物体图像；在多个预建模型中，获取与所述目标物体图像和所述用户位置信息相对应的目标模型，其中，所述预建模型是根据与物体类型对应的模型建立方式建立的三维模型；根据所述目标模型，获取与所述待处理帧图像对应的AR数据，从而兼容了多种适应不同场景的地图构建方式构建的预建模型，提高了AR处理的准确性和可靠性。

参见图4，是本发明提供的一种多模态AR处理装置结构示意图。如图4所示的多模态AR处理装置30，包括：

获取模块31，用于获取用户请求数据，其中，所述用户请求数据包括待处理帧图像和用户位置信息。

识别模块32，用于从所述待处理帧图像中，获取目标物体图像。

处理模块33，用于在多个预建模型中，获取与所述目标物体图像和所述用户位置信息相对应的目标模型，其中，所述预建模型是根据与物体类型对应的模型建立方式建立的三维模型。

AR模块34，用于根据所述目标模型，获取与所述待处理帧图像对应的AR数据。

图4所示实施例的多模态AR处理装置对应地可用于执行图2所示方法实施例中服务器执行的步骤，其实现原理和技术效果类似，此处不再赘述。

可选地，所述处理模块33，用于根据多个预建模型的位置属性和所述用户位置信息，在多个预建模型中确定至少一个附近模型，其中，所述附近模型是位置属性与所述用户位置信息相匹配的预建模型；根据所述目标物体图像，在所述至少一个附近模型中确定目标模型，其中，所述目标模型是所述至少一个附近模型中与所述目标物体图像相似度最高的附近模型。

可选地，所述处理模块33，用于获取各所述附近模型的关键帧图像，其中，所述关键帧图像是所述附近模型在预设的多个三维姿态下的投影图像；将各所述附近模型的关键帧图像与所述目标物体图像比较，获取各所述附近模型与所述目标物体图像的相似度，其中，所述附近模型对应的相似度是所述附近模型的各所述关键帧图像与所述目标物体图像的相似度总和；将所述相似度最高的附近模型，作为目标模型。

可选地，所述处理模块33，用于根据所述用户位置信息，获取位置匹配范围；获取多个预建模型的位置属性，并将位置属性指示位置在所述位置匹配范围之内的所述预建模型，作为附近模型。

可选地，所述用户位置信息包括：全球定位系统GPS信息和惯性测量单元IMU信息。

相应地，所述处理模块33，用于根据所述GPS信息，获取用户拍摄位置；根据所述IMU信息，获取用户拍摄朝向信息；根据所述用户拍摄位置和所述用户拍摄朝向信息，获取位置匹配范围。

可选地，所述多个预建模型包括对单个物体建立的第一类模型和/或对全景场景建立的第二类模型。所述第一类模型包括：三维点云类模型、计算机辅助设计类模型。所述第二类模型包括：三维全景模型。

可选地，AR模块34，用于以所述目标模型对所述待处理帧图像中目标物体图像指示的目标物体进行定位和跟踪处理，获取目标物体的三维位姿信息；根据AR模型和所述三维位姿信息，获取用于形成对所述目标物体图像AR叠加显示的AR数据，其中，所述AR模型为预设的与所述目标模型对应的AR模型，或者为根据用户操作指定的AR模型。

本发明还提供了如图1所示的系统，该系统包括：用户终端和服务器。所述用户终端用于从摄像头获取待处理帧图像，并根据所述待处理帧图像和用户位置信息想所述服务器发送用户请求数据；以及从所述服务器接收AR数据；所述服务器用于执行上述方法实施例中所述的多模态AR处理方法，得到所述AR数据。

参见图5，是本发明实施例提供的一种设备的硬件结构示意图，该设备40包括：处理器41、存储器42和计算机程序；其中

存储器42，用于存储所述计算机程序，该存储器还可以是闪存(flash)。所述计算机程序例如是实现上述方法的应用程序、功能模块等。

处理器41，用于执行所述存储器存储的计算机程序，以实现上述多模态AR处理方法中服务器执行的各个步骤。具体可以参见前面方法实施例中的相关描述。

可选地，存储器42既可以是独立的，也可以跟处理器41集成在一起。

当所述存储器42是独立于处理器41之外的器件时，所述设备还可以包括：

总线43，用于连接所述存储器42和处理器41。图5的设备还可以进一步包括发送器(图中未画出)，用于向用户终端发送处理器41生成的AR数据。

本发明还提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现上述的各种实施方式提供的多模态AR处理方法。

其中，可读存储介质可以是计算机存储介质，也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如，可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(ApplicationSpecific Integrated Circuits，简称：ASIC)中。另外，该ASIC可以位于用户设备中。当然，处理器和可读存储介质也可以作为分立组件存在于通信设备中。可读存储介质可以是只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本发明还提供一种程序产品，该程序产品包括执行指令，该执行指令存储在可读存储介质中。设备的至少一个处理器可以从可读存储介质读取该执行指令，至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的多模态AR处理方法。

在上述设备的实施例中，应理解，处理器可以是中央处理单元(英文：CentralProcessing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：DigitalSignal Processor，简称：DSP)、专用集成电路(英文：Application Specific IntegratedCircuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种多模态AR处理方法，其特征在于，包括：

从所述待处理帧图像中，获取目标物体图像；

根据所述目标模型，获取与所述待处理帧图像对应的AR数据；

所述在多个预建模型中，获取与所述目标物体图像和所述用户位置信息相对应的目标模型，包括：

在多个预建模型中，确定与所述用户位置信息相匹配的至少一个附近模型；

获取各所述附近模型的关键帧图像，其中，所述关键帧图像是所述附近模型在预设的多个三维姿态下的投影图像；

将各所述附近模型的关键帧图像与所述目标物体图像比较，获取各所述附近模型与所述目标物体图像的相似度，其中，所述附近模型对应的相似度是所述附近模型的各所述关键帧图像与所述目标物体图像的相似度总和；

将所述相似度最高的附近模型，作为目标模型。

2.根据权利要求1所述的多模态AR处理方法，其特征在于，所述在多个预建模型中，确定与所述用户位置信息相匹配的至少一个附近模型，包括：

根据多个预建模型的位置属性和所述用户位置信息，在多个预建模型中确定至少一个附近模型，其中，所述附近模型是位置属性与所述用户位置信息相匹配的预建模型。

3.根据权利要求2所述的多模态AR处理方法，其特征在于，所述根据多个预建模型的位置属性和所述用户位置信息，在多个预建模型中确定至少一个附近模型，包括：

根据所述用户位置信息，获取位置匹配范围；

获取多个预建模型的位置属性，并将位置属性指示位置在所述位置匹配范围之内的所述预建模型，作为附近模型。

4.根据权利要求3所述的多模态AR处理方法，其特征在于，所述用户位置信息包括：全球定位系统GPS信息和惯性测量单元IMU信息；

所述根据所述用户位置信息，获取位置匹配范围，包括：

根据所述GPS信息，获取用户拍摄位置；

根据所述IMU信息，获取用户拍摄朝向信息；

根据所述用户拍摄位置和所述用户拍摄朝向信息，获取位置匹配范围。

5.根据权利要求1至4任一所述的多模态AR处理方法，其特征在于，所述多个预建模型包括对单个物体建立的第一类模型和/或对全景场景建立的第二类模型；

所述第一类模型包括：三维点云类模型、计算机辅助设计类模型；

所述第二类模型包括：三维全景模型。

6.根据权利要求1至4任一所述的多模态AR处理方法，其特征在于，所述根据所述目标模型，获取与所述待处理帧图像对应的AR数据，包括：

以所述目标模型对所述待处理帧图像中目标物体图像指示的目标物体进行定位和跟踪处理，获取目标物体的三维位姿信息；

根据AR模型和所述三维位姿信息，获取用于形成对所述目标物体图像AR叠加显示的AR数据，其中，所述AR模型为预设的与所述目标模型对应的AR模型，或者为根据用户操作指定的AR模型。

7.一种多模态AR处理装置，其特征在于，包括：

AR模块，用于根据所述目标模型，获取与所述待处理帧图像对应的AR数据

所述处理模块，具体用于：

将所述相似度最高的附近模型，作为目标模型。

8.一种系统，其特征在于，包括：用户终端和服务器；

所述服务器用于执行权利要求1至6任一所述的多模态AR处理方法，得到所述AR数据。

9.一种设备，其特征在于，包括：存储器、处理器以及计算机程序，所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序执行权利要求1至6任一所述的多模态AR处理方法。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现权利要求1至6任一所述的多模态AR处理方法。