CN115797602A

CN115797602A - 一种基于物体定位添加ar讲解的方法及设备

Info

Publication number: CN115797602A
Application number: CN202211330087.XA
Authority: CN
Inventors: 宗达; 孟亚州; 曹帅
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2022-10-27
Filing date: 2022-10-27
Publication date: 2023-03-14

Abstract

本申请涉及AR技术领域，提供一种基于物体定位添加AR讲解的方法及设备，用于提高AR讲解添加的速度和AR讲解与目标物体的贴图度。该方法采用2D目标检测模型对采集的目标物体的图像进行检测，相对于3D目标检测算法，检测速度更快，且对相机的要求较低；根据检测出的目标物体的多个关键点的2D像素坐标和3D世界坐标以及相机参数，快速、准确的定位出目标物体在相机坐标系下的位姿信息，并根据位姿信息中目标物体与相机间的距离，自适应确定AR讲解的内容信息的目标尺寸，这样，按照目标尺寸将AR讲解的内容叠加显示在图像中时，AR讲解与目标物体会更加贴合，从而有效提升增强现实与真实感官的互动体验。

Description

一种基于物体定位添加AR讲解的方法及设备

技术领域

本申请涉及增强现实(Augmented Reality，AR)技术领域，提供一种基于物体定位添加AR讲解的方法及设备。

背景技术

在旅游行业中，物体本身往往不能向普通的游客传达出足够的信息，而大段的文字介绍又显得枯燥无味。随着移智能时代的到来，AR技术在旅游行业落地。

AR技术是一种将真实世界信息与虚拟世界信息″无缝″结合的技术。它通过实时计算摄影机相对于影像的位置及角度，再加上相应图像、视频、3D模型，把原本在现实世界的一定时间空间范围内很难体验到的实体信息，通过模拟仿真后再叠加，将虚拟信息应用到真实世界，被人类感官所感知，实现对真实世界的″增强″。因此，将AR技术应用在旅游行业，不但能创意改造旅游体验场景，更能跨越时空和区域的限制给予游客身临其境的感官体验。

由于AR技术是将虚拟信息叠加在真实世界的物体上的，因此，物体的位置直接影响了AR讲解(即虚拟信息)的添加效果。如果物体定位不准确，会降低虚实结合的交互体验。

因此，提高添加AR讲解的物体的定位精度，以提升虚实结合的互动体验是亟待解决的问题。

发明内容

本申请实施例提供了一种基于物体定位添加AR讲解的方法及设备，用于提高添加AR讲解的物体的定位精度，进而提升增强现实与真实感官的互动体验。

一方面，本申请实施例提供一种基于物体定位添加AR讲解的方法，包括：

获取相机采集的目标物体的图像；

对所述图像进行2D目标检测，并根据检测结果获取所述目标物体的属性信息，以及所述目标物体的多个关键点的2D像素坐标，其中，所述属性信息至少包含所述多个关键点的3D世界坐标和所述目标物体的AR讲解的内容信息；

根据所述多个关键点的2D像素坐标和3D世界坐标，以及预先标定的相机参数，确定所述目标物体相对于所述相机的位姿信息；

根据所述位姿信息中所述目标物体与所述相机间的距离，确定所述内容信息的目标尺寸；

按照所述目标尺寸，将所述AR讲解的内容信息叠加显示在所述目标物体的图像中。

另一方面，本申请实施例提供一种客户端设备，包括相机、处理器、存储器和显示屏，所述相机、所述显示屏、所述存储器和所述处理器通过总线连接；

所述存储器存储有计算机程序，所述处理器根据所述计算机程序，执行以下操作：

获取所述相机采集的目标物体的图像；

按照所述目标尺寸，通过所述显示屏将所述AR讲解的内容信息叠加显示在所述目标物体的图像中。

可选的，所述处理器按照所述目标尺寸，将所述AR讲解的内容信息叠加显示在所述目标物体的图像中，具体操作为：

根据所述多个关键点的2D像素坐标确定所述目标物体的2D中心点和AR讲解拐点；

根据所述AR讲解拐点，确定所述AR讲解的内容信息在所述目标物体的图像中的叠加位置；

从所述2D中心点开始、经过所述AR讲解拐点做指向所述叠加位置的连线，并在所述叠加位置处，按照所述目标尺寸显示所述AR讲解的内容信息。

可选的，当所述图像中检测出的目标物体的数量有多个时，所述处理器根据所述位姿信息中所述目标物体与所述相机间的距离，确定所述内容信息的目标尺寸，具体操作为：

当第一目标物体与所述相机间的第一距离小于第二目标物体与所述相机间的第二距离时，确定所述第一目标物体对应的AR讲解的第一内容信息的第一目标尺寸，大于所述第二目标物体对应的AR讲解的第二内容信息的第二目标尺寸。

可选的，所述第一目标尺寸和所述第二目标尺寸的大小，满足以下条件：

所述第一目标物体对应的AR讲解的第一内容信息，不覆盖所述第二目标物体对应的AR讲解的第二内容信息。

可选的，当所述图像中检测出多个目标物体时，所述处理器还执行：

在所述图像中不叠加显示都相机的距离大于预设距离阈值的目标物体对应的AR讲解的内容信息。

可选的，当所述图像中检测出多个目标物体时，所述处理器按照所述目标尺寸，将所述AR讲解的内容信息叠加显示在所述目标物体的图像中，具体操作为：

针对位于所述图像中心的一个目标物体，按照所述目标物体的目标尺寸，在所述图像中叠加显示所述目标物体的AR讲解的内容信息。

可选的，将所述目标物体的AR讲解的内容信息叠加显示在所述图像中之后，所述处理器还执行：

响应于对所述目标物体的图像的缩放操作，根据所述缩放操作的缩放比例，同比例调整所述AR讲解的内容信息的尺寸。

可选的，所述AR讲解的内容信息包括文字、视频中的至少一项。

另一方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机设备执行本申请实施例提供的基于物体定位添加AR讲解的方法。

本申请实施例提供的基于物体定位添加AR讲解的方法及设备中，采用2D目标检测模型对采集的目标物体的图像进行检测，相对于3D目标检测算法，检测速度更快，且对相机的要求较低；通过检测结果获取对目标物体进行AR讲解的内容信息，以及目标物体的多个关键点的2D像素坐标和3D世界坐标，并根据2D与3D间的投影关系，快速、准确的定位出目标物体在相机坐标系下的位姿信息，定位精度较高；进一步的，根据位姿信息中目标物体与相机间的距离，自适应确定AR讲解的内容信息的目标尺寸，这样，按照目标尺寸将AR讲解的内容叠加显示在图像中时，AR讲解与目标物体会更加贴合，从而有效提升增强现实与真实感官的互动体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1A为本申请实施例提供的一种室外景点中应用AR技术的场景示意图；

图1B为本申请实施例提供的为室外景点中的物体添加AR讲解的效果图；

图2为本申请实施例提供的一种室内景点中添加AR讲解的场景示意图；

图3为本申请实施例提供的训练数据的标注示意图；

图4为本申请实施例提供的基于物体定位添加AR讲解的方法流程图；

图5为本申请实施例提供的2D目标检测效果图；

图6为本申请实施例提供的世界坐标系、相机坐标系和图像坐标系间的投影关系；

图7为本申请实施例提供的物体位姿信息计算方法流程图；

图8为本申请实施例提供的P3P原理示意图；

图9为本申请实施例提供的不同的目标物体与相机间的距离对应的内容信息的尺寸大小效果图；

图10为本申请实施例提供的叠加显示的方法流程图；

图11为本申请实施例提供的叠加位置确定过程示意图；

图12为本申请实施例提供的距离与目标尺寸的关系图；

图13为本申请实施例提供的AR讲解的内容信息覆盖效果图；

图14为本申请实施例提供的物体与相机的距离远近对AR讲解显示影响示意图；图15为本申请实施例提供的物体在图像中的位置对AR讲解显示影响示意图；

图16为本申请实施例提供的不同物体的AR讲解的内容信息的切换示意图；

图17为本申请实施例提供的物体与AR讲解的缩放示意图；

图18为本申请实施例提供的客户端设备的结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

AR技术带来的虚实结合、实时交互与三维沉浸方式，将为旅游行业赋予更多的价值，利用AR增强现实助力景点实现全面智能化升级，让游客与景点中的物体实现实时互动，改变了游客的消费体验方式，为游客带来更全面的消费体验。

例如，如图1A所示，为本申请实施例提供的一种室外景点中应用AR技术的场景示意图，当游客需要了解景点中的某一建筑物时，采集该建筑物的图像，通过对图像中的建筑物进行识别，获取该建筑物的讲解，并以AR特效的方式叠加显示在建筑物图像中，如图1B所示。

再例如，如图2所示，为本申请实施例提供的一种室内景点中应用AR技术的场景示意图，当游客需要了解博物馆中的某一文物时，将相机对准该文物采集图像，采用AI算法对图像进行检索，得到输出该文物的标识信息，通过标识信息索引到讲解内容，并以AR特效的方式显示到客户端设备。

目前，为景点中物体添加AR讲解的方法有很多，主要分为基于游客位置的添加方法，以及基于物体位置的添加方法。

基于游客位置的添加方法是通过定位游客在景点中的位置，使用AR特效讲解该位置处的物体。

例如，游客进入景点后佩戴AR眼镜该AR眼镜按照预设观光路线指引游客进行参观，通过获取游客在预设观光路线中的位置，为该位置处对应的视频帧中的物体添加AR讲解。然而，预设观光路线可能会导致人群拥堵，且游客无法按自己的喜好灵活参观，体验较差。

再例如，预先为景点中的物体构建地图，通过GPS信号定位游客的位置，并为游客使用AR特效播放该位置处物体的讲解，然而，GPS信号受环境的影响较大，一些景点(如森林、石窟等)可能无法使用GPS信号定位。

其中，基于游客位置的添加方法的共有缺点为，由于是基于游客位置添加的AR讲解，物体与AR讲解的贴合度较差。

基于物体位置的添加方法是基于图像定位物体在景点中的位置，从而使用AR特效讲解该位置处的物体，相对于基于游客位置的添加方法，能够增加物体与AR讲解的贴合度，且实现方式更加灵活，智能化更强。

例如，考虑到物体在景点中的位置一般是固定不变的，因此，基于物体在景点中的位置和标识等信息，为景点中的物体添加二维码图片，当游客扫描二维码图片时，使用AR特效对相应物体进行讲解，然而，一旦二维码图片不清晰，将会导致AR讲解添加失败。

再例如，根据采集的物体图像提取3D点云数据，采用基于深度学习的3D目标检测算法(如MV3D-Net，F-pointNet等)，使用3D点云数据进行物体定位(包括但不限于物体位置、距离AR眼镜上目标相机的远近和物体的朝向)。然而，3D点云数据一般需要深度相机等特殊设备，数据获取不易，定位时间较长。

鉴于此，本申请实施例提供了一种基于物体定位添加AR讲解的方法及设备，采用2D目标检测模型获取真实物体的像素坐标，结合真实物体的大小，通过位姿估计算法(PNP)，定位出该真实物体相对于相机的位姿信息，并基于该位姿信息，为真实物体添加AR讲解。具有定位速度快、定位精度高的优势，使得AR讲解与真实物体更加贴合，从而提升用户在游览过程中的增强现实与真实感官的互动体验。

基于物体定位添加AR讲解的方法，需要对相机采集的图像进行目标检测，为了保证检测速度，本申请实施例采用2D目标检测模型检测真实世界中的物体。通过将训练好的2D目标检测模型部署在客户端设备(包括但不限于智能手机、平板、头戴式显示设备等)，从而实时显示检测出的目标物体的AR讲解。其中，为对2D目标检测模型进行训练，需要预先生成训练数据集。

本申请实施例中，生成训练数据集时，可以采用各景点已有的物体的图像，也可以采用新拍摄的各景点的物体的图像，并对物体进行标注，得到物体的真实尺寸(如：长度、宽度、高度等)、编码、以及用于AR讲解的内容信息等属性信息。

以博物馆内著名图画检测场景为例，如图3所示，为生成用于对2D目标检测模型进行训练的训练数据集时，著名图画的标注过程，通过著名图画的四个角点，得到著名图画的真实尺寸，标注结果表1所示。

表1、著名图画的标注结果

编码	真实尺寸(厘米/cm)	AR讲解的内容信息
			ID1	(宽：w1，长：h2)	名称、作者、寓意等
ID2	(宽：w2，长：h2)	名称、作者、寓意等

生成训练数据集后，对2D目标检测模型进行训练。可选的，本申请实施例对2D目标检测的算法不做限制性要求，例如，可以是YOLO算法，还可以是SSD(Single Shot MultiBoxDetector)算法。

本申请的实施例中，将训练好的2D目标检测模型部署于客户端设备(包括但不限于智能手机、平板、头戴式显示设备等)，便可实现基于物体定位添加AR讲解的方法流程，参见图4，主要包括以下几步：

S401：获取相机采集的目标物体的图像。

当用户想要了解景点内的目标物体时，打开客户端设备上的AR应用，该AR应用能够自动开启客户端设备的相机，实时采集目标物体的图像。

可选的，客户端设备的相机为普通的单目RGB相机。

S402：对图像进行2D目标检测，并根据检测结果获取目标物体的属性信息，以及目标物体的多个关键点的2D像素坐标。

将相机实时采集的图像输入到训练好的2D目标检测模型中，当检测到目标物体时，输出目标物体的多个关键点的2D像素坐标，以及该目标物体的属性信息；当未检测到目标物体时，给出提示以提醒用户重新拍摄，或者自动返回相机的拍摄状态。

由上述标注过程可知，目标物体的属性信息至少包含目标物体的编码、真实尺寸和AR讲解的内容信息，因此，根据目标物体属性信息中的真实尺寸，建立世界坐标系，可以得到目标物体的多个关键点的3D世界坐标，即目标物体的真实尺寸反映了该物体的多个关键点在世界坐标系下的3D坐标。

例如，以博物馆内著名图画检测场景为例，如图5所示，利用2D目标检测模型检测到该著名图画(在图5中用粗实线圈出)后，输出该著名图画的四个角点(即关键点)的2D像素坐标，分别为：左上角a(1101，949)、左下角b(1101，2213)、右上角c(1933，949)、右下角d(1933，2213)。同时，2D目标检测模型还会输出该著名图画的真实尺寸(w1，h1)，得到该著名图画四个角点(即关键点)在世界坐标系下的3D世界坐标分别为：左上角A(0，0，0)、左下角B(0，h1，0)、右上角C(w1，0，0)、右下角D(w1，h1，0)。

S403：根据多个关键点的2D像素坐标和3D世界坐标，以及预先标定的相机参数，确定目标物体相对于相机的位姿信息。

如图6所示，为世界坐标系O_wX_wY_wZ_w、图像坐标系ouv、相机坐标系O_CX_CY_CZ_C三者间的投影关系，基于该投影关系，根据目标物体多个关键点的2D像素坐标和3D世界坐标、以及预先标定的相机参数，采用PNP算法，求解出目标物体相对于相机的位姿信息。其中，位姿信息包括旋转矩阵R和平移向量t，旋转矩阵R用于表示目标物体与相机间的旋转角度，平移向量t用于表示目标物体与相机间的距离。

具体实施时，位姿信息计算过程参见图7，主要包括以下几步：

S4031：根据世界坐标系、图像坐标系和相机坐标系间的投影关系，确定目标物体的N个关键点在相机坐标系下的3D相机坐标。

以图5所述的检测结果为例，关键点的数量为4个，采用P3P(即N＝3)算法确定目标该著名图画相对于相机的位姿信息，其中，另1个关键点用于对求解的位姿信息进行验证，如图8所示，为P3P求解示意图。

在图7中，相似三角形有ΔOab～ΔOAB、ΔObc～ΔOBC和ΔOac～ΔOA C，基于余弦定理，可得：

AB²＝OA²+OB²-2*OA*OB*cos<a，b> 公式1

BC²＝OB²+OC²-2*OB*OC*cos<b，c> 公式2

AC²＝OA²+OC²-2*OA*OC*cos<a，c> 公式3

假设x＝OA/OC，y＝OB/OC，v＝AB²/OC²，u＝BC²/AB²，w＝AC²/AB²，带入公式1-3后，得到：

(1-u)y²-ux²-cos<b，c>*y+2uxycos<a，b>+1＝0 公式4

(1-w)y²-wy²-cos<a，c>*x+2wxycos<a，b>+1＝0 公式5

由于该著名图画的真实尺寸已知，因此，u、w是已知，cos值由预先标定的相机参数和3个关键点a、b、c的2D像素坐标得到，上述公式4和公式5为关于x，y的二元二次方程，通过消元法，求解出x，y，将x，y带入公式6：

v＝x²+y²-2*x*y*cos<a，b> 公式6

通过公式6求解出v后，可以得到OC的长度，并计算著名图画的关键点C在相机坐标系下的坐标，计算公式为：

C^*＝c·|OC| 公式7

同理，可以求得著名图画的关键点A、B在相机坐标系下的坐标A^*和B^*。

需要说明的，本申请实施例对选取多个关键点中的哪几个关键点进行位姿信息的计算不做限制性要求。例如，上述公式1-公式7的推导过程中，还可以计算关键点B、C、D的3D相机坐标，关键点A用于验证位姿信息的计算结果。

在已知目标物体的多个关键点在世界坐标系下的3D世界坐标，以及在相机坐标系下的3D相机坐标后，采用SVD算法，求解相机相对于目标物体的位姿信息，具体参见S4032～S4034。

S4032：计算相机坐标系下多个关键点的3D相机坐标的去质心坐标，以及世界坐标系下多个关键点的3D世界坐标的去质心坐标。

仍以图8为例，假设相机坐标系下关键点A^*、B^*、C^*的质心坐标为P^*，世界坐标系下关键点A、B、C的质心坐标为P，则针对相机坐标系下的关键点A^*、B^*、C^*中的任意一点P_i ^*，去质心后的坐标为：Q_i ^*＝P_i ^*-P^*，针对世界坐标系下的关键点A、B、C中的任意一点P_i，去质心后的坐标为：Q_i＝P_i-P。

S4033：根据去质心后相机坐标系下多个关键点的3D相机坐标，以及世界坐标系下多个关键点的3D世界坐标，计算目标物体与相机间的旋转矩阵。

其中，旋转矩阵可采用迭代优化方式计算，计算公式如下：

R^*即为相机相对于目标物体的旋转矩阵。

S4034：根据目标物体与相机间的旋转矩阵，以及多个关键点分别在世界坐标系和相机坐标系下的质心坐标，计算目标物体与相机间的平移向量。

其中，平移向量的计算公式如下：

t^*＝P-R^*P^* 公式9

即t^*为相机相对于目标物体的平移向量。

在求得相机相对于目标物体的旋转矩阵R^*和平移向量t^*后，用其它关键点验证旋转矩阵R^*和平移向量t^*的准确性，若准确，则得到相机与目标物体间的位姿信息。其中，旋转矩阵R^*为3*3的矩阵，记录目标物体的姿态，平移向量t^*为3*1的矩阵，记录目标物体的位置，根据平移向量可以得到目标物体与相机间的距离。

S404：根据位姿信息中目标物体与相机间的距离，确定内容信息的目标尺寸。

在一种可选的实施方式中，首先确定目标物体与相机间的距离所在的目标距离区间，然后将目标距离区间对应的尺寸，作为该目标物体对应的AR讲解的内容信息的目标尺寸。

其中，AR讲解的内容信息的目标尺寸遵循远小近大的视觉原理，即目标物体与相机间的距离越远，目标尺寸越小。

可选的，本申请实施例中AR讲解的内容信息包括文字、视频中的至少一项，其中，当AR讲解的内容信息为文字时，目标尺寸为文字的大小(即字号)，当AR讲解的内容信息为视频时，目标尺寸为视频的分辨率。

以AR讲解的内容信息为文字为例，设置3个距离区间，分别为[0m，2m)、[2m，4m)、[4m，∞m)，当目标物体与相机间的距离在[0m，2m)的区间时，文字的字号设置为20pt；当目标物体与相机间的距离在[2m，4m)的区间时，文字的字号设置为17pt；目标物体与相机间的距离在[4m，∞m)的区间时，文字的字号设置为15pt。

如图9所示，为不同的目标物体与相机间的距离对应的内容信息的尺寸大小效果图，其中，图9的(a)中著名图画与相机间的距离，小于图9的(b)中著名图画与相机间的距离，因此，图9的(a)中著名图画的AR讲解的内容信息的字号，大于图9的(b)中著名图画的AR讲解的内容信息的字号。

需要说明的是，距离区间的大小和不同距离区间对应的不同尺寸等级可根据实际情况进行调整，本申请实施例不做限制性要求。

S405：按照目标尺寸，将AR讲解的内容信息叠加显示在目标物体的图像中。

AR讲解的内容信息作为AR特效叠加显示时，除了确定内容信息的目标尺寸外，还需要确定内容信息在图像中的位置。具体叠加显示过程参见图10，主要包括以下几步：

S4051：根据多个关键点的2D像素坐标，确定目标物体的2D中心点和AR讲解拐点。

仍以图5所示的检测出的著名图画为例，选取该著名图画的4个角点中位于对角线上的两个目标关键点，并根据这两个目标关键点的坐标均值，将该坐标均值作为该著名图画的2D中心点。同时，将该著名图画的4个角点中，纵坐标的最小值、横向距离的4/5处作为AR讲解拐点。

S4052：根据AR讲解拐点，确定AR讲解的内容信息在目标物体的图像中的叠加位置。

在一些实施例中，以AR讲解拐点为起点，做水平方向平行于图像的边的预设长度的线段，将该线段的终点作为AR讲解的内容信息在目标物体的图像中的叠加位置。

S4053：从2D中心点开始、经过AR讲解拐点做指向叠加位置的连线，并在叠加位置处，按照目标尺寸显示AR讲解的内容信息。

仍以图5所示的检测出的著名图画为例，从2D中心点H开始、经过AR讲解拐点G所做的指向叠加位置的连线如图11所示，将叠加位置作为AR讲解的内容信息边缘的中点，按照目标尺寸显示AR讲解的内容信息。

在一些实施例中，当目标物体淡出相机的视野，或者与相机的距离大于预设距离阈值时，停止在图像中叠加显示该目标物体的AR讲解的内容信息。

本申请上述实施例提供的基于物体定位添加AR讲解的方法中，采用2D目标检测模型对采集的目标物体的图像进行检测，相对于3D目标检测算法，检测速度更快，且对相机的要求较低；通过检测结果获取对目标物体进行AR讲解的内容信息，以及目标物体的多个关键点的2D像素坐标和3D世界坐标，并根据2D与3D间的投影关系，快速、准确的定位出目标物体相对于相机的位姿信息，定位精度较高；进一步的，根据位姿信息中目标物体与相机间的距离，自适应确定AR讲解的内容信息的目标尺寸，这样，按照目标尺寸将AR讲解的内容叠加显示在图像中时，AR讲解与目标物体会更加贴合，从而有效提升增强现实与真实感官的互动体验。

在一些实施例中，同一图像中可能包含多个目标物体，当多个目标物体同时被检测出时，每个目标物体对应的AR讲解的容信息的目标尺寸大小，需要根据多个目标物体分别与相机间的距离确定。

具体实施时，当第一目标物体与相机间的第一距离小于第二目标物体与相机间的第二距离时，确定第一目标物体对应的AR讲解的第一内容信息的第一目标尺寸，大于第二目标物体对应的AR讲解的第二内容信息的第二目标尺寸。

以图像中检测出两个著名图画为例，如图12所示，第一著名图画与相机间的第一距离小于第二著名图画与相机间的第二距离，因此，第一著名图画对应的AR讲解的内容信息的字号，大于第二著名图画对应的AR讲解的内容信息的字号。

考虑到当图像中有多个目标物体时，由于物体间的距离较近，叠加显示AR讲解的内容信息时，可能会出现一个目标物体的AR讲解的内容信息，覆盖了另一个目标物体的AR讲解的内容信息，如图13所示，这样会影响用户对另一目标物体的了解。

本申请实施例为解决上述问题，当同时叠加显示图像中检测出的多个目标物体的AR讲解的内容信息时，为保证用户阅读方便，距离相机不同远近的目标物体对应的AR讲解的内容信息的目标尺寸大小，应满足以下条件：近距离的目标物体对应的AR讲解的内容信息，不覆盖远距离的目标物体对应的AR讲解的内容信息。

针对多个目标物体同时被检测出的情况，本申请实施例根据多个目标物体分别与相机间的距离，确定每个目标物体的AR讲解的内容信息的目标尺寸，减少了AR讲解的内容信息间的遮挡，便于用户阅读观看。

在一些实施例中，当图像中检测出多个目标物体时，如果目标物体距离相机的距离较远，表明该目标物体可能不是用户想要了解的对象，此时，可不叠加显示该目标物体的AR讲解的内容信息，从而减小了AR讲解的混乱度，提升用户的AR体验。

具体实施时，将每个目标物体与相机的距离分别与预设距离阈值进行比较，针对距离大于预设距离阈值的目标物体，则在图像中不叠加显示其对应的AR讲解的内容信息。

例如，以预设距离为5m为例，如图14所示，图像中包含两个著名图画，其中，《女人的微笑》与距离相机的距离大于5m，《花瓶里的向日葵》与相机的距离小于5m，此时，在图像中仅叠加显示《花瓶里的向日葵》的AR讲解的内容信息。

在一些实施例中，考虑到位于图像中心的目标物体一般为人眼关注的对象，因此，当图像中检测出多个目标物体时，在图像中仅叠加显示位于图像中心的目标物体的AR讲解的内容信息。

例如，如图15所示，当图像中包含《花瓶里的向日葵》和《女人的微笑》这两个目标表物体时，其中，《花瓶里的向日葵》位于图像的中心，此时，在图像中仅叠加显示《花瓶里的向日葵》的AR讲解的内容信息。

在一些实施例中，游览过程中，当图像中心的目标物体改变时，切换图像中叠加显示的目标物体的AR讲解的内容信息。

例如，当图像中心的目标物体从《花瓶里的向日葵》变为《女人的微笑》，此时，将图像中叠加显示的《花瓶里的向日葵》的AR讲解的内容信息，切换为《女人的微笑》的AR讲解的内容信息，如图16所示。

在一些实施例中，当图像中仅叠加显示一个目标物体的AR讲解的内容信息时，客户端设备还可以同步播放内容信息对应语音。

在一些实施例中，将目标物体的AR讲解的内容信息叠加显示在图像中之后，为了更清楚的观看目标物体的细节信息，或者观看目标物体的整体概况，可以能会对图像进行缩放操作，此时，客户端设备响应于对目标物体的图像的缩放操作，并根据缩放操作的缩放比例，同比例调整AR讲解的内容信息的尺寸。

例如，当用户想要了解图像中《花瓶里的向日葵》中向日葵间的颜色的处理细节时，对相机采集的《花瓶里的向日葵》的图像进行放大操作，同时，《花瓶里的向日葵》的AR讲解的内容信息也被同步放大，如图17所示。

基于相同的技术构思，本申请实施例提供客户端设备，该客户端设备能够实现上述实施例中基于物体定位添加AR讲解的方法，且能达到相同的技术效果。

参见图18，该客户端设备包括处理器1801、存储器1802、显示屏1803和相机1804，相机1804、显示屏1803、存储器1802和处理器1801通过总线1805连接；

存储器1802存储有计算机程序，处理器1801根据计算机程序，执行以下操作：

获取相机1804采集的目标物体的图像；

对图像进行2D目标检测，并根据检测结果获取目标物体的属性信息，以及目标物体的多个关键点的2D像素坐标，其中，属性信息至少包含多个关键点的3D世界坐标和目标物体的AR讲解的内容信息；

根据多个关键点的2D像素坐标和3D世界坐标，以及预先标定的相机参数，确定目标物体相对于相机的位姿信息；

根据位姿信息中目标物体与相机间的距离，确定内容信息的目标尺寸；

按照目标尺寸通过显示屏1803将AR讲解的内容信息叠加显示在目标物体的图像中。

可选的，处理器1801按照目标尺寸，将AR讲解的内容信息叠加显示在目标物体的图像中，具体操作为：

根据多个关键点的2D像素坐标，确定目标物体的2D中心点和AR讲解拐点；

根据AR讲解拐点，确定AR讲解的内容信息在目标物体的图像中的叠加位置；

从2D中心点开始、经过AR讲解拐点做指向叠加位置的连线，并在叠加位置处，按照目标尺寸显示AR讲解的内容信息。

可选的，当图像中检测出的目标物体的数量有多个时，处理器1801根据位姿信息中目标物体与相机间的距离，确定内容信息的目标尺寸，具体操作为：

当第一目标物体与相机间的第一距离小于第二目标物体与相机间的第二距离时，确定第一目标物体对应的AR讲解的第一内容信息的第一目标尺寸，大于第二目标物体对应的AR讲解的第二内容信息的第二目标尺寸。

可选的，第一目标尺寸和第二目标尺寸的大小，满足以下条件：

第一目标物体对应的AR讲解的第一内容信息，不覆盖第二目标物体对应的AR讲解的第二内容信息。

可选的，当图像中检测出多个目标物体时，处理器1801还执行：

在图像中不叠加显示都相机的距离大于预设距离阈值的目标物体对应的AR讲解的内容信息。

可选的，当图像中检测出多个目标物体时，处理器1801按照目标尺寸，将AR讲解的内容信息叠加显示在目标物体的图像中，具体操作为：

针对位于图像中心的一个目标物体，按照目标物体的目标尺寸，在图像中叠加显示目标物体的AR讲解的内容信息。

可选的，将目标物体的AR讲解的内容信息叠加显示在图像中之后，处理器1801还执行：

响应于对目标物体的图像的缩放操作，根据缩放操作的缩放比例，同比例调整AR讲解的内容信息的尺寸。

可选的，AR讲解的内容信息包括文字、视频中的至少一项。

需要说明的是，图18仅是一种示例，给出客户端设备执行本申请实施例提供的基于物体定位添加AR讲解的方法步骤所必要的硬件。未示出的，该客户端设备还包括扬声器、收音器、摄像头、电源、通信接口等显示设备的常规器件。

本申请实施例图18中涉及的处理器可以是中央处理器(Central ProcessingUnit，CPU)，通用处理器，图形处理器(Graphics Processing Unit，GPU)数字信号处理器(Digital Signal Processor，DSP)，专用集成电路(Application-specific IntegratedCircuit，ASIC)，现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。

本申请实施例还提供一种计算机可读存储介质，用于存储一些指令，这些指令被执行时，可以完成前述实施例中的基于物体定位添加AR讲解的方法。

本申请实施例还提供一种计算机程序产品，用于存储计算机程序，该计算机程序用于执行前述实施例中的基于物体定位添加AR讲解的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于物体定位添加AR讲解的方法，其特征在于，包括：

获取相机采集的目标物体的图像；

2.如权利要求1所述的方法，其特征在于，所述按照所述目标尺寸，将所述AR讲解的内容信息叠加显示在所述目标物体的图像中，包括：

3.如权利要求1所述的方法，其特征在于，当所述图像中检测出的目标物体的数量有多个时，所述根据所述位姿信息中所述目标物体与所述相机间的距离，确定所述内容信息的目标尺寸，包括：

4.如权利要求3所述的方法，其特征在于，所述第一目标尺寸和所述第二目标尺寸的大小，满足以下条件：

5.如权利要求1所述的方法，其特征在于，当所述图像中检测出多个目标物体时，所述方法还包括：

6.如权利要求1所述的方法，其特征在于，当所述图像中检测出多个目标物体时，所述按照所述目标尺寸，将所述AR讲解的内容信息叠加显示在所述目标物体的图像中包括：

7.如权利要求1所述的方法，其特征在于，将所述目标物体的AR讲解的内容信息叠加显示在所述图像中之后，所述方法还包括：

8.如权利要求1-7中任一项所述的方法，其特征在于，所述AR讲解的内容信息包括文字、视频中的至少一项。

9.一种客户端设备，其特征在于，包括相机、处理器、存储器和显示屏，所述相机、所述显示屏、所述存储器和所述处理器通过总线连接；

获取所述相机采集的目标物体的图像；

10.如权利要求9所述的客户端设备，其特征在于，当所述图像中检测出的目标物体的数量有多个时，所述处理器根据所述位姿信息中所述目标物体与所述相机间的距离，确定所述内容信息的目标尺寸，具体操作为：