CN117406867B

CN117406867B - 一种基于网页的增强现实交互方法及装置

Info

Publication number: CN117406867B
Application number: CN202311727977.9A
Authority: CN
Inventors: 周俊熙; 冯诚; 沈建雄; 田魁
Original assignee: Xiaomang E Commerce Co ltd
Current assignee: Xiaomang E Commerce Co ltd
Priority date: 2023-12-15
Filing date: 2023-12-15
Publication date: 2024-02-09
Anticipated expiration: 2043-12-15
Also published as: CN117406867A

Abstract

本申请提供了一种基于网页的增强现实交互方法及装置，该方法包括：确定出基于虚拟空间场景中的虚拟对象，在网页中对真实空间场景的视频图像进行增强现实显示，获取视频图像中输入手势；确定输入手势在虚拟空间场景中的三维区域；基于三维区域和虚拟对象在虚拟空间场景中的三维区域，确定输入手势和虚拟对象之间的第一重合区域；生成第一重合区域对应的点击事件，以使得虚拟对象响应第一重合区域对应的点击事件；基于第一重合区域，确定输入手势和网页之间的第二重合区域；生成第二重合区域对应的点击事件，以使得网页响应第二重合区域对应的点击事件。

Description

一种基于网页的增强现实交互方法及装置

技术领域

本申请涉及计算机技术领域，特别涉及一种基于网页的增强现实交互方法及装置。

背景技术

目前，可以基于虚拟对象在网页中对视频图像进行增强现实(AugmentedReality，简称AR)显示，改善用户使用体验。

但是，基于网页与虚拟对象之间进行交互却成为问题。

发明内容

为解决上述技术问题，本申请实施例提供一种基于网页的增强现实交互方法及装置，以达到实现与在网页中显示的虚拟对象进行精准交互，改善用户使用体验的目的，技术方案如下：

本申请一方面提供一种基于网页的增强现实交互方法，包括：

确定出基于虚拟空间场景中的虚拟对象，在网页中对真实空间场景的视频图像进行增强现实显示，获取所述视频图像中输入手势；

确定所述输入手势在所述虚拟空间场景中的三维区域；

基于所述三维区域和所述虚拟对象在所述虚拟空间场景中的三维区域，确定所述输入手势和所述虚拟对象之间的第一重合区域；

生成所述第一重合区域对应的点击事件，以使得所述虚拟对象响应所述第一重合区域对应的点击事件；

基于所述第一重合区域，确定所述输入手势和所述网页之间的第二重合区域；

生成所述第二重合区域对应的点击事件，以使得所述网页响应所述第二重合区域对应的点击事件。

可选的，确定所述视频图像中输入手势在所述虚拟空间场景中的三维区域，包括：

确定所述视频图像中输入手势对应的手势框选区域的四个顶点的二维坐标；

基于所述手势框选区域的四个顶点的二维坐标，确定所述手势框选区域的四个顶点中各所述顶点在世界坐标系下对应的射线；

确定各所述顶点在世界坐标系下对应的射线之间的交点，基于所述交点确定所述输入手势在所述虚拟空间场景中的三维区域。

可选的，基于所述手势框选区域的四个顶点的二维坐标，确定所述手势框选区域的四个顶点中各所述顶点在世界坐标系下对应的射线，包括：

获取所述视频图像对应的摄像设备的投影矩阵和视矩阵，所述摄像设备的投影矩阵用于对三维摄像坐标系和二维图像平面坐标系之间进行映射，所述视矩阵用于对所述三维摄像坐标系和世界坐标系之间进行映射；

将所述手势框选区域的四个顶点中各所述顶点的二维坐标转换为标准化设备坐标；

将所述标准化设备坐标乘以所述摄像设备的投影矩阵的逆矩阵，得到所述摄像坐标系下的向量，所述向量用于表征从所述摄像设备的位置出发通过所述标准化设备坐标所发出的三维射线的方向；

基于所述视矩阵，将所述摄像坐标系下的向量转换到所述世界坐标系，得到所述顶点在所述世界坐标系下对应的射线。

可选的，基于所述三维区域和所述虚拟对象在所述虚拟空间场景中的三维区域，确定所述输入手势和所述虚拟对象之间的第一重合区域，包括：

从所述虚拟对象在所述虚拟空间场景中的三维区域中的各个设定点击区域中选择被所述三维区域覆盖的目标设定点击区域；

将所述目标设定点击区域确定为所述输入手势和所述虚拟对象之间的第一重合区域。

可选的，从所述虚拟对象在所述虚拟空间场景中的三维区域中的各个设定点击区域中选择被所述三维区域覆盖的目标设定点击区域，包括：

分别判断所述虚拟对象在所述虚拟空间场景中的三维区域中的各个设定点击区域各自的所有三维坐标点是否均在所述三维区域内；

若是，将所述设定点击区域确定为被所述三维区域覆盖的目标设定点击区域；

若否，获取所述设定点击区域的最大外接几何体；

判断所述最大外接几何体的外表面的多个指定点是否均在所述三维区域内；

若是，将所述设定点击区域确定为被所述三维区域覆盖的目标设定点击区域。

可选的，基于所述第一重合区域，确定所述输入手势和所述网页之间的第二重合区域，包括：

获取所述视频图像对应的摄像设备的投影矩阵，所述摄像设备的投影矩阵用于对三维摄像坐标系和二维图像平面坐标系之间进行映射；

将所述第一重合区域内的三维坐标与所述投影矩阵进行相乘运算，得到四维坐标；

对所述四维坐标进行透视除法，得到设备标准化坐标；

将所述设备标准化坐标映射到视口坐标系，得到二维平面坐标，基于所述二维平面坐标确定所述输入手势和所述网页之间的第二重合区域。

本申请另一方面提供一种基于网页的增强显示交互装置，包括：

获取模块，用于确定出基于虚拟空间场景中的虚拟对象，在网页中对真实空间场景的视频图像进行增强现实显示，获取所述视频图像中输入手势；

第一确定模块，用于确定所述输入手势在所述虚拟空间场景中的三维区域；

第二确定模块，用于基于所述三维区域和所述虚拟对象在所述虚拟空间场景中的三维区域，确定所述输入手势和所述虚拟对象之间的第一重合区域；

第一生成模块，用于生成所述第一重合区域对应的点击事件，以使得所述虚拟对象响应所述第一重合区域对应的点击事件；

第三确定模块，用于基于所述第一重合区域，确定所述输入手势和所述网页之间的第二重合区域；

第二生成模块，用于生成所述第二重合区域对应的点击事件，以使得所述网页响应所述第二重合区域对应的点击事件。

可选的，所述第一确定模块，具体用于：

可选的，所述第一确定模块基于所述手势框选区域的四个顶点的二维坐标，确定所述手势框选区域的四个顶点中各所述顶点在世界坐标系下对应的射线的过程，具体包括：

可选的，所述第二确定模块，具体用于：

在本申请中，通过确定出基于虚拟空间场景中的虚拟对象，在网页中对真实空间场景的视频图像进行增强现实显示，获取视频图像中输入手势，确定输入手势在虚拟空间场景中的三维区域，基于三维区域和虚拟对象在虚拟空间场景中的三维区域，确定输入手势和虚拟对象之间的第一重合区域，对在网页中显示的虚拟对象的点击位置进行准确定位，生成第一重合区域对应的点击事件，以使得虚拟对象响应该点击事件，实现与在网页中显示的虚拟对象进行精准交互，改善用户使用体验。

并且，基于第一重合区域，确定输入手势和网页之间的第二重合区域，实现通过对虚拟对象的点击事件，对网页中的点击位置进行准确定位，生成第二重合区域对应的点击事件，以使得网页响应第二重合区域对应的点击事件，实现与网页之间进行精准交互，进一步改善用户使用体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例1提供的一种基于网页的增强现实交互方法的流程示意图；

图2是本申请实施例2提供的一种基于网页的增强现实交互方法的流程示意图；

图3是本申请实施例3提供的一种基于网页的增强现实交互方法的流程示意图；

图4是本申请实施例4提供的一种基于网页的增强现实交互方法的流程示意图；

图5是本申请提供的一种基于网页的增强现实交互装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

参照图1，为本申请实施例1提供的一种基于网页的增强现实交互方法的流程示意图，如图1所示，该方法可以包括但并不局限于以下步骤：

步骤S101、确定出基于虚拟空间场景中的虚拟对象，在网页中对真实空间场景的视频图像进行增强现实显示，获取视频图像中输入手势。

在本实施例中，虚拟空间场景中的虚拟对象可以是但不局限于：对真实空间场景的视频图像中目标对象进行3D虚拟确定的对象。虚拟空间场景中的虚拟对象也可以是但不局限于：对设定对象进行3D虚拟确定的对象，设定对象不来自于真实空间场景的视频图像。

虚拟空间场景可以理解为三维的立体虚拟空间。

输入手势用于对虚拟对象进行操作。

获取视频图像中输入手势，可以包括但不局限于：

S1011、将视频图像输入预先训练好的卷积神经网络，得到卷积神经网络确定的手势预测结果。

其中，卷积神经网络的训练数据可以包括：包含输入手势的样本视频图像及对样本视频图像进行旋转、缩放、光照变化等增强得到的目标样本视频图像，使卷积神经网络对不同手势视角和环境的手势预测更鲁棒。

获取视频图像中输入手势，也可以包括但不局限于：

S1012、获取视频图像对应的深度图。

S1013、将视频图像和深度图输入预先训练好的卷积神经网络，得到卷积神经网络确定的手势预测结果。

在步骤S1013中，卷积神经网络是基于样本视频图像和样本视频图像对应的深度图进行训练得到的。

深度图可以提供手势的3D结构信息，帮助卷积神经网络学习手势的立体形态。

步骤S102、确定输入手势在虚拟空间场景中的三维区域。

在本实施例中，可以基于输入手势在视频图像中对应的二维区域，确定输入手势在虚拟空间场景中的三维区域。

步骤S103、基于输入手势在虚拟空间场景中的三维区域和虚拟对象在虚拟空间场景中的三维区域，确定输入手势和虚拟对象之间的第一重合区域。

可以理解的是，输入手势和虚拟对象之间的第一重合区域为虚拟对象在虚拟空间场景中的三维区域的一部分或全部。

步骤S104、生成第一重合区域对应的点击事件，以使得虚拟对象响应第一重合区域对应的点击事件。

生成第一重合区域对应的点击事件，可以包括但不局限于：在第一重合区域生成点击事件。

点击事件可以包括但不局限于：动作点击事件和音效点击事件中至少一种。对应动作点击事件，虚拟对象响应第一重合区域对应的点击事件可以包括：虚拟对象响应动作点击事件，执行相应动作；对应音效点击事件，虚拟对象响应第一重合区域对应的点击事件可以包括：虚拟对象响应音效点击事件，进行相应音效输出。

步骤S105、基于第一重合区域，确定输入手势和网页之间的第二重合区域。

本实施例中，可以确定网页中与第一重合区域对应的区域，将网页中与第一重合区域对应的区域确定为输入手势和网页之间的第二重合区域。

步骤S106、生成第二重合区域对应的点击事件，以使得网页响应第二重合区域对应的点击事件。

在本实施例中，网页可以基于第二重合区域对应的网页元素的类型，响应第二重合区域对应的点击事件。例如，网页可以响应第二重合区域对应的点击事件进行跳转或提示。

并且，基于第一重合区域，确定输入手势和网页之间的第二重合区域，实现通过对虚拟对象的点击事件，对网页中的点击位置进行准确定位，生成第二重合区域对应的点击事件，以使得网页响应第二重合区域对应的点击事件，实现与网页之间进行精准交互，进一步改善用户使用体验。例如，基于虚拟空间场景中的虚拟家具对象，在家具购物网页中对真实空间场景的家具视频图像进行增强现实显示，可以从视频图像中获取用于操作桌子、椅子等家具的输入手势，通过确定输入手势在虚拟空间场景中的三维区域，基于输入手势在虚拟空间场景中的三维区域和虚拟家具对象在虚拟空间场景中的三维区域，确定输入手势和虚拟家具对象之间的第一重合区域，生成第一重合区域对应的点击事件，以使得虚拟家具对象移动、缩放、旋转来完成房间布置。并且，基于第一重合区域，确定输入手势和家具购物网页之间的第二重合区域，生成第二重合区域对应的点击事件，以使得家具购物网页响应点击事件，在网页中显示虚拟家具对象的详情，实现通过点击虚拟家具对象在网页中展示虚拟家具对象的详情（比如，规格参数、材质、设计师等），通过这种方式,可以自然地在虚拟对象调整与网页交互之间转换,既享受增强显示的身临其境,又可以获得网页的丰富信息。

作为本申请另一可选实施例，为本申请实施例2提供的一种基于网页的增强现实交互方法的流程示意图，如图2所示，本实施例主要是对上述实施例1中步骤S102的细化方案，步骤S102可以包括但不局限于以下步骤：

步骤S1021、确定视频图像中输入手势对应的手势框选区域的四个顶点的二维坐标。

步骤S1022、基于手势框选区域的四个顶点的二维坐标，确定手势框选区域的四个顶点中各顶点在世界坐标系下对应的射线。

顶点在世界坐标系下对应的射线为通过顶点且在世界坐标系下的射线。

步骤S1022可以包括但不局限于：

S10221、获取视频图像对应的摄像设备的投影矩阵和视矩阵，摄像设备的投影矩阵用于对三维摄像坐标系和二维图像平面坐标系之间进行映射，视矩阵用于对三维摄像坐标系和世界坐标系之间进行映射。

摄像设备的投影矩阵决定了从三维摄像坐标系到二维图像平面坐标系的投影方式,可以反映了摄像设备的内部参数,如焦距、图像传感器大小等。

投影矩阵可以包括但不局限于：透视投影矩阵和正交投影矩阵。透视投影矩阵依赖于视野、长宽比、近距裁剪平面、远距裁剪平面等参数。正交投影矩阵则会保留三维空间中的平行关系,不会有透视效果。

摄像设备的视矩阵决定了从世界坐标系转换到三维摄像坐标系的转换关系,其可以反映摄像设备的位置和方向等外部参数。

摄像设备的视矩阵可以根据摄像设备位置、目标观察点和上方向量计算得到。

S10222、将手势框选区域的四个顶点中各顶点的二维坐标转换为标准化设备坐标。

S10223、将标准化设备坐标乘以摄像设备的投影矩阵的逆矩阵，得到摄像坐标系下的向量，向量用于表征从摄像设备的位置出发通过标准化设备坐标所发出的三维射线的方向。

S10224、基于视矩阵，将摄像坐标系下的向量转换到世界坐标系，得到顶点在世界坐标系下对应的射线。

步骤S1023、确定各顶点在世界坐标系下对应的射线之间的交点，基于交点确定输入手势在虚拟空间场景中的三维区域。

本实施例中，可以将基于交点框选的三维区域确定为输入手势在虚拟空间场景中的三维区域。

在本实施例中，通过确定视频图像中输入手势对应的手势框选区域的四个顶点的二维坐标，基于手势框选区域的四个顶点的二维坐标，确定手势框选区域的四个顶点中各顶点在世界坐标系下对应的射线，确定各顶点在世界坐标系下对应的射线之间的交点，基于交点确定输入手势在虚拟空间场景中的三维区域，可以保证输入手势在虚拟空间场景中的三维区域的准确性。

作为本申请另一可选实施例，为本申请实施例3提供的一种基于网页的增强现实交互方法的流程示意图，如图3所示，本实施例主要是对上述实施例1中步骤S103的细化方案，步骤S103可以包括但不局限于以下步骤：

步骤S1031、从虚拟对象在虚拟空间场景中的三维区域中的各个设定点击区域中选择被输入手势在虚拟空间场景中的三维区域覆盖的目标设定点击区域。

本实施例中，虚拟对象作为虚拟的三维对象，其表面面积较大，基于输入手势需要精确点击特定部位触发交互，因此可以预先设定关键部位，将虚拟对象的关键部位对应的三维区域作为设定点击区域。

步骤S1031可以包括但不局限于：

S10311、分别判断虚拟对象在虚拟空间场景中的三维区域中的各个设定点击区域各自的所有三维坐标点是否均在输入手势在虚拟空间场景中的三维区域内。

若是，则执行步骤S10312。若否，则执行步骤S10313。

S10312、将设定点击区域确定为被输入手势在虚拟空间场景中的三维区域覆盖的目标设定点击区域。

S10313、获取设定点击区域的最大外接几何体。

在本实施例中，如果设定点击区域不是一个凸多边形,可能有内凹的情况,那么设定点击区域内的所有三维坐标点可能不会均在输入手势在虚拟空间场景中的三维区域内，但是，设定点击区域内的部分三维坐标点可能会在输入手势在虚拟空间场景中的三维区域内，这种情况也可视为设定点击区域被输入手势在虚拟空间场景中的三维区域覆盖。具体地，可以获取设定点击区域的最大外接几何体，来确定设定点击区域内的部分三维坐标点是否在输入手势在虚拟空间场景中的三维区域内。

在本申请中，对最大外接几何体不做限制。例如，最大外接几何体可以包括但不局限于：最大外接立方体或最大外接球体。

S10314、判断最大外接几何体的外表面的多个指定点是否均在三维区域内。

对应最大外接几何体为最大外接立方体的实施方式，最大外接几何体的外表面的多个指定点可以为但布局小于：最大外接立方体的8个顶点。

若是，则执行步骤S10315。

通过获取最大外接几何体，及判断最大外接几何体的外表面的多个指定点是否均在三维区域内，可以简化计算，提高效率。

S10315、将设定点击区域确定为被三维区域覆盖的目标设定点击区域。

步骤S1032、将目标设定点击区域确定为输入手势和虚拟对象之间的第一重合区域。

在本实施例中，通过从虚拟对象在虚拟空间场景中的三维区域中的各个设定点击区域中选择被输入手势在虚拟空间场景中的三维区域覆盖的目标设定点击区域，将目标设定点击区域确定为输入手势和虚拟对象之间的第一重合区域，保证第一重合区域对应于点击意图，使虚拟对象进行更精准的响应。

作为本申请另一可选实施例，为本申请实施例4提供的一种基于网页的增强现实交互方法的流程示意图，如图4所示，本实施例主要是对上述实施例1中步骤S105的细化方案，步骤S105可以包括但不局限于以下步骤：

步骤S1051、获取视频图像对应的摄像设备的投影矩阵，摄像设备的投影矩阵用于对三维摄像坐标系和二维图像平面坐标系之间进行映射。

步骤S1052、将第一重合区域内的三维坐标与投影矩阵进行相乘运算，得到四维坐标。

四维坐标可以表征基于投影矩阵对第一重合区域内的三维坐标进行变换得到的三维坐标点及从摄像设备到该三维坐标点的距离。四维坐标可以表示为(x, y, z, w)，(x,y, z, w)中x、y、z表示基于投影矩阵对第一重合区域内的三维坐标进行变换得到的三维坐标点的位置，w表示从摄像设备到该三维坐标点的距离。

步骤S1053、对四维坐标进行透视除法，得到设备标准化坐标。

具体地，可以将(x, y, z, w)中x、y、z分别除以w，得到设备标准化坐标（x'，y'，z'），x' = x / w，y' = y / w，z' = z / w。

步骤S1054、将设备标准化坐标映射到视口坐标系，得到二维平面坐标，基于二维平面坐标确定输入手势和网页之间的第二重合区域。

将设备标准化坐标映射到视口坐标系，得到二维平面坐标，可以包括但不局限于：

利用如下关系式得到二维平面坐标：

x'' = x' × (width/2) + (width/2)

y'' = y' × (height/2) + (height/2)

其中，width为视口宽度，height为视口高度。

在本实施例中，通过获取视频图像对应的摄像设备的投影矩阵，将第一重合区域内的三维坐标与投影矩阵进行相乘运算，得到四维坐标，对四维坐标进行透视除法，得到设备标准化坐标，将设备标准化坐标映射到视口坐标系，得到二维平面坐标，基于二维平面坐标确定输入手势和网页之间的第二重合区域，实现对网页中点击区域的定位。

接下来对本申请提供的一种基于网页的增强显示交互装置进行介绍，下文介绍的基于网页的增强显示交互装置与上文介绍的基于网页的增强显示交互方法可相互对应参照。

如图5所示，基于网页的增强显示交互装置，包括：获取模块100、第一确定模块200、第二确定模块300、第一生成模块400、第三确定模块500和第二生成模块600。

获取模块100，用于确定出基于虚拟空间场景中的虚拟对象，在网页中对真实空间场景的视频图像进行增强现实显示，获取视频图像中输入手势。

第一确定模块200，用于确定输入手势在虚拟空间场景中的三维区域。

第二确定模块300，用于基于三维区域和虚拟对象在虚拟空间场景中的三维区域，确定输入手势和虚拟对象之间的第一重合区域。

第一生成模块400，用于生成第一重合区域对应的点击事件，以使得虚拟对象响应第一重合区域对应的点击事件。

第三确定模块500，用于基于第一重合区域，确定输入手势和网页之间的第二重合区域。

第二生成模块600，用于生成第二重合区域对应的点击事件，以使得网页响应所述第二重合区域对应的点击事件。

第一确定模块200，具体可以用于：

确定视频图像中输入手势对应的手势框选区域的四个顶点的二维坐标；

基于手势框选区域的四个顶点的二维坐标，确定手势框选区域的四个顶点中各顶点在世界坐标系下对应的射线；

确定各顶点在世界坐标系下对应的射线之间的交点，基于交点确定所述输入手势在虚拟空间场景中的三维区域。

第一确定模块200基于手势框选区域的四个顶点的二维坐标，确定手势框选区域的四个顶点中各顶点在世界坐标系下对应的射线的过程，具体可以包括：

获取视频图像对应的摄像设备的投影矩阵和视矩阵，摄像设备的投影矩阵用于对三维摄像坐标系和二维图像平面坐标系之间进行映射，视矩阵用于对三维摄像坐标系和世界坐标系之间进行映射；

将手势框选区域的四个顶点中各顶点的二维坐标转换为标准化设备坐标；

将标准化设备坐标乘以摄像设备的投影矩阵的逆矩阵，得到摄像坐标系下的向量，向量用于表征从摄像设备的位置出发通过标准化设备坐标所发出的三维射线的方向；

基于视矩阵，将摄像坐标系下的向量转换到世界坐标系，得到顶点在世界坐标系下对应的射线。

第二确定模块300，具体可以用于：

从虚拟对象在虚拟空间场景中的三维区域中的各个设定点击区域中选择被三维区域覆盖的目标设定点击区域；

将目标设定点击区域确定为输入手势和虚拟对象之间的第一重合区域。

第二确定模块300从虚拟对象在虚拟空间场景中的三维区域中的各个设定点击区域中选择被三维区域覆盖的目标设定点击区域的过程，具体可以包括：

分别判断虚拟对象在虚拟空间场景中的三维区域中的各个设定点击区域各自的所有三维坐标点是否均在三维区域内；

若是，将设定点击区域确定为被三维区域覆盖的目标设定点击区域；

若否，获取设定点击区域的最大外接几何体；

判断最大外接几何体的外表面的多个指定点是否均在三维区域内；

若是，将设定点击区域确定为被三维区域覆盖的目标设定点击区域。

第三确定模块500，具体可以用于：

获取视频图像对应的摄像设备的投影矩阵，摄像设备的投影矩阵用于对三维摄像坐标系和二维图像平面坐标系之间进行映射；

将第一重合区域内的三维坐标与投影矩阵进行相乘运算，得到四维坐标；

对四维坐标进行透视除法，得到设备标准化坐标；

将设备标准化坐标映射到视口坐标系，得到二维平面坐标，基于二维平面坐标确定输入手势和网页之间的第二重合区域。

需要说明的是，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于合并模块实施例、数字电路实施例及卷积神经网络硬件加速器实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便，描述基于网页的增强显示交互装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例或者实施例的某些部分所述的方法。

上对本申请所提供的一种基于网页的增强显示交互方法及装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于网页的增强现实交互方法，其特征在于，包括：

确定所述输入手势在所述虚拟空间场景中的三维区域；

2.根据权利要求1所述的方法，其特征在于，确定所述视频图像中输入手势在所述虚拟空间场景中的三维区域，包括：

3.根据权利要求2所述的方法，其特征在于，基于所述手势框选区域的四个顶点的二维坐标，确定所述手势框选区域的四个顶点中各所述顶点在世界坐标系下对应的射线，包括：

4.根据权利要求1所述的方法，其特征在于，基于所述三维区域和所述虚拟对象在所述虚拟空间场景中的三维区域，确定所述输入手势和所述虚拟对象之间的第一重合区域，包括：

5.根据权利要求4所述的方法，其特征在于，从所述虚拟对象在所述虚拟空间场景中的三维区域中的各个设定点击区域中选择被所述三维区域覆盖的目标设定点击区域，包括：

若否，获取所述设定点击区域的最大外接几何体；

6.根据权利要求1所述的方法，其特征在于，基于所述第一重合区域，确定所述输入手势和所述网页之间的第二重合区域，包括：

对所述四维坐标进行透视除法，得到设备标准化坐标；

7.一种基于网页的增强显示交互装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述第一确定模块，具体用于：

9.根据权利要求8所述的装置，其特征在于，所述第一确定模块基于所述手势框选区域的四个顶点的二维坐标，确定所述手势框选区域的四个顶点中各所述顶点在世界坐标系下对应的射线的过程，具体包括：

10.根据权利要求7所述的装置，其特征在于，所述第二确定模块，具体用于：