CN115439171A

CN115439171A - 商品信息展示方法、装置及电子设备

Info

Publication number: CN115439171A
Application number: CN202210934357.1A
Authority: CN
Inventors: 王云峰; 陈志文
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-08-04
Filing date: 2022-08-04
Publication date: 2022-12-06

Abstract

本申请实施例公开了商品信息展示方法、装置及电子设备，所述方法包括：响应于对目标商品进行展示的请求，加载所述目标商品的三维模型；从终端设备相机组件采集到的现实世界图像中识别出真实手部图像，并对所述真实手部图像进行实时的三维网格体Mesh重建，以获取多个三维手部关键点坐标；在将所述目标商品的三维模型投射到所述现实世界图像中进行展示的过程中，根据所述三维手部关键点坐标，确定所述目标商品的三维模型在所述现实世界图像中的展示位置、展示尺寸以及展示姿态。通过本申请实施例，能够通过AR技术为用户提供更真实、更沉浸式地浏览交互体验。

Description

商品信息展示方法、装置及电子设备

技术领域

本申请涉及增强现实技术领域，特别是涉及商品信息展示方法、装置及电子设备。

背景技术

在商品信息服务系统中，图文、视频、直播等都是用于对商品进行描述的常见方式，用户可以通过这种描述信息获得关于商品的特征信息，进而帮助用户进行购买决策。近年来还出现了通过三维模型对商品信息进行展示的方案，也即，通过对商品进行三维重建，可以在商品信息服务系统的客户端为用户呈现出关于商品的三维动态效果，并且可以实现用户和商品的互动，例如，用户可以通过滑动屏幕等方式触发商品转动，从而观看到商品各个角度的外观。

另外，还可以将上述三维重建技术与AR(Augmented Reality，增强现实)技术相结合，用于对商品进行展示。在这种方案中，预先对商品按照原尺寸进行三维重建，在客户端展示时，可以通过终端设备的摄像头采集现实世界中的图像，并对图像中的“桌子”、“地板”等平面进行定位，将商品的三维模型投影到现实世界图像中这种平面所在的位置，从而呈现出该商品实际被“放置”在现实世界环境中时的状态。

上述通过AR技术进行商品信息进行展示的方案，可以使得用户可以更直观地判断具体的商品是否适合自己所处的真实世界环境，例如，沙发类的家居商品是否适合放置在自己家的客厅中，等等，进而帮助用户更好地进行购物决策。但是，目前的AR技术在商品信息呈现领域通常还仅在少部分类目上有应用，例如，家具家居领域，因此，如何将AR技术应用到更多类目的商品中，成为需要本领域技术人员解决的技术问题。

发明内容

本申请提供了商品信息展示方法、装置及电子设备，能够通过AR技术为用户提供更真实、更沉浸式地浏览交互体验。

本申请提供了如下方案：

一种商品信息展示方法，包括：

响应于对目标商品进行展示的请求，加载所述目标商品的三维模型；

从终端设备相机组件采集到的现实世界图像中识别出真实手部图像，并对所述真实手部图像进行实时的三维网格体Mesh重建，以获取多个三维手部关键点坐标；

在将所述目标商品的三维模型投射到所述现实世界图像中进行展示的过程中，根据所述三维手部关键点坐标，确定所述目标商品的三维模型在所述现实世界图像中的展示位置、展示尺寸以及展示姿态。

其中，所述目标商品的三维模型是根据所述目标商品的真实外观及尺寸进行三维重建获得的。

其中，在对所述真实手部图像进行三维Mesh重建的过程中，还获取手部深度信息以及相机参数信息；

所述根据所述三维手部关键点坐标，确定所述目标商品的三维模型在所述现实世界图像中的展示位置、展示尺寸以及展示姿态，包括：

根据所述三维手部关键点坐标、手部深度信息以及相机参数信息，进行手部姿态估计；

根据所述手部深度信息，确定所述目标商品的三维模型投射到所述现实世界图像中时的展示位置及展示尺寸，并根据手部姿态估计结果确定目标商品的三维模型投射到所述现实世界图像中时的展示姿态。

其中，所述目标商品的三维模型与标准姿态的三维手部模型具有绑定关系，在默认状态下，所述三维手部模型通过所述标准姿态持握所述目标商品的三维模型，所述标准姿态的三维手部模型为不可见状态；

所述手部姿态估计结果包括：真实手部的姿态相对于所述标准姿态的旋转矩阵和/或平移向量；

所述根据手部姿态估计结果确定目标商品的三维模型投射到所述现实世界图像中时的展示姿态，包括：

通过将所估计出的旋转矩阵和/或平移向量作用于与所述目标商品的三维模型绑定的三维手部模型，确定目标商品的三维模型投射到所述现实世界图像中时的展示姿态。

其中，所述根据所述三维手部关键点坐标、手部深度信息以及相机参数信息，进行手部姿态估计，包括：

根据所述三维手部关键点坐标、手部深度信息以及相机参数信息，利用从相机坐标到二维图像空间的转换公式，得到所述三维手部关键点在二维图像空间中的投影；

根据所述标准姿态的三维手部模型在世界空间坐标系下的坐标，以及所述三维手部关键点在二维图像空间中的投影，确定真实手部的姿态相对于所述标准姿态的旋转矩阵和/或平移向量。

其中，所述对所述真实手部图像进行三维Mesh重建，包括：

利用预先训练完成的深度学习算法模型对所述真实手部图像进行三维网格体Mesh重建；

其中，所述深度学习算法模型包括二维特征提取部分，以及特征转换部分；

所述二维特征提取部分用于从真实手部图像中提取出多个二维手部关键点在二维图像坐标系中的坐标；

所述特征转换部分用于根据所述二维特征提取部分的处理结果，转换为三维Mesh中多个三维手部关键点在三维图像坐标系中的位置坐标，并确定手部深度信息以及相机参数信息。

其中，所述二维特征提取部分是以多个二维手部图像，以及二维手掌中心点关键点标注信息作为训练数据，单独进行训练获得；

所述特征转换部分是在所述二维特征提取部分训练完成后，以多个二维手部图像，二维手部关键点标注信息，三维手部关键点标注信息，手部深度标注信息，以及相机参数标注信息作为训练数据进行训练获得；

其中，先将二维手部图像经过所述二维特征提取部分进行二维关键点特征提取，并将所述二维特征提取部分的隐层输出特征作为所述特征转换部分的输入信息进行计算，以输出三维手部关键点在三维图像坐标系中的坐标，手部深度信息以及相机参数。

其中，所述特征转换部分包括特征拉平部分，以及映射部分；

其中，所述特征拉平部分用于将所述二维特征提取部分的隐层输出特征对应的特征图进行下采样，得到中间尺度的特征图，并对各通道的特征分别进行拉平处理，得到多个一维特征向量；

所述映射部分用于根据所述多个一维特征向量，以及训练过程中学习到的映射矩阵，将所述一维特征向量转换为多个三维手部关键点，并确定所述多个三维手部关键点坐标。

其中，所述特征转换部分还包括池化部分，以及螺旋卷积部分；

所述池化部分用于将所述一维特征向量进行下采样，得到第一数量的特征值；

所述映射部分具体用于根据训练过程中学习到的映射矩阵，将所述第一数量的特征值转换为第一数量的三维手部关键点坐标；

所述螺旋卷积部分用于将所述第一数量的三维手部关键点坐标转换为第二数量的三维手部关键点坐标，其中，所述第二数量大于第一数量。

一种商品信息交互方法，包括：

在目标商品的详情信息页面中提供用于通过增强现实AR方式对商品进行浏览的操作选项；

响应于通过所述操作选项发起的浏览请求，加载所述目标商品的三维模型，并启动终端设备中的相机组件，以用于对对现实世界中的图像进行采集；

从所采集到的现实世界图像中识别出真实手部图像，并对所述真实手部图像进行实时的三维Mesh重建，以获取多个三维手部关键点坐标；

将所述目标商品的三维模型投射到所述现实世界图像中进行展示，并根据所述三维手部关键点坐标，确定所述目标商品的三维模型在所述现实世界图像中的展示位置、展示尺寸以及展示姿态。

一种商品信息展示装置，包括：

商品模型加载单元，用于响应于对目标商品进行展示的请求，加载所述目标商品的三维模型；

手部Mesh重建单元，用于从终端设备相机组件采集到的现实世界图像中识别出真实手部图像，并对所述真实手部图像进行实时的三维网格体Mesh重建，以获取多个三维手部关键点坐标；

投射单元，用于在将所述目标商品的三维模型投射到所述现实世界图像中进行展示的过程中，根据所述三维手部关键点坐标，确定所述目标商品的三维模型在所述现实世界图像中的展示位置、展示尺寸以及展示姿态。

一种商品信息交互装置，包括：

操作选项提供单元，用于在目标商品的详情信息页面中提供用于通过增强现实AR方式对商品进行浏览的操作选项；

商品模型加载单元，用于响应于通过所述操作选项发起的浏览请求，加载所述目标商品的三维模型，并启动终端设备中的相机组件，以用于对对现实世界中的图像进行采集；

手部Mesh重建单元，用于从所采集到的现实世界图像中识别出真实手部图像，并对所述真实手部图像进行实时的三维Mesh重建，以获取多个三维手部关键点坐标；

投射单元，用于将所述目标商品的三维模型投射到所述现实世界图像中进行展示，并根据所述三维手部关键点坐标，确定所述目标商品的三维模型在所述现实世界图像中的展示位置、展示尺寸以及展示姿态。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一项所述的方法的步骤。

一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述任一项所述的方法的步骤。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

通过本申请实施例，在需要对目标商品进行展示时，可以加载目标商品的三维模型，并且，可以从终端设备相机组件采集到的现实世界图像中识别出真实手部图像，并对所述真实手部图像进行实时的三维网格体Mesh重建，获取多个三维手部关键点坐标。这样，在将所述目标商品的三维模型投射到所述现实世界图像中进行展示的过程中，可以根据所述三维手部关键点坐标，确定所述目标商品的三维模型在所述现实世界图像中的展示位置、展示尺寸以及展示姿态，以呈现出通过真实手部持握所述目标商品的三维模型，且所述目标商品的三维模型跟随真实手部运动的展示效果。这样，使得AR技术可以更好地应用于手机等类目的商品展示场景中，为用户提供更真实、更沉浸式地浏览交互体验。

另外，在优选的实施方式中，还可以在进行的三维手部Mesh重建的过程中，进行手部深度估计，从而可以在该手部深度的估计值，确定出目标商品的三维模型在所述现实世界图像中的展示尺寸。这样，可以更准确地得到目标商品的三维模型在现实世界图像中应该呈现的尺寸，而不会受到不同人的手掌估计大小的影响。

再者，还可以目标商品的三维模型创建标准姿态的三维手部模型，也即，在默认状态下，目标商品的三维模型可以是被一个透明的三维手部模型用标准姿态握住的。在进行手部姿态估计时，可以确定出现实世界图像中的真实手部的姿态相对于该标注姿态的旋转矩阵和/或平移向量，从而可以通过将所估计出的旋转矩阵和/或平移向量作用于与所述目标商品的三维模型绑定的三维手部模型，确定目标商品的三维模型投射到所述现实世界图像中时的展示姿态。这样，可以更好地呈现出目标商品的三维模型被真实人手握住的效果，甚至可以呈现出商品的三维模型被手指部分遮挡等效果，使得用户获得更真实的体验。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的系统架构的示意图；

图2是本申请实施例提供的第一方法的流程图；

图3是本申请实施例提供的数据处理过程的示意图；

图4是本申请实施例提供的第二方法的流程图；

图5是本申请实施例提供的第一装置的示意图；

图6是本申请实施例提供的第二装置的示意图；

图7是本申请实施例提供的电子设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

本申请发明人在实现本申请的过程中发现，对于家具家居等类目的商品而言，通过AR技术，将商品的三维模型映射到用户的家居环境等现实空间环境中，可以为用户带来更直观的在线购物体验。对于上述商品而言，由于在实际应用中通常是放置在某个平面上，例如，地面，桌面等，因此，在AR过程中，只需要在相机采集到的现实世界的图像中进行平面检测，将检测到的平面作为AR锚点，然后将商品的三维模型投射到该AR锚点处即可。但是，在商品信息服务系统中还存在多种其他类目的商品，对于这种商品而言，用户在进行购买决策时，可能也具有获取到更直观更“真实”的体验的需求，但是，却难以通过上述简单的AR技术来实现。

例如，对于手机类的商品而言，各种不同品牌不同型号的手机在尺寸上可能都各不相同，甚至即使是相同的屏幕尺寸，在机身的长宽尺寸方面也可能会有所不同，等等。因此，用户在购买这种手机类商品时，可能需要获取关于手机尺寸的更直观的体验，而不是单纯通过数字的抽象表达。并且，由于手机类商品在日常应用中通常是被用户握在手中，不同用户的手部大小不同，在选择手机类商品时，在尺寸方面的要求也会不同，如果能够让用户“真实”体验到具体手机握在自己手中时的效果，则可以有效地帮助用户进行购物决策。

如果直接将前述用于展示家居家具类商品的AR技术套用在手机类商品中，则可以在真实世界图像中检测人的手部图像，然后，将手部图像作为AR锚点，将手机等商品的三维模型投射到该AR锚点处进行展示。但是，这种方式相当于是默认手掌是一个刚体，3D商品最终效果只能是贴在手掌上的效果，无法模拟手指和手掌一起握住商品，并使得商品能够随着手部的运动而进行翻转等运动的AR效果，也无法体现手指的遮挡等实际效果。

针对上述情况，在本申请实施例中，提供了基于3D手部重建的AR商品展示方案。在该方案中，首先可以针对手机等类目的商品，预先建立3D模型。然后，在用户需要通过AR方式对该商品信息进行展示时，可以从采集到的真实世界图像中进行手部图像识别，并真实手部图像进行实时的三维Mesh(网格体)重建，以获取到多个三维手部关键点(例如，通常可以是778个，其中包括手部的一些关节等关键点)坐标。进而可以基于这些信息，确定出商品三维模型在投射到现实世界图像中时的展示位置、尺寸、姿态等等，从而可以呈现出通过真实手部持握所述目标商品的三维模型，且所述目标商品的三维模型跟随真实手部运动的展示效果。例如，对于手机类商品而言，可以展示出手机的“上手”效果，还可以通过转到手部，移动手指等，对手机进行翻转，或者判断手指在屏幕上的操作范围，等等。

从系统架构角度而言，参见图1，本申请实施例可以涉及到商品信息服务系统的服务端以及客户端，服务端主要可以用于预先对商品进行三维重建，并保存对应的三维模型，另外还可以对用于对真实手部进行实时的三维重建的相关算法模型进行训练，并下发到客户端所在的终端设备。在客户端侧，则可以为用户提供通过AR进行商品展示的入口，当用户从该入口进入后，可以加载商品的三维模型，同时，启动终端设备的相机组件采集现实世界图像，并从中识别出真实手部图像，然后可以通过前述算法模型，对所述真实手部图像进行实时的三维网格体Mesh重建，获取多个三维手部关键点坐标。再根据这种三维手部关键点坐标，将商品的三维模型投射到现实世界图像中。

下面对本申请实施例提供的具体实现方案进行详细介绍。

实施例一

首先，本申请实施例一从前述客户端的角度，提供了一种商品信息展示方法，参见图2，该方法可以包括：

S201：响应于对目标商品进行展示的请求，加载所述目标商品的三维模型。

具体的，客户端可以通过商品详情页的主图区域等，提供通过AR方式对目标商品进行展示的操作入口，例如，主图区域通常可以用于展示多幅商品主图，包括照片、视频等，可以通过自动轮播，或者由用户在主图区域进行左右滑动操作的触发下，对各主图进行切换展示。在本申请实施例中，就可以将通过AR进行商品展示的入口加入到该主图展示区域，在该区域进行主图切换的过程中，其中一幅主图就可以是通过AR进行商品展示的入口，用户可以通过点击其中的按钮等操作选项，来发起具体的展示请求。

相应的，客户端在接收到具体的请求后，可以首先从服务端请求加载当前商品的三维模型，以用于后续投射到现实世界图像中进行展示。其中，商品的三维模型可以是预先通过离线的方式的创建的，例如，可以是商家用户将商品的外观图片、尺寸等信息提供给服务端的技术人员，或者，还可以将商品的实物提供给服务端的技术人员，由技术人员创建出三维模型。其中，在优选的实施方式下，商品的三维模型可以是根据商品的真实外观及尺寸进行一比一创建的，以便为用户提供更真实的体验。

在加载商品的三维模型的同时，还可以启动终端设备中的相机组件，以用于采集现实世界中的图像。此时，还可以提示用户用一只手握住当前终端设备，并对着自己的另一只手进行拍摄，等等。

S202：从终端设备相机组件采集到的现实世界图像中识别出真实手部图像，并对所述真实手部图像进行实时的三维网格体Mesh重建，获取多个三维手部关键点坐标。

在终端设备的相机组件进行现实世界图像采集的过程中，还可以从这种图像中进行真实手部图像识别，并且，可以对真实手部图像进行实时的三维Mesh(网格体)重建，获取多个三维手部关键点坐标。具体的，可以是在相机组件进行动态的图像流采集的过程中，进行上述手部图像识别以及三维Mesh重建的处理，也即，可以对图像流中的每一帧都分别进行手部图像识别以及三维Mesh重建的处理，或者，也可以每隔数帧进行识别以及重建，等等。

其中，具体在从现实世界图像中进行真实手部图像识别时，可以通过已有的算法模型来实现，这里不再进行详述。在识别出真实手部图像之后，具体可以利用预先训练完成的深度学习算法模型对所述真实手部图像进行三维Mesh重建。

具体的，上述深度学习模型可以是预先进行训练完成的，训练的目标是，在向该深度学习模型输入二维的真实手部图像时，可以输出多个三维手部关键点的坐标。例如，在3D手部重建标准模型中，可以包括21个二维手部关键点，778个三维手部关键点，1538个面。为了达到该目的，在模型的选择上，可以采用带上采样和非线性激活的层次图卷积，从骨干网提取的图像特征中生成三维手网格顶点。有了这样一个端到端可训练的框架，可以更好地表示变化很大的三维手形，也可以更好地表达三维手形的局部细节。但是，这种模型运行过程中产生的计算量可能会很大，可能难以在移动端实时运行。另外，为了对上述深度学习模型进行训练，需要收集到大量的手部图像，并分别在各个手部图像中标注出778个三维手部关键点，以此对模型进行训练。但是，在具体实现时可能面临以下挑战：缺乏真实世界图像的3D手网格训练数据，这是因为，在真实世界的RGB((Red Green Blue，红绿蓝三原色)图像上手动标注3D手网格是非常费力和耗时的，甚至，由于3D手网格顶点可能没有人类可理解的含义，因此，更加为标注过程增加了难度。

为此，在具体实现时，可以将深度学习算法模型划分为二维特征提取部分，以及特征转换部分，其中，二维特征提取部分用于从真实手部图像中提取出多个二维手部关键点在二维图像坐标系中的坐标，也即，其输入是二维手部图像，输出的多个二维手部关键点的坐标；特征转换部分用于根据所述二维特征提取部分的处理结果，转换为三维Mesh中多个三维手部关键点在三维图像坐标系中的位置坐标。另外，在优选的实施方式下，还可以在此过程中，确定出手部深度信息以及相机参数信息，以用于后续进行手部姿态估计等。

也就是说，可以采用轻量化的2D编码结构与3D解码结构，并通过Feature Lifting模块来桥接2D与3D特征表达。这样，关于二维特征提取部分可以单独进行训练，并且训练时，只需要获取到二维手部图像，以及针对每幅二维手部图像标注的21个二维关键点即可，由于二维关键点通常具有比较具体的人类可以理解的含义，包括手部的一些关节等，并且数量比较少，因此，可以相对比较容易获取到大量的带有二维手部关键点标注信息的训练样本，从而可以使得二维特征提取部分得到充分地训练，获得较准确的二维手部特征点识别结果。

关于特征转换部分，则可以是在所述二维特征提取部分训练完成后，以多个二维手部图像，二维手部关键点标注信息，三维手部关键点标注信息，手部深度标注信息，以及相机参数标注信息作为训练数据进行训练获得。由于可以在二维特征提取的基础上，进行特征转换部分的训练，因此，对训练样本数量的要求得到降低，也即，可以在少量的三维手部关键点标注信息的情况下，完成对特征转换部分的训练。

具体完成训练后，上述二维特征提取部分可以与特征转换部分级联在一起，也即，具体在对某个真实手部图像进行3DMesh重建时，具体的二维手部图像会首先输入到二维特征提取部分，然后再进入到特征转换部分。

在具体实现时，由于将二维特征提取部分的最终输出通常只是21个二维手部关键点的坐标，其中可能已经丢失了一些关于手部图像的原始信息，因此，在优选的实施方式下，可以将二维特征提取部分的隐层输出特征作为所述特征转换部分的输入信息进行计算，以输出三维手部关键点在三维图像坐标系中的坐标，另外，还可以输出手部深度信息、相机参数等。其中，所谓的二维特征提取部分的隐层输出特征是指，二维特征提取部分通常多层网络结构，最后一层的输出就是上述21个二维手部关键点的坐标，而中间层的输出则可以是一个中间尺度的feature map(特征图，例如，可以是64个大小为16×16的特征值，这里为了控制计算量没有上采样到原图尺寸)。可以将该中间尺度的特征图作为特征转换部分的输入信息。

具体实现时，具体的特征转换部分还可以包括特征拉平部分，以及映射部分；其中，特征拉平部分用于将所述二维特征提取部分的隐层输出特征对应的特征图进行下采样，得到中间尺度的特征图，并对各通道的特征分别进行拉平处理，得到多个一维特征向量。例如，将前述16×16的特征图拉平为256×1的一维特征向量，等等。映射部分则可以用于根据所述多个一维特征向量，以及训练过程中学习到的映射矩阵，将所述一维特征向量转换为多个三维手部关键点，并确定所述多个三维手部关键点坐标。

当然，在上述进行了特征拉平的处理的情况下，还可以采用MLP(MultilayerPerceptron，多层感知机)来回归2D坐标，以得到21个二维手部关键点的坐标。在可选的方式下，还可以通过2D损失函数来进行优化，以使得三维手部关键点的计算预测值尽可能接近真实值。否则，虽然也可以转换为3D关键点坐标，但是可能最终在进行投射时，目标商品的三维图像可能结合不到2D的手上。因此，可以在原空间中对模型预测的三维手部关键点与二维手部关键点进行一致性约束，也即，在获知二维手部关键点的2D坐标后，可以约束三维手部关键点的3D坐标在2D坐标附近。

另外，由于手部Mesh中的三维手部关键点的数量通常比较多，例如，778个，如果直接通过映射矩阵转换得到如此大数量的三维手部关键点，则映射矩阵进行学习时的难度会很大，具体的网络结构可能也会很复杂，例如，包括的卷积深度、宽度等可能都会很大，算子比较复杂，等等，运行时的计算量也会很大，不适于在移动端运行。

因此，为了进一步实现模型的轻量化，所述特征转换部分还包括池化部分，以及螺旋卷积部分。其中，池化部分可以用于将所述一维特征向量进行下采样，得到第一数量的特征值。例如，可以从前述256×1的一维向量中，下采样得到49个特征值，使得映射部分具体用于根据训练过程中学习到的映射矩阵，将所述第一数量的特征值转换为第一数量的三维手部关键点坐标，例如，可以得到49个三维手部关键点坐标。也就是说，此时的映射部分可以得到比较粗糙版本的手部3D重建结果。之后，还可以通过螺旋卷积部分，将所述第一数量的三维手部关键点坐标转换为第二数量的三维手部关键点坐标，其中，所述第二数量大于第一数量。例如，第二数据就可以是标准的778个三维手部关键点的坐标，等等。

需要说明的是，具体实现时，关于螺旋卷积部分，从第一数量到第二数量可以是通过一次或者多次操作来完成。例如，假设第一数量为49，第二数量为778，则可以通过四次上采样来完成，每次都是在数量上增加一倍，例如，第一次螺旋卷积完成从49到98，第二次螺旋卷积完成从98到197，第三次螺旋卷积完成从197到384，第四次螺旋卷积完成从394到778，等等。

S203：在将所述目标商品的三维模型投射到所述现实世界图像中进行展示的过程中，根据所述三维手部关键点坐标，确定所述目标商品的三维模型在所述现实世界图像中的展示位置、展示尺寸以及展示姿态。

在完成关于手部的三维Mesh重建后，在将所述目标商品的三维模型投射到所述现实世界图像中进行展示的过程中，就可以根据所述三维手部关键点坐标，确定所述目标商品的三维模型在所述现实世界图像中的展示位置、展示尺寸以及展示姿态。例如，一种方式下，如果多个三维手部关键点具有实际含义，则可以根据各个含义的关键点所在的位置，确定出目标商品的三维模型在所述现实世界图像中的展示位置、展示尺寸以及展示姿态。例如，如果已知多个三维手部关键点中包括大拇指指尖、关节、食指第一关节、第二关节、指尖、手掌中心等等。则可以根据这些关键点各自的三维坐标，将目标商品的三维模型展示到“手中”，以呈现出通过真实手部持握所述目标商品的三维模型的状态，并且，如果真实手部在现实世界图像中发生运行，该目标商品的三维模型也会跟随运动，呈现出通过人手翻转商品等效果。

当然，在实际应用中，更多的情况通常是，具体三维Mesh重建后，多个手部关键点并无实际意义，此时，相当于只是获取到了多个点的坐标集合，但是算法无法确定每个点分别代表手部的具体何种位置，因此，可能无法直接利用这些关键点的坐标，确定出目标商品的三维模型应该以何种尺寸、位置、姿态投射到现实世界图像中。

为此，在可选的实施方式下，还可以在对所述真实手部图像进行三维Mesh重建的过程中，获取手部深度信息以及相机参数信息。其中，手部深度信息可以用来表明能够手掌中心点等关键点与终端设备之间的距离，例如，具体可以将778个三维关键点中的0号点作为手掌中心点，根据其3D坐标，可以计算出该关键点与终端设备之间的距离，进而得到手部深度信息。关于相机参数信息，由于相机坐标系与图像坐标系是不同的，而在通过手部三维重建后，需要将3D手部关键点坐标投影回图像坐标系，因此，可以预测出相机参数。当然，在一些情况下，相机参数信息可能是已知的，此时可以通过预先配置的方式进行获知，而不需要在模型中进行预测。

在获取到手部深度信息以及相机参数信息的情况下，可以根据所述三维手部关键点坐标、手部深度信息以及相机参数信息，进行手部姿态估计。然后，可以根据所述手部深度信息，确定所述目标商品的三维模型投射到所述现实世界图像中时的展示位置及展示尺寸，并根据手部姿态估计结果确定目标商品的三维模型投射到所述现实世界图像中时的展示姿态。

具体实现时，为了达到上述通过估计出的手部姿态来确定商品三维模型的姿态，可以预先为目标商品的三维模型建立标准姿态的三维手部模型，在默认状态下，该三维手部模型可以通过标准姿态持握目标商品的三维模型。也就是说，目标商品的三维模型可以是被一个标准姿态的三维手部模型握住的，并且目标商品的三维模型可以随着该三维手部模型的运动而运动。当然，该标准姿态的三维手部模型并不需要展示出来，因此，可以为不可见状态。

在上述存在标准姿态的三维手部模型的情况下，对真实手部的手部姿态估计结果可以包括：真实手部的姿态相对于所述标准姿态的旋转矩阵和/或平移向量。这样，可以通过将所估计出的旋转矩阵和/或平移向量作用于与所述目标商品的三维模型绑定的三维手部模型，确定目标商品的三维模型投射到所述现实世界图像中时的展示姿态。

其中，具体在根据所述三维手部关键点坐标、手部深度信息以及相机参数信息，进行手部姿态估计时，可以首先根据所述三维手部关键点坐标、手部深度信息以及相机参数信息，利用从相机坐标到二维图像空间的转换公式，得到所述三维手部关键点在二维图像空间中的投影；然后，根据所述标准姿态的三维手部模型在世界空间坐标系下的坐标，以及所述三维手部关键点在二维图像空间中的投影，确定真实手部的姿态相对于所述标准姿态的旋转矩阵和/或平移向量。

通过这种方式，由于可以根据手部Mesh中各个三维手部关键点的位置，得到手部的全局位姿，利用这些信息，可以更好地达到手指和手掌一起握住商品的AR效果，还可以体现出手握住商品的过程中，手指对商品的遮挡，同时还可以更好地保证商品随着手的运动而运动。通过手部深度估计，则可以更准确地得到商品的三维模型在画面中应该呈现的尺寸，不受手掌估计大小的影响。也即，在通过不同手掌大小的手对商品进行AR展示的过程中，如果手部深度相同，则呈现出的商品三维模型的尺寸是一致的，以此提升真实感效果。

为了更好地理解本申请实施例提供的具体实现方案，下面通过一个实际应用中的例子，对本申请实施例的实现流程进行介绍。

如图3所示，首先，在用户发起AR展示请求后，可以提供用户指引，包括对操作方式进行演示等。之后，可以通过终端设备的相机组件采集真实世界图像，并对其中的手部图像进行检测及裁剪。然后就可以进入到3D手部Mesh重建的过程，以得到多个3D手部关键点的坐标。另外，在重建的过程中可以通过相机外参估计网络，估计出相机参数，通过手部深度估计网络估计出手部深度信息。之后，还可以根据估计出的相机参数及手部深度信息，将3D手部关键点投影回二维图像坐标系。再根据所述标准姿态的三维手部模型在世界空间坐标系下的坐标，以及所述三维手部关键点在二维图像空间中的投影，确定真实手部的姿态相对于所述标准姿态的旋转矩阵和/或平移向量。最后，可以根据手部姿态估计结果以及手部深度估计结果，将目标商品(例如，某手机)的三维模型(也可以对应一个Mesh)贴合手部Mesh进行展示，最终的呈现结果就可以是现实世界图像中的真实人手握住了商品，并且，图像中的商品三维模型相对于手部的尺寸等，与在该手部真实握住该商品时的效果是一致的，从而使得用户获得更真实、更沉浸式的体验。

当然，在实际应用中，由于摄像头在不断地进行图像采集，因此，在完成对一帧图像中的3D手部Mesh重建之后，还可以对下一帧图像进行手部检测以及3D手部Mesh重建，以此类推。其中，在对下一帧进行检测之前，还可以将上一帧的3D手部Mesh重建中获得的2D手部关键点投影回图像坐标系，此时，还可以通过这种关键点置信度判断下一帧图像中的手部是否存在，如果存在，还可以计算出下一帧中手部图像的检测框位置。如果通过手部关键点置信度判断出下一帧图像中不存在手部图像，则可以继续对后续采集到的其他图像帧进行手部检测，等等。

总之，通过本申请实施例，在需要通过增强现实AR方式对目标商品进行展示时，可以加载目标商品的三维模型，并且，可以从终端设备相机组件采集到的现实世界图像中识别出真实手部图像，并对所述真实手部图像进行实时的三维网格体Mesh重建，获取多个三维手部关键点坐标。这样，在将所述目标商品的三维模型投射到所述现实世界图像中进行展示的过程中，可以根据所述三维手部关键点坐标，确定所述目标商品的三维模型在所述现实世界图像中的展示位置、展示尺寸以及展示姿态，以呈现出通过真实手部持握所述目标商品的三维模型，且所述目标商品的三维模型跟随真实手部运动的展示效果。这样，使得AR技术可以更好地应用于手机等类目的商品展示场景中，为用户提供更真实、更沉浸式地浏览体验。

再者，还可以为目标商品的三维模型创建标准姿态的三维手部模型，也即，在默认状态下，目标商品的三维模型可以是被一个透明的三维手部模型用标准姿态握住的。在进行手部姿态估计时，可以确定出现实世界图像中的真实手部的姿态相对于该标注姿态的旋转矩阵和/或平移向量，从而可以通过将所估计出的旋转矩阵和/或平移向量作用于与所述目标商品的三维模型绑定的三维手部模型，确定目标商品的三维模型投射到所述现实世界图像中时的展示姿态。这样，可以更好地呈现出目标商品的三维模型被真实人手握住的效果，甚至可以呈现出商品的三维模型被手指部分遮挡等效果，使得用户获得更真实的体验。

实施例二

在该实施例二中，主要针对具体在商品详细页面中提供AR展示入口，并帮助用户在商品购买/浏览过程中，通过本申请实施例提供的AR手持浏览方式，提升用户商品浏览体验或交易决策的实现方案，提供了一种商品信息交互方法，参见图4，该方法可以包括：

S401：在目标商品的详情信息页面中提供用于通过增强现实AR方式对商品进行浏览的操作选项；

S402：响应于通过所述操作选项发起的浏览请求，加载所述目标商品的三维模型，并启动终端设备中的相机组件，以用于对对现实世界中的图像进行采集；

S403：从所采集到的现实世界图像中识别出真实手部图像，并对所述真实手部图像进行实时的三维Mesh重建，以获取多个三维手部关键点坐标；

S404：将所述目标商品的三维模型投射到所述现实世界图像中进行展示，并根据所述三维手部关键点坐标，确定所述目标商品的三维模型在所述现实世界图像中的展示位置、展示尺寸以及展示姿态。

关于该实施例二中的未详述部分，可以参见实施例一以及本申请说明书其他部分的记载，这里不再赘述。

需要说明的是，本申请实施例中可能会涉及到对用户数据的使用，在实际应用中，可以在符合所在国的适用法律法规要求的情况下(例如，用户明确同意，对用户切实通知，等)，在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。

与实施例一相对应，本申请实施例还提供了一种商品信息展示装置，参见图5，该装置可以包括：

商品模型加载单元501，用于响应于对目标商品进行展示的请求，加载所述目标商品的三维模型；

手部Mesh重建单元502，用于从终端设备相机组件采集到的现实世界图像中识别出真实手部图像，并对所述真实手部图像进行实时的三维网格体Mesh重建，以获取多个三维手部关键点坐标；

投射单元503，用于在将所述目标商品的三维模型投射到所述现实世界图像中进行展示的过程中，根据所述三维手部关键点坐标，确定所述目标商品的三维模型在所述现实世界图像中的展示位置、展示尺寸以及展示姿态。

具体实现时，在对所述真实手部图像进行三维Mesh重建的过程中，还可以获取手部深度信息以及相机参数信息；

此时，投射单元具体可以包括：

姿态估计子单元，用于根据所述三维手部关键点坐标、手部深度信息以及相机参数信息，进行手部姿态估计；

投射子单元，用于根据所述手部深度信息，确定所述目标商品的三维模型投射到所述现实世界图像中时的展示位置及展示尺寸，并根据手部姿态估计结果确定目标商品的三维模型投射到所述现实世界图像中时的展示姿态。

此时，所述手部姿态估计结果包括：真实手部的姿态相对于所述标准姿态的旋转矩阵和/或平移向量；

所述投射子单元具体可以用于：

具体的，所述姿态估计子单元具体可以用于：

其中，手部Mesh重建单元具体可以用于：

可选的，所述二维特征提取部分是以多个二维手部图像，以及二维手掌中心点关键点标注信息作为训练数据，单独进行训练获得；

另外，所述特征转换部分可以包括特征拉平部分，以及映射部分；

另外，所述特征转换部分还可以包括池化部分，以及螺旋卷积部分；

与实施例二相对应，本申请实施例还提供了一种商品信息交互装置，参见图6，该装置可以包括：

操作选项提供单元601，用于在目标商品的详情信息页面中提供用于通过增强现实AR方式对商品进行浏览的操作选项；

商品模型加载单元602，用于响应于通过所述操作选项发起的浏览请求，加载所述目标商品的三维模型，并启动终端设备中的相机组件，以用于对对现实世界中的图像进行采集；

手部Mesh重建单元603，用于从所采集到的现实世界图像中识别出真实手部图像，并对所述真实手部图像进行实时的三维Mesh重建，以获取多个三维手部关键点坐标；

投射单元604，用于将所述目标商品的三维模型投射到所述现实世界图像中进行展示，并根据所述三维手部关键点坐标，确定所述目标商品的三维模型在所述现实世界图像中的展示位置、展示尺寸以及展示姿态。

另外，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

以及一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述方法实施例中任一项所述的方法的步骤。

其中，图7示例性的展示出了电子设备的架构，例如，设备700可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理，飞行器等。

参照图7，设备700可以包括以下一个或多个组件：处理组件702，存储器704，电源组件706，多媒体组件708，音频组件710，输入/输出(I/O)的接口712，传感器组件714，以及通信组件716。

处理组件702通常控制设备700的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件702可以包括一个或多个处理器720来执行指令，以完成本公开技术方案提供的方法的全部或部分步骤。此外，处理组件702可以包括一个或多个模块，便于处理组件702和其他组件之间的交互。例如，处理部件702可以包括多媒体模块，以方便多媒体组件708和处理组件702之间的交互。

存储器704被配置为存储各种类型的数据以支持在设备700的操作。这些数据的示例包括用于在设备700上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件706为设备700的各种组件提供电力。电源组件706可以包括电源管理系统，一个或多个电源，及其他与为设备700生成、管理和分配电力相关联的组件。

多媒体组件708包括在设备700和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件708包括一个前置摄像头和/或后置摄像头。当设备700处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件710被配置为输出和/或输入音频信号。例如，音频组件710包括一个麦克风(MIC)，当设备700处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中，音频组件710还包括一个扬声器，用于输出音频信号。

I/O接口712为处理组件702和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件714包括一个或多个传感器，用于为设备700提供各个方面的状态评估。例如，传感器组件714可以检测到设备700的打开/关闭状态，组件的相对定位，例如所述组件为设备700的显示器和小键盘，传感器组件714还可以检测设备700或设备700一个组件的位置改变，用户与设备700接触的存在或不存在，设备700方位或加速/减速和设备700的温度变化。传感器组件714可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件714还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件716被配置为便于设备700和其他设备之间有线或无线方式的通信。设备700可以接入基于通信标准的无线网络，如WiFi，或2G、3G、4G/LTE、7G等移动通信网络。在一个示例性实施例中，通信部件716经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件716还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，设备700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器704，上述指令可由设备700的处理器720执行以完成本公开技术方案提供的方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本申请所提供的商品信息展示方法、装置及电子设备，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种商品信息展示方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，

所述目标商品的三维模型是根据所述目标商品的真实外观及尺寸进行三维重建获得的。

3.根据权利要求1所述的方法，其特征在于，

在对所述真实手部图像进行三维Mesh重建的过程中，还获取手部深度信息以及相机参数信息；

4.根据权利要求3所述的方法，其特征在于，

所述目标商品的三维模型与标准姿态的三维手部模型具有绑定关系，在默认状态下，所述三维手部模型通过所述标准姿态持握所述目标商品的三维模型，所述标准姿态的三维手部模型为不可见状态；

5.根据权利要求4所述的方法，其特征在于，

所述根据所述三维手部关键点坐标、手部深度信息以及相机参数信息，进行手部姿态估计，包括：

6.根据权利要求1所述的方法，其特征在于，

所述对所述真实手部图像进行三维Mesh重建，包括：

7.根据权利要求6所述的方法，其特征在于，

所述二维特征提取部分是以多个二维手部图像，以及二维手掌中心点关键点标注信息作为训练数据，单独进行训练获得；

8.根据权利要求7所述的方法，其特征在于，

所述特征转换部分包括特征拉平部分，以及映射部分；

9.根据权利要求8所述的方法，其特征在于，

所述特征转换部分还包括池化部分，以及螺旋卷积部分；

10.一种商品信息交互方法，其特征在于，包括：

11.一种商品信息展示装置，其特征在于，包括：

12.一种商品信息交互装置，其特征在于，包括：

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至10任一项所述的方法的步骤。

14.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行权利要求1至10任一项所述的方法的步骤。