CN115359192A - 三维重建与商品信息处理方法、装置、设备及存储介质 - Google Patents

三维重建与商品信息处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115359192A
CN115359192A CN202211257959.4A CN202211257959A CN115359192A CN 115359192 A CN115359192 A CN 115359192A CN 202211257959 A CN202211257959 A CN 202211257959A CN 115359192 A CN115359192 A CN 115359192A
Authority
CN
China
Prior art keywords
target
image
dimensional model
frame
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211257959.4A
Other languages
English (en)
Other versions
CN115359192B (zh
Inventor
俞洪蕴
陈志文
吕承飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202211257959.4A priority Critical patent/CN115359192B/zh
Publication of CN115359192A publication Critical patent/CN115359192A/zh
Priority to PCT/CN2023/071989 priority patent/WO2024077809A1/zh
Application granted granted Critical
Publication of CN115359192B publication Critical patent/CN115359192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0641Shopping interfaces
    • G06Q30/0643Graphical representation of items or shoppers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Accounting & Taxation (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请实施例提供一种三维重建与商品信息处理方法、装置、设备及存储介质。在本申请实施例中,对目标对象的多张图像进行三维重建,在三维重建过程中对多张图像进行特征向量的提取和拼接,以及基于拼接的特征向量预测用于模型控制的姿态控制参数和形状控制参数,并按照姿态控制参数和形状控制参数对目标对象的初始三维模型进行蒙层处理,得到目标对象的目标三维模型。该三维重建方式极大地提高了三维模型的精度和真实感,进而有效地拓展基于三维模型的应用范围和应用效果。特别地,在商品选购场景中,能够基于三维重建的模型为目标对象选购与之适配的商品,为解决现有退换货问题提供条件。

Description

三维重建与商品信息处理方法、装置、设备及存储介质
技术领域
本申请涉及互联网技术领域,尤其涉及一种三维重建与商品信息处理方法、装置、设备及存储介质。
背景技术
随着互联网技术和电子商务的发展,人们可以足不出户进行在线购物。但对于鞋子等穿戴类商品,在线购买时用户无法进行试穿,经常出现鞋子等穿戴类商品到货后因为不合脚、不合身要退换货的情况,这不仅会严重影响用户的购物体验,还会增加在线购物的成本,降低效率。
于是,现有技术出现了一些估计脚部长度,基于估计的脚部长度向用户推荐合适尺码的鞋子的方案,例如利用脚部图像中的关键点来估计脚长,或者借助于AR技术对用户脚长进行测量。基于这些方案,用户在购鞋时仍很难得知鞋子相对于自己的脚型是否挤脚、穿着是否舒适等特性。也就是说,现有方案依旧无法很好地解决穿戴类商品的选购问题,无法很好的解决退换货问题。
发明内容
本申请的多个方面提供一种三维重建与商品信息处理方法、装置、设备及存储介质,用以对目标对象进行高精度的三维重建,以便基于三维重建的模型为目标对象选购与之适配的商品,为解决现有退换货问题提供条件。
本申请实施例提供一种三维重建方法,包括:获取包括目标对象的多帧图像,以及目标对象对应的三维模型描述信息;将多帧图像输入特征提取网络进行特征提取,以得到多帧图像的特征向量,对多帧图像的特征向量进行拼接,得到目标拼接特征向量;将目标拼接特征向量输入参数回归网络,根据三维模型描述信息预测用于模型控制的多个控制参数集,多个控制参数包括姿态控制参数和形状控制参数;按照姿态控制参数和形状控制参数对目标对象的初始三维模型进行蒙层处理,得到目标对象的目标三维模型,初始三维模型是根据三维模型描述信息得到的。
本申请实施例还提供一种三维重建装置,包括:图像获取单元,用于获取目标对象的多帧图像,以及目标对象对应的三维模型描述信息;特征提取单元,用于将多帧图像输入特征提取网络进行特征提取,以得到多帧图像的特征向量;向量拼接单元,用于对多帧图像的特征向量进行拼接,得到目标拼接特征向量;参数回归单元,用于将目标拼接特征向量输入参数回归网络,根据三维模型描述信息预测用于模型控制的多个控制参数集,多个控制参数包括姿态控制参数和形状控制参数;蒙层处理单元,用于按照姿态控制参数和形状控制参数对目标对象的初始三维模型进行蒙层处理,得到目标对象的目标三维模型,初始三维模型是根据三维模型描述信息得到的。
本申请实施例还提供一种计算机设备,包括:存储器和处理器;存储器,用于存储计算机程序,处理器与存储器耦合,用于执行计算机程序,以用于实现本申请实施例提供的三维重建方法中的步骤。
本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,当计算机程序被处理器执行时,致使处理器执行本申请实施例提供的三维重建方法中的步骤。
本申请实施例还提供一种商品信息处理方法,包括:获取包含包括试穿对象的多帧图像,以及试穿对象对应的三维模型描述信息;将多帧图像输入特征提取网络进行特征提取,以得到多帧图像的特征向量,对多帧图像的特征向量进行拼接,得到目标拼接特征向量;将目标拼接特征向量输入参数回归网络,根据三维模型描述信息预测用于模型控制的多个控制参数,多个控制参数包括姿态控制参数和形状控制参数;按照姿态控制参数和形状控制参数对试穿对象的初始三维模型进行蒙层处理,得到试穿对象的目标三维模型,初始三维模型是根据三维模型描述信息得到的;根据目标三维模型为试穿对象提供与之适配的目标商品信息。
在本申请实施例中,采用一种全新的三维重建网络架构为目标对象进行三维重建,该三维重建网络架构包含用于对包含目标对象的多帧图像进行特征提取的特征提取网络、用于对多帧图像的特征向量进行拼接的向量拼接网络、用于基于三维模型描述信息中的参数数量进行模型参数预测的参数回归网络以及用于根据预测出的控制参数进行蒙层处理的蒙层处理网络,基于该三维重建网络架构不仅可以实现端到端的三维重建,而且可以提高三维重建的精度。在得到目标对象的高精度的三维重建模型之后,可以基于该三维重建模型为目标对象选购与之适配的商品,从而解决因为选购不合适引起的退换货问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种三维重建网络的模型结构图;
图2为本申请实施例提供的一种三维重建方法的流程图;
图3为本申请实施例提供的另一种三维重建网络的模型结构图;
图4为本申请实施例提供的一种特征提取网络的模型结构图;
图5为本申请实施例提供的一种特征提取网络中的特征提取模块的模型结构图;
图6为本申请实施例提供的一种下采样子模块的模型结构图;
图7为本申请实施例提供的一种商品信息处理方法的流程图;
图8为本申请实施例提供的一种三维重建装置的结构示意图;
图9为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的访问关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。在本申请的文字描述中,字符“/”一般表示前后关联对象是一种“或”的关系。此外,在本申请实施例中,“第一”、“第二”、“第三”、“第四”、“第五”以及“第六”只是为了区分不同对象的内容而已,并无其它特殊含义。
现有方案面临着穿戴类商品选购不合适,存在频繁退换货的问题。为此,本申请实施例提供一种三维重建与商品信息处理方法、装置、设备及存储介质。在本申请实施例中,利用目标对象对应的三维模型描述信息创建目标对象的初始三维模型,又利用包括目标对象的多张图像采用一种全新的三维重建网络架构对目标对象进行三维重建,在三维重建过程中提取多张图像各自的特征向量,并对多张图像各自的特征向量进行拼接,以及基于拼接的特征向量预测用于模型控制的姿态控制参数和形状控制参数,并按照姿态控制参数和形状控制参数对目标对象的初始三维模型进行蒙层处理,得到目标对象的目标三维模型。由此,这种三维重建方式极大地提高了三维模型的精度,三维模型的精度越高,三维模型的真实感越强,也就越能够真实表达现实世界中的目标对象,进而有效地拓展三维模型的应用范围和提高三维模型的应用效果。特别地,在商品选购场景中,能够基于三维重建的模型为目标对象选购与之适配的商品,为解决现有退换货问题提供条件。
图1为本申请实施例提供的一种三维重建网络的模型结构图。参见图1,整个三维重建网络可以包括:特征提取网络、向量拼接网络、参数回归网络和蒙层处理网络。实际应用中,目标对象可以是任意的需要进行三维重建的对象,目标对象例如为人体上的脚部对象、手部对象、头部对象、肘部对象或腿部对象等身体部位,又例如为自然界中的各种动物、植物等等,又例如为真实的房屋、山体等三维空间场景等等,对此不做限制。在对目标对象进行三维重建时,首先可以利用图像采集装置对目标对象进行视频采集,获取包括目标对象的视频流,参见图1中的①所示,依次将视频流中连续多帧包括目标对象的图像输入至三维重建网络中,参见图1中的②和③所示,特征提取网络依次对每帧图像进行特征提取,提取每帧图像的特征向量。在得到多帧图像的特征向量后,参见图1中的④和⑤所示,利用向量拼接网络对多帧图像的特征向量按照图像采集时刻从早到晚的顺序依次进行拼接处理,得到目标拼接特征向量;接着,参见图1中的⑥和⑦所示,利用参数回归网络对目标拼接特征向量进行预测处理,得到用于模型控制的多个控制参数,多个控制参数可以包括姿态控制参数和形状控制参数。最后,参见图1中的⑧和⑨所示,利用蒙层处理网络对基于三维模型描述信息得到的目标对象的初始三维模型进行蒙层处理,便可输出目标对象的目标三维模型,至此完成整个三维重建任务。
实际应用中,整个三维重建网络可以部署在终端设备上,可以部署在服务器上,或者,整个三维重建网络中的部分网络部署在终端设备上,部分网络部署在服务器上,对此不做限制。可选的,终端设备例如包括但不限于手机、平板电脑、笔记本电脑、可穿戴设备、车载设备。服务器例如包括但不限于单个服务器或多个服务器组成的分布式服务器集群。
应当理解的是,图1中的三维重建网络的模型结构仅仅是示意性的。例如,特征提取网络也可以增设拼接处理功能,这样,三维重建网络无需包含专门的向量拼接网络。又例如,参数回归网络也可以增设蒙层处理功能,这样,三维重建网络无需包含专门的蒙层处理网络。凡是具有上述特征提取、向量拼接、参数回归以及蒙层处理能力的神经网络架构均适用于本申请实施例。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图2为本申请实施例提供的一种三维重建方法的流程图。参见图2,该方法可以包括以下步骤:
201、获取包括目标对象的多帧图像,以及目标对象对应的三维模型描述信息。
202、将多帧图像输入特征提取网络进行特征提取,以得到多帧图像的特征向量,对多帧图像的特征向量进行拼接,得到目标拼接特征向量。
203、将目标拼接特征向量输入参数回归网络,根据三维模型描述信息预测用于模型控制的多个控制参数,多个控制参数包括姿态控制参数和形状控制参数。
204、按照姿态控制参数和形状控制参数对目标对象的初始三维模型进行蒙层处理,得到目标对象的目标三维模型,初始三维模型是根据三维模型描述信息得到的。
在本实施例中,预先准备目标对象对应的三维模型描述信息。在目标对象为身体部位的情况下,目标对象对应的三维模型描述信息可以是基于SMPL(Skinned Multi-Person Linear Model,蒙皮多人线性模型)模型确定的,SMPL(Skinned Multi-PersonLinear Model)是一种裸体的(skinned),基于顶点(vertex-based)的人体三维模型,能够精确地表示人体的不同形状(shape)和姿态(pose)。
三维模型描述信息描述了目标对象的三维模型需要包含的顶点数量、各顶点的位置信息和用于模型控制的参数数量。基于各顶点的位置信息可以构建出目标对象的初始三维模型。以目标对象为脚部为例,可以采用1600个顶点所构建的三维模型作为脚部的初始三维模型,1600个顶点仅为示例,并不限于此,具体可以根据模型精度灵活选择三维模型所需的顶点数量。其中,用于模型控制的参数数量不做限制,也可以根据模型控制的精度和复杂度进行灵活设定。例如,用于模型控制的多个控制参数可以包括姿态控制参数和形状控制参数,姿态控制参数用于控制三维模型的姿态,形状控制参数用于控制三维模型的形状。姿态控制参数可以包含翻滚角、俯仰角和偏航角等3个姿态角,通过3个姿态角控制三维模型的姿态。形状控制参数因目标对象不同而有所不同,任一形状参数的改变,可以引起目标对象的一个或多个部位的形状发生改变。以目标对象为脚部为例,形状控制参数例如包括10个形状参数,10个形状参数可以控制脚趾头大小、脚的肥瘦、纵向横向拉伸、足弓弯曲等。以目标对象为头部为例,形状控制参数例如包括8个形状参数,8个形状参数可以控制嘴巴大小、鼻梁高低、眼距和额头宽度等等。以目标对象为房屋为例,形状控制参数例如包括30个形状参数,30个形状参数可以控制房屋的层高、房屋大小、房屋的外墙构造等等。
由于初始三维模型的精度较低,初始三维模型的真实感不够,难以真实表达真实世界中的目标对象。为此,出于提高三维模型的精度的考虑,利用三维重建网络重建目标对象的目标三维模型。
在本实施例中,为了增强模型的鲁棒性,为模型引入一定的平滑效果,可以获取包括目标对象的多帧图像,将多帧图像输入至三维重建网络中进行三维重建。多帧图像的数量不做限制,例如为3帧、4帧、5帧等。实际应用中,可以预先对目标对象进行视频采集,得到视频流,并在本地保存视频流,在需要对目标对象进行三维重建时,从本地保存的视频流中获取包括目标对象的多帧图像。当然,也可以实时对目标对象进行视频采集,得到视频流,从实时采集的视频流中获取包括目标对象的多帧图像,对此不做限制。
实际应用中,针对包括目标对象的多帧图像中每帧图像,可以直接将该帧图像输入至三维重建网络中的特征提取网络进行特征提取。具体而言,依次将多帧图像中每帧图像作为当前帧图像,可以直接将当前帧图像输入至特征提取网络进行特征提取,在该过程中,可以保存提取到的每帧图像的特征向量。这样,在使用多帧图像进行三维重建时,可以将当前帧图像输入三维重建网络中的特征提取网络进行特征提取,而当前帧图像之前的其它几帧历史图像的特征向量可以直接从对应的存储空间中获取,但并不限于此。例如,同时将当前帧图像和之前几帧历史图像同时输入特征提取网络进行特征提取,也是可以的。进一步可选的,由于图像采集时当前帧图像除了包括目标对象,还包括目标对象所在的周边环境,为了提高特征提取的准确度,可以对当前帧图像进行裁剪,对裁剪后的图像进行特征提取。于是,在将当前帧图像输入特征提取网络进行特征提取,以得到当前帧图像的特征向量时,可以检测目标对象在当前帧图像中的图像位置,根据图像位置从当前帧图像中裁剪出目标对象所在的局部图像;将局部图像输入特征提取网络进行特征提取,以得到当前帧图像的特征向量。其中,通过目标检测(Object Dectection)算法可以检测出图像中目标对象的类别和位置。
进一步可选的,为了准确定位出目标对象的图像位置,在检测目标对象在当前帧图像中的图像位置时,对当前帧图像依次进行预处理,预处理包括图像缩放处理和归一化处理中的至少一种;将预处理后的图像输入目标检测网络进行目标检测,以得到目标对象在预处理后的图像中的图像位置。
举例来说,对脚部连续拍摄,得到4帧原始图像。将这4帧原始图像缩放至高160像素、宽90像素,并通过Z-Score(标准分数)方法对缩放后的4帧图像进行归一化处理,归一化处理后的4帧图像输入至一个实时的脚部目标检测网络中进行脚部检测,得到脚部的图像位置,根据脚部的图像位置从4个原始图像裁剪出4个脚部图像,4个脚部图像的尺寸为128*128像素。尺寸为128*128像素的脚部图像可以输入至特征提取网络中进行特征提取。
在本实施例中,对特征提取网络的模型结构不做限制,任何具有特征提取功能的网络均可以作为特征提取网络。
实际应用中,可以利用特征提取网络对多帧图像中每帧图像进行特征提取,得到每帧图像的特征向量,在完成全部的图像的特征提取后,对多张图像各自对应的特征向量进行向量拼接,得到目标拼接特征向量。参见图3,经过裁剪得到图像1、图像2、图像3和图像4等分别利用特征提取网络进行特征提取,得到各自对应的128维度的特征向量;利用向量拼接网络对4个128维度的特征向量进行向量拼接,可以得到512维度的特征向量。其中,512维度的特征向量即为目标拼接特征向量。
实际应用中,可以利用特征提取网络对每帧图像进行特征提取,得到每帧图像的特征向量,并在指定存储空间保存该帧图像的特征向量。当完成多帧图像中图像采集时间最晚的当前帧图像的特征提取后,将当前帧图像的特征向量和从指定存储空间获取的至少一帧历史图像的特征向量进行向量拼接。于是,示例性的,多帧图像包括当前帧图像和至少一帧历史图像;将多帧图像输入特征提取网络进行特征提取,以得到多帧图像的特征向量,包括:每次将当前帧图像输入特征提取网络进行特征提取,以得到当前帧图像的特征向量;对多帧图像的特征向量进行拼接,得到目标拼接特征向量,包括:采用设定的滑动窗口从指定存储空间中,获取至少一帧历史图像的特征向量;将当前帧图像的特征向量和至少一帧历史图像的特征向量进行拼接,得到目标拼接特征向量。值得注意的是,设定的滑动窗口用于控制从指定存储空间获取的历史图像的数量,例如在使用4帧图像进行三维重建的场景中,该滑动窗口的长度可以是3;在使用5帧图像进行三维重建的场景中,该滑动窗口的长度可以是4。
在本实施例中,在对多帧图像的特征向量进行拼接,得到目标拼接特征向量之后,将目标拼接特征向量输入参数回归网络,根据三维模型描述信息预测用于模型控制的多个控制参数。
本实施例对参数回归网络的模型结构不做限制,任何经过训练可以进行控制参数预测的模型均可以作为参数回归网络。进一步可选的,参数回归网络可以表现为MLP(多层感知器,Multilayer Perceptron)网络,且能够进行至少一次的MLP运算。其中,MLP网络包括多个输入层、多个输出层以及多个隐藏层,是一种前馈人工神经网络模型,其将输入的多个数据集映射到单一的输出的数据集上。于是,进一步可选的,将目标拼接特征向量输入参数回归网络,根据三维模型描述信息预测用于模型控制的多个控制参数,包括:将目标拼接特征向量输入参数回归网络中,根据三维模型描述信息对目标拼接特征向量进行至少一次多层感知机MLP运算,以得到用于模型控制的多个控制参数。
参见图3,以参数回归网络对目标拼接特征向量进行两次MLP运算为例,对向量拼接网络输出的512维度的特征向量进行一次MLP运算,得到1600维度的特征向量;对1600维度的特征向量再进行一次MLP运算,得到13维度的特征向量,13维度的特征向量中的每个元素即为一个控制参数,也即得到了13个控制参数。在此说明,13维度仅为控制参数数量的一种示例,具体可根据目标对象以及控制复杂度等需求灵活设定。
在参数回归网络输出的姿态控制参数和形状控制参数之后,按照姿态控制参数和形状控制参数对目标对象的初始三维模型进行蒙层处理,得到目标对象的目标三维模型。由于初始三维模型是根据三维模型描述信息得到的,初始三维模型的精度有待改善,在蒙层处理过程中,利用姿态控制参数调整初始三维模型的姿态,利用形状控制参数调整初始三维模型的形状,进而得到精度更高的目标三维模型。值得注意的是,蒙皮处理过程中除了调整三维模型的姿态和形状,还可以将三维模型包括的各个顶点和骨骼联系起来。关于蒙皮处理本申请实施例中不做过多介绍。
本申请实施例提供的技术方案,利用目标对象对应的三维模型描述信息创建目标对象的初始三维模型,又利用包括目标对象的多张图像进行三维重建,在三维重建过程中提取多张图像各自的特征向量,并对多张图像各自的特征向量进行拼接,以及基于拼接的特征向量预测用于模型控制的姿态控制参数和形状控制参数,并按照姿态控制参数和形状控制参数对目标对象的初始三维模型进行蒙层处理,得到目标对象的目标三维模型。由此,这种三维重建方式极大地提高了三维模型的精度,三维模型的精度越高,三维模型的真实感越强,也就越能够真实表达现实世界中的目标对象,进而有效地拓展三维模型的应用范围和提高三维模型的应用效果。特别地,在商品选购场景中,能够基于三维重建的模型为目标对象选购与之适配的商品,为解决现有退换货问题提供条件。
在本申请的一些可选实施例中,为了更为准确地进行特征提取,特征提取网络可以结合图像特征和相机姿态数据进行特征提取。作为一种示例,特征提取网络可以包括特征提取模块、相机参数融合模块、特征拼接模块和特征降维模块。于是,将多帧图像输入特征提取网络进行特征提取,以得到多帧图像的特征向量,包括:针对多帧图像中的每帧图像,将该帧图像输入特征提取网络中的特征提取模块进行特征提取,得到该帧图像的图像特征图;将采集该帧图像时的相机姿态数据输入特征提取网络中的相机参数融合模块进行特征提取,得到该帧图像的相机位姿特征图;利用特征提取网络中的特征拼接模块对每帧图像的图像特征图和相机位姿特征图进行拼接,得到每帧图像的拼接特征图;以及利用特征提取网络中的特征降维模块对每帧图像的拼接特征图进行降维处理,得到每帧图像的特征向量。
具体而言,特征提取模块用于提取每帧图像的图像特征图。另外,对特征提取模块的模型结构不做限制,任何能够提取图像特征的特征提取网络均可以作为特征提取模块。
相机参数融合模块是对相机姿态数据进行特征提取的模块。另外,对相机参数融合模块的模型结构不做限制,任何能够对相机姿态数据进行特征提取的网络均可以作为相机参数融合模块。
进一步可选的,为了获得准确度更高的每帧图像的相机位姿特征图,将采集该帧图像时的相机姿态数据输入特征提取网络中的相机参数融合模块进行特征提取,得到该帧图像的相机位姿特征图的实现方式可以是:将采集该帧图像时的相机姿态数据输入特征提取网络中的相机参数融合模块,相机姿态数据包括至少两种姿态角;根据至少两种姿态角以及至少两种姿态角之间的相互关系进行三角函数处理,得到多种姿态表征参数;利用相机参数融合模块中的多层感知机MLP网络处理多种姿态表征参数,得到该帧图像的相机姿态特征图。
具体而言,相机姿态数据可以包括偏航角、俯仰角和翻滚角中的至少两种姿态角。作为一种示例,根据至少两种姿态角以及至少两种姿态角之间的相互关系进行三角函数处理,得到多种姿态表征参数,包括:对至少两种姿态角中的两两姿态角进行数值计算,以得到多种融合姿态角,每种融合姿态角表示对应两个姿态角之间的相互关系;对至少两种姿态角中的每种姿态角以及多种融合姿态角中的每种融合姿态角分别进行三角函数处理,得到多种姿态表征参数。
实际应用中,对至少两种姿态角中的两两姿态角进行相加、相减或相乘等各种数值计算,得到扩展出多种融合姿态角,每种融合姿态角表示对应两个姿态角之间的相互关系。在对每种姿态角和每种融合姿态角进行三角函数处理时,可以进行余弦函数、正弦函数、余切函数或正切函数处理,但并不限于此。
参见图4,相机姿态数据可以包括偏航角α、俯仰角β和翻滚角γ。θ可以是偏航角α、俯仰角β和翻滚角γ中任一个姿态角,ψ是除去θ之外的任一个姿态角。两两不同的姿态角θ、ψ相加可以得到一个融合姿态角θ+ψ,两两不同的姿态角相减得到一个融合姿态角θ-ψ,进而可以得到6种融合姿态角,分别为α+β、α+γ、β+γ、α-β、α-γ、β-γ。3种姿态角和6种融合姿态角分别进行正弦函数sin(e)和余弦函数cos(e)等三角函数τ(e)处理,能够得到18个三角函数处理结果,也即18个姿态表征参数,18个姿态表征参数组成18维度的向量。
在得到多种姿态表征参数之后,利用多层感知机MLP网络处理多种姿态表征参数,得到该帧图像的相机姿态特征图。作为一种示例,利用多层感知机MLP网络处理多种姿态表征参数,得到该帧图像的相机姿态特征图的实现方式可以是:对多种姿态表征参数进行向量化处理,得到相机姿态特征向量;利用多层感知机MLP网络处理相机姿态特征向量,得到相机姿态特征图。参见图4,由18个姿态表征参数组成18维度的相机姿态特征向量输入到多层感知机MLP网络处理,得到64维度的特征向量,以及将64维度的特征向量转化成尺寸为4*4*64的特征图,4*4*64的特征图即为相机姿态特征图。
在本实施例中,针对每帧图像,利用特征提取网络中的特征拼接模块,将特征提取模块输出的该帧图像的图像特征图和相机参数融合模块输出的该帧图像的相机位姿特征图进行拼接,得到每帧图像的拼接特征图,利用特征提取网络中的特征降维模块对每帧图像的拼接特征图进行降维处理,得到每帧图像的拼接向量。
参见图4,特征拼接模块输出的是尺寸为4*4*256的特征图,利用卷积核大小为1*1的卷积模块对4*4*256的特征图进行降维处理,得到4*4*64的特征图。将该4*4*64的特征图和相机参数融合模块输出的4*4*64的特征图进行拼接,得到4*4*128的特征图;利用卷积核大小为4*4的卷积模块对4*4*128的特征图进行降维处理,得到1*1*128的特征图,并将1*1*128的特征图转化为128维度的特征向量,至此,完成该帧图像的特征提取任务。
在本申请的一些可选实施例中,为了提高特征提取的准确度,特征提取网络中的特征提取模块可以包括依次连接的跳跃连接层和下采样层,于是,针对多帧图像中的每帧图像,将该帧图像输入特征提取网络中的特征提取模块进行特征提取,得到该帧图像的图像特征图的一种可选实现方式为:针对多帧图像中的每帧图像,将该帧图像输入特征提取模块中的跳跃连接层,对该帧图像进行多分辨率的特征图提取并对相同分辨率的特征图进行跳跃连接,以得到该帧图像的第二中间特征图;将该帧图像的第二中间特征图输入特征提取模块中的下采样层进行M次下采样处理,得到该帧图像的图像特征图,其中,M是≥1的正整数。
具体而言,跳跃连接层可以执行多次下采样和多次上采样操作,并在上采样过程中执行跳跃连接操作。针对每次上采样操作,对本次输入的特征图进行上采样,得到本次上采样输出的特征图,并将本次上采样输出的特征图和已经得到的相同分辨率的特征图进行连接,也即跳跃连接,得到本次上采样的最终输出的特征图。参见图5,跳跃连接层首先对输入的图像进行特征提取,得到该输入的图像的初始特征图,接着,针对该初始特征图执行多次下采样操作,在每次执行下采样操作时,获取上一次下采样操作输出的特征图,对上一次下采样操作输出的特征图进行下采样,得到本次下采样操作输出的特征图,第一次下采样操作的输入特征图为初始特征图;这样,经过多次下采样操作,可以得到多个不同分辨率的特征图;将最后一次下采样操作输出的特征图作为第一中间特征图;接着,针对第一中间特征图执行多次上采样操作,在每次上采样操作过程中,获取上一次上采样操作输出的特征图,对上一次下采样操作输出的特征图进行上采样,得到本次上采样操作输出的中间特征图;将本次上采样操作输出的中间特征图和下采样操作或特征提取得到的相同分辨率的特征图进行连接也即跳跃连接,得到本次上采样操作最终输出的特征图。在经过多次上采样操作后,将最后一次上采样操作输出的特征图作为跳跃连接层对其输入的图像进行特征提取得到的第二中间特征图。
作为一种示例,跳跃连接层采用编码器和解码器结构,对于每帧图像,将该帧图像输入特征提取模块中的跳跃连接层,对该帧图像进行多分辨率的特征图提取并对相同分辨率的特征图进行跳跃连接,以得到第二中间特征图,包括:将该帧图像输入跳跃连接层中的编码器,对该帧图像进行编码以得到该帧图像的初始特征图,并依次对初始特征图进行N次下采样处理,得到第一中间特征图;将第一中间特征图输入跳跃连接层中的解码器,依次对第一中间特征图进行N次上采样处理,并在每次上采样处理中与编码器中下采样处理得到的相同分辨率的第一中间特征图进行跳跃连接,以得到该帧图像的第二中间特征图。参见图5,跳跃连接层中四个表示下采样的箭头对应的编码器,跳跃连接层中三个表示上采样的箭头对应的解码器。
在一可能的实现方式中,编码器包括依次连接的编码子模块和N个下采样子模块,则将该帧图像输入跳跃连接层中的编码器,对该帧图像进行编码以得到该帧图像的初始特征图,并依次对初始特征图进行N次下采样处理,得到第一中间特征图,包括:将该帧图像输入编码子模块进行编码,以得到该帧图像的初始特征图;利用N个下采样子模块对初始特征图进行N次下采样处理,得到第一中间特征图;其中,在每个下采样子模块中,利用依次连接的K1个卷积单元各自对应的目标卷积参数对其输入进行卷积处理,得到待激活的中间特征图,利用激活函数对待激活的中间特征图进行激活以得到每个卷积单元的输出,K1是≥2的正整数。在本实施例中,对编码器中每个下采样子模块包含的卷积单元的数量不做限定,例如可以是2、3、4或5个等。
参见图6,以每个下采样子模块包括依次连接的3个卷积单元为例进行图示。上一个卷积单元的输出结果为下一个卷积单元的输入参数,第一个下采样子模块的第一个卷积单元的输入参数为编码子模块输出的初始特征图,最后一个下采样子模块中最后一个卷积单元的输出结果为第一中间特征图。
在三维重建网络的推理阶段,每个卷积单元对应的目标卷积参数是对训练阶段的多个分支的参数进行重参数化技术合并得到的。在三维重建网络的训练阶段引入多个分支可以提高三维重建网络的精度,在三维重建网络的推理阶段合并分支可以提高三维重建网络的三维重建效率。
参见图6,针对下采样子模块中每个卷积单元,在训练阶段,该卷积单元的运算过程分为三个分支,假设第一分支的参数记为c1和b1;第二分支的参数记为c2和b2;第二分支的参数记为b3;c1、c2为卷积参数,b1、b2、b3为BN(Batch Normalization,批量归一化)参数;输入参数经过三个分支对应的卷积参数和批量归一化参数进行依次处理后,将三个分支的处理结果进行相加,得到待激活的中间特征图,利用激活函数(例如为ReLu或sigmoid)对待激活的中间特征图进行激活以得到每个卷积单元的输出。
参见图6,针对下采样子模块中每个卷积单元,在推理阶段,经过重参数化技术,该卷积单元的目标卷积参数是对训练阶段的三个分支的卷积参数和批量归一化参数进行合并得到的。应理解,相同的输入参数在训练阶段和推理阶段,采用三个分支对应的卷积参数和批量归一化参数进行处理得到的待激活的中间特征图,与采用重参数化的目标卷积参数c3处理得到的待激活的中间特征图相同。也就是说,重参数化尽管改变了对输入参数的运算方式,但是不会改变输入参数的运算结果。
在本申请的一些实施例中,特征提取网络中的特征提取模块包括依次连接的跳跃连接层和下采样层,进一步,该下采样层包括依次连接的多个下采样子模块,每个下采样子模块可以是任意的具有下采样功能的模块,对此不做限制。参见图3,在下采样层中,每个下采样子模块对上一个下采样子模块输出的特征图进行下采样处理,得到该下采样子模块输出的特征图,第一个下采样子模块对跳跃连接层输出的第二中间特征图进行下采样处理,最后一个下采样子模块输出的特征图作为下采样层的输出结果。
进一步可选的,下采样层包括依次连接的M个下采样子模块,则将该帧图像的第二中间特征图输入特征提取模块中的下采样层进行M次下采样处理,得到该帧图像的图像特征图,包括:利用M个下采样子模块对第二中间特征图进行M次下采样处理,得到该帧图像的图像特征图;其中,在每个下采样子模块中,利用依次连接的K2个卷积单元各自对应的目标卷积参数对其输入进行卷积处理,得到待激活的中间特征图,利用激活函数对待激活的中间特征图进行激活以得到每个卷积单元的输出,K2是≥2的正整数。在本实施例中,对下采样层中每个下采样子模块包含的卷积单元的数量不做限定,例如可以是2、3、4或5个等。在一可选实施例中,下采样层中每个下采样子模块可以包含3个卷积单元,且可以采用图6所示的下采样子模块的结构,但并不限于此。
在一些可选的实施例中,在得到目标三维模型之后,针对多帧图像中的每帧图像,根据采集该帧图像时的相机姿态数据,将目标三维模型与该帧图像中的目标对象进行适配,并基于适配结果为目标对象选购与之适配的商品。
具体而言,针对每帧图像,根据采集该帧图像时的相机姿态数据得到相机外参,相机外参是指相机在世界坐标系中的参数,比如相机的位置、旋转方向等,主要包括分为旋转矩阵和平移矩阵。当然,可以预先利用海量的样本图像和拍摄样本图像时对应的相机外参训练相机参数估计网络。在推理阶段,将图像输入至相机参数估计网络中进行识别处理,得到拍摄该图像时对应的相机外参。在得到相机外参后,基于小孔成像理论,按照相机外参将目标三维模型中的各个顶点投影至该帧图像中,得到目标三维模型中的各个顶点对应的投影点;利用特征点匹配技术,从该帧图像的真实图像特征点中确定与投影点匹配的真实图像特征点,针对每个投影点,根据图像中与投影点对应的真实图像特征点的图像位置和投影点的图像位置,确定真实世界中目标对象上的顶点与目标三维模型上顶点之间的适配结果。真实图像特征点是指真实世界中目标对象上的顶点对应的特征点。例如,基于真实图像特征点的图像位置和投影点的图像位置之差,对真实世界中目标对象上的顶点与目标三维模型上顶点之间的适配度进行量化。真实图像特征点的图像位置和投影点的图像位置之差越大,适配度越小;真实图像特征点的图像位置和投影点的图像位置之差越小,适配度越大。在得到真实世界中目标对象上的各顶点与目标三维模型上对应顶点之间的适配结果后,基于适配结果为目标对象选购与之适配的商品。
作为一种示例,根据目标三维模型为目标对象提供与之适配的目标商品信息时,可以根据目标三维模型以及多个候选商品信息对应的商品三维模型,从多个候选商品信息选择商品三维模型与目标三维模型适配度最高的商品信息作为目标商品信息,并将目标商品信息提供给目标对象;
作为另一种示例,根据目标三维模型为目标对象提供与之适配的目标商品信息时,可以根据目标三维模型对应的模型参数和选定的商品类型,为目标对象定制化与目标三维模型适配的商品三维模型,并将商品三维模型对应的商品信息作为目标商品信息提供给目标对象。
在一些可选的实施例中,将多帧图像中任一帧图像输入深度估计网络进行目标对象的尺寸信息的估计,并根据估计出的目标对象的尺寸信息对目标三维模型进行标注。
实际应用中,可以预先利用海量的样本图像和样本图像中目标对象的尺寸信息训练深度估计网络。在推理阶段,将图像输入至深度估计网络中估计目标对象的尺寸信息,尺寸信息例如包括但不限于:目标对象的长度和宽度。估计出的目标对象的尺寸信息可以标注在目标三维模型。例如,在虚拟试鞋场景中,可能有量脚长和脚宽的需求,在重建的脚部三维模型上标注脚长和脚宽。
在一些可选的实施例中,针对多帧图像中的每帧图像,根据采集该帧图像时的相机姿态数据,将目标三维模型与该帧图像中的目标对象进行适配,并基于适配结果测量目标对象的形状参数。
图7为本申请实施例提供的一种商品信息处理方法的流程图。参见图7,该方法可以包括以下步骤:
701、获取包含包括试穿对象的多帧图像,以及试穿对象对应的三维模型描述信息。
702、将多帧图像输入特征提取网络进行特征提取,以得到多帧图像的特征向量,对多帧图像的特征向量进行拼接,得到目标拼接特征向量。
703、将目标拼接特征向量输入参数回归网络,根据三维模型描述信息预测用于模型控制的多个控制参数,多个控制参数包括姿态控制参数和形状控制参数。
704、按照姿态控制参数和形状控制参数对试穿对象的初始三维模型进行蒙层处理,得到试穿对象的目标三维模型,初始三维模型是根据三维模型描述信息得到的。
705、根据目标三维模型为试穿对象提供与之适配的目标商品信息。
进一步可选的,根据目标三维模型为试穿对象提供与之适配的目标商品信息,包括:根据目标三维模型以及多个候选商品信息对应的商品三维模型,从多个候选商品信息选择商品三维模型与目标三维模型适配度最高的商品信息作为目标商品信息,并将目标商品信息提供给试穿对象;或者根据目标三维模型对应的模型参数和选定的商品类型,为试穿对象定制化与目标三维模型适配的商品三维模型,并将商品三维模型对应的商品信息作为目标商品信息提供给试穿对象。
进一步可选地,从多个候选商品信息选择商品三维模型与目标三维模型适配度最高的商品信息作为目标商品信息,包括:针对每个候选商品信息对应的商品三维模型,将试穿对象的目标三维模型与该商品三维模型进行融合,得到融合三维模型,融合三维模型表征试穿状态下试穿对象的三维模型与该商品三维模型的第一相对位置关系;根据第一相对位置关系,获取试穿对象的三维模型上多个目标顶点与该商品三维模型上对应顶点或区域之间的多个距离信息,作为多个目标顶点的适配度信息;在根据多个目标顶点的适配度信息判断目标三维模型与该商品三维模型的适配度;在得到各个候选商品信息对应的商品三维模型与目标三维模型的适配度后,可以从中选择与目标三维模型的适配度最高的商品信息作为目标商品信息。
上述针对每个候选商品信息对应的商品三维模型,将试穿对象的目标三维模型与该商品三维模型进行融合,得到融合三维模型的一种可选实施方式为:获取试穿对象的目标三维模型、商品三维模型以及试穿对象针对该商品三维模型对应的商品对象的目标试穿参数;根据目标试穿参数,确定试穿对象的目标三维模型上至少三个基准顶点和商品三维模型上对应基准顶点之间的第二相对位置关系;根据第二相对位置关系,将试试穿对象的目标三维模型至少部分放置于商品三维模型内部,以得到融合三维模型。
实际应用中,可以根据经验设置目标试穿参数。进一步可选的,还可以根据试穿对象的属性信息、试穿对象所属用户的试穿偏好信息和/或商品对象对应的基准试穿参数,获取试穿对象针对商品对象的目标试穿参数。
在试穿对象为脚部,商品对象为鞋的情况下,根据目标试穿参数,确定试穿对象的目标三维模型上多个基准顶点和三维模型上对应基准顶点之间的第二相对位置关系,包括以下至少一种:
方式1:根据鞋与脚跟之间的试穿距离,确定脚部的三维模型上的第一脚跟顶点与鞋的三维模型上的第二脚跟顶点之间相距试穿距离,作为第二相对位置关系。
在三维重建时,针对脚部的三维模型包括的每个顶点,可以标记该顶点类型,顶点类型例如包括:脚跟顶点、脚底顶点或脚趾头顶点。基于顶点类型从脚部的三维模型包括的多个顶点中选择脚跟上的一个顶点作为第一脚跟顶点,根据第一脚跟顶点在脚跟上的位置分布,从鞋的三维模型上的多个脚跟顶点中选择位置分布与第一脚跟顶点相同的一个脚跟顶点作为对应的第二脚跟顶点。在三维模型融合时,在同一坐标系下,控制第一脚跟顶点与第二脚跟顶点相距试穿距离。
方式2:根据脚底部与鞋底部之间的贴合关系,确定脚部的三维模型上的第一脚底顶点与鞋的三维模型上的第二脚底顶点重合,作为第二相对位置关系。
基于顶点类型从脚部的三维模型包括的多个顶点中选择脚底上的若干个第一脚底顶点。根据各脚底顶点在脚跟上的位置分布,从鞋的三维模型上的多个顶点中选择位置分布与第一脚底顶点相同的若干个第二脚底顶点。在三维模型融合时,在同一坐标系下,控制每组第一脚底顶点和第二脚底顶点的顶点位置相同或相近,以使脚底部与鞋底部贴合。
方式3:根据脚底中心与鞋底中心的对齐关系,确定脚部的三维模型上位于脚底中心线上的第一中心线顶点与鞋的三维模型上位于鞋底中心线上的第二中心线顶点在脚长方向上对齐,作为第二相对位置关系。
基于顶点类型和顶点位置从脚部的三维模型包括的多个顶点中脚底中心线上顶点作为第一中心线顶点,从鞋的三维模型上的多个顶点中选择位置分布与第一中心线顶点相同的一个顶点作为对应的第二中心线顶点。在三维模型融合时,在同一坐标系下,控制第一中心线顶点与第二中心线顶点在脚长方向上对齐。
在本实施例中,将试穿对象的目标三维模型包括的各个顶点的位置坐标和商品三维模型包括的各个顶点的位置坐标统一变换至同一坐标系下,控制试穿对象的目标三维模型和商品三维模型之间保持第二相对位置关系,至此完成将试穿对象的目标三维模型至少部分放置于三维模型内部的操作,得到融合三维模型。
具体而言,融合三维模型中的试穿对象的目标三维模型和商品三维模型保持第一相对位置关系,在这种融合状态下,执行适配度信息计算操作。适配度信息反映的是穿戴适配程度,首先,从试穿对象的目标三维模型包括的多个顶点中,选择参与适配度信息计算的多个目标顶点。例如,将试穿对象的目标三维模型上的每个顶点均作为目标顶点。进一步的,为了减少数据处理量,同时兼顾适配度信息计算的准确度,可以从试穿对象的目标三维模型上选择部分顶点作为目标顶点。例如,根据试穿对象的关键部位信息,从试穿对象的目标三维模型上选择与关键部位信息对应的顶点作为目标顶点。关键部分例如包括但不限于:脚趾头、脚后跟、脚弓、脚背、内脚背、外脚背,脚底等等。
在确定参与适配度信息计算的试穿对象的目标三维模型上多个目标顶点后,针对每个目标顶点,可以根据目标顶点与商品三维模型上对应顶点之间的距离信息作为目标顶点的适配度信息。进一步可选的,为了更好地度量适配度信息,还可以将目标顶点到商品三维模型上对应顶点所在区域的距离信息作为目标顶点的适配度信息。于是,根据第一相对位置关系,计算试穿对象的目标三维模型上多个目标顶点与商品三维模型上对应区域之间的多个距离信息,作为多个目标顶点的适配度信息,包括:针对试穿对象的目标三维模型上的每个目标顶点,根据第一相对位置关系,获取商品三维模型上与目标顶点最近的第一顶点;将以第一顶点为连接点的多个三角面片作为目标顶点在商品三维模型上对应的区域;计算目标顶点到多个三角面片的多个距离,根据多个距离生成目标顶点的适配度信息。
其中,目标顶点到三角面片的距离例如包括不限于:目标顶点到三角面片的中心点的距离、目标顶点到三角面片的垂直距离、对目标顶点到三角面片的三个顶点的距离进行求最大值、最小值或者均值得到的。实际应用中,对目标顶点到多个三角面片的多个距离求最大值、最小值或者均值,得到目标顶点到三角面片的最终的距离信息,将最终的距离信息作为目标顶点的适配度信息。
实际应用中,可以灵活设置各个目标顶点对应的满足适配度要求的适配度范围信息。每个目标顶点的适配度信息若是落在其对应的适配度范围信息内,该目标顶点满足适配度要求。每个目标顶点的适配度信息若未落在其对应的适配度范围信息内,该目标顶点不满足适配度要求。在确定各个目标顶点是否满足各自的适配度要求后,基于各个目标顶点满足各自的适配度要求的情况,确定目标三维模型与该商品三维模型的适配度。
进一步可选的,还可以引入人工干预方式目标三维模型与该商品三维模型的适配度。为了使得用户可以直观地获知目标三维模型与该商品三维模型的适配度,可以展示试穿对象的目标三维模型、商品三维模型以及融合三维模型中的任一三维模型,并在任一三维模型上对多个目标顶点的适配度信息进行可视化标记,其中,与基准适配度范围大小关系不同的适配度信息对应不同的可视化标记状态,以供用户确认目标三维模型与该商品三维模型的适配度。
具体而言,在上述任一三维模型上对多个目标顶点的适配度信息进行可视化标记,这样,不同的适配度信息采用不同的可视化标记状态进行标识。例如,满足适配度要求的顶点采用绿色标记,不满足适配度要求的顶点采用红色标记。
基准适配度范围是指限定是否满足适配度要求的适配度所在的数值范围。在基准适配度范围内的适配度信息满足适配度要求,不在基准适配度范围内的适配度信息不满足适配度要求。不满足适配度要求的适配度信息的数量越多,说明目标三维模型与该商品三维模型的适配度越低,反之,满足适配度要求的适配度信息的数量越多,说明目标三维模型与该商品三维模型的适配度越高。
进一步可选的,为了更加形象直观地反映试穿对象的目标三维模型上各个目标顶点的适配度信息分布信息,在上述任一三维模型上对多个目标顶点的适配度信息进行可视化标记时,可以根据多个目标顶点的适配度信息对任一三维模型进行渲染,以得到适配度热力图,适配度热力图中的不同颜色表示与基准适配度范围大小关系不同的适配度信息。需要说明的是,基准适配度范围可以有多个,例如针对试穿对象的不同部位可以设置不同的基准适配度范围。以脚部为例,脚后跟部位对应第一基准适配度范围,例如1-2cm,脚掌部位对应第二基准适配度分为例如0.5-1cm,脚踝部位对应第三基准适配度范围,例如0-1cm,等等。其中,对于位于基准适配度范围内的适配度信息采用第一颜色值进行标记,针对大于基准适配度上限值的适配度信息采用第二颜色值进行标记,针对小于基准适配度范围下限值的适配度信息采用第三颜色值进行标记。这样,用户可以通过第一颜色值了解哪些位置合适,根据第二颜色值了解哪些位置太宽松,根据第三颜色值了解哪些位置太紧凑。
在向用户展示对适配度信息进行可视化标记的任一三维模型后,用户根据任一三维模型的可视化标记状态可主管确认目标三维模型与该商品三维模型的适配度。以适配度热力图为例,用户直观查看到适配度热力图上标记不满足适配度要求的颜色(例如为红色)的区域的数量比较多时,可以得出商品三维模型与试穿对象的目标三维模型的适配度低的结论。用户直观查看到适配度热力图上标记不满足适配度要求的颜色(例如为红色)的区域的数量比较少时,可以得出商品三维模型与试穿对象的目标三维模型的适配度高的结论。用户直观查看到适配度热力图上标记不满足适配度要求的颜色(例如为红色)的区域的数量不多不少时,可以得出商品三维模型与试穿对象的目标三维模型的适配度中的结论。
在得到各个候选商品信息对应的商品三维模型与目标三维模型的适配度后,可以从中选择与目标三维模型的适配度最高的商品信息作为目标商品信息。
进一步,在上述定制化场景中,根据目标三维模型对应的模型参数和选定的商品类型,为试穿对象定制化与目标三维模型适配的商品三维模型的实施方式包括:获取选定的商品类型对应的基准三维模型,将试穿对象的目标三维模型与基准三维模型进行融合,得到融合三维模型,融合三维模型表征试穿状态下试穿对象的目标三维模型与基准三维模型的第一相对位置关系;根据第一相对位置关系,获取试穿对象的目标三维模型上多个目标顶点与基准三维模型上对应顶点或区域之间的多个距离信息,作为多个目标顶点的适配度信息;在根据多个目标顶点的适配度信息确定基准三维模型不满足适配度要求的情况下,调整基准三维模型的尺寸参数和/或外形参数,并重新获取多个目标顶点的适配度信息,直至得到满足适配度要求的最终商品三维模型。其中,关于适配度信息的获取过程可参见前述实施例,在此不再赘述。
值得注意的是,在每次调整基准三维模型的尺寸参数和/或外形参数后,将调整后的基准三维模型作为新的基准三维模型,并重复执行获取多个目标顶点的适配度信息,直至根据多个目标顶点的适配度信息确定基准三维模型满足适配度要求,并将满足适配度要求的基准三维模型作为最终商品三维模型。
基准三维模型的尺寸参数例如包括但不限于:整个基准三维模型的长度、宽度和高度,或者,基准三维模型中各个部位的长度、宽度和高度。以鞋为例,尺寸参数包括:鞋长、鞋宽、或者,脚趾头长度或宽度,或者,脚背的高度等等。基准三维模型的外形参数定义基准三维模型的外形特点。以鞋为例,鞋的根部高度、头部宽度、头部长度或者脚背高度等等。
在本实施例中,可以自动调整基准三维模型的尺寸参数和/或外形参数,也可以响应用户触发的针对基准三维模型的调整操作,调整基准三维模型的尺寸参数和/或外形参数,对此不做限制。
进一步可选的,为了方便用户发起调整操作,可以向用户提供调整控件,用户通过调整控件可以发起针对基准三维模型的调整操作。具体而言,在上述任一三维模型的关联区域内可以展示调整控件,该调整控件可以是但不限于滑动条。基于此,可响应滑动条上的至少一次滑动操作,获取每次滑动操作的滑动距离和滑动方向,根据滑动距离和滑动方向分别确定调整幅度和调整方向;根据调整方向和调整幅度,调整基准三维模型的尺寸参数和/或外形参数。在本实施例中,滑动距离决定对尺寸参数和/或外形参数的调整幅度,滑动方向决定尺寸参数和/或外形参数的调整方向。调整方向可以是在当前参数基础上朝着增大方向调整,或者朝着递减方向调整,对此不做限制。值得注意的是,在三维模型所在的显示区域的任一区域可以作为关联区域,并在该关联区域内展示滑动条,以便于用户执行调整操作。
在一可选实施例中,滑动距离与调整幅度成正比,滑动距离越大,表示对尺寸参数和/或外形参数的调整幅度越大;滑动距离越小,表示对尺寸参数和/或外形参数的调整幅度越小。相应地,以从左到右的滑动条为例,向左滑动代表往回调整,意味着将尺寸参数和/或外形参数往小了调整,即调整方向是往小了调整的方向;向右滑动代表向前调整,意味着将尺寸参数和/或外形参数往大了调整,即调整方向是往大了调整的方向。
实际应用中,可以利用一个滑动条联动调整基准三维模型的尺寸参数和外形参数。考虑到实际应用中,可能仅仅对尺寸参数有调整需求,或者对外形参数有调整需求。为了便于独立调整尺寸参数或外形参数,滑动条可以包括第一滑动条和第二滑动条,第一滑动条用于对基准三维模型的尺寸参数进行调整,第二滑动条件用于对基准三维模型的外形参数进行调整。用户可以分别通过第一滑动条和第二滑动条对基准三维模型的尺寸参数和外形参数进行调整。
在本实施例中,在得到最终商品三维模型后,可以将最终商品三维模型发送给服务器,服务器可以获取尺寸和外形均与试穿对象匹配的目标商品对象,还可以向终端设备返回目标商品对象的信息(即目标商品信息)。目标商品对象的信息例如包括但不限于:目标商品对象的材质、款式、风格、生产进度、物流配送进度、生产日期、生产厂商等等。进一步可选地,终端设备可以向用户输出目标商品对象的信息,用户可以根据该信息确定是否针对目标商品对象进行定制化;以及响应于用户确定定制化的操作,终端设备还可以向服务器发送定制化指令。基于此,服务器还可以将目标三维模型发送给定制化平台,定制化平台基于目标三维模型进行生产制造,以定制出尺寸和外形和试穿对象匹配的目标商品对象,以及将生产出的目标商品对象经过物流配送送达给用户。
关于图7所示实施例中执行各步骤的详细实施过程可参见前述方法实施例中的相关描述,在此不再赘述。
本申请实施例提供的技术方案,利用试穿对象对应的三维模型描述信息创建试穿对象的初始三维模型,又利用包括试穿对象的多张图像进行三维重建,在三维重建过程中提取多张图像各自的特征向量,并对多张图像各自的特征向量进行拼接,以及基于拼接的特征向量预测用于模型控制的姿态控制参数和形状控制参数,并按照姿态控制参数和形状控制参数对试穿对象的初始三维模型进行蒙层处理,得到试穿对象的目标三维模型。由此,这种三维重建方式极大地提高了三维模型的精度,三维模型的精度越高,三维模型的真实感越强,也就越能够真实表达现实世界中的试穿对象,进而有效地拓展三维模型的应用范围和提高三维模型的应用效果。特别地,在商品选购场景中,能够基于三维重建的模型为试穿对象选购与之适配的商品,为解决现有退换货问题提供条件。
图8为本申请实施例提供的一种三维重建装置的结构示意图。参见图8,该装置可以包括以下单元:
图像获取单元81,用于获取目标对象的多帧图像,以及目标对象对应的三维模型描述信息;
特征提取单元82,用于将多帧图像输入特征提取网络进行特征提取,以得到多帧图像的特征向量;
向量拼接单元83,用于对多帧图像的特征向量进行拼接,得到目标拼接特征向量;
参数回归单元84,用于将目标拼接特征向量输入参数回归网络,根据参数数量预测用于模型控制的多个控制参数,多个控制参数包括姿态控制参数和形状控制参数;
蒙层处理单元85,用于按照姿态控制参数和形状控制参数对目标对象的初始三维模型进行蒙层处理,得到目标对象的目标三维模型,初始三维模型是根据三维模型描述信息得到的。
进一步可选的,特征提取单元82将多帧图像输入特征提取网络进行特征提取,以得到多帧图像的特征向量时,具体用于:针对多帧图像中的每帧图像,将该帧图像输入特征提取网络中的特征提取模块进行特征提取,得到该帧图像的图像特征图;将采集该帧图像时的相机姿态数据输入特征提取网络中的相机参数融合模块进行特征提取,得到该帧图像的相机位姿特征图;利用特征提取网络中的特征拼接模块对每帧图像的图像特征图和相机位姿特征图进行拼接,得到每帧图像的拼接特征图;以及利用特征提取网络中的特征降维模块对每帧图像的拼接特征图进行降维处理,得到每帧图像的特征向量。
进一步可选的,特征提取单元82针对多帧图像中的每帧图像,将该帧图像输入特征提取网络中的特征提取模块进行特征提取,得到该帧图像的图像特征图时,具体用于:针对多帧图像中的每帧图像,将该帧图像输入特征提取模块中的跳跃连接层,对该帧图像进行多分辨率的特征图提取并对相同分辨率的特征图进行跳跃连接,以得到该帧图像的第二中间特征图;将该帧图像的第二中间特征图输入特征提取模块中的下采样层进行M次下采样处理,得到该帧图像的图像特征图,其中,M是≥1的正整数。
进一步可选的,跳跃连接层采用编码器和解码器结构,则特征提取单元82将该帧图像输入特征提取模块中的跳跃连接层,对该帧图像进行多分辨率的特征图提取并对相同分辨率的特征图进行跳跃连接,以得到第二中间特征图时,具体用于:将该帧图像输入跳跃连接层中的编码器,对该帧图像进行编码以得到该帧图像的初始特征图,并依次对初始特征图进行N次下采样处理,得到第一中间特征图;将第一中间特征图输入跳跃连接层中的解码器,依次对第一中间特征图进行N次上采样处理,并在每次上采样处理中与编码器中下采样处理得到的相同分辨率的第一中间特征图进行跳跃连接,以得到该帧图像的第二中间特征图。
进一步可选的,编码器包括依次连接的编码子模块和N个下采样子模块,则特征提取单元82将该帧图像输入跳跃连接层中的编码器,对该帧图像进行编码以得到该帧图像的初始特征图,并依次对初始特征图进行N次下采样处理,得到第一中间特征图时,具体用于:将该帧图像输入编码子模块进行编码,以得到该帧图像的初始特征图;利用N个下采样子模块对初始特征图进行N次下采样处理,得到第一中间特征图;其中,在每个下采样子模块中,利用依次连接的K1个卷积单元各自对应的目标卷积参数对其输入进行卷积处理,得到待激活的中间特征图,利用激活函数对待激活的中间特征图进行激活以得到每个卷积单元的输出,K1是≥2的正整数。
进一步可选的,下采样层包括依次连接的M个下采样子模块,则特征提取单元82将该帧图像的第二中间特征图输入特征提取模块中的下采样层进行M次下采样处理,得到该帧图像的图像特征图时,具体用于:利用M个下采样子模块对第二中间特征图进行M次下采样处理,得到该帧图像的图像特征图;其中,在每个下采样子模块中,利用依次连接的K2个卷积单元各自对应的目标卷积参数对其输入进行卷积处理,得到待激活的中间特征图,利用激活函数对待激活的中间特征图进行激活以得到每个卷积单元的输出,K2是≥2的正整数。
进一步可选的,特征提取单元82将采集该帧图像时的相机姿态数据输入特征提取网络中的相机参数融合模块进行特征提取,得到该帧图像的相机位姿特征图时,具体用于:将采集该帧图像时的相机姿态数据输入特征提取网络中的相机参数融合模块,相机姿态数据包括至少两种姿态角;
根据至少两种姿态角以及至少两种姿态角之间的相互关系进行三角函数处理,得到多种姿态表征参数;利用相机参数融合模块中的多层感知机MLP网络处理多种姿态表征参数,得到该帧图像的相机姿态特征图。
进一步可选的,特征提取单元82根据至少两种姿态角以及至少两种姿态角之间的相互关系进行三角函数处理,得到多种姿态表征参数时,具体用于:对至少两种姿态角中的两两姿态角进行数值计算,以得到多种融合姿态角,每种融合姿态角表示对应两个姿态角之间的相互关系;对至少两种姿态角中的每种姿态角以及多种融合姿态角中的每种融合姿态角分别进行三角函数处理,得到多种姿态表征参数。
进一步可选的,特征提取单元82利用多层感知机MLP网络处理多种姿态表征参数,得到该帧图像的相机姿态特征图时,具体用于:对多种姿态表征参数进行向量化处理,得到相机姿态特征向量;利用多层感知机MLP网络处理相机姿态特征向量,得到相机姿态特征图。
进一步可选的,参数回归单元84将目标拼接特征向量输入参数回归网络,根据三维模型描述信息预测用于模型控制的多个控制参数时,具体用于:
将目标拼接特征向量输入参数回归网络中,根据三维模型描述信息对目标拼接特征向量进行至少一次多层感知机MLP运算,以得到用于模型控制的多个控制参数。
进一步可选的,多帧图像包括当前帧图像和至少一帧历史图像;
特征提取单元82将多帧图像输入特征提取网络进行特征提取,以得到多帧图像的特征向量时,具体用于:每次将当前帧图像输入特征提取网络进行特征提取,以得到当前帧图像的特征向量;
向量拼接单元83对多帧图像的特征向量进行拼接,得到目标拼接特征向量时,具体用于:采用设定的滑动窗口从指定存储空间中,获取至少一帧历史图像的特征向量;将当前帧图像的特征向量和至少一帧历史图像的特征向量进行拼接,得到目标拼接特征向量。
进一步可选的,特征提取单元82每次将当前帧图像输入特征提取网络进行特征提取,以得到当前帧图像的特征向量时,具体用于:检测目标对象在当前帧图像中的图像位置,根据图像位置从当前帧图像中裁剪出目标对象所在的局部图像;将局部图像输入特征提取网络进行特征提取,以得到当前帧图像的特征向量。
进一步可选的,特征提取单元82检测目标对象在当前帧图像中的图像位置时,具体用于:对当前帧图像依次进行预处理,预处理包括图像缩放处理和归一化处理中的至少一种;将预处理后的图像输入目标检测网络进行目标检测,以得到目标对象在预处理后的图像中的图像位置。
进一步可选的,三维重建装置还包括:适配单元和/或标注单元。
适配单元,用于针对多帧图像中的每帧图像,根据采集该帧图像时的相机姿态数据,将目标三维模型与该帧图像中的目标对象进行适配,并基于适配结果为目标对象选购与之适配的商品;和/或
标注单元,用于将多帧图像中任一帧图像输入深度估计网络进行目标对象的尺寸信息的估计,并根据估计出的目标对象的尺寸信息对目标三维模型进行标注;和/或
适配单元,用于针对多帧图像中的每帧图像,根据采集该帧图像时的相机姿态数据,将目标三维模型与该帧图像中的目标对象进行适配,并基于适配结果测量目标对象的形状参数。
进一步可选的,目标对象为人体上的脚部对象、手部对象、头部对象、肘部对象或腿部对象,目标对象对应的三维模型描述信息是基于SMPL模型确定的。
图8所示的装置可以执行图2所示实施例的方法,其实现原理和技术效果不再赘述。对于上述实施例中的8装置其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
需要说明的是,上述实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤201至步骤204的执行主体可以为设备A;又比如,步骤201和202的执行主体可以为设备A,步骤203和204的执行主体可以为设备B;等等。
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如201、202等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
图9为本申请实施例提供的一种计算机设备的结构示意图。如图9所示,该计算机设备包括:存储器91和处理器92;
存储器91,用于存储计算机程序,并可被配置为存储其它各种数据以支持在计算平台上的操作。这些数据的示例包括用于在计算平台上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
存储器91可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器92,与存储器91耦合,用于执行存储器91中的计算机程序,以用于:获取包括目标对象的多帧图像,以及目标对象对应的三维模型描述信息;将多帧图像输入特征提取网络进行特征提取,以得到多帧图像的特征向量,对多帧图像的特征向量进行拼接,得到目标拼接特征向量;将目标拼接特征向量输入参数回归网络,根据三维模型描述信息预测用于模型控制的多个控制参数,多个控制参数包括姿态控制参数和形状控制参数;按照姿态控制参数和形状控制参数对目标对象的初始三维模型进行蒙层处理,得到目标对象的目标三维模型,初始三维模型是根据三维模型描述信息得到的。
进一步可选地,处理器92执行存储器91中的计算机程序,还可以用于:获取包含包括试穿对象的多帧图像,以及试穿对象对应的三维模型描述信息;将多帧图像输入特征提取网络进行特征提取,以得到多帧图像的特征向量,对多帧图像的特征向量进行拼接,得到目标拼接特征向量;将目标拼接特征向量输入参数回归网络,根据三维模型描述信息预测用于模型控制的多个控制参数,多个控制参数包括姿态控制参数和形状控制参数;按照姿态控制参数和形状控制参数对试穿对象的初始三维模型进行蒙层处理,得到试穿对象的目标三维模型,初始三维模型是根据三维模型描述信息得到的;根据目标三维模型为试穿对象提供与之适配的目标商品信息。
进一步,如图9所示,该计算机设备还包括:通信组件93、显示器94、电源组件95、音频组件96等其它组件。图9中仅示意性给出部分组件,并不意味着计算机设备只包括图9所示组件。另外,图9中虚线框内的组件为可选组件,而非必选组件,具体可视计算机设备的产品形态而定。本实施例的计算机设备可以实现为台式电脑、笔记本电脑、智能手机或IOT设备等终端设备,也可以是常规服务器、云服务器或服务器阵列等服务端设备。若本实施例的计算机设备实现为台式电脑、笔记本电脑、智能手机等终端设备,可以包含图9中虚线框内的组件;若本实施例的计算机设备实现为常规服务器、云服务器或服务器阵列等服务端设备,则可以不包含图9中虚线框内的组件。
关于处理器执行各动作的详细实施过程可参见前述方法实施例或设备实施例中的相关描述,在此不再赘述。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被执行时能够实现上述方法实施例中可由计算机设备执行的各步骤。
相应地,本申请实施例还提供一种计算机程序产品,包括计算机程序/指令,当计算机程序/指令被处理器执行时,致使处理器能够实现上述方法实施例中可由计算机设备执行的各步骤。
上述通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如WiFi,2G、3G、4G/LTE、5G等移动通信网络,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
上述显示器包括屏幕,其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。
上述电源组件,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
上述音频组件,可被配置为输出和/或输入音频信号。例如,音频组件包括一个麦克风(MIC),当音频组件所在设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中,音频组件还包括一个扬声器,用于输出音频信号。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM) 和/或非易失性内存等形式,如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (18)

1.一种三维重建方法,其特征在于,包括:
获取包括目标对象的多帧图像,以及所述目标对象对应的三维模型描述信息;
将所述多帧图像输入特征提取网络进行特征提取,以得到所述多帧图像的特征向量,对所述多帧图像的特征向量进行拼接,得到目标拼接特征向量;
将所述目标拼接特征向量输入参数回归网络,根据所述三维模型描述信息预测用于模型控制的多个控制参数,所述多个控制参数包括姿态控制参数和形状控制参数;
按照所述姿态控制参数和形状控制参数对所述目标对象的初始三维模型进行蒙层处理,得到所述目标对象的目标三维模型,所述初始三维模型是根据所述三维模型描述信息得到的。
2.根据权利要求1所述的方法,其特征在于,将所述多帧图像输入特征提取网络进行特征提取,以得到所述多帧图像的特征向量,包括:
针对所述多帧图像中的每帧图像,将该帧图像输入所述特征提取网络中的特征提取模块进行特征提取,得到该帧图像的图像特征图;
将采集该帧图像时的相机姿态数据输入所述特征提取网络中的相机参数融合模块进行特征提取,得到该帧图像的相机位姿特征图;
利用所述特征提取网络中的特征拼接模块对每帧图像的图像特征图和相机位姿特征图进行拼接,得到每帧图像的拼接特征图;以及
利用所述特征提取网络中的特征降维模块对每帧图像的拼接特征图进行降维处理,得到每帧图像的特征向量。
3.根据权利要求2所述的方法,其特征在于,针对所述多帧图像中的每帧图像,将该帧图像输入所述特征提取网络中的特征提取模块进行特征提取,得到该帧图像的图像特征图,包括:
针对所述多帧图像中的每帧图像,将该帧图像输入所述特征提取模块中的跳跃连接层,对该帧图像进行多分辨率的特征图提取并对相同分辨率的特征图进行跳跃连接,以得到该帧图像的第二中间特征图;
将该帧图像的第二中间特征图输入所述特征提取模块中的下采样层进行M次下采样处理,得到该帧图像的图像特征图,其中,M是≥1的正整数。
4.根据权利要求3所述的方法,其特征在于,所述跳跃连接层采用编码器和解码器结构,则将该帧图像输入所述特征提取模块中的跳跃连接层,对该帧图像进行多分辨率的特征图提取并对相同分辨率的特征图进行跳跃连接,以得到该帧图像的第二中间特征图,包括:
将该帧图像输入所述跳跃连接层中的编码器,对该帧图像进行编码以得到该帧图像的初始特征图,并依次对所述初始特征图进行N次下采样处理,得到第一中间特征图;
将所述第一中间特征图输入所述跳跃连接层中的解码器,依次对所述第一中间特征图进行N次上采样处理,并在每次上采样处理中与所述编码器中下采样处理得到的相同分辨率的第一中间特征图进行跳跃连接,以得到该帧图像的第二中间特征图。
5.根据权利要求4所述的方法,其特征在于,所述编码器包括依次连接的编码子模块和N个下采样子模块,则将该帧图像输入所述跳跃连接层中的编码器,对该帧图像进行编码以得到该帧图像的初始特征图,并依次对所述初始特征图进行N次下采样处理,得到第一中间特征图,包括:
将该帧图像输入所述编码子模块进行编码,以得到该帧图像的初始特征图;
利用所述N个下采样子模块对所述初始特征图进行N次下采样处理,得到第一中间特征图;
其中,在每个下采样子模块中,利用依次连接的K1个卷积单元各自对应的目标卷积参数对其输入进行卷积处理,得到待激活的中间特征图,利用激活函数对待激活的中间特征图进行激活以得到每个卷积单元的输出,K1是≥2的正整数。
6.根据权利要求3所述的方法,其特征在于,所述下采样层包括依次连接的M个下采样子模块,则将该帧图像的第二中间特征图输入所述特征提取模块中的下采样层进行M次下采样处理,得到该帧图像的图像特征图,包括:
利用所述M个下采样子模块对所述第二中间特征图进行M次下采样处理,得到该帧图像的图像特征图;
其中,在每个下采样子模块中,利用依次连接的K2个卷积单元各自对应的目标卷积参数对其输入进行卷积处理,得到待激活的中间特征图,利用激活函数对待激活的中间特征图进行激活以得到每个卷积单元的输出,K2是≥2的正整数。
7.根据权利要求2所述的方法,其特征在于,将采集该帧图像时的相机姿态数据输入所述特征提取网络中的相机参数融合模块进行特征提取,得到该帧图像的相机位姿特征图,包括:
将采集该帧图像时的相机姿态数据输入所述特征提取网络中的相机参数融合模块,所述相机姿态数据包括至少两种姿态角;
根据所述至少两种姿态角以及所述至少两种姿态角之间的相互关系进行三角函数处理,得到多种姿态表征参数;
利用所述相机参数融合模块中的多层感知机MLP网络处理所述多种姿态表征参数,得到该帧图像的相机姿态特征图。
8.根据权利要求7所述的方法,其特征在于,根据所述至少两种姿态角以及所述至少两种姿态角之间的相互关系进行三角函数处理,得到多种姿态表征参数,包括:
对所述至少两种姿态角中的两两姿态角进行数值计算,以得到多种融合姿态角,每种融合姿态角表示对应两个姿态角之间的相互关系;
对所述至少两种姿态角中的每种姿态角以及所述多种融合姿态角中的每种融合姿态角分别进行三角函数处理,得到多种姿态表征参数。
9.根据权利要求7所述的方法,其特征在于,利用所述相机参数融合模块中的多层感知机MLP网络处理所述多种姿态表征参数,得到该帧图像的相机姿态特征图,包括:
对所述多种姿态表征参数进行向量化处理,得到相机姿态特征向量;
利用多层感知机MLP网络处理所述相机姿态特征向量,得到相机姿态特征图。
10.根据权利要求1所述的方法,其特征在于,将所述目标拼接特征向量输入参数回归网络,根据所述参数数量预测用于模型控制的多个控制参数,包括:
将所述目标拼接特征向量输入参数回归网络中,根据所述参数数量对所述目标拼接特征向量进行至少一次多层感知机MLP运算,以得到用于模型控制的多个控制参数。
11.根据权利要求1-10任一项所述的方法,其特征在于,所述多帧图像包括当前帧图像和至少一帧历史图像;
将所述多帧图像输入特征提取网络进行特征提取,以得到所述多帧图像的特征向量,包括:每次将当前帧图像输入特征提取网络进行特征提取,以得到所述当前帧图像的特征向量;
对所述多帧图像的特征向量进行拼接,得到目标拼接特征向量,包括:采用设定的滑动窗口从指定存储空间中,获取至少一帧历史图像的特征向量;将所述当前帧图像的特征向量和至少一帧历史图像的特征向量进行拼接,得到目标拼接特征向量。
12.根据权利要求1-10任一项所述的方法,其特征在于,在得到所述目标三维模型之后,所述方法还包括:
针对所述多帧图像中的每帧图像,根据采集该帧图像时的相机姿态数据,将所述目标三维模型与该帧图像中的所述目标对象进行适配,并基于适配结果为所述目标对象选购与之适配的商品;和/或
将所述多帧图像中任一帧图像输入深度估计网络进行所述目标对象的尺寸信息的估计,并根据估计出的所述目标对象的尺寸信息对所述目标三维模型进行标注;和/或
针对所述多帧图像中的每帧图像,根据采集该帧图像时的相机姿态数据,将所述目标三维模型与该帧图像中的所述目标对象进行适配,并基于适配结果测量所述目标对象的形状参数。
13.根据权利要求1-10任一项所述的方法,其特征在于,所述目标对象为人体上的脚部对象、手部对象、头部对象、肘部对象或腿部对象,所述目标对象对应的三维模型描述信息是基于SMPL模型确定的。
14.一种商品信息处理方法,其特征在于,包括:
获取包含包括试穿对象的多帧图像,以及所述试穿对象对应的三维模型描述信息;
将所述多帧图像输入特征提取网络进行特征提取,以得到所述多帧图像的特征向量,对所述多帧图像的特征向量进行拼接,得到目标拼接特征向量;
将所述目标拼接特征向量输入参数回归网络,根据所述三维模型描述信息预测用于模型控制的多个控制参数,所述多个控制参数包括姿态控制参数和形状控制参数;
按照所述姿态控制参数和形状控制参数对所述试穿对象的初始三维模型进行蒙层处理,得到所述试穿对象的目标三维模型,所述初始三维模型是根据所述三维模型描述信息生成的;
根据所述目标三维模型为所述试穿对象提供与之适配的目标商品信息。
15.根据权利要求14所述的方法,其特征在于,根据所述目标三维模型为所述试穿对象提供与之适配的目标商品信息,包括:
根据所述目标三维模型以及多个候选商品信息对应的商品三维模型,从多个候选商品信息选择商品三维模型与所述目标三维模型适配度最高的商品信息作为所述目标商品信息,并将所述目标商品信息提供给所述试穿对象;
或者
根据所述目标三维模型对应的模型参数和选定的商品类型,为试穿对象定制化与所述目标三维模型适配的商品三维模型,并将所述商品三维模型对应的商品信息作为目标商品信息提供给所述试穿对象。
16.一种三维重建装置,其特征在于,包括:
图像获取单元,用于获取目标对象的多帧图像,以及所述目标对象对应的三维模型描述信息;
特征提取单元,用于将所述多帧图像输入特征提取网络进行特征提取,以得到所述多帧图像的特征向量;
向量拼接单元,用于对所述多帧图像的特征向量进行拼接,得到目标拼接特征向量;
参数回归单元,用于将所述目标拼接特征向量输入参数回归网络,根据所述参数数量预测用于模型控制的多个控制参数集,所述多个控制参数包括姿态控制参数和形状控制参数;
蒙层处理单元,用于按照所述姿态控制参数和形状控制参数对所述目标对象的初始三维模型进行蒙层处理,得到所述目标对象的目标三维模型,所述初始三维模型是根据所述三维模型描述信息得到的。
17.一种计算机设备,其特征在于,包括:存储器和处理器;所述存储器,用于存储计算机程序,所述处理器与所述存储器耦合,用于执行所述计算机程序,以用于实现权利要求1-13以及权利要求14-15中任一项所述方法中的步骤。
18.一种存储有计算机程序的计算机可读存储介质,其特征在于,当所述计算机程序被处理器执行时,致使所述处理器执行权利要求1-13以及权利要求14-15中任一项所述方法中的步骤。
CN202211257959.4A 2022-10-14 2022-10-14 三维重建与商品信息处理方法、装置、设备及存储介质 Active CN115359192B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211257959.4A CN115359192B (zh) 2022-10-14 2022-10-14 三维重建与商品信息处理方法、装置、设备及存储介质
PCT/CN2023/071989 WO2024077809A1 (zh) 2022-10-14 2023-01-13 三维重建与商品信息处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211257959.4A CN115359192B (zh) 2022-10-14 2022-10-14 三维重建与商品信息处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115359192A true CN115359192A (zh) 2022-11-18
CN115359192B CN115359192B (zh) 2023-03-28

Family

ID=84008726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211257959.4A Active CN115359192B (zh) 2022-10-14 2022-10-14 三维重建与商品信息处理方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN115359192B (zh)
WO (1) WO2024077809A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024077809A1 (zh) * 2022-10-14 2024-04-18 阿里巴巴(中国)有限公司 三维重建与商品信息处理方法、装置、设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514450A (zh) * 2012-06-29 2014-01-15 华为技术有限公司 一种图像特征提取方法和图像校正方法以及设备
JP2016170050A (ja) * 2015-03-12 2016-09-23 キヤノン株式会社 位置姿勢計測装置、位置姿勢計測方法及びコンピュータプログラム
CN109584295A (zh) * 2017-09-29 2019-04-05 阿里巴巴集团控股有限公司 对图像内目标物体进行自动标注的方法、装置及系统
CN111009007A (zh) * 2019-11-20 2020-04-14 华南理工大学 一种指部多特征全面三维重建方法
CN111783611A (zh) * 2020-06-28 2020-10-16 北京百度网讯科技有限公司 无人车的定位方法、装置、无人车及存储介质
CN113959444A (zh) * 2021-09-30 2022-01-21 达闼机器人有限公司 用于无人设备的导航方法、装置、介质及无人设备
CN114066987A (zh) * 2022-01-12 2022-02-18 深圳佑驾创新科技有限公司 一种相机位姿估计方法、装置、设备及存储介质
CN114219890A (zh) * 2021-11-10 2022-03-22 中国科学院深圳先进技术研究院 一种三维重建方法、装置、设备及计算机存储介质
CN114549765A (zh) * 2022-02-28 2022-05-27 北京京东尚科信息技术有限公司 三维重建方法及装置、计算机可存储介质
WO2022151661A1 (zh) * 2021-01-15 2022-07-21 浙江商汤科技开发有限公司 一种三维重建方法、装置、设备及存储介质
CN114841783A (zh) * 2022-05-27 2022-08-02 阿里巴巴(中国)有限公司 商品信息处理方法、装置、终端设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115359192B (zh) * 2022-10-14 2023-03-28 阿里巴巴(中国)有限公司 三维重建与商品信息处理方法、装置、设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514450A (zh) * 2012-06-29 2014-01-15 华为技术有限公司 一种图像特征提取方法和图像校正方法以及设备
JP2016170050A (ja) * 2015-03-12 2016-09-23 キヤノン株式会社 位置姿勢計測装置、位置姿勢計測方法及びコンピュータプログラム
CN109584295A (zh) * 2017-09-29 2019-04-05 阿里巴巴集团控股有限公司 对图像内目标物体进行自动标注的方法、装置及系统
CN111009007A (zh) * 2019-11-20 2020-04-14 华南理工大学 一种指部多特征全面三维重建方法
CN111783611A (zh) * 2020-06-28 2020-10-16 北京百度网讯科技有限公司 无人车的定位方法、装置、无人车及存储介质
WO2022151661A1 (zh) * 2021-01-15 2022-07-21 浙江商汤科技开发有限公司 一种三维重建方法、装置、设备及存储介质
CN113959444A (zh) * 2021-09-30 2022-01-21 达闼机器人有限公司 用于无人设备的导航方法、装置、介质及无人设备
CN114219890A (zh) * 2021-11-10 2022-03-22 中国科学院深圳先进技术研究院 一种三维重建方法、装置、设备及计算机存储介质
CN114066987A (zh) * 2022-01-12 2022-02-18 深圳佑驾创新科技有限公司 一种相机位姿估计方法、装置、设备及存储介质
CN114549765A (zh) * 2022-02-28 2022-05-27 北京京东尚科信息技术有限公司 三维重建方法及装置、计算机可存储介质
CN114841783A (zh) * 2022-05-27 2022-08-02 阿里巴巴(中国)有限公司 商品信息处理方法、装置、终端设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MANFERDINIA A: "A review of reality-based 3D model generation,segmentation and web-based visualization methods", 《INTERNATIONAL JOURNAL OF HERITAGE IN THE DIGITAL ERA》 *
陈凤等: "基于序列图像的三维重建方法在空间目标探测识别中的应用研究", 《载人航天》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024077809A1 (zh) * 2022-10-14 2024-04-18 阿里巴巴(中国)有限公司 三维重建与商品信息处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
WO2024077809A1 (zh) 2024-04-18
CN115359192B (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
US10777020B2 (en) Virtual representation creation of user for fit and style of apparel and accessories
US10540757B1 (en) Method and system for generating combined images utilizing image processing of multiple images
CN111787242B (zh) 用于虚拟试衣的方法和装置
US11030782B2 (en) Accurately generating virtual try-on images utilizing a unified neural network framework
US10013803B2 (en) System and method of 3D modeling and virtual fitting of 3D objects
TWI554951B (zh) 實現虛擬試戴的方法和裝置
US20200193591A1 (en) Methods and systems for generating 3d datasets to train deep learning networks for measurements estimation
CN110662484A (zh) 用于全身测量结果提取的系统和方法
US20220301295A1 (en) Recurrent multi-task convolutional neural network architecture
US10395404B2 (en) Image processing device for composite images, image processing system and storage medium
CN111435433B (zh) 信息处理装置、信息处理方法以及存储介质
JP2021168157A (ja) 自動ショッピングアシスタントを使用したパーソナライズショッピングのためのシステム、プラットフォームおよび方法
CN115359192B (zh) 三维重建与商品信息处理方法、装置、设备及存储介质
US11507781B2 (en) Methods and systems for automatic generation of massive training data sets from 3D models for training deep learning networks
CN115358828B (zh) 基于虚拟试穿的信息处理与交互方法、装置、设备及介质
Michel et al. Tracking the articulated motion of the human body with two RGBD cameras
US20230401706A1 (en) Method for detecting a rib with a medical image, device, and medium
CN114170250B (zh) 图像处理方法、装置和电子设备
KR102314167B1 (ko) 유저의 얼굴 윤곽과 피부 타입을 분석하여 뷰티 케어 제품을 큐레이팅하는 방법
CN112884556A (zh) 一种基于混合现实的店铺展示方法、系统、设备和介质
CN116452745A (zh) 手部建模、手部模型处理方法、设备和介质
CN114694211B (zh) 非接触式多生理参数的同步检测方法和系统
KR102314166B1 (ko) 유저의 얼굴 윤곽과 피부 타입을 분석하여 뷰티 케어 제품을 큐레이팅하는 뷰티 케어 토탈솔루션 디바이스
Makita et al. Mixed reality navigation on a tablet computer for supporting machine maintenance in wide-area indoor environment
CN113298956A (zh) 图像处理方法、美甲方法、美妆方法和装置、终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40081890

Country of ref document: HK