CN116129049A

CN116129049A - 图像处理方法、设备、存储介质及程序产品

Info

Publication number: CN116129049A
Application number: CN202310051073.2A
Authority: CN
Inventors: 考月英; 吕江靖; 贾荣飞
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-02-02
Filing date: 2023-02-02
Publication date: 2023-05-16
Anticipated expiration: 2043-02-02
Also published as: CN116129049B

Abstract

本申请提供一种图像处理方法、设备、存储介质及程序产品，其中方法包括：获取目标物体在不同视角下的多个待处理图像，确定多个待处理图像对应的拍摄策略信息；分别提取各个待处理图像中目标物体的图像特征；根据拍摄策略信息确定多个待处理图像对应的图像匹配策略，图像匹配策略用于指示多个待处理图像中不需要进行图像匹配的冗余图像对，冗余图像对中目标物体的暴露表面之间的相似度大于预设阈值；根据图像特征和图像匹配策略，对多个待处理图像中除去冗余图像对以外的剩余图像对进行图像匹配处理过程；根据图像匹配结果，生成目标物体对应的相机位姿信息。本申请实现了减少相似面带来的相机位姿估计失败的问题，提高位姿信息的准确性。

Description

图像处理方法、设备、存储介质及程序产品

技术领域

本申请涉及图像处理技术领域，尤其涉及一种图像处理方法、设备、存储介质及程序产品。

背景技术

三维重建是指对三维物体建立适合计算机表示和处理的数学模型，是在计算机环境下对其进行处理、操作和分析其性质的基础，也是在计算机中建立表达客观世界的虚拟现实的关键技术。在计算机视觉中，三维重建是指根据单视图或者多视图的图像重建三维信息的过程。三维重建在AR（Augmented Reality增强现实），商品三维交互显示等应用场景中有着重要的应用价值。

基于多视图的相机位姿估计是物体三维重建的必要输入，相机位姿估计是从二维图像到三维重建的真正开始，其成功与否直接关系到三维重建的成功与失败。实际场景中，由于物体形态的复杂性，一个物体常常会包含多个相似的表面，比如纹理相同或相似的两个表面，这些相似表面参与图像匹配时，很容易造成混淆，现有的姿态估计方法无法准确区分相似或纹理相同表面，导致经常会出现相机位姿估计失败的情况，效率低下。

发明内容

本申请实施例的主要目的在于提供一种图像处理方法、设备、存储介质及程序产品，通过预先配置拍摄策略与图像匹配策略，预先标记哪些冗余图像对不进行匹配，进而减少容易造成混淆的相似面参与匹配，减少相似面带来的相机位姿估计失败的问题，提高位姿信息的准确性。

第一方面，本申请实施例提供一种图像处理方法，包括：获取目标物体在不同视角下的多个待处理图像，确定所述多个待处理图像对应的拍摄策略信息；分别提取各个待处理图像中所述目标物体的图像特征；根据所述拍摄策略信息确定所述多个待处理图像对应的图像匹配策略，所述图像匹配策略用于指示所述多个待处理图像中不需要进行图像匹配的冗余图像对，所述冗余图像对中所述目标物体的暴露表面之间的相似度大于预设阈值；根据所述图像特征和所述图像匹配策略，对所述多个待处理图像中除去所述冗余图像对以外的剩余图像对进行图像匹配处理过程；根据图像匹配结果，生成所述目标物体对应的相机位姿信息。

于一实施例中，所述获取目标物体在不同视角下的多个待处理图像，确定所述多个待处理图像对应的拍摄策略信息，包括：确定被拍摄的目标物体和所述目标物体对应的拍摄策略信息；控制预设相机按照所述拍摄策略信息在不同视角下对所述目标物体进行拍摄，得到所述多个待处理图像。

于一实施例中，所述获取目标物体在不同视角下的多个待处理图像，确定所述多个待处理图像对应的拍摄策略信息，包括：响应于用户对目标物体的确认指令，确定被拍摄的目标物体和所述目标物体对应的拍摄策略信息，所述拍摄策略信息用于引导用户在不同视角下对所述目标物体进行拍摄；响应于所述用户对相机的开启操作，在交互界面展示所述拍摄策略信息对应的引导信息；响应于所述用户的拍摄操作，获取所述用户按照所述引导信息对所述目标物体拍摄得到的所述多个待处理图像。

于一实施例中，所述分别提取所述各个待处理图像中所述目标物体的图像特征，包括：对所述各个待处理图像进行物体分割，生成所述各个待处理图像中所述目标物体的掩膜图像，所述掩膜图像用于表征所述目标物体在所述待处理图像中的区域；根据所述各个待处理图像和对应的所述掩膜图像，提取所述各个待处理图像中所述目标物体的图像特征。

于一实施例中，所述根据所述各个待处理图像和对应的所述掩膜图像，提取所述各个待处理图像中所述目标物体的图像特征，包括：分别将所述各个待处理图像输入预设特征提取网络，输出所述各个待处理图像对应的特征图；将所述各个待处理图像对应的特征图与对应的掩膜图像相乘，生成所述各个待处理图像中所述目标物体的图像特征。

于一实施例中，所述根据所述拍摄策略信息确定所述多个待处理图像对应的图像匹配策略，包括：从数据库中获取所述拍摄策略信息对应的预设图像匹配策略，将所述预设图像匹配策略作为所述多个待处理图像对应的图像匹配策略，所述数据库中包括预设的多个拍摄策略信息和每个所述拍摄策略信息对应的图像匹配策略。

于一实施例中，所述冗余图像对中所述目标物体的暴露表面为对称面或者重复纹理面。

于一实施例中，所述拍摄策略信息包括：使相机在不同视角下围绕所述目标物体的不同表面拍摄一周，其中，每隔预设角度对所述目标物体拍摄一张图像。

于一实施例中，所述目标物体为具有左右对称面的物体；所述拍摄策略信息包括：使相机在平视视角下围绕所述目标物体的正立表面拍摄一周，其中，每隔所述预设角度对所述目标物体拍摄一张图像，得到所述目标物体的多个第一圈图像；

和/或使相机在平视视角下围绕所述目标物体的右侧表面拍摄一周，其中，每隔所述预设角度对所述目标物体拍摄一张图像，得到所述目标物体的多个第二圈图像；

和/或使相机在俯视视角下围绕所述目标物体的右侧表面拍摄一周，其中，每隔所述预设角度对所述目标物体拍摄一张图像，得到所述目标物体的多个第三圈图像；

和/或使相机在俯视视角下围绕所述目标物体的左侧表面拍摄一周，其中，每隔所述预设角度对所述目标物体拍摄一张图像，得到所述目标物体的多个第四圈图像。

于一实施例中，所述冗余图像对的两个图像中所述目标物体的暴露表面为左右对称面；所述根据所述图像特征和所述图像匹配策略，对所述多个待处理图像中剩余图像对进行图像匹配处理过程，包括：根据所述图像特征，将所述多个第一圈图像中暴露表面为所述目标物体的右侧表面的图像与所述多个第二圈图像和/或所述多个第三圈图像分别进行图像匹配；

和/或，根据所述图像特征，将所述多个第一圈图像中暴露表面为所述目标物体的左侧表面的图像与所述多个第四圈图像分别进行图像匹配；

和/或，根据所述图像特征，将所述多个第二圈图像与所述多个第三圈图像逐个进行图像匹配；

和/或，根据所述图像特征，对于所述多个第一圈图像、所述多个第二圈图像、所述多个第三圈图像和所述多个第四圈图像，每圈图像各自进行相邻循环匹配。

于一实施例中，所述图像匹配策略还用于指示需要进行图像匹配的目标图像对；所述根据所述图像特征和所述图像匹配策略，对所述多个待处理图像中除去所述冗余图像对以外的剩余图像对进行图像匹配处理过程，包括：根据所述图像特征，对所述剩余图像对中的所述目标图像对进行图像匹配处理过程。

于一实施例中，所述根据图像匹配结果，生成所述目标物体对应的相机位姿信息，包括：根据图像匹配结果，对所述目标物体进行稀疏重建，生成所述目标物体对应的相机位姿信息。

于一实施例中，在所述根据图像匹配结果，对所述目标物体进行稀疏重建，生成所述目标物体的相机位姿信息之后，还包括：获取所述稀疏重建过程生成的所述目标物体的初始稀疏点云、所述各个待处理图像对应的相机内参，获取所述各个待处理图像中目标物体的掩膜图像，所述掩膜图像用于表征所述目标物体在所述待处理图像中的区域；根据所述相机位姿信息，将所述初始稀疏点云投影到对应的待处理图像上，生成投影后图像；根据所述掩膜图像和所述投影后图像，除去所述初始稀疏点云中不在所述目标物体上的冗余点云，生成所述目标物体的最终稀疏点云；和/或，根据所述相机内参中的畸变参数对所述各个待处理图像进行去畸变处理，生成处理后图像；根据所述相机位姿信息、所述相机内参、所述最终稀疏点云和所述处理后图像，对所述目标物体进行三维重建，生成所述目标物体的三维虚拟模型。

第二方面，本申请实施例提供一种图像处理方法，包括：响应于用户对目标商品的拍摄操作，在交互界面展示所述目标商品对应的拍摄策略信息，获取所述用户按照所述拍摄策略信息对所述目标商品拍摄得到的所述多个待处理图像；分别提取各个待处理图像中所述目标商品的图像特征；根据所述拍摄策略信息确定所述多个待处理图像对应的图像匹配策略，所述图像匹配策略用于指示所述多个待处理图像中不需要进行图像匹配的冗余图像对，所述冗余图像对中所述目标物体的暴露表面之间的相似度大于预设阈值；根据所述图像特征和所述图像匹配策略，对所述多个待处理图像中除去所述冗余图像对以外的剩余图像对进行图像匹配处理过程；根据图像匹配结果，对所述目标商品进行稀疏重建，生成所述目标商品对应的相机位姿信息和稀疏点云；根据所述相机位姿信息和稀疏点云对所述目标商品进行三维重建，生成所述目标商品的三维虚拟模型。

第三方面，本申请实施例提供一种图像处理装置，包括：

第一获取模块，用于获取目标物体在不同视角下的多个待处理图像，确定所述多个待处理图像对应的拍摄策略信息；

提取模块，用于分别提取各个待处理图像中所述目标物体的图像特征；

确定模块，用于根据所述拍摄策略信息确定所述多个待处理图像对应的图像匹配策略，所述图像匹配策略用于指示所述多个待处理图像中不需要进行图像匹配的冗余图像对，所述冗余图像对中所述目标物体的暴露表面之间的相似度大于预设阈值；

匹配模块，用于根据所述图像特征和所述图像匹配策略，对所述多个待处理图像中除去所述冗余图像对以外的剩余图像对进行图像匹配处理过程；

生成模块，用于根据图像匹配结果，生成所述目标物体对应的相机位姿信息。

于一实施例中，所述第一获取模块，用于确定被拍摄的目标物体和所述目标物体对应的拍摄策略信息；控制预设相机按照所述拍摄策略信息在不同视角下对所述目标物体进行拍摄，得到所述多个待处理图像。

于一实施例中，所述第一获取模块，用于响应于用户对目标物体的确认指令，确定被拍摄的目标物体和所述目标物体对应的拍摄策略信息，所述拍摄策略信息用于引导用户在不同视角下对所述目标物体进行拍摄；响应于所述用户对相机的开启操作，在交互界面展示所述拍摄策略信息对应的引导信息；响应于所述用户的拍摄操作，获取所述用户按照所述引导信息对所述目标物体拍摄得到的所述多个待处理图像。

于一实施例中，所述提取模块，用于对所述各个待处理图像进行物体分割，生成所述各个待处理图像中所述目标物体的掩膜图像，所述掩膜图像用于表征所述目标物体在所述待处理图像中的区域；根据所述各个待处理图像和对应的所述掩膜图像，提取所述各个待处理图像中所述目标物体的图像特征。

于一实施例中，所述提取模块，具体用于分别将所述各个待处理图像输入预设特征提取网络，输出所述各个待处理图像对应的特征图；将所述各个待处理图像对应的特征图与对应的掩膜图像相乘，生成所述各个待处理图像中所述目标物体的图像特征。

于一实施例中，所述确定模块，用于从数据库中获取所述拍摄策略信息对应的预设图像匹配策略，将所述预设图像匹配策略作为所述多个待处理图像对应的图像匹配策略，所述数据库中包括预设的多个拍摄策略信息和每个所述拍摄策略信息对应的图像匹配策略。

于一实施例中，所述冗余图像对的两个图像中所述目标物体的暴露表面为左右对称面；所述匹配模块，用于根据所述图像特征，将所述多个第一圈图像中暴露表面为所述目标物体的右侧表面的图像与所述多个第二圈图像和/或所述多个第三圈图像分别进行图像匹配；

于一实施例中，所述图像匹配策略还用于指示需要进行图像匹配的目标图像对；所述匹配模块，用于根据所述图像特征，对所述剩余图像对中的所述目标图像对进行图像匹配处理过程。

于一实施例中，还包括：

第二获取模块，用于在所述根据图像匹配结果，对所述目标物体进行稀疏重建，生成所述目标物体的相机位姿信息之后，获取所述稀疏重建过程生成的所述目标物体的初始稀疏点云、所述各个待处理图像对应的相机内参，获取所述各个待处理图像中目标物体的掩膜图像，所述掩膜图像用于表征所述目标物体在所述待处理图像中的区域；

投影模块，用于根据所述相机位姿信息，将所述初始稀疏点云投影到对应的待处理图像上，生成投影后图像；

去除模块，用于根据所述掩膜图像和所述投影后图像，除去所述初始稀疏点云中不在所述目标物体上的冗余点云，生成所述目标物体的最终稀疏点云；

和/或畸变处理模块，用于根据所述相机内参中的畸变参数对所述各个待处理图像进行去畸变处理，生成处理后图像；

重建模块，用于根据所述相机位姿信息、所述相机内参、所述最终稀疏点云和所述处理后图像，对所述目标物体进行三维重建，生成所述目标物体的三维虚拟模型。

第四方面，本申请实施例提供一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述电子设备执行上述任一方面所述的方法。

第五方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现上述任一方面所述的方法。

第六方面，本申请实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述任一方面所述的方法。

本申请实施例提供的图像处理方法、设备、存储介质及程序产品，首先获取目标物体在不同视角下的待处理图像和对应的拍摄策略，根据拍摄策略确定对应的图像匹配策略，图像匹配策略指示了不能进行图像匹配的冗余图像对，保证物体上相似面的图像之间不参与图像匹配，然后根据提取到的图像特征，对剩余图像对之间进行基于图像特征的图像匹配，根据匹配结果获得对应的相机位姿信息。如此，通过预先配置拍摄策略与图像匹配策略，预先标记哪些冗余图像对不进行匹配，进而大大减少容易造成混淆的相似面参与匹配，减少相似面带来的相机位姿估计失败的问题，提高位姿信息的准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种电子设备的结构示意图；

图2为本申请实施例提供的一种图像处理系统的场景示意图；

图3为本申请实施例提供的一种图像处理方法的流程示意图；

图4为本申请实施例提供的一种对鞋子拍摄时每圈起始的第一张图像对比示意图；

图5为本申请实施例提供的一种第一圈图像的示意图；

图6为本申请实施例提供的一种第二圈图像的示意图；

图7为本申请实施例提供的一种第三圈图像的示意图；

图8为本申请实施例提供的一种第四圈图像的示意图；

图9为本申请实施例提供的一种特征提取网络的结构示意图；

图10至图14为本申请实施例提供的一种为鞋子的四圈图像之间进行图像匹配的示意图；

图15为本申请实施例提供的一种图像处理方法的流程示意图；

图16为本申请实施例提供的一种图像处理结果的展示示意图；

图17为本申请实施例提供的一种图像处理方法的流程示意图；

图18为本申请实施例提供的一种图像处理装置的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。

本文中术语“和/或”，用于描述关联对象的关联关系，具体表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

为了清楚地描述本申请实施例的技术方案，首先对本申请所涉及的名词进行释义：

AR：Augmented Reality，增强现实。

3D：3-dimension，三维。

2D：2-dimension，二维。

RGB图像：具有红(R)、绿(G)、蓝(B)三个通道的彩色模式的图像。

Depth图像：Depth Map，深度图像。

MVS：Multi View Stereo，多视图立体，是对于多视图三维重建一系列方法的总称。

nerf：神经辐射场。

SFM：Structure from Motion，运动推断结构。

位姿：即位置和姿态，是刚体在空间中的位置和它自身的姿态，相机的位姿即相机在空间中的位置和相机的朝向，相机位姿，也叫做相机外参。

RGBD：RGB+ Depth Map。

SIFT：Scale-invariant feature transform，尺度不变特征变换。

FAST：Features from accelerated segment test，一种用于角点检测的算法。

BRIEF：一种特征描述子提取算法。

ORB特征：Oriented FAST and Rotated BRIEF，ORB特征是由关键点和描述子组成的特征。

Superpoint网络：一个用于提取图像特征以及特征描述子的网络。

如图1所示，本实施例提供一种电子设备1，包括：至少一个处理器11和存储器12，图1中以一个处理器为例。处理器11和存储器12通过总线10连接。存储器12存储有可被处理器11执行的指令，指令被处理器11执行，以使电子设备1可执行下述的实施例中方法的全部或部分流程，以实现通过预先配置的拍摄策略与图像匹配策略，指示出哪些冗余图像对不进行匹配，进而避免容易造成混淆的相似面参与图像匹配，减少相似面带来的相机位姿估计失败的问题，提高位姿信息的准确性。

于一实施例中，电子设备1可以是手机、平板电脑、笔记本电脑、台式计算机或者多个计算机组成的大型运算系统。

图2为本申请实施例提供的一种图像处理系统200的示意图。如图2所示，该系统包括：服务器210和终端220，其中：

服务器210可以是图像处理服务的云数据平台，比如可以是电商购物平台。实际场景中，一个电商购物平台可能有多个服务器210，图2中以1个服务器210为例。

终端220可以是用户登录电商购物平台时使用的电脑、手机、平板等设备，终端220也可以有多个，图2中以2个终端220为例进行示意。

终端220与服务器210之间可以通过互联网进行信息传输，以使终端220可以访问服务器210上的数据。上述终端220和/或者服务器210均可以由电子设备1来实现。

本申请实施例的图像处理方式可以应用于任意需要图像处理的领域。

随着电商购物的发展，越来越多的用户选择在电商购物平台选购商品。有些商品需要和用户自身条件匹配使用，比如鞋子衣服这类商品，买家用户希望能够选到与自身身材尺寸匹配的鞋子或衣服。随着AR技术的发展，采用AR技术进行商品信息展示，并实现与用户互动，已经成为一种趋势。比如可以将在售的鞋子进行三维重建，生成3D模型，在电商购物平台进行展示，以供买家用户可以基于AR技术在线试穿。

三维重建是指对三维物体建立适合计算机表示和处理的数学模型，是在计算机环境下对其进行处理、操作和分析其性质的基础，也是在计算机中建立表达客观世界的虚拟现实的关键技术。在计算机视觉中，三维重建是指根据单视图或者多视图的图像重建三维信息的过程。三维重建在AR、商品三维交互显示等应用场景中有着重要的应用价值。

基于多视图的相机位姿估计是物体三维重建的必要输入，相机位姿估计是从二维图像到三维重建的真正开始，其成功与否直接关系到三维重建的成功与失败。实际场景中，由于物体形态的复杂性，一个物体常常会包含多个相似表面，比如一只鞋子的左右两个面对称，并且纹理可能相似或相同，导致左右两面往往非常相似，这些相似表面参与图像匹配时，很容易造成混淆，现有的姿态估计方法无法准确区分相似表面，导致经常会出现相机位姿估计失败的情况，效率低下。

常见的三维重建方法，一般通过输入一组拍摄的几十到几百张RGB图像，通过特征提取，特征匹配，稀疏重建等模块进行相机位姿估计，即得到物体的位姿估计。其中图像特征匹配主要有穷尽匹配和时序匹配，这两种匹配方式在关于物体对称面或重复纹理面匹配时，都会出现物体位姿估计失败的情况。具体来说，穷尽匹配会使得对称面或重复纹理面匹配上，导致稀疏点云重建失败。序列匹配方式下，需要拍摄的相邻两张图像是连续的，有重叠面的，只要相邻图像不是对称面或重复纹理面就不会出现对称面导致的失败，但是一旦相邻两张图像匹配不上，就会导致稀疏点云重建不全，部分图像没有位姿。

为了解决上述问题，本申请实施例提供一种图像处理方案，首先获取目标物体在不同视角下的待处理图像和对应的拍摄策略，根据拍摄策略确定对应的图像匹配策略，图像匹配策略指示了不进行图像匹配的冗余图像对，保证物体上相似面的图像之间不参与图像匹配，然后根据提取的图像特征，对剩余图像对之间进行图像匹配，根据匹配结果获得对应的相机位姿信息。如此，通过预先配置拍摄策略与图像匹配策略，预先标记哪些冗余图像对不进行匹配，进而大大减少容易造成混淆的相似面参与匹配，减少相似面带来的相机位姿估计失败的问题，提高位姿信息的准确性。

上述图像处理方案可以部署在服务器210上，也可以部署在终端220上，或者部分部署在服务器210上，部分部署在终端220上。实际场景中可以基于实际需求选择，本实施例不做限定。

当图像处理方案全部或者部分部署在服务器210上时，可以对终端220开放调用接口，以对终端220提供算法支持。

下面结合附图，对本申请的一些实施方式作详细说明。在各实施例之间不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

请参看图3，其为本申请一实施例的图像处理方法，该方法可由图1所示的电子设备1来执行，并可以应用于图2所示的图像处理系统的应用场景中，以实现减少相似面带来的相机位姿估计失败的问题，提高位姿信息的准确性。本实施例以终端220为执行端为例，该方法包括如下步骤：

步骤301：获取目标物体在不同视角下的多个待处理图像，确定多个待处理图像对应的拍摄策略信息。

在本步骤中，目标物体可以是需要进行物体位姿估计的实际场景中的物体，可以由用户根据场景需要进行指定，比如衣服、家居用品或者自然界自然形成的动植物体等。以电商场景为例，目标物体可以是商家在售的商品，比如鞋子、衣服。在进行物体位姿估计时，需要首先获取目标物体在多视角下的多个待处理图像，并确定多个待处理图像对应的拍摄策略信息。此处拍摄策略信息用于表征多个待处理图像的实际拍摄方式，拍摄策略信息包含但不限于：各个待处理图像的拍摄视角、拍摄各个待处理图像时相机与目标物体之间的位置分布，拍摄首张待处理图像相机与目标物体的位置关系，待处理图像的拍摄数量等信息。比如，拍摄策略信息可以包括：各个待处理图像为俯视拍摄目标物体，拍摄各个待处理图像时相机以俯视视角围绕目标物体拍摄一周，从正对目标物体的某个特定位置开始拍摄首张待处理图像，每隔10度对目标物体拍摄一张图像，一共拍摄36张待处理图像。

于一实施例中，步骤301具体可以包括：确定被拍摄的目标物体和目标物体对应的拍摄策略信息。控制预设相机按照拍摄策略信息在不同视角下对目标物体进行拍摄，得到多个待处理图像。

在本实施例中，可以采用自动相机拍摄场景来获取目标对象的多视角图像。通过为不同的拍摄对象预设不同的拍摄策略信息，目标物体就是被拍摄对象，确定了拍摄对象后，可以确定该目标对象对应的拍摄策略信息，按照拍摄策略信息控制相机对目标对象进行拍摄，进而获得目标物体的多视角图像。自动相机拍摄的方式，可以实现数字化的精准度，节省人力成本。

于一实施例中，步骤301具体可以包括：响应于用户对目标物体的确认指令，确定被拍摄的目标物体和目标物体对应的拍摄策略信息。响应于用户对相机的开启操作，在交互界面展示拍摄策略信息对应的引导信息。响应于用户的拍摄操作，获取用户按照引导信息对目标物体拍摄得到的多个待处理图像。

在本实施例中，也可以由用户控制相机拍摄得到目标物体的多视角图像。用户可以在终端的交互界面上录入对目标对象的确认指令，比如交互界面提供可选的目标对象候选项，用户触摸其中一个候选项“鞋子”，触发确认指令，则确定被拍摄的目标物体为鞋子。也可以在交互界面展示鞋子对应的多个拍摄策略信息的候选项，用户选中其中一个拍摄策略信息A后，就确定了目标对象鞋子对应的拍摄策略信息A。此处，拍摄策略信息用于引导用户在不同视角下对目标物体进行拍摄。当用户开启相机时，可以在交互界面展示拍摄策略信息对应的引导信息，便于用户按照引导信息对鞋子进行拍摄，得到鞋子在不同视角下的多个待处理图像。如此，由用户自定义选择拍摄对象和拍摄策略信息，提升终端的交互性能，提高用户体验。

于一实施例中，拍摄策略信息包含但不限于：使相机在不同视角下围绕目标物体的不同表面拍摄一周，其中，每隔预设角度对目标物体拍摄一张图像。

在本实施例中，拍摄策略信息中可以配置对目标对象拍摄视角，拍摄视角越全面，获得的多视角图像就越能够准确的表征目标对象在三维空间中的信息，在不同视角下围绕目标物体的不同表面拍摄一周，可以覆盖目标对象更多的视角，每隔预设角度对目标物体拍摄一张图像，提高多个待处理图像的多样性。预设角度可以基于实际需求设定，比如每隔5度一周拍摄72张待处理图像，或者每个10度一周拍摄36张待处理图像。如果对待处理图像的全面性要求较高，则预设角度可以小一些，反之，预设角度可以大一些，此处不做限定。

于一实施例中，如果目标物体为具有左右对称面的物体。拍摄策略信息包括：使相机在平视视角下围绕目标物体的正立表面拍摄一周，其中，每隔预设角度对目标物体拍摄一张图像，得到目标物体的多个第一圈图像。和/或使相机在平视视角下围绕目标物体的右侧表面拍摄一周，其中，每隔预设角度对目标物体拍摄一张图像，得到目标物体的多个第二圈图像。和/或使相机在俯视视角下围绕目标物体的右侧表面拍摄一周，其中，每隔预设角度对目标物体拍摄一张图像，得到目标物体的多个第三圈图像。和/或使相机在俯视视角下围绕目标物体的左侧表面拍摄一周，其中，每隔预设角度对目标物体拍摄一张图像，得到目标物体的多个第四圈图像。

在本实施例中，左右对称面的物体是指目标物体至少具有两个表面是左右对称的或者近似左右对称的。比如一只鞋子以人穿上站立时的朝向为前方，人的右手边为右面，人的左手边为左面。则一只鞋子的上表面可以近似当作是两个左右对称面。

以鞋子作为目标物体为例，拍摄策略信息可以是：通过彩色相机（手机或专业相机）或RGBD相机根据提前设定好的拍摄策略信息，采集鞋子RGB图像或者对齐的RGBD图像，可以使用相机围着鞋子拍摄，也可以将鞋子放置在可以转动的转盘上面，假设对鞋子拍摄四圈，每圈起始的第一张图像对比示意图如图4中（a）、（b）、（c）、（d）所示，每隔5度一周拍摄72张待处理图像：

第一圈是使相机在平视视角下围绕鞋子的正立表面拍摄一周，其中，每隔5度对目标物体拍摄一张图像，如图4中（a）所示，第一圈图像中第一张图像是鞋子正立平视拍摄的图像（即正面向上平视图像），一共得到鞋子的72张第一圈图像，如图5所示第1圈的图像。

第二圈使相机在平视视角下围绕鞋子的右侧表面拍摄一周，其中，每隔5度对目标物体拍摄一张图像，如图4中（b）所示，第二圈的第一张图像是鞋子右侧向上平视拍摄的图像（即右侧向上平视图像），一共得到鞋子的72张第二圈图像，如图6所示第2圈的图像。

第三圈使相机在俯视视角下围绕鞋子的右侧表面拍摄一周，其中，每隔5度对鞋子拍摄一张图像，如图4中（c）所示，第三圈的第一张图像是物体右侧向上俯视拍摄的图像（即右侧向上俯视图像），一共得到鞋子的72张第三圈图像，如图7所示第3圈的图像。

第四圈使相机在俯视视角下围绕鞋子的左侧表面拍摄一周，其中，每隔5度对鞋子拍摄一张图像，如图4中（d）所示，第四圈的第一张图像是物体左侧向上俯视拍摄的图像（即左侧向上俯视图像），一共得到鞋子的72张第四圈图像，如图8所示第4圈的图像。

步骤302：分别提取各个待处理图像中目标物体的图像特征。

在本步骤中，在进行图像匹配之前，首先需要提取各个待处理图像中目标物体的图像特征，可以使用现有训练好的神经网络模型进行图像特征提取，或者对采集的样本图像进行标注后重新网络模型，来进行图像特征提取。

于一实施例中，步骤302具体可以包括：对各个待处理图像进行物体分割，生成各个待处理图像中目标物体的掩膜图像。根据各个待处理图像和对应的掩膜图像，提取各个待处理图像中目标物体的图像特征。

在本实施例中，可以对步骤301获得的RGB图像或RGBD图像进行物体分割，生成目标物体的分割mask（掩膜图像），该分割mask表征了目标物体在待处理图像中的区域。可以使用现有训练好的基于神经网络的分割模型，或者通过对样本图像进行标注后重新训练的分割模型来进行物体分割，也可以使用传统分割方法进行分割。然后针对每个待处理图像和对应的分割mask进行特征提取，得到各个待处理图像中目标物体的图像特征。

于一实施例中，根据各个待处理图像和对应的掩膜图像，提取各个待处理图像中目标物体的图像特征，包括：分别将各个待处理图像输入预设特征提取网络，输出各个待处理图像对应的特征图。将各个待处理图像对应的特征图与对应的掩膜图像相乘，生成各个待处理图像中目标物体的图像特征。

在本实施例中，在利用原始的待处理图像和物体的分割mask进行物体特征提取时，可以使用手工设计的特征如SIFT特征，ORB特征等，也可以基于深度学习网络提取特征，比如可以采用superpoint网络提取图像特征。如图9所示，superpoint网络结构可以采用编码解码的方式，提取特征点和计算描述子实际是两个网络，编码部分共用一个网络（即Encoder，将输入图像分辨率降为H/8 * W/8，通道数为128）之后各自使用自己的网络处理，解码部分（Decoder）的输入是Encoder输出的特征图。

其中特征点提取解码网络（Interest Point Decoder），先用256个33的卷积核（即Conv）将输入升维到H/8*W/8*256，再用65个11的卷积核降维成H/8*W/8*65的特征图，做一次归一化处理，比如可以做一次softmax变换（Softmax变换可以将上一层的原始数据进行归一化，转化为一个【0,1】之间的数值），并去掉第65层，得到H/8*W/8*64的特征图，然后经过reshape操作进行矩阵变换，得到H*W*1的特征点。

描述子解码网络（Descriptor Decoder）：先卷积核（即Conv）将输入升维到H/8*W/8*256，再用卷积核降维成H/8*W/8*D的描述子D，然后进行双三次插值（Bi-CublcInterpolate），再进行L2-normalizes归一化处理后，得到最终为H*W*D的描述子。

本实施例中，将原始的待处理图像（假设是RGB图像）输入superpoint网络，可以输出基于待处理图像的特征点和描述子对应的特征图，然后将对应的分割mask与特征点和描述子对应的特征图相乘，得到待处理图像中目标物体上的特征点和描述子作为待处理图像中目标物体的图像特征。于一实施例中，图像特征提取网络也可以自行根据样本数据重新训练得到。

步骤303：根据拍摄策略信息确定多个待处理图像对应的图像匹配策略。

在本步骤中，每个拍摄策略信息都可以有对应的图像匹配策略，图像匹配策略用于指示多个待处理图像中不需要进行图像匹配的冗余图像对，冗余图像对中目标物体的暴露表面之间的相似度大于预设阈值。目标物体的暴露表面是指目标物体在对应图像中展示出来的表面。实际场景中，如果目标物体上有两个表面之间在外观上非常相似，在图像匹配过程中容易造成混淆而无法区分，从而导致图像匹配失败。假设目标物体上两个表面之间的相似度超过预设阈值，则可以将这两个表面所在的图像确定为冗余图像对。这样的两个表面所在的图像如果参与后续的图像匹配，往往会导致图像匹配失败，进而导致后续位姿估计过程的失败。为了避免相似表面的图像导致图像匹配失败，可以预先在图像匹配策略中配置好哪些冗余图像对是不进行图像匹配的，这样在图像匹配环节，包含有目标物体的相似表面的冗余图像对不会参与图像匹配，因而可以减少相似表面带来的位姿估计失败的情况。

此处预设阈值可以基于图像匹配场景中的实际需求设定，原则是相似度大于预设阈值的两个表面无法在图像匹配过程中区分出来，这样的两个表面所在的图像对就是冗余图像对。

于一实施例中，冗余图像对中目标物体的暴露表面为对称面或者重复纹理面。

在本实施例中，目标物体的暴露表面是指目标物体在对应图像中展示出来的表面，比如一只鞋子以人穿上站立时的朝向为前方，人的右手边为右面，人的左手边为左面。则一只鞋子的上表面可以近似当作是左右对称面。当图像中展示的是鞋子的右表面时，鞋子的右表面就是暴露表面。重复纹理面是指目标物体的两个表面的纹理相似或相同，以至于无法准确区分，比如呈现立方体的饮料盒，饮料盒6个外表面中相对的两个表表面印制的图案相同时，这两个相对的外表面就是重复纹理面。目标物体上的对称面之间的相似度和重复纹理面之间的相似度一般都会超过预设阈值，因此这两种表面所在的图像对，是冗余图像对，容易造成图像匹配失败。图像匹配策略与拍摄策略信息对应，因此可以预先知道采用特定拍摄策略信息会得到的待处理图像中哪些是相似表面对应的冗余图像对。这些相似或纹理相同表面参与图像匹配时，很容易造成混淆，为了减少其带来的位姿估计失败，可以在图像匹配策略中给出指示，指出具备对称面或者重复纹理面的两个图像属于冗余图像对，不参与图像匹配。

于一实施例中，步骤303具体可以包括：从数据库中获取拍摄策略信息对应的预设图像匹配策略，将预设图像匹配策略作为多个待处理图像对应的图像匹配策略。

在本实施例中，可以在数据库中预设的多个拍摄策略信息和每个拍摄策略信息对应的图像匹配策略，可以对不同物体的表面特点进行统计，对不同物体设定相应的拍摄策略信息，并给每个拍摄策略信息配置相应的图像匹配策略，原则是保证得到目标物体的待处理图像能够更加全面精准的表征目标物体在三维空间中的信息。然后保存在数据库中，当需要使用时，可以直接从数据库中读取即可，方便快捷。

需要说明的是，上述步骤302与步骤303的执行顺序仅作为示例，实际场景中也可以先执行步骤303与，再执行步骤304，或者步骤302与步骤303同时进行，本申请实施例对步骤302与步骤303的执行顺序不做限定。

步骤304：根据图像特征和图像匹配策略，对多个待处理图像中除去冗余图像对以外的剩余图像对进行图像匹配处理过程。

在本步骤中，图像匹配是通过对影像内容、特征、结构、关系、纹理及灰度等的对应关系，相似性和一致性的分析，寻求相似影像目标的方法。本实施例可以采用基于图像特征的图像匹配过程，对多个待处理图像中除去冗余图像对以外的剩余图像对进行图像匹配处理过程。由于被标记的冗余图像对不需要参与匹配过程，图像匹配策略可以对冗余图像对进行过滤，降低最终参与图像匹配的图像对出现混淆的风险，进而提高图像匹配过程的成功率。

于一实施例中，图像匹配策略还可以用于指示需要进行图像匹配的目标图像对。这种情况下，步骤304具体还可以包括：根据图像特征，对剩余图像对中的目标图像对进行图像匹配处理过程。

在本实施例中，也可以在图像匹配策略中预先确定好哪些目标图像对需要进行匹配，在图像匹配阶段，直接对剩余图像对中预先配置的目标图像对进行图像匹配，减少不必要的匹配计算过程，加快计算速率。

于一实施例中，冗余图像对的两个图像中目标物体的暴露表面为左右对称面。根据图像特征和图像匹配策略，对多个待处理图像中剩余图像对进行图像匹配处理过程，包括：根据图像特征，将多个第一圈图像中暴露表面为目标物体的右侧表面的图像与多个第二圈图像和/或多个第三圈图像分别进行图像匹配。和/或，根据图像特征，将多个第一圈图像中暴露表面为目标物体的左侧表面的图像与多个第四圈图像分别进行图像匹配。和/或，根据图像特征，将多个第二圈图像与多个第三圈图像逐个进行图像匹配。和/或，根据图像特征，对于多个第一圈图像、多个第二圈图像、多个第三圈图像和多个第四圈图像，每圈图像各自进行相邻循环匹配。

在本实施例中，左右对称面的物体是指目标物体至少具有两个表面是左右对称的或者近似左右对称的。比如一只鞋子以人穿上站立时的朝向为前方，人的右手边为右面，人的左手边为左面。则一只鞋子的上表面的左侧面和右侧面可以近似作为两个左右对称面。

以鞋子作为目标物体为例，假设拍摄策略信息是：通过彩色相机（手机或专业相机）或RGBD相机根据提前设定好的拍摄策略信息，采集鞋子RGB图像或者对齐的RGBD图像，可以使用相机围着鞋子拍摄，也可以将鞋子放置在可以转动的转盘上面，假设对鞋子拍摄四圈，每隔5度一周拍摄72张待处理图像，分别得到如图5至图8所示的图像。

由于鞋子及其类似的类别物体，虽然不是完全左右对称的物体，但是这种对称物体也会导致现有方法的失败。所以为了使得对称面不进行匹配，鞋子的拍摄策略信息对应的图像匹配策略，具体可以表现为一个n*n的匹配矩阵M，n为拍摄图像的总个数（n为正整数），M[i,j]=1表示第i张图像和第j张图像进行匹配，M[i,j]=0表示第i张图像和第j张图像不进行匹配。具体图像匹配过程如下：

如图10所示为鞋子正立平视与右侧平视之间的相互匹配，根据图像特征，将多个第一圈图像（即第1圈）中暴露表面为鞋子的右侧表面的36张图像（虚线圈出以及箭头指示的部分）与72张第二圈图像（即第2圈）分别进行图像匹配。

如图11所示为鞋子正立平视与右侧俯视之间的相互匹配，还可以根据图像特征，将多个第一圈图像（即第1圈）中暴露表面为鞋子的右侧表面的36张图像（虚线圈出以及箭头指示的部分）与72第三圈图像（即第3圈）分别进行图像匹配。

如图12所示为鞋子正立平视与左侧俯视之间的相互匹配，即还可以根据图像特征，将多个第一圈图像（即第1圈）中暴露表面为鞋子的左侧表面的36张图像（虚线圈出以及箭头指示的部分）与72张第四圈图像（即第4圈）分别进行图像匹配。

如图13所示为鞋子右侧平视与右侧俯视之间的相互匹配，即还可以根据图像特征，将72张第二圈图像（即第2圈）和72张第三圈图像（即第3圈）逐张进行匹配，箭头指示为相互匹配的图像对。

然后还可以对每圈图像进行临近循环匹配或者穷尽匹配，如图14所示，为72张第一圈图像进行临近循环匹配的示意图，连线指示相互匹配的图像对。

上述匹配流程可以配置在鞋子的拍摄策略信息对应的图像匹配策略中，以匹配矩阵的方式呈现，在图像匹配阶段，可以直接根据匹配矩阵，对需要匹配的图像对进行图像匹配，图像匹配方法可以选择传统方法或者深度学习匹配网络法，也可以重新训练网络结构进行图像匹配。例如使用superglue（一种特征匹配网络，它的输入是2张图像中的特征点以及描述子，输出是图像特征点之间的匹配关系）进行图像匹配。或者使用depth数据（景深数据）利用ICP（Iterative Closest Point，最近点搜索法）进行匹配。本实施例不做限定。

步骤305：根据图像匹配结果，生成目标物体对应的相机位姿信息。

在本步骤中，图像匹配完成后，可以基于图像匹配结果采用相应的方式生成目标物体对应的相机位姿信息，由于图像匹配结果更加准确，因此最终能够得到的相机位姿信息也会更加准确。

于一实施例中，步骤305具体可以包括：根据图像匹配结果，对目标物体进行稀疏重建，生成目标物体对应的相机位姿信息。

在本实施例中，可以基于图像匹配结果对目标物体进行稀疏重建，比如可以利用Triangulation（三角化特征点方法）和/或Bundle Adjustment（光束法平差）等方式对目标物体进行稀疏重建过程，可以获得目标物体的初始稀疏点云、相机内参和相机位姿信息等信息，图像匹配过程滤除了目标物体的相似表面，减少相似表面对相机位姿的不良影响。

上述图像处理方法，首先获取目标物体在不同视角下的待处理图像和对应的拍摄策略，根据拍摄策略确定对应的图像匹配策略，图像匹配策略指示了不能进行图像匹配的冗余图像对，保证物体上相似面的图像之间不参与图像匹配，然后根据提取到的图像特征，对剩余图像对之间进行基于图像特征的图像匹配，根据匹配结果获得对应的相机位姿信息。如此，通过预先配置拍摄策略与图像匹配策略，预先标记哪些冗余图像对不进行匹配，进而大大减少容易造成混淆的相似面参与匹配，减少对称面、重复纹理面带来的相机位姿估计失败的问题，提高位姿信息的准确性。

另一方面，本申请实施例输入可以是RGB图像，可以没有Depth图像，另外对于不同形状或者可以在不同视角放置的物体可以设定不同的拍摄方案，如此就可以设定不同的图像匹配策略，进而实现可以批量处理相同拍摄方案的物体图像，提高图像处理效率。

请参看图15其为本申请一实施例的图像处理方法，该方法可由图1所示的电子设备1来执行，并可以应用于图2所示的图像处理系统的应用场景中，以实现减少相似面带来的相机位姿估计失败的问题，提高位姿信息的准确性。本实施例以终端220为执行端为例，与前述实施例相比，本实施例还包括对目标物体进行三维重建的过程，该方法包括如下步骤：

步骤901：获取目标物体在不同视角下的多个待处理图像，确定多个待处理图像对应的拍摄策略信息。详细过程可以参阅前述实施例中对步骤301的描述。

步骤902：对各个待处理图像进行物体分割，生成各个待处理图像中目标物体的掩膜图像，掩膜图像用于表征目标物体在待处理图像中的区域。详细过程可以参阅前述实施例中对步骤302的描述。

步骤903：根据各个待处理图像和对应的掩膜图像，提取各个待处理图像中目标物体的图像特征。详细过程可以参阅前述实施例中对步骤302的描述。

步骤904：从数据库中获取拍摄策略信息对应的预设图像匹配策略，将预设图像匹配策略作为多个待处理图像对应的图像匹配策略。详细过程可以参阅前述实施例中对步骤303的描述。

步骤905：根据图像特征和图像匹配策略，对多个待处理图像中除去冗余图像对以外的剩余图像对进行图像匹配处理过程。详细过程可以参阅前述实施例中对步骤304的描述。

步骤906：根据图像匹配结果，对目标物体进行稀疏重建，生成目标物体对应的相机位姿信息。详细过程可以参阅前述实施例中对步骤305的描述。

步骤907：获取稀疏重建过程生成的目标物体的初始稀疏点云、各个待处理图像对应的相机内参，获取各个待处理图像中目标物体的掩膜图像。

在本步骤中，经过步骤906中的稀疏重建过程，可以获得目标物体的初始稀疏点云、各个待处理图像对应的相机内参。经过步骤902中物体分割处理，可以获得各个待处理图像中目标物体的掩膜图像，掩膜图像用于表征目标物体在待处理图像中的区域。初始稀疏点云可能存在噪声干扰，为了进一步提高目标物体稀疏点云的精确度，可以进一步对初始稀疏点云进行后处理。

步骤908：根据相机位姿信息，将初始稀疏点云投影到对应的待处理图像上，生成投影后图像。

在本步骤中，对初始稀疏点云进行后处理的过程主要是：使用步骤906中得到的相机位姿信息，将初始稀疏点云投影到对应的待处理图像上，得到投影后图像。

步骤909：根据掩膜图像和投影后图像，除去初始稀疏点云中不在目标物体上的冗余点云，生成目标物体的最终稀疏点云。

在本步骤中，根据目标物体的分割mask（掩膜图像）和投影后图像，可以确定哪些点云在目标物体上，哪些点云不在目标物体上，不在目标物体上的点云可能是噪声点云或者其他物体的点云，不能表征目标物体的特征，因此属于冗余点云，去除投影后不在目标物体上的冗余点云，以提高目标物体的最终稀疏点云的精确度。

步骤910：根据相机内参中的畸变参数对各个待处理图像进行去畸变处理，生成处理后图像。

在本步骤中，最后可以使用稀疏重建过程中估计出的相机内参中的畸变参数对待处理图像进行去畸变处理，得到处理后图像，图处理后图像经过去畸变处理，可以更加准确的表征目标物体在实际场景中的位置信息，为后续三维重建过程提供更加精确的数据。

于一实施例中，如果待处理图像是深度图像，可以根据深度图像将目标物体的相机位姿信息和稀疏点云的尺度调整到实际物理大小，进一步提高数据精度。

步骤911：根据相机位姿信息、相机内参、最终稀疏点云和处理后图像，对目标物体进行三维重建，生成目标物体的三维虚拟模型。

在本步骤中，经过上述步骤907至步骤910，可以得到目标物体对应的相机位姿信息、最终稀疏点云和相机内参，如图16所示，是以鞋子为目标物体为例的场景中，根据图4至图8对应的拍摄方案和图10到图14对应的图像匹配策略进行姿态估计，获得的稀疏点云（世界坐标系下）、相机内参（相机坐标系下）和相机位姿（R，t）之间的对照示意图，其中R表示相机的旋转矩阵，t表示相机的平移向量。可以基于上述数据对鞋子进行三维重建，生成鞋子的三维虚拟模型，并可以将鞋子的三维虚拟模型投放到电商购物平台中，以供买家用户查看试穿，提高用户的交互体验。

上述图像处理方法，通过预设拍摄方案获取目标物体的多张RGB图像或RGBD图像，然后进行物体分割，提取物体上的特征，然后根据拍摄方法预设的图像匹配策略进行物体特征匹配，然后进行稀疏重建获得相机内参，相机位姿及物体稀疏点云，为了服务于物体的3D重建，还可以进行稀疏点云后处理，如去噪声，图像去畸变等后处理，从而用于3D物体重建。从根本上解决物体对称性及重复纹理造成的位姿估计失败的问题，从而提高物体3D重建的成功率，为高精度需求的应用提供更多的可能。

本申请实施例，可以应用场景包含但不限于AR增强现实、物体3D交互显示、物体3D模型编辑等，可以提高物体三维重建的成功率，提高用户的交互体验。

请参看图17，其为本申请一实施例的图像处理方法，该方法可由图1所示的电子设备1来执行，并可以应用于图2所示的图像处理系统的应用场景中，以实现减少相似面带来的相机位姿估计失败的问题，提高位姿信息的准确性。本实施例以终端220为执行端为例，以用户使用电商购物平台进行商品三维虚拟模型重建的场景为例，该方法包括如下步骤：

步骤1701：响应于用户对目标商品的拍摄操作，在交互界面展示目标商品对应的拍摄策略信息，获取用户按照拍摄策略信息对目标商品拍摄得到的多个待处理图像。详细过程可以参阅前述实施例中对步骤301的描述。

步骤1702：分别提取各个待处理图像中目标商品的图像特征。详细过程可以参阅前述实施例中对步骤302的描述。

步骤1703：根据拍摄策略信息确定多个待处理图像对应的图像匹配策略，图像匹配策略用于指示多个待处理图像中不需要进行图像匹配的冗余图像对，冗余图像对中目标物体的暴露表面之间的相似度大于预设阈值。详细过程可以参阅前述实施例中对步骤303的描述。

步骤1704：根据图像特征和图像匹配策略，对多个待处理图像中除去冗余图像对以外的剩余图像对进行图像匹配处理过程。详细过程可以参阅前述实施例中对步骤304的描述。

步骤1705：根据图像匹配结果，对目标商品进行稀疏重建，生成目标商品对应的相机位姿信息和稀疏点云。详细过程可以参阅前述实施例中对步骤305以及步骤907至步骤910的描述。

步骤1706：根据相机位姿信息和稀疏点云对目标商品进行三维重建，生成目标商品的三维虚拟模型。详细过程可以参阅前述实施例中对步骤911的描述。

上述图像处理方法，可以为电商购物平台的用户提供商品三维模型重建的入口，使得卖家用户可以灵活选择进行三维重建的商品类型，提高三维重建的自由度，协助卖家用户更好进行商品三维交互展示。另一方面高精度的三维商品模型，也给浏览商品的用户更加真实的浏览体验，提高终端的交互性能，提高用户的交互体验。

请参看图18，其为本申请一实施例的图像处理装置1800，该装置可由图1所示的电子设备1来执行，并可以应用于图2所示的图像处理系统的应用场景中，以实现减少相似面带来的相机位姿估计失败的问题，提高位姿信息的准确性。该装置包括：第一获取模块1801、提取模块1802、确定模块1803、匹配模块1804和生成模块1805，各个模块的原理关系如下：

第一获取模块1801，用于获取目标物体在不同视角下的多个待处理图像，确定多个待处理图像对应的拍摄策略信息。

提取模块1802，用于分别提取各个待处理图像中目标物体的图像特征。

确定模块1803，用于根据拍摄策略信息确定多个待处理图像对应的图像匹配策略，图像匹配策略用于指示多个待处理图像中不需要进行图像匹配的冗余图像对，冗余图像对中目标物体的暴露表面之间的相似度大于预设阈值。

匹配模块1804，用于根据图像特征和图像匹配策略，对多个待处理图像中除去冗余图像对以外的剩余图像对进行图像匹配处理过程。

生成模块1805，用于根据图像匹配结果，生成目标物体对应的相机位姿信息。

于一实施例中，第一获取模块1801，用于确定被拍摄的目标物体和目标物体对应的拍摄策略信息。控制预设相机按照拍摄策略信息在不同视角下对目标物体进行拍摄，得到多个待处理图像。

于一实施例中，第一获取模块1801，用于响应于用户对目标物体的确认指令，确定被拍摄的目标物体和目标物体对应的拍摄策略信息，拍摄策略信息用于引导用户在不同视角下对目标物体进行拍摄。响应于用户对相机的开启操作，在交互界面展示拍摄策略信息对应的引导信息。响应于用户的拍摄操作，获取用户按照引导信息对目标物体拍摄得到的多个待处理图像。

于一实施例中，提取模块1802，用于对各个待处理图像进行物体分割，生成各个待处理图像中目标物体的掩膜图像，掩膜图像用于表征目标物体在待处理图像中的区域。根据各个待处理图像和对应的掩膜图像，提取各个待处理图像中目标物体的图像特征。

于一实施例中，提取模块1802，具体用于分别将各个待处理图像输入预设特征提取网络，输出各个待处理图像对应的特征图。将各个待处理图像对应的特征图与对应的掩膜图像相乘，生成各个待处理图像中目标物体的图像特征。

于一实施例中，确定模块1803，用于从数据库中获取拍摄策略信息对应的预设图像匹配策略，将预设图像匹配策略作为多个待处理图像对应的图像匹配策略，数据库中包括预设的多个拍摄策略信息和每个拍摄策略信息对应的图像匹配策略。

于一实施例中，拍摄策略信息包括：使相机在不同视角下围绕目标物体的不同表面拍摄一周，其中，每隔预设角度对目标物体拍摄一张图像。

于一实施例中，目标物体为具有左右对称面的物体。拍摄策略信息包括：使相机在平视视角下围绕目标物体的正立表面拍摄一周，其中，每隔预设角度对目标物体拍摄一张图像，得到目标物体的多个第一圈图像。

和/或使相机在平视视角下围绕目标物体的右侧表面拍摄一周，其中，每隔预设角度对目标物体拍摄一张图像，得到目标物体的多个第二圈图像。

和/或使相机在俯视视角下围绕目标物体的右侧表面拍摄一周，其中，每隔预设角度对目标物体拍摄一张图像，得到目标物体的多个第三圈图像。

和/或使相机在俯视视角下围绕目标物体的左侧表面拍摄一周，其中，每隔预设角度对目标物体拍摄一张图像，得到目标物体的多个第四圈图像。

于一实施例中，冗余图像对的两个图像中目标物体的暴露表面为左右对称面。匹配模块1804，用于根据图像特征，将多个第一圈图像中暴露表面为目标物体的右侧表面的图像与多个第二圈图像和/或多个第三圈图像分别进行图像匹配。

和/或，根据图像特征，将多个第一圈图像中暴露表面为目标物体的左侧表面的图像与多个第四圈图像分别进行图像匹配。

和/或，根据图像特征，将多个第二圈图像与多个第三圈图像逐个进行图像匹配。

和/或，根据图像特征，对于多个第一圈图像、多个第二圈图像、多个第三圈图像和多个第四圈图像，每圈图像各自进行相邻循环匹配。

于一实施例中，图像匹配策略还用于指示需要进行图像匹配的目标图像对。匹配模块1804，用于根据图像特征，对剩余图像对中的目标图像对进行图像匹配处理过程。

于一实施例中，根据图像匹配结果，生成目标物体对应的相机位姿信息，包括：根据图像匹配结果，对目标物体进行稀疏重建，生成目标物体对应的相机位姿信息。

于一实施例中，还包括：

第二获取模块，用于在根据图像匹配结果，对目标物体进行稀疏重建，生成目标物体的相机位姿信息之后，获取稀疏重建过程生成的目标物体的初始稀疏点云、各个待处理图像对应的相机内参，获取各个待处理图像中目标物体的掩膜图像，掩膜图像用于表征目标物体在待处理图像中的区域。

投影模块，用于根据相机位姿信息，将初始稀疏点云投影到对应的待处理图像上，生成投影后图像。

去除模块，用于根据掩膜图像和投影后图像，除去初始稀疏点云中不在目标物体上的冗余点云，生成目标物体的最终稀疏点云。

和/或畸变处理模块，用于根据相机内参中的畸变参数对各个待处理图像进行去畸变处理，生成处理后图像。

重建模块，用于根据相机位姿信息、相机内参、最终稀疏点云和处理后图像，对目标物体进行三维重建，生成目标物体的三维虚拟模型。

上述图像处理装置1800的详细描述，请参见上述实施例中相关方法步骤的描述，其实现原理和技术效果类似，本实施例此处不再赘述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当处理器执行计算机执行指令时，实现前述任一实施例的方法。

本申请实施例还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现前述任一实施例的方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器执行本申请各个实施例方法的部分步骤。

应理解，上述处理器可以是中央处理单元（Central Processing Unit，简称CPU），还可以是其它通用处理器、数字信号处理器（Digital Signal Processor，简称DSP）、专用集成电路（Application Specific Integrated Circuit，简称ASIC）等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本申请各个实施例的方法。

本申请的技术方案中，所涉及的用户数据等信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取目标物体在不同视角下的多个待处理图像，确定所述多个待处理图像对应的拍摄策略信息；

分别提取各个待处理图像中所述目标物体的图像特征；

根据所述拍摄策略信息确定所述多个待处理图像对应的图像匹配策略，所述图像匹配策略用于指示所述多个待处理图像中的冗余图像对，所述冗余图像对中所述目标物体的暴露表面之间的相似度大于预设阈值；

根据所述图像特征和所述图像匹配策略，对所述多个待处理图像中除去所述冗余图像对以外的剩余图像对进行图像匹配处理过程；

根据图像匹配结果，生成所述目标物体对应的相机位姿信息。

2.根据权利要求1所述的方法，其特征在于，所述获取目标物体在不同视角下的多个待处理图像，确定所述多个待处理图像对应的拍摄策略信息，包括：

确定被拍摄的目标物体和所述目标物体对应的拍摄策略信息；

控制预设相机按照所述拍摄策略信息在不同视角下对所述目标物体进行拍摄，得到所述多个待处理图像。

3.根据权利要求1所述的方法，其特征在于，所述获取目标物体在不同视角下的多个待处理图像，确定所述多个待处理图像对应的拍摄策略信息，包括：

响应于用户对目标物体的确认指令，确定被拍摄的目标物体和所述目标物体对应的拍摄策略信息，所述拍摄策略信息用于引导用户在不同视角下对所述目标物体进行拍摄；

响应于所述用户对相机的开启操作，在交互界面展示所述拍摄策略信息对应的引导信息；

响应于所述用户的拍摄操作，获取所述用户按照所述引导信息对所述目标物体拍摄得到的所述多个待处理图像。

4.根据权利要求1所述的方法，其特征在于，所述分别提取所述各个待处理图像中所述目标物体的图像特征，包括：

对所述各个待处理图像进行物体分割，生成所述各个待处理图像中所述目标物体的掩膜图像，所述掩膜图像用于表征所述目标物体在所述待处理图像中的区域；

根据所述各个待处理图像和对应的所述掩膜图像，提取所述各个待处理图像中所述目标物体的图像特征。

5.根据权利要求4所述的方法，其特征在于，所述根据所述各个待处理图像和对应的所述掩膜图像，提取所述各个待处理图像中所述目标物体的图像特征，包括：

分别将所述各个待处理图像输入预设特征提取网络，输出所述各个待处理图像对应的特征图；

将所述各个待处理图像对应的特征图与对应的掩膜图像相乘，生成所述各个待处理图像中所述目标物体的图像特征。

6.根据权利要求1所述的方法，其特征在于，所述根据所述拍摄策略信息确定所述多个待处理图像对应的图像匹配策略，包括：

从数据库中获取所述拍摄策略信息对应的预设图像匹配策略，将所述预设图像匹配策略作为所述多个待处理图像对应的图像匹配策略，所述数据库中包括预设的多个拍摄策略信息和每个所述拍摄策略信息对应的图像匹配策略。

7.根据权利要求1所述的方法，其特征在于，所述冗余图像对中为所述目标物体的暴露表面为对称面或者重复纹理面。

8.根据权利要求1所述的方法，其特征在于，所述拍摄策略信息包括：使相机在不同视角下围绕所述目标物体的不同表面拍摄一周，其中，每隔预设角度对所述目标物体拍摄一张图像。

9.根据权利要求8所述的方法，其特征在于，所述目标物体为具有左右对称面的物体；所述拍摄策略信息包括：

使相机在平视视角下围绕所述目标物体的正立表面拍摄一周，其中，每隔所述预设角度对所述目标物体拍摄一张图像，得到所述目标物体的多个第一圈图像；

10.根据权利要求9所述的方法，其特征在于，所述冗余图像对的两个图像中所述目标物体的暴露表面为左右对称面；所述根据所述图像特征和所述图像匹配策略，对所述多个待处理图像中剩余图像对进行图像匹配处理过程，包括：

根据所述图像特征，将所述多个第一圈图像中暴露表面为所述目标物体的右侧表面的图像与所述多个第二圈图像和/或所述多个第三圈图像分别进行图像匹配；

11.根据权利要求1所述的方法，其特征在于，所述图像匹配策略还用于指示需要进行图像匹配的目标图像对；

所述根据所述图像特征和所述图像匹配策略，对所述多个待处理图像中除去所述冗余图像对以外的剩余图像对进行图像匹配处理过程，包括：

根据所述图像特征，对所述剩余图像对中的所述目标图像对进行图像匹配处理过程。

12.根据权利要求1所述的方法，其特征在于，所述根据图像匹配结果，生成所述目标物体对应的相机位姿信息，包括：

根据图像匹配结果，对所述目标物体进行稀疏重建，生成所述目标物体对应的相机位姿信息。

13.根据权利要求12所述的方法，其特征在于，在所述根据图像匹配结果，对所述目标物体进行稀疏重建，生成所述目标物体的相机位姿信息之后，还包括：

获取所述稀疏重建过程生成的所述目标物体的初始稀疏点云、所述各个待处理图像对应的相机内参，获取所述各个待处理图像中目标物体的掩膜图像，所述掩膜图像用于表征所述目标物体在所述待处理图像中的区域；

根据所述相机位姿信息，将所述初始稀疏点云投影到对应的待处理图像上，生成投影后图像；

根据所述掩膜图像和所述投影后图像，除去所述初始稀疏点云中不在所述目标物体上的冗余点云，生成所述目标物体的最终稀疏点云；

和/或，根据所述相机内参中的畸变参数对所述各个待处理图像进行去畸变处理，生成处理后图像；

根据所述相机位姿信息、所述相机内参、所述最终稀疏点云和所述处理后图像，对所述目标物体进行三维重建，生成所述目标物体的三维虚拟模型。

14.一种图像处理方法，其特征在于，包括：

响应于用户对目标商品的拍摄操作，在交互界面展示所述目标商品对应的拍摄策略信息，获取所述用户按照所述拍摄策略信息对所述目标商品拍摄得到的多个待处理图像；

分别提取各个待处理图像中所述目标商品的图像特征；

根据图像匹配结果，对所述目标商品进行稀疏重建，生成所述目标商品对应的相机位姿信息和稀疏点云；

根据所述相机位姿信息和稀疏点云对所述目标商品进行三维重建，生成所述目标商品的三维虚拟模型。

15.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述电子设备执行权利要求1-14任一项所述的方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1-14任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-14任一项所述的方法。