CN116071551A

CN116071551A - 图像处理方法、计算机可读存储介质及电子设备

Info

Publication number: CN116071551A
Application number: CN202310141178.7A
Authority: CN
Inventors: 冯梦阳
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-11-18
Filing date: 2023-02-08
Publication date: 2023-05-05

Abstract

本申请公开了一种图像处理方法、计算机可读存储介质及电子设备。该方法应用于图像分割领域，包括：获取待识别图像；对待识别图像中的至少一个实体对象的表面进行目标检测，得到至少一个实体对象的表面的表面图像；对表面图像执行图像特征提取，得到表面图像的图像特征；基于表面图像的图像特征对待识别图像进行语义分割，得到至少一个实体对象的表面的语义分割结果。本申请解决了相关技术中平面估计算法无法得到平面的语义信息，导致图像分割的准确度较低的问题。

Description

图像处理方法、计算机可读存储介质及电子设备

技术领域

本申请涉及图像处理领域，具体而言，涉及一种图像处理方法、计算机可读存储介质及电子设备。

背景技术

平面估计算法的任务是对图像进行三维几何结构分析，并提取出图像中的平面区域和平面参数，此处的平面可以是指图像中包含的物体的表面，例如，桌面、墙面、地面等。该任务是场景理解、场景重建、3D(3Dimensions，三维)融合渲染等流程的关键，在互动娱乐、自动驾驶、智能家居、AR(Augmented Reality，增强现实)旅游等行业领域有着极强的AI赋能角色。

目前的平面估计算法都是采用实例分割和深度估计相结合的多任务训练方案，可以分别预测平面参数和平面分割掩膜及场景深度图，但是无法得到平面的语义信息，导致在对图像进行图像分割的过程中，无法准确分割出不同物体的表面，图像分割的准确度较低。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种图像处理方法、计算机可读存储介质及电子设备，以至少解决相关技术中平面估计算法无法得到平面的语义信息，导致图像分割的准确度较低的技术问题。

根据本申请实施例的一个方面，提供了一种图像处理方法，包括：获取待识别图像，其中，待识别图像包含至少一个实体对象的表面；对待识别图像中的至少一个实体对象的表面进行目标检测，得到至少一个实体对象的表面的表面图像；对表面图像执行图像特征提取，得到表面图像的图像特征；基于表面图像的图像特征对待识别图像进行语义分割，得到至少一个实体对象的表面的语义分割结果；其中，语义分割结果包括：至少一个实体对象的类别、至少一个实体对象的表面在待识别图像中所处的区域、至少一个实体对象的表面的平面参数、以及待识别图像中的每个像素是否归属于至少一个实体对象的表面。

根据本申请实施例的另一方面，还提供了一种图像处理方法，包括：响应作用于操作界面上的输入指令，在操作界面上显示待识别图像，其中，待识别图像中包含至少一个实体对象的表面；响应作用于操作界面上的实例分割指令，在操作界面上显示至少一个实体对象的表面的语义分割结果，其中，语义分割结果基于至少一个实体对象的表面的表面图像的图像特征对待识别图像进行语义分割得到，语义分割结果包括：至少一个实体对象的类别、至少一个实体对象的表面在待识别图像中所处的区域、至少一个实体对象的表面的平面参数、以及待识别图像中的每个像素是否归属于至少一个实体对象的表面，表面图像通过对待识别图像中的至少一个实体对象的表面进行目标检测得到，表面图像的图像特征通过对表面图像执行图像特征提取得到。

根据本申请实施例的另一方面，还提供了一种图像处理方法，包括：在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待识别图像，其中，待识别图像中包含至少一个实体对象的表面；对待识别图像中的至少一个实体对象的表面进行目标检测，得到中的至少一个实体对象的表面的表面图像；对表面图像执行图像特征提取，得到表面图像的图像特征；基于表面图像的图像特征对待识别图像进行语义分割，得到至少一个实体对象的表面的语义分割结果，其中，语义分割结果包括：至少一个实体对象的类别、至少一个实体对象的表面在待识别图像中所处的区域、至少一个实体对象的表面的平面参数、以及待识别图像中的每个像素是否归属于至少一个实体对象的表面；驱动VR设备或AR设备展示至少一个实体对象的表面的语义分割结果。

根据本申请实施例的另一方面，还提供了一种图像处理方法，包括：通过调用第一接口获取待识别图像，其中，第一接口包括第一参数，第一参数的参数值为待识别图像，待识别图像中包含至少一个实体对象的表面；对待识别图像中的至少一个实体对象的表面进行目标检测，得到至少一个实体对象的表面的表面图像；对表面图像执行图像特征提取，得到表面图像的图像特征；基于表面图像的图像特征对待识别图像进行语义分割，得到至少一个实体对象的表面的语义分割结果，其中，语义分割结果包括：至少一个实体对象的类别、至少一个实体对象的表面在待识别图像中所处的区域、至少一个实体对象的表面的平面参数、以及待识别图像中的每个像素是否归属于至少一个实体对象的表面；通过调用第二接口输出至少一个实体对象的表面的语义分割结果，其中，第二接口包括第二参数，第二参数的参数值为至少一个实体对象的表面的语义分割结果。

根据本申请实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，在程序运行时控制计算机可读存储介质所在设备执行上述任意一项的方法。

根据本申请实施例的另一方面，还提供了一种电子设备，包括：存储器，存储有可执行程序；处理器，用于运行程序，其中，程序运行时执行上述任意一项的方法。

在本申请实施例中，在获取到包含至少一个实体对象的表面的待识别图像之后，首先对待识别图像中的至少一个实体对象的表面进行目标检测，得到至少一个实体对象的表面的表面图像，然后对表面图像执行图像特征提取，得到表面图像的图像特征，进一步基于表面图像的图像特征对待识别图像进行语义分割，得到至少一个实体对象的表面的语义分割结果，实现平面语义分割及参数估计的目的。容易注意到的是，本申请实施例在对待识别图像进行处理时，不仅能够对待识别图像中的至少一个实体对象的表面进行目标检测，还能够基于不同表面图像的图像特征对待识别图像进行语义分割，从而实现了能够同时得到平面参数、平面分割掩膜和语义信息的技术效果，以及实现了能够准确分割出不同物体的表面的技术效果，进而解决了相关技术中平面估计算法无法得到平面的语义信息，导致图像分割的准确度较低的技术问题，进一步地，在3D融合渲染场景中，基于语义分割结果可以快速、准确地确定待识别图像中的背景图像，实现了低成本的背景图像和虚拟对象的智能化识别，达到了降低3D融合成本的效果。

容易注意到的是，上面的通用描述和后面的详细描述仅仅是为了对本申请进行举例和解释，并不构成对本申请的限定。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种图像处理方法的虚拟现实设备的硬件环境的示意图；

图2是根据本申请实施例的一种图像处理方法的计算环境的结构框图；

图3是根据本申请实施例1的一种图像处理方法的流程图；

图4是根据本申请实施例的一种可选的交互界面的示意图；

图5是根据本申请实施例的一种可选的对图像进行处理的示意图；

图6是根据本申请实施例的另一种可选的对图像进行处理的示意图；

图7是根据本申请实施例的一种可选的图像处理方法的示意图；

图8是根据本申请实施例2的一种图像处理方法的流程图；

图9是根据本申请实施例3的一种图像处理方法的流程图；

图10是根据本申请实施例4的一种图像处理方法的流程图；

图11是根据本申请实施例的一种图像处理装置的示意图；

图12是根据本申请实施例的一种图像处理装置的示意图；

图13是根据本申请实施例的一种图像处理装置的示意图；

图14是根据本申请实施例的一种图像处理装置的示意图；

图15是根据本申请实施例的一种AR/VR设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

掩膜：与原图大小相同的图像，标记了每个像素属于前景或背景。

实例分割：分割出图像中的目标实例区域，如桌子、椅子。

编码网络：深度学习领域的一种提取图像深层特征的神经网络结构。

候选区域网络(Region Proposal Network，RPN)：深度学习目标检测领域中的一种提取候选框的神经网络结构。

本申请提供了一种图像处理方法，可以在对平面参数进行参数估计的同时实现平面语义分割。

实施例1

根据本申请实施例，提供了一种图像处理方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请实施例的一种图像处理方法的虚拟现实设备的硬件环境的示意图。如图1所示，虚拟现实设备104与终端106相连接，终端106与服务器102通过网络进行连接，上述虚拟现实设备104并不限定于：虚拟现实头盔、虚拟现实眼镜、虚拟现实一体机等，上述终端104并不限定于PC、手机、平板电脑等，服务器102可以为媒体文件运营商对应的服务器，上述网络包括但不限于：广域网、城域网或局域网。

可选地，该实施例的虚拟现实设备104包括：存储器、处理器和传输装置。存储器用于存储应用程序，该应用程序可以用于执行：获取待识别图像；对待识别图像中的至少一个实体对象的表面进行目标检测，得到至少一个实体对象的表面的表面图像；对表面图像执行图像特征提取，得到表面图像的图像特征；基于表面图像的图像特征对待识别图像进行语义分割，得到至少一个实体对象的表面的语义分割结果，从而解决了相关技术中平面估计算法无法得到平面的语义信息，导致图像分割的准确度较低的技术问题，达到了能够得到表面图像的语义分割结果的目的。

该实施例的终端可以用于执行在虚拟现实(Virtual Reality，简称为VR)设备或增强现实AR设备的呈现画面上展示待识别图像，其中，待识别图像中包含至少一个实体对象的表面；对待识别图像中的至少一个实体对象的表面进行目标检测，得到至少一个实体对象的表面的表面图像；对表面图像执行图像特征提取，得到表面图像的图像特征；基于表面图像的图像特征对待识别图像进行语义分割，得到至少一个实体对象的表面的语义分割结果，其中，语义分割结果包括：至少一个实体对象的类别、至少一个实体对象的表面在待识别图像中所处的区域、至少一个实体对象的表面的平面参数、以及待识别图像中的每个像素是否归属于至少一个实体对象的表面；驱动VR设备或AR设备展示至少一个实体对象的表面的语义分割结果。

可选地，该实施例的虚拟现实设备104带有的眼球追踪的HMD(Head MountDisplay，头戴式显示器)头显与眼球追踪模块与上述实施例中的作用相同，也即，HMD头显中的屏幕，用于显示实时的画面，HMD中的眼球追踪模块，用于获取用户眼球的实时运动轨迹。该实施例的终端通过跟踪系统获取用户在真实三维空间的位置信息与运动信息，并计算出用户头部在虚拟三维空间中的三维坐标，以及用户在虚拟三维空间中的视野朝向。

图1示出的硬件结构框图，不仅可以作为上述AR/VR设备(或移动设备)的示例性框图，还可以作为上述服务器的示例性框图，一种可选实施例中，图2以框图示出了使用上述图1所示的AR/VR设备(或移动设备)作为计算环境201中计算节点的一种实施例。图2是根据本申请实施例的一种图像处理方法的计算环境的结构框图，如图2所示，计算环境201包括运行在分布式网络上的多个(图中采用210-1，210-2，…,来示出)计算节点(如服务器)。每个计算节点都包含本地处理和内存资源，终端用户202可以在计算环境201中远程运行应用程序或存储数据。应用程序可以作为计算环境301中的多个服务220-1，220-2，220-3和220-4进行提供，分别代表服务“A”，“D”，“E”和“H”。

终端用户202可以通过客户端上的web浏览器或其他软件应用程序提供和访问服务，在一些实施例中，可以将终端用户202的供应和/或请求提供给入口网关230。入口网关230可以包括一个相应的代理来处理针对服务(计算环境201中提供的一个或多个服务)的供应和/或请求。

服务是根据计算环境201支持的各种虚拟化技术来提供或部署的。在一些实施例中，可以根据基于虚拟机(Virtual Machine，VM)的虚拟化、基于容器的虚拟化和/或类似的方式提供服务。基于虚拟机的虚拟化可以是通过初始化虚拟机来模拟真实的计算机，在不直接接触任何实际硬件资源的情况下执行程序和应用程序。在虚拟机虚拟化机器的同时，根据基于容器的虚拟化，可以启动容器来虚拟化整个操作系统(Operating System，OS)，以便多个工作负载可以在单个操作系统实例上运行。

在基于容器虚拟化的一个实施例中，服务的若干容器可以被组装成一个Pod(例如，Kubernetes Pod)。举例来说，如图2所示，服务220-2可以配备一个或多个Pod 240-1，240-2，…，240-N(统称为Pod)。每个Pod可以包括代理245和一个或多个容器242-1，242-2，…，242-M(统称为容器)。Pod中一个或多个容器处理与服务的一个或多个相应功能相关的请求，代理245通常控制与服务相关的网络功能，如路由、负载均衡等。其他服务也可以为类似于Pod的Pod。

在操作过程中，执行来自终端用户202的用户请求可能需要调用计算环境201中的一个或多个服务，执行一个服务的一个或多个功能需要调用另一个服务的一个或多个功能。如图2所示，服务“A”220-1从入口网关230接收终端用户202的用户请求，服务“A”220-1可以调用服务“D”220-2，服务“D”220-2可以请求服务“E”220-3执行一个或多个功能。

上述的计算环境可以是云计算环境，资源的分配由云服务提供上管理，允许功能的开发无需考虑实现、调整或扩展服务器。该计算环境允许开发人员在不构建或维护复杂基础设施的情况下执行响应事件的代码。服务可以被分割完成一组可以自动独立伸缩的功能，而不是扩展单个硬件设备来处理潜在的负载。

在上述运行环境下，本申请提供了如图3所示的图像处理方法。需要说明的是，该实施例的图像处理方法可以由图1所示实施例的虚拟现实设备或增强现实设备执行。图3是根据本申请实施例1的一种图像处理方法的流程图。如图3所示，该方法可以包括如下步骤：

步骤S302，获取待识别图像，其中，待识别图像包含至少一个实体对象的表面。

上述的待识别图像可以是包含一个或多个实体对象的表面的三通道图像，此处的实体对象可以是真实环境中的物品，例如，桌子、椅子、冰箱、墙、地板、灯具、餐具、被子、袋子等，实体对象的表面可以是物品表面，例如，可以是桌子的桌面、椅子的背面、椅子的椅面、冰箱的正面、墙面、地面等平面。

在一种可选的实施例中，可以通过用户的AR设备、VR设备或移动终端自带的摄像头对真实环境进行拍摄，得到待识别图像，并通过AR设备、VR设备或移动终端进行处理。在另一种可选的实施例中，用户的AR设备、VR设备或移动终端可以给用户提供一个交互界面。图4是根据本申请实施例的一种可选的交互界面的示意图。如图4所示，用户可以通过点击“拍摄”按钮对真实环境进行拍摄，得到待识别图像，或者用户可以通过将需要处理的待识别图像拖拽至虚线框内，得到待识别图像，然后用户通过点击“平面实例分割”按钮，AR设备、VR设备或移动终端可以将待识别图像发送至云服务器，由云服务器进行处理。

需要说明的是，上述的移动终端可以包括但不限于：智能手机(包括Android手机和iOS手机)、笔记本电脑、平板电脑、掌上电脑等。

例如，以3D融合渲染场景为例进行说明，用户可以通过VR设备自带的摄像头对用户所在的房间进行拍摄，得到房间图像，该房间内放置有桌子，因此，房间图像中包含有桌面、墙面和地面等三个平面。为了减少VR设备的计算量，VR设备可以将该房间图像上传至云服务器进行处理。

步骤S304，对待识别图像中的至少一个实体对象的表面进行目标检测，得到至少一个实体对象的表面的表面图像。

上述的表面图像可以是经过目标检测后得到的仅包含一个实体对象的表面的图像。

在一种可选的实施例中，为了能够更准确的对待识别图像中的实体对象的表面进行语义分割，可以对待识别图像进行目标检测，得到每个实体对象的表面对应的候选框，也即，得到至少一个候选框，此处的候选框用于表征一个实体对象的表面在待识别图像中的位置，然后基于至少一个候选框对待识别图像进行裁剪，以得到每个实体对象的表面的表面图像。在本申请实施例中，可以采用相关技术中提供的目标检测算法对待识别图像中的平面进行检测，例如，可以通过相关技术中提供的RPN网络来提取待识别图像中的候选框，进一步得到每个实体对象的表面的表面图像。

需要说明的是，由于候选框通常为矩形，而实体对象的表面并不一定是矩形，因此，表面图像中不仅包含有该实体对象的表面，还包含有其他内容，但是，其他内容并不会影响语义分割过程。

例如，仍以3D融合渲染场景为例进行说明，云服务器在接收到VR设备上传的房间图像之后，可以对房间图像进行目标检测，得到三个候选框，并通过对三个候选框内的图像进行裁剪，得到桌面图像、墙面图像和地面图像等三个表面图像。

步骤S306，对表面图像执行图像特征提取，得到表面图像的图像特征。

上述的表面图像的图像特征可以是表面图像中实体对象的表面的特征，也即，表面图像对应的候选框的特征，该特征包括但不限于：图像的颜色特征，纹理特征，形状特征和空间关系特征。

在一种可选的实施例中，首先可以通过特征提取网络对整个待识别图像进行特征提取，得到整个待识别图像的图像特征F，其次可以通过上述目标检测过程得到的候选框对该图像特征F进行裁剪和变形(Crop&Warp)操作，进而可以得到表面图像的图像特征R_i。

需要说明的是，上述的特征提取网络可以是相关技术中提供的各种网络，在本申请实施例中，以骨干网络(back bone)为例进行说明，但不仅限于此。

在另一种可选的实施例中，图5是根据本申请实施例的一种可选的对图像进行处理的示意图，如图5所示，可以输入三通道图片(Input image)到一个深度残差网络(Dilated Residual Network，DRN)中对整个待识别图像进行特征提取，得到整个待识别图像的图像特征F，然后通过两个分支：全局池化(Global pooling)预测平面参数(Planeparams)，金字塔池化(Pyramid pooling)通过卷积和条件概率分布模型(CRF)预测平面掩膜(Segmentation masks)和场景深度图(Non-planar depthmap)，即可以得到分片平面深度图(Piece-wise planar depthmap)。

在又一种可选的实施例中，图6是根据本申请实施例的另一种可选的对图像进行处理的示意图，如图6所示，采用结合实例分割(Plane instances)和深度估计(Monoculardepth)的多任务训练方案，应用实例分割算法输出边界矩形框(bounding box，BBox)、平面分割结果(Mask)和平面法向(Normal)，应用深度估计算法输出平面偏移量(offset)，然后通过卷积函数模型(ConvAccu Module)的卷积(Conv)、共享(Shared)以及求和运算，最终得到每个平面实例的分割结果和平面参数(法向+偏移量)，该方案采用视频数据进行训练，通过计算相邻视频帧的3D重建损失和分割变形(warping)损失来提升平面分割和参数估计的准确性。

例如，仍以3D融合渲染场景为例进行说明，云服务器可以对房间图像进行特征提取，得到整个房间图像的图像特征，然后根据三个表面对应的三个候选框在房间图像中的位置，对整个房间图像的图像特征进行裁剪和变形操作，得到桌面图像的桌面特征、墙面图像的墙面特征和地面图像的地面特征。

步骤S308，基于表面图像的图像特征对待识别图像进行语义分割，得到至少一个实体对象的表面的语义分割结果，其中，语义分割结果包括：至少一个实体对象的类别、至少一个实体对象的表面在待识别图像中所处的区域、至少一个实体对象的表面的平面参数、以及待识别图像中的每个像素是否归属于至少一个实体对象的表面。

上述的语义分割结果可以包括：语义信息、平面参数和平面掩膜，其中，语义信息包括：实体对象的类别和实体对象的表面在待识别图像中所处的区域。

上述的实体对象的类别可以是实体对象本身的类型，也即，实体对象的表面的类别，例如，可以是桌子、椅子、凳子、柜子、冰箱等，但不仅限于此。

上述的实体对象的表面在待识别图像中所处的区域可以是该表面对应的候选框在待识别图像中的位置，该位置可以通过候选框的左上角坐标(x，y)以及候选框的宽(width)和高(high)进行表示，此处的左上角坐标可以是候选框的左上角在以待识别图像的左上角为原点建立的坐标系中的坐标，其中，从原点出发向右方向为X轴的正方向，从原点出发向上方向为Y轴的正方向，但不仅限于此，也可以是候选框的其他角的坐标，该坐标系也可以待识别图像的其他位置为原点建立，例如，待识别图像的中心位置作为原点。

上述的平面参数可以是用来构建平面方程的参数，通过平面方程可以确定该平面中每个点的三维坐标，平面参数可以表示为[cosα，cosβ，cosγ，p]，平面方程可以表示为xcosα+y cosβ+z cosγ＝p，但不仅限于此，其中，

上述的待识别图像中的每个像素是否归属于至少一个实体对象的表面可以是实体对象的表面的掩膜(平面掩膜)，与候选框的区别在于是一个像素级别的平面分割，该分割结果构成的形状不再是矩形，与实体对象的表面形状相同。

在一种可选的实施例中，可以基于上述目标检测得到的候选框在待识别图像中的位置，得到该实体对象的表面在待识别图像中所处的区域，然后基于表面图像的图像特征对表面图像进行图像识别，可以得到该实体对象的类别，并且可以基于表面图像的图像特征对表面进行三维几何结构分析，得到该实体对象的表面的平面参数以及该实体对象的表面的掩膜。

在另一种可选的实施例中，可以通过并列执行的三个预测网络，分别为语义预测网络、参数预测网络和掩膜预测网络基于表面图像的图像特征对待识别图像进行语义分割，得到至少一个实体对象的表面的语义分割结果，其中，语义预测网络可以对实体对象的表面进行实例分割，得到实体对象的表面的类别，以及实体对象的表面在待识别图像中的精准位置；参数预测网络可以对实体对象进行三维几何结构分析，预测得到实体对象的表面的平面参数；掩膜预测网络可以对实体对象的表面进行实例分割，得到实体对象的表面的掩膜。

需要说明的是，上述的语义预测网络、参数预测网络和掩膜预测网络可以直接采用相关技术中提供的网络，也可以根据实际需要设定具体网络结构。

在一种可选的实施例中，在用户的AR设备、VR设备或移动终端对待识别图像进行处理，得到待识别图像中所有实体对象的表面的语义分割结果之后，可以显示在显示屏中供用户查看。在另一种可选的实施例中，在云服务器对待识别图像进行处理，得到待识别图像中所有实体对象的表面的语义分割结果之后，可以发送给用户的AR设备、VR设备或移动终端，并显示在用户的AR设备、VR设备或移动终端的显示屏中供用户查看，如图4所示，语义分割结果可以显示在“平面实例分割显示区域”中。

例如，仍以3D融合渲染场景为例进行说明，云服务器可以分别对桌面图像的桌面特征、墙面图像的墙面特征和地面图像的地面特征进行语义分割，得到桌面的语义分割结果、墙面的语义分割结果和地面的语义分割结果，进一步，可以基于三个语义分割结果，确定房间图像中的背景图像(例如，除桌面之外的其他部分的图像)，并将背景图像与虚拟对象进行融合，得到智能化融合结果，并显示给用户查看。

通过上述步骤，获取待识别图像，其中，待识别图像包含至少一个实体对象的表面；对待识别图像中的至少一个实体对象的表面进行目标检测，得到至少一个实体对象的表面的表面图像；对表面图像执行图像特征提取，得到表面图像的图像特征；基于表面图像的图像特征对待识别图像进行语义分割，得到至少一个实体对象的表面的语义分割结果，达到了对图像进行处理时可以同时得到图像的语音信息的技术效果。容易注意到的是，本申请实施例在对待识别图像进行处理时，不仅能够对待识别图像中的至少一个实体对象的表面进行目标检测，还能够基于不同表面图像的图像特征对待识别图像进行语义分割，从而实现了能够同时得到平面参数、平面分割掩膜和语义信息的技术效果，以及实现了能够准确分割出不同物体的表面的技术效果，进而解决了相关技术中平面估计算法无法得到平面的语义信息，导致图像分割的准确度较低的技术问题，进一步地，在3D融合渲染场景中，基于语义分割结果可以快速、准确地确定待识别图像中的背景图像，实现了低成本的背景图像和虚拟对象的智能化识别，达到了降低3D融合成本的效果。

本申请上述实施例中，基于表面图像的图像特征对待识别图像进行语义分割，得到至少一个实体对象的表面的语义分割结果，包括：利用语义预测网络对表面图像的图像特征执行语义分割，得到至少一个实体对象的类别和至少一个实体对象的表面在待识别图像中所处的区域；利用参数预测网络对表面图像的图像特征执行参数预测，得到至少一个实体对象的表面的平面参数；利用掩膜预测网络对表面图像的图像特征执行掩膜预测，得到待识别图像中的每个像素是否归属于至少一个实体对象的表面；其中，语义预测网络、参数预测网络和掩膜预测网络是并行执行的神经网络模型。

本申请上述实施例中，语义预测网络由两个全连接层构成，两个全连接层分别用于输出至少一个实体对象的类别和至少一个实体对象的表面在待识别图像中所处的区域。

本申请上述实施例中，参数预测网络由全连接层构成。

本申请上述实施例中，掩膜预测网络由卷积层构成。

上述的语义预测网络可以是Box Head，参数预测网络可以是Plane Param Head，掩膜预测网络可以是Mask Head，但不仅限于此。

在一种可选的实施例中，语义预测网络Box Head可以由两个全连接层并联构成，但不仅限于此，在本实施例中以两个全连接层为例进行说明。其中，一个全连接层用于输出至少一个实体对象的类别cls，另一个全连接层用于输出至少一个实体对象的表面在待识别图像中所处的区域[x，yww，h]。

在另一种可选的实施例中，参数预测网络Plane Param Head可以由一个全连接层构成，但不仅限于此，在本实施例中以一个全连接层为例进行说明。其中，该全连接层用于预测输出至少一个实体对象的表面的平面参数[cosα，cosβ，cosγ，p]。

在另一种可选的实施例中，掩膜预测网络Mask Head可以由一个激活函数(Sigmoid)的3×3的卷积层构成，需要说明的是，激活函数不仅限于Sigmoid，卷积层不仅限于3×3，在本实施例中以Sigmoid和3×3为例进行说明。其中，卷积层用于输出待识别图像中的每个像素是否归属于至少一个实体对象的表面的结果，即可以得到平面掩膜M。

在另一种可选的实施例中，可以通过Box Head对表面图像的图像特征R_i执行实例分割，得到至少一个实体对象的类别cls，其中，cls∈R^1×C，其中，

表示维度为1×C的实数集，C为常数，具体数值可根据用户需求自行设定；以及至少一个实体对象的表面在待识别图像中的精准位置[x，y，w，h]，其中，(x，y)表示实体对象的每个像素在待识别图像的平面坐标系中的坐标位置，w表示实体对象的宽度，h表示实体对象的高度，[x，y，w，h]^T∈R^1×4，其中，T表示矩阵转置，R^1×4表示维度为1×4的实数集。可以利用Plane Param Head对R_i执行参数预测，得到至少一个实体对象表面的平面参数，用[cosα，cosβ，cosγ，p]^T∈R^1×4表示，对应的平面方程为x cosα+y cosβ+z cosγ＝p。可以利用Mask Head对R_i执行实例分割，可以得到至少一个实体对象的表面的平面掩膜M∈R^C×28×28。

需要说明的是，平面掩膜M的输出分辨率可以是28×28，但不仅限于此，也可以是其它分辨率。

需要说明的是，本申请实施例中的语义预测网络、参数预测网络和掩膜预测网络是并行执行的神经网络模型。

本申请上述实施例中，语义预测网络对应的第一损失值基于样本图像中包含的至少一个样本对象的类别损失值和至少一个样本对象的表面所处的区域损失值确定，类别损失值基于至少一个样本对象的预测类别和真实类别确定，区域损失值基于至少一个样本对象的表面所处的预测区域和至少一个样本对象的表面所处的真实区域确定；参数预测网络对应的第二损失值基于至少一个样本对象的表面的预测平面参数和真实平面参数确定；掩膜预测网络对应的第三损失值基于样本图像中的每个像素是否归属于至少一个样本对象的表面的预测结果和真实结果确定。

上述的类别损失值可以是指预测得到的样本对象的预测类别与样本对象的真实类别的误差，可以是归一化指数函数(softmax)输出的损失值。

上述的区域损失值可以是指预测得到的样本对象的表面所处的预测区域与样本对象的表面所处的真实区域的误差，可以是L1损失函数输出的损失值。

上述的第二损失值可以是指预测得到的样本对象的表面的预测平面参数与样本对象的表面的真实平面参数的误差，可以是经过L1损失函数和L_cossim(n′，n_gt)输出的损失值，n_gt为平面法向真值，n′＝[cosα，Cosβ，cosγ]。

上述的第三损失值可以是指样本对象的表面的预测平面掩膜与样本对象的平面的真实掩膜的误差，可以是经过交叉熵损失函数(Cross Entropy)后输出的损失值。

在一种可选的实施例中，在通过语义预测网络预测出实体对象的语义信息之后，可以分别通过不同的损失函数计算类别损失值和区域损失值，并将两个损失值进行求和，得到语义预测网络的第一损失值。

在另一种可选的实施例中，在通过参数预测网络预测出样本对象的表面的平面参数之后，可以基于L1损失函数和L_cossim(n′，n_gt)损失函数分别计算预测到的平面参数与真实平面参数的损失值，并将两个损失值进行求和，得到第二损失值，具体公式可以是：

L_p＝L_cossim(n′，n_gt)+L₁，

其中，L_p为第二损失值，L_cossim(n′，n_gt)为损失参数值，n_gt为平面法向真值，n′＝[cosα，cosβ，cosγ]，L1为区域损失值。

在又一种可选的实施例中，在通过掩膜预测网络预测出实体对象的表面的平面掩膜之后，可以通过Cross Entropy损失函数计算第三损失值。

需要说明的是，三个预测网络可以同时训练，三个预测网络的损失函数值之和可以作为最终的损失函数值用于端到端地训练整个网络。

本申请上述实施例中，对表面图像执行图像特征提取，得到表面图像的图像特征，包括：利用骨干网络对待识别图像执行图像特征提取，得到待识别图像的图像特征，其中，骨干网络是预先训练好的神经网络模型；基于表面图像对待识别图像的图像特征进行裁剪和变形操作，得到表面图像的图像特征。

在一种可选的实施例中，首先可以通过back bone对待识别图像进行图像特征提取，得到待识别图像的图像特征F，例如，图像的纹理特征、颜色特征等；其次可以基于表面图像对待识别图像的图像特征进行裁剪和变形操作，即可以得到表面图像的图像特征R_i。

本申请上述实施例中，对待识别图像中的至少一个实体对象的表面进行目标检测，得到至少一个实体对象的表面的表面图像，包括：利用骨干网络对待识别图像执行图像特征提取，得到待识别图像的图像特征；利用候选区域网络基于待识别图像的图像特征对待识别图像中的至少一个实体对象的表面进行目标检测，得到至少一个实体对象的表面的检测结果，其中，检测结果包括：至少一个边界框和至少一个边界框的置信度，至少一个边界框用于表征至少一个实体对象的表面在待识别图像中的位置，置信度用于表征至少一个边界框的准确度，候选区域网络通过对掩膜区域卷积神经网络进行训练得到；基于至少一个边界框的置信度从至少一个边界框中确定目标边界框，其中，目标边界框的置信度大于第一置信度阈值，至少一个边界框中除目标边界框之外的其他边界框的置信度小于或等于第一置信度阈值；基于目标边界框对待识别图像进行裁剪，得到表面图像。

上述的候选区域网络可以是RPN，具体网络结构可以采用现有的网络结构，而且需要在对待识别图像进行处理之前训练完成。

上述的第一置信度阈值可以是用户提前设置的用来确定目标边界框的阈值，响应于至少一个边界框的置信度大于第一置信度阈值，可以确定该至少一个边界框为目标边界框。

上述的目标边界框可以是能够裁剪出待识别图像的边界框，也即目标边界框的位置和大小包含了待识别图像。

在一种可选的实施例中，首先可以通过back bone对待识别图像进行图像特征提取，得到待识别图像的图像特征F，例如，图像的纹理特征、颜色特征等；其次可以通过RPN(即候选区域网络)基于待识别图像的图像特征对待识别图像中的至少一个实体对象的表面进行目标检测，得到至少一个实体对象的表面的至少一个边界框和至少一个边界框的置信度，其中，候选区域网络通过对掩膜区域卷积神经网络进行训练得到，至少一个边界框可以表示至少一个实体对象表面在待识别图像中的位置，至少一个边界框的置信度可以表示至少一个边界框的位置是否准确；然后可以基于至少一个边界框的置信度和第一置信度阈值确定目标边界框，响应于至少一个边界框的置信度大于第一置信度阈值，可以确定该至少一个边界框确为目标边界框；最后可以基于目标边界框对待识别图像进行裁剪，即可以得到表面图像。

本申请上述实施例中，在基于表面图像的图像特征对待识别图像进行语义分割，得到至少一个实体对象的表面的语义分割结果之后，该方法还包括：对待识别图像进行深度预测，得到待识别图像的深度信息；基于语义分割结果从至少一个实体对象的表面中确定目标表面，其中，目标表面的目标语义分割结果的置信度大于第二置信度阈值，至少一个实体对象的表面中除目标表面之外的其他表面对应的其他语义分割结果的置信度小于或等于第二置信度阈值；基于目标语义分割结果和深度信息，对目标表面进行三维重建，得到目标表面对应的平面点云。

本申请上述实施例中，深度估计网络由多个第一卷积层和第二卷积层组成，其中，第一卷积层和第二卷积层的激活函数相同，第一卷积层和第二卷积层的卷积核不同。

上述的待识别图像的深度信息可以是待识别图像中每个像素点距离摄像头的远近，深度信息可以通过一个与待识别图像相同分辨率的深度图像表示，该深度图像中每个像素点与待识别图像中每个像素点相同，深度图像中每个像素点的颜色深浅可以表示每个像素点的深度信息。

由于置信度越低表明语义分割结果的准确度越低，因此，为了提高三维重建的准确度，可以预先设置第二置信度score阈值，例如，该阈值可以是0.5，但不仅限于此，可以根据实际需要进行设定。

上述的激活函数可以是ReLU，但不仅限于此。

上述的第一卷积层的卷积核可以是3×3，但不仅限于此。

上述的第二卷积层的卷积核可以是1×1，但不仅限于此。

在一种可选的实施例中，首先可以通过深度估计网络对待识别图像进行深度预测，得到待识别图像的深度信息，其次可以基于第二置信度阈值对实体对象表面的语义分割结果的置信度进行确认，当至少一个实体对象的表面的语义分割结果的置信度大于第二置信度阈值时，可以确定至少一个实体对象的表面为目标表面，则该目标表面的语义分割结果为目标语义分割结果；最后可以通过目标语义分割结果和深度信息对目标表面进行重建，得到目标表面对应的平面点云。

在另一种可选的实施例中，第一卷积层可以是由3个激活函数ReLU组成的卷积核为3×3的卷积层，第二卷积层可以是由1个激活函数ReLU组成的卷积核为1×1的卷积层，但不仅限于此。由此可以得到由多个卷积层组成的深度估计网络。

在另一种可选的实施例中，如图4所示，响应于用户对“屏幕实例分割”按钮的操作，AR设备、VR设备或移动终端可以将待识别图像发送至云服务器，由云服务器进行处理。

例如，仍以3D融合渲染场景为例进行说明，云服务器可以对房间图像进行深度预测，得到整个房间图像的深度信息，其次可以基于语义分割结果从桌面图像、墙面图像以及地面图像中确定目标表面图像，例如可以通过第二置信度阈值对表面图像的置信度进行判定，响应于桌面图像的置信度大于第二置信度阈值，可以确定目标表面图像为桌面图像，同时还可以确定桌面图像的语义分割结果为目标语义分割结果，最后云服务器可以通过目标语义分割结果以及整个房间图像的深度信息，对桌面图像进行三维重建，得到桌面图像对应的平面点云图像，并显示给用户查看。

本申请上述实施例中，对待识别图像进行深度预测，得到待识别图像的深度信息，包括：利用骨干网络对待识别图像执行图像特征提取，得到待识别图像的图像特征；利用深度估计网络基于待识别图像的图像特征对待识别图像进行深度预测，得到深度信息，其中，深度估计网络是通过样本图像与语义预测网络、参数预测网络和掩膜预测网络进行联合训练得到的神经网络模型。

在一种可选的实施例中，首先可以通过back bone对待识别图像进行图像特征提取，得到待识别图像的图像特征F，例如，图像的纹理特征、颜色特征等；其次可以通过深度估计网络Depth Predictor基于待识别图像的图像特征对待识别图像进行深度预测，得到待识别图像的深度信息，也即得到一个深度图像。

本申请上述实施例中，深度估计网络对应的第四损失值基于样本图像中包含的至少一个样本对象的表面的真实平面参数和至少一个样本对象的表面内的每个像素点的三维坐标确定，三维坐标基于样本图像的样本深度信息、至少一个样本对象的表面内的每个像素点的二维坐标和相机内参得到。

上述的第四损失值可以是指样本对象的表面内的每个像素点的三维坐标与样本对象的表面所处的真实平面坐标的误差，可以是经过深度损失函数和L1损失函数输出的损失值。

在一种可选的实施例中，深度损失函数可以是L_depth2plane，具体计算公式如下，

其中，pi∈R^1×4为实体对象的表面i的平面参数真值，Coord_j＝[x_j，y_j，z_j，1]∈R^1×4，[x_j，y_j，z_j]表示实体对象的表面i内第j个点的3D坐标，可由该点的深度Depth值Z、2D像素坐标(x，y)以及相机内参K∈R^3×3计算得出，即[x，y，z]^T＝K^-1·[X*Z，Y*Z，Z]^T。

在另一种可选的实施例中，深度估计网络对应的第四损失值L_d可以基于至少一个实体对象的表面所处区域的区域损失函数L₁和至少一个实体对象的表面的深度损失函数L_depth2plane确定，具体计算公式如下：

L_d＝L_depth2plane+L₁，

其中，L_d为第四损失值，L_depth2plane为深度损失函数，L₁为区域损失函数。

本申请上述实施例中，基于目标语义分割结果和深度信息，对目标表面进行三维重建，得到目标表面对应的平面点云，包括：确定深度信息中目标表面对应的目标深度信息；基于待识别图像中的每个像素是否归属于目标表面，以及目标深度信息，确定目标表面的目标三维坐标；基于目标表面的目标平面参数，确定目标三维坐标在目标平面内的投影坐标；基于投影坐标生成平面点云。

在一种可选的实施例中，在确定目标表面后，首先可以确定深度信息中目标表面对应的目标深度信息，其次可以基于待识别图像中的每个像素是否归属于目标表面，即平面mask以及目标深度信息depth map，通过相机成像公式计算目标表面的目标三维坐标[x，y，z]^T，其中，计算公式为：

[x，y，z]^T＝K-1·[X*Z，Y*Z，Z]^T，

其中，Z为平面像素坐标(x，y)在深度信息中的值，(x，y)为目标表面在以待识别图像的左上角为原点建立的平面坐标系中的坐标位置，K为常数，具体数值可根据用户需求自行设定，在本申请实施例中不作具体限定。

在另一种可选的实施例中，可以基于目标表面的目标平面参数，得到目标三维坐标在目标平面内的投影坐标[x_p，y_p，z_p]^T，具体计算公式为：

[x_p，y_p，z_p]^T＝[x，y，z]^T-[t*cosα，t*cosβ，t*cosγ]^T，

其中，t＝x*cosα+y*cosβ+z*cosγ。

下面结合图7对本申请一种优选的实施例进行详细说明，图7是根据本申请实施例的一种可选的图像处理方法的示意图，如图7所示，该方法包括如下步骤：

S1，输入三通道图片到一个骨干网络(Backbone)中提取图像特征F，分别送入实例分割网络和深度估计网络(Depth Head)进行平面掩膜及参数估计和深度图估计(Depthpredictor)，其中，本申请实施例中支持的图片格式不限、可以延展到视频场景，实例分割算法还可以替换为全景分割算法，并且类别数目不限。

S2，将步骤S1提取的图像特征F输入到一个深度估计网络中预测图片的深度信息，其中，深度图中每个像素点取值(Map)为＞0，该深度网络由3个以ReLU为激活函数(Activation)的3x3卷积层和1个以ReLU为激活函数的1x1卷积层构成，其中，Map的取值范围为大于0，卷积神经网络可以使用多种不同的结构，如调整卷积模块层数等，在本申请实施例中不限定为某种特定结构。

S3，采用一个Mask-RCNN预训练好的候选区域提取网络(RPN)提取多个候选框(Proposals)，并根据候选框从步骤S1提取的图像特征F中通过裁剪和变形操作(Crop&Warp)计算每个候选框的特征图R_i，其中，候选区域提取网络可以使用不同设计，在本申请实施例中不限定使用某种固定结构设计。

S4，每个候选框特征分别经过三个不同的预测网络，分别为语义预测网络(BoxHead)，参数预测网络(Plane Param Head)以及掩膜预测网络(Mask Head)。其中，BoxHead由2个全连接层并联构成，分别负责预测输入候选框的类别cls∈R^1×C和精确的候选框表示[x，y，w，h]^T∈R^1×4，即左上角坐标点(x，y)以及候选框的宽(w)和高(h)；Plane ParamHead由1个全连接层构成，负责预测输入候选框内平面的参数，用[cosα，cosβ，cosγ，p]^T∈R^1×4示，对应的平面方程为xcosα+ycosβ+z cosγ＝p；Mask Head由1个以Sigmoid为激活函数(Activation)的3×3卷积层构成，负责预测每个类别下的平面分割掩膜M∈R^C×28×28，其中，掩膜图中每个像素点的取值为0～1，Mask Head输出分辨率可以改变，不限定为28×28。

S5，训练时，不同预测头采用对应任务的损失函数，多个损失函数相加作为最终的损失函数用于端到端地训练整个网络。其中，Box Head的类别输出cls采用softmax损失，候选框表示[x，y，w，h]采用L1损失；Plane Param Head采用L1和Cosine Similiary损失，其中，L_p＝L_cossim(n′，n_gt)+L₁，n_gt为平面法向真值，n′＝[cosα，cosβ，cosγ]；Mask Head采用Cross Entropy损失；Depth Head采用L1和Depth2Plane损失，其中，L_d＝L_depth2plane+L₁。Depth2Plane损失计算如下：

其中

为平面i的平面参数真值，

[x_j，y_j，z_j]表示平面i内第j个点的3D坐标，可由该点的Depth值Z、2D像素坐标(X，Y)以及相机内参

计算得出，即[x，y，z]^T＝K^-1·[X*Z，Y*Z，Z]^T。

S6，测试阶段平面重建过程：测试阶段，通过设定阈值，可以提取置信度大于0.5的平面实例进行输出。每个实例包括边界框结果[x，y，h，w]、平面Mask、平面参数[cosα，cosβ，cosγ，p]^T、以及Depthmap。根据平面Mask及其对应Depth，可根据相机成像公式计算平面的3D坐标[x，y，z]^T＝K^-1·[X*Z，Y*Z，Z]^T，其中Z为2D像素坐标(X，Y)在Depthmap中的值。根据平面参数，可得到3D坐标点在平面内的投影点坐标[x_p，y_p，z_p]^T，并作为最终的平面点云，完成平面重建。公式为[x_p，y_p，z_p]^T＝[x，y，z]^T-[t*cosα，t*cosβ，t*cosγ]^T，其中t＝x*cosα+y*cosβ+z*cosγ。

需要说明的是，通过在ScanNet V2上进行训练和测试，本申请(包括：Ours(baseline)和Ours(+loss))的模型在深度估计和平面检测两种评估指标(分别为DepthMetrics和Plane Metrics)下都超越了上述的相关两种方法(包括：PlaneNet和PlaneRCNN)，如表1所示：

表1

其中，Rel(Relative error)表示相对误差，相对差越小表示深度估计越准确，RMSE(Root Mean Square Error)表示均方根误差，均方根误差越小表示深度估计越准确，δ_i表示阈值精度，i为1、2、3，阈值精度越高表示深度估计越准确，VI(Variation ofInformation)表示信息差指标，指标值越小表示平面聚类结果与真实情况结果越吻合，RI(Rand Index)表示兰德指数，值越大表示平面聚类结果与真实情况结果越吻合，SC(Segmentation Covering)表示分割覆盖，分割覆盖值越大表示平面聚类结果与真实情况结果越吻合。

由上表可知，本申请的平面分割结果和深度估计结果均优于平面网络(PlaneNet)和平面候选区域神经网络(PlaneRCNN)。

需要说明的是，通过实例分割或全景分割设计，本申请实施例的模型能够输出平面语义，且不限制平面个数；通过Plane Param Head设计，本申请实施例能够预测更精确的平面参数；通过结合单图实例分割和深度估计任务进行联合训练的设计，相对于PlaneRCNN需要视频数据进行训练，本申请实施例的模型仅需要图像数据即可训练，大幅降低了训练成本。

在一种可选的实施例中，当待识别图像中包含桌子时，首先可以通过骨干网络backbone对待识别图像进行目标检测得到桌面图像。其次可以通过骨干网络对待识别图像进行图像特征提取得到待识别图像的图像特征F，以及通过RPN网络基于桌面图像(Proposal)对待识别图像进行裁剪和变形(Crop&Warp)操作，得到桌面图像的图像特征，然后可以通过Box Head，Plane Param Head以及Mask Head三个并行执行的预测网络，对待识别图像分别执行语义分割、参数预测以及掩膜预测。

然后在对模型进行训练时，通过相应的损失函数对三个预测网络进行训练，其中，对Box Head进行训练后得到桌面图像的第一损失值cls和[x，y，w，h]；对Plane Param Head进行训练后得到桌面图像第二损失值[cosα，cosβ，cosγ]/p；对Mask Head进行训练后得到桌面图像的第三损失值M∈R^C×28×28，Map的范围为0到1以及激活函数为Sigmoid。

需要说明的是，在得到桌面的语义分割结果后，还可以通过深度估计网络DepthHead对待识别图像进行深度预测，得到待识别图像的深度信息，其中，深度信息包括分辨率为1×480×640，Map的范围为大于0，激活函数为ReLU。

最后通过目标语义分割结果和深度信息对桌面进行重建，得到桌面的平面点云。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

实施例2

根据本申请实施例，还提供了一种图像处理方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图8是根据本申请实施例2的一种图像处理方法的流程图，如图8所示，该方法可以包括如下步骤：

步骤S802，响应作用于操作界面上的输入指令，在操作界面上显示待识别图像，其中，待识别图像中包含至少一个实体对象的表面。

上述的操作界面可以包括但不限于：移动终端的操作界面、服务器端的操作界面，具体的，可以是笔记本电脑的操作界面、手机的操作界面、平板电脑的操作界面等。

上述的输入指令可以包括但不限于：语音输入、文字输入。例如，可以是移动终端或服务器端接收用户文字输入“需要对图像进行识别”的指令，还可以是移动终端或服务器端的语音接收设备接收用户的语音“需要对图像进行识别”的指令，但不仅限于此。

在一种可选的实施例中，如图4所示，该操作界面上可以包括但不限于以下功能：待识别图像上传区域、“平面实例分割”按钮、平面实例分割显示区域、“拍摄”按钮，响应于接收到用户对操作界面上的“拍摄”按钮的操作，移动终端可以对用户所在区域进行拍摄，得到待识别图像，并且移动终端还可以在操作界面上展示待识别图像给用户查看，以确定待识别图像是否拍摄正确，其中，待识别图像中包含至少一个实体对象的表面，例如，可以包括桌面、墙面、地面等。

步骤S804，响应作用于操作界面上的实例分割指令，在操作界面上显示至少一个实体对象的表面的语义分割结果，其中，语义分割结果基于至少一个实体对象的表面的表面图像的图像特征对待识别图像进行语义分割得到，语义分割结果包括：至少一个实体对象的类别、至少一个实体对象的表面在待识别图像中所处的区域、至少一个实体对象的表面的平面参数、以及待识别图像中的每个像素是否归属于至少一个实体对象的表面，表面图像通过对待识别图像中的至少一个实体对象的表面进行目标检测得到，表面图像的图像特征通过对表面图像执行图像特征提取得到。

上述的实例分割指令可以包括但不限于：对表面图像进行语义分割、对表面图像进行参数预测、对表面图像进行掩膜预测、对表面图像进行深度预测。

在一种可选的实施例中，如图4所示，在获取到待识别图像后，用户可以将待识别图像拖至虚线框内，并按下“平面实例分割”按钮，则AR设备、VR设备或者移动设备可以将待识别图像上传至云服务器端进行处理，响应于云服务器端基于实例分割指令对待识别图像处理完毕，AR设备、VR设备或者移动设备可以将平面实例分割结果显示在平面实例分割显示区域中展示给用户查看。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。

实施例3

根据本申请实施例，还提供了一种可以应用于虚拟现实VR设备、增强现实AR设备等虚拟现实场景下的图像处理方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图9是根据本申请实施例3的一种图像处理方法的流程图。如图9所示，该方法可以包括如下步骤：

步骤S902，在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待识别图像，其中，待识别图像中包含至少一个实体对象的表面。

在一种可选的实施例中，如图4所示，当用户佩戴VR或AR设备后，AR/VR设备会响应于用户在操作界面对“拍摄”按钮的操作对用户双眼所看到的环境进行拍摄得到图像(即待识别图像)，并将待识别图像在设备的显示区域展示给用户，其中，待识别图像中包含至少一个实体对象的表面。

在另一种可选的实施例中，当用户在房间中佩戴VR或AR设备后，响应于用户对VR或AR设备的“拍摄”操作，VR或AR设备会对周围的环境进行画面拍摄，例如，VR或AR设备可以对用户看到的包含桌子的环境进行画面拍摄，得到一张包含桌子的图像(即待识别图像)，在得到待识别图像后，VR或AR设备还可以将拍摄到的包含桌子的图像显示在设备的显示区域展示给用户，其中，待识别图像中包含至少一个实体对象的表面。

步骤S904，对待识别图像中的至少一个实体对象的表面进行目标检测，得到至少一个实体对象的表面的表面图像。

步骤S906，对表面图像执行图像特征提取，得到表面图像的图像特征。

步骤S908，基于表面图像的图像特征对待识别图像进行语义分割，得到至少一个实体对象的表面的语义分割结果，其中，语义分割结果基于至少一个实体对象的表面的表面图像的图像特征对待识别图像进行语义分割得到，语义分割结果包括：至少一个实体对象的类别、至少一个实体对象的表面在待识别图像中所处的区域、至少一个实体对象的表面的平面参数、以及待识别图像中的每个像素是否归属于至少一个实体对象的表面，表面图像通过对待识别图像中的至少一个实体对象的表面进行目标检测得到，表面图像的图像特征通过对表面图像执行图像特征提取得到。

在一种可选的实施例中，如图4所示，在获取到待识别图像后，用户可以将待识别图像拖至虚线框内，并按下“平面实例分割”按钮，则AR设备或VR设备可以将待识别图像上传至云服务器端进行处理，响应于云服务器端基于实例分割指令对待识别图像处理完毕，AR设备、VR设备或者移动设备可以将平面实例分割结果显示在平面实例分割显示区域中展示给用户查看。

步骤S910，驱动VR设备或AR设备展示至少一个实体对象的表面的语义分割结果。

在一种可选的实施例中，当云服务器端对图像执行完语义分割后，会将语义分割结果返回至AR设备或VR设备，则AR设备或VR设备会在“平面实例分割显示区域”展示语义分割结果给用户查看

本申请上述实施例中，参数预测网络由全连接层构成。

本申请上述实施例中，掩膜预测网络由卷积层构成。

本申请上述实施例中，对待识别图像中的至少一个实体对象的表面进行目标检测，得到至少一个实体对象的表面的表面图像，包括：利用骨干网络对待识别图像执行图像特征提取，得到待识别图像的图像特征；利用候选区域网络基于待识别图像的图像特征对待识别图像中的至少一个实体对象的表面进行目标检测，得到至少一个实体对象的表面的检测结果，其中，检测结果包括：至少一个边界框和至少一个边界框的置信度，至少一个边界框用于表征至少一个实体对象的表面在待识别图像中的位置，置信度用于表征至少一个边界框的准确度，候选区域网络通过对掩膜区域卷积神经网络进行训练得到；基于至少一个边界框的置信度从至少一个边界框中确定目标边界框，其中，目标边界框的置信度大于第一置信度阈值，至少一个边界框中除目标边界框之外的其他边界框的置信度小于或等于第一置信度阈值基于目标边界框对待识别图像进行裁剪，得到表面图像。

本申请上述实施例中，在基于表面图像的图像特征对待识别图像进行语义分割，得到至少一个实体对象的表面的语义分割结果之后，方法还包括：对待识别图像进行深度预测，得到待识别图像的深度信息；基于语义分割结果从至少一个实体对象的表面中确定目标表面，其中，目标表面的目标语义分割结果的置信度大于第二置信度阈值，至少一个实体对象的表面中除目标表面之外的其他表面对应的其他语义分割结果的置信度小于或等于第二置信度阈值。基于目标语义分割结果和深度信息，对目标表面进行三维重建，得到目标表面对应的平面点云。

可选地，在本实施例中，上述图像处理方法可以应用于由服务器、虚拟现实设备所构成的硬件环境中。在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待识别图像，服务器可以为媒体文件运营商对应的服务器，上述网络包括但不限于：广域网、城域网或局域网，上述虚拟现实设备并不限定于：虚拟现实头盔、虚拟现实眼镜、虚拟现实一体机等。

可选地，虚拟现实设备包括：存储器、处理器和传输装置。存储器用于存储应用程序，该应用程序可以用于执行：在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待识别图像，其中，待识别图像中包含至少一个实体对象的表面；对待识别图像中的至少一个实体对象的表面进行目标检测，得到中的至少一个实体对象的表面的表面图像；对表面图像执行图像特征提取，得到表面图像的图像特征；基于表面图像的图像特征对待识别图像进行语义分割，得到至少一个实体对象的表面的语义分割结果，其中，语义分割结果包括：至少一个实体对象的类别、至少一个实体对象的表面在待识别图像中所处的区域、至少一个实体对象的表面的平面参数、以及待识别图像中的每个像素是否归属于至少一个实体对象的表面；驱动VR设备或AR设备展示至少一个实体对象的表面的语义分割结果。

需要说明的是，该实施例的上述应用在VR设备或AR设备中的图像处理方法可以包括图3所示实施例的方法，以实现驱动VR设备或AR设备展示至少一个实体对象的表面的语义分割结果的目的。

可选地，该实施例的处理器可以通过传输装置调用上述存储器存储的应用程序以执行上述步骤。传输装置可以通过网络接收服务器发送的媒体文件，也可以用于上述处理器与存储器之间的数据传输。

可选地，在虚拟现实设备中，带有眼球追踪的头戴式显示器，该HMD头显中的屏幕，用于显示展示的视频画面，HMD中的眼球追踪模块，用于获取用户眼球的实时运动轨迹，跟踪系统，用于追踪用户在真实三维空间的位置信息与运动信息，计算处理单元，用于从跟踪系统中获取用户的实时位置与运动信息，并计算出用户头部在虚拟三维空间中的三维坐标，以及用户在虚拟三维空间中的视野朝向等。

在本申请实施例中，虚拟现实设备可以与终端相连接，终端与服务器通过网络进行连接，上述虚拟现实设备并不限定于：虚拟现实头盔、虚拟现实眼镜、虚拟现实一体机等，上述终端并不限定于PC、手机、平板电脑等，服务器可以为媒体文件运营商对应的服务器，上述网络包括但不限于：广域网、城域网或局域网。

实施例4

图10是根据本申请实施例4的一种图像处理方法的流程图，如图10所示，该方法可以包括如下步骤：

步骤S1002，通过调用第一接口获取待识别图像，其中，第一接口包括第一参数，第一参数的参数值为待识别图像，待识别图像中包含至少一个实体对象的表面。

上述的第一接口可以是用户的AR设备、VR设备或移动终端向云服务器发送数据所述使用的接口，通过第一接口可以向云服务器上传待识别图像。

在一种可选的实施例中，AR设备、VR设备或移动终端可以响应于用户的上传操作，通过第一接口将待识别图像上传至云服务器端。

步骤S1004，对待识别图像中的至少一个实体对象的表面进行目标检测，得到至少一个实体对象的表面的表面图像。

步骤S1006，对表面图像执行图像特征提取，得到表面图像的图像特征。

步骤S1008，基于表面图像的图像特征对待识别图像进行语义分割，得到至少一个实体对象的表面的语义分割结果，其中，语义分割结果基于至少一个实体对象的表面的表面图像的图像特征对待识别图像进行语义分割得到，语义分割结果包括：至少一个实体对象的类别、至少一个实体对象的表面在待识别图像中所处的区域、至少一个实体对象的表面的平面参数、以及待识别图像中的每个像素是否归属于至少一个实体对象的表面，表面图像通过对待识别图像中的至少一个实体对象的表面进行目标检测得到，表面图像的图像特征通过对表面图像执行图像特征提取得到。

步骤S1010，通过调用第二接口输出至少一个实体对象的表面的语义分割结果，其中，第二接口包括第二参数，第二参数的参数值为至少一个实体对象的表面的语义分割结果。

上述的第二接口可以是云服务器向客户端发送数据的接口，通过第二接口可以向用户的AR设备、VR设备或移动终端下发至少一个实体对象的表面的语义分割结果。

在一种可选的实施例中，当云服务器端执行完语义分割后，可以通过第二接口将语义分割结果返回至AR设备、VR设备或移动终端。

本申请上述实施例中，参数预测网络由全连接层构成。

本申请上述实施例中，掩膜预测网络由卷积层构成。

实施例5

根据本申请实施例，还提供了一种用于实施上述图像处理方法的图像处理装置，图11是根据本申请实施例5的一种图像处理装置的示意图，如图11所示，该装置包括：获取模块1102，检测模块1104，特征提取模块1106，语义分割模块1108。

其中，获取模块用于获取待识别图像，其中，待识别图像包含至少一个实体对象的表面；检测模块用于对待识别图像中的至少一个实体对象的表面进行目标检测，得到至少一个实体对象的表面的表面图像；特征提取模块用于对表面图像执行图像特征提取，得到表面图像的图像特征；语义分割模块用于基于表面图像的图像特征对待识别图像进行语义分割，得到至少一个实体对象的表面的语义分割结果；其中，语义分割结果包括：至少一个实体对象的类别、至少一个实体对象的表面在待识别图像中所处的区域、至少一个实体对象的表面的平面参数、以及待识别图像中的每个像素是否归属于至少一个实体对象的表面。

此处需要说明的是，上述获取模块，检测模块，特征提取模块，语义分割模块对应于实施例1中的步骤S502至步骤S508，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块或单元可以是存储在存储器中并由一个或多个处理器处理的硬件组件或软件组件，上述模块也可以作为装置的一部分可以运行在实施例1提供的AR/VR设备中。

本申请上述实施例中，语义分割模块，包括：语义分割单元，参数预测单元，掩膜预测单元。

其中，语义分割单元用于利用语义预测网络对表面图像的图像特征执行语义分割，得到至少一个实体对象的类别和至少一个实体对象的表面在待识别图像中所处的区域；参数预测单元用于利用参数预测网络对表面图像的图像特征执行参数预测，得到至少一个实体对象的表面的平面参数；掩膜预测单元用于利用掩膜预测网络对表面图像的图像特征执行掩膜预测，得到待识别图像中的每个像素是否归属于至少一个实体对象的表面；其中，语义预测网络、参数预测网络和掩膜预测网络是并行执行的神经网络模型。

本申请上述实施例中，参数预测网络由全连接层构成。

本申请上述实施例中，掩膜预测网络由卷积层构成。

本申请上述实施例中，特征提取模块包括：第一图像特征提取单元、处理单元。

其中，第一图像特征提取单元用于利用骨干网络对待识别图像执行图像特征提取，得到待识别图像的图像特征，其中，骨干网络是预先训练好的神经网络模型；处理单元用于基于表面图像对待识别图像的图像特征进行裁剪和变形操作，得到表面图像的图像特征。

本申请上述实施例中，检测模块包括：第二图像特征提取单元，目标检测单元，边界框确定单元，图像裁剪单元。

其中，第二图像特征提取单元用于利用骨干网络对待识别图像执行图像特征提取，得到待识别图像的图像特征；目标检测单元用于利用候选区域网络基于待识别图像的图像特征对待识别图像中的至少一个实体对象的表面进行目标检测，得到至少一个实体对象的表面的检测结果，其中，检测结果包括：至少一个边界框和至少一个边界框的置信度，至少一个边界框用于表征至少一个实体对象的表面在待识别图像中的位置，置信度用于表征至少一个边界框的准确度，候选区域网络通过对掩膜区域卷积神经网络进行训练得到；边界框确定单元用于基于至少一个边界框的置信度从至少一个边界框中确定目标边界框，其中，目标边界框的置信度大于第一置信度阈值，至少一个边界框中除目标边界框之外的其他边界框的置信度小于或等于第一置信度阈值；图像裁剪单元用于基于目标边界框对待识别图像进行裁剪，得到表面图像。

本申请上述实施例中，该装置还包括：深度预测模块，确定模块，三维重建模块。

其中，深度预测模块用于对待识别图像进行深度预测，得到待识别图像的深度信息；确定模块用于基于语义分割结果从至少一个实体对象的表面中确定目标表面，其中，目标表面的目标语义分割结果的置信度大于第二置信度阈值，至少一个实体对象的表面中除目标表面之外的其他表面对应的其他语义分割结果的置信度小于或等于第二置信度阈值；三维重建模块用于基于目标语义分割结果和深度信息，对目标表面进行三维重建，得到目标表面对应的平面点云。

本申请上述实施例中，深度预测模块包括：特征提取单元，深度预测单元。

其中，特征提取单元用于利用骨干网络对待识别图像执行图像特征提取，得到待识别图像的图像特征；深度预测单元用于利用深度估计网络基于待识别图像的图像特征对待识别图像进行深度预测，得到深度信息，其中，深度估计网络是通过样本图像与语义预测网络、参数预测网络和掩膜预测网络进行联合训练得到的神经网络模型。

本申请上述实施例中，三维重建模块包括：第一确定单元，第二确定单元，第三确定单元，生成单元。

其中，第一确定单元用于确定深度信息中目标表面对应的目标深度信息；第二确定单元用于基于待识别图像中的每个像素是否归属于目标表面，以及目标深度信息，确定目标表面的目标三维坐标；第三确定单元用于基于目标表面的目标平面参数，确定目标三维坐标在目标平面内的投影坐标；生成单元用于基于投影坐标生成平面点云。

实施例6

根据本申请实施例，还提供了一种用于实施上述图像处理方法的图像处理装置，图12是根据本申请实施例6的一种图像处理装置的示意图，如图12所示，该装置包括：第一显示模块1202，第二显示模块1204。

其中，第一显示模块用于响应作用于操作界面上的输入指令，在操作界面上显示待识别图像，其中，待识别图像中包含至少一个实体对象的表面；第二显示模块用于响应作用于操作界面上的实例分割指令，在操作界面上显示至少一个实体对象的表面的语义分割结果，其中，语义分割结果基于至少一个实体对象的表面的表面图像的图像特征对待识别图像进行语义分割得到，语义分割结果包括：至少一个实体对象的类别、至少一个实体对象的表面在待识别图像中所处的区域、至少一个实体对象的表面的平面参数、以及待识别图像中的每个像素是否归属于至少一个实体对象的表面，表面图像通过对待识别图像中的至少一个实体对象的表面进行目标检测得到，表面图像的图像特征通过对表面图像执行图像特征提取得到。

此处需要说明的是，上述第一显示模块1202和第二显示模块1204对应于实施例2中的步骤S802至步骤S804，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块或单元可以是存储在存储器中并由一个或多个处理器处理的硬件组件或软件组件，上述模块也可以作为装置的一部分可以运行在实施例1提供的AR/VR设备中。

实施例7

根据本申请实施例，还提供了一种用于实施上述图像处理方法的图像处理装置，图13是根据本申请实施例7的一种图像处理装置的示意图，如图13所示，该装置包括：第一展示模块1302，检测模块1304，特征提取模块1306，语义分割模块1309，第二展示模块1310。

其中，第一展示模块用于在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待识别图像，其中，待识别图像中包含至少一个实体对象的表面；检测模块用于对待识别图像中的至少一个实体对象的表面进行目标检测，得到中的至少一个实体对象的表面的表面图像；特征提取模块用于对表面图像执行图像特征提取，得到表面图像的图像特征；语义分割模块用于基于表面图像的图像特征对待识别图像进行语义分割，得到至少一个实体对象的表面的语义分割结果，其中，语义分割结果包括：至少一个实体对象的类别、至少一个实体对象的表面在待识别图像中所处的区域、至少一个实体对象的表面的平面参数、以及待识别图像中的每个像素是否归属于至少一个实体对象的表面；第二展示模块用于驱动VR设备或AR设备展示至少一个实体对象的表面的语义分割结果。

此处需要说明的是，上述第一展示模块，检测模块，特征提取模块，语义分割模块，第二展示模块对应于实施例3中的步骤S902至步骤S910，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块或单元可以是存储在存储器中并由一个或多个处理器处理的硬件组件或软件组件，上述模块也可以作为装置的一部分可以运行在实施例1提供的AR/VR设备中。

本申请上述实施例中，参数预测网络由全连接层构成。

本申请上述实施例中，掩膜预测网络由卷积层构成。

本申请上述实施例中，特征提取模块包括：第一图像特征提取单元，处理单元。

其中，第一图像特征提取模块用于利用骨干网络对待识别图像执行图像特征提取，得到待识别图像的图像特征，其中，骨干网络是预先训练好的神经网络模型；处理单元用于基于表面图像对待识别图像的图像特征进行裁剪和变形操作，得到表面图像的图像特征。

其中，第二图像特征提取单元用于利用骨干网络对待识别图像执行图像特征提取，得到待识别图像的图像特征；目标检测单元用于利用候选区域网络基于待识别图像的图像特征对待识别图像中的至少一个实体对象的表面进行目标检测，得到至少一个实体对象的表面的检测结果，其中，检测结果包括：至少一个边界框和至少一个边界框的置信度，至少一个边界框用于表征至少一个实体对象的表面在待识别图像中的位置，置信度用于表征至少一个边界框的准确度，候选区域网络通过对掩膜区域卷积神经网络进行训练得到；边界框确定单元用于基于至少一个边界框的置信度从至少一个边界框中确定目标边界框，其中，目标边界框的置信度大于第一置信度阈值，至少一个边界框中除目标边界框之外的其他边界框的置信度小于或等于第一置信度阈值；图像裁剪单元基于目标边界框对待识别图像进行裁剪，得到表面图像。

实施例8

根据本申请实施例，还提供了一种用于实施上述图像处理方法的图像处理装置，图14是根据本申请实施例8的一种图像处理装置的示意图，如图14所示，该装置包括：获取模块1402，检测模块1404，特征提取模块1406，语义分割模块1408，输出模块1410。

其中，获取模块用于通过调用第一接口获取待识别图像，其中，第一接口包括第一参数，第一参数的参数值为待识别图像，待识别图像中包含至少一个实体对象的表面；检测模块用于对待识别图像中的至少一个实体对象的表面进行目标检测，得到至少一个实体对象的表面的表面图像；特征提取模块用于对表面图像执行图像特征提取，得到表面图像的图像特征；语义分割模块用于基于表面图像的图像特征对待识别图像进行语义分割，得到至少一个实体对象的表面的语义分割结果，其中，语义分割结果包括：至少一个实体对象的类别、至少一个实体对象的表面在待识别图像中所处的区域、至少一个实体对象的表面的平面参数、以及待识别图像中的每个像素是否归属于至少一个实体对象的表面；输出模块用于通过调用第二接口输出至少一个实体对象的表面的语义分割结果，其中，第二接口包括第二参数，第二参数的参数值为至少一个实体对象的表面的语义分割结果。

此处需要说明的是，上述获取模块，检测模块，特征提取模块，语义分割模块，输出模块对应于实施例4中的步骤S1002至步骤S1010，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块或单元可以是存储在存储器中并由一个或多个处理器处理的硬件组件或软件组件。

本申请上述实施例中，参数预测网络由全连接层构成。

本申请上述实施例中，掩膜预测网络由卷积层构成。

本申请上述实施例中，检测模块包括：第二图像特征提取单元，目标检测单元。

其中，第二图像特征提取单元用于利用骨干网络对待识别图像执行图像特征提取，得到待识别图像的图像特征；目标检测单元用于利用候选区域网络基于待识别图像的图像特征对待识别图像中的至少一个实体对象的表面进行目标检测，得到至少一个实体对象的表面的检测结果，其中，检测结果包括：至少一个边界框和至少一个边界框的置信度，至少一个边界框用于表征至少一个实体对象的表面在待识别图像中的位置，置信度用于表征至少一个边界框的准确度，候选区域网络通过对掩膜区域卷积神经网络进行训练得到；基于至少一个边界框的置信度从至少一个边界框中确定目标边界框，其中，目标边界框的置信度大于第一置信度阈值，至少一个边界框中除目标边界框之外的其他边界框的置信度小于或等于第一置信度阈值；基于目标边界框对待识别图像进行裁剪，得到表面图像。

实施例9

本申请的实施例可以提供一种图像处理系统，该图像处理系统可以包括AR/VR设备、服务器、客户端，该AR/VR设备可以是AR/VR设备群中的任意一个AR/VR设备。可选地，该图像处理系统包括：处理器；存储器，与处理器相连接，用于为处理器提供处理以下处理步骤的指令：获取待识别图像，其中，待识别图像包含至少一个实体对象的表面；对待识别图像中的至少一个实体对象的表面进行目标检测，得到至少一个实体对象的表面的表面图像；对表面图像执行图像特征提取，得到表面图像的图像特征；基于表面图像的图像特征对待识别图像进行语义分割，得到至少一个实体对象的表面的语义分割结果；其中，语义分割结果包括：至少一个实体对象的类别、至少一个实体对象的表面在待识别图像中所处的区域、至少一个实体对象的表面的平面参数、以及待识别图像中的每个像素是否归属于至少一个实体对象的表面。

可选地，上述处理器还可以执行如下步骤的指令：利用语义预测网络对表面图像的图像特征执行语义分割，得到至少一个实体对象的类别和至少一个实体对象的表面在待识别图像中所处的区域；利用参数预测网络对表面图像的图像特征执行参数预测，得到至少一个实体对象的表面的平面参数；利用掩膜预测网络对表面图像的图像特征执行掩膜预测，得到待识别图像中的每个像素是否归属于至少一个实体对象的表面；其中，语义预测网络、参数预测网络和掩膜预测网络是并行执行的神经网络模型。

可选地，上述处理器还可以执行如下步骤的指令：语义预测网络对应的第一损失值基于样本图像中包含的至少一个样本对象的类别损失值和至少一个样本对象的表面所处的区域损失值确定，类别损失值基于至少一个样本对象的预测类别和真实类别确定，区域损失值基于至少一个样本对象的表面所处的预测区域和至少一个样本对象的表面所处的真实区域确定；参数预测网络对应的第二损失值基于至少一个样本对象的表面的预测平面参数和真实平面参数确定；掩膜预测网络对应的第三损失值基于样本图像中的每个像素是否归属于至少一个样本对象的表面的预测结果和真实结果确定。可选地，上述处理器还可以执行如下步骤的指令：语义预测网络由两个全连接层构成，两个全连接层分别用于输出至少一个实体对象的类别和至少一个实体对象的表面在待识别图像中所处的区域。

可选地，上述处理器还可以执行如下步骤的指令：参数预测网络由全连接层构成。

可选地，上述处理器还可以执行如下步骤的指令：掩膜预测网络由卷积层构成。

可选地，上述处理器还可以执行如下步骤的指令：利用骨干网络对待识别图像执行图像特征提取，得到待识别图像的图像特征，其中，骨干网络是预先训练好的神经网络模型；基于表面图像对待识别图像的图像特征进行裁剪和变形操作，得到表面图像的图像特征。

可选地，上述处理器还可以执行如下步骤的指令：利用骨干网络对待识别图像执行图像特征提取，得到待识别图像的图像特征；利用候选区域网络基于待识别图像的图像特征对待识别图像中的至少一个实体对象的表面进行目标检测，得到至少一个实体对象的表面的检测结果，其中，检测结果包括：至少一个边界框和至少一个边界框的置信度，至少一个边界框用于表征至少一个实体对象的表面在待识别图像中的位置，置信度用于表征至少一个边界框的准确度，候选区域网络通过对掩膜区域卷积神经网络进行训练得到；基于至少一个边界框的置信度从至少一个边界框中确定目标边界框，其中，目标边界框的置信度大于第一置信度阈值，至少一个边界框中除目标边界框之外的其他边界框的置信度小于或等于第一置信度阈值；基于目标边界框对待识别图像进行裁剪，得到表面图像。

可选地，上述处理器还可以执行如下步骤的指令：对待识别图像进行深度预测，得到待识别图像的深度信息；基于语义分割结果从至少一个实体对象的表面中确定目标表面，其中，目标表面的目标语义分割结果的置信度大于第二置信度阈值，至少一个实体对象的表面中除目标表面之外的其他表面对应的其他语义分割结果的置信度小于或等于第二置信度阈值。基于目标语义分割结果和深度信息，对目标表面进行三维重建，得到目标表面对应的平面点云。

可选地，上述处理器还可以执行如下步骤的指令：利用骨干网络对待识别图像执行图像特征提取，得到待识别图像的图像特征；利用深度估计网络基于待识别图像的图像特征对待识别图像进行深度预测，得到深度信息，其中，深度估计网络是通过样本图像与语义预测网络、参数预测网络和掩膜预测网络进行联合训练得到的神经网络模型。

可选地，上述处理器还可以执行如下步骤的指令：深度估计网络由多个第一卷积层和第二卷积层组成，其中，第一卷积层和第二卷积层的激活函数相同，第一卷积层和第二卷积层的卷积核不同。

可选地，上述处理器还可以执行如下步骤的指令：深度估计网络对应的第四损失值基于样本图像中包含的至少一个样本对象的表面的真实平面参数和至少一个样本对象的表面内的每个像素点的三维坐标确定，三维坐标基于样本图像的样本深度信息、至少一个样本对象的表面内的每个像素点的二维坐标和相机内参得到。

可选地，上述处理器还可以执行如下步骤的指令：确定深度信息中目标表面对应的目标深度信息；基于待识别图像中的每个像素是否归属于目标表面，以及目标深度信息，确定目标表面的目标三维坐标；基于目标表面的目标平面参数，确定目标三维坐标在目标平面内的投影坐标；基于投影坐标生成平面点云。

实施例10

本申请的实施例可以提供一种AR/VR设备，该AR/VR设备可以是AR/VR设备群中的任意一个AR/VR设备。可选地，在本实施例中，上述AR/VR设备也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述AR/VR设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述AR/VR设备可以执行图像处理方法中以下步骤的程序代码：获取待识别图像，其中，待识别图像包含至少一个实体对象的表面；对待识别图像中的至少一个实体对象的表面进行目标检测，得到至少一个实体对象的表面的表面图像；对表面图像执行图像特征提取，得到表面图像的图像特征；基于表面图像的图像特征对待识别图像进行语义分割，得到至少一个实体对象的表面的语义分割结果；其中，语义分割结果包括：至少一个实体对象的类别、至少一个实体对象的表面在待识别图像中所处的区域、至少一个实体对象的表面的平面参数、以及待识别图像中的每个像素是否归属于至少一个实体对象的表面。

可选地，上述AR/VR设备可以执行如下步骤的程序代码：利用语义预测网络对表面图像的图像特征执行语义分割，得到至少一个实体对象的类别和至少一个实体对象的表面在待识别图像中所处的区域；利用参数预测网络对表面图像的图像特征执行参数预测，得到至少一个实体对象的表面的平面参数；利用掩膜预测网络对表面图像的图像特征执行掩膜预测，得到待识别图像中的每个像素是否归属于至少一个实体对象的表面；其中，语义预测网络、参数预测网络和掩膜预测网络是并行执行的神经网络模型。

可选地，上述AR/VR设备可以执行如下步骤的程序代码：语义预测网络对应的第一损失值基于样本图像中包含的至少一个样本对象的类别损失值和至少一个样本对象的表面所处的区域损失值确定，类别损失值基于至少一个样本对象的预测类别和真实类别确定，区域损失值基于至少一个样本对象的表面所处的预测区域和至少一个样本对象的表面所处的真实区域确定；参数预测网络对应的第二损失值基于至少一个样本对象的表面的预测平面参数和真实平面参数确定；掩膜预测网络对应的第三损失值基于样本图像中的每个像素是否归属于至少一个样本对象的表面的预测结果和真实结果确定。

可选地，上述AR/VR设备可以执行如下步骤的程序代码：语义预测网络由两个全连接层构成，两个全连接层分别用于输出至少一个实体对象的类别和至少一个实体对象的表面在待识别图像中所处的区域。

可选地，上述AR/VR设备可以执行如下步骤的程序代码：参数预测网络由全连接层构成。

可选地，上述AR/VR设备可以执行如下步骤的程序代码：掩膜预测网络由卷积层构成。

可选地，上述AR/VR设备可以执行如下步骤的程序代码：利用骨干网络对待识别图像执行图像特征提取，得到待识别图像的图像特征，其中，骨干网络是预先训练好的神经网络模型；基于表面图像对待识别图像的图像特征进行裁剪和变形操作，得到表面图像的图像特征。

可选地，上述AR/VR设备可以执行如下步骤的程序代码：利用骨干网络对待识别图像执行图像特征提取，得到待识别图像的图像特征；利用候选区域网络基于待识别图像的图像特征对待识别图像中的至少一个实体对象的表面进行目标检测，得到至少一个实体对象的表面的检测结果，其中，检测结果包括：至少一个边界框和至少一个边界框的置信度，至少一个边界框用于表征至少一个实体对象的表面在待识别图像中的位置，置信度用于表征至少一个边界框的准确度，候选区域网络通过对掩膜区域卷积神经网络进行训练得到；基于至少一个边界框的置信度从至少一个边界框中确定目标边界框，其中，目标边界框的置信度大于第一置信度阈值，至少一个边界框中除目标边界框之外的其他边界框的置信度小于或等于第一置信度阈值；基于目标边界框对待识别图像进行裁剪，得到表面图像。

可选地，上述AR/VR设备可以执行如下步骤的程序代码：对待识别图像进行深度预测，得到待识别图像的深度信息；基于语义分割结果从至少一个实体对象的表面中确定目标表面，其中，目标表面的目标语义分割结果的置信度大于第二置信度阈值，至少一个实体对象的表面中除目标表面之外的其他表面对应的其他语义分割结果的置信度小于或等于第二置信度阈值。基于目标语义分割结果和深度信息，对目标表面进行三维重建，得到目标表面对应的平面点云。

可选地，上述AR/VR设备可以执行如下步骤的程序代码：利用骨干网络对待识别图像执行图像特征提取，得到待识别图像的图像特征；利用深度估计网络基于待识别图像的图像特征对待识别图像进行深度预测，得到深度信息，其中，深度估计网络是通过样本图像与语义预测网络、参数预测网络和掩膜预测网络进行联合训练得到的神经网络模型。

可选地，上述AR/VR设备可以执行如下步骤的程序代码：深度估计网络由多个第一卷积层和第二卷积层组成，其中，第一卷积层和第二卷积层的激活函数相同，第一卷积层和第二卷积层的卷积核不同。

可选地，上述AR/VR设备可以执行如下步骤的程序代码：深度估计网络对应的第四损失值基于样本图像中包含的至少一个样本对象的表面的真实平面参数和至少一个样本对象的表面内的每个像素点的三维坐标确定，三维坐标基于样本图像的样本深度信息、至少一个样本对象的表面内的每个像素点的二维坐标和相机内参得到。

可选地，上述AR/VR设备可以执行如下步骤的程序代码：确定深度信息中目标表面对应的目标深度信息；基于待识别图像中的每个像素是否归属于目标表面，以及目标深度信息，确定目标表面的目标三维坐标；基于目标表面的目标平面参数，确定目标三维坐标在目标平面内的投影坐标；基于投影坐标生成平面点云。

可选地，图15是根据本申请实施例的一种AR/VR设备的结构框图。如图15所示，该AR/VR设备A可以包括：一个或多个(图中仅示出一个)处理器1502、存储器1504、存储控制器1505、以及外设接口1508，其中，外设接口1508与射频模块15010、音频模块15012和显示器15014连接。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的图像处理方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的图像处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至AR/VR设备A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取待识别图像，其中，待识别图像包含至少一个实体对象的表面；对待识别图像中的至少一个实体对象的表面进行目标检测，得到至少一个实体对象的表面的表面图像；对表面图像执行图像特征提取，得到表面图像的图像特征；基于表面图像的图像特征对待识别图像进行语义分割，得到至少一个实体对象的表面的语义分割结果；其中，语义分割结果包括：至少一个实体对象的类别、至少一个实体对象的表面在待识别图像中所处的区域、至少一个实体对象的表面的平面参数、以及待识别图像中的每个像素是否归属于至少一个实体对象的表面。

可选的，上述处理器还可以执行如下步骤的程序代码：利用语义预测网络对表面图像的图像特征执行语义分割，得到至少一个实体对象的类别和至少一个实体对象的表面在待识别图像中所处的区域；利用参数预测网络对表面图像的图像特征执行参数预测，得到至少一个实体对象的表面的平面参数；利用掩膜预测网络对表面图像的图像特征执行掩膜预测，得到待识别图像中的每个像素是否归属于至少一个实体对象的表面；其中，语义预测网络、参数预测网络和掩膜预测网络是并行执行的神经网络模型。

可选的，上述处理器还可以执行如下步骤的程序代码：语义预测网络对应的第一损失值基于样本图像中包含的至少一个样本对象的类别损失值和至少一个样本对象的表面所处的区域损失值确定，类别损失值基于至少一个样本对象的预测类别和真实类别确定，区域损失值基于至少一个样本对象的表面所处的预测区域和至少一个样本对象的表面所处的真实区域确定；参数预测网络对应的第二损失值基于至少一个样本对象的表面的预测平面参数和真实平面参数确定；掩膜预测网络对应的第三损失值基于样本图像中的每个像素是否归属于至少一个样本对象的表面的预测结果和真实结果确定。

可选的，上述处理器还可以执行如下步骤的程序代码：语义预测网络由两个全连接层构成，两个全连接层分别用于输出至少一个实体对象的类别和至少一个实体对象的表面在待识别图像中所处的区域。

可选的，上述处理器还可以执行如下步骤的程序代码：参数预测网络由全连接层构成。

可选的，上述处理器还可以执行如下步骤的程序代码：掩膜预测网络由卷积层构成。

可选的，上述处理器还可以执行如下步骤的程序代码：利用骨干网络对待识别图像执行图像特征提取，得到待识别图像的图像特征，其中，骨干网络是预先训练好的神经网络模型；基于表面图像对待识别图像的图像特征进行裁剪和变形操作，得到表面图像的图像特征。

可选的，上述处理器还可以执行如下步骤的程序代码：利用骨干网络对待识别图像执行图像特征提取，得到待识别图像的图像特征；利用候选区域网络基于待识别图像的图像特征对待识别图像中的至少一个实体对象的表面进行目标检测，得到至少一个实体对象的表面的检测结果，其中，检测结果包括：至少一个边界框和至少一个边界框的置信度，至少一个边界框用于表征至少一个实体对象的表面在待识别图像中的位置，置信度用于表征至少一个边界框的准确度，候选区域网络通过对掩膜区域卷积神经网络进行训练得到；基于至少一个边界框的置信度从至少一个边界框中确定目标边界框，其中，目标边界框的置信度大于第一置信度阈值，至少一个边界框中除目标边界框之外的其他边界框的置信度小于或等于第一置信度阈值；基于目标边界框对待识别图像进行裁剪，得到表面图像。

可选的，上述处理器还可以执行如下步骤的程序代码：对待识别图像进行深度预测，得到待识别图像的深度信息；基于语义分割结果从至少一个实体对象的表面中确定目标表面，其中，目标表面的目标语义分割结果的置信度大于第二置信度阈值，至少一个实体对象的表面中除目标表面之外的其他表面对应的其他语义分割结果的置信度小于或等于第二置信度阈值。基于目标语义分割结果和深度信息，对目标表面进行三维重建，得到目标表面对应的平面点云。

可选的，上述处理器还可以执行如下步骤的程序代码：利用骨干网络对待识别图像执行图像特征提取，得到待识别图像的图像特征；利用深度估计网络基于待识别图像的图像特征对待识别图像进行深度预测，得到深度信息，其中，深度估计网络是通过样本图像与语义预测网络、参数预测网络和掩膜预测网络进行联合训练得到的神经网络模型。

可选的，上述处理器还可以执行如下步骤的程序代码：深度估计网络由多个第一卷积层和第二卷积层组成，其中，第一卷积层和第二卷积层的激活函数相同，第一卷积层和第二卷积层的卷积核不同。

可选的，上述处理器还可以执行如下步骤的程序代码：深度估计网络对应的第四损失值基于样本图像中包含的至少一个样本对象的表面的真实平面参数和至少一个样本对象的表面内的每个像素点的三维坐标确定，三维坐标基于样本图像的样本深度信息、至少一个样本对象的表面内的每个像素点的二维坐标和相机内参得到。

可选的，上述处理器还可以执行如下步骤的程序代码：确定深度信息中目标表面对应的目标深度信息；基于待识别图像中的每个像素是否归属于目标表面，以及目标深度信息，确定目标表面的目标三维坐标；基于目标表面的目标平面参数，确定目标三维坐标在目标平面内的投影坐标；基于投影坐标生成平面点云。

采用本申请实施例，提供了一种图像处理的方案。通过获取待识别图像，其中，待识别图像包含至少一个实体对象的表面；对待识别图像中的至少一个实体对象的表面进行目标检测，得到至少一个实体对象的表面的表面图像；对表面图像执行图像特征提取，得到表面图像的图像特征；基于表面图像的图像特征对待识别图像进行语义分割，得到至少一个实体对象的表面的语义分割结果，达到了对图像进行处理时可以同时得到图像的语音信息的技术效果。容易注意到的是，本申请实施例对图像进行处理时，不仅能够基于表面图像对待识别图像进行特征提取得到表面图像的图像特征，还能够基于表面图像的图像特征对待识别图像进行语义分割，达到了能够得到表面图像的语义分割结果的目的，从而实现了能够同时得到表面图像的图像特征和语义分割结果的技术效果，进而解决了相关技术中平面估计算法无法得到平面的语义信息，导致图像分割的准确度较低的技术问题。

本领域普通技术人员可以理解，图15所示的结构仅为示意，AR/VR设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternetDevices，MID)、PAD等终端设备。图15其并不对上述电子装置的结构造成限定。例如，AR/VR设备A还可包括比图15中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图15所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例11

本申请的实施例还提供了一种计算机可读存储介质。可选地，在本实施例中，上述计算机可读存储介质可以用于保存上述实施例1所提供的图像处理方法所执行的程序代码。

可选地，在本实施例中，上述计算机可读存储介质可以位于AR/VR设备网络中AR/VR设备终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：获取待识别图像，其中，待识别图像包含至少一个实体对象的表面；对待识别图像中的至少一个实体对象的表面进行目标检测，得到至少一个实体对象的表面的表面图像；对表面图像执行图像特征提取，得到表面图像的图像特征；基于表面图像的图像特征对待识别图像进行语义分割，得到至少一个实体对象的表面的语义分割结果；其中，语义分割结果包括：至少一个实体对象的类别、至少一个实体对象的表面在待识别图像中所处的区域、至少一个实体对象的表面的平面参数、以及待识别图像中的每个像素是否归属于至少一个实体对象的表面。

可选地，计算机可读存储介质还可以执行以下步骤的程序代码：利用语义预测网络对表面图像的图像特征执行语义分割，得到至少一个实体对象的类别和至少一个实体对象的表面在待识别图像中所处的区域；利用参数预测网络对表面图像的图像特征执行参数预测，得到至少一个实体对象的表面的平面参数；利用掩膜预测网络对表面图像的图像特征执行掩膜预测，得到待识别图像中的每个像素是否归属于至少一个实体对象的表面；其中，语义预测网络、参数预测网络和掩膜预测网络是并行执行的神经网络模型。

可选地，计算机可读存储介质还可以执行以下步骤的程序代码：语义预测网络对应的第一损失值基于样本图像中包含的至少一个样本对象的类别损失值和至少一个样本对象的表面所处的区域损失值确定，类别损失值基于至少一个样本对象的预测类别和真实类别确定，区域损失值基于至少一个样本对象的表面所处的预测区域和至少一个样本对象的表面所处的真实区域确定；参数预测网络对应的第二损失值基于至少一个样本对象的表面的预测平面参数和真实平面参数确定；掩膜预测网络对应的第三损失值基于样本图像中的每个像素是否归属于至少一个样本对象的表面的预测结果和真实结果确定。

可选地，计算机可读存储介质还可以执行以下步骤的程序代码：语义预测网络由两个全连接层构成，两个全连接层分别用于输出至少一个实体对象的类别和至少一个实体对象的表面在待识别图像中所处的区域。

可选地，计算机可读存储介质还可以执行以下步骤的程序代码：参数预测网络由全连接层构成。

可选地，计算机可读存储介质还可以执行以下步骤的程序代码：掩膜预测网络由卷积层构成。

可选地，计算机可读存储介质还可以执行以下步骤的程序代码：利用骨干网络对待识别图像执行图像特征提取，得到待识别图像的图像特征，其中，骨干网络是预先训练好的神经网络模型；基于表面图像对待识别图像的图像特征进行裁剪和变形操作，得到表面图像的图像特征。

可选地，计算机可读存储介质还可以执行以下步骤的程序代码：利用骨干网络对待识别图像执行图像特征提取，得到待识别图像的图像特征；利用候选区域网络基于待识别图像的图像特征对待识别图像中的至少一个实体对象的表面进行目标检测，得到至少一个实体对象的表面的检测结果，其中，检测结果包括：至少一个边界框和至少一个边界框的置信度，至少一个边界框用于表征至少一个实体对象的表面在待识别图像中的位置，置信度用于表征至少一个边界框的准确度，候选区域网络通过对掩膜区域卷积神经网络进行训练得到；基于至少一个边界框的置信度从至少一个边界框中确定目标边界框，其中，目标边界框的置信度大于第一置信度阈值，至少一个边界框中除目标边界框之外的其他边界框的置信度小于或等于第一置信度阈值；基于目标边界框对待识别图像进行裁剪，得到表面图像。

可选地，计算机可读存储介质还可以执行以下步骤的程序代码：对待识别图像进行深度预测，得到待识别图像的深度信息；基于语义分割结果从至少一个实体对象的表面中确定目标表面，其中，目标表面的目标语义分割结果的置信度大于第二置信度阈值，至少一个实体对象的表面中除目标表面之外的其他表面对应的其他语义分割结果的置信度小于或等于第二置信度阈值。基于目标语义分割结果和深度信息，对目标表面进行三维重建，得到目标表面对应的平面点云。

可选地，计算机可读存储介质还可以执行以下步骤的程序代码：利用骨干网络对待识别图像执行图像特征提取，得到待识别图像的图像特征；利用深度估计网络基于待识别图像的图像特征对待识别图像进行深度预测，得到深度信息，其中，深度估计网络是通过样本图像与语义预测网络、参数预测网络和掩膜预测网络进行联合训练得到的神经网络模型。

可选地，计算机可读存储介质还可以执行以下步骤的程序代码：深度估计网络由多个第一卷积层和第二卷积层组成，其中，第一卷积层和第二卷积层的激活函数相同，第一卷积层和第二卷积层的卷积核不同。

可选地，计算机可读存储介质还可以执行以下步骤的程序代码：深度估计网络对应的第四损失值基于样本图像中包含的至少一个样本对象的表面的真实平面参数和至少一个样本对象的表面内的每个像素点的三维坐标确定，三维坐标基于样本图像的样本深度信息、至少一个样本对象的表面内的每个像素点的二维坐标和相机内参得到。

可选地，计算机可读存储介质还可以执行以下步骤的程序代码：确定深度信息中目标表面对应的目标深度信息；基于待识别图像中的每个像素是否归属于目标表面，以及目标深度信息，确定目标表面的目标三维坐标；基于目标表面的目标平面参数，确定目标三维坐标在目标平面内的投影坐标；基于投影坐标生成平面点云。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种图像处理方法，其特征在于，包括：

获取待识别图像，其中，所述待识别图像包含至少一个实体对象的表面；

对待识别图像中的所述至少一个实体对象的表面进行目标检测，得到所述至少一个实体对象的表面的表面图像；

对所述表面图像执行图像特征提取，得到所述表面图像的图像特征；

基于所述表面图像的图像特征对所述待识别图像进行语义分割，得到所述至少一个实体对象的表面的语义分割结果；

其中，所述语义分割结果包括：所述至少一个实体对象的类别、所述至少一个实体对象的表面在所述待识别图像中所处的区域、所述至少一个实体对象的表面的平面参数、以及所述待识别图像中的每个像素是否归属于所述至少一个实体对象的表面。

2.根据权利要求1所述的方法，其特征在于，基于所述表面图像的图像特征对所述待识别图像进行语义分割，得到所述至少一个实体对象的表面的语义分割结果，包括：

利用语义预测网络对所述表面图像的图像特征执行语义分割，得到所述至少一个实体对象的类别和所述至少一个实体对象的表面在所述待识别图像中所处的区域；

利用参数预测网络对所述表面图像的图像特征执行参数预测，得到所述至少一个实体对象的表面的平面参数；

利用掩膜预测网络对所述表面图像的图像特征执行掩膜预测，得到所述待识别图像中的每个像素是否归属于所述至少一个实体对象的表面；

其中，所述语义预测网络、所述参数预测网络和所述掩膜预测网络是并行执行的神经网络模型。

3.根据权利要求2所述的方法，其特征在于，所述语义预测网络对应的第一损失值基于样本图像中包含的至少一个样本对象的类别损失值和所述至少一个样本对象的表面所处的区域损失值确定，所述类别损失值基于所述至少一个样本对象的预测类别和真实类别确定，所述区域损失值基于所述至少一个样本对象的表面所处的预测区域和至少一个样本对象的表面所处的真实区域确定；所述参数预测网络对应的第二损失值基于所述至少一个样本对象的表面的预测平面参数和真实平面参数确定；所述掩膜预测网络对应的第三损失值基于所述样本图像中的每个像素是否归属于所述至少一个样本对象的表面的预测结果和真实结果确定。

4.根据权利要求1所述的方法，其特征在于，对所述表面图像执行图像特征提取，得到所述表面图像的图像特征，包括：

利用骨干网络对所述待识别图像执行图像特征提取，得到所述待识别图像的图像特征，其中，所述骨干网络是预先训练好的神经网络模型；

基于所述表面图像对所述待识别图像的图像特征进行裁剪和变形操作，得到所述表面图像的图像特征。

5.根据权利要求1所述的方法，其特征在于，对待识别图像中的所述至少一个实体对象的表面进行目标检测，得到所述至少一个实体对象的表面的表面图像，包括：

利用骨干网络对所述待识别图像执行图像特征提取，得到所述待识别图像的图像特征；

利用候选区域网络基于所述待识别图像的图像特征对所述待识别图像中的所述至少一个实体对象的表面进行目标检测，得到所述至少一个实体对象的表面的检测结果，其中，所述检测结果包括：至少一个边界框和所述至少一个边界框的置信度，所述至少一个边界框用于表征所述至少一个实体对象的表面在所述待识别图像中的位置，所述置信度用于表征所述至少一个边界框的准确度，所述候选区域网络通过对掩膜区域卷积神经网络进行训练得到；

基于所述至少一个边界框的置信度从所述至少一个边界框中确定目标边界框，其中，所述目标边界框的置信度大于第一置信度阈值，所述至少一个边界框中除所述目标边界框之外的其他边界框的置信度小于或等于所述第一置信度阈值；

基于所述目标边界框对所述待识别图像进行裁剪，得到所述表面图像。

6.根据权利要求1所述的方法，其特征在于，在基于所述表面图像的图像特征对所述待识别图像进行语义分割，得到所述至少一个实体对象的表面的语义分割结果之后，所述方法还包括：

对所述待识别图像进行深度预测，得到所述待识别图像的深度信息；

基于所述语义分割结果从所述至少一个实体对象的表面中确定目标表面，其中，所述目标表面的目标语义分割结果的置信度大于第二置信度阈值，所述至少一个实体对象的表面中除所述目标表面之外的其他表面对应的其他语义分割结果的置信度小于或等于所述第二置信度阈值；

基于所述目标语义分割结果和所述深度信息，对所述目标表面进行三维重建，得到所述目标表面对应的平面点云。

7.根据权利要求6所述的方法，其特征在于，对所述待识别图像进行深度预测，得到所述待识别图像的深度信息，包括：

利用深度估计网络基于所述待识别图像的图像特征对所述待识别图像进行深度预测，得到所述深度信息，其中，所述深度估计网络是通过样本图像与语义预测网络、参数预测网络和掩膜预测网络进行联合训练得到的神经网络模型。

8.根据权利要求7所述的方法，其特征在于，所述深度估计网络对应的第四损失值基于所述样本图像中包含的至少一个样本对象的表面的真实平面参数和所述至少一个样本对象的表面内的每个像素点的三维坐标确定，所述三维坐标基于所述样本图像的样本深度信息、所述至少一个样本对象的表面内的每个像素点的二维坐标和相机内参得到。

9.根据权利要求6所述的方法，其特征在于，基于所述目标语义分割结果和所述深度信息，对所述目标表面进行三维重建，得到所述目标表面对应的平面点云，包括：

确定所述深度信息中所述目标表面对应的目标深度信息；

基于所述待识别图像中的每个像素是否归属于所述目标表面，以及所述目标深度信息，确定所述目标表面的目标三维坐标；

基于所述目标表面的目标平面参数，确定所述目标三维坐标在所述目标平面内的投影坐标；

基于所述投影坐标生成所述平面点云。

10.一种图像处理方法，其特征在于，包括：

响应作用于操作界面上的输入指令，在所述操作界面上显示待识别图像，其中，所述待识别图像中包含至少一个实体对象的表面；

响应作用于所述操作界面上的实例分割指令，在所述操作界面上显示所述至少一个实体对象的表面的语义分割结果，其中，所述语义分割结果基于所述至少一个实体对象的表面的表面图像的图像特征对所述待识别图像进行语义分割得到，所述语义分割结果包括：所述至少一个实体对象的类别、所述至少一个实体对象的表面在所述待识别图像中所处的区域、所述至少一个实体对象的表面的平面参数、以及所述待识别图像中的每个像素是否归属于所述至少一个实体对象的表面，所述表面图像通过对所述待识别图像中的所述至少一个实体对象的表面进行目标检测得到，所述表面图像的图像特征通过基于所述表面图像对所述待识别图像执行图像特征提取得到。

11.一种图像处理方法，其特征在于，包括：

在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待识别图像，其中，所述待识别图像中包含至少一个实体对象的表面；

对待识别图像中的所述至少一个实体对象的表面进行目标检测，得到所述中的所述至少一个实体对象的表面的表面图像；

基于所述表面图像的图像特征对所述待识别图像进行语义分割，得到所述至少一个实体对象的表面的语义分割结果，其中，所述语义分割结果包括：所述至少一个实体对象的类别、所述至少一个实体对象的表面在所述待识别图像中所处的区域、所述至少一个实体对象的表面的平面参数、以及所述待识别图像中的每个像素是否归属于所述至少一个实体对象的表面；

驱动所述VR设备或所述AR设备展示所述至少一个实体对象的表面的语义分割结果。

12.一种图像处理方法，其特征在于，包括：

通过调用第一接口获取待识别图像，其中，所述第一接口包括第一参数，所述第一参数的参数值为所述待识别图像，所述待识别图像中包含至少一个实体对象的表面；

通过调用第二接口输出所述至少一个实体对象的表面的语义分割结果，其中，所述第二接口包括第二参数，所述第二参数的参数值为所述至少一个实体对象的表面的语义分割结果。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至12中任意一项所述的方法。

14.一种电子设备，其特征在于，包括：

存储器，存储有可执行程序；

处理器，用于运行所述程序，其中，所述程序运行时执行权利要求1至12中任意一项所述的方法。