CN113409231A

CN113409231A - 一种基于深度学习的ar人像拍照方法和系统

Info

Publication number: CN113409231A
Application number: CN202110647976.8A
Authority: CN
Inventors: 陈志国; 丛林
Original assignee: Hangzhou Yixian Advanced Technology Co ltd
Current assignee: Hangzhou Yixian Advanced Technology Co ltd
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-09-17

Abstract

本申请涉及一种基于深度学习的AR人像拍照方法和系统，其中，该方法包括：获取带有人像的图像，通过语义深度神经网络对带有人像的图像进行人体语义分割，得到语义mask；接着，通过带有深度分支的语义深度神经网络对带有人像的图像进行深度估计，得到人体像素的深度，确定图像中人像和虚拟内容的相对遮挡关系；最后，对语义mask进行腐蚀膨胀和高斯滤波处理，并通过导向滤波将已经确定相对遮挡关系的人像和虚拟内容进行融合，得到融合图像。通过本申请，解决了在对处于虚拟场景中的人物进行照相时，存在的人像被虚拟物体遮挡，导致用户体验差的问题，提升了图像质量，提高了用户体验感。

Description

一种基于深度学习的AR人像拍照方法和系统

技术领域

本申请涉及AR技术领域，特别是涉及一种基于深度学习的AR人像拍照方法和系统。

背景技术

增强现实技术，是一种将真实世界信息和虚拟世界信息“无缝”集成的新技术，是把原本在现实世界的一定时间空间范围内很难体验到的实体信息，例如视觉信息、声音、味道、触觉等，通过电脑等科学技术，模拟仿真后再叠加，将虚拟的信息应用到真实世界，被人类感官所感知，从而达到超越现实的感官体验。然而，对于大场景增强现实或者空间级的增强现实体验，通常虚拟的内容涵盖了很大范围的真实场景，比如整个建筑都被虚拟内容覆盖，在此种情况下当人站在建筑物之前拍照合影的时候，人会被虚拟的内容遮住，从而影响了用户体验。

在相关技术中，基于增强现实的拍照方法有：根据当前场景的类型，触发开启增强现实功能以对预览图像进行增强现实处理，对物体的增强进行特殊处理，但是没有考虑虚拟内容遮挡人物的问题；将图像和音效一起作为增强内容加入到增强现实照片中的方法，也没有解决人物遮挡的问题；将目标场景实时画面数据与二维动画帧数据进行图片融合，生成增强现实图片，这种方法主要是通过后期人工处理生成增强现实图片，图片缺乏真实感。

目前针对相关技术中，在对处于虚拟场景中的人物进行照相时，存在的人像被虚拟物体遮挡，导致用户体验差的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种基于深度学习的AR人像拍照方法和系统，以至少解决相关技术中在对处于虚拟场景中的人物进行照相时，存在的人像被虚拟物体遮挡，导致用户体验差的问题。

第一方面，本申请实施例提供了一种基于深度学习的AR人像拍照方法，所述方法包括：

获取带有人像的图像，通过语义深度神经网络对所述带有人像的图像进行人体语义分割，得到语义mask；

通过带有深度分支的语义深度神经网络对所述带有人像的图像进行深度估计，得到人体像素的深度，确定所述图像中人像和虚拟内容的相对遮挡关系；

对所述语义mask进行腐蚀膨胀和高斯滤波处理，并通过导向滤波将已经确定相对遮挡关系的人像和虚拟内容进行融合，得到融合图像。

在其中一些实施例中，通过语义深度神经网络对所述带有人像的图像进行人体语义分割，得到语义mask包括：

通过encode模块对所述图像进行卷积计算，输出得到卷积参数；

通过decode模块对每层Block输出的卷积参数进行计算，输出mask基准；

通过所述卷积参数对所述mask基准进行卷积操作，得到所述语义mask。

在其中一些实施例中，在通过encode模块对所述图像进行卷积计算之前，所述方法包括：

通过spacetodepth将所述图像的尺寸缩小，并将所述图像的空间分辨率变成通道数。

在其中一些实施例中，所述通过decode模块对每层Block输出的卷积参数进行计算，输出mask基准还包括：

通过FPN对每层Block输出的卷积参数进行上采样，得到特征图信息。

第二方面，本申请实施例提供了一种基于深度学习的AR人像拍照系统，所述系统包括：

语义分割模块，用于获取带有人像的图像，通过语义深度神经网络对所述带有人像的图像进行人体语义分割，得到语义mask；

深度估计模块，用于通过带有深度分支的语义深度神经网络对所述带有人像的图像进行深度估计，得到人体像素的深度，确定所述图像中人像和虚拟内容的相对遮挡关系；

图像融合模块，用于对所述语义mask进行腐蚀膨胀和高斯滤波处理，并通过导向滤波将已经确定相对遮挡关系的人像和虚拟内容进行融合，得到融合图像。

在其中一些实施例中，所述语义分割模块，还用于通过encode模块对所述图像进行卷积计算，输出得到卷积参数，

通过decode模块对每层Block输出的卷积参数进行计算，输出mask基准，

在其中一些实施例中，所述系统还包括图像处理模块，在通过encode模块对所述图像进行卷积计算之前，

所述图像处理模块，用于通过spacetodepth将所述图像的尺寸缩小，并将所述图像的空间分辨率变成通道数。

在其中一些实施例中，所述语义分割模块，还用于通过FPN对每层block输出的卷积参数进行上采样，得到特征图信息。

第三方面，本申请实施例提供了一种电子装置，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的基于深度学习的AR人像拍照方法。

第四方面，本申请实施例提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的基于深度学习的AR人像拍照方法。

相比于相关技术，本申请实施例提供的基于深度学习的AR人像拍照方法，获取带有人像的图像，通过语义深度神经网络对带有人像的图像进行人体语义分割，得到语义mask；接着，通过带有深度分支的语义深度神经网络对带有人像的图像进行深度估计，得到人体像素的深度，确定图像中人像和虚拟内容的相对遮挡关系；最后，对语义mask进行腐蚀膨胀和高斯滤波处理，并通过导向滤波将已经确定相对遮挡关系的人像和虚拟内容进行融合，得到融合图像。

相比于在大场景进行增强现实体验的人像拍照时，存在的由于虚拟场景占据很大的比例，人像易被遮挡，拍照体验差的问题。本申请通过深度神经网络对人体语义进行分割，获得了图像中人体的语义mask，再针对性的将虚拟内容和人像照片进行融合，并通过深度估计方法，计算得到人体像素和背景像素的深度，以此来确定人像和虚拟内容的相对遮挡关系，从而得到更灵活真实的照片，提升了图像质量，提高了用户体验感。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的基于深度学习的AR人像拍照方法的应用环境示意图；

图2是根据本申请实施例的基于深度学习的AR人像拍照方法的流程图；

图3是根据本申请实施例的语义深度神经网络的结构示意图；

图4是根据本申请实施例的带有深度分支的语义深度神经网络的结构示意图；

图5是根据本申请实施例的基于深度学习的AR人像拍照系统的结构框图；

图6是根据本申请实施例的电子设备的内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本申请提供的基于深度学习的AR人像拍照方法，可以应用于如图1所示的应用环境中，图1是根据本申请实施例的基于深度学习的AR人像拍照方法的应用环境示意图，如图1所示。其中，终端11与服务器10通过网络进行通信。服务器10获取带有人像的图像，通过语义深度神经网络对该带有人像的图像进行人体语义分割，得到语义mask；接着，通过带有深度分支的语义深度神经网络对带有人像的图像进行深度估计，得到人体像素的深度，确定图像中人像和虚拟内容的相对遮挡关系；最后，对语义mask进行腐蚀膨胀和高斯滤波处理，并通过导向滤波将已经确定相对遮挡关系的人像照片和虚拟内容进行融合，得到融合图像，显示在终端11上。其中，终端11可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、便携式可穿戴设备以及相机等，服务器10可以用独立的服务器或者是多个服务器组成的服务器集群来实现。具体的，本申请实施例中的人像语义分割和深度估计可以在移动端进行处理，也可以将相机拍摄的图像上传到服务器，在服务器上进行计算处理。

本实施例提供了一种基于深度学习的AR人像拍照方法，图2是根据本申请实施例的基于深度学习的AR人像拍照方法的流程图，如图2所示，该流程包括如下步骤：

步骤S201，获取带有人像的图像，通过语义深度神经网络对带有人像的图像进行人体语义分割，得到语义mask；

优选的，本实施例中，人体语义分割的语义深度神经网络分为两个模块，分别是encode模块和decode模块。图3是根据本申请实施例的语义深度神经网络的结构示意图，如图3所示，encode模块包括Block1-4，其采用mobilenetV3的改版作为backbone。

可选的，为了减少计算量，在通过encode模块对输入图像进行卷积计算之前，首先通过spacetodepth操作将尺寸为1*3*512*512的RGB输入图像变成尺寸为1*48*128*128的图像，其中，spacetodepth操作还将空间分辨率变成通道数，从而可以减小网络的计算量并且保证网络重输入图像的尺寸足够大，使得像素级图像的分割效果达到最好。

进一步地，如图3所示，将尺寸缩小后的图像输入encode模块中的Block1进行卷积计算，Block1采用1X1的卷积，输入通道数为48，输出通道数为40，且不进行下采样，并后接batchnorm和hswish激活函数；接着，图像再分别进入mobilenetV3结构的Block2、Block3和Block4进行卷积计算，分别得到尺寸为64*64、32*32以及16*16的特征图。

在通过上述得到每层Block输出的卷积参数后，通过decode模块对每层Block输出的卷积参数进行计算，输出mask基准，具体地，如图3所示，Block4的输出output4进入decode4进行计算，然后和Block3的输出进行concat连接后，再进行decode3的计算，依次类推，一直到Block2计算结束，输出卷积参数，进入prototype网络分支。优选的，本实施例中decode通过FPN对每层Block输出的卷积参数进行上采样，得到特征图信息，能充分利用多尺度的信息。需要说明的是，语义深度神经网络有两个不同的网络分支，一个是weight分支用于输出卷积的参数，另一个是prototype分支用于mask的基准。

最后，通过weight分支输出的卷积参数对prototype分支的mask基准进行卷积计算，得到最终的语义分割mask。其中，weight分支直接从Block4的分支输出计算得到，具体地，将Block4的输出参数进行全局平均池化，并连接一个全连层，输出维度为91，即输出91个卷积参数；如图3所示，Prototype分支首先对decode2的输出进行一个核为3的卷积，将其通道从24转成6，然后将weight分支输出的91个卷积参数，排列成3个1X1卷积的参数，得到6个1X1X6的卷积核，并添加6个bias，经过3个1X1卷积后，输出得到一个通道数为1的特征图，即为最终的语义mask。

需要说明的是，本实施例对语义深度神经网络的训练，采用的Loss函数如下式1所示：

diceloss*0.1+0.8*BinaryFocalLoss+0.1*JaccardLoss(1)

步骤S202，通过带有深度分支的语义深度神经网络对带有人像的图像进行深度估计，得到人体像素的深度，确定图像中人像和虚拟内容的相对遮挡关系；

优选的，本实施例中深度估计网络可以在语义分割的网络基础上作为一个网络分支。图4是根据本申请实施例的带有深度分支的语义深度神经网络的结构示意图，如图4所示，深度估计网络是在语义分割网络decode模块的输出结果上添加了两个3X3的卷积层，通过该深度估计网络分支的计算，可以得到一个单通道的深度估计值，从而计算得到人体像素和背景像素的深度，区分人像和背景的相对遮挡关系。需要说明的是，本实施例中的深度估计网络分支采用的loss函数为smoothL1。

在大空间增强现实的体验中，内容可能是多样的，且不同的深度有不同的内容。为了解决虚拟内容和人体的遮挡关系，还需要估计人像和背景的深度值，从而判断虚拟的背景是在人像的前面还是在人像的后面，对于人像前面的物体则遮挡人像，对于人像后面的物体则被人遮挡，成为背景。具体地，本实施例通过带有深度分支的语义深度神经网络对带有人像的图像进行深度估计，得到人体像素和背景像素的深度，通过比较两者的深度，来确定人像和背景的相对遮挡关系；

步骤S203，对语义mask进行腐蚀膨胀和高斯滤波处理，并通过导向滤波将已经确定相对遮挡关系的人像和虚拟内容进行融合，得到融合图像；

本实施例中，由于语义mask是一个二值图，例如，人像可以设置为1，背景设置为0，在语义mask估计不是很准确的情况下，如果直接使用这个mask值对人像和背景进行融合，会有很明显的割裂感，因此，需要对mask进行腐蚀膨胀等形态学操作，然后进行高斯滤波处理，最后采用导向滤波将已经确定相对遮挡关系的人像和虚拟内容融合在一起，达到边缘过渡自然的效果，最后得到精致美观的合成照片。

通过上述步骤S201至步骤S203，本申请实施例通过深度神经网络对人体语义进行分割，获得了图像中人体的语义mask，并通过深度估计方法，计算得到人体像素和背景像素的深度，以此来确定人像和背景的相对遮挡关系，最后，针对性的将虚拟内容和虚拟人像进行融合，从而得到更灵活真实的照片，解决了在对处于虚拟场景中的人物进行照相时，存在的人像被虚拟物体遮挡，导致用户体验差的问题，提升了图像质量，提高了用户体验感。

需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例还提供了一种基于深度学习的AR人像拍照系统，该系统用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图5是根据本申请实施例的基于深度学习的AR人像拍照系统的结构框图，如图5所示，该系统包括语义分割模块51、深度估计模块52和图像融合模块53：

语义分割模块51，用于获取带有人像的图像，通过语义深度神经网络对带有人像的图像进行人体语义分割，得到语义mask；深度估计模块52，用于通过带有深度分支的语义深度神经网络对带有人像的图像进行深度估计，得到人体像素的深度，确定图像中人像和虚拟内容的相对遮挡关系；图像融合模块53，用于对语义mask进行腐蚀膨胀和高斯滤波处理，并通过导向滤波将已经确定相对遮挡关系的人像和虚拟内容进行融合，得到融合图像。

通过上述系统，本申请实施例通过语义分割模块51中深度神经网络对人体语义进行分割，获得了图像中人体的语义mask，再通过深度估计模块52的深度估计方法，计算得到人体像素和背景像素的深度，以此来确定人像和背景的相对遮挡关系，最后，通过图像融合模块53针对性的将虚拟内容和虚拟人像进行融合，从而得到更灵活真实的照片，解决了在对处于虚拟场景中的人物进行照相时，存在的人像被虚拟物体遮挡，导致用户体验差的问题，提升了图像质量，提高了用户体验感。

需要说明的是，本申请中其他一些实施例中的具体示例可以参考上述一种基于增强现实的人像拍照方法中的实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

此外，需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

本实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

另外，结合上述实施例中的基于深度学习的AR人像拍照方法，本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种基于深度学习的AR人像拍照方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于深度学习的AR人像拍照方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

在一个实施例中，图6是根据本申请实施例的电子设备的内部结构示意图，如图6所示，提供了一种电子设备，该电子设备可以是服务器，其内部结构图可以如图6所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器，其中，该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力，网络接口用于与外部的终端通过网络连接通信，内存储器用于为操作系统和计算机程序的运行提供环境，计算机程序被处理器执行时以实现一种基于深度学习的AR人像拍照方法，数据库用于存储数据。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域的技术人员应该明白，以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于深度学习的AR人像拍照方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，通过语义深度神经网络对所述带有人像的图像进行人体语义分割，得到语义mask包括：

3.根据权利要求2所述的方法，其特征在于，在通过encode模块对所述图像进行卷积计算之前，所述方法包括：

4.根据权利要求2所述的方法，其特征在于，所述通过decode模块对每层block输出的卷积参数进行计算，输出mask基准还包括：

5.一种基于深度学习的AR人像拍照系统，其特征在于，所述系统包括：

6.根据权利要求5所述的系统，其特征在于，

所述语义分割模块，还用于通过encode模块对所述图像进行卷积计算，输出得到卷积参数，

7.根据权利要求6所述的系统，其特征在于，所述系统还包括图像处理模块，在通过encode模块对所述图像进行卷积计算之前，

8.根据权利要求6所述的系统，其特征在于，

所述语义分割模块，还用于通过FPN对每层Block输出的卷积参数进行上采样，得到特征图信息。

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至4中任一项所述的基于深度学习的AR人像拍照方法。

10.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至4中任一项所述的基于深度学习的AR人像拍照方法。