CN115511937A - 图像的深度图和法线图生成方法、虚拟直播方法以及装置 - Google Patents
图像的深度图和法线图生成方法、虚拟直播方法以及装置 Download PDFInfo
- Publication number
- CN115511937A CN115511937A CN202211198886.6A CN202211198886A CN115511937A CN 115511937 A CN115511937 A CN 115511937A CN 202211198886 A CN202211198886 A CN 202211198886A CN 115511937 A CN115511937 A CN 115511937A
- Authority
- CN
- China
- Prior art keywords
- map
- normal
- depth
- image
- normal map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及计算机视觉技术领域,提出一种图像的深度图和法线图生成方法、虚拟直播方法、装置、计算机设备及存储介质,该方法包括:获取第一样本图像数据集;将每个第一样本图像输入至已训练的第一深度图和法线图预测模型,获得深度估计图和法线估计图;将每个深度估计图输入至已训练的深度图转法线图模型,获得第一法线图;从第一样本图像数据集中获得满足预设条件的若干个第二样本图像;根据每个第二样本图像、第二样本图像对应的第二深度图和第二法线图,获得训练好的第二深度图和法线图预测模型;获取待预测图像;将待预测图像输入至训练好的第二深度图和法线图预测模型,获得深度图和法线图,提高了生成深度图和法线图的准确度。
Description
技术领域
本申请实施例涉及计算机视觉领域以及网络直播技术领域,尤其涉及一种图像的深度图和法线图生成方法、虚拟直播方法、装置、计算机设备及存储介质。
背景技术
深度估计和法线估计是计算机视觉领域的一项基础技术,可广泛应用于三维重建、自动驾驶、图像精细分割、光效渲染以及人脸动画等领域。其中,深度估计是预测RGB图像上每个像素点距离相机平面的距离值,即预测图像上每个点像素点的深度值,而根据图像上每个点像素点的深度值,可以得到RGB图像的深度图,从深度图上可以直观地反映物体表面的几何形状以及物体之间的相对位置关系。法线估计是预测RGB图像上每个像素点所在平面的法线方向,即预测图像上每个像素点的法线向量值,从而得到RGB图像的法线图,法线图可用于计算光线的反射方向。
目前,图像的深度估计和法线估计主要包括深度学习方法。深度学习方法通过获取多帧图像,并根据相邻帧图像计算出相机位姿变换,最后通过单帧图像预测到的深度图进行相邻帧图像的重构,通过重构误差训练神经网络模型。然而,基于相邻帧图像的相机位姿计算存在较大的误差,从而获得的重构误差不精确,使得训练的神经网络模型准确度低,导致输出的深度图和法线图的准确度低。
发明内容
本申请实施例提供了一种图像的深度图和法线图生成方法、虚拟直播方法、装置、计算机设备及存储介质,提高了生成深度图和法线图的准确度。该技术方案如下:
第一方面,本申请实施例提供了一种图像的深度图和法线图生成方法,包括步骤:
获取第一样本图像数据集;所述第一样本图像数据集包括若干个第一样本图像;
将每个所述第一样本图像输入至已训练的第一深度图和法线图预测模型,获得每个所述第一样本图像对应的深度估计图和法线估计图;
将每个所述深度估计图输入至已训练的深度图转法线图模型,获得每个所述第一样本图像对应的第一法线图;
根据所述法线估计图和所述第一法线图,从所述第一样本图像数据集中获得满足预设条件的若干个第二样本图像,获得若干个所述第二样本图像对应的第二深度图和第二法线图;
将每个所述第二样本图像、所述第二样本图像对应的第二深度图和第二法线图输入至第二深度图和法线图预测模型进行训练,获得训练好的第二深度图和法线图预测模型;
获取待预测图像;
将所述待预测图像输入至所述训练好的第二深度图和法线图预测模型,获得所述待预测图像对应的深度图和法线图。
第二方面,本申请实施例提供了一种虚拟直播方法,方法包括如下步骤:
获取场景图像,采用上述所述的图像的深度图和法线图生成方法,生成所述场景图像对应的深度图和法线图;
获取直播间图像,对所述直播间图像进行前景分割,获得主播图像;
将所述主播图像与所述场景图像对应的深度图和法线图进行融合,获得融合图像;
将所述融合图像进行实时渲染显示。
第三方面,本申请实施例提供了一种图像的深度图和法线图生成装置,包括:
数据集获取模块,用于获取第一样本图像数据集;所述第一样本图像数据集包括若干个第一样本图像;
样本图像输入模块,用于将每个所述第一样本图像输入至已训练的第一深度图和法线图预测模型,获得每个所述第一样本图像对应的深度估计图和法线估计图;
深度估计图输入模块,用于将每个所述深度估计图输入至已训练的深度图转法线图模型,获得每个所述第一样本图像对应的第一法线图;
第二样本图像获得模块,用于根据所述法线估计图和所述第一法线图,从所述第一样本图像数据集中获得满足预设条件的若干个第二样本图像,获得若干个所述第二样本图像对应的第二深度图和第二法线图;
模型训练模块,用于将每个所述第二样本图像、所述第二样本图像对应的第二深度图和第二法线图输入至第二深度图和法线图预测模型进行训练,获得训练好的第二深度图和法线图预测模型;
待预测图像获取模块,用于获取待预测图像;
深度图获得模块,用于将所述待预测图像输入至所述训练好的第二深度图和法线图预测模型,获得所述待预测图像对应的深度图和法线图。
第四方面,本申请实施例提供一种虚拟直播装置,包括:
场景图像获取模块,用于获取场景图像,采用上述所述的图像的深度图和法线图生成方法,生成所述场景图像对应的深度图和法线图;
直播间图像获取模块,用于获取直播间图像,对所述直播间图像进行前景分割,获得主播图像;
图像融合模块,用于将所述主播图像与所述场景图像对应的深度图和法线图进行融合,获得融合图像;
图像渲染模块,用于将所述融合图像进行实时渲染显示。
第五方面,本申请实施例提供了一种计算机设备,处理器、存储器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如第一方面或第二方面方法的步骤。
第六方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现如第一方面或第二方面方法的步骤。
本申请实施例通过获取第一样本图像数据集;所述第一样本图像数据集包括若干个第一样本图像;将每个所述第一样本图像输入至已训练的第一深度图和法线图预测模型,获得每个所述第一样本图像对应的深度估计图和法线估计图;将每个所述深度估计图输入至已训练的深度图转法线图模型,获得每个所述第一样本图像对应的第一法线图;根据所述法线估计图和所述第一法线图,从所述第一样本图像数据集中获得满足预设条件的若干个第二样本图像,获得若干个所述第二样本图像对应的第二深度图和第二法线图;将每个所述第二样本图像、所述第二样本图像对应的第二深度图和第二法线图输入至第二深度图和法线图预测模型进行训练,获得训练好的第二深度图和法线图预测模型;获取待预测图像;将所述待预测图像输入至所述训练好的第二深度图和法线图预测模型,获得所述待预测图像对应的深度图和法线图。本申请实施例从第一样本图像数据集中获得第二样本图像,将第二样本图像对应的第二深度图和第二法线图作为深度图和法线图伪标签,根据深度图和法线图伪标签来训练第二深度图和法线图预测模型,获得训练好的第二深度图和法线图预测模型,从而提高了生成深度图和法线图的准确度。
为了更好地理解和实施,下面结合附图详细说明本申请的技术方案。
附图说明
图1为本申请实施例提供的图像的深度图和法线图生成方法的应用场景示意图;
图2为本申请第一实施例提供的图像的深度图和法线图生成方法的流程示意图;
图3为本申请实施例提供的图像的深度图和法线图生成方法中S40的流程示意图;
图4为本申请实施例提供的图像的深度图和法线图生成方法中S401的流程示意图;
图5为本申请实施例提供的图像的深度图和法线图生成方法中S402的流程示意图;
图6为本申请实施例提供的图像的深度图和法线图生成方法中S50的流程示意图;
图7为本申请实施例提供的图像的深度图和法线图生成方法中S200的流程示意图;
图8为本申请实施例提供的图像的深度图和法线图生成方法中S503的流程示意图;
图9为本申请第二实施例提供的虚拟直播方法的流程示意图;
图10为本申请第三实施例提供的图像的深度图和法线图生成装置的结构示意图;
图11为本申请第四实施例提供的虚拟直播装置的结构示意图;
图12为本申请第五实施例提供的计算机设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本领域技术人员可以理解,本申请所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务端”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的计算机设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务端”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
本申请提供的图像的深度图和法线图生成方法可以用于任意三维图像的深度图和法线图生成,具体可以基于深度图和法线图用于三维图像的三维重建以及光效渲染等应用场景,本申请实施例以应用于直播间图像的深度图和法线图生成,具体为直播间图像的背景灯光特效渲染为例进行说明。
请参阅图1,图1为本申请实施例提供的图像的深度图和法线图生成方法的应用场景示意图,该应用场景包括本申请实施例提供的主播客户端101、服务端102和观众客户端103,主播客户端101与观众客户端103通过服务端102进行交互。
其中,主播客户端101是指发送网络直播视频的一端,通常来说是网络直播中主播(即,直播主播用户)所采用的客户端。
观众客户端103是指接收和观看网络直播视频的一端,通常来说是网络直播中观看视频的观众(即,直播观众用户)所采用的客户端。
主播客户端101和观众客户端103所指向的硬件,本质上是指计算机设备,具体地,如图1所示,其可以是智能手机、智能交互平板和个人计算机等类型的计算机设备。主播客户端101和观众客户端103均可以通过公知的网络接入方式接入互联网,与服务端102建立数据通信链路。
服务端102作为一个业务服务器,其可以负责进一步连接起相关音频数据服务器、视频流服务器以及其他提供相关支持的服务器等,以此构成逻辑上相关联的服务机群,来为相关的终端设备,例如图1中所示的主播客户端101和观众客户端103提供服务。
本申请实施例中,主播客户端101与观众客户端103可以加入同一个直播间(即直播频道),上述的直播间是指依靠互联网技术实现的一种聊天室,通常具备音视频播控功能。主播用户通过主播客户端101在直播间内进行直播,观众客户端103的观众可以登录服务端102进入直播间观看上直播。
在直播间内,主播与观众之间可通过语音、视频、文字等公知的线上交互方式来实现互动,普通是主播用户以音视频流的形式为观众表演节目,并且在互动过程中还可产生资源交互行为,例如观众客户端103对同一直播间的主播客户端101赠送虚拟礼物。当然,直播间的应用形态并不局限于在线娱乐,也可推广到其他相关场景中,例如:用户配对互动场景、视频会议场景、在线教学场景、产品推介销售场景以及其他任何需要类似互动的场景中。
具体地,观众观看直播的过程如下:观众可以点击访问安装在观众客户端103上的直播应用程序,并选择进入任意一个直播间,触发观众客户端103为该观众加载直播间界面,该直播间界面内包括若干交互组件,通过加载这些交互组件可以使观众在直播间内观看直播,并进行多种线上互动。
目前,在网络直播中,通过生成RGB图像的深度图和法线图,可以应用于3D打光、虚实互动和各种AR特效等场景,从而可以降低主播的开播成本和开播的复杂度,并产生高质量、高效的互动内容,提高直播间观众的留存率。
但是,现有技术中生成的深度图和法线图准确度不高,导致应用于3D打光、虚实互动和各种AR特效等场景的效果不佳,影响主播的开播体验和观众的观看体验。
请参阅图2,图2为本申请第一实施例提供的图像的深度图和法线图生成方法的流程示意图,该方法包括如下步骤:
S10:获取第一样本图像数据集;第一样本图像数据集包括若干个第一样本图像。
在本申请实施例中,第一样本图像数据集可以是COCO数据集或Place2数据集,也可以是从COCO数据集或Place2数据集选取一部分图像,组成第一样本图像数据集。其中,COCO数据集是一个大型的物体检测、分割和字符的数据集。Places2数据集总共包含超过1000万张图片,其中包含400多个独特的场景类别。该数据集每个分类具有5000至30000个训练图像,与现实世界中的场景频次一致。
S20:将每个第一样本图像输入至已训练的第一深度图和法线图预测模型,获得每个第一样本图像对应的深度估计图和法线估计图。
其中,已训练的第一深度图和法线图预测模型可以根据任意输入图像,输出深度估计图和法线估计图。具体地,已训练的第一深度图和法线图预测模型可以是密集预测变换(dense prediction transformer,简称DPT)模型。由于DPT模型参数量大、计算量大,导致内存资源、计算资源消耗大,不利于在移动端进行应用。但是,DPT模型使用的图像训练集覆盖业务场景广,DPT模型泛化能力强。
在本申请实施例中,仅仅将DPT模型输出的深度图和法线图作为后续模型训练的监督标签,以使训练的模型覆盖更多业务场景,提高模型的泛化能力,增强模型的鲁棒性。
具体地,将第一样本图像输入至已训练的第一深度图和法线图预测模型,可以获得与第一样本图像对应的深度估计图和法线估计图。
S30:将每个深度估计图输入至已训练的深度图转法线图模型,获得每个第一样本图像对应的第一法线图。
其中,已训练的深度图转法线图模型可以是机器学习模型,也可以深度神经网络学习模型,可以根据任意输入的深度图,输出法线图。
在本申请实施例中,将第一样本图像的深度估计图输入至已训练的深度图转法线图模型,可以获得与第一样本图像对应的第一法线图。
S40:根据法线估计图和第一法线图,从第一样本图像数据集中获得满足预设条件的若干个第二样本图像,获得若干个第二样本图像对应的第二深度图和第二法线图。
在本申请实施例中,可以将每个第一样本图像对应的法线估计图和第一法线图进行相似度度量,获得相似度度量结果。根据相似度度量结果以及预设条件从第一样本图像数据集中筛选若干个第二样本图像。具体地,根据相似度度量结果以及预设条件判断第一样本图像对应的深度估计图和法线估计图是否优质,将深度估计图和法线估计图优质的第一样本图像作为第二样本图像,获得若干个第二样本图像对应的第二深度图和第二法线图。
S50:将每个第二样本图像、第二样本图像对应的第二深度图和第二法线图输入至第二深度图和法线图预测模型进行训练,获得训练好的第二深度图和法线图预测模型。
在本申请实施例中,将若干个第二样本图像、若干个第二样本图像对应的第二深度图和第二法线图作为第二深度图和法线图预测模型的训练集,对第二深度图和法线图预测模型进行训练,获得训练好的第二深度图和法线图预测模型。
其中,第二深度图和法线图预测模型的参数量小、计算量小,从而内存资源占用小、计算资源消耗小,适合在移动端进行使用。具体地,第二深度图和法线图预测模型采用U-Net网络结构,包括编码器、解码器、深度图预测头部网络以及法线图预测头部网络。具体地,以MobileNet V3网络作为编码器,编码器的输出作为解码器的输入,解码器的输出分别作为深度图预测头部网络以及法线图预测头部网络的输入,深度图预测头部网络和法线图预测头部网络均由一层卷积网络加上一层Relu构成。训练好的第二深度图和法线图预测模型结构简单,使用较少数量的卷积网络层和Relu层,可以在移动端实时运行,并且输出准确度高的深度图和法线图。
S60:获取待预测图像。
在本申请实施例中,待预测图像可以是用户输入的任意RGB图像。
S70:将待预测图像输入至训练好的第二深度图和法线图预测模型,获得待预测图像对应的深度图和法线图。
在本申请实施例中,训练好的第二深度图和法线图预测模型,根据任意输入的待预测图像,可以获得对应的深度图和法线图。
应用本申请实施例,通过已训练的第一深度图和法线图预测模型,获得深度估计图和法线估计图,通过深度估计图以及已训练的深度图转法线图模型,获得第一法线图,并根据第一法线图和法线估计图筛选出第二样本图像,再通过将第二样本图像对应的第二深度图和第二法线图对第二深度图和法线图预测模型进行监督训练,获得训练好的第二深度图和法线图预测模型,从而提高了模型的泛化能力,增强了模型的鲁棒性。同时,相比于相邻帧图像的相机位姿计算,获得重构误差方式来训练模型,本申请通过监督训练,提高了模型的训练准确度,从而提高了生成深度图和法线图的准确度。
在一个可选的实施例中,请参阅图3,步骤S40根据法线估计图和第一法线图,从第一样本图像数据集中获得满足预设条件的若干个第二样本图像,获得若干个第二样本图像对应的第二深度图和第二法线图的步骤,包括步骤S401~S402,具体如下:
S401:对每个第一样本图像对应的法线估计图和第一法线图进行相似度度量,获得每个第一样本图像对应的第一置信度图;
S402:根据第一置信度图,从第一样本图像数据集中获得满足预设条件的若干个第二样本图像,获得若干个第二样本图像对应的第二深度图和第二法线图。
在本申请实施例中,相似度度量可以是计算余弦相似度(Cosine similarity),对应的第一置信度图中每个像素点的像素值为余弦相似度值。也可以是计算结构相似度(Structural Similarity,简称SSIM),对应的第一置信度图中每个像素点的像素值为结构相似度值。预设条件可以是第一置信度图中所有像素点的像素值的平均值大于预设阈值,也可以是所有像素点的像素值的方差小于预设阈值。
通过对每个第一样本图像对应的法线估计图和第一法线图进行相似度度量,可以自动快捷地从样本图像数据集筛选出若干个第二样本图像。
在一个可选的实施例中,请参阅图4,步骤S401对每个第一样本图像对应的法线估计图和第一法线图进行相似度度量,获得每个第一样本图像对应的第一置信度图的步骤,包括S4011~S4013,具体如下:
S4011:获取每个第一样本图像对应的法线估计图中每个像素点的法线向量值和每个第一样本图像对应的第一法线图中相应像素点的法线向量值;
S4012:计算法线估计图中每个像素点的法线向量值与第一法线图中相应像素点的法线向量值之间的夹角余弦值;
S4013:将夹角余弦值作为每个像素点的像素值,获得每个第一样本图像对应的第一置信度图。
其中,余弦相似度是指将两个向量夹角间的余弦值作为衡量两个向量之间差异的大小,余弦值接近1,夹角趋于0,表明两个向量越相似,余弦值接近于0,夹角趋于90度,表明两个向量越不相似。
在本申请实施例中,通过计算法线估计图和第一法线图的余弦相似度,获得第一置信度图。具体地,是通过计算法线估计图中每个像素点的法线向量值与第一法线图中相应像素点的法线向量值之间的夹角余弦值,将夹角余弦值作为第一置信度图中相应像素点的像素值。
通过计算法线估计图和第一法线图的余弦相似度,可以自动快捷地获得第一置信度图。
在一个可选的实施例中,请参阅图5,步骤S402根据第一置信度图,从第一样本图像数据集中获得满足预设条件的若干个第二样本图像,获得若干个第二样本图像对应的第二深度图和第二法线图的步骤,包括S4021~S4022,具体如下:
S4021:将每个第一样本图像对应的第一置信度图中所有像素点的像素值求平均,获得每个第一样本图像对应的全局置信度值;
S4022:遍历每个全局置信度值,若当前全局置信度值大于或等于预设阈值,将当前全局置信度值对应的第一样本图像作为第二样本图像,获得第二样本图像对应的第二深度图和第二法线图。
在本申请实施例中,将每个第一样本图像对应的全局置信度值与预设阈值进行比较,根据比较结果筛选出第二样本图像。具体地,将大于或等于预设阈值的全局置信度值对应的第一样本图像作为第二样本图像。
通过将每个第一样本图像对应的全局置信度值与预设阈值进行比较,可以自动快捷地确定出第二样本图像。
在一个可选的实施例中,请参阅图6,步骤S50将每个第二样本图像、第二样本图像对应的第二深度图和第二法线图输入至第二深度图和法线图预测模型进行训练,获得训练好的第二深度图和法线图预测模型的步骤,包括步骤S501~S504,具体如下:
S501:将每个第二样本图像输入至第二深度图和法线图预测模型,获得每个第二样本图像对应的预测深度图和预测法线图;
S502:将预测深度图和第二深度图分别输入至已训练的深度图转法线图模型,获得第三法线图和第四法线图;
S503:对预测法线图和第三法线图进行相似度度量,获得对应的第二置信度图。
在本申请实施例中,获取每个第二样本图像对应的预测法线图中每个像素点的法线向量值和每个第二样本图像对应的第三法线图中相应像素点的法线向量值,计算预测法线图中每个像素点的法线向量值与第三法线图中相应像素点的法线向量值之间的夹角余弦值,将夹角余弦值作为每个像素点的像素值,获得每个第二样本图像对应的第二置信度图。
S504:根据第二深度图、第二法线图、第三法线图、第四法线图、预测深度图、预测法线图以及第二置信度图,对第二深度图和法线图预测模型进行训练,获得训练好的第二深度图和法线图预测模型。
在本申请实施例中,将第二深度图和法线图预测模型和已训练的深度图转法线图模型进行联合训练,从而获得训练好的第二深度图和法线图预测模型。
具体地,可以是根据第二深度图、第二法线图、第三法线图、第四法线图、预测深度图、预测法线图以及第二置信度图构建损失函数,通过损失函数的损失函数值进行反向传播,以梯度下降的方式更新第二深度图和法线图预测模型中编码器、解码器、深度图预测头部网络以及法线图预测头部网络的权重参数,获得训练好的第二深度图和法线图预测模型。
在一个可选的实施例中,步骤S501将每个第二样本图像输入至第二深度图和法线图预测模型,获得每个第二样本图像对应的预测深度图和预测法线图的步骤之前,包括S100~S200,具体如下:
S100:将每个第二样本图像输入第一神经网络学习模型,获得每个第二样本图像对应的初始深度图和初始法线图;
S200:根据每个第二样本图像对应的初始深度图、初始法线图、第二深度图以及第二法线图,对第一神经网络学习模型进行训练,获得第二深度图和法线图预测模型。
在本申请实施例中,将第二深度图以及第二法线图作为第一神经网络学习模型的标签,可以根据初始深度图与第二深度图之间的差值、以及初始法线图与第二法线图之间的差值,构建损失函数,通过损失函数的损失函数值进行反向传播,以梯度下降的方式更新第一神经网络学习模型的权重参数,获得第二深度图和法线图预测模型。
在一个可选的实施例中,请参阅图7,步骤S200根据每个第二样本图像对应的初始深度图、初始法线图、第二深度图以及第二法线图,对第一神经网络学习模型进行训练,获得第二深度图和法线图预测模型的步骤,包括S201~S205,具体如下:
S201:对初始深度图中每个像素点的深度值求平均,获得第三平均深度值;根据初始深度图中每个像素点的深度值以及第三平均深度值,获得第三正则化深度值;
S202:对第二深度图中每个像素点的深度值求平均,获得第四平均深度值;根据第二深度图中每个像素点的深度值以及第四平均深度值,获得第四正则化深度值;
S203:将第三正则化深度值与第四正则化深度值作差求平均,获得第八损失函数;将初始深度图中每个像素点的深度值与第二深度图中相应像素点的深度值作差求梯度,获得第九损失函数。
在本申请实施例中,第八损失函数的表达式如下;
其中,表示第三正则化深度值,表示第四正则化深度值,t(d)表示第三平均深度值,t(d*)表示第四平均深度值,d表示初始深度图中每个像素点的深度值,d*表示第二深度图中每个像素点的深度值,N表示像素点的数量。
S204:将初始法线图中每个像素点的法线向量值与第二法线图相应像素点的法线向量值作差求平均,获得第十损失函数;将初始法线图中每个像素点的法线向量值与第二法线图相应像素点的法线向量值的夹角余弦值求平均,获得第十一损失函数;
S205:根据第八损失函数、第九损失函数、第十损失函数以及第十一损失函数,对第一神经网络学习模型进行训练,获得第二深度图和法线图预测模型。
在本申请实施例中,通过初始深度图、初始法线图、第二深度图以及第二法线图计算第八损失函数、第九损失函数、第十损失函数以及第十一损失函数,从而对第一神经网络学习模型的网络参数进行优化,获得第二深度图和法线图预测模型。
在一个可选的实施例中,请参阅图8,步骤S504根据第二深度图、第二法线图、第三法线图、第四法线图、预测深度图、预测法线图以及第二置信度图,对第二深度图和法线图预测模型进行训练,获得训练好的第二深度图和法线图预测模型的步骤,包括S5031~S5039,具体如下:
S5031:将第二法线图中每个像素点的法线向量值与第三法线图中相应像素点的法线向量值的差,与第二置信度图中相应像素点的像素点值的乘积求平均,获得第一损失函数。
S5032:将第二法线图中每个像素点的法线向量值与第三法线图中相应像素点的法线向量值的夹角余弦值,与第二置信度图中相应像素点的像素点值的乘积求平均,获得第二损失函数;
S5033:将第三法线图中每个像素点的法线向量值与第四法线图中相应像素点的法线向量值作差求平均,获得第三损失函数;
S5034:将第二法线图中每个像素点的法线向量值与预测法线图中相应像素点的法线向量值作差求平均,获得第四损失函数;
S5035:将第二法线图中每个像素点的法线向量值与预测法线图中相应像素点的法线向量值的夹角余弦值求平均,获得第五损失函数;
S5036:对预测深度图中每个像素点的深度值求平均,获得第一平均深度值;根据预测深度图中每个像素点的深度值以及第一平均深度值,获得第一正则化深度值;
S5037:对第二深度图中每个像素点的深度值求平均,获得第二平均深度值;根据第二深度图中每个像素点的深度值以及第二平均深度值,获得第二正则化深度值;
S5038:将第一正则化深度值与第二正则化深度值作差求平均,获得第六损失函数;将预测深度图中每个像素点的深度值与第二深度图中相应像素点的深度值作差求梯度,获得第七损失函数。
在本申请实施例中,步骤S5036~S5038中求解第六损失函数和第七损失函数的过程,可以参考步骤S201~S203中求解第八损失函数和第九损失函数的过程,在此不再赘述。
S5039:根据第一损失函数、第二损失函数、第三损失函数、第四损失函数、第五损失函数、第六损失函数以及第七损失函数,对第二深度图和法线图预测模型进行训练,获得训练好的第二深度图和法线图预测模型。
在本申请实施例中,通过第一损失函数、第二损失函数以及第三损失函数,更新已训练的深度图转法线图模型以及第二深度图和法线图预测模型中编码器、解码器、深度图预测头部网络以及法线图预测头部网络的权重参数,通过第四损失函数和第五损失函数,更新第二深度图和法线图预测模型中编码器、解码器、深度图预测头部网络的权重参数,通过第六损失函数和第七损失函数,更新第二深度图和法线图预测模型中编码器、解码器、法线图预测头部网络的权重参数,获得训练好的第二深度图和法线图预测模型。
在一个可选的实施例中,步骤S30将每个第一深度图输入至已训练的深度图转法线图模型,获得每个第一样本图像对应的第二法线图的步骤之前,包括步骤S301~S302,具体如下:
S301:获取第二样本图像数据集;第二样本图像数据集包括若干个第三样本深度图和对应的第三样本法线图;
S302:将每个第三样本深度图输入至第二神经网络学习模型,获得对应的样本法线图,通过样本法线图和第三样本法线图构建损失函数,根据损失函数,更新第二神经网络学习模型的权重参数,获得已训练的深度图转法线图模型。
在本申请实施例中,第二样本图像数据集可以是Taskonomy室内数据集,共计136个室内模型,100万对数据,包括第三样本深度图和对应的第三样本法线图。基于Taskonomy室内数据集训练第二神经网络学习模型,获得一个根据深度图预测法线图的深度图转法线图模型。
具体地,将第三样本深度图输入至第二神经网络学习模型,获得样本法线图,通过样本法线图和第三样本法线图构建损失函数,根据损失函数,更新第二神经网络学习模型的权重参数,从而获得已训练的深度图转法线图模型。
其中,将样本法线图中每个像素点的法线向量值与第三样本法线图中相应像素点的法线向量值的差求平均,获得第十二损失函数;将样本法线图中每个像素点的法线向量值与第三样本法线图中相应像素点的法线向量值的夹角余弦值求平均,获得第十三损失函数,根据第十二损失函数与第十三损失函数,更新第二神经网络学习模型的权重参数,从而获得已训练的深度图转法线图模型。
第二神经网络学习模型基于Partial Conv卷积层,设计为简单的U-Net网络结构,在训练结束后,在测试集上进行测试,确保深度图转法线图模型是可用的以及鲁棒的。
请参阅图9,为本申请第二实施例提供的虚拟直播方法的流程示意图,可以由主播客户端作为执行体,该方法包括如下步骤:
S100:获取场景图像,采用上述的图像的深度图和法线图生成方法,生成场景图像对应的深度图和法线图。
其中,场景图像可以是主播利用主播客户端的摄像头拍摄的场景图像,也可以是主播客户端预先存储的场景图像。具体地,场景图像可以是室内场景图像,包括灯光、人物、桌椅以及沙发等,也可以室外场景图像,包括自然光、建筑、山川以及河流等。在本申请实施例中,主播客户端获取场景图像,运行已训练的第二深度图和法线图预测模型,获得场景图像对应的深度图和法线图。
S200:获取直播间图像,对直播间图像进行前景分割,获得主播图像。
其中,前景分割是将图像中的前景与背景进行分割,前景分割方法为现有技术,在此不再赘述。在本申请实施例中,直播间图像可以是截取主播直播时的直播间图像,也可以是截取主播开播前的直播间预览图像。对直播间图像进行前景分割,获得主播图像。
S300:将主播图像与场景图像对应的深度图和法线图进行融合,获得融合图像;
S400:将融合图像进行实时渲染显示。
在本申请实施例中,通过渲染器对融合图像进行实时渲染,可以模拟场景图像中的真实效果。具体地,若场景图像包括灯光,可以模拟实际打光效果,包括灯光的颜色,灯光的方向以及灯光的类型等。
主播客户端可以将场景图像对应的深度图和法线图,应用于虚拟直播场景,比如3D打光、虚实互动和各种AR特效。对于3D打光,不需要主播布置真实的背景灯光,从而可以降低主播的开播成本和开播的复杂度,并产生高质量、高效的互动内容,提高直播间观众的留存率。
请参阅图10,为本申请第三实施例提供的图像的深度图和法线图生成装置的结构示意图。该装置可以通过软件、硬件或两者的结合实现成为计算机设备的全部或一部分。该装置9包括:
数据集获取模块91,用于获取第一样本图像数据集;第一样本图像数据集包括若干个第一样本图像;
样本图像输入模块92,用于将每个第一样本图像输入至已训练的第一深度图和法线图预测模型,获得每个第一样本图像对应的深度估计图和法线估计图;
深度估计图输入模块93,用于将每个深度估计图输入至已训练的深度图转法线图模型,获得每个第一样本图像对应的第一法线图;
第二样本图像获得模块94,用于根据法线估计图和第一法线图,从第一样本图像数据集中获得满足预设条件的若干个第二样本图像,获得若干个第二样本图像对应的第二深度图和第二法线图;
模型训练模块95,用于将每个第二样本图像、第二样本图像对应的第二深度图和第二法线图输入至第二深度图和法线图预测模型进行训练,获得训练好的第二深度图和法线图预测模型;
待预测图像获取模块96,用于获取待预测图像;
深度图获得模块97,用于将待预测图像输入至训练好的第二深度图和法线图预测模型,获得待预测图像对应的深度图和法线图。
需要说明的是,上述实施例提供的图像的深度图和法线图生成装置在执行图像的深度图和法线图生成方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分为不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的图像的深度图和法线图生成装置与图像的深度图和法线图生成方法属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
请参阅图11,为本申请第四实施例提供的虚拟直播装置的结构示意图。该装置可以通过软件、硬件或两者的结合实现成为计算机设备的全部或一部分。该装置10包括:
灯光场景图像获取模块101,用于获取灯光场景图像,将灯光场景图像输入至已训练的第二深度图和法线图预测模型,获得灯光场景图像对应的深度图和法线图;其中,已训练的第二深度图和法线图预测模型为权利要求1至4或权利要求6至9任意一项权利要求的图像的深度图和法线图生成方法中的已训练的第二深度图和法线图预测模型;
直播间图像获取模块102,用于获取直播间图像,对直播间图像进行前景分割,获得主播图像;
图像融合模块103,用于将主播图像与灯光场景图像对应的深度图和法线图进行融合,获得融合图像;
图像渲染模块104,用于将融合图像进行实时灯光渲染。
需要说明的是,上述实施例提供的虚拟直播装置在执行虚拟直播方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分为不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的虚拟直播装置与虚拟直播方法属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
请参阅图12,为本申请第五实施例提供的计算机设备的结构示意图。如图12所示,该计算机设备21可以包括:处理器210、存储器211以及存储在该存储器211并可以在该处理器210上运行的计算机程序212,例如:组队互动的直播控制程序;该处理器210执行该计算机程序212时实现上述实施例中的步骤。
其中,该处理器210可以包括一个或多个处理核心。处理器210利用各种接口和线路连接计算机设备21内的各个部分,通过运行或执行存储在存储器211内的指令、程序、代码集或指令集,以及调用存储器211内的数据,执行计算机设备21的各种功能和处理数据,可选的,处理器210可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programble LogicArray,PLA)中的至少一个硬件形式来实现。处理器210可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责触摸显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器210中,单独通过一块芯片进行实现。
其中,存储器211可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器211包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器211可用于存储指令、程序、代码、代码集或指令集。存储器211可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控指令等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器211可选的还可以是至少一个位于远离前述处理器210的存储装置。
本申请实施例还提供了一种计算机存储介质,该计算机存储介质可以存储有多条指令,该指令适用于由处理器加载并执行上述实施例的方法步骤,具体执行过程可以参见上述实施例的具体说明,在此不进行赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。
本发明并不局限于上述实施方式,如果对本发明的各种改动或变形不脱离本发明的精神和范围,倘若这些改动和变形属于本发明的权利要求和等同技术范围之内,则本发明也意图包含这些改动和变形。
Claims (14)
1.一种图像的深度图和法线图生成方法,其特征在于,方法包括如下步骤:
获取第一样本图像数据集;所述第一样本图像数据集包括若干个第一样本图像;
将每个所述第一样本图像输入至已训练的第一深度图和法线图预测模型,获得每个所述第一样本图像对应的深度估计图和法线估计图;
将每个所述深度估计图输入至已训练的深度图转法线图模型,获得每个所述第一样本图像对应的第一法线图;
根据所述法线估计图和所述第一法线图,从所述第一样本图像数据集中获得满足预设条件的若干个第二样本图像,获得若干个所述第二样本图像对应的第二深度图和第二法线图;
将每个所述第二样本图像、所述第二样本图像对应的第二深度图和第二法线图输入至第二深度图和法线图预测模型进行训练,获得训练好的第二深度图和法线图预测模型;
获取待预测图像;
将所述待预测图像输入至所述训练好的第二深度图和法线图预测模型,获得所述待预测图像对应的深度图和法线图。
2.根据权利要求1所述的图像的深度图和法线图生成方法,其特征在于:
所述根据所述法线估计图和所述第一法线图,从所述第一样本图像数据集中获得满足预设条件的若干个第二样本图像,获得若干个所述第二样本图像对应的第二深度图和第二法线图的步骤,包括:
对每个所述第一样本图像对应的所述法线估计图和所述第一法线图进行相似度度量,获得每个所述第一样本图像对应的第一置信度图;
根据所述第一置信度图,从所述第一样本图像数据集中获得满足预设条件的若干个第二样本图像,获得若干个所述第二样本图像对应的第二深度图和第二法线图。
3.根据权利要求2所述的图像的深度图和法线图生成方法,其特征在于:
所述对每个所述第一样本图像对应的所述法线估计图和所述第一法线图进行相似度度量,获得每个所述第一样本图像对应的第一置信度图的步骤,包括:
获取每个所述第一样本图像对应的法线估计图中每个像素点的法线向量值和每个所述第一样本图像对应的第一法线图中相应像素点的法线向量值;
计算所述法线估计图中每个像素点的法线向量值与所述第一法线图中相应像素点的法线向量值之间的夹角余弦值;
将所述夹角余弦值作为每个像素点的像素值,获得每个所述第一样本图像对应的第一置信度图。
4.根据权利要求2所述的图像的深度图和法线图生成方法,其特征在于:
所述根据所述第一置信度图,从所述第一样本图像数据集中获得满足预设条件的若干个第二样本图像,获得若干个所述第二样本图像对应的第二深度图和第二法线图的步骤,包括:
将每个所述第一样本图像对应的第一置信度图中所有像素点的像素值求平均,获得每个所述第一样本图像对应的全局置信度值;
遍历每个所述全局置信度值,若当前全局置信度值大于或等于预设阈值,将所述当前全局置信度值对应的第一样本图像作为第二样本图像,获得所述第二样本图像对应的第二深度图和第二法线图。
5.根据权利要求1至4中任一项权利要求所述的图像的深度图和法线图生成方法,其特征在于:
所述将每个所述第二样本图像、所述第二样本图像对应的第二深度图和第二法线图输入至第二深度图和法线图预测模型进行训练,获得训练好的第二深度图和法线图预测模型的步骤,包括:
将每个所述第二样本图像输入至第二深度图和法线图预测模型,获得每个所述第二样本图像对应的预测深度图和预测法线图;
将所述预测深度图和所述第二深度图分别输入至所述已训练的深度图转法线图模型,获得第三法线图和第四法线图;
对所述预测法线图和所述第三法线图进行相似度度量,获得对应的第二置信度图;
根据所述第二深度图、第二法线图、所述第三法线图、所述第四法线图、所述预测深度图、所述预测法线图以及所述第二置信度图,对所述第二深度图和法线图预测模型进行训练,获得训练好的第二深度图和法线图预测模型。
6.根据权利要求5所述的图像的深度图和法线图生成方法,其特征在于:
所述根据所述第二深度图、第二法线图、所述第三法线图、所述第四法线图、所述预测深度图、所述预测法线图以及所述第二置信度图,对所述第二深度图和法线图预测模型进行训练,获得训练好的第二深度图和法线图预测模型的步骤,包括:
将所述第二法线图中每个像素点的法线向量值与所述第三法线图中相应像素点的法线向量值的差,与所述第二置信度图中相应像素点的像素点值的乘积求平均,获得第一损失函数;
将所述第二法线图中每个像素点的法线向量值与所述第三法线图中相应像素点的法线向量值的夹角余弦值,与所述第二置信度图中相应像素点的像素点值的乘积求平均,获得第二损失函数;
将所述第三法线图中每个像素点的法线向量值与所述第四法线图中相应像素点的法线向量值作差求平均,获得第三损失函数;
将所述第二法线图中每个像素点的法线向量值与所述预测法线图中相应像素点的法线向量值作差求平均,获得第四损失函数;
将所述第二法线图中每个像素点的法线向量值与所述预测法线图中相应像素点的法线向量值的夹角余弦值求平均,获得第五损失函数;
对所述预测深度图中每个像素点的深度值求平均,获得第一平均深度值;根据所述预测深度图中每个像素点的深度值以及所述第一平均深度值,获得第一正则化深度值;
对所述第二深度图中每个像素点的深度值求平均,获得第二平均深度值;根据所述第二深度图中每个像素点的深度值以及所述第二平均深度值,获得第二正则化深度值;
将所述第一正则化深度值与所述第二正则化深度值作差求平均,获得第六损失函数;将所述预测深度图中每个像素点的深度值与所述第二深度图中相应像素点的深度值作差求梯度,获得第七损失函数;
根据所述第一损失函数、所述第二损失函数、所述第三损失函数、所述第四损失函数、所述第五损失函数、所述第六损失函数以及所述第七损失函数,对所述第二深度图和法线图预测模型进行训练,获得训练好的第二深度图和法线图预测模型。
7.根据权利要求6所述的图像的深度图和法线图生成方法,其特征在于:
所述将每个所述第二样本图像输入至第二深度图和法线图预测模型,获得每个所述第二样本图像对应的预测深度图和预测法线图的步骤之前,包括:
将每个所述第二样本图像输入第一神经网络学习模型,获得每个所述第二样本图像对应的初始深度图和初始法线图;
根据每个所述第二样本图像对应的所述初始深度图、所述初始法线图、所述第二深度图以及所述第二法线图,对所述第一神经网络学习模型进行训练,获得第二深度图和法线图预测模型。
8.根据权利要求7所述的图像的深度图和法线图生成方法,其特征在于:
所述根据每个所述第二样本图像对应的所述初始深度图、所述初始法线图、所述第二深度图以及所述第二法线图,对所述第一神经网络学习模型进行训练,获得第二深度图和法线图预测模型的步骤,包括:
对所述初始深度图中每个像素点的深度值求平均,获得第三平均深度值;根据所述初始深度图中每个像素点的深度值以及所述第三平均深度值,获得第三正则化深度值;
对所述第二深度图中每个像素点的深度值求平均,获得第四平均深度值;根据所述第二深度图中每个像素点的深度值以及所述第四平均深度值,获得第四正则化深度值;
将所述第三正则化深度值与所述第四正则化深度值作差求平均,获得第八损失函数;将所述初始深度图中每个像素点的深度值与所述第二深度图中相应像素点的深度值作差求梯度,获得第九损失函数;
将所述初始法线图中每个像素点的法线向量值与所述第二法线图相应像素点的法线向量值作差求平均,获得第十损失函数;将所述初始法线图中每个像素点的法线向量值与所述第二法线图相应像素点的法线向量值的夹角余弦值求平均,获得第十一损失函数;
根据所述第八损失函数、所述第九损失函数、所述第十损失函数以及所述第十一损失函数,对所述第一神经网络学习模型进行训练,获得第二深度图和法线图预测模型。
9.根据权利要求1所述的图像的深度图和法线图生成方法,其特征在于:
所述将每个所述第一深度图输入至已训练的深度图转法线图模型,获得每个所述第一样本图像对应的第二法线图的步骤之前,包括:
获取第二样本图像数据集;所述第二样本图像数据集包括若干个第三样本深度图和对应的第三样本法线图;
将每个所述第三样本深度图输入至第二神经网络学习模型,获得对应的样本法线图,通过所述样本法线图和所述第三样本法线图构建损失函数,根据所述损失函数,更新所述第二神经网络学习模型的权重参数,获得已训练的深度图转法线图模型。
10.一种虚拟直播方法,其特征在于,方法包括如下步骤:
获取场景图像,采用权利要求1至9任意一项权利要求所述的图像的深度图和法线图生成方法,生成所述场景图像对应的深度图和法线图;
获取直播间图像,对所述直播间图像进行前景分割,获得主播图像;
将所述主播图像与所述场景图像对应的深度图和法线图进行融合,获得融合图像;
将所述融合图像进行实时渲染显示。
11.一种图像的深度图和法线图生成装置,其特征在于,包括:
数据集获取模块,用于获取第一样本图像数据集;所述第一样本图像数据集包括若干个第一样本图像;
样本图像输入模块,用于将每个所述第一样本图像输入至已训练的第一深度图和法线图预测模型,获得每个所述第一样本图像对应的深度估计图和法线估计图;
深度估计图输入模块,用于将每个所述深度估计图输入至已训练的深度图转法线图模型,获得每个所述第一样本图像对应的第一法线图;
第二样本图像获得模块,用于根据所述法线估计图和所述第一法线图,从所述第一样本图像数据集中获得满足预设条件的若干个第二样本图像,获得若干个所述第二样本图像对应的第二深度图和第二法线图;
模型训练模块,用于将每个所述第二样本图像、所述第二样本图像对应的第二深度图和第二法线图输入至第二深度图和法线图预测模型进行训练,获得训练好的第二深度图和法线图预测模型;
待预测图像获取模块,用于获取待预测图像;
深度图获得模块,用于将所述待预测图像输入至所述训练好的第二深度图和法线图预测模型,获得所述待预测图像对应的深度图和法线图。
12.一种虚拟直播装置,其特征在于,包括:
场景图像获取模块,用于获取场景图像,采用权利要求1至9任意一项权利要求所述的图像的深度图和法线图生成方法,生成所述场景图像对应的深度图和法线图;
直播间图像获取模块,用于获取直播间图像,对所述直播间图像进行前景分割,获得主播图像;
图像融合模块,用于将所述主播图像与所述场景图像对应的深度图和法线图进行融合,获得融合图像;
图像渲染模块,用于将所述融合图像进行实时渲染显示。
13.一种计算机设备,包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至9任意一项所述方法或权利要求10所述方法的步骤。
14.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至9任意一项所述方法或权利要求10所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211198886.6A CN115511937A (zh) | 2022-09-29 | 2022-09-29 | 图像的深度图和法线图生成方法、虚拟直播方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211198886.6A CN115511937A (zh) | 2022-09-29 | 2022-09-29 | 图像的深度图和法线图生成方法、虚拟直播方法以及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115511937A true CN115511937A (zh) | 2022-12-23 |
Family
ID=84507416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211198886.6A Pending CN115511937A (zh) | 2022-09-29 | 2022-09-29 | 图像的深度图和法线图生成方法、虚拟直播方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115511937A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116645468A (zh) * | 2023-05-05 | 2023-08-25 | 阿里巴巴达摩院(杭州)科技有限公司 | 人体三维建模方法、训练人体结构生成模型的方法及装置 |
-
2022
- 2022-09-29 CN CN202211198886.6A patent/CN115511937A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116645468A (zh) * | 2023-05-05 | 2023-08-25 | 阿里巴巴达摩院(杭州)科技有限公司 | 人体三维建模方法、训练人体结构生成模型的方法及装置 |
CN116645468B (zh) * | 2023-05-05 | 2024-03-26 | 阿里巴巴达摩院(杭州)科技有限公司 | 人体三维建模方法、训练人体结构生成模型的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8917270B2 (en) | Video generation using three-dimensional hulls | |
CN112102500A (zh) | 通过融合现实的虚拟存在系统和方法 | |
KR20220093216A (ko) | 정보 재생 방법, 장치, 컴퓨터 판독 가능 저장 매체 및 전자기기 | |
CN109771951A (zh) | 游戏地图生成的方法、装置、存储介质和电子设备 | |
CN112370784B (zh) | 虚拟场景显示方法、装置、设备以及存储介质 | |
Müller et al. | PanoVC: Pervasive telepresence using mobile phones | |
US20140184596A1 (en) | Image based rendering | |
US20190373278A1 (en) | Video Encoding Methods and Systems for Color and Depth Data Representative of a Virtual Reality Scene | |
KR102441514B1 (ko) | 하이브리드 스트리밍 | |
WO2023071586A1 (zh) | 画面生成方法、装置、设备及介质 | |
US20190164323A1 (en) | Method and program for generating virtual reality contents | |
CN115511937A (zh) | 图像的深度图和法线图生成方法、虚拟直播方法以及装置 | |
CN116524151A (zh) | 用于生成虚拟形象的方法、设备和计算机程序产品 | |
CN116385622B (zh) | 云图处理方法、装置、计算机及可读存储介质 | |
CN112968950A (zh) | 一种轻量级GPU云烘培Web3D实时全局光照渲染管线 | |
EP4262217A1 (en) | System and method enabling private to public media experiences | |
CN114095772B (zh) | 连麦直播下的虚拟对象展示方法、系统及计算机设备 | |
CN116030221A (zh) | 增强现实画面的处理方法、装置、电子设备及存储介质 | |
US20230042078A1 (en) | Encoding and decoding views on volumetric image data | |
CN114222151A (zh) | 开播交互动画的显示方法、装置及计算机设备 | |
US20240171788A1 (en) | High-resolution video generation using image diffusion models | |
US20220092740A1 (en) | Machine learning techniques to create higher resolution compressed data structures representing textures from lower resolution compressed data structures and training therefor | |
US11875462B2 (en) | Systems for augmented reality authoring of remote environments | |
CN116563505B (zh) | 虚拟形象生成方法、装置、电子设备以及存储介质 | |
US20240054657A1 (en) | Frame rate up-conversion using optical flow |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |