CN117593462A - 三维空间场景的融合方法和系统 - Google Patents

三维空间场景的融合方法和系统 Download PDF

Info

Publication number
CN117593462A
CN117593462A CN202311629700.2A CN202311629700A CN117593462A CN 117593462 A CN117593462 A CN 117593462A CN 202311629700 A CN202311629700 A CN 202311629700A CN 117593462 A CN117593462 A CN 117593462A
Authority
CN
China
Prior art keywords
fuzzy
portrait
definition
image
blurred
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311629700.2A
Other languages
English (en)
Other versions
CN117593462B (zh
Inventor
罗晋
克里格·托米
陈怀中
约翰·帕特里克·休斯
蔡蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
John Hughes Ningbo Vision Technology Co ltd
Original Assignee
John Hughes Ningbo Vision Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by John Hughes Ningbo Vision Technology Co ltd filed Critical John Hughes Ningbo Vision Technology Co ltd
Priority to CN202311629700.2A priority Critical patent/CN117593462B/zh
Publication of CN117593462A publication Critical patent/CN117593462A/zh
Application granted granted Critical
Publication of CN117593462B publication Critical patent/CN117593462B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Graphics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Architecture (AREA)
  • Geometry (AREA)
  • Computer Hardware Design (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请实施例提供了一种三维空间场景的融合方法和系统,该方法包括以下步骤:获取人像素材集,并使用所述人像素材集对人像去模糊模型进行训练,所述人像素材集包括多个人像对,每个人像对包括一张模糊人像以及对应的高清人像;获取与三维空间场景关联的二维模糊人像和二维场景图像,将所述二维模糊人像输入到所述人像去模糊模型,得到与所述二维模糊人像对应的二维高清人像;对所述二维高清人像和所述二维场景图像进行融合,得到三维空间场景。本申请实施例通过合成与高清人像集中的每张高清人像对应的模糊人像,并作为对人像去模糊模型进行训练的人像素材集,能够对二维模糊人像进行去模糊,进而提升三维空间场景的仿真效果。

Description

三维空间场景的融合方法和系统
技术领域
本申请属于虚拟制作技术领域,具体涉及一种三维空间场景的融合方法和系统。
背景技术
随着观众对影视节目要求的不断增加,视频在制作过程中需要大量的使用视频特技以达到渲染素材的效果。然而影视剧拍摄的主要场景和环境载体是影棚,在影视拍摄、制作和视觉特效技术发展的历程中,数字影棚经历了几次技术的更迭:第一代数字影棚采用绿色或蓝色的滤色涂层背景,拍摄时手工记录角色-摄影机之间的位置关系和光照强度、角度等,后期制作时跟踪所记录的数据,与实拍或计算机制作的景、物、角色实现视觉特效合成和高分辨率渲染。第二代数字影棚采用绿色或蓝色的滤色涂层背景,或有一部分远、中景用大幅LED屏,拍摄时仍需手工记录角色-摄影机之间的位置关系和光照强度、角度等,现场与事先制作的可视化数字场景在现场的计算机和数据服务器上进行初步合成,在后期制作时利用现场合成和渲染的片段,完成优化的视觉特效合成和高分辨率渲染。
然而,在拍摄过程中的镜头抖动或拍摄对象的快速移动,往往会造成运动人像模糊,进而导致融合得到的三维空间场景的仿真效果较差。
发明内容
本申请实施例的目的是提供一种三维空间场景的融合方法和系统,能够有效解决三维空间场景的仿真效果较差的缺陷。
第一方面,本申请实施例提供了一种三维空间场景的融合方法,包括以下步骤:
获取人像素材集,并使用所述人像素材集对人像去模糊模型进行训练,所述人像素材集包括多个人像对,每个人像对包括一张模糊人像以及对应的高清人像;
获取与三维空间场景关联的二维模糊人像和二维场景图像,将所述二维模糊人像输入到所述人像去模糊模型,得到与所述二维模糊人像对应的二维高清人像;
对所述二维高清人像和所述二维场景图像进行融合,得到三维空间场景;
其中,所述获取人像素材集,具体包括:
获取模糊人像集,将所述模糊人像集中的每张模糊人像输入神经网络,得到与每张模糊人像对应的模糊核特征图及置信度热图;
获取高清人像集,并针对所述高清人像集中的每张高清人像,从所述模糊人像集中筛选与所述高清人像的人脸姿态匹配的第一模糊人像;
根据所述高清人像集中的每张高清人像和筛选出的第一模糊人像对应的模糊核特征图及置信度热图,分别合成与每张高清人像对应的第二模糊人像,并将所述高清人像集中的每张高清人像以及根据所述高清人像合成得到的第二模糊人像,作为人像数据对添加到人像素材集中。
第二方面,本申请实施例提供了一种三维空间场景的融合系统,包括:
获取模块,用于获取人像素材集;
训练模块,用于并使用所述人像素材集对人像去模糊模型进行训练,所述人像素材集包括多个人像对,每个人像对包括一张模糊人像以及对应的高清人像;
输入模块,用于获取与三维空间场景关联的二维模糊人像和二维场景图像,将所述二维模糊人像输入到所述人像去模糊模型,得到与所述二维模糊人像对应的二维高清人像;
融合模块,用于对所述二维高清人像和所述二维场景图像进行融合,得到三维空间场景;
其中,所述获取模块,具体包括:
第一获取子模块,用于获取模糊人像集,将所述模糊人像集中的每张模糊人像输入神经网络,得到与每张模糊人像对应的模糊核特征图及置信度热图;
第二获取子模块,用于获取高清人像集,并针对所述高清人像集中的每张高清人像,从所述模糊人像集中筛选与所述高清人像的人脸姿态匹配的第一模糊人像;
合成子模块,用于根据所述高清人像集中的每张高清人像和筛选出的第一模糊人像对应的模糊核特征图及置信度热图,分别合成与每张高清人像对应的第二模糊人像,并将所述高清人像集中的每张高清人像以及根据所述高清人像合成得到的第二模糊人像,作为人像数据对添加到人像素材集中。
第三方面,本申请实施例提供了一种电子设备,包括处理器,存储器及存储在存储器上并可在处理器上运行的程序或指令,程序或指令被处理器执行时实现如第一方面提供的三维空间场景的融合方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,该可读存储介质上存储程序或指令,该程序或指令被处理器执行时实现如第一方面提供的三维空间场景的融合方法的步骤。
第五方面,本申请实施例提供了一种芯片,该芯片包括处理器和通信接口,该通信接口和该处理器耦合,该处理器用于运行程序或指令,实现如第一方面提供的三维空间场景的融合方法的步骤。
第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面提供的三维空间场景的融合方法的步骤。
在本申请实施例中,通过神经网络的计算得到模糊人像对应的模糊核特征图及置信度热图,能够合成与高清人像集中的每张高清人像对应的模糊人像,并作为对人像去模糊模型进行训练的人像素材集,从而通过人像去模糊模型,得到与二维模糊人像对应的二维高清人像,进而提升三维空间场景的仿真效果。
附图说明
图1示出了本申请实施例中的三维空间场景的融合方法的流程图;
图2示出了本申请实施例中的人像素材集的构建方法的流程图之一
图3示出了本申请实施例中的人脸姿态的示意图;
图4示出了本申请实施例中的人像素材集的构建方法的流程图之二;
图5示出了本申请实施例中的三维空间场景的融合系统的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的一种三维空间场景的融合方法和系统进行详细地说明。
如图1所示,为本申请实施例中的三维空间场景的融合方法的流程图,包括以下步骤:
步骤101、获取人像素材集,并使用所述人像素材集对人像去模糊模型进行训练。
其中,所述人像素材集包括多个人像对,每个人像对包括一张模糊人像以及对应的高清人像。
具体地,可以获取模糊人像集,将所述模糊人像集中的每张模糊人像输入神经网络,得到与每张模糊人像对应的模糊核特征图及置信度热图;获取高清人像集,并针对所述高清人像集中的每张高清人像,从所述模糊人像集中筛选与所述高清人像的人脸姿态匹配的第一模糊人像;根据所述高清人像集中的每张高清人像和筛选出的第一模糊人像对应的模糊核特征图及置信度热图,分别合成与每张高清人像对应的第二模糊人像,并将所述高清人像集中的每张高清人像以及根据所述高清人像合成得到的第二模糊人像,作为人像数据对添加到人像素材集中。
本实施例中,可以针对所述高清人像集中的每张高清人像,计算所述高清人像中的人脸相对于标准坐标系的第一偏航角、第一翻转角和第一俯仰角;从所述模糊人像集中遍历模糊人像,并针对遍历到的模糊人像,计算所述模糊人像中的人脸相对于标准坐标系的第二偏航角、第二翻转角和第二俯仰角;在所述第一偏航角与所述第二偏航角的差值小于或等于第一预设阈值,所述第一翻转角与所述第二翻转角的差值小于或等于第二预设阈值,且所述第一俯仰角与所述第二俯仰角的差值小于或等于第三预设阈值的情况下,确定所述遍历到的模糊人像与所述高清人像的人脸姿态匹配。
步骤102、获取与三维空间场景关联的二维模糊人像和二维场景图像,将所述二维模糊人像输入到所述人像去模糊模型,得到与所述二维模糊人像对应的二维高清人像;
步骤103、对所述二维高清人像和所述二维场景图像进行融合,得到三维空间场景。
具体地,可以获取二维高清人像和二维场景图像对应的拍摄参数;根据拍摄参数获取对应的运动轨迹与运动姿态;获取三维空间场景,并根据运动轨迹与运动姿态在三维空间场景中加载二维高清人像和二维场景图像,获得二维高清人像和二维场景图像对应的初始坐标;根据拍摄参数以及二维高清人像和二维场景图像计算二维高清人像和二维场景图像在三维空间场景中的投影坐标;根据投影坐标对初始坐标进行调整,获得调整后的坐标;根据调整后的坐标将二维高清人像和二维场景图像与三维空间场景进行融合。
本实施例中,神经网络的输出通道数可以为25;相应地,可以将所述模糊人像集中的每张模糊人像输入神经网络,得到与每张模糊人像对应的25个输出通道下的模糊核特征图及置信度热图。
具体地,可以将所述所述模糊人像集中的每张模糊人像分别输入所述神经网络,通过所述神经网络对每张模糊人像进行卷积、下采样、池化和上采样处理,并通过归一化运算得到与每张模糊人像对应的模糊核特征图;通过所述神经网络对每张模糊人像进行卷积、下采样和上采样处理,并通过归一化运算得到与每张模糊人像对应的置信度热图。
其中,不同通道输出的模糊核特征图的方向不同,且不同的模糊核特征图对应的置信度热图也不同,每个输出通道下的置信度热图用于表征对应的模糊核特征图在输入到所述神经网络的模糊人像上的置信度。
进一步地,还可以通过以下公式分别计算与所述高清人像集中的每张高清人像对应的第二模糊人像:
其中,Ic为所述高清图像,ki为将所述第一模糊人像输入到所述神经网络后,所述神经网络的第i个输出通道下的模糊核特征图,Ci为将所述第一模糊人像输入到所述神经网络后,所述神经网络的第i输出通道下的置信度热图,*为卷积运算,⊙为逐像素相乘运算,Ib为所述高清人像对应的第二模糊人像。
本申请实施例中,通过神经网络的计算得到模糊人像对应的模糊核特征图及置信度热图,能够合成与高清人像集中的每张高清人像对应的模糊人像,并作为对人像去模糊模型进行训练的人像素材集,从而通过人像去模糊模型,得到与二维模糊人像对应的二维高清人像,进而提升三维空间场景的仿真效果。
图2示出了本申请实施例中的人像素材集的构建方法的流程图之一,包括以下步骤:
步骤201、获取模糊人像集和高清人像集。
其中,模糊人像集中的模糊人像是指被拍摄主体的边缘模糊,出现“拖影”或对焦不准确等情况的图像,例如,在被拍摄主体运动的情况下,会产生“拖影”或对接错误的现象,从而导致图像中的被拍摄主体呈现模糊的状态。
本实施例中,模糊人像可以是真人图像,通过收集可以得到开源的人像模糊的图像数据集,例如真实模糊(RealBlur)数据集,此类真实人像模糊数据集采用分光镜拍摄,两枚镜头分别设置不同的快门速度,从而采集清晰-模糊的人像数据对,其中模糊人像数据可作为第一模糊主体图像的数据集。
或者,通过相机实拍采集数据,由于开源数据通常难以覆盖所有场景,如开源数据集快门参数固定,运动模糊程度单一,且环境场景单一,因此可自行设置快门参数,变化环境场景条件,模拟更多的人体运动动作,提升第一模糊主体图像的数据集丰富性。
其中,高清人像集中的高清人像是指被拍摄主体的边缘清晰,无“拖影”或对焦不准确等情况的图像,例如,图像中的被摄主体边缘清晰,对焦准确,无“拖影”。
其中,开源高清人像数据集的数量众多,且覆盖了不同人种、场景,有很好的泛化性,因此,可以将开源高清人像数据集中的图像作为清晰主体图像,开源高清人像数据集可以是名人(Celeba)数据集或高清人脸数据集(Flickr-Faces-Hight-Quality,FFhq)数据集。
步骤202、将模糊人像集中的每张模糊人像输入神经网络输入神经网络,得到与每张模糊人像对应的模糊核特征图及置信度热图。
步骤203、针对高清人像集中的每张高清人像,从模糊人像集中筛选与高清人像的人脸姿态匹配的第一模糊人像。
步骤204、根据高清人像集中的每张高清人像和筛选出的第一模糊人像对应的模糊核特征图及置信度热图,分别合成与每张高清人像对应的第二模糊人像。
具体地,根据第一模糊人像对应的模糊核特征图及置信度热图,计算得到与每张高清人像对应的第二模糊人像,从而可以通过小批量的第一模糊人像,匹配大批量的高清人像,并快速生成与高清人像所对应的第二模糊人像,无需采用特点设备拍摄,极大地降低了数据采集的成本。
其中,将模糊人像输入神经网络,通过计算可以得到多个特征图和多个置信度热图。
具体地,将模糊人像输入神经网络,通过计算得到多个特征图和多个置信度热图,也就是一个模糊人像可以对应多个特征图和多个置信度热图,从而可以反映出模糊人像的不同区域的模糊形式和模糊强度,能够真实地反映人像运动场景的模糊结构,有效提升数据的质量。
步骤205、将高清人像集中的每张高清人像以及根据高清人像合成得到的第二模糊人像,作为人像数据对添加到人像素材集中。
具体地,将高清人像和对应的第二模糊人像建立成人像数据对,以供人像去模糊模型训练时使用。
如上述方法,可以将大批量的高清人像和小批量的模糊人像匹配,快速生成高清人像对应的第二模糊人像,无需采用特点设备拍摄,极大地降低了数据采集的成本。
作为一种可能的实施方式,将模糊人像输入神经网络,计算得到特征图和置信度热图之前,还包括:计算高清人像中人脸的第一坐标参数;计算模糊人像中人脸的第二坐标参数;对比第一坐标参数和第二坐标参数;在第一坐标参数和第二坐标参数的差值小于或等于阈值的情况下,确定模糊人像与高清人像匹配,也就是,通过对比人脸姿态,能够确保对高清人像的模糊效果。
并且,可以利用模糊人像的模糊状态情况,对高清人像进行模糊处理,从而可以将和模糊人像相近的高清人像进行大批量的模糊处理,提升获得数据的效率。
其中,通过人脸姿态估计算法计算高清人脸旋转姿态。该算法可以输出人脸的三个方位角,如图3所示,yaw,roll,pitch三个方位角分别代表人脸相对于标准坐标系的偏航角、翻转角和俯仰角。对一张人像图片,通过人脸姿态估计算法计算得到人像图的人脸的方位角yaw1,roll1,pitch1,然后从第一模糊主体图像组成的数据集中随机选取一张第一模糊主体图像,计算模糊人脸的方位角yaw2,roll2,pitch2,并与上述人脸的方位角计算角度差值,若角度差值大于设定阈值,则重新选取模糊图像,直至角度差值小于或等于阈值,从而保证第二模糊主体图像和清晰主体图像有相近的人脸姿态,使模糊程度尽可能与人脸姿态相符,本申请设定阈值可以是yaw方向的阈值Y的值小于等于10,roll方向的阈值R的值小于等于10,pitch方向的阈值P的值小于等于10。
作为一种可能的实施方式,根据高清人像、特征图和置信度热图,计算得到第二模糊人像,具体包括:将高清人像和特征图进行卷积运算,将卷积运算结果和置信度热图进行逐像素相乘运算,得到第二模糊人像。
具体地,可以通过公式:计算第二模糊人像,其中,Ic为高清人像,ki为i通道的特征图,Ci为i通道的置信度热图,*为卷积运算,⊙为逐像素相乘运算,Ib为输出的第二模糊人像,m为特征图的数量。m可以等于2、5、10、15、20、25、30或35等等。
由此可得高清人像对应的第二模糊人像,从而完成模糊核迁移过程。之后,对开源高清人像数据集中的每一张清晰主体图像,进行以上过程,即可合成对应的第三模糊主图像,得到高清-模糊人像数据对,从而获得非一致性人像运动模糊数据集。
作为一种可能的实施方式,将模糊人像输入神经网络,计算得到特征图,包括:将模糊人像输入神经网络,以供神经网络对模糊人像进行卷积、下采样、池化和上采样处理,并通过归一化运算得到特征图。
作为一种可能的实施方式,将模糊人像输入神经网络,计算得到置信度热图,包括:将模糊人像输入神经网络,以供神经网络对模糊人像进行卷积、下采样和上采样处理,并通过归一化运算得到置信度热图。
其中,输入的模糊人像为RGB向量,其数据维度为(h,w,c),其中h为图像高度,w为图像宽度,c为图像通道数,本申请中可以设置,h=512,w=512,c=3。
具体地,神经网络包括第一卷积层、下采样模块、第二卷积层、池化模块、全局平均池化模块、第一上采样模块、第二上采样模块、第三卷积层和第四卷积层。
其中,下采样模块的输入特征维度为(h,w,c),卷积层a的卷积核尺寸为3,步长为1,输入通道数为c,输出通道数为s,卷积层b的卷积核尺寸为3,步长为1,输入通道数为c,输出通道数为s,最大池化层核尺寸为3,步长为1,由此进行卷积计算可得中间特征a和中间特征b的维度均为(h,w,s),输出特征维度为(h÷2,w÷2,s)。
上采样模块的输入特征维度(h,w,c),中间特征维度(h,w,c1),双线性上采样层采样倍数为2,输入通道数为c,输出通道数为c,卷积层d的卷积核尺寸为3,步长为1,输入通道数为c,输出通道数为c÷2,卷积层e的卷积核尺寸为3,步长为1,输入通道数为c÷2,输出通道数为c÷2,卷积层e的输出特征与中间特征级联,作为卷积层c的输入,卷积层f的卷积核尺寸为3,步长为1,输入通道数为c1×c+c÷2,输出通道数为s,由此可得上采样模块输出特征维度为(2×h,2×w,s)。
全局平均池化模块的输入特征维度(h,w,c),全局平均池化模块输出维度为(1,1,c),拷贝层拷贝倍数为s,则输出特征维度为(s,s,c)。
具体地,第一卷积层的输入维度为(512,512,3),卷积核尺寸为3,步长为1,输出通道数为64,则输出维度为(512,512,64)。
第二卷积层的输入维度为(16,16,1024),卷积核尺寸为3,步长为1,输出通道数为1024,则输出特征维度为(16,16,1024)。
全局平均池化层以第二卷积层的输出特征为输入,维度为(16,16,1024),输出特征维度为(1,1,1024)。
第三卷积层的输入维度为((32,32,64),卷积核尺寸为3,步长为1,输出通道数为25,则输出维度为(32,32,25)。
第三卷积层输出特征经归一化指数函数(softmax)运算后,即可得到特征图,特征维度为(32,32,25),其中,32表示特征图尺寸,25表示卷积核个数。也就是,一个第二模糊主体图像处理后得到25个特征图。
其中,第三卷积层的归一化函数为:
其中,z表示特征图,i表示通道数,zi表示第三卷积层输出特征的第一i个通道的通道图,k表示通道个数,e为数学常数,e=2.718,25为通道总数,在其他实施例中,通道的总数还可以是其他值。通过softmax运算将输出特征中各个像素的原始特征值归一化为0-1之间,从而对第三卷积层输出特征的各个通道都进行归一化运算后,就可以得到特征图,特征维度为(32,32,25),其中,32表示特征图的尺寸,25表示特征图的通道数量,特征图的每个通道图表征不同的运动模糊形式。
第四卷积层的输入维度为(512,512,64),卷积核尺寸为3,步长为1,输出通道数为25,则输出维度为(512,512,25),第四卷积层输出特征经过归一化运算softmax后,得到置信度热图,其维度为(256,256,25),其中,置信度热图的通道图和特征图的通道图一一对应,表征对应特征图在模糊人像上的置信度。
其中,第三卷积层的归一化函数为:
其中,z表示特征图,i表示通道数,zi表示第四卷积层输出特征的第一i个通道的通道图,k表示通道个数,e为数学常数,e=2.718,25为通道总数,在其他实施例中,通道的总数还可以是其他值。
本实施例中的神经网络可以是双流模糊核估计神经网络。
具体地,将模糊人像集中的每张模糊人像输入到双流模糊核估计神经网络,神经网络将输出与该输入图对应的特征图及置信度热图。遍历每张模糊人像,得到其对应的特征图与置信度热图,并将这些数据对应存储起来,便可得到真实人像非一致性模糊核数据集。由于摄像机抖动或物体运动造成的成像模糊,通常可表达为清晰图通过卷积运算得到模糊图像的退化过程,而该卷积运算的卷积核即为模糊核。
本申请实施例基于非一致性模糊核检测,生成去模糊人像数据集,能够高效、低成本地获取高质量的清晰-模糊人像数据对。本申请提出的基于双流神经网络的非一致性模糊核检测方法,能够预测图像不同区域,不同模糊程度下的非线性模糊核,从而有效表征了真实人像运动场景下的图像模糊形式,使合成数据更加逼近真实模糊数据。本申请提出的清晰-模糊人像数据集合成流程,有效利用大量开源高清人像数据集,快速获得人像去模糊数据集,极大地提升了去模糊算法的开发效率,降低开发成本。
图4示出了本申请实施例中的人像素材集的构建方法的流程图之二,包括以下步骤:
步骤401、收集真实人像的模糊图像的数据集。
具体地,收集多个模糊人像形成的数据集。
步骤402、收集人像的清晰图像的数据集。
具体地,收集多个高清人像形成的数据集。
步骤403、构建双流模糊核估计神经网络。
步骤404、计算模糊图像的数据集中样本的非一致性特征图。
具体地,将多个模糊人像形成的数据集输入到神经网络中,得到特征图和置信度热图。
步骤405、迁移特征图到清晰图像的数据集。
具体地,在模糊人像的数据集中确定与高清人像匹配的模糊人像,并将特征图迁移到高清人像的数据集。
步骤406、合成非一致性人像运动模糊数据集。
具体地,通过计算得到高清人像对应的第二模糊人像,并建立高清人像和第二模糊人像的数据对,多个数据对形成人像素材集。
如图5所示,在本申请的一些实施例中,本申请提供了一种三维空间场景的融合系统,包括:
获取模块510,用于获取人像素材集;
训练模块520,用于并使用所述人像素材集对人像去模糊模型进行训练,所述人像素材集包括多个人像对,每个人像对包括一张模糊人像以及对应的高清人像;
输入模块530,用于获取与三维空间场景关联的二维模糊人像和二维场景图像,将所述二维模糊人像输入到所述人像去模糊模型,得到与所述二维模糊人像对应的二维高清人像;
融合模块540,用于对所述二维高清人像和所述二维场景图像进行融合,得到三维空间场景;
其中,获取模块510,具体包括:
第一获取子模块511,用于获取模糊人像集,将所述模糊人像集中的每张模糊人像输入神经网络,得到与每张模糊人像对应的模糊核特征图及置信度热图;
其中,神经网络的输出通道数为25;相应地,第一获取子模块511,具体用于获取模糊人像集,将所述模糊人像集中的每张模糊人像输入神经网络,得到与每张模糊人像对应的25个输出通道下的模糊核特征图及置信度热图;
其中,不同通道输出的模糊核特征图的方向不同,且不同的模糊核特征图对应的置信度热图也不同,每个输出通道下的置信度热图用于表征对应的模糊核特征图在输入到所述神经网络的模糊人像上的置信度。
本实施例中,第一获取子模块511,具体用于获取模糊人像集,将所述所述模糊人像集中的每张模糊人像分别输入所述神经网络,通过所述神经网络对每张模糊人像进行卷积、下采样、池化和上采样处理,并通过归一化运算得到与每张模糊人像对应的模糊核特征图;通过所述神经网络对每张模糊人像进行卷积、下采样和上采样处理,并通过归一化运算得到与每张模糊人像对应的置信度热图。
第二获取子模块512,用于获取高清人像集,并针对所述高清人像集中的每张高清人像,从所述模糊人像集中筛选与所述高清人像的人脸姿态匹配的第一模糊人像。
具体地,第二获取子模块512,具体用于获取高清人像集,针对所述高清人像集中的每张高清人像,计算所述高清人像中的人脸相对于标准坐标系的第一偏航角、第一翻转角和第一俯仰角;从所述模糊人像集中遍历模糊人像,并针对遍历到的模糊人像,计算所述模糊人像中的人脸相对于标准坐标系的第二偏航角、第二翻转角和第二俯仰角;在所述第一偏航角与所述第二偏航角的差值小于或等于第一预设阈值,所述第一翻转角与所述第二翻转角的差值小于或等于第二预设阈值,且所述第一俯仰角与所述第二俯仰角的差值小于或等于第三预设阈值的情况下,确定所述遍历到的模糊人像与所述高清人像的人脸姿态匹配。
合成子模块513,用于根据所述高清人像集中的每张高清人像和筛选出的第一模糊人像对应的模糊核特征图及置信度热图,分别合成与每张高清人像对应的第二模糊人像,并将所述高清人像集中的每张高清人像以及根据所述高清人像合成得到的第二模糊人像,作为人像数据对添加到人像素材集中。
具体地,合成子模块513,具体用于通过以下公式分别计算与所述高清人像集中的每张高清人像对应的第二模糊人像:
其中,Ic为所述高清图像,ki为将所述第一模糊人像输入到所述神经网络后,所述神经网络的第i个输出通道下的模糊核特征图,Ci为将所述第一模糊人像输入到所述神经网络后,所述神经网络的第i输出通道下的置信度热图,*为卷积运算,⊙为逐像素相乘运算,Ib为所述高清人像对应的第二模糊人像。
在本申请实施例中,通过神经网络的计算得到模糊人像对应的模糊核特征图及置信度热图,能够合成与高清人像集中的每张高清人像对应的模糊人像,并作为对人像去模糊模型进行训练的人像素材集,从而通过人像去模糊模型,得到与二维模糊人像对应的二维高清人像,进而提升三维空间场景的仿真效果。
其中,本申请实施例中的三维空间场景的融合系统可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是电子设备,也可以为除电子设备之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device,MID)、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digitalassistant,PDA)等,还可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的三维空间场景的融合系统可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为iOS操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的三维空间场景的融合系统能够实现上述方法实施例实现的各个过程,达到相同的技术效果,为避免重复,这里不再赘述。
本申请实施例还提供一种可读存储介质,可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述三维空间场景的融合方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,处理器为上述实施例中的电子设备中的处理器。可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等。
本申请实施例另提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现上述三维空间场景的融合方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如上述三维空间场景的融合实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台电子设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (12)

1.一种三维空间场景的融合方法,其特征在于,包括以下步骤:
获取人像素材集,并使用所述人像素材集对人像去模糊模型进行训练,所述人像素材集包括多个人像对,每个人像对包括一张模糊人像以及对应的高清人像;
获取与三维空间场景关联的二维模糊人像和二维场景图像,将所述二维模糊人像输入到所述人像去模糊模型,得到与所述二维模糊人像对应的二维高清人像;
对所述二维高清人像和所述二维场景图像进行融合,得到三维空间场景;
其中,所述获取人像素材集,具体包括:
获取模糊人像集,将所述模糊人像集中的每张模糊人像输入神经网络,得到与每张模糊人像对应的模糊核特征图及置信度热图;
获取高清人像集,并针对所述高清人像集中的每张高清人像,从所述模糊人像集中筛选与所述高清人像的人脸姿态匹配的第一模糊人像;
根据所述高清人像集中的每张高清人像和筛选出的第一模糊人像对应的模糊核特征图及置信度热图,分别合成与每张高清人像对应的第二模糊人像,并将所述高清人像集中的每张高清人像以及根据所述高清人像合成得到的第二模糊人像,作为人像数据对添加到人像素材集中。
2.根据权利要求1所述的方法,其特征在于,所述神经网络的输出通道数为25;
所述将所述模糊人像集中的每张模糊人像输入神经网络,得到与每张模糊人像对应的模糊核特征图及置信度热图,具体包括:
将所述模糊人像集中的每张模糊人像输入神经网络,得到与每张模糊人像对应的25个输出通道下的模糊核特征图及置信度热图;
其中,不同通道输出的模糊核特征图的方向不同,且不同的模糊核特征图对应的置信度热图也不同,每个输出通道下的置信度热图用于表征对应的模糊核特征图在输入到所述神经网络的模糊人像上的置信度。
3.根据权利要求2所述的方法,其特征在于,所述根据所述高清人像集中的每张高清人像和筛选出的第一模糊人像对应的模糊核特征图及置信度热图,分别合成与每张高清人像对应的第二模糊人像,具体包括:
通过以下公式分别计算与所述高清人像集中的每张高清人像对应的第二模糊人像:
其中,Ic为所述高清图像,ki为将所述第一模糊人像输入到所述神经网络后,所述神经网络的第i个输出通道下的模糊核特征图,Ci为将所述第一模糊人像输入到所述神经网络后,所述神经网络的第i输出通道下的置信度热图,*为卷积运算,⊙为逐像素相乘运算,Ib为所述高清人像对应的第二模糊人像。
4.根据权利要求2所述的方法,其特征在于,所述针对所述高清人像集中的每张高清人像,从所述模糊人像集中筛选与所述高清人像的人脸姿态匹配的第一模糊人像,具体包括:
针对所述高清人像集中的每张高清人像,计算所述高清人像中的人脸相对于标准坐标系的第一偏航角、第一翻转角和第一俯仰角;
从所述模糊人像集中遍历模糊人像,并针对遍历到的模糊人像,计算所述模糊人像中的人脸相对于标准坐标系的第二偏航角、第二翻转角和第二俯仰角;
在所述第一偏航角与所述第二偏航角的差值小于或等于第一预设阈值,所述第一翻转角与所述第二翻转角的差值小于或等于第二预设阈值,且所述第一俯仰角与所述第二俯仰角的差值小于或等于第三预设阈值的情况下,确定所述遍历到的模糊人像与所述高清人像的人脸姿态匹配。
5.根据权利要求1所述的方法,其特征在于,所述将所述模糊人像集中的每张模糊人像输入神经网络,得到与每张模糊人像对应的模糊核特征图及置信度热图,具体包括:
将所述所述模糊人像集中的每张模糊人像分别输入所述神经网络,通过所述神经网络对每张模糊人像进行卷积、下采样、池化和上采样处理,并通过归一化运算得到与每张模糊人像对应的模糊核特征图;通过所述神经网络对每张模糊人像进行卷积、下采样和上采样处理,并通过归一化运算得到与每张模糊人像对应的置信度热图。
6.一种三维空间场景的融合系统,其特征在于,包括:
获取模块,用于获取人像素材集;
训练模块,用于并使用所述人像素材集对人像去模糊模型进行训练,所述人像素材集包括多个人像对,每个人像对包括一张模糊人像以及对应的高清人像;
输入模块,用于获取与三维空间场景关联的二维模糊人像和二维场景图像,将所述二维模糊人像输入到所述人像去模糊模型,得到与所述二维模糊人像对应的二维高清人像;
融合模块,用于对所述二维高清人像和所述二维场景图像进行融合,得到三维空间场景;
其中,所述获取模块,具体包括:
第一获取子模块,用于获取模糊人像集,将所述模糊人像集中的每张模糊人像输入神经网络,得到与每张模糊人像对应的模糊核特征图及置信度热图;
第二获取子模块,用于获取高清人像集,并针对所述高清人像集中的每张高清人像,从所述模糊人像集中筛选与所述高清人像的人脸姿态匹配的第一模糊人像;
合成子模块,用于根据所述高清人像集中的每张高清人像和筛选出的第一模糊人像对应的模糊核特征图及置信度热图,分别合成与每张高清人像对应的第二模糊人像,并将所述高清人像集中的每张高清人像以及根据所述高清人像合成得到的第二模糊人像,作为人像数据对添加到人像素材集中。
7.根据权利要求6所述的系统,其特征在于,所述神经网络的输出通道数为25;
所述第一获取子模块,具体用于获取模糊人像集,将所述模糊人像集中的每张模糊人像输入神经网络,得到与每张模糊人像对应的25个输出通道下的模糊核特征图及置信度热图;
其中,不同通道输出的模糊核特征图的方向不同,且不同的模糊核特征图对应的置信度热图也不同,每个输出通道下的置信度热图用于表征对应的模糊核特征图在输入到所述神经网络的模糊人像上的置信度。
8.根据权利要求7所述的系统,其特征在于,
所述合成子模块,具体用于通过以下公式分别计算与所述高清人像集中的每张高清人像对应的第二模糊人像:
其中,Ic为所述高清图像,ki为将所述第一模糊人像输入到所述神经网络后,所述神经网络的第i个输出通道下的模糊核特征图,Ci为将所述第一模糊人像输入到所述神经网络后,所述神经网络的第i输出通道下的置信度热图,*为卷积运算,⊙为逐像素相乘运算,Ib为所述高清人像对应的第二模糊人像。
9.根据权利要求7所述的系统,其特征在于,
所述第二获取子模块,具体用于获取高清人像集,针对所述高清人像集中的每张高清人像,计算所述高清人像中的人脸相对于标准坐标系的第一偏航角、第一翻转角和第一俯仰角;从所述模糊人像集中遍历模糊人像,并针对遍历到的模糊人像,计算所述模糊人像中的人脸相对于标准坐标系的第二偏航角、第二翻转角和第二俯仰角;在所述第一偏航角与所述第二偏航角的差值小于或等于第一预设阈值,所述第一翻转角与所述第二翻转角的差值小于或等于第二预设阈值,且所述第一俯仰角与所述第二俯仰角的差值小于或等于第三预设阈值的情况下,确定所述遍历到的模糊人像与所述高清人像的人脸姿态匹配。
10.根据权利要求6所述的系统,其特征在于,
所述第一获取子模块,具体用于获取模糊人像集,将所述所述模糊人像集中的每张模糊人像分别输入所述神经网络,通过所述神经网络对每张模糊人像进行卷积、下采样、池化和上采样处理,并通过归一化运算得到与每张模糊人像对应的模糊核特征图;通过所述神经网络对每张模糊人像进行卷积、下采样和上采样处理,并通过归一化运算得到与每张模糊人像对应的置信度热图。
11.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至5中任一项所述的三维空间场景的融合方法。
12.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至5中任一项所述的三维空间场景的融合方法的步骤。
CN202311629700.2A 2023-11-30 2023-11-30 三维空间场景的融合方法和系统 Active CN117593462B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311629700.2A CN117593462B (zh) 2023-11-30 2023-11-30 三维空间场景的融合方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311629700.2A CN117593462B (zh) 2023-11-30 2023-11-30 三维空间场景的融合方法和系统

Publications (2)

Publication Number Publication Date
CN117593462A true CN117593462A (zh) 2024-02-23
CN117593462B CN117593462B (zh) 2024-06-07

Family

ID=89911349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311629700.2A Active CN117593462B (zh) 2023-11-30 2023-11-30 三维空间场景的融合方法和系统

Country Status (1)

Country Link
CN (1) CN117593462B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537716A (zh) * 2015-01-20 2015-04-22 湖南化身科技有限公司 三维数字人像与虚拟场景的合成系统
US20150339822A1 (en) * 2014-05-22 2015-11-26 Canon Kabushiki Kaisha Image generating device and image generating method
CN111047548A (zh) * 2020-03-12 2020-04-21 腾讯科技(深圳)有限公司 姿态变换数据处理方法、装置、计算机设备和存储介质
WO2022110638A1 (zh) * 2020-11-30 2022-06-02 深圳市慧鲤科技有限公司 人像修复方法、装置、电子设备、存储介质和程序产品
CN115578512A (zh) * 2022-09-29 2023-01-06 北京开普云信息科技有限公司 语音播报视频的生成模型训练和使用方法、装置及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150339822A1 (en) * 2014-05-22 2015-11-26 Canon Kabushiki Kaisha Image generating device and image generating method
CN104537716A (zh) * 2015-01-20 2015-04-22 湖南化身科技有限公司 三维数字人像与虚拟场景的合成系统
CN111047548A (zh) * 2020-03-12 2020-04-21 腾讯科技(深圳)有限公司 姿态变换数据处理方法、装置、计算机设备和存储介质
WO2022110638A1 (zh) * 2020-11-30 2022-06-02 深圳市慧鲤科技有限公司 人像修复方法、装置、电子设备、存储介质和程序产品
CN115578512A (zh) * 2022-09-29 2023-01-06 北京开普云信息科技有限公司 语音播报视频的生成模型训练和使用方法、装置及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
谭淅予;张龙;: "图像合成技术在现场复原上的应用", 艺海, no. 11, 15 November 2014 (2014-11-15) *
郭晓磊;曹萌萌;薄一航;: "基于相机运动子空间的人脸图像非均匀去模糊", 计算机应用与软件, no. 03, 15 March 2016 (2016-03-15) *

Also Published As

Publication number Publication date
CN117593462B (zh) 2024-06-07

Similar Documents

Publication Publication Date Title
CN111557016B (zh) 用于生成包括模拟的运动模糊的图像的方法和设备
Su et al. Deep video deblurring for hand-held cameras
Kopf et al. Capturing and viewing gigapixel images
US9019426B2 (en) Method of generating image data by an image device including a plurality of lenses and apparatus for generating image data
Zheng et al. Segmented spherical projection-based blind omnidirectional image quality assessment
Zeng et al. Robust reconstruction with deep learning to handle model mismatch in lensless imaging
CN107633497A (zh) 一种图像景深渲染方法、系统及终端
Li et al. Real-world deep local motion deblurring
CN114390201A (zh) 对焦方法及其装置
CN115115522A (zh) 一种货架商品图像拼接方法及系统
CN113592753B (zh) 基于工业相机拍摄的图像的处理方法、装置和计算机设备
Chen et al. Learning to simultaneously enhance field of view and dynamic range for light field imaging
Chang et al. Finding good composition in panoramic scenes
Xue Blind image deblurring: a review
CN117593462B (zh) 三维空间场景的融合方法和系统
Wang et al. Adaptive video stabilization based on feature point detection and full-reference stability assessment
CN116801091A (zh) 一种飞行视频生成方法、装置、设备及介质
CN114418897B (zh) 眼部光斑图像的修复方法、装置、终端设备及存储介质
CN115713678A (zh) 一种箭头图片数据增广方法、系统、电子设备及存储介质
Čadík et al. Automated outdoor depth-map generation and alignment
US11734855B2 (en) Rotation equivariant orientation estimation for omnidirectional localization
CN115035178A (zh) 一种增强现实显示系统、方法及存储介质
Yue et al. High-dimensional camera shake removal with given depth map
Lumentut et al. 6-DOF motion blur synthesis and performance evaluation of light field deblurring
Liu et al. Rain removal system for dynamic scene in diminished reality

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant