CN114331827B - 风格迁移方法、装置、设备和存储介质 - Google Patents

风格迁移方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN114331827B
CN114331827B CN202210214387.5A CN202210214387A CN114331827B CN 114331827 B CN114331827 B CN 114331827B CN 202210214387 A CN202210214387 A CN 202210214387A CN 114331827 B CN114331827 B CN 114331827B
Authority
CN
China
Prior art keywords
style
dimensional
target
migration
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210214387.5A
Other languages
English (en)
Other versions
CN114331827A (zh
Inventor
赵开勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Qiyu Innovation Technology Co ltd
Original Assignee
Shenzhen Qiyu Innovation Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Qiyu Innovation Technology Co ltd filed Critical Shenzhen Qiyu Innovation Technology Co ltd
Priority to CN202210214387.5A priority Critical patent/CN114331827B/zh
Publication of CN114331827A publication Critical patent/CN114331827A/zh
Application granted granted Critical
Publication of CN114331827B publication Critical patent/CN114331827B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明实施例涉及计算机视觉技术领域,公开了一种风格迁移方法、装置、设备和计算机可读存储介质。其中方法包括:获取二维风格图片,所述二维风格图片用于指示源风格;学习所述二维风格图片的三维语义信息,得到所述二维风格图片的三维语义的风格特征图,所述风格特征图采用图神经网络表示;基于所述风格特征图对目标三维模型进行风格迁移,将所述目标三维模型的风格转换为所述源风格。通过上述方式,本发明实施例能够实现3D结构的风格迁移。

Description

风格迁移方法、装置、设备和存储介质
技术领域
本发明实施例涉及计算机视觉技术领域,具体涉及一种风格迁移方法、装置、设备和计算机可读存储介质。
背景技术
在三维建模领域中,构建的3D模型的风格需要人为进行设置,根据目标风格的不同进行风格变化。但是,现有的3D模型风格变化大多数是对3D模型下所呈现的2D图片进行纹理贴图风格变化,并未对3D结构进行风格迁移。
发明内容
鉴于上述问题,本发明实施例提供了一种风格迁移方法、装置、设备和计算机可读存储介质,用于解决现有技术中存在的SLAM方法精度较低的问题。
本发明实施例提供了一种风格迁移方法,包括:
获取二维风格图片,所述二维风格图片用于指示源风格;
学习所述二维风格图片的三维语义信息,得到所述二维风格图片的三维语义的风格特征图,所述风格特征图采用图神经网络表示;
基于所述风格特征图对目标三维模型进行风格迁移,将所述目标三维模型的风格转换为所述源风格。
在一些实施例中,所述基于所述风格特征图对目标三维模型进行风格迁移,将所述目标三维模型的风格转换为所述源风格,包括:
学习所述目标三维模型的三维语义信息,得到目标特征图,所述目标特征图采用图神经网络表示;
将所述风格特征图和所述目标特征图输入至风格迁移模型的编码器,得到编码风格特征图和编码目标特征图;
将所述编码风格特征图和所述编码目标特征图输入至所述风格迁移模型的迁移模块,得到编码迁移特征图;
将所述编码迁移特征图输入至所述风格迁移模型的解码器,得到解码迁移特征图。
在一些实施例中,所述将所述编码风格特征图和所述编码目标特征图输入至所述风格迁移模型的迁移模块,得到编码迁移特征图,包括:
将所述编码目标特征图输入至第一图神经网络,基于拉普拉斯算子计算得到转换后的目标特征空间;
将所述编码风格特征图输入至第二图神经网络,基于拉普拉斯算子计算得到转换后的风格特征空间;
将所述目标特征空间和所述风格特征空间基于拉普拉斯算子进行融合,得到融合后的编码迁移特征图。
在一些实施例中,所述将所述编码风格特征图和所述编码目标特征图输入至所述风格迁移模型的迁移模块,得到编码迁移特征图,包括:
将所述编码目标特征图输入至第一图神经网络,基于拉普拉斯算子计算得到转换后的目标特征空间;
将所述编码风格特征图输入至第二图神经网络,基于拉普拉斯算子计算得到转换后的第一风格特征空间;
将所述目标特征空间和所述第一风格特征空间基于拉普拉斯算子进行融合,得到融合后的第一编码迁移特征图,并对所述第一编码迁移特征图进行归一化处理;
将所述编码风格特征图输入至第三图神经网络,基于拉普拉斯算子计算得到转换后的第二风格特征空间;
将归一化处理后的所述第一编码迁移特征图和所述第二风格特征空间基于拉普拉斯算子进行融合,得到第二编码迁移特征图。
在一些实施例中,所述方法还包括:
比较所述第二编码迁移特征图和所述编码目标特征图之间的差异,形成损失函数;
经过迭代训练调整所述第一图神经网络、所述第二图神经网络和所述第三图神经网络的权重,直至所述损失函数最小化。
在一些实施例中,所述学习所述二维风格图片的三维语义信息,得到所述二维风格图片的三维语义的风格特征图,包括:
基于拓扑结构特征对所述二维风格图片进行分类,得到物体布局拓扑结构graph分布图和物体的三维几何拓扑结构graph分布图;
基于纹理特征对所述二维风格图片进行分类,得到纹理贴图graph分布图。
在一些实施例中,所述学习所述目标三维模型的三维语义信息,得到目标特征图,包括:
基于拓扑结构特征对所述目标三维模型进行分类,得到所述目标三维模型的物体布局拓扑结构graph分布图和物体的三维几何拓扑结构graph分布图;
基于纹理特征对所述目标三维模型进行分类,得到所述目标三维模型的纹理贴图graph分布图。
本发明实施例还提供了一种风格迁移装置,包括:
获取模块,用于获取二维风格图片,所述二维风格图片用于指示源风格;
学习模块,用于学习所述二维风格图片的三维语义信息,得到所述二维风格图片的三维语义的风格特征图,所述风格特征图采用图神经网络表示;
迁移模块,用于基于所述风格特征图对目标三维模型进行风格迁移,将所述目标三维模型的风格转换为所述源风格。
本发明实施例还提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如上所述的风格迁移方法的操作。
本发明实施例还提供了一种计算机可读存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令在电子设备上运行时,使得所述电子设备执行如上所述的风格迁移方法的操作。
本发明实施例通过多任务学习得到所述待重建场景的点特征图、线特征图、面特征图和物体特征图,根据上述特征图得到对所述待重建场景进行重建的第一预测结果,并将根据多帧所述目标图像得到的多个所述第一预测结果进行融合,得到第二预测结果,提高了风格迁移精度。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
附图仅用于示出实施方式,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的风格迁移方法的流程示意图;
图2示出了本发明实施例提供的卷积层的节点之间的链接路径示意图;
图3示出了本发明另一实施例提供的节点与节点之间的链接路径示意图;
图4示出了本发明实施例提供的风格迁移装置的结构示意图;
图5示出了本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。
在三维建模领域中,构建的3D模型的风格需要人为进行设置,根据目标风格的不同进行风格变化。但是,现有的3D模型风格变化大多数是对3D模型下所呈现的2D图片进行纹理贴图风格变化,并未对3D结构进行风格迁移。
鉴于此,本发明实施例提供了一种对3D结构进行风格迁移的方法,本发明实施例的方法基于图神经网络进行风格迁移,可以将源风格图片的物体布局、空间信息(三维几何信息)等拓扑结构迁移至目标3D模型,能够实现3D结构的风格迁移。
图1示出了本发明实施例提供的基于图神经网络的风格迁移方法的流程图,该方法由计算设备执行,例如计算机、服务器、服务器集群等。该方法用于将二维风格图片的风格特征迁移至目标三维模型。如图1所示,该方法包括以下步骤:
步骤110:获取二维风格图片,所述二维风格图片用于指示源风格。
二维风格图片是三维模型需要转换的风格来源,也即在进行风格转换后,三维模型呈现出该二维风格图片的风格。因此,二维风格图片用于指示源风格。二维风格图片可以由用户选择并输入计算设备,其可以是彩色图片或者黑白图片。
可以理解的是,该二维风格图片的风格特征与目标三维模型的风格特征不同。如果该二维风格图片的风格特征与目标三维模型的风格相同,则完成风格迁移后的目标三维模型的风格将保持原有的目标三维模型的风格,实质上并未发生风格变化。
步骤120:学习所述二维风格图片的三维语义信息,得到所述二维风格图片的三维语义的风格特征图,所述风格特征图采用图神经网络表示。
本步骤需要学习二维风格图片的三维语义信息,最终得到采用图神经网络(GraphNeural Networks,GNN)表示的三维语义的风格特征图。图神经网络可以将神经网络用在图(Graph)中,图结构的属性会在计算中按时间步(time-step)更新。图结构由相互连接的图结构块(GN block)组成,在神经网络实现中也被称为“节点(node)”。节点间的连接被称为“边(edge)”,表示节点间的依赖关系。图结构的每个节点都有内部状态和系统状态,被称为“属性(attribute)”。
由于需要将二维风格图片的物体布局、空间信息(三维几何信息)等拓扑结构迁移至目标3D模型,因此传统的网络结构,例如卷积神经网络(Convolutional NeuralNetworks, CNN)等不能表示上述物体布局和三维几何信息。本发明实施例通过在风格迁移时引用图神经网络,采用图神经网络表示二维风格图片的三维语义的风格特征图,可以将二维风格图片的上述物体布局和三维几何信息较好的提取和表达,从而使得后续的风格迁移可以实现三维拓扑结构上的迁移。
其中,物体布局包括物体的位置信息,三维几何信息包括物体的空间几何形状信息。
在一些实施例中,步骤120进一步包括:
步骤121:基于拓扑结构特征对所述二维风格图片进行分类,得到物体布局拓扑结构graph分布图和物体的三维几何拓扑结构graph分布图;
本步骤可以通过图神经网络,基于拓扑结构特征对二维风格图片分类,分类后得到物体布局拓扑结构graph分布图和物体的三维几何拓扑结构graph分布图。例如,将二维风格图片经过第一次卷积操作,得到第一特征图,第一特征图经过激活函数以及正则化处理,得到处理后的第一特征图,然后进行第二次图卷积操作,得到第二特征图,并进行第二次激活函数以及正则化处理……最终得到graph分布图。该graph分布图表示二维风格图片的物体布局拓扑结构特征和物体的三维几何拓扑结构特征。
步骤122:基于纹理特征对所述二维风格图片进行分类,得到纹理贴图graph分布图。
类似的,本步骤也可以通过图神经网络,基于纹理特征对二维风格图片分类,分类后得到纹理贴图graph分布图。例如,将二维风格图片经过第一次卷积操作,得到第一特征图,第一特征图经过激活函数以及正则化处理,得到处理后的第一特征图,然后进行第二次卷积操作,得到第二特征图,并进行第二次激活函数以及正则化处理……最终得到graph分布图。该graph分布图表示二维风格图片的纹理贴图分布特征。
步骤120通过图神经网络输出的是多组基于图的分布的参数,每组参数用于定义三维语义的graph风格特征图;同样的,步骤121、步骤122中通过图神经网络输出的也是多组基于图的分布的参数,每组参数用于定义物体布局拓扑结构graph分布图和物体的三维几何拓扑结构graph分布图,以及纹理贴图graph分布图。上述步骤121和122可以通过多任务学习(Multi-task learning)实现,多任务学习是和单任务学习(single-tasklearning)相对的一种机器学习方法。单任务学习是指一次学习一个任务。多任务学习则是一种联合学习,多个任务并行学习,多个任务的学习结果之间相互影响。
步骤120还可以包括:
步骤a1:输入所述二维风格图片至第一特征提取模型;其中,第一特征提取模型可以为卷积神经网络,可以检测输入的二维风格图片中的特征。卷积神经网络卷通过一层一层的节点组织起来,每一个节点就是一个神经元,相邻两层之间的节点相连。
步骤a2:确定所述第一特征提取模型中每个节点的卷积核,以及确定节点与节点之间的链接路径;
本步骤为第一特征提取模型中每个节点确定卷积核,卷积核包括不同大小,例如2*2、3*3或5*5等,还包括不同形状,例如矩形、原型、椭圆形等固定形状卷积核或者可变形状卷积核等。具体的,可以通过先验选择的方式为每个节点选取卷积核。通过为每个节点搜索卷积核,根据连续多次的评分结果确定最优卷积核后保存采用该最优卷积核的第一特征提取模型。例如,可以采用蒙特卡洛方法进行参数调优,求解最优化模型。可以理解的是,还可以为每个卷积层确定单独的卷积核,则该层中每个节点均采用相同的卷积核,以提高计算效率。
本步骤还确定节点与节点之间的链接路径。请参考图2所示,不同卷积层的节点之间的链接路径有多种可能,需要确定每个节点与下一个卷积层中哪个或者哪几个节点链接,也即确定节点与节点之间的链接路径。具体的,也可以通过先验选择的方式为相邻卷积层之间的节点选择链接路径。可以理解的是,还可以为每个卷积层之间的链接确定路径,例如统一确定第一卷积层与第三卷积层链接,则第一卷积层中每个节点均与第三卷积层中的某个节点链接,以提高计算效率。
请参考图3所示,以图2中虚线框内的依次相邻的3个卷积层中的3个节点为例,进一步说明确定节点与节点之间的链接路径的方式。Cl-2节点可以链接到Cl-1节点、数组0、数组1或者数组2;Cl-1节点可以链接到数组0、数组1或者数组2,还可以通过Concat函数链接到Cl节点;数组0、数组1或者数组2均可以通过Concat函数链接到Cl节点。通过搜索节点与节点之间不同的链接路径,根据连续多次的评分结果确定最优路径后保存该最优路径下的第一特征提取模型。例如,可以采用蒙特卡洛方法进行参数调优,求解最优化模型。
步骤a3:根据确定的所述每个节点的卷积核和节点与节点之间的链接路径,进行多层卷积运算,得到多个不同尺度的特征图。
通过为每个节点确定卷积核,形成多种卷积核的组合。通过搜索确定节点与节点之间最优的链接路径,在第一特征提取模型种进行多层卷积运算后,得到多个不同尺度的特征图,也即多尺度特征。多尺度特征包括物体布局拓扑结构特征、物体的三维几何拓扑结构特征和纹理贴图特征。多尺度特征可以从空间图片信息中提取多个维度的空间描述,得到多尺度、多分类、多素材的数据,提高了特征提取的精度和速度,有利于模型的小型化。
上述步骤a1-a3通过采用第一特征提取模型这一通用特征模型进行多尺度特征的提取,通过搜索的方式进行卷积核选择、组合以及路径选择,实现了自动化的模型训练,无需人为训练、人为选择路径,提高了训练效率,并节约时间和成本。
通过上述多任务学习的方式得到不同尺度的特征图,提高了学习效率。
步骤130:基于所述风格特征图对目标三维模型进行风格迁移,将所述目标三维模型的风格转换为所述源风格。
步骤120得到二维风格图片的三维语义的风格特征图后,可以基于该风格特征图对目标三维模型进行风格迁移。目标三维模型是指需要进行风格迁移的模型,目标三维模型例可以是各种类型的3D模型,例如城市3D模型、室内场景3D模型、游戏场景3D模型、动画场景3D模型、自然界景物的3D模型等。可以将目标三维模型输入计算设备,从而对其进行风格迁移。
在一些实施例中,步骤130进一步包括:
步骤131:学习所述目标三维模型的三维语义信息,得到目标特征图,所述目标特征图采用图神经网络表示;
目标特征图包括物体布局拓扑结构图、三维几何拓扑结构图和纹理贴图。类似的,目标特征图采用图神经网络表示。本发明实施例通过在风格迁移时引用图神经网络,采用图神经网络表示目标三维模型的三维语义的目标特征图,可以将目标三维模型的上述物体布局和三维几何信息较好的提取和表达,从而使得后续的风格迁移可以与二维风格图片的物体布局拓扑结构图、三维几何拓扑结构图配合,实现三维拓扑结构上的风格迁移。
在步骤131中,学习所述目标三维模型的三维语义信息,得到目标特征图,包括:
步骤1311:基于拓扑结构特征对所述目标三维模型进行分类,得到所述目标三维模型的物体布局拓扑结构graph分布图和物体的三维几何拓扑结构graph分布图;
与步骤121类似的,步骤1311也可以通过图神经网络,基于拓扑结构特征对目标三维模型分类,分类后得到物体布局拓扑结构graph分布图。例如,将目标三维模型经过第一次卷积操作,得到第一特征图,第一特征图经过激活函数以及正则化处理,得到处理后的第一特征图,然后进行第二次卷积操作,得到第二特征图,并进行第二次激活函数以及正则化处理……最终得到graph分布图。该graph分布图表示目标三维模型的物体布局拓扑结构特征和物体的三维几何拓扑结构特征。
步骤1312:基于纹理特征对所述目标三维模型进行分类,得到所述目标三维模型的纹理贴图graph分布图。
与步骤122类似的,步骤1312也可以通过图神经网络,基于纹理特征对目标三维模型分类,分类后得到纹理贴图graph分布图。例如,将目标三维模型经过第一次卷积操作,得到第一特征图,第一特征图经过激活函数以及正则化处理,得到处理后的第一特征图,然后进行第二次卷积操作,得到第二特征图,并进行第二次激活函数以及正则化处理……最终得到graph分布图。该graph分布图表示目标三维模型的纹理贴图分布特征。
步骤131通过图神经网络输出的是多组基于图的分布的参数,每组参数用于定义三维语义的graph风格特征图;同样的,步骤1311、步骤1312中通过图神经网络输出的也是多组基于图的分布的参数,每组参数用于定义物体布局拓扑结构graph分布图和物体的三维几何拓扑结构graph分布图,以及纹理贴图graph分布图。
与前述步骤121和122类似的,步骤1311和1312也可以通过多任务学习实现。
步骤132:将所述风格特征图和所述目标特征图输入至风格迁移模型的编码器,得到编码风格特征图和编码目标特征图;
本步骤将风格特征图和所述目标特征图进行编码。对风格特征图编码时,可以通过将风格特征图的各节点的特征矩阵X以及预设的邻接矩阵A通过图卷积网络学习节点低维向量表示的均值μ和方差σ。邻接矩阵表示顶点间关系,是n阶方阵(n为顶点数量)。例如风格迁移模型的编码器可以采用两层图卷积网络(Graph Convolution Networks, GCN),学习的均值μ、方差σ以及GCN网络的计算公式为:
Figure DEST_PATH_IMAGE001
其中,邻接矩阵A根据要表示的网络模型大小和结构大小来设置,ReLU是指修正线性单元(Rectified linear unit),为神经元的激活函数,W0和W1均为参数矩阵,为待学习和优化的参数。
Figure DEST_PATH_IMAGE002
是指对邻接矩阵A进行归一化处理,
Figure DEST_PATH_IMAGE003
为归一化之后的邻接矩阵。若邻接矩阵A没有经过归一化处理,则难以将风格迁移模型编码后的数据限制在需要的范围内。归一化处理后可以使编码后数据具有可比性,但又相对保持数据之间的关系。因此,为了避免邻接矩阵A和特征矩阵X内积相乘改变特征原本的分布,需要对邻接矩阵A进行归一化处理。例如,将A*D-1,其中D-1为度矩阵,度矩阵是对角矩阵(diagonal matrix)的一种,对角矩阵是一个主对角线之外的元素皆为0的矩阵,而度矩阵中对角上的元素为各个顶点的度,顶点vi的度表示和该顶点相关联的边的数量。进一步的,可以将D-1拆分为2个
Figure DEST_PATH_IMAGE004
,得到对称且归一化的矩阵:
Figure DEST_PATH_IMAGE005
,其中A为对称的矩阵。通过上述处理,即使不训练风格迁移模型,采用随机初始化的参数W0、W1,图卷积网络提取的特征质量也会较好。本文中所述的编码均可以采用类似上述方案的实现方式,此处不再赘述。
步骤133:将所述编码风格特征图和所述编码目标特征图输入至所述风格迁移模型的迁移模块,得到编码迁移特征图;
在一些实施例中,步骤133进一步包括:
步骤a1:将所述编码目标特征图输入至第一图神经网络,基于拉普拉斯算子计算得到转换后的目标特征空间;
步骤a2:将所述编码风格特征图输入至第二图神经网络,基于拉普拉斯算子计算得到转换后的风格特征空间;
步骤a3:将所述目标特征空间和所述风格特征空间基于拉普拉斯算子进行融合,得到融合后的编码迁移特征图。
由于各特征图属于网络类型的非结构化数据,图神经网络的大小是任意的,图的拓扑结构复杂,没有像图像一样的空间局部性,且图神经网络没有固定的节点顺序,或者说没有一个参考节点;图神经网络经常是动态图,而且包含多模态的特征,如果采用普通的CNN处理将较为困难。因此,本发明实施例通过图神经网络处理各个特征图。步骤a1和步骤a2中,图神经网络处理后提取了特征信息,得到特征空间。
上述步骤a1-a3中,第一图神经网络和第二图神经网络分别对编码目标特征图和编码风格特征图的转换可通过加权实现,权重根据图神经网络的训练结果自动调节。
在另一些实施例中,步骤133包括:
步骤b1:将所述编码目标特征图输入至第一图神经网络,基于拉普拉斯算子计算得到转换后的目标特征空间;
步骤b2:将所述编码风格特征图输入至第二图神经网络,基于拉普拉斯算子计算得到转换后的第一风格特征空间;
步骤b3:将所述目标特征空间和所述第一风格特征空间基于拉普拉斯算子进行融合,得到融合后的第一编码迁移特征图,并对所述第一编码迁移特征图进行归一化处理;
步骤b4:将所述编码风格特征图输入至第三图神经网络,基于拉普拉斯算子计算得到转换后的第二风格特征空间;
步骤b5:将归一化处理后的所述第一编码迁移特征图和所述第二风格特征空间基于拉普拉斯算子进行融合,得到第二编码迁移特征图。
类似的,上述步骤b1、b2和b4中,图神经网络处理后提取了特征信息,得到特征空间。上述步骤b1-b5中,第一图神经网络和第二图神经网络分别对编码目标特征图和编码风格特征图的转换可通过加权实现,权重根据图神经网络的训练结果自动调节;第三图神经网络对编码风格特征图的转换也可通过加权实现,权重根据图神经网络的训练结果自动调节。
在上述实施例中,在图神经网络的特征图转换和特征空间融合的过程中通过引入拉普拉斯算子,解决了图神经网络收敛的一致性,保证了图神经网络局部几何点之间可微(可以对函数进行微分运算)。
步骤134:将所述编码迁移特征图输入至所述风格迁移模型的解码器,得到解码迁移特征图。
风格迁移模型的解码器进行链路预测,重构特征图。解码器可以计算两点之间存在边的概率
Figure DEST_PATH_IMAGE006
来重构图,解码器的计算公式可以为:
Figure DEST_PATH_IMAGE007
其中
Figure DEST_PATH_IMAGE008
其中,Z是指
Figure DEST_PATH_IMAGE009
,也即风格迁移模型的编码器的编码结果矩阵。N是指矩阵X和A的行和列的数量,
Figure DEST_PATH_IMAGE010
分别代表i、j取不同值时
Figure DEST_PATH_IMAGE011
的不同值的连乘(或称为累乘)。σ是方差,
Figure DEST_PATH_IMAGE012
是指Zi的转置。
在一些实施例中,所述方法还包括:
步骤c1:比较所述解码迁移特征图和所述编码目标特征图之间的差异,形成损失函数;
步骤c2:经过迭代训练调整所述第一图神经网络、所述第二图神经网络和所述第三图神经网络的权重,直至所述损失函数最小化。
其中,损失函数包括解码迁移特征图和编码目标特征图之间的距离度量,以及通过节点表示向量分布和正态分布的KL散度。损失函数
Figure DEST_PATH_IMAGE013
的计算公式为:
Figure DEST_PATH_IMAGE014
其中,
Figure DEST_PATH_IMAGE015
为交叉熵,
Figure DEST_PATH_IMAGE016
为KL散度,X为第二编码迁移特征图的特征矩阵X,A为邻接矩阵,
Figure DEST_PATH_IMAGE017
是通过前述的图神经网络计算以及融合后得到的第二编码迁移特征图中的特征分布,
Figure DEST_PATH_IMAGE018
为标准高斯的先验。其中KL散度避免了过拟合,提高了精度。
上述步骤中,通过比较输入的风格(二维风格图片)和原始内容(目标三维模型)之间的差异,保证目标三维模型的信息完整性,形成损失函数,通过调整各个图神经网络的权重,当损失函数最小时完成神经网络的训练,最终得到的第二编码迁移特征图为优化后的特征图。本发明实施例通过采用图神经网络表示源风格的二维风格图片的三维语义特征,采用图神经网络表示目标三维模型的三维语义特征,可以将源风格图片的物体布局、空间信息(三维几何信息)等拓扑结构迁移至目标3D模型,能够实现3D结构的风格迁移,满足三维模型的风格迁移需求。
通过本发明实施例,可以实现3D结构的风格迁移,例如3D模型为建筑模型时,可以将城市A的建筑模型风格迁移到城市B的建筑模型,可以将哥特式建筑模型的风格迁移到常规建筑风格的模型等。
图4示出了本发明实施例提供的风格迁移装置的结构示意图。如图4所示,该装置300包括:
获取模块301,用于获取二维风格图片,所述二维风格图片用于指示源风格;
学习模块302,用于学习所述二维风格图片的三维语义信息,得到所述二维风格图片的三维语义的风格特征图,所述风格特征图采用图神经网络表示;
迁移模块303,用于基于所述风格特征图对目标三维模型进行风格迁移,将所述目标三维模型的风格转换为所述源风格。
在一种可选的方式中,所述基于所述风格特征图对目标三维模型进行风格迁移,将所述目标三维模型的风格转换为所述源风格,包括:
学习所述目标三维模型的三维语义信息,得到目标特征图,所述目标特征图采用图神经网络表示;
将所述风格特征图和所述目标特征图输入至风格迁移模型的编码器,得到编码风格特征图和编码目标特征图;
将所述编码风格特征图和所述编码目标特征图输入至所述风格迁移模型的迁移模块303,得到编码迁移特征图;
将所述编码迁移特征图输入至所述风格迁移模型的解码器,得到解码迁移特征图。
在一种可选的方式中,所述将所述编码风格特征图和所述编码目标特征图输入至所述风格迁移模型的迁移模块303,得到编码迁移特征图,包括:
将所述编码目标特征图输入至第一图神经网络,基于拉普拉斯算子计算得到转换后的目标特征空间;
将所述编码风格特征图输入至第二图神经网络,基于拉普拉斯算子计算得到转换后的风格特征空间;
将所述目标特征空间和所述风格特征空间基于拉普拉斯算子进行融合,得到融合后的编码迁移特征图。
在一种可选的方式中,所述将所述编码风格特征图和所述编码目标特征图输入至所述风格迁移模型的迁移模块303,得到编码迁移特征图,包括:
将所述编码目标特征图输入至第一图神经网络,基于拉普拉斯算子计算得到转换后的目标特征空间;
将所述编码风格特征图输入至第二图神经网络,基于拉普拉斯算子计算得到转换后的第一风格特征空间;
将所述目标特征空间和所述第一风格特征空间基于拉普拉斯算子进行融合,得到融合后的第一编码迁移特征图,并对所述第一编码迁移特征图进行归一化处理;
将所述编码风格特征图输入至第三图神经网络,基于拉普拉斯算子计算得到转换后的第二风格特征空间;
将归一化处理后的所述第一编码迁移特征图和所述第二风格特征空间基于拉普拉斯算子进行融合,得到第二编码迁移特征图。
在一种可选的方式中,所述迁移模块303还用于:
比较所述第二编码迁移特征图和所述编码目标特征图之间的差异,形成损失函数;
经过迭代训练调整所述第一图神经网络、所述第二图神经网络和所述第三图神经网络的权重,直至所述损失函数最小化。
在一种可选的方式中,所述学习所述二维风格图片的三维语义信息,得到所述二维风格图片的三维语义的风格特征图,包括:
基于拓扑结构特征对所述二维风格图片进行分类,得到物体布局拓扑结构graph分布图和物体的三维几何拓扑结构graph分布图;
基于纹理特征对所述二维风格图片进行分类,得到纹理贴图graph分布图。
在一种可选的方式中,所述学习所述目标三维模型的三维语义信息,得到目标特征图,包括:
基于拓扑结构特征对所述目标三维模型进行分类,得到所述目标三维模型的物体布局拓扑结构graph分布图和物体的三维几何拓扑结构graph分布图;
基于纹理特征对所述目标三维模型进行分类,得到所述目标三维模型的纹理贴图graph分布图。
本发明实施例通过采用图神经网络表示源风格的二维风格图片的三维语义特征,采用图神经网络表示目标三维模型的三维语义特征,可以将源风格图片的物体布局、空间信息(三维几何信息)等拓扑结构迁移至目标3D模型,能够实现3D结构的风格迁移,满足三维模型的风格迁移需求。
图5示出了本发明实施例提供的电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图5所示,该电子设备可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。
其中:处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。处理器402,用于执行程序410,具体可以执行上述用于风格迁移方法实施例中的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机可执行指令。
处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
本发明实施例提供了一种计算机可读存储介质,所述存储介质存储有至少一可执行指令,该可执行指令在电子设备上运行时,使得所述电子设备执行上述任意方法实施例中的风格迁移方法。
本发明实施例提供一种风格迁移装置,用于执行上述风格迁移方法。
本发明实施例提供了一种计算机程序,所述计算机程序可被处理器调用使电子设备执行上述任意方法实施例中的风格迁移方法。
本发明实施例提供了一种计算机程序产品,计算机程序产品包括存储在计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令在计算机上运行时,使得所述计算机执行上述任意方法实施例中的风格迁移方法。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。
本领域技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

Claims (8)

1.一种风格迁移方法,其特征在于,包括:
获取二维风格图片,所述二维风格图片用于指示源风格;
学习所述二维风格图片的三维语义信息,得到所述二维风格图片的三维语义的风格特征图,所述风格特征图采用图神经网络表示;
基于所述风格特征图对目标三维模型进行风格迁移,将所述目标三维模型的风格转换为所述源风格;
所述学习所述二维风格图片的三维语义信息,得到所述二维风格图片的三维语义的风格特征图,包括:
基于拓扑结构特征对所述二维风格图片进行分类,得到物体布局拓扑结构graph分布图和物体的三维几何拓扑结构graph分布图;
基于纹理特征对所述二维风格图片进行分类,得到纹理贴图graph分布图;
所述基于所述风格特征图对目标三维模型进行风格迁移,将所述目标三维模型的风格转换为所述源风格,包括:学习所述目标三维模型的三维语义信息,得到目标特征图,所述目标特征图采用图神经网络表示;
所述学习所述目标三维模型的三维语义信息,得到目标特征图,包括:
基于拓扑结构特征对所述目标三维模型进行分类,得到所述目标三维模型的物体布局拓扑结构graph分布图和物体的三维几何拓扑结构graph分布图;
基于纹理特征对所述目标三维模型进行分类,得到所述目标三维模型的纹理贴图graph分布图。
2.根据权利要求1所述的风格迁移方法,其特征在于,
所述基于所述风格特征图对目标三维模型进行风格迁移,将所述目标三维模型的风格转换为所述源风格,还包括:
将所述风格特征图和所述目标特征图输入至风格迁移模型的编码器,得到编码风格特征图和编码目标特征图;
将所述编码风格特征图和所述编码目标特征图输入至所述风格迁移模型的迁移模块,得到编码迁移特征图;
将所述编码迁移特征图输入至所述风格迁移模型的解码器,得到解码迁移特征图。
3.根据权利要求2所述的风格迁移方法,其特征在于,所述将所述编码风格特征图和所述编码目标特征图输入至所述风格迁移模型的迁移模块,得到编码迁移特征图,包括:
将所述编码目标特征图输入至第一图神经网络,基于拉普拉斯算子计算得到转换后的目标特征空间;
将所述编码风格特征图输入至第二图神经网络,基于拉普拉斯算子计算得到转换后的风格特征空间;
将所述目标特征空间和所述风格特征空间基于拉普拉斯算子进行融合,得到融合后的编码迁移特征图。
4.根据权利要求2所述的风格迁移方法,其特征在于,所述将所述编码风格特征图和所述编码目标特征图输入至所述风格迁移模型的迁移模块,得到编码迁移特征图,包括:
将所述编码目标特征图输入至第一图神经网络,基于拉普拉斯算子计算得到转换后的目标特征空间;
将所述编码风格特征图输入至第二图神经网络,基于拉普拉斯算子计算得到转换后的第一风格特征空间;
将所述目标特征空间和所述第一风格特征空间基于拉普拉斯算子进行融合,得到融合后的第一编码迁移特征图,并对所述第一编码迁移特征图进行归一化处理;
将所述编码风格特征图输入至第三图神经网络,基于拉普拉斯算子计算得到转换后的第二风格特征空间;
将归一化处理后的所述第一编码迁移特征图和所述第二风格特征空间基于拉普拉斯算子进行融合,得到第二编码迁移特征图。
5.根据权利要求4所述的风格迁移方法,其特征在于,所述方法还包括:
比较所述第二编码迁移特征图和所述编码目标特征图之间的差异,形成损失函数;
经过迭代训练调整所述第一图神经网络、所述第二图神经网络和所述第三图神经网络的权重,直至所述损失函数最小化。
6.一种风格迁移装置,其特征在于,包括:
获取模块,用于获取二维风格图片,所述二维风格图片用于指示源风格;
学习模块,用于学习所述二维风格图片的三维语义信息,得到所述二维风格图片的三维语义的风格特征图,所述风格特征图采用图神经网络表示;
迁移模块,用于基于所述风格特征图对目标三维模型进行风格迁移,将所述目标三维模型的风格转换为所述源风格;
所述学习所述二维风格图片的三维语义信息,得到所述二维风格图片的三维语义的风格特征图,包括:
基于拓扑结构特征对所述二维风格图片进行分类,得到物体布局拓扑结构graph分布图和物体的三维几何拓扑结构graph分布图;
基于纹理特征对所述二维风格图片进行分类,得到纹理贴图graph分布图;
所述基于所述风格特征图对目标三维模型进行风格迁移,将所述目标三维模型的风格转换为所述源风格,包括:学习所述目标三维模型的三维语义信息,得到目标特征图,所述目标特征图采用图神经网络表示;
所述学习所述目标三维模型的三维语义信息,得到目标特征图,包括:
基于拓扑结构特征对所述目标三维模型进行分类,得到所述目标三维模型的物体布局拓扑结构graph分布图和物体的三维几何拓扑结构graph分布图;
基于纹理特征对所述目标三维模型进行分类,得到所述目标三维模型的纹理贴图graph分布图。
7.一种电子设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1~5任意一项所述的风格迁移方法的操作。
8.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一可执行指令,所述可执行指令在电子设备上运行时,使得所述电子设备执行如权利要求1~5任意一项所述的风格迁移方法的操作。
CN202210214387.5A 2022-03-07 2022-03-07 风格迁移方法、装置、设备和存储介质 Active CN114331827B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210214387.5A CN114331827B (zh) 2022-03-07 2022-03-07 风格迁移方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210214387.5A CN114331827B (zh) 2022-03-07 2022-03-07 风格迁移方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN114331827A CN114331827A (zh) 2022-04-12
CN114331827B true CN114331827B (zh) 2022-06-07

Family

ID=81030864

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210214387.5A Active CN114331827B (zh) 2022-03-07 2022-03-07 风格迁移方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN114331827B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111311663A (zh) * 2020-02-17 2020-06-19 清华大学深圳国际研究生院 一种实时大场景三维语义建模的方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190112428A (ko) * 2018-03-26 2019-10-07 한국전자통신연구원 통합 3d 객체모델 생성 및 의미론적 스타일전이 장치 및 방법
US20190362461A1 (en) * 2018-08-10 2019-11-28 Intel Corporation Multi-object, three-dimensional modeling and model selection
CN111325681B (zh) * 2020-01-20 2022-10-11 南京邮电大学 一种结合元学习机制与特征融合的图像风格迁移方法
CN111325664B (zh) * 2020-02-27 2023-08-29 Oppo广东移动通信有限公司 风格迁移方法、装置、存储介质及电子设备
CN112884636B (zh) * 2021-01-28 2023-09-26 南京大学 一种自动生成风格化视频的风格迁移方法
CN113610958A (zh) * 2021-07-09 2021-11-05 云南联合视觉科技有限公司 一种基于风格迁移的3d图像构建方法、装置及终端
CN113723294A (zh) * 2021-08-31 2021-11-30 杭州海康威视数字技术股份有限公司 数据处理方法、装置及对象识别方法、装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111311663A (zh) * 2020-02-17 2020-06-19 清华大学深圳国际研究生院 一种实时大场景三维语义建模的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
地理信息检索关键技术研究综述;王志宝等;《计算机工程与科学》;20180315(第03期);第157-167页 *

Also Published As

Publication number Publication date
CN114331827A (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
CN111369681B (zh) 三维模型的重构方法、装置、设备及存储介质
US20230070008A1 (en) Generating three-dimensional object models from two-dimensional images
US11704802B2 (en) Multi-dimensional model merge for style transfer
JP7129529B2 (ja) 人工知能の使用による3dオブジェクトへのuvマッピング
CN114529707B (zh) 三维模型分割方法、装置、计算设备及可读存储介质
CA3137297C (en) Adaptive convolutions in neural networks
Denninger et al. 3d scene reconstruction from a single viewport
US11443481B1 (en) Reconstructing three-dimensional scenes portrayed in digital images utilizing point cloud machine-learning models
CN112529068B (zh) 一种多视图图像分类方法、系统、计算机设备和存储介质
US20230267686A1 (en) Subdividing a three-dimensional mesh utilizing a neural network
Liu et al. Painting completion with generative translation models
CN112529069A (zh) 一种半监督节点分类方法、系统、计算机设备和存储介质
Samavati et al. Deep learning-based 3D reconstruction: a survey
CN113763535A (zh) 一种特征潜码提取方法、计算机设备及存储介质
CN114331827B (zh) 风格迁移方法、装置、设备和存储介质
CN114022630A (zh) 三维场景的重建方法、装置、设备和计算机可读存储介质
Zhang et al. Fast Mesh Reconstruction from Single View Based on GCN and Topology Modification.
CN114049444B (zh) 一种3d场景生成方法及装置
US20240161403A1 (en) High resolution text-to-3d content creation
Prasad Deep learning frameworks for point cloud reconstruction
Wu et al. MG-SAGC: A multiscale graph and its self-adaptive graph convolution network for 3D point clouds
Jboor Generative Adversarial Networks Based Reconstruction and Restoration of Cultural Heritage
Ilo Weather Image Generation using a Generative Adversarial Network
Zhai You Only Group Once: Efficient Point-Cloud Processing with Token Representation and Relation Inference Module
Deva Prasad Deep learning frameworks for point cloud reconstruction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant