CN116664773A

CN116664773A - 一种基于深度学习的多张绘画生成3d模型的方法及系统

Info

Publication number: CN116664773A
Application number: CN202310645838.5A
Authority: CN
Inventors: 甘凌; 顾大桐; 王步国
Original assignee: Beijing Yuanyue Technology Co ltd
Current assignee: Beijing Yuanyue Technology Co ltd
Priority date: 2023-06-02
Filing date: 2023-06-02
Publication date: 2023-08-29
Anticipated expiration: 2043-06-02
Also published as: CN116664773B

Abstract

本发明涉及一种基于深度学习的多张绘画生成3D模型的方法，包括以下步骤：将多张绘画图像进行预处理，并提取每一个绘画图像的特征向量；根据特征向量计算两两绘画图像间的关联度，并对所有绘画图像进行聚类；根据聚类结果标记每张图像的所属类别，并在所属类别中挑选重要特征；依据挑选的重要特征构建深度学习模型，并获取训练样本集；据训练样本集对深度学习模型进行训练，并将多张绘画图像输入至训练完成的深度学习模型中，输出的对应的3D模型。本发明能够在避免花费大量时间对每张绘画图像进行建模的情况下生成对应的3D模型，能够自动提取多张绘画图像中的重要特征，而无需手动进行繁琐的特征提取工作。

Description

一种基于深度学习的多张绘画生成3D模型的方法及系统

技术领域

本发明涉及绘画建模技术领域，尤其涉及一种基于深度学习的多张绘画生成3D模型的方法及系统。

背景技术

深度学习是一种机器学习方法，通过构建多层神经网络进行训练，自动地从数据中提取特征并实现分类、回归等任务。

目前，绘画生成算法已成为人工智能领域的研究热点之一。利用深度学习技术，通过对大量艺术品样本的学习和分析，可以实现高质量、多样性的绘画生成，具有广泛的应用前景。

在相关技术中，在对多张绘画进行3D模型生成时，需要人工对每一张绘画进行建模，且多张绘画之间的关联性无法很好的进行识别，需要大量的时间和准备工作。

发明内容

为了现有技术存在的上述技术缺陷，本发明提供了一种基于深度学习的多张绘画生成3D模型的方法及系统，可以有效解决背景技术中的问题。

为了解决上述技术问题，本发明提供的技术方案具体如下：

第一方面，本发明实施例公开了一种基于深度学习的多张绘画生成3D模型的方法，包括以下步骤：

将多张绘画图像进行预处理，并提取每一个绘画图像的特征向量；

根据特征向量计算两两绘画图像间的关联度，并对所有绘画图像进行聚类；

根据聚类结果标记每张图像的所属类别，并在所属类别中挑选重要特征；

依据挑选的重要特征构建深度学习模型，并获取训练样本集；

根据训练样本集对深度学习模型进行训练，并将多张绘画图像输入至训练完成的深度学习模型中，输出的对应的3D模型。

在上述任一方案中优选的是，所述将多张绘画图像进行预处理，并提取每一个绘画图像的特征向量，包括以下步骤：

将多张绘画图像空白区域进行裁剪，并通过公式：对每张绘画图像进行归一化，其中，I_min和I_max分别为绘画图像中的最小和最大像素值，I¹为归一化后的绘画图像；

将绘画图像中的每一个像素点分配到不同的语义标签；

从每个区域中提取有用的特征，并建立每个区域的特征向量；

通过公式：X_i＝[f_i,1,f_i,2,...,f_i,Nr],f_i,j∈R^D，对绘画图像的特征向量进行表示，其中，X_i为特征矩阵，f_i,j为第i个绘画图像中第j个区域的特征向量，N_r为一个绘画图像中的总区域数，D表示每个区域的特征向量的维度，R为实数集。

在上述任一方案中优选的是，所述将绘画图像中的每一个像素点分配到不同的语义标签，包括：

通过相关技术构建语义分割模型，设置比输入图像为X∈R^W*H*C,模型输出的每个像素点的概率分布矩阵为Y∈R^W*H*N,则语义分割为Y＝f_seg(X)，其中，W、H、C和N分别为图像的宽度、高度、通道数和类别数量，f_seg为CNN模型；

通过公式：计算语义分割模型预测值与真实标签之间的差异，以通过L_seg训练f_seg，其中，y_i1,j1,n为预测的Y矩阵中第(i₁,j₁)个像素点属于第n个类别的概率，y_true,i1,j1,n为真实标签。

在上述任一方案中优选的是，所述步骤从每个区域中提取有用的特征，并建立每个区域的特征向量，包括：

将图像中每个区域表示为一个特征向量f_i,j∈R^D，并计算出每个区域内的统计信息，其中f_i,j为第i个绘画图像中第j个区域的特征向量，D表示每个区域的特征向量的维度，R为实数集；

提取区域的边缘信息，并通过公式：计算出该区域的边缘特征向量，其中，E_j为第j个区域中的边缘像素集合，len(E_j),width(E_j),shape(E_j)分别为边缘的长度、平均宽度和曲率；

通过深度卷积神经网络提取区域的深度信息，则深度特征向量为：其中，w¹、H¹和C¹分别为深度特征的宽度、高度和通道数，Z为深度卷积神经网络的输出，f_fc为全连接层，/>为D维特征向量，Z_j为卷积特征。

在上述任一方案中优选的是，所述根据特征向量计算两两绘画图像间的关联度，并对所有绘画图像进行聚类，包括以下步骤：

通过公式计算两两绘画图像间的余弦相似度，其中，s_i2,j2为第i₂张绘画图像和第j₂张绘画图像之间的余弦相似度，x_i2和x_j2分别为第i₂张绘画图像的特征向量和第j₂张绘画图像的特征向量；

随机选择k个初始的聚类中心μ₁,μ₂,...μ_k；

通过公式：计算每个特征向量x_i与聚类中心μ_j之间的距离d_i,j，并将x_i分配给距离最近的聚类中心所在的簇C_j，其中，j₃表示聚类算法中的一个簇或类别；

更新聚类中心的位置，使其成为簇内所有数据点的平均值；

将每个数据点x_i所属的簇C_j作为分类结果y_i；

根据聚类算法得到的分类结果，可以将所有的绘画图像分成k个不同的类别。

在上述任一方案中优选的是，所述根据聚类结果标记每张图像的所属类别，并在所属类别中挑选重要特征，包括以下步骤：

设置共有c张绘画图像，每张绘画图像由m个特征，通过公式计算每个特征的信息增益Gain(S,F)，其中，S为分类结果，F为某个特征，_Values(F)为F特征取值的集合，|S_v|为属于v取值的样本数量，Ent(S)为分类结果S的熵；

通过公式计算分类结果S的熵，并照信息增益大小对所有特征进行排序，选择信息增益较大的前N个特征作为最终的关键特征，其中，u为分类结果的总数，|S_p|为属于第p个分类结果的样本数量。

在上述任一方案中优选的是，依据挑选的重要特征构建深度学习模型，并获取训练样本集，包括以下步骤：

构建GAN模型，所述GAN模型包括生成器和判别器，所述生成器用于接受随机噪声或特征向量作为输入，输出一组3D模型数据，所述判别器用于判断给定的3D模型是否真实；

通过公式x＝G(z),z∈R^d计算GAN生成器出书的3D模型数据x∈R^l，其中G(·)为生成器函数，d和l分别为特征向量和3D模型数据的维度。

在上述任一方案中优选的是，根据训练样本集对深度学习模型进行训练，并将多张绘画图像输入至训练完成的深度学习模型中，输出的对应的3D模型，包括以下步骤：

将训练样本集进行预处理；

将预处理后的训练数据输入至GAN模型中，并使训练目标为3D模型预测结果与真实3D模型之间的误差最小化。

在上述任一方案中优选的是，所述使训练目标为3D模型预测结果与真实3D模型之间的误差最小化，包括：

定义生成器的损失函数L_G为生成的3D模型与真实3D模型之间的欧氏距离，定义判别器的损失函数L_D为二分类交叉熵损失函数，定义GAN模型的总体损失函数L为L＝L_G-λL_D,其中λ为一个超参数；

通过公式L＝α||x_c-G(z)||²+βlog(1-DY(G(z)))计算GAN模型的总体损失函数L，其中α和β为损失函数超参数，z为选择的特征向量，x_c为训练样本集中的3D模型数据，DY为判别器，在每次迭代过程中，反向传播更新生成器和判别器的参数，最小化总体损失函数L，以使GAN模型能够生成更逼真和高质量的3D模型。

第二方面，一种基于深度学习的多张绘画生成3D模型的系统，所述系统包括：

提取模块，用于将多张绘画图像进行预处理，并提取每一个绘画图像的特征向量；

分类模块，用于根据特征向量计算两两绘画图像间的关联度，并对所有绘画图像进行聚类；

挑选模块，用于根据聚类结果标记每张图像的所属类别，并在所属类别中挑选重要特征；

构建模块，用于依据挑选的重要特征构建深度学习模型，并获取训练样本集；

输出模块，用于根据训练样本集对深度学习模型进行训练，并将多张绘画图像输入至训练完成的深度学习模型中，输出的对应的3D模型；

所述系统通过如第一方面所述的方法基于深度学习的多张绘画生成3D模型。

与现有技术相比，本发明的有益效果：

本发明提供的基于深度学习的多张绘画生成3D模型的方法，能够在避免花费大量时间对每张绘画图像进行建模的情况下生成对应的3D模型，能够自动提取多张绘画图像中的重要特征，而无需手动进行繁琐的特征提取工作，可以将多张绘画图像划分为不同的类别，有效地减少了样本数据的复杂性。

附图说明

附图用于对本发明的进一步理解，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1是本发明基于深度学习的多张绘画生成3D模型的方法的流程图；

图2是本发明基于深度学习的多张绘画生成3D模型的系统的模块图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明的是，当元件被称为“固定于”或“设置于”另一个元件，它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件，它可以是直接连接到另一个元件或间接连接至该另一个元件上。

在本发明的描述中，需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

为了更好地理解上述技术方案，下面将结合说明书附图及具体实施方式对本发明技术方案进行详细说明。

如图1所示，本发明提供了一种基于深度学习的多张绘画生成3D模型的方法，包括以下步骤：

步骤1，将多张绘画图像进行预处理，并提取每一个绘画图像的特征向量；

步骤2，根据特征向量计算两两绘画图像间的关联度，并对所有绘画图像进行聚类；

步骤3，根据聚类结果标记每张图像的所属类别，并在所属类别中挑选重要特征；

步骤4，依据挑选的重要特征构建深度学习模型，并获取训练样本集；

步骤5，根据训练样本集对深度学习模型进行训练，并将多张绘画图像输入至训练完成的深度学习模型中，输出的对应的3D模型。

在本发明实施例所述的基于深度学习的多张绘画生成3D模型的方法中，通过步骤1可以提取每张绘画图像的关键信息，方便后续的聚类和建模，并且能够减少数据噪声和冗余信息，提高模型的训练效率；

通过步骤2可以把各个绘画之间的异同点清晰地表现出来并可视化展示，有效减少了样本数据的复杂性，提高了模型的训练效率；

通过步骤3可以针对不同类别的绘画图像进行特征挑选，能够提高模型的泛化性能，使其输出的3D模型更加真实可靠；

通过步骤4可以利用深度学习技术进行自动特征提取，并为模型训练提供可靠的数据基础，进一步提高模型的训练精度和效率；

通过步骤5可以实现对多张绘画图像的3D模型生成，提高了3D模型的生成精度和效率。

具体的，所述步骤1，将多张绘画图像进行预处理，并提取每一个绘画图像的特征向量，包括以下步骤：

步骤11，将多张绘画图像空白区域进行裁剪，并通过公式：对每张绘画图像进行归一化，其中，I_min和I_max分别为绘画图像中的最小和最大像素值，I¹为归一化后的绘画图像；

步骤12，将绘画图像中的每一个像素点分配到不同的语义标签；

步骤13，从每个区域中提取有用的特征，并建立每个区域的特征向量；

步骤14，通过公式：X_i＝[f_i,1,f_i,2,...,f_i,Nr],f_i,j∈R^D，对绘画图像的特征向量进行表示，其中，X_i为特征矩阵，f_i,j为第i个绘画图像中第j个区域的特征向量，N_r为一个绘画图像中的总区域数，D表示每个区域的特征向量的维度，R为实数集。

进一步的，所述步骤12，将绘画图像中的每一个像素点分配到不同的语义标签，包括：

进一步的，所述步骤13，从每个区域中提取有用的特征，并建立每个区域的特征向量，包括：

步骤131，将图像中每个区域表示为一个特征向量f_i,j∈R^D，并计算出每个区域内的统计信息，其中f_i,j为第i个绘画图像中第j个区域的特征向量，D表示每个区域的特征向量的维度，R为实数集；

步骤132，提取区域的边缘信息，并通过公式：计算出该区域的边缘特征向量，其中，E_j为第j个区域中的边缘像素集合，len(E_j),width(E_j),shape(E_j)分别为边缘的长度、平均宽度和曲率；

步骤133，通过深度卷积神经网络提取区域的深度信息，则深度特征向量为：其中，w¹、H¹和C¹分别为深度特征的宽度、高度和通道数，Z为深度卷积神经网络的输出，f_fc为全连接层，/>为D维特征向量，Z_j为卷积特征。

具体的，所述步骤2，根据特征向量计算两两绘画图像间的关联度，并对所有绘画图像进行聚类，包括以下步骤：

步骤21，通过公式计算两两绘画图像间的余弦相似度，其中，s_i2,j2为第i₂张绘画图像和第j₂张绘画图像之间的余弦相似度，x_i2和x_j2分别为第i₂张绘画图像的特征向量和第j₂张绘画图像的特征向量；

步骤22，随机选择k个初始的聚类中心μ₁,μ₂,...μ_k；

步骤23，通过公式：计算每个特征向量x_i与聚类中心μ_j之间的距离d_i,j，并将x_i分配给距离最近的聚类中心所在的簇C_j，其中，j₃表示聚类算法中的一个簇或类别；

步骤24，更新聚类中心的位置，使其成为簇内所有数据点的平均值；

步骤25，将每个数据点x_i所属的簇C_j作为分类结果y_i；

步骤26，根据聚类算法得到的分类结果，可以将所有的绘画图像分成k个不同的类别。

具体的，所述步骤3，根据聚类结果标记每张图像的所属类别，并在所属类别中挑选重要特征，包括以下步骤：

步骤31，设置共有c张绘画图像，每张绘画图像由m个特征，通过公式计算每个特征的信息增益Gain(S,F)，其中，S为分类结果，F为某个特征，Values(F)为F特征取值的集合，|S_v|为属于v取值的样本数量，Ent(S)为分类结果S的熵；

步骤32，通过公式计算分类结果S的熵，并照信息增益大小对所有特征进行排序，选择信息增益较大的前N个特征作为最终的关键特征，其中，u为分类结果的总数，|S_p|为属于第p个分类结果的样本数量。

具体的，所述步骤4，依据挑选的重要特征构建深度学习模型，并获取训练样本集，包括以下步骤：

步骤41，构建GAN模型，所述GAN模型包括生成器和判别器，所述生成器用于接受随机噪声或特征向量作为输入，输出一组3D模型数据，所述判别器用于判断给定的3D模型是否真实；

步骤42，通过公式x＝G(z),z∈R^d计算GAN生成器出书的3D模型数据x∈R^l，其中G(·)为生成器函数，d和l分别为特征向量和3D模型数据的维度。

具体的，所述步骤5，根据训练样本集对深度学习模型进行训练，并将多张绘画图像输入至训练完成的深度学习模型中，输出的对应的3D模型，包括以下步骤：

步骤51，将训练样本集进行预处理；

步骤52将预处理后的训练数据输入至GAN模型中，并使训练目标为3D模型预测结果与真实3D模型之间的误差最小化。

其中，所述使训练目标为3D模型预测结果与真实3D模型之间的误差最小化，包括：

如图2所示，本发明还提供了一种基于深度学习的多张绘画生成3D模型的系统，所述系统包括：

输出模块，用于根据训练样本集对深度学习模型进行训练，并将多张绘画图像输入至训练完成的深度学习模型中，输出的对应的3D模型。

与现有技术相比，本发明提供的有益效果是：

以上仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的多张绘画生成3D模型的方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于深度学习的多张绘画生成3D模型的方法，其特征在于：所述将多张绘画图像进行预处理，并提取每一个绘画图像的特征向量，包括以下步骤：

将绘画图像中的每一个像素点分配到不同的语义标签；

通过公式：X_i＝[f_i,1,f_i,2,…,f_i,Nr],f_i,j∈R^D，对绘画图像的特征向量进行表示，其中，X_i为特征矩阵，f_i,j为第i个绘画图像中第j个区域的特征向量，Nr为一个绘画图像中的总区域数，D表示每个区域的特征向量的维度，R为实数集。

3.根据权利要求2所述的基于深度学习的多张绘画生成3D模型的方法，其特征在于：所述将绘画图像中的每一个像素点分配到不同的语义标签，包括：

4.根据权利要求3所述的基于深度学习的多张绘画生成3D模型的方法，其特征在于：所述步骤从每个区域中提取有用的特征，并建立每个区域的特征向量，包括：

提取区域的边缘信息，并通过公式：计算出该区域的边缘特征向量，其中，E_j为第j个区域中的边缘像素集合，len(E_j)、width(E_j)和shape(E_j)分别为边缘的长度、平均宽度和曲率；

5.根据权利要求4所述的基于深度学习的多张绘画生成3D模型的方法，其特征在于：所述根据特征向量计算两两绘画图像间的关联度，并对所有绘画图像进行聚类，包括以下步骤：

随机选择k个初始的聚类中心μ₁,μ₂,…,μ_k,；

更新聚类中心的位置，使其成为簇内所有数据点的平均值；

将每个数据点x_i所属的簇C_j作为分类结果y_i；

6.根据权利要求5所述的基于深度学习的多张绘画生成3D模型的方法，其特征在于：所述根据聚类结果标记每张图像的所属类别，并在所属类别中挑选重要特征，包括以下步骤：

设置共有c张绘画图像，每张绘画图像由m个特征，通过公式计算每个特征的信息增益Gain(S,F)，其中，S为分类结果，F为某个特征，Values(F)为F特征取值的集合，|S_v|为属于v取值的样本数量，Ent(S)为分类结果S的熵；

7.根据权利要求6所述的基于深度学习的多张绘画生成3D模型的方法，其特征在于：依据挑选的重要特征构建深度学习模型，并获取训练样本集，包括以下步骤：

8.根据权利要求7所述的基于深度学习的多张绘画生成3D模型的方法，其特征在于：根据训练样本集对深度学习模型进行训练，并将多张绘画图像输入至训练完成的深度学习模型中，输出的对应的3D模型，包括以下步骤：

将训练样本集进行预处理；

9.根据权利要求8所述的基于深度学习的多张绘画生成3D模型的方法，其特征在于：所述使训练目标为3D模型预测结果与真实3D模型之间的误差最小化，包括：

10.一种基于深度学习的多张绘画生成3D模型的系统，其特征在于：所述系统包括：

所述系统通过如权利要求1所述的方法基于深度学习的多张绘画生成3D模型。