CN116664773A - 一种基于深度学习的多张绘画生成3d模型的方法及系统 - Google Patents

一种基于深度学习的多张绘画生成3d模型的方法及系统 Download PDF

Info

Publication number
CN116664773A
CN116664773A CN202310645838.5A CN202310645838A CN116664773A CN 116664773 A CN116664773 A CN 116664773A CN 202310645838 A CN202310645838 A CN 202310645838A CN 116664773 A CN116664773 A CN 116664773A
Authority
CN
China
Prior art keywords
model
deep learning
image
images
painting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310645838.5A
Other languages
English (en)
Other versions
CN116664773B (zh
Inventor
甘凌
顾大桐
王步国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yuanyue Technology Co ltd
Original Assignee
Beijing Yuanyue Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yuanyue Technology Co ltd filed Critical Beijing Yuanyue Technology Co ltd
Priority to CN202310645838.5A priority Critical patent/CN116664773B/zh
Publication of CN116664773A publication Critical patent/CN116664773A/zh
Application granted granted Critical
Publication of CN116664773B publication Critical patent/CN116664773B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Architecture (AREA)
  • Computer Hardware Design (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于深度学习的多张绘画生成3D模型的方法,包括以下步骤:将多张绘画图像进行预处理,并提取每一个绘画图像的特征向量;根据特征向量计算两两绘画图像间的关联度,并对所有绘画图像进行聚类;根据聚类结果标记每张图像的所属类别,并在所属类别中挑选重要特征;依据挑选的重要特征构建深度学习模型,并获取训练样本集;据训练样本集对深度学习模型进行训练,并将多张绘画图像输入至训练完成的深度学习模型中,输出的对应的3D模型。本发明能够在避免花费大量时间对每张绘画图像进行建模的情况下生成对应的3D模型,能够自动提取多张绘画图像中的重要特征,而无需手动进行繁琐的特征提取工作。

Description

一种基于深度学习的多张绘画生成3D模型的方法及系统
技术领域
本发明涉及绘画建模技术领域,尤其涉及一种基于深度学习的多张绘画生成3D模型的方法及系统。
背景技术
深度学习是一种机器学习方法,通过构建多层神经网络进行训练,自动地从数据中提取特征并实现分类、回归等任务。
目前,绘画生成算法已成为人工智能领域的研究热点之一。利用深度学习技术,通过对大量艺术品样本的学习和分析,可以实现高质量、多样性的绘画生成,具有广泛的应用前景。
在相关技术中,在对多张绘画进行3D模型生成时,需要人工对每一张绘画进行建模,且多张绘画之间的关联性无法很好的进行识别,需要大量的时间和准备工作。
发明内容
为了现有技术存在的上述技术缺陷,本发明提供了一种基于深度学习的多张绘画生成3D模型的方法及系统,可以有效解决背景技术中的问题。
为了解决上述技术问题,本发明提供的技术方案具体如下:
第一方面,本发明实施例公开了一种基于深度学习的多张绘画生成3D模型的方法,包括以下步骤:
将多张绘画图像进行预处理,并提取每一个绘画图像的特征向量;
根据特征向量计算两两绘画图像间的关联度,并对所有绘画图像进行聚类;
根据聚类结果标记每张图像的所属类别,并在所属类别中挑选重要特征;
依据挑选的重要特征构建深度学习模型,并获取训练样本集;
根据训练样本集对深度学习模型进行训练,并将多张绘画图像输入至训练完成的深度学习模型中,输出的对应的3D模型。
在上述任一方案中优选的是,所述将多张绘画图像进行预处理,并提取每一个绘画图像的特征向量,包括以下步骤:
将多张绘画图像空白区域进行裁剪,并通过公式:对每张绘画图像进行归一化,其中,Imin和Imax分别为绘画图像中的最小和最大像素值,I1为归一化后的绘画图像;
将绘画图像中的每一个像素点分配到不同的语义标签;
从每个区域中提取有用的特征,并建立每个区域的特征向量;
通过公式:Xi=[fi,1,fi,2,...,fi,Nr],fi,j∈RD,对绘画图像的特征向量进行表示,其中,Xi为特征矩阵,fi,j为第i个绘画图像中第j个区域的特征向量,Nr为一个绘画图像中的总区域数,D表示每个区域的特征向量的维度,R为实数集。
在上述任一方案中优选的是,所述将绘画图像中的每一个像素点分配到不同的语义标签,包括:
通过相关技术构建语义分割模型,设置比输入图像为X∈RW*H*C,模型输出的每个像素点的概率分布矩阵为Y∈RW*H*N,则语义分割为Y=fseg(X),其中,W、H、C和N分别为图像的宽度、高度、通道数和类别数量,fseg为CNN模型;
通过公式:计算语义分割模型预测值与真实标签之间的差异,以通过Lseg训练fseg,其中,yi1,j1,n为预测的Y矩阵中第(i1,j1)个像素点属于第n个类别的概率,ytrue,i1,j1,n为真实标签。
在上述任一方案中优选的是,所述步骤从每个区域中提取有用的特征,并建立每个区域的特征向量,包括:
将图像中每个区域表示为一个特征向量fi,j∈RD,并计算出每个区域内的统计信息,其中fi,j为第i个绘画图像中第j个区域的特征向量,D表示每个区域的特征向量的维度,R为实数集;
提取区域的边缘信息,并通过公式:计算出该区域的边缘特征向量,其中,Ej为第j个区域中的边缘像素集合,len(Ej),width(Ej),shape(Ej)分别为边缘的长度、平均宽度和曲率;
通过深度卷积神经网络提取区域的深度信息,则深度特征向量为:其中,w1、H1和C1分别为深度特征的宽度、高度和通道数,Z为深度卷积神经网络的输出,ffc为全连接层,/>为D维特征向量,Zj为卷积特征。
在上述任一方案中优选的是,所述根据特征向量计算两两绘画图像间的关联度,并对所有绘画图像进行聚类,包括以下步骤:
通过公式计算两两绘画图像间的余弦相似度,其中,si2,j2为第i2张绘画图像和第j2张绘画图像之间的余弦相似度,xi2和xj2分别为第i2张绘画图像的特征向量和第j2张绘画图像的特征向量;
随机选择k个初始的聚类中心μ12,...μk
通过公式:计算每个特征向量xi与聚类中心μj之间的距离di,j,并将xi分配给距离最近的聚类中心所在的簇Cj,其中,j3表示聚类算法中的一个簇或类别;
更新聚类中心的位置,使其成为簇内所有数据点的平均值;
将每个数据点xi所属的簇Cj作为分类结果yi
根据聚类算法得到的分类结果,可以将所有的绘画图像分成k个不同的类别。
在上述任一方案中优选的是,所述根据聚类结果标记每张图像的所属类别,并在所属类别中挑选重要特征,包括以下步骤:
设置共有c张绘画图像,每张绘画图像由m个特征,通过公式计算每个特征的信息增益Gain(S,F),其中,S为分类结果,F为某个特征,Values(F)为F特征取值的集合,|Sv|为属于v取值的样本数量,Ent(S)为分类结果S的熵;
通过公式计算分类结果S的熵,并照信息增益大小对所有特征进行排序,选择信息增益较大的前N个特征作为最终的关键特征,其中,u为分类结果的总数,|Sp|为属于第p个分类结果的样本数量。
在上述任一方案中优选的是,依据挑选的重要特征构建深度学习模型,并获取训练样本集,包括以下步骤:
构建GAN模型,所述GAN模型包括生成器和判别器,所述生成器用于接受随机噪声或特征向量作为输入,输出一组3D模型数据,所述判别器用于判断给定的3D模型是否真实;
通过公式x=G(z),z∈Rd计算GAN生成器出书的3D模型数据x∈Rl,其中G(·)为生成器函数,d和l分别为特征向量和3D模型数据的维度。
在上述任一方案中优选的是,根据训练样本集对深度学习模型进行训练,并将多张绘画图像输入至训练完成的深度学习模型中,输出的对应的3D模型,包括以下步骤:
将训练样本集进行预处理;
将预处理后的训练数据输入至GAN模型中,并使训练目标为3D模型预测结果与真实3D模型之间的误差最小化。
在上述任一方案中优选的是,所述使训练目标为3D模型预测结果与真实3D模型之间的误差最小化,包括:
定义生成器的损失函数LG为生成的3D模型与真实3D模型之间的欧氏距离,定义判别器的损失函数LD为二分类交叉熵损失函数,定义GAN模型的总体损失函数L为L=LG-λLD,其中λ为一个超参数;
通过公式L=α||xc-G(z)||2+βlog(1-DY(G(z)))计算GAN模型的总体损失函数L,其中α和β为损失函数超参数,z为选择的特征向量,xc为训练样本集中的3D模型数据,DY为判别器,在每次迭代过程中,反向传播更新生成器和判别器的参数,最小化总体损失函数L,以使GAN模型能够生成更逼真和高质量的3D模型。
第二方面,一种基于深度学习的多张绘画生成3D模型的系统,所述系统包括:
提取模块,用于将多张绘画图像进行预处理,并提取每一个绘画图像的特征向量;
分类模块,用于根据特征向量计算两两绘画图像间的关联度,并对所有绘画图像进行聚类;
挑选模块,用于根据聚类结果标记每张图像的所属类别,并在所属类别中挑选重要特征;
构建模块,用于依据挑选的重要特征构建深度学习模型,并获取训练样本集;
输出模块,用于根据训练样本集对深度学习模型进行训练,并将多张绘画图像输入至训练完成的深度学习模型中,输出的对应的3D模型;
所述系统通过如第一方面所述的方法基于深度学习的多张绘画生成3D模型。
与现有技术相比,本发明的有益效果:
本发明提供的基于深度学习的多张绘画生成3D模型的方法,能够在避免花费大量时间对每张绘画图像进行建模的情况下生成对应的3D模型,能够自动提取多张绘画图像中的重要特征,而无需手动进行繁琐的特征提取工作,可以将多张绘画图像划分为不同的类别,有效地减少了样本数据的复杂性。
附图说明
附图用于对本发明的进一步理解,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1是本发明基于深度学习的多张绘画生成3D模型的方法的流程图;
图2是本发明基于深度学习的多张绘画生成3D模型的系统的模块图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明的是,当元件被称为“固定于”或“设置于”另一个元件,它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件,它可以是直接连接到另一个元件或间接连接至该另一个元件上。
在本发明的描述中,需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
为了更好地理解上述技术方案,下面将结合说明书附图及具体实施方式对本发明技术方案进行详细说明。
如图1所示,本发明提供了一种基于深度学习的多张绘画生成3D模型的方法,包括以下步骤:
步骤1,将多张绘画图像进行预处理,并提取每一个绘画图像的特征向量;
步骤2,根据特征向量计算两两绘画图像间的关联度,并对所有绘画图像进行聚类;
步骤3,根据聚类结果标记每张图像的所属类别,并在所属类别中挑选重要特征;
步骤4,依据挑选的重要特征构建深度学习模型,并获取训练样本集;
步骤5,根据训练样本集对深度学习模型进行训练,并将多张绘画图像输入至训练完成的深度学习模型中,输出的对应的3D模型。
在本发明实施例所述的基于深度学习的多张绘画生成3D模型的方法中,通过步骤1可以提取每张绘画图像的关键信息,方便后续的聚类和建模,并且能够减少数据噪声和冗余信息,提高模型的训练效率;
通过步骤2可以把各个绘画之间的异同点清晰地表现出来并可视化展示,有效减少了样本数据的复杂性,提高了模型的训练效率;
通过步骤3可以针对不同类别的绘画图像进行特征挑选,能够提高模型的泛化性能,使其输出的3D模型更加真实可靠;
通过步骤4可以利用深度学习技术进行自动特征提取,并为模型训练提供可靠的数据基础,进一步提高模型的训练精度和效率;
通过步骤5可以实现对多张绘画图像的3D模型生成,提高了3D模型的生成精度和效率。
具体的,所述步骤1,将多张绘画图像进行预处理,并提取每一个绘画图像的特征向量,包括以下步骤:
步骤11,将多张绘画图像空白区域进行裁剪,并通过公式:对每张绘画图像进行归一化,其中,Imin和Imax分别为绘画图像中的最小和最大像素值,I1为归一化后的绘画图像;
步骤12,将绘画图像中的每一个像素点分配到不同的语义标签;
步骤13,从每个区域中提取有用的特征,并建立每个区域的特征向量;
步骤14,通过公式:Xi=[fi,1,fi,2,...,fi,Nr],fi,j∈RD,对绘画图像的特征向量进行表示,其中,Xi为特征矩阵,fi,j为第i个绘画图像中第j个区域的特征向量,Nr为一个绘画图像中的总区域数,D表示每个区域的特征向量的维度,R为实数集。
进一步的,所述步骤12,将绘画图像中的每一个像素点分配到不同的语义标签,包括:
通过相关技术构建语义分割模型,设置比输入图像为X∈RW*H*C,模型输出的每个像素点的概率分布矩阵为Y∈RW*H*N,则语义分割为Y=fseg(X),其中,W、H、C和N分别为图像的宽度、高度、通道数和类别数量,fseg为CNN模型;
通过公式:计算语义分割模型预测值与真实标签之间的差异,以通过Lseg训练fseg,其中,yi1,j1,n为预测的Y矩阵中第(i1,j1)个像素点属于第n个类别的概率,ytrue,i1,j1,n为真实标签。
进一步的,所述步骤13,从每个区域中提取有用的特征,并建立每个区域的特征向量,包括:
步骤131,将图像中每个区域表示为一个特征向量fi,j∈RD,并计算出每个区域内的统计信息,其中fi,j为第i个绘画图像中第j个区域的特征向量,D表示每个区域的特征向量的维度,R为实数集;
步骤132,提取区域的边缘信息,并通过公式:计算出该区域的边缘特征向量,其中,Ej为第j个区域中的边缘像素集合,len(Ej),width(Ej),shape(Ej)分别为边缘的长度、平均宽度和曲率;
步骤133,通过深度卷积神经网络提取区域的深度信息,则深度特征向量为:其中,w1、H1和C1分别为深度特征的宽度、高度和通道数,Z为深度卷积神经网络的输出,ffc为全连接层,/>为D维特征向量,Zj为卷积特征。
具体的,所述步骤2,根据特征向量计算两两绘画图像间的关联度,并对所有绘画图像进行聚类,包括以下步骤:
步骤21,通过公式计算两两绘画图像间的余弦相似度,其中,si2,j2为第i2张绘画图像和第j2张绘画图像之间的余弦相似度,xi2和xj2分别为第i2张绘画图像的特征向量和第j2张绘画图像的特征向量;
步骤22,随机选择k个初始的聚类中心μ12,...μk
步骤23,通过公式:计算每个特征向量xi与聚类中心μj之间的距离di,j,并将xi分配给距离最近的聚类中心所在的簇Cj,其中,j3表示聚类算法中的一个簇或类别;
步骤24,更新聚类中心的位置,使其成为簇内所有数据点的平均值;
步骤25,将每个数据点xi所属的簇Cj作为分类结果yi
步骤26,根据聚类算法得到的分类结果,可以将所有的绘画图像分成k个不同的类别。
具体的,所述步骤3,根据聚类结果标记每张图像的所属类别,并在所属类别中挑选重要特征,包括以下步骤:
步骤31,设置共有c张绘画图像,每张绘画图像由m个特征,通过公式计算每个特征的信息增益Gain(S,F),其中,S为分类结果,F为某个特征,Values(F)为F特征取值的集合,|Sv|为属于v取值的样本数量,Ent(S)为分类结果S的熵;
步骤32,通过公式计算分类结果S的熵,并照信息增益大小对所有特征进行排序,选择信息增益较大的前N个特征作为最终的关键特征,其中,u为分类结果的总数,|Sp|为属于第p个分类结果的样本数量。
具体的,所述步骤4,依据挑选的重要特征构建深度学习模型,并获取训练样本集,包括以下步骤:
步骤41,构建GAN模型,所述GAN模型包括生成器和判别器,所述生成器用于接受随机噪声或特征向量作为输入,输出一组3D模型数据,所述判别器用于判断给定的3D模型是否真实;
步骤42,通过公式x=G(z),z∈Rd计算GAN生成器出书的3D模型数据x∈Rl,其中G(·)为生成器函数,d和l分别为特征向量和3D模型数据的维度。
具体的,所述步骤5,根据训练样本集对深度学习模型进行训练,并将多张绘画图像输入至训练完成的深度学习模型中,输出的对应的3D模型,包括以下步骤:
步骤51,将训练样本集进行预处理;
步骤52将预处理后的训练数据输入至GAN模型中,并使训练目标为3D模型预测结果与真实3D模型之间的误差最小化。
其中,所述使训练目标为3D模型预测结果与真实3D模型之间的误差最小化,包括:
定义生成器的损失函数LG为生成的3D模型与真实3D模型之间的欧氏距离,定义判别器的损失函数LD为二分类交叉熵损失函数,定义GAN模型的总体损失函数L为L=LG-λLD,其中λ为一个超参数;
通过公式L=α||xc-G(z)||2+βlog(1-DY(G(z)))计算GAN模型的总体损失函数L,其中α和β为损失函数超参数,z为选择的特征向量,xc为训练样本集中的3D模型数据,DY为判别器,在每次迭代过程中,反向传播更新生成器和判别器的参数,最小化总体损失函数L,以使GAN模型能够生成更逼真和高质量的3D模型。
如图2所示,本发明还提供了一种基于深度学习的多张绘画生成3D模型的系统,所述系统包括:
提取模块,用于将多张绘画图像进行预处理,并提取每一个绘画图像的特征向量;
分类模块,用于根据特征向量计算两两绘画图像间的关联度,并对所有绘画图像进行聚类;
挑选模块,用于根据聚类结果标记每张图像的所属类别,并在所属类别中挑选重要特征;
构建模块,用于依据挑选的重要特征构建深度学习模型,并获取训练样本集;
输出模块,用于根据训练样本集对深度学习模型进行训练,并将多张绘画图像输入至训练完成的深度学习模型中,输出的对应的3D模型。
与现有技术相比,本发明提供的有益效果是:
本发明提供的基于深度学习的多张绘画生成3D模型的方法,能够在避免花费大量时间对每张绘画图像进行建模的情况下生成对应的3D模型,能够自动提取多张绘画图像中的重要特征,而无需手动进行繁琐的特征提取工作,可以将多张绘画图像划分为不同的类别,有效地减少了样本数据的复杂性。
以上仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于深度学习的多张绘画生成3D模型的方法,其特征在于:包括以下步骤:
将多张绘画图像进行预处理,并提取每一个绘画图像的特征向量;
根据特征向量计算两两绘画图像间的关联度,并对所有绘画图像进行聚类;
根据聚类结果标记每张图像的所属类别,并在所属类别中挑选重要特征;
依据挑选的重要特征构建深度学习模型,并获取训练样本集;
根据训练样本集对深度学习模型进行训练,并将多张绘画图像输入至训练完成的深度学习模型中,输出的对应的3D模型。
2.根据权利要求1所述的基于深度学习的多张绘画生成3D模型的方法,其特征在于:所述将多张绘画图像进行预处理,并提取每一个绘画图像的特征向量,包括以下步骤:
将多张绘画图像空白区域进行裁剪,并通过公式:对每张绘画图像进行归一化,其中,Imin和Imax分别为绘画图像中的最小和最大像素值,I1为归一化后的绘画图像;
将绘画图像中的每一个像素点分配到不同的语义标签;
从每个区域中提取有用的特征,并建立每个区域的特征向量;
通过公式:Xi=[fi,1,fi,2,…,fi,Nr],fi,j∈RD,对绘画图像的特征向量进行表示,其中,Xi为特征矩阵,fi,j为第i个绘画图像中第j个区域的特征向量,Nr为一个绘画图像中的总区域数,D表示每个区域的特征向量的维度,R为实数集。
3.根据权利要求2所述的基于深度学习的多张绘画生成3D模型的方法,其特征在于:所述将绘画图像中的每一个像素点分配到不同的语义标签,包括:
通过相关技术构建语义分割模型,设置比输入图像为X∈RW*H*C,模型输出的每个像素点的概率分布矩阵为Y∈RW*H*N,则语义分割为Y=fseg(X),其中,W、H、C和N分别为图像的宽度、高度、通道数和类别数量,fseg为CNN模型;
通过公式:计算语义分割模型预测值与真实标签之间的差异,以通过Lseg训练fseg,其中,yi1,j1,n为预测的Y矩阵中第(i1,j1)个像素点属于第n个类别的概率,ytrue,i1,j1,n为真实标签。
4.根据权利要求3所述的基于深度学习的多张绘画生成3D模型的方法,其特征在于:所述步骤从每个区域中提取有用的特征,并建立每个区域的特征向量,包括:
将图像中每个区域表示为一个特征向量fi,j∈RD,并计算出每个区域内的统计信息,其中fi,j为第i个绘画图像中第j个区域的特征向量,D表示每个区域的特征向量的维度,R为实数集;
提取区域的边缘信息,并通过公式:计算出该区域的边缘特征向量,其中,Ej为第j个区域中的边缘像素集合,len(Ej)、width(Ej)和shape(Ej)分别为边缘的长度、平均宽度和曲率;
通过深度卷积神经网络提取区域的深度信息,则深度特征向量为:其中,w1、H1和c1分别为深度特征的宽度、高度和通道数,Z为深度卷积神经网络的输出,ffc为全连接层,/>为D维特征向量,Zj为卷积特征。
5.根据权利要求4所述的基于深度学习的多张绘画生成3D模型的方法,其特征在于:所述根据特征向量计算两两绘画图像间的关联度,并对所有绘画图像进行聚类,包括以下步骤:
通过公式计算两两绘画图像间的余弦相似度,其中,si2,j2为第i2张绘画图像和第j2张绘画图像之间的余弦相似度,xi2和xj2分别为第i2张绘画图像的特征向量和第j2张绘画图像的特征向量;
随机选择k个初始的聚类中心μ12,…,μk,;
通过公式:计算每个特征向量xi与聚类中心μj之间的距离di,j,并将xi分配给距离最近的聚类中心所在的簇Cj,其中,j3表示聚类算法中的一个簇或类别;
更新聚类中心的位置,使其成为簇内所有数据点的平均值;
将每个数据点xi所属的簇Cj作为分类结果yi
根据聚类算法得到的分类结果,可以将所有的绘画图像分成k个不同的类别。
6.根据权利要求5所述的基于深度学习的多张绘画生成3D模型的方法,其特征在于:所述根据聚类结果标记每张图像的所属类别,并在所属类别中挑选重要特征,包括以下步骤:
设置共有c张绘画图像,每张绘画图像由m个特征,通过公式计算每个特征的信息增益Gain(S,F),其中,S为分类结果,F为某个特征,Values(F)为F特征取值的集合,|Sv|为属于v取值的样本数量,Ent(S)为分类结果S的熵;
通过公式计算分类结果S的熵,并照信息增益大小对所有特征进行排序,选择信息增益较大的前N个特征作为最终的关键特征,其中,u为分类结果的总数,|Sp|为属于第p个分类结果的样本数量。
7.根据权利要求6所述的基于深度学习的多张绘画生成3D模型的方法,其特征在于:依据挑选的重要特征构建深度学习模型,并获取训练样本集,包括以下步骤:
构建GAN模型,所述GAN模型包括生成器和判别器,所述生成器用于接受随机噪声或特征向量作为输入,输出一组3D模型数据,所述判别器用于判断给定的3D模型是否真实;
通过公式x=G(z),z∈Rd计算GAN生成器出书的3D模型数据x∈Rl,其中G(·)为生成器函数,d和l分别为特征向量和3D模型数据的维度。
8.根据权利要求7所述的基于深度学习的多张绘画生成3D模型的方法,其特征在于:根据训练样本集对深度学习模型进行训练,并将多张绘画图像输入至训练完成的深度学习模型中,输出的对应的3D模型,包括以下步骤:
将训练样本集进行预处理;
将预处理后的训练数据输入至GAN模型中,并使训练目标为3D模型预测结果与真实3D模型之间的误差最小化。
9.根据权利要求8所述的基于深度学习的多张绘画生成3D模型的方法,其特征在于:所述使训练目标为3D模型预测结果与真实3D模型之间的误差最小化,包括:
定义生成器的损失函数LG为生成的3D模型与真实3D模型之间的欧氏距离,定义判别器的损失函数LD为二分类交叉熵损失函数,定义GAN模型的总体损失函数L为L=LG-λLD,其中λ为一个超参数;
通过公式L=α||xc-G(z)||2+βlog(1-DY(G(z)))计算GAN模型的总体损失函数L,其中α和β为损失函数超参数,z为选择的特征向量,xc为训练样本集中的3D模型数据,DY为判别器,在每次迭代过程中,反向传播更新生成器和判别器的参数,最小化总体损失函数L,以使GAN模型能够生成更逼真和高质量的3D模型。
10.一种基于深度学习的多张绘画生成3D模型的系统,其特征在于:所述系统包括:
提取模块,用于将多张绘画图像进行预处理,并提取每一个绘画图像的特征向量;
分类模块,用于根据特征向量计算两两绘画图像间的关联度,并对所有绘画图像进行聚类;
挑选模块,用于根据聚类结果标记每张图像的所属类别,并在所属类别中挑选重要特征;
构建模块,用于依据挑选的重要特征构建深度学习模型,并获取训练样本集;
输出模块,用于根据训练样本集对深度学习模型进行训练,并将多张绘画图像输入至训练完成的深度学习模型中,输出的对应的3D模型;
所述系统通过如权利要求1所述的方法基于深度学习的多张绘画生成3D模型。
CN202310645838.5A 2023-06-02 2023-06-02 一种基于深度学习的多张绘画生成3d模型的方法及系统 Active CN116664773B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310645838.5A CN116664773B (zh) 2023-06-02 2023-06-02 一种基于深度学习的多张绘画生成3d模型的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310645838.5A CN116664773B (zh) 2023-06-02 2023-06-02 一种基于深度学习的多张绘画生成3d模型的方法及系统

Publications (2)

Publication Number Publication Date
CN116664773A true CN116664773A (zh) 2023-08-29
CN116664773B CN116664773B (zh) 2024-01-16

Family

ID=87720307

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310645838.5A Active CN116664773B (zh) 2023-06-02 2023-06-02 一种基于深度学习的多张绘画生成3d模型的方法及系统

Country Status (1)

Country Link
CN (1) CN116664773B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190122081A1 (en) * 2017-10-19 2019-04-25 Korea Advanced Institute Of Science And Technology Confident deep learning ensemble method and apparatus based on specialization
CN109849576A (zh) * 2019-02-28 2019-06-07 浙江大学 一种参考灰度图辅助绘画的方法
CN112800524A (zh) * 2021-02-05 2021-05-14 河北工业大学 一种基于深度学习的路面病害三维重建方法
CN114022614A (zh) * 2021-11-05 2022-02-08 武汉中海庭数据技术有限公司 一种三维重建目标位置置信度的估计方法及系统
US20230084910A1 (en) * 2021-08-31 2023-03-16 Beijing Jiaotong University Semantic segmentation network model uncertainty quantification method based on evidence inference

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190122081A1 (en) * 2017-10-19 2019-04-25 Korea Advanced Institute Of Science And Technology Confident deep learning ensemble method and apparatus based on specialization
CN109849576A (zh) * 2019-02-28 2019-06-07 浙江大学 一种参考灰度图辅助绘画的方法
CN112800524A (zh) * 2021-02-05 2021-05-14 河北工业大学 一种基于深度学习的路面病害三维重建方法
US20230084910A1 (en) * 2021-08-31 2023-03-16 Beijing Jiaotong University Semantic segmentation network model uncertainty quantification method based on evidence inference
CN114022614A (zh) * 2021-11-05 2022-02-08 武汉中海庭数据技术有限公司 一种三维重建目标位置置信度的估计方法及系统

Also Published As

Publication number Publication date
CN116664773B (zh) 2024-01-16

Similar Documents

Publication Publication Date Title
CN110689086B (zh) 基于生成式对抗网络的半监督高分遥感图像场景分类方法
JP5167442B2 (ja) 画像識別装置およびプログラム
CN111695456A (zh) 一种基于主动判别性跨域对齐的低分辨人脸识别方法
CN109145964B (zh) 一种实现图像颜色聚类的方法和系统
Bhattacharya et al. Neural combination of ANN and HMM for handwritten Devanagari numeral recognition
CN111967325A (zh) 一种基于增量优化的无监督跨域行人重识别方法
CN106503661A (zh) 基于烟花深度信念网络的人脸性别识别方法
Akhand et al. Convolutional Neural Network based Handwritten Bengali and Bengali-English Mixed Numeral Recognition.
CN107220598A (zh) 基于深度学习特征和Fisher Vector编码模型的虹膜图像分类方法
CN112507800A (zh) 一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法
CN111428758A (zh) 一种改进的基于无监督表征学习的遥感图像场景分类方法
CN110334584A (zh) 一种基于区域全卷积网络的手势识别方法
CN107967481A (zh) 一种基于局部性约束和显著性的图像分类方法
CN112380374B (zh) 一种基于语义扩充的零样本图像分类方法
CN116664773B (zh) 一种基于深度学习的多张绘画生成3d模型的方法及系统
CN112612900A (zh) 一种知识图谱指导的多张场景图像生成方法
Matsui et al. Feature selection by genetic algorithm for MRI segmentation
Kaur et al. Bagging: An Ensemble Approach for Recognition of Handwritten Place Names in Gurumukhi Script
Ganebnykh et al. Metric classifier using multilevel network of templates
CN114299398B (zh) 一种基于自监督对比学习的小样本遥感图像分类方法
Nugroho et al. A solution for imbalanced training sets problem by combnet-ii and its application on fog forecasting
CN113344069B (zh) 一种基于多维关系对齐的无监督视觉表征学习的图像分类方法
Verikas et al. Using unlabelled data to train a multilayer perceptron
Agahi et al. Handwritten digits recognition using an ensemble technique based on the firefly algorithm
Abdel-Kader et al. Rotation invariant face recognition based on hybrid LPT/DCT features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant