CN113838158B - 一种图像和视频的重构方法、装置、终端设备及存储介质 - Google Patents

一种图像和视频的重构方法、装置、终端设备及存储介质 Download PDF

Info

Publication number
CN113838158B
CN113838158B CN202111012329.6A CN202111012329A CN113838158B CN 113838158 B CN113838158 B CN 113838158B CN 202111012329 A CN202111012329 A CN 202111012329A CN 113838158 B CN113838158 B CN 113838158B
Authority
CN
China
Prior art keywords
image
reconstructed
semantic annotation
preset
hidden layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111012329.6A
Other languages
English (en)
Other versions
CN113838158A (zh
Inventor
邓立邦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Zhimeiyuntu Tech Corp ltd
Original Assignee
Guangdong Zhimeiyuntu Tech Corp ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Zhimeiyuntu Tech Corp ltd filed Critical Guangdong Zhimeiyuntu Tech Corp ltd
Priority to CN202111012329.6A priority Critical patent/CN113838158B/zh
Publication of CN113838158A publication Critical patent/CN113838158A/zh
Application granted granted Critical
Publication of CN113838158B publication Critical patent/CN113838158B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图像和视频的重构方法、装置、终端设备及存储介质,所述图像的重构方法,包括获取待重构图像所对应的待重构语义标注图像;将所述待重构语义标注图像输入至预设的图像重构模型中,以使所述图像重构模型对所述待重构语义标注图像进行图像重构,生成预设图像风格的重构图像;其中,所述图像重构模型基于图像样本中各图像元素的元素主体图像和边缘过渡区域图像,通过预设的神经网络训练而成;所述图像样本包括至少一张预设图像风格的原始图像以及至少一张与所述原始图像对应的语义标注图像。通过实施本发明能够提高在少样本的情况下的图像重构效果。

Description

一种图像和视频的重构方法、装置、终端设备及存储介质
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像和视频的重构方法、装置、终端设备及存储介质。
背景技术
生成对抗网络(Generative adversarial network,GAN)自2014年由IanGoodfellow等人提出后,就越来越受到学术界和工业界的重视。而随着GAN在理论与模型上的高速发展,它在计算机视觉、自然语言处理、人机交互等领域有着越来越深入的应用,并不断向着其它领域继续延伸。其中,GAN在图像重构上取得了巨大的成功,这取决于GAN在博弈下不断提高建模能力,最终实现以假乱真的图像生成。
以英伟达的GauGAN等为代表的图像重构模型,通过输入Flickr上超过100 万张图像进行学习训练,可稳定输出180多个目标之间的关系,包括雪地、树木、水流、花草、灌木,丘陵和山脉等。用户可以使用画笔和漆桶工具进行涂鸦,即可生成与现实场景相同风格的图像。
但英伟达的GauGAN类模型,其样本集需要不同场景不同角度不同组合的大量图片,并对这些图片中各个元素进行单独分割后,通过大规模的样本进行训练,提取元素的生成特征,并对应在接收到语义元素布局重构的图像后,执行对应生成动作,在样本量足够多的充分训练下,元素过渡比较自然,但由于模型高度依赖通过大量样本集进行单元素特征提取的方式,所需的样本量加大,在少样本的情况下,无法体现出图像中各个元素之间的相互影响,进而导致在少样本的情况下图像重构效果较差。
发明内容
本发明实施例提供一种图像和视频的重构方法、装置、终端设备及存储介质,能够提高在少样本的情况下图像重构的效果。
本发明一实施例提供了一种图像的重构方法,包括:获取待重构图像所对应的待重构语义标注图像;将所述待重构语义标注图像输入至预设的图像重构模型中,以使所述图像重构模型对所述待重构语义标注图像进行图像重构,生成预设图像风格的重构图像;其中,所述图像重构模型基于图像样本中各图像元素的元素主体图像和边缘过渡区域图像,通过预设的神经网络训练而成;所述图像样本包括至少一张预设图像风格的原始图像以及至少一张与所述原始图像对应的语义标注图像。
在这一实施例中,在训练图像重构模型时将图像样本中各图像元素的元素主体以及边缘过渡区域进行提取作为训练样本,元素主体图像可以表征元素本身的颜色、形状以及纹理等特征,而边缘过渡区域图像可以表征出不同元素之间的相互影响,例如各元素间的空间关系特征(如各元素间的相对位置关系以及相对的方向关系),进而使得即使在少样本甚至单样本的情况下所训练出来的模型依旧能够根据图像中各元素的相互影响进行图像元素的布局及重构,避免生成的重构图像各元素的纹理重复明显,不同元素间的过渡区域不平滑等问题,提高重构图像的效果。
在一个优选的实施例中,所述图像重构模型的构建方法包括:获取所述原始图像中各图像元素的第一元素主体图像以及第一边缘过渡区域图像;获取所述语义标注图像中各图像元素的第二元素主体图像以及第二边缘过渡区域图像;将各所述第一元素主体图像、各所述第一边缘过渡区域图像、各所述第二元素主体图像以及各所述第二边缘过渡区域图像,输入至预设的GAN神经网络中,对所述GAN 神经网络中的生成器和判别器进行交替迭代训练,并将训练完成后的生成器作为所述图像重构模型。
在这一实施例中,基于GAN神经网络进行对抗训练,相比与其他生成模型只用到了反向传播,而不需要复杂的马尔科夫链,同时可以产生更加清晰,真实的重构图像。
在一个优选的实施例中,所述生成器包括:若干层级的隐藏层;在训练所述生成器时,从各所述第二元素主体图像以及各所述第二边缘过渡区域图像中提取各图像的特征向量,生成特征向量集;将所述特征向量集分别输入至各层级的隐藏层中,对所述生成器中的各隐藏层进行训练;其中,当待训练的隐藏层为第一层隐藏层时,根据所述特征向量集以及所述特征向量集在第一层隐藏层的影响权重,对所述待训练的隐藏层进行训练;当所述待训练的隐藏层不为第一层隐藏层时,根据所述特征向量集、所述特征向量集在所述待训练的隐藏层的影响权重以及上一层隐藏层的输出结果,对所述待训练的隐藏层进行训练。
与传统的GAN神经网络不同,在传统的GAN神经网络中,第一层隐藏层根据输入样本进行训练,并将生成的结果传递至第二层隐藏层,紧接着第二层隐藏层根据第一层隐藏层的生成结果进行训练,然后将生成的结果传递至第三层隐藏层,依次类推;采样这种方式进行训练,在少样本的场景下,中间层级的隐藏层会出现训练不充分或过拟合的问题。为此,在本发明这一实施例中,对GAN神经网络中生成器的网络结构进行更改,采用长记忆模型,将输入层所提取的样本的特征向量按各预设的影响权重输入至各个隐藏层中,中间各个隐藏层可以根据上一隐藏层的输出结果以及样本的特征向量进行训练,解决了少样本或单样本的情况下,中间隐藏层由于缺乏训练样本导致训练不充分或过拟合的问题,进一步提高了模型的效果。
在一个优选的实施例中,所述从各所述第二元素主体图像以及各所述第二边缘过渡区域图像中提取各图像的特征向量,生成特征向量集,具体包括:从各所述第二元素主体图像以及各所述第二边缘过渡区域图像中提取各图像的颜色像素矩阵,生成颜色像素矩阵集,将所述颜色像素矩阵集作为所述特征向量集。
在这一实施例中,通过颜色像素矩阵作为各图像的特征向量来进行模型的训练。
在一个优选的实施例中,在将所述待重构语义标注图像输入至预设的图像重构模型中之前,还包括:
对所述待重构语义标注图像中各图像元素的种类进行识别;
在判断所述原始图像未包含所述待重构语义标注图像中所有图像元素的种类时,重新获取一原始图像以及对应的一语义标注图像作为图像样本,对所述神经网络进行训练,生成第二图像重构模型,继而将所述待重构语义标注图像输入至所述第二图像重构模型中,以使所述第二图像重构模型,对所述待重构语义标注图像进行图像重构,生成预设图像风格的重构图像;其中,重新获取的原始图像中包含了所述待重构语义标注图像中所有图像元素的种类。
在图像重构过程中,图像重构模型只能对图像样本所包含的种类的图像元素进行识别和重构,因此若所获取待重构语义标注图像存在图像样本未包含的图像元素类型,此时图像重构模型时不能进行图像重构的,为了解决这一问题,在本发明这一实施例中,在进行重构前首先对待重构语义标注图像中各图像元素的种类进行识别,若重构语义标注图像中存在原始图像未包含的图像元素种类,此时则重新选择一张包含了所述待重构语义标注图像中所有图像元素的种类的原始图像,进行即时进行训练得到第二图像重构模型,然后对输入的待重构语义标注图像进行图像重构,由于本发明在训练图像重构模型时,可以基于单张原始图像进行训练,因此能够很快的得到重新训练好的图像重构模型,在实际运用过程中,即时训练模型的时间非常短暂,完全可以满足实际运用过程中的时效要求。
在一个优选的实施例中,所述获取待重构语义标注图像,具体包括:获取待重构图像,根据预设的图像语义分割模型,对所述待重构图像中各图像元素进行语义标注,获得所述待重构语义标注图像;或则,直接获取用户绘制的待重构语义标注图像。
在实际运用过程中,可以直接接收用户输入的待重构语义标注图像,例如直接获取用户在画板上的涂鸦图案,得到待重构语义标注图像;或则,通过预设的图像语义分割模型,将一张其他风格的待重构图像进行语义标注,继而获得上述待重构语义标注图像。通过这一实施例,可以使得本发明的方案适用于多种实际运用场景,提高运用的广泛性。
在一个优选的实施例中,通过预设的图像元素分割模型,对所述原始图像中的各图像元素以及所述语义标注图像中的各图像元素进行分割,获得各所述第一元素主体图像以及各所述第二元素主体图像。
在这一实施例中,通过图像元素分割模型对各图像中各图像元素进行分割,降低了人工动分割的复杂性。
在一个优选的实施例中,将所述原始图像中的各图像元素沿元素边缘,按各图像元素的面积向外扩展第一预设比例后所增加的图像区域,与将所述原始图像中的各图像元素沿元素边缘,按各图像元素的面积向内收缩第二预设比例后所减少的图像区域进行组合,获得各所述第一边缘过渡区域图像;
将所述语义标注图像中各图像元素沿元素边缘,按各图像元素的面积向外扩展第一预设比例后所增加的图像区域,与将所述语义标注图像中各图像元素沿元素边缘,按各图像元素的面积向内收缩第二预设比例后所减少的图像区域进行组合,获得各所述第二边缘过渡区域图像。
在一个优选的实施例中,所述第一预设比例的取值范围为[10%,50%];所述第二预设比例的取值范围为[10%,50%]。
在这一实施例中,取各图像元素边缘向外扩展至少10%以及向内收缩不大于50%的区域,作为边缘过渡区域;各元素之间相互影响所造成的各元素边缘的特征变化,在这一范围内能够得到很好体现,因此提取这一范围内的图像区域作为训练样本使训练出来的图像重构模型能更好的体现出各元素的相互影响,进一步提高图像重构的效果。
在上述方法项实施例的基础上,本发明对应提供了装置项实施例;
本发明一实施例提供了图像的重构装置,包括图像获取模块以及重构图像生成模块;
所述图像获取模块,用于获取待重构图像所对应的待重构语义标注图像;
所述重构图像生成模块,用于将所述待重构语义标注图像输入至预设的图像重构模型中,以使所述图像重构模型对所述待重构语义标注图像进行图像重构,生成预设图像风格的重构图像;其中,所述图像重构模型基于图像样本中各图像元素的元素主体图像和边缘过渡区域图像,通过预设的神经网络训练而成;所述图像样本包括至少一张预设图像风格的原始图像以及至少一张与所述原始图像对应的语义标注图像。
在一个优选的实施例中,还包括模型构建模块;
所述模型构建模块,用于获取所述原始图像中各图像元素的第一元素主体图像以及第一边缘过渡区域图像;
获取所述语义标注图像中各图像元素的第二元素主体图像以及第二边缘过渡区域图像;
将各所述第一元素主体图像、各所述第一边缘过渡区域图像、各所述第二元素主体图像以及各所述第二边缘过渡区域图像,输入至预设的GAN神经网络中,对所述GAN神经网络中的生成器和判别器进行交替迭代训练,并将训练完成后的生成器作为所述图像重构模型。
在一个优选的实施例中,所述生成器包括:若干层级的隐藏层;
在训练所述生成器时,从各所述第二元素主体图像以及各所述第二边缘过渡区域图像中提取各图像的特征向量,生成特征向量集;将所述特征向量集分别输入至各层级的隐藏层中,对所述生成器中的各隐藏层进行训练;
其中,当待训练的隐藏层为第一层隐藏层时,根据所述特征向量集以及所述特征向量集在第一层隐藏层的影响权重,对所述待训练的隐藏层进行训练;
当所述待训练的隐藏层不为第一层隐藏层时,根据所述特征向量集、所述特征向量集在所述待训练的隐藏层的影响权重以及上一层隐藏层的输出结果,对所述待训练的隐藏层进行训练。
在一个优选的实施例中,所述从各所述第二元素主体图像以及各所述第二边缘过渡区域图像中提取各图像的特征向量,生成特征向量集,具体包括:
从各所述第二元素主体图像以及各所述第二边缘过渡区域图像中提取各图像的颜色像素矩阵,生成颜色像素矩阵集,将所述颜色像素矩阵集作为所述特征向量集。
在一个优选的实施例中,还包括第二图像重构模块;
所述第二图像重构模块,用于在将所述待重构语义标注图像输入至预设的图像重构模型中之前,对所述待重构语义标注图像中各图像元素的种类进行识别;
在判断所述原始图像未包含所述待重构语义标注图像中所有图像元素的种类时,重新获取一原始图像以及对应的一语义标注图像作为图像样本,对所述神经网络进行训练,生成第二图像重构模型,继而将所述待重构语义标注图像输入至所述第二图像重构模型中,以使所述第二图像重构模型,对所述待重构语义标注图像进行图像重构,生成预设图像风格的重构图像;其中,重新获取的原始图像中包含了所述待重构语义标注图像中所有图像元素的种类。
在一个优选的实施例中,所述获取待重构语义标注图像,具体包括:
获取待重构图像,根据预设的图像语义分割模型,对所述待重构图像中各图像元素进行语义标注,获得所述待重构语义标注图像;或则,直接获取用户绘制的待重构语义标注图像。
在一个优选的实施例中,通过预设的图像元素分割模型,对所述原始图像中的各图像元素以及所述语义标注图像中的各图像元素进行分割,获得各所述第一元素主体图像以及各所述第二元素主体图像。
在一个优选的实施例中,将所述原始图像中的各图像元素沿元素边缘,按各图像元素的面积向外扩展第一预设比例后所增加的图像区域,与将所述原始图像中的各图像元素沿元素边缘,按各图像元素的面积向内收缩第二预设比例后所减少的图像区域进行组合,获得各所述第一边缘过渡区域图像;
将所述语义标注图像中各图像元素沿元素边缘,按各图像元素的面积向外扩展第一预设比例后所增加的图像区域,与将所述语义标注图像中各图像元素沿元素边缘,按各图像元素的面积向内收缩第二预设比例后所减少的图像区域进行组合,获得各所述第二边缘过渡区域图像。
在一个优选的实施例中,所述第一预设比例的取值范围为[10%,50%];所述第二预设比例的取值范围为[10%,50%]。
在上述方法项实施例的基础上本发明对应提供了一终端设备项实施例;
本发明一实施例提供了一种图像重构终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时,实现本发明任意一项所述的图像重构方法。
在上述方法项实施例的基础上,本发明对应提供了一存储介质项实施例;
本发明一实施例提供了一种存储介质,所述存储介质包括存储的计算机程序,其中,在所述计算机程序运行时,控制所述存储介质所在的设备执行本发明任意一项所述的图像重构方法。
在上述图像的重构方法的基础上,本发明对应提供了一种视频重构方法;
本发明一实施例提供了一种视频重构方法,包括:获取待重构视频中的各视频帧图像;
将各所述视频帧图像作为各待重构图像,并根据本发明上述任意一项所述的图像重构方法,生成各预设图像风格的已重构视频帧图像;
根据各所述已重构视频帧图像生成重构后的视频。
在上述视频重构方法的基础上,本发明对应提供了装置项实施例;
本发明一实施例提供了一种视频重构装置,包括:视频帧图像获取模块、视频帧图像重构模块以及重构视频生成模块;
所述视频帧图像获取模块,用于获取待重构视频中的各视频帧图像;
所述视频帧图像重构模块,用于将各所述视频帧图像作为各待重构图像,并根据本发明上述任意一项所述的图像重构方法,生成各预设图像风格的已重构视频帧图像;
所述重构视频生成模块,用于根据各所述已重构视频帧图像生成重构后的视频。
在上述视频重构方法的基础上,本发明对应提供了一终端设备项实施例;
本发明一实施例提供了一种视频重构终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时,实现本发明任意一项所述的视频重构方法。
在上述视频重构方法的基础上,本发明对应提供了一存储介质项实施例;
本发明一实施例提供了一种存储介质,所述存储介质包括存储的计算机程序,其中,在所述计算机程序运行时,控制所述存储介质所在的设备执行本发明任意一项所述的视频重构方法。
通过实施本发明具有如下有益效果:
本发明实施例提供了一种图像和视频的重构方法、装置、终端设备及存储介质,所述图像重构方法,基于预设的图像重构模型进行图像重构,生成预设图像风格的重构图像。相比与现有的GauGAN图像重构模型,本发明在训练图像重构模型时,不仅获取了图像中各个元素的元素主体图像,还获取了各个元素的边缘过渡区域图像。元素的边缘过渡区域图像能够体现当前元素与其他元素间相互影响的特征,使得即使在少样本的情况下,所训练出的图像重构模型所生成的重构图像也能体现出图像中各个元素之间的相互影响,提高了在少样本的情况下图像重构的效果。
附图说明
图1是本发明一实施例提供的一种图像的重构方法的流程示意图。
图2是本发明一实施例提供的一种图像的重构方法的另一流程示意图。
图3是本发明一实施例提供的一原始图像的示意图。
图4是本发明一实施例提供的一原始图像中的第一元素主体图像的示意图。
图5是本发明一实施例提供的一原始图像中的第一边缘过渡区域图像的示意图。
图6是本发明一实施例提供的不同图像元素间相互影响的特征的原理示意图。
图7是本发明一实施例提供的生成器的结构示意图。
图8是本发明一实施例提供的生成器的另一结构示意图。图9是本发明一实施例提供的生成器的又一结构示意图。
图10是本发明一实施例提供的又一原始图像的示意图。
图11是本发明一实施例提供的一原始图像所对应的语义标注图像的示意图。
图12是本发明一实施例提供的待重构语义标注图像的示意图。
图13是本发明一实施例提供的重构图像的示意图。
图14是本发明一实施例提供的另一待重构语义标注图像的示意图。
图15是本发明一实施例提供的另一重构图像的示意图。
图16是本发明一实施例提供的一图像的重构装置的结构示意图。
图17是本发明一实施例提供的另一图像的重构装置的结构示意图。
图18是本发明一实施例提供的另一图像的重构装置的结构示意图。
图19是本发明一实施例提供的一种视频的重构方法的流程示意图。
图20是本发明一实施例提供的一种视频的重构装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明一实施例提供了一种图像重构方法,至少包括如下步骤:
步骤S1:获取待重构图像所对应的待重构语义标注图像。
步骤S2:将所述待重构语义标注图像输入至预设的图像重构模型中,以使所述图像重构模型对所述待重构语义标注图像进行图像重构,生成预设图像风格的重构图像;其中,所述图像重构模型基于图像样本中各图像元素的元素主体图像和边缘过渡区域图像,通过预设的神经网络训练而成;所述图像样本包括至少一张预设图像风格的原始图像以及至少一张与所述原始图像对应的语义标注图像。
对于步骤S1,在一个优选的实施例中,所述获取待重构语义标注图像,具体包括:获取待重构图像,根据预设的图像语义分割模型,对所述待重构图像中各图像元素进行语义标注,获得所述待重构语义标注图像;或则,直接获取用户绘制的待重构语义标注图像。
需要说明的是在本发明中所定义的图像元素,包括图像中的各个对象,如图像中的人,动物、物品、植物、自然景观(一座山、一条河)、建筑物等,同时也包括图像中的背景。此外,图像元素还可以是一个对象中的各个不同部位,例如在一个人物图像,可以将头、手、脚等各个部位分别作为各个独立的图像元素。
而图像元素的种类可以根据实际情况进行划分,例如可以将不同的人作为同一类定义为“人”,将不同的品种的狗作为一类定义为“狗”以此类推,也可以进行更细致的划分,例如可以根据不同姿态进行种类的划分,例如将坐着的人归为一类,将躺着的人归为一类,将站的人归为一类,当然还有更多图像元素的种类的划分方式,在此不再一一列举。
示意性的,在本发明中待重构语义标注图像中包含若干不同种类的图像元素,不同种类的图像元素通过不同的颜色进行标注;如图10以及图12所述,在该这两张待重构语义标注图中,蓝色标记区域的为花瓶这一图像元素,红色标记区域为鲜花这一图像元素,而图中白色标记区域表示为背景这一图像元素。
用户可以根据需要转换的待重构图像,使用不同的颜色将不同图像元素绘制在绘画载体上形成待重构语义标注图像,紧接着获取用户所绘制的待重构语义标注图像。上述绘制载体可以是电子画板、画纸或画布等,若用户在画纸或画布上绘制上述待重构语义标注图像,则可以使用摄像装置对所绘制的图像进行拍摄,然后获取拍摄后所得到的图像作为上述待重构语义标注图像。
其次,用户还可以通过在电子画板上通过图层拖动的方式,将不同颜色的图层拖动至电子画板,形成上述待重构语义标注图像。
再次,还可以通过肢体识别或物件识别的方式来获取待重构语义标注图像;例如:通过摄像装置获取用户的肢体动作,提前设置好动作相对应的元素,例如:左手代表元素1,当左手隔空画出相应形状后,在画布/屏幕等显示设备上显示该元素的对应形状及位置并进行颜色标注、右手代表元素2当左手隔空画出相应形状后,在画布/屏幕等显示设备上显示该元素的对应形状及位置并进行颜色标注,其他肢体部位可代表其他元素,以此类推。此外,还可以是通过摄像头识别不同的手势,指代不同的元素,比如手势比出数字1时,代表元素1,紧接着摄像头识别手势在空中所画形状,在画布/屏幕等显示设备上显示该元素的对应形状及位置,并进行颜色标注。手势比出数字2时,代表元素2,紧接着摄像头识别手势在空中所画形状,在画布/屏幕等显示设备上显示该元素的对应形状及位置,并进行颜色标注,以此类推。而对于物件识别,可通过摄像头获取用户在相应区域摆放的不同物件的位置,对应不同的元素位置,最后形成上述待重构语义标注图像。比方说以正方体为元素1,长方体为元素2,圆柱体为元素3,摄像头设置在天花板,用户在地面上摆放物件位置,摄像头获取图像后,对不同物件在图像中用不同颜色进行标注,即可获得上述待重构语义标注图像。
除此之外,在其他优选的实施例中,可以直接获取一张与预设图像风格不同的图像作为待重构图像,然后基于现有的图像语义分割模型,对待重构图像中各图像元素进行语义标注,从而获得上述待重构语义标注图像,图像语义分割模型可以但不限于采用现有的Labelme模型。
对于步骤S2,首先需要对图像重构模型的构建进行说明,在一个优选的实施例中,所述图像重构模型的构建方法包括:
获取所述原始图像中各图像元素的第一元素主体图像以及第一边缘过渡区域图像;获取所述语义标注图像中各图像元素的第二元素主体图像以及第二边缘过渡区域图像;将各所述第一元素主体图像、各所述第一边缘过渡区域图像、各所述第二元素主体图像以及各所述第二边缘过渡区域图像,输入至预设的GAN神经网络中,对所述GAN神经网络中的生成器和判别器进行交替迭代训练,并将训练完成后的生成器作为所述图像重构模型。
示意性的本发明基于GAN神经网络进行对抗训练来获得图像重构模型,而为了使得在小样本甚至单样本的情况下,所训练的图像重构模型也能生成效果良好的重构图像,本发明出来将各图像元素的元素主体图像作为训练样本,同时也将各图像元素的边缘过渡区域图像作为训练样本。
如图3所示的一个原始图像,该原始图像中包含了“太阳”、“船”、“石头”等图像元素,以其中的“太阳”和“船”为例,对“太阳”进行整体分割,得到图4中的(a),对“船”进行整体切割,得到图4中的(b),将图4中的(a) 和(b)均作为第一原始图像中的第一元素主体图像。紧接着提取“太阳”的边缘过渡区域图像得到图5中的(a),提取“船”的边缘过渡区域图像得到图5中的(b),将图5中的(a)和(b)均作为第一原始图像中的第一边缘过渡区域图像;类似的,将图3的原始图像所对应的语义标注图像中各图像元素进行整体分割以及边缘过渡区域的分割,得到语义标注图像中各图像元素的第二元素主体图像以及第二边缘过渡区域图像,然后将各第一元素主体图像、各第一边缘过渡区域图像、各第二元素主体图像以及各第二边缘过渡区域图像作为训练样本输入至于GAN神经网络中。由于训练样本中存在各图像元素的边缘过渡区域图像,因此所训练出来的模型,能够学习到各图像元素间的相互影响,最终使得模型输出的重构图像效果更好;如图6所示的边缘过渡区域图像为例,在“太阳”与“船”这两个元素的边缘过渡区域图像中,由于“太阳”照射的影响,在“船”的边缘过渡区域图像中区域3和区域4内颜色值的会出现渐变,当将“船”的边缘过渡区域图像输入到模型中进行训练时,模型就可以从区域3、4内颜色值的渐变变化,以及3、4整体的梯度变化差异中,可提取太阳对船的影响因子特征。这样就使得即使在单样本的情况下,所训练出来的模型也能够很好的学习到图像中各图像元素相互影响的特征,从而提高图像重构的效果。
需要说明的是,原始图像的语义标注图像可以通过现有的图像语义分割模型对原始图像进行标注后生成,而对于原始图像和原始图像对应的语义标注图像中各图像元素主体图像的分割,可以采用人工手动进行元素主体图像的标记和切割,也可以通过photoshop等软件的魔法棒等辅助功能,对元素主体图像进行切割,还可以通过提前构建好的图像元素分割模型,对所述原始图像中的各图像元素以及所述语义标注图像中的各图像元素进行分割,获得各所述第一元素主体图像以及各所述第二元素主体图像。
而对于原始图像和原始图像对应的语义标注图像中各图像元素的边缘过渡区域的分割,同样可以通过人工手动分割的方式进行分割也可以进行自动分割。优选的,在分割原始图像和原始图像对应的语义标注图像中各图像元素的边缘过渡区域时,将所述原始图像中的各图像元素沿元素边缘,按各图像元素的面积向外扩展第一预设比例后所增加的图像区域,与将所述原始图像中的各图像元素沿元素边缘,按各图像元素的面积向内收缩第二预设比例后所减少的图像区域进行组合,获得各所述第一边缘过渡区域图像;将所述语义标注图像中各图像元素沿元素边缘,按各图像元素的面积向外扩展第一预设比例后所增加的图像区域,与将所述语义标注图像中各图像元素沿元素边缘,按各图像元素的面积向内收缩第二预设比例后所减少的图像区域进行组合,获得各所述第二边缘过渡区域图像。优选的,上述第一预设比例的取值范围为[10%,50%];第二预设比例的取值范围为[10%,50%]。
在获取完训练样本后紧着是模型的训练;GAN神经网络包括生成器和判别器,在训练时,生成器以语义标注图像中的第二元素主体图像以及第二边缘过渡区域图像作为输入进行训练,判别器以原始图像中的第一元素主体图像以及第一边缘过渡区域图像、以及生成器所生成输出的结构作为输入进行训练,然后再根据判别器的判别结果,对生成器的网络参数进行调整。
优选的,在训练生成器时,从各第二元素主体图像以及各所述第二边缘过渡区域图像中提取各图像的特征向量,生成特征向量集,根据特征向量集对生成器进行训练。在训练判别器时,从各第一元素主体图像、各所述第一边缘过渡区域图像以及生成器所输出的图像中提取各图像的特征向量,生成第二特征向量集,根据第二特征向量集对判别器进行训练。示意性的,提取各图像的颜色像素矩阵作为各图像的特征向量。上述颜色像素矩阵包括但不限于以下任意一种:灰度值像素矩阵或RGB像素矩阵。
为进一步的提高在单样本的情况下模型的重构效果,在本发明的一个优选的实施例中对GAN神经网络中生成器的结构进行了改进;
如图7所示,在一个优选的实施例中,生成器包括:若干层级的隐藏层;
在训练所述生成器时,从各所述第二元素主体图像以及各所述第二边缘过渡区域图像中提取各图像的特征向量,生成特征向量集;将所述特征向量集分别输入至各层级的隐藏层中,对所述生成器中的各隐藏层进行训练;
其中,当待训练的隐藏层为第一层隐藏层时,根据所述特征向量集以及所述特征向量集在第一层隐藏层的影响权重,对所述待训练的隐藏层进行训练;
当所述待训练的隐藏层不为第一层隐藏层时,根据所述特征向量集、所述特征向量集在所述待训练的隐藏层的影响权重以及上一层隐藏层的输出结果,对所述待训练的隐藏层进行训练。
所述从各所述第二元素主体图像以及各所述第二边缘过渡区域图像中提取各图像的特征向量,生成特征向量集,具体包括:
从各所述第二元素主体图像以及各所述第二边缘过渡区域图像中提取各图像的颜色像素矩阵,生成颜色像素矩阵集,将所述颜色像素矩阵集作为所述特征向量集。
与传统的GAN神经网络不同,在传统的GAN神经网络中,第一层隐藏层根据输入样本进行训练,并将生成的结果传递至第二层隐藏层,紧接着第二层隐藏层根据第一层隐藏层的生成结果进行训练,然后将生成的结果传递至第三层隐藏层,依次类推;采样这种方式进行训练,在少样本的场景下,中间层级的隐藏层会出现训练不充分或过拟合的问题。为此,在本发明这一实施例中,对GAN神经网络中生成器的网络结构进行改进,采用长记忆模型,将输入层所提取的样本的特征向量按各预设的影响权重(即权重系数)输入至各个隐藏层中,中间各个隐藏层可以根据上一隐藏层的输出结果以及样本的特征向量进行训练,解决了少样本或单样本的情况下,中间隐藏层由于缺乏训练样本导致训练不充分或过拟合的问题,进一步提高了模型的效果。需要说明的是各隐藏层所对应的影响权重系数可以根据实际情况进行设定,各隐藏层的影响权重可以相同也可以不同。
在实际情况中,有的生成器网络结构中一各层级的隐藏层可能由多个子网络构成,如图8所示,第二层隐藏层,包括了第二层隐藏层1、第二层隐藏层2以及第二层隐藏层3;此时同样的输入层会将特征向量输入至第二层隐藏层则可以理解为,分别输入至第二层隐藏层的各个子网络,即将特征向量分别输入图8所示的第二层隐藏层1、第二层隐藏层2以及第二层隐藏层3,以使第二层隐藏层1、第二层隐藏层2以及第二层隐藏层3根据特征向量、各自的影响权重以及第一层隐藏层的输出结果进行训练。
优选的,为了进一步避免模型的过拟合效果,当本发明的生成器的网络结构以图8所示的网络结构进行构成时,可采用现有的丢弃法(Dropouts),随机将上一层隐藏层与下一层隐藏层的某一子网络的连接断开,不将上一层隐藏层的输出,输入至所断开的子网络,避免模型的过拟合现象;示意性的如图9所示,将第一层隐藏层与第二层隐藏层中的第二层隐藏层2的连接断开,则第二层隐藏层2在训练时只需根据输入层输入的特征向量以及其对应的影响权重系数进行训练。
在训练完上述图像重构模型后,在使用模型时,输入一待重构语义标注图像至图像重构模型中,图像重构模型对待重构语义标注图像中的各个图像元素进行识别,将各个图像元素转换为预设图像风格的图像元素,转换完成后将一转换为预设图像风格的各图像元素组合后,生成重构图像然后输出。
为进一步体现本发明的图像重构模型所生成的重构图像的效果,请进一步参阅图10-15。
图10是本发明一实施例中用于训练图像重构模型的一原始图像,图11是该原始图像所对应的语义标注图像;语义标注图像中“红色标记区域”表示鲜花,“蓝色标记区域”表示花瓶,“白色标记区域”表示背景。将图10和图11中的各图像元素的元素主体图像以及边缘过渡区域图像作为训练样本,进行训练,获得训练后的图像重构模型;
当用户将图12所示的待重构语义标注图像输入至图像重构模型后,其生成的重构图像如图13所示;当用户将图14所示的待重构语义标注图像输入至图像重构模型后,其生成的重构图像如15所示。对比图12与图14,以及对比图13 和图15,可以看出当带重构语义标注图像中个图像元素的相对位置,数量、形状等发生改变时,其所生成的重构图像中各图像元素的相对位置,数量、形状等特征也会出现改变,因此可以说明本发明所提供的图像重构模型从生成的重构图像会即使在单样本的情况下,也能够将各图像元素之间的相互影响的特征进行体现,不是单纯图层叠加所产生的效果,不同元素之间过渡区域平滑,重构图像的效果好。
如图2所示,本发明另一优选的实施例中上述图像的重构方法,还包括S11:
在将所述待重构语义标注图像输入至预设的图像重构模型中之前,对所述待重构语义标注图像中各图像元素的种类进行识别;
在判断所述原始图像未包含所述待重构语义标注图像中所有图像元素的种类时,重新获取一原始图像以及对应的一语义标注图像作为图像样本,对所述神经网络进行训练,生成第二图像重构模型,继而将所述待重构语义标注图像输入至所述第二图像重构模型中,以使所述第二图像重构模型,对所述待重构语义标注图像进行图像重构,生成预设图像风格的重构图像;其中,重新获取的原始图像中包含了所述待重构语义标注图像中所有图像元素的种类。
在这一实施例中,在将待重构语义标注图像输入至预设的图像重构模型之前,对待重构语义标注图像中图像元素的种类进行识别,如果用于训练预设的图像重构模型的原始图像中包含待重构语义标注图像中所有的元素种类,则将当前的待重构语义标注图像继续输入预设的图像重构模型中,生成重构图像。
如果用于训练预设的图像重构模型的原始图像中未包含待重构语义标注图像中所有的元素种类,则该模型无法对当前这一待重构语义标注图像的所有图像元素进行风格转换,这样生成的重构图像效果较差,为解决这一问题,在这一实施例中一旦识别出预设的图像重构模型的原始图像中未包含待重构语义标注图像中所有的元素种类,则重新从数据库中选用一张包含了当前待重构语义标注图像中所有元素种类的图像作为新的原始图像,然后根据新的原始图像及其对应语义标注图像,即时进行训练得到第二图像重构模型,然后根据第二图像重构模型对当前所输入的待重构语义标注图像进行图像重构。由于本发明在训练图像重构模型时,可以基于单张原始图像进行训练,因此能够很快的得到重新训练好的图像重构模型,在实际运用过程中,即时训练模型的时间非常短暂,完全可以满足实际运用过程中的时效要求。
如图16所示,在上述各图像的重构方法的实施例的基础上,本发明对应提供了装置项实施例;
本发明一实施例提供了一种图像的重构装置,包括图像获取模块以及重构图像生成模块;
所述图像获取模块,用于获取待重构图像所对应的待重构语义标注图像;
所述重构图像生成模块,用于将所述待重构语义标注图像输入至预设的图像重构模型中,以使所述图像重构模型对所述待重构语义标注图像进行图像重构,生成预设图像风格的重构图像;其中,所述图像重构模型基于图像样本中各图像元素的元素主体图像和边缘过渡区域图像,通过预设的神经网络训练而成;所述图像样本包括至少一张预设图像风格的原始图像以及至少一张与所述原始图像对应的语义标注图像。
如图17所示,在一个优选的实施例中,还包括模型构建模块;所述模型构建模块,用于获取所述原始图像中各图像元素的第一元素主体图像以及第一边缘过渡区域图像;
获取所述语义标注图像中各图像元素的第二元素主体图像以及第二边缘过渡区域图像;将各所述第一元素主体图像、各所述第一边缘过渡区域图像、各所述第二元素主体图像以及各所述第二边缘过渡区域图像,输入至预设的GAN神经网络中,对所述GAN神经网络中的生成器和判别器进行交替迭代训练,并将训练完成后的生成器作为所述图像重构模型。
可选的,所述生成器包括:若干层级的隐藏层;在训练所述生成器时,从各所述第二元素主体图像以及各所述第二边缘过渡区域图像中提取各图像的特征向量,生成特征向量集;将所述特征向量集分别输入至各层级的隐藏层中,对所述生成器中的各隐藏层进行训练;
其中,当待训练的隐藏层为第一层隐藏层时,根据所述特征向量集以及所述特征向量集在第一层隐藏层的影响权重,对所述待训练的隐藏层进行训练;
当所述待训练的隐藏层不为第一层隐藏层时,根据所述特征向量集、所述特征向量集在所述待训练的隐藏层的影响权重以及上一层隐藏层的输出结果,对所述待训练的隐藏层进行训练。
可选的,所述从各所述第二元素主体图像以及各所述第二边缘过渡区域图像中提取各图像的特征向量,生成特征向量集,具体包括:
从各所述第二元素主体图像以及各所述第二边缘过渡区域图像中提取各图像的颜色像素矩阵,生成颜色像素矩阵集,将所述颜色像素矩阵集作为所述特征向量集。
如图18所示,在一个优选的实施例中,上述图像的重构装置,还包括:第二图像重构模块;所述第二图像重构模块,用于在将所述待重构语义标注图像输入至预设的图像重构模型中之前,对所述待重构语义标注图像中各图像元素的种类进行识别;
在判断所述原始图像未包含所述待重构语义标注图像中所有图像元素的种类时,重新获取一原始图像以及对应的一语义标注图像作为图像样本,对所述神经网络进行训练,生成第二图像重构模型,继而将所述待重构语义标注图像输入至所述第二图像重构模型中,以使所述第二图像重构模型,对所述待重构语义标注图像进行图像重构,生成预设图像风格的重构图像;其中,重新获取的原始图像中包含了所述待重构语义标注图像中所有图像元素的种类。
在一个优选的实施例中,所述获取待重构语义标注图像,具体包括:
获取待重构图像,根据预设的图像语义分割模型,对所述待重构图像中各图像元素进行语义标注,获得所述待重构语义标注图像;或则,直接获取用户绘制的待重构语义标注图像。
在一个优选的实施例中,通过预设的图像元素分割模型,对所述原始图像中的各图像元素以及所述语义标注图像中的各图像元素进行分割,获得各所述第一元素主体图像以及各所述第二元素主体图像。
在一个优选的实施例中,将所述原始图像中的各图像元素沿元素边缘,按各图像元素的面积向外扩展第一预设比例后所增加的图像区域,与将所述原始图像中的各图像元素沿元素边缘,按各图像元素的面积向内收缩第二预设比例后所减少的图像区域进行组合,获得各所述第一边缘过渡区域图像;将所述语义标注图像中各图像元素沿元素边缘,按各图像元素的面积向外扩展第一预设比例后所增加的图像区域,与将所述语义标注图像中各图像元素沿元素边缘,按各图像元素的面积向内收缩第二预设比例后所减少的图像区域进行组合,获得各所述第二边缘过渡区域图像。优选的,所述第一预设比例的取值范围为[10%,50%];所述第二预设比例的取值范围为[10%,50%]。
需说明的是,以上所描述的图像的重构装置的实施例是与本发明上述各图像的重构方法的实施例相对应的,其能够实现本发明上述任意一所述的图像的重构方法。此外,上述图像的重构装置的实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的图像的重构装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。
在本发明上述各图像的重构方法的实施例的基础上,本发明另一实施例提供了一种图像重构终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时,实现上述各图像的重构方法实施例中的步骤,例如图1所示的步骤。或者,所述处理器执行所述计算机程序时实现上述各图像的重构装置实施例中各模块的功能。
示例性的,所述计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述图像重构终端设备中的执行过程。
所述图像重构终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述图像重构终端设备可包括,但不仅限于,处理器、存储器。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述图像重构终端设备的控制中心,利用各种接口和线路连接整个图像重构终端设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述图像重构终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据手机的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本发明另一实施例提供了一种存储介质,所述存储介质包括存储的计算机程序,其中,在所述计算机程序运行时,控制所述存储介质所在的设备执行本发明上述任意一图像的重构方法。其中,上述存储介质为计算机可读存储介质,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
如图19所示在本发明上述图像的重构方法的实施例的基础上,本发明另一实施例提供了一种视频的重构方法,至少包括如下步骤:
步骤S101:获取待重构视频中的各视频帧图像;
步骤S102:将各所述视频帧图像作为各待重构图像,并根据任意一项所述的图像的重构方法,生成各预设图像风格的已重构视频帧图像;
步骤S103:根据各所述已重构视频帧图像生成重构后的视频。
示意性的,以芭蕾舞剧《天鹅湖》视频片段为原始视频,从原始视频中重构至少一视频帧作为原始图像,然后对原始图像中的人物和背景进行语义标注;例如将舞者的头部作为语义元素1;双手臂作为语义元素2;双腿作为语义元素3;躯干作为语义元素4;芭蕾裙作为语义元素5;芭蕾舞鞋作为语义元素6;背景作为语义元素7;从而获得对应的语义标注图像,紧接着提取原始图像和语义标注图像中各图像元素的元素主体图像以及边缘过渡区域,作为训练样本输入至神经网络中进行训练,获得用于风格重构的图像重构模型。
紧接着获取用户输入的一段视频,提取该视频的各个视频帧,获得各个视频帧图像,将上述各个视频帧图像作为待重构图像,将各待重构图像中按与原始图像同样的标记方式,将人物的头部、双手臂、双腿、躯干、衣服、鞋子以及背景作为个独立的语义元素进行标记;得到每一待重构图像对应的待重构语义标注图像,然后将各待重构语义标注图像逐一输入至上述训练好的的图像重构模型中,以使模型逐一输出各重构图像,最后将各重构图像按时序组合,获得重构后的视频。最终所获得的视频中画面风格、动作质感、人物装扮均与《天鹅湖》一致。
如图20所示,在上述视频的重构方法的实施例的基础上,本发明另一实施例提供了一种视频的重构装置,包括:视频帧图像获取模块、视频帧图像重构模块以及重构视频生成模块;
所述视频帧图像获取模块,用于获取待重构视频中的各视频帧图像;
所述视频帧图像重构模块,用于将各所述视频帧图像作为各待重构图像,并根据任意一项所述的图像的重构方法,生成各预设图像风格的已重构视频帧图像;
所述重构视频生成模块,用于根据各所述已重构视频帧图像生成重构后的视频。
需说明的是,在这一实施例中所描述的视频的重构装置的实施例是与本发明上述各视频的重构方法的实施例相对应的,其能够实现本发明上述任意一所述的视频的重构方法。此外,上述视频的重构装置的实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的视频的重构装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。
在上述视频的重构方法的实施例的基础上,本发明另一实施例提供了一种视频重构终端设备,该视频重构终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时,实现本发明任意一实施例的视频的重构方法。
示例性的,在这一实施例中所述计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述视频重构终端设备中的执行过程。
所述视频重构终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述图像重构终端设备可包括,但不仅限于,处理器、存储器。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述视频重构终端设备的控制中心,利用各种接口和线路连接整个视频重构终端设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述视频重构终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据手机的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
在上述视频的重构方法的实施例的基础上,本发明另一实施例提供了一种存储介质,所述存储介质包括存储的计算机程序,其中,在所述计算机程序运行时,控制所述存储介质所在的设备执行本发明任意一实施例的视频的重构方法。
在这一实施例中,上述存储介质为计算机可读存储介质,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
通过实施本发明上述各个实施例,可以提高在少样本或单样本的情况下图像重构/视频重构的效果。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (22)

1.一种图像的重构方法,其特征在于,包括:
获取待重构图像所对应的待重构语义标注图像;
将所述待重构语义标注图像输入至预设的图像重构模型中,以使所述图像重构模型对所述待重构语义标注图像进行图像重构,生成预设图像风格的重构图像;
其中,所述图像重构模型基于图像样本中各图像元素的元素主体图像和边缘过渡区域图像,通过预设的神经网络训练而成;所述图像样本包括至少一张预设图像风格的原始图像以及至少一张与所述原始图像对应的语义标注图像;
所述图像重构模型的构建方法包括:获取所述原始图像中各图像元素的第一元素主体图像以及第一边缘过渡区域图像;获取所述语义标注图像中各图像元素的第二元素主体图像以及第二边缘过渡区域图像;将各所述第一元素主体图像、各所述第一边缘过渡区域图像、各所述第二元素主体图像以及各所述第二边缘过渡区域图像,输入至预设的GAN神经网络中,对所述GAN神经网络中的生成器和判别器进行交替迭代训练,并将训练完成后的生成器作为所述图像重构模型。
2.如权利要求1所述的图像的重构方法,其特征在于,所述生成器包括:若干层级的隐藏层;
在训练所述生成器时,从各所述第二元素主体图像以及各所述第二边缘过渡区域图像中提取各图像的特征向量,生成特征向量集;将所述特征向量集分别输入至各层级的隐藏层中,对所述生成器中的各隐藏层进行训练;
其中,当待训练的隐藏层为第一层隐藏层时,根据所述特征向量集以及所述特征向量集在第一层隐藏层的影响权重,对所述待训练的隐藏层进行训练;
当所述待训练的隐藏层不为第一层隐藏层时,根据所述特征向量集、所述特征向量集在所述待训练的隐藏层的影响权重以及上一层隐藏层的输出结果,对所述待训练的隐藏层进行训练。
3.如权利要求2所述的图像的重构方法,其特征在于,所述从各所述第二元素主体图像以及各所述第二边缘过渡区域图像中提取各图像的特征向量,生成特征向量集,具体包括:
从各所述第二元素主体图像以及各所述第二边缘过渡区域图像中提取各图像的颜色像素矩阵,生成颜色像素矩阵集,将所述颜色像素矩阵集作为所述特征向量集。
4.如权利要求1所述的图像的重构方法,其特征在于,在将所述待重构语义标注图像输入至预设的图像重构模型中之前,还包括:
对所述待重构语义标注图像中各图像元素的种类进行识别;
在判断所述原始图像未包含所述待重构语义标注图像中所有图像元素的种类时,重新获取一原始图像以及对应的一语义标注图像作为图像样本,对所述神经网络进行训练,生成第二图像重构模型,继而将所述待重构语义标注图像输入至所述第二图像重构模型中,以使所述第二图像重构模型,对所述待重构语义标注图像进行图像重构,生成预设图像风格的重构图像;其中,重新获取的原始图像中包含了所述待重构语义标注图像中所有图像元素的种类。
5.如权利要求1所述的图像的重构方法,其特征在于,获取待重构语义标注图像,具体包括:
获取待重构图像,根据预设的图像语义分割模型,对所述待重构图像中各图像元素进行语义标注,获得所述待重构语义标注图像;
或则,直接获取用户绘制的待重构语义标注图像。
6.如权利要求1所述的图像的重构方法,其特征在于,通过预设的图像元素分割模型,对所述原始图像中的各图像元素以及所述语义标注图像中的各图像元素进行分割,获得各所述第一元素主体图像以及各所述第二元素主体图像。
7.如权利要求1所述的图像的重构方法,其特征在于,将所述原始图像中的各图像元素沿元素边缘,按各图像元素的面积向外扩展第一预设比例后所增加的图像区域,与将所述原始图像中的各图像元素沿元素边缘,按各图像元素的面积向内收缩第二预设比例后所减少的图像区域进行组合,获得各所述第一边缘过渡区域图像;
将所述语义标注图像中各图像元素沿元素边缘,按各图像元素的面积向外扩展第一预设比例后所增加的图像区域,与将所述语义标注图像中各图像元素沿元素边缘,按各图像元素的面积向内收缩第二预设比例后所减少的图像区域进行组合,获得各所述第二边缘过渡区域图像。
8.如权利要求7所述的图像的重构方法,其特征在于,所述第一预设比例的取值范围为[10%,50%];所述第二预设比例的取值范围为[10%,50%]。
9.一种图像的重构装置,其特征在于,包括图像获取模块、重构图像生成模块以及模型构建模块;
所述图像获取模块,用于获取待重构图像所对应的待重构语义标注图像;
所述重构图像生成模块,用于将所述待重构语义标注图像输入至预设的图像重构模型中,以使所述图像重构模型对所述待重构语义标注图像进行图像重构,生成预设图像风格的重构图像;其中,所述图像重构模型基于图像样本中各图像元素的元素主体图像和边缘过渡区域图像,通过预设的神经网络训练而成;所述图像样本包括至少一张预设图像风格的原始图像以及至少一张与所述原始图像对应的语义标注图像;
所述模型构建模块,用于获取所述原始图像中各图像元素的第一元素主体图像以及第一边缘过渡区域图像;
获取所述语义标注图像中各图像元素的第二元素主体图像以及第二边缘过渡区域图像;
将各所述第一元素主体图像、各所述第一边缘过渡区域图像、各所述第二元素主体图像以及各所述第二边缘过渡区域图像,输入至预设的GAN神经网络中,对所述GAN神经网络中的生成器和判别器进行交替迭代训练,并将训练完成后的生成器作为所述图像重构模型。
10.如权利要求9所述的图像的重构装置,其特征在于,所述生成器包括:若干层级的隐藏层;
在训练所述生成器时,从各所述第二元素主体图像以及各所述第二边缘过渡区域图像中提取各图像的特征向量,生成特征向量集;将所述特征向量集分别输入至各层级的隐藏层中,对所述生成器中的各隐藏层进行训练;
其中,当待训练的隐藏层为第一层隐藏层时,根据所述特征向量集以及所述特征向量集在第一层隐藏层的影响权重,对所述待训练的隐藏层进行训练;
当所述待训练的隐藏层不为第一层隐藏层时,根据所述特征向量集、所述特征向量集在所述待训练的隐藏层的影响权重以及上一层隐藏层的输出结果,对所述待训练的隐藏层进行训练。
11.如权利要求10所述的图像的重构装置,其特征在于,所述从各所述第二元素主体图像以及各所述第二边缘过渡区域图像中提取各图像的特征向量,生成特征向量集,具体包括:
从各所述第二元素主体图像以及各所述第二边缘过渡区域图像中提取各图像的颜色像素矩阵,生成颜色像素矩阵集,将所述颜色像素矩阵集作为所述特征向量集。
12.如权利要求9所述的图像的重构装置,其特征在于,还包括第二图像重构模块;
所述第二图像重构模块,用于在将所述待重构语义标注图像输入至预设的图像重构模型中之前,对所述待重构语义标注图像中各图像元素的种类进行识别;
在判断所述原始图像未包含所述待重构语义标注图像中所有图像元素的种类时,重新获取一原始图像以及对应的一语义标注图像作为图像样本,对所述神经网络进行训练,生成第二图像重构模型,继而将所述待重构语义标注图像输入至所述第二图像重构模型中,以使所述第二图像重构模型,对所述待重构语义标注图像进行图像重构,生成预设图像风格的重构图像;其中,重新获取的原始图像中包含了所述待重构语义标注图像中所有图像元素的种类。
13.如权利要求9所述的图像的重构装置,其特征在于,获取待重构语义标注图像,具体包括:
获取待重构图像,根据预设的图像语义分割模型,对所述待重构图像中各图像元素进行语义标注,获得所述待重构语义标注图像;
或则,直接获取用户绘制的待重构语义标注图像。
14.如权利要求9所述的图像的重构装置,其特征在于,通过预设的图像元素分割模型,对所述原始图像中的各图像元素以及所述语义标注图像中的各图像元素进行分割,获得各所述第一元素主体图像以及各所述第二元素主体图像。
15.如权利要求9所述的图像的重构装置,其特征在于,将所述原始图像中的各图像元素沿元素边缘,按各图像元素的面积向外扩展第一预设比例后所增加的图像区域,与将所述原始图像中的各图像元素沿元素边缘,按各图像元素的面积向内收缩第二预设比例后所减少的图像区域进行组合,获得各所述第一边缘过渡区域图像;
将所述语义标注图像中各图像元素沿元素边缘,按各图像元素的面积向外扩展第一预设比例后所增加的图像区域,与将所述语义标注图像中各图像元素沿元素边缘,按各图像元素的面积向内收缩第二预设比例后所减少的图像区域进行组合,获得各所述第二边缘过渡区域图像。
16.如权利要求15所述的图像的重构装置,其特征在于,所述第一预设比例的取值范围为[10%,50%];所述第二预设比例的取值范围为[10%,50%]。
17.一种图像重构终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-8任意一项所述的图像的重构方法。
18.一种存储介质,其特征在于,所述存储介质包括存储的计算机程序,其中,在所述计算机程序运行时,控制所述存储介质所在的设备执行如权利要求1-8任意一项所述的图像的重构方法。
19.一种视频的重构方法,其特征在于,包括:获取待重构视频中的各视频帧图像;
将各所述视频帧图像作为各待重构图像,并根据如权利要求1-8任意一项所述的图像的重构方法,生成各预设图像风格的已重构视频帧图像;
根据各所述已重构视频帧图像生成重构后的视频。
20.一种视频的重构装置,其特征在于,包括:视频帧图像获取模块、视频帧图像重构模块以及重构视频生成模块;
所述视频帧图像获取模块,用于获取待重构视频中的各视频帧图像;
所述视频帧图像重构模块,用于将各所述视频帧图像作为各待重构图像,并根据如权利要求1-8任意一项所述的图像的重构方法,生成各预设图像风格的已重构视频帧图像;
所述重构视频生成模块,用于根据各所述已重构视频帧图像生成重构后的视频。
21.一种视频重构终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求19所述的视频的重构方法。
22.一种存储介质,其特征在于,所述存储介质包括存储的计算机程序,其中,在所述计算机程序运行时,控制所述存储介质所在的设备执行如权利要求19所述的视频的重构方法。
CN202111012329.6A 2021-08-31 2021-08-31 一种图像和视频的重构方法、装置、终端设备及存储介质 Active CN113838158B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111012329.6A CN113838158B (zh) 2021-08-31 2021-08-31 一种图像和视频的重构方法、装置、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111012329.6A CN113838158B (zh) 2021-08-31 2021-08-31 一种图像和视频的重构方法、装置、终端设备及存储介质

Publications (2)

Publication Number Publication Date
CN113838158A CN113838158A (zh) 2021-12-24
CN113838158B true CN113838158B (zh) 2022-06-17

Family

ID=78961837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111012329.6A Active CN113838158B (zh) 2021-08-31 2021-08-31 一种图像和视频的重构方法、装置、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN113838158B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114494973B (zh) * 2022-02-14 2024-03-29 中国科学技术大学 视频语义分割网络的训练方法、系统、设备及存储介质
CN117808933B (zh) * 2024-02-29 2024-05-24 成都索贝数码科技股份有限公司 一种图像要素分解与重构方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120102519A1 (en) * 2009-05-13 2012-04-26 Sony Corporation Transmitting apparatus, transmitting method, receiving apparatus, and receiving method
CN112365556A (zh) * 2020-11-10 2021-02-12 成都信息工程大学 一种基于感知损失和风格损失的图像扩展方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120102519A1 (en) * 2009-05-13 2012-04-26 Sony Corporation Transmitting apparatus, transmitting method, receiving apparatus, and receiving method
CN112365556A (zh) * 2020-11-10 2021-02-12 成都信息工程大学 一种基于感知损失和风格损失的图像扩展方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
结合全卷积网络与CycleGAN的图像实例风格迁移;刘哲良等;《中国图象图形学报》;20190831;第1283-1291页 *

Also Published As

Publication number Publication date
CN113838158A (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
Muresan et al. Fruit recognition from images using deep learning
CN109816725A (zh) 一种基于深度学习的单目相机物体位姿估计方法及装置
US9177410B2 (en) System and method for creating avatars or animated sequences using human body features extracted from a still image
CN107845072B (zh) 图像生成方法、装置、存储介质及终端设备
US11270476B2 (en) Method and system for providing photorealistic changes for digital image
US10726628B2 (en) Deformable-surface tracking based augmented reality image generation
CN113838158B (zh) 一种图像和视频的重构方法、装置、终端设备及存储介质
CN111009041B (zh) 一种绘画创作方法、装置、终端设备及可读存储介质
CN108961369A (zh) 生成3d动画的方法和装置
US11386589B2 (en) Method and device for image generation and colorization
JP2019528544A (ja) 動画を制作する方法及び装置
CN105354248A (zh) 基于灰度的分布式图像底层特征识别方法及系统
CN110097616B (zh) 一种联合绘画方法、装置、终端设备及可读存储介质
CN107506738A (zh) 特征提取方法、图像识别方法、装置及电子设备
CN112272295B (zh) 具有三维效果的视频的生成方法、播放方法、装置及设备
CN109920018A (zh) 基于神经网络的黑白照片色彩恢复方法、装置及存储介质
Liu et al. Image neural style transfer with preserving the salient regions
CN110188600B (zh) 一种绘画评价方法、系统及存储介质
He Application of local color simulation method of landscape painting based on deep learning generative adversarial networks
CN104484034B (zh) 一种基于手势识别的手势运动基元过渡帧定位方法
CN115967823A (zh) 视频封面生成方法、装置、电子设备及可读介质
CN111752391A (zh) 一种虚拟互动方法及计算机可读存储介质
CN113837236B (zh) 图像中目标对象的识别方法、装置、终端设备及存储介质
CN114917583A (zh) 一种基于生成对抗网络的动漫风格游戏背景生成方法及平台
Musat et al. Depth-sims: Semi-parametric image and depth synthesis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant