CN112101546A - 生成多样化结果的风格迁移方法、装置、计算机设备和存储介质 - Google Patents

生成多样化结果的风格迁移方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112101546A
CN112101546A CN202010904686.2A CN202010904686A CN112101546A CN 112101546 A CN112101546 A CN 112101546A CN 202010904686 A CN202010904686 A CN 202010904686A CN 112101546 A CN112101546 A CN 112101546A
Authority
CN
China
Prior art keywords
style
feature
random noise
feature set
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010904686.2A
Other languages
English (en)
Other versions
CN112101546B (zh
Inventor
赵磊
王志忠
仇礼鸿
张惠铭
莫启航
林思寰
陈海博
李艾琳
左智文
邢卫
鲁东明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010904686.2A priority Critical patent/CN112101546B/zh
Publication of CN112101546A publication Critical patent/CN112101546A/zh
Application granted granted Critical
Publication of CN112101546B publication Critical patent/CN112101546B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及生成多样化结果的风格迁移方法、装置、计算机设备和存储介质。所述方法包括:对内容图像和风格图像进行处理,得到内容图像语义特征和风格图像语义特征;将风格图像语义特征划分为多个小块,得到原始风格特征集合;原始风格特征集合进行归一化操作,得到第一归一化集合;将内容图像语义特征与随机噪声进行混合,得到随机噪声内容特征集合;将随机噪声内容特征集合与第一归一化集合进行处理并从中随机选取一块作为最匹配小块;使用最匹配小块的特征重建第一风格特征;根据第一风格特征进行特征随机重组,得到多个第二风格特征并经过计算得到多个风格迁移结果图像。采用本方法能够生成多种风格迁移结果,提高用户体验满意度。

Description

生成多样化结果的风格迁移方法、装置、计算机设备和存储 介质
技术领域
本申请涉及图像生成技术领域,特别是涉及生成多样化结果的风格迁移方法、装置、计算机设备和存储介质。
背景技术
2015年,Gatys等人首次提出结合预训练的深度学习模型来进行风格迁移和纹理合成任务,开启了使用深度学习技术来提升包括风格迁移和纹理合成在内的图像生成领域的性能表现的热潮。他们利用预训练的深度学习模型提取出的多层激活特征,通过计算特征维度之间的互相关性矩阵来表达一副图像的风格。这种从全局特征统计相关性的视角来理解和表示图像风格的算法,对于没有明显语义相关性的艺术图像的风格迁移和合成任务尤为合适。
另一方面,Li和Wand在2016年提出了对图像风格的另一种理解和表达,他们认为,一副图像的风格应该取决于局部的模式而不是全局的统计相关性。为此,他们结合了深度卷积神经网络和马尔科夫随机场(Markov Random Fields,MRFs),通过将高层语义特征图划分为若干个局部的特征区域小块,然后用近邻匹配的方式对每个内容图像的局部特征区域小块找到与其最相似的风格图像的局部特征区域小块,最后用相应的最相似的风格图像的局部特征区域小块替换原来的内容图像的局部特征区域小块,最后对替换后的特征重建出风格迁移后的结果图像。这种从局部模式的角度出发来进行风格迁移的方法对对应语义区域上的风格迁移有更好的表现,因此更加适合两幅在语义上有对应关系(如天空到天空,地面到地面)的图像之间的风格迁移。
后来,在上述两种方法的基础上,大量的方法变体被提出,并获得了越来越高的风格迁移质量和越来越低的内存和时间消耗。然而,目前的绝大多数风格迁移方法针对固定输入的内容图像和风格图像,产生的风格迁移结果如果用户不满意的话,只能尝试其他的方法或者寻找其他可替代的内容图像或风格图像,从而为用户带来了麻烦,降低了用户体验满意度。
发明内容
基于此,本申请提供生成多样化结果的风格迁移方法、装置、计算机设备和存储介质,通过输入固定的内容图像和风格图像,可以生成多种风格迁移结果,解决只能产生单一的风格迁移结果图像的技术问题,为用户提供更多可选择的风格迁移结果图像。
本申请的生成多样化结果的风格迁移方法,包括:
根据深度神经网络分别对内容图像和风格图像进行高层语义特征处理,得到内容图像语义特征Fc和风格图像语义特征Fs
将所述风格图像语义特征划分为若干个局部的特征区域小块,得到原始风格特征集合
Figure BDA0002660975810000021
对所述原始风格特征集合进行归一化操作,得到第一归一化集合
Figure BDA0002660975810000022
将所述内容图像语义特征与随机噪声进行混合并划分为若干个局部的特征区域小块,得到随机噪声内容特征集合
Figure BDA0002660975810000023
将所述随机噪声内容特征集合与所述第一归一化集合进行处理,得到两个集合中最相近的第二归一化集合,从所述第二归一化集合中随机选取一块作为所述随机噪声内容特征集合的最匹配小块φi(Fcs);
根据随机噪声内容特征集合与所述最匹配小块之间的匹配结果,使用所述最匹配小块所对应的所述原始风格特征集合重建第一风格特征T;
根据所述第一风格特征进行特征随机重组,得到多个第二风格特征
Figure BDA0002660975810000024
根据所述第二风格特征计算得到多个风格迁移结果图像。
可选的,对所述原始风格特征集合进行随机偏移的归一化操作。
可选的,所述随机噪声的尺寸与所述内容图像语义特征的尺寸相同。
可选的,根据如下公式将所述原始风格特征集合进行随机偏移的归一化操作:
Figure BDA0002660975810000031
式中:Fs表示深度神经网络提取出的风格图像语义特征;
φj(Fs)表示原始风格特征集合中的特征区域小块,j∈{1,...,ns},ns为特征区域小块的数量;
||φj(Fs)||表示求φj(Fs)的L2范数;
b是一个随机的噪声偏移值;
Figure BDA0002660975810000032
表示随机归一化后的第一归一化集合中的特征区域小块。
可选的,根据如下公式将所述内容图像语义特征和所述随机噪声进行混合,并划分为若干个局部的特征区域小块:
Figure BDA0002660975810000033
式中:Fc表示深度神经网络提取出的内容图像语义特征;
Figure BDA0002660975810000034
表示与Fc尺寸相同的随机噪声张量;
Figure BDA0002660975810000035
表示混合了随机噪声后的随机噪声内容特征;
Figure BDA0002660975810000036
表示得到的随机噪声内容特征集合。
可选的,根据如下公式将所述随机噪声内容特征集合与所述第一归一化集合进行处理,得到两者中最相近的第二归一化集合,从所述第二归一化集合中随机选取一块作为所述随机噪声内容特征集合的最匹配小块:
Figure BDA0002660975810000041
式中:
Figure BDA0002660975810000042
表示随机噪声内容特征;
Fs表示深度神经网络提取出的风格图像语义特征;
Figure BDA0002660975810000043
表示随机噪声内容特征集合中的特征区域小块;
Figure BDA0002660975810000044
表示第一归一化集合中的特征区域小块;
Top_k表示对
Figure BDA0002660975810000045
集合中的每一个
Figure BDA0002660975810000046
Figure BDA0002660975810000047
集合中找到使內积
Figure BDA0002660975810000048
最大的前k个最匹配的
Figure BDA0002660975810000049
其中,nc为随机噪声内容特征集合中的区域小块数量,ns为第一归一化集合中的区域小块数量;
⊙表示从找到的k个第二归一化风格特征区域小块集合并从中随机选取一个作为最匹配小块;
φi(Fcs)表示匹配结果。
可选的,根据如下公式将所述第一风格特征进行特征随机重组,得到多个第二风格特征;
Figure BDA00026609758100000410
式中:T表示第一风格特征;
Figure BDA00026609758100000411
表示对特征T进行随机行打乱的重组操作;
Figure BDA00026609758100000412
表示对特征T进行随机列打乱的重组操作;
λ用于控制随机重组后的特征与第一风格特征之间的混合比例。
本申请还提供一种生成多样化结果的风格迁移装置,包括:
第一模块,用于根据深度神经网络分别对内容图像和风格图像进行高层语义特征处理,得到内容图像语义特征Fc和风格图像语义特征Fs
第二模块,用于将所述风格图像语义特征划分为若干个局部的特征区域小块,得到原始风格特征集合
Figure BDA0002660975810000051
第三模块,用于对所述原始风格特征区域小块集合进行带随机偏移的归一化操作,得到第一归一化风格特征集合
Figure BDA0002660975810000052
第四模块,用于将所述内容图像语义特征与尺寸相同的随机噪声张量进行混合并划分为若干个局部的特征区域小块,得到随机噪声内容特征集合
Figure BDA0002660975810000053
第五模块,用于将所述随机噪声内容特征集合与所述第一归一化风格特征集合进行处理,得到两者中最相近的第二归一化风格特征集合,从所述第二归一化风格特征集合中随机选取一块作为所述随机噪声内容特征集合的最匹配小块φi(Fcs);
第六模块,用于根据随机噪声内容特征集合与所述最匹配小块之间的匹配结果,使用所述最匹配小块所对应的所述原始风格特征集合重建第一风格特征T;
第七模块,用于根据所述第一风格特征进行特征随机重组,得到多个第二风格特征
Figure BDA0002660975810000054
第八模块,用于根据所述第二风格特征计算得到多个风格迁移结果图像。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本申请中任一项所述风格迁移方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请中任一项所述风格迁移方法的步骤。
本申请生成多样化结果的风格迁移方法、装置、计算机设备和存储介质,通过对第一风格特征进行特征随机重组,可以得到多个第二风格特征,最终通过对第二风格迁移特征计算得到多个风格迁移结果图像,从而实现在输入固定的内容图像和风格图像时,能够生成既满足同一内容约束和风格约束,又生成具有明显变化的多样化的风格迁移结果图像,可以为用户提供更多可选择的风格迁移结果图像,提高用户的体验满意度。
附图说明
图1为一个实施例中生成多样化结果的风格迁移方法的第一流程示意图;
图2为一个实施例中生成多样化结果的风格迁移方法的逻辑原理示意图;
图3为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量、次序。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个、三个等,除非另有明确具体的限定。
在一个实施例中,如图1、图2所示,提供了一种生成多样化结果的风格迁移方法,包括以下步骤:
步骤S1,根据深度神经网络分别对内容图像和风格图像进行高层语义特征处理,得到内容图像语义特征Fc和风格图像语义特征Fs
其中,深度神经网络是机器学习领域中的一种技术,深度神经网络分多层进行计算,使用多层可以用较少的参数表示复杂的函数,其中的高层语义特征处理是类似于对人脸轮廓,人的肢体等进行特征处理的方式。
具体的,用户通过终端将内容图像和风格图像利用网络上传到服务器,服务器设置有在ImageNet上预训练好的VGG19深度神经网络对内容图像和风格图像进行高层语义特征处理,即在Relu_4_1层(Relu_i_1表示第i个卷积块的第一个激活层)的激活特征,得到内容图像语义特征Fc和风格图像语义特征Fs
步骤S2,将所述风格图像语义特征划分为若干个局部的特征区域小块,得到原始风格特征集合
Figure BDA0002660975810000071
服务器将风格图像语义特征按照步长为1划分为3×3大小的局部特征区域小块,就可以得到原始风格特征集合
Figure BDA0002660975810000072
其中ns为小块的数量。
步骤S3,对所述原始风格特征集合进行归一化操作,得到第一归一化集合
Figure BDA0002660975810000073
归一化操作是将要处理的数据经过算法处理后,可以解决数据处理时量纲和量纲单位不统一的问题,将不同来源的数据统一到同一数量级中,方便后续的数据处理。
其中,在对所述原始风格特征集合进行归一化操作的同时进行随机偏移操作,得到第一归一化集合。根据如下公式对所述原始风格特征集合进行带随机偏移的归一化操作:
Figure BDA0002660975810000074
式中:Fs表示深度神经网络提取出的风格图像语义特征;
φj(Fs)表示从风格图像语义特征划分而来的原始风格特征集合,j∈{1,...,ns},ns为小块的数量;
||φj(Fs)||表示求φj(Fs)的L2范数;
b是一个随机的噪声偏移值;
Figure BDA0002660975810000081
表示随机归一化后的第一归一化集合。
所述归一化操作可以提高对数据计算的精确度,随机偏移操作可以帮助提高最终生成结果的多样性。
步骤S4,将所述内容图像语义特征与随机噪声进行混合并划分为若干个局部的特征区域小块,得到随机噪声内容特征集合
Figure BDA0002660975810000082
随机噪声表示将图像噪音随机添加到内容图像语义特征的随机位置上,在对所述内容图像语义特征进行随机噪声混合前,应选取与所述内容图像语义特征尺寸相同的随机噪声进行一定比例的混合,并且对混合后的特征划分成为若干个局部的特征区域小块集合即获得随机噪声内容特征集合。
根据如下公式将所述内容图像语义特征和所述随机噪声进行混合:
Figure BDA0002660975810000083
式中:Fc表示深度神经网络提取出的内容图像语义特征;
Figure BDA0002660975810000084
表示与Fc尺寸相同的随机噪声张量;
Figure BDA0002660975810000085
表示混合了随机噪声后的随机噪声内容特征;
Figure BDA0002660975810000086
表示得到的随机噪声内容特征集合。
将混合了随机噪声后的随机噪声内容特征按步长为1划分为若干个3×3大小的局部特征区域小块,用
Figure BDA0002660975810000087
表示混合后的随机噪声内容特征集合,其中nc为划分后的局部特征区域小块的数量。
步骤S5,将所述随机噪声内容特征集合与所述第一归一化集合进行处理,得到两个集合中最相近的第二归一化集合,从所述第二归一化集合中随机选取一块作为所述随机噪声内容特征集合的最匹配小块φi(Fcs)。
首先,在所述第一归一化集合中找到与所述随机噪声内容特征集合与所述第一归一化集合的内积中最大的前k个最匹配的所述第二归一化集合其中所述第二归一化集合是所述第一归一化集合的子集。然后在k个最匹配的所述第二归一化集合中随机选取一个作为所述随机噪声内容特征集合的最匹配小块。
根据如下公式将所述随机噪声内容特征集合与所述第一归一化集合进行处理,得到两者中最相近的第二归一化集合,从所述第二归一化集合中随机选取一块作为所述随机噪声内容特征集合的最匹配小块:
Figure BDA0002660975810000091
式中:
Figure BDA0002660975810000092
表示随机噪声内容特征;
Fs表示深度神经网络提取出的风格图像语义特征;
Figure BDA0002660975810000093
表示随机噪声内容特征集合中的特征区域小块;
Figure BDA0002660975810000094
表示第一归一化集合中的特征区域小块;
Top_k表示对
Figure BDA0002660975810000095
集合中的每一个
Figure BDA0002660975810000096
Figure BDA0002660975810000097
集合中找到使內积
Figure BDA0002660975810000098
最大的前k个最匹配的
Figure BDA0002660975810000099
其中,nc为随机噪声内容特征集合中的区域小块数量,ns为第一归一化集合中的区域小块数量;
⊙表示从找到的k个第二归一化风格特征区域小块集合并从中随机选取一个作为最匹配小块;
φi(Fcs)表示匹配结果。
本方法可以对随机噪声内容特征集合与第一归一化风格特征集合中的局部特征区域小块进行可控的随机匹配,在保证最终风格迁移质量的前提下提高风格迁移结果的多样性。
步骤S6,根据随机噪声内容特征集合与所述最匹配小块之间的匹配结果,使用所述最匹配小块所对应的所述原始风格特征集合重建第一风格特征T。
本申请中,所述原始风格特征集合通过归一化操作得到第一归一化集合,所述第一归一化集合通过与所述随机噪声内容特征集合进行匹配随机选取其中一个小块得到最匹配小块。所以最匹配小块是所述原始风格特征集合的一个子集,因此使用所述最匹配小块所对应的所述原始风格特征集合重建第一风格特征。
重建过程可直接用所述最匹配小块所对应的所述原始风格特征集合中的小块替换所述随机噪声内容特征集合中对应的小块,最终得到的替换后的随机噪声内容特征即为重建的第一风格特征。
步骤S7,根据所述第一风格特征进行特征随机重组,得到多个第二风格特征
Figure BDA0002660975810000101
通过对第一风格特征进行行列打乱操作与控制打乱后的特征与原第一风格特征之间的混合比例,可以将所述第一风格特征进行特征随机重组,得到多个第二风格特征。
根据如下公式将所述第一风格特征进行特征随机重组,得到多个第二风格特征;
Figure BDA0002660975810000102
式中:T表示第一风格特征;
Figure BDA0002660975810000111
表示对特征T进行随机行打乱的重组操作;
Figure BDA0002660975810000112
表示对特征T进行随机列打乱的重组操作;
λ用于控制随机重组后的特征与第一风格特征之间的混合比例。
其中λ的值可选的0.5,通过随机重组将输入的单一的内容图像和风格图像重建得到多个第二风格特征,在满足相同的内容约束和风格约束的同时产生明显变化的多样化的风格迁移结果特征。
现有技术中,输入固定的内容图片和风格图片时,只能得到固定的单一的风格迁移结果特征,最终也只能生成一个风格迁移结果图像,这样在用户对产生的风格迁移结果图像不满意时,无法进行相应的筛选,只能更换不同的内容图片和风格图片,或寻找其他的风格迁移方法。
本实施例中,在只输入一组内容图片和风格图片时,通过特征随机重组可以产生多个第二风格特征,经过转换便可以得到多个风格迁移结果图像,可供用户筛选出最满意的一副或几副风格迁移结果图像。
步骤S8,根据所述第二风格特征计算得到多个风格迁移结果图像。
将第二风格特征通过服务器输入到一个预训练好的针对VGG19的Relu_4_1层特征直接生成原始图像的转置VGG19模型,将产生的多个第二风格特征转换成为多个风格迁移结果图像,并通过服务器发送到终端,供用户进行相应的筛选。
上述生成多样化结果的风格迁移方法中,通过特征随机重组得到多个第二风格特征,这样转换得到的多个满足相同的内容约束和风格约束的风格迁移结果图像,可以供用户进行相应的挑选,提升用户体验满意度。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,提供了一种生成多样化结果的风格迁移装置,包括:
第一模块,用于根据深度神经网络分别对内容图像和风格图像进行高层语义特征处理,得到内容图像语义特征Fc和风格图像语义特征Fs
第二模块,用于将所述风格图像语义特征划分为若干个局部的特征区域小块,得到原始风格特征集合
Figure BDA0002660975810000121
第三模块,用于对所述原始风格特征区域小块集合进行带随机偏移的归一化操作,得到第一归一化风格特征集合
Figure BDA0002660975810000122
第四模块,用于将所述内容图像语义特征与尺寸相同的随机噪声张量进行混合并划分为若干个局部的特征区域小块,得到随机噪声内容特征集合
Figure BDA0002660975810000123
第五模块,用于将所述随机噪声内容特征集合与所述第一归一化风格特征集合进行处理,得到两者中最相近的第二归一化风格特征集合,从所述第二归一化风格特征集合中随机选取一块作为所述随机噪声内容特征集合的最匹配小块φi(Fcs);
第六模块,用于根据随机噪声内容特征集合与所述最匹配小块之间的匹配结果,使用所述最匹配小块所对应的所述原始风格特征集合重建第一风格特征T;
第七模块,用于根据所述第一风格特征进行特征随机重组,得到多个第二风格特征
Figure BDA0002660975810000124
第八模块,用于根据所述第二风格特征计算得到多个风格迁移结果图像。
关于生成多样化结果的风格迁移装置的具体限定可以参见上文中对于生成多样化结果的风格迁移方法的限定,在此不再赘述。上述生成多样化结果的风格迁移装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现生成多样化结果的风格迁移方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
根据深度神经网络分别对内容图像和风格图像进行高层语义特征处理,得到内容图像语义特征Fc和风格图像语义特征Fs
将所述风格图像语义特征划分为若干个局部的特征区域小块,得到原始风格特征集合
Figure BDA0002660975810000131
对所述原始风格特征集合进行归一化操作,得到第一归一化集合
Figure BDA0002660975810000141
将所述内容图像语义特征与随机噪声进行混合并划分为若干个局部的特征区域小块,得到随机噪声内容特征集合
Figure BDA0002660975810000142
将所述随机噪声内容特征集合与所述第一归一化集合进行处理,得到两个集合中最相近的第二归一化集合,从所述第二归一化集合中随机选取一块作为所述随机噪声内容特征集合的最匹配小块φi(Fcs);
根据随机噪声内容特征集合与所述最匹配小块之间的匹配结果,使用所述最匹配小块所对应的所述原始风格特征集合重建第一风格特征T;
根据所述第一风格特征进行特征随机重组,得到多个第二风格特征
Figure BDA0002660975810000143
根据所述第二风格特征计算得到多个风格迁移结果图像。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
根据深度神经网络分别对内容图像和风格图像进行高层语义特征处理,得到内容图像语义特征Fc和风格图像语义特征Fs
将所述风格图像语义特征划分为若干个局部的特征区域小块,得到原始风格特征集合
Figure BDA0002660975810000144
对所述原始风格特征集合进行归一化操作,得到第一归一化集合
Figure BDA0002660975810000145
将所述内容图像语义特征与随机噪声进行混合并划分为若干个局部的特征区域小块,得到随机噪声内容特征集合
Figure BDA0002660975810000146
将所述随机噪声内容特征集合与所述第一归一化集合进行处理,得到两个集合中最相近的第二归一化集合,从所述第二归一化集合中随机选取一块作为所述随机噪声内容特征集合的最匹配小块φi(Fcs);
根据随机噪声内容特征集合与所述最匹配小块之间的匹配结果,使用所述最匹配小块所对应的所述原始风格特征集合重建第一风格特征T;
根据所述第一风格特征进行特征随机重组,得到多个第二风格特征
Figure BDA0002660975810000151
根据所述第二风格特征计算得到多个风格迁移结果图像。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率步骤SDRAM(DDR SDRAM)、增强型步骤SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambu S)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。不同实施例中的技术特征体现在同一附图中时,可视为该附图也同时披露了所涉及的各个实施例的组合例。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.生成多样化结果的风格迁移方法,其特征在于,包括:
根据深度神经网络分别对内容图像和风格图像进行高层语义特征处理,得到内容图像语义特征Fc和风格图像语义特征Fs
将所述风格图像语义特征划分为若干个局部的特征区域小块,得到原始风格特征集合
Figure FDA0002660975800000011
对所述原始风格特征集合进行归一化操作,得到第一归一化集合
Figure FDA0002660975800000012
将所述内容图像语义特征与随机噪声进行混合并划分为若干个局部的特征区域小块,得到随机噪声内容特征集合
Figure FDA0002660975800000013
将所述随机噪声内容特征集合与所述第一归一化集合进行处理,得到两个集合中最相近的第二归一化集合,从所述第二归一化集合中随机选取一块作为所述随机噪声内容特征集合的最匹配小块φi(Fcs);
根据随机噪声内容特征集合与所述最匹配小块之间的匹配结果,使用所述最匹配小块所对应的所述原始风格特征集合重建第一风格特征T;
根据所述第一风格特征进行特征随机重组,得到多个第二风格特征
Figure FDA0002660975800000014
根据所述第二风格特征计算得到多个风格迁移结果图像。
2.根据权利要求1所述的生成多样化结果的风格迁移方法,其特征在于,对所述原始风格特征集合进行随机偏移的归一化操作。
3.根据权利要求1所述的生成多样化结果的风格迁移方法,其特征在于,所述随机噪声的尺寸与所述内容图像语义特征的尺寸相同。
4.根据权利要求2所述的生成多样化结果的风格迁移方法,其特征在于,根据如下公式将所述原始风格特征集合进行随机偏移的归一化操作:
Figure FDA0002660975800000021
式中:Fs表示深度神经网络提取出的风格图像语义特征;
φj(Fs)表示原始风格特征集合中的特征区域小块,j∈{1,...,ns},ns为特征区域小块的数量;
||φj(Fs)||表示求φj(Fs)的L2范数;
b是一个随机的噪声偏移值;
Figure FDA0002660975800000022
表示随机归一化后的第一归一化集合中的特征区域小块。
5.根据权利要求3所述的生成多样化结果的风格迁移方法,其特征在于,根据如下公式将所述内容图像语义特征和所述随机噪声进行混合,并划分为若干个局部的特征区域小块:
Figure FDA0002660975800000023
式中:Fc表示深度神经网络提取出的内容图像语义特征;
Figure FDA0002660975800000024
表示与Fc尺寸相同的随机噪声张量;
Figure FDA0002660975800000025
表示混合了随机噪声后的随机噪声内容特征;
Figure FDA0002660975800000026
表示得到的随机噪声内容特征集合。
6.根据权利要求1所述的生成多样化结果的风格迁移方法,其特征在于,根据如下公式将所述随机噪声内容特征集合与所述第一归一化集合进行处理,得到两者中最相近的第二归一化集合,从所述第二归一化集合中随机选取一块作为所述随机噪声内容特征集合的最匹配小块:
Figure FDA0002660975800000027
式中:
Figure FDA0002660975800000031
表示随机噪声内容特征;
Fs表示深度神经网络提取出的风格图像语义特征;
Figure FDA0002660975800000032
表示随机噪声内容特征集合中的特征区域小块;
Figure FDA0002660975800000033
表示第一归一化集合中的特征区域小块;
Top_k表示对
Figure FDA0002660975800000034
集合中的每一个
Figure FDA0002660975800000035
Figure FDA0002660975800000036
集合中找到使內积
Figure FDA0002660975800000037
最大的前k个最匹配的
Figure FDA0002660975800000038
其中,nc为随机噪声内容特征集合中的区域小块数量,ns为第一归一化集合中的区域小块数量;
⊙表示从找到的k个第二归一化风格特征区域小块集合并从中随机选取一个作为最匹配小块;
φi(Fcs)表示匹配结果。
7.根据权利要求1所述的生成多样化结果的风格迁移方法,其特征在于,根据如下公式将所述第一风格特征进行特征随机重组,得到多个第二风格特征;
Figure FDA0002660975800000039
式中:T表示第一风格特征;
Figure FDA00026609758000000310
表示对特征T进行随机行打乱的重组操作;
Figure FDA00026609758000000311
表示对特征T进行随机列打乱的重组操作;
λ用于控制随机重组后的特征与第一风格特征之间的混合比例。
8.生成多样化结果的风格迁移装置,其特征在于,包括:
第一模块,用于根据深度神经网络分别对内容图像和风格图像进行高层语义特征处理,得到内容图像语义特征Fc和风格图像语义特征Fs
第二模块,用于将所述风格图像语义特征划分为若干个局部的特征区域小块,得到原始风格特征集合
Figure FDA0002660975800000041
第三模块,用于对所述原始风格特征区域小块集合进行带随机偏移的归一化操作,得到第一归一化风格特征集合
Figure FDA0002660975800000042
第四模块,用于将所述内容图像语义特征与尺寸相同的随机噪声张量进行混合并划分为若干个局部的特征区域小块,得到随机噪声内容特征集合
Figure FDA0002660975800000043
第五模块,用于将所述随机噪声内容特征集合与所述第一归一化风格特征集合进行处理,得到两者中最相近的第二归一化风格特征集合,从所述第二归一化风格特征集合中随机选取一块作为所述随机噪声内容特征集合的最匹配小块φi(Fcs);
第六模块,用于根据随机噪声内容特征集合与所述最匹配小块之间的匹配结果,使用所述最匹配小块所对应的所述原始风格特征集合重建第一风格特征T;
第七模块,用于根据所述第一风格特征进行特征随机重组,得到多个第二风格特征
Figure FDA0002660975800000044
第八模块,用于根据所述第二风格特征计算得到多个风格迁移结果图像。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述风格迁移方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述风格迁移方法的步骤。
CN202010904686.2A 2020-09-01 2020-09-01 生成多样化结果的风格迁移方法、装置、计算机设备和存储介质 Active CN112101546B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010904686.2A CN112101546B (zh) 2020-09-01 2020-09-01 生成多样化结果的风格迁移方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010904686.2A CN112101546B (zh) 2020-09-01 2020-09-01 生成多样化结果的风格迁移方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN112101546A true CN112101546A (zh) 2020-12-18
CN112101546B CN112101546B (zh) 2024-01-05

Family

ID=73756919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010904686.2A Active CN112101546B (zh) 2020-09-01 2020-09-01 生成多样化结果的风格迁移方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112101546B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113256750A (zh) * 2021-05-26 2021-08-13 武汉中科医疗科技工业技术研究院有限公司 医疗图像风格重建方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109712081A (zh) * 2018-11-14 2019-05-03 浙江大学 一种融合深度特征的语义风格迁移方法和系统
CN110111291A (zh) * 2019-05-10 2019-08-09 衡阳师范学院 基于局部和全局优化融合图像卷积神经网络风格迁移方法
EP3526770A1 (en) * 2016-10-21 2019-08-21 Google LLC Stylizing input images
CN110909790A (zh) * 2019-11-20 2020-03-24 Oppo广东移动通信有限公司 图像的风格迁移方法、装置、终端及存储介质
CN110956654A (zh) * 2019-12-02 2020-04-03 Oppo广东移动通信有限公司 图像处理方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3526770A1 (en) * 2016-10-21 2019-08-21 Google LLC Stylizing input images
CN109712081A (zh) * 2018-11-14 2019-05-03 浙江大学 一种融合深度特征的语义风格迁移方法和系统
CN110111291A (zh) * 2019-05-10 2019-08-09 衡阳师范学院 基于局部和全局优化融合图像卷积神经网络风格迁移方法
CN110909790A (zh) * 2019-11-20 2020-03-24 Oppo广东移动通信有限公司 图像的风格迁移方法、装置、终端及存储介质
CN110956654A (zh) * 2019-12-02 2020-04-03 Oppo广东移动通信有限公司 图像处理方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHIZHONG WANG 等: "Diversified Arbitrary Style Transfer via Deep Feature Perturbation", ARXIV *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113256750A (zh) * 2021-05-26 2021-08-13 武汉中科医疗科技工业技术研究院有限公司 医疗图像风格重建方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN112101546B (zh) 2024-01-05

Similar Documents

Publication Publication Date Title
Yu et al. Toward realistic face photo–sketch synthesis via composition-aided GANs
CN108765425B (zh) 图像分割方法、装置、计算机设备和存储介质
CN111275057A (zh) 图像处理方法、装置及设备
CN109345604B (zh) 图片处理方法、计算机设备和存储介质
CN112785542B (zh) 遥感影像转换网络地图方法、装置、计算机设备和介质
CN113674191B (zh) 一种基于条件对抗网络的弱光图像增强方法和装置
CN112101546A (zh) 生成多样化结果的风格迁移方法、装置、计算机设备和存储介质
Bhattarai et al. Triplanenet: An encoder for eg3d inversion
Huang et al. Multi-density sketch-to-image translation network
CN112001838B (zh) 基于自交叉编码器的跨域图像转换方法、装置、计算机设备和存储介质
CN110263707B (zh) 图像识别方法、装置、计算机设备以及存储介质
CN112990233A (zh) 基于信道混合样本数据增强的图片分类方法和装置
Shahreza et al. Template inversion attack against face recognition systems using 3d face reconstruction
CN117556258A (zh) 运动数据处理方法、装置、设备及存储介质
CN113160079A (zh) 人像修复模型的训练方法、人像修复方法和装置
CN112489173A (zh) 人像照片漫画生成的方法和系统
CN112883806A (zh) 基于神经网络的视频风格迁移方法、装置、计算机设备和存储介质
CN114419691B (zh) 人脸衰老图像的生成方法、模型训练方法、设备和介质
CN113516582A (zh) 用于图像风格迁移的网络模型训练方法、装置、计算机设备和存储介质
CN112734874A (zh) 油画生成方法、装置、计算机设备和存储介质
CN112001839A (zh) 基于语义特征变换的跨域图像转换方法、计算机设备和存储介质
CN115293955A (zh) 基于门控块的多样性图像风格迁移方法、计算机设备、可读存储介质和程序产品
CN112818820A (zh) 图像生成模型训练方法、图像生成方法、装置及电子设备
Yoon et al. DIFAI: Diverse facial inpainting using stylegan inversion
CN114662148A (zh) 一种保护隐私的多方联合训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant