CN112132167B - 图像生成和神经网络训练方法、装置、设备和介质 - Google Patents

图像生成和神经网络训练方法、装置、设备和介质 Download PDF

Info

Publication number
CN112132167B
CN112132167B CN201910551145.3A CN201910551145A CN112132167B CN 112132167 B CN112132167 B CN 112132167B CN 201910551145 A CN201910551145 A CN 201910551145A CN 112132167 B CN112132167 B CN 112132167B
Authority
CN
China
Prior art keywords
network element
layer
element block
content
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910551145.3A
Other languages
English (en)
Other versions
CN112132167A (zh
Inventor
黄明杨
张昶旭
刘春晓
石建萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sensetime Group Ltd
Original Assignee
Sensetime Group Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sensetime Group Ltd filed Critical Sensetime Group Ltd
Priority to CN201910551145.3A priority Critical patent/CN112132167B/zh
Priority to PCT/CN2020/076835 priority patent/WO2020258902A1/zh
Priority to JP2021532473A priority patent/JP2022512340A/ja
Priority to KR1020217017354A priority patent/KR20210088656A/ko
Publication of CN112132167A publication Critical patent/CN112132167A/zh
Application granted granted Critical
Publication of CN112132167B publication Critical patent/CN112132167B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation

Abstract

本实施例公开了一种图像生成方法和神经网络训练方法、装置、电子设备、计算机存储介质,该图像生成方法包括:利用第一神经网络中顺次连接的多层第一网络单元块提取内容图像的内容特征,得到各层第一网络单元块输出的内容特征;提取风格图像的风格特征;将各层第一网络单元块分别输出的内容特征对应前馈输入第二神经网络中顺次连接的多层第二网络单元块、并将风格特征从多层第二网络单元块中的首层第二网络单元块前馈输入,经各第二网络单元块对各自输入的特征处理后得到第二神经网络输出的生成图像。如此,在图像生成的过程中,利用各层第一网络单元块对内容图像的内容特征进行多次提取,保留了内容图像的更多语义信息,生成图像更为真实。

Description

图像生成和神经网络训练方法、装置、设备和介质
技术领域
本公开涉及图像处理领域,尤其涉及一种图像生成方法和神经网络训练方法、装置、电子设备及计算机存储介质。
背景技术
在相关技术中,图像生成的方法可以是从一张真实图生成到另外一张图,然后通过人为视觉主观评判生成图是否更加真实;随着神经网络的应用,相关技术中出现了基于神经网络的图像生成方法,通常可以基于成对数据训练神经网络,然后通过训练的神经网络对内容图像进行风格转换,这里,成对数据表示用于训练的具有相同内容特征的内容图像和风格图像,且风格图像与内容图像的风格特征不同;然而,实际场景中,很少出现上述成对数据,因而,这种方法不利用实现。
发明内容
本公开实施例期望提供图像生成的技术方案。
本公开实施例提供了一种图像生成方法,所述方法包括:
利用第一神经网络中顺次连接的多层第一网络单元块提取内容图像的内容特征,得到各层第一网络单元块分别输出的内容特征;
提取风格图像的风格特征;
将所述各层第一网络单元块分别输出的内容特征对应前馈输入第二神经网络中顺次连接的多层第二网络单元块、并将所述风格特征从所述多层第二网络单元块中的首层第二网络单元块前馈输入,经各所述第二网络单元块对各自输入的特征处理后得到所述第二神经网络输出的生成图像,其中,所述多层第一网络单元块与所述多层第二网络单元块对应。
可选地,所述将所述各层第一网络单元块分别输出的内容特征对应前馈输入第二神经网络中顺次连接的多层第二网络单元块包括:
响应于i依次取1至T的情况,将第i层第一网络单元块输出的内容特征前馈输入至第T-i+1层第二网络单元块中,i为正整数,T表示所述第一神经网络和所述第二神经网络的网络单元块的层数。
可选地,所述各所述第二网络单元块中的首层第二网络单元块对输入的特征处理,包括:
将来自末层第一网络单元块的内容特征和所述风格特征进行乘法运算,得到所述首层第二网络单元块的中间特征;将所述来自末层第一网络单元块的内容特征与所述首层第二网络单元块的中间特征进行加法运算,得到所述首层第二网络单元块的输出特征;将所述首层第二网络单元块的输出特征作为第二层第二网络单元块的输入。
可选地,所述方法还包括:
在将来自末层第一网络单元块的内容特征和所述风格特征进行乘法运算前,对所述来自末层第一网络单元块的内容特征进行卷积运算。
可选地,所述各所述第二网络单元块中的中间层第二网络单元块对输入的特征处理,包括:
对输入的内容特征和上一层第二网络单元块的输出特征进行乘法运算,得到所述中间层第二网络单元块的中间特征;将所述输入的内容特征与所述中间层第二网络单元块的中间特征进行加法运算,得到所述中间层第二网络单元块的输出特征;将所述中间层第二网络单元块的输出特征作为下一层第二网络单元块的输入。
可选地,所述方法还包括:
在对所述输入的内容特征和上一层第二网络单元块的输出特征进行乘法运算前,对所述接收的内容特征进行卷积运算。
可选地,所述各所述第二网络单元块中的末层第二网络单元块对输入的特征处理,包括:
将来自首层第一网络单元块的内容特征和上一层第二网络单元块的输出特征进行乘法运算,得到所述末层第二网络单元块的中间特征;将所述来自首层第一网络单元块的内容特征与所述末层第二网络单元块的中间特征进行加法运算,得到所述生成图像。
可选地,所述方法还包括:
在对所述来自首层第一网络单元块的内容特征和上一层第二网络单元块的输出特征进行乘法运算前,对所述来自首层第一网络单元块的内容特征进行卷积运算。
可选地,所述提取所述风格图像的风格特征,包括:
提取所述风格图像分布的特征;
对所述风格图像分布的特征进行采样,得到所述风格特征,所述风格特征包括所述风格图像分布的特征的均值和标准差。
可选地,所述第一网络单元块提取内容图像的内容特征,包括:基于所述第一网络单元块中以残差结构组织的多个神经网络层提取内容图像的内容特征;和/或,
经所述第二网络单元块对其输入的特征进行处理,包括:基于所述第二网络单元块中以残差结构组织的多个神经网络层对输入到所述第二网络单元的特征进行处理。
本公开实施例还提出了一种神经网络训练方法,所述方法还包括:
利用第一神经网络中顺次连接的多层第一网络单元块提取内容图像的内容特征,得到各层第一网络单元块分别输出的内容特征;
提取风格图像的风格特征;
将所述各层第一网络单元块分别输出的内容特征对应前馈输入第二神经网络中顺次连接的多层第二网络单元块、并将所述风格特征从所述多层第二网络单元块中的首层第二网络单元块前馈输入,经各所述第二网络单元块对各自输入的特征处理后得到所述第二神经网络输出的生成图像,其中,所述多层第一网络单元块与所述多层第二网络单元块对应;
对所述生成图像进行鉴别,得出鉴别结果;
根据所述内容图像、所述风格图像、所述生成图像和所述鉴别结果,调整所述第一神经网络和/或所述第二神经网络的网络参数。
可选地,所述将所述各层第一网络单元块分别输出的内容特征对应前馈输入第二神经网络中顺次连接的多层第二网络单元块包括:
响应于i依次取1至T的情况,将第i层第一网络单元块输出的内容特征前馈输入至第T-i+1层第二网络单元块中,i为正整数,T表示所述第一神经网络和所述第二神经网络的网络单元块的层数。
可选地,所述各所述第二网络单元块中的首层第二网络单元块对输入的特征处理,包括:
将来自末层第一网络单元块的内容特征和所述风格特征进行乘法运算,得到所述首层第二网络单元块的中间特征;将所述来自末层第一网络单元块的内容特征与所述首层第二网络单元块的中间特征进行加法运算,得到所述首层第二网络单元块的输出特征;将所述首层第二网络单元块的输出特征作为第二层第二网络单元块的输入。
可选地,所述方法还包括:
在将来自末层第一网络单元块的内容特征和所述风格特征进行乘法运算前,对所述来自末层第一网络单元块的内容特征进行卷积运算。
可选地,所述各所述第二网络单元块中的中间层第二网络单元块对输入的特征处理,包括:
对输入的内容特征和上一层第二网络单元块的输出特征进行乘法运算,得到所述中间层第二网络单元块的中间特征;将所述输入的内容特征与所述中间层第二网络单元块的中间特征进行加法运算,得到所述中间层第二网络单元块的输出特征;将所述中间层第二网络单元块的输出特征作为下一层第二网络单元块的输入。
可选地,所述方法还包括:
在对所述输入的内容特征和上一层第二网络单元块的输出特征进行乘法运算前,对所述接收的内容特征进行卷积运算。
可选地,所述各所述第二网络单元块中的末层第二网络单元块对输入的特征处理,包括:
将来自首层第一网络单元块的内容特征和上一层第二网络单元块的输出特征进行乘法运算,得到所述末层第二网络单元块的中间特征;将所述来自首层第一网络单元块的内容特征与所述末层第二网络单元块的中间特征进行加法运算,得到所述生成图像。
可选地,所述方法还包括:
在对所述来自首层第一网络单元块的内容特征和上一层第二网络单元块的输出特征进行乘法运算前,对所述来自首层第一网络单元块的内容特征进行卷积运算。
可选地,调整所述第二神经网络的网络参数,包括:调整所述乘法运算参数和/或加法运算参数。
可选地,所述根据所述内容图像、所述风格图像、所述生成图像和所述鉴别结果,调整所述第一神经网络和/或所述第二神经网络的网络参数,包括:
根据所述内容图像、所述风格图像、所述生成图像和所述鉴别结果,确定生成对抗网络损失;
响应于所述生成对抗网络损失不满足预定条件的情况,根据所述生成对抗网络损失,调整所述第一神经网络和/或所述第二神经网络的网络参数;其中,所述生成对抗网络损失用于表征所述生成图像与所述内容图像的内容特征差异、以及所述生成图像与所述风格图像的风格特征差异。
可选地,所述根据所述内容图像、所述风格图像、所述生成图像和所述鉴别结果,调整所述第一神经网络和/或所述第二神经网络的网络参数,还包括:
根据所述生成图像与所述风格图像,确定风格损失;
响应于所述风格损失不满足预定条件的情况,根据所述风格损失,调整所述第一神经网络和/或所述第二神经网络的网络参数;其中,所述风格损失用于表征所述生成图像与所述风格图像的风格特征的差异。
可选地,所述根据所述内容图像、所述风格图像、所述生成图像和所述鉴别结果,调整所述第一神经网络和/或所述第二神经网络的网络参数,还包括:
根据所述生成图像与所述内容图像,确定内容损失;
响应于所述内容损失不满足预定条件的情况,根据所述内容损失,调整所述第一神经网络和/或所述第二神经网络的网络参数;其中,所述内容损失用于表征所述生成图像与所述内容图像的内容特征差异。
可选地,所述根据所述内容图像、所述风格图像、所述生成图像和所述鉴别结果,调整所述第一神经网络和/或所述第二神经网络的网络参数,还包括:
根据各所述第二网络单元块中的各中间层第二网络单元块的输出特征、以及风格图像,确定特征匹配损失;
响应于所述特征匹配损失不满足预定条件的情况,根据所述特征匹配损失,调整所述第一神经网络和/或所述第二神经网络的网络参数;其中,所述特征匹配损失用于表征所述各中间层第二网络单元块的输出特征与所述风格图像的风格特征的差异。
可选地,所述提取所述风格图像的风格特征,包括:
提取所述风格图像分布的特征;
对所述风格图像分布的特征进行采样,得到所述风格特征,所述风格特征包括所述风格图像分布的特征的均值和标准差。
可选地,所述第一网络单元块提取内容图像的内容特征,包括:基于所述第一网络单元块中以残差结构组织的多个神经网络层提取内容图像的内容特征;和/或,
经所述第二网络单元块对其输入的特征进行处理,包括:基于所述第二网络单元块中以残差结构组织的多个神经网络层对输入到所述第二网络单元的特征进行处理。
本公开实施例还提出了一种图像生成装置,所述装置包括第一提取模块、第二提取模块和第一处理模块,其中,
第一提取模块,用于利用第一神经网络中顺次连接的多层第一网络单元块提取内容图像的内容特征,得到各层第一网络单元块分别输出的内容特征;
第二提取模块,用于提取风格图像的风格特征;
第一处理模块,用于将所述各层第一网络单元块分别输出的内容特征对应前馈输入第二神经网络中顺次连接的多层第二网络单元块、并将所述风格特征从所述多层第二网络单元块中的首层第二网络单元块前馈输入,经各所述第二网络单元块对各自输入的特征处理后得到所述第二神经网络输出的生成图像,其中,所述多层第一网络单元块与所述多层第二网络单元块对应。
可选地,所述第一处理模块,用于响应于i依次取1至T的情况,将第i层第一网络单元块输出的内容特征前馈输入至第T-i+1层第二网络单元块中,i为正整数,T表示所述第一神经网络和所述第二神经网络的网络单元块的层数。
可选地,所述各所述第二网络单元块中的首层第二网络单元块,用于将来自末层第一网络单元块的内容特征和所述风格特征进行乘法运算,得到所述首层第二网络单元块的中间特征;将所述来自末层第一网络单元块的内容特征与所述首层第二网络单元块的中间特征进行加法运算,得到所述首层第二网络单元块的输出特征;将所述首层第二网络单元块的输出特征作为第二层第二网络单元块的输入。
可选地,所述首层第二网络单元块,还用于在将来自末层第一网络单元块的内容特征和所述风格特征进行乘法运算前,对所述来自末层第一网络单元块的内容特征进行卷积运算。
可选地,所述各所述第二网络单元块中的中间层第二网络单元块,用于对输入的内容特征和上一层第二网络单元块的输出特征进行乘法运算,得到所述中间层第二网络单元块的中间特征;将所述输入的内容特征与所述中间层第二网络单元块的中间特征进行加法运算,得到所述中间层第二网络单元块的输出特征;将所述中间层第二网络单元块的输出特征作为下一层第二网络单元块的输入。
可选地,所述中间层第二网络单元块,还用于在对所述输入的内容特征和上一层第二网络单元块的输出特征进行乘法运算前,对所述接收的内容特征进行卷积运算。
可选地,所述各所述第二网络单元块中的末层第二网络单元块,用于将来自首层第一网络单元块的内容特征和上一层第二网络单元块的输出特征进行乘法运算,得到所述末层第二网络单元块的中间特征;将所述来自首层第一网络单元块的内容特征与所述末层第二网络单元块的中间特征进行加法运算,得到所述生成图像。
可选地,所述末层第二网络单元块,用于在对所述来自首层第一网络单元块的内容特征和上一层第二网络单元块的输出特征进行乘法运算前,对所述来自首层第一网络单元块的内容特征进行卷积运算。
可选地,所述第二提取模块,用于提取所述风格图像分布的特征;对所述风格图像分布的特征进行采样,得到所述风格特征,所述风格特征包括所述风格图像分布的特征的均值和标准差。
可选地,所述第一网络单元块,用于基于所述第一网络单元块中以残差结构组织的多个神经网络层提取内容图像的内容特征;和/或,
所述第二网络单元块,用于基于所述第二网络单元块中以残差结构组织的多个神经网络层对输入到所述第二网络单元的特征进行处理。
本公开实施例还提出了一种神经网络训练装置,所述装置包括第三提取模块、第四提取模块、第二处理模块和调整模块;其中,
第三提取模块,用于利用第一神经网络中顺次连接的多层第一网络单元块提取内容图像的内容特征,得到各层第一网络单元块分别输出的内容特征;
第四提取模块,用于提取风格图像的风格特征;
第二处理模块,用于将所述各层第一网络单元块分别输出的内容特征对应前馈输入第二神经网络中顺次连接的多层第二网络单元块、并将所述风格特征从所述多层第二网络单元块中的首层第二网络单元块前馈输入,经各所述第二网络单元块对各自输入的特征处理后得到所述第二神经网络输出的生成图像;对所述生成图像进行鉴别,得出鉴别结果;其中,所述多层第一网络单元块与所述多层第二网络单元块对应;
调整模块,用于根据所述内容图像、所述风格图像、所述生成图像和所述鉴别结果,调整所述第一神经网络和/或所述第二神经网络的网络参数。
可选地,所述第二处理模块,用于响应于i依次取1至T的情况,将第i层第一网络单元块输出的内容特征前馈输入至第T-i+1层第二网络单元块中,i为正整数,T表示所述第一神经网络和所述第二神经网络的网络单元块的层数。
可选地,所述各所述第二网络单元块中的首层第二网络单元块,用于将来自末层第一网络单元块的内容特征和所述风格特征进行乘法运算,得到所述首层第二网络单元块的中间特征;将所述来自末层第一网络单元块的内容特征与所述首层第二网络单元块的中间特征进行加法运算,得到所述首层第二网络单元块的输出特征;将所述首层第二网络单元块的输出特征作为第二层第二网络单元块的输入。
可选地,所述首层第二网络单元块,还用于在将来自末层第一网络单元块的内容特征和所述风格特征进行乘法运算前,对所述来自末层第一网络单元块的内容特征进行卷积运算。
可选地,所述各所述第二网络单元块中的中间层第二网络单元块,用于对输入的内容特征和上一层第二网络单元块的输出特征进行乘法运算,得到所述中间层第二网络单元块的中间特征;将所述输入的内容特征与所述中间层第二网络单元块的中间特征进行加法运算,得到所述中间层第二网络单元块的输出特征;将所述中间层第二网络单元块的输出特征作为下一层第二网络单元块的输入。
可选地,所述中间层第二网络单元块,还用于在对所述输入的内容特征和上一层第二网络单元块的输出特征进行乘法运算前,对所述接收的内容特征进行卷积运算。
可选地,所述各所述第二网络单元块中的末层第二网络单元块,用于将来自首层第一网络单元块的内容特征和上一层第二网络单元块的输出特征进行乘法运算,得到所述末层第二网络单元块的中间特征;将所述来自首层第一网络单元块的内容特征与所述末层第二网络单元块的中间特征进行加法运算,得到所述生成图像。
可选地,所述末层第二网络单元块,还用于在对所述来自首层第一网络单元块的内容特征和上一层第二网络单元块的输出特征进行乘法运算前,对所述来自首层第一网络单元块的内容特征进行卷积运算。
可选地,所述调整模块,用于调整所述乘法运算参数和/或加法运算参数。
可选地,所述调整模块,用于根据所述内容图像、所述风格图像、所述生成图像和所述鉴别结果,确定生成对抗网络损失;响应于所述生成对抗网络损失不满足预定条件的情况,根据所述生成对抗网络损失,调整所述第一神经网络和/或所述第二神经网络的网络参数;其中,所述生成对抗网络损失用于表征所述生成图像与所述内容图像的内容特征差异、以及所述生成图像与所述风格图像的风格特征差异。
可选地,所述调整模块,还用于根据所述生成图像与所述风格图像,确定风格损失;响应于所述风格损失不满足预定条件的情况,根据所述风格损失,调整所述第一神经网络和/或所述第二神经网络的网络参数;其中,所述风格损失用于表征所述生成图像与所述风格图像的风格特征的差异。
可选地,所述调整模块,还用于根据所述生成图像与所述内容图像,确定内容损失;响应于所述内容损失不满足预定条件的情况,根据所述内容损失,调整所述第一神经网络和/或所述第二神经网络的网络参数;其中,所述内容损失用于表征所述生成图像与所述内容图像的内容特征差异。
可选地,所述调整模块,还用于根据各所述第二网络单元块中的各中间层第二网络单元块的输出特征、以及风格图像,确定特征匹配损失;
响应于所述特征匹配损失不满足预定条件的情况,根据所述特征匹配损失,调整所述第一神经网络和/或所述第二神经网络的网络参数;其中,所述特征匹配损失用于表征所述各中间层第二网络单元块的输出特征与所述风格图像的风格特征的差异。
可选地,所述第四提取模块,用于提取所述风格图像分布的特征;对所述风格图像分布的特征进行采样,得到所述风格特征,所述风格特征包括所述风格图像分布的特征的均值和标准差。
可选地,所述第一网络单元块,用于基于所述第一网络单元块中以残差结构组织的多个神经网络层提取内容图像的内容特征;和/或,
所述第二网络单元块,用于基于所述第二网络单元块中以残差结构组织的多个神经网络层对输入到所述第二网络单元的特征进行处理。
本公开实施例还提出了一种电子设备,包括处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
所述处理器用于运行所述计算机程序时,执行上述任意一种图像生成方法或上述任意一种神经网络训练方法。
本公开实施例还提出了一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任意一种图像生成方法或上述任意一种神经网络训练方法。
本公开实施例提出的图像生成方法和神经网络训练方法、装置、电子设备、计算机存储介质中,利用第一神经网络中顺次连接的多层第一网络单元块提取内容图像的内容特征,得到各层第一网络单元块分别输出的内容特征;提取风格图像的风格特征;将所述各层第一网络单元块分别输出的内容特征对应前馈输入第二神经网络中顺次连接的多层第二网络单元块、并将所述风格特征从所述多层第二网络单元块中的首层第二网络单元块前馈输入,经各所述第二网络单元块对各自输入的特征处理后得到所述第二神经网络输出的生成图像,其中,所述多层第一网络单元块与所述多层第二网络单元块对应。可以看出,在本公开实施例中,内容图像和风格图像均可以实际需要确定,内容图像和风格图像并不需要是成对图像,如此便于实现;另外,在图像生成的过程中,可以利用第一神经网络的各层第一网络单元块对内容图像的内容特征进行多次提取,进而保留了内容图像的更多的语义信息,使得生成图像与内容图像相比,保留了较多的语义信息,因而,生成图像更为真实。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。
图1为本公开实施例的图像生成方法的流程图;
图2为本公开实施例预先训练的神经网络的结构示意图;
图3为本公开实施例的内容编码器的一个示例性的结构示意图;
图4为本公开实施例的CRB的一个示例性的结构示意图;
图5为本公开实施例的生成器的一个示例性的结构示意图;
图6为本公开实施例中几组示例性的内容图像、风格图像和生成图像;
图7为本公开实施例的神经网络的训练方法的流程图;
图8为本公开应用实施例提出的图像生成方法的框架的结构示意图;
图9a为本公开应用实施例中内容编码器的残差块的结构示意图;
图9b为本公开应用实施例中生成器的残差块的结构示意图;
图9c为本公开应用实施例的FADE模块的结构示意图;
图10为本公开实施例的图像生成装置的组成结构示意图;
图11为本公开实施例的电子设备的结构示意图;
图12为本公开实施例的神经网络训练装置的组成结构示意图。
具体实施方式
以下结合附图及实施例,对本公开进行进一步详细说明。应当理解,此处所提供的实施例仅仅用以解释本公开,并不用于限定本公开。另外,以下所提供的实施例是用于实施本公开的部分实施例,而非提供实施本公开的全部实施例,在不冲突的情况下,本公开实施例记载的技术方案可以任意组合的方式实施。
需要说明的是,在本公开实施例中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的方法或者装置不仅包括所明确记载的要素,而且还包括没有明确列出的其他要素,或者是还包括为实施方法或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括该要素的方法或者装置中还存在另外的相关要素(例如方法中的步骤或者装置中的单元,例如的单元可以是部分电路、部分处理器、部分程序或软件等等)。
例如,本公开实施例提供的图像生成方法和神经网络训练方法包含了一系列的步骤,但是本公开实施例提供的图像生成方法和神经网络训练方法不限于所记载的步骤,同样地,本公开实施例提供的图像生成装置和神经网络训练装置包括了一系列模块,但是本公开实施例提供的装置不限于包括所明确记载的模块,还可以包括为获取相关信息、或基于信息进行处理时所需要设置的模块。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
本公开实施例可以应用于终端和服务器组成的计算机系统中,并可以与众多其它通用或专用计算系统环境或配置一起操作。这里,终端可以是瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统,等等,服务器可以是服务器计算机系统小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
基于上述记载的内容,在本公开的一些实施例中,提出了一种图像生成方法,本公开实施例可以应用的场景包括但不限于自动驾驶、图像生成、图像合成、计算机视觉、深度学习、机器学习等。
图1为本公开实施例的图像生成方法的流程图,如图1所示,该流程可以包括:
步骤101:利用第一神经网络中顺次连接的多层第一网络单元块提取内容图像的内容特征,得到各层第一网络单元块分别输出的内容特征。
这里,内容图像可以是需要进行风格转换的图像;示例性地,可以从本地存储区域或网络获取内容图像,例如,内容图像可以为通过移动终端或相机等拍摄的图像;内容图像的格式可以是联合图像专家小组(Joint Photographic Experts GROUP,JPEG)、位图(Bitmap,BMP)、便携式网络图形(Portable Network Graphics,PNG)或其他格式;需要说明的是,这里仅仅是对内容图像的格式和来源进行了举例说明,本公开实施例并不对内容图像的格式和来源进行限定。
对于一幅图像而言,可以提取内容特征和风格特征,其中,内容特征用于表征图像的内容信息,例如,内容特征表示图像中的物体位置、物体形状、物体尺寸等;风格特征用于表征内容图像的风格信息,例如,风格特征用于表征天气、白天、夜晚、会话风格等风格信息。
本公开实施例中,风格转换可以是指将内容图像的风格特征转换为另一风格特征,示例性地,内容图像的风格特征的转换可以是从白天到夜晚的转换、从夜晚到白天的转换、不同天气风格之间的转换、不同绘画风格之间的转换、真实图像到计算机图形(Computer-Graphic images,CG)图像的转换、CG图像到真实图像的转换;不同天气风格之间的转换可以是晴天到雨天的转换、雨天到晴天的转换、晴天到阴天的转换、阴天到晴天的转换、阴天到雨天的转换、雨天到阴天的转换、晴天到下雪的转换、下雪到晴天的转换、阴天到下雪的转换、下雪到阴天的转换、下雪到雨天的转换、雨天到下雪的转换等;不同绘画风格的转换可以是油画到水墨画的转换、水墨画到油画的转换、油画到素描画的转换、素描画到油画的转换、素描画到水墨画的转换、水墨画到素描画的转换等。
这里,第一神经网络为用于提取内容图像的内容特征的网络,本公开实施例并不对第一神经网络的种类进行限定;在第一神经网络的多层第一网络单元块中,可以将内容图像的内容特征从多层第一网络单元块的首层第一网络单元块前馈输入。
本公开实施例中,前馈输入对应的数据处理方向表示从神经网络的输入端到输出端的数据处理方向,对应正向传播或前向传播过程;对于前馈输入过程,神经网络的上一层网络单元块的输出结果作为下一层网络单元块的输入结果。
对于第一神经网络,第一神经网络的每层第一网络单元块可以针对输入的数据,提取内容特征,即第一神经网络的每层第一网络单元块的输出结果为内容特征,第一神经网络的不同第一网络单元块输出的内容特征是不同的。
可选地,内容图像的内容特征的表示方式可以内容特征图或其他表示方式,本公开实施例对此并不进行限定。
可以理解的是,通过第一神经网络的各层第一网络单元块对内容特征的逐次提取,可以获得内容图像的从低层到高层的语义信息。
可选地,第一神经网络中的每层第一网络单元块是以残差结构组织的多个神经网络层,这样,可以通过每层第一网络单元块中以残差结构组织的多个神经网络层提取内容图像的内容特征。
步骤102:提取风格图像的风格特征。
这里,风格图像是具有目标风格特征的图像,目标风格特征表示内容图像需要转换到的风格特征,风格图像可以实际需要进行设置。本公开实施例中,可以在获取内容图像后,确定需要转换的目标风格特征,然后根据需求选取风格图像。
在实际应用中,可以从本地存储区域或网络获取风格图像,例如,风格图像可以为通过移动终端或相机等拍摄的图像;风格图像的格式可以是JPEG、BMP、PNG或其他格式;需要说明的是,这里仅仅是对风格图像的格式和来源进行了举例说明,本公开实施例并不对风格图像的格式和来源进行限定。
本公开实施例中,内容图像的风格特征与风格图像的风格特征是不相同的,对内容图像进行风格转换的目的可以是:使得经风格转换后得到的生成图像具有内容图像的内容特征以及风格图像的风格特征。
例如,可以将白天风格的内容图像转换为夜晚风格的生成图像,或,将晴天风格的内容图像转换为雨天风格的生成图像,或,将水墨画风格的内容图像转换为油画风格的生成图像,或,将CG风格的图像转换为真实图像风格的生成图像等等。
对于本步骤的实现方式,示例性地,可以提取风格图像分布的特征;对风格图像分布的特征进行采样,得到风格特征,风格特征包括风格图像分布的特征的均值和标准差;这里,通过对风格图像分布的特征进行采样,可以准确地提取出风格图像的风格特征,有利于将内容图像进行准确地风格转换。
在实际应用中,可以对风格图像进行至少一层卷积运算,以得出风格图像分布的特征。
步骤103:将各层第一网络单元块分别输出的内容特征对应前馈输入第二神经网络中顺次连接的多层第二网络单元块、并将风格特征从多层第二网络单元块中的首层第二网络单元块前馈输入,经各第二网络单元块对各自输入的特征处理后得到第二神经网络输出的生成图像,其中,多层第一网络单元块与多层第二网络单元块对应。
这里,第二神经网络层的上一层网络单元块的输出结果为下一层网络单元块的输入结果;可选地,第二神经网络中的每层第二网络单元块是以残差结构组织的多个神经网络层,这样,可以通过每层第二网络单元块中以残差结构组织的多个神经网络层对输入的特征进行处理。
在实际应用中,步骤101至步骤103可以利用电子设备中的处理器实现,上述处理器可以为特定用途集成电路(Application Specific Integrated Circuit,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、数字信号处理装置(Digital SignalProcessing Device,DSPD)、可编程逻辑装置(Programmable Logic Device,PLD)、FPGA、中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器中的至少一种。
可以看出,在本公开实施例中,内容图像和风格图像均可以根据实际需要确定,内容图像和风格图像并不需要是成对图像,如此便于实现;另外,在图像生成的过程中,可以利用第一神经网络的各层第一网络单元块对内容图像的内容特征进行多次提取,进而保留了内容图像的更多的语义信息,使得生成图像与内容图像相比,保留了较多的语义信息,因而,生成图像更为真实。
另外,在基于本公开实施例中的神经网络结构进行图像生成的过程中,风格图像的风格可根据实际需要确定,并不限定风格图像的风格特征与训练神经网络时使用的风格图像的风格特征的关系,也就是说,神经网络训练的时候使用的是黑夜风格的训练图像,但在基于训练完成的神经网络进行图像生成时,可选择内容图像和雪天风格、雨天风格或者其他风格的风格图像,由此生成符合实际需求风格的图像,而不仅仅只能生成黑夜风格的图像,提高图像生成方法的泛化性和普适性。
进一步地,可以根据用户需要设置多种具有不同风格特征的风格图像,进而可以针对一个内容图像,得到具有不同风格特征的生成图像,例如,在基于训练完成的神经网络进行图像生成时,可针对同一个内容图像,可以分别向训练完成的神经网络输入黑夜风格图像、阴天风格图像和雨天风格图像,从而将该内容图像的风格分别转换为黑夜风格、阴天风格和雨天风格,即,可以基于同一内容图像,得到多种风格的生成图像,而不仅仅只能生成一种风格的图像,提高图像生成方法的适用性。
本公开实施例中,第一神经网络的第一网络单元块的层数与第二神经网络的第二网络单元块的层数可以是相同的,第一神经网络的各层第一网络单元块与第二神经网络的各层第二网络单元块形成一一对应关系。
作为一种实现方式,当i依次取1至T时,可以将第i层第一网络单元块输出的内容特征前馈输入至第T-i+1层第二网络单元块中,i为正整数,T表示所述第一神经网络和所述第二神经网络的网络单元块的层数;也就是说,首层第一网络单元块输出的内容特征被输入至末层第二网络单元块中,末层第一网络单元块输出的内容特征被输入至首层第二网络单元块中。
本公开实施例中,第二神经网络中各层第二网络单元块的接收的内容特征为第一神经网络各层第一网络单元块的输出特征,第二神经网络中各层第二网络单元块的接收的内容特征,随着在第二神经网络中的不同位置而有所不同;可以看出,第二神经网络以风格特征作为输入,随着风格特征从第二神经网络的低层第二网络单元块到高层第二网络单元块的深入,可以融合更多的内容特征,可以基于风格特征逐渐融合内容图像各层语义信息,进而使得到的生成图像能够保留内容图像的多层语音信息以及风格特征信息。
作为一种实现方式,各所述第二网络单元块中的首层第二网络单元块,可以将来自末层第一网络单元块的内容特征和风格特征进行乘法运算,得到所述首层第二网络单元块的中间特征;将来自末层第一网络单元块的内容特征与首层第二网络单元块的中间特征进行加法运算,得到首层第二网络单元块的输出特征;将首层第二网络单元块的输出特征作为第二层第二网络单元块的输入。
可以看出,通过进行上述乘法运算和加法运算,便于实现风格特征和末层第一网络单元块的内容特征的融合。
可选地,在将来自末层第一网络单元块的内容特征和风格特征进行乘法运算前,可以对来自末层第一网络单元块的内容特征进行卷积运算;也就是说,可以先对来自末层第一网络单元块的内容特征进行卷积运算,然后,将卷积运算的结果与风格特征进行乘法运算。
作为一种实现方式,各第二网络单元块中的中间层第二网络单元块,可以对输入的内容特征和上一层第二网络单元块的输出特征进行乘法运算,得到中间层第二网络单元块的中间特征;将输入的内容特征与中间层第二网络单元块的中间特征进行加法运算,得到中间层第二网络单元块的输出特征;将中间层第二网络单元块的输出特征作为下一层第二网络单元块的输入。
需要说明的是,中间层第二网络单元块为第二神经网络中除去首层第二网络单元块和末层第二网络单元块之外的第二网络单元块,在第二神经网络中,可以有一个中间第二网络单元块,也可以有多个第二网络单元块;上述记载的内容仅仅是以一个中间层第二网络单元块为例,对中间层第二网络单元块的数据处理过程进行了说明。
可以看出,通过进行上述乘法运算和加法运算,便于实现上一层第二网络单元块的输出特征和相应内容特征的融合。
可选地,中间层第二网络单元块在对所述输入的内容特征和上一层第二网络单元块的输出特征进行乘法运算前,对所述接收的内容特征进行卷积运算。
作为一种实现方式,各第二网络单元块中的末层第二网络单元块,可以将来自首层第一网络单元块的内容特征和上一层第二网络单元块的输出特征进行乘法运算,得到末层第二网络单元块的中间特征;将来自首层第一网络单元块的内容特征与末层第二网络单元块的中间特征进行加法运算,得到生成图像。
可以看出,通过进行上述乘法运算和加法运算,便于实现上一层第二网络单元块的输出特征和首层第一网络单元块的内容特征的融合,进而通过各层第二网络单元块的数据处理,可以使生成图像融合风格特征和各层第一网络单元块的内容特征。
可选地,末层第二网络单元块在对来自首层第一网络单元块的内容特征和上一层第二网络单元块的输出特征进行乘法运算前,对所述来自首层第一网络单元块的内容特征进行卷积运算。
在实际应用中,可以预先训练用于图像生成的神经网络;下面结合附图对预先训练的神经网络进行示例性说明。
图2为本公开实施例预先训练的神经网络的结构示意图,如图2所示,预先训练的神经网络包括内容编码器、风格编码器和生成器;其中,内容编码器用于利用上述第一神经网络提取内容图像的内容特征,生成器用于利用上述第二神经网络实现风格特征与各层第一网络单元块输出的内容特征的融合。
在实际实施时,可将第一神经网络作为内容编码器,将第二神经网络作为生成器,将用于进行风格图像进行风格特征提取的神经网络作为风格编码器。参照图2,可以将内容图像输入至内容编码器,在内容编码器中,可以利用第一神经网络的多层第一网络单元块进行处理,每层第一网络单元块可以输出内容特征;还可以将风格图像输入至风格编码器中,在风格编码器中,可以提取风格图像的风格特征。示例性地第一网络单元块为残差块(Residual Block,RB),每层第一网络单元块输出的内容特征为内容特征图。
图3为本公开实施例的内容编码器的一个示例性的结构示意图,如图3所示,内容编码器的残差块可以记为CRB,内容编码器包括七层CRB,图3的CRB(A,B)中,A代表输入通道数,B代表输出通道数;图3中,CRB(3,64)的输入为内容图像,第一层CRB至第七层CRB分别为从下到上排列的CRB(3,64)、CRB(64,128)、CRB(128,256)、CRB(256,512)、CRB(512,1024)、CRB(1024,1024)、CRB(1024,1024)和CRB(1024,1024),第一层CRB至第七层CRB分别输出七个内容特征图。
图4为本公开实施例的CRB的一个示例性的结构示意图,图4中,sync BN表示同步BN层,ReLu(Rectified Linear Unit)表示ReLu层,Conv表示卷积层,待加号的圆圈表示求和;图4所示的CRB的结构为标准的残差块的结构。
参照图3和图4,本公开实施例中可以采用标准的残差网络结构进行内容特征的提取,如此,便于实现对内容图像的内容特征的提取,减少语义信息丢失。
在生成器中,可以利用第二神经网络的多层第二网络单元块进行处理;示例性地,第二网络单元块为RB。
图5为本公开实施例的生成器的一个示例性的结构示意图,如图5所示,生成器中的残差块可以记为GB,生成器可以包括七层GB,每层GB的输入为内容编码器的一层CRB的输出;在生成器中,第一层GB至第七层GB分别为从上到下排列的GB ResBlk(1024)、GB ResBlk(1024)、GB ResBlk(1024)、GB ResBlk(512)、GB ResBlk(256)、GB ResBlk(128)和GBResBlk(64);图5的GB ResBlk(C)中,C表示通道数;第一层GB用于接收风格特征,第一层GB至第七层GB用于对应接收第七层CRB至第一层CRB输出的内容特征图;经各层GB对输入的特征进行处理后,可以利用第七层GB输出生成图像。
可以看出,可以基于内容编码器的多层残差块,对内容图像的结构信息进行编码,以生成多个不同层次的内容特征图;内容编码器可以在深层提取更抽象的特征,在表层保留了大量的结构信息。
本公开实施例的图像生成方法可以应用于各种图像生成场景,例如,可以应用于图像娱乐化数据生成、自动驾驶模型训练测试数据生成等场景。
下面结合附图说明本公开实施例的图像生成方法的效果。图6为本公开实施例中几组示例性的内容图像、风格图像和生成图像,如图6所示,第一列表示内容图像,第二列表示风格图像,第三列表示基于本公开实施例的图像生成方法得到的生成图像,同一行的图像表示一组内容图像、风格图像和生成图像;从第一行到最后一行的风格转换分别为从白天到夜晚、夜晚到白天、晴天到雨天、雨天到晴天、晴天到阴天、阴天到晴天、晴天到下雪以及下雪到晴天的风格转换,从图6可以看出,基于本公开实施例的图像生成方法得到的生成图像,可以保留内容图像的内容信息以及风格图像的风格信息。
在本公开实施例的神经网络的训练过程中,不仅涉及从输入到输出的前向传播过程,还涉及到从输出的输入的反向传播过程;本公开的神经网络的训练过程,可以使用前向过程来生成图像并使用反向过程来调整神经网络的网络参数。下面对本公开实施例涉及的神经网络的训练方法进行说明。
图7为本公开实施例的神经网络的训练方法的流程图,如图7所示,该流程可以包括:
步骤701:利用第一神经网络中顺次连接的多层第一网络单元块提取内容图像的内容特征,得到各层第一网络单元块分别输出的内容特征。
本步骤的实现方式与步骤101的实现方式相同,这里不再赘述。
步骤702:提取风格图像的风格特征。
本步骤的实现方式与步骤102的实现方式相同,这里不再赘述。
步骤703:将各层第一网络单元块分别输出的内容特征对应前馈输入第二神经网络中顺次连接的多层第二网络单元块、并将风格特征从多层第二网络单元块中的首层第二网络单元块前馈输入,经各第二网络单元块对各自输入的特征处理后得到第二神经网络输出的生成图像,其中,多层第一网络单元块与多层第二网络单元块对应。
本步骤的实现方式与步骤103的实现方式相同,这里不再赘述。
步骤704:对生成图像进行鉴别,得出鉴别结果。
本公开实施例中,与神经网络的测试方法(即基于训练完成的神经网络进行图像生成的方法)不同的是,在神经网络的训练过程中,生成器生成的输出图像还需要进行鉴别。
这里,对生成图像进行鉴别的目的为判断生成图像为真实图像的概率;在实际应用中,本步骤可以利用鉴别器等实现。
步骤705:根据内容图像、风格图像、生成图像和鉴别结果,调整第一神经网络和/或所述第二神经网络的网络参数。
在实际应用中,可以根据内容图像、风格图像、生成图像和鉴别结果,基于反向过程调整第一神经网络和/或所述第二神经网络的网络参数,然后使用前向过程重新得到生成图像和鉴别结果,如此,通过多次交替进行上述前向过程和反向过程,进行神经网络的网络迭代优化,直至满足预定的训练完成条件,便可以得出训练完成的用于图像生成的神经网络。
在实际应用中,步骤701至步骤705可以利用电子设备中的处理器实现,上述处理器可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。
在本公开实施例中,内容图像和风格图像均可以根据实际需要确定,内容图像和风格图像并不需要是成对图像,如此便于实现;另外,在神经网络的训练过程的图像生成过程中,可以利用第一神经网络的各层第一网络单元块对内容图像的内容特征进行多次提取,进而保留了内容图像的更多的语义信息,使得生成图像与内容图像相比,保留了较多的语义信息;进而,可以使训练得到的神经网络具有较好地保持内容图像语义信息的性能。
对于调整第二神经网络的网络参数的实现方式,示例性地,可以调整各层第二网络单元块中使用的乘法运算和/加法运算的参数。
作为一种实现方式,可以根据内容图像、风格图像、生成图像和鉴别结果,确定生成对抗网络(Generative Adversarial Net,GAN)损失;这里,生成对抗网络损失用于表征生成图像与所述内容图像的内容特征差异、以及生成图像与风格图像的风格特征差异;在一个示例中,生成对抗网络包括生成器和鉴别器。
响应于生成对抗网络损失不满足预定条件的情况,根据生成对抗网络损失,调整第一神经网络和/或第二神经网络的网络参数。
在实际应用中,可以基于生成对抗网络损失,并采用极大极小对策对对第一神经网络和/或第二神经网络的网络参数进行调整。
这里,预定条件可以表示预定的训练完成条件;可以理解的是,根据生成对抗网络损失的含义可知,基于生成对抗网络损失训练神经网络,可以使基于训练后的神经网络得到的生成图像,具有较高的保持内容图像的内容特征以及风格图像的风格特征的性能。
可选地,还可以根据生成图像与风格图像,确定风格损失;响应于风格损失不满足预定条件的情况,根据所述风格损失,调整第一神经网络和/或第二神经网络的网络参数;其中,风格损失用于表征所述生成图像与风格图像的风格特征的差异。
可以理解的是,根据风格损失的含义可知,基于风格损失训练神经网络,可以使基于训练后的神经网络得到的生成图像,具有较高的保持风格图像的风格特征的性能。
可选地,还可以根据生成图像与内容图像,确定内容损失;响应于内容损失不满足预定条件的情况,根据内容损失,调整第一神经网络和/或第二神经网络的网络参数;其中,内容损失用于表征生成图像与内容图像的内容特征差异。
可以理解的是,根据内容损失的含义可知,基于内容损失训练神经网络,可以使基于训练后的神经网络得到的生成图像,具有较高的保持内容图像的内容特征的性能。
可选地,还可以根据各第二网络单元块中的各中间层第二网络单元块的输出特征、以及风格图像,确定特征匹配损失;响应于特征匹配损失不满足预定条件的情况,根据特征匹配损失,调整第一神经网络和/或第二神经网络的网络参数;其中,特征匹配损失用于表征各中间层第二网络单元块的输出特征与风格图像的风格特征的差异。
可以理解的是,根据特征匹配损失的含义可知,基于特征匹配损失训练神经网络,可以使基于训练后的神经网络得到的生成图像,具有较高的保持内容图像的内容特征的性能。
本公开实施例中,可以基于上述一种损失或多种损失训练神经网络,当基于一种损失训练神经网络时,在该损失满足预定条件时,可以得到训练完成的神经网络;当基于多种损失训练神经网络时,需要在上述多种损失均满足预定条件时,可以得到训练完成的神经网络。
在基于多种损失训练神经网络时,由于可以从神经网络训练的各个方面综合考虑神经网络的损失,进而,训练出的神经网络的风格转换的准确性更高。
本公开实施例中,生成对抗网络损失、风格损失、内容损失或特征匹配损失可以采用损失函数表示。
下面通过一个具体的应用实施例对本公开进行进一步说明。
在该应用实施例中,神经网络方法的训练过程可以基于内容编码器、风格编码器、生成器和鉴别器等实现,基于训练完成神经网络方法进行图像生成的过程可以基于内容编码器、风格编码器和生成器等实现。
图8为本公开应用实施例提出的图像生成方法的框架的结构示意图,如图8所示,内容编码器的输入为内容图像,用于提取内容图像的内容特征;风格编码器负责提取风格图像的风格特征;生成器融合了不同层第一网络单元块的内容特征和风格特征,进而生成高质量的图像。需要说明的是,图8中未示出神经网络训练过程使用的鉴别器。
具体地说,参照图8,内容编码器包括多层残差块,CRB-1、CRB-2…CRB-T分别表示内容编码器的第1层残差块至第T层残差块;生成器包括多层残差块,GB-1…GB-T-1、GB-T分别表示生成器的第1层残差块至第T层残差块;当i处于1至T之间时,将内容编码器的第i层残差块的输出结果输入至生成器的第T-i+1层残差块中;风格编码器的输入为风格图像,用于提取出风格图像的风格特征,然后被输入至生成器的第1层残差块中。输出图像是基于生成器的第T层残差块GB-T的输出结果得到的。
在本公开应用实施例中,将fi定义为从内容编码器的第i层残差块输出的内容特征图,用表示生成器的第i个残差块的特征,这里,生成器的第i个残差块为生成器的第T-i+1层残差块;/>与fi具有相同的通道数,N表示批尺寸,Ci表示通道数;Hi和Wi分别表示高度和宽度。激活值(n∈[1,N],c∈[1,Ci],h∈[1,Hi],ω∈[1,Wi])可以表示为公式(1)。
其中,和/>均与生成器的第i个残差块对应,分别表示上一层残差块(第二神经网络的残差块)输出的特征的均值和标准差,/>和/>可以按照公式(2)进行计算。
和/>为生成器的第i个残差块的参数,/>和/>可以由fi的单层卷积得到;本公开应用实施例的图像生成方法是特征自适应的,即,可以直接基于内容图像的内容特征计算调制参数;而在相关的图像生成方法中,调制参数是不变的。
在本公开应用实施例中,将内容编码器表示为Ec,将风格编码器表示为Es;风格图像的潜在分布xs被Es进行编码,例如,z=Es(xs)。
分别使用χc和χs表示内容图像域和风格图像域,训练样本(xc,xs)是在无监督学习环境下从边缘分布和/>中提取的。
图9a为本公开应用实施例中内容编码器的残差块的结构示意图,如图9a所示,BN表示BN层,ReLu表示ReLu层,Conv表示卷积层,待加号的圆表示求和;内容编码器的每个残差块CRB的结构为标准残差块的结构,内容编码器的每个残差块包括三个卷积层,其中一个用于跳过连接(skip connection)。
本公开应用实施例中,生成器和内容编码器的残差块的层数相同;图9b为本公开应用实施例中生成器的残差块的结构示意图,如图9b所示,在标准残差块的基础上,利用FADE模块代替BN层,得到生成器的每层残差块GB的结构;在图9b中,F1、F2和F3分别表示第一FADE模块、第二FADE模块和第三FADE模块;在生成器的每个残差块中,每个FADE模块的输入包括内容编码器输出的相应的内容特征图,参照图9b,在生成器的每个残差块中,在生成器的每个残差块的3个FADE模块中,F1和F2的输入还包括第二神经网络的上一层残差块的输出特征,F3的输入还包括经F1、ReLu层和卷积层依次处理后得出的特征。
图9c为本公开应用实施例的FADE模块的结构示意图,如图9c所示,虚线框表示FADE模块内的结构,带乘号的圆圈表示相乘,带加号的圆圈表示相加;Conv表示卷积层,BN表示BN层;Υ和β表示生成器的每个残差块的调制参数,可以看出,FADE将内容特征图作为输入,可以从卷积后的特征导出去正规化参数(denormalization parameters).
在本公开应用实施例中,通过对内容编码器和生成器连接结构的精细设计,使训练的神经网络在风格图像的控制下自适应地转换内容图像。
作为一种实现方式,风格编码器是基于变分自适应编码器(Variational AdaptiveEncoder,VAE)提出的。风格编码器的输出是均值向量(mean vector)和标准差向量(standard deviation vector)/>隐编码(latent code)z来源于对风格图像编码后的重采样/>
由于采样操作是不可微的,这里,可以利用重参数化技巧(reparameterizationtrick)将采样转化为可微运算。设η为均匀分布且与z大小相同的随机向量;这里,η~N(η|0,1),那么z可以重参数化为通过这种操作,我们可以训练带有后向传播的风格编码器,并将整个网络训练为端到端模型(end-to-end model)。
在本公开应用实施例中,可以共同训练整个神经网络的各个部分。对于神经网络的训练,可以在极大极小对策进行优化的基础上,参照公式(3)计算整个第一神经网络的损失函数,进而实现对第一神经网络的训练。
其中,G表示生成器,D表示鉴别器,LVAE(Es,G)表示风格损失,示例性地,风格损失可以是KL散度(Kullback-Leibler divergence)的损失;LVAE(Es,G)可以根据公式(4)进行计算。
LVAE(Es,G)=λ0KL(q(z|xs)||pη(z)) (4)
其中,KL(·)表示KL散度,λ0表示LVAE(Es,G)中的超参数。
LGAN(Es,Ec,G,D)表示生成对抗网络损失,它用于生成器和鉴别器的对抗性训练中;LGAN(Es,Ec,G,D)可以根据公式(5)进行计算。
其中,和/>表示数学期望,D(·)表示判别器,G(·)表示生成器,Ec(xc)表示编码器,λ1表示LGAN(Es,Ec,G,D)中的超参数。
LVGG(Es,Ec,G)表示内容损失,示例性地,内容损失可以是VGG(Visual GeometryGroup)损失。LVGG(Es,Ec,G)可以根据公式(6)进行计算。
其中,表示从总M层中选择的第m层的激活图(activation map),/>表示的元素数量,λ2和/>是LVGG(Es,Ec,G)中相应的超参数,/>表示通过生成器得到的输出图像,/>||·||1表示1-范数
LFM(Es,Ec,G)表示特征匹配损失;LFM(Es,Ec,G)可以根据公式(7)进行计算。
其中,表示鉴别器第i层的第k个尺度(多尺度鉴别器具有k个不同的尺度),Ni表示鉴别器第i层中元素的总数,Q表示层数;λ*在上述所有损失函数中,都是相应的权重。VGG损失在不同的层具有不同的权重。
在本公开应用实施例中,第一神经网络基于多尺度鉴别器进行训练,不同尺度上的每个鉴别器具有完全相同的结构;具有最粗糙尺度的鉴别器具有最大的感受野;利用较高的感受野,鉴别器能够区分较高分辨率的图像。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
在前述实施例提出的图像生成方法的基础上,本公开实施例提出了一种图像生成装置。
图10为本公开实施例的图像生成装置的组成结构示意图,如图10所示,所述装置包括:第一提取模块1001、第二提取模块1002和第一处理模块1003,其中,
第一提取模块1001,用于利用第一神经网络中顺次连接的多层第一网络单元块提取内容图像的内容特征,得到各层第一网络单元块分别输出的内容特征;
第二提取模块1002,用于提取风格图像的风格特征;
第一处理模块1003,用于将所述各层第一网络单元块分别输出的内容特征对应前馈输入第二神经网络中顺次连接的多层第二网络单元块、并将所述风格特征从所述多层第二网络单元块中的首层第二网络单元块前馈输入,经各所述第二网络单元块对各自输入的特征处理后得到所述第二神经网络输出的生成图像,其中,所述多层第一网络单元块与所述多层第二网络单元块对应。
可选地,所述第一处理模块1003,用于响应于i依次取1至T的情况,将第i层第一网络单元块输出的内容特征前馈输入至第T-i+1层第二网络单元块中,i为正整数,T表示所述第一神经网络和所述第二神经网络的网络单元块的层数。
可选地,所述各所述第二网络单元块中的首层第二网络单元块,用于将来自末层第一网络单元块的内容特征和所述风格特征进行乘法运算,得到所述首层第二网络单元块的中间特征;将所述来自末层第一网络单元块的内容特征与所述首层第二网络单元块的中间特征进行加法运算,得到所述首层第二网络单元块的输出特征;将所述首层第二网络单元块的输出特征作为第二层第二网络单元块的输入。
可选地,所述首层第二网络单元块,还用于在将来自末层第一网络单元块的内容特征和所述风格特征进行乘法运算前,对所述来自末层第一网络单元块的内容特征进行卷积运算。
可选地,所述各所述第二网络单元块中的中间层第二网络单元块,用于对输入的内容特征和上一层第二网络单元块的输出特征进行乘法运算,得到所述中间层第二网络单元块的中间特征;将所述输入的内容特征与所述中间层第二网络单元块的中间特征进行加法运算,得到所述中间层第二网络单元块的输出特征;将所述中间层第二网络单元块的输出特征作为下一层第二网络单元块的输入。
可选地,所述中间层第二网络单元块,还用于在对所述输入的内容特征和上一层第二网络单元块的输出特征进行乘法运算前,对所述接收的内容特征进行卷积运算。
可选地,所述各所述第二网络单元块中的末层第二网络单元块,用于将来自首层第一网络单元块的内容特征和上一层第二网络单元块的输出特征进行乘法运算,得到所述末层第二网络单元块的中间特征;将所述来自首层第一网络单元块的内容特征与所述末层第二网络单元块的中间特征进行加法运算,得到所述生成图像。
可选地,所述末层第二网络单元块,用于在对所述来自首层第一网络单元块的内容特征和上一层第二网络单元块的输出特征进行乘法运算前,对所述来自首层第一网络单元块的内容特征进行卷积运算。
可选地,所述第二提取模块1002,用于提取所述风格图像分布的特征;对所述风格图像分布的特征进行采样,得到所述风格特征,所述风格特征包括所述风格图像分布的特征的均值和标准差。
可选地,所述第一网络单元块,用于基于所述第一网络单元块中以残差结构组织的多个神经网络层提取内容图像的内容特征;和/或,
所述第二网络单元块,用于基于所述第二网络单元块中以残差结构组织的多个神经网络层对输入到所述第二网络单元的特征进行处理。
在实际应用中,第一提取模块1001、第二提取模块1002和第一处理模块1003均可以利用电子设备中的处理器实现,上述处理器可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。
另外,在本实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时,可以存储在一个计算机可读取存储介质中,基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或processor(处理器)执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
具体来讲,本实施例中的一种图像生成方法或神经网络训练方法对应的计算机程序指令可以被存储在光盘,硬盘,U盘等存储介质上,当存储介质中的与一种图像生成方法或神经网络训练方法对应的计算机程序指令被一电子设备读取或被执行时,实现前述实施例的任意一种图像生成方法或任意一种神经网络训练方法。
基于前述实施例相同的技术构思,参见图11,其示出了本公开实施例提供的一种电子设备11,可以包括:存储器111和处理器112;其中,
所述存储器111,用于存储计算机程序和数据;
所述处理器112,用于执行所述存储器中存储的计算机程序,以实现前述实施例的任意一种图像生成方法或任意一种神经网络训练方法。
在实际应用中,上述存储器111可以是易失性存储器(volatile memory),例如RAM;或者非易失性存储器(non-volatile memory),例如ROM,快闪存储器(flash memory),硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD);或者上述种类的存储器的组合,并向处理器112提供指令和数据。
上述处理器112可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。可以理解地,对于不同的设备,用于实现上述处理器功能的电子器件还可以为其它,本公开实施例不作具体限定。
图12为本公开实施例的神经网络训练装置的组成结构示意图,如图12所示,所述装置包括:第三提取模块1201、第四提取模块1202、第二处理模块1203和调整模块1204;其中,
第三提取模块1201,用于利用第一神经网络中顺次连接的多层第一网络单元块提取内容图像的内容特征,得到各层第一网络单元块分别输出的内容特征;
第四提取模块1202,用于提取风格图像的风格特征;
第二处理模块1203,用于将所述各层第一网络单元块分别输出的内容特征对应前馈输入第二神经网络中顺次连接的多层第二网络单元块、并将所述风格特征从所述多层第二网络单元块中的首层第二网络单元块前馈输入,经各所述第二网络单元块对各自输入的特征处理后得到所述第二神经网络输出的生成图像;对所述生成图像进行鉴别,得出鉴别结果;其中,所述多层第一网络单元块与所述多层第二网络单元块对应;
调整模块1204,用于根据所述内容图像、所述风格图像、所述生成图像和所述鉴别结果,调整所述第一神经网络和/或所述第二神经网络的网络参数。
可选地,所述第二处理模块1203,用于响应于i依次取1至T的情况,将第i层第一网络单元块输出的内容特征前馈输入至第T-i+1层第二网络单元块中,i为正整数,T表示所述第一神经网络和所述第二神经网络的网络单元块的层数。
可选地,所述各所述第二网络单元块中的首层第二网络单元块,用于将来自末层第一网络单元块的内容特征和所述风格特征进行乘法运算,得到所述首层第二网络单元块的中间特征;将所述来自末层第一网络单元块的内容特征与所述首层第二网络单元块的中间特征进行加法运算,得到所述首层第二网络单元块的输出特征;将所述首层第二网络单元块的输出特征作为第二层第二网络单元块的输入。
可选地,所述首层第二网络单元块,还用于在将来自末层第一网络单元块的内容特征和所述风格特征进行乘法运算前,对所述来自末层第一网络单元块的内容特征进行卷积运算。
可选地,所述各所述第二网络单元块中的中间层第二网络单元块,用于对输入的内容特征和上一层第二网络单元块的输出特征进行乘法运算,得到所述中间层第二网络单元块的中间特征;将所述输入的内容特征与所述中间层第二网络单元块的中间特征进行加法运算,得到所述中间层第二网络单元块的输出特征;将所述中间层第二网络单元块的输出特征作为下一层第二网络单元块的输入。
可选地,所述中间层第二网络单元块,还用于在对所述输入的内容特征和上一层第二网络单元块的输出特征进行乘法运算前,对所述接收的内容特征进行卷积运算。
可选地,所述各所述第二网络单元块中的末层第二网络单元块,用于将来自首层第一网络单元块的内容特征和上一层第二网络单元块的输出特征进行乘法运算,得到所述末层第二网络单元块的中间特征;将所述来自首层第一网络单元块的内容特征与所述末层第二网络单元块的中间特征进行加法运算,得到所述生成图像。
可选地,所述末层第二网络单元块,还用于在对所述来自首层第一网络单元块的内容特征和上一层第二网络单元块的输出特征进行乘法运算前,对所述来自首层第一网络单元块的内容特征进行卷积运算。
可选地,所述调整模块1204,用于调整所述乘法运算参数和/或加法运算参数。
可选地,所述调整模块1204,用于根据所述内容图像、所述风格图像、所述生成图像和所述鉴别结果,确定生成对抗网络损失;响应于所述生成对抗网络损失不满足预定条件的情况,根据所述生成对抗网络损失,调整所述第一神经网络和/或所述第二神经网络的网络参数;其中,所述生成对抗网络损失用于表征所述生成图像与所述内容图像的内容特征差异、以及所述生成图像与所述风格图像的风格特征差异。
可选地,所述调整模块1204,还用于根据所述生成图像与所述风格图像,确定风格损失;响应于所述风格损失不满足预定条件的情况,根据所述风格损失,调整所述第一神经网络和/或所述第二神经网络的网络参数;其中,所述风格损失用于表征所述生成图像与所述风格图像的风格特征的差异。
可选地,所述调整模块1204,还用于根据所述生成图像与所述内容图像,确定内容损失;响应于所述内容损失不满足预定条件的情况,根据所述内容损失,调整所述第一神经网络和/或所述第二神经网络的网络参数;其中,所述内容损失用于表征所述生成图像与所述内容图像的内容特征差异。
可选地,所述调整模块1204,还用于根据各所述第二网络单元块中的各中间层第二网络单元块的输出特征、以及风格图像,确定特征匹配损失;
响应于所述特征匹配损失不满足预定条件的情况,根据所述特征匹配损失,调整所述第一神经网络和/或所述第二神经网络的网络参数;其中,所述特征匹配损失用于表征所述各中间层第二网络单元块的输出特征与所述风格图像的风格特征的差异。
可选地,所述第四提取模块1202,用于提取所述风格图像分布的特征;对所述风格图像分布的特征进行采样,得到所述风格特征,所述风格特征包括所述风格图像分布的特征的均值和标准差。
可选地,所述第一网络单元块,用于基于所述第一网络单元块中以残差结构组织的多个神经网络层提取内容图像的内容特征;和/或,
所述第二网络单元块,用于基于所述第二网络单元块中以残差结构组织的多个神经网络层对输入到所述第二网络单元的特征进行处理。
在实际应用中,第三提取模块1201、第四提取模块1202、第二处理模块1203和调整模块1204均可以利用电子设备中的处理器实现,上述处理器可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述
本申请所提供的各方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的各产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的各方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (48)

1.一种图像生成方法,其特征在于,所述方法包括:
利用第一神经网络中顺次连接的多层第一网络单元块提取内容图像的内容特征,得到各层第一网络单元块分别输出的内容特征;
提取风格图像的风格特征;
将所述各层第一网络单元块分别输出的内容特征对应前馈输入第二神经网络中顺次连接的多层第二网络单元块、并将所述风格特征从所述多层第二网络单元块中的首层第二网络单元块前馈输入,经各所述第二网络单元块对各自输入的特征处理后得到所述第二神经网络输出的生成图像,其中,所述多层第一网络单元块与所述多层第二网络单元块对应;
所述各所述第二网络单元块中的首层第二网络单元块对输入的特征处理,包括:
将来自末层第一网络单元块的内容特征和所述风格特征进行乘法运算,得到所述首层第二网络单元块的中间特征;将所述来自末层第一网络单元块的内容特征与所述首层第二网络单元块的中间特征进行加法运算,得到所述首层第二网络单元块的输出特征;将所述首层第二网络单元块的输出特征作为第二层第二网络单元块的输入。
2.根据权利要求1所述的方法,其特征在于,所述将所述各层第一网络单元块分别输出的内容特征对应前馈输入第二神经网络中顺次连接的多层第二网络单元块包括:
响应于i依次取1至T的情况,将第i层第一网络单元块输出的内容特征前馈输入至第T-i+1层第二网络单元块中,i为正整数,T表示所述第一神经网络和所述第二神经网络的网络单元块的层数。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在将来自末层第一网络单元块的内容特征和所述风格特征进行乘法运算前,对所述来自末层第一网络单元块的内容特征进行卷积运算。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述各所述第二网络单元块中的中间层第二网络单元块对输入的特征处理,包括:
对输入的内容特征和上一层第二网络单元块的输出特征进行乘法运算,得到所述中间层第二网络单元块的中间特征;将所述输入的内容特征与所述中间层第二网络单元块的中间特征进行加法运算,得到所述中间层第二网络单元块的输出特征;将所述中间层第二网络单元块的输出特征作为下一层第二网络单元块的输入。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
在对所述输入的内容特征和上一层第二网络单元块的输出特征进行乘法运算前,对接收的内容特征进行卷积运算。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述各所述第二网络单元块中的末层第二网络单元块对输入的特征处理,包括:
将来自首层第一网络单元块的内容特征和上一层第二网络单元块的输出特征进行乘法运算,得到所述末层第二网络单元块的中间特征;将所述来自首层第一网络单元块的内容特征与所述末层第二网络单元块的中间特征进行加法运算,得到所述生成图像。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
在对所述来自首层第一网络单元块的内容特征和上一层第二网络单元块的输出特征进行乘法运算前,对所述来自首层第一网络单元块的内容特征进行卷积运算。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述提取所述风格图像的风格特征,包括:
提取所述风格图像分布的特征;
对所述风格图像分布的特征进行采样,得到所述风格特征,所述风格特征包括所述风格图像分布的特征的均值和标准差。
9.根据权利要求1至8任一项所述的方法,其特征在于,
所述第一网络单元块提取内容图像的内容特征,包括:基于所述第一网络单元块中以残差结构组织的多个神经网络层提取内容图像的内容特征;和/或,
经所述第二网络单元块对其输入的特征进行处理,包括:基于所述第二网络单元块中以残差结构组织的多个神经网络层对输入到所述第二网络单元的特征进行处理。
10.一种神经网络训练方法,其特征在于,所述方法还包括:
利用第一神经网络中顺次连接的多层第一网络单元块提取内容图像的内容特征,得到各层第一网络单元块分别输出的内容特征;
提取风格图像的风格特征;
将所述各层第一网络单元块分别输出的内容特征对应前馈输入第二神经网络中顺次连接的多层第二网络单元块、并将所述风格特征从所述多层第二网络单元块中的首层第二网络单元块前馈输入,经各所述第二网络单元块对各自输入的特征处理后得到所述第二神经网络输出的生成图像,其中,所述多层第一网络单元块与所述多层第二网络单元块对应;
对所述生成图像进行鉴别,得出鉴别结果;
根据所述内容图像、所述风格图像、所述生成图像和所述鉴别结果,调整所述第一神经网络和/或所述第二神经网络的网络参数;
所述各所述第二网络单元块中的首层第二网络单元块对输入的特征处理,包括:
将来自末层第一网络单元块的内容特征和所述风格特征进行乘法运算,得到所述首层第二网络单元块的中间特征;将所述来自末层第一网络单元块的内容特征与所述首层第二网络单元块的中间特征进行加法运算,得到所述首层第二网络单元块的输出特征;将所述首层第二网络单元块的输出特征作为第二层第二网络单元块的输入。
11.根据权利要求10所述的方法,其特征在于,所述将所述各层第一网络单元块分别输出的内容特征对应前馈输入第二神经网络中顺次连接的多层第二网络单元块包括:
响应于i依次取1至T的情况,将第i层第一网络单元块输出的内容特征前馈输入至第T-i+1层第二网络单元块中,i为正整数,T表示所述第一神经网络和所述第二神经网络的网络单元块的层数。
12.根据权利要求10所述的方法,其特征在于,所述方法还包括:
在将来自末层第一网络单元块的内容特征和所述风格特征进行乘法运算前,对所述来自末层第一网络单元块的内容特征进行卷积运算。
13.根据权利要求10至12任一项所述的方法,其特征在于,所述各所述第二网络单元块中的中间层第二网络单元块对输入的特征处理,包括:
对输入的内容特征和上一层第二网络单元块的输出特征进行乘法运算,得到所述中间层第二网络单元块的中间特征;将所述输入的内容特征与所述中间层第二网络单元块的中间特征进行加法运算,得到所述中间层第二网络单元块的输出特征;将所述中间层第二网络单元块的输出特征作为下一层第二网络单元块的输入。
14.根据权利要求13所述的方法,其特征在于,所述方法还包括:
在对所述输入的内容特征和上一层第二网络单元块的输出特征进行乘法运算前,对接收的内容特征进行卷积运算。
15.根据权利要求10至14任一项所述的方法,其特征在于,所述各所述第二网络单元块中的末层第二网络单元块对输入的特征处理,包括:
将来自首层第一网络单元块的内容特征和上一层第二网络单元块的输出特征进行乘法运算,得到所述末层第二网络单元块的中间特征;将所述来自首层第一网络单元块的内容特征与所述末层第二网络单元块的中间特征进行加法运算,得到所述生成图像。
16.根据权利要求15所述的方法,其特征在于,所述方法还包括:
在对所述来自首层第一网络单元块的内容特征和上一层第二网络单元块的输出特征进行乘法运算前,对所述来自首层第一网络单元块的内容特征进行卷积运算。
17.根据权利要求10至16任一项所述的方法,其特征在于,调整所述第二神经网络的网络参数,包括:调整所述乘法运算参数和/或加法运算参数。
18.根据权利要求10至17任一项所述的方法,其特征在于,所述根据所述内容图像、所述风格图像、所述生成图像和所述鉴别结果,调整所述第一神经网络和/或所述第二神经网络的网络参数,包括:
根据所述内容图像、所述风格图像、所述生成图像和所述鉴别结果,确定生成对抗网络损失;
响应于所述生成对抗网络损失不满足预定条件的情况,根据所述生成对抗网络损失,调整所述第一神经网络和/或所述第二神经网络的网络参数;其中,所述生成对抗网络损失用于表征所述生成图像与所述内容图像的内容特征差异、以及所述生成图像与所述风格图像的风格特征差异。
19.根据权利要求18所述的方法,其特征在于,所述根据所述内容图像、所述风格图像、所述生成图像和所述鉴别结果,调整所述第一神经网络和/或所述第二神经网络的网络参数,还包括:
根据所述生成图像与所述风格图像,确定风格损失;
响应于所述风格损失不满足预定条件的情况,根据所述风格损失,调整所述第一神经网络和/或所述第二神经网络的网络参数;其中,所述风格损失用于表征所述生成图像与所述风格图像的风格特征的差异。
20.根据权利要求18或19所述的方法,其特征在于,所述根据所述内容图像、所述风格图像、所述生成图像和所述鉴别结果,调整所述第一神经网络和/或所述第二神经网络的网络参数,还包括:
根据所述生成图像与所述内容图像,确定内容损失;
响应于所述内容损失不满足预定条件的情况,根据所述内容损失,调整所述第一神经网络和/或所述第二神经网络的网络参数;其中,所述内容损失用于表征所述生成图像与所述内容图像的内容特征差异。
21.根据权利要求18至20任一项所述的方法,其特征在于,所述根据所述内容图像、所述风格图像、所述生成图像和所述鉴别结果,调整所述第一神经网络和/或所述第二神经网络的网络参数,还包括:
根据各所述第二网络单元块中的各中间层第二网络单元块的输出特征、以及风格图像,确定特征匹配损失;
响应于所述特征匹配损失不满足预定条件的情况,根据所述特征匹配损失,调整所述第一神经网络和/或所述第二神经网络的网络参数;其中,所述特征匹配损失用于表征所述各中间层第二网络单元块的输出特征与所述风格图像的风格特征的差异。
22.根据权利要求10至21任一项所述的方法,其特征在于,所述提取所述风格图像的风格特征,包括:
提取所述风格图像分布的特征;
对所述风格图像分布的特征进行采样,得到所述风格特征,所述风格特征包括所述风格图像分布的特征的均值和标准差。
23.根据权利要求10至22任一项所述的方法,其特征在于,
所述第一网络单元块提取内容图像的内容特征,包括:基于所述第一网络单元块中以残差结构组织的多个神经网络层提取内容图像的内容特征;和/或,
经所述第二网络单元块对其输入的特征进行处理,包括:基于所述第二网络单元块中以残差结构组织的多个神经网络层对输入到所述第二网络单元的特征进行处理。
24.一种图像生成装置,其特征在于,所述装置包括第一提取模块、第二提取模块和第一处理模块,其中,
第一提取模块,用于利用第一神经网络中顺次连接的多层第一网络单元块提取内容图像的内容特征,得到各层第一网络单元块分别输出的内容特征;
第二提取模块,用于提取风格图像的风格特征;
第一处理模块,用于将所述各层第一网络单元块分别输出的内容特征对应前馈输入第二神经网络中顺次连接的多层第二网络单元块、并将所述风格特征从所述多层第二网络单元块中的首层第二网络单元块前馈输入,经各所述第二网络单元块对各自输入的特征处理后得到所述第二神经网络输出的生成图像,其中,所述多层第一网络单元块与所述多层第二网络单元块对应;所述各所述第二网络单元块中的首层第二网络单元块,用于将来自末层第一网络单元块的内容特征和所述风格特征进行乘法运算,得到所述首层第二网络单元块的中间特征;将所述来自末层第一网络单元块的内容特征与所述首层第二网络单元块的中间特征进行加法运算,得到所述首层第二网络单元块的输出特征;将所述首层第二网络单元块的输出特征作为第二层第二网络单元块的输入。
25.根据权利要求24所述的装置,其特征在于,所述第一处理模块,用于响应于i依次取1至T的情况,将第i层第一网络单元块输出的内容特征前馈输入至第T-i+1层第二网络单元块中,i为正整数,T表示所述第一神经网络和所述第二神经网络的网络单元块的层数。
26.根据权利要求24所述的装置,其特征在于,所述首层第二网络单元块,还用于在将来自末层第一网络单元块的内容特征和所述风格特征进行乘法运算前,对所述来自末层第一网络单元块的内容特征进行卷积运算。
27.根据权利要求24至26任一项所述的装置,其特征在于,所述各所述第二网络单元块中的中间层第二网络单元块,用于对输入的内容特征和上一层第二网络单元块的输出特征进行乘法运算,得到所述中间层第二网络单元块的中间特征;将所述输入的内容特征与所述中间层第二网络单元块的中间特征进行加法运算,得到所述中间层第二网络单元块的输出特征;将所述中间层第二网络单元块的输出特征作为下一层第二网络单元块的输入。
28.根据权利要求27所述的装置,其特征在于,所述中间层第二网络单元块,还用于在对所述输入的内容特征和上一层第二网络单元块的输出特征进行乘法运算前,对接收的内容特征进行卷积运算。
29.根据权利要求24至28任一项所述的装置,其特征在于,所述各所述第二网络单元块中的末层第二网络单元块,用于将来自首层第一网络单元块的内容特征和上一层第二网络单元块的输出特征进行乘法运算,得到所述末层第二网络单元块的中间特征;将所述来自首层第一网络单元块的内容特征与所述末层第二网络单元块的中间特征进行加法运算,得到所述生成图像。
30.根据权利要求29所述的装置,其特征在于,所述末层第二网络单元块,用于在对所述来自首层第一网络单元块的内容特征和上一层第二网络单元块的输出特征进行乘法运算前,对所述来自首层第一网络单元块的内容特征进行卷积运算。
31.根据权利要求24至30任一项所述的装置,其特征在于,所述第二提取模块,用于提取所述风格图像分布的特征;对所述风格图像分布的特征进行采样,得到所述风格特征,所述风格特征包括所述风格图像分布的特征的均值和标准差。
32.根据权利要求24至31任一项所述的装置,其特征在于,所述第一网络单元块,用于基于所述第一网络单元块中以残差结构组织的多个神经网络层提取内容图像的内容特征;和/或,
所述第二网络单元块,用于基于所述第二网络单元块中以残差结构组织的多个神经网络层对输入到所述第二网络单元的特征进行处理。
33.一种神经网络训练装置,其特征在于,所述装置包括第三提取模块、第四提取模块、第二处理模块和调整模块;其中,
第三提取模块,用于利用第一神经网络中顺次连接的多层第一网络单元块提取内容图像的内容特征,得到各层第一网络单元块分别输出的内容特征;
第四提取模块,用于提取风格图像的风格特征;
第二处理模块,用于将所述各层第一网络单元块分别输出的内容特征对应前馈输入第二神经网络中顺次连接的多层第二网络单元块、并将所述风格特征从所述多层第二网络单元块中的首层第二网络单元块前馈输入,经各所述第二网络单元块对各自输入的特征处理后得到所述第二神经网络输出的生成图像;对所述生成图像进行鉴别,得出鉴别结果;其中,所述多层第一网络单元块与所述多层第二网络单元块对应;所述各所述第二网络单元块中的首层第二网络单元块,用于将来自末层第一网络单元块的内容特征和所述风格特征进行乘法运算,得到所述首层第二网络单元块的中间特征;将所述来自末层第一网络单元块的内容特征与所述首层第二网络单元块的中间特征进行加法运算,得到所述首层第二网络单元块的输出特征;将所述首层第二网络单元块的输出特征作为第二层第二网络单元块的输入;
调整模块,用于根据所述内容图像、所述风格图像、所述生成图像和所述鉴别结果,调整所述第一神经网络和/或所述第二神经网络的网络参数。
34.根据权利要求33所述的装置,其特征在于,所述第二处理模块,用于响应于i依次取1至T的情况,将第i层第一网络单元块输出的内容特征前馈输入至第T-i+1层第二网络单元块中,i为正整数,T表示所述第一神经网络和所述第二神经网络的网络单元块的层数。
35.根据权利要求33所述的装置,其特征在于,所述首层第二网络单元块,还用于在将来自末层第一网络单元块的内容特征和所述风格特征进行乘法运算前,对所述来自末层第一网络单元块的内容特征进行卷积运算。
36.根据权利要求33至35任一项所述的装置,其特征在于,所述各所述第二网络单元块中的中间层第二网络单元块,用于对输入的内容特征和上一层第二网络单元块的输出特征进行乘法运算,得到所述中间层第二网络单元块的中间特征;将所述输入的内容特征与所述中间层第二网络单元块的中间特征进行加法运算,得到所述中间层第二网络单元块的输出特征;将所述中间层第二网络单元块的输出特征作为下一层第二网络单元块的输入。
37.根据权利要求36所述的装置,其特征在于,所述中间层第二网络单元块,还用于在对所述输入的内容特征和上一层第二网络单元块的输出特征进行乘法运算前,对接收的内容特征进行卷积运算。
38.根据权利要求33至37任一项所述的装置,其特征在于,所述各所述第二网络单元块中的末层第二网络单元块,用于将来自首层第一网络单元块的内容特征和上一层第二网络单元块的输出特征进行乘法运算,得到所述末层第二网络单元块的中间特征;将所述来自首层第一网络单元块的内容特征与所述末层第二网络单元块的中间特征进行加法运算,得到所述生成图像。
39.根据权利要求38所述的装置,其特征在于,所述末层第二网络单元块,还用于在对所述来自首层第一网络单元块的内容特征和上一层第二网络单元块的输出特征进行乘法运算前,对所述来自首层第一网络单元块的内容特征进行卷积运算。
40.根据权利要求33至39任一项所述的装置,其特征在于,所述调整模块,用于调整所述乘法运算参数和/或加法运算参数。
41.根据权利要求33至40任一项所述的装置,其特征在于,所述调整模块,用于根据所述内容图像、所述风格图像、所述生成图像和所述鉴别结果,确定生成对抗网络损失;响应于所述生成对抗网络损失不满足预定条件的情况,根据所述生成对抗网络损失,调整所述第一神经网络和/或所述第二神经网络的网络参数;其中,所述生成对抗网络损失用于表征所述生成图像与所述内容图像的内容特征差异、以及所述生成图像与所述风格图像的风格特征差异。
42.根据权利要求41所述的装置,其特征在于,所述调整模块,还用于根据所述生成图像与所述风格图像,确定风格损失;响应于所述风格损失不满足预定条件的情况,根据所述风格损失,调整所述第一神经网络和/或所述第二神经网络的网络参数;其中,所述风格损失用于表征所述生成图像与所述风格图像的风格特征的差异。
43.根据权利要求41或42所述的装置,其特征在于,所述调整模块,还用于根据所述生成图像与所述内容图像,确定内容损失;响应于所述内容损失不满足预定条件的情况,根据所述内容损失,调整所述第一神经网络和/或所述第二神经网络的网络参数;其中,所述内容损失用于表征所述生成图像与所述内容图像的内容特征差异。
44.根据权利要求41至43任一项所述的装置,其特征在于,所述调整模块,还用于根据各所述第二网络单元块中的各中间层第二网络单元块的输出特征、以及风格图像,确定特征匹配损失;
响应于所述特征匹配损失不满足预定条件的情况,根据所述特征匹配损失,调整所述第一神经网络和/或所述第二神经网络的网络参数;其中,所述特征匹配损失用于表征所述各中间层第二网络单元块的输出特征与所述风格图像的风格特征的差异。
45.根据权利要求33至44任一项所述的装置,其特征在于,所述第四提取模块,用于提取所述风格图像分布的特征;对所述风格图像分布的特征进行采样,得到所述风格特征,所述风格特征包括所述风格图像分布的特征的均值和标准差。
46.根据权利要求33至45任一项所述的装置,其特征在于,所述第一网络单元块,用于基于所述第一网络单元块中以残差结构组织的多个神经网络层提取内容图像的内容特征;和/或,
所述第二网络单元块,用于基于所述第二网络单元块中以残差结构组织的多个神经网络层对输入到所述第二网络单元的特征进行处理。
47.一种电子设备,其特征在于,包括处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
所述处理器用于运行所述计算机程序时,执行权利要求1至9任一项所述的图像生成方法或权利要求10至23任一项所述的神经网络训练方法。
48.一种计算机存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至9任一项所述的图像生成方法或权利要求10至23任一项所述的神经网络训练方法。
CN201910551145.3A 2019-06-24 2019-06-24 图像生成和神经网络训练方法、装置、设备和介质 Active CN112132167B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201910551145.3A CN112132167B (zh) 2019-06-24 2019-06-24 图像生成和神经网络训练方法、装置、设备和介质
PCT/CN2020/076835 WO2020258902A1 (zh) 2019-06-24 2020-02-26 图像生成和神经网络训练方法、装置、设备和介质
JP2021532473A JP2022512340A (ja) 2019-06-24 2020-02-26 画像生成及びニューラルネットワーク訓練方法、装置、機器並びに媒体
KR1020217017354A KR20210088656A (ko) 2019-06-24 2020-02-26 이미지 생성 및 신경망 트레이닝 방법, 장치, 기기 및 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910551145.3A CN112132167B (zh) 2019-06-24 2019-06-24 图像生成和神经网络训练方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN112132167A CN112132167A (zh) 2020-12-25
CN112132167B true CN112132167B (zh) 2024-04-16

Family

ID=73850015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910551145.3A Active CN112132167B (zh) 2019-06-24 2019-06-24 图像生成和神经网络训练方法、装置、设备和介质

Country Status (4)

Country Link
JP (1) JP2022512340A (zh)
KR (1) KR20210088656A (zh)
CN (1) CN112132167B (zh)
WO (1) WO2020258902A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733946B (zh) * 2021-01-14 2023-09-19 北京市商汤科技开发有限公司 一种训练样本的生成方法、装置、电子设备及存储介质
CN113255813B (zh) * 2021-06-02 2022-12-02 北京理工大学 一种基于特征融合的多风格图像生成方法
KR20230137732A (ko) * 2022-03-22 2023-10-05 삼성전자주식회사 사용자 선호 콘텐트를 생성하는 전자 장치 및 그 동작 방법
KR102490503B1 (ko) 2022-07-12 2023-01-19 프로메디우스 주식회사 순환형 적대적 생성 신경망을 이용한 이미지 처리 장치 및 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108205813A (zh) * 2016-12-16 2018-06-26 微软技术许可有限责任公司 基于学习网络的图像风格化
CN109766895A (zh) * 2019-01-03 2019-05-17 京东方科技集团股份有限公司 用于图像风格迁移的卷积神经网络的训练方法和图像风格迁移方法
CN109840924A (zh) * 2018-12-28 2019-06-04 浙江工业大学 一种基于串联对抗网络的产品图像快速生成方法
CN109919828A (zh) * 2019-01-16 2019-06-21 中德(珠海)人工智能研究院有限公司 一种判断3d模型之间差异的方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3507773A1 (en) * 2016-09-02 2019-07-10 Artomatix Ltd. Systems and methods for providing convolutional neural network based image synthesis using stable and controllable parametric models, a multiscale synthesis framework and novel network architectures
JP2018132855A (ja) * 2017-02-14 2018-08-23 国立大学法人電気通信大学 画像スタイル変換装置、画像スタイル変換方法および画像スタイル変換プログラム
CN108205803B (zh) * 2017-07-19 2020-12-25 北京市商汤科技开发有限公司 图像处理方法、神经网络模型的训练方法及装置
GB201800811D0 (en) * 2018-01-18 2018-03-07 Univ Oxford Innovation Ltd Localising a vehicle
CN109919829B (zh) * 2019-01-17 2023-12-26 北京达佳互联信息技术有限公司 图像风格迁移方法、装置和计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108205813A (zh) * 2016-12-16 2018-06-26 微软技术许可有限责任公司 基于学习网络的图像风格化
CN109840924A (zh) * 2018-12-28 2019-06-04 浙江工业大学 一种基于串联对抗网络的产品图像快速生成方法
CN109766895A (zh) * 2019-01-03 2019-05-17 京东方科技集团股份有限公司 用于图像风格迁移的卷积神经网络的训练方法和图像风格迁移方法
CN109919828A (zh) * 2019-01-16 2019-06-21 中德(珠海)人工智能研究院有限公司 一种判断3d模型之间差异的方法

Also Published As

Publication number Publication date
CN112132167A (zh) 2020-12-25
JP2022512340A (ja) 2022-02-03
KR20210088656A (ko) 2021-07-14
WO2020258902A1 (zh) 2020-12-30

Similar Documents

Publication Publication Date Title
CN112132167B (zh) 图像生成和神经网络训练方法、装置、设备和介质
CN113056769A (zh) 利用软交叉熵损失的语义分段
US20120251003A1 (en) Image processing system and method
CN110023989B (zh) 一种素描图像的生成方法及装置
CN108021908B (zh) 人脸年龄段识别方法及装置、计算机装置及可读存储介质
CN106295645B (zh) 一种车牌字符识别方法和装置
CN110363297A (zh) 神经网络训练及图像处理方法、装置、设备和介质
CN111223057B (zh) 基于生成对抗网络的增量式聚焦的图像到图像转换方法
CN114418030B (zh) 图像分类方法、图像分类模型的训练方法及装置
CN110555527A (zh) 延时摄影视频的生成方法及设备
CN108197669B (zh) 卷积神经网络的特征训练方法及装置
CN111598182A (zh) 训练神经网络及图像识别的方法、装置、设备及介质
CN110827297A (zh) 基于改进的条件生成对抗网络的绝缘子分割方法
CN109598301B (zh) 检测区域去除方法、装置、终端和存储介质
CN112581462A (zh) 工业产品的外观缺陷检测方法、装置及存储介质
CN109766918B (zh) 基于多层次上下文信息融合的显著性物体检测方法
CN111340785A (zh) 模型训练方法、产品表面缺陷检测方法和存储介质
CN114742985A (zh) 一种高光谱特征提取方法、装置及存储介质
CN112598062A (zh) 一种图像识别方法和装置
CN112149526A (zh) 一种基于长距离信息融合的车道线检测方法及系统
JP2019197445A (ja) 画像認識装置、画像認識方法、およびプログラム
KR102630844B1 (ko) 인공지능 카메라 시스템, 인공지능 카메라 시스템에서의 영상 변환 방법, 및 컴퓨터 판독 가능 매체
CN114565693A (zh) 图像生成和神经网络训练方法、装置、设备及介质
CN114429192A (zh) 一种图像匹配方法、装置和电子设备
WO2020179200A1 (ja) 情報処理方法及び情報処理システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant