CN110414593B - 图像处理方法及装置、处理器、电子设备及存储介质 - Google Patents

图像处理方法及装置、处理器、电子设备及存储介质 Download PDF

Info

Publication number
CN110414593B
CN110414593B CN201910673283.9A CN201910673283A CN110414593B CN 110414593 B CN110414593 B CN 110414593B CN 201910673283 A CN201910673283 A CN 201910673283A CN 110414593 B CN110414593 B CN 110414593B
Authority
CN
China
Prior art keywords
image
semantic
processing
target
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910673283.9A
Other languages
English (en)
Other versions
CN110414593A (zh
Inventor
刘希慧
殷国君
邵婧
王晓刚
李鸿升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN201910673283.9A priority Critical patent/CN110414593B/zh
Publication of CN110414593A publication Critical patent/CN110414593A/zh
Application granted granted Critical
Publication of CN110414593B publication Critical patent/CN110414593B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本公开公开了一种图像处理方法及装置。该方法包括:获取语义标签图像和噪声图像;对所述语义标签图像进行特征提取处理,得到至少一个语义特征数据;将所述至少一个语义特征数据作为卷积参数,对所述噪声图像进行至少一级目标处理得到目标图像;所述目标处理包括:卷积处理。还公开了相应的装置。以实现基于噪声图像和语义标签图像生成目标图像。

Description

图像处理方法及装置、处理器、电子设备及存储介质
技术领域
本公开涉及图像处理技术领域,尤其涉及一种图像处理方法及装置、处理器、电子设备及存储介质。
背景技术
将语义标签图像应用到基于噪声图像生成图像的过程中,可以通过仿射变换的方式,生成一幅与语义标签图像中描述的语义相符合的图像。其中,语义标签图像中不同区域的语义信息可决定最终生成的图像中相应区域的图像内容,噪声图像则将影响最终生成的图像中不同区域的图像内容的属性,比如颜色等。但是,当语义标签图像中包含的物体的数量和种类较多,或背景内容较复杂时,生成的图像的内容与语义标签图像的相符度较低。
发明内容
本公开提供一种图像处理方法及装置、处理器、电子设备及存储介质。
第一方面,提供了一种图像处理方法,所述方法包括:获取语义标签图像和噪声图像;对所述语义标签图像进行特征提取处理,得到至少一个语义特征数据;将所述至少一个语义特征数据作为卷积参数,对所述噪声图像进行至少一级目标处理得到目标图像;所述目标处理包括:卷积处理。
在该方面中,通过对语义标签图像进行特征处理得到至少一个语义特征数据,并将至少一个语义特征数据作为卷积参数对噪声图像进行卷积处理,可更好的利用语义标签图像中的语义信息生成目标图像。
在一种可能实现的方式中,所述对所述语义标签图像进行特征提取处理,得到至少一个语义特征数据,包括:对所述语义标签图像进行n级下采样处理,得到中间特征数据;对所述中间特征数据进行m级上采样处理,得到所述至少一个语义特征数据;其中,所述m级中第i级上采样处理的输出数据和所述n级中第j级下采样处理的输入数据之间的融合数据,作为所述m级中第i+1级上采样处理的输入数据;所述第i级上采样处理的输出数据和所述第j级下采样处理的输入数据之间的尺寸相同;n为正整数,m为正整数,j为小于或等于n的正整数,i为小于m的任一正整数。
在该种可能实现的方式中,通过对语义标签图像进行n级下采样处理和m级上采样处理得到至少一个语义特征数据,以更准确地提取出语义标签图像中每个像素点的邻域的语义信息以及整张语义图像的语义信息。通过将下采样特征数据与上采样特征数据融合的方式,可获得全局上下文感知的语义特征数据,丰富语义特征数据中的边缘信息和纹理信息。
在另一种可能实现的方式中,所述语义特征数据有多个;其中,所述第i级上采样处理的输出数据与所述第j级下采样处理的输入数据之间的融合数据,作为第i个语义特征数据。
在该种可能实现的方式中,通过将第i级上采样处理得到的特征数据与第j级下采样处理的输入数据进行融合,丰富第i个语义特征数据中的纹理信息和边缘信息。
在又一种可能实现的方式中,所述语义特征数据有一个;其中,第m级上采样处理的输出数据与所述语义标签图像之间的融合数据,作为语义特征数据。
在该种可能实现的方式中,在语义特征数据只有一个的情况下,将m级上采样处理得到的特征数据与语义标签图像进行融合,丰富语义特征数据中的纹理信息和边缘信息。
在又一种可能实现的方式中,在所述语义特征数据有多个的情况下,所述将所述至少一个语义特征数据作为卷积参数,对所述噪声图像进行至少一级目标处理得到目标图像,包括:对所述噪声图像进行k级目标处理得到目标图像;其中,所述k级中第l级目标处理的过程,包括:将多个语义特征数据中第l个语义特征数据作为所述第l级目标处理的卷积参数,使用所述第l级目标处理的卷积参数对所述噪声图像进行所述第l级目标处理;其中,k为正整数,l为不大于k的正整数。
在该种可能实现的方式中,通过将语义特征数据作为每一级卷积处理的卷积参数,使用卷积参数对噪声图像进行至少一级目标处理可更好的将语义特征数据中的特征信息融入于目标图像中,提升目标图像中的内容与语义标签图像的匹配度。
在又一种可能实现的方式中,在所述语义特征数据有一个的情况下,所述将所述至少一个语义特征数据作为卷积参数,对所述噪声图像进行至少一级目标处理得到目标图像,包括:将一个语义特征数据分别作为每级目标处理的卷积参数,使用所述每级目标处理的卷积参数,对所述噪声图像进行k级目标处理得到目标图像。
在该种可能实现的方式中,在语义特征数据只有一个的情况下,将该语义特征数据作为每一级目标处理的卷积参数,通过对噪声图像进行至少一级目标处理可更好的将语义特征数据中的特征信息融入于目标图像中,提升目标图像中的内容与语义标签图像的匹配度。
在又一种可能实现的方式中,所述将所述至少一个语义特征数据作为卷积参数,对所述噪声图像进行至少一级目标处理得到目标图像,包括:将所述至少一个语义特征数据作为卷积参数,对所述噪声图像进行k级目标处理,得到目标处理的输出数据;基于所述目标处理的输出数据,确定所述目标图像;其中,所述k级中第l级目标处理的过程,包括:使用所述卷积参数对所述第l级目标处理的输入数据进行卷积处理得到第一特征数据;使用第一预设卷积核对所述第一特征数据进行卷积处理,得到第二特征数据;基于所述第二特征数据,确定所述第l级目标处理的输出数据,并将所述第l级目标处理的输出数据作为第l+1级目标处理的输入数据;其中,k为正整数,l为小于k的正整数。
在该种可能实现的方式中,通过将语义特征数据作为第l级目标处理的卷积参数对第l级目标处理的输入数据进行卷积处理得到第一特征数据,并使用第一预设卷积核对第一特征数据进行卷积处理,完成对第1级目标处理的输入数据一次完整的卷积处理(即相当于使用语义特征数据对第1级目标处理的输入数据直接进行卷积处理)。这样处理时所需处理的参数的数量比一次完整的卷积处理时所需处理的参数的数量少。因此通过该种可能实现方式的处理方式对第1级目标处理的输入数据进行处理可减小对噪声图像进行k级目标处理所需的计算资源和存储空间,并可减小对噪声图像进行k级目标处理的过程中出现过拟合的概率。
在又一种可能实现的方式中,所述基于所述第二特征数据,确定所述第l级目标处理的输出数据,包括:对所述语义特征数据中的第一元素和所述第二特征数据中的第二元素进行处理,确定第三特征数据,所述第一元素在所述语义特征数据中的位置与所述第二元素在所述第二特征数据中的位置相同;基于第二预设卷积核和所述第三特征数据,确定第四特征数据;将所述第四特征数据和所述第l级目标处理的输入数据进行融合,得到所述第l级目标处理的输出数据。
在该种可能实现的方式中,通过对语义特征数据与第三特征数据中的相同位置的元素进行处理,可使相乘后得到的第三特征数据中重要信息(有利于提升目标图像的质量的信息)与次要信息(对提升目标图像的质量的作用不大的信息)的差异化就更明显,有利于提升后续基于第三特征数据得到的目标图像的质量。
在又一种可能实现的方式中,所述基于所述目标处理的输出数据,确定所述目标图像,包括:在得到每级目标处理的输出数据之后,对所述每级目标处理的输出数据进行上采样处理;在对第k级目标处理的输出数据进行上采样处理后,得到所述目标图像。
在该种可能实现的方式中,通过对目标处理的输出数据进行上采样处理,增大目标处理的输出数据的尺寸,最终对第k级目标处理的输出数据进行上采样处理得到目标尺寸的目标图像。
在又一种可能实现的方式中,所述方法应用于生成网络中,所述生成网络包括权重预测子网络和生成子网络;其中,通过所述权重预测子网络对所述语义标签图像进行所述特征提取处理,得到所述语义特征数据;通过所述生成子网络将所述语义特征数据作为目标卷积核的参数,并使用所述目标卷积核对所述噪声图像进行所述目标处理得到所述目标图像。
在该种可能实现的方式中,可以利用该生成网络中的权重预测子网络和生成子网络,分别完成预测卷积参数,以及利用预测的卷积参数对噪声图像进行处理的过程,以得到目标图像。
在又一种可能实现的方式中,所述生成网络属于生成对抗网络,所述生成对抗网络还包括鉴别子网络;所述方法还包括:通过所述鉴别子网络预测输入至所述鉴别子网络的所述目标图像和/或所述真实图像是所述生成子网络输出的图像的预测概率;通过所述鉴别子网络确定输入至所述鉴别子网络的所述目标图像和/或所述真实图像与所述语义标签图像之间的语义对齐度;根据所述预测概率和所述语义对齐度,确定网络损失;基于所述网络损失调整所述生成对抗网络的参数。
在该种可能实现的方式中,在训练阶段可以应用生成对抗网络,其中生成对抗网络包括生成网络和鉴别子网络,其中鉴别子网络可以结合预测概率和语义对齐度来确定网络损失,可提升权重预测子网络和生成子网络基于语义标签图像和噪声图像得到的生成图像的质量。
在又一种可能实现的方式中,所述根据所述预测概率和所述语义对齐度,确定网络损失,包括:基于所述预测概率,确定第一评分,所述第一评分与所述目标图像是所述真实图像的概率呈负相关;基于所述语义对齐度,确定第二评分,所述第二评分与所述语义对齐度呈正相关;根据所述第一评分和所述第二评分,确定所述网络损失。
在该种可能实现的方式中,根据预测概率确定第一评分,并根据语义对齐度确定第二评分,在根据第一评分和第二评分确定网络损失,可在基于该网络损失调整生成对抗网络的参数时,使调整参数后得到的生成网络生成的目标图像更接近于真实图像(即不易被鉴别子网络识别出为生成图像生成的图像),且可提高生成网络生成的目标图像与语义标签图像的语义对齐度。
在又一种可能实现的方式中,所述通过所述鉴别子网络确定输入至所述鉴别子网络的所述目标图像与所述语义标签图像之间的语义对齐度,包括:对输入至所述鉴别子网络的所述目标图像进行特征提取处理,得到目标特征数据;对所述语义标签图像进行特征提取处理,得到语义标签特征数据;对所述目标特征数据中的第三元素与所述语义标签特征数据中的第四元素进行比较,得到所述语义对齐度;所述第三元素在所述目标特征数据中位置与所述第四元素在所述语义标签特征数据中的位置相同。
在该种可能实现的方式中,通过对目标特征数据与语义标签特征数据中相同位置的元素进行比较,可提高得到的语义对齐度的精度。
在又一种可能实现的方式中,所述获取语义标签图像,包括:接收用户在待处理图像中添加的语义标签,得到语义标签图像。
在该种可能实现的方式中,通过将用户在待处理图像中添加语义标签后得到的图像作为语义标签图像,再结合第一方面,可实现更改任意一张待处理图像的内容。
第二方面,提供了一种图像处理装置,所述装置包括:获取单元,用于获取语义标签图像和噪声图像;特征提取处理单元,用于对所述语义标签图像进行特征提取处理,得到至少一个语义特征数据;目标处理单元,用于将所述至少一个语义特征数据作为卷积参数,对所述噪声图像进行至少一级目标处理得到目标图像;所述目标处理包括:卷积处理。
在一种可能实现的方式中,所述特征提取处理单元具体用于:对所述语义标签图像进行n级下采样处理,得到中间特征数据;对所述中间特征数据进行m级上采样处理,得到所述至少一个语义特征数据;其中,所述m级中第i级上采样处理的输出数据和所述n级中第j级下采样处理的输入数据之间的融合数据,作为所述m级中第i+1级上采样处理的输入数据;所述第i级上采样处理的输出数据和所述第j级下采样处理的输入数据之间的尺寸相同;n为正整数,m为正整数,j为小于或等于n的正整数,i为小于m的任一正整数。
在另一种可能实现的方式中,所述语义特征数据有多个;其中,所述第i级上采样处理的输出数据与所述第j级下采样处理的输入数据之间的融合数据,作为第i个语义特征数据。
在又一种可能实现的方式中,所述语义特征数据有一个;其中,第m级上采样处理的输出数据与所述语义标签图像之间的融合数据,作为语义特征数据。
在又一种可能实现的方式中,在所述语义特征数据有多个的情况下,所述目标处理单元具体用于:对所述噪声图像进行k级目标处理得到目标图像;其中,所述k级中第l级目标处理的过程,包括:将多个语义特征数据中第l个语义特征数据作为所述第l级目标处理的卷积参数,使用所述第l级目标处理的卷积参数对所述噪声图像进行所述第l级目标处理;其中,k为正整数,l为不大于k的正整数。
在又一种可能实现的方式中,在所述语义特征数据有一个的情况下,所述目标处理单元具体用于:将一个语义特征数据分别作为每级目标处理的卷积参数,使用所述每级目标处理的卷积参数,对所述噪声图像进行k级目标处理得到目标图像。
在又一种可能实现的方式中,所述目标处理单元具体用于:将所述至少一个语义特征数据作为卷积参数,对所述噪声图像进行k级目标处理,得到目标处理的输出数据;基于所述目标处理的输出数据,确定所述目标图像;其中,所述k级中第l级目标处理的过程,包括:使用所述卷积参数对所述第l级目标处理的输入数据进行卷积处理得到第一特征数据;使用第一预设卷积核对所述第一特征数据进行卷积处理,得到第二特征数据;基于所述第二特征数据,确定所述第l级目标处理的输出数据,并将所述第l级目标处理的输出数据作为第l+1级目标处理的输入数据;其中,k为正整数,l为小于k的正整数。
在又一种可能实现的方式中,所述目标处理单元具体用于:对所述语义特征数据中的第一元素和所述第二特征数据中的第二元素进行处理,确定第三特征数据,所述第一元素在所述语义特征数据中的位置与所述第二元素在所述第二特征数据中的位置相同;基于第二预设卷积核和所述第三特征数据,确定第四特征数据;将所述第四特征数据和所述第l级目标处理的输入数据进行融合,得到所述第l级目标处理的输出数据。
在又一种可能实现的方式中,所述目标处理单元具体用于:在得到每级目标处理的输出数据之后,对所述每级目标处理的输出数据进行上采样处理;在对第k级目标处理的输出数据进行上采样处理后,得到所述目标图像。
在又一种可能实现的方式中,所述装置执行的图像处理方法应用于生成网络中,所述生成网络包括权重预测子网络和生成子网络;所述特征提取处理单元用于实现所述权重预测子网络的功能,所述目标处理单元用于实现所述生成子网络的功能;其中,通过所述权重预测子网络对所述语义标签图像进行所述特征提取处理,得到所述语义特征数据;通过所述生成子网络将所述语义特征数据作为目标卷积核的参数,并使用所述目标卷积核对所述噪声图像进行所述目标处理得到所述目标图像。
在又一种可能实现的方式中,所述生成网络属于生成对抗网络,所述生成对抗网络还包括鉴别子网络;所述装置还包括:鉴别单元,所述鉴别单元用于实现所述鉴别子网络的功能;通过所述鉴别子网络预测输入至所述鉴别子网络的所述目标图像和/或所述真实图像是所述生成子网络输出的图像的预测概率;通过所述鉴别子网络确定输入至所述鉴别子网络的所述目标图像和/或所述真实图像与所述语义标签图像之间的语义对齐度;根据所述预测概率和所述语义对齐度,确定网络损失;基于所述网络损失调整所述生成对抗网络的参数。
在又一种可能实现的方式中,所述鉴别单元具体用于:基于所述预测概率,确定第一评分,所述第一评分与所述目标图像是所述生成子网络输出的图像的概率呈负相关;基于所述语义对齐度,确定第二评分,所述第二评分与所述语义对齐度呈正相关;根据所述第一评分和所述第二评分,确定所述网络损失。
在又一种可能实现的方式中,所述鉴别单元具体用于:对输入至所述鉴别子网络的所述目标图像进行特征提取处理,得到目标特征数据;对所述语义标签图像进行特征提取处理,得到语义标签特征数据;对所述目标特征数据中的第三元素与所述语义标签特征数据中的第四元素进行比较,得到所述语义对齐度;所述第三元素在所述目标特征数据中位置与所述第四元素在所述语义标签特征数据中的位置相同。
在又一种可能实现的方式中,所述获取单元具体用于:接收用户在待处理图像中添加的语义标签,得到语义标签图像。
第三方面,提供了一种处理器,所述处理器用于执行上述第一方面及其任一种可能的实现方式的方法。
第四方面,提供了一种电子设备,包括:处理器、输入装置、输出装置和存储器,所述处理器、输入装置、输出装置和存储器相互连接,所述存储器中存储有程序指令;所述程序指令被所述处理器执行时,使所述处理器执行上述第一方面及其任一种可能的实现方式的方法。
第五方面,提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被电子设备的处理器执行时,使所述处理器执行上述第一方面及其任一种可能的实现方式的方法。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。
附图说明
为了更清楚地说明本公开实施例或背景技术中的技术方案,下面将对本公开实施例或背景技术中所需要使用的附图进行说明。
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。
图1为本公开实施例提供的一种相同位置的元素的示意图;
图2为本公开实施例提供的一种图像处理方法的流程示意图;
图3为本公开实施例提供的一种语义标签图像的示意图;
图4为本公开实施例提供的一种下采样层和上采样层的结构示意图;
图5为本公开实施例提供的另一种图像处理方法的流程示意图;
图6为本公开实施例提供的另一种图像处理方法的流程示意图;
图7为本公开实施例提供的一种生成对抗网络的结构示意图;
图8为本公开实施例提供的一种生成网络的结构示意图;
图9为本公开实施例提供的一种条件卷积模块的结构示意图;
图10为本公开实施例提供的另一种语义标签图像的示意图;
图11为本公开实施例提供的另一种语义标签图像的示意图;
图12为本公开实施例提供的一种图像处理装置的结构示意图;
图13为本公开实施例提供的一种图像处理装置的硬件结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本公开方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本公开的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本公开实施例中,将大量出现“相同位置”这个词,两张图像(或两个数据)中相同位置的元素可参见图1,如图1所示,元素a在图像A中的位置与元素j在图像B中的位置相同,元素b在图像A中的位置与元素k在图像B中的位置相同,元素c在图像A中的位置与元素l在图像B中的位置相同,元素d在图像A中的位置与元素m在图像B中的位置相同,元素e在图像A中的位置与元素n在图像B中的位置相同,元素f在图像A中的位置与元素o在图像B中的位置相同,元素g在图像A中的位置与元素p在图像B中的位置相同,元素h在图像A中的位置与元素q在图像B中的位置相同,元素i在图像A中的位置与元素r在图像B中的位置相同。
下面结合本公开实施例中的附图对本公开实施例进行描述。
请参阅图2,图2是本公开实施例(一)提供的一种图像处理方法的流程示意图。
201、获取语义标签图像和噪声图像。
本公开实施例中,语义标签图像即为对图像内的不同区域按类别进行区分的图像。例如,如图3所示,语义标签图像包含“1”、“2”、“3”这三个标签,且这三个标签的含义分别为:“1”表征图像内容为湖、“2”表征图像内容为山、“3”表征图像内容为天空。对应于上述三个标签,语义标签图像中包含3个区域,分别为1号区域、2号区域、3号区域,其中,1号区域的像素表征的图像内容为湖、2号区域的像素表征的图像内容为山、3号区域的像素表征的图像内容为天空。
本公开实施例中,噪声图像可影响基于语义标签图像得到的目标图像中不同区域的图像内容的属性,其中,属性包括以下一种或多种:颜色、种类、形状。例如,图2中的标签“2”表征图像内容为山,但山的颜色并没有确定,而通过噪声图像可确定山的颜色为褐色。
需要理解的是,噪声图像是随机产生的,也就是说目标图像中的内容的属性也是随机的。例如,假定随机产生的噪声图像a可将目标图像中的内容的颜色调整为红色,则基于噪声图像a与任意语义标签图像生成的目标图像中的内容(如物体)的颜色为红色。
获取语义标签图像和/或噪声图像的方式可以是接收用户通过输入组件输入的语义标签图像和/或噪声图像,其中,输入组件包括:键盘、鼠标、触控屏、触控板和音频输入器等。也可以是接收终端发送的语义标签图像和/或噪声图像,其中,终端包括手机、计算机、平板电脑、服务器等。本公开对获取语义标签图像和噪声图像的方式不做限定。
202、对语义标签图像进行特征提取处理,得到至少一个语义特征数据。
本公开实施例中,特征提取处理可以是下采样处理,也可以是下采样处理和上采样处理的结合。其中,下采样处理可以是卷积处理、池化处理,上采样处理可以是邻近点插值处理、双线性差值处理、反卷积处理。
在一种可能实现的方式中,依次通过多层下采样层对语义标签图像进行逐级下采样处理,再通过多层上采样层对下采样处理后的数据进行逐级上采样处理,得到至少一个语义特征数据。
由于经过每一层下采样层或每一层上采样层的处理后都将得到一个特征数据,因此在只有一层上采样层或只有一层下采样层的情况下,得到的语义特征数据只有一个,在上采样层和下采样层有多层的情况下,得到的语义特征数据就有多个。即每一层下采样层或每一层上采样层输出一个语义特征数据,本公开实施例中的语义特征数据的数量是一个或多个。
经过下采样层的处理后,特征数据的尺寸会变小,而经过上采样层的处理后,特征数据的尺寸会变大。示例性的,如图4所示,在上述可能实现的方式中,可将下采样层的数量与上采样层的数量设为相同,且第一层下采样层输出的特征数据的尺寸与第三层上采样层输出的特征数据的尺寸相同,第二层下采样层输出的特征数据的尺寸与第二层上采样层输出的特征数据的尺寸相同,第三层下采样层输出的特征数据的尺寸与第一层上采样层输出的特征数据的尺寸相同。
由于在对语义标签图像进行下采样处理时,会丢弃掉一些相对次要的特征信息,但进行下采样处理前的数据中保留有这些次要的特征信息,所以可通过在上采样处理时将下采样层输出的下采样特征数据与上采样层输出的尺寸相同的上采样特征数据进行融合得到语义特征数据,以丰富语义特征数据中的纹理信息和边缘信息。
其中,上述相对次要的特征信息指图像全局特征信息,用于描述图像中物体的表面性质,不能完全反映出图像中物体的属性,如:颜色特征信息、纹理特征信息、边缘特征信息。示例性的,上述融合可以是相加。
需要理解的是,图4中的下采样层的数量和上采样层的数量仅是本实施例提供一个示例,不应对本公开构成限定。
203、将至少一个语义特征数据作为卷积参数,对噪声图像进行至少一级目标处理得到目标图像。
本公开实施例中,目标处理包括卷积处理。将202得到的至少一个语义特征数据作为卷积参数,可得到用于进行目标处理的卷积核。在一种可能实现的方式中,可直接将每个语义特征数据分别作为一个卷积参数,得到至少一个进行目标处理的卷积核。在另一种可能实现的方式中,可分别对每个语义特征数据进行预定处理,得到至少一个进行目标处理的卷积核,示例性的,上述预定处理包括将语义特征数据与预设值相乘等。
使用进行目标处理的卷积核对噪声图像进行至少一级卷积处理,可更好的将语义标签图像中的语义信息应用到生成图像中,使生成的图像(即目标图像)的质量更高。其中,图像的质量指目标图像中的内容与语义标签图像中的内容相符,且目标图像中的边缘信息和纹理信息丰富。
图像的质量指生成的图像中的内容与语义标签图像中的内容相符可参见下例:如图2所示,1号区域表征的图像内容为湖,那么基于图2所示的语义标签图像生成的图像中的目标区域的图像内容即为湖,其中,目标区域在生成的图像中的范围与1号区域在图2所示的语义标签图像中的范围相同。
若202得到的语义特征数据的数量是多个,可使用通过多个语义特征数据得到的多个卷积核对噪声图像进行逐级卷积处理,得到目标图像。即按得到语义特征数据的先后顺序对多个语义特征数据进行排序,再按排序后的顺序依次使用语义特征数据作为卷积参数对噪声图像进行卷积处理。
举例来说,假定202得到的语义特征数据有3个,分别为第一语义特征数据、第二语义特征数据、第三语义特征数据,按得到语义特征数据的先后顺序将3个语义特征数据排序得到次序为:第一语义特征数据、第二语义特征数据、第三语义特征数据,且这3个特征数据的通道数与噪声图像的通道数相同。首先将第一语义特征数据作为卷积核对噪声图像进行卷积处理,得到第一中间特征数据,然后将第二语义特征数据作为卷积核对第一中间特征数据进行卷积处理,得到第二中间特征数据,最后将第三语义特征数据作为卷积核对第二中间特征数据进行卷积处理,得到目标图像。
本实施例通过对语义标签图像进行逐级下采样处理和逐级上采样处理得到语义特征数据,可提取出语义标签图像中每个像素点的邻域的语义信息以及整张语义标签图像的语义信息。通过将下采样处理得到的特征数据与上采样处理得到的特征数据融合,可丰富语义特征数据中的边缘信息和纹理信息。将至少一个语义特征数据作为卷积参数,对噪声图像进行至少一级目标处理,则可利用每个语义特征数据包含的每个像素点的邻域的语义信息以及整张语义标签图像的语义信息生成复杂场景下的目标图像(复杂场景下的目标图像指目标图像中包含的物体的数量、种类较多,且物体的形状、轮廓复杂),且可丰富目标图像中的纹理信息和边缘信息。
请参阅图5,图5是本公开实施例(二)提供的实施例(一)中的202的一种可能实现的方式的流程示意图。
501、对语义标签图像进行n级下采样处理,得到中间特征数据。
本实施例中,对语义标签图像进行特征提取处理通过n层下采样层对语义标签图像进行逐级下采样处理实现。其中,每一层下采样层进行一级下采样处理,且n层下采样层依次串联,即第1层下采样层的输出数据为第2层下采样层的输入数据,第2层下采样层的输出数据为第3层下采样层的输入数据,…,第n-1层下采样层的输出数据为第n层下采样层的输入数据,第n层下采样层的输出数据为中间特征数据。其中,n为正整数。示例性的,n为3。
上述下采样层可以通过多种方式实现,例如卷积、池化等,本实施例对此不做限定。
在一种可能实现的方式中,下采样层包括多层串联的卷积层,且每个卷积层提取出的特征信息及语义信息均不一样。具体表现为,通过多层卷积层的卷积处理一步步将语义标签图像中的特征抽象出来,同时也将逐步去除相对次要的特征信息,因此,越到后面提取出的特征数据的尺寸越小,特征数据中的特征信息和语义信息就越浓缩。通过多层卷积层逐级对语义标签图像进行卷积处理,可在获得语义图像语义标签图像中的特征信息的同时,将语义标签图像的尺寸缩小,减小系统的计算量,提高系统的运算速度。示例性的,这多层卷积层中的卷积核的尺寸均为3*3,下采样层中的卷积层的数量为2,卷积处理的步长为2。
在另一些可能的实现方式中,下采样层包括用于池化处理的池化层,通过池化层对语义标签图像进行池化处理可将语义标签图像的分辨率缩小并减少采样点,这样后续从语义标签图像中提取出的特征数据的尺寸能更小,同时能大大减小后续处理的计算量。池化处理可以为平均池化或者最大池化。在一个具体实现例子中,假设语义标签图像的尺寸为h*w,其中,h和w分别表示语义标签图像的长和宽。当需要得到的特征数据的目标尺寸为H*W(H为长,W为宽)时,可将该语义标签图像划分成H*W个格子,这样,每一个格子的尺寸为(h/H)*(w/W),然后计算每一个格子中像素的平均值或最大值,即可得到获得目标尺寸的特征数据。
502、对中间特征数据进行m级上采样处理,得到至少一个语义特征数据。
上采样是下采样的逆过程,通过m层上采样层对中间特征数据进行逐级上采样处理,逐级放大中间特征数据的尺寸,得到至少一个语义特征数据。其中,每一层上采样层进行一级上采样处理,且m层上采样层依次串联,基于上一层上采样处理的输出数据可确定下一层上采样处理的输入数据。即基于第1层上采样层的输出数据可确定第2层上采样层的输入数据,基于第2层上采样层的输出数据可确定第3层上采样层的输入数据,…,基于第m-1层上采样层的输出数据可确定第m层上采样层的输入数据。每一层上采样层的输出数据均可作为语义特征数据,通过m层上采样层的处理可获得m个语义特征数据,其中,m为正整数。示例性的,m等于n。
上述上采样层可以包括最邻近插值处理,双线性插值处理,反卷积处理等处理,本公开对上采样处理的具体实现方式不做限定。
如202所述,通过下采样层对语义标签图像进行下采样处理从语义标签图像中逐步提取出特征信息的同时,也将丢弃掉语义标签图像中一些相对次要的特征信息,这些相对次要的特征信息中包含颜色特征信息、纹理特征信息、边缘特征信息等。因此可将下采层输出的特征数据与上采样层输出的特征数据进行融合,以丰富语义特征数据中的纹理信息和边缘信息。
在一种可能实现的方式中,下采样层的数量和上采样层的数量相同,且n层下采样层中第j层下采样层的输入数据的尺寸与m层上采样层中第i层上采样层的输出数据的尺寸相同。通过将m层上采样层中第i层上采样层的输出数据和n层下采样层中第j层下采样层的输入数据融合得到融合数据,作为m层上采样层中第i+1层上采样层的输入数据,可丰富每一层上采样层输出的特征数据中的纹理信息和边缘信息。
举例来说(例1),假定m=n=3,此时可参见图4,语义标签图像作为第1层下采样层的输入数据,经过第1层下采样层对语义标签图像的处理得到第一下采样特征数据,再经过第2层下采样层对第一下采样特征数据的处理得到第二下采样特征数据,最后经过第3层下采样层对第二下采样特征数据的处理得到中间特征数据。中间特征数据作为第1层上采样层的输入数据,经过第1层上采样层对中间特征数据的处理得到第一上采样特征数据,再将第二下采样特征数据与第一上采样特征数据融合得到第一融合数据(第二下采样特征数据的尺寸与第一上采样特征数据的尺寸相同),并将第一融合数据作为第2层上采样层的输入。经过第2层上采样层对第一融合数据的处理得到第二上采样特征数据,再将第一下采样特征数据与第二上采样特征数据融合得到第二融合数据(第一下采样特征数据的尺寸与第二上采样特征数据的尺寸相同),并将第二融合数据作为第3层上采样层的输入。经过第3层下采样层对第二融合数据的处理得到第三上采样特征数据,再将第三下采样特征数据与语义标签图像融合得到第三融合数据(第三下采样特征数据的尺寸与语义标签图像的尺寸相同)。其中,第一融合数据、第二融合数据、第三融合数据均为语义特征数据,即在本例中语义特征数据有多个。
再举例来说(例2),假定m=n=1,语义标签图像作为第1层下采样层的输入数据,经过第1层下采样层对语义标签图像的处理得到中间特征数据,中间特征数据作为第1层上采样层的输入数据,经过第1层上采样层对中间特征数据的处理得到第四上采样特征数据,再将语义标签图像(此时语义标签图像即为第1层下采样层的输入数据)与第四上采样特征数据融合得到语义特征数据(第四下采样特征数据的尺寸与语义标签图像的尺寸相同),此时语义特征数据只有一个。
示例性的,例1和例2中的融合可以是相加,即将进行融合的两个数据中相同位置的元素进行相加。
本实施例通过对语义标签图像先逐级进行下采样处理,再逐级进行上采样处理,得到至少一个语义特征数据。而在上采样处理的过程中,通过将上采样处理得到的特征数据与相同尺寸的下采样处理得到的特征数据融合,以丰富语义特征数据中的纹理信息和边缘信息。且在通过上采样处理提取语义标签图像中的局部(如像素点)邻域特征信息的同时,还能兼顾语义标签图像的全局特征信息,可获得特征信息更丰富的语义特征数据。
请参阅图6,图6是本公开实施例(三)提供的实施例(一)中的203的一种可能实现的方式的流程示意图。
601、将至少一个语义特征数据作为卷积参数,对噪声图像进行k级目标处理,得到目标处理的输出数据。
本实施例中,k为正整数,对噪声图像进行k级目标处理指第1级目标处理的输出数据为第2级目标处理的输入数据,第2级目标处理的输出数据为第3级目标处理的输入数据,…,第k-1级目标处理的输出数据为第k级目标处理的输入数据。
当语义特征数据有多个的情况下,分别将每一个语义特征数据作为一级目标处理的卷积参数对噪声图像进行目标处理。其中,作为卷积参数的语义特征数据的尺寸与目标处理的输入数据的尺寸相同,即多个语义特征数据中第l个语义特征数据作为第l级目标处理的卷积参数,l为不大于k的正整数。示例性的,k等于m。
接着例1继续举例(例3),假定k=m=n=3,则将第一融合数据作为第1级目标处理的卷积参数,将第二融合数据作为第2级目标处理的卷积参数,将第三融合数据作为第3级目标处理的卷积参数。
当语义特征数据只有一个的情况下,将该语义特征数据分别作为每一级目标处理的卷积参数,并使用每一目标处理的卷积参数对噪声图像进行逐级目标处理,得到k个目标处理的输出数据。
接着例2继续举例(例4),假定k=3,则第1级目标处理的卷积参数、第2级目标处理的卷积参数、第3级目标处理的卷积参数均为语义特征数据。
本实施例中,目标处理可以为卷积处理,由于对噪声图像进行每一级目标处理的卷积核所需的权重的数量为D*C*f*f,其中,D为卷积核的数量,C为卷积核的通道数,f*f为卷积核的尺寸。若直接将一个语义特征数据作为进行卷积处理的卷积核,就意味着一个语义特征数据中的权重的数量为D*C*f*f*R*T,其中,R*T为每一级目标处理的输入数据(如:第一级目标处理的输入数据为噪声图像,第二级目标处理的输入数据为第一级目标处理的输出数据,…,第k级目标处理的输入数据为第k-1级目标处理的输出数据)的尺寸。这也意味着直接使用至少一个语义特征数据作为卷积核对噪声图像进行k级目标处理需要耗费大量的计算资源和存储空间,且还会出现过拟合的问题。
因此,本实施例基于深度可分离卷积的方式使用至少一个语义特征数据对噪声图像进行k级卷积处理,以减少进行k级目标处理所需耗费的计算资源和存储空间,并减少进行k级目标处理的过程中出现过拟合的概率。
深度可分离卷积可理解为将传统的卷积过程分为通道内的卷积(depthwiseconvolution)和通道间的卷积(pointwise convolution)两步来实现,即将传统的卷积层分为两层,前一层(通道内的卷积层)用于执行通道内的卷积,后一层(通道间的卷积层)用于执行通道间的卷积。
其中,通道内的卷积指使用通道内的卷积层分别对输入的数据(即每一级目标处理的输入数据)的每个通道的数据进行卷积处理。以第1级目标处理举例(例5),假定噪声图像的大小为h*w*m,其中,h*w为噪声图像的尺寸,m为噪声图像的通道数,那么第1级目标处理的通道内的卷积层分别使用m个卷积核对噪声图像中的每个通道的数据进行卷积处理,该m个卷积核的尺寸均为h*w。其中,对噪声图像中第一个通道的数据进行卷积处理的卷积核为语义特征数据中第一个通道的数据,对噪声图像中第二个通道的数据进行卷积处理的卷积核为语义特征数据中第二个通道的数据,…,对噪声图像中第m个通道的数据进行卷积处理的卷积核为语义特征数据中第m个通道的数据。
对噪声图像进行通道内的卷积可得到m张尺寸为h*w的图像,通道间的卷积指分别对这m张图像进行卷积处理得到m个卷积处理后的图像,并对这m个卷积处理后的图像进行加权求和以将这m张图像合并成一张图像,其中,通道间的卷积层中卷积核的大小为1*1*m(1*1为卷积核的尺寸,m为卷积核的通道数)。接着例5继续举例,假定通道间的卷积层中有1个尺寸为1*1*m的卷积核,使用该卷积核分别对m张尺寸为h*w的图像进行卷积处理,得到3张卷积处理后的图像,再对这3张卷积处理后的图像中相同位置的元素进行加权求和,得到一张尺寸为h*w的图像。
基于上述思路,本实施例将m级上采样处理中的第l级上采样处理得到的语义特征数据(下文将称为第l个语义特征数据)作为对卷积参数,并使用该卷积参数对第l级目标处理的输入数据进行通道内的卷积处理得到第一特征数据。再使用第一预设卷积核对第一特征数据进行卷积处理,得到第二特征数据。
本实施例中,第一预设卷积核的尺寸可以为1*1。如上所述,深度可分离卷积包括通道内的卷积和通道间的卷积两步。因此,在通过对噪声图像进行通道内的卷积处理得到第一特征数据之后,可使用第一预设卷积核对第一特征数据进行通道间的卷积处理,以合并第一特征数据中的多张特征图像,即融合不同通道的特征信息,得到第二特征数据,作为第l级目标处理的输出数据。
由于第l级目标处理的输入数据在经过前面两层网络(即通道内的卷积层和通道间的卷积层)的处理之后,其数据分布会发生变化,这样会给下一层网络从通道间的卷积处理后的数据中继续提取特征信息带来困难。
示例性的,在对通道间的卷积处理后的数据进行后续处理之前,需要对通道间的卷积处理后的数据进行归一化处理,即将通道间的卷积处理后的数据归一化到均值为0且方差为1的正态分布。在一些可能实现的方式中,将通道间的卷积处理后的数据将输入至归一化处理(batch norm,BN)层,BN层可去除通道间的卷积处理后的数据中数据之间的相关性,突出通道间的卷积处理后的数据中数据之间的分布差异。
由于前面的卷积处理(包括通道内的卷积处理和通道间的卷积处理)以及归一化处理从数据中学习复杂映射的能力较小,无法学习和处理复杂类型的数据,例如图像。因此,需要通过对归一化处理后的数据进行非线性变换,来解决诸如图像处理等复杂问题。在BN层后连接非线性激活函数,通过非线性激活函数对归一化处理后的数据进行非线性变换,可处理复杂的映射,在一些可能实现的方式中,将归一化处理后的数据代入带泄露线性整流函数(Leaky Relu),实现对归一化处理后的数据的进行激活处理,得到第二特征数据。
假定第一元素在第l个语义特征数据中的位置与第二元素在第二特征数据中的位置相同。通过对第l个语义特征数据中的第一元素和第二特征数据中的第二元素进行处理,确定第三特征数据,可减小第二特征数据中的次要信息(如颜色特征信息)在第二特征数据所包含的信息中的比重,并增大第二特征数据中的重要信息(如边缘特征信息、纹理特征信息等可提高目标图像质量的特征信息)在第二特征数据所包含的信息中的比重。经过上述处理后得到的第三特征数据中重要信息与次要信息的差异化就更明显,有利于提升后续基于第三特征数据得到的目标图像的质量。示例性的,对第一元素与第二元素进行的处理可以是相乘。
示例性的,在将第一元素与第二元素相乘之前,可对第l个语义特征数据进行非线性变换,得到第l个非线性变化后的语义特征数据。假定第五元素在第l个非线性变化后的语义特征数据中的位置与第二元素在第二特征数据中的位置相同。通过将第五元素和第二元素相乘,确定第三特征数据。本实施例中,上述非线性变换可以通过将第l个语义特征数据代入非线性激活函数实现,示例性的,非线性激活函数可以是Sigmoid函数,也可以是Leaky Relu。
在一种可能实现的方式中,将第l个语义特征数据代入Sigmoid函数,实现对第l个语义特征数据非线性变换,得到第l个非线性变换后的语义特征数据。
第l个非线性变换后的语义特征数据的取值范围为0至1,且第l个非线性变换后的特征数据中的元素的取值越接近1,表征第二特征数据中的参考信息为重要信息,其中,参考信息在第二特征数据中的位置与该元素在第l个非线性变换后的特征数据中的位置相同。
在得到第三特征数据后,可基于第二预设卷积核和第三特征数据,确定第四特征数据。示例性的,第二预设卷积核的尺寸为3*3。在一种可能实现的方式中,使用第二预设卷积核对第三特征数据进行卷积处理得到第五特征数据,再依次对第五特征数据进行归一化处理、激活处理,得到第四特征数据。
示例性的,将第四特征数据和第l级目标处理的输入数据进行融合,得到第l级目标处理的输出数据,可进行一步丰富第l级目标处理的输出数据中的边缘信息和纹理信息,提升后续基于第l级目标处理的输出数据生成的目标图像的质量。
承接上述601,继续执行:
602、基于目标处理的输出数据,确定目标图像。
601阐述了得到第l级目标处理的输出数据的过程,在依据601所提供的方法得到每级目标处理的输出数据之后,对每级目标处理的输出数据进行上采样处理,在对第k级目标处理的输出数据进行上采样处理后,得到目标图像。
举例来说,假定l=3,对第1级目标处理后的输出数据进行上采样处理得到第六特征数据,并将第六特征数据作为第2级目标处理的输入数据。再对第2级目标处理后的输出数据进行上采样处理得到第七特征数据,并将第七特征数据作为第3级目标处理的输入数据。通过第3级目标处理后的输出目标图像。
本实施例中,通过将至少一个语义特征数据作为对噪声图像进行通道内的卷积处理的卷积核,相当于为噪声图像中的每个位置的元素分别预测了一个卷积核,且每个卷积核中包含不同的语义信息(包括语义标签图像中与噪声图像对应的位置的特征数据、语义标签图像中的边缘信息和纹理信息等)。这样,可更充分的利用语义标签图像中的语义信息得到目标图像。而通过将对噪声图像的卷积处理分成通道内的卷积处理和通道间的卷积处理,可减小得到目标图像所需的计算资源和存储空间,并可减小得到目标图像的过程中出现过拟合的概率。
本实施例通过将对噪声图像进行k级目标处理时的卷积处理分为通道内的卷积处理和通道间的卷积处理,减小进行k级处理所需处理的数据量,进而减小所需的计算资源和存储空间,提高处理速度,以及减小进行k级处理的过程中出现过拟合的概率。
本公开还提供了一种生成对抗网络,用于实现实施例(一)至实施例(三)中的方法。请参阅图7,图7是本公开实施例(四)提供的一种生成对抗网络的结构示意图。需要理解,图7和图8给出的网络的结构仅为示例性说明,实际应用中可以结合具体需求来进行调整,本申请对此并不限定。
如图7所示,本公开在训练阶段使用的网络包括生成网络和鉴别子网络,也可以称为生成对抗网络。其中,生成网络的结构图可参见图8,如图8所示,生成网络包括权重预测子网络和生成子网络。在模型训练阶段,鉴别子网络可以基于生成网络的输出来计算网络损失,调整生成对抗网络中各子网络的参数,完成对生成对抗网络的训练。
生成网络既可以用在训练阶段,也可以用在测试及应用阶段。在训练阶段结束后,训练好的生成网络可以单独作为一个图像生成模型,用来基于语义标签图像和噪声图像来生成与语义标签图像描述的内容相符合的目标图像。
其中,权重预测子网络用于对语义标签图像进行特征提取处理,得到语义特征数据,即可使用权重预测子网络实现实施例(一)中的202以及实施例(二)所阐述的方法。生成子网络用于将语义特征数据作为目标卷积核的参数,并使用目标卷积核对噪声图像进行目标处理得到目标图像,即可使用生成子网络实现实施例(一)中203以及实施例(三)所阐述的方法。上述方法即可以作为模型训练阶段的方法,也可以作为模型测试及应用阶段的方法。
如图8所示,权重预测子网络包括3层下采样层和3层上采样层,权重预测子网络通过下采样层和上采样层对语义标签图像进行处理获得至少一个语义特征数据的过程可参见202和实施例(二),此处将不再赘述。
如图8所示,生成子网络包括依次串联的3个条件卷积模块和3个上采样层,即第1个条件卷积模块的输出数据为第1个上采样层的输入数据,第1个上采样层的输出数据为第2个条件卷积模块的输入数据,第2个条件卷积模块的输出数据为第2个上采样层的输入数据,…,第3个上采样层的输出数据为目标图像(即为生成子网络输出的图像)。
上述条件卷积模块用于将至少一个语义特征数据作为卷积参数,并使用该卷积参数对输入条件卷积模块的数据进行目标处理。如图9所示,条件卷积模块包括通道内的卷积层、通道间的卷积层、归一化层+激活层、注意力层、卷积层、归一化层+激活层,且这六层依次串联,即上一层的输出为下一层的输入,最后将条件卷积模块的输入数据与最后一层的输出数据相加得到条件卷积模块的输出数据。通道内的卷积层的卷积核为权重子网络输出的语义特征数据,通过通道内的卷积层对条件卷积模块的输入数据进行通道内的卷积处理的过程可参见601,此处将不再赘述。通道间的卷积层包含尺寸为1*1的卷积核,通过通道间的卷积层对通道内的卷积处理后的数据进行通道间的卷积处理的过程,以及归一化层+激活层对通道间的卷积处理后的数据的处理过程可参见602,此处亦将不再赘述。注意力层对激活后的数据进行处理的过程,以及卷积层对注意力层的输出数据进行处理的过程可参见602,此处亦将不再赘述。卷积层后的归一化层+激活层对通道间的卷积处理后的数据的处理过程可参见602,此处亦将不再赘述。
如图7所示,生成对抗网络还包括鉴别子网络,鉴别子网络用于预测输入至鉴别子网络的目标图像和/或真实图像是生成网络输出的图像的预测概率,再确定输入至鉴别子网络的目标图像和/或真实图像与语义标签图像之间的语义对齐度,然后根据预测概率和语义对齐度,确定网络损失。最后基于网络损失调整生成对抗网络的参数,完成对生成对抗网络的训练。
如图7所示,鉴别子网络包括3层下采样层和3层上采样层,通过3层下采样层和3层上采样层对输入至鉴别子网络的图像逐级进行处理,得到目标特征数据。
图7所示的下采样处理层与上采样处理层的整体结构与图3所示的下采样处理层与上采样处理层的整体结构相同。因此在本实施例的上采样的过程中,也将通过将下采样处理得到的特征数据与相同尺寸的上采样处理得到的特征数据相加实现对特征数据的融合,以丰富上采样处理得到的语义标签特征数据中的纹理信息和边缘信息。
通过生成网络得到的目标图像的内容由语义标签图像决定,也就是说,目标图像的图像内容与语义标签图像所表征的图像内容的相似度越高,表征目标图像的质量就越高,即目标图像与语义标签图像的语义对齐就越高。
基于上述思路,本实施例通过上采样处理得到的目标特征数据与语义标签图像的语义标签特征数据之间的内积来衡量输入的图像与语义标签图像之间的语义对齐度。前面已经阐述了得到上采样处理的目标特征数据(即输入的图像的特征数据)的过程,下面将继续阐述如何获得语义标签特征数据。
由于在鉴别子网络对语义标签图像进行识别的过程中,往往会遇到分类特征,例如:人的性别有男女,国籍有国籍A、国籍B、国籍C等。显然,这些特征的取值并不是连续的,而是离散的、无序的,因此,在对语义图像进行处理之前,需要对语义标签图像进行编码处理,即对语义标签图像进行特征数字化。在一种可能实现的方式中,对语义标签图像进行独热编码处理(one-hot encoding),得到编码处理后的数据,即独热(one-hot)向量。在得到编码处理后的数据之后,再使用第三预设卷积核对编码处理后的数据进行卷积处理,进一步提取编码处理后的数据中的特征,得到语义标签特征数据。
假定输入鉴别子网络的图像中的第三元素在输入鉴别子网络的图像中的位置与语义标签特征数据中的第四元素在语义标签特征数据中的位置相同,将鉴别子网络中的第三元素与语义标签特征数据中的第四元素相乘,并将所有元素相乘后的乘积相加得到上采样处理得到的目标特征数据与语义标签特征数据之间的内积,并将该内积作为第一评分。其中,第一评分用于衡量输入鉴别子网络的图像与语义标签图像之间的语义对齐度,具体的,第一评分与语义对齐度呈正相关,即第一评分越大表征输入鉴别子网络的图像与语义图像之间的语义对齐度越高。
此外,本实施例中的生成对抗网络中的鉴别子网络还可用于预测输入鉴别子网络的图像是生成子网络输出的图像的预测概率。
在一种可能实现的方式中,鉴别子网络可根据上采样处理得到的目标特征数据中的特征,预测输入鉴别子网络的图像是生成网络输出的图像的预测概率,并将该预测概率作为第二评分。第二评分与输入鉴别子网络的图像为生成网络输出的图像的概率呈负相关,即第二评分越大表征输入鉴别子网络的图像为生成网络输出的图像的概率越小。示例性的,上述根据上采样处理得到的目标特征数据中的特征得到预测概率的过程可通过将上采样处理得到的目标特征数据输入至softmax函数中实现。
最终,将第一评分和第二评分的和(下文将称为总评分)作为鉴别子网络的输出,即生成对抗网络的网络损失,并基于该网络损失训练生成对抗网络。这样可提高训练得到的生成子网络生成的图像与语义标签图像之间的语义对齐度。
本实施例还提供了一种生成对抗网络的训练方法。在一种可能实现的方式中,以真实图像、噪声图像以及真实图像的语义标签图像为训练集、第一损失函数和第二损失函数为约束,进行反向传播训练,得到生成对抗网络。其中,第一损失函数为:
Figure GDA0003395092750000191
Figure GDA0003395092750000192
第二损失函数为:
Figure GDA0003395092750000193
Figure GDA0003395092750000194
x为真实图像,y为语义图像,z为噪声图像,
Figure GDA0003395092750000195
为期望,D为鉴别子网络的输出数据,G为生成网络的输出数据,LP为感知损失函数,LFM为特征匹配损失函数,λP和λFM为自然数,λP和λFM可根据实际使用情况进行调整。
举例来说,假定λP=1和λFM=2,输入生成对抗网络的噪声图像为a,语义标签图像为b,经过生成网络的处理,得到的目标图像为G(a,b)。再将目标图像G(a,b)、真实图像c和语义标签图像b输入至鉴别子网络,分别得到真实图像的总评分D(c,b)、目标图像的总评分D(G(a,b),b)。将目标图像G(a,b)和真实图像c代入感知损失函数得到感知损失值LP(G(a,b),c),将目标图像G(a,b)和真实图像c代入特征匹配损失函数得到目标图像与真实图像的特征匹配度LFM(G(a,b),)。根据语义标签图像b和真实图像c得到语义标签图像与真实图像的期望
Figure GDA0003395092750000201
再根据噪声图像a和真实图像c得到语义标签图像与噪声图像的期望
Figure GDA0003395092750000202
最后将λP=1、λFM=2、D(c,b)、D(G(a,b),b)、LP(G(a,b),c)、LFM(G(a,b),c)、
Figure GDA0003395092750000203
分别代入第一损失函数和第二损失函数,通过反向传播对生成对抗网络进行训练,直至收敛。
在基于上述生成对抗网络的训练方法完成对生成对抗网络的训练后,可将生成网络应用于生成目标图像,即将语义标签图像和噪声图像输入至生成网络获得目标图像。
本实施例提供的生成网络可用于实现实施例(一)~实施例(三)所提供的技术方案。在模型训练阶段,还可以包括鉴别子网络,鉴别子网络通过将对输入鉴别子网络的图像进行上采样处理得到的特征数据与语义标签特征数据进行点乘得到第一评分,以衡量输入鉴别的图像与语义标签图像之间的语义对齐度,并根据对输入鉴别子网络的图像进行上采样处理得到的目标特征数据预测输入鉴别子网络的图像是生成网络输出的图像的预测概率,得到第二评分。基于第一评分和第二评分训练生成对抗网络既可提升基于生成网络得到的目标图像的真实度,又可提升目标图像与语义标签图像之间的语义对齐度,提升目标图像的质量。
基于实施例(一)至实施例(四)提供的图像处理方法,本公开实施例(五)提供了几种可能实现的应用场景。
现实生活中,各种复杂场景下的图像要么出自画家之手,要么出自摄影师之手,而基于本公开提供的技术方案,可实现将粗糙的涂鸦图像作为待处理图像,转换成逼真的图像。
举例来说(例6),用户可在涂鸦图像的不同区域添加不同的标签,如图10所示,用户可在椭圆区域添加标签“1”,在矩形区域内除椭圆区域之外的区域内添加标签“2”,其中,标签“1”表征的图像内容为鸡蛋,标签“2”表征的图像内容为包装盒。则将图9所示的图像作为语义标签图像与噪声图像分别输入至训练后的权重预测子网络和训练后的生成子网络,可得到一幅鸡蛋放在包装盒内的图像。鸡蛋表面的纹理信息、包装盒的颜色、纹理信息及包装盒内的填充物等可由噪声图像决定。
接着例6再举例,若用户将图10所示的图像中的标签“1”和标签“2”去除了,并添加了标签“3”,得到如图10所示的图像,其中,标签“3”表征的图像内容为抽纸盒。再将图11所示的图像作为语义标签图像以及噪声图像分别输入至训练后的权重预测子网络和训练后的生成子网络,可得到一幅图像内容为抽纸盒的图像。
在一个具体应用场景中,用户在外出旅游时通过手机拍摄得到一张风景图像,但由于在拍摄图像时恰巧有游客入镜,因此该风景图像中包含了游客。在用户希望将该游客从图像中移除时,可将风景图像作为待处理图像,在该风景图像的语义图像中游客所处的区域的添加目标标签,得到语义标签图像。其中,目标标签表征的图像内容可以与图像背景相同,如:天空、草地等等。再基于本公开实施提供的方法对语义标签图像进行处理,得到一幅移除游客后的风景图像。
通过本实施例提供应用场景可以看出,基于本公开提供的技术方案,用户可通过修改语义图像中的标签得到语义标签图像,并基于语义标签图像得到目标图像,以实现修改图像内容、增加图像内容、删除图像内容等效果。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
上述详细阐述了本公开实施例的方法,下面提供了本公开实施例的装置。
请参阅图12,图12为本公开实施例提供的一种图像处理装置1的结构示意图,该装置1包括:获取单元11、特征提取单元12、目标处理单元13以及鉴别单元14。其中:
获取单元11,用于获取语义标签图像和噪声图像;
特征提取处理单元12,用于对所述语义标签图像进行特征提取处理,得到至少一个语义特征数据;
目标处理单元13,用于将所述至少一个语义特征数据作为卷积参数,对所述噪声图像进行至少一级目标处理得到目标图像;所述目标处理包括:卷积处理。
在一种可能实现的方式中,所述特征提取处理单元12具体用于:对所述语义标签图像进行n级下采样处理,得到中间特征数据;对所述中间特征数据进行m级上采样处理,得到所述至少一个语义特征数据;其中,所述m级中第i级上采样处理的输出数据和所述n级中第j级下采样处理的输入数据之间的融合数据,作为所述m级中第i+1级上采样处理的输入数据;所述第i级上采样处理的输出数据和所述第j级下采样处理的输入数据之间的尺寸相同;n为正整数,m为正整数,j为小于或等于n的正整数,i为小于m的任一正整数。
在另一种可能实现的方式中,所述语义特征数据有多个;其中,所述第i级上采样处理的输出数据与所述第j级下采样处理的输入数据之间的融合数据,作为第i个语义特征数据。
在又一种可能实现的方式中,所述语义特征数据有一个;其中,第m级上采样处理的输出数据与所述语义标签图像之间的融合数据,作为语义特征数据。
在又一种可能实现的方式中,在所述语义特征数据有多个的情况下,所述目标处理单元13具体用于:对所述噪声图像进行k级目标处理得到目标图像;其中,所述k级中第l级目标处理的过程,包括:将多个语义特征数据中第l个语义特征数据作为所述第l级目标处理的卷积参数,使用所述第l级目标处理的卷积参数对所述噪声图像进行所述第l级目标处理;其中,k为正整数,l为不大于k的正整数。
在又一种可能实现的方式中,在所述语义特征数据有一个的情况下,所述目标处理单元13具体用于:将一个语义特征数据分别作为每级目标处理的卷积参数,使用所述每级目标处理的卷积参数,对所述噪声图像进行k级目标处理得到目标图像。
在又一种可能实现的方式中,所述目标处理单元13具体用于:将所述至少一个语义特征数据作为卷积参数,对所述噪声图像进行k级目标处理,得到目标处理的输出数据;基于所述目标处理的输出数据,确定所述目标图像;其中,所述k级中第l级目标处理的过程,包括:使用所述卷积参数对所述第l级目标处理的输入数据进行卷积处理得到第一特征数据;使用第一预设卷积核对所述第一特征数据进行卷积处理,得到第二特征数据;基于所述第二特征数据,确定所述第l级目标处理的输出数据,并将所述第l级目标处理的输出数据作为第l+1级目标处理的输入数据;其中,k为正整数,l为小于k的正整数。
在又一种可能实现的方式中,所述目标处理单元13具体用于:对所述语义特征数据中的第一元素和所述第二特征数据中的第二元素进行处理,确定第三特征数据,所述第一元素在所述语义特征数据中的位置与所述第二元素在所述第二特征数据中的位置相同;基于第二预设卷积核和所述第三特征数据,确定第四特征数据;将所述第四特征数据和所述第l级目标处理的输入数据进行融合,得到所述第l级目标处理的输出数据。
在又一种可能实现的方式中,所述目标处理单元13具体用于:在得到每级目标处理的输出数据之后,对所述每级目标处理的输出数据进行上采样处理;在对第k级目标处理的输出数据进行上采样处理后,得到所述目标图像。
在又一种可能实现的方式中,所述装置执行的图像处理方法应用于生成网络中,所述生成网络包括权重预测子网络和生成子网络;所述特征提取处理单元12用于实现所述权重预测子网络的功能,所述目标处理单元13用于实现所述生成子网络的功能;其中,通过所述权重预测子网络对所述语义标签图像进行所述特征提取处理,得到所述语义特征数据;通过所述生成子网络将所述语义特征数据作为目标卷积核的参数,并使用所述目标卷积核对所述噪声图像进行所述目标处理得到所述目标图像。
在又一种可能实现的方式中,所述生成网络属于生成对抗网络,所述生成对抗网络还包括鉴别子网络;所述装置1还包括:鉴别单元14,所述鉴别单元用于实现所述鉴别子网络的功能;通过所述鉴别子网络预测输入至所述鉴别子网络的所述目标图像和/或所述真实图像是所述生成子网络输出的图像的预测概率;通过所述鉴别子网络确定输入至所述鉴别子网络的所述目标图像和/或所述真实图像与所述语义标签图像之间的语义对齐度;根据所述预测概率和所述语义对齐度,确定网络损失;基于所述网络损失调整所述生成对抗网络的参数。
在又一种可能实现的方式中,所述鉴别单元14具体用于:基于所述预测概率,确定第一评分,所述第一评分与所述目标图像是所述生成子网络输出的图像的概率呈负相关;基于所述语义对齐度,确定第二评分,所述第二评分与所述语义对齐度呈正相关;根据所述第一评分和所述第二评分,确定所述网络损失。
在又一种可能实现的方式中,所述鉴别单元14具体用于:对输入至所述鉴别子网络的所述目标图像进行特征提取处理,得到目标特征数据;对所述语义标签图像进行特征提取处理,得到语义标签特征数据;对所述目标特征数据中的第三元素与所述语义标签特征数据中的第四元素进行比较,得到所述语义对齐度;所述第三元素在所述目标特征数据中位置与所述第四元素在所述语义标签特征数据中的位置相同。
在又一种可能实现的方式中,所述获取单元11具体用于:接收用户在待处理图像中添加的语义标签,得到语义标签图像。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
图13为本公开实施例提供的一种图像处理装置的硬件结构示意图。该图像处理装置2包括处理器21,还可以包括输入装置22、输出装置23和存储器24。该输入装置22、输出装置23、存储器24和处理器21之间通过总线相互连接。
处理器21可以是一个或多个图形处理器(graphics processing unit,GPU),在处理器21是一个GPU的情况下,该GPU可以是单核GPU,也可以是多核GPU。示例性的,处理器21可以是多个GPU构成的处理器组,多个处理器之间通过一个或多个总线彼此耦合。示例性的,该处理器还可以为其他类型的处理器等等,本公开实施例不作限定。应当理解,本公开的各个实施例中,耦合是指通过特定方式的相互联系,包括直接相连或者通过其他设备间接相连,例如可以通过各类接口、传输线、总线等相连。
输入装置22用于输入数据和/或信号,以及输出装置23用于输出数据和/或信号。输出装置22和输入装置23可以是独立的器件,也可以是一个整体的器件。
存储器24可用于存储计算机程序指令,以及用于执行本公开方案的程序代码在内的各类计算机程序代码。可选地,存储器包括但不限于是随机存储记忆体(random accessmemory,RAM)、只读存储器(read-only memory,ROM)、可擦除可编程只读存储器(erasableprogrammable read only memory,EPROM)、或便携式只读存储器(compact disc read-only memory,CD-ROM),该存储器用于相关指令及数据。
可理解,本公开实施例中,存储器24不仅可用于存储相关指令,还可用于存储相关图像以及视频,如该存储器可用于存储通过输入装置21获取的噪声图像、语义标签图像,又或者该存储器24还可用于存储通过处理器21而生成的目标图像等等,本公开实施例对于该存储器中具体所存储的数据不作限定。
可以理解的是,图13仅仅示出了图像处理装置的简化设计。在实际应用中,图像处理装置还可以分别包含必要的其他元件,包含但不限于任意数量的输入/输出装置、处理器、控制器、存储器等,而所有可以实现本公开实施例的图像处理装置都在本公开的保护范围之内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。所属领域的技术人员还可以清楚地了解到,本公开各个实施例描述各有侧重,为描述的方便和简洁,相同或类似的部分在不同实施例中可能没有赘述,因此,在某一实施例未描述或未详细描述的部分可以参见其他实施例的记载。
在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本公开实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriberline,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,数字通用光盘(digital versatiledisc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:只读存储器(read-only memory,ROM)或随机存储存储器(random access memory,RAM)、磁碟或者光盘等各种可存储程序代码的介质。

Claims (31)

1.一种图像处理方法,其特征在于,所述方法包括:
获取语义标签图像和随机产生的噪声图像,所述噪声图像用于影响基于语义标签图像得到的目标图像中不同区域的图像内容的以下一种或多种属性:颜色、种类、形状;
对所述语义标签图像进行特征提取处理,得到不同尺寸的至少一个语义特征数据;
根据所述至少一个语义特征数据分别确定至少一级卷积处理的卷积核,并使用所述至少一级卷积处理的卷积核对所述噪声图像进行所述至少一级卷积处理得到所述目标图像。
2.根据权利要求1所述的方法,其特征在于,所述对所述语义标签图像进行特征提取处理,得到至少一个语义特征数据,包括:
对所述语义标签图像进行n级下采样处理,得到中间特征数据;
对所述中间特征数据进行m级上采样处理,得到所述至少一个语义特征数据;
其中,所述m级中第i级上采样处理的输出数据和所述n级中第j级下采样处理的输入数据之间的融合数据,作为所述m级中第i+1级上采样处理的输入数据;所述第i级上采样处理的输出数据和所述第j级下采样处理的输入数据之间的尺寸相同;
n为正整数,m为正整数,j为小于或等于n的正整数,i为小于m的任一正整数。
3.根据权利要求2所述的方法,其特征在于,所述语义特征数据有多个;
其中,所述第i级上采样处理的输出数据与所述第j级下采样处理的输入数据之间的融合数据,作为第i个语义特征数据。
4.根据权利要求2所述的方法,其特征在于,所述语义特征数据有一个;
其中,第m级上采样处理的输出数据与所述语义标签图像之间的融合数据,作为语义特征数据。
5.根据权利要求1至3任一所述的方法,其特征在于,在所述语义特征数据有多个的情况下,所述根据所述至少一个语义特征数据分别确定至少一级卷积处理的卷积核,并使用所述至少一级卷积处理的卷积核对所述噪声图像进行所述至少一级卷积处理得到所述目标图像,包括:
对所述噪声图像进行k级目标处理得到所述目标图像;
其中,所述k级中第l级目标处理的过程,包括:
将多个语义特征数据中第l个语义特征数据作为所述第l级目标处理的卷积核,对所述噪声图像进行所述第l级目标处理;
其中,k为正整数,l为不大于k的正整数。
6.根据权利要求1、2、4任一所述的方法,其特征在于,在所述语义特征数据有一个的情况下,所述根据所述至少一个语义特征数据分别确定至少一级卷积处理的卷积核,并使用所述至少一级卷积处理的卷积核对所述噪声图像进行所述至少一级卷积处理得到所述目标图像,包括:
将一个语义特征数据分别作为每级目标处理的卷积核,对所述噪声图像进行k级目标处理得到所述目标图像。
7.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个语义特征数据分别确定至少一级卷积处理的卷积核,并使用所述至少一级卷积处理的卷积核对所述噪声图像进行所述至少一级卷积处理得到所述目标图像,包括:
将所述至少一个语义特征数据作为卷积参数,对所述噪声图像进行k级目标处理,得到目标处理的输出数据;
基于所述目标处理的输出数据,确定所述目标图像;
其中,所述k级中第l级目标处理的过程,包括:
将所述至少一个语义特征数据中的第l个语义特征数据作为卷积核,对所述第l级目标处理的输入数据进行卷积处理得到第一特征数据;
使用第一预设卷积核对所述第一特征数据进行卷积处理,得到第二特征数据;
基于所述第二特征数据,确定所述第l级目标处理的输出数据,并将所述第l级目标处理的输出数据作为第l+1级目标处理的输入数据;
其中,k为正整数,l为小于k的正整数。
8.根据权利要求7所述的方法,其特征在于,所述基于所述第二特征数据,确定所述第l级目标处理的输出数据,包括:
对所述语义特征数据中的第一元素和所述第二特征数据中的第二元素相乘,确定第三特征数据,所述第一元素在所述语义特征数据中的位置与所述第二元素在所述第二特征数据中的位置相同;
基于第二预设卷积核和所述第三特征数据,确定第四特征数据;
将所述第四特征数据和所述第l级目标处理的输入数据进行融合,得到所述第l级目标处理的输出数据。
9.根据权利要求7所述的方法,其特征在于,所述基于所述目标处理的输出数据,确定所述目标图像,包括:
在得到每级目标处理的输出数据之后,对所述每级目标处理的输出数据进行上采样处理;
在对第k级目标处理的输出数据进行上采样处理后,得到所述目标图像。
10.根据权利要求1所述的方法,其特征在于,所述方法应用于生成网络中,所述生成网络包括权重预测子网络和生成子网络;
其中,通过所述权重预测子网络对所述语义标签图像进行所述特征提取处理,得到所述语义特征数据;通过所述生成子网络将所述语义特征数据作为目标卷积核的参数,并使用所述目标卷积核对所述噪声图像进行所述目标处理得到所述目标图像。
11.根据权利要求10所述的方法,其特征在于,所述生成网络属于生成对抗网络,所述生成对抗网络还包括鉴别子网络;
所述方法还包括:
通过所述鉴别子网络预测输入至所述鉴别子网络的所述目标图像和/或真实图像是所述生成子网络输出的图像的预测概率;
通过所述鉴别子网络确定输入至所述鉴别子网络的所述目标图像和/或所述真实图像与所述语义标签图像之间的语义对齐度;
根据所述预测概率和所述语义对齐度,确定网络损失;
基于所述网络损失调整所述生成对抗网络的参数。
12.根据权利要求11所述的方法,其特征在于,所述根据所述预测概率和所述语义对齐度,确定网络损失,包括:
基于所述预测概率,确定第一评分,所述第一评分与所述目标图像是所述真实图像的概率呈负相关;
基于所述语义对齐度,确定第二评分,所述第二评分与所述语义对齐度呈正相关;
根据所述第一评分和所述第二评分,确定所述网络损失。
13.根据权利要求11或12所述的方法,其特征在于,所述通过所述鉴别子网络确定输入至所述鉴别子网络的所述目标图像与所述语义标签图像之间的语义对齐度,包括:
对输入至所述鉴别子网络的所述目标图像进行特征提取处理,得到目标特征数据;
对所述语义标签图像进行特征提取处理,得到语义标签特征数据;
对所述目标特征数据中的第三元素与所述语义标签特征数据中的第四元素进行比较,得到所述语义对齐度;所述第三元素在所述目标特征数据中位置与所述第四元素在所述语义标签特征数据中的位置相同。
14.根据权利要求1所述的方法,其特征在于,所述获取语义标签图像,包括:
接收用户在待处理图像中添加的语义标签,得到语义标签图像。
15.一种图像处理装置,其特征在于,所述装置包括:
获取单元,用于获取语义标签图像和随机产生的噪声图像,所述噪声图像用于影响基于语义标签图像得到的目标图像中不同区域的图像内容的以下一种或多种属性:颜色、种类、形状;
特征提取处理单元,用于对所述语义标签图像进行特征提取处理,得到不同尺寸的至少一个语义特征数据;
目标处理单元,用于根据所述至少一个语义特征数据分别确定至少一级卷积处理的卷积核,并使用所述至少一级卷积处理的卷积核对所述噪声图像进行所述至少一级卷积处理得到所述目标图像。
16.根据权利要求15所述的装置,其特征在于,所述特征提取处理单元具体用于:
对所述语义标签图像进行n级下采样处理,得到中间特征数据;
对所述中间特征数据进行m级上采样处理,得到所述至少一个语义特征数据;
其中,所述m级中第i级上采样处理的输出数据和所述n级中第j级下采样处理的输入数据之间的融合数据,作为所述m级中第i+1级上采样处理的输入数据;所述第i级上采样处理的输出数据和所述第j级下采样处理的输入数据之间的尺寸相同;
n为正整数,m为正整数,j为小于或等于n的正整数,i为小于m的任一正整数。
17.根据权利要求16所述的装置,其特征在于,所述语义特征数据有多个;
其中,所述第i级上采样处理的输出数据与所述第j级下采样处理的输入数据之间的融合数据,作为第i个语义特征数据。
18.根据权利要求16所述的装置,其特征在于,所述语义特征数据有一个;
其中,第m级上采样处理的输出数据与所述语义标签图像之间的融合数据,作为语义特征数据。
19.根据权利要求15至18任一所述的装置,其特征在于,在所述语义特征数据有多个的情况下,所述目标处理单元具体用于:
对所述噪声图像进行k级目标处理得到所述目标图像;
其中,所述k级中第l级目标处理的过程,包括:
将多个语义特征数据中第l个语义特征数据作为所述第l级目标处理的卷积核,对所述噪声图像进行所述第l级目标处理;
其中,k为正整数,l为不大于k的正整数。
20.根据权利要求15所述的装置,其特征在于,在所述语义特征数据有一个的情况下,所述目标处理单元具体用于:
将一个语义特征数据分别作为每级目标处理的卷积核,对所述噪声图像进行k级目标处理得到所述目标图像。
21.根据权利要求15所述的装置,其特征在于,所述目标处理单元具体用于:
将所述至少一个语义特征数据作为卷积参数,对所述噪声图像进行k级目标处理,得到目标处理的输出数据;
基于所述目标处理的输出数据,确定所述目标图像;
其中,所述k级中第l级目标处理的过程,包括:
将所述至少一个语义特征数据中的第l个语义特征数据作为卷积核,对所述第l级目标处理的输入数据进行卷积处理得到第一特征数据;
使用第一预设卷积核对所述第一特征数据进行卷积处理,得到第二特征数据;
基于所述第二特征数据,确定所述第l级目标处理的输出数据,并将所述第l级目标处理的输出数据作为第l+1级目标处理的输入数据;
其中,k为正整数,l为小于k的正整数。
22.根据权利要求21所述的装置,其特征在于,所述目标处理单元具体用于:
对所述语义特征数据中的第一元素和所述第二特征数据中的第二元素相乘,确定第三特征数据,所述第一元素在所述语义特征数据中的位置与所述第二元素在所述第二特征数据中的位置相同;
基于第二预设卷积核和所述第三特征数据,确定第四特征数据;
将所述第四特征数据和所述第l级目标处理的输入数据进行融合,得到所述第l级目标处理的输出数据。
23.根据权利要求21所述的装置,其特征在于,所述目标处理单元具体用于:
在得到每级目标处理的输出数据之后,对所述每级目标处理的输出数据进行上采样处理;
在对第k级目标处理的输出数据进行上采样处理后,得到所述目标图像。
24.根据权利要求15所述的装置,其特征在于,所述装置执行的图像处理方法应用于生成网络中,所述生成网络包括权重预测子网络和生成子网络;所述特征提取处理单元用于实现所述权重预测子网络的功能,所述目标处理单元用于实现所述生成子网络的功能;
其中,通过所述权重预测子网络对所述语义标签图像进行所述特征提取处理,得到所述语义特征数据;通过所述生成子网络将所述语义特征数据作为目标卷积核的参数,并使用所述目标卷积核对所述噪声图像进行所述目标处理得到所述目标图像。
25.根据权利要求24所述的装置,其特征在于,所述生成网络属于生成对抗网络,所述生成对抗网络还包括鉴别子网络;
所述装置还包括:鉴别单元,所述鉴别单元用于实现所述鉴别子网络的功能;
通过所述鉴别子网络预测输入至所述鉴别子网络的所述目标图像和/或真实图像是所述生成子网络输出的图像的预测概率;
通过所述鉴别子网络确定输入至所述鉴别子网络的所述目标图像和/或所述真实图像与所述语义标签图像之间的语义对齐度;
根据所述预测概率和所述语义对齐度,确定网络损失;
基于所述网络损失调整所述生成对抗网络的参数。
26.根据权利要求25所述的装置,其特征在于,所述鉴别单元具体用于:
基于所述预测概率,确定第一评分,所述第一评分与所述目标图像是所述生成子网络输出的图像的概率呈负相关;
基于所述语义对齐度,确定第二评分,所述第二评分与所述语义对齐度呈正相关;
根据所述第一评分和所述第二评分,确定所述网络损失。
27.根据权利要求25或26所述的装置,其特征在于,所述鉴别单元具体用于:
对输入至所述鉴别子网络的所述目标图像进行特征提取处理,得到目标特征数据;
对所述语义标签图像进行特征提取处理,得到语义标签特征数据;
对所述目标特征数据中的第三元素与所述语义标签特征数据中的第四元素进行比较,得到所述语义对齐度;所述第三元素在所述目标特征数据中位置与所述第四元素在所述语义标签特征数据中的位置相同。
28.根据权利要求15所述的装置,其特征在于,所述获取单元具体用于:
接收用户在待处理图像中添加的语义标签,得到语义标签图像。
29.一种处理器,其特征在于,所述处理器用于执行如权利要求1至14任意一项所述的方法。
30.一种电子设备,其特征在于,包括:处理器、输入装置、输出装置和存储器,所述处理器、输入装置、输出装置和存储器相互连接,所述存储器中存储有程序指令;所述程序指令被所述处理器执行时,使所述处理器执行如权利要求1至14任一项权利要求所述的方法。
31.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被电子设备的处理器执行时,使所述处理器执行权利要求1至14任意一项所述的方法。
CN201910673283.9A 2019-07-24 2019-07-24 图像处理方法及装置、处理器、电子设备及存储介质 Active CN110414593B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910673283.9A CN110414593B (zh) 2019-07-24 2019-07-24 图像处理方法及装置、处理器、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910673283.9A CN110414593B (zh) 2019-07-24 2019-07-24 图像处理方法及装置、处理器、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN110414593A CN110414593A (zh) 2019-11-05
CN110414593B true CN110414593B (zh) 2022-06-21

Family

ID=68362954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910673283.9A Active CN110414593B (zh) 2019-07-24 2019-07-24 图像处理方法及装置、处理器、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110414593B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111932458B (zh) * 2020-08-10 2024-01-23 韶鼎人工智能科技有限公司 一种基于区域间注意力机制的图像信息提取与生成方法
CN112818997A (zh) * 2021-01-29 2021-05-18 北京迈格威科技有限公司 图像合成方法、装置、电子设备及计算机可读存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862293B (zh) * 2017-09-14 2021-05-04 北京航空航天大学 基于对抗生成网络的雷达生成彩色语义图像系统及方法
US20190147296A1 (en) * 2017-11-15 2019-05-16 Nvidia Corporation Creating an image utilizing a map representing different classes of pixels
US10643320B2 (en) * 2017-11-15 2020-05-05 Toyota Research Institute, Inc. Adversarial learning of photorealistic post-processing of simulation with privileged information
CN108416752B (zh) * 2018-03-12 2021-09-07 中山大学 一种基于生成式对抗网络进行图像去运动模糊的方法
CN108564126B (zh) * 2018-04-19 2022-04-19 郑州大学 一种融合语义控制的特定场景生成方法
CN109711442B (zh) * 2018-12-15 2021-04-16 中国人民解放军陆军工程大学 无监督逐层生成对抗特征表示学习方法
CN109993710B (zh) * 2019-03-20 2022-03-11 西北工业大学 一种基于生成对抗网络的水下图像去噪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Image generation from bounding box-represented senmantic label;Congying Liu et al.;《Computers & Graphic》;20190413;第32-40页 *

Also Published As

Publication number Publication date
CN110414593A (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
CN113569789B (zh) 图像处理方法及装置、处理器、电子设备及存储介质
CN109816009B (zh) 基于图卷积的多标签图像分类方法、装置及设备
CN111402143B (zh) 图像处理方法、装置、设备及计算机可读存储介质
CN109492627B (zh) 一种基于全卷积网络的深度模型的场景文本擦除方法
CN109934198B (zh) 人脸识别方法及装置
CN109886330B (zh) 文本检测方法、装置、计算机可读存储介质和计算机设备
CN112598045A (zh) 训练神经网络的方法、图像识别方法及图像识别装置
CN111275784A (zh) 生成图像的方法和装置
CN110009018B (zh) 一种图像生成方法、装置以及相关设备
CN109977832B (zh) 一种图像处理方法、装置及存储介质
CN110728319B (zh) 一种图像生成方法、装置以及计算机存储介质
CN111861867B (zh) 图像背景虚化方法和装置
CN116580257A (zh) 特征融合模型训练及样本检索方法、装置和计算机设备
CN113449851A (zh) 数据处理方法及设备
CN110414593B (zh) 图像处理方法及装置、处理器、电子设备及存储介质
CN110874575A (zh) 一种脸部图像处理方法及相关设备
CN112418256A (zh) 分类、模型训练、信息搜索方法、系统及设备
CN117094362A (zh) 一种任务处理方法及相关装置
CN114841340A (zh) 深度伪造算法的识别方法、装置、电子设备及存储介质
CN116883708A (zh) 图像分类方法、装置、电子设备及存储介质
CN114332993A (zh) 人脸识别方法、装置、电子设备及计算机可读存储介质
CN113822291A (zh) 一种图像处理方法、装置、设备及存储介质
CN114299105A (zh) 图像处理方法、装置、计算机设备及存储介质
CN112070022A (zh) 人脸图像识别方法、装置、电子设备和计算机可读介质
CN113538214A (zh) 一种妆容迁移的控制方法、系统和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant