CN116703700A - 图像处理方法、装置、设备及存储介质 - Google Patents
图像处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116703700A CN116703700A CN202210173342.8A CN202210173342A CN116703700A CN 116703700 A CN116703700 A CN 116703700A CN 202210173342 A CN202210173342 A CN 202210173342A CN 116703700 A CN116703700 A CN 116703700A
- Authority
- CN
- China
- Prior art keywords
- pixel
- image
- transformation
- information
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 230000009466 transformation Effects 0.000 claims abstract description 242
- 238000012545 processing Methods 0.000 claims abstract description 37
- 239000011159 matrix material Substances 0.000 claims description 36
- 230000003287 optical effect Effects 0.000 claims description 36
- 238000000034 method Methods 0.000 claims description 35
- 238000012549 training Methods 0.000 claims description 28
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 22
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 230000003042 antagnostic effect Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 description 53
- 238000010586 diagram Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000001815 facial effect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 210000000697 sensory organ Anatomy 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本公开实施例公开了一种图像处理方法、装置、设备及存储介质。将原始图像输入生成对抗网络的生成器中,获得中间图像和第一像素变换信息;根据所述第一像素变换信息对所述中间图像进行像素变换,获得目标图像。
Description
技术领域
本公开实施例涉及图像处理技术领域,尤其涉及一种图像处理方法、装置、设备及存储介质。
背景技术
目前的图像应用程序(Application,APP)有许多基于图像算法的特效玩法,有的特效玩法的效果会对脸型和五官进行改动,比如瘦脸,变小孩,变胖等等。现有方案,当原图和效果图之间的形变差异太大时,包括脸部边缘轮廓和五官大小、位置,最终结果图的脸部边缘和五官位置就会出现虚影,这是因为效果的形变程度太大,传统网络学习不到这么大的形变。
发明内容
本公开实施例提供一种图像处理方法、装置、设备及存储介质,以实现对面部图像的大幅度形变处理,可以克服大形变带来的虚影问题,从而提高面部图像形变的效果。
第一方面,本公开实施例提供了一种图像处理方法,包括:
将原始图像输入生成对抗网络的生成器中,获得中间图像和第一像素变换信息;
根据所述第一像素变换信息对所述中间图像进行像素变换,获得目标图像。
进一步地,所述第一像素变换信息包括光流变换信息、仿射变换信息和/或透视变换信息。
进一步地,所述光流变换信息由光流变换矩阵表示,所述光流变换矩阵中每个元素表征所述中间图像中与该元素对应的像素和所述目标图像中与该元素对应的像素的位置偏移量,
其中,根据所述第一像素变换信息对所述中间图像进行像素变换,获得所述目标图像,包括:
遍历所述光流变换矩阵的元素,根据遍历到的元素的位置偏移量和中间图像中与该元素对应的像素的当前位置信息来确定该像素的目标位置信息;
获取所述中间图像中与所述当前位置信息对应的当前像素值以及与所述目标位置信息对应的目标像素值;
将所述当前像素值替换为所述目标像素值,以获得目标图像。
进一步地,所述仿射变换信息为具有第一预定尺寸的矩阵,
其中,根据所述第一像素变换信息对所述中间图像进行像素变换,获得目标图像,包括:
针对所述中间图像中的每个像素,将该像素的当前位置信息左乘所述第一像素变换信息,获得该像素的目标位置信息;以及,
将该像素的像素值转移至与所述目标位置信息对应的位置,获得目标图像。
进一步地,所述透视变换信息为具有第二预定尺寸的矩阵,
其中,根据所述第一像素变换信息对所述中间图像进行像素变换,获得目标图像,包括:
针对所述中间图像中的每个像素,将该像素的当前位置信息左乘所述第一像素变换信息,获得该像素的目标位置信息;以及,
将该像素的像素值转移至与所述目标位置信息对应的位置,获得目标图像。
进一步地,所述生成对抗网络还包括判别器;所述生成对抗神经网络的训练方式为:
获取原始图像样本和对应的结果图像样本;
将所述原始图像样本输入所述生成器中,获得中间图像样本和第二像素变换信息;
根据所述第二像素变换信息对所述中间图像样本进行像素变换,获得生成图;
基于所述生成图、所述原始图像样本和所述结果图像样本对所述生成器和所述判别器进行交替迭代训练。
进一步地,基于所述生成图、所述原始图像样本和所述结果图像样本对所述生成器和所述判别器进行交替迭代训练,包括:
将所述生成图和所述原始图像样本组成负样本对,将所述结果图像样本和所述原始图像样本组成正样本对;
将所述正样本对输入所述判别器,获得第一判别结果;将所述负样本对输入所述判别器,获得第二判别结果;
基于所述第一判别结果和所述第二判别结果来确定第一损失函数;
根据所述生成图和所述结果图像样本确定第二损失函数;
对所述第一损失函数和所述第二损失函数进行线性叠加,获得目标损失函数;以及
基于所述目标损失函数对所述生成器和所述判别器进行交替迭代训练。
第二方面,本公开实施例还提供了一种图像处理装置,包括:
第一像素变换信息获取模块,用于将原始图像输入生成对抗网络的生成器中,获得中间图像和第一像素变换信息;
像素变换模块,用于根据所述第一像素变换信息对所述中间图像进行像素变换,获得目标图像。
进一步地,所述第一像素变换信息包括光流变换信息、仿射变换信息和/或透视变换信息。
进一步地,所述光流变换信息由光流变换矩阵表示,所述光流变换矩阵中每个元素表征所述中间图像中与该元素对应的像素和所述目标图像中与该元素对应的像素的位置偏移量,
其中,所述像素变换模块,还用于:
遍历所述光流变换矩阵的元素,根据遍历到的元素的位置偏移量和中间图像中与该元素对应的像素的当前位置信息来确定该像素的目标位置信息;
获取所述中间图像中与所述当前位置信息对应的当前像素值以及与所述目标位置信息对应的目标像素值;
将所述当前像素值替换为所述目标像素值,以获得目标图像。
进一步地,所述仿射变换信息为具有第一预定尺寸的矩阵,
其中,所述像素变换模块,还用于:
针对所述中间图像中的每个像素,将该像素的当前位置信息左乘所述第一像素变换信息,获得该像素的目标位置信息;以及,
将该像素的像素值转移至与所述目标位置信息对应的位置,获得目标图像。
进一步地,所述透视变换信息为具有第二预定尺寸的矩阵,
其中,所述像素变换模块,还用于:
针对所述中间图像中的每个像素,将该像素的当前位置信息左乘所述第一像素变换信息,获得该像素的目标位置信息;以及,
将该像素的像素值转移至与所述目标位置信息对应的位置,获得目标图像。
进一步地,所述生成对抗网络还包括判别器;还包括:生成对抗神经网络训练模块,用于:
获取原始图像样本和对应的结果图像样本;
将所述原始图像样本输入所述生成器中,获得中间图像样本和第二像素变换信息;
根据所述第二像素变换信息对所述中间图像样本进行像素变换,获得生成图;
基于所述生成图、所述原始图像样本和所述结果图像样本对所述生成器和所述判别器进行交替迭代训练。
进一步地,所述生成对抗神经网络训练模块,还用于:
将所述生成图和所述原始图像样本组成负样本对,将所述结果图像样本和所述原始图像样本组成正样本对;
将所述正样本对输入所述判别器,获得第一判别结果;将所述负样本对输入所述判别器,获得第二判别结果;
基于所述第一判别结果和所述第二判别结果来确定第一损失函数;
根据所述生成图和所述结果图像样本确定第二损失函数;
对所述第一损失函数和所述第二损失函数进行线性叠加,获得目标损失函数;以及
基于所述目标损失函数对所述生成器和所述判别器进行交替迭代训练。
第三方面,本公开实施例还提供了一种电子设备,所述电子设备包括:
一个或多个处理装置;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理装置执行,使得所述一个或多个处理装置实现如本公开实施例所述的图像处理方法。
第四方面,本公开实施例还提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现如本公开实施例所述的图像处理方法。
本公开实施例公开了一种图像处理方法、装置、设备及存储介质。将原始图像输入生成对抗网络的生成器中,获得中间图像和第一像素变换信息;根据第一像素变换信息对中间图像进行像素变换,获得目标图像。本公开实施例提供的图像处理方法,利用生成对抗网络输出的第一像素变换信息对中间图像进行像素变换,获得目标图像,实现了对图像的大幅度形变处理,可以克服形变带来的虚影问题,从而提高图像形变的效果。
附图说明
图1是本公开实施例中的一种图像处理方法的流程图;
图2是本公开实施例中的对中间图像进行光流变换的示例图;
图3是本公开实施例中的训练生成对抗神经网络的示例图;
图4是本公开实施例中的一种生成器的网络结构示例图;
图5是本公开实施例中的一种图像处理装置的结构示意图;
图6是本公开实施例中的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
图1为本公开实施例提供的一种图像处理方法的流程图,本实施例可适用于对面部图像进行形变处理的情况,该方法可以由图像处理装置来执行,该装置可由硬件和/或软件组成,并一般可集成在具有图像处理功能的设备中,该设备可以是服务器、移动终端或服务器集群等电子设备。如图1所示,该方法具体包括如下步骤:
S110,将原始图像输入生成对抗网络的生成器中,获得中间图像和第一像素变换信息。
其中,原始图像可以理解为包含人体面部且要进行变形处理的图像,可以是用户通过移动终端的摄像头采集的,或者从本地数据库或者服务端数据库获取的。其中,生成对抗网络可以是训练好的像素到像素(pix2pix)的生成对抗神经网络,且生成器的输出为多通道的数据。本实施例中,生成器的输出包含图像数据和像素变换信息,其中,图像数据为三通道数据,像素变换信息为1通道或者2通道的数据,生成器的输出通道数量可以根据实际需求进行调整。
其中,第一像素变换信息可以是光流变换信息、仿射变换信息和/或透视变换信息。如果是光流变换信息,则第一像素变换信息为2通道的数据,每个通道由图像尺寸的矩阵表示,这两个通道表示像素点的位置信息(X,Y)。若是仿射变换信息,则第一像素变换信息为1通道数据,该通道数据为包含六个元素的向量。若是透视变换信息,则第一像素变换信息为1通道数据,该通道数据为3*3的矩阵或者包含九个元素的向量。本实施例中,第一像素变换信息可以是不同的变换信息,可以实现对面部图像不同类型的形变处理,从而提高形变的多样性。
S120,根据第一像素变换信息对中间图像进行像素变换,获得目标图像。
其中,第一像素变换信息包括光流变换信息、仿射变换信息或透视变换信息,对于不同的变换信息,进行像素变换的方式也不同。
具体的,若第一像素变换信息为光流变换信息,则光流变换信息由光流变换矩阵表示,光流变换矩阵中每个元素表征中间图像中与该元素对应的像素和目标图像中与该元素对应的像素的位置偏移量。根据第一像素变换信息对中间图像进行像素变换,获得目标图像的方式可以是:遍历光流变换矩阵的元素,根据遍历到的元素的位置偏移量和中间图像中与该元素对应的像素的当前位置信息来确定该像素的目标位置信息;获取中间图像中与当前位置信息对应的当前像素值以及与目标位置信息对应的目标像素值;将当前像素值替换为目标像素值,以获得目标图像。
其中,光流变换矩阵中每个元素可以表示为(Δx,Δy),表示两个位置信息的偏移量。根据遍历到的元素的位置偏移量和中间图像中与该元素对应的像素的当前位置信息来确定该像素的目标位置信息的方式可以是:将当前位置信息与位置偏移量进行累加,获得目标位置信息;即将当前位置的横坐标与横坐标偏移量Δx累加,获得目标位置的横坐标,将当前位置的纵坐标与纵坐标偏移量Δy累加,获得目标位置的纵坐标。
具体的,假设遍历到的当前位置信息为(x1,y1),且当前位置上的位置偏移量为(Δx,Δy),则目标位置信息为(x1+Δx,y1+Δy),则将中间图像中当前位置(x1,y1)上的像素点的像素值替换为中间图像中(x1+Δx,y1+Δy)位置处像素点的像素值,对于中间图像中每个像素点执行上述操作,从而获得目标图像。示例性的,图2是本实施例中对中间图像进行光流变换的示例图。如图2所示,图2中左侧为中间图像,右侧目标图像。左侧图中嘴角处经过光流变换后在右侧图中变为脸部。本公开实施例,通过光流变换信息对中间图像进行像素变换,可以提高目标图像的清晰度。
可选的,仿射变换信息为具有第一预定尺寸的矩阵;根据第一像素变换信息对中间图像进行像素变换,获得目标图像的过程可以是:针对中间图像中的每个像素,将该像素的当前位置信息左乘第一像素变换信息,获得该像素的目标位置信息;以及,将该像素的像素值转移至与目标位置信息对应的位置,获得目标图像。
其中,若第一像素变换信息为仿射变换信息,则第一预定尺寸为3*3。仿射变换信息可以表示为透视变换信息可以表示为/>从上述可以看出,对于仿射变换矩阵,第三行为已知量,因此生成器输出的仿射变换信息为包含六个元素的向量;对于透视变换矩阵,每个元素均为未知量,因此生成器输出的透视变换信息为包括九个元素的向量,或者3*3的矩阵。
本实施例中,对于中间图像的每个像素点,假设当前像素点的位置信息表示为(x,y),当前像素点的目标位置信息表示为(x1,y1)。假设第一像素变换信息为仿射变换信息,则根据第一像素变换信息对中间图像进行像素变换可以表示为:即将该像素点的当前位置信息左乘仿射变换信息,获得该像素点的目标位置信息。在获得该像素点的目标位置信息,将该像素点的像素值转移至目标位置信息对应的位置,对中间图像中的每个像素点执行上述操作,从而实现对每个像素点的仿射变换,获得目标图像。本公开实施例,通过仿射变换信息对中间图像进行像素变换,可以提高目标图像的清晰度。
可选的,透视变换信息为具有第二预定尺寸的矩阵。其中,根据第一像素变换信息对中间图像进行像素变换,获得目标图像的方式可以是:针对中间图像中的每个像素,将该像素的当前位置信息左乘第一像素变换信息,获得该像素的目标位置信息;以及,将该像素的像素值转移至与目标位置信息对应的位置,获得目标图像。
其中,第一像素变换信息为透视变换信息,则第二预定尺寸为3*3。根据第一像素变换信息对中间图像进行像素变换可以表示为:即将该像素点的当前位置信息左乘透视变换信息,获得该像素点的目标位置信息。获得该像素点的目标位置信息,将该像素点的像素值转移至目标位置信息对应的位置,对中间图像中的每个像素点执行上述操作,从而实现对每个像素点的透视变换,获得目标图像。本公开实施例,通过透视变换信息对中间图像进行像素变换,可以提高目标图像的清晰度。
可选的,生成对抗网络还包括判别器;生成对抗神经网络的训练方式为:获取原始图像样本和对应的结果图像样本;将原始图像样本输入生成器中,获得中间图像样本和第二像素变换信息;根据第二像素变换信息对中间图像样本进行像素变换,获得生成图;基于生成图、原始图像样本和结果图像样本对生成器和判别器进行交替迭代训练。
其中,原始图像样本可以是未经过形变处理的包含有人体面部的图像,结果图像样本可以理解为与原始图像样本对应的经过形变处理的高质量图像,即结果图像样本是对原始图像样本经过形变处理获得的图。本实施例中,根据第二像素变换信息对中间图像样本进行像素变换的方式与上述实施例中根据第一像素变换信息对中间图像进行像素变换的方式相同,此处不再赘述。
具体的,对生成器和判别器进行交替迭代训练可以理解为:首先训练一次判别器,在判别器训练后的基础上训练一次生成器,再在生成器训练后的基础上训练一次判别器,以此类推,直到满足训练完成条件。本实施例中,基于生成图、原始图像样本和结果图像样本对生成器和判别器进行交替迭代训练,可以提高生成器生成中间图像和像素变换信息的精度。
本实施例中,基于生成图、原始图像样本和结果图像样本对生成器和判别器进行交替迭代训练的过程可以是:将生成图和原始图像样本组成负样本对,将结果图像样本和原始图像样本组成正样本对;将正样本对输入判别器,获得第一判别结果;将负样本对输入判别器,获得第二判别结果;基于第一判别结果和第二判别结果确定第一损失函数;根据生成图和结果图像样本确定第二损失函数;对第一损失函数和第二损失函数进行线性叠加,获得目标损失函数;基于目标损失函数对生成器和判别器进行交替迭代训练。
其中,第一判别结果和第二判别结果可以是0-1之间的值,用于表征样本对之间的匹配度。对于正样本对,其真实判别结果为0,对于负样本对,其真实判别结果为1。具体的,基于第一判别结果和第二判别结果确定第一损失函数的方式可以是:计算第一判别结果和正样本对对应的真实判别结果的第一差值,计算第二判别结果和负样本对对应的真实判别结果的第二差值,将第一差值和第二差值分别求对数后进行累加,获得第一损失函数。
其中,第二损失函数可以由生成图和结果图像样本之间的差值确定。具体的,将所有原始图像样本输入生成对抗网络中,获得目标损失函数,将目标损失函数反向传输以调节判别器的参数;基于调参后的判别器,将所有原始图像样本输入生成对抗网络中,获得目标损失函数,由目标损失函数反向传输以调节生成器的参数;再基于调参后生成器,将所有原始图像样本输入生成对抗网络中,获得目标损失函数,由目标损失函数反向传输以调节生成器的参数。以此交替迭代训练生成器和判别器,直到满足训练终止条件。示例性的,图3是本实施例中训练生成对抗神经网络的示例图,如图3所示,将原始图像样本输入生成器G中,获得中间图像样本和第二像素变换信息,然后将中间图像样本和第二像素变换信息输入像素变换模块,获得生成图,再然后将生成图和原始图像样本配对输入判别器D中,获得第二判别结果,将原始图像样本和结果图图像样本配对输入判别器D中,获得第一判别结果,基于第一判别结果和第二判别结果确定第一损失函数;根据生成图和结果图像样本确定第二损失函数;对第一损失函数和第二损失函数进行线性叠加,获得目标损失函数,最后基于目标损失函数生成器和判别器进行交替迭代训练。本实施例中,基于目标损失函数对生成器和判别器进行交替迭代训练,用于生成图和结果图像样本之间的偏差,从而提高生成器的精度。
可选的,生成器包括多个网络层和至少一个像素变换模块;像素变换模块设置于两个网络层之间;像素变换模块的前向相邻网络层输出特征图及第三像素变换信息;像素变换模块用于根据第三像素变换信息对特征图进行像素变换,输出变换后的特征图;变换后的特征图输入像素变换模块的后向相邻网络层。示例性的,图4是本实施例中的一种生成器的网络结构示例图,如图4所示,该生成器中包含有4个网络层,其中,网络层1和网络层2之间设置有一个像素变换模块,网络层3和网络层4之间设置有一个像素变换模块。对于第一个像素变换模块,用于根据网络层1输出的第三像素变换信息对网络层1输出的特征图进行像素变换,并将变换后的特征图输入网络层2中。对于第二个像素变换模块,用于根据网络层3输出的第三像素变换信息对网络层3输出的特征图进行像素变换,并将变换后的特征图输入网络层4中。本实施例中,将像素变换模块内嵌于生成器的网络层之间,在神经网络内实现对面部图像的形变处理,可以减少工作量。
本公开实施例的技术方案,将原始图像输入生成对抗网络的生成器中,获得中间图像和第一像素变换信息;根据第一像素变换信息对中间图像进行像素变换,获得目标图像。本公开实施例提供的图像处理方法,利用生成对抗网络输出的第一像素变换信息对中间图像进行像素变换,获得目标图像,实现了对图像的大幅度形变处理,可以克服形变带来的虚影问题,从而提高图像形变的效果。
图5是本公开实施例提供的一种图像处理装置的结构示意图。如图5所示,该装置包括:
第一像素变换信息获取模块210,用于将原始图像输入生成对抗网络的生成器中,获得中间图像和第一像素变换信息;
像素变换模块220,用于根据第一像素变换信息对中间图像进行像素变换,获得目标图像
可选的,第一像素变换信息包括光流变换信息、仿射变换信息和/或透视变换信息。
可选的,光流变换信息由光流变换矩阵表示,光流变换矩阵中每个元素表征中间图像中与该元素对应的像素和目标图像中与该元素对应的像素的位置偏移量,
其中,像素变换模块220,还用于:
遍历光流变换矩阵的元素,根据遍历到的元素的位置偏移量和中间图像中与该元素对应的像素的当前位置信息来确定该像素的目标位置信息;
获取中间图像中与当前位置信息对应的当前像素值以及与目标位置信息对应的目标像素值;
将当前像素值替换为目标像素值,以获得目标图像。
可选的,仿射变换信息为具有第一预定尺寸的矩阵,
其中,像素变换模块220,还用于:
针对中间图像中的每个像素,将该像素的当前位置信息左乘第一像素变换信息,获得该像素的目标位置信息;以及,
将该像素的像素值转移至与目标位置信息对应的位置,获得目标图像。
可选的,透视变换信息为具有第二预定尺寸的矩阵,
其中,像素变换模块220,还用于:
针对中间图像中的每个像素,将该像素的当前位置信息左乘第一像素变换信息,获得该像素的目标位置信息;以及,
将该像素的像素值转移至与目标位置信息对应的位置,获得目标图像。
可选的,生成对抗网络还包括判别器;还包括:生成对抗神经网络训练模块,用于:
获取原始图像样本和对应的结果图像样本;
将原始图像样本输入生成器中,获得中间图像样本和第二像素变换信息;
根据第二像素变换信息对中间图像样本进行像素变换,获得生成图;
基于生成图、原始图像样本和结果图像样本对生成器和判别器进行交替迭代训练。
进一步地,生成对抗神经网络训练模块,还用于:
将生成图和原始图像样本组成负样本对,将结果图像样本和原始图像样本组成正样本对;
将正样本对输入判别器,获得第一判别结果;将负样本对输入判别器,获得第二判别结果;
基于第一判别结果和第二判别结果来确定第一损失函数;
根据生成图和结果图像样本确定第二损失函数;
对第一损失函数和第二损失函数进行线性叠加,获得目标损失函数;以及
基于目标损失函数对生成器和判别器进行交替迭代训练。
上述装置可执行本公开前述所有实施例所提供的方法,具备执行上述方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本公开前述所有实施例所提供的方法。
下面参考图6,其示出了适于用来实现本公开实施例的电子设备300的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端,或者各种形式的服务器,如独立服务器或者服务器集群。图6示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,电子设备300可以包括处理装置(例如中央处理器、图形处理器等)301,其可以根据存储在只读存储装置(ROM)302中的程序或者从存储装置305加载到随机访问存储装置(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中,还存储有电子设备300操作所需的各种程序和数据。处理装置301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
通常,以下装置可以连接至I/O接口305:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置306;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置307;包括例如磁带、硬盘等的存储装置308;以及通信装置309。通信装置309可以允许电子设备300与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备300,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行词语的推荐方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置309从网络上被下载和安装,或者从存储装置305被安装,或者从ROM 302被安装。在该计算机程序被处理装置301执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:将原始图像输入生成对抗网络的生成器中,获得中间图像和第一像素变换信息;根据所述第一像素变换信息对所述中间图像进行像素变换,获得目标图像。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本公开实施例的一个或多个实施例,本公开实施例公开了一种图像处理方法,包括:
将原始图像输入生成对抗网络的生成器中,获得中间图像和第一像素变换信息;
根据所述第一像素变换信息对所述中间图像进行像素变换,获得目标图像。
进一步地,所述第一像素变换信息包括光流变换信息、仿射变换信息和/或透视变换信息。
进一步地,所述光流变换信息由光流变换矩阵表示,所述光流变换矩阵中每个元素表征所述中间图像中与该元素对应的像素和所述目标图像中与该元素对应的像素的位置偏移量,
其中,根据所述第一像素变换信息对所述中间图像进行像素变换,获得所述目标图像,包括:
遍历所述光流变换矩阵的元素,根据遍历到的元素的位置偏移量和中间图像中与该元素对应的像素的当前位置信息来确定该像素的目标位置信息;
获取所述中间图像中与所述当前位置信息对应的当前像素值以及与所述目标位置信息对应的目标像素值;
将所述当前像素值替换为所述目标像素值,以获得目标图像。
进一步地,所述仿射变换信息为具有第一预定尺寸的矩阵,
其中,根据所述第一像素变换信息对所述中间图像进行像素变换,获得目标图像,包括:
针对所述中间图像中的每个像素,将该像素的当前位置信息左乘所述第一像素变换信息,获得该像素的目标位置信息;以及,
将该像素的像素值转移至与所述目标位置信息对应的位置,获得目标图像。
进一步地,所述透视变换信息为具有第二预定尺寸的矩阵,
其中,根据所述第一像素变换信息对所述中间图像进行像素变换,获得目标图像,包括:
针对所述中间图像中的每个像素,将该像素的当前位置信息左乘所述第一像素变换信息,获得该像素的目标位置信息;以及,
将该像素的像素值转移至与所述目标位置信息对应的位置,获得目标图像。
进一步地,所述生成对抗网络还包括判别器;所述生成对抗神经网络的训练方式为:
获取原始图像样本和对应的结果图像样本;
将所述原始图像样本输入所述生成器中,获得中间图像样本和第二像素变换信息;
根据所述第二像素变换信息对所述中间图像样本进行像素变换,获得生成图;
基于所述生成图、所述原始图像样本和所述结果图像样本对所述生成器和所述判别器进行交替迭代训练。
进一步地,基于所述生成图、所述原始图像样本和所述结果图像样本对所述生成器和所述判别器进行交替迭代训练,包括:
将所述生成图和所述原始图像样本组成负样本对,将所述结果图像样本和所述原始图像样本组成正样本对;
将所述正样本对输入所述判别器,获得第一判别结果;将所述负样本对输入所述判别器,获得第二判别结果;
基于所述第一判别结果和所述第二判别结果来确定第一损失函数;
根据所述生成图和所述结果图像样本确定第二损失函数;
对所述第一损失函数和所述第二损失函数进行线性叠加,获得目标损失函数;以及
基于所述目标损失函数对所述生成器和所述判别器进行交替迭代训练。
注意,上述仅为本公开的较佳实施例及所运用技术原理。本领域技术人员会理解,本公开不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本公开的保护范围。因此,虽然通过以上实施例对本公开进行了较为详细的说明,但是本公开不仅仅限于以上实施例,在不脱离本公开构思的情况下,还可以包括更多其他等效实施例,而本公开的范围由所附的权利要求范围决定。
Claims (11)
1.一种图像处理方法,其特征在于,包括:
将原始图像输入生成对抗网络的生成器中,获得中间图像和第一像素变换信息;
根据所述第一像素变换信息对所述中间图像进行像素变换,获得目标图像。
2.根据权利要求1所述的方法,其特征在于,所述第一像素变换信息包括光流变换信息、仿射变换信息和/或透视变换信息。
3.根据权利要求2所述的方法,其特征在于,所述光流变换信息由光流变换矩阵表示,所述光流变换矩阵中每个元素表征所述中间图像中与该元素对应的像素和所述目标图像中与该元素对应的像素的位置偏移量,
其中,根据所述第一像素变换信息对所述中间图像进行像素变换,获得所述目标图像,包括:
遍历所述光流变换矩阵的元素,根据遍历到的元素的位置偏移量和中间图像中与该元素对应的像素的当前位置信息来确定该像素的目标位置信息;
获取所述中间图像中与所述当前位置信息对应的当前像素值以及与所述目标位置信息对应的目标像素值;
将所述当前像素值替换为所述目标像素值,以获得目标图像。
4.根据权利要求2所述的方法,其特征在于,所述仿射变换信息为具有第一预定尺寸的矩阵,
其中,根据所述第一像素变换信息对所述中间图像进行像素变换,获得目标图像,包括:
针对所述中间图像中的每个像素,将该像素的当前位置信息左乘所述第一像素变换信息,获得该像素的目标位置信息;以及,
将该像素的像素值转移至与所述目标位置信息对应的位置,获得目标图像。
5.根据权利要求2所述的方法,其特征在于,所述透视变换信息为具有第二预定尺寸的矩阵,
其中,根据所述第一像素变换信息对所述中间图像进行像素变换,获得目标图像,包括:
针对所述中间图像中的每个像素,将该像素的当前位置信息左乘所述第一像素变换信息,获得该像素的目标位置信息;以及,
将该像素的像素值转移至与所述目标位置信息对应的位置,获得目标图像。
6.根据权利要求1所述的方法,其特征在于,所述生成对抗网络还包括判别器;所述生成对抗神经网络的训练方式为:
获取原始图像样本和对应的结果图像样本;
将所述原始图像样本输入所述生成器中,获得中间图像样本和第二像素变换信息;
根据所述第二像素变换信息对所述中间图像样本进行像素变换,获得生成图;
基于所述生成图、所述原始图像样本和所述结果图像样本对所述生成器和所述判别器进行交替迭代训练。
7.根据权利要求6所述的方法,其特征在于,基于所述生成图、所述原始图像样本和所述结果图像样本对所述生成器和所述判别器进行交替迭代训练,包括:
将所述生成图和所述原始图像样本组成负样本对,将所述结果图像样本和所述原始图像样本组成正样本对;
将所述正样本对输入所述判别器,获得第一判别结果;将所述负样本对输入所述判别器,获得第二判别结果;
基于所述第一判别结果和所述第二判别结果来确定第一损失函数;
根据所述生成图和所述结果图像样本确定第二损失函数;
对所述第一损失函数和所述第二损失函数进行线性叠加,获得目标损失函数;以及
基于所述目标损失函数对所述生成器和所述判别器进行交替迭代训练。
8.根据权利要求1所述的方法,其特征在于,所述生成器包括网络层和像素变换模块;所述像素变换模块设置于两个网络层之间;所述像素变换模块的前向相邻网络层输出特征图及第三像素变换信息;所述像素变换模块用于根据所述第三像素变换信息对所述特征图进行像素变换,输出变换后的特征图;所述变换后的特征图输入所述像素变换模块的后向相邻网络层。
9.一种图像处理装置,其特征在于,包括:
第一像素变换信息获取模块,用于将原始图像输入生成对抗网络的生成器中,获得中间图像和第一像素变换信息;
像素变换模块,用于根据所述第一像素变换信息对所述中间图像进行像素变换,获得目标图像。
10.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理装置;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理装置执行,使得所述一个或多个处理装置实现如权利要求1-8中任一所述的图像处理方法。
11.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现如权利要求1-8中任一所述的图像处理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210173342.8A CN116703700A (zh) | 2022-02-24 | 2022-02-24 | 图像处理方法、装置、设备及存储介质 |
PCT/CN2023/076357 WO2023160448A1 (zh) | 2022-02-24 | 2023-02-16 | 图像处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210173342.8A CN116703700A (zh) | 2022-02-24 | 2022-02-24 | 图像处理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116703700A true CN116703700A (zh) | 2023-09-05 |
Family
ID=87764828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210173342.8A Pending CN116703700A (zh) | 2022-02-24 | 2022-02-24 | 图像处理方法、装置、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN116703700A (zh) |
WO (1) | WO2023160448A1 (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569789B (zh) * | 2019-07-30 | 2024-04-16 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、处理器、电子设备及存储介质 |
CN113486688A (zh) * | 2020-05-27 | 2021-10-08 | 海信集团有限公司 | 一种人脸识别方法及智能设备 |
CN111797753B (zh) * | 2020-06-29 | 2024-02-27 | 北京灵汐科技有限公司 | 图像驱动模型的训练、图像生成方法、装置、设备及介质 |
CN114022759A (zh) * | 2021-09-30 | 2022-02-08 | 北京临近空间飞行器系统工程研究所 | 一种融合神经网络时空特性的空域有限像素目标检测系统及方法 |
-
2022
- 2022-02-24 CN CN202210173342.8A patent/CN116703700A/zh active Pending
-
2023
- 2023-02-16 WO PCT/CN2023/076357 patent/WO2023160448A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023160448A1 (zh) | 2023-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110276346B (zh) | 目标区域识别模型训练方法、装置和计算机可读存储介质 | |
CN112258512B (zh) | 点云分割方法、装置、设备和存储介质 | |
CN111915480B (zh) | 生成特征提取网络的方法、装置、设备和计算机可读介质 | |
CN112668588B (zh) | 车位信息生成方法、装置、设备和计算机可读介质 | |
WO2023160513A1 (zh) | 3d素材的渲染方法、装置、设备及存储介质 | |
CN111414879A (zh) | 人脸遮挡程度识别方法、装置、电子设备及可读存储介质 | |
CN114494071A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN112418249A (zh) | 掩膜图像生成方法、装置、电子设备和计算机可读介质 | |
CN114004905B (zh) | 人物风格形象图的生成方法、装置、设备及存储介质 | |
WO2023138468A1 (zh) | 虚拟物体的生成方法、装置、设备及存储介质 | |
CN111862351A (zh) | 定位模型优化方法、定位方法和定位设备 | |
CN111680754B (zh) | 图像分类方法、装置、电子设备及计算机可读存储介质 | |
CN116703700A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN111737575B (zh) | 内容分发方法、装置、可读介质及电子设备 | |
CN111798385B (zh) | 图像处理方法及装置、计算机可读介质和电子设备 | |
CN114723600A (zh) | 美妆特效的生成方法、装置、设备、存储介质和程序产品 | |
CN110796144B (zh) | 车牌检测方法、装置、设备及存储介质 | |
CN113808050B (zh) | 3d点云的去噪方法、装置、设备及存储介质 | |
CN112233207A (zh) | 图像处理方法、装置、设备和计算机可读介质 | |
CN110717467A (zh) | 头部姿势的估计方法、装置、设备及存储介质 | |
CN111915532A (zh) | 图像追踪方法、装置、电子设备及计算机可读介质 | |
CN114863025B (zh) | 三维车道线生成方法、装置、电子设备和计算机可读介质 | |
CN115170674B (zh) | 基于单张图像的相机主点标定方法、装置、设备和介质 | |
CN111738899B (zh) | 用于生成水印的方法、装置、设备和计算机可读介质 | |
CN111797932B (zh) | 图像分类方法、装置、设备和计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |