CN115187846A - 网络训练方法和图像处理方法、装置、设备以及存储介质 - Google Patents

网络训练方法和图像处理方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN115187846A
CN115187846A CN202210926739.XA CN202210926739A CN115187846A CN 115187846 A CN115187846 A CN 115187846A CN 202210926739 A CN202210926739 A CN 202210926739A CN 115187846 A CN115187846 A CN 115187846A
Authority
CN
China
Prior art keywords
image
model
generated
real
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210926739.XA
Other languages
English (en)
Inventor
张顺意
白国财
王超锋
骆遥
种道晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202210926739.XA priority Critical patent/CN115187846A/zh
Publication of CN115187846A publication Critical patent/CN115187846A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7753Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种网络训练方法和图像处理方法、装置、设备以及存储介质,涉及图像处理技术领域,尤其涉及深度学习、人工智能、计算机视觉等领域。具体实现方案为:获取多个样本图像,以及各个样本图像对应的蒙版图像;获取多个真实图像,真实图像为不包含目标对象的图像;针对每一样本图像,将样本图像和样本图像对应的蒙版图像输入生成对抗网络的生成模型,通过生成模型输出生成图像;将生成图像和真实图像输入判别模型,通过判别模型得到针对生成图像和真实图像的输出;基于输出调整模型参数,得到训练后的生成对抗网络,生成对抗网络包括训练后的生成模型。本公开能够实现利用生成对抗网络的生成模型对图像中目标对象的抹除。

Description

网络训练方法和图像处理方法、装置、设备以及存储介质
技术领域
本公开涉及图像处理技术领域,尤其涉及深度学习、人工智能、计算机视觉等领域。
背景技术
图像处理过程中,有对图像中某些信息进行抹除的需求,例如,需要抹除图像的车辆、人等物体。
发明内容
本公开提供了一种图像处理方法、装置、设备以及存储介质。
根据本公开的第一方面,提供了一种生成对抗网络训练方法,所述生成对抗网络包括生成模型和判别模型,包括:
获取多个样本图像,以及各个样本图像对应的蒙版图像;
获取多个真实图像,所述真实图像为不包含目标对象的图像;
针对每一样本图像,将所述样本图像和所述样本图像对应的蒙版图像输入所述生成对抗网络的生成模型,通过所述生成模型输出生成图像;
将所述生成图像和所述真实图像输入所述判别模型,通过所述判别模型得到针对所述生成图像和所述真实图像的输出;
基于所述输出调整模型参数,得到训练后的生成对抗网络,所述生成对抗网络包括训练后的生成模型。
根据本公开的第二方面,提供了一种图像处理方法,包括:
获取待处理图像;
对所述待处理图像进行图像识别,得到所述待处理图像中的目标对象;
确定针对所述目标对象的蒙版图像;
将所述待处理图像和所述蒙版图像输入生成模型,通过所述生成模型输出抹除后图像,所述抹除后图像表示从所述待处理图像中抹除所述目标对象后的图像,其中,所述生成模型是生成对抗网络中的生成模型,所述生成对抗网络通过上述第一方面所述的生成对抗网络训练方法训练得到。
根据本公开的第三方面,提供了一种生成对抗网络训练装置,所述生成对抗网络包括生成模型和判别模型,所述装置包括:
获取模块,用于获取多个样本图像,以及各个样本图像对应的蒙版图像;获取多个真实图像,所述真实图像为不包含目标对象的图像;
生成模块,用于针对每一样本图像,将所述样本图像和所述样本图像对应的蒙版图像输入所述生成模型,通过所述生成模型输出生成图像;
判别模块,用于将所述生成图像和所述真实图像输入所述判别模型,通过所述判别模型得到针对所述生成图像和所述真实图像的输出;
训练模块,用于基于所述输出调整模型参数,得到训练后的生成对抗网络,所述生成对抗网络包括训练后的生成模型。
根据本公开的第四方面,提供了一种图像处理装置,包括:
获取模块,用于获取待处理图像;
识别模块,用于对所述待处理图像进行图像识别,得到所述待处理图像中的目标对象;
确定模块,用于确定针对所述目标对象的蒙版图像;
结果获得模块,用于将所述待处理图像和所述蒙版图像输入生成模型,通过所述生成模型输出抹除后图像,所述抹除后图像表示从所述待处理图像中抹除所述目标对象后的图像,其中,所述生成模型是生成对抗网络中的生成模型,所述生成对抗网络通过上述第三方面所述的生成对抗网络训练装置训练得到。
根据本公开的第五方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面或第二方面所述的方法。
根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据第一方面或第二方面所述的方法。
根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据第一方面或第二方面所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开实施例提供的生成对抗网络训练方法的流程图;
图2是本公开实施中生成对抗网络的结构示意图;
图3是本公开实施例中生成模型的结构示意图;
图4是本公开实施例中下采样和上采样的结构示意图;
图5是本公开实施例提供的图像处理方法的结构示意图;
图6A是相关技术中一种抹除采集车后的图像示意图;
图6B是相关技术中另一种抹除采集车后的图像示意图;
图7是本公开实施例中待处理图像的示意图;
图8是本公开实施例中对多个全景图像进行拼接得到的图像示意图;
图9是本公开实施例中全景球模型的示意图;
图10是本公开实施中对全景图像抹除采集车的示意图;
图11A是本公开实施例中将采集的全景图像渲染在全景球模型中的示意图;
图11B是本公开实施例中截取采集车部分图像的示意图;
图11C是本公开实施例中在全景球模型下抹除采集车后图像的示意图;
图11D是本公开实施例中全景下抹除采集车后图像的示意图;
图12是本公开实施例中生成对抗网络训练装置的结构示意图;
图13是本公开实施例中图像处理装置的结构示意图;
图14是用来实现本公开实施例的生成对抗网络训练方法或图像处理方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
生成对抗网络(Generative Adversarial Networks,GAN)是一种无监督深度学习模型,用来通过计算机生成数据,生成对抗网络一般至少拥有两个模块:生成模型(Generative Model)和判别模型(Discriminative Model)。生成模型通过机器生成数据,目的是尽可能骗过判别器,达到和真实图像相似的结果;判别模型用来判断是真实图像还是机器生成的图像。
本公开实施例提供了一种生成对抗网络训练方法,生成对抗网络包括生成模型和判别模型,包括:
获取多个样本图像,以及各个样本图像对应的蒙版图像;
获取多个真实图像,真实图像为不包含目标对象的图像;
针对每一样本图像,将样本图像和样本图像对应的蒙版图像输入生成模型,通过生成模型输出生成图像;
将生成图像和真实图像输入判别模型,通过判别模型得到针对生成图像和真实图像的输出;
基于输出调整模型参数,得到训练后的生成对抗网络,训练后的生成对抗网络包括训练后的生成模型。
本公开实施例中,基于多个样本图像、各个样本图像对应的蒙版图像以及多个真实图像训练得到生成对抗网络,如此,待抹除图像中的对象时,可以直接将待处理图像输入至训练后的生成模型即可得到抹除对象后的图像,使得抹除图像中对象变得比较简便。另外,训练后的生成模型可以生成与真实图像尽可能相同的图像,使得抹除对象后的图像更加符合真实场景,抹除部分与场景其他部分过渡更加自然。
图1是本公开实施例提供的生成对抗网络训练方法的流程图。参照图1,本公开实施例提供的生成对抗网络训练方法包括:
S101,获取多个样本图像,以及各个样本图像对应的蒙版图像。
样本图像对应的蒙版图像是样本图像中样本对象添加蒙版得到的图像。
具体地,得到样本图像中的样本对象之后,可以确定样本对象所在的区域,对该区域添加蒙版,得到蒙版图像。
样本对象即样本图像中待抹除的对象,样本对象可以是待处理图像中的任意对象,具体地,样本对象可以是人、车辆等。
S102,获取多个真实图像。
真实图像为不包含目标对象的图像。
具体地,真实图像为实际获取的场景图像,该场景图像中不包含样本对象。
一种可实现方式中,真实图像为实际获取的道路图像,该道路图像中不包含采集车。其中,道路图像为针对实际环境下的道路采集到的图像,该图像中的道路纹理即为待与生成图像中纹理进行比较的纹理。
S103,针对每一样本图像,将样本图像和样本图像对应的蒙版图像输入生成模型,通过生成模型输出生成图像。
一种可实现方式中,生成图像为纹理图像,例如,可以将样本图像和蒙版图像进行结合,生成对样本图像中对某一对象添加蒙版的图像,然后通过随机噪声和生成器在蒙版上生成纹理,得到纹理图像,其中,蒙版可以是白板。
S104,将生成图像和真实图像输入判别模型,通过判别模型得到针对生成图像和真实图像的输出;
S105,基于输出调整模型参数,得到训练后的生成对抗网络,训练后的生成对抗网络包括训练后的生成模型。
通过多个样本图像、各个样本图像对应的蒙版图像以及多个真实图像对生成对抗网络进行训练,训练目标是:使得生成对抗网络中生成模型输出的图像尽可能地与真实图像相同,也即生成图像与真实图像相同,即生成器生成的图像,不断迭代最终趋近于和真实图像相同。
一种可选地实施例中,样本图像为全景图像。本公开实施例中生成对抗网络的整体结构如图2所示。其中,真实数据也即真实图像为从全景数据获取到的道路图像,道路图像中的道路纹理可以理解为需要生成的纹理,该纹理也可以理解为真实道路的道路纹理。生成模型负责生成采集车部分的纹理,生成纹理之后的图像为目标图像,为了使判别器无法分片出真实图像还是生成器生成的图像,需要让生成的图像尽可能真实。可以理解为,通过训练使得生成模型生成的纹理尽可能与真实数据中的道路纹理相同,生成模型在生成该道路纹理之后在采集车区域添加该道路纹理得到目标图像(也可以理解为通过该道路纹理覆盖采集车,目标图像即为抹除采集车后的图像),该目标图像中道路纹理与真实道路的道路纹理相同,如此使得,抹除采集车后的图像中覆盖采集车部分的纹理和道路融合为一体,过渡自然。
其中,生成模型的输入为全景图像和全景图像对应的蒙版图像,生成通过随机向量z结合生成器G得到生成图像,判别器D也即判别模型的输入为真实图像和生成图像,判别模型对真实图像和生成图像进行真/伪判别,即判断哪个是真实图像,哪个是生成图像。
在训练阶段,模型的输入为真实道路纹理数据集(道路图像),以及对应的包含采集车的图像数据集和采集车区域蒙版,目标是获取生成器的最佳参数集,该参数集通过根据输入的图像特征,生成目标纹理图像(目标图像)。通过不断迭代生成模型和判别模型,以达到生成抹除采集车最佳的图像。
一种可选地实施例中,通过生成模型输出生成图像,包括:
提取样本图像和样本图像对应的蒙版图像的图像特征;根据图像特征,通过生成模型的模型参数,生成生成图像并输出生成图像。
可以理解,本公开实施例中生成模型包括两部分,一部分是特征提取模块,一部分是生成模块。其中,特征提取模块包括下采样模块和上采样模块,生成模块通过生成器结合随机噪声来实现。
一个例子中,生成模型如图3所示,该生成模型的输入为一张分辨率为1000x1000的全景图像及对应的需要生成纹理的蒙版图像,蒙版图像与全景图像大小相同,分辨率为1000x1000,格式为灰度图,蒙版图像中的白色框即为需要生成纹理的部分。
生成模型对输入的图像进行下采样,下采样通过三个DownBlock模块(下采样模块)构成,DownBlock模块如图4所示;每个DownBlock模块中,首先通过T-ResBlock(残差模块)进行卷积处理和自注意力计算得到图像特征,之后通过卷积层(Conv3x3stride2)进行3x3的卷积得到整体特征;在初始阶段,随机生成模型的特征参数,根据特征参数生成目标特征;将生成的目标特征通过上采样还原到1000x1000的图像上,得到抹除采集车的目标图像,其中,上采样可以通过上采样模块来实现,上采样模块(UpBlock)包括T-ResBlock和反卷积层(TransposConv3x3stride2)。其中,T-ResBlock先通过1x1的卷积(Conv1x1),然后通过3x3的卷积(Conv3x3)和自注意力(Self-attention),再通过1x1的卷积,如此以实现T-ResBlock的功能。
本公开实施例中生成模型通过提取样本图像和样本图像对应的蒙版图像的图像特征,并根据图像特征,通过生成模型的模型参数,即可生成生成图像并输出生成图像,使得生成模型生成目标图像的过程比较简单。
一种可选地实施例中,基于输出调整模型参数,得到训练后的生成对抗网络,包括:
通过预设损失函数,计算输出对应的损失值;基于损失值调整模型参数;返回执行将样本图像和样本图像对应的蒙版图像输入生成模型,通过生成模型输出生成图像;将生成图像和真实图像输入判别模型,通过判别模型得到针对生成图像和真实图像的输出,直至满足预设迭代结束条件,得到训练后的生成模型。
预设迭代结束条件可以包括损失函数的值收敛,如损失函数的值减小为一个值后不再减小,则可以理解为损失函数的值收敛域该值,或者,迭代次数达到预设次数,预设次数可以根据实际情况来确定,等等。
基于损失函数的值对模型参数进行调整,可以方便地对模型参数进行调整,进而迭代得到满足预设迭代结束条件的模型参数,能够降低模型训练的复杂度。
训练阶段通过不断迭代生成模型和判别模型,使损失函数Ltotal的值达到最小,此时生成的抹除采集车后的图像效果最好。
一个例子中,生成对抗网络的训练过程包括如下步骤:
1、初始化生成模型的随机噪声z,通过随机噪声z生成图像,即
Figure BDA00037799449800000813
2、输入一批真实图像x,更新判别器的损失函数为LD
3、更新随机噪声z,通过最小化LG迭代更新生成器;
重复迭代上述1、2、3步骤,每次迭代设置总体损失函数为Ltotal,使Ltotal最小,此时保存生成模型参数,获取到最佳的生成模型。
本公开实施例中损失函数可以选择相关技术中生成对抗网络的损失函数。一种可选地实施例中,预设损失函数为:
Ltotal=Ladv+LDPL+R1
Ladv=LD+LG
Figure BDA0003779944980000081
Figure BDA0003779944980000082
x表示真实图像,
Figure BDA0003779944980000083
表示生成图像,D(x)表示判别模型对真实图像的输出,
Figure BDA0003779944980000084
表示判别模型对生成图像的输出;
Figure BDA0003779944980000085
LDPL表示真实图像和生成图像的特征之间的感知损失,C表示特征图的通道数,H表示特征图的长,W表示特征图的宽,φ(x)表示真实图像的特征图,
Figure BDA0003779944980000086
表示生成图像的特征图;
Figure BDA0003779944980000087
Figure BDA0003779944980000088
表示梯度惩罚。
Figure BDA0003779944980000089
表示对样本图像的梯度惩罚,为正则项。
Ladv可以理解为非饱和对抗损失项,表示生成模型和判别模型的损失之和。
生成模型中特征提取模块采用VGG19结构的情况下,LDPL可以为
Figure BDA00037799449800000810
Figure BDA00037799449800000811
Figure BDA00037799449800000812
表示判别感知损失项。
Cj表示VGG19中第j层的特征图通道数,Hj表示特征图的长,Wj表示特征图的宽,φj(x)表示真实图像在VGG19中第j层的特征图,
Figure BDA0003779944980000091
表示生成图像在VGG19中第j层的特征图,
Figure BDA0003779944980000092
表示真实图像和生成图像在VGG19第j层上的特征之间的感知损失。
该损失函数考虑了生成模型和判别模型的损失,还考虑了表示真实图像和生成图像的特征之间的感知损失,还考虑了对样本的梯度惩罚,使得基于该损失函数更好地对模型参数进行调整,提升了模型的性能。
训练得到生成对抗网络的生成模型之后,可以利用该生成模型实现图像中对象如采集车的抹除等。具体地可以理解为利用训练后的生成模型的模型参数生成抹除目标对象之后的图像。
本公开实施例提供了一种图像处理方法,如图5所示,可以包括:
S501,获取待处理图像。
S502,对待处理图像进行图像识别,得到待处理图像中的目标对象。
目标对象即待抹除的对象,目标对象可以是待处理图像中的任意对象,具体地,目标对象可以是人、车辆等。
一种可实现方式中,目标对象可以是采集车。
S503,确定针对目标对象的蒙版图像。
蒙版图像是对待处理图像中目标对象添加蒙版得到的图像。
具体地,得到待处理图像中的目标对象之后,可以确定目标对象所在的区域,对该区域添加蒙版,得到蒙版图像。例如,蒙版图像是与待处理图像大小相同的图像,该图像中目标对象区域添加白板,其他部分为黑色。
S504,将待处理图像和蒙版图像输入生成模型,通过生成模型输出抹除后图像,抹除后图像表示从待处理图像中抹除目标对象后的图像。
其中,生成模型是生成对抗网络中的生成模型,生成对抗网络通过上述生成对抗网络训练方法训练得到的。
本公开实施例中生成模型是基于多个样本图像、各个样本图像对应的蒙版图像以及多个真实图像训练得到生成对抗网络中的生成模型,如此,待抹除图像中的目标对象时,可以直接将待处理图像输入至训练后的生成模型即可得到抹除目标对象后的图像,使得抹除图像中目标对象变得比较简便。另外,训练后的生成模型可以生成与真实图像尽可能相同的图像,使得抹除对象后的图像更加符合真实场景,抹除部分与场景其他部分过渡更加自然。
全景图通过广角的表现手段以及绘画、相片、视频、三维模型等形式,尽可能多地表现出周围的环境。具体地,可以通过捕捉整个场景的图像,然后使用软件对捕捉到的图像进行拼合,把相机环360度拍摄的一组或多组照片拼接得到全景。
在全景数据的采集过程中,用于拼合以得到全景的图像是通过街景采集车采集的。而街景采集车在采集图像时,可能会将自身车辆的部分拍摄到图像中,最终呈现出来的全景(将多个图像经过拼合得到全景图),在下方会有一个采集车。该采集车较影响整体视觉效果,且在穿梭过程中会产生拉伸形变,从而影响用户浏览全景的体验。
为了使全景图像呈现更为自然,提升用户浏览全景体验,本公开实施例使用生成对抗式网络的生成模型,来自动推测出当前采集车位置的纹理,且纹理质量较高,能够实现将采集车从全景图像中抹除掉,并且采集车部分纹理和底部道路融合为一体,自然过度。
一种可选地实施例中,待处理图像包括用于生成全景的图像,为了描述简单,该用于生成全景的图像也可以称之为全景图像,目标对象为采集车。
具体地,S501包括获取全景图像;S502包括对该全景图像进行图像识别,得到全景图像中的目标对象,即采集车;S503包括确定针对采集车的蒙版图像;S504包括将全景图像和蒙版图像输入生成模型,通过生成模型输出抹除后图像,抹除后图像表示从全景图像中抹除采集车后的图像。
生成模型可以先结合全景图像和蒙版图像得到对目标对象添加蒙版的图像,然后通过生成模型的模型参数如结合随机噪声和生成器生成蒙版处的纹理,并将纹理添加至蒙版,可以得到通过纹理覆盖目标对象如采集车的图像,训练后的模型可以生成与实际环境中道路纹理尽可能相同的纹理,如此,即可使用环境中的道路纹理覆盖目标对象,使得抹除目标对象后的图像与道路部分过渡自然。
本公开实施例可以实现全景图像中采集车部分被抹除掉,用户在浏览全景图像拼合得到的全景时排除了采集车的干扰,看到的效果更加真实。在全景穿梭时,没有底部的采集车拉伸形变效果,穿梭体验更加真实,提升了用户体验。
相关技术中使用前后方道路的纹理拼接一个采集车形状的蒙版,之后在渲染时使用该蒙版盖住采集车。这种方式一方面处理成本较高,采集全景时路况复杂,需要针对不同情景下不同的车辆形状做匹配的模板,另一方面,当采集车前后都存在车辆时,无法找到能够拼接成一整块车形状的纹理。
相比较于这种方式,本公开实施例提供的图像处理方法的直接将待处理图像和蒙版图像输入训练后的生成模型即可得到抹除目标对象如采集车之后的图像,一方面无需针对不同情景下不同的车辆形状做匹配的模板,成本较低;另一方面也避免了因无法找到能够拼接成一整块车形状的纹理而导致无法抹除采集车的情况。
另外,本公开实施例对全景采集的情景和采集密度也没有太高要求,针对任意情况下采集的全景图像,都可以抹除采集车,且抹除采集车后的图像更加自然,例如,相关技术中通过相邻全景中采集车位置纹理复制的方式将采集车抹除后的图像如图6A;相关技术中通过前后位置相似的纹理将采集车的部分覆盖掉,抹除采集车抹除后的图像如图6B。
在获取待处理图像之后,本公开实施例提供的图像处理方法还可以包括:
将待处理图像渲染至全景球模型,得到全景球模型下的图像;从全景球模型下的图像中提取包含目标对象的图像。
对待处理图像进行图像识别,得到待处理图像中的目标对象,包括:
对包含目标对象的图像进行图像识别,得到待处理图像中的目标对象。
将待处理图像渲染至全景球模型也可以理解为是将原始采集的全景图像渲染到一个三维球上。具体地,渲染具体可以采用如下方式:
采用右手三维坐标系,将观察视角设置为头顶为Z轴正向,观察点为原点,视线方向为x周负方向;构建半径为800的球,以原点为球心;然后,将待处理图像作为纹理贴合在三维球上,待处理图像的左下角与Z轴负方向与球的交点重合,按照逆时针的方向贴合纹理,得到渲染至三维球上的图像。
将待处理图像渲染至全景球模型,这样用户看到的图像更加接近于现实三维世界看到的物体。
例如,原始采集的图像是使用鱼眼相机拍摄的图像,如图7所示。
为了生成全景,一般会先将原始采集的多个图像进行拼接,如图8所示。拼接得到的该图像整体变形较大,直接展示给用户无法体现出三维真实世界。为了使全景图更加真实,需要将图像贴合在三维球模型上,这样用户从球的中心可以看到360度的全景图像。
全景球模型如图9所示。
待抹除待处理图像中的目标对象时,例如,待抹除采集车时,拼接得到的该图变形较大,要从该图像中检测到该采集车比较困难。因此,为了更方便地检测出待处理图像中待抹除的目标对象,本公开实施例中先将待处理图像渲染至全景球模型,得到全景球模型下的图像;再从全景球模型下的图像中提取包含目标对象的图像,如图10所示。
一个例子中,将采集的全景图像渲染在全景球模型中,此时全景图像底部如图11A所示;调整全景图像观察视角,更改heading,pitch,roll参数,可以查看到全景图像下方采集车部分,并截取包括采集车的图像,如采集车部分1000x 1000分辨率的图像,如图11B;对截取到的图像进行图像识别,得到采集车,具体地可以确定采集车所在的区域,也可以理解为确定采集车的范围框,然后对该范围框添加蒙版,得到针对采集车的蒙版图像,然后将全景图像和该蒙版图像输入生成模型,通过该生成模型即可得到抹除该采集车后的图像,如图11C所示;最后,将该图像还原到全景图像中,则全景图像中看到的全景已经抹除了采集车,如图11D。
本公开实施例提供了一种生成对抗网络训练装置,生成对抗网络包括生成模型和判别模型,如图12所示,该装置包括:
获取模块1201,用于获取多个样本图像,以及各个样本图像对应的蒙版图像;获取多个真实图像,真实图像为不包含目标对象的图像;
生成模块1202,用于针对每一样本图像,将样本图像和样本图像对应的蒙版图像输入生成模型,通过生成模型输出生成图像;
判别模块1203,用于将生成图像和真实图像输入判别模型,通过判别模型得到针对生成图像和真实图像的输出;
训练模块1204,用于基于输出调整模型参数,得到训练后的生成对抗网络,生成对抗网络包括训练后的生成模型。
可选地,训练模块1204,具体用于通过预设损失函数,计算输出对应的损失值;基于损失值调整模型参数;返回生成模块和判别模块,直至满足预设迭代结束条件,得到训练后的生成模型。
可选地,预设损失函数为:
Ltotal=Ladv+LDPL+R1
Ladv=LD+LG
Figure BDA0003779944980000131
Figure BDA0003779944980000132
x表示真实图像,
Figure BDA0003779944980000133
表示生成图像,D(x)表示判别模型对真实图像的输出,
Figure BDA0003779944980000134
表示判别模型对生成图像的输出;
Figure BDA0003779944980000135
LDPL表示真实图像和生成图像的特征之间的感知损失,C表示特征图的通道数,H表示特征图的长,W表示特征图的宽,φ(x)表示真实图像的特征图,
Figure BDA0003779944980000136
表示生成图像的特征图;
Figure BDA0003779944980000137
Figure BDA0003779944980000138
表示梯度惩罚。
可选地,生成模块1202,具体用于提取样本图像和样本图像对应的蒙版图像的图像特征;根据图像特征,通过生成模型的模型参数,生成生成图像并输出生成图像。
本公开实施例提供了一种图像处理装置,如图13所示,可以包括:
获取模块1301,用于获取待处理图像;
识别模块1302,用于对待处理图像进行图像识别,得到待处理图像中的目标对象;
确定模块1303,用于确定针对目标对象的蒙版图像;
结果获得模块1304,用于将待处理图像和蒙版图像输入生成模型,通过生成模型输出抹除后图像,抹除后图像表示从待处理图像中抹除目标对象后的图像,其中,生成模型是通过生成对抗网络训练装置训练得到。
可选地,装置还包括:
渲染模块(图中未示出),用于在获取待处理图像之后,将待处理图像渲染至全景球模型,得到全景球模型下的图像;
提取模块(图中未示出),用于从全景球模型下的图像中提取包含目标对象的图像;
识别模块1302,用于对包含目标对象的图像进行图像识别,得到待处理图像中的目标对象。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图14示出了可以用来实施本公开的实施例的示例电子设备1400的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图14所示,设备1400包括计算单元1401,其可以根据存储在只读存储器(ROM)1402中的计算机程序或者从存储单元1408加载到随机访问存储器(RAM)1403中的计算机程序,来执行各种适当的动作和处理。在RAM 1403中,还可存储设备1400操作所需的各种程序和数据。计算单元1401、ROM 1402以及RAM 1403通过总线1404彼此相连。输入/输出(I/O)接口1405也连接至总线1404。
设备1400中的多个部件连接至I/O接口1405,包括:输入单元1406,例如键盘、鼠标等;输出单元1407,例如各种类型的显示器、扬声器等;存储单元1408,例如磁盘、光盘等;以及通信单元1409,例如网卡、调制解调器、无线通信收发机等。通信单元1409允许设备1400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1401执行上文所描述的各个方法和处理,例如生成对抗网络训练方法或图像处理方法。例如,在一些实施例中,生成对抗网络训练方法或图像处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1408。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1402和/或通信单元1409而被载入和/或安装到设备1400上。当计算机程序加载到RAM 1403并由计算单元1401执行时,可以执行上文描述的生成对抗网络训练方法或图像处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元1401可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行生成对抗网络训练方法或图像处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (14)

1.一种生成对抗网络训练方法,所述生成对抗网络包括生成模型和判别模型,包括:
获取多个样本图像,以及各个样本图像对应的蒙版图像;
获取多个真实图像,所述真实图像为不包含目标对象的图像;
针对每一样本图像,将所述样本图像和所述样本图像对应的蒙版图像输入所述生成对抗网络的生成模型,通过所述生成模型输出生成图像;
将所述生成图像和所述真实图像输入所述判别模型,通过所述判别模型得到针对所述生成图像和所述真实图像的输出;
基于所述输出调整模型参数,得到训练后的生成对抗网络,所述生成对抗网络包括训练后的生成模型。
2.根据权利要求1所述的方法,其中,所述基于所述输出调整模型参数,得到训练后的生成对抗网络,包括:
通过预设损失函数,计算所述输出对应的损失值;
基于所述损失值调整模型参数;
返回执行将所述样本图像和所述样本图像对应的蒙版图像输入生成模型,通过所述生成模型输出生成图像;将所述生成图像和所述真实图像输入判别模型,通过所述判别模型得到针对所述生成图像和所述真实图像的输出,直至满足预设迭代结束条件,得到训练后的生成模型。
3.根据权利要求2所述的方法,其中,所述预设损失函数为:
Ltotal=Ladv+LDPL+R1
Ladv=LD+LG
Figure FDA0003779944970000011
Figure FDA0003779944970000012
x表示真实图像,
Figure FDA0003779944970000013
表示生成图像,D(x)表示判别模型对真实图像的输出,
Figure FDA0003779944970000014
表示判别模型对生成图像的输出;
Figure FDA0003779944970000015
LDPL表示真实图像和生成图像的特征之间的感知损失,C表示特征图的通道数,H表示特征图的长,W表示特征图的宽,φ(x)表示真实图像的特征图,
Figure FDA0003779944970000016
表示生成图像的特征图;
Figure FDA0003779944970000021
Figure FDA0003779944970000022
表示梯度惩罚。
4.根据权利要求1至3任一项所述的方法,其中,所述通过所述生成模型输出生成图像,包括:
提取所述样本图像和所述样本图像对应的蒙版图像的图像特征;
根据所述图像特征,通过所述生成模型的模型参数,生成所述生成图像并输出所述生成图像。
5.一种图像处理方法,包括:
获取待处理图像;
对所述待处理图像进行图像识别,得到所述待处理图像中的目标对象;
确定针对所述目标对象的蒙版图像;
将所述待处理图像和所述蒙版图像输入生成模型,通过所述生成模型输出抹除后图像,所述抹除后图像表示从所述待处理图像中抹除所述目标对象后的图像,其中,所述生成模型是生成对抗网络中的生成模型,所述生成对抗网络通过上述权利要求1至4任一项所述的生成对抗网络训练方法训练得到。
6.根据权利要求5所述的方法,在所述获取待处理图像之后,所述方法还包括:
将所述待处理图像渲染至全景球模型,得到全景球模型下的图像;
从所述全景球模型下的图像中提取包含所述目标对象的图像;
所述对所述待处理图像进行图像识别,得到所述待处理图像中的目标对象,包括:
对所述包含所述目标对象的图像进行图像识别,得到所述待处理图像中的目标对象。
7.一种生成对抗网络训练装置,所述生成对抗网络包括生成模型和判别模型,所述装置包括:
获取模块,用于获取多个样本图像,以及各个样本图像对应的蒙版图像;获取多个真实图像,所述真实图像为不包含目标对象的图像;
生成模块,用于针对每一样本图像,将所述样本图像和所述样本图像对应的蒙版图像输入所述生成模型,通过所述生成模型输出生成图像;
判别模块,用于将所述生成图像和所述真实图像输入所述判别模型,通过所述判别模型得到针对所述生成图像和所述真实图像的输出;
训练模块,用于基于所述输出调整模型参数,得到训练后的生成对抗网络,所述生成对抗网络包括训练后的生成模型。
8.根据权利要求7所述的装置,其中,所述训练模块,具体用于通过预设损失函数,计算所述输出对应的损失值;基于所述损失值调整模型参数;返回生成模块和判别模块,直至满足预设迭代结束条件,得到训练后的生成模型。
9.根据权利要求8所述的装置,其中,所述预设损失函数为:
Ltotal=Ladv+LDPL+R1
Ladv=LD+LG
Figure FDA0003779944970000031
Figure FDA0003779944970000032
x表示真实图像,
Figure FDA0003779944970000033
表示生成图像,D(x)表示判别模型对真实图像的输出,
Figure FDA0003779944970000034
表示判别模型对生成图像的输出;
Figure FDA0003779944970000035
LDPL表示真实图像和生成图像的特征之间的感知损失,C表示特征图的通道数,H表示特征图的长,W表示特征图的宽,φ(x)表示真实图像的特征图,
Figure FDA0003779944970000038
表示生成图像的特征图;
Figure FDA0003779944970000036
Figure FDA0003779944970000037
表示梯度惩罚。
10.根据权利要求7至9任一项所述的装置,其中,所述生成模块,具体用于提取所述样本图像和所述样本图像对应的蒙版图像的图像特征;根据所述图像特征,通过所述生成模型的模型参数,生成所述生成图像并输出所述生成图像。
11.一种图像处理装置,包括:
获取模块,用于获取待处理图像;
识别模块,用于对所述待处理图像进行图像识别,得到所述待处理图像中的目标对象;
确定模块,用于确定针对所述目标对象的蒙版图像;
结果获得模块,用于将所述待处理图像和所述蒙版图像输入生成模型,通过所述生成模型输出抹除后图像,所述抹除后图像表示从所述待处理图像中抹除所述目标对象后的图像,其中,所述生成模型是生成对抗网络中的生成模型,所述生成对抗网络通过上述权利要求7至10任一项所述的生成对抗网络训练装置训练得到。
12.根据权利要求11所述的装置,所述装置还包括:
渲染模块,用于在所述获取待处理图像之后,将所述待处理图像渲染至全景球模型,得到全景球模型下的图像;
提取模块,用于从所述全景球模型下的图像中提取包含所述目标对象的图像;
所述识别模块,用于对所述包含所述目标对象的图像进行图像识别,得到所述待处理图像中的目标对象。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。
CN202210926739.XA 2022-08-03 2022-08-03 网络训练方法和图像处理方法、装置、设备以及存储介质 Pending CN115187846A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210926739.XA CN115187846A (zh) 2022-08-03 2022-08-03 网络训练方法和图像处理方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210926739.XA CN115187846A (zh) 2022-08-03 2022-08-03 网络训练方法和图像处理方法、装置、设备以及存储介质

Publications (1)

Publication Number Publication Date
CN115187846A true CN115187846A (zh) 2022-10-14

Family

ID=83521868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210926739.XA Pending CN115187846A (zh) 2022-08-03 2022-08-03 网络训练方法和图像处理方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN115187846A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115953345A (zh) * 2023-03-09 2023-04-11 同心智医科技(北京)有限公司 脑出血医学图像的病变合成方法、装置及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115953345A (zh) * 2023-03-09 2023-04-11 同心智医科技(北京)有限公司 脑出血医学图像的病变合成方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN110276317B (zh) 一种物体尺寸检测方法、物体尺寸检测装置及移动终端
US10489956B2 (en) Robust attribute transfer for character animation
CN113343826B (zh) 人脸活体检测模型的训练方法、人脸活体检测方法及装置
JP7387202B2 (ja) 3次元顔モデル生成方法、装置、コンピュータデバイス及びコンピュータプログラム
CN111488865A (zh) 图像优化方法、装置、计算机存储介质以及电子设备
CN114143528B (zh) 多视频流融合方法、电子设备、存储介质
CN111597884A (zh) 面部动作单元识别方法、装置、电子设备及存储介质
JP5833507B2 (ja) 画像処理装置
CN113689503B (zh) 目标对象的姿态检测方法、装置、设备及存储介质
CN112819875B (zh) 单目深度估计的方法、装置及电子设备
CN112927363A (zh) 体素地图构建方法及装置、计算机可读介质和电子设备
CN110705353A (zh) 基于注意力机制的遮挡人脸的识别方法和装置
CN113706373A (zh) 模型重建方法及相关装置、电子设备和存储介质
CN112446322A (zh) 眼球特征检测方法、装置、设备及计算机可读存储介质
CN116228962A (zh) 大场景神经视图合成
CN115187846A (zh) 网络训练方法和图像处理方法、装置、设备以及存储介质
CN106997366B (zh) 数据库构建方法、增强现实融合追踪方法及终端设备
WO2024104144A1 (zh) 图像合成方法和装置、存储介质及电子设备
CN112333468B (zh) 图像处理方法、装置、设备及存储介质
CN115731326A (zh) 虚拟角色生成方法及装置、计算机可读介质和电子设备
CN113570725A (zh) 基于聚类的三维表面重建方法、装置、服务器及存储介质
CN110675413B (zh) 三维人脸模型构建方法、装置、计算机设备及存储介质
CN111339973A (zh) 一种对象识别方法、装置、设备及存储介质
CN115272575B (zh) 图像生成方法及装置、存储介质和电子设备
CN115222895B (zh) 图像生成方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination