CN113487629A - 一种基于结构化场景和文本描述的图像属性编辑方法 - Google Patents

一种基于结构化场景和文本描述的图像属性编辑方法 Download PDF

Info

Publication number
CN113487629A
CN113487629A CN202110769607.6A CN202110769607A CN113487629A CN 113487629 A CN113487629 A CN 113487629A CN 202110769607 A CN202110769607 A CN 202110769607A CN 113487629 A CN113487629 A CN 113487629A
Authority
CN
China
Prior art keywords
picture
image
loss
pictures
generated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110769607.6A
Other languages
English (en)
Other versions
CN113487629B (zh
Inventor
高联丽
赵启轲
朱俊臣
苏思桐
申恒涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110769607.6A priority Critical patent/CN113487629B/zh
Publication of CN113487629A publication Critical patent/CN113487629A/zh
Application granted granted Critical
Publication of CN113487629B publication Critical patent/CN113487629B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06T3/04
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种基于结构化场景和文本描述的图像属性编辑方法,首次提出了“先结构化图片,再编辑”的实现方案,通过对图片场景的理解和解耦,能够有效地提升图片修改的效率和准确度,避免语义无关部分被过度修改。本发明在网络结构上采用了更适用于该任务的多尺度特征融合机制,在损失函数上结合了返还分割损失、分级式的语义匹配感知和图像质量判别器的对抗损失、图像一致性损失和图文相似度损失,保证了整个方法最终的总和性能,解决了现有图像属性编辑方法中运行不稳定、难以扩展和资源开销大的问题。

Description

一种基于结构化场景和文本描述的图像属性编辑方法
技术领域
本发明属于图像处理技术领域,具体涉及一种基于结构化场景和文本描述的图像属性编辑方法的设计。
背景技术
随着深度神经网络的发展,图像分类、图像分割和图像目标检测等技术已经相对较为成熟并得到了广泛的应用。但是,图像生成相关的技术由于其面对高质量高分辨率要求,往往存在着模型训练时间长、开销大、训练不稳定等问题,而未得到广泛的应用支持。
其中由文本引导的图像编辑任务是功能性较强,应用前景较为广泛地一个任务,它利用用户给出文本描述,对输入的图片进行编辑,保持整体风格不变,对语义相关的属性进行有效的修改,生成对应的真实图像。由于生成的真实图像具有现实且丰富的内容,因此该研究有助于实现基础数据集的扩增,工业设计,也可以直接用于现实的应用程序,例如语音助手读取指令,对图片中的模特进行换装,对物体属性进行编辑等。
目前来说,已有的应用于文本编辑图像属性的生成方法主要有以下几个方面的缺陷:(1)现有模型在生成高分辨率的图片时往往存在网络结构复杂冗余,训练时间较长的问题;(2)现有的模型缺乏对图片场景理解的步骤,直接导致了(1)中的问题,并且生成图片往往存在图片内容未被充分解耦,语义无关部分被过度修改等问题;(3)现有架构大多为通用性模型,针对的是广泛的文本生成图像或者随机图像生成模型,没有充分考虑到该任务下的某些具体特性。
发明内容
本发明的目的是针对现有技术中的上述不足,提出了一种基于结构化场景和文本描述的图像属性编辑方法,采用更符合该任务的网络结构、融合模块和损失函数,以解决现有图像属性编辑方法中网络结构复杂冗余、训练时间较长以及语义无关部分被过度修改的问题。
本发明的技术方案为:一种基于结构化场景和文本描述的图像属性编辑方法,包括以下步骤:
S1、从样本数据集中抽取一个批次的成对样本,成对样本包括真实图片、语义分割标注图片和描述文本。
S2、将真实图片输入到语义分割网络StruS中,得到语义分割预测结果和三个尺度的图片特征。
S3、将三个尺度的图片特征和描述文本输入到图像修改网络MoS中,得到两张不同尺寸的生成前景图片。
S4、根据语义分割预测结果从真实图片中获取预测的后景图片,并将后景图片与生成前景图片进行加和,得到最终的生成图片。
S5、将语义分割预测结果与语义分割标注图片进行比对,采用交叉熵损失函数得到返还分割损失。
S6、将真实图片缩放为生成图片的对应尺寸,并根据语义分割标注图片得到两组真实前景图片。
S7、将两组真实前景图片与两张生成前景图片分别输入两个不共享参数的分级式的视觉感知判别器中,得到关于前景图像质量的4个判别结果。
S8、将两组真实前景图片与生成图片分别输入到最大尺寸的判别器中,得到关于整体图像质量的2个判别结果。
S9、将两组真实前景图片、两张生成前景图片分别与文本配对,并将配对结果输入到判别器中,得到关于语义匹配感知的4个判别结果。
S10、采用对抗损失函数将关于前景图像质量的4个判别结果、关于整体图像质量的2个判别结果和关于语义匹配感知的4个判别结果转化为分级式的语义匹配感知和图像质量判别器的对抗损失。
S11、将生成图片与真实图片分别输入到在ImageNet数据集上预训练好的VGG16网络中,采用VGG16网络的Relu2_2层进行二范数求距离并归一化得到图像一致性损失。
S12、将生成图片与对应描述文本输入到在样本数据集上预训练好的图文相似度计算网络中,在同一批次中分别得到词向量和生成图片之间的相似度以及句向量和生成图片之间的相似度,并根据词向量和生成图片之间的相似度以及句向量和生成图片之间的相似度计算得到图文相似度损失。
S13、根据返还分割损失、分级式的语义匹配感知和图像质量判别器的对抗损失、图像一致性损失和图文相似度损失计算得到最终损失。
S14、根据最终损失对由语义分割网络StruS和图像修改网络MoS构成的图像生成网络进行参数优化。
S15、判断图像生成网络是否收敛,若是则进入步骤S16,否则返回步骤S1。
S16、将优化后的图像生成网络作为图像生成模型,并采用图像生成模型,根据文本描述对输入图片进行属性编辑。
进一步地,步骤S2中的语义分割网络StruS包括对称设置的图像编码器和图像解码器,图像编码器和图像解码器通过残差网络连接。
步骤S2包括以下分步骤:
S21、将真实图片输入到图像编码器中,得到三个尺度的图片特征
Figure BDA0003152401380000031
Figure BDA0003152401380000032
S22、将最小尺度的图片特征
Figure BDA0003152401380000033
输入到图像解码器中,得到语义分割预测结果
Figure BDA0003152401380000034
进一步地,步骤S3中的图像修改网络MoS包括级联的文本编码器和图像生成器,图像生成器包括句向量特征融合模块和多路向量特征融合模块。
步骤S3包括以下分步骤:
S31、将描述文本输入到文本编码器中,得到包含修改语义信息的句向量
Figure BDA0003152401380000035
和词向量
Figure BDA0003152401380000036
其中
Figure BDA0003152401380000037
表示实数域,D表示词向量的维度,L表示句子的长度。
S32、将句向量s输入到句向量特征融合模块的两个线性层中做线性映射,并进行广播延展,得到和中间层特征
Figure BDA0003152401380000038
尺寸相同的缩放因子γs和位移因子βs
γs=fγ(s)
βs=fβ(s)
其中C,W,H分别表示图片维度、宽度和高度,fγ(·)和fβ(·)均表示可学习参数的线性变换。
S33、将缩放因子γs、位移因子βs和中间层特征hi进行融合,得到句向量特征融合结果SFFB(hi|s):
SFFB(hi|s)=γs·his
S34、将句向量特征融合模块堆叠四次。
S35、将词向量w和中间层特征hi输入到多路向量特征融合模块中进行基于空间层面的注意力机制运算,得到被词向量修饰的特征图
Figure BDA0003152401380000039
S36、通过多路向量特征融合模块的卷积层得到和被词向量修饰的特征图hattn尺寸相同的缩放因子γw和位移因子βw
S37、将语义分割网络StruS得到的浅层图片特征
Figure BDA00031524013800000310
Figure BDA00031524013800000311
输入到多路向量特征融合模块的卷积层,得到缩放因子γv
S38、将缩放因子γw、位移因子βw、缩放因子γv和中间层特征hi进行融合,得到多路向量特征融合结果
Figure BDA0003152401380000041
Figure BDA0003152401380000042
其中i=1,2。
S39、将多路向量特征融合模块堆叠两次,得到两张不同尺寸的生成前景图片。
进一步地,步骤S4包括以下分步骤:
S41、根据语义分割预测结果
Figure BDA0003152401380000043
从真实图片中获取预测的后景图片
Figure BDA0003152401380000044
S42、将后景图片
Figure BDA0003152401380000045
与生成前景图片
Figure BDA0003152401380000046
进行加和,得到最终的生成图片
Figure BDA0003152401380000047
进一步地,步骤S5中返还分割损失
Figure BDA0003152401380000048
的计算公式为:
Figure BDA0003152401380000049
其中
Figure BDA00031524013800000410
表示语义分割预测结果,即预测图片为第c类物体的概率,
Figure BDA00031524013800000411
表示语义分割标注图片,即第c类物体的真实标签,C表示物体总数。
进一步地,步骤S10中分级式的语义匹配感知和图像质量判别器的对抗损失
Figure BDA00031524013800000412
的计算公式为:
Figure BDA00031524013800000413
Figure BDA00031524013800000414
其中D(·)表示判别器函数,
Figure BDA00031524013800000415
表示条件对抗损失,即由关于语义匹配感知的4个判别结果所计算得到的损失,
Figure BDA00031524013800000416
表示无条件对抗损失,即由关于前景图像质量的4个判别结果和关于整体图像质量的2个判别结果所计算得到的损失,
Figure BDA00031524013800000417
表示最终的生成图片,
Figure BDA00031524013800000418
表示生成前景图片,x表示真实图片,xfg表示真实前景图片,s表示句向量,λ4表示权重系数,
Figure BDA00031524013800000419
Figure BDA00031524013800000426
均表示真实图片分布函数,
Figure BDA00031524013800000420
Figure BDA00031524013800000421
均表示生成图片分布函数。
进一步地,步骤S11中图像一致性损失
Figure BDA00031524013800000422
的计算公式为:
Figure BDA00031524013800000423
其中
Figure BDA00031524013800000424
表示最终的生成图片,
Figure BDA00031524013800000425
表示VGG16网络的第l层操作,‖.‖2为欧几里得范数。
进一步地,步骤S12中图文相似度损失
Figure BDA0003152401380000051
的计算公式为:
Figure BDA0003152401380000052
其中
Figure BDA0003152401380000053
表示最终的生成图片,s表示句向量,w表示词向量,DAMSMw(·)表示词向量和生成图片之间的相似度,DλMSMs(·)表示句向量和生成图片之间的相似度。
进一步地,步骤S13中的最终损失表示为:
Figure BDA0003152401380000054
其中D表示判别器,G表示生成器,
Figure BDA0003152401380000055
表示分级式的语义匹配感知和图像质量判别器的对抗损失,
Figure BDA0003152401380000056
表示图像一致性损失,
Figure BDA0003152401380000057
表示图文相似性损失,
Figure BDA0003152401380000058
表示返还分割损失,λ123均为权重系数。
本发明的有益效果是:
(1)本发明首次提出了“先结构化图片,再编辑”的实现方案,通过对图片场景的理解和解耦,能够有效地提升图片修改的效率和准确度,避免语义无关部分被过度修改。
(2)本发明在网络结构上采用了更适用于该任务的多尺度特征融合机制,在损失函数上结合了返还分割损失、分级式的语义匹配感知和图像质量判别器的对抗损失、图像一致性损失和图文相似度损失,保证了整个方法最终的总和性能,解决了现有图像属性编辑方法中运行不稳定、难以扩展和资源开销大的问题。
附图说明
图1所示为本发明实施例提供的一种基于结构化场景和文本描述的图像属性编辑方法流程图。
图2所示为本发明实施例提供的图像生成网络结构示意图。
图3所示为本发明实施例提供的图像生成器结构示意图。
图4所示为仿真实验1输入的标准图与采用本发明方法生成的真实图像的对比图。
图5所示为仿真实验2输入的标准图与采用本发明方法生成的真实图像的对比图。
图6所示为仿真实验3输入的标准图与采用本发明方法生成的真实图像的对比图。
具体实施方式
现在将参考附图来详细描述本发明的示例性实施方式。应当理解,附图中示出和描述的实施方式仅仅是示例性的,意在阐释本发明的原理和精神,而并非限制本发明的范围。
本发明实施例提供了一种基于结构化场景和文本描述的图像属性编辑方法,如图1所示,包括以下步骤S1~S16:
S1、从样本数据集中抽取一个批次的成对样本,成对样本包括真实图片、语义分割标注图片和描述文本。
S2、将真实图片输入到语义分割网络StruS中,得到语义分割预测结果和三个尺度的图片特征。
如图2所示,语义分割网络StruS包括对称设置的图像编码器和图像解码器,图像编码器和图像解码器通过残差网络连接。
步骤S2包括以下分步骤S21~S22:
S21、将真实图片输入到图像编码器中,得到三个尺度的图片特征
Figure BDA0003152401380000061
Figure BDA0003152401380000062
S22、将最小尺度的图片特征
Figure BDA0003152401380000063
输入到图像解码器中,得到语义分割预测结果
Figure BDA0003152401380000064
S3、将三个尺度的图片特征和描述文本输入到图像修改网络MoS中,得到两张不同尺寸的生成前景图片。
如图2所示,图像修改网络MoS包括级联的文本编码器和图像生成器,图像生成器包括句向量特征融合模块和多路向量特征融合模块,如图3所示。图像生成器的输入包括不同尺度的图片特征以及包含修改语义信息的句向量和词向量特征,均采用了空间自适应的正则化方式(AdaIN)进行特征融合,但在不同的图像生成阶段,采用了不同的融合策略。
句向量特征融合模块SFFB被运用到较小尺寸的图像生成阶段,其输入包括中间层特征和句向量。多路向量特征融合模块CFFB被运用到较大尺寸的图片生成阶段,其输入包括中间层特征、浅层图片特征和词向量。
步骤S3包括以下分步骤S31~S39:
S31、将描述文本输入到文本编码器中,得到包含修改语义信息的句向量
Figure BDA0003152401380000065
和词向量
Figure BDA0003152401380000066
其中
Figure BDA0003152401380000067
表示实数域,D表示词向量的维度,L表示句子的长度。
S32、将句向量s输入到句向量特征融合模块的两个线性层中做线性映射,并进行广播延展,得到和中间层特征
Figure BDA0003152401380000068
尺寸相同的缩放因子γs和位移因子βs
γs=fγ(s)
βs=fβ(s)
其中C,W,H分别表示图片维度、宽度和高度,fγ(·)和fβ(·)均表示可学习参数的线性变换。
S33、将缩放因子γs、位移因子βs和中间层特征hi进行融合,得到句向量特征融合结果SFFB(hi|s):
SFFB(hi|s)=γs·his
S34、将句向量特征融合模块堆叠四次,即第一个句向量特征融合模块的输出作为第二个句向量特征融合模块的输入,第二个句向量特征融合模块的输出作为第三个句向量特征融合模块的输入,第三个句向量特征融合模块的输出作为最后一个句向量特征融合模块的输入,并且第一个句向量特征融合模块的输入为
Figure BDA0003152401380000071
S35、将词向量w和中间层特征hi输入到多路向量特征融合模块中进行基于空间层面的注意力机制运算,得到被词向量修饰的特征图
Figure BDA0003152401380000072
S36、通过多路向量特征融合模块的卷积层得到和被词向量修饰的特征图hattn尺寸相同的缩放因子γw和位移因子βw
S37、将语义分割网络StruS得到的浅层图片特征
Figure BDA0003152401380000073
Figure BDA0003152401380000074
输入到多路向量特征融合模块的卷积层,得到缩放因子γv
S38、将缩放因子γw、位移因子βw、缩放因子γv和中间层特征hi进行融合,得到多路向量特征融合结果
Figure BDA0003152401380000075
Figure BDA0003152401380000076
其中i=1,2。
S39、将多路向量特征融合模块堆叠两次,即第一个多路向量特征融合模块的输出是第二个多路向量特征融合模块的输入,并且第一个多路向量特征融合模块的输入为最后一个句向量特征融合模块的输出,将
Figure BDA0003152401380000077
作为浅层图片特征分别使用在两个不同的多路向量特征融合模块中,即得到两张不同尺寸的生成前景图片。
S4、根据语义分割预测结果从真实图片中获取预测的后景图片,并将后景图片与生成前景图片进行加和,得到最终的生成图片。
步骤S4包括以下分步骤:
S41、根据语义分割预测结果
Figure BDA0003152401380000078
从真实图片中获取预测的后景图片
Figure BDA0003152401380000079
S42、将后景图片
Figure BDA00031524013800000710
与生成前景图片
Figure BDA00031524013800000711
进行加和,得到最终的生成图片
Figure BDA00031524013800000712
S5、将语义分割预测结果与语义分割标注图片进行比对,采用交叉熵损失函数(softmax)得到返还分割损失。
本发明实施例中,返还分割损失
Figure BDA00031524013800000713
的计算公式为:
Figure BDA0003152401380000081
其中
Figure BDA0003152401380000082
表示语义分割预测结果,即预测图片为第c类物体的概率,
Figure BDA0003152401380000083
表示语义分割标注图片,即第c类物体的真实标签,C表示物体总数。
S6、将真实图片缩放为生成图片的对应尺寸,并根据语义分割标注图片得到两组真实前景图片。
S7、将两组真实前景图片与两张生成前景图片分别输入两个不共享参数的分级式的视觉感知判别器中,得到关于前景图像质量的4个判别结果。
S8、将两组真实前景图片与生成图片分别输入到最大尺寸的判别器中,得到关于整体图像质量的2个判别结果。
S9、将两组真实前景图片、两张生成前景图片分别与文本配对,并将配对结果输入到判别器中,得到关于语义匹配感知的4个判别结果。
S10、采用对抗损失函数将关于前景图像质量的4个判别结果、关于整体图像质量的2个判别结果和关于语义匹配感知的4个判别结果转化为分级式的语义匹配感知和图像质量判别器的对抗损失。
本发明实施例中,分级式的语义匹配感知和图像质量判别器的对抗损失
Figure BDA0003152401380000084
的计算公式为:
Figure BDA0003152401380000085
Figure BDA0003152401380000086
Figure BDA0003152401380000087
其中D(·)表示判别器函数,
Figure BDA0003152401380000088
表示条件对抗损失,即由关于语义匹配感知的4个判别结果所计算得到的损失,
Figure BDA0003152401380000089
表示无条件对抗损失,即由关于前景图像质量的4个判别结果和关于整体图像质量的2个判别结果所计算得到的损失,
Figure BDA00031524013800000810
表示最终的生成图片,
Figure BDA00031524013800000811
表示生成前景图片,x表示真实图片,xfg表示真实前景图片,s表示句向量,λ4表示权重系数,
Figure BDA00031524013800000812
Figure BDA00031524013800000813
均表示真实图片分布函数,
Figure BDA00031524013800000814
Figure BDA00031524013800000815
均表示生成图片分布函数。
在条件对抗损失
Figure BDA00031524013800000816
中,采用了真实图片、生成图片分别和对应句向量在判别器中映射到同一语义空间内进行语义匹配的判别。
为了加快网络收敛,假定最终的生成图片的尺寸为H×W,生成器同时也生成
Figure BDA0003152401380000091
大小的前景图片输入到参数不共享的判别器中,对其计算得到两项关于语义匹配感知的判别结果所得到的条件损失和两项关于前景图像质量的判别结果所得到的无条件损失,但不做整体图片质量的判别。
S11、将生成图片与真实图片分别输入到在ImageNet数据集上预训练好的VGG16网络中,采用VGG16网络的Relu2_2层进行二范数求距离并归一化得到图像一致性损失。
本发明实施例中,图像一致性损失
Figure BDA0003152401380000092
的计算公式为:
Figure BDA0003152401380000093
其中
Figure BDA0003152401380000094
表示最终的生成图片,
Figure BDA0003152401380000095
表示VGG16网络的第l层操作,‖.‖2为欧几里得范数。
S12、将生成图片与对应描述文本输入到在样本数据集上预训练好的图文相似度计算网络DAMSM中,在同一批次中分别得到词向量和生成图片之间的相似度以及句向量和生成图片之间的相似度,并根据词向量和生成图片之间的相似度以及句向量和生成图片之间的相似度计算得到图文相似度损失。
本发明实施例中,图文相似度损失
Figure BDA0003152401380000096
的计算公式为:
Figure BDA0003152401380000097
其中
Figure BDA0003152401380000098
表示最终的生成图片,s表示句向量,w表示词向量,DAMSMw(·)表示词向量和生成图片之间的相似度,DAMSMs(·)表示句向量和生成图片之间的相似度。对DAMSMw(·)和DAMSMs(·)进行排序后做交叉熵损失即可得到图文相似度损失
Figure BDA0003152401380000099
S13、根据返还分割损失、分级式的语义匹配感知和图像质量判别器的对抗损失、图像一致性损失和图文相似度损失计算得到最终损失,表示为:
Figure BDA00031524013800000910
其中D表示判别器,G表示生成器,
Figure BDA00031524013800000911
表示分级式的语义匹配感知和图像质量判别器的对抗损失,
Figure BDA00031524013800000912
表示图像一致性损失,
Figure BDA00031524013800000913
表示图文相似性损失,
Figure BDA00031524013800000914
表示返还分割损失,λ123均为权重系数。在对抗网络中,模型的更新分为两部分,一个是对生成器参数的更新,另一个是对判别器参数的更新,但二者的优化目标是截然相反的,因此本发明实施例中的最终损失分别取极大和极小进行优化。
S14、根据最终损失对由语义分割网络StruS和图像修改网络MoS构成的图像生成网络进行参数优化。
S15、判断图像生成网络是否收敛,若是则进入步骤S16,否则返回步骤S1。
S16、将优化后的图像生成网络作为图像生成模型,并采用图像生成模型,根据文本描述对输入图片进行属性编辑。
下面以两个具体实验例对本发明提供的图像属性编辑方法的效果作进一步描述。
实验例一:
设置实验条件为:系统:Ubuntu 18.04,软件:Python 3.6,处理器:Intel Xeon(R)CPU E5-2620 v4@2.10GHz×2,内存:256GB。
仿真实验1:利用本发明方法将花、鸟的图片和修改描述作为输入,生成对应的真实图片,结果如图4所示;
仿真实验2:利用本发明方法将动物、交通工具和修改描述作为输入,生成对应的真实图片,结果如图5所示;
仿真实验3:利用本发明方法将鸟和不同的修改描述作为输入,生成对应的真实图片,结果如图6所示。
从图4可以看出,本发明方法生成的真实图像画面清晰,内容具有丰富且合理的纹理信息,与输入的修改描述有明显的对应关系,并很好地保存了语义无关的背景信息;从图5可以看出,本发明方法在复杂场景中也能够对各类物体实现有效地修改;从图6可以看出,本发明方法能够提取不同语句中的语义信息,并和原图进行有效的匹配和修改,具备很好的鲁棒性。
实验例二:
实验条件:系统:Ubuntu 18.04,软件:Python 3.6,处理器:Intel Xeon(R)CPUE5-2620 v4@2.10GHz×2,内存:256GB。
本实验例中所使用的数据集都是以图文对的形式存在的,即一张真实图片对应若干个文本描述,依次分别使用每种算法对数据集中的训练集进行训练。训练完毕后,分别用每种算法对该数据集测试集上真实图片匹配文本描述生成对应的图片。
在实验中将测试集随机划分为若干个批次,每个批次包括了100个图文对(x,t)。在每个批次中,采用了成对生成的方式
Figure BDA0003152401380000101
同时也进行了不成对的生成方式
Figure BDA0003152401380000102
其中
Figure BDA0003152401380000103
在数据集中不存在对应的真实样本。在测试集上重复实验10次,取平均。
(1)考察生成图片质量和多样性:
使用Inception-V3在ImageNet数据集上预先训练完毕。对于每种算法,将生成的不成对方式生成的图片
Figure BDA0003152401380000104
和真实的图片x输入到该Inception-V3网络中,提取第三个池化层输出的特征,求两者特征的分布差异,得到Frechet Inception距离。
使用Inception-V3在测试数据集上预先训练完毕。对于每种算法,将不成对方式生成的图片
Figure BDA0003152401380000111
和真实的图片x输入到该Inception-V3网络中,提取最后一层对所有类别的预测概率计算得到平均概率分布的熵值Inception Score。
(2)考察生成图片的图文匹配程度:
使用图文相似度计算网络DAMSM在整个数据集上预先训练完毕。对于每种算法,将不成对方式生成的图片
Figure BDA0003152401380000112
和对应的修改描述tb输入到该DAMSM网络中,得到词向量和修改图片的图文相似度,并在同一个批次中进行排序,计算类别检索准确度。
(3)考察生成图片对原始图片整体特征的保留程度:
对于每种算法,将以成对方式生成的图片
Figure BDA0003152401380000113
和对应的真实图片xa进行像素级求差值,得到像素准确率。
(4)考察模型效率:
分别从模型参数量、模型训练时间、推理时间、模型收敛的迭代次数和模型总的训练时长五个方面来考察模型效率。其中,模型参数量包括了文本、图片特征编码器和图片生成器三部分;模型训练时间和推理时间均采用训练100个批次,每个批次16个样本的配置。
最终得到的各种算法对应考察指标如表1~表3所示。
表1
Figure BDA0003152401380000114
表2
Figure BDA0003152401380000115
表3
Figure BDA0003152401380000121
通过表1和表2中的数据分析对比,可以得知本发明方法相比于现有图像属性编辑方法具有生成图片的质量和多样性更好、图文匹配程度更高、对原始图片整体特征保留程度更高、训练周期更短等优点。
从表3中的数据对比分析可知,TAGAN虽然在部分指标上占优,但其图片质量远差于本发明的方法,不能满足实际的需求。ManiGAN包括了两个分离的训练阶段,因此在表3中的训练时间和轮数上均给出了两个值。而本发明的方法兼顾了模型开销和图片质量两个重要的评价指标。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (9)

1.一种基于结构化场景和文本描述的图像属性编辑方法,其特征在于,包括以下步骤:
S1、从样本数据集中抽取一个批次的成对样本,所述成对样本包括真实图片、语义分割标注图片和描述文本;
S2、将真实图片输入到语义分割网络StruS中,得到语义分割预测结果和三个尺度的图片特征;
S3、将三个尺度的图片特征和描述文本输入到图像修改网络MoS中,得到两张不同尺寸的生成前景图片;
S4、根据语义分割预测结果从真实图片中获取预测的后景图片,并将后景图片与生成前景图片进行加和,得到最终的生成图片;
S5、将语义分割预测结果与语义分割标注图片进行比对,采用交叉熵损失函数得到返还分割损失;
S6、将真实图片缩放为生成图片的对应尺寸,并根据语义分割标注图片得到两组真实前景图片;
S7、将两组真实前景图片与两张生成前景图片分别输入两个不共享参数的分级式的视觉感知判别器中,得到关于前景图像质量的4个判别结果;
S8、将两组真实前景图片与生成图片分别输入到最大尺寸的判别器中,得到关于整体图像质量的2个判别结果;
S9、将两组真实前景图片、两张生成前景图片分别与文本配对,并将配对结果输入到判别器中,得到关于语义匹配感知的4个判别结果;
S10、采用对抗损失函数将关于前景图像质量的4个判别结果、关于整体图像质量的2个判别结果和关于语义匹配感知的4个判别结果转化为分级式的语义匹配感知和图像质量判别器的对抗损失;
S11、将生成图片与真实图片分别输入到在ImageNet数据集上预训练好的VGG16网络中,采用VGG16网络的Relu2_2层进行二范数求距离并归一化得到图像一致性损失;
S12、将生成图片与对应描述文本输入到在样本数据集上预训练好的图文相似度计算网络中,在同一批次中分别得到词向量和生成图片之间的相似度以及句向量和生成图片之间的相似度,并根据词向量和生成图片之间的相似度以及句向量和生成图片之间的相似度计算得到图文相似度损失;
S13、根据返还分割损失、分级式的语义匹配感知和图像质量判别器的对抗损失、图像一致性损失和图文相似度损失计算得到最终损失;
S14、根据最终损失对由语义分割网络StruS和图像修改网络MoS构成的图像生成网络进行参数优化;
S15、判断图像生成网络是否收敛,若是则进入步骤S16,否则返回步骤S1;
S16、将优化后的图像生成网络作为图像生成模型,并采用图像生成模型,根据文本描述对输入图片进行属性编辑。
2.根据权利要求1所述的图像属性编辑方法,其特征在于,所述步骤S2中的语义分割网络StruS包括对称设置的图像编码器和图像解码器,所述图像编码器和图像解码器通过残差网络连接;
所述步骤S2包括以下分步骤:
S21、将真实图片输入到图像编码器中,得到三个尺度的图片特征
Figure FDA0003152401370000021
Figure FDA0003152401370000022
S22、将最小尺度的图片特征
Figure FDA0003152401370000023
输入到图像解码器中,得到语义分割预测结果
Figure FDA0003152401370000024
3.根据权利要求2所述的图像属性编辑方法,其特征在于,所述步骤S3中的图像修改网络MoS包括级联的文本编码器和图像生成器,所述图像生成器包括句向量特征融合模块和多路向量特征融合模块;
所述步骤S3包括以下分步骤:
S31、将描述文本输入到文本编码器中,得到包含修改语义信息的句向量
Figure FDA0003152401370000025
和词向量
Figure FDA0003152401370000026
其中
Figure FDA0003152401370000027
表示实数域,D表示词向量的维度,L表示句子的长度;
S32、将句向量s输入到句向量特征融合模块的两个线性层中做线性映射,并进行广播延展,得到和中间层特征
Figure FDA0003152401370000028
尺寸相同的缩放因子γs和位移因子βs
γs=fγ(s)
βs=fβ(s)
其中C,W,H分别表示图片维度、宽度和高度,fγ(·)和fβ(·)均表示可学习参数的线性变换;
S33、将缩放因子γs、位移因子βs和中间层特征hi进行融合,得到句向量特征融合结果SFFB(hi|s):
SFFB(hi|s)=γs·his
S34、将句向量特征融合模块堆叠四次;
S35、将词向量w和中间层特征hi输入到多路向量特征融合模块中进行基于空间层面的注意力机制运算,得到被词向量修饰的特征图
Figure FDA0003152401370000031
S36、通过多路向量特征融合模块的卷积层得到和被词向量修饰的特征图hattn尺寸相同的缩放因子γw和位移因子βw
S37、将语义分割网络StruS得到的浅层图片特征
Figure FDA0003152401370000032
Figure FDA0003152401370000033
输入到多路向量特征融合模块的卷积层,得到缩放因子γv
S38、将缩放因子γw、位移因子βw、缩放因子γv和中间层特征hi进行融合,得到多路向量特征融合结果
Figure FDA0003152401370000034
Figure FDA0003152401370000035
其中i=1,2;
S39、将多路向量特征融合模块堆叠两次,得到两张不同尺寸的生成前景图片。
4.根据权利要求1所述的图像属性编辑方法,其特征在于,所述步骤S4包括以下分步骤:
S41、根据语义分割预测结果
Figure FDA0003152401370000036
从真实图片中获取预测的后景图片
Figure FDA0003152401370000037
S42、将后景图片
Figure FDA0003152401370000038
与生成前景图片
Figure FDA0003152401370000039
进行加和,得到最终的生成图片
Figure FDA00031524013700000310
5.根据权利要求1所述的图像属性编辑方法,其特征在于,所述步骤S5中返还分割损失
Figure FDA00031524013700000311
的计算公式为:
Figure FDA00031524013700000312
其中
Figure FDA00031524013700000313
表示语义分割预测结果,即预测图片为第c类物体的概率,
Figure FDA00031524013700000314
表示语义分割标注图片,即第c类物体的真实标签,C表示物体总数。
6.根据权利要求1所述的图像属性编辑方法,其特征在于,所述步骤S10中分级式的语义匹配感知和图像质量判别器的对抗损失
Figure FDA00031524013700000315
的计算公式为:
Figure FDA00031524013700000316
Figure FDA00031524013700000317
Figure FDA00031524013700000318
其中D(·)表示判别器函数,
Figure FDA00031524013700000319
表示条件对抗损失,即由关于语义匹配感知的4个判别结果所计算得到的损失,
Figure FDA0003152401370000041
表示无条件对抗损失,即由关于前景图像质量的4个判别结果和关于整体图像质量的2个判别结果所计算得到的损失,
Figure FDA0003152401370000042
表示最终的生成图片,
Figure FDA0003152401370000043
表示生成前景图片,x表示真实图片,xfg表示真实前景图片,s表示句向量,λ4表示权重系数,
Figure FDA0003152401370000044
Figure FDA0003152401370000045
均表示真实图片分布函数,
Figure FDA0003152401370000046
Figure FDA0003152401370000047
均表示生成图片分布函数。
7.根据权利要求1所述的图像属性编辑方法,其特征在于,所述步骤S11中图像一致性损失
Figure FDA0003152401370000048
的计算公式为:
Figure FDA0003152401370000049
其中
Figure FDA00031524013700000410
表示最终的生成图片,
Figure FDA00031524013700000411
表示VGG16网络的第l层操作,||.||2为欧几里得范数。
8.根据权利要求1所述的图像属性编辑方法,其特征在于,所述步骤S12中图文相似度损失
Figure FDA00031524013700000412
的计算公式为:
Figure FDA00031524013700000413
其中
Figure FDA00031524013700000414
表示最终的生成图片,s表示句向量,w表示词向量,DAMSMw(·)表示词向量和生成图片之间的相似度,DAMSMs(·)表示句向量和生成图片之间的相似度。
9.根据权利要求1所述的图像属性编辑方法,其特征在于,所述步骤S13中的最终损失表示为:
Figure FDA00031524013700000415
其中D表示判别器,G表示生成器,
Figure FDA00031524013700000416
表示分级式的语义匹配感知和图像质量判别器的对抗损失,
Figure FDA00031524013700000417
表示图像一致性损失,
Figure FDA00031524013700000418
表示图文相似性损失,
Figure FDA00031524013700000419
表示返还分割损失,λ1,λ2,λ3均为权重系数。
CN202110769607.6A 2021-07-07 2021-07-07 一种基于结构化场景和文本描述的图像属性编辑方法 Active CN113487629B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110769607.6A CN113487629B (zh) 2021-07-07 2021-07-07 一种基于结构化场景和文本描述的图像属性编辑方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110769607.6A CN113487629B (zh) 2021-07-07 2021-07-07 一种基于结构化场景和文本描述的图像属性编辑方法

Publications (2)

Publication Number Publication Date
CN113487629A true CN113487629A (zh) 2021-10-08
CN113487629B CN113487629B (zh) 2023-04-07

Family

ID=77935982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110769607.6A Active CN113487629B (zh) 2021-07-07 2021-07-07 一种基于结构化场景和文本描述的图像属性编辑方法

Country Status (1)

Country Link
CN (1) CN113487629B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842105A (zh) * 2022-06-02 2022-08-02 北京大学 一种一体化的条件图像重绘方法及装置
CN115311463A (zh) * 2022-10-09 2022-11-08 中国海洋大学 类别引导多尺度解耦的海洋遥感图像文本检索方法及系统
WO2023060434A1 (zh) * 2021-10-12 2023-04-20 中国科学院深圳先进技术研究院 一种基于文本的图像编辑方法和电子设备
WO2023185785A1 (zh) * 2022-03-28 2023-10-05 华为技术有限公司 一种图像处理方法、模型训练方法及相关装置
CN116977021A (zh) * 2023-07-21 2023-10-31 上海则一供应链管理有限公司 基于大数据的系统对接自动推单方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11205736A (ja) * 1997-11-11 1999-07-30 Hitachi Denshi Ltd 動画像編集装置
CN108564126A (zh) * 2018-04-19 2018-09-21 郑州大学 一种融合语义控制的特定场景生成方法
CN111723585A (zh) * 2020-06-08 2020-09-29 中国石油大学(华东) 一种风格可控的图像文本实时翻译与转换方法
CN111899203A (zh) * 2020-07-10 2020-11-06 贵州大学 基于标注图在无监督训练下的真实图像生成方法及存储介质
CN111967533A (zh) * 2020-09-03 2020-11-20 中山大学 一种基于场景识别的草图图像翻译方法
CN112288831A (zh) * 2020-10-29 2021-01-29 中国人民解放军陆军装甲兵学院 基于生成对抗网络的场景图像生成方法和装置
CN112685582A (zh) * 2019-10-18 2021-04-20 微软技术许可有限责任公司 自动生成故事板
CN112734881A (zh) * 2020-12-01 2021-04-30 北京交通大学 基于显著性场景图分析的文本合成图像方法及系统
CN112733866A (zh) * 2021-01-27 2021-04-30 西安理工大学 一种提高可控图像文本描述正确性的网络构建方法
CN112784092A (zh) * 2021-01-28 2021-05-11 电子科技大学 一种混合融合模型的跨模态图像文本检索方法
CN112818646A (zh) * 2021-02-26 2021-05-18 南京邮电大学 基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11205736A (ja) * 1997-11-11 1999-07-30 Hitachi Denshi Ltd 動画像編集装置
CN108564126A (zh) * 2018-04-19 2018-09-21 郑州大学 一种融合语义控制的特定场景生成方法
CN112685582A (zh) * 2019-10-18 2021-04-20 微软技术许可有限责任公司 自动生成故事板
CN111723585A (zh) * 2020-06-08 2020-09-29 中国石油大学(华东) 一种风格可控的图像文本实时翻译与转换方法
CN111899203A (zh) * 2020-07-10 2020-11-06 贵州大学 基于标注图在无监督训练下的真实图像生成方法及存储介质
CN111967533A (zh) * 2020-09-03 2020-11-20 中山大学 一种基于场景识别的草图图像翻译方法
CN112288831A (zh) * 2020-10-29 2021-01-29 中国人民解放军陆军装甲兵学院 基于生成对抗网络的场景图像生成方法和装置
CN112734881A (zh) * 2020-12-01 2021-04-30 北京交通大学 基于显著性场景图分析的文本合成图像方法及系统
CN112733866A (zh) * 2021-01-27 2021-04-30 西安理工大学 一种提高可控图像文本描述正确性的网络构建方法
CN112784092A (zh) * 2021-01-28 2021-05-11 电子科技大学 一种混合融合模型的跨模态图像文本检索方法
CN112818646A (zh) * 2021-02-26 2021-05-18 南京邮电大学 基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
S. P. FAUSTINA JOAN等: "A Survey on Text Information Extraction from Born-Digital and Scene Text Images" *
SOMAK ADITYA等: "Image Understanding using vision and reasoning through Scene Description Graph" *
XING XU等: "What Machines See Is Not What They Get: Fooling Scene Text Recognition Models With Adversarial Text Images" *
吴少乾等: "生成对抗网络的研究进展综述" *
薛福兴: "基于场景图的细粒度图像生成模型" *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023060434A1 (zh) * 2021-10-12 2023-04-20 中国科学院深圳先进技术研究院 一种基于文本的图像编辑方法和电子设备
WO2023185785A1 (zh) * 2022-03-28 2023-10-05 华为技术有限公司 一种图像处理方法、模型训练方法及相关装置
CN114842105A (zh) * 2022-06-02 2022-08-02 北京大学 一种一体化的条件图像重绘方法及装置
CN115311463A (zh) * 2022-10-09 2022-11-08 中国海洋大学 类别引导多尺度解耦的海洋遥感图像文本检索方法及系统
CN115311463B (zh) * 2022-10-09 2023-02-03 中国海洋大学 类别引导多尺度解耦的海洋遥感图像文本检索方法及系统
CN116977021A (zh) * 2023-07-21 2023-10-31 上海则一供应链管理有限公司 基于大数据的系统对接自动推单方法
CN116977021B (zh) * 2023-07-21 2024-04-30 上海则一供应链管理有限公司 基于大数据的系统对接自动推单方法

Also Published As

Publication number Publication date
CN113487629B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN113487629B (zh) 一种基于结构化场景和文本描述的图像属性编辑方法
Blattmann et al. Retrieval-augmented diffusion models
CN109871454B (zh) 一种鲁棒离散监督跨媒体哈希检索方法
Yang et al. TTL-IQA: Transitive transfer learning based no-reference image quality assessment
CN111899203B (zh) 基于标注图在无监督训练下的真实图像生成方法及存储介质
CN107590505A (zh) 联合低秩表示和稀疏回归的学习方法
Cai et al. Improving sampling-based image matting with cooperative coevolution differential evolution algorithm
Han et al. L-Net: lightweight and fast object detector-based ShuffleNetV2
CN114612767A (zh) 一种基于场景图的图像理解与表达方法、系统与存储介质
CN115565043A (zh) 结合多表征特征以及目标预测法进行目标检测的方法
Jiang et al. Tabcellnet: Deep learning-based tabular cell structure detection
CN115147601A (zh) 基于自注意力全局特征增强的城市街道点云语义分割方法
López-Cifuentes et al. Attention-based knowledge distillation in scene recognition: the impact of a dct-driven loss
Xie et al. Imbalanced big data classification based on virtual reality in cloud computing
CN111651660A (zh) 一种跨媒体检索困难样本的方法
CN111339734A (zh) 一种基于文本生成图像的方法
Gaihua et al. Instance segmentation convolutional neural network based on multi-scale attention mechanism
Wang et al. A sparse focus framework for visual fine-grained classification
Dong et al. Towards Class Interpretable Vision Transformer with Multi-Class-Tokens
CN109146058B (zh) 具有变换不变能力且表达一致的卷积神经网络
Wang et al. Speed-up Single Shot Detector on GPU with CUDA
Liu et al. Filter pruning by quantifying feature similarity and entropy of feature maps
Wu et al. Similar image retrieval in large-scale trademark databases based on regional and boundary fusion feature
Qian et al. Hybrid neural network model for large-scale heterogeneous classification tasks in few-shot learning
Zhang et al. Fully Kernected Neural Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant