CN113487629A - 一种基于结构化场景和文本描述的图像属性编辑方法 - Google Patents
一种基于结构化场景和文本描述的图像属性编辑方法 Download PDFInfo
- Publication number
- CN113487629A CN113487629A CN202110769607.6A CN202110769607A CN113487629A CN 113487629 A CN113487629 A CN 113487629A CN 202110769607 A CN202110769607 A CN 202110769607A CN 113487629 A CN113487629 A CN 113487629A
- Authority
- CN
- China
- Prior art keywords
- picture
- image
- loss
- pictures
- generated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000004927 fusion Effects 0.000 claims abstract description 58
- 230000011218 segmentation Effects 0.000 claims abstract description 40
- 230000008447 perception Effects 0.000 claims abstract description 24
- 238000012986 modification Methods 0.000 claims abstract description 20
- 230000004048 modification Effects 0.000 claims abstract description 20
- 230000006870 function Effects 0.000 claims abstract description 12
- 230000007246 mechanism Effects 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 101
- 238000004364 calculation method Methods 0.000 claims description 20
- 238000005315 distribution function Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 239000004576 sand Substances 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000016776 visual perception Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 description 15
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000004088 simulation Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G06T3/04—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明公开了一种基于结构化场景和文本描述的图像属性编辑方法,首次提出了“先结构化图片,再编辑”的实现方案,通过对图片场景的理解和解耦,能够有效地提升图片修改的效率和准确度,避免语义无关部分被过度修改。本发明在网络结构上采用了更适用于该任务的多尺度特征融合机制,在损失函数上结合了返还分割损失、分级式的语义匹配感知和图像质量判别器的对抗损失、图像一致性损失和图文相似度损失,保证了整个方法最终的总和性能,解决了现有图像属性编辑方法中运行不稳定、难以扩展和资源开销大的问题。
Description
技术领域
本发明属于图像处理技术领域,具体涉及一种基于结构化场景和文本描述的图像属性编辑方法的设计。
背景技术
随着深度神经网络的发展,图像分类、图像分割和图像目标检测等技术已经相对较为成熟并得到了广泛的应用。但是,图像生成相关的技术由于其面对高质量高分辨率要求,往往存在着模型训练时间长、开销大、训练不稳定等问题,而未得到广泛的应用支持。
其中由文本引导的图像编辑任务是功能性较强,应用前景较为广泛地一个任务,它利用用户给出文本描述,对输入的图片进行编辑,保持整体风格不变,对语义相关的属性进行有效的修改,生成对应的真实图像。由于生成的真实图像具有现实且丰富的内容,因此该研究有助于实现基础数据集的扩增,工业设计,也可以直接用于现实的应用程序,例如语音助手读取指令,对图片中的模特进行换装,对物体属性进行编辑等。
目前来说,已有的应用于文本编辑图像属性的生成方法主要有以下几个方面的缺陷:(1)现有模型在生成高分辨率的图片时往往存在网络结构复杂冗余,训练时间较长的问题;(2)现有的模型缺乏对图片场景理解的步骤,直接导致了(1)中的问题,并且生成图片往往存在图片内容未被充分解耦,语义无关部分被过度修改等问题;(3)现有架构大多为通用性模型,针对的是广泛的文本生成图像或者随机图像生成模型,没有充分考虑到该任务下的某些具体特性。
发明内容
本发明的目的是针对现有技术中的上述不足,提出了一种基于结构化场景和文本描述的图像属性编辑方法,采用更符合该任务的网络结构、融合模块和损失函数,以解决现有图像属性编辑方法中网络结构复杂冗余、训练时间较长以及语义无关部分被过度修改的问题。
本发明的技术方案为:一种基于结构化场景和文本描述的图像属性编辑方法,包括以下步骤:
S1、从样本数据集中抽取一个批次的成对样本,成对样本包括真实图片、语义分割标注图片和描述文本。
S2、将真实图片输入到语义分割网络StruS中,得到语义分割预测结果和三个尺度的图片特征。
S3、将三个尺度的图片特征和描述文本输入到图像修改网络MoS中,得到两张不同尺寸的生成前景图片。
S4、根据语义分割预测结果从真实图片中获取预测的后景图片,并将后景图片与生成前景图片进行加和,得到最终的生成图片。
S5、将语义分割预测结果与语义分割标注图片进行比对,采用交叉熵损失函数得到返还分割损失。
S6、将真实图片缩放为生成图片的对应尺寸,并根据语义分割标注图片得到两组真实前景图片。
S7、将两组真实前景图片与两张生成前景图片分别输入两个不共享参数的分级式的视觉感知判别器中,得到关于前景图像质量的4个判别结果。
S8、将两组真实前景图片与生成图片分别输入到最大尺寸的判别器中,得到关于整体图像质量的2个判别结果。
S9、将两组真实前景图片、两张生成前景图片分别与文本配对,并将配对结果输入到判别器中,得到关于语义匹配感知的4个判别结果。
S10、采用对抗损失函数将关于前景图像质量的4个判别结果、关于整体图像质量的2个判别结果和关于语义匹配感知的4个判别结果转化为分级式的语义匹配感知和图像质量判别器的对抗损失。
S11、将生成图片与真实图片分别输入到在ImageNet数据集上预训练好的VGG16网络中,采用VGG16网络的Relu2_2层进行二范数求距离并归一化得到图像一致性损失。
S12、将生成图片与对应描述文本输入到在样本数据集上预训练好的图文相似度计算网络中,在同一批次中分别得到词向量和生成图片之间的相似度以及句向量和生成图片之间的相似度,并根据词向量和生成图片之间的相似度以及句向量和生成图片之间的相似度计算得到图文相似度损失。
S13、根据返还分割损失、分级式的语义匹配感知和图像质量判别器的对抗损失、图像一致性损失和图文相似度损失计算得到最终损失。
S14、根据最终损失对由语义分割网络StruS和图像修改网络MoS构成的图像生成网络进行参数优化。
S15、判断图像生成网络是否收敛,若是则进入步骤S16,否则返回步骤S1。
S16、将优化后的图像生成网络作为图像生成模型,并采用图像生成模型,根据文本描述对输入图片进行属性编辑。
进一步地,步骤S2中的语义分割网络StruS包括对称设置的图像编码器和图像解码器,图像编码器和图像解码器通过残差网络连接。
步骤S2包括以下分步骤:
进一步地,步骤S3中的图像修改网络MoS包括级联的文本编码器和图像生成器,图像生成器包括句向量特征融合模块和多路向量特征融合模块。
步骤S3包括以下分步骤:
γs=fγ(s)
βs=fβ(s)
其中C,W,H分别表示图片维度、宽度和高度,fγ(·)和fβ(·)均表示可学习参数的线性变换。
S33、将缩放因子γs、位移因子βs和中间层特征hi进行融合,得到句向量特征融合结果SFFB(hi|s):
SFFB(hi|s)=γs·hi+βs
S34、将句向量特征融合模块堆叠四次。
S36、通过多路向量特征融合模块的卷积层得到和被词向量修饰的特征图hattn尺寸相同的缩放因子γw和位移因子βw。
其中i=1,2。
S39、将多路向量特征融合模块堆叠两次,得到两张不同尺寸的生成前景图片。
进一步地,步骤S4包括以下分步骤:
其中D(·)表示判别器函数,表示条件对抗损失,即由关于语义匹配感知的4个判别结果所计算得到的损失,表示无条件对抗损失,即由关于前景图像质量的4个判别结果和关于整体图像质量的2个判别结果所计算得到的损失,表示最终的生成图片,表示生成前景图片,x表示真实图片,xfg表示真实前景图片,s表示句向量,λ4表示权重系数,和均表示真实图片分布函数,和均表示生成图片分布函数。
进一步地,步骤S13中的最终损失表示为:
本发明的有益效果是:
(1)本发明首次提出了“先结构化图片,再编辑”的实现方案,通过对图片场景的理解和解耦,能够有效地提升图片修改的效率和准确度,避免语义无关部分被过度修改。
(2)本发明在网络结构上采用了更适用于该任务的多尺度特征融合机制,在损失函数上结合了返还分割损失、分级式的语义匹配感知和图像质量判别器的对抗损失、图像一致性损失和图文相似度损失,保证了整个方法最终的总和性能,解决了现有图像属性编辑方法中运行不稳定、难以扩展和资源开销大的问题。
附图说明
图1所示为本发明实施例提供的一种基于结构化场景和文本描述的图像属性编辑方法流程图。
图2所示为本发明实施例提供的图像生成网络结构示意图。
图3所示为本发明实施例提供的图像生成器结构示意图。
图4所示为仿真实验1输入的标准图与采用本发明方法生成的真实图像的对比图。
图5所示为仿真实验2输入的标准图与采用本发明方法生成的真实图像的对比图。
图6所示为仿真实验3输入的标准图与采用本发明方法生成的真实图像的对比图。
具体实施方式
现在将参考附图来详细描述本发明的示例性实施方式。应当理解,附图中示出和描述的实施方式仅仅是示例性的,意在阐释本发明的原理和精神,而并非限制本发明的范围。
本发明实施例提供了一种基于结构化场景和文本描述的图像属性编辑方法,如图1所示,包括以下步骤S1~S16:
S1、从样本数据集中抽取一个批次的成对样本,成对样本包括真实图片、语义分割标注图片和描述文本。
S2、将真实图片输入到语义分割网络StruS中,得到语义分割预测结果和三个尺度的图片特征。
如图2所示,语义分割网络StruS包括对称设置的图像编码器和图像解码器,图像编码器和图像解码器通过残差网络连接。
步骤S2包括以下分步骤S21~S22:
S3、将三个尺度的图片特征和描述文本输入到图像修改网络MoS中,得到两张不同尺寸的生成前景图片。
如图2所示,图像修改网络MoS包括级联的文本编码器和图像生成器,图像生成器包括句向量特征融合模块和多路向量特征融合模块,如图3所示。图像生成器的输入包括不同尺度的图片特征以及包含修改语义信息的句向量和词向量特征,均采用了空间自适应的正则化方式(AdaIN)进行特征融合,但在不同的图像生成阶段,采用了不同的融合策略。
句向量特征融合模块SFFB被运用到较小尺寸的图像生成阶段,其输入包括中间层特征和句向量。多路向量特征融合模块CFFB被运用到较大尺寸的图片生成阶段,其输入包括中间层特征、浅层图片特征和词向量。
步骤S3包括以下分步骤S31~S39:
γs=fγ(s)
βs=fβ(s)
其中C,W,H分别表示图片维度、宽度和高度,fγ(·)和fβ(·)均表示可学习参数的线性变换。
S33、将缩放因子γs、位移因子βs和中间层特征hi进行融合,得到句向量特征融合结果SFFB(hi|s):
SFFB(hi|s)=γs·hi+βs
S34、将句向量特征融合模块堆叠四次,即第一个句向量特征融合模块的输出作为第二个句向量特征融合模块的输入,第二个句向量特征融合模块的输出作为第三个句向量特征融合模块的输入,第三个句向量特征融合模块的输出作为最后一个句向量特征融合模块的输入,并且第一个句向量特征融合模块的输入为
S36、通过多路向量特征融合模块的卷积层得到和被词向量修饰的特征图hattn尺寸相同的缩放因子γw和位移因子βw。
其中i=1,2。
S39、将多路向量特征融合模块堆叠两次,即第一个多路向量特征融合模块的输出是第二个多路向量特征融合模块的输入,并且第一个多路向量特征融合模块的输入为最后一个句向量特征融合模块的输出,将作为浅层图片特征分别使用在两个不同的多路向量特征融合模块中,即得到两张不同尺寸的生成前景图片。
S4、根据语义分割预测结果从真实图片中获取预测的后景图片,并将后景图片与生成前景图片进行加和,得到最终的生成图片。
步骤S4包括以下分步骤:
S5、将语义分割预测结果与语义分割标注图片进行比对,采用交叉熵损失函数(softmax)得到返还分割损失。
S6、将真实图片缩放为生成图片的对应尺寸,并根据语义分割标注图片得到两组真实前景图片。
S7、将两组真实前景图片与两张生成前景图片分别输入两个不共享参数的分级式的视觉感知判别器中,得到关于前景图像质量的4个判别结果。
S8、将两组真实前景图片与生成图片分别输入到最大尺寸的判别器中,得到关于整体图像质量的2个判别结果。
S9、将两组真实前景图片、两张生成前景图片分别与文本配对,并将配对结果输入到判别器中,得到关于语义匹配感知的4个判别结果。
S10、采用对抗损失函数将关于前景图像质量的4个判别结果、关于整体图像质量的2个判别结果和关于语义匹配感知的4个判别结果转化为分级式的语义匹配感知和图像质量判别器的对抗损失。
其中D(·)表示判别器函数,表示条件对抗损失,即由关于语义匹配感知的4个判别结果所计算得到的损失,表示无条件对抗损失,即由关于前景图像质量的4个判别结果和关于整体图像质量的2个判别结果所计算得到的损失,表示最终的生成图片,表示生成前景图片,x表示真实图片,xfg表示真实前景图片,s表示句向量,λ4表示权重系数,和均表示真实图片分布函数,和均表示生成图片分布函数。
为了加快网络收敛,假定最终的生成图片的尺寸为H×W,生成器同时也生成大小的前景图片输入到参数不共享的判别器中,对其计算得到两项关于语义匹配感知的判别结果所得到的条件损失和两项关于前景图像质量的判别结果所得到的无条件损失,但不做整体图片质量的判别。
S11、将生成图片与真实图片分别输入到在ImageNet数据集上预训练好的VGG16网络中,采用VGG16网络的Relu2_2层进行二范数求距离并归一化得到图像一致性损失。
S12、将生成图片与对应描述文本输入到在样本数据集上预训练好的图文相似度计算网络DAMSM中,在同一批次中分别得到词向量和生成图片之间的相似度以及句向量和生成图片之间的相似度,并根据词向量和生成图片之间的相似度以及句向量和生成图片之间的相似度计算得到图文相似度损失。
其中表示最终的生成图片,s表示句向量,w表示词向量,DAMSMw(·)表示词向量和生成图片之间的相似度,DAMSMs(·)表示句向量和生成图片之间的相似度。对DAMSMw(·)和DAMSMs(·)进行排序后做交叉熵损失即可得到图文相似度损失
S13、根据返还分割损失、分级式的语义匹配感知和图像质量判别器的对抗损失、图像一致性损失和图文相似度损失计算得到最终损失,表示为:
其中D表示判别器,G表示生成器,表示分级式的语义匹配感知和图像质量判别器的对抗损失,表示图像一致性损失,表示图文相似性损失,表示返还分割损失,λ1,λ2,λ3均为权重系数。在对抗网络中,模型的更新分为两部分,一个是对生成器参数的更新,另一个是对判别器参数的更新,但二者的优化目标是截然相反的,因此本发明实施例中的最终损失分别取极大和极小进行优化。
S14、根据最终损失对由语义分割网络StruS和图像修改网络MoS构成的图像生成网络进行参数优化。
S15、判断图像生成网络是否收敛,若是则进入步骤S16,否则返回步骤S1。
S16、将优化后的图像生成网络作为图像生成模型,并采用图像生成模型,根据文本描述对输入图片进行属性编辑。
下面以两个具体实验例对本发明提供的图像属性编辑方法的效果作进一步描述。
实验例一:
设置实验条件为:系统:Ubuntu 18.04,软件:Python 3.6,处理器:Intel Xeon(R)CPU E5-2620 v4@2.10GHz×2,内存:256GB。
仿真实验1:利用本发明方法将花、鸟的图片和修改描述作为输入,生成对应的真实图片,结果如图4所示;
仿真实验2:利用本发明方法将动物、交通工具和修改描述作为输入,生成对应的真实图片,结果如图5所示;
仿真实验3:利用本发明方法将鸟和不同的修改描述作为输入,生成对应的真实图片,结果如图6所示。
从图4可以看出,本发明方法生成的真实图像画面清晰,内容具有丰富且合理的纹理信息,与输入的修改描述有明显的对应关系,并很好地保存了语义无关的背景信息;从图5可以看出,本发明方法在复杂场景中也能够对各类物体实现有效地修改;从图6可以看出,本发明方法能够提取不同语句中的语义信息,并和原图进行有效的匹配和修改,具备很好的鲁棒性。
实验例二:
实验条件:系统:Ubuntu 18.04,软件:Python 3.6,处理器:Intel Xeon(R)CPUE5-2620 v4@2.10GHz×2,内存:256GB。
本实验例中所使用的数据集都是以图文对的形式存在的,即一张真实图片对应若干个文本描述,依次分别使用每种算法对数据集中的训练集进行训练。训练完毕后,分别用每种算法对该数据集测试集上真实图片匹配文本描述生成对应的图片。
在实验中将测试集随机划分为若干个批次,每个批次包括了100个图文对(x,t)。在每个批次中,采用了成对生成的方式同时也进行了不成对的生成方式其中在数据集中不存在对应的真实样本。在测试集上重复实验10次,取平均。
(1)考察生成图片质量和多样性:
使用Inception-V3在ImageNet数据集上预先训练完毕。对于每种算法,将生成的不成对方式生成的图片和真实的图片x输入到该Inception-V3网络中,提取第三个池化层输出的特征,求两者特征的分布差异,得到Frechet Inception距离。
使用Inception-V3在测试数据集上预先训练完毕。对于每种算法,将不成对方式生成的图片和真实的图片x输入到该Inception-V3网络中,提取最后一层对所有类别的预测概率计算得到平均概率分布的熵值Inception Score。
(2)考察生成图片的图文匹配程度:
使用图文相似度计算网络DAMSM在整个数据集上预先训练完毕。对于每种算法,将不成对方式生成的图片和对应的修改描述tb输入到该DAMSM网络中,得到词向量和修改图片的图文相似度,并在同一个批次中进行排序,计算类别检索准确度。
(3)考察生成图片对原始图片整体特征的保留程度:
(4)考察模型效率:
分别从模型参数量、模型训练时间、推理时间、模型收敛的迭代次数和模型总的训练时长五个方面来考察模型效率。其中,模型参数量包括了文本、图片特征编码器和图片生成器三部分;模型训练时间和推理时间均采用训练100个批次,每个批次16个样本的配置。
最终得到的各种算法对应考察指标如表1~表3所示。
表1
表2
表3
通过表1和表2中的数据分析对比,可以得知本发明方法相比于现有图像属性编辑方法具有生成图片的质量和多样性更好、图文匹配程度更高、对原始图片整体特征保留程度更高、训练周期更短等优点。
从表3中的数据对比分析可知,TAGAN虽然在部分指标上占优,但其图片质量远差于本发明的方法,不能满足实际的需求。ManiGAN包括了两个分离的训练阶段,因此在表3中的训练时间和轮数上均给出了两个值。而本发明的方法兼顾了模型开销和图片质量两个重要的评价指标。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (9)
1.一种基于结构化场景和文本描述的图像属性编辑方法,其特征在于,包括以下步骤:
S1、从样本数据集中抽取一个批次的成对样本,所述成对样本包括真实图片、语义分割标注图片和描述文本;
S2、将真实图片输入到语义分割网络StruS中,得到语义分割预测结果和三个尺度的图片特征;
S3、将三个尺度的图片特征和描述文本输入到图像修改网络MoS中,得到两张不同尺寸的生成前景图片;
S4、根据语义分割预测结果从真实图片中获取预测的后景图片,并将后景图片与生成前景图片进行加和,得到最终的生成图片;
S5、将语义分割预测结果与语义分割标注图片进行比对,采用交叉熵损失函数得到返还分割损失;
S6、将真实图片缩放为生成图片的对应尺寸,并根据语义分割标注图片得到两组真实前景图片;
S7、将两组真实前景图片与两张生成前景图片分别输入两个不共享参数的分级式的视觉感知判别器中,得到关于前景图像质量的4个判别结果;
S8、将两组真实前景图片与生成图片分别输入到最大尺寸的判别器中,得到关于整体图像质量的2个判别结果;
S9、将两组真实前景图片、两张生成前景图片分别与文本配对,并将配对结果输入到判别器中,得到关于语义匹配感知的4个判别结果;
S10、采用对抗损失函数将关于前景图像质量的4个判别结果、关于整体图像质量的2个判别结果和关于语义匹配感知的4个判别结果转化为分级式的语义匹配感知和图像质量判别器的对抗损失;
S11、将生成图片与真实图片分别输入到在ImageNet数据集上预训练好的VGG16网络中,采用VGG16网络的Relu2_2层进行二范数求距离并归一化得到图像一致性损失;
S12、将生成图片与对应描述文本输入到在样本数据集上预训练好的图文相似度计算网络中,在同一批次中分别得到词向量和生成图片之间的相似度以及句向量和生成图片之间的相似度,并根据词向量和生成图片之间的相似度以及句向量和生成图片之间的相似度计算得到图文相似度损失;
S13、根据返还分割损失、分级式的语义匹配感知和图像质量判别器的对抗损失、图像一致性损失和图文相似度损失计算得到最终损失;
S14、根据最终损失对由语义分割网络StruS和图像修改网络MoS构成的图像生成网络进行参数优化;
S15、判断图像生成网络是否收敛,若是则进入步骤S16,否则返回步骤S1;
S16、将优化后的图像生成网络作为图像生成模型,并采用图像生成模型,根据文本描述对输入图片进行属性编辑。
3.根据权利要求2所述的图像属性编辑方法,其特征在于,所述步骤S3中的图像修改网络MoS包括级联的文本编码器和图像生成器,所述图像生成器包括句向量特征融合模块和多路向量特征融合模块;
所述步骤S3包括以下分步骤:
γs=fγ(s)
βs=fβ(s)
其中C,W,H分别表示图片维度、宽度和高度,fγ(·)和fβ(·)均表示可学习参数的线性变换;
S33、将缩放因子γs、位移因子βs和中间层特征hi进行融合,得到句向量特征融合结果SFFB(hi|s):
SFFB(hi|s)=γs·hi+βs
S34、将句向量特征融合模块堆叠四次;
S36、通过多路向量特征融合模块的卷积层得到和被词向量修饰的特征图hattn尺寸相同的缩放因子γw和位移因子βw;
其中i=1,2;
S39、将多路向量特征融合模块堆叠两次,得到两张不同尺寸的生成前景图片。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110769607.6A CN113487629B (zh) | 2021-07-07 | 2021-07-07 | 一种基于结构化场景和文本描述的图像属性编辑方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110769607.6A CN113487629B (zh) | 2021-07-07 | 2021-07-07 | 一种基于结构化场景和文本描述的图像属性编辑方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113487629A true CN113487629A (zh) | 2021-10-08 |
CN113487629B CN113487629B (zh) | 2023-04-07 |
Family
ID=77935982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110769607.6A Active CN113487629B (zh) | 2021-07-07 | 2021-07-07 | 一种基于结构化场景和文本描述的图像属性编辑方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113487629B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114842105A (zh) * | 2022-06-02 | 2022-08-02 | 北京大学 | 一种一体化的条件图像重绘方法及装置 |
CN115311463A (zh) * | 2022-10-09 | 2022-11-08 | 中国海洋大学 | 类别引导多尺度解耦的海洋遥感图像文本检索方法及系统 |
WO2023060434A1 (zh) * | 2021-10-12 | 2023-04-20 | 中国科学院深圳先进技术研究院 | 一种基于文本的图像编辑方法和电子设备 |
WO2023185785A1 (zh) * | 2022-03-28 | 2023-10-05 | 华为技术有限公司 | 一种图像处理方法、模型训练方法及相关装置 |
CN116977021A (zh) * | 2023-07-21 | 2023-10-31 | 上海则一供应链管理有限公司 | 基于大数据的系统对接自动推单方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11205736A (ja) * | 1997-11-11 | 1999-07-30 | Hitachi Denshi Ltd | 動画像編集装置 |
CN108564126A (zh) * | 2018-04-19 | 2018-09-21 | 郑州大学 | 一种融合语义控制的特定场景生成方法 |
CN111723585A (zh) * | 2020-06-08 | 2020-09-29 | 中国石油大学(华东) | 一种风格可控的图像文本实时翻译与转换方法 |
CN111899203A (zh) * | 2020-07-10 | 2020-11-06 | 贵州大学 | 基于标注图在无监督训练下的真实图像生成方法及存储介质 |
CN111967533A (zh) * | 2020-09-03 | 2020-11-20 | 中山大学 | 一种基于场景识别的草图图像翻译方法 |
CN112288831A (zh) * | 2020-10-29 | 2021-01-29 | 中国人民解放军陆军装甲兵学院 | 基于生成对抗网络的场景图像生成方法和装置 |
CN112685582A (zh) * | 2019-10-18 | 2021-04-20 | 微软技术许可有限责任公司 | 自动生成故事板 |
CN112734881A (zh) * | 2020-12-01 | 2021-04-30 | 北京交通大学 | 基于显著性场景图分析的文本合成图像方法及系统 |
CN112733866A (zh) * | 2021-01-27 | 2021-04-30 | 西安理工大学 | 一种提高可控图像文本描述正确性的网络构建方法 |
CN112784092A (zh) * | 2021-01-28 | 2021-05-11 | 电子科技大学 | 一种混合融合模型的跨模态图像文本检索方法 |
CN112818646A (zh) * | 2021-02-26 | 2021-05-18 | 南京邮电大学 | 基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法 |
-
2021
- 2021-07-07 CN CN202110769607.6A patent/CN113487629B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11205736A (ja) * | 1997-11-11 | 1999-07-30 | Hitachi Denshi Ltd | 動画像編集装置 |
CN108564126A (zh) * | 2018-04-19 | 2018-09-21 | 郑州大学 | 一种融合语义控制的特定场景生成方法 |
CN112685582A (zh) * | 2019-10-18 | 2021-04-20 | 微软技术许可有限责任公司 | 自动生成故事板 |
CN111723585A (zh) * | 2020-06-08 | 2020-09-29 | 中国石油大学(华东) | 一种风格可控的图像文本实时翻译与转换方法 |
CN111899203A (zh) * | 2020-07-10 | 2020-11-06 | 贵州大学 | 基于标注图在无监督训练下的真实图像生成方法及存储介质 |
CN111967533A (zh) * | 2020-09-03 | 2020-11-20 | 中山大学 | 一种基于场景识别的草图图像翻译方法 |
CN112288831A (zh) * | 2020-10-29 | 2021-01-29 | 中国人民解放军陆军装甲兵学院 | 基于生成对抗网络的场景图像生成方法和装置 |
CN112734881A (zh) * | 2020-12-01 | 2021-04-30 | 北京交通大学 | 基于显著性场景图分析的文本合成图像方法及系统 |
CN112733866A (zh) * | 2021-01-27 | 2021-04-30 | 西安理工大学 | 一种提高可控图像文本描述正确性的网络构建方法 |
CN112784092A (zh) * | 2021-01-28 | 2021-05-11 | 电子科技大学 | 一种混合融合模型的跨模态图像文本检索方法 |
CN112818646A (zh) * | 2021-02-26 | 2021-05-18 | 南京邮电大学 | 基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法 |
Non-Patent Citations (5)
Title |
---|
S. P. FAUSTINA JOAN等: "A Survey on Text Information Extraction from Born-Digital and Scene Text Images" * |
SOMAK ADITYA等: "Image Understanding using vision and reasoning through Scene Description Graph" * |
XING XU等: "What Machines See Is Not What They Get: Fooling Scene Text Recognition Models With Adversarial Text Images" * |
吴少乾等: "生成对抗网络的研究进展综述" * |
薛福兴: "基于场景图的细粒度图像生成模型" * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023060434A1 (zh) * | 2021-10-12 | 2023-04-20 | 中国科学院深圳先进技术研究院 | 一种基于文本的图像编辑方法和电子设备 |
WO2023185785A1 (zh) * | 2022-03-28 | 2023-10-05 | 华为技术有限公司 | 一种图像处理方法、模型训练方法及相关装置 |
CN114842105A (zh) * | 2022-06-02 | 2022-08-02 | 北京大学 | 一种一体化的条件图像重绘方法及装置 |
CN115311463A (zh) * | 2022-10-09 | 2022-11-08 | 中国海洋大学 | 类别引导多尺度解耦的海洋遥感图像文本检索方法及系统 |
CN115311463B (zh) * | 2022-10-09 | 2023-02-03 | 中国海洋大学 | 类别引导多尺度解耦的海洋遥感图像文本检索方法及系统 |
CN116977021A (zh) * | 2023-07-21 | 2023-10-31 | 上海则一供应链管理有限公司 | 基于大数据的系统对接自动推单方法 |
CN116977021B (zh) * | 2023-07-21 | 2024-04-30 | 上海则一供应链管理有限公司 | 基于大数据的系统对接自动推单方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113487629B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113487629B (zh) | 一种基于结构化场景和文本描述的图像属性编辑方法 | |
Blattmann et al. | Retrieval-augmented diffusion models | |
CN109871454B (zh) | 一种鲁棒离散监督跨媒体哈希检索方法 | |
Yang et al. | TTL-IQA: Transitive transfer learning based no-reference image quality assessment | |
CN111899203B (zh) | 基于标注图在无监督训练下的真实图像生成方法及存储介质 | |
CN107590505A (zh) | 联合低秩表示和稀疏回归的学习方法 | |
Cai et al. | Improving sampling-based image matting with cooperative coevolution differential evolution algorithm | |
Han et al. | L-Net: lightweight and fast object detector-based ShuffleNetV2 | |
CN114612767A (zh) | 一种基于场景图的图像理解与表达方法、系统与存储介质 | |
CN115565043A (zh) | 结合多表征特征以及目标预测法进行目标检测的方法 | |
Jiang et al. | Tabcellnet: Deep learning-based tabular cell structure detection | |
CN115147601A (zh) | 基于自注意力全局特征增强的城市街道点云语义分割方法 | |
López-Cifuentes et al. | Attention-based knowledge distillation in scene recognition: the impact of a dct-driven loss | |
Xie et al. | Imbalanced big data classification based on virtual reality in cloud computing | |
CN111651660A (zh) | 一种跨媒体检索困难样本的方法 | |
CN111339734A (zh) | 一种基于文本生成图像的方法 | |
Gaihua et al. | Instance segmentation convolutional neural network based on multi-scale attention mechanism | |
Wang et al. | A sparse focus framework for visual fine-grained classification | |
Dong et al. | Towards Class Interpretable Vision Transformer with Multi-Class-Tokens | |
CN109146058B (zh) | 具有变换不变能力且表达一致的卷积神经网络 | |
Wang et al. | Speed-up Single Shot Detector on GPU with CUDA | |
Liu et al. | Filter pruning by quantifying feature similarity and entropy of feature maps | |
Wu et al. | Similar image retrieval in large-scale trademark databases based on regional and boundary fusion feature | |
Qian et al. | Hybrid neural network model for large-scale heterogeneous classification tasks in few-shot learning | |
Zhang et al. | Fully Kernected Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |