CN114782590A

CN114782590A - 一种多物体内容联合图像生成方法及系统

Info

Publication number: CN114782590A
Application number: CN202210264024.2A
Authority: CN
Inventors: 陈振学; 叶梦婷; 刘龙成; 贲晛烨; 郭庆强; 杜付鑫
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-03-17
Filing date: 2022-03-17
Publication date: 2022-07-22
Anticipated expiration: 2042-03-17

Abstract

本发明提供了一种多物体内容联合图像生成方法及系统，包括获取多种物体原始图像并进行预处理；利用预先训练好的Transformer模型对预处理后的多种物体原始图像进行维度压缩，得到多个物体图像的一维向量；将多个物体图像的一维向量进行相加，得到多物体图像相加向量；基于多物体图像相加向量，利用预先训练好的生成式对抗网络，得到多物体融合图像；通过Transformer模型和生成式对抗网络对多个类型不同的图像进行内容融合，实现了直接将多个无关物体图像的内容层面进行有机融合的操作。

Description

一种多物体内容联合图像生成方法及系统

技术领域

本发明属于计算机视觉技术领域，具体涉及一种多物体内容联合图像生成方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着人类文明不断地向前发展，互联网的高速传播与大规模应用使得人与人之间的交流变得更加紧密，各类聊天软件的兴起和PS工具的诞生，不仅促进了人与人之间的交流，也促进了生产力的发展，同时还孕育了各种各样适应于不同场景的图像。但是，现阶段如果想要大规模产生非现实场景图像，就必须借助计算机视觉。

如今，已有专利大多集中在处理特定类型的图像，如：人脸、动物、建筑等，做的图像融合大部分都是对同类型图像抽取特征，再对各自特征进行融合，而缺少考虑直接将多个无关物体图像的内容层面进行有机融合的操作。前者的融合机制只能生成少数几种指定类型的图像，且过多依赖人类先验知识，原图像和生成图像之间差异通常较为细微，导致失去了艺术领域独有的创造力；而后者的融合可以将完全无关的多个物体合理地分布、排列在一张图片中，从而填补人类想象力的空缺。

也就是说，目前的图像融合大部分都是对同类型图像抽取特征，再对各自特征进行融合，而缺少考虑直接将多个无关物体图像的内容层面进行有机融合的操作。

发明内容

为了解决上述问题，本发明提出了一种多物体内容联合图像生成方法及系统，本发明将多物体通过内容联合合成新图像，该方法利用Transformer模型和生成式对抗网络，得到多个不同物体经内容融合后的新图像。

根据一些实施例，本发明的第一方案提供了一种多物体内容联合图像生成方法，采用如下技术方案：

一种多物体内容联合图像生成方法，包括：

获取多种物体原始图像并进行预处理；

利用预先训练好的Transformer模型对预处理后的多种物体原始图像进行维度压缩，得到多个物体图像的一维向量；

将多个物体图像的一维向量进行相加，得到多物体图像相加向量；

基于多物体图像相加向量，利用预先训练好的生成式对抗网络，得到多物体融合图像。

进一步地，所述预先训练好Transformer模型的过程，具体为：

对预处理后的物体原始图像，利用编码器得到物体原始图像的一维向量；

对于物体原始图像的一维向量，利用解码器得到新生成物体图像；

比较物体原始图像与新生成物体图像两者之间相似程度，调整编码器和解码器的具体参数；

提高物体原始图像与新生成物体图像的相似程度，得到训练好的Transformer模型。

进一步地，所述物体原始图像的一维向量的长度小于预处理后的物体原始图像的尺寸；

所述物体图像的一维向量的长度经解码器处理后等于预处理后的物体原始图像的尺寸。

进一步地，所述对预处理后的物体原始图像，利用编码器得到物体原始图像的一维向量，具体为：

利用编码器提取预处理后的物体原始图像的内容关键信息；

进一步地，所述生成式对抗网络包括生成器模块和分类器模块；

其中，所述生成器模块用于对多物体图像相加向量进行解码操作，将多物体图像相加向量的长度升维至物体原始图像的大小，并升维后的多物体图像相加向量还原成图像后输出；

所述分类器模块用于对生成器模块的输出图像进行合理性判断。

进一步地，所述对生成器模块的输出图像进行合理性判断，具体为：

对于生成器模块输出的多物体融合图像进行合理性判断；

如果判定不合理，则利用反向传播算法修正生成器网络的参数，重新进行多物体图像融合；

如果判定合理，则输出多物体融合图像。

进一步地，所述训练生成式对抗网络的具体过程为：

训练分类器模块，具体过程为：

(1)获取各种图像样本数据，得到测试集；

(2)基于测试集中的图像样本数据，将其标注为有意义；

(3)通过反向传播算法，让分类器模块学会判别输入图像在现实意义下是否可想象，即是否有意义；

(4)在足够多次的训练过后，若分类器模块能够在测试集中给出合理的结果，视为训练结束，否则重复第(3)步。

根据一些实施例，本发明的第二方案提供了一种多物体内容联合图像生成系统，采用如下技术方案：

一种多物体内容联合图像生成系统，包括：

图像获取模块，被配置为获取多种物体原始图像并进行预处理；

图像降维模块，被配置为利用预先训练好的Transformer模型对预处理后的多种物体原始图像进行维度压缩，得到多个物体图像的一维向量；

图像向量相加模块，被配置为将多个物体图像的一维向量进行相加，得到多物体图像相加向量；

图像融合模块，被配置为基于多物体图像相加向量，利用预先训练好的生成器网络，得到多物体融合图像。

根据一些实施例，本发明的第三方案提供了一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的一种多物体内容联合图像生成方法中的步骤。

根据一些实施例，本发明的第四方案提供了一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的一种多物体内容联合图像生成方法中的步骤。

与现有技术相比，本发明的有益效果为：

本发明通过Transformer模型和生成式对抗网络对多个类型不同的图像进行内容融合，可以将完全无关的多个物体合理地分布、排列在一张图片中，从而填补人类想象力的空缺，实现了直接将多个无关物体图像的内容层面进行有机融合的操作。

本发明一方面能够应用在娱乐领域，不仅可以为各个社交软件公司制作表情包，提高用户体验，还可以提供给游戏制作厂商制作游戏背景和画面，甚至还可以成为漫画家与自由故事写手的灵感来源，从而创造极大的经济价值；另一方面还能够应用在公共安全领域，为公安部门的刑侦案件提供线索串联服务，提高破案速度。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例一所述的一种多物体内容联合图像生成方法的流程图；

图2是本发明实施例一所述的一种多物体内容联合图像生成方法中编码器的结构图；

图3是本发明实施例一所述的一种多物体内容联合图像生成方法中解码器的结构图；

图4是本发明实施例一所述的一种多物体内容联合图像生成方法中Transformer模型结构图；

图5是本发明实施例一所述的生成式对抗网络训练过程流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

如图1-图5所示，本实施例提供了一种多物体内容联合图像生成方法，该方法包括以下步骤：

步骤S1：获取多种物体原始图像并进行预处理；

步骤S2：利用预先训练好的Transformer模型对预处理后的多种物体原始图像进行维度压缩，得到多个物体图像的一维向量；

步骤S3：将多个物体图像的一维向量进行相加，得到多物体图像相加向量；

步骤S4：基于多物体图像相加向量，利用预先训练好的生成式对抗网络，得到多物体融合图像。

在步骤S2中，所述预先训练好Transformer模型的过程，具体为：

比较物体原始图像与新生成物体图像两者之间的相似程度，调整编码器和解码器的具体参数；

Transformer模块的产生和设计是为了得到原始图像的合理压缩。将编码器和解码器以图4所示的方式相连，经过对原始图像的编码-解码操作，保证原始图像与生成图像高度相似，从而可以认定编码器与解码器中间是一维向量包含了原始图像的核心内容。

如图2所示，构造编码器的过程如下：

(1)对输入的图像进行预处理，使得图像大小为n*m；

(2)将预处理后的图像输入编码器的核心模块；

(3)在编码器的核心模块中：

用Multi-Head Attention代替传统网络中的Self-attention结构，能够将模型分为多个Head后形成多个子空间，允许模型关注更多方面的信息，从而对图像的内容进行总结与提取；

ResNet+Normalization在代码实现中是单独的两部分。其中ResNet通过残差网络减轻训练难度，从而允许网络叠得更深；Normalization层的提出是基于“数据集独立同分布”的假设，减少训练过程中的协变量偏移。两者都是为了降低训练难度而提出的；

全连接网络结构的作用是对输入的内容进行非线性变换，能够一定程度上扩大输出的表达范围；

(4)将数个编码器核心模块直接连接，以提取图像的重点信息；

(5)最后一个编码器核心模块的输出设定为一维向量，并认为是原图像降维后的结果。

如图3所示，构造解码器的过程如下：

(1)对输入的内容进行预处理，随后输入解码器的核心模块；

(2)在解码器的核心模块中：

由于解码时网络的参数量比编码时更大，所以此处Masked Multi-HeadAttention结构是在上述编码器的Multi-Head Attention结构基础上增加了Masked部分，作用上与dropout类似，减少隐藏层节点之间的相互作用，从而避免训练过程中出现过拟合；

(3)将数个解码器核心模块直接连接，最后进行线性变换，得到高维度输出；

(4)将(3)中的高维输出以特定的形式排列，使其成为一幅图像。

编码器的作用是对原始图像进行压缩，其中编码器的核心模块会被多次重复使用，每一次使用都是对原始图像进行信息提取和维度压缩，在保证最后一层输出单一维度的前提下，得到了从图像到向量的压缩。

如图4所示，构造Transformer模型的过程如下：

(1)利用编码-解码框架，由于编码器的输出为一维向量且该一维向量的长度远小于n*m，可以认为该一维向量即是原图降维后的结果；

(2)对上述(1)中的一维向量进行解码操作，恢复为原n*m大小的图像；

(3)对比编码前和解码后的两幅图相似程度，通过调整编码器与解码器中的具体参数，尽可能地提高两幅图像的相似程度；

(4)由于能从(2)中的一维向量解码得到一幅类似原图的图像，可以认为降维后的一维向量中包含了原图像中物体的基本信息。

解码器的作用是对原始图像进行解压缩，其中解码器的核心模块会被多次重复使用，每一次使用都是对输入向量进行内容填充和上采样，将最后一层输出的超长向量按特定方式组合，即可得到解码后的图像。

其中，所述物体原始图像的一维向量的长度小于预处理后的物体原始图像的尺寸；

具体地，所述对预处理后的物体原始图像，利用编码器得到物体原始图像的一维向量，具体为：

利用编码器提取预处理后的物体原始图像的内容关键信息；

在步骤S4中，所述生成式对抗网络包括生成器模块和分类器模块；

生成式对抗网络的基本设计思想来自于二人零和博弈。通过生成器与分类器的相互对抗式学习，激励双方共同进步，使得多次训练后生成器产生的图像与真实世界中的图像足够接近。

生成器模块和解码器模块结构类似，目的都是为了对输入向量进行内容填充并解压缩为图像；分类器模块需要通过网络上的现存图片进行预训练，用来判断生成器模块产生的图像是否合理，同时作为固定模块用来训练生成器的参数。

生成式对抗网络的具体实现过程，如下：

(1)收集希望产生图像的数据集。

(2)通过函数随机产生一组指定维度的向量，作为生成器模块的输入。

(3)向量经过生成器模块后会得到图像输出，将该图像输出传递到分类器模块并试图将其从数据集中隔离。

(4)若能成功隔离生成的图像，证明生成器参数还有进步空间，通过梯度下降算法修改参数。

(5)若不能成功隔离，证明分类器参数还有进步空间，通过梯度下降算法修改参数。

(6)上述两步循环操作，实现生成器与分类器的共同进步。

具体地，所述对生成器模块的输出图像进行合理性判断，具体为：

对于生成器模块输出的多物体融合图像进行合理性判断；

如果判定合理，则输出多物体融合图像。

对多个图像进行融合时，先将这多个图像输入Transformer模块并得到相同个数的一维向量，多个向量融合后作为生成器的输入来源。

其中，构造生成器的过程为：

生成器模块采用上述解码器结构，且实现相同的功能；

通过对输入一维向量的解码操作，将输入向量升维至指定大小，并在还原为图像后输出。

在步骤S4中，所述训练生成式对抗网络的具体过程为：

训练分类器模块，具体过程为：

(1)在网络上搜集足够数量的图像，并假定所有已存在的图像都是在现实意义下可想象的；

(2)搜集网络上现有的各种类型图片及表情包，并将其标注为有意义；

(4)在足够多次的训练过后，若分类器模块能够在测试集中给出合理的结果，视为训练结束，否则重复第(3)步；

训练生成器模块，具体为：

将生成器模块与分类器串联；

生成器的输入是多个物体图像经向量融合后的多个物体图像的一维向量；

将输出结果输入到训练好的分类器模块进行合理性判断；

若不合理，则利用反向传播算法修改生成器模块参数，并重新进行合理性判断；

若合理，则直接输出结果。

具体地，如图1所示，对多物体内容联合图像生成的过程，具体为：

(1)在进行多物体图像融合时，先将每一张图像均放入Transformer模块进行先降维后升维的操作，并取出编码层与解码层中间的一维向量，称第i张图像的一维向量为x_i；

(2)在对共t张图像进行内容层面的融合时，首先将x₁,x₂…x_t相加后的结果作为生成器模块的输入，然后让生成器输出大小为n*m的图像；

(3)利用分类器模块对生成器的输出图像合理性进行判断，若判定为不合理，则利用反向传播算法改变生成器模块的参数，并重新进行判断；

(4)当输出为合理时，流程结束，生成器的输出图像即为合成后的结果。

以三个物体的决策层语义融合为例一：

(1)对输入图像做预处理，使所有图像尺寸均变为n*m，方便各模块进行后续操作；

(2)对假定三幅n*m的图像分别为Image1，Image2，Image3，将三张图像分别输入训练后的Transformer模块，得到三个一维向量x₁,x₂,x₃，成功实现对原始图像的维度压缩；

(3)对将三个一维向量x₁,x₂,x₃直接对应相加得到x，则新向量x中包含了所有原始图像中的基本信息；

(4)对将x作为训练后的生成器模块的输入，生成器输出大小为n*m的图像即为内容融合后的结果。

以协助公安机关进行线索串联为例二：

(1)对案发现场进行拍照，保留线索信息；

(2)将证据图像与人物图像进行预处理，统一尺寸为n*m；

(3)将所有图像分别输入训练后的Transformer模块，得到多个一维向量，成功实现对原始图像的维度压缩；

(4)将多个一维向量直接对应相加得到x，则新向量x中包含了所有原始图像中的基本信息；

(5)将x作为训练后的生成器模块的输入，生成器输出大小为n*m的图像即为内容融合后的结果。

(6)融合后的结果可以展示人物在案发现场可能出现过的动作，避免人类因为想象力的局限而错过部分线索。

实施例二

本实施例提供了一种多物体内容联合图像生成系统，包括：

上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的一种多物体内容联合图像生成方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的一种多物体内容联合图像生成方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种多物体内容联合图像生成方法，其特征在于，包括：

获取多种物体原始图像并进行预处理；

2.如权利要求1所述的一种多物体内容联合图像生成方法，其特征在于，所述预先训练好Transformer模型的过程，具体为：

3.如权利要求2所述的一种多物体内容联合图像生成方法，其特征在于，所述物体原始图像的一维向量的长度小于预处理后的物体原始图像的尺寸；

4.如权利要求2所述的一种多物体内容联合图像生成方法，其特征在于，所述对预处理后的物体原始图像，利用编码器得到物体原始图像的一维向量，具体为：

利用编码器提取预处理后的物体原始图像的内容关键信息。

5.如权利要求1所述的一种多物体内容联合图像生成方法，其特征在于，所述生成式对抗网络包括生成器模块和分类器模块；

6.如权利要求5所述的一种多物体内容联合图像生成方法，其特征在于，所述对生成器模块的输出图像进行合理性判断，具体为：

对于生成器模块输出的多物体融合图像进行合理性判断；

如果判定合理，则输出多物体融合图像。

7.如权利要求1所述的一种多物体内容联合图像生成方法，其特征在于，所述训练生成式对抗网络的具体过程为：

训练分类器模块，具体过程为：

(1)获取各种图像样本数据，得到测试集；

(2)基于测试集中的图像样本数据，将其标注为有意义；

8.一种多物体内容联合图像生成系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的一种多物体内容联合图像生成方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的一种多物体内容联合图像生成方法中的步骤。