CN114723843A

CN114723843A - 多模态融合生成虚拟服装方法、装置、设备及存储介质

Info

Publication number: CN114723843A
Application number: CN202210613785.4A
Authority: CN
Inventors: 张绪杰; 黄成文; 梁小丹
Original assignee: Guangdong Shidi Intelligent Technology Co Ltd
Current assignee: Guangdong Shidi Intelligent Technology Co Ltd
Priority date: 2022-06-01
Filing date: 2022-06-01
Publication date: 2022-07-08
Anticipated expiration: 2042-06-01
Also published as: CN114723843B

Abstract

本申请公开了一种多模态融合生成虚拟服装方法、装置、设备及存储介质。本申请通过确定样本服装图像的各个语义块与样本文本序列的各个词汇的对应关系，并根据该对应关系将服装的原图编码和文本编码进行融合，并根据融合后的编码优化特征编码本，以使特征编码本融合服装细节图像特征和对应描述文本特征，生成多模态特征编码。通过特征编码本获取草稿编码图、局部图编码和文本编码转换成对应的多模态特征编码，并通过多模态特征编码训练基于注意力机制的图像预测模型，以便通过注意力预测模型将多个多模态特征编码进行融合以预测服装的图像。通过上述技术手段，关注虚拟服装的细节，优化虚拟服装的视觉效果。

Description

多模态融合生成虚拟服装方法、装置、设备及存储介质

技术领域

本申请涉及虚拟服装生成技术领域，尤其涉及一种多模态融合生成虚拟服装方法、装置、设备及存储介质。

背景技术

在服装设计领域，跨模态服装设计方法基于注意力机制跨模态融合多种模态的服装信息生成对应的服装图片，进而快速设计出满足服装信息的虚拟服装，具备巨大的开发潜力与应用前景。

现有的跨模态服装设计方法，在第一阶段使用矢量量化变分自编码器通过将输入图像压缩成一个低分辨率离散特征映射，然后重构输入图像，学习真实图像中各个视觉部分的局部特征编码本。在第二阶段，将各种服装信息输入基于注意力机制的神经网络，预测合成图像的序列，从第一阶段的学习得到的特征编码本中采样得到序列值。基于注意力机制的神经网络的全局表现力将不同模态的服装信息统一表示，以在单个模型内处理任意类型的跨模态服装信息，并生成符合大多数情况下的合理结果。由于特征编码本中只编码了服装的局部视觉特征，而忽略了服装的文本信息，而文本信息可以提供更多的区别性特征，这导致模型了出现低级表示和粗糙语义，而忽略了服装的细节，生成的虚拟服装的视觉效果差。

发明内容

本申请提供一种多模态融合生成虚拟服装方法、装置、设备及存储介质，解决了现有技术中的注意力机制学习的特征编码本只编码了服装的图像特征而忽略了服装的文本信息的问题，开创性建立了服装细节图像和描述文本的对应关系，利用该对应关系构建出语义丰富且关注服装细节的特征编码本，利用该特征编码本获取关注服装细节的多模态特征编码，通过多模态特征编码预测出更加高清更有细节的虚拟图像，优化虚拟服装的视觉效果。

第一方面，本申请提供了一种多模态融合生成虚拟服装方法，包括：

获取样本服装图像对应的语义分割图和样本文本序列，根据所述语义分割图的语义图像编码和所述样本文本序列的文本编码，确定所述语义分割图中各个语义块对应的所述样本文本序列中的词汇；

将所述样本服装图像输入预设的第一编码器，得到所述第一编码器输出的原图编码，根据所述语义块与对应的词汇，将所述原图编码与所述文本编码进行融合，并将融合的编码离散成多个一维编码；

根据所述一维编码和预设的特征编码本中各个样本编码的距离值，优化所述一维编码和所述特征编码本，通过预设的解码器对优化后的一维编码进行解码得到复原图像，根据所述复原图像和所述样本服装图像优化所述解码器和所述第一编码器；

获取所述样本服装图像对应的样本草稿图像和样本局部图像，根据优化好的特征编码本将所述样本草稿图像的草稿图编码、所述样本局部图像的局部图编码和所述文本编码分别转换为第一样本编码、第二样本编码和第三样本编码；

将所述第一样本编码、所述第二样本编码和所述第三样本编码输入预设的注意力预测模型，得到所述注意力预测模型输出的预测编码，根据所述预测编码和所述原图编码优化所述注意力预测模型。

第二方面，本申请提供了一种多模态融合生成虚拟服装装置，包括：

关系确定模块，被配置为获取样本服装图像对应的语义分割图和样本文本序列，根据所述语义分割图的语义图像编码和所述样本文本序列的文本编码，确定所述语义分割图中各个语义块对应的所述样本文本序列中的词汇；

编码融合模块，被配置为将所述样本服装图像输入预设的第一编码器，得到所述第一编码器输出的原图编码，根据所述语义块与对应的词汇，将所述原图编码与所述文本编码进行融合，并将融合的编码离散成多个一维编码；

第一训练模块，被配置为根据所述一维编码和预设的特征编码本中各个样本编码的距离值，优化所述一维编码和所述特征编码本，通过预设的解码器对优化后的一维编码进行解码得到复原图像，根据所述复原图像和所述样本服装图像优化所述解码器和所述第一编码器；

编码转换模块，被配置为获取所述样本服装图像对应的样本草稿图像和样本局部图像，根据优化好的特征编码本将所述样本草稿图像的草稿图编码、所述样本局部图像的局部图编码和所述文本编码分别转换为第一样本编码、第二样本编码和第三样本编码；

第二训练模块，被配置为将所述第一样本编码、所述第二样本编码和所述第三样本编码输入预设的注意力预测模型，得到所述注意力预测模型输出的预测编码，根据所述预测编码和所述原图编码优化所述注意力预测模型。

第三方面，本申请提供了一种多模态融合生成虚拟服装设备，包括：

一个或多个处理器；存储装置，存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的多模态融合生成虚拟服装方法。

第四方面，本申请提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的多模态融合生成虚拟服装方法。

本申请通过确定样本服装图像的各个语义块与样本文本序列的各个词汇的对应关系，并根据该对应关系将服装的原图编码和文本编码进行融合，并根据融合后的编码优化特征编码本，以使特征编码本融合服装细节图像特征和对应描述文本特征，生成多模态特征编码。通过特征编码本获取草稿编码图、局部图编码和文本编码转换成对应的多模态特征编码，并通过多模态特征编码训练基于注意力机制的图像预测模型，以便通过注意力预测模型将多个多模态特征编码进行融合以预测服装的图像。通过上述技术手段，开创性建立了服装细节图像和描述文本的对应关系，利用该对应关系构建出语义丰富且关注服装细节的特征编码本，通过特征编码本转换草稿编码图、局部图编码和文本编码，可以得到关注虚拟服装细节的多模态特征编码，通过注意力预测模型可以融合多个细节的多模态特征编码进而预测出满足多个细节的虚拟服装，生成更加高清更有细节的虚拟服装，大大优化了虚拟服装的视觉效果。

附图说明

图1是本申请实施例提供的一种多模态融合生成虚拟服装方法的流程图；

图2是本申请实施例提供的样本数据的示意图；

图3是本申请实施例提供的确定语义块和词汇对应关系的流程图；

图4是本申请实施例提供的原图编码和文本编码跨模态融合的流程图；

图5是本申请实施例提供的优化特征编码本的流程图；

图6是本申请实施例提供的训练第一编码器和解码器的流程图；

图7是本申请实施例提供的获取标准服装特征的流程图；

图8是本申请实施例提供的训练注意力预测模型的流程图；

图9是本申请实施例提供的生成虚拟服装的流程图；

图10是本申请实施例提供的用于预测虚拟服装的数据的示意图；

图11是本申请实施例提供的一种多模态融合生成虚拟服装装置的结构示意图；

图12是本申请实施例提供的一种多模态融合生成虚拟服装设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作（或步骤）描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

本实施例中提供的多模态融合生成虚拟服装方法可以由多模态融合生成虚拟服装设备执行，该多模态融合生成虚拟服装设备可以通过软件和/或硬件的方式实现，该多模态融合生成虚拟服装设备可以是两个或多个物理实体构成，也可以是一个物理实体构成。例如多模态融合生成虚拟服装设备可以是电脑，也可以电脑的处理器。电脑安装有可以执行多模态融合生成虚拟服装方法的应用程序，因此多模态融合生成虚拟服装设备也可以是应用程序本身。

为便于理解，本实施例以电脑为执行多模态融合生成虚拟服装方法的主体为例，进行描述。

在一实施例中，现有的跨模态服装设计方法，在第一阶段使用矢量量化变分自编码器通过将输入图像压缩成一个低分辨率离散特征映射，然后重构输入图像，学习真实图像中各个视觉部分的局部特征编码本。在第二阶段，将各种服装信息输入基于注意力机制的神经网络，预测合成图像的序列，从第一阶段的学习得到的特征编码本中采样得到序列值。基于注意力机制的神经网络的全局表现力将不同模态的服装信息统一表示，以在单个模型内处理任意类型的跨模态服装信息，并生成符合大多数情况下的合理结果。由于特征编码本是通过从训练集中重建图像来学习构造的，因此特征编码本只包含视觉信息，并代表训练图像各个视觉部分的局部特征。在测试过程中，如果训练集中没有输入控制信号对应的视觉成分，模型将无法预测精确的特征编码，从而无法生成符合控制信号的图像。例如，如果训练集只包含白领T恤，那么训练得到的模型将无法生成蓝领T恤，因为在学习的特征编码本中没有对应这种图像信息的编码。因此上述两阶段范式所使用的特征编码本构造机制会不可避免地影响模型的泛化，导致基于注意力机制的神经网络模型不关注服装的细节，生成的虚拟服装的视觉效果差。

为解决上述问题，本实施例提供了一种多模态融合生成虚拟服装方法，以关注服装细节，提高虚拟服装的视觉效果。

图1给出了本申请实施例提供的一种多模态融合生成虚拟服装方法的流程图。参考图1，该多模态融合生成虚拟服装方法具体包括：

S110、获取样本服装图像对应的语义分割图和样本文本序列，根据语义分割图的语义图像编码和样本文本序列的文本编码，确定语义分割图中各个语义块对应的样本文本序列中的词汇。

图2是本申请实施例提供的样本数据的示意图。如图2所示，一组样本数据包括样本服装图像和对应的样本文本序列、样本草稿图像和样本局部图像，其中，样本服装图像包含有完整服装，样本文本序列描述对应服装的细节，样本草稿图像包含对应服装的线稿，样本局部图像包含对应服装的局部图。样本数据包括裤子、外套、衬衫、T恤、半身裙和连衣裙等多种服装类别。例如构建半身裙的样本数据时，通过相机拍摄半身裙以获取半身裙的样本服装图像。并将描述半身裙为“深蓝色高腰百褶裙”，将该文本翻译为英文文本，将英文文本作为半身裙的样本文本序列。通过Canny边缘检测算法对半身裙的样本服装图像进行处理得到对应的二值图，将二值图作为半身裙的样本草稿图像。从半身裙的样本服装图像中随机裁剪至少一张局部图像，将该局部图像作为半身裙的样本局部图像。将半身裙的样本服装图像、样本文本序列、样本草稿图像和样本局部图像关联保存，得到半身裙的样本数据。

在本实施例中，语义分割图可看作将样本服装图像分割成了多个语义块，每一语义块表征样本服装图像中对应区域的细节类型，如T恤的语义块包括左短袖、右短袖和领子等。在一实施例中，将样本服装图像输入预先训练好的语义分割网络，通过语义分割网络对样本服装图像进行语义分割，得到语义分割图。其中，语义分割网络可事先通过样本服装图像和对应标记有各个语义块的语义分割图对卷积神经网络进行训练得到。

在本实施例中，语义图像编码可表征语义分割图中各个语义块的图像特征，文本编码可表征样本文本序列中各个词汇的文本特征，进而将各个语义块的图像特征和各个词汇的文本特征通过对比学习的方法，确定语义块和词汇之间的对应关系。例如T桖的样本服装图像中的语义块“领子”和T桖的文本序列中的词汇“白色圆领”是对应的。在一实施例中，图3是本申请实施例提供的确定语义块和词汇对应关系的流程图。如图3所示，确定语义块和词汇对应关系的步骤具体包括S1101-S1102：

S1101、将语义分割图输入预先训练的第二编码器，得到第二编码器输出的语义图像编码，将样本文本序列输入预先训练的第三编码器，得到第三编码器输出的文本编码。

示例性的，将语义分割图输入基于卷积神经网络的第二编码器中，通过第二编码器对语义分割图进行编码得到图像特征，图像特征包括多个语义块编码。将样本文本序列输入基于注意力机制的神经网络的第三编码器中，通过第三编码器对样本文本序列进行编码得到文本特征，文本特征包括多个词汇编码。

S1102、将语义图像编码和文本编码输入预先训练的分数预测模型，通过分数预测模型确定语义图像编码中各个语义块的编码与文本编码中各个词汇的编码的相似度，根据相似度确定各个语义块与各个词汇编码之间的关系分数，根据关系分数确定语义块对应的词汇。

在本实施例中，分数预测模型在训练时通过对比学习方式学习语义块的编码和对应词汇的编码之间的相似度，以便后续根据相似度预测语义块和词汇之间的关系分数。示例性的，分数预测模型通过计算每一语义块编码和每一词汇编码之间的余弦距离，得到两者之间的相似度。根据每一语义块编码和每一词汇编码之间的相似度，预测每一语义块与每一词汇编码之间的关系分数，确定关系分数最高的语义块和词汇之间存在对应关系。

在该实施例中，在分数预测模型的训练阶段，获取多组样本服装图像和对应的样本文本序列，其中同一组的样本服装图像和样本文本序列互为正样本，不同组的样本服装图像和样本文本序列互为负样本。通过第二编码器对第p组的样本服装图像

的语义分割图进行编码，得到图像特征

，图像特征

包括

语义块编码

。通过第三编码器对第q组的样本文本序列

进行编码，得到文本特征

，文本特征

包括

个词汇编码

。通过第一相似度计算公式计算样本服装图像

与样本文本序列

的第一相似度，以及通过第二相似度计算公式计算样本服装图像

与样本文本序列

的第二相似度。第一相似度计算公式如下所示：

第二相似度计算公式如下：

其中，

，

，

为文本特征中第j个词汇编码，

为图像特中第i个语义块编码的转置，

为样本服装图像

与样本文本序列

的第一相似度，

为样本服装图像

与样本文本序列

的第二相似度。第一相似度可看作样本服装图像

中每一语义块与样本文本序列

的相似度平均值，第二相似度可看作样本文本序列

中每一词汇与样本服装图像

的相似度平均值。

进一步的，根据每一样本服装图像与每一样本文本序列的第一相似度，通过第一损失计算公式计算第一损失值，根据每一样本文本序列与每一样本服装图像的第二相似度，通过第二损失计算公式计算第二损失值。根据所述第一损失值和第二损失值计算总损失值，通过总损失值进行梯度反向传播，优化分数预测模型的参数。第一损失计算公式如下所示：

第二损失计算公式如下所示：

总损失值计算公式如下所示：

其中，

为样本服装图像

与各个样本文本序列的第一相似度的第一损失值，

为样本文本序列

与各个样本服装图像的第二相似度的第二损失值，

为总损失值。

S120、将样本服装图像输入预设的第一编码器，得到第一编码器输出的原图编码，根据语义块与对应的词汇，将原图编码与文本编码进行融合，并将融合的编码离散成多个一维编码。

其中，第一编码器由多层卷积网络构成，将样本服装图像输入第一编码器中，由第一编码器中的多层卷积网络从样本服装图像中提取深度特征，得到样本服装图像的原图编码。原图编码和文本编码为不同模态的单模态服装特征，本实施例基于语义块和词汇之间的对应关系将两种不同模态的单模态服装特征进行融合，以通过多模态服装特征进行更深度更细致的语义表达。在该实施例中，图4是本申请实施例提供的原图编码和文本编码跨模态融合的流程图。如图4所示，该原图编码和文本编码跨模态融合的步骤具体包括S1201-S1202：

S1201、根据语义块在语义分割图中的位置信息，将原图编码中对应位置信息处的编码与语义块对应词汇的编码进行加权求和，得到二维融合编码。

示例性的，语义分割网络对样本服装图像进行语义分割时，会输出样本服装图像中的语义块和对应语义块在样本服装图像中的像素坐标。原图编码中对应像素坐标处的编码可看作对应语义块在原图编码中的编码，而存在对应关系的语音块和词汇可表征服装中同一细节的不同特征。因此对原图编码中对应位置信息处的编码与语义块对应词汇的编码进行平均加权处理，以将样本文本序列表征的服装特征融合进样本服装图像的服装特征中，得到可以表征多种模态的服装特征的二维融合编码。

S1202、将二维融合编码进行离散化，得到多个一维编码。

示例性的，由于特征编码本中的样本编码为一维特征向量，而二维融合编码为二维特征向量，因此在根据二维融合编码优化特征编码本之前，可将二维融合编码进行离散降维，得到多个一维编码。

S130、根据一维编码和预设的特征编码本中各个样本编码的距离值，优化一维编码和特征编码本，通过预设的解码器对优化后的一维编码进行解码得到复原图像，根据复原图像和样本服装图像优化解码器和第一编码器。

其中，特征编码本包括多个样本编码，样本编码可看作虚拟服装中的标准服装特征，因此特征编码本用于查询虚拟服装的标准服装特征，以便根据该服装特征预测出最真实的虚拟服装。因此特征编码本中样本编码所包含的服装特征越丰富则越接近标准服装特征，相应的，预测出的虚拟服装越接近真实效果。对此，本实施例通过可看作多模态特征的一维编码优化特征编码本，以使特征编码本中的样本编码也同时具备样本服装图像的服装特征和样本文本序列的服装特征，丰富特征编码本的特征表达能力。在一实施例中，图5是本申请实施例提供的优化特征编码本的流程图。如图5所示，优化特征编码本的步骤具体包括S1301-S1302：

S1301、计算一维编码与各个样本编码之间的距离值，确定距离值最小的样本编码。

示例性的，通过计算一维编码A与特征编码本中所有样本编码之间的余弦距离。由于余弦距离越小则表明一维编码A越接近对应的样本编码，因此确定出与一维编码A最接近的样本编码B。

S1302、根据距离值最小的样本编码，优化对应的一维编码，并将优化后的一维编码替换特征编码本中距离值最小的样本编码。

示例性的，根据样本编码B，修改一维编码A的编码值，以使一维编码A更接近样本编码B。将修改后的一维编码A替换特征编码本中样本编码B。

在本实施例中，优化后的一维编码A可以在特征编码本中找到相同的样本编码B，为了验证特征编码本中样本编码B是否可以作为标准服装特征，将优化后的一维编码A以及其他优化后的一维编码组合成二维优化编码，将二维优化编码输入预设的解码器，得到解码器对二维优化编码进行解码复原的复原图像。将复原图像与样本服装图像进行对比，如果复原图像和样本服装图像越相似，则表明本次优化的样本编码越接近标准服装特征。其中，解码器由多层卷积网络构成。

本实施例通过在训练第一编码器和解码器的过程中逐步优化特征编码本，以使得特征编码本的样本编码越接近标准服装特征。在一实施例中，图6是本申请实施例提供的训练第一编码器和解码器的流程图。如图6所示，该训练第一编码器和解码器的步骤具体包括S1303-S1304：

S1303、将样本服装图像和复原图像分别划分为多个第一图像块和多个第二图像块，将第一图像块和第二图像块输入预设的鉴别器中，得到鉴别器输出的数值。

示例性的，按照同一区域划分规则将样本服装图像和复原图像划分成相同数量的第一图像块和第二图像块，将同一区域的第一图像块和第二图像块输入预设的鉴别器中判断第二图像块的真假，得到鉴别器根据第一图像块和第二图像块之间的相似度输出的数值。数值越高则表明第二图像块越接近第一图像块，即第二图像块越接近真实图像。

S1304、将各个数值进行结合得到对抗生成网络损失，根据对抗生成网络损失进行反向梯度传播，分步更新第一编码器、解码器和鉴别器的模型参数。

示例性的，第一编码器和解码器可看作对抗生成网络中的生成器，根据鉴别器输出的数值确定对抗生成网络损失，根据对抗生成网络损失进行反向梯度传播，更新生成器的模型参数，然后再更新鉴别器的模型参数，直至对抗生成网络损失小于损失阈值或者训练次数达到训练阈值。

需要说明的，在第一编码器的模型参数更新后，返回执行步骤S120和S130，执行步骤S120和S130时，优化特征编码本中的样本编码。当第一编码器和解码器训练结束时，特征编码本也优化结束，此时特征编码本中的样本编码可表征标准服装特征。

S140、获取样本服装图像对应的样本草稿图像和样本局部图像，根据优化好的特征编码本将样本草稿图像的草稿图编码、样本局部图像的局部图编码和文本编码分别转换为第一样本编码、第二样本编码和第三样本编码。

示例性的，草稿图编码、文本编码和局部图编码是通过对应编码器从样本草稿图像、样本局部图像和样本文本序列提取到的服装特征，根据该服装特征查询特征编码本以获取到对应的标准服装特征。在该实施例中，图7是本申请实施例提供的获取标准服装特征的流程图。如图7所述，该获取标准服装特征的步骤具体包括S1401-S1402：

S1401、将样本草稿图像输入预先训练的第四编码器，得到第四编码器输出的草稿图编码，将样本局部图像输入训练好的第一编码器，得到第一编码器输出的局部图编码。

示例性的，第四编码器由卷积神经网络构成，第四编码器在训练过程中学习特征编码本中的样本编码，以使得第四编码器输出草稿图编码近似于标准服装特征。第一编码器在训练过程中是和特征编码本同步优化的，因此第一编码器输出的局部图编码近似于标准服装特征。特征编码本是通过融合了文本编码的一维编码优化的，因此文本编码也可近似于标准服装特征。

S1402、确定草稿图编码、局部图编码和文本编码与优化好的特征编码本中的各个样本编码的距离值，确定对应距离值最小的样本编码为第一样本编码、第二样本编码和第三样本编码。

在本实施例中，第一样本编码为样本草稿图像的标准服装特征，第二样本编码为样本局部图像的标准服装特征，第三样本编码为样本文本序列的标准服装特征。计算草稿图编码和特征编码本中各个样本编码的余弦距离，余弦距离越小则表明草稿图编码越接近对应的样本编码，因此将最接近的草稿图编码的样本编码作为样本草稿图像的标准服装特征。局部图编码和文本编码同理。

S150、将第一样本编码、第二样本编码和第三样本编码输入预设的注意力预测模型，得到注意力预测模型输出的预测编码，根据预测编码和原图编码优化注意力预测模型。

在本实施例中，注意力预测模型是指基于注意力机制的神经网络模型，基于注意力机制的神经网络模型可以将多个服装特征进行组合，并根据组合后的服装特征预测虚拟服装。在该实施例中，图8是本申请实施例提供的训练注意力预测模型的流程图。如图8所示，该训练注意力预测模型的步骤具体包括S1501-S1503：

S1501、将第一样本编码、第二样本编码和第三样本编码进行组合，并通过特定标记隔离第一样本编码、第二样本编码和第三样本编码，得到组合样本编码。

示例性的，将第一样本编码、第二样本编码和第三样本编码组合在一起，并使用特定标记[SEP]来表示各个特征之间的分离，得到组合样本编码。

S1502、将组合样本编码输入注意力预测模型，得到注意力预测模型输出的预测编码。

示例性的，将组合样本编码输入注意力预测模型，通过注意力预测模型根据组合样本编码中包含的标准服装特征预测出虚拟图像的预测编码以及预测编码为真实编码的概率值。

S1503、通过对数似然函数确定预测编码和原图编码的损失值，并根据损失值优化注意力预测模型的模型参数。

需要说明的，原图编码是将样本服装图像输入训练好的第一编码器得到的。原图编码可看作预测编码的真实值，通过预设的对数似然函数计算预测编码与原图编码之间的对数似然值。当对数似然值最大化可使得预测编码与原图编码的损失值最小化，往对数似然值最大化的方向优化注意力预测模型的模型参数。当损失值达到预设的最低阈值时，注意力预测模型收敛，模型训练完成。

在一实施例中，在注意力预测模型完成训练后，可基于训练好的注意力预测模型、第一编码器、第四编码器和解码器以及优化好的特征编码本，生成各种服装草稿、服装局部图、服装描述文本对应的虚拟服装。在该实施例中，图9是本申请实施例提供的生成虚拟服装的流程图。如图9所示，该生成虚拟服装的步骤具体包括S210-S240：

S210、通过训练好的第三编码器确定目标文本序列的编码，通过训练好的第一编码器确定目标局部图像的编码和/或通过训练好的第四编码器确定目标草稿图像的编码。

其中，目标局部图像、目标文本序列和目标草稿图像分别为待生成的虚拟服装的局部图、描述文本、草稿图。将目标局部图像输入训练好的第一编码器，得到第一编码器输出的目标局部图像的编码；将目标文本序列输入训练好的第三编码器，得到第三编码器输出的目标文本序列的编码；将目标草稿图像输入训练好的第四编码器，得到第四编码器输出的目标草稿图像的编码。

在本实施例中，图10是本申请实施例提供的用于预测虚拟服装的数据的示意图。如图10所示，通过目标文本序列，或者目标文本序列与目标局部图像和目标草稿图像中的至少一个，即可预测虚拟服装。例如，通过目标文本序列为“橙色防风圆领拉链夹克”即可预测出对应的目标服装图像；通过目标文本序列“金黄色高腰褶皱半身裙”和包括高腰褶皱半身裙的目标草稿图像，可预测出对应的目标服装图像；通过目标文本序列“灰色棉牛仔布中腰直腿牛仔裤”和包括牛仔裤腰部的目标局部图像，可预测出对应的目标服装图像。

S220、通过优化好的特征编码本将目标文本序列的编码转换为对应的样本编码，通过优化好的特征编码本将目标局部图像和/或目标草稿图像的编码转换为对应的样本编码。

示例性的，计算目标局部图像的编码与特征编码本中各个样本编码的余弦距离，将余弦距离最小的样本编码作为目标局部图像的样本编码；计算目标文本序列的编码与特征编码本中各个样本编码的余弦距离，将余弦距离最小的样本编码作为目标文本序列的样本编码；计算目标草稿图像的编码与特征编码本中各个样本编码的余弦距离，将余弦距离最小的样本编码作为目标草稿图像的编码。

S230、将目标文本序列以及目标草稿图像和/或目标局部图像的样本编码输入训练好的注意力预测模型，得到注意力预测模型输出的目标预测编码。

示例性的，将目标局部图像、目标文本序列和目标草稿图像的样本编码一同输入训练好的注意力预测模型，注意力预测模型将这三个样本编码进行组合，并根据组合后的编码进行预测，输出虚拟服装的目标预测编码。

S240、将目标预测编码输入训练好的解码器，得到解码器输出的目标服装图像。

示例性的，将目标预测编码输入训练好的解码器，通过解码器对目标预测编码进行解码复原，得到虚拟服装的目标服装图像。

综上，本申请实施例提供的多模态融合生成虚拟服装方法，通过确定样本服装图像的各个语义块与样本文本序列的各个词汇的对应关系，并根据该对应关系将服装的原图编码和文本编码进行融合，并根据融合后的编码优化特征编码本，以使特征编码本融合服装细节图像特征和对应描述文本特征，生成多模态特征编码。通过特征编码本获取草稿编码图、局部图编码和文本编码转换成对应的多模态特征编码，并通过多模态特征编码训练基于注意力机制的图像预测模型，以便通过注意力预测模型将多个多模态特征编码进行融合以预测服装的图像。通过上述技术手段，开创性建立了服装细节图像和描述文本的对应关系，利用该对应关系构建出语义丰富且关注服装细节的特征编码本，通过特征编码本转换草稿编码图、局部图编码和文本编码，可以得到关注虚拟服装细节的多模态特征编码，通过注意力预测模型可以融合多个细节的多模态特征编码进而预测出满足多个细节的虚拟服装，生成更加高清更有细节的虚拟服装，大大优化了虚拟服装的视觉效果。

在上述实施例的基础上，图11为本申请实施例提供的一种多模态融合生成虚拟服装装置的结构示意图。参考图11，本实施例提供的多模态融合生成虚拟服装装置具体包括：关系确定模块31、编码融合模块32、第一训练模块33、编码转换模块34和第二训练模块35。

其中，关系确定模块，被配置为获取样本服装图像对应的语义分割图和样本文本序列，根据语义分割图的语义图像编码和样本文本序列的文本编码，确定语义分割图中各个语义块对应的样本文本序列中的词汇；

编码融合模块，被配置为将样本服装图像输入预设的第一编码器，得到第一编码器输出的原图编码，根据语义块与对应的词汇，将原图编码与文本编码进行融合，并将融合的编码离散成多个一维编码；

第一训练模块，被配置为根据一维编码和预设的特征编码本中各个样本编码的距离值，优化一维编码和特征编码本，通过预设的解码器对优化后的一维编码进行解码得到复原图像，根据复原图像和样本服装图像优化解码器和第一编码器；

编码转换模块，被配置为获取样本服装图像对应的样本草稿图像和样本局部图像，根据优化好的特征编码本将样本草稿图像的草稿图编码、样本局部图像的局部图编码和文本编码分别转换为第一样本编码、第二样本编码和第三样本编码；

第二训练模块，被配置为将第一样本编码、第二样本编码和第三样本编码输入预设的注意力预测模型，得到注意力预测模型输出的预测编码，根据预测编码和原图编码优化注意力预测模型。

在上述实施例的基础上，关系确定模块包括：第一编码确定单元，被配置为将语义分割图输入预先训练的第二编码器，得到第二编码器输出的语义图像编码，将样本文本序列输入预先训练的第三编码器，得到第三编码器输出的文本编码；对应关系确定单元，被配置为将语义图像编码和文本编码输入预先训练的分数预测模型，通过分数预测模型确定语义图像编码中各个语义块的编码与文本编码中各个词汇的编码的相似度，根据相似度确定各个语义块与各个词汇之间的关系分数，根据关系分数确定语义块对应的词汇。

在上述实施例的基础上，编码融合模块包括：编码加权融合单元，被配置为根据语义块在语义分割图中的位置信息，将原图编码中对应位置信息处的编码与语义块对应词汇的编码进行加权求和，得到二维融合编码；二维编码离散单元，被配置为将二维融合编码进行离散化，得到多个一维编码。

在上述实施例的基础上，第一训练模块包括：第一距离计算单元，被配置为计算一维编码与各个样本编码之间的距离值，确定距离值最小的样本编码；样本编码优化单元，被配置为根据距离值最小的样本编码，优化对应的一维编码，并将优化后的一维编码替换特征编码本中距离值最小的样本编码。

在上述实施例的基础上，第一训练模块包括：鉴别单元，被配置为将样本服装图像和复原图像分别划分为多个第一图像块和多个第二图像块，将第一图像块和第二图像块输入预设的鉴别器中，得到鉴别器输出的数值；第一训练单元，被配置为将各个数值进行结合得到对抗生成网络损失，根据对抗生成网络损失进行反向梯度传播，分步更新第一编码器、解码器和鉴别器的模型参数。

在上述实施例的基础上，编码转换模块包括：第二编码确定单元，被配置为将样本草稿图像输入预先训练的第四编码器，得到第四编码器输出的草稿图编码，将样本局部图像输入训练好的第一编码器，得到第一编码器输出的局部图编码；样本编码获取单元，被配置为确定草稿图编码、局部图编码和文本编码与优化好的特征编码本中的各个样本编码的距离值，确定对应距离值最小的样本编码为第一样本编码、第二样本编码和第三样本编码。

在上述实施例的基础上，第二训练模块包括：编码组合单元，被配置为将第一样本编码、第二样本编码和第三样本编码进行组合，并通过特定标记隔离第一样本编码、第二样本编码和第三样本编码，得到组合样本编码；样本预测单元，被配置为将组合样本编码输入注意力预测模型，得到注意力预测模型输出的预测编码；第二训练单元，被配置为通过对数似然函数确定预测编码和原图编码的损失值，并根据损失值优化注意力预测模型的模型参数。

在上述实施例的基础上，多模态融合生成虚拟服装装置还包括：目标编码确定模块，被配置为通过训练好的第三编码器确定目标文本序列的编码，通过训练好的第一编码器确定目标局部图像的编码和/或通过训练好的第四编码器确定目标草稿图像的编码；目标样本编码确定模块，被配置为通过优化好的特征编码本将目标文本序列的编码转换为对应的样本编码，通过优化好的特征编码本将目标局部图像和/或目标草稿图像的编码转换为对应的样本编码；服装编码预测模块，被配置为将目标文本序列以及目标草稿图像和/或目标局部图像的样本编码输入训练好的注意力预测模型，得到注意力预测模型输出的目标预测编码；虚拟服装生成模块，被配置为将目标预测编码输入训练好的解码器，得到解码器输出的目标服装图像。

上述，本申请实施例提供的多模态融合生成虚拟服装装置，通过确定样本服装图像的各个语义块与样本文本序列的各个词汇的对应关系，并根据该对应关系将服装的原图编码和文本编码进行融合，并根据融合后的编码优化特征编码本，以使特征编码本融合服装细节图像特征和对应描述文本特征，生成多模态特征编码。通过特征编码本获取草稿编码图、局部图编码和文本编码转换成对应的多模态特征编码，并通过多模态特征编码训练基于注意力机制的图像预测模型，以便通过注意力预测模型将多个多模态特征编码进行融合以预测服装的图像。通过上述技术手段，开创性建立了服装细节图像和描述文本的对应关系，利用该对应关系构建出语义丰富且关注服装细节的特征编码本，通过特征编码本转换草稿编码图、局部图编码和文本编码，可以得到关注虚拟服装细节的多模态特征编码，通过注意力预测模型可以融合多个细节的多模态特征编码进而预测出满足多个细节的虚拟服装，生成更加高清更有细节的虚拟服装，大大优化了虚拟服装的视觉效果。

本申请实施例提供的多模态融合生成虚拟服装装置可以用于执行上述实施例提供的多模态融合生成虚拟服装方法，具备相应的功能和有益效果。

图12是本申请实施例提供的一种多模态融合生成虚拟服装设备的结构示意图，参考图12，该多模态融合生成虚拟服装设备包括：处理器41、存储器42、通信装置43、输入装置44及输出装置45。该多模态融合生成虚拟服装设备中处理器41的数量可以是一个或者多个，该多模态融合生成虚拟服装设备中的存储器42的数量可以是一个或者多个。该多模态融合生成虚拟服装设备的处理器41、存储器42、通信装置43、输入装置44及输出装置45可以通过总线或者其他方式连接。

存储器42作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请任意实施例的多模态融合生成虚拟服装方法对应的程序指令/模块（例如，多模态融合生成虚拟服装装置中的关系确定模块31、编码融合模块32、第一训练模块33、编码转换模块34和第二训练模块35）。存储器42可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器42可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

通信装置43用于进行数据传输。

处理器41通过运行存储在存储器42中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的多模态融合生成虚拟服装方法。

输入装置44可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置45可包括显示屏等显示设备。

上述提供的多模态融合生成虚拟服装设备可用于执行上述实施例提供的多模态融合生成虚拟服装方法，具备相应的功能和有益效果。

本申请实施例还提供一种包含计算机可执行指令的存储介质，计算机可执行指令在由计算机处理器执行时用于执行一种多模态融合生成虚拟服装方法，该多模态融合生成虚拟服装方法包括：获取样本服装图像对应的语义分割图和样本文本序列，根据语义分割图的语义图像编码和样本文本序列的文本编码，确定语义分割图中各个语义块对应的样本文本序列中的词汇；将样本服装图像输入预设的第一编码器，得到第一编码器输出的原图编码，根据语义块与对应的词汇，将原图编码与文本编码进行融合，并将融合的编码离散成多个一维编码；根据一维编码和预设的特征编码本中各个样本编码的距离值，优化一维编码和特征编码本，通过预设的解码器对优化后的一维编码进行解码得到复原图像，根据复原图像和样本服装图像优化解码器和第一编码器；获取样本服装图像对应的样本草稿图像和样本局部图像，根据优化好的特征编码本将样本草稿图像的草稿图编码、样本局部图像的局部图编码和文本编码分别转换为第一样本编码、第二样本编码和第三样本编码；将第一样本编码、第二样本编码和第三样本编码输入预设的注意力预测模型，得到注意力预测模型输出的预测编码，根据预测编码和原图编码优化注意力预测模型。

存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括：安装介质，例如CD-ROM、软盘或磁带装置；计算机系统存储器或随机存取存储器，诸如DRAM、DDR RAM、SRAM、EDO RAM，兰巴斯(Rambus)RAM等；非易失性存储器，诸如磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外，存储介质可以位于程序在其中被执行的第一计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。

当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上的多模态融合生成虚拟服装方法，还可以执行本申请任意实施例所提供的多模态融合生成虚拟服装方法中的相关操作。

上述实施例中提供的多模态融合生成虚拟服装装置、存储介质及设备可执行本申请任意实施例所提供的多模态融合生成虚拟服装方法，未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的多模态融合生成虚拟服装方法。

上述仅为本申请的较佳实施例及所运用的技术原理。本申请不限于这里的特定实施例，对本领域技术人员来说能够进行的各种明显变化、重新调整及替代均不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由权利要求的范围决定。

Claims

1.一种多模态融合生成虚拟服装方法，其特征在于，包括：

2.根据权利要求1所述的多模态融合生成虚拟服装方法，其特征在于，所述根据所述语义分割图的语义图像编码和所述样本文本序列的文本编码，确定所述语义分割图中各个语义块对应的所述样本文本序列中的词汇，包括：

将所述语义分割图输入预先训练的第二编码器，得到所述第二编码器输出的语义图像编码，将所述样本文本序列输入预先训练的第三编码器，得到所述第三编码器输出的文本编码；

将所述语义图像编码和所述文本编码输入预先训练的分数预测模型，通过所述分数预测模型确定所述语义图像编码中各个语义块的编码与所述文本编码中各个词汇的编码的相似度，根据所述相似度确定各个语义块与各个词汇之间的关系分数，根据所述关系分数确定所述语义块对应的词汇。

3.根据权利要求1所述的多模态融合生成虚拟服装方法，其特征在于，所述根据所述语义块与对应的词汇，将所述原图编码与所述文本编码进行融合，并将融合的编码离散成多个一维编码，包括：

根据所述语义块在所述语义分割图中的位置信息，将所述原图编码中对应位置信息处的编码与所述语义块对应词汇的编码进行加权求和，得到二维融合编码；

将所述二维融合编码进行离散化，得到多个所述一维编码。

4.根据权利要求1所述的多模态融合生成虚拟服装方法，其特征在于，所述根据所述一维编码和预设的特征编码本中各个样本编码的距离值，优化所述一维编码和所述特征编码本，包括：

计算所述一维编码与各个所述样本编码之间的距离值，确定距离值最小的样本编码；

根据所述距离值最小的样本编码，优化对应的一维编码，并将优化后的一维编码替换所述特征编码本中所述距离值最小的样本编码。

5.根据权利要求1所述的多模态融合生成虚拟服装方法，其特征在于，所述根据所述复原图像和所述样本服装图像优化所述解码器和所述第一编码器，包括：

将所述样本服装图像和所述复原图像分别划分为多个第一图像块和多个第二图像块，将所述第一图像块和所述第二图像块输入预设的鉴别器中，得到所述鉴别器输出的数值；

将各个数值进行结合得到对抗生成网络损失，根据所述对抗生成网络损失进行反向梯度传播，分步更新所述第一编码器、所述解码器和所述鉴别器的模型参数。

6.根据权利要求1所述的多模态融合生成虚拟服装方法，其特征在于，所述根据优化好的特征编码本将所述样本草稿图像的草稿图编码、所述样本局部图像的局部图编码和所述文本编码分别转换为第一样本编码、第二样本编码和第三样本编码，包括：

将所述样本草稿图像输入预先训练的第四编码器，得到所述第四编码器输出的草稿图编码，将所述样本局部图像输入训练好的第一编码器，得到所述第一编码器输出的局部图编码；

确定所述草稿图编码、所述局部图编码和所述文本编码与优化好的特征编码本中的各个样本编码的距离值，确定对应距离值最小的样本编码为所述第一样本编码、所述第二样本编码和所述第三样本编码。

7.根据权利要求1所述的多模态融合生成虚拟服装方法，其特征在于，所述将所述第一样本编码、所述第二样本编码和所述第三样本编码输入预设的注意力预测模型，得到所述注意力预测模型输出的预测编码，根据所述预测编码和所述原图编码优化所述注意力预测模型，包括：

将所述第一样本编码、所述第二样本编码和所述第三样本编码进行组合，并通过特定标记隔离所述第一样本编码、所述第二样本编码和所述第三样本编码，得到组合样本编码；

将所述组合样本编码输入所述注意力预测模型，得到所述注意力预测模型输出的预测编码；

通过对数似然函数确定所述预测编码和所述原图编码的损失值，并根据所述损失值优化所述注意力预测模型的模型参数。

8.根据权利要求1-7任一所述的多模态融合生成虚拟服装方法，其特征在于，在所述根据所述预测编码和所述原图编码优化所述注意力预测模型之后，还包括：

通过训练好的第三编码器确定目标文本序列的编码，通过训练好的第一编码器确定目标局部图像的编码和/或通过训练好的第四编码器确定目标草稿图像的编码；

通过优化好的特征编码本将所述目标文本序列的编码转换为对应的样本编码，通过优化好的特征编码本将所述目标局部图像和/或所述目标草稿图像的编码转换为对应的样本编码；

将所述目标文本序列以及所述目标草稿图像和/或所述目标局部图像的样本编码输入训练好的注意力预测模型，得到所述注意力预测模型输出的目标预测编码；

将所述目标预测编码输入训练好的解码器，得到所述解码器输出的目标服装图像。

9.一种多模态融合生成虚拟服装装置，其特征在于，包括：

10.一种多模态融合生成虚拟服装设备，其特征在于，包括：一个或多个处理器；存储装置，存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8任一所述的多模态融合生成虚拟服装方法。

11.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-8任一所述的多模态融合生成虚拟服装方法。