CN115759062A

CN115759062A - 基于知识注入的文图预训练模型处理方法和文图检索系统

Info

Publication number: CN115759062A
Application number: CN202211231414.6A
Authority: CN
Inventors: 汪诚愚; 刘婷婷; 黄�俊
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-10-09
Filing date: 2022-10-09
Publication date: 2023-03-07

Abstract

公开了一种基于知识注入的文图预训练模型处理方法和在线文图检索方法。所述处理方法包括：识别文本图像样本对中文本包含的实体；将实体在知识图谱中对应的嵌入向量与文本的嵌入向量相融合，得到知识增强的第一嵌入向量；基于所述第一嵌入向量生成伪图像标记序列；基于图像对应的第二嵌入向量查找图像词典的最接近向量表示以生成图像标记表示序列；以及根据表征伪图像标记序列与图像标记表示序列相似性的损失函数调整所述文图预训练模型的参数。由此，通过在模型预训练阶段引入关于实体的外部知识，增强预训练模型的先验信息，提升模型参数有效性，使得小规模模型便能实现良好的图像重构性能，由此实现模型的在线部署和实时应答。

Description

基于知识注入的文图预训练模型处理方法和文图检索系统

技术领域

本公开涉及深度学习领域，尤其涉及一种基于知识注入的文图预训练模型处理方法和文图检索系统。

背景技术

随着信息化时代到来，互联网中的多媒体数据(包括文本、图像、语音、视频等)深度渗透于人们日常生活的方方面面。如何从海量多媒体数据中高效解析出遵循人类语义理解的有效内容，并根据特定用户的行为习惯给予准确的相关性内容反馈成为了近年来学术界和工业界的研究热点。

例如纯图像或纯文本检索的传统单模技术因其单一的数据形式，已无法满足日渐增长的多样化需求。相比之下，接收多样化的感知内容使得人工智能体更为全面且高效的理解事物其本身，这也更符合人类的多感官认知方式。文图生成是一种常见的多模态任务，旨在生成与给定文本对应的图像。现有技术通过增大预训练模型的规模以及训练样本数据量，提升模型在下游的文图生成任务中的性能，然而这类动辄上十亿或上百亿参数的模型在实际应用场景中往往难以部署和优化。

因此需要一种更为优化的文图预训练模型。

发明内容

本公开要解决的一个技术问题是提供一种基于知识注入的文图预训练模型处理方法和文图检索系统。通过对实体引入外部知识，增强预训练模型的先验信息，使得模型参数更为有效，从而在小规模时就能够实现良好的图像重构性能。进一步地，通过引入基于图像字典生成离散序列的子模块，使得模型能够重构高清图像。

根据本公开的第一个方面，提供了一种基于知识注入的文图预训练模型处理方法，包括：识别文本图像样本对中文本包含的实体；将所述实体在知识图谱中对应的嵌入向量与所述文本的嵌入向量相融合，得到第一嵌入向量，所述第一嵌入向量对应于融合得到的知识增强的文本嵌入向量；基于第一嵌入向量生成伪图像标记序列，其中，伪图像标记是图像词典的索引；基于第二嵌入向量在所述图像词典中进行查找，并基于查找出的最接近的向量表示，得到图像标记表示序列，其中，所述第二嵌入向量对应于所述图像文本对中图像的嵌入向量；以及根据表征所述伪图像标记序列与所述图像标记表示序列相似性的损失函数，调整所述文图预训练模型的参数。

可选地，所述文本是中文文本，并且识别文本图像样本对中所述文本包含的实体包括：识别出所述文本中包含的多个实体，所述多个实体中包括对应于相同汉字的不同实体，并且所述文本的文本嵌入向量与对应的多个实体嵌入向量相融合，得到所述第一文本嵌入向量。

可选地，将所述文本的嵌入向量与对应的多个实体嵌入向量相融合，得到第一嵌入向量包括：基于每个实体嵌入向量与所述文本嵌入向量的交互程度为多个实体嵌入向量分配权重；以及将所述文本的嵌入向量与加权的多个实体嵌入向量相融合，得到第一文本嵌入向量。

可选地，所述文图预训练模型包括用于生成图像序列的第一子模型以及用于图像重构的第二子模型，其中，所述方法还包括：将所述文本图像样本对中的文本送入所述第一子模型的编码器，得到文本嵌入向量，并且所述第一子模型从所述第二子模型获取所述图像词典以生成所述伪图像标记序列，所述第二子模型的编码器基于所述图像词典生成所述图像标记表示序列，并且所述方法还包括：由所述第一子模型的解码器学习基于伪图像标记序列的对应图像标记表示序列生成。

可选地，所述方法还包括：以图像为输入样本，图像重构为目标，训练所述第二子模型，并且训练所述第二子模型包括：训练所述图像词典，所述图像词典中保持每个输入样本图像标记的向量表示。

可选地，以基于块掩码的对抗性训练来训练所述第二子模型，使得所述第二子模型能够重构高清图像。

可选地，在第一子模型的参数调整期间，固定所述第二子模型的参数。

根据本公开的第二个方面，提供了一种在线文图检索方法，包括：经由网络传输获取用户输入的文本信息；将所述文本信息送入根据第一方面获取的知识增强的文图预训练模型；获取所述文图预训练模型基于所述文本信息推理出的图像信息；以及将所述图像信息经由网络传输实时返回给所述用户。

可选地，基于所述文本信息推理出图像信息对应于由所述知识增强的文图预训练模型执行的文本图像合成(TIS)任务，在所述TIS任务中，所述第一子模型的解码器基于输入文本预测对应的图像标记表示序列，并且所述第二子模型的编码器用于基于所述图像标记表示序列重构图像。

根据本公开的第三个方面，提供了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行如上述第一方面所述的方法。

根据本公开的第四个方面，提供了一种非暂时性机器可读存储介质，其上存储有可执行代码，当可执行代码被电子设备的处理器执行时，使处理器执行如上述第一方面所述的方法。

由此，通过在模型预训练阶段引入关于实体的外部知识，增强预训练模型的先验信息，提升模型参数有效性，从而在小规模模型的情况下亦能实现良好的图像重构性能，由此使得模型的在线部署和实时应答成为可能。进一步地，通过引入基于图像字典生成离散序列的重构子模块，使得模型能够重构高清图像。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了根据本发明一个实施例的基于知识注入的文图预训练模型处理方法的示意性流程图。

图2示出了在不同分词下得到不同中文实体的例子。

图3示出了基于GPT和VQGAN子模型进行预训练的大致流程。

图4示出了根据本发明预训练文图预训练模型的一个例子。

图5示出了本发明的文图检索系统的一个例子。

图6示出了根据本发明一个实施例的在线文图检索方法的示意性流程图。

图7示出了根据本发明一实施例可用于实现上述基于知识注入的文图预训练模型处理方法的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

如前所述，如何从海量多媒体数据中高效解析出遵循人类语义理解的有效内容，并根据特定用户的行为习惯给予准确的相关性内容反馈(包括搜索、推荐、广告等应用场景)成为了近年来学术界和工业界的研究热点。

传统的单模技术(例如：纯图像或纯文本检索)因其单一的数据形式，已无法满足日渐增长的多样化需求。相比之下，接收多样化的感知内容使得人工智能体更为全面且高效的理解事物其本身，这也更符合人类的多感官认知方式。多模态技术也因在众多富语义理解任务上表现优异而受到业界青睐。

在这其中，文图生成是一种常见的多模态任务。文图生成，也可称为文图合成(Text-to-Image Synthesis，TIS)，顾名思义，通过输入文本生成图像，旨在生成与给定文本对应的图像。

现有技术通过增大预训练模型的规模以及训练样本数据量，提升模型在下游的文图生成任务中的性能，然而这类动辄上十亿或上百亿参数的模型在实际应用场景中往往难以部署和优化。例如，现有技术中，在模型参数达到40亿时才能达到适用于提供线上服务的准确性，但如此规模的模型难以部署，并且推理所需的计算量和时间都是为普通用户提供文本-图像检索服务所无法承受的。

为了在实际场景中对文图模型加以应用，例如，在时尚领域针对用户输入的文本描述生成相应的时尚图片，本发明提出了一种针对文图预训练模型的优化方法。通过在模型预训练阶段引入关于实体的外部知识，增强预训练模型的先验信息，大幅提升模型参数有效性，从而在小规模模型的情况下亦能实现良好的图像重构性能，由此使得模型的在线部署和实时应答成为可能。进一步地，通过引入基于图像字典生成离散序列的重构子模块，使得模型能够重构高清图像。

图1示出了根据本发明一个实施例的基于知识注入的文图预训练模型处理方法的示意性流程图。具体地，图1所示方法可以看作是对用于执行文图生成任务的模型进行预训练的方法。该方法相比于现有技术，通过引入实体的外部知识，提升模型参数有效性，从而有效降低模型参数规模，使得模型的在线部署成为可能。

在深度学习领域，如果模型在训练和推理时的任务不一致，则将模型的训练(调参)过程称为预训练过程。在本发明中，在模型训练时，使用文本图像样本对作为输入，使用图像标记(token，在此译作“标记”、也可译作“令牌”)表示序列作为输出(并基于文本对应的伪图像标记序列与所述图像标记表示序列相似性的损失函数进行调参)；而在模型训练后执行TIS任务时，使用文本作为输出，重构的图像作为输出。因此，由于训练和推理时的任务不一致，因此本发明对模型的调整过程属于深度学习领域中的“预训练”过程。

在步骤S110，识别文本图像样本对中文本包含的实体。通常可以将图像以及描述该图像的文本作为文本图像样本对。例如，针对一张停在机场跑道上的螺旋桨飞机的图片(如下图3和图4所示)，可以将其文本描述“一架螺旋桨飞机停在机场跑道上”和该图片作为文本图像样本对，作为模型的训练样本。在该文本中包括实体，因此可以在步骤S110中进行识别。

随后，可以通过嵌入向量(embedding，在此译作“嵌入向量”，也可译作“嵌入表示”或是“嵌入”)的融合来实现外部知识注入。具体地，在步骤S120，可以将实体在知识图谱中对应的嵌入向量与文本的嵌入向量相融合，得到第一嵌入向量。在此，第一嵌入向量是知识增强的文本嵌入向量，由实体在知识图谱中对应的嵌入向量与文本的嵌入向量融合得到。在基于知识图谱训练实体嵌入向量时，可以将实体间的关系、属性等信息都学习到对应的嵌入向量内。相比于自然语言形式的外部知识注入，例如，在自然语言“一架螺旋桨飞机停在机场跑道上”之后，添加实体的相关三元组的自然语言表示，例如“螺旋桨飞机是固定翼飞机”，直接注入嵌入向量能够引入更少的不相关信息，尤其是在中文文本包括多重语义或是多个实体的情况下。

在此，“第一”和“第二”旨在对相同类型的不同对象加以区分，而非对重要程度或是先后次序的暗示。在本发明中，“第一嵌入向量”对应于基于文本生成的嵌入向量，但此处的文本嵌入向量并非是直接基于样本对中的文本生成的嵌入向量，而是并入了原始文本中包含的实体所对应的实体嵌入向量(例如，此处的“融合”可以是“相加”)的知识增强的文本嵌入向量。而如下提及的“第二嵌入向量”则是基于文本图像样本对中的图像生成的图像嵌入向量。

本发明的文图预训练语模型用于在中文场景中使用。相比于英语等以单词为句子基本组成单元的语言，中文句子以汉字为基本组成单元，分词的粒度更多，使得模型通常难以理解输入文本的真实语义。这也进一步提升了本发明使用外部知识注入的必要。

在文本中包含多个实体，尤其是包括对应于相同汉字的不同实体时，本发明还可以对不同实体的知识都进行注入。图2示出了在不同分词下得到不同中文实体的例子。如图所示，文本“螺旋桨飞机”包括五个汉字，并且基于不同的分词策略，可以包括“螺旋桨”、“飞机”和“螺旋桨飞机”三个实体。换句话说，汉字“螺”“旋”“桨”分别对应于“螺旋桨”、和“螺旋桨飞机”这两个不同实体，而汉字“飞”“机”则分别对应于“飞机”、和“螺旋桨飞机”这两个不同实体。此时，识别文本图像样本对中所述文本包含的实体可以包括：识别出所述文本中包含的多个实体，所述多个实体中包括含有相同汉字的不同实体。相应地，将所述实体在知识图谱中对应的实体嵌入与所述文本的文本嵌入向量相融合，得到第一嵌入向量可以包括：将所述文本的嵌入向量与对应的多个实体嵌入向量相融合，得到第一嵌入向量。换句话说，对于汉字“螺”“旋”“桨”的文本标记(token)，可以融合对应的实体“螺旋桨”的嵌入表示，同时融合对应实体“螺旋桨飞机”的嵌入表示。从而进一步提升知识注入的内容丰富度。

进一步地，为了避免知识噪声的影响，在同一个文本标记对应多个实体的情况下，可以对这些实体嵌入进行加权融合。为此，将所述文本的嵌入向量与对应的多个实体嵌入向量相融合，得到第一嵌入向量可以包括：基于每个实体嵌入向量与所述文本的嵌入向量的交互程度为每个实体嵌入向量分配权重；以及将所述文本的嵌入向量与加权的多个实体嵌入向量相融合，得到第一嵌入向量。由此，可以基于实体表示交互模块进行有选择的知识注入。

在本发明中，可以预先对中文知识图谱进行训练，例如，通过TransE对中文知识图谱CN-DBpedia进行训练，由此得到了知识图谱中的实体表示。随后，在模型训练阶段，对应文本输入，识别出文本中包含的所有实体(不同分词策略下的所有实体)，并将已经训练好的实体表示(加权表示)和对应的文本标记嵌入向量进行结合，增强实体表示。由此，本发明通过语言学知识对输入文本的多粒度进行建模，并将源自知识库中的海量关系事实的实体嵌入向量注入到模型中，具体地，注入到预训练模型所包含的第一子模型(用于生成图像序列的子模型，例如，GPT模型)的编码器中。使得模型能够以更小规模的参数包含更多的语言学知识，从而在确保模型性能的情况下降低模型规模。

另外，图2中为不同分词策略下的汉字或汉字组合标注的相应的英文单词，以体现中文的多粒度性。应该理解在实际的模型处理中并不包括这些英文单词。

在得到了知识增强的文本嵌入向量之后，在步骤S130，基于第一嵌入向量生成伪图像标记序列，其中，伪图像标记是图像词典的索引。在步骤S140，基于对应于所述图像的图像嵌入向量的第二嵌入向量在图像词典中进行查找，并基于查找出的最接近的向量表示，得到图像标记表示序列。由于本发明预训练模型的最终任务时实现文图生成，但不同长度的文本以及不同内容的图像包含的信息不同，表现形式也不同。为此，在本发明的实现中，通过将第一嵌入向量(即，知识增强的文本嵌入向量)转换为离散序列(伪图像标记序列)，并将第二嵌入向量(即，图像嵌入向量)同样转换为离散序列(图像标记表示序列)，来实现从文本到图像的关联，以及最终的图像序列预测和图像重构。

在本发明中，借助图像词典(codebook)来实现伪图像标记序列和图像标记表示序列的构造。图像词典是预先训练的(如下将基于VQGAN进行详述)，其中保存由训练图像标记的每一个向量表示(具有统一的格式)。实际操作中，对于任一张图片，通过编码器编码后得到中间特征向量，再对特征向量中的每个编码位置寻找codebook中距离最近的表示，从而将图像转换成由codebook中的图像标记表示的离散序列。为了实现从文本到图像的预测，文本嵌入表示也需要与codebook产生联系，例如本发明中作为codebook索引的、基于文本嵌入生成的伪图像标记的序列。

于是，在步骤S150，可以根据表征所述伪图像标记序列与所述图像标记表示序列相似性的损失函数，调整所述文图预训练模型的参数。由此，使得预训练模型能够通过自监督学习，使得输入的第一嵌入向量最终能够预测出同时输入图像的图像标记表示的离散序列。由此，在模型被部署执行下游TIS任务时，就能够根据输入的文本预测出关联的图像标记表示的离散序列，并由此实现图像的重构。

在本发明中，文图预训练模型可以包括用于生成图像序列的第一子模型以及用于图像重构的第二子模型。第一子模型用于学习从输入的文本图像对中的文本序列表示预测出文本图像对中图像序列表示的能力，并且在本发明的优选实施例中由GPT实现。第二子模型则具有从输入图像生成图像离散序列(由编码器执行)，从图像离散序列重构出尽可能接近输入图像的能力(由解码器实现)，并且在本发明的优选实施例中由VQGAN实现。

图3示出了基于GPT和VQGAN子模型进行预训练的大致流程。可以将文本图像样本对中的文本送入所述第一子模型的编码器，得到文本嵌入向量。例如图中所示，将文本图像对中的文本“一架螺旋桨飞机在飞机跑道上”送入GPT模型的解码器，并生成文本嵌入向量。文本嵌入向量在融合的实体嵌入向量之后，可以得到知识增强的文本嵌入向量，即，第一嵌入向量。第一嵌入向量可由第二子模型(图示为VQGAN模型)的编码器基于codebook转换为伪图像标记(pseudo_image_token)的序列(对应于codebook的索引)；也可如图所示由GPT模型从VQGAN模型处获取codebook并据此将第一嵌入向量表示转换为伪图像标记的序列。在此，应该理解的是，“伪图像标记序列”实际上是基于文本相关的嵌入向量生成的序列(因此是“伪”图像标记序列)，其目的在于由文本嵌入向量预测出图像标记的离散序列，并由此重构图像。

相应地，文本图像对中的图像被送入VQGAN模型的编码器，用于基于codebook的查找生成图像标记表示的离散序列。VQGAN将由此生成的文本序列和图像序列送回GPT模型。GPT模型的解码器于是学习基于伪图像标记序列的对应图像标记表示序列生成。例如，基于损失函数L的反向传播(BP)来进行针对GPT的参数调整。

换句话说，本发明使用GPT学习文本到图像序列的预测，使用VQGAN用于图像的重构。在在第一子模型的参数调整期间，所述第二子模型的参数被固定。换句话说，在VQGAN被训练完毕的基础上，再进行GPT的训练。此时，本发明的处理方法还包括：以图像为输入样本，图像重构为目标，训练所述第二子模型，并且训练所述第二子模型包括：训练所述图像词典，所述图像词典中保持每个输入样本图像标记的向量表示。在一个优选实施例中，VQGAN是以基于块掩码的对抗性训练来训练所述第二子模型，使得所述第二子模型能够重构高清图像。

由此，在模型完成预训练之后的下游任务(即，TIS任务)执行阶段，GPT的编码器接收文本输入(例如，用户输入的文本查询内容)，将其转换为伪图像标记序列并由GPT的解码器生成预测出的图像标记表示的离散序列。预测的图像序列于是可由图3中虚线所示传递给VQGAN的解码器并由此实现图像的重构，尤其是高清重构(例如，百万像素级图片的重构)。

为了更好的阐明本发明原理，如下将结合图4描述本发明的一个优选实施例。图4示出了根据本发明预训练文图预训练模型的一个例子。

图4所示的模型预训练包括两个阶段：第一阶段是VQGAN模型的训练(对应于第二子模型的训练)，第二阶段是GPT模型的训练(对应于第一子模型的训练)。在第一阶段，通过VQGAN模型(对应于图中的VQGAN编码器以及包括VQGAN解码器的图像解码层)对图像进行矢量量化，即对于输入的图像，通过编码器将图像编码为定长的离散序列，解码阶段是以离散序列作为输入，输出重构图。在第二阶段，将文本序列和编码后的图像序列作为输入，利用GPT模型(包括多头子注意模块、以及用于文本嵌入融合加权实体嵌入向量并送入归一化层(Layer Norm))的模块)学习以文本序列为条件的图像序列生成。为了增强模型先验，设计了一个词格(Word Lattice)融合层，将文本中的实体知识引入模型，辅助图像中对应实体的生成。

在词格融合层中，由于中文语言存在多粒度，因此，对于输入文本，获取所有可能的分词结果，并生成对应文本的词格。预训练的实体嵌入是从大规模知识图谱中学习的，并通过本发明设计的实体表示交互模块(ERIM)选择性地注入到实体表示中。借助融合的知识，组成GPT的Transformer(变压器)模型可自动回归生成“伪图像标记”，其中codebook从VQGAN模型中获得。最后，使用相同的VQGAN模型对图像进行解码。

两阶段模型训练

·第一阶段：VQGAN矢量量化

在VQGAN的训练阶段，利用数据中的图片，以图像重构为任务目标，训练一个图像词典(codebook)，其中保存每个图像标记(image token)的向量表示。实际操作中，对于一张图片，通过VQGAN编码器部分所包括的CNN Encoder编码后得到中间特征向量，再对特征向量中的每个编码位置寻找codebook中距离最近的表示，从而将图像转换成由codebook中的图像标记表示的离散序列。在后续的第二阶段中，GPT模型会以文本为条件生成图像序列，生成的该序列又被输入到VQGAN解码器，从而重构出一张图像。

·第二阶段：GPT以文本序列为条件生成图像序列

知识注入

常规的TIS对输入文本中的标记同等对待，但本发明的发明人发现文本中描述的实体往往是生成与特定对象密切相关的图像的关键信息。因此，需要识别实体并在Transformer训练期间生成融合了预训练实体嵌入的文本标记嵌入。对于中文来说，不同的分词对句子的含义有很大的影响，从而导致错误传播和语言歧义。因此可以获取输入句子的词格，词格中包含文本的所有可能的分词段和实体。

格结构代表了句子中所有可能的实体，但过多的知识注入可能导致句子含义混淆(也称为知识噪声)。为了避免同一位置的多个实体的表示之间的相互作用，在此设计了实体表示交互模块(ERIM)，以选择性地将词格中的知识融合到Transformer模型中。将

表示为第k层的标记嵌入，其中

表示第i个标记嵌入，N是序列长度，d是隐藏表示的维度。令M为出现在格中的给定句子的所有可能实体的集合。进一步将e_m表示为M中第m个实体的预训练实体嵌入，并且e_i,m是基于e_m的知识要注入到第i个标记中的实体嵌入。显然，如果第i个标记与第m个实体重叠，我们有e_i,m＝e_m，否则则e_i,m＝0。在此可以通过TransE从大规模中文知识图谱中获得了预训练的实体嵌入。相互知识注入过程计算如下：

其中

是针对

的第m个实体嵌入的权重，

表示选择性注入多个实体嵌入的知识后的知识增强隐藏标记嵌入。由此，通过计算每个实体表示和标记嵌入的交互，为所有实体表示加权，有选择地进行知识注入。

整个嵌入序列进一步表示为

可以通过以下方式构建Transformer层：

h^(k+1)＝g^(k)+W₂·σ(W₁LN(g^(k)) (4)

其中ATTN表示注意力层，LN表示归一化层，其中W₁、W₂是可学习参数。

GPT训练阶段，文本序列和图像序列拼接作为输入，模型通过最大化图像部分的负对数似然来训练。对于图像生成，可以使用自回归转换器，以基于知识增强文本嵌入生成一系列“伪图像标记”。具体来说，“伪图像标记”是由预训练VQGAN模型编码的图像词典索引，并且可被表示为v＝{v₁，v₂，…，v_G}，其中G是图像标记的序列长度。给定文本标记w和图像标记v，图像经过VQGAN编码器生成的离散序列p(v)：

可以将模型的损失函数设为：

其中Θ是模型参数的集合。于是，VQGAN可以将图像从“伪图像令牌”解码为图像像素。VQGAN的参数在模型训练期间是固定的，即GPT模型训练时VQGAN模型的参数不变。

本发明通过基于块的GAN优化(patch-based GAN optimization)方式，通过VQGAN模型得到更清晰的重建图像。

本发明提出了去噪知识注入方法，将外部知识图谱中的实体信息引入GPT模型，为模型增加了先验，对于图像中实体对象的生成效果有正向作用。因此，在本发明中，每个模型参数所平均携带的知识量要大于现有技术中的最先进模型。换句话说，本发明能够以小得多的模型规模实现媲美、甚至超越大型模型的性能。下表示出了在四个典型的中文数据集(图示为数据集1-4，可以实际对应于例如，COCO-CN、MUGE、Flicker8k-CN)下，利用本发明得到的模型(表中示出为“本模型”)相比于现有技术中的先进模型(图示为模型1-3，可以实际对应于例如，CogView，DALL-E等)，能够取得更为优异的性能。在此，采用本领域周知的Fréchet初始距离(FID)和初始分数(IS)作为指标。较高的IS和较低的FID表明生成的图像质量更好。在下表中，最优的性能以粗体示出。如下表所示，本发明的模型以最少的参数量实现了在所有数据集上最优的性能。

跟进一步地，经由本发明的微调方法获取的模型在较小的情况下也可以生成清晰的图像。通过在四个中文数据集上进行评测，经由本发明提出方法的2亿/4亿两种规模的模型在FID指标上均取得最佳。进一步地，本发明利用了VQGAN+GPT模型的生成能力，产生优于其他相关技术的高分辨率图像。

本发明还可以实现为一种在线的文图检索系统。图5示出了本发明的文图检索系统的一个例子。该系统文本查询信息获取模块，用于获取用户输入的文字信息；以及图像信息生成模块，设置如上所述的方法获取的知识增强的文图预训练模型(PLM)，用于基于用户输入的文字信息，输出匹配的图像信息。本发明的文图检索系统尤其适用于为在线电子商务网站提供检索服务，尤其是时尚领域的检索服务。例如，用户可以在检索栏中输入“男士戴帽拉链衫”，根据本发明预训练得到的PLM于是可以基于文本“男士戴帽拉链衫”执行TIS任务，生成对应于文本“男士戴帽拉链衫”的伪图像标记序列的图像序列并重构相应的图像。此时，PLM的第二子模型可以利用在线电子商务网站上的海量商品图片进行训练，第一子模型则可利用商品图片和商品描述进行训练。

基于所述文本信息推理出图像信息对应于由所述知识增强的文图预训练模型执行的文本图像合成(TIS)任务，在所述TIS任务中，所述第一子模型的解码器基于输入文本预测对应的图像标记表示序列，并且所述第二子模型的编码器用于基于所述图像标记表示序列重构图像。

该在线文图检索系统可以实现一种在线的文图检索方法。图6示出了根据本发明一个实施例的在线文图检索方法的示意性流程图。

在步骤S610，经由网络传输获取用户输入的文本信息。例如，用户在智能手机上安装了在线购物APP，并在在线购物APP中输出想要购买商品的文字描述。该文字描述可以经由网络传输给在线购物APP的服务器。

在步骤S620，将所述文本信息送入根据如上所述的方法获取的知识增强的文图预训练模型。例如，在线购物APP的服务器在线上布置了如上微调得到的知识增强的文图预训练模型。由于注入了外部知识，使得本发明的文图预训练模型能够以小型规模实现媲美大型模型的性能，因此为在线部署并向用户提供实时文图检索服务提供了可能。

在步骤S630，获取所述文图预训练模型基于所述文本信息推理出的图像信息。随后在步骤S640，将所述图像信息经由网络传输实时返回给所述用户。例如返回到在线购物APP中并作为文字描述的搜索结果显示。

参见图7，计算设备700包括存储器710和处理器720。

处理器720可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器720可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器720可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器710可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器720或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器710可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器710可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器710上存储有可执行代码，当可执行代码被处理器720处理时，可以使处理器720执行上文述及的基于知识注入的文图预训练模型处理方法。

上文中已经参考附图详细描述了根据本发明的基于知识注入的文图预训练模型处理方法和文图检索系统。

本发明提出了去噪知识注入方法，将外部知识图谱中的实体信息引入GPT模型，为模型增加了先验，对于图像中实体对象的生成效果有正向作用。因此，模型规模较小的情况下也可以生成清晰的图像，如：通过在四个中文数据集上进行评测，我们提出的2亿/4亿两种规模的模型在FID指标上均取得最佳。进一步地，本发明利用了VQGAN+GPT模型的生成能力，产生优于其他相关技术的高分辨率图像。本发明通过基于块的GAN优化(patch-basedGAN optimization)方式，通过VQGAN模型得到更清晰的重建图像。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于知识注入的文图预训练模型处理方法，包括：

识别文本图像样本对中文本包含的实体；

将所述实体在知识图谱中对应的嵌入向量与所述文本的嵌入向量相融合，得到第一嵌入向量，所述第一嵌入向量对应于融合得到的知识增强的文本嵌入向量；

基于所述第一嵌入向量生成伪图像标记序列，其中，伪图像标记是图像词典的索引；

基于第二嵌入向量在所述图像词典中进行查找，并基于查找出的最接近的向量表示，得到图像标记表示序列，其中，所述第二嵌入向量对应于所述图像文本对中图像的嵌入向量；以及

根据表征所述伪图像标记序列与所述图像标记表示序列相似性的损失函数，调整所述文图预训练模型的参数。

2.如权利要求1所述的方法，其中，所述文本是中文文本，并且识别文本图像样本对中文本包含的实体包括：

识别出所述文本中包含的多个实体，所述多个实体中包括对应于相同汉字的不同实体，并且

将所述实体在知识图谱中对应的嵌入向量与所述文本的嵌入向量相融合，得到第一嵌入向量包括：

将所述文本的嵌入向量与对应的多个实体嵌入向量相融合，得到所述第一嵌入向量。

3.如权利要求2所述的方法，其中，将所述文本的嵌入向量与对应的多个实体嵌入向量相融合，得到所述第一嵌入向量包括：

基于每个实体嵌入向量与所述文本的嵌入向量的交互程度为每个实体嵌入向量分配权重；以及

将所述文本的嵌入向量与加权的多个实体嵌入向量相融合，得到所述第一嵌入向量。

4.如权利要求1所述的方法，其中，所述文图预训练模型包括用于生成图像序列的第一子模型以及用于图像重构的第二子模型，其中，所述方法还包括：

将所述文本图像样本对中的文本送入所述第一子模型的编码器，得到所述文本的嵌入向量，并且

所述第一子模型从所述第二子模型获取所述图像词典，用于所述伪图像标记序列的生成，所述第二子模型的编码器基于所述图像词典生成所述图像标记表示序列，

并且所述方法还包括：

由所述第一子模型的解码器对基于伪图像标记序列生成对应图像标记表示序列进行学习。

5.如权利要求4所述的方法，还包括：

以图像为输入样本，图像重构为训练目标，训练所述第二子模型，并且训练所述第二子模型包括：

训练所述图像词典，所述图像词典中保有每个输入样本图像标记的向量表示。

6.如权利要求5所述的方法，其中，基于块掩码的对抗性训练训练所述第二子模型，使得所述第二子模型重构高清图像。

7.如权利要求4所述的方法，其中，在所述第一子模型的参数调整期间，固定所述第二子模型的参数。

8.一种在线文图检索方法，包括：

经由网络传输获取用户输入的文本信息；

将所述文本信息送入根据如权利要求1-7中任一项所述的方法获取的知识增强的文图预训练模型；

所述文图预训练模型基于所述文本信息推理出的图像信息；以及

将所述图像信息经由网络传输实时返回给所述用户。

9.如权利要求8所述的文图检索系统，其中，基于所述文本信息推理出图像信息对应于由所述知识增强的文图预训练模型执行的文本图像合成(TIS)任务，在所述TIS任务中，所述第一子模型的解码器基于输入文本预测对应的图像标记表示序列，并且所述第二子模型的编码器用于基于所述图像标记表示序列重构图像。

10.一种计算设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-7中任何一项所述的方法。

11.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1-7中任何一项所述的方法。