CN115952277A

CN115952277A - 基于知识关系检索增强方法、模型、设备及存储介质

Info

Publication number: CN115952277A
Application number: CN202211639604.1A
Authority: CN
Inventors: 刘烁; 张凯鹏; 张�浩; 邵文琪; 乔宇
Original assignee: Shanghai AI Innovation Center
Current assignee: Shanghai AI Innovation Center
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2023-04-11

Abstract

本申请实施例涉及大模型迁移学习技术领域，特别涉及一种基于知识关系检索增强方法、模型、设备及存储介质，该方法包括：首先，构建记忆内存；记忆内存包括外部记忆内存和增强记忆内存；然后，采用下游数据集作为查询，从外部记忆内存中检索知识；将检索到的知识作为检索查询，从增强记忆内存中检索语义文本特征；接下来，基于语义文本特征和原始图像特征，获得图像分类的最终增强特征；最后，基于最终增强特征，对原始图像特征进行增强。本申请实施例提供的基于知识关系检索增强方法，利用大规模外部数据集作为媒介，从记忆内存中检索出更加有效的知识对原始特征进行增强，以提高模型的分类性能。

Description

基于知识关系检索增强方法、模型、设备及存储介质

技术领域

本申请实施例涉及大模型迁移学习技术领域，特别涉及一种基于知识关系检索增强方法、模型、设备及存储介质。

背景技术

视觉语言基础模型从大规模预训练数据中学习大量知识，如何将这些知识转移到下游的视觉任务是值得研究的，传统的微调策略将不可避免地失去对下游任务有用的知识。目前，现有的检索增强方法是通过元素可寻址内容来利用数据的内存，这可以减轻基础模型的知识丢失问题，并帮助它们更好地传递知识以提高性能。然而，该方法直接利用样本之间的特征相似度对知识进行检索，有效的知识可能会被遗漏。

发明内容

本申请实施例提供一种基于知识关系检索增强方法、模型、设备及存储介质，利用大规模外部数据集作为媒介，从记忆内存中检索出更加有效的知识对原始特征进行增强，以提高模型的分类性能。

为解决上述技术问题，第一方面，本申请实施例提供一种基于知识关系检索增强方法，包括以下步骤：首先，构建记忆内存；记忆内存包括外部记忆内存和增强记忆内存；然后，采用下游数据集作为查询，从外部记忆内存中检索知识；将检索到的知识作为检索查询，从增强记忆内存中检索语义文本特征；接下来，基于语义文本特征和原始图像特征，获得图像分类的最终增强特征；最后，基于最终增强特征，对原始图像特征进行增强。

在一些示例性实施例中，基于语义文本特征和原始图像特征，获得图像分类的最终增强特征，包括：采用变压器的编码器对语义文本特征进行融合，得到最终响应特征；通过结合原始图像特征和所述最终响应特征，获得图像分类的最终增强特征。

在一些示例性实施例中，构建记忆内存，包括：分别构建外部记忆内存、增强记忆内存；外部记忆内存由大规模数据集通过大模型提取的特征组成；增强记忆内存通过采用各个下游数据样本作为查询，从外部记忆内存中检索知识，将检索到的知识作为键值存储在增强记忆内存中，每个键值相对应的值由相应查询的标签生成文本特征。

在一些示例性实施例中，将检索到的知识作为检索查询，从增强记忆内存中检索语义文本特征，包括：将检索到的知识作为检索查询，与增强记忆内存中的各个键值进行相似度比较，得到相似度矩阵；根据相似度矩阵，从增强记忆内存中得到检索出的有效的语义文本特征。

在一些示例性实施例中，相似度的计算公式如下所示：

其中，i表示样本索引，p和q分别表示Q和K的索引。

第二方面，本申请实施例还提供了一种基于知识关系检索增强模型，包括：记忆内存构建模块、知识关系检索模块以及图像特征增强模块；记忆内存构建模块包括外部记忆内存构建模块和增强记忆内存构建模块，记忆内存构建模块用于分别构建外部记忆内存、增强记忆内存；知识关系检索模块包括第一检索模块和第二检索模块，第一检索模块用于在外部记忆内存中检索知识，并将检索到的知识作为在增强记忆内存中的检索查询；第二检索模块用于在增强记忆内存中的检索语义文本特征；图像特征增强模块用于根据语义文本特征和原始图像特征，获得图像分类的最终增强特征；并基于最终增强特征，对原始图像特征进行增强。

在一些示例性实施例中，外部记忆内存模块通过利用在大规模数据集预训练的视觉编码器，对大规模数据集提取图像特征。

在一些示例性实施例中，在对大规模数据集提取图像特征之后，提取的图像特征作为知识存储在外部记忆内存模块中。

另外，本申请还提供了一种电子设备，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述基于知识关系检索增强方法。

另外，本申请还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述基于知识关系检索增强方法。

本申请实施例提供的技术方案至少具有以下优点：

本申请实施例提供一种基于知识关系检索增强方法、模型、设备及存储介质，该方法包括以下步骤：首先，构建记忆内存；记忆内存包括外部记忆内存和增强记忆内存；然后，采用下游数据集作为查询，从外部记忆内存中检索知识；将检索到的知识作为检索查询，从增强记忆内存中检索语义文本特征；接下来，基于语义文本特征和原始图像特征，获得图像分类的最终增强特征；最后，基于最终增强特征，对原始图像特征进行增强。

本申请提供的基于知识关系检索增强方法，一方面，本申请构建记忆内存使用大规模数据集，以及使用大模型对其进行特征提取，并存储在记忆内存中，以通过记忆内存来利用大规模数据集中丰富的知识。本申请用于生成响应特征从记忆内存中检索回来的特征，是利用个下游样本关联的标签生成的文本特征。相比于利用下游图像数据融合而成的典型特征，本申请使用的方法会有更强的语义性，减低混乱程度，最终提升模型的性能。

此外，本申请在对检索回的文本特征，采用了变压器的编码器对检索回的文本特征进行总结得到最终的响应特征，以对原始图像特征进行增强。这种对方式对文本数量不加限制，能够不浪费检索回的文本特征，更好地生成有效的响应特征。与此同时，本申请将外部数据集当作一个联系下游数据集的桥梁，通过比较样本检索出知识之间的相似程度以获得更有效的记忆内存槽。另外，将外部内存当作建立知识关系的媒介，可以实现即插即用，不需要在面对不同的数据集进行重新组织。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，除非有特别申明，附图中的图不构成比例限制。

图1为本申请一实施例提供的一种基于知识关系检索增强方法的流程示意图；

图2为本申请一实施例提供的一种基于知识关系检索增强模型的结构示意图；

图3为本申请一实施例提供的一种知识关系检索示例示意图；

图4为本申请一实施例提供的一种知识关系检索增强基础模型的体系结构示意图；

图5为本申请一实施例提供的知识关系与表示关系的定性比较示意图；

图6为本申请一实施例提供的在CIFAR100上超参数k对模型性能的影响示意图；

图7为本申请一实施例提供的一种电子设备的结构示意图。

具体实施方式

由背景技术可知，目前现有的检索增强方法中，由于直接利用样本之间的特征相似度对知识进行检索，存在着有效的知识会被遗漏的问题。

视觉和文本是人类感知的两种主要形式，利用对比学习使用大规模图文数据集训练的大规模模型能够学习丰富的知识并提取强大的特征。将这种大模型应用到各种下游视觉任务，取得了显著地提升效果。

大模型利用参数存储了丰富的知识，如何利用这些大模型中的知识是非常值得研究的。普遍的方法是采用微调(finetune)的策略来使预训练模型适应下游任务特定的分布。然而，这种方法会不可避免地导致灾难性遗忘的产生。相反地，利用大模型提取大数据的知识，将这些知识逐元素地存储在一个可寻址的内存空间，采用显示地从内存空间中读写知识信息的方式可以更有效地缓解灾难性遗忘，更好地从大模型中迁移知识以执行下游任务。从大规模数据集中提取特征，将其按元素存储在外部存储库中，显示地检索有利的知识对下游数据进行增强，类似于认知神经理论科学相关学科中，用于存储、检索和重放知识的人类记忆系统，值得研究。

记忆增强网络应用到记忆网络问题、元学习、数据生成和语言建模等各个领域。利用记忆增强网络对大模型知识迁移也在NLP领域取得了显著地提升效果。最近对于图像分类，相关技术设计了一个典型的类特征记忆增强模块，记忆内存中存储着每个类别的典型特征，这种典型特征是通过移动平均的方法获得。然后通过基于注意力的检索机制，利用下游数据集在记忆内存中检索相关的典型类特征，以生成响应特征以增强原始特征。利用最终生成的增强特征进行最终的图像分类。

还有一相关技术提出了一种检索增强分类(Retrieval AugmentedClassification)网络，它由图像编码器和并行的检索增强分支组成。图像编码器分支是使用基于CLIP的大模型的图像预训练模型对下游数据集图像提取图像原始特征。下游数据样本作为查询(Query)，将记忆内存中的图像特征作为键值(Key)，相应的文本作为值(Value)，即记忆内存中是以键值-值(Key-Value)的形式进行存储。检索分支利用查询(Query)与键值(Key)计算相似度，然后根据相似度检索出前K个文本词条，然后将K个文本词条拼接成一个总的文本词条，然后将总文本词条输入到基于CLIP的大模型的文本预训练模型以生成响应特征以增强原始特征。利用最终生成的增强特征进行最终的图像分类。

此外，还有一相关技术通过首先对外部数据集进行分类，然后利用下游数据样本提取后特征，利用提取的特征作为查询(Query)从外部数据集中检索相似知识样本，利用检索知识的样本进行投票，票数最高的即为该样本的预测标签。

在已有的相关技术的方法中，在构建记忆内存时候，只利用下游数据集构建记忆内存，没有利用大规模数据集中的丰富的知识。记忆内存中存储的值(Value)为每个类型的典型特征，每个类型的典型特征是通过下游相关数据融合而成，融合得到特征会导致典型特征的混乱。

通过检索增强分支检索出相似度高的文本词条，然后将这些文本词条拼接成一条总的文本词条，输入到CLIP文本编码器已得到响应特征。然而基于CLIP的文本编码器对能够处理的文本标记(token)数量有限，这个限制也同样限制了有效的响应特征的生成。其次检索出的文本词条存在许多噪声(token)同样对模型性能有不好的影响。最后，只是利用下游数据样本(query)和记忆内存键值(key)的样本关系进行检索，这种粗粒度的检索方式检索不回来有效有用的知识。

对于人为增加模型的可解释性的方法，首先对外部数据集中的特征进行分类，然后利用下游数据集在外部数据集上进行测试。这种方式对于每个下游数据集都需要重新组织外部数据集，其次每次对外部数据集进行更换，都需要重新组织数据。

为解决上述技术问题，本申请实施例提供一种基于知识关系检索增强方法，包括以下步骤：首先，构建记忆内存；记忆内存包括外部记忆内存和增强记忆内存；然后，采用下游数据集作为查询，从外部记忆内存中检索知识；将检索到的知识作为检索查询，从增强记忆内存中检索语义文本特征；接下来，基于语义文本特征和原始图像特征，获得图像分类的最终增强特征；最后，基于最终增强特征，对原始图像特征进行增强。本申请实施例提供一种基于知识关系检索增强方法、模型、设备及存储介质，通过一种通过基于知识关系对有效知识进行检索的知识关系检索增强基础模型(Knowledge Relation RetrievalFoundation Model)，利用大规模外部数据集作为媒介，从记忆内存中检索出更加有效的知识对原始特征进行增强，以提高模型的分类性能。

下面将结合附图对本申请的各实施例进行详细的阐述。然而，本领域的普通技术人员可以理解，在本申请各实施例中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施例的种种变化和修改，也可以实现本申请所要求保护的技术方案。

参看图1，本申请实施例提供了一种基于知识关系检索增强方法，包括以下步骤：

步骤S1、构建记忆内存；记忆内存包括外部记忆内存和增强记忆内存。

步骤S2、采用下游数据集作为查询，从外部记忆内存中检索知识；将检索到的知识作为检索查询，从增强记忆内存中检索语义文本特征。

步骤S3、基于语义文本特征和原始图像特征，获得图像分类的最终增强特征。

步骤S4、基于最终增强特征，对原始图像特征进行增强。

本申请实施例提供了一种基于知识关系检索增强方法，首先构建两个记忆内存，包括一个外部记忆内存和一个增强记忆内存。外部记忆内存从大规模数据集中提取丰富的知识。增强记忆内存是利用下游训练数据集从外部记忆内存中检索相关知识，并作为键值(Key)存储在增强记忆内存中，同时使用对应的标签(Label)生成文本特征作为值(Value)存储在增强记忆内存中。然后，采用下游数据集作为查询(Query)从外部记忆内存中检索相关知识，用这些知识再作为检索查询(Query)从增强记忆内存中检索有效的语义文本特征。最后，通过结合原始图像特征和语义文本特征获得图像分类的最终特征。本申请提出的知识关系检索增强基础模型在四个西游图像分类数据集上，显著地提高了模型的分类性能。

图2示出了知识关系检索示例图，其中，图2中弧形的箭头代表直接利用样本间相似度检索知识，横向的直线箭头利用样本相关知识相似度检索有效值。外部内存存储库由大规模数据集构成，提供丰富的知识构建样本之间。

如图2所示，目前已有的记忆检索增强方法直接通过比较查询(query)和键(key)之间的相似度用来检索知识(弧形箭头)，同类且有效的知识在特征层面上没有特别相似，这样的检索方式也不能够将有效的知识检索出来。本申请提出了将外部记忆内存作为内部记忆内存的媒介(直线箭头)可以为使得检索增强模块检索出更有用的知识提供可能性。其中外部记忆内存是通过外部大规模数据集生成，内部记忆内存是由下游数据集生成。外部记忆内存为内部记忆内存建立知识关系提供媒介，外部记忆内存可以替换为其他更大的数据集，而无需进行两次训练。

基于相同类别样本之间特征差距相对较大，但相同类别样本从记忆内存中检索的知识相对较大的先验知识。本申请提出了基于知识关系检索增强方法及模型，将比较样本特征的确定相似程度，转换为比较样本检索知识特征来确定相似程度。将大规模外部外部数据集可以在同一类别的样本之间建立一座桥梁。

具体来说，本申请基于知识关系检索增强基础模型的方法，包含两个阶段，第一个阶段是构建外部记忆内存和增强记忆内存。外部记忆内存是由大规模数据集通过大模型提取的特征组成。增强记忆内存通过用各个下游数据样本作为查询(Query)从外部记忆内存中检索知识，将检索到的知识作为键值(Key)存储在增强记忆内存中，每个键值(Key)相对应的值(Value)由相应查询(Query)的标签(Label)生成文本特征。第二阶段利用构建的外部记忆内存两个记忆存储来检索出有用的内容。下游数据集的查询(Query)从外部记忆内存中检索相应知识，然后用检索来的知识作为查询(Query)与增强内存中的各个键值(Key)进行相似度比较，根据得到的相似度检索出有效的值(Value),然后对这些高语义的文本特征进行融合得到最终的响应特征，来对原始的图像特征进行增强以得到最终的增强特征用于图像分类。

在一些实施例中，步骤S3中基于语义文本特征和原始图像特征，获得图像分类的最终增强特征，包括：采用变压器的编码器对语义文本特征进行融合，得到最终响应特征；通过结合原始图像特征和所述最终响应特征，获得图像分类的最终增强特征。本申请采用了Transformer(变压器)的编码器对检索到的文本特征进行融合、总结得到最终响应特征，以对原始图像特征进行增强。这种对方式对文本数量不加限制，能够不浪费检索回的文本特征，更好地生成有效的响应特征。

在一些实施例中，步骤S1中构建记忆内存，包括：分别构建外部记忆内存、增强记忆内存；外部记忆内存由大规模数据集通过大模型提取的特征组成；增强记忆内存通过采用各个下游数据样本作为查询，从外部记忆内存中检索知识，将检索到的知识作为键值存储在增强记忆内存中，每个键值相对应的值由相应查询的标签生成文本特征。

在一些实施例中，步骤S2中将检索到的知识作为检索查询，从增强记忆内存中检索语义文本特征，包括：将检索到的知识作为检索查询，与增强记忆内存中的各个键值进行相似度比较，得到相似度矩阵；根据相似度矩阵，从增强记忆内存中得到检索出的有效的语义文本特征。

在一些实施例中，相似度的计算公式如下所示：

其中，i表示样本索引，p和q分别表示Q和K的索引。

参考图3，本申请实施例还提供了一种基于知识关系检索增强模型，包括：记忆内存构建模块101、知识关系检索模块102以及图像特征增强模块103；记忆内存构建模块101包括外部记忆内存构建模块1011和增强记忆内存构建模块1012，记忆内存构建模块101用于分别构建外部记忆内存、增强记忆内存；知识关系检索模块102包括第一检索模块1021和第二检索模块1022，第一检索模块1021用于在外部记忆内存中检索知识，并将检索到的知识作为在增强记忆内存中的检索查询；第二检索模块1022用于在增强记忆内存中的检索语义文本特征；图像特征增强模块103用于根据语义文本特征和原始图像特征，获得图像分类的最终增强特征；并基于最终增强特征，对原始图像特征进行增强。

在一些实施例中，外部记忆内存模块1011通过利用在大规模数据集预训练的视觉编码器，对大规模数据集提取图像特征。

在一些实施例中，在对大规模数据集提取图像特征之后，提取的图像特征作为知识存储在外部记忆内存模块1011中。

图4示出了知识关系检索增强基础模型的体系结构，其中，(a)图是外部记忆内存的构建过程；(b)图是增强记忆内存的构建过程；(c)图是模型网络流程图，利用两个记忆内存建立样本之间的知识关系相似度，以检索生成有效的响应特征，用来加强原始视觉特征用来图像分类。

图4示出了本申请的基于知识关系检索增强模型的整个流程图。如图4所示，首先构建两个记忆内存：外部记忆内存和增强记忆内存。如图4(a)所示，首先创建外部记忆内存，以用于下游任务数据集建立媒介。如图4(b)所示，接着创建增强记忆内存，使用下游任务数据集作为查询(Query)从外部记忆内存中检索相关知识作为键值(Key)，相应的标签作为值(Value)。如图4(c)所示，利用构建的外部记忆内存和增强记忆内存进行检索增强。具体而言，将每个训练样本作为查询(Query)从外部记忆内存中检索出相关的知识，进而，用检索出的相关知识作为查询(Query)与增强记忆内存中的各个键值(Key)进行比较得到相似度矩阵，利用得到的相似度矩阵从增强记忆内存中得到检索出的值(Value)。然后，将检索出的分类特征进行总结以得到最终的响应特征，对原始图像特征进行增强以得到最终用于图像分类的增强特征。

给定一组样本

输入给模型进行训练，其中

代表图像,H和W分别代表图像的高和宽，y_n＝{1,2,...,L}代表标签，L代表总的标签数。模型是要对输入样本真是标签进行正确分类和预测。

如图4所示，基于知识关系检索增强模型首先需要构建两个记忆内存：外部记忆内存和增强记忆内存。在图4中，(a)图是外部记忆内存的构建过程；(b)图是增强记忆内存的构建过程；(c)图是模型网络流程图。图4示出了本申请利用两个记忆内存建立样本之间的知识关系相似度，以检索生成有效的响应特征，用来加强原始视觉特征用来图像分类的过程。

具体的，构造记忆内存的的技术细节如下：

构建外部记忆内存的具体过程如下：如图4(a)所示，外部记忆内存通过利用在YFFC15M大规模数据集预训练的ResNet50视觉编码器，对YFCC15M大规模数据集提取图像特征。YFCC15M是YFCC100M的子集，YFCC100M是由1亿个媒体对象组成的最大公共多媒体集合。提取的图像特征作为知识存储在外部内存中，外部内存可以表示为矩阵

其中M代表外部内存中知识存储数量，d_v代表提取的图像特征维度。通过预先训练的大型模型从外部数据集中提取的丰富知识存储在外部记忆内存中。通过比较不同样本从外部记忆内存中检索到的知识，可以在这些样本之间架起桥梁。

构建增强记忆内存的具体过程如下：如图4(b)所示，增强记忆内存由键值(Key)和值(Value)组成。其中每个键值是通过下游数据中的每个样本从外部记忆内存中检索相关的知识，表示为

其中m为增强记忆内存中每个槽存储的检索知识数量，d_v是图像特征的维度。具体过程，利用下游数据集中的每个样本x_i作为查询

与外部记忆内存计算相似度，相似度如下所示：

接下来，根据相似度矩阵

检索出相似度最高的top_r索引。利用该索引从外部内存记忆中检索相应知识构成增强记忆内存的键值K＝EM[top_r]

至于增强记忆内存的值(Value)，首先利用相应样本的标签y_i输入到事先定影好的模板(prompt)中(例如图4(b)中的照片)，然后利用将得到的字符串输入到基于YFCC15M预训练的文本编码器中，得到文本特征

其中d_t为文本特征的维度，该文本特征即对应槽的值(V)。增强记忆内存的检索过程可以概括为AM[K]＝V。在获得两个记忆内存之后，本申请获得两个记忆内存获得最终用于图像分类的增强特征。

通过比较来自从外部记忆内存检索知识的相似度来确定样本之间的相似度，可以获得更有效的相应特征。基于此，本申请提出了知识关系检索模块，包括两个阶段：第一检索模板(在外部记忆内存中检索)以及第二检索模块(在增强记忆内存中检索)。

在外部记忆内存中检索：首先对下游训练数据集中的每批图像被输入到基于YFCC15M预训练的ResNet50视觉编码器E(·)，以提取图像特征

其中b是批数量大小，d_v为图像特征维度。将训练集中的特征作为查询特征与外部记忆内存中的特征计算相似度，相似度如下所示：

根据相似度矩阵

检索出相似度最高的top_s索引。利用该索引从外部内存记忆中检索相应知识构成下一阶段在增强记忆内存中检索的查询Q＝EM[top_s]

每轮训练后，利用以上获得的查询特征来更新增强记忆内存。

在增强记忆内存中检索：如图4(c)所示，利用上一步骤获得的知识查询Q与增强记忆内存中的每个键值K进行相似度计算，相似度计算的策略采用计算每个元素矩阵最高分作为该元素的相似度得分，具体的相似度计算方式如下：

其中，i是样本索引，p和q表示Q和K的索引。

利用知识关系相似度矩阵Sim，可以从增强记忆内存中检索出top_k个文本特征，T＝AM[top_k]

然后与Bert的令牌([class])类似，在检索出的文本序列特征前添加一个可学习的编码特征

得到最终的文本特征

输入到Transformer的编码器中，以总结这些文本特征生成响应特征。即T₀为检索的文本特征总结得到的响应特征。具体的计算过程如下：

Encoder(Q,K,V)＝LN(X+Y),

其中，Q,K,V是Transformer编码器的输入特征，W_Q,W_K,W_V是投影矩阵，LN(LayerNormalization)代表层规范化，MHA(Multi-Head Attention)是带有4个头的多头注意力模块，FFN(Feed Forward Network)是前馈网络。

利用投影文本特征生成查询特征

键值特征

和值特征

它们一起被输入到Transformer的编码器中，禅师自注意力的特征F_t ^self＝Encoder(Q,K,V)。最后的响应特征为F_t＝F_t ^self[0]。

最终的增强特征F通过组合原始视觉特征F_v和响应文本特征F_t来获得。应用交叉熵来计算最终损失。具体公式如下：

其中，L是标签类别的数量，其中

为指示函数(

和

)，FC是分类器。

基于此，本申请提出一种新颖的用于图像分类的知识关系检索增强基础模型，通过显示可寻址的外部记忆内存，存储利用大模型在大规模数据集上提取的丰富知识。利用外部记忆内存作为媒介，间接地比较下游任务数据集从外部记忆内存中检索知识的相似度，以用来建立下游任务数据集各样本之间的关系，对检索回来的标签文本特征进行总结得到响应特征，以增强原始图像特征用于最终的图像分类。与此同时，本申请比较样本检索知识的相似度来确定样本之间的相似度，相比于直接比较样本之间的相似度，能够更好的建立查询与键值之间的关系，进而检索出更加有效的内容用于增强原始图像特征。此外，本申请使用下游任务相关标签生成文本特征，以用于生成有更强语义性的响应特征，有利于增强原始图像特征。提出了句子级汇总编码器，消除了对需要总结知识数量的限制，减轻了对检索回知识的浪费。

与现有技术相比，本申请将外部记忆内存作为连接下游任务数据集样本的媒介。相比于目前已有最好的方法，本申请从记忆内存中检索回的知识是有更强语义性的响应特征，更加有效地增强原始特征，提升模型性能。

此外，本申请使用大规模数据集构建记忆内存，而不仅仅使用下游数据集构建记忆内存，能够学习大规模数据集中丰富的知识。通过融合特征获得典型特征容易造成特征困惑，而离散的知识样本关系比较，能够提高模型的可解释性，提升模型的检索性能，进而提高模型性能。另外，本申请采用句子级别的知识汇总方法，对汇总知识不加限制，能够不浪费检索回的文本特征，更好地生成有效的响应特征以增强原有图像特征，提高模型性能。另外，本申请将外部记忆内存当作建立知识关系的媒介，不用针对不同的下游数据集进行多次重新组织，可以实现即插即用。

本申请提供的基于知识关系检索增强方法及模型，已经过实验、模拟，具体实验过程如下：

本申请实施例涉及四个数据集，包括Food101、CIFAR10、CIFAR100和Oxford102Flower。在该方法中，外部数据集YFCC15M用于构建外部记忆内存。如表1所示，本申请使用了与其他工作相同的训练/测试划分方式。Food101共有102种，训练集大小为75750，测试集大小为25250，CIFAR10共有10个类别，训练集大小为50000，测试集大小10000，CIFAR1000共有100个类别，训练集大小为50000，测试集大小为10000，Oxford 102Flower共有102个类别，训练集2040，测试集为6149。

表1四个图像分类基准的统计

本申请在Pytorch上实现，并在单个A100 GPU上训练所有模型。

本申请采用了在YFCC15M上预训练的ResnNet50。本申请使用Adam作为优化器、权重衰减5e-4和50的小批量大小进行训练。本申请使用5e-5的学习率并训练网络10轮。整个网络通过图像标签的监督以端到端的方式进行训练。

本申请的与基线和现有的方法进行了比较。基线是根据在YFCC15M上预训练的ResNet50预训练模型进行微调。Deng等人提出了CMN模型使用注意力机制来获得相似性分数作为权重，以从记忆内存中获得响应特征，响应特征与原始视觉特征相结合，产生最终的分类特征。Long等人提出的RAC使用原始注意力机制来检索文本信息以增强原始图像特征。表2示出了本申请在四种图像分类基准与不同方法进行定量比较，如下所示：

表2本申请在四种图像分类基准与不同方法进行定量比较

如表2所示，本申请的方法在Food101、CIFAR10、CIFAR100、Oxford 102Flower的准确率分别为83.21％、95.59％、80.98％和84.68％。分别比基线高+1.25％、+0.09％、+1.29％和+0.5％。所有的定量结果一致地说明了本申请的优势。

知识关系的消融实验：本申请比较了传统的样本表示关系和样本知识关系两种方案，以证明利用知识关系对记忆内存进行检索，相比于直接根据表示关系进行检索，能够检索更加有用有效的知识。所谓的表示关系(Representation Relation)是通过比较下游数据样本与内部记忆内存的相似度，然后检索前k个知识用于生成响应特征，以增强原始的图像特征得到增强特征，以进行图像分类。其中内部记忆内存是指使用下游训练数据集提取特征组成。本申请提出的基于知识关系(Knowledge Relation)的检索增强模块，是利用大规模外部记忆内存作为联系内部记忆内存各个相关知识的媒介。如表3所示，实验结果可以评估知识关系可以建立更亲密的关系并获得更好的性能，这表明知识关系策略可以更多地利用外部记忆库并检索更多有用的内容以增强原始特征并提高性能。

表3在CIFAR100上测试知识关系策略对性能的影响

图5显示了两个具有挑战性的定性比较结果。顶部(第一行)表示表示关系设定，底部(第二行)表示知识关系设定。左侧示例的查询图像是一条“Road”。通过表示关系策略(左上角)从外部记忆库中检索到最相关的知识是标记为“森林”的图片。左下角展示了查询(Query)与键值(Key)建立了正确的联系，并检索有效信息“道路”以获得更好的性能。右侧示例的查询图像是一列“Train”。由于背景的影响，通过表示关系策略检索的最相关的知识带有“Mountain”标签的图像。然而，知识关系策略可以在查询(Query)和键值(Key)之间建立更紧密的关系，以获得更有用的“Train”信息，用于最终的图像增强。

如图5所示，左侧的示例显示了一张包含“Road”内容的图片。由于森林背景的影响，利用表示关系从记忆内存中检索到的最接近的图像是一幅可以描述为森林中一条河流的图片，其次，该图像被标记为“Forest”。而通过知识关系可以通过记忆内存建立准确的关系，获得更好的性能。在该示例中，查询(Query)中的第二张图像与来自增强记忆库的键值(Key)中的第三张图像获得最高的相似度，相应的值(Value)的文本特征“Road”可以被检索出来用来增强原始的图像特征。右侧的示例是一列蜿蜒在山路上行驶的火车。由于远山背景的影响，从记忆内存种直接检索出最相关的知识是关于“Mountain”的内容。然而，知识关系可以提供更多的可能性建立样本之间的关系，可以从增强记忆内存种获得有效的分类文本信息“Train”。

知识关系生成方式消融研究：如图4(c)所示，通过查询(Query)和每个键值(Key)之间的相似度矩阵得到知识关系。有至少三种方式可以计算这些知识关系，以获得最终的知识关系相似度矩阵。包括取最大值，取平均值和加权平均值。

取平均值就是取每个元素矩阵的平均值。具体计算过程如下：

加权平均计算过程中，本申请使用外部记忆内存中检索种的相似度矩阵D来计算注意力权重分数W，然后使用该权重分数来对知识关系矩阵中的每个元素矩阵进行加权平均。具体计算过程如下：

其中，i是样本索引，p和q表示Q和K的索引。

如表4所示，采用取最大的方式获得知识关系矩阵的方式可以获得最佳性能。其他策略相比，所有关系中最相似的知识对可以更好地表示知识关系。无论使用哪种生成方式来获取知识关系，本申请都可以看到所有这些结果都优于基线，这可以证明本申请的有效性。

表4在CIFAR100上知识关系生成方法的消融研究

外部记忆内存消融研究：本申请使用外部记忆内存在样本之间架起桥梁。使用的大规模图像文本数据集来构建外部记忆内存。文本也是一种知识形式，也可以使用它作为媒介连接样本。多模态建立知识关系的消融实验也同样在本申请进行探索。如表5所示，“Caption Knowledge”代表从外部记忆内存检索相关文本特征作为知识的存储形态存储在增强记忆内存中。“Caption Related Image Knowledge”代表计算查询与外部记忆内存文本特征的相似度，用来检索相对应的图像特征作为知识存储形态存储在增强记忆内存中。“Image Knowledge”代表从外部记忆内存中检索图像特征作为知识存储形态存储在增强记忆内存中。从实验结果可以看出，图像特征和文本特征都可以建立知识关系，并获得比基线更好的性能“Image Knowledge”在三种设置中获得最佳性能。

表5在CIFAR100上外部记忆内存消融研究

汇总知识策略：图4(c)所示，从增强记忆内存中检索topk个内存槽。如何处理这些检索到的内容以获得最终响应特征以增强原始图像特征是值得研究的。Long通过组合所有这些文本标记并将其输入基于CLIP的文本编码器，以获得最终的响应特征。它本质上是一种单词级的自我关注模块，用于总结检索到的知识。然而，CLIP文本编码器的76个token限制限制了模型的性能。因此，在本申请中，本申请使用具有可学习嵌入T₀的Transformer编码器来总结检索到的知识，而不受token数量的限制。本申请提出的方法本质上是一种句子级的自我关注模块。如表6所示，本申请对汇总知识的策略进行了消融实验，“Word-LevelEncoder”对文本知识进行文字级别的注意力计算，“Sentence-Level Encoder”对句子知识进行句子级别的注意力计算。从实验结果中，本申请可以发现所提出的句子级概括知识模块的有效性。

表6在CIFAR100上汇总知识策略的消融研究

r和s对模型的影响：r和s分别代表对增强记忆内存查询Q和增强记忆内存每个K的样本数量。为了探究这两个参数对模型性能的影响，表7展示了在CIFAR100上超参数r和s对模型性能的影响，表中的所有结果均获得了与基线绩效(79.69％)相比的竞争绩效。

表7在CIFAR100上超参数r和s对模型性能的影响

k对模型的影响：如图6所示，本申请研究了参数k对模型性能的影响，并且当k＝500时获得了最佳性能，这等于训练数据集中每个类别样本的数量(n_c)。与其他工作将k设置的越大越好不同，原因是由于增强记忆内存在构建过程中使用每个训练样本作为查询从外部记忆内存中检索知识作为键值。增强记忆内存的数据分布与下游训练数据分布相同，将k设置为n_c。因此，如果k比n_c大得多，那么许多排名靠后的噪声检索的知识将阻碍最终汇总的响应特征的性能。如果k远小于n_c，则有效检索的知识不能都用来总结知识。因此，将k设置n_c附近是合理的。

本申请中在外部记忆内存构建的过程中，可以使用不同的预训练模型在不同的大模型数据集上提取特征作为记忆内存的知识，并且记忆内存中知识的形式本申请目前采用的是使用预训练的图像编码器提取的图像特征作为知识。其实，知识模态形式不同，本申请依然可以应用，例如，知识也可以采用使用预训练的文本编码器提取的文本特征作为知识，可以使用图像特征和文本特征融合的融合特征作为知识。

本申请在建立知识关系相似度的时候，采用离散地方式计算查询与增强记忆内存键值之间的关系，也有其他的替代方式可以用于知识关系的建立，比如对查询中的r个样本进行融合得到抽象知识特征，相应地增强记忆内存里每个键值中的s个样本也可以通过融合的方式得到抽象知识特征。这样知识关系相似度的比较就变成抽象知识的比较。其中具体的融合方式，可以采用相加，基于注意力的加权平均，或者使用图神经网络或者Transformer等对样本进行融合得到融合后的抽象知识特征。

参考图7，本申请另一实施例提供了一种电子设备，包括：至少一个处理器110；以及，与至少一个处理器通信连接的存储器111；其中，存储器111存储有可被至少一个处理器110执行的指令，指令被至少一个处理器110执行，以使至少一个处理器110能够执行上述任一方法实施例。

其中，存储器111和处理器110采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器110和存储器111的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器110处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器110。

处理器110负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器111可以被用于存储处理器110在执行操作时所使用的数据。

本申请另一实施例涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

由以上技术方案，本申请实施例提供一种基于知识关系检索增强方法、模型、设备及存储介质，该方法包括以下步骤：首先，构建记忆内存；记忆内存包括外部记忆内存和增强记忆内存；然后，采用下游数据集作为查询，从外部记忆内存中检索知识；将检索到的知识作为检索查询，从增强记忆内存中检索语义文本特征；接下来，基于语义文本特征和原始图像特征，获得图像分类的最终增强特征；最后，基于最终增强特征，对原始图像特征进行增强。

本领域的普通技术人员可以理解，上述各实施方式是实现本申请的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。任何本领域技术人员，在不脱离本申请的精神和范围内，均可作各自更动与修改，因此本申请的保护范围应当以权利要求限定的范围为准。

Claims

1.一种基于知识关系检索增强方法，其特征在于，包括：

构建记忆内存；所述记忆内存包括外部记忆内存和增强记忆内存；

采用下游数据集作为查询，从所述外部记忆内存中检索知识；将检索到的知识作为检索查询，从所述增强记忆内存中检索语义文本特征；

基于所述语义文本特征和原始图像特征，获得图像分类的最终增强特征；

基于最终增强特征，对所述原始图像特征进行增强。

2.根据权利要求1所述的基于知识关系检索增强方法，其特征在于，所述基于所述语义文本特征和原始图像特征，获得图像分类的最终增强特征，包括：

采用变压器的编码器对所述语义文本特征进行融合，得到最终响应特征；

通过结合原始图像特征和所述最终响应特征，获得图像分类的最终增强特征。

3.根据权利要求1所述的基于知识关系检索增强方法，其特征在于，所述构建记忆内存，包括：分别构建外部记忆内存、增强记忆内存；

所述外部记忆内存由大规模数据集通过大模型提取的特征组成；

所述增强记忆内存通过采用各个下游数据样本作为查询，从所述外部记忆内存中检索知识，将检索到的知识作为键值存储在所述增强记忆内存中，每个键值相对应的值由相应查询的标签生成文本特征。

4.根据权利要求1所述的基于知识关系检索增强方法，其特征在于，所述将检索到的知识作为检索查询，从所述增强记忆内存中检索语义文本特征，包括：

将检索到的知识作为检索查询，与所述增强记忆内存中的各个键值进行相似度比较，得到相似度矩阵；

根据所述相似度矩阵，从所述增强记忆内存中得到检索出的有效的语义文本特征。

5.根据权利要求4所述的基于知识关系检索增强方法，其特征在于，所述相似度的计算公式如下所示：

其中，i表示样本索引，p和q分别表示Q和K的索引。

6.一种基于知识关系检索增强模型，其特征在于，包括：记忆内存构建模块、知识关系检索模块以及图像特征增强模块；

所述记忆内存构建模块包括外部记忆内存构建模块和增强记忆内存构建模块，所述记忆内存构建模块用于分别构建外部记忆内存、增强记忆内存；

所述知识关系检索模块包括第一检索模块和第二检索模块，所述第一检索模块用于在所述外部记忆内存中检索知识，并将检索到的知识作为在所述增强记忆内存中的检索查询；所述第二检索模块用于在所述增强记忆内存中的检索语义文本特征；

所述图像特征增强模块用于根据所述语义文本特征和原始图像特征，获得图像分类的最终增强特征；并基于最终增强特征，对原始图像特征进行增强。

7.根据权利要求6所述的基于知识关系检索增强模型，其特征在于，所述外部记忆内存模块通过利用在大规模数据集预训练的视觉编码器，对大规模数据集提取图像特征。

8.根据权利要求7所述的基于知识关系检索增强模型，其特征在于，在对大规模数据集提取图像特征之后，提取的图像特征作为知识存储在所述外部记忆内存模块中。

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至5中任一所述的基于知识关系检索增强方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一所述的基于知识关系检索增强方法。