CN117609527A

CN117609527A - 一种基于向量数据库的跨模态数据检索优化方法

Info

Publication number: CN117609527A
Application number: CN202410060942.2A
Authority: CN
Inventors: 程超; 李传阳; 郑文; 杨佳玉
Original assignee: Hefei Artificial Intelligence And Big Data Research Institute Co ltd
Current assignee: Hefei Artificial Intelligence And Big Data Research Institute Co ltd
Priority date: 2024-01-16
Filing date: 2024-01-16
Publication date: 2024-02-27

Abstract

本发明公开了一种基于向量数据库的跨模态数据检索优化方法，涉及利用文本跨模态检索图像，及后续利用少量标注样本优化检索结果，该方法结合视觉语言预训练模型、向量数据库、少样本特征向量微调，实现跨模态检索及后续优化等，包括：利用视觉语言预训练模型提取图像和文本的特征向量，使之映射到同一个向量空间中；将图像提取得到的特征向量存入向量数据库中，将文字提取得到的特征向量作为查询向量，在向量数据库中做向量相似度检索；将得到的检索结果进行标注，并据此微调此场景下的查询向量，重新查询，此过程可不断迭代，此方法在不微调预训练模型的情况下，实现具体场景的检索优化。

Description

一种基于向量数据库的跨模态数据检索优化方法

技术领域

本发明涉及视觉语言预训练模型与人工智能的技术领域，具体为一种基于向量数据库的跨模态数据检索优化方法。

背景技术

近年来，数字媒体技术的快速发展，图像、文本等多模态数据在互联网上广泛传播，跨模态检索需求日益增多，但当下的以文搜图多是借助图片的标注文字进行检索，并非真正的跨模态检索，同时由于绝大部分原始图片无标注，使得此方法应用十分局限；而随着深度学习的发展，利用多模态表示学习实现跨模态检索成为一种新的可行方法，但前期由于模型能力一般使得效果不佳；而随着Transformer架构的提出，视觉语言预训练模型快速发展以及利用4亿图像文本对训练的CLIP模型正式提出，打破了图像与文本的界限；

现有的样本学习方法基于数据或模型或算法，但基于数据的方法存在数据多样性不足，容易过拟合等问题；基于模型的方法或消耗资源较多，或效果不佳；基于算法的方法存在精度降低、收敛速度慢等问题，导致现有的样本学习方法大多消耗资源多、学习时间长，难以快速响应实际需求。

发明内容

本发明的目的在于提出了一种基于向量数据库的跨模态数据检索优化方法，基于向量数据库，通过视觉语言预训练模型将非结构化数据存储为向量形式，实现对海量非结构化数据的插入和查询；基于视觉语言预训练模型，通过少量的数据标注，实现具体应用场景下，算法模型的再训练。

本发明的目的可以通过以下技术方案实现：

一种基于向量数据库的跨模态数据检索优化方法，包括以下步骤：

S1: 将海量无标注非结构化的原始图片经过视觉语言预训练模型的图像编码器转化为存储向量，并将存储向量存入至向量数据库，同时将原始图片存入存储库；

S2：将查询文本经过视觉语言预训练模型的文本编码器转化为查询向量，并将查询向量与向量数据库中的存储向量进行相似度匹配，得到匹配向量；

S3：获取匹配向量在存储库中对应的原始图片，将对应的原始图片进行人为标注，根据人为标注结果对查询向量进行微调，将微调后的查询向量与向量数据库中的存储向量进行相似度匹配，得到最终结果。

作为本发明进一步的方案：将海量无标注非结构化的原始图片经过视觉语言预训练模型的图像编码器转化为存储向量，并将存储向量存入至向量数据库，还包括：

所述视觉语言预训练模型的图像编码器采用卷积神经网络或ViT架构；

对利用图像编码器转化后的存储向量长度进行归一化处理。

作为本发明进一步的方案：将查询文本经过视觉语言预训练模型的文本编码器转化为查询向量，并将查询向量与向量数据库中的存储向量进行向量相似度匹配，得到匹配结果，还包括：

所述视觉语言预训练模型的文本编码器采用Transformer架构。

作为本发明进一步的方案：根据人为标注结果对查询向量进行微调包括：

将对应的原始图片进行人为标注，符合要求的标注为1，不符合要求的标注为0，得到样本对及/>，其中/>是视觉语言预训练模型的图像编码器，/>是与匹配向量对应的原始图片；

利用公式拟合标注后的结果，其中/>是人为标注结果，/>初始化为上次查询向量，利用标注样本，采用一层线性神经网络对/>进行微调，并利用微调后的/>重新进行查询。

作为本发明进一步的方案：若最终结果的相似精度不足，可不断迭代上述过程。

本发明的有益效果：

1.本发明可以实现海量非结构化数据的快速跨模态检索，以及在具体应用场景下的小样本优化，提高检索精度；此外，该方法简单易实施，不微调基础模型，消耗资源少，能快速响应实际需求。

附图说明

下面结合附图对本发明作进一步的说明。

图1为本发明数据检索优化的流程示意图；

图2为本发明微调查询向量的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明公开了一种基于向量数据库的跨模态数据检索优化方法，包括以下步骤：

对利用图像编码器转化后的存储向量长度进行归一化处理。

所述视觉语言预训练模型的文本编码器采用Transformer架构。

上述基于向量数据库的跨模态数据检索方法得到的结果可能不完全正确，可以将对应的原始图片进行人为标注，符合要求的标注为1，不符合要求的标注为0，得到样本对及/>，其中/>是视觉语言预训练模型的图像编码器，/>是与匹配向量对应的原始图片；

如图2所示，利用公式拟合标注后的结果，其中/>是人为标注结果，利用标注样本，采用一层线性神经网络对/>进行微调。由于在训练过程中查询向量与正样本的图片编码点乘趋向于1，与负样本的图片编码点乘趋向于0，故可取归一化后的作为查询向量重新查询，若最终结果的相似精度不足，可不断迭代上述过程。

本发明实施例中，选用Chinese-CLIP ViT-B/16作为基础视觉语言预训练模型，选用CIFAR-10和CIFAR-100两个数据集上优化测试，并将其标签译为中文，实验选取mAP作为评估指标，数据如表1所示：

表1

综上所述，无论是在简单数据集上、还是在较难数据集上，基于向量数据库的跨模态数据检索方法均可给出一个较优精度，且经过少量样本优化，可以提高此精度。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭示如上，然而并非用以限定本发明，任何本领域技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简介修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于向量数据库的跨模态数据检索优化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于向量数据库的跨模态数据检索优化方法，其特征在于，将海量无标注非结构化的原始图片经过视觉语言预训练模型的图像编码器转化为存储向量，并将存储向量存入至向量数据库，还包括：

对利用图像编码器转化后的存储向量长度进行归一化处理。

3.根据权利要求1所述的一种基于向量数据库的跨模态数据检索优化方法，其特征在于，将查询文本经过视觉语言预训练模型的文本编码器转化为查询向量，并将查询向量与向量数据库中的存储向量进行向量相似度匹配，得到匹配结果，还包括：

所述视觉语言预训练模型的文本编码器采用Transformer架构。

4.根据权利要求2所述的一种基于向量数据库的跨模态数据检索优化方法，其特征在于，根据人为标注结果对查询向量进行微调包括：

利用公式拟合标注后的结果，其中/>是人为标注结果，/>初始化为上次查询向量，利用标注样本和一层线性神经网络对/>进行微调，并利用微调后的/>重新进行匹配。

5.根据权利要求1所述的一种基于向量数据库的跨模态数据检索优化方法，其特征在于，若最终结果的相似精度不足，可不断迭代上述步骤。