CN116049450A

CN116049450A - 一种基于距离聚类的支持多模态的图文检索方法及装置

Info

Publication number: CN116049450A
Application number: CN202310043530.3A
Authority: CN
Inventors: 苏海波; 苏萌; 刘译璟; 赵群; 杜晓梦
Original assignee: Beijing Percent Technology Group Co ltd
Current assignee: Beijing Percent Technology Group Co ltd
Priority date: 2023-01-29
Filing date: 2023-01-29
Publication date: 2023-05-02

Abstract

本发明涉及计算机人工智能领域，即计算机视觉、自然语言处理和信息检索结合的领域，尤其涉及一种基于距离聚类的支持多模态的图文检索方法及装置。目的在于解决现有算法需要大量的标注数据和人工操作，而且在图文搜索阶段，遍历所有图文对计算效率会很低的技术问题。主要方案包括获取原图文进行增强后，对增强后的图文数据的局部特征和全局特征，得到图像的编码向量和文本的编码向量；使用计算向量距离的方式构建正负样本；判断文本向量和图像向量是否是对应的；将学习到的文本向量和图像向量分别进行多级聚类，同时保留文本和图像之间的索引，得到图文向量库；将输入的图文，通过编码成向量，然后在图文向量库中检索，得到最终结果。

Description

一种基于距离聚类的支持多模态的图文检索方法及装置

技术领域

本发明涉及计算机人工智能领域，即计算机视觉、自然语言处理和信息检索结合的领域，尤其涉及一种基于距离聚类的支持多模态的图文检索方法及装置。

背景技术

在计算机人工智能领域，深度神经网络经过良好的训练能够支持文本检索和图像检索，并展现出极好的性能。然而，大部分深度神经网络只能针对单一数据模态进行良好的训练，即大部分神经网络模型是为一个封闭的模态所设计的。然而在现实生活中，人们对图文搜索领域有很大的需求，但是由于在人工标注数据方面，图像并不能有效地涵盖不可计数的所有描述文本，文本也并不能有效地涵盖不可计数的图像，且图像和文本之间的表示空间是不一致的，因此在人工数据标注和神经网络学习方面有很大难度。

理论上，一个理想的跨模态图文检索模型应该具有以下三个标准：

(1)当新的图像文本数据在不同时间出现，模型均可训练。

(2)任何时间在已经学习过的图像文本对中有很好的检索效果。

(3)计算能力与内存应该随着图像文本数据的增加固定或者缓慢增长。

虽然对比学习为处理小样本数据与单一模态数据提供了思路。但是目前大部分对比学习算法并不能很好的构建多模态数据之间的关系且解决小样本数据效果不是很好。

中国专利申请CN115033670A公开了多粒度特征融合的跨模态图文检索方法，该方法包括建立图文检索数据集、样本的图文特征提取以及图文检索三个阶段。在建立图文检索数据集阶段，收集图像和其对应的文字描述作为样本，建立跨模态检索数据集，分为训练集、验证集与测试集。在样本的图文特征提取阶段，提取每张图片和对应描述文本的局部特征和全局特征，用来构建多粒度特征融合网络。在图文检索阶段，使用欧氏距离函数计算图片向量与文字描述向量之间的相似度。然而上述方法中很难让模型学习到图文向量之间的关系，且在构建数据集的过程中需要使用大量标注数据，而且在图文搜索阶段，遍历所有图文对计算效率会很低。

现有图文检索预训练模型SOTA技术BriVL通过构建一个基于队列的大型字典，让有限的GPU资源中包含更多的负样本。然而BriVL算法需要大量的标注数据和人工操作，在实际场景中如电商、搜索引擎等场景，标注周期太长很难满足海量数据检索需求的场景；而且BriVL算法模型结构较为复杂，在检索方面速度不够快。因此本申请和目前的SOTA技术相比，是一个可以满足小样本场景且检索准确率较高、检索效率较高的方法。

发明内容

本发明的目的在于解决现有算法需要大量的标注数据和人工操作，而且在图文搜索阶段，遍历所有图文对计算效率会很低的技术问题。

为了实现实现上述目的本发明采用以下技术手段：

一种基于距离聚类的支持多模态的图文检索方法，包括以下步骤：

步骤1：对图像和图像的描述文本进行预处理并做数据增强，得到增强后的图文对数据；

步骤2：提取步骤1得到的增强后的图文数据的局部特征和全局特征，获得向量表示；

步骤3：使用计算向量距离的方式构建正负样本；

步骤4：搭建对比学习模型并使用构建的正负样本学习模型；

步骤5：将学习到的图文向量表示进行多级聚类，得到图文向量库；

步骤6：图文检索，将输入的图文，通过步骤2编码成向量，然后通过向量在步骤5得到的图文向量库中检索，得到最终结果；

上述技术方案中，步骤1具体包括以下步骤：

步骤1.1：对图像做灰度化处理、几何变换预处理；

步骤1.2：对文本做数据清洗，采用正则表达式的方式去除图像描述数据中的乱码；

步骤1.3：对图像做数据增强，采用旋转、平移、裁剪、噪声数据增强手段，扩充数据集，增加模型鲁棒性；

步骤1.4：对文本做数据增强，在不改变原意的情况下采用增词、删词、替换近义词等数据增强手段，扩充数据集，增加模型鲁棒性。

上述技术方案中，步骤2具体包括以下步骤：

步骤2.1：采用GoogleNet中的Inception结构，即使用不同大小的卷积核分别对图像做特征提取，目的是提取不同维度的特征，提升向量的表示能力。然后将Inception提取得到的每张特征图拉平(Flatten)，将这些特征图拼接在一起，作为这张图像的编码向量，为了图文向量能够互相检索，需要将长度不同的向量压缩到一个指定长度L。这里使用全连接(Fully Connection Layer)将图像的向量长度变换为L；

步骤2.2：使用TextRank算法，提取出文本中的TOPK个关键字，K是一个超参数，一般根据文本长度确定。提取关键词的原因是关键词从某种程度上来说可以表示一段文本，因此关键词对于文本表示有很大意义。将这些原始文本和关键字拼接在一起作为描述文本，将原始文本和关键字拼接的好处是明确告诉模型哪些词是需要特别关注的词，这样模型通过外部信息能够学习到更强的表示。然后将上述文本使用BERT进行编码，使用BI-LSTM提取深层次特征，最后在时间序列维度取平均值作为该文本的向量。最后为了和图像向量长度保持一致，即压缩到同一向量空间中，因此使用全连接(Fully Connection Layer)将向量长度变换为L；

上述步骤3具体包括以下步骤：

步骤3.1：根据对比学习的思想，需要构建正负样本，正样本为原图文对及数据增强后得到的图文对的两两组合,共N对正样本；构建负样本的过程中，对于文本向量分别使用BM25算法和向量距离计算两种方式，对于图像向量使用向量距离计算的方式。

文本负样本构建，首先需要通过计算筛选出Top M个描述文本,其中M是一个可以修改的参数，且M>＝2*N。向量距离计算使用欧式距离衡量相似程度，x，y代表需要计算相似程度的两个文本向量，其中

x＝(x₁,…,x_i,…,x_n)^T,y＝(y₁,…,y_i…,y_n)^T

其中x_i代表x向量在第i个维度上的数值，y_i代表y向量在第i个维度上的数值,T代表列向量

公式1：n阶欧式距离公式

如公式1所示，欧式距离为x向量和y向量在所有维度上根号下差值的平方和的累加，欧式距离越小说明越相似，欧式距离越大说明不相似。

BM25算法通过计算词的重要性，可以用来计算文本之间的相关性。BM25算法计算结果是一个0-1之间的数，越接近1说明两个文本越相似，越接近0说明越不相似。

根据BM25算法和向量距离计算方法分别计算筛选出Top M/2个描述文本，其中包含一部分正样本，将其中的正样本剔除后得到负样本序列，选择负样本序列中前Top N/2个描述文本，构成N/2对负样本；

图像负样本构建，首先使用欧式距离的方法召回Top M个图像向量，其中包含一部分正样本，将其中的正样本剔除后得到负样本序列，选择负样本序列中前Top N/2个图像向量，构成N/2对负样本。

通过上述方式可以得到N个正样本和N个负样本，保证正负样本相对平衡，模型能够学习得更加充分。

上述步骤4具体包括以下步骤：

步骤4.1：构建对比学习模型，让模型学习两个图文对是否是对应的。模型的核心思想是让正样本中图文向量之间的距离尽可能小，负样本中图文向量之间的距离尽可能大，模型通过预测的结果来修正图文向量在向量空间中的位置，因此可以通过这种方法学习到图像向量和文本向量的表示，而且在以文检图和以图检文过程中，正样本向量之间距离尽可能小的情况检索到的结果才能排名靠前。具体做法是将文本向量和图像向量拼接得到文本-图像向量，然后将文本-图像向量放入BERT中，可以通过这种方式进行文本向量和图像向量的信息交互，最后得到BERT的CLS位的隐藏层向量，使用SoftMax函数进行一个二分类，判断该图文是否是对应的，1代表该图文是对应的，0代表该图文不是对应的。模型是一个二分类问题，因此损失函数使用二分类负对数交叉熵(Logloss)，使用Adam优化算法进行模型优化。

上述步骤5具体包括以下步骤：

步骤5.1：图像向量多级聚类。采用三级聚类方式，聚类算法采用KMeans算法，算法核心思想是每次选择K个中心，然后计算其他向量到这个向量的距离并修正中心的位置。三级聚类采用KMeans算法，首先对每一级选K个簇心，使用欧式距离的计算方法计算每一个向量到K个簇心的距离，选择最近的一个簇心，然后重新计算簇心的位置，直到最终收敛。第一级可以聚成K个类，每个类中有若干向量，然后分别对K个类中的向量再进行聚类，聚成K个类，每个类中有若干向量。因此通过这种方法可以得到多级聚类的结果，每一级有K个簇心,其中每一级簇心个数可以相同也可以不同，由数据量大小决定，每个簇有若干向量的一个图像向量加速检索库。

步骤5.2：文本向量多级聚类。采用三级聚类方式，聚类算法采用KMeans算法。第一级可以聚成K个类，每个类中有若干向量，然后分别对K个类中的向量再进行聚类，聚成K个类，每个类中有若干向量。因此通过这种方法可以得到多级聚类的结果，每一级有K个簇心，每个簇有若干向量的一个文本向量加速检索库。

上述步骤6具体包括以下步骤：

步骤6.1：图像检索文本。图像通过步骤2.1编码成图像向量，然后去文本向量加速检索库中检索。首先计算图像向量和第一级簇心的欧式距离，选择最近的簇心C，然后计算图像向量和第一级簇心C下第二级簇心间的距离，选择距离最近的簇心D，最后计算簇心D下若干文本向量和图像向量的距离，根据需求返回Top N个文本结果，即欧式距离最小的TopN个结果。

步骤6.2：文本检索图像。文本通过步骤2.1编码成文本向量，然后去图像向量加速检索库中检索。首先计算文本向量和第一级簇心的欧式距离，选择最近的簇心C，然后计算文本向量和第一级簇心C下第二级簇心间的距离，选择距离最近的簇心D，最后计算簇心D下若干图像向量和文本向量的距离，根据需求返回Top N个图像结果，即欧式距离最小的TopN个结果。

一种基于距离聚类的支持多模态的图文检索装置，包括以下模块：

增强模块：获取原图文，对原图文中的图像和图像的描述文本进行预处理并做数据增强，得到增强后的图文对数据；

向量化模块：提取增强模块得到的增强后的图文数据的局部特征和全局特征，得到图像的编码向量和文本的编码向量；

正负样本模块：使用计算向量距离的方式构建正负样本，得到N个正样本和N个负样本；

判断模块：搭建对比学习模型并使用构建的正负样本学习模型，判断文本向量和图像向量是否是对应的；

图文向量库：将学习到的文本向量和图像向量分别进行多级聚类，同时保留文本和图像之间的索引，得到图文向量库；

检索模块：图文检索，将输入的图文，通过向量化模块编码成向量，然后通过向量在图文向量库中检索，得到最终结果。

上述装置中，增强模块具体包括以下步骤：

步骤1.1：对图像做灰度化处理、几何变换预处理；

上述装置中，向量化模块具体包括以下步骤：

步骤2.1：采用GoogleNet中的Inception结构，即使用不同大小的卷积核分别对图像做特征提取，然后将Inception提取得到的每张特征图拉平，将这些特征图拼接在一起，作为这张图像的编码向量，为了图文向量能够互相检索，需要将长度不同的向量压缩到一个指定长度L，使用全连接将图像的向量长度变换为L；

步骤2.2：使用TextRank算法，提取出文本中的TopK个关键字，K是一个超参数，根据文本长度确定,将文本和关键字拼接在一起作为新的文本，将新的文本使用BERT进行编码，使用BI-LSTM提取深层次特征，在时间序列维度取平均值作为该文本的向量，然后使用全连接将向量长度变换为L。

上述装置中，正负样本模块具体包括以下步骤：

步骤3.1：正样本为原图文对及数据增强后得到的图文对的两两组合,共N对正样本；

构建负样本的过程中，对于文本编码向量分别使用BM25算法和向量距离计算两种方式，对于图像编码向量使用向量距离计算的方式；

文本负样本构建，首先需要通过计算筛选出Top M个描述文本,其中M是自定义值的参数，且M>＝2*N，向量距离计算使用欧式距离衡量相似程度，x，y代表需要计算相似程度的两个文本向量，其中：

x＝(x₁,…,x_i,…,x_n)^T,y＝(y₁,…,y_i…,y_n)^T

其中x_i代表x向量在第i个维度上的数值，y_i代表y向量在第i个维度上的数值,T代表列向量；

公式1为n阶欧式距离公式

BM25算法通过计算词的重要性，可以用来计算文本之间的相关性，BM25算法计算结果是一个0-1之间的数，越接近1说明两个文本越相似，越接近0说明越不相似；

根据BM25算法和向量距离计算方法分别筛选出Top M/2个文本，其中包含一部分正样本，将其中的正样本剔除后得到负样本序列，选择负样本序列中前Top N/2个文本，构成N/2对负样本；

图像负样本构建，首先使用欧式距离的方法召回Top M个图像向量，其中包含一部分正样本，将其中的正样本剔除后得到负样本序列，选择负样本序列中前Top N/2个图像向量，构成N/2对负样本；

通过上述方式可以得到N个正样本和N个负样本，保证正负样本相对平衡，模型能够学习得更加充分；

上述装置中，判断模块具体包括以下步骤：

步骤4.1：构建对比学习模型，让模型学习两个图文对是否是对应的，具体方法是将文本向量和图像向量拼接得到文本-图像向量，然后将文本-图像向量放入BERT中，进行文本向量和图像向量的信息交互，最后得到BERT的CLS位的隐藏层向量，使用SoftMax函数进行一个二分类，判断该图文是否是对应的，1代表该图文是对应的，0代表该图文不是对应的；

上述装置中，图文向量库具体包括以下步骤，图文向量加速检索库包括最终得到图像向量加速检索库和文本向量加速检索库：

步骤5.1：图像向量多级聚类，采用三级聚类方式，采用Kmeans算法

第一级聚成K个类，每个类中有若干图像向量；

第二级聚类分别对K个类中的图像向量再进行聚类，聚成K个类，每个类中有若干图像向量；

第三级聚类分别对K个类中的向量再进行聚类，聚成K个类，每个类中有若干图像向量；

每一级聚类个数根据数据量确定，每一级聚类个数可以相同也可以不同；

最终得到图像向量加速检索库以及图文编号的索引。

步骤5.2：文本向量多级聚类，采用三级聚类方式，采用KMeans算法；

第一级聚成K个类，每个类中有若干文本向量；

第二级聚类分别对K个类中的文本向量再进行聚类，聚成K个类，每个类中有若干向量；

第三级聚类分别对K个类中的文本向量再进行聚类，聚成K个类，每个类中有若干文本向量；

最终得到文本向量加速检索库以及图文编号的索引；

上述装置中，检索模块具体包括以下步骤：

步骤6.1：图像检索文本，图像通过步骤2.1编码成图像向量，然后去文本向量加速检索库中检索，首先计算图像向量和第一级簇心的文本向量的欧式距离，选择最近的簇心C，然后计算图像向量和第一级簇心C下第二级簇心的文本向量间的距离，选择距离最近的簇心D，最后计算簇心D下若干文本向量和图像向量的距离，根据需求返回Top N个文本结果，即欧式距离最小的Top N个结果；

步骤6.2：文本检索图像，文本通过步骤2.1编码成文本向量，然后去图像向量加速检索库中检索，首先计算文本向量和第一级簇心的图像向量的欧式距离，选择最近的簇心C，然后计算文本向量和第一级簇心C下第二级簇心的图像向量间的距离，选择距离最近的簇心D，最后计算簇心D下若干图像向量和文本向量的距离，根据需求返回Top N个图像结果，即欧式距离最小的Top N个结果。

因为本发明采用上述技术方案，因此具备以下有益效果：

1.本申请提出了一个新的模型和解决图文检索的流程，和现有技术相比，在检索准确性上有一定提升。现有技术一般都是首先对图文进行向量表示，然后将向量表示进行融合或交互等操作，又或者直接将图文向量表示直接压缩到同一向量空间。然而上述方法会导致模型很难将两种模态的向量学习到有用的交互或将同一样本对压缩到同一向量空间比较近的距离。本申请使用了对比学习方法，通过构建正负样本的方法以及将正样本之间距离尽可能小，负样本之间距离尽可能大的方法，得到了较好的向量表示。

2.本申请使用了数据增强和对比学习的方法，和现有技术相比，为小样本场景提供了解决方案，因此训练图文检索模型不需要大量的人工标注数据。现有技术在图文检索数据集上进行了大量标注，需要大量人工标注数据，然而人工的成本是很高的且标注效果比较依赖于人工效果，每个人标注的结果不一定准确。本申请使用了数据增强和对比学习的方法，可以在很小数据集的情况下，通过数据增强即图片的平移旋转变换等操作以及文本的增删改替换等操作进行扩充数据集，如一个图文对可以通过数据增强的方式扩充到几十个图文对。

3.本申请使用了向量多级预聚类的方法，加速图文的检索效率，和现有技术相比提升了检索效率。实际场景中有千万甚至上亿的图文对，现有技术中普通查询需要比较所有的图文向量，而普通聚类方法能减少一定计算时间，但是对于海量数据来说效率还是较低。本申请使用的向量多级预聚类的方法，即对所有向量进行聚类，然后在每个类之间再进行聚类，形成了一个多级的聚类结果，检索的时候只需要遍历每级的簇心，大大减少了计算的时间，提高了计算的开销。

具体实施方式

以下将对本发明的实施例给出详细的说明。尽管本发明将结合一些具体实施方式进行阐述和说明，但需要注意的是本发明并不仅仅只局限于这些实施方式。相反，对本发明进行的修改或者等同替换，均应涵盖在本发明的权利要求范围当中。

另外，为了更好的说明本发明，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员将理解，没有这些具体细节，本发明同样可以实施。

步骤3：使用计算向量距离的方式构建正负样本；

步骤4：搭建对比学习模型并使用构建的正负样本学习模型；

上述技术方案中，步骤1具体包括以下步骤：

步骤1.1：对图像做灰度化处理、几何变换预处理；

上述技术方案中，步骤2具体包括以下步骤：

上述步骤3具体包括以下步骤：

x＝(x₁,…,x_i,…,x_n)^T,y＝(y₁,…,y_i…,y_n)^T

公式1：n阶欧式距离公式

上述步骤4具体包括以下步骤：

上述步骤5具体包括以下步骤：

上述步骤6具体包括以下步骤：

本发明还提供了一种基于距离聚类的支持多模态的图文检索装置，包括以下模块：

上述装置中，增强模块具体包括以下步骤：

步骤1.1：对图像做灰度化处理、几何变换预处理；

上述装置中，向量化模块具体包括以下步骤：

上述装置中，正负样本模块具体包括以下步骤：

x＝(x₁,…,x_i,…,x_n)^T,y＝(y₁,…,y_i…,y_n)^T

公式1为n阶欧式距离公式

上述装置中，判断模块具体包括以下步骤：

第一级聚成K个类，每个类中有若干图像向量；

最终得到图像向量加速检索库以及图文编号的索引。

第一级聚成K个类，每个类中有若干文本向量；

最终得到文本向量加速检索库以及图文编号的索引；

上述装置中，检索模块具体包括以下步骤：

其他有助于理解本申请提案的技术资料

在现有的机器学习方法中，监督学习方法(supervised learning)占据主导地位。监督学习方法的一个基本要素是带有强监督信息(如样本所属的类别标签)的训练数据，也即标注数据。在实际应用中，往往难以获得高质量标注信息，或者人工标注代价较高，因此，如何在缺乏监督信息或者只有有限的监督信息情况下进行学习就显得尤为重要。在这一背景下，近几年，自监督学习(self-supervised learning)异军突起，引起了很多的关注。自监督学习利用数据本身的信息来形成监督信号，利用这些监督信号来指导学习数据的特征表达，已经形成了一种新的机器学习范式。

对比学习的核心思想是将正样本和负样本在特征空间对比，从而学习样本的特征表示，使得样本与正样本的特征表示尽可能接近，而与负样本的表示尽可能不同。与监督学习不同的是，这里的正样本和负样本并不是根据样本标签确定的，而是使用代理任务(pretext task)来定义的。代理任务定义了样本之间的相似性，给定一个样本，与之相似的样本就是正样本，而不相似的样本就是负样本。数据增强是代理任务的实现常见手段。

Claims

1.一种基于距离聚类的支持多模态的图文检索方法，其特征在于，包括以下步骤：

步骤1：获取原图文，对原图文中的图像和图像的描述文本进行预处理并做数据增强，得到增强后的图文对数据；

步骤2：提取步骤1得到的增强后的图文数据的局部特征和全局特征，得到图像的编码向量和文本的编码向量；

步骤3：使用计算向量距离的方式构建正负样本，得到N个正样本和N个负样本；

步骤4：搭建对比学习模型并使用构建的正负样本学习模型，判断文本向量和图像向量是否是对应的；

步骤5：将学习到的文本向量和图像向量分别进行多级聚类，同时保留文本和图像之间的索引，得到图文向量库；

步骤6：图文检索，将输入的图文，通过步骤2编码成向量，然后通过向量在步骤5得到的图文向量库中检索，得到最终结果。

2.根据权利要求1所述的一种基于距离聚类的支持多模态的图文检索方法，其特征在于，步骤1具体包括以下步骤：

步骤1.1：对图像做灰度化处理、几何变换预处理；

3.根据权利要求1所述的一种基于距离聚类的支持多模态的图文检索方法，其特征在于，上述步骤2具体包括以下步骤：

步骤2.2：使用TextRank算法，提取出文本中的TopK个关键字，K是一个超参数，根据文本长度确定，将文本和关键字拼接在一起作为新的文本，将新的文本使用BERT进行编码，使用BI-LSTM提取深层次特征，在时间序列维度取平均值作为该文本的向量，然后使用全连接将向量长度变换为L。

4.根据权利要求1所述的一种基于距离聚类的支持多模态的图文检索方法，其特征在于，步骤3具体包括以下步骤：

步骤3.1：正样本为原图文对及数据增强后得到的图文对的两两组合，共N对正样本；

文本负样本构建，首先需要通过计算筛选出Top M个描述文本，其中M是自定义值的参数，且M＞＝2*N，向量距离计算使用欧式距离衡量相似程度，x，y代表需要计算相似程度的两个文本向量，其中：

x＝(x₁，...，x_i，_...，x_n)^T，_y＝(y₁，...，y_i...，y_n)^T

其中x_i代表x向量在第i个维度上的数值，y_i代表y向量在第i个维度上的数值，T代表列向量

公式1：

其中x_i代表x向量在第i个维度上的数值，_yi代表y向量在第i个维度上的数值，T代表列向量；

公式1为n阶欧式距离公式

5.根据权利要求1所述的一种基于距离聚类的支持多模态的图文检索方法，其特征在于，上述步骤4具体包括以下步骤：

步骤4.1：构建对比学习模型，让模型学习两个图文对是否是对应的，具体方法是将文本向量和图像向量拼接得到文本-图像向量，然后将文本-图像向量放入BERT中，进行文本向量和图像向量的信息交互，最后得到BERT的CLS位的隐藏层向量，使用SoftMax函数进行一个二分类，判断该图文是否是对应的，1代表该图文是对应的，0代表该图文不是对应的。

6.根据权利要求1所述的一种基于距离聚类的支持多模态的图文检索方法，其特征在于，步骤5具体包括以下步骤，图文向量加速检索库包括最终得到图像向量加速检索库和文本向量加速检索库：

第一级聚成K个类，每个类中有若干图像向量；

最终得到图像向量加速检索库以及图文编号的索引。

第一级聚成K个类，每个类中有若干文本向量；

最终得到文本向量加速检索库以及图文编号的索引。

7.根据权利要求1所述的一种基于距离聚类的支持多模态的图文检索方法，其特征在于，步骤6具体包括以下步骤：

8.一种基于距离聚类的支持多模态的图文检索装置，其特征在于，包括以下模块：

9.根据权利要求8所述的一种基于距离聚类的支持多模态的图文检索装置，其特征在于，增强模块具体包括以下步骤：

步骤1.1：对图像做灰度化处理、几何变换预处理；

10.根据权利要求8所述的一种基于距离聚类的支持多模态的图文检索装置，其特征在于，向量化模块具体包括以下步骤：