CN117708354B

CN117708354B - 图像的索引方法、装置、电子设备及存储介质

Info

Publication number: CN117708354B
Application number: CN202410169147.7A
Authority: CN
Inventors: 张彪; 朱彦; 姚广; 陈凌驰; 杨杰; 贺周洲
Original assignee: Hunan MgtvCom Interactive Entertainment Media Co Ltd
Current assignee: Hunan MgtvCom Interactive Entertainment Media Co Ltd
Priority date: 2024-02-06
Filing date: 2024-02-06
Publication date: 2024-04-30
Anticipated expiration: 2044-02-06
Also published as: CN117708354A

Abstract

本申请提供了一种图像的索引方法、装置、电子设备及存储介质。其中，在图像的索引方法中，首先获取检索输入数据；其中，检索输入数据包括文本和/或图像。然后生成所述检索输入数据的特征向量；其中，所述特征向量包括图文语义特征向量和第一图像指纹特征向量。接着基于图文语义特征向量，在预先构建的图像数据库中进行搜索，得到结果数据集。最后基于图像指纹特征向量对结果数据集进行相似性去重，得到最终的结果数据集，由此可知，利用本申请的方法，通过图文语义特征向量和图像指纹特征向量相结合的方式，准确地对图像进行检索，并对检索结果进行去重，避免检索结果出现图像纹理同质化的问题。

Description

图像的索引方法、装置、电子设备及存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种图像的索引方法、装置、电子设备及存储介质。

背景技术

随着互联网的发展和智能设备的普及，图像和视频索引系统已经成为社交媒体、电子商务、在线广告等领域的重要组成部分。因此，能够准确的匹配出用户所要检索的图像，是提示用户满意的一大核心。

在现有技术中，在进行图像检索时，通常是基于图像的视觉特征进行匹配和推荐。这些方法虽然在一定程度上能够满足用户的需求，但是也存在一些问题。例如，仅仅基于图像的视觉特征，容易出现检索结果中的图像存在图像纹理同质化的问题，如图1所示，检索结果中的第(1)行和第(2)行的图像属于同一场景画面，出现了图像纹理同质化的问题。

发明内容

有鉴于此，本申请提供了一种图像的索引方法、装置、电子设备及存储介质，以解决现有技术中在进行图像检索时，容易出现检索结果中的图像存在图像纹理同质化的问题。

为实现上述目的，本申请提供如下技术方案：

本申请第一方面公开了一种图像的索引方法，包括：

获取检索输入数据；其中，所述检索输入数据包括文本和/或图像；

生成所述检索输入数据的特征向量；其中，所述特征向量包括图文语义特征向量，或者，所述特征向量包括图文语义特征向量和第一图像指纹特征向量；

基于所述图文语义特征向量，在预先构建的图像数据库中进行搜索，得到结果数据集；其中，所述结果数据集包括与所述图文语义特征向量的语义相似度评分满足预设条件的图像数据，所述图像数据包括图像标识、语义相似度评分及第二图像指纹特征向量，所述第二图像指纹特征向量为图像标识对应的图像指纹特征向量；

基于所述第二图像指纹特征向量对所述结果数据集进行相似性去重，得到最终的结果数据集。

可选的，上述的方法，所述生成所述检索输入数据的特征向量，包括：

若所述检索输入数据为文本，则基于所述文本，生成所述检索输入数据的图文语义特征向量；

若所述检索输入数据为图像，基于所述图像，生成所述检索输入数据的图文语义特征向量和第一图像指纹特征向量；

若所述检索输入数据为文本和图像，则基于所述文本，生成所述检索输入数据的第一语义特征向量；基于所述图像，生成所述检索输入数据的第二语义特征向量和第一图像指纹特征向量。

可选的，上述的方法，所述基于所述第二图像指纹特征向量对所述结果数据集进行相似性去重，得到最终的结果数据集，包括：

确定是否生成了所述第一图像指纹特征向量；

若确定出没有生成所述第一图像指纹特征向量，则将所述结果数据集中的各个第二图像指纹特征向量组成第一特征组；分别计算所述第一特征组中每两个图像指纹特征向量之间的余弦相似度；并根据所述余弦相似度对所述结果数据集中的各个第二图像指纹特征向量进行去重，得到最终的结果数据集；

若确定出有生成所述第一图像指纹特征向量，则将所述第一图像指纹特征向量和所述结果数据集中的各个第二图像指纹特征向量组成第二特征组；分别计算所述第二特征组中每两个图像指纹特征向量之间的余弦相似度；并根据所述余弦相似度对所述结果数据集中的各个第二图像指纹特征向量进行去重，得到最终的结果数据集。

可选的，上述的方法，所述基于所述第二图像指纹特征向量对所述结果数据集进行相似性去重，得到最终的结果数据集之后，还包括：

基于所述最终的结果数据集和预先获取的目标数据，为用户进行图像推荐；其中，所述目标数据包括用户行为数据、热门数据和内容偏好数据。

本申请第二方面公开了一种图像的索引装置，包括：

获取单元，用于获取检索输入数据；其中，所述检索输入数据包括文本和/或图像；

生成单元，用于用于生成所述检索输入数据的特征向量；其中，若所述检索输入数据为文本，则所述特征向量为图文语义特征向量；若所述检索输入数据为图像，则所述特征向量为图文语义特征向量和第一图像指纹特征向量；若所述检索输入数据为文本和图像，则所述特征向量为图文语义特征向量和第一图像指纹特征向量，且所述图文语义特征向量包括基于所述文本生成的第一语义特征向量和基于所述图像生成的第二语义特征向量；

搜索单元，用于基于所述图文语义特征向量，在预先构建的图像数据库中进行搜索，得到结果数据集；其中，所述结果数据集包括与所述图文语义特征向量的语义相似度评分满足预设条件的图像数据，所述图像数据包括图像标识、语义相似度评分及第二图像指纹特征向量，所述第二图像指纹特征向量为图像标识对应的图像指纹特征向量；

去重单元，用于基于所述第二图像指纹特征向量对所述结果数据集进行相似性去重，得到最终的结果数据集。

可选的，上述的装置，所述生成单元，包括：

第一生成子单元，用于若所述检索输入数据为文本，则基于所述文本，生成所述检索输入数据的图文语义特征向量；

第二生成子单元，用于若所述检索输入数据为图像，基于所述图像，生成所述检索输入数据的图文语义特征向量和第一图像指纹特征向量；

第三生成子单元，用于若所述检索输入数据为文本和图像，则基于所述文本，生成所述检索输入数据的第一语义特征向量；基于所述图像，生成所述检索输入数据的第二语义特征向量和第一图像指纹特征向量。

可选的，上述的装置，所述去重单元，包括：

确定子单元，用于确定是否生成了所述第一图像指纹特征向量；

第一去重子单元，用于若确定出没有生成所述第一图像指纹特征向量，则将所述结果数据集中的各个第二图像指纹特征向量组成第一特征组；分别计算所述第一特征组中每两个图像指纹特征向量之间的余弦相似度；并根据所述余弦相似度对所述结果数据集中的各个第二图像指纹特征向量进行去重，得到最终的结果数据集；

第二去重子单元，用于若确定出有生成所述第一图像指纹特征向量，则将所述第一图像指纹特征向量和所述结果数据集中的各个第二图像指纹特征向量组成第二特征组；分别计算所述第二特征组中每两个图像指纹特征向量之间的余弦相似度；并根据所述余弦相似度对所述结果数据集中的各个第二图像指纹特征向量进行去重，得到最终的结果数据集。

可选的，上述的装置，还包括：

推荐单元，用于基于所述最终的结果数据集和预先获取的目标数据，为用户进行图像推荐；其中，所述目标数据包括用户行为数据、热门数据和内容偏好数据。

本申请第三方面公开了一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如本申请第一方面中任意一项所述的方法。

本申请第四方面公开了一种计算机存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如本申请第一方面中任意一项所述的方法。

从上述技术方案可以看出，本申请提供的一种图像的索引方法中，首先获取检索输入数据；其中，检索输入数据包括文本和/或图像。然后生成检索输入数据的特征向量；其中，特征向量包括图文语义特征向量，或者，特征向量包括图文语义特征向量和第一图像指纹特征向量。接着基于图文语义特征向量，在预先构建的图像数据库中进行搜索，得到结果数据集；其中，结果数据集包括与图文语义特征向量的语义相似度评分满足预设条件的图像数据，图像数据包括图像标识、语义相似度评分及第二图像指纹特征向量，第二图像指纹特征向量为图像标识对应的图像指纹特征向量。最后基于第二图像指纹特征向量对结果数据集进行相似性去重，得到最终的结果数据集，由此可知，利用本申请的方法，通过图文语义特征向量和图像指纹特征向量相结合的方式，准确地对图像进行检索，并对检索结果进行去重，避免检索结果出现图像纹理同质化的问题。解决了现有技术中在进行图像检索时，容易出现检索结果中的图像存在图像纹理同质化的问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为现有技术公开的图像检索的示意图；

图2为本申请实施例公开的一种图像的索引方法的流程图；

图3为本申请另一实施例公开的图像检索过程的示意图；

图4为本申请另一实施例公开的步骤S204的一种实施方式的流程图；

图5为本申请另一实施例公开的一种数据召回过程的示意图；

图6为本申请另一实施例公开的一种图像的索引装置的示意图；

图7为本申请另一实施例公开的一种电子设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

并且，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

由背景技术可知，在现有技术中，在进行图像检索时，通常是基于图像的视觉特征进行匹配和推荐。这些方法虽然在一定程度上能够满足用户的需求，但是也存在一些问题。例如，仅仅基于图像的视觉特征，容易出现检索结果中的图像存在图像纹理同质化的问题，

鉴于此，本申请提供了一种图像的索引方法、装置、电子设备及存储介质，以解决现有技术中在进行图像检索时，容易出现检索结果中的图像存在图像纹理同质化的问题。

本申请第一方面提供了一种图像的索引方法，如图2所示，具体包括：

S201、获取检索输入数据；其中，检索输入数据包括文本和/或图像。

需要说明的是，在用户进行图像搜索时，则获取检索输入数据，其中，检索输入数据包括文本和/或图像。

S202、生成检索输入数据的特征向量；其中，特征向量包括图文语义特征向量，或者，特征向量包括图文语义特征向量和第一图像指纹特征向量。

需要说明的是，通过预设的特征向量模型，对检索输入数据进行特征提取，生成检索输入数据的特征向量，其中，特征向量包括图文语义特征向量，或者，特征向量包括图文语义特征向量和第一图像指纹特征向量。图文语义特征向量可以采用CLIP、BLIP、BLIP2等模型进行提取，此处不做限制，本实施例以CLIP模型为例。图像指纹特征向量可以采用ResNet、VGGNet、InceptionNet、EfficientNet等模型进行提取，此处不做限制，本实施例以EfficientNet模型为例。

可选的，在本申请的另一实施例中，步骤S202的一种实施方式，可以包括：

若检索输入数据为文本，则基于文本，生成检索输入数据的图文语义特征向量，这种情况下，特征向量包括图文语义特征向量。

若检索输入数据为图像，基于图像，生成检索输入数据的图文语义特征向量和图像指纹特征向量，这种情况下，特征向量包括图文语义特征向量和第一图像指纹特征向量。

若检索输入数据为文本和图像，则基于文本，生成检索输入数据的第一语义特征向量；基于图像，生成检索输入数据的第二语义特征向量和图像指纹特征向量。这种情况下，特征向量包括图文语义特征向量和第一图像指纹特征向量，且图文语义特征向量包括第一语义特征向量和第二语义特征向量。

需要说明的是，如果检索输入数据为文本，将文本输入到CLIP模型中进行处理，生成检索输入数据的图文语义特征向量。如果检索输入数据为图像，将图像输入到CLIP模型中进行处理，生成检索输入数据的图文语义特征向量，以及将图像输入到EfficientNet模型中进行处理，生成检索输入数据的第一图像指纹特征向量，用来表征图像中的局部纹理特征或全局纹理特征。如果检索输入数据为文本和图像，则将文本输入到CLIP模型中进行处理，生成检索输入数据的第一语义特征向量；CLIP模型能够有效地挖掘图像和文本之间的深层次语义关联，无需人工介入进行特征选择和提取。将图像输入到CLIP模型中进行处理，生成检索输入数据的第二语义特征向量，其中，第一语义特征向量和第二语义特征向量都属于图文语义特征向量。以及将图像输入到EfficientNet模型中进行处理，生成检索输入数据的第一图像指纹特征向量。

S203、基于图文语义特征向量，在预先构建的图像数据库中进行搜索，得到结果数据集；其中，结果数据集包括与图文语义特征向量的语义相似度评分满足预设条件的图像数据，图像数据包括图像标识、语义相似度评分及第二图像指纹特征向量，第二图像指纹特征向量为图像标识对应的图像指纹特征向量。

需要说明的是，生成检索输入数据的特征向量之后，则将检索输入数据的图文语义特征向量，在预先构建的图像数据库中进行搜索，得到结果数据集。如果检索输入数据是文本，则将文本生成的图文语义特征向量在预先构建的图像数据库中进行搜索；如果检索输入数据是图像，则将图像生成的图文语义特征向量在预先构建的图像数据库中进行搜索；如果检索输入数据是文本和图像组合，则将文本生成的图文语义特征向量（即第一语义特征向量）和图像生成的图文语义特征向量（即第二语义特征向量）都在预先构建的图像数据库中进行搜索。

其中，结果数据集包括与图文语义特征向量的语义相似度评分满足预设条件的图像所对应的图像数据，例如，语义相似度评分从大到小排序前top k的图像数据，k可根据实际需求进行设定，例如k=10。图像数据包括图像标识、语义相似度评分及图像标识对应的图像指纹特征向量。

还需要说明的是，图像数据库用于存储图像及图像对应的相关数据，将获取到的大量图像的图像标识、图文语义特征向量和图像指纹特征向量都存放到图像数据库中，其中图文语义特征向量作为图像的向量库搜索索引，图文语义特征向量作为图像搜索结果集的纹理同质化的去重索引。

其中，在生成获取到的图像的图文语义特征向量时，针对图像及其相关文本信息（标题、描述、标签等），利用CLIP模型生成高维向量（768或1024维，视选择模型及参数而定），并将文本生成的向量与图像生成的向量进行相似性度量（向量距离计算），过滤掉相似度较小的文本生成的向量（噪声数据），因为图像的描述等文本容易出现误差，易造成噪声干扰数据，生成该图像的图文语义特征向量。

在生成获取到的图像的图像指纹特征向量时，使用EfficientNet模型对获取到的图像进行处理，本实施例对模型训练时的预处理及训练步骤部分进行了一些改进：图像预处理部分除了常规的图像旋转、镜像翻转、色彩/灰度处理、添加噪声、归一化等措施之外，另需要对图像进行包含局部纹理特征区域的剪裁，增强针对局部及全局纹理特征的匹配。面对大规模的训练图片数据，进行局部纹理特征区域裁剪显然不太现实，本实施例提供一种分阶段地随机裁剪和训练方式。第一阶段随机位置、尺寸裁剪，控制随机裁剪的比列ratio≥0.3（随机位置图像裁剪比例控制在≥原图尺寸的0.3），随机裁剪会给模型的收敛训练带来一些困难，不同数据集的控制比列ratio可以做适当调整；第二阶段裁剪数据进行半自动化清洗：当收敛速度逐渐放缓或者loss值不再下降并出现波动时，裁剪比例ratio为[0.3,0.5,0.7]，裁剪位置分别为图像宽高比例的[0,0.15,0.3,0.45,0.6]，利用第二阶段训练的预训练模型进行数据清洗，过滤掉不属于该图像纹理特征的裁剪数据继续训练。

S204、基于第二图像指纹特征向量对结果数据集进行相似性去重，得到最终的结果数据集。

需要说明的是，在匹配到结果数据集之后，则基于第二图像指纹特征向量对结果数据集进行相似性去重，过滤掉一些图像指纹特征向量相似度较高的图像，避免出现图像纹理同质化的问题，从而得到最终的结果数据集。其整体的搜索过程的示意图可参见图3。

可选的，在本申请的另一实施例中，步骤S204的一种实施方式，如图4所示，可以包括：

S401、确定是否生成了第一图像指纹特征向量。

需要说明的是，首先确定是否生成了第一图像指纹特征向量。如果检索输入数据只是文本，则不会生成第一图像指纹特征向量。如果检索输入数据是图像，则生成第一图像指纹特征向量。如果检索输入数据是文本和图像，也会生成第一图像指纹特征向量。

S402、若确定出没有生成第一图像指纹特征向量，则将结果数据集中的各个第二图像指纹特征向量组成第一特征组；分别计算第一特征组中每两个图像指纹特征向量之间的余弦相似度；并根据余弦相似度对结果数据集中的各个第二图像指纹特征向量进行去重，得到最终的结果数据集。

需要说明的是，如果确定出没有生成第一图像指纹特征向量，则将结果数据集中的各个第二图像指纹特征向量组成第一特征组，将第一特征组统称作A，分别计算第一特征组中每个图像指纹特征向量与其余每个图像指纹特征向量之间的余弦相似度，即两两一对进行计算，可用n行n列的矩阵S表示，其中：

S=A^T·A

其中，A^T为A的转置矩阵，并设定矩阵的对角线上的元素diag(A)=0。然后搜索S中的元素大于指纹特征余弦相似度阈值的图像指纹特征向量，并对搜索到大于指纹特征余弦相似度阈值的每一对图像指纹特征向量进行过滤，只保留大于指纹特征余弦相似度阈值的一对图像指纹特征向量中的一个图像指纹特征向量，例如，本实施例是在一对图像指纹特征向量中，保留语义相似度评分较高的那一个图像指纹特征向量，从而得到最终的结果数据集。

S403、若确定出有生成第一图像指纹特征向量，则将第一图像指纹特征向量和结果数据集中的各个第二图像指纹特征向量组成第二特征组；分别计算第二特征组中每两个图像指纹特征向量之间的余弦相似度；并根据余弦相似度对结果数据集中的各个第二图像指纹特征向量进行去重，得到最终的结果数据集。

需要说明的是，如果确定出有生成第一图像指纹特征向量，则将检索输入数据的第一图像指纹特征向量和结果数据集中的各个第二图像指纹特征向量组成第二特征组，然后利用步骤S402中的方法，对结果数据集中的各个第二图像指纹特征向量进行去重，此处不再赘述。在去重完成之后，如果检索输入数据的第一图像指纹特征向量还在去重后的结果数据集中，则需要把检索输入数据的第一图像指纹特征向量从去重后的结果数据集中删除，得到最终的结果数据集。

本申请提供的一种图像的索引方法中，首先获取检索输入数据；其中，检索输入数据包括文本和/或图像。然后生成检索输入数据的特征向量；其中，特征向量包括图文语义特征向量，或者，特征向量包括图文语义特征向量和第一图像指纹特征向量。接着基于图文语义特征向量，在预先构建的图像数据库中进行搜索，得到结果数据集；其中，结果数据集包括与图文语义特征向量的语义相似度评分满足预设条件的图像数据，图像数据包括图像标识、语义相似度评分及第二图像指纹特征向量，第二图像指纹特征向量为图像标识对应的图像指纹特征向量。最后基于第二图像指纹特征向量对结果数据集进行相似性去重，得到最终的结果数据集，由此可知，利用本申请的方法，通过图文语义特征向量和图像指纹特征向量相结合的方式，准确地对图像进行检索，并对检索结果进行去重，避免检索结果出现图像纹理同质化的问题。解决了现有技术中在进行图像检索时，容易出现检索结果中的图像存在图像纹理同质化的问题。

可选的，在本申请的另一实施例中，执行步骤S204之后，还可以包括：

基于最终的结果数据集和预先获取的目标数据，为用户进行图像推荐；其中，目标数据包括用户行为数据、热门数据和内容偏好数据。

需要说明的是，基于第二图像指纹特征向量对结果数据集进行相似性去重，得到最终的结果数据集之后，将最终的结果集作为图像推荐系统的一路数据召回，然后结合预先获取的目标数据，包括用户行为数据、热门数据和内容偏好数据，为用户进行图像推荐，如图5所示。具体的，根据用户最近的N个交互行为，每个行为赋予一定的时间衰减权重如，λ表示衰减率，t表示时间行为距离当前时刻的间隔，同时，每个行为根据步骤402或者步骤403中的余弦相似度，计算被召回物品对应图像(视频推荐则可采用对应的封面)召回的得分/>，其中，CosSimScore为步骤402或者步骤403中计算得到的余弦相似度。最终将同一个物品多个行为的得分Wi相加作为物品对应图像得分权重，进行排序后取topM作为召回的物品集。

本申请另一实施例还提供了一种图像的索引装置，如图6所示，具体包括：

获取单元601，用于获取检索输入数据；其中，检索输入数据包括文本和/或图像。

生成单元602，用于用于生成检索输入数据的特征向量；其中，若检索输入数据为文本，则特征向量为图文语义特征向量；若检索输入数据为图像，则特征向量为图文语义特征向量和第一图像指纹特征向量；若检索输入数据为文本和图像，则特征向量为图文语义特征向量和第一图像指纹特征向量，且图文语义特征向量包括基于文本生成的第一语义特征向量和基于图像生成的第二语义特征向量。

搜索单元603，用于基于图文语义特征向量，在预先构建的图像数据库中进行搜索，得到结果数据集；其中，结果数据集包括与图文语义特征向量的语义相似度评分满足预设条件的图像数据，图像数据包括图像标识、语义相似度评分及第二图像指纹特征向量，第二图像指纹特征向量为图像标识对应的图像指纹特征向量。

去重单元604，用于基于第二图像指纹特征向量对结果数据集进行相似性去重，得到最终的结果数据集。

本实施例中，获取单元601、生成单元602、搜索单元603、去重单元604的具体执行过程，可参见对应图1的方法实施例内容，此处不再赘述。

本申请提供的一种图像的索引装置中，首先获取单元601获取检索输入数据；其中，检索输入数据包括文本和/或图像。然后生成单元602生成检索输入数据的特征向量；其中，特征向量包括图文语义特征向量，或者，特征向量包括图文语义特征向量和第一图像指纹特征向量。接着搜索单元603基于图文语义特征向量，在预先构建的图像数据库中进行搜索，得到结果数据集；其中，结果数据集包括与图文语义特征向量的语义相似度评分满足预设条件的图像数据，图像数据包括图像标识、语义相似度评分及第二图像指纹特征向量，第二图像指纹特征向量为图像标识对应的图像指纹特征向量。最后去重单元604基于第二图像指纹特征向量对结果数据集进行相似性去重，得到最终的结果数据集，由此可知，利用本申请的方法，通过图文语义特征向量和图像指纹特征向量相结合的方式，准确地对图像进行检索，并对检索结果进行去重，避免检索结果出现图像纹理同质化的问题。解决了现有技术中在进行图像检索时，容易出现检索结果中的图像存在图像纹理同质化的问题。

可选的，在本申请的另一实施例中，生成单元602的一种实施方式，可以包括：

第一生成单元，用于若检索输入数据为文本，则基于文本，生成检索输入数据的图文语义特征向量。

第二生成单元，用于基于图像，生成检索输入数据的图文语义特征向量和第一图像指纹特征向量；

第三生成单元，用于若检索输入数据为文本和图像，则基于文本，生成检索输入数据的第一语义特征向量；基于图像，生成检索输入数据的第二语义特征向量和第一图像指纹特征向量。

本实施例中，第一生成单元、第二生成单元、第三生成单元的具体执行过程，可参见上述对应的方法实施例内容，此处不再赘述。

可选的，在本申请的另一实施例中，去重单元604的一种实施方式，可以包括：

确定子单元，用于确定是否生成了第一图像指纹特征向量。

第一去重子单元，用于若确定出没有生成第一图像指纹特征向量，则将结果数据集中的各个第二图像指纹特征向量组成第一特征组；分别计算第一特征组中每两个图像指纹特征向量之间的余弦相似度；并根据余弦相似度对结果数据集中的各个第二图像指纹特征向量进行去重，得到最终的结果数据集。

第二去重子单元，用于若确定出有生成第一图像指纹特征向量，则将第一图像指纹特征向量和结果数据集中的各个第二图像指纹特征向量组成第二特征组；分别计算第二特征组中每两个图像指纹特征向量之间的余弦相似度；并根据余弦相似度对结果数据集中的各个第二图像指纹特征向量进行去重，得到最终的结果数据集。

本实施例中，确定子单元、第一去重子单元和第二去重子单元的具体执行过程，可参见上述图4对应的方法实施例内容，此处不再赘述。

可选的，在本申请的另一实施例中，上述图像的索引装置，还可以包括：

推荐单元，用于基于最终的结果数据集和预先获取的目标数据，为用户进行图像推荐；其中，目标数据包括用户行为数据、热门数据和内容偏好数据。

本实施例中，推荐单元的具体执行过程，可参见上述对应的方法实施例内容，此处不再赘述。

本申请另一实施例还提供了一种电子设备，如图7所示，具体包括：

一个或多个处理器701。

存储装置702，其上存储有一个或多个程序。

当一个或多个程序被一个或多个处理器701执行时，使得一个或多个处理器701实现如上述实施例中任意一项方法。

本申请另一实施例还提供了计算机存储介质，其上存储有计算机程序，其中，计算机程序被处理器执行时实现如上述实施例中任意一项方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种图像的索引方法，其特征在于，包括：

生成所述检索输入数据的特征向量；其中，若所述检索输入数据为文本，则所述特征向量为图文语义特征向量；若所述检索输入数据为图像，则所述特征向量为图文语义特征向量和第一图像指纹特征向量；若所述检索输入数据为文本和图像，则所述特征向量为图文语义特征向量和第一图像指纹特征向量，且所述图文语义特征向量包括基于所述文本生成的第一语义特征向量和基于所述图像生成的第二语义特征向量；所述图文语义特征向量为根据CLIP模型生成的；所述第一图像指纹特征向量为根据EfficientNet模型生成的，且所述第一图像指纹特征向量用于表征图像中的局部纹理特征或全局纹理特征；

基于所述第二图像指纹特征向量对所述结果数据集进行相似性去重，得到最终的结果数据集，包括：确定是否生成了所述第一图像指纹特征向量；若确定出没有生成所述第一图像指纹特征向量，则将所述结果数据集中的各个第二图像指纹特征向量组成第一特征组；分别计算所述第一特征组中每两个图像指纹特征向量之间的余弦相似度；并根据所述余弦相似度对所述结果数据集中的各个第二图像指纹特征向量进行去重，得到最终的结果数据集；若确定出有生成所述第一图像指纹特征向量，则将所述第一图像指纹特征向量和所述结果数据集中的各个第二图像指纹特征向量组成第二特征组；分别计算所述第二特征组中每两个图像指纹特征向量之间的余弦相似度；并根据所述余弦相似度对所述结果数据集中的各个第二图像指纹特征向量进行去重，得到最终的结果数据集。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第二图像指纹特征向量对所述结果数据集进行相似性去重，得到最终的结果数据集之后，还包括：

3.一种图像的索引装置，其特征在于，包括：

生成单元，用于生成所述检索输入数据的特征向量；其中，若所述检索输入数据为文本，则所述特征向量为图文语义特征向量；若所述检索输入数据为图像，则所述特征向量为图文语义特征向量和第一图像指纹特征向量；若所述检索输入数据为文本和图像，则所述特征向量为图文语义特征向量和第一图像指纹特征向量，且所述图文语义特征向量包括基于所述文本生成的第一语义特征向量和基于所述图像生成的第二语义特征向量；所述图文语义特征向量为根据CLIP模型生成的；所述第一图像指纹特征向量为根据EfficientNet模型生成的，且所述第一图像指纹特征向量用于表征图像中的局部纹理特征或全局纹理特征；

去重单元，用于基于所述第二图像指纹特征向量对所述结果数据集进行相似性去重，得到最终的结果数据集；

所述去重单元，包括：确定子单元、第一去重子单元和第二去重子单元；

所述确定子单元，用于确定是否生成了所述第一图像指纹特征向量；

所述第一去重子单元，用于若确定出没有生成所述第一图像指纹特征向量，则将所述结果数据集中的各个第二图像指纹特征向量组成第一特征组；分别计算所述第一特征组中每两个图像指纹特征向量之间的余弦相似度；并根据所述余弦相似度对所述结果数据集中的各个第二图像指纹特征向量进行去重，得到最终的结果数据集；

所述第二去重子单元，用于若确定出有生成所述第一图像指纹特征向量，则将所述第一图像指纹特征向量和所述结果数据集中的各个第二图像指纹特征向量组成第二特征组；分别计算所述第二特征组中每两个图像指纹特征向量之间的余弦相似度；并根据所述余弦相似度对所述结果数据集中的各个第二图像指纹特征向量进行去重，得到最终的结果数据集。

4.根据权利要求3所述的装置，其特征在于，还包括：

5.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至2中任意一项所述的方法。

6.一种计算机存储介质，其特征在于，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至2中任意一项所述的方法。