CN117668272A

CN117668272A - 图片搜索方法及系统

Info

Publication number: CN117668272A
Application number: CN202311677910.9A
Authority: CN
Inventors: 白浩泉
Original assignee: Shanghai Bilibili Technology Co Ltd
Current assignee: Shanghai Bilibili Technology Co Ltd
Priority date: 2023-12-07
Filing date: 2023-12-07
Publication date: 2024-03-08

Abstract

本申请实施例提供一种图片搜索方法，所述方法包括：获取待处理的图片集，在所述客户端中确定所述图片集中每一图片的图片向量；在接收到用户输入的搜索文本的情况下，将所述搜索文本发送至服务端，接收所述服务端基于所述搜索文本返回的搜索向量；确定所述搜索向量与每一所述图片向量的相似度，根据所述相似度确定图片搜索结果。本申请实施例提供的图片搜索方法，可以减少图片搜索模型对终端资源的占用，同时避免将图片上传至服务端导致的流量消耗大的问题，提高图片搜索的整体响应速度。

Description

图片搜索方法及系统

技术领域

本申请涉及数据处理领域，特别涉及一种图片搜索方法、系统、计算机设备及存储介质。

背景技术

移动端的用户通常会将大量的图片存储在移动端，在需要使用某个图片时，用户一般是使用逐个查找的方法从大量的图片中找到想要的图片。

CLIP是一种创新性深度学习模型，可以实现文本与图像的匹配，使用户可以通过输入搜索文本来获得想要的图片。目前，CLIP的实现有两种方案：一种是将CLIP部署在终端，在终端运行模型来实现图片的搜索；一种是将CLIP部署在云端，由用户将图片上传至服务端，在服务端运行模型来确定图片的搜索结果。

然而，第一种方案由于是将整个模型部署在终端，会导致安装包体积过大，占用资源过多；第二种方案需要用户将图片上传至服务端，但将图片上传至服务端会消耗用户大量的网络流量，整体的搜索响应速度也较慢。

发明内容

本申请的目的在于提供一种图片搜索方法、系统、计算机设备及存储介质，用于解决相关技术中在终端部署图片搜索模型占用资源过多，在云端部署图片搜索模型则图片上传流量消耗大、整体搜索响应速度较慢的技术问题。

本申请实施例的一个方面提供了一种图片搜索方法，应用于客户端，所述方法包括：获取待处理的图片集，确定所述图片集中每一图片的图片向量；在接收到用户输入的搜索文本的情况下，将所述搜索文本发送至服务端，接收所述服务端基于所述搜索文本返回的搜索向量；确定所述搜索向量与每一所述图片向量的相似度，根据所述相似度确定图片搜索结果。

可选地，所述客户端部署有CLIP的图像编码器，所述确定所述图片集中每一图片的图片向量，包括：利用所述图像编码器确定所述图片集中每一图片的图片向量。

可选地，所述服务端部署有所述CLIP的文本编码器，所述服务端利用所述文本编码器对所述搜索文本进行编码得到所述搜索向量。

本申请实施例的一个方面又提供了一种图片搜索系统，包括客户端和服务端；所述客户端用于获取待处理的图片集，确定所述图片集中每一图片的图片向量；在接收到用户输入的搜索文本的情况下，将所述搜索文本发送至所述服务端，接收所述服务端基于所述搜索文本返回的搜索向量；确定所述搜索向量与每一所述图片向量的相似度，根据所述相似度确定图片搜索结果；所述服务端用于在接收到所述客户端发送的所述搜索文本的情况下，确定所述搜索文本的搜索向量，将所述搜索向量发送至所述客户端。

本申请实施例的一个方面又提供了一种图片搜索方法，应用于客户端，所述方法包括：获取待处理的图片集，确定所述图片集中每一图片的图片向量；在接收到用户输入的搜索文本的情况下，将所述搜索文本和所述图片集对应的图片向量发送至服务端，以供所述服务端确定所述搜索文本的搜索向量，并确定所述搜索向量与每一所述图片向量的相似度，及根据所述相似度确定目标图片向量；接收所述服务端返回的所述目标图片向量，根据所述目标图片向量确定图片搜索结果。

可选地，所述服务端部署有所述CLIP的文本编码器，所述服务端利用所述文本编码器确定所述搜索文本的搜索向量。

本申请实施例的一个方面又提供了一种图片搜索系统，包括客户端和服务端；所述客户端用于获取待处理的图片集，确定所述图片集中每一图片的图片向量，在接收到用户输入的搜索文本的情况下，将所述搜索文本和所述图片集对应的图片向量发送至所述服务端；接收所述服务端根据所述搜索文本和所述图片向量返回的目标图片向量，根据所述目标图片向量确定图片搜索结果；所述服务端用于在接收到所述客户端发送的所述搜索文本和所述图片向量的情况下，确定所述搜索文本的搜索向量，并确定所述搜索向量与每一所述图片向量的相似度，根据所述相似度确定所述目标图片向量，将所述目标图片向量发送至所述客户端。

本申请实施例的一个方面又提供了一种计算机设备，所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时用于实现上述的图片搜索方法的步骤。

本申请实施例的一个方面又提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以使所述至少一个处理器执行上述的图片搜索方法的步骤。

本申请实施例提供的图片搜索方法、系统、计算机设备及存储介质，包括以下优点：

通过获取待处理的图片集，在客户端中确定图片集中每一图片的图片向量，在接收到用户输入的搜索文本的情况下，将搜索文本发送至服务端，接收服务端基于搜索文本返回的搜索向量，确定搜索向量与每一图片向量的相似度，根据相似度确定图片搜索结果，可以分别通过客户端和服务端来确定图片向量和搜索向量，从而可以将图片搜索模型的图像编码器和文本编码器分开部署在终端和服务端，降低图片搜索模型对应安装包的体积，减少对终端资源的占用，并且不需要将图片上传至服务端，避免图片上传消耗用户大量的网络流量，提高了图片搜索的整体响应速度；同时，不将图片上传至服务端也可以避免用户隐私泄露的问题。

附图说明

图1示意性示出了本申请实施例的环境架构图；

图2示意性示出了本申请实施例一的图片搜索方法的流程图；

图3为图片搜索方法的原理示例图；

图4为图片搜索方法的时序流程示例图；

图5示意性示出了本申请实施例二的图片搜索系统的框图；

图6示意性示出了本申请实施例三的图片搜索方法的流程图；

图7示意性示出了本申请实施例四的图片搜索系统的框图；

图8示意性示出了本申请实施例五的计算机设备的硬件架构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本申请实施例中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

在本申请的描述中，需要理解的是，步骤前的数字标号并不标识执行步骤的前后顺序，仅用于方便描述本申请及区别每一步骤，因此不能理解为对本申请的限制。

下面为本申请涉及的术语解释：

CLIP(Contrastive Language-Image Pretraining)：是一种创新性深度学习模型，通过将图像和文本联合学习，实现了跨模态的信息匹配，具有卓越的图像理解和文本理解能力，可用于图像分类、文本描述生成、图像生成等多种任务，其独特的对比学习方法使其在计算机视觉和自然语言处理领域展现出强大的潜力和广泛的应用前景。

向量化：是将数据或信息转换为向量的过程，以便在计算机中进行处理和分析。通过向量化，可以将不同类型的数据(如文本、图像、音频)统一表示为数值型向量，方便计算机进行数学运算和统计分析。在机器学习和数据分析领域，向量化常用于将原始数据转换成特征向量，以便训练模型或进行模式识别。

图1示意性示出了本申请实施例的环境架构图，如图所示：

客户端300通过网络200与服务端100相连接。具体的云端协作可以包括以下两种情形：

1、客户端300获取待处理的图片集，对图片集中的每张图片进行编码，得到每一张图片的图片向量；在接收到客户端300的用户输入的搜索文本的情况下，将搜索文本发送至服务端300；服务端300在接收到搜索文本的情况下，对搜索文本进行编码得到搜索向量，将搜索向量返回给客户端300；客户端300在接收到搜索向量的情况下，可以计算搜索向量与每一图片向量的相似度，根据计算的相似度结果确定最相似的图片作为图片搜索结果。

2、客户端300获取待处理的图片集，对图片集中的每一张图片进行编码，得到每一张图片的图片向量；在接收到用户搜索文本的情况下，将搜索文本和编码得到的所有图片向量发送至服务端100；服务端100在接收到搜索文本和图片向量的情况下，对搜索文本进行编码得到搜索向量，计算确定搜索向量与每一图片向量的相似度，确定最相似的图片向量作为目标图片向量，将目标图片向量发送至客户端300；客户端300在接收到目标图片向量后，根据目标图片向量确定图片搜索结果。

在示例性的实施例中，服务端100可以指数据中心，例如单个房屋，或者分布在不同的地理位置(例如，在几个房屋)。服务端100可以通过一个或多个网络200提供服务。

网络200包括各种网络设备，例如路由器、交换机、多路复用器、集线器、调制解调器、网桥、中继器、防火墙、代理设备和/或类似。网络200可以包括物理链路，例如同轴电缆链路、双绞线电缆链路、光纤链路、它们的组合和/或类似物。网络200可以包括无线链路，例如蜂窝链路、卫星链路、Wi-Fi链路和/或类似物。

客户端300可以包括诸如移动设备、平板设备、膝上型计算机、智能设备(例如智能服装、智能手表、智能眼镜)、虚拟现实耳机、游戏设备、机顶盒、数字流设备、机器人、车载终端、智能电视、电视盒或电子书阅读器。

相关技术中，将图片搜索模型部署在终端会占用终端过多的资源，而在云端(即服务端)部署图片搜索模型则图片上传流量消耗大、整体搜索响应速度较慢。

本申请实施例的图片搜索方法，可以降低图片搜索模型对终端资源的占用，同时避免将图片上传至服务端导致的流量消耗大的问题，提高图片搜索的整体响应速度。

以下将通过若干个实施例介绍图片搜索方案。

实施例一

图2示意性示出了本申请实施例一的图片搜索方法的流程图，应用于客户端(如图1中的客户端300)，可以包括步骤S410～步骤S430，具体说明如下：

步骤S410，获取待处理的图片集，确定图片集中每一图片的图片向量。

其中，待处理的图片集可以为配置路径的图片集或者用户选择的图片集。

在确定图片集中每一图片的图片向量，可以是对图片集中每一张图片进行向量化计算，从而确定每一张图片的图片向量。

在示例性的实施例中，客户端部署有CLIP的图像编码器(Image Encoder)，确定图片集中每一图片的图片向量，可以包括：利用CLIP的图像编码器确定图片集中每一图片的图片向量。

在得到图片向量后，可以将图片向量保存在客户端中。后续若图片集有新的图片，则可以采用同样的方法确定新图片的图片向量，再保存在客户端中。实际应用中，可以是定期或在图片搜索的应用程序启动前确定图片集中每一图片的图片向量，将得到的图片向量保存在客户端中。在用户需要搜索时(例如在用户输入搜索文本时)，若确定图片集中存在未向量化的图片，则确定未向量化图片的图片向量，从而得到图片集中所有图片的图片向量，便于覆盖到所有需要搜索的图片。

步骤S420，在接收到用户输入的搜索文本的情况下，将搜索文本发送至服务端，接收服务端基于搜索文本返回的搜索向量。

在将搜索文本发送至服务端后，服务端可以对搜索文本进行向量化计算，得到搜索向量，再将得到的搜索向量返回给客户端。

在示例性的实施例中，服务端部署有CLIP的文本编码器(Text Encode)，服务端利用CLIP的文本编码器对搜索文本进行编码得到搜索向量。也即，将CLIP的文本编码器和图像编码器分开部署，将CLIP的文本编码器部署在服务端，将CLIP的图像编码器部署在客户端。

步骤S430，确定搜索向量与每一图片向量的相似度，根据相似度确定图片搜索结果。

在接收到服务端返回的搜索向量后，客户端可以计算搜索向量与每一图片向量的相似度，根据相似度的计算结果确定图片搜索结果。例如，若通过计算，搜索向量与图片向量A的相似度最大，则可以将图片向量A对应的图片作为图片搜索结果返回给用户。在计算搜索向量与每一图片向量的相似度时，具体采用的计算方法可以根据实际需要设置，例如是余弦相似度、欧式距离、曼哈顿距离等，此处不做具体限制。

在确定图片搜索结果时，可以是将计算得到的相似度结果进行排序，取排序的前N个图片向量，再将前N个图片向量对应的图片作为图片搜索结果返回。其中，N为正整数，可以根据实际需要进行设置。

请参考图3，其为图片搜索方法的原理示例图，如图所示：

移动端(客户端)获取待处理的图片集，通过移动端部署的图像编码器得到图片集中各个图片的图片向量，将得到的图片向量保存在移动端中；在接收到用户输入的搜索文本的情况下，将搜索文本发送至服务端，服务端通过部署的文本编码器得到搜索文本对应的搜索向量，将搜索向量返回给移动端；移动端在接收到搜索向量后，遍历图片向量计算相似度，再根据相似度的计算结果确定图片搜索结果。

请参考图4，其为图片搜索方法的时序流程示例图，如图所示，其流程大致分为图片向量化和搜索图片两个部分的时序，具体如下：

图片向量化：

1、用户启动App；

2、客户端遍历待处理的图片集中的图片，并使用在客户端部署的CLIP ImageCoder(CLIP图像编码器)模型向量化图片；

3、存储图片向量化结果。

搜索图片：

1、用户开始搜索图片；

2、上传搜索词(即搜索文本)到服务端；

3、服务端使用部署的CLIPTextCoder(CLIP文本编码器)模型向量化搜索词，得到搜索向量；

4、返回搜索向量到客户端；

5、客户端遍历存储的图片向量，并计算各个图片向量与搜索文本向量的余弦相似度；

6、找到相似度最高的图片并返回；

7、展示搜索图片结果。

本申请实施例提供的图片搜索方法，通过获取待处理的图片集，在客户端中确定图片集中每一图片的图片向量，在接收到用户输入的搜索文本的情况下，将搜索文本发送至服务端，接收服务端基于搜索文本返回的搜索向量，确定搜索向量与每一图片向量的相似度，根据相似度确定图片搜索结果，可以分别通过客户端和服务端来确定图片向量和搜索向量，从而可以将图片搜索模型的图像编码器和文本编码器分开部署在终端和服务端，降低图片搜索模型对应安装包的体积，减少对终端资源的占用，并且不需要将图片上传至服务端，避免图片上传消耗用户大量的网络流量，提高了图片搜索的整体响应速度；同时，不将图片上传至服务端也可以避免用户隐私泄露的问题。

实施例二

图5示意性示出了本申请实施例二的图片搜索系统500的框图。如图所示，图片搜索系统500可以包括客户端510和服务端520。

客户端510用于获取待处理的图片集，确定图片集中每一图片的图片向量；在接收到用户输入的搜索文本的情况下，将搜索文本发送至服务端520，接收服务端520基于搜索文本返回的搜索向量；确定搜索向量与每一图片向量的相似度，根据相似度确定图片搜索结果；

服务端520用于在接收到客户端510发送的搜索文本的情况下，确定搜索文本的搜索向量，将搜索向量发送至客户端510。

在示例性的实施例中，服务端520部署有CLIP的文本编码器，服务端520还用于利用CLIP的文本编码器对搜索文本进行编码得到搜索向量。

在示例性的实施例中，客户端510部署有CLIP的图像编码器，客户端510还用于在客户端510中利用CLIP的图像编码器确定图片集中每一图片的图片向量。

实施例三

图6示意性示出了本申请实施例三的图片搜索方法的流程图，应用于客户端，可以包括步骤S610～步骤S630，具体说明如下：

步骤S610，获取待处理的图片集，确定图片集中每一图片的图片向量。

确定图片集中每一图片的图片向量，可以是对图片集中每一张图片进行向量化计算，从而确定每一张图片的图片向量。

在示例性的实施例中，客户端部署有CLIP的图像编码器，确定图片集中每一图片的图片向量，可以包括：利用CLIP的图像编码器确定图片集中每一图片的图片向量。

在得到图片向量后，可以将图片向量保存在客户端中。后续若图片集有新的图片，则可以采用同样的方法确定新图片的图片向量，再保存在客户端中。实际应用中，可以是定期或在图片搜索的应用程序启动前确定图片集中每一图片的图片向量，保存在客户端中。在用户需要搜索时(例如在用户输入搜索文本时)，若确定图片集中存在未向量化的图片，则确定未向量化图片的图片向量，从而得到图片集中所有图片的图片向量，便于覆盖到所有需要搜索的图片。

步骤S620，在接收到用户输入的搜索文本的情况下，将搜索文本和图片集对应的图片向量发送至服务端，以供服务端确定搜索文本的搜索向量，并确定搜索向量与每一图片向量的相似度，及根据相似度确定目标图片向量。

具体地，客户端在接收到用户输入的搜索文本时，将搜索文本和前面计算得到的所有图片向量发送至服务端。服务端在接收到搜索文本和图片向量的情况下，对搜索文本进行向量化计算，得到搜索向量，再计算搜索向量与每一图片向量的相似度，最后根据相似度的计算结果确定目标图片向量。其中，在计算搜索向量与每一图片向量的相似度时，具体采用的计算方法可以根据实际需要设置，例如是余弦相似度、欧式距离、曼哈顿距离等，此处不做限制。在根据相似度的计算结果确定目标图片向量时，可以是将计算得到的相似度结果进行排序，取排序的前N个图片向量作为目标图片向量，N为正整数，可以根据实际需要进行设置。

在示例性的实施例中，服务端部署有CLIP的文本编码器，服务端利用CLIP的文本编码器确定搜索文本的搜索向量。也即，将CLIP的文本编码器和图像编码器分开部署，将CLIP的文本编码器部署在服务端，将CLIP的图像编码器部署在客户端。

步骤S630，接收服务端返回的目标图片向量，根据目标图片向量确定图片搜索结果。

客户端在接收到服务端返回的目标图片向量时，根据目标图片向量确定对应的图片作为图片搜索结果，再将图片搜索结果返回给用户。

本申请实施例提供的图片搜索方法，通过获取待处理的图片集，在客户端中确定图片集中每一图片的图片向量，在接收到用户输入的搜索文本的情况下，将搜索文本和图片集对应的图片向量发送至服务端，以供服务端确定搜索文本的搜索向量，并确定搜索向量与每一图片向量的相似度，及根据相似度确定目标图片向量；接收服务端返回的目标图片向量，根据目标图片向量确定图片搜索结果，可以分别通过客户端和服务端来确定图片向量和搜索向量，从而可以将图片搜索模型的图像编码器和文本编码器分开部署在终端和服务端，降低图片搜索模型对应安装包的体积，减少对终端资源的占用；并且将图片向量上传至服务端，相比直接上传图片可以大大减少对用户网络流量的消耗，提高了图片搜索的整体响应速度；同时，由于图片向量不会被还原为图片，因此也可以避免用户隐私泄露的问题。

实施例四

图7示意性示出了本申请实施例四的图片搜索系统700的框图，如图所示，图片搜索系统700可以包括客户端710和服务端720。

所述客户端710用于获取待处理的图片集，确定所述图片集中每一图片的图片向量，在接收到用户输入的搜索文本的情况下，将所述搜索文本和所述图片集对应的图片向量发送至所述服务端720；接收所述服务端720根据所述搜索文本和所述图片向量返回的目标图片向量，根据所述目标图片向量确定图片搜索结果；

所述服务端720用于在接收到所述客户端710发送的所述搜索文本和所述图片向量的情况下，确定所述搜索文本的搜索向量，并确定所述搜索向量与每一所述图片向量的相似度，根据所述相似度确定所述目标图片向量，将所述目标图片向量发送至所述客户端710。

在示例性的实施例中，服务端720部署有CLIP的文本编码器，服务端720还用于利用CLIP的文本编码器确定搜索文本的搜索向量。

在示例性的实施例中，客户端710部署有CLIP的图像编码器，客户端710还用于在客户端710中利用CLIP的图像编码器确定图片集中每一图片的图片向量。

实施例五

图8示意性示出了根据本申请实施例五的适于图片搜索方法的计算机设备800的硬件架构图。计算机设备800可以是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或数据处理的设备。例如，可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)、网关等。如图8所示，计算机设备800至少包括但不限于：可通过系统总线相互通信链接存储器810、处理器820、网络接口830。其中：

存储器810至少包括一种类型的计算机可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器810可以是计算机设备800的内部存储模块，例如该计算机设备800的硬盘或内存。在另一些实施例中，存储器810也可以是计算机设备800的外部存储设备，例如该计算机设备800上配备的插接式硬盘，智能存储卡(Smart Media Card，简称为SMC)，安全数字(Secure Digital，简称为SD)卡，闪存卡(Flash Card)等。当然，存储器810还可以既包括计算机设备800的内部存储模块也包括其外部存储设备。本实施例中，存储器810通常用于存储安装于计算机设备800的操作系统和各类应用软件，例如图片搜索方法的程序代码等。此外，存储器810还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器820在一些实施例中可以是中央处理器(Central Processing Unit，简称为CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器820通常用于控制计算机设备800的总体操作，例如执行与计算机设备800进行数据交互或者通信相关的控制和处理等。本实施例中，处理器820用于运行存储器810中存储的程序代码或者处理数据。

网络接口830可包括无线网络接口或有线网络接口，该网络接口830通常用于在计算机设备800与其他计算机设备之间建立通信链接。例如，网络接口830用于通过网络将计算机设备800与外部终端相连，在计算机设备800与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通信系统(Global System of Mobile communication，简称为GSM)、宽带码分多址(Wideband CodeDivision Multiple Access，简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图8仅示出了具有部件810-830的计算机设备，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器810中的图片搜索方法还可以被分割为一个或者多个程序模块，并由一个或多个处理器(本实施例为处理器820)所执行，以完成本申请实施例。

实施例六

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质其上存储有计算机程序，计算机程序被处理器执行时实现实施例中的图片搜索方法的步骤。

本实施例中，计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，计算机可读存储介质可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，计算机可读存储介质也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，简称为SMC)，安全数字(Secure Digital，简称为SD)卡，闪存卡(Flash Card)等。当然，计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，计算机可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件，例如实施例中图片搜索方法的程序代码等。此外，计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。

显然，本领域的技术人员应该明白，上述的本申请实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请实施例不限制于任何特定的硬件和软件结合。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种图片搜索方法，其特征在于，应用于客户端，所述方法包括：

获取待处理的图片集，确定所述图片集中每一图片的图片向量；

在接收到用户输入的搜索文本的情况下，将所述搜索文本发送至服务端，接收所述服务端基于所述搜索文本返回的搜索向量；

确定所述搜索向量与每一所述图片向量的相似度，根据所述相似度确定图片搜索结果。

2.根据权利要求1所述的图片搜索方法，其特征在于，所述客户端部署有CLIP的图像编码器，所述确定所述图片集中每一图片的图片向量，包括：

利用所述图像编码器确定所述图片集中每一图片的图片向量。

3.根据权利要求2所述的图片搜索方法，其特征在于，所述服务端部署有所述CLIP的文本编码器，所述服务端利用所述文本编码器对所述搜索文本进行编码得到所述搜索向量。

4.一种图片搜索系统，其特征在于，包括客户端和服务端；

所述客户端用于获取待处理的图片集，确定所述图片集中每一图片的图片向量；在接收到用户输入的搜索文本的情况下，将所述搜索文本发送至所述服务端，接收所述服务端基于所述搜索文本返回的搜索向量；确定所述搜索向量与每一所述图片向量的相似度，根据所述相似度确定图片搜索结果；

所述服务端用于在接收到所述客户端发送的所述搜索文本的情况下，确定所述搜索文本的搜索向量，将所述搜索向量发送至所述客户端。

5.一种图片搜索方法，其特征在于，应用于客户端，所述方法包括：

在接收到用户输入的搜索文本的情况下，将所述搜索文本和所述图片集对应的图片向量发送至服务端，以供所述服务端确定所述搜索文本的搜索向量，并确定所述搜索向量与每一所述图片向量的相似度，及根据所述相似度确定目标图片向量；

接收所述服务端返回的所述目标图片向量，根据所述目标图片向量确定图片搜索结果。

6.根据权利要求5所述的图片搜索方法，其特征在于，所述客户端部署有CLIP的图像编码器，所述确定所述图片集中每一图片的图片向量，包括：

7.根据权利要求6所述的图片搜索方法，其特征在于，所述服务端部署有所述CLIP的文本编码器，所述服务端利用所述文本编码器确定所述搜索文本的搜索向量。

8.一种图片搜索系统，其特征在于，包括客户端和服务端；

所述客户端用于获取待处理的图片集，确定所述图片集中每一图片的图片向量，在接收到用户输入的搜索文本的情况下，将所述搜索文本和所述图片集对应的图片向量发送至所述服务端；接收所述服务端根据所述搜索文本和所述图片向量返回的目标图片向量，根据所述目标图片向量确定图片搜索结果；

所述服务端用于在接收到所述客户端发送的所述搜索文本和所述图片向量的情况下，确定所述搜索文本的搜索向量，并确定所述搜索向量与每一所述图片向量的相似度，根据所述相似度确定所述目标图片向量，将所述目标图片向量发送至所述客户端。

9.一种计算机设备，所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时用于实现权利要求1-3或5-7中任一项所述的图片搜索方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以使所述至少一个处理器执行权利要求1-3或5-7中任一项所述的图片搜索方法的步骤。