CN113127663A

CN113127663A - 目标图像搜索方法、装置、设备及计算机可读存储介质

Info

Publication number: CN113127663A
Application number: CN202110359346.0A
Authority: CN
Inventors: 徐高峰; 林大镰
Original assignee: Shenzhen ZNV Technology Co Ltd; Nanjing ZNV Software Co Ltd
Current assignee: Shenzhen ZNV Technology Co Ltd; Nanjing ZNV Software Co Ltd
Priority date: 2021-04-01
Filing date: 2021-04-01
Publication date: 2021-07-16
Anticipated expiration: 2041-04-01
Also published as: CN113127663B

Abstract

本发明公开了一种目标图像搜索方法、装置、设备及存储介质，本发明通过仅以文本类型的包含多个维度图像特征的目标文本描述信息作为搜索依据，对预置文本信息中每个维度满足相关性条件的表达方式进行抽取，再将各个维度满足相关性条件的表达方式组成一个多维特征表达，以利用该多维特征表达搜索目标图像。既克服了具体数字化特征条件的局限，而且由于利用了多个维度的文本描述特征共同确定搜索目标，多维度文本描述特征能够从不同的角度描述图像，从而提高多维度中单维度的匹配精度，保证了搜索效果，因此能够实现在没有确定的数字化表述特征的条件下，仅利用非数字化的目标文本描述信息基于多个维度进行有效的图像搜索。

Description

目标图像搜索方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及图像搜索技术领域，尤其涉及目标图像搜索方法、装置、设备及计算机可读存储介质。

背景技术

随着社会经济的高速发展，技术在不断进步，加快了智慧城市、智慧社区建设。视频采集、图像采集作为一个重要的手段快速应用，在日常应用中所采集的数据量也越来越大。传统搜索图像目标的方法主要采用“以图搜图”，“协同搜图”等方法。这些方法实施时都必须满足一个前提，即利用已知确定的信息进行搜索。如“以图搜图”需要知道含有搜索内容的图片，提取图片特征值，利用图片特征值在图数据库中搜索；“协同搜图”需要利用手机号码等物理特征关联图像，通过手机号码的时间、空间上的特性来协助缩小图像搜索范围，提高效率。这些现有的技术都需要有一些基于特征的数字化表述，在一些特定领域，假如没有特征的数字化表述，这些传统的方法就无法有效进行图像、视频的搜索检测。

发明内容

本发明的主要目的在于提出一种目标图像搜索方法、装置、设备及计算机可读存储介质，旨在解决如何在没有确定的数字化表述特征的条件下进行有效的图像搜索的技术问题。

为实现上述目的，本发明提供一种目标图像搜索方法，所述目标图像搜索方法包括：

获取待搜索的目标图像对应的目标文本描述信息以及待搜索图像集合，其中，所述目标文本描述信息用于描述所述图像目标的多个维度的图像特征；

从多维度的预置文本信息中抽取出满足所述目标文本描述信息中各维度图像特征的相关性条件的文本特征表达，以得到多维特征表达组合；

基于所述多维特征表达组合，从所述待搜索图像集合中筛选出符合所述多个维度的图像特征的图像作为所述目标图像的搜索结果。

可选地，所述从多维度的预置文本信息中抽取出满足所述目标文本描述信息中各维度图像特征的相关性条件的文本特征表达，以得到多维特征表达组合的步骤包括：

利用预训练的文本图像分类模型，针对每一维度的图像特征对所述待搜索图像集合进行相关性判决，得到每一维度对应的相关性判决结果；

从每一维度对应的相关性判决结果中抽取出与所述目标文本描述信息中对应维度的图像特征相关性最大的文本特征表达，以组成所述多维特征表达组合。

可选地，所述利用预训练的文本图像分类模型，针对每一维度的图像特征对所述待搜索图像集合进行相关性判决，得到每一维度对应的相关性判决结果的步骤包括：

根据所述目标文本描述信息调用所述预置文本信息中各维度的单维文本特征组，其中，每一所述单维文本特征组中包含多个互斥独立的文本特征表达；

将每一所述单维文本特征组与所述待搜索图像集合输入一所述文本图像分类模型，其中，所述文本图像分类模型的个数与所述图像特征的维度数目一致；

基于多个所述文本图像分类模型，按照并行方式将每一所述单维文本特征组与所述待搜索图像集合进行相关性判决，得到每一维度所对应的相关性判决结果。

可选地，所述文本图像分类模型包括文本图像对比预训练CLIP模型，

所述基于多个所述文本图像分类模型，按照并行方式将每一所述单维文本特征组与所述待搜索图像集合进行相关性判决，得到每一维度所对应的相关性判决结果的步骤包括：

按照并行方式，基于每一所述CLIP模型对所述待搜索图像集合与每一维度的单维文本特征组分别进行编码；

根据每一所述CLIP模型中的编码匹配算法，确定所述待搜索图像集合与每一所述单维文本特征组中各所述文本特征表达的相关性；

输出每一维度对应的图像文本对以作为所述相关性判决结果，其中，所述图像文本对为相关性最大的文本特征表达和所述待搜索图像集合中待搜索图像的组合。

可选地，所述从每一维度对应的相关性判决结果中抽取出与所述目标文本描述信息中对应维度的图像特征相关性最大的文本特征表达，以组成所述多维特征表达组合的步骤包括：

根据所述目标文本描述信息中每一维度的图像特征的描述信息，并行对每一维度对应的图像文本对中的文本特征表达进行文本判决，得到文本判决结果；

联合每一维度的文本判决结果，从各所述图像文本对中筛选出与各所述图像特征的描述信息相匹配的文本特征表达，以组成所述多维特征表达组合。

可选地，所述基于所述多维特征表达组合，从所述待搜索图像集合中筛选出符合所述多个维度的图像特征的图像作为所述目标图像的搜索结果的步骤包括：

依据所述多维特征表达组合，从所述多维特征表达组合相关的图像文本对中，筛选出与所述目标图像的每一维度的图像特征相匹配的图像，以作为所述目标图像的搜索结果。

可选地，所述获取待搜索的目标图像对应的目标文本描述信息以及待搜索图像集合的步骤包括：

在接收到图像目标搜索指令时，基于所述图像目标搜索指令获取初始文本描述信息与视频信息；

将所述视频信息作为所述待搜索图像集合，并对所述初始文本描述信息进行格式处理得到所述目标文本描述信息。

此外，为实现上述目的，本发明还提供一种目标图像搜索装置，所述目标图像搜索装置包括：

图文信息获取模型，用于获取待搜索的目标图像对应的目标文本描述信息以及待搜索图像集合，其中，所述目标文本描述信息用于描述所述图像目标的多个维度的图像特征；

相关文本抽取模块，用于从多维度的预置文本信息中抽取出满足所述目标文本描述信息中各维度图像特征的相关性条件的文本特征表达，以得到多维特征表达组合；

目标图像搜索模块，用于基于所述多维特征表达组合，从所述待搜索图像集合中筛选出符合所述多个维度的图像特征的图像作为所述目标图像的搜索结果。

可选地，所述相关文本抽取模块包括：

单维相关判决单元，用于利用预训练的文本图像分类模型，针对每一维度的图像特征对所述待搜索图像集合进行相关性判决，得到每一维度对应的相关性判决结果；

多维特征组合单元，用于从每一维度对应的相关性判决结果中抽取出与所述目标文本描述信息中对应维度的图像特征相关性最大的文本特征表达，以组成所述多维特征表达组合。

可选地，所述单维相关判决单元还用于：

所述单维相关判决单元还用于：

可选地，所述多维特征组合单元还用于：

可选地，所述目标图像搜索模块包括：

目标图像筛选单元，用于依据所述多维特征表达组合，从所述多维特征表达组合相关的图像文本对中，筛选出与所述目标图像的每一维度的图像特征相匹配的图像，以作为所述目标图像的搜索结果。

可选地，所述图文信息获取模块包括：

初始信息获取单元，用于在接收到图像目标搜索指令时，基于所述图像目标搜索指令获取初始文本描述信息与视频信息；

图文信息获取单元，用于将所述视频信息作为所述待搜索图像集合，并对所述初始文本描述信息进行格式处理得到所述目标文本描述信息。

此外，为实现上述目的，本发明还提供一种目标图像搜索设备，所述目标图像搜索设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的目标图像搜索程序，所述目标图像搜索程序被所述处理器执行时实现如上所述的目标图像搜索方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有目标图像搜索程序，所述目标图像搜索程序被处理器执行时实现如上所述的目标图像搜索方法的步骤。

本发明提供一种目标图像搜索方法、装置、设备及计算机可读存储介质。本发明通过仅以文本类型的包含多个维度图像特征的目标文本描述信息作为搜索依据，对预置文本信息中每个维度满足相关性条件的表达方式进行抽取，再将各个维度满足相关性条件的表达方式组成一个多维特征表达，以利用该多维特征表达搜索目标图像。既克服了具体数字化特征条件的局限，而且由于利用了多个维度的文本描述特征共同确定搜索目标，多维度文本描述特征能够从不同的角度描述图像，从而提高多维度中单维度的匹配精度，保证了搜索效果，因此能够实现在没有确定的数字化表述特征的条件下，仅利用非数字化的目标文本描述信息基于多个维度进行有效的图像搜索，从而解决了如何在没有确定的数字化表述特征的条件下进行有效的图像搜索的技术问题。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图；

图2为本发明目标图像搜索方法第一实施例的流程示意图；

图3为本发明目标图像搜索方法第二实施例中多维度文本描述特征确定目标图像示意图；

图4为本发明目标图像搜索方法第二实施例中利用CLIP模型实现图像文本特征匹配示意图；

图5为本发明目标图像搜索装置的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

如图1所示，该目标图像搜索装置可以包括：处理器1001，例如CPU，用户接口1003，网络接口1004，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及目标图像搜索程序。

在图1所示的设备中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(程序员端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的目标图像搜索程序，并执行下述目标图像搜索方法中的操作：

进一步地，所述从多维度的预置文本信息中抽取出满足所述目标文本描述信息中各维度图像特征的相关性条件的文本特征表达，以得到多维特征表达组合的步骤包括：

进一步地，所述利用预训练的文本图像分类模型，针对每一维度的图像特征对所述待搜索图像集合进行相关性判决，得到每一维度对应的相关性判决结果的步骤包括：

进一步地，所述文本图像分类模型包括文本图像对比预训练CLIP模型，

进一步地，所述从每一维度对应的相关性判决结果中抽取出与所述目标文本描述信息中对应维度的图像特征相关性最大的文本特征表达，以组成所述多维特征表达组合的步骤包括：

进一步地，所述基于所述多维特征表达组合，从所述待搜索图像集合中筛选出符合所述多个维度的图像特征的图像作为所述目标图像的搜索结果的步骤包括：

进一步地，所述获取待搜索的目标图像对应的目标文本描述信息以及待搜索图像集合的步骤包括：

基于上述硬件结构，提出本发明目标图像搜索方法实施例。

为解决上述问题，本发明提供一种目标图像搜索方法，即通过仅以文本类型的包含多个维度图像特征的目标文本描述信息作为搜索依据，对预置文本信息中每个维度满足相关性条件的表达方式进行抽取，再将各个维度满足相关性条件的表达方式组成一个多维特征表达，以利用该多维特征表达搜索目标图像。既克服了具体数字化特征条件的局限，而且由于利用了多个维度的文本描述特征共同确定搜索目标，多维度文本描述特征能够从不同的角度描述图像，从而提高多维度中单维度的匹配精度，保证了搜索效果，因此能够实现在没有确定的数字化表述特征的条件下，仅利用非数字化的目标文本描述信息基于多个维度进行有效的图像搜索，从而解决了如何在没有确定的数字化表述特征的条件下进行有效的图像搜索的技术问题。

参照图2，图2为本发明目标图像搜索方法第一实施例的流程示意图。所述目标图像搜索方法包括；

步骤S10，获取待搜索的目标图像对应的目标文本描述信息以及待搜索图像集合，其中，所述目标文本描述信息用于描述所述图像目标的多个维度的图像特征；

在本实施例中，如何有效的进行图像、视频的搜索是智慧城市、智慧社区迫切需要解决的问题。如老龄化社会的逐步到来，一些老人出门没有带通讯工具情况下，一旦失去联系，采用传统的搜图方式进行搜图手段，在没有特定的已知图像，快速查找到目标，就变得十分困难。只能通过人工的方式进行检索，效率不高且浪费资源。再比如现代社会中，野外活动逐渐成为了主流，由于野外各种基础设施差，不能有效的进行图像传输，或者携带的图像拍摄工具无法有效的进行全局图像的采集。即在沟通方式只有语音的情况下，如何有效的给后方搜救人员提供信息，让后方搜救人员的通过各种环境描述信息利用无人机等搜救手段快速搜救。

本方法应用于终端设备。图像目标指的是当前的图像目标搜索任务中预期搜索出的图像。例如，在智慧社区场景中，图像目标就可能是走失老人的图像；在野外搜救场景中，图像目标可能是被搜救者所在环境图像。

目标文本描述信息指的是用于描述图像目标在多个维度上的特征的文本信息，例如对于走失老人的图像，目标文本描述信息可为(戴红色帽子，穿风衣，穿白色运动鞋，戴眼镜)这包含四个维度信息的文本描述内容；例如对于被搜救者所在环境图像，目标文本描述信息可为(存在低矮建筑，存在河流，树木茂密)这包含三个维度信息的文本描述内容。

待搜索图像集合指的是本次图像搜索任务的搜索范围，终端在此集合中搜索图像目标。集合中通常包含多个图像。需要说明的是，集合中可包含图片和/或视频。对于待搜索图像集合的获取方式，在智慧社区场景中，可通过监控画面获取；对于野外搜救场景，可通过无人机实时拍摄获取等。

图像特征指的是图像目标在各维度上的特征。例如在智慧社区场景中，图像特征可包括人体头部中的是否佩戴帽子、眼镜、发型等样式以及颜色特征、身体衣着样式以及颜色特征、脚部的鞋子样式以及颜色特征等；在野外搜救场景中，图像特征可包括周围环境的植物长势、建筑特点、地形地貌等。维度可根据实际需求进行划分、例如可划分为样式维度、颜色维度等，也可按照身体部位、物体种类进行划分，在此不一一列举。

终端在进行图像目标搜索任务时，首先需要明确图像目标的目标文本描述信息，然后获取到对应的待搜索图像集合，以从待搜索图像集合中依据目标文本描述信息搜索出图像目标。

步骤S20，从多维度的预置文本信息中抽取出满足所述目标文本描述信息中各维度图像特征的相关性条件的文本特征表达，以得到多维特征表达组合；

步骤S30，基于所述多维特征表达组合，从所述待搜索图像集合中筛选出符合所述多个维度的图像特征的图像作为所述目标图像的搜索结果。

在本实施例中，抽取方式可基于预训练的文本图像分类模型进行，模型可通过对比同时输入的图像信息以及文本描述信息确定两者之间的相关性，以确定两者之间的关系。例如，在该模型中，输入图像中的人员戴帽子与一段描述戴帽子的文本能够大概率匹配。

预置文本信息指的是终端上预置的对应各个维度的多种描述信息。例如，对于智慧社区场景，可预置如是否戴帽子、上衣款式及颜色、下装款式及颜色、鞋子款式及颜色、是否戴眼镜、身高特征、体型特征等。

文本特征表达指的是目标文本描述信息中具体的描述信息，例如穿红色上衣、带黑框眼镜等具体描述，每一条描述即为一个单独的文本特征表达。

多维特征表达组合指的是多个维度上的文本特征表达组合后的结果。

目标图像指的是待搜索图像集合中满足多维特征表达中各条文本特征表达的图像。

终端利用文本图像分类模型(模型个数不做限制)，对从多维的预置文本信息中对每个维度中相关性最大的表达方式进行抽取，然后将满足各个维度相关性条件(例如相关性最大、相关性超出预设阈值等)的表达方式组成一个多维特征表达组合，并在多维特征表达组合与目标文本描述信息所表述的特征一致时，将多维特征表达组合对应的图像作为图像目标的搜索结果。

本发明提供一种目标图像搜索方法。所述目标图像搜索方法通过获取待搜索的目标图像对应的目标文本描述信息以及待搜索图像集合，其中，所述目标文本描述信息用于描述所述图像目标的多个维度的图像特征；从多维度的预置文本信息中抽取出满足所述目标文本描述信息中各维度图像特征的相关性条件的文本特征表达，以得到多维特征表达组合；基于所述多维特征表达组合，从所述待搜索图像集合中筛选出符合所述多个维度的图像特征的图像作为所述目标图像的搜索结果。本发明通过仅以文本类型的包含多个维度图像特征的目标文本描述信息作为搜索依据，对预置文本信息中每个维度满足相关性条件的表达方式进行抽取，再将各个维度满足相关性条件的表达方式组成一个多维特征表达，以利用该多维特征表达搜索目标图像。既克服了具体数字化特征条件的局限，而且由于利用了多个维度的文本描述特征共同确定搜索目标，多维度文本描述特征能够从不同的角度描述图像，从而提高多维度中单维度的匹配精度，保证了搜索效果，因此能够实现在没有确定的数字化表述特征的条件下，仅利用非数字化的目标文本描述信息基于多个维度进行有效的图像搜索，从而解决了如何在没有确定的数字化表述特征的条件下进行有效的图像搜索的技术问题。

进一步地，基于上述图2所示的第一实施例，提出本发明目标图像搜索方法的第二实施例。在本实施例中，步骤S20包括：

在本实施例中，终端根据目标文本描述信息中所涵盖的维度获取预置文本信息中对应维度的文本特征表达，例如，若目标文本描述信息为(戴红色帽子、穿风衣，穿白色运动鞋、戴眼镜)，则终端可调用(戴红色帽子、戴白色帽子，不戴帽子等)，(穿棉衣、穿风衣、穿夹克等)，(穿白色裤子、穿蓝色裤子、穿黑色棉裤、穿运动裤)，(穿白色运动鞋、穿黑色皮鞋、穿拖鞋等)，(戴白色无框眼镜、戴老花镜等)作为五组单维文本特征组，与待搜索图像集合一同输入预训练的文本图像分类模型中。然后模型能够针对每一维度的图像特征进行图像与文本的相关性判决，得到每一维度所对应发相关性判决结果，再通过与目标文本描述信息的比较中抽取出每一维度的判决结果中相关性最大的文本特征表达，汇集成多维特征表达组合。

在本实施例中，如图3所示，以CLIP模型为例，每一维度的文本特征组对应一个CLIP模型。终端将不同维度的单维特征组与待搜索图像集合分别输入不同的CLIP模型中，例如将(戴红色帽子、戴白色帽子，不戴帽子等)这一单维文本特征组与待搜索图像集合输入一CLIP模型，将(穿棉衣、穿风衣、穿夹克等)与待搜索图像集合输入另一CLIP模型等，模型个数与维度数目对应。然后各模型中并行对输入的图像与文本进行相关性判决，得到每一维度所对应的图像文本对作为相关性判决结果。

需要说明的是，在每组单维文本特征中，所包含的文本特征表达在逻辑关系上是互斥的。例如，在(戴红色帽子、戴白色帽子，不戴帽子等)这组单维文本特征中，“戴红色帽子”、“戴白色帽子与“不戴帽子”的这三种描述互斥，而不存在同时成立的情况。

进一步地，所述文本图像分类模型包括文本图像对比预训练CLIP模型，所述基于多个所述文本图像分类模型，按照并行方式将每一所述单维文本特征组与所述待搜索图像集合进行相关性判决，得到每一维度所对应的相关性判决结果的步骤包括：

在本实施例中，CLIP(Contrastive Language–Image Pre-training)模型，是一个文本-图像对比的预训练模型，可以快速部署到实际环境中，节省训练所需要的资源。该模型通过对比同时输入的图像信息以及文本描述信息确定两者之间的相关性确定两者之间的关系。CLIP是一个预训练完成的模型，使用时不需要进行训练样本进行重新训练参数。只需要对模型输入满足模型要求的图像与文本描述信息即可实现相关性判决，且便于移植，避免通常视觉模型场景受限的问题。

如图4所示，模型中含有文本组编码，图像编码分别对单维文本特征组中的各个文本描述信息(即图中的文本描述特征1至n)、以及待检测图像特征进行编码，对文本编码得到T1、T2等，直到Tn，对图像编码得到Gx，然后通过模型中编码匹配算法，确分别判别T1与Gx、T2与Gx等，直到Tn与Gx的相关性，相关性越大说明该文本描述的图像越准确，最后输出相关性最大的图像文本对。

在本实施例中，如图3所示，在得到维度1至维度n所对应的图像文本对之后，再结合目标文本描述信息中同样在维度1至n上的文本描述，并行进行文本判决，以从每一维度所对应图像文本对中筛选出匹配的文本特征表达，在汇总为多维特征表达组合。

作为一具体实施例，在智慧社区场景中，以智慧社区中寻找走失老人为例，在智慧社区中查找与走失老人相关的图像时，此处的前提是老人没有携带手机，也没有走失当天的照片。在本发明可以先通过预置描述的特征，如是否带帽子、上衣穿什么衣服、穿什么裤子、什么鞋、是否戴眼镜、身高等。以这些特征组成多维文本描述特征组。即{(戴红色帽子、带白色帽子、不戴帽子等)，(穿棉衣、穿风衣、穿夹克等)，(穿白色裤子、穿蓝色裤子、穿黑色棉裤、穿运动裤)，(白色运动鞋、黑色皮鞋、拖鞋)，(白色无框眼镜、老花镜等)}，分别采用不同的维度信息作为文本描述输入与实际视频、图像作为图像输入到CLIP中进行判决，提取出多个维度相关性最大组合，选择组合符合预置文本信息如：{带红色帽子，穿风衣，白色运动鞋，戴眼镜}走失人员特征图像作为目标图像的推荐图像，完成目标图像的搜索过程。

作为另一具体实施例，在野外搜救时，采用无人机上图像判决可以提高搜索效率，在没有获取到被搜救人员回传的实时图片时，可以通过被搜救人员对周围环境的文本描述，如周围有什么样子的建筑物、是否有河流、树木是否茂密等形成的多维文本描述特征，对比无人机实时获取的图片或者视频，提取满足多维文本描述特征的视频、图片区域作为重点搜索区域。达到快速搜索目标的目的。

本实施例进一步通过利用多个维度的文本描述特征共同确定搜索目标，保证了搜索效果；通过采用CLIP模型，由于CLIP模型属于预训练模型，可以快速部署到实际环境中，节省训练所需要的资源，同时也便于移植，避免通常视觉模型场景受限的问题；多维预置特征数据量少，不需要大量的数据信息作为支撑；文本描述特征概括性强，描述方式比较灵活，从而降低了对特征描述的难度；多维度文本描述特征从不同的角度描述图片，提高多维度中单维度的匹配精度。

进一步地，基于上述图2所示的第一实施例，提出本发明目标图像搜索方法的第三实施例。在本实施例中，步骤S30包括：

在本实施例中，如图3所示，终端在目标文本描述信息中维度1至维度n的文本描述的基础上结合对应维度的图像文本对中的文本信息进行文本判决后，基于每一维度的文本判别结果进行多维度联合判决，以从图像文本对所包含的图像中筛选出完全符合多维特征表达组合的全部特征的图像作为最终的搜索结果。

进一步地，步骤S10包括：

在本实施例中，在用户向终端发起图像目标搜索指令时，终端可根据该指令获取到用于描述待搜索的图像目标特征的文本信息(也即是上述初始文本描述信息)，然后终端将该信息按照预设格式进行规范化，例如从一整段描述信息中提取出各个不同维度的特征描述，作为目标文本描述信息。另外，待搜索图像集合可以为视频信息，也可对视频帧图像进行搜索。

如图5所示，本发明还提供一种目标图像搜索装置，所述目标图像搜索装置包括：

图文信息获取模型10，用于获取待搜索的目标图像对应的目标文本描述信息以及待搜索图像集合，其中，所述目标文本描述信息用于描述所述图像目标的多个维度的图像特征；

相关文本抽取模块20，用于从多维度的预置文本信息中抽取出满足所述目标文本描述信息中各维度图像特征的相关性条件的文本特征表达，以得到多维特征表达组合；

目标图像搜索模块30，用于基于所述多维特征表达组合，从所述待搜索图像集合中筛选出符合所述多个维度的图像特征的图像作为所述目标图像的搜索结果。

上述各程序模块所执行的方法可参照本发明目标图像搜索方法各个实施例，此处不再赘述。

本发明还提供一种目标图像搜索设备。

所述目标图像搜索设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的目标图像搜索程序，其中所述目标图像搜索程序被所述处理器执行时，实现如上所述的目标图像搜索方法的步骤。

其中，所述目标图像搜索程序被执行时所实现的方法可参照本发明目标图像搜索方法的各个实施例，此处不再赘述。

本发明还提供一种计算机可读存储介质。

本发明计算机可读存储介质上存储有目标图像搜索程序，所述目标图像搜索程序被处理器执行时实现如上所述的目标图像搜索方法的步骤。

其中，所述目标图像搜索程序被执行时所实现的方法可参照本发明目标图像搜索方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种目标图像搜索方法，其特征在于，所述目标图像搜索方法包括：

2.如权利要求1所述的目标图像搜索方法，其特征在于，所述从多维度的预置文本信息中抽取出满足所述目标文本描述信息中各维度图像特征的相关性条件的文本特征表达，以得到多维特征表达组合的步骤包括：

3.如权利要求2所述的目标图像搜索方法，其特征在于，所述利用预训练的文本图像分类模型，针对每一维度的图像特征对所述待搜索图像集合进行相关性判决，得到每一维度对应的相关性判决结果的步骤包括：

4.如权利要求3所述的目标图像搜索方法，其特征在于，所述文本图像分类模型包括文本图像对比预训练CLIP模型，

5.如权利要求2所述的目标图像搜索方法，其特征在于，所述从每一维度对应的相关性判决结果中抽取出与所述目标文本描述信息中对应维度的图像特征相关性最大的文本特征表达，以组成所述多维特征表达组合的步骤包括：

6.如权利要求1所述的目标图像搜索方法，其特征在于，所述基于所述多维特征表达组合，从所述待搜索图像集合中筛选出符合所述多个维度的图像特征的图像作为所述目标图像的搜索结果的步骤包括：

7.如权利要求1-6中任一项所述的目标图像搜索方法，其特征在于，所述获取待搜索的目标图像对应的目标文本描述信息以及待搜索图像集合的步骤包括：

8.一种目标图像搜索装置，其特征在于，所述目标图像搜索装置包括：

9.一种目标图像搜索设备，其特征在于，所述目标图像搜索设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的目标图像搜索程序，所述目标图像搜索程序被所述处理器执行时实现如权利要求1至7中任一项所述的目标图像搜索方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有目标图像搜索程序，所述目标图像搜索程序被处理器执行时实现如权利要求1至7中任一项所述的目标图像搜索方法的步骤。