CN114647756A

CN114647756A - 基于图像的搜索方法、装置、电子设备及存储介质

Info

Publication number: CN114647756A
Application number: CN202210235550.6A
Authority: CN
Inventors: 陈逸凡; 范学峰; 李国洪; 高菲
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-03-11
Filing date: 2022-03-11
Publication date: 2022-06-21

Abstract

本公开提供了一种基于图像的搜索方法、装置、电子设备及存储介质，涉及人工智能技术领域，尤其涉及智能推荐、搜索以及深度学习等技术领域。具体实现方案为：获取用户输入的待搜索图像；对所述待搜索图像进行主要搜索意图的识别，得到所述待搜索图像的主要搜索意图；对所述待搜索图像进行多搜索意图的识别，得到所述待搜索图像的多个搜索意图；对所述主要搜索意图和所述多个搜索意图进行融合处理，得到所述待搜索图像的多个候选搜索意图；对所述多个候选搜索意图进行调整，得到所述待搜索图像的多个目标搜索意图；分别输出各所述目标搜索意图的搜索结果，实现了用户图像的准确搜索。

Description

基于图像的搜索方法、装置、电子设备及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及智能推荐、搜索以及深度学习等技术领域，具体涉及一种基于图像的搜索方法、装置、电子设备及存储介质。

背景技术

搜索是根据一定的策略，运用特定的计算程序从互联网上采集信息，对所采集的信息进行组织、处理之后，为用户提供检索服务，并将检索到的结果信息提供给用户。在搜索的场景中，针对用户输入进行搜索意图的识别至关重要，准确的识别出用户输入的搜索意图，能够召回更好的搜索结果以满足用户的需要。

发明内容

本公开提供了一种基于图像的搜索方法、装置、电子设备及存储介质。

根据本公开的一方面，提供了一种基于图像的搜索方法，包括：

获取用户输入的待搜索图像；

对所述待搜索图像进行主要搜索意图的识别，得到所述待搜索图像的主要搜索意图；

对所述待搜索图像进行多搜索意图的识别，得到所述待搜索图像的多个搜索意图；

对所述主要搜索意图和所述多个搜索意图进行融合处理，得到所述待搜索图像的多个候选搜索意图；

对所述多个候选搜索意图进行调整，得到所述待搜索图像的多个目标搜索意图；

分别输出各所述目标搜索意图的搜索结果。

根据本公开的另一方面，提供了一种基于图像的搜索装置，包括：

图像获取模块，用于获取用户输入的待搜索图像；

第一识别模块，用于对所述待搜索图像进行主要搜索意图的识别，得到所述待搜索图像的主要搜索意图；

第二识别模块，用于对所述待搜索图像进行多搜索意图的识别，得到所述待搜索图像的多个搜索意图；

意图融合模块，用于对所述主要搜索意图和所述多个搜索意图进行融合处理，得到所述待搜索图像的多个候选搜索意图；

意图确定模块，用于对所述多个候选搜索意图进行调整，得到所述待搜索图像的多个目标搜索意图；

结果输出模块，用于分别输出各所述目标搜索意图的搜索结果。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开中任一项所述的基于图像的搜索方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本公开中任一项所述的基于图像的搜索方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开中任一项所述的基于图像的搜索方法。

本公开实施例，实现了用户图像的准确搜索。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开基于图像的搜索方法的示意图；

图2a是根据本公开基于图像的搜索结果展示的一种示意图；

图2b是根据本公开基于图像的搜索结果展示的另一种示意图；

图3是根据本公开基于图像的搜索结果展示的再一种示意图；

图4是根据本公开基于图像的搜索装置的示意图；

图5是用来实现本公开实施例的基于图像的搜索方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

视觉搜索是以图像作为搜索的输入源，返回输入图像的相关图像、文字或视频等的搜索技术。随着用户搜索需求的多样化，单一检索类型的识别和搜索已经无法满足用户的需求，比如用户搜索为一个商品的图像，该图像中商品的包装上不仅有外文，还有代言人的照片等，针对该图像的搜索，其结果可能是商品识别结果或文字识别结果或人物识别结果等。

相关技术在进行视觉搜索的过程中，针对用户输入的待搜索图像，提示用户根据自身的搜索意图对已设置的检索类型进行选择，进而利用用户所选择检索类型的检索系统对待搜索图像进行检索，输出用户所选择检索类型的检索系统对应的搜索结果。或者，针对用户输入的待搜索图像，向所有检索类型的检索系统发送检索请求进行检索，基于各检索系统返回的响应信息，按照响应信息的类型与待搜索图像之间的相似度得分以及各检索类型的优先级(预先设定的规则)确定用户的搜索意图，输出所确定的搜索意图对应的检索系统的搜索结果。

针对上述视觉搜索的前一种实现方式，需要用户选择自身的搜索意图，而实际应用中，用户可能并不清楚自己的搜索意图，需要引导用户选择检索类型并切换到需要检索的检索系统下进行具体搜索意图对应的搜索，使得视觉搜索不够便捷，存在一定的教育成本。针对上述视觉搜索的后一种实现方式，在确定用户的搜索意图时需要先将各响应信息的类型与待搜索图像之间的相似度得分以及各检索类型的优先级等规则，与各检索系统进行强绑定，在检索系统缺失该绑定关系或者检索系统升级、绑定关系变化等情况下，容易造成搜索结果不稳定，且，预先绑定的响应信息的类型与待搜索图像之间的相似度得分以及各检索类型的优先级关系等规则，与待检索图像之间无法直接关联，使得搜索结果的准确性受到影响。

为了解决上述问题，本公开实施例提供了一种基于图像的搜索方法，包括：获取用户输入的待搜索图像，对待搜索图像进行主要搜索意图的识别，得到待搜索图像的主要搜索意图；对待搜索图像进行多搜索意图的识别，得到待搜索图像的多个搜索意图；对主要搜索意图和多个搜索意图进行融合处理，得到待搜索图像的多个候选搜索意图；对多个候选搜索意图进行调整，得到待搜索图像的多个目标搜索意图；分别输出各目标搜索意图的搜索结果。本公开实施例中，分别识别待搜索图像的主要搜索意图以及多个搜索意图，并对识别的结果进行融合，得到用户的多个候选搜索意图，进一步对多个候选搜索意图进行调整，得到待搜索图像的多个目标搜索意图，实现用户搜索意图的进一步确定，分别输出各目标搜索意图的搜索结果，以满足用户的搜索需求，实现用户图像的准确搜索，避免了用户自主选择搜索意图带来的检索不便和教育成本，以及避免了预先设定规则绑定检索系统造成的搜索结果不稳定，提高了搜索结果的准确性。

下面通过具体实施例对本公开提供的基于图像的搜索方法进行详细说明。

本公开实施例提供的基于图像的搜索方法可以应用于电子设备，如终端设备、服务器设备等等。

参见图1，图1为本公开实施例提供的一种基于图像的搜索方法的流程示意图，包括以下步骤：

S101，获取用户输入的待搜索图像。

电子设备所获取的用户输入的待搜索图像可以是该电子设备本地的图像，还可以是电子设备从其他电子设备上获取的图像等。其中，电子设备本地的图像可以是用户实时拍摄的图像，还可以是用户从已有图像中选择的图像等。

S102，对待搜索图像进行主要搜索意图的识别，得到待搜索图像的主要搜索意图。

针对待搜索图像，该待搜索图像可能存在用户的多个搜索意图，在多个搜索意图中包含主要搜索意图。在清楚用户搜索意图的情况下，可以根据用户搜索意图对待搜索图像进行对应类型的检索，其中，一种搜索意图可以对应一种检索类型。一个例子中，搜索意图或检索类型可以包含通用、商品、植物、动物、题目解答、文字识别、文字提取、名人识别、表情包、素材检索等等。

在一种可能的实施方式中，可以利用预先训练的单标签多分类模型对待搜索图像进行主要搜索意图的识别，得到待搜索图像的主要搜索意图。

其中，单标签多分类模型可以是根据样本图像，以及该样本图像的单标签标注结果进行单标签多分类任务训练得到的。一个例子中，所训练的单标签多分类模型可以采用softmax函数作为激活函数，采用交叉熵Cross Entropy作为模型的损失函数，所采用的样本图像的单标签标注结果可以是人工标注的，还可以是从不同类型检索系统的检索结果(例如20万、30万或40万条等检索结果)中选取的，在单标签多分类模型训练过程中，还可以采用大规模(比如100万条、200万条或300万条等)无标签样本图像对模型进行蒸馏微调。具体的，单标签多分类模型的详细训练过程可参照现有技术的实现，本公开实施例在此不再赘述。

本公开实施例中，利用预先训练的单标签多分类模型，能够准确识别用户输入待搜索图像的主要搜索意图，以便于进一步对用户搜索意图的准确识别。

S103，对待搜索图像进行多搜索意图的识别，得到待搜索图像的多个搜索意图。

在一种可能的实施方式中，可以利用预先训练的多标签分类模型对待搜索图像进行多搜索意图的识别，得到待搜索图像的多个搜索意图。

其中，多标签分类模型可以是根据样本图像，以及该样本图像的多标签标注结果进行多标签分类任务训练得到的。一个例子中，所训练的多标签分类模型可以采用sigmoid函数作为激活函数，采用非对称损失Asymmetric Loss作为模型的损失函数，所采用的样本图像的多标签标注结果可以是人工标注的，还可以是从不同类型检索系统的检索结果(例如50万、60万或70万条等检索结果)中选取的，在多标签分类模型训练过程中，还可以采用大规模(比如200万条、300万条或400万条等)无标签样本图像对模型进行蒸馏微调。具体的，多标签分类模型的详细训练过程可参照现有技术的实现，本公开实施例在此不再赘述。

本公开实施例中，利用预先训练的多标签分类模型，能够准确识别用户输入待搜索图像的多个搜索意图，以便于进一步对用户搜索意图的准确识别。

S104，对主要搜索意图和多个搜索意图进行融合处理，得到待搜索图像的多个候选搜索意图。

在识别出用户待搜索图像的主要搜索意图以及多个搜索意图之后，多个搜索意图中可能包含主要搜索意图，进而可以对主要搜索意图和多个搜索意图进行融合处理，以去掉冗余的搜索意图，得到待搜索图像的多个候选搜索意图。

在一种可能的实施方式中，上述得到的多个搜索意图中各搜索意图对应有重要程度分数值，相应的，上述对主要搜索意图和多个搜索意图进行融合处理，得到待搜索图像的多个候选搜索意图，可以包括：

将多个搜索意图中与主要搜索意图相同的搜索意图删除；对多个搜索意图按照重要程度分数值降序排序，得到搜索意图序列；将主要搜索意图添加到搜索意图序列的头部，得到多个候选搜索意图。

利用多标签分类模型对待搜索图像进行多搜索意图的识别，得到的待搜索图像的多个搜索意图,各搜索意图对应有重要程度分数值，该重要程度分数值可以用于表征用户搜索意图的强弱程度。利用单标签多分类模型识别得到的待搜索图像的主要搜索意图，表征了用户最强烈的搜索意图。

在识别得到的主要搜索意图与多个搜索意图存在重合的情况下，将多个搜索意图中与主要搜索意图相同的搜索意图删除，以对所识别的搜索意图进行去重。识别得到的多个搜索意图中各搜索意图对应有重要程度分数值，进而可以按照重要程度分数值对去重后的多个搜索意图进行排序，一个例子中，可以按照用户搜索意图的强弱程度(重要程度分数值)对多个搜索意图降序排序，将用户搜索意图强烈的搜索意图排列在前，得到搜索意图序列。进一步，将主要搜索意图添加到降序排列得到的搜索意图序列的头部，得到多个候选搜索意图，该多个候选搜索意图为按照用户搜索意图由强到弱的顺序排列的搜索意图序列。

示例性的，识别得到的主要搜索意图为A，识别得到的多个搜索意图分别为B、A、D，将多个搜索意图中与主要搜索意图相同的搜索意图删除，即删除多个搜索意图中的A，按照重要程度分数值对去重后的多个搜索意图进行排序得到搜索意图序列B、D，进一步将主要搜索意图A添加到搜索意图序列B、D的头部，得到多个候选搜索意图，即A、B、D。

本公开实施例中，对得到的主要搜索意图和多个搜索意图进行融合处理，得到多个按照用户搜索意图由强到弱的顺序排列的候选搜索意图，以便于进一步对用户搜索意图的准确识别。

S105，对多个候选搜索意图进行调整，得到待搜索图像的多个目标搜索意图。

在得到多个候选搜索意图之后，可以对多个候选搜索意图进行调整，比如搜索意图的细化、重新排序或者删除等，将调整后的候选搜索意图确定为待搜索图像的多个目标搜索意图，还可以选择多个候选搜索意图中排列靠前的N个搜索意图，将其确定为待搜索图像的多个目标搜索意图，N为大于等于2的正整数等等。

S106，分别输出各目标搜索意图的搜索结果。

在确定待搜索图像的多个目标搜索意图之后，可以分别调用各目标搜索意图对应的检索系统对待搜索图像进行检索，以输出各目标搜索意图对应的搜索结果，其中，各搜索结果之间的排序可以和多个目标搜索意图之间的排序相对应。

在一种可能的实施方式中，还可以分别展示目标搜索意图，用户可以切换目标搜索意图，以得到各目标搜索意图对应的搜索结果。

示例性的，如图2a和图2b所示，待搜索图像为包含小狗的图像，图2a和图2b中动物、找图以及找相似分别为识别得到的目标搜索意图，且目标搜索意图动物、找图以及找相似，按照用户搜索意图由强到弱的顺序排列。其中，图2a中展示的是目标搜索意图为动物对应的检索结果，图2b中展示的是切换目标搜索意图(由图2a中的动物切换至图2b中的找图)至找图后对应的检索结果。

本公开实施例中，获取用户实时拍摄或从已有图像中选择的待搜索图像，分别识别待搜索图像的主要搜索意图以及多个搜索意图，并对识别的结果进行融合，得到用户的多个候选搜索意图，进一步对多个候选搜索意图进行调整，得到待搜索图像的多个目标搜索意图，以最短的操作路径实现了用户搜索意图的进一步确定，分别输出各目标搜索意图的搜索结果，能够实现用户图像的准确搜索，避免了用户自主选择搜索意图带来的检索不便和教育成本，以及避免了预先设定规则绑定检索系统造成的搜索结果不稳定，提高了搜索结果的准确性，且，确定待搜索图像的多个目标搜索意图，使得用户能够在多个目标搜索意图中一个搜索意图不满足需求的情况下，切换至其他搜索意图，以便于获取用户满意的搜索结果，满足用户长尾的搜索需求，并能够向用户展示稳定的结果预期，提升用户的留存率。

在一种可能的实施方式中，上述步骤S105对多个候选搜索意图进行调整，得到待搜索图像的多个目标搜索意图，可以包括：

在待搜索图像中文本区域的面积占比不大于预设面积阈值的情况下，针对多个候选搜索意图中的每一候选搜索意图，按照该候选搜索意图的第i个子搜索意图对待搜索图像进行检索，其中，i的初始值为1；在检索到该候选搜索意图的第i个子搜索意图的检索结果的情况下，将该候选搜索意图的第i个子搜索意图作为该候选搜索意图对应的目标搜索意图；在未检索到该候选搜索意图的第i个子搜索意图的检索结果的情况下，将i增加1，返回步骤：按照该候选搜索意图的第i个子搜索意图对待搜索图像进行检索，继续执行。

搜索意图对应的检索类型的种类多种多样，大部分的搜索意图通过上述识别方式能够确定，但是还存在部分搜索意图通过上述识别方式识别的不够准确，比如待搜索图像中文本区域的面积占比不大于预设面积阈值的情况，例如针对包含人像的名人识别，该搜索意图还可以区分为识别名人或是分析五官等子类型等等。

针对待搜索图像，可以采用光学字符识别(OCR，Optical CharacterRecognition)方法对待搜索图像中存在的文字进行识别，以确定待搜索图像中文本区域的面积占比是否不大于预设面积阈值，其中，本领域技术人员可根据实际需求对预设面积阈值进行设置。

本公开实施例中，在待搜索图像中文本区域的面积占比不大于预设面积阈值的情况下，可以针对多个候选搜索意图中的每一候选搜索意图，或者多个候选搜索意图中排序最靠前的候选搜索意图，在该候选搜索意图存在子搜索意图的情况下，依次按照该候选搜索意图的第i个子搜索意图对待搜索图像进行检索，i的初始值为1，比如利用该候选搜索意图的第i个子搜索意图对应的检索系统对待搜索图像进行检索。在检索到该候选搜索意图的第i个子搜索意图的检索结果的情况下，将该候选搜索意图的第i个子搜索意图作为该候选搜索意图对应的目标搜索意图；在未检索到该候选搜索意图的第i个子搜索意图的检索结果的情况下，将i增加1，返回重新检索，以实现对候选搜索意图的细化。

其中，多个候选搜索意图按照用户搜索意图由强到弱的顺序排列，所确定的待搜索图像的多个目标搜索意图也是按照用户搜索意图由强到弱的顺序排列。

示例性的，待搜索图像为包含人像的游客图像，文本区域的面积占比较小或为0，多个候选搜索意图按照用户搜索意图由强到弱的顺序排列包含名人识别，商品，地理位置识别等，其中，候选搜索意图名人识别包含识别名人，分析五官等子搜索意图，可以先按照识别名人子搜索意图对待搜索图像进行检索，在检索到检索结果的情况下，将识别名人子搜索意图作为该候选搜索意图对应的目标搜索意图，在未检索到检索结果的情况下，按照分析五官子搜索意图对待搜索图像进行检索，在检索到检索结果的情况下，将分析五官子搜索意图作为该候选搜索意图对应的目标搜索意图。

在一种可能的实施方式中，候选搜索意图的个数与目标搜索意图的个数可以相同或不同。

在一种可能的实施方式中，在按照各子搜索意图对待搜索图像进行检索均未得到检索结果的情况下，可以删除该候选搜索意图，并将剩余的候选搜索意图按照用户搜索意图由强到弱的顺序排列，得到待搜索图像的多个目标搜索意图。

在一种可能的实施方式中，还可以确定待搜索图像中是否包含目标对象，并在待搜索图像中包含目标对象的情况下，采用上述方式对多个候选搜索意图进行调整，得到待搜索图像的多个目标搜索意图。其中，目标对象例如可以是人像、人脸等等。

在一种可能的实施方式中，在确定目标搜索意图之后，若在确定目标搜索意图的过程中，针对该目标搜索意图已进行检索，则在输出各目标搜索意图对应的搜索结果时直接输出已检索到的结果即可，无需再次检索，能够减少检索系统的开支。

本公开实施例中，可以按照候选搜索意图的子搜索意图对待搜索图像进行检索，在检索到检索结果的情况下，将该子搜索意图作为待搜索图像对应候选检索意图的目标搜索意图，实现了对候选搜索意图的细化，使得得到的目标检索意图更准确，以便于所输出的各目标检索意图对应的搜索结果能够更准确的满足用户需求。

在待搜索图像中文本区域的面积占比大于预设面积阈值的情况下，将多个候选搜索意图中文字类型的候选搜索意图排列到非文字类型的候选搜索意图的前面，得到待搜索图像的多个目标搜索意图，其中，一种搜索意图对应一种检索类型。

针对待搜索图像中存在大面积文字的情况，可以采用光学字符识别方法对待搜索图像中存在的文字进行识别，并在待搜索图像中文本区域的面积占比大于预设面积阈值的情况下，将多个候选搜索意图中文字类型的候选搜索意图排列到非文字类型的候选搜索意图的前面，以实现对候选搜索意图的调整，得到待搜索图像的多个目标搜索意图。本领域技术人员可根据实际需求对预设面积阈值进行设置。

示例性的，待搜索图像为一个包含文字的商品图像，多个候选搜索意图按照用户搜索意图由强到弱的顺序排列包含商品、文字识别等，采用光学字符识别方法对待搜索图像中存在的文字进行识别，若识别到待搜索图像中文本区域的面积x％大于预设面积阈值，则将多个候选搜索意图中文字识别搜索意图的排序放在商品搜索意图的前面，得到待搜索图像的多个目标搜索意图：文字识别、商品。

如图3所示，图3中待搜索图像为一个包含文字的商品图像，文本区域的面积占比不大于预设面积阈值，多个候选搜索意图按照用户搜索意图由强到弱的顺序排列包含识商品、文字、找相关。以图3示例相反的示例进行说明，即待搜索图像为一个包含文字的商品图像，文本区域的面积占比大于预设面积阈值，多个候选搜索意图按照用户搜索意图由强到弱的顺序排列包含识商品、文字、找相关，此时，将多个候选搜索意图中文字识别搜索意图的排序放在商品搜索意图的前面，得到待搜索图像的多个目标搜索意图：文字、识商品、找相关。

本公开实施例中，可以针对待搜索图像中存在大面积文字的情况，根据待搜索图像中文本区域的面积占比，调整多个候选搜索意图中各候选搜索意图的顺序，得到待搜索图像的多个目标搜索意图，以准确识别用户的搜索意图，进而搜索到用户满意的搜索结果。

在待搜索图像只包含文字的情况下，对待搜索图像中的文字进行识别，得到文本信息；对文本信息进行分类，得到文本信息对应的文本类型；将多个候选搜索意图中与文本类型相同的搜索意图，调整到多个候选搜索意图的最前面，得到待搜索图像的多个目标搜索意图，其中，一种搜索意图对应一种检索类型。

在待搜索图像只包含文字的情况下，可以采用光学字符识别方法对待搜索图像中存在的文字进行识别，提取待搜索图像中包含的文本信息，进一步利用预先训练的文本分类模型，对所提取的文本信息进行分类，得到文本信息对应的文本类型，将多个候选搜索意图中与文本类型相同的搜索意图，调整到多个候选搜索意图的最前面，实现对多个候选搜索意图的重新排序，得到待搜索图像的多个目标搜索意图。

示例性的，待搜索图像为包含打印文字的纯文本图像(即只包含文字)，多个候选搜索意图按照用户搜索意图由强到弱的顺序排列包含文字识别、题目解答，采用光学字符识别方法对待搜索图像中存在的文字进行识别，提取待搜索图像中包含的文本信息，利用预先训练的文本分类模型，对所提取的文本信息进行分类，得到文本信息对应的文本类型为题目解答，将多个候选搜索意图中与文本类型相同的搜索意图——题目解答，调整到多个候选搜索意图的最前面，实现对多个候选搜索意图的重新排序，得到待搜索图像的多个目标搜索意图：题目解答、文字识别。

本公开实施例中，可以针对待搜索图像只包含文字的情况，对待搜索图像中的文字进行识别得到文本信息，以及对文本信息进行分类，根据文本信息对应的文本类型，调整多个候选搜索意图中各候选搜索意图的顺序，得到待搜索图像的多个目标搜索意图，以准确识别用户的搜索意图，进而搜索到用户满意的搜索结果。

本公开实施例提供了一种基于图像的搜索装置，参见图4，所述装置包括：

图像获取模块401，用于获取用户输入的待搜索图像；

第一识别模块402，用于对所述待搜索图像进行主要搜索意图的识别，得到所述待搜索图像的主要搜索意图；

第二识别模块403，用于对所述待搜索图像进行多搜索意图的识别，得到所述待搜索图像的多个搜索意图；

意图融合模块404，用于对所述主要搜索意图和所述多个搜索意图进行融合处理，得到所述待搜索图像的多个候选搜索意图；

意图确定模块405，用于对所述多个候选搜索意图进行调整，得到所述待搜索图像的多个目标搜索意图；

结果输出模块406，用于分别输出各所述目标搜索意图的搜索结果。

本公开实施例中，分别识别待搜索图像的主要搜索意图以及多个搜索意图，并对识别的结果进行融合，得到用户的多个候选搜索意图，进一步对多个候选搜索意图进行调整，得到待搜索图像的多个目标搜索意图，实现用户搜索意图的进一步确定，分别输出各目标搜索意图的搜索结果，以满足用户的搜索需求，实现用户图像的准确搜索，避免了用户自主选择搜索意图带来的检索不便和教育成本，以及避免了预先设定规则绑定检索系统造成的搜索结果不稳定，提高了搜索结果的准确性。

在一种可能的实施方式中，上述第一识别模块402，具体用于：利用预先训练的单标签多分类模型对所述待搜索图像进行主要搜索意图的识别，得到所述待搜索图像的主要搜索意图。

在一种可能的实施方式中，上述第二识别模块403，具体用于：利用预先训练的多标签分类模型对所述待搜索图像进行多搜索意图的识别，得到所述待搜索图像的多个搜索意图。

在一种可能的实施方式中，上述多个搜索意图中各所述搜索意图对应有重要程度分数值；

上述意图融合模块404，具体用于：将所述多个搜索意图中与所述主要搜索意图相同的搜索意图删除；对所述多个搜索意图按照重要程度分数值降序排序，得到搜索意图序列；将所述主要搜索意图添加到所述搜索意图序列的头部，得到多个候选搜索意图。

在一种可能的实施方式中，上述意图确定模块405，具体用于：

在所述待搜索图像中文本区域的面积占比不大于预设面积阈值的情况下，针对所述多个候选搜索意图中的每一候选搜索意图，按照该候选搜索意图的第i个子搜索意图对所述待搜索图像进行检索，其中，i的初始值为1；在检索到该候选搜索意图的第i个子搜索意图的检索结果的情况下，将该候选搜索意图的第i个子搜索意图作为该候选搜索意图对应的目标搜索意图；在未检索到该候选搜索意图的第i个子搜索意图的检索结果的情况下，将i增加1，返回执行：按照该候选搜索意图的第i个子搜索意图对所述待搜索图像进行检索。

在所述待搜索图像中文本区域的面积占比大于预设面积阈值的情况下，将所述多个候选搜索意图中文字类型的候选搜索意图排列到非文字类型的候选搜索意图的前面，得到所述待搜索图像的多个目标搜索意图，其中，一种搜索意图对应一种检索类型。

在所述待搜索图像只包含文字的情况下，对所述待搜索图像中的文字进行识别，得到文本信息；对所述文本信息进行分类，得到所述文本信息对应的文本类型；将所述多个候选搜索意图中与所述文本类型相同的搜索意图，调整到所述多个候选搜索意图的最前面，得到所述待搜索图像的多个目标搜索意图，其中，一种搜索意图对应一种检索类型。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。需要说明的是，本实施例中的人头模型并不是针对某一特定用户的人头模型，并不能反映出某一特定用户的个人信息。需要说明的是，本实施例中的二维人脸图像来自于公开数据集。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

其中，电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开中任一所述的基于图像的搜索方法。

一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本公开中任一所述的基于图像的搜索方法。

一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现本公开中任一所述的基于图像的搜索方法。

图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如基于图像的搜索方法。例如，在一些实施例中，基于图像的搜索方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的基于图像的搜索方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行基于图像的搜索方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种基于图像的搜索方法，包括：

获取用户输入的待搜索图像；

分别输出各所述目标搜索意图的搜索结果。

2.根据权利要求1所述的方法，其中，所述对所述待搜索图像进行主要搜索意图的识别，得到所述待搜索图像的主要搜索意图，包括：

利用预先训练的单标签多分类模型对所述待搜索图像进行主要搜索意图的识别，得到所述待搜索图像的主要搜索意图。

3.根据权利要求1所述的方法，其中，所述对所述待搜索图像进行多搜索意图的识别，得到所述待搜索图像的多个搜索意图，包括：

利用预先训练的多标签分类模型对所述待搜索图像进行多搜索意图的识别，得到所述待搜索图像的多个搜索意图。

4.根据权利要求3所述的方法，其中，所述多个搜索意图中各所述搜索意图对应有重要程度分数值；

所述对所述主要搜索意图和所述多个搜索意图进行融合处理，得到所述待搜索图像的多个候选搜索意图，包括：

将所述多个搜索意图中与所述主要搜索意图相同的搜索意图删除；

对所述多个搜索意图按照重要程度分数值降序排序，得到搜索意图序列；

将所述主要搜索意图添加到所述搜索意图序列的头部，得到多个候选搜索意图。

5.根据权利要求4所述的方法，其中，所述对所述多个候选搜索意图进行调整，得到所述待搜索图像的多个目标搜索意图，包括：

在所述待搜索图像中文本区域的面积占比不大于预设面积阈值的情况下，针对所述多个候选搜索意图中的每一候选搜索意图，按照该候选搜索意图的第i个子搜索意图对所述待搜索图像进行检索，其中，i的初始值为1；

在检索到该候选搜索意图的第i个子搜索意图的检索结果的情况下，将该候选搜索意图的第i个子搜索意图作为该候选搜索意图对应的目标搜索意图；

在未检索到该候选搜索意图的第i个子搜索意图的检索结果的情况下，将i增加1，返回步骤：按照该候选搜索意图的第i个子搜索意图对所述待搜索图像进行检索，继续执行。

6.根据权利要求4所述的方法，其中，所述对所述多个候选搜索意图进行调整，得到所述待搜索图像的多个目标搜索意图，包括：

7.根据权利要求4所述的方法，其中，所述对所述多个候选搜索意图进行调整，得到所述待搜索图像的多个目标搜索意图，包括

在所述待搜索图像只包含文字的情况下，对所述待搜索图像中的文字进行识别，得到文本信息；

对所述文本信息进行分类，得到所述文本信息对应的文本类型；

将所述多个候选搜索意图中与所述文本类型相同的搜索意图，调整到所述多个候选搜索意图的最前面，得到所述待搜索图像的多个目标搜索意图，其中，一种搜索意图对应一种检索类型。

8.一种基于图像的搜索装置，包括：

图像获取模块，用于获取用户输入的待搜索图像；

9.根据权利要求8所述的装置，其中，所述第一识别模块，具体用于：利用预先训练的单标签多分类模型对所述待搜索图像进行主要搜索意图的识别，得到所述待搜索图像的主要搜索意图。

10.根据权利要求8所述的装置，其中，所述第二识别模块，具体用于：利用预先训练的多标签分类模型对所述待搜索图像进行多搜索意图的识别，得到所述待搜索图像的多个搜索意图。

11.根据权利要求10所述的装置，其中，所述多个搜索意图中各所述搜索意图对应有重要程度分数值；

所述意图融合模块，具体用于：

将所述多个搜索意图中与所述主要搜索意图相同的搜索意图删除；对所述多个搜索意图按照重要程度分数值降序排序，得到搜索意图序列；将所述主要搜索意图添加到所述搜索意图序列的头部，得到多个候选搜索意图。

12.根据权利要求11所述的装置，其中，所述意图确定模块，具体用于：

在未检索到该候选搜索意图的第i个子搜索意图的检索结果的情况下，将i增加1，返回执行：按照该候选搜索意图的第i个子搜索意图对所述待搜索图像进行检索。

13.根据权利要求11所述的装置，其中，所述意图确定模块，具体用于：

14.根据权利要求11所述的装置，其中，所述意图确定模块，具体用于：

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。