CN115858941A

CN115858941A - 搜索方法、装置、电子设备以及存储介质

Info

Publication number: CN115858941A
Application number: CN202310141144.8A
Authority: CN
Inventors: 程洲; 吴海君; 高菲
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-02-16
Filing date: 2023-02-16
Publication date: 2023-03-28
Anticipated expiration: 2043-02-16
Also published as: CN115858941B; CN116628327A

Abstract

本申请公开了一种搜索方法、装置、电子设备以及存储介质，涉及人工智能领域，尤其涉及深度学习、计算机视觉、智能搜索、语音技术和增强现实技术领域。该搜索方法具体实现方案为：获取用于搜索场景的输入图像和输入文本，其中，输入文本包括用于描述搜索对象的定位信息和用于描述搜索需求的需求信息；确定与输入图像中的展示对象关联的关联概念，得到关联概念候选集，其中，关联概念候选集中包括至少一个展示对象关联的关联概念；从关联概念候选集中确定与定位信息相匹配的目标关联概念；以及根据目标关联概念和需求信息执行搜索操作。

Description

搜索方法、装置、电子设备以及存储介质

技术领域

本申请涉及人工智能领域，尤其涉及深度学习、计算机视觉、智能搜索、语音技术和增强现实技术领域，具体涉及一种搜索方法、装置、电子设备以及存储介质。

背景技术

随着计算机技术的快速发展，对信息的查询需求使得出现了搜索技术。例如，网络用户越来越依赖于使用各种搜索引擎来获得想要的信息，搜索引擎已成为网络用户寻找信息的重要入口。

然而，在实现本申请的过程中发现，随着网络用户的搜索体验要求逐渐提高，当前的搜索技术难以满足更好的搜索体验要求。

发明内容

本申请提供了一种搜索方法、装置、电子设备以及存储介质。

根据本申请的一方面，提供了一种搜索方法，包括：获取用于搜索场景的输入图像和输入文本，其中，上述输入文本包括用于描述搜索对象的定位信息和用于描述搜索需求的需求信息；确定与上述输入图像中的展示对象关联的关联概念，得到关联概念候选集，其中，上述关联概念候选集中包括至少一个上述展示对象关联的关联概念；从上述关联概念候选集中确定与上述定位信息相匹配的目标关联概念；根据上述目标关联概念和上述需求信息执行搜索操作。

根据本申请的另一方面，提供了一种搜索装置，包括：获取模块，用于获取用于搜索场景的输入图像和输入文本，其中，上述输入文本包括用于描述搜索对象的定位信息和用于描述搜索需求的需求信息；确定模块，用于确定与上述输入图像中的展示对象关联的关联概念，得到关联概念候选集，其中，上述关联概念候选集中包括至少一个与上述展示对象关联的关联概念；匹配模块，用于从上述关联概念候选集中确定与上述定位信息相匹配的目标关联概念；搜索模块，用于根据上述目标关联概念和上述需求信息执行搜索操作。

根据本申请的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与上述至少一个处理器通信连接的存储器；其中，上述存储器存储有可被上述至少一个处理器执行的指令，上述指令被上述至少一个处理器执行，以使上述至少一个处理器能够执行如上所述的搜索方法。

根据本申请的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，上述计算机指令用于使上述计算机执行如上所述的搜索方法。

根据本申请的另一方面，提供了一种计算机程序产品，包括计算机程序，上述计算机程序在被处理器执行时实现如上所述的搜索方法。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1示意性示出了根据本申请实施例的可以应用搜索方法及装置的示例性系统架构；

图2示意性示出了根据本申请实施例的搜索方法的流程图；

图3示意性示出了根据本申请实施例的可以应用该搜索方法的应用场景图；

图4示意性示出了根据本申请实施例的确定与输入图像中的展示对象关联的关联概念的流程图；

图5示意性示出了根据本申请实施例的根据匹配结果确定与图像区域中的展示对象关联的关联概念的流程图；

图6示意性示出了根据本申请另一实施例的包括搜索结果的应用场景图；

图7示意性示出了根据本申请又一实施例的搜索流程示意图；

图8示意性示出了根据本申请实施例的搜索装置的框图；

图9示意性示出了根据本申请实施例的适于实现搜索方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在相关技术中，用户利用自身的语言表达能力，可以在搜索引擎等工具中输入描述文本来表达自己的需求，进而利用搜索引擎来搜索用户想要得到的信息。然而，在实现本申请的过程中发现，每个用户自身的语言表达能力各不相同，有些用户的语言表达能力相对较强，有些用户的语言表达能力相对较弱，不同用户所输入的描述文本表达的需求相差较大。有时甚至受限于用户的知识面或阅历相对局限，用户在面对陌生的对象时，由于根本不认识该对象，导致无法直接在搜索引擎中输入描述文本来得到信息。

在相关技术中，用户也可以利用具有图像识别技术的搜索引擎对目标对象进行识别，来获得该目标对象的相关信息，该具有图像识别技术的搜索引擎例如可以是识图工具。用户可以无需在搜索引擎中输入描述文本，利用搜索引擎直接识别目标对象。然而，在实现本申请的过程中发现，利用该搜索引擎搜索得到的信息一般仅仅是图像的基本信息，无法满足用户个性化的搜索需求。

例如，当用户看见一个不认识的动物，用户想知道它是否有毒性。由于用户不认识该动物，无法直接在搜索引擎的文本框输入文本来得到信息，而利用识图工具一般只能得到图像基本信息，例如动物的名字，但如果想直接了解该动物的毒性，还需要进一步输入文本以便配合文本搜索，这种搜索方式操作路径较长，导致搜索效率比较低，且无法满足用户个性化的搜索需求。

再例如，当用户同时看到多个物体，其中包含用户想要认识的物体，利用识图工具要求相机取景框尽可能只留目标物体，或者把多个物体都拍摄下来让用户选择需要认识的区域，这些方式均较为繁琐。这在虚拟现实搜索场景中问题可能更加突出，例如，在虚拟现实搜索场景中，用户为了让视野中只有一个物体，可能需要不断挪动自己身体或者用手指在空中比划。

基于上述分析内容，在实现本申请的过程中发现，可以采用图像和文本相结合的方式来进行搜索。为了降低对用户输入文本的准确性能力要求或者语言表达能力不足，即降低输入文本的准确性和使得输入文本更加简洁，本申请的实施例利用与图像相关联的信息来弥补输入文本的准确性不足或内容复杂的问题，提高了用户的搜索体验。

具体地，根据本申请的实施例，提供了一种搜索方法，包括：获取用于搜索场景的输入图像和输入文本，其中，输入文本包括用于描述搜索对象的定位信息和用于描述搜索需求的需求信息；确定与输入图像中的展示对象关联的关联概念，得到关联概念候选集，其中，关联概念候选集中包括至少一个展示对象关联的关联概念；从关联概念候选集中确定与定位信息相匹配的目标关联概念；根据目标关联概念和需求信息执行搜索操作。

图1示意性示出了根据本申请实施例的可以应用搜索方法及装置的示例性系统架构。

需要注意的是，图1所示仅为可以应用本申请实施例的系统架构的示例，以帮助本领域技术人员理解本申请的技术内容，但并不意味着本申请实施例不可以用于其他设备、系统、环境或场景。例如，在另一实施例中，可以应用搜索方法及装置的示例性系统架构可以包括终端设备，但终端设备可以无需与服务器进行交互，即可实现本申请实施例提供的搜索方法及装置。

如图1所示，根据该实施例的系统架构100可以包括第一终端设备101、第二终端设备102、第三终端设备103、第四终端设备104，网络105和服务器106。网络105用以在终端设备101、102、103、104和服务器106之间提供通信链路的介质。网络105可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用第一终端设备101、第二终端设备102、第三终端设备103、第四终端设备104通过网络105与服务器106交互，以接收或发送消息等。第一终端设备101、第二终端设备102、第三终端设备103、第四终端设备104上可以安装有各种通讯客户端应用，例如，搜索类应用、知识阅读类应用、网页浏览器应用、即时通信工具、邮箱客户端和/或社交平台软件等（仅为示例）。

第一终端设备101、第二终端设备102、第三终端设备103、第四终端设备104可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

第一终端设备101、第二终端设备102、第三终端设备103、第四终端设备104还可以是具有显示屏并且支持增强现实技术（Augmented Reality，AR）和搜索的电子设备等，包括但不限于AR眼镜、AR头盔等等。

第一终端设备101、第二终端设备102、第三终端设备103、第四终端设备104可以从终端设备的本地文件中获取图像数据，还可以通过网络105与其他终端设备或服务器相连，用于获取图像数据。

第一终端设备101、第二终端设备102、第三终端设备103、第四终端设备104内还可以设置有视觉传感器，用于直接采集图像数据。

服务器106可以是提供各种服务的服务器，例如对用户利用第一终端设备101、第二终端设备102、第三终端设备103、第四终端设备104所浏览的内容提供支持的后台管理服务器（仅为示例）。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果（例如根据用户请求获取或生成的网页、信息、或数据等）反馈给终端设备。

服务器可以是提供各种服务的服务器。例如，服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务（Virtual Private Server，虚拟专用服务器）中，存在的管理难度大，业务扩展性弱的缺陷。

例如，服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

需要说明的是，本申请实施例所提供的搜索方法一般可以由第一终端设备101、第二终端设备102、第三终端设备103或第四终端设备104执行。相应地，本申请实施例所提供的搜索装置也可以设置于第一终端设备101、第二终端设备102、第三终端设备103或第四终端设备104中。

或者，本申请实施例所提供的搜索方法一般也可以由服务器106执行。相应地，本申请实施例所提供的搜索装置一般可以设置于服务器106中。本申请实施例所提供的搜索方法也可以由不同于服务器106且能够与第一终端设备101、第二终端设备102、第三终端设备103、第四终端设备104和/或服务器106通信的服务器或服务器集群执行。相应地，本申请实施例所提供的搜索装置也可以设置于不同于服务器106且能够与第一终端设备101、第二终端设备102、第三终端设备103、第四终端设备104和/或服务器106通信的服务器或服务器集群中。

例如，用户在通过搜索引擎进行搜索时，第一终端设备101、第二终端设备102、第三终端设备103、第四终端设备104可以获取用户通过视觉传感器采集的输入图像、以及可以获取用户通过语音输入的输入文本，其中，输入文本中包括需求信息，通过第一终端设备101、第二终端设备102、第三终端设备103、第四终端设备104确定与输入图像中的展示对象关联的关联概念，得到关联概念候选集；从关联概念候选集中确定与定位信息相匹配的目标关联概念，并根据目标关联概念和需求信息执行搜索操作。

再例如，用户在通过搜索引擎进行搜索时，第一终端设备101、第二终端设备102、第三终端设备103、第四终端设备104可以获取用户通过视觉传感器采集的输入图像、以及可以获取用户通过语音输入的输入文本，其中，输入文本中包括需求信息，将输入图像和输入文本通过网络传输给服务器106。服务器获取输入图像和输入文本，确定与输入图像中的展示对象关联的关联概念，得到关联概念候选集，从关联概念候选集中确定与定位信息相匹配的目标关联概念，并根据目标关联概念和需求信息执行搜索操作。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

在本申请的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

在本申请的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

图2示意性示出了根据本申请实施例的内容处理方法的流程图。

如图2所示，该方法200包括操作S210~S240。

在操作S210，获取用于搜索场景的输入图像和输入文本，其中，输入文本包括用于描述搜索对象的定位信息和用于描述搜索需求的需求信息。

根据本申请的实施例，输入图像可以包括通过视觉传感器采集的图像，如，在获得用户许可的情况下，通过终端设备的相机拍摄的图片。输入图像还可以包括通过终端设备获取的图像，如，在获得用户许可的情况下，通过相册获取历史图像，或者通过蓝牙等方式实时获取的图像。具体地，用户可以使用终端设备中安装的搜索引擎来输入文本，利用该搜索引擎调用视觉传感器来获取用于搜索场景的输入图像，或者，利用该搜索引擎调用相册来获取用于搜索场景的输入图像。

根据本申请的实施例，输入图像和输入文本也可以由配备增强现实技术的终端设备进行获取。例如，输入图像可以为AR设备视野范围内的实时图像。

根据本申请的实施例，输入文本可以与输入图像相关联，即输入文本与输入图像分别表征的内容之间具有关联性，输入文本可以由用户输入。例如，终端设备通过触摸屏采集用户输入的输入文本；或者在用户允许的情况下，终端设备通过麦克风采集用户输入的语音，并将语音转化为输入文本。上述实施方式仅是示例性实施例，但不限于此，还可以包括本领域已知的其他转本文方法，只要能够将用户输入的信息转化为文本信息即可。

根据本申请的实施例，输入文本包括用于描述搜索对象的定位信息和用于描述搜索需求的需求信息。其中，定位信息可以包括以下至少其中之一：属性信息、位置信息、种类信息等。

例如，输入文本可以是“黄色齿轮怎么使用？”，“黄色齿轮”为定位信息，“怎么使用”为需求信息。其中，定位信息中的“黄色齿轮”为搜索对象的属性信息，包括对于颜色、外观形状等视觉信息的描述，如“黄色”、如“齿轮”。

再例如，输入文本可以是“男人头上的帽子是谁戴过的？”，“男人头上的帽子”为定位信息，“是谁戴过的”为需求信息。其中定位信息包括位置信息“男人头上的”，还包括种类信息“帽子”。

根据本申请的实施例，输入图像中可以包括至少一个展示对象，每个展示对象都可以作为当前搜索场景内的搜索对象。

根据本申请的实施例，输入文本中的定位信息和需求信息可以与上述至少一个展示对象相关。

在操作S220，确定与输入图像中的展示对象关联的关联概念，得到关联概念候选集，其中，关联概念候选集中包括至少一个展示对象关联的关联概念。

根据本申请的实施例，可以根据输入图像的特征信息，确定与输入图像中的展示对象关联的关联概念。关联概念可以表征与展示对象关联的实体。

根据本申请的实施例，针对每个展示对象，根据输入图像的特征信息，可以确定与输入图像中每个展示对象关联的关联概念，根据输入图像中的部分或所有展示对象关联的关联概念可以生成关联概念候选集，以减缓或避免出现输入图像中展示对象链接到错误实体的情况。

例如，展示对象可以为人物，在获得用户许可和法律允许的情况下，确定的与人物关联的关联概念可以包括以下至少其中之一：姓名、职业等。再例如，展示对象还可以为物品，与物品关联的关联概念可以包括：种类、名称、品牌等。在展示对象为物品的情况下，关联概念可以包括种类和品牌，如 “XX牌漱口水”；或者，关联概念还可以包括名称，如 “XX牌清爽系列荔枝味漱口水”等。

根据本申请的实施例，关联概念候选集还可以包括展示对象与关联概念之间的关联关系。例如，关联概念候选集中包括：人物-张三、第一物品- XX漱口水和第二物品- CC清香纸巾，其中，“- ”表示关联关系。

在操作S230，从关联概念候选集中确定与定位信息相匹配的目标关联概念。

根据本申请的实施例，在确定关联概念候选集之后，由于输入文本包括用于描述搜索对象的定位信息，因此，可以根据定位信息从关联概念候选集中选取与搜索对象关联的目标关联概念，以便对搜索对象进行搜索操作。

根据本申请的实施例，可以通过计算定位信息与输入图像内的至少一个展示对象的相关性，确定定位信息与至少一个展示对象的匹配关系。然后根据定位信息与至少一个展示对象的匹配关系、以及至少一个展示对象与关联概念的关联关系，从关联概念候选集中确定与定位信息相匹配的目标关联概念。

例如，以输入文本为“黄色齿轮怎么使用？”，定位文本为“黄色齿轮”为例。通过计算定位文本“黄色齿轮”与多个展示对象之间的相关性，从多个展示对象内确定与“黄色齿轮”相匹配的目标展示对象。目标展示对象与关联概念“行星齿轮”存在关联关系，由此，可以确定与“黄色齿轮”相匹配的目标关联概念为“行星齿轮”。

在操作S240，根据目标关联概念和需求信息执行搜索操作。

根据本申请的实施例，定位文本是从用户输入文本中获取的文本，实质上还是用户表达的部分文本。由于关联概念为与搜索对象相关联的实体，因此，在搜索场景下，可以根据目标关联概念和需求信息执行搜索操作，以弥补用户语言表达能力差异带来的搜索差异。

根据本申请的实施例，可以将目标关联概念和需求信息进行组合，得到新的输入文本，利用组合的新的输入文本执行搜索操作。

例如，仍以输入文本为“黄色齿轮怎么使用？”为例，定位文本为“黄色齿轮”，需求信息为“怎么使用？”。在操作S230确定与定位信息“黄色齿轮”相匹配的目标关联概念为“行星齿轮”之后，根据需求信息和目标关联概念组合得到的新的输入文本为“行星齿轮怎么使用？”。

根据本申请的实施例，在终端设备配备增强现实技术的情况下，本申请的搜索方法的应用场景可以是：在经过用户允许的情况下，通过用户佩戴的终端设备获取当前视野范围内的实时图像，并将实时图像确定为输入图像；以及通过终端设备获取与输入图像相关的输入文本。

例如，以终端设备为AR眼镜为例，用户佩戴AR眼镜时，在站立姿态、正面对桌面的角度下，AR眼镜的视野范围内包括三个展示对象，分别为人物A、漱口水和纸巾。用户想要知道当前视野范围内的纸巾的价值，可以输入“纸巾多少钱？”。此时，AR眼镜可以获取当前时刻在用户视野范围内的实时图像，并将该实时图像确定为输入图像，将“纸巾多少钱？”确定为输入文本。

与操作S220~S240类似，在获取输入图像和输入文本之后，确定与输入图像中的展示对象关联的关联概念，得到关联概念候选集，从关联概念候选集中确定与定位信息相匹配的目标关联概念，并根据目标关联概念和需求信息执行搜索操作。

本申请的实施例通过获取用于搜索场景的输入图像和输入文本，确定与输入图像中的展示对象关联的关联概念，得到关联概念候选集；由于输入文本包括用于描述搜索对象的定位信息和用于描述搜索需求的需求信息，可以从关联概念候选集中确定与定位信息相匹配的目标关联概念，并根据目标关联概念和需求信息执行搜索操作，实现了结合图像和文本进行搜索。本申请的实施例通过图像和与图像关联的文本结合的方式进行搜索，不仅降低输入文本的准确性，并使得输入文本更加简洁，弥补了输入文本的准确性不足或内容复杂的问题，降低了用户描述搜索对象的表达水平，提高了用户的搜索体验。

图3示意性示出了根据本申请实施例的可以应用该搜索方法的应用场景图。

如图3所示，该应用场景300包括终端设备301，终端设备301的展示界面上包括输入图像302。输入图像302中包括展示对象，分别为第一展示对象3021、第二展示对象3022、第三展示对象3023和第四展示对象3024。

其中，第一展示对象3021为人物、第二展示对象3022为“XX漱口水”、第三展示对象3023为纸巾、第四展示对象3024为桌子。

根据本申请的实施例，还可以在输入图像302中显示特殊标识符3025，用于在输入图像302中标记已识别出的展示对象，可以提醒用户想要定位的对象是否已被识别，从而提高用户体验。

在终端设备301的展示界面上还可以包括输入文本，分别为第一输入文本3031、第二输入文本3032和第三输入文本3033。其中，第一输入文本3031为“他演过什么剧？”，第二输入文本3032为“黑色瓶盖怎么打开？”，第三输入文本3033为“纸巾多少钱？”。

在上述搜索场景中，输入图像302内的四个展示对象都可以作为搜索对象。三个输入文本可以分别对应输入图像302内的其中三个展示对象。

在一具体实施例中，第一输入文本3031中的定位信息为“他”，需求信息为“演过什么剧？”。第二输入文本3032中的定位信息为“黑色瓶盖”，需求信息为“怎么打开？”。第三输入文本3033中的定位信息为“纸巾”，需求信息为“多少钱？”。

根据本申请的实施例，与第一展示对象3021关联的关联概念为“张三”，与第二展示对象3022关联的关联概念为“XX漱口水”，与第三展示对象3023关联的关联概念为“CC清香纸巾”。关联概念候选集包括：“张三”、“XX漱口水”和“CC清香纸巾”。

针对第二输入文本3032“黑色瓶盖怎么打开？”，从关联概念候选集中确定与定位信息“黑色瓶盖”相匹配的目标关联概念为“XX漱口水”。由此，根据目标关联概念“XX漱口水”和需求信息“怎么打开？”可以执行搜索操作。例如，根据“XX漱口水”和“怎么打开？”可以得到新的输入文本“XX漱口水怎么打开？”，由此利用新的输入文本执行搜索操作。或者，对目标关联概念和需求信息分别执行搜索操作，分别得到两个中间搜索结果。根据得到的两个中间搜索结果确定最终的搜索结果。

或者，确定与需求信息相似的相似需求信息，并利用相似需求信息和目标关联概念执行搜索操作。例如，相似需求信息可以为“如何开盖？”或“盖子打不开”。

根据本申请的实施例，获取用于搜索场景的输入图像和输入文本包括：在采集所述输入图像的过程中，获取输入文本。

例如，在通过终端设备拍摄输入图像的过程中，通过终端设备获取输入文本。终端设备在获取输入图像和输入文本之后，可以将获取的输入图像展示在终端设备上，并将获取的输入文本也展示在终端设备上。

再例如，以终端设备为AR眼镜为例，用户佩戴有AR眼镜，用户在面对想要搜索的对象时，可以通过操作AR眼镜获取输入文本。终端设备在获取用户视野范围内的输入图像的同时，响应用户的操作输入文本。

本申请的实施例通过同时输入图像和与图像有关的文本信息，缩短了用户的操作路径，提高了搜索效率。

根据本申请的实施例，输入文本包括：语音输入文本或文字输入文本。

例如，在经过用户允许的情况下，在拍摄输入图像时，终端设备可以自动识别当前环境内的语音信息，通过检测用户的语音信息获取语音输入文本。或者，在拍摄输入图像之后，终端设备响应于用户的输入操作，获取用户输入的文字输入文本。

再例如，以终端设备为AR眼镜为例，用户在面对想要搜索的对象时，用户可以说出“纸巾多少钱”。终端设备在获取用户视野范围内的输入图像之后，检测用户说出的语音信息获取语音输入文本；或者，响应于用户的操作，实时获取用户输入的文字输入文本。

本申请的实施例通过获取语音输入文本或文字输入文本，可以将上述搜索方法扩展至语音交互搜索场景，可以减少用户与终端设备的交互操作，以实现降低输入文本的准确性，并使得输入文本更加简洁，提高用户的搜索体验的技术效果。

下面参考图4~图7，结合具体实施例对图2所示的方法做进一步说明。

图4示意性示出了根据本申请实施例的确定与输入图像中的展示对象关联的关联概念的流程图。

如图4所示，该方法400包括操作S421~S422，可以作为操作S220的一个具体实施例。

在操作S421，对输入图像进行区域检测，得到一个或多个图像区域，其中，每个图像区域中包括一个展示对象。

在操作S422，针对每个图像区域，对图像区域进行识别，以便确定与图像区域中的展示对象关联的关联概念。

根据本申请的实施例，输入图像可以包括至少一个展示对象。在确定与至少一个展示对象相关的关联概念之前，通过对输入图像进行区域检测，将至少一个展示对象进行区分，得到多个图像区域。

根据本申请的实施例，可以通过分割模型对输入图像进行区域检测。

根据本申请的实施例，将输入图像输入分割模型，分割模型通过对输入对象的图像特征进行分析，将输入图像划分为一个或多个图像区域，其中，每个图像区域内包括一个展示对象。

根据本申请的实施例，分割模型可以先对输入图像进行预处理，将输入图像内背景信息和实际信息进行分割，并剔除背景信息，得到预处理图像。再对预处理图像进行区域分割。例如，可以将像素低于预定阈值的区域作为输入图像的背景信息，将像素高于第一预定阈值的区域作为第一图像区域、将像素高于第二预定阈值的区域作为第二图像区域等。

或者，基于边缘检测的方法，通过计算输入图像的梯度，将输入图像划分为多个图像区域。

根据本申请的实施例，在将输入图像划分为一个或多个图像区域的过程中，还可以通过图像增强算法，将区域检测后的一个或多个图像区域进行增强，以提高图像识别准确率。例如，图像增强算法可以为暗通道算法。

根据本申请的实施例，针对每个图像区域，可以对图像区域进行识别，得到与上述图像区域内的展示对象关联的关联概念，以得到关联概念候选集。

例如，对于输入图像进行区域检测之后，可以得到3个图像区域，得到的3个图像区域分别包括第一展示对象、第二展示对象和第三展示对象。

针对第一展示对象，可以对与第一展示对象对应的图像区域进行识别，并对上述图像区域的特征信息进行处理，得到与第一展示对象对应的关联概念。如，在第一展示对象为人物时，关联概念可以为“张三”。在第二展示对象为物品“漱口水”时，关联概念可以为“XX漱口水”。

本申请的实施例通过先对输入图像进行区域检测，得到一个或多个图像区域，再针对每个图像区域进行识别，以确定与图像区域中的展示对象关联的关联概念，无需用户通过交互操作或调整姿态、视角的操作，即可保证输入图像内仅有一个对象，减少了用户与终端设备的交互，提高了搜索体验。

此外，由于对一个输入图像内的一个或多个图像区域进行区域检测和识别，以便对多个搜索目标进行搜索，减少了对输入图像、输入文本的多次检测处理，提高了搜索体验。

图5示意性示出了根据本申请实施例的根据匹配结果确定与图像区域中的展示对象关联的关联概念的流程图。

如图5所示，该方法500包括操作S5221~S5222，可以作为操作S422的一个具体实施例。

在操作S5221，将与图像区域对应的图像数据，和初始关联概念集中的初始关联概念进行匹配，得到匹配结果。

在操作S5222，根据匹配结果确定与图像区域中的展示对象关联的关联概念。

根据本申请的实施例，初始关联概念集内包括与至少一个展示对象对应的至少一个初始关联概念。需要说明的是，初始关联概念包括与展示对象相关的关联概念，也包括可能与展示对象、以及与输入图像不相关的概念。

例如，初始关联概念集内包括初始关联概念“张三”、“李四”、“王五”、“矿泉水”、“漱口水”、“XX漱口水”、“CC清香纸巾”。“张三”、“李四”和“王五”均是对人物的描述，“张三”、“李四”和“王五”其中之一为与至少一个展示对象中第一展示对象相关联的关联概念，其他初始关联概念与第一展示对象无关。

根据本申请的实施例，图像区域的图像数据可以为图像区域的像素数据，还可以为图像区域的图像特征。

根据本申请的实施例，针对每个图像区域，可以通过将图像区域的图像数据与初始关联概念集中的所有初始关联概念的文本特征进行匹配，得到匹配结果，其中，匹配结果包括与图像特征最接近的文本特征，以及上述图像特征和最接近的文本特征的相关性概率。

根据本申请的实施例，在确定匹配结果的情况下，通过确定匹配结果是否满足预定条件，以确定与图像区域中的展示对象关联的关联概念。

例如，在匹配结果包括与图像特征最接近的文本特征，以及上述图像特征和最接近的文本特征的相关性概率的情况下，可以通过设定预定阈值来确定与展示对象关联的关联概念。例如，预定阈值为0.9，在确定相关性概率大于或等于0.9的情况下，将与最接近的文本特征对应的初始关联概念确定为与上述图像区域关联的关联概念。在确定相关性概率小于0.9的情况下，更新初始关联概念集。如，基于初始关联概念集内的至少一个初始关联概念，增加初始关联概念集内初始关联概念的数目；或者，重新执行获取初始关联概念集的操作，以更新初始关联概念集。

本申请的实施例通过将与图像区域对应的图像数据和初始关联概念集中的初始关联概念进行匹配，得到匹配结果，并根据匹配结果确定与图像区域中的展示对象关联的关联概念，可以从初始关联概念中筛除其他噪声信息，在降低输入文本的准确性，并使得输入文本更加简洁的情况下，保证了搜索结果的准确性。

根据本申请的实施例，将与图像区域对应的图像数据，和初始关联概念集中的初始关联概念进行匹配，得到匹配结果包括：根据与图像区域对应的图像数据，生成与图像区域对应的图像向量；根据初始关联概念的文本数据，生成与初始关联概念对应的文本向量；以及将图像向量和文本向量进行匹配，得到匹配结果。

根据本申请的实施例，针对每个图像区域，可以对图像区域对应的图像数据进行特征提取，得到图像向量。例如，将图像区域输入训练好的图文相关性模型，以便对图像区域的图像数据进行特征提取，输出图像向量。

针对每个图像区域，还可以对初始关联概念的文本数据进行特征提取，得到文本向量。例如，将初始关联概念的文本数据输入训练好的图文相关性模型，以便对初始关联概念进行特征提取，输出文本向量。其中，文本数据可以为初始关联概念的文字。

根据本申请的实施例，在确定图像特征和文本特征的情况下，利用图文相关性模型对图像向量和文本向量进行匹配，得到匹配结果。

根据本申请的实施例，图文相关性模型包括图像编码网络和文本编码网络。图像编码网络用于对图像进行特征提取，文本编码网络用于对文本进行特征提取。

根据本申请的实施例，例如，图文相关性模型可以是Contrastive Language-Image Pre-training，简称CLIP模型，或者，还可以是用于进行图像处理和文本处理的其他模型。

例如，以输入图像包括M个图像区域，初始关联概念集中包括N个初始关联概念为例。其中，M大于或等于1，N大于或等于M。

针对M个图像区域，生成对应的M个图像向量，针对N个初始关联概念，生成对应的N个文本向量。计算M个图像向量和N个初始关联概念的相关性，得到N*N维的二维相关性矩阵I。其中，二维相关性矩阵包括N*N个元素，元素I_ij表示第i个图像向量与第j个文本向量的相关性。对二维相关性矩阵I中空的元素补0。

根据本申请的实施例，初始关联概念与展示对象之间的相关程度不同，由此，可以根据二维相关性矩阵确定与M个图像向量最接近的M个文本向量。

本申请的实施例通过利用通过计算图像区域的图像向量与初始关联概念的文本向量之间的相关性，可以结合图像特征和文本特征确定与展示对象与初始关联概念的匹配结果，提高了匹配准确性。

根据本申请的实施例，对于操作S230，与上述操作类似，在得到关联概念候选集的情况下，也可以根据与输入图像内的一个或多个图像区域对应的图像数据，生成与图像区域对应的图像向量；根据关联概念候选集中的关联概念的文本数据，生成与关联概念对应的文本向量；以及将图像向量和文本向量进行匹配，得到匹配结果。

例如，可以将图像区域对应的图像数据输入图文相关模型的图像编码网络，生成图像向量；将文本数据输入图文相关模型的文本编码网络，生成文本向量。通过图文相关模型计算关联概念候选集内的关联概念的文本向量和图像向量的相关性概率。针对每个图像区域，将相关性概率最高的文本向量对应的关联概念确定为目标关联概念。

根据本申请的实施例，将与图像区域对应的图像数据，和初始关联概念集中的初始关联概念进行匹配之前，还可以包括：获取与输入图像相似的至少一个目标图像；针对每个目标图像，确定用于表征目标图像的描述文本；根据每个目标图像的描述文本生成初始关联概念；根据初始关联概念生成初始关联概念集。

根据本申请的实施例，在获取输入图像的情况下，对输入图像进行特征提取，确定与输入图像对应的图像指纹。其中，图像指纹用于标识输入图像。

例如，先将输入图像缩小或放大至标准尺寸，根据缩小或放大后的输入图像的像素值，确定输入图像的图像指纹。

根据本申请的实施例，通过计算输入图像的图像指纹和搜索引擎数据库内的候选图像的图像指纹之间的相似度，确定与输入图像相似的至少一个目标图像。

例如，将图像指纹的相似度大于80%的至少一个候选图像确定为目标图像。

根据本申请的实施例，在构建搜索引擎数据库时，搜索引擎数据库内的候选图像与表征上述候选图像的至少一条描述文本之间存在关联关系。针对与输入图像相似的每个目标图像，根据目标图像和至少一条描述文本之间的关联关系，可以确定用于表征目标图像的描述文本。

例如，针对每个目标图像，在确定表征上述目标图像的描述文本之后，可以将描述文本输入文本处理模型内，输出与上述目标图像对应的初始关联概念。根据与每个目标图像对应的初始关联概念，生成初始关联概念集。

将描述文本输入文本处理模型之后，文本处理模型可以对描述文本进行分词处理，得到分词结果。然后根据分词结果，确定初始关联概念。

例如，获取与输入图像相似的3个目标图像。第一目标图像中包括与第一展示对象相似的人物，第二目标图像中包括与第二展示对象相似的物品，第三目标图像中包括与第三展示对象相似的物品。根据第一目标图像的第一描述文本生成的初始关联概念包括“张三”、“李四”和“王五”，根据第二目标对象的第二描述文本生成的关联概念包括“矿泉水”、“漱口水”和“XX漱口水”，根据第三目标对象的第三描述文本生成的关联概念为“CC清香纸巾”。生成的初始关联概念集包括“张三”、“李四”、“王五”、“矿泉水”、“漱口水”、“XX漱口水”、“CC清香纸巾”。

根据本申请的实施例，还可以直接根据输入图像，确定与输入图像相关联的至少一个描述文本，生成与至少一个描述文本对应的初始关联概念，并根据初始关联概念生成初始关联概念集。

例如，与输入图像相关的第四描述文本为“张三出现在电视剧《ABC》中”、第五描述文本为“XX漱口水的黑色瓶盖好难打开”、第六描述文本为“CC纸巾有清香的味道”。针对第四描述文本，生成初始关联概念“张三”，针对第五描述文本，生成初始关联概念“XX漱口水”，针对第六描述文本，生成初始关联概念 “CC纸巾”和“CC清香纸巾”。

本申请的实施例，通过获取与输入图像相似的目标图像，并根据表征目标图像的描述文本生成初始关联概念集，不仅获取大量与输入文本相似的初始关联概念，还可以保证初始关联概念与输入图像的强相关性，有助于提高确定目标关联概念的准确性。

根据本申请的实施例，对于操作S210，与上述操作类似，也可以利用已训练的文本处理模型对输入文本进行分词和文本处理。

例如，文本处理模型包括第一文本下游任务和第二文本下游任务，第一文本下游任务用于确定描述定位信息的文本区域，第二文本下游任务用于确定描述搜索需求的文本区域。

根据本申请的实施例，文本处理模型可以为transformer模型、融合大规模知识的预训练模型（Enhanced language Representation with Informative Entities，ERNIE）。

根据本申请的实施例，第一文本下游任务和第二文本下游任务可以为根据当前搜索场景在ERNIE的序列输出的区域标注任务，与文本实体命名识别（Named EntityRecognition，NER）任务相似。

根据本申请的实施例，根据每个目标图像的描述文本生成初始关联概念包括：从目标图像的描述文本中抽取初始关联概念。

根据本申请的实施例，在确定表征每个目标图像的描述文本之后，可以直接从描述文本中抽取初始关联概念。在根据输入图像确定至少一个描述文本之后，也可以直接从描述文本中抽取初始关联概念。

例如，以描述文本为“CC纸巾有清香的味道”为例，直接抽取得到的初始关联概念为“CC纸巾”。

根据本申请的实施例，在确定表征每个目标图像的描述文本之后，还可以根据对描述文本的分词结果，通过实体链接的方式，抽取初始关联概念。在根据输入图像确定至少一个描述文本之后，也可以根据对描述文本的分词结果，通过实体链接的方式，抽取初始关联概念。

例如，仍以描述文本为“CC纸巾有清香的味道”为例，对描述文本进行分词结果，得到了“CC纸巾”、“清香”、“味道”，通过实体链接的方式，抽取的初始关联概念为“CC清香纸巾”。

根据本申请的实施例，通过从描述文本中抽取初始关联概念的方式，可以进一步保证初始关联概念与输入图像的强相关性，有助于提高确定目标关联概念的准确性。

根据本申请的实施例，根据目标关联概念，在输入图像中对搜索对象进行标注。

根据本申请的实施例，在确定与定位信息相匹配的目标关联概念之后，根据目标关联概念与展示对象的关联关系，将上述展示对象确定为搜索对象，并在输入图像中标注搜索对象。

本申请的实施例通过在输入图像内对搜索对象进行标注，可以向用户自动展示当前的搜索对象，无需用户经过交互操作确定搜索对象，还可以让用户清楚了解当前的搜索对象，进而提高了用户的搜索体验。

根据本申请的实施例，根据目标关联概念和需求信息执行搜索操作包括：将目标关联概念与需求信息进行拼接，得到新的输入文本；以及向内容服务器发送新的输入文本，以便内容服务器基于新的输入文本响应搜索操作。

根据本申请的实施例，在确定目标关联概念和需求信息的情况下，可以将目标关联概念和需求信息进行拼接，得到新的输入文本，利用新的输入文本替换获取的输入文本，以执行检索操作。

根据本申请的实施例，终端设备可以将得到的新的输入文本发送至内容服务器，以便内容服务器基于新的输入文本进行搜索操作。

根据本申请的实施例，在终端设备采集输入图像和输入文本之后，可以将采集的输入图像和输入文本发送至处理服务器，由处理服务器确定与输入图像中的展示对象关联的关联概念，得到关联概念候选集，从关联概念候选集中确定与定位信息相匹配的目标关联概念，将目标关联概念和需求信息拼接得到的新的输入文本发送至内容服务器，以便内容服务器基于新的输入文本进行搜索操作。其中，处理服务器和内容服务器可以属于同一个分布式服务集群。

根据本申请的实施例，在对输入文本进行处理，得到定位信息和需求信息的过程中，得到的定位信息和需求信息可以包括文本向量。从关联概念候选集中确定与定位信息向匹配的目标关联概念也可以包括文本向量。

根据本申请的实施例，根据目标关联概念和需求信息执行搜索操作还包括：将目标关联概念的文本向量和需求信息的文本向量进行拼接，得到新的输入文本的文本向量；向内容服务器发送新的输入文本的文本向量，以便内容服务器基于新的输入文本的文本向量响应搜索操作。

图6示意性示出了根据本申请另一实施例的包括搜索结果的应用场景图。

如图6所示，该应用场景600包括终端设备601、输入图像602、标注603和搜索结果604。终端设备601的展示界面包括输入图像602、标注603和搜索结果604，输入图像602包括第一展示对象6021、第二展示对象6022、第三展示对象6023和第四展示对象6024。其中，第二展示对象为待搜索的对象，标注603用于突出显示第二展示对象6022，搜索结果604为搜索引擎对第二展示对象6022执行搜索操作之后得到的搜索结果。

搜索结果604包括输入文本6040、百科类搜索结果6041、问题搜索结果6042和其他搜索结果。

例如，关联概念候选集中包括张三、XX漱口水和CC清香纸巾。输入文本为“黑色瓶盖怎么打开？”，其中定位信息为“黑色瓶盖”，需求信息为“怎么打开？”。从关联概念候选集中确定与定位信息相匹配的目标关联概念为“XX漱口水”。利用目标关联概念与需求信息拼接得到的新的输入文本为“XX漱口水怎么打开”。

内容服务器根据新的输入文本为“XX漱口水怎么打开？”执行搜索操作，得到搜索结果604。

在搜索结果604中，对输入文本6040进行展示，同时展示与目标关联概念相关的百科类搜索结果6041、与新的输入文本相关的问题搜索结果6042、以及其他结果6043。

根据本申请的实施例，百科类搜索结果6041包括关于目标关联概念的搜索结果，问题搜索结果6042可以是与新的输入文本最接近的搜索结果，其他结果6043可以是与问题搜索结果6042相关或相似的搜索结果。

根据本申请的实施例，其他结果6043还可以是内容服务器基于新的输入文本得到的其他类型的搜索结果，例如，视频类搜索结果、评论类搜索结果、商品购物类搜索结果等。

例如，目标关联概念为“XX漱口水”、需求信息为“怎么打开”、新的输入文本为“XX漱口水怎么打开”。搜索结果604中包括输入文本6040“黑色瓶盖怎么打开？”，百科类搜索结果6041可以为“XX漱口水，XX企业XX于XX发布…”，问题搜索结果6042可以为“XX漱口水怎么打开？XX漱口水的开法是向下按压瓶盖…”，其他结果6043可以为视频类搜索结果“打开XX漱口水的小妙招…”。

本申请的实施例通过将目标关联概念与需求信息拼接为新的输入文本，并由内容服务器基于新的输入文本执行搜索操作，在降低输入文本的准确性、使得输入文本更加简洁的同时，弥补了输入文本的准确性不足或内容复杂的问题，提高了用户的搜索体验。

根据本申请的实施例，上述搜索方法还包括以下步骤：确定输入文本的意图类型；在输入文本的意图类型为目标意图类型的情况下，根据目标关联概念和需求信息执行搜索操作。

根据本申请的实施例，输入文本的意图类型可以根据输入文本确定。例如，将输入文本与意图数据集中的一个或多个意图类型进行匹配，确定与输入文本相关的意图类型。

根据本申请的实施例，可以利用文本处理模型从输入文本中提取用于表征上下文特征的意图特征，如，[CLS]特征。然后将意图特征与意图数据集中一个或多个意图类型的意图特征进行匹配，通过计算意图特征之间的相似性，从意图特征集中确定输入文本的意图类型。

例如，在输入文本的意图特征与意图类型A的意图特征之间的相似性达到70%的情况下，将上述意图类型A确定为输入文本的意图类型。

根据本申请的实施例，意图类型包括：环境杂音需求、操作软件需求、识图服务需求、视觉导航选择需求、深度认知需求、组合需求等。

环境杂音需求包括用户对语音输入环境的需求。例如，在用户允许的情况下，环境杂音需求用于识别用户的语音信息是否为背景声音，在确定语音信息为背景声音的情况下，输出预定文本，如“无意义文本”；在确定语音信息不是背景声音的情况下，输出语音输入文本。

操作软件需求包括用户对软件的操作需求。例如，退出、打开相册、发起搜索、返回等操作。

识图服务需求包括用户对与输入图像相关的服务的需求。例如，“找同款商品”、“这道题的答案”、“测我的颜值”等。识图服务功能还可以在输入图像上显示相关的服务。

视觉导航选择需求包括用户对输入图像中展示对象的选择需求。例如，选择“左边这个商品”、“红色的烟盒”、“圆形的梳子”等。

深度认知需求包括用户对输入图像中展示对象的深度知识需求。例如，用户想知道“这个动物有毒性吗？”、“这盆绿植放哪里合适？”等。

组合需求包括用户对多种服务的组合需求。例如，“左边这个人的颜值”表征导航选择需求+识图服务需求、“黄色药品的使用须知”表征导航选择需求+深度认知需求。

根据本申请的实施例，目标意图类型包括深度认知需求和组合需求。在确定输入文本的意图类型为目标意图类型的情况下，根据目标关联概念和需求信息执行搜索操作。

例如，以输入文本“黑色瓶盖怎么打开？”为例，确定输入文本的意图类型为组合需求，即导航选择需求+深度认知需求。根据与定位信息“黑色瓶盖”相匹配的目标关联概念“XX漱口水”，以及需求信息“怎么打开”执行搜索操作。

根据本申请的实施例，在确定输入文本的意图类型不是目标意图类型的情况下，无需确定与输入图像中的展示对象关联的关联概念等操作，直接执行与输入文本对应的用户意图。

例如，输入文本为“退出程序”，在确定输入文本的意图类型为软件操作需求的情况下，直接根据输入文本执行“退出”操作。

本申请的实施例通过确定输入文本的意图类型，并在意图类型为目标意图类型的情况下，根据目标关联概念和需求信息执行搜索操作，使得上述搜索方法适用于多种应用场景，提高了用户的搜索体验。

图7示意性示出了根据本申请又一实施例的搜索流程示意图。

如图7所示，该搜索流程700包括用户701，以及来自用户的输入文本702和输入图像705。

根据本申请的实施例，在获取到输入文本702和输入图像705的情况下，可以并行处理输入文本702和输入对象705，还可以以先后顺序的方式处理输入文本702和输入对象705。

对于输入文本702，在获取输入文本702的情况下，可以利用文本处理模型对输入文本702进行分词、特征提取和分类等操作，输出处理后的输入文本703。处理后的输入文本703包括意图特征7031、需求信息7032和定位信息7033。根据意图特征7031可以确定输入文本701的意图类型704。

对于输入图像705，在获取输入图像705的情况下，可以对输入图像进行区域检测，得到图像区域710，其中图像区域710内可以包括K个图像区域，K大于或等于1。

在获取输入图像705的情况下，还可以确定与输入图像705相似的至少一个目标图像706。针对目标图像706，可以确定表征目标图像706的描述文本708。

或者，还可以根据输入图像705直接确定与表征输入图像705相似的目标文本707，然后确定与目标文本707相似的描述文本708。

根据描述文本708可以生成初始关联概念集709。其中，初始关联概念集中可以包括K个初始关联概念。

对于输入图像705，在确定图像区域710和初始关联概念集709的情况下，将与图像区域710对应的图像数据和初始关联概念集709中的初始关联概念进行匹配，得到关联概念候选集711。关联概念候选集711中包括与图像区域710中的展示对象关联的关联概念，还包括关联概念和图像区域的关联关系。

在确定关联概念候选集711的情况下，从关联概念候选集711中确定与定位信息7033相匹配的目标关联概念712。然后可以将目标关联概念712和需求信息7032拼接为新的输入文本713。

在确定输入文本的意图类型704之后，在确定意图类型704为目标意图类型的情况下，如组合需求，基于新的输入文本713执行搜索操作，得到搜索结果714。

图8示意性示出了根据本申请实施例的搜索装置的框图。

如图8所示，搜索装置800包括获取模块810、确定模块820、匹配模块830和搜索模块840。

获取模块810，用于获取用于搜索场景的输入图像和输入文本，其中，输入文本包括用于描述搜索对象的定位信息和用于描述搜索需求的需求信息。

确定模块820，用于确定与输入图像中的展示对象关联的关联概念，得到关联概念候选集，其中，关联概念候选集中包括至少一个与展示对象关联的关联概念。

匹配模块830，用于从关联概念候选集中确定与定位信息相匹配的目标关联概念。

搜索模块840，用于根据目标关联概念和需求信息执行搜索操作。

根据本申请的实施例，获取模块810包括：获取子模块。

获取子模块，用于在采集输入图像的过程中，获取输入文本。

根据本申请的实施例，确定模块820包括区域检测子模块和识别子模块。

区域检测子模块，用于对输入图像进行区域检测，得到一个或多个图像区域，其中，每个图像区域中包括一个展示对象。

识别子模块，用于针对每个图像区域，对图像区域进行识别，以便确定与图像区域中的展示对象关联的关联概念。

根据本申请的实施例，识别子模块包括匹配单元和关联概念确定单元。

匹配单元，用于将与图像区域对应的图像数据，和初始关联概念集中的初始关联概念进行匹配，得到匹配结果。

关联概念确定单元，用于根据匹配结果确定与图像区域中的展示对象关联的关联概念。

根据本申请的实施例，匹配单元包括：图像向量生成子单元、文本向量生成子单元和匹配子单元。

图像向量生成子单元，用于根据与图像区域对应的图像数据，生成与图像区域对应的图像向量。

文本向量生成子单元，用于根据初始关联概念的文本数据，生成与初始关联概念对应的文本向量。

匹配子单元，用于将图像向量和文本向量进行匹配，得到匹配结果。

根据本申请的实施例，搜索装置800还包括：图像获取模块、描述文本确定模块、初始关联概念生成模块和初始关联概念集生成模块。

图像获取模块，用于获取与输入图像相似的至少一个目标图像。

描述文本确定模块，用于针对每个目标图像，确定用于表征目标图像的描述文本。

初始关联概念生成模块，用于根据每个目标图像的描述文本生成初始关联概念。

初始关联概念集生成模块，用于根据初始关联概念生成初始关联概念集。

根据本申请的实施例，初始关联概念生成模块包括抽取子模块。

抽取子模块，用于从目标图像的描述文本中抽取初始关联概念。

根据本申请的实施例，搜索装置800还包括意图类型确定模块。

意图类型确定模块，用于确定输入文本的意图类型。

搜索模块840，用于在输入文本的意图类型为目标意图类型的情况下，根据目标关联概念和需求信息执行搜索操作。

根据本申请的实施例，搜索装置800还包括标注模块。

标注模块，用于根据目标关联概念，在输入图像中对搜索对象进行标注。

根据本申请的实施例，搜索模块840包括拼接子模块和发送子模块。

拼接子模块，用于将目标关联概念与需求信息进行拼接，得到新的输入文本；以及

发送子模块，用于向内容服务器发送新的输入文本，以便内容服务器基于新的输入文本响应搜索操作。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本申请的实施例，一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上所述的方法。

根据本申请的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如上所述的方法。

根据本申请的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如上所述的方法。

图9示意性示出了根据本申请实施例的适于实现搜索方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器（ROM）902中的计算机程序或者从存储单元908加载到随机访问存储器（RAM）903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出（I/O）接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如搜索方法。例如，在一些实施例中，搜索方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的搜索方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行搜索方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、复杂可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种搜索方法，包括：

获取用于搜索场景的输入图像和输入文本，其中，所述输入文本包括用于描述搜索对象的定位信息和用于描述搜索需求的需求信息；

确定与所述输入图像中的展示对象关联的关联概念，得到关联概念候选集，其中，所述关联概念候选集中包括至少一个所述展示对象关联的关联概念；

从所述关联概念候选集中确定与所述定位信息相匹配的目标关联概念；以及

根据所述目标关联概念和所述需求信息执行搜索操作。

2.根据权利要求1所述的方法，其中，所述获取用于搜索场景的输入图像和输入文本包括：

在采集所述输入图像的过程中，获取所述输入文本。

3.根据权利要求1或2所述的方法，其中，所述输入文本包括：语音输入文本或文字输入文本。

4. 根据权利要求1所述的方法，其中，所述确定与所述输入图像中的展示对象关联的关联概念包括：

对所述输入图像进行区域检测，得到一个或多个图像区域，其中，每个所述图像区域中包括一个展示对象；以及

针对每个所述图像区域，对所述图像区域进行识别，以便确定与所述图像区域中的展示对象关联的关联概念。

5. 根据权利要求4所述的方法，其中，所述针对每个所述图像区域，对所述图像区域进行识别，以便确定与所述图像区域中的展示对象关联的关联概念包括：

将与所述图像区域对应的图像数据，和初始关联概念集中的初始关联概念进行匹配，得到匹配结果；以及

根据所述匹配结果确定与所述图像区域中的展示对象关联的关联概念。

6.根据权利要求5所述的方法，其中，所述将与所述图像区域对应的图像数据，和初始关联概念集中的初始关联概念进行匹配，得到匹配结果包括：

根据与所述图像区域对应的图像数据，生成与所述图像区域对应的图像向量；

根据所述初始关联概念的文本数据，生成与所述初始关联概念对应的文本向量；以及

将所述图像向量和所述文本向量进行匹配，得到所述匹配结果。

7.根据权利要求5所述的方法，还包括：

获取与所述输入图像相似的至少一个目标图像；

针对每个所述目标图像，确定用于表征所述目标图像的描述文本；

根据每个所述目标图像的所述描述文本生成所述初始关联概念；以及

根据所述初始关联概念生成所述初始关联概念集。

8.根据权利要求7所述的方法，其中，所述根据每个所述目标图像的所述描述文本生成所述初始关联概念包括：

从所述目标图像的所述描述文本中抽取所述初始关联概念。

9.根据权利要求1所述的方法，还包括：

确定所述输入文本的意图类型；

其中，所述根据所述目标关联概念和所述需求信息执行搜索操作包括：在所述输入文本的意图类型为目标意图类型的情况下，根据所述目标关联概念和所述需求信息执行搜索操作。

10.根据权利要求1所述的方法，还包括：

根据所述目标关联概念，在所述输入图像中对所述搜索对象进行标注。

11. 根据权利要求1所述的方法，其中，所述根据所述目标关联概念和所述需求信息执行搜索操作包括：

将所述目标关联概念与所述需求信息进行拼接，得到新的输入文本；以及

向内容服务器发送所述新的输入文本，以便所述内容服务器基于所述新的输入文本响应所述搜索操作。

12.一种搜索装置，包括：

获取模块，用于获取用于搜索场景的输入图像和输入文本，其中，所述输入文本包括用于描述搜索对象的定位信息和用于描述搜索需求的需求信息；

确定模块，用于确定与所述输入图像中的展示对象关联的关联概念，得到关联概念候选集，其中，所述关联概念候选集中包括至少一个与所述展示对象关联的关联概念；

匹配模块，用于从所述关联概念候选集中确定与所述定位信息相匹配的目标关联概念；以及

搜索模块，用于根据所述目标关联概念和所述需求信息执行搜索操作。

13.根据权利要求12所述的装置，其中，所述获取模块包括：

获取子模块，用于在采集所述输入图像的过程中，获取所述输入文本。

14.根据权利要求12或13所述的装置，其中，所述输入文本包括：语音输入文本或文字输入文本。

15. 根据权利要求12所述的装置，其中，所述确定模块包括：

区域检测子模块，用于对所述输入图像进行区域检测，得到一个或多个图像区域，其中，每个所述图像区域中包括一个展示对象；以及

识别子模块，用于针对每个所述图像区域，对所述图像区域进行识别，以便确定与所述图像区域中的展示对象关联的关联概念。

16. 根据权利要求15所述的装置，其中，所述识别子模块包括：

匹配单元，用于将与所述图像区域对应的图像数据，和初始关联概念集中的初始关联概念进行匹配，得到匹配结果；以及

关联概念确定单元，用于根据所述匹配结果确定与所述图像区域中的展示对象关联的关联概念。

17.根据权利要求16所述的装置，其中，所述匹配单元包括：

图像向量生成子单元，用于根据与所述图像区域对应的图像数据，生成与所述图像区域对应的图像向量；

文本向量生成子单元，用于根据所述初始关联概念的文本数据，生成与所述初始关联概念对应的文本向量；以及

匹配子单元，用于将所述图像向量和所述文本向量进行匹配，得到所述匹配结果。

18.根据权利要求16所述的装置，其中，所述装置还包括：

图像获取模块，用于获取与所述输入图像相似的至少一个目标图像；

描述文本确定模块，用于针对每个所述目标图像，确定用于表征所述目标图像的描述文本；

初始关联概念生成模块，用于根据每个所述目标图像的所述描述文本生成所述初始关联概念；以及

初始关联概念集生成模块，用于根据所述初始关联概念生成所述初始关联概念集。

19.根据权利要求18所述的装置，其中，所述初始关联概念生成模块包括：

抽取子模块，用于从所述目标图像的所述描述文本中抽取所述初始关联概念。

20.根据权利要求12所述的装置，其中，所述装置还包括：

意图类型确定模块，用于确定所述输入文本的意图类型；

其中，所述搜索模块，用于在所述输入文本的意图类型为目标意图类型的情况下，根据所述目标关联概念和所述需求信息执行搜索操作。

21.根据权利要求12所述的装置，其中，所述装置还包括：

标注模块，用于根据所述目标关联概念，在所述输入图像中对所述搜索对象进行标注。

22. 根据权利要求12所述的装置，其中，所述搜索模块包括：

拼接子模块，用于将所述目标关联概念与所述需求信息进行拼接，得到新的输入文本；以及

发送子模块，用于向内容服务器发送所述新的输入文本，以便所述内容服务器基于所述新的输入文本响应所述搜索操作。

23. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-11中任一项所述的方法。

24.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-11中任一项所述的方法。