CN112579868B

CN112579868B - 多模态识图搜索方法、装置、设备以及存储介质

Info

Publication number: CN112579868B
Application number: CN202011536728.8A
Authority: CN
Inventors: 李雪晓
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2024-06-04
Anticipated expiration: 2040-12-23
Also published as: CN112579868A

Abstract

本申请公开了多模态识图搜索方法、装置、设备以及存储介质，涉及人工智能技术领域，具体为自然语言处理和计算机视觉技术领域。该方法的一具体实施方式包括：接收多模态搜索信息，多模态搜索信息包括待搜索图片和语音需求信息；基于待搜索图片和语音需求信息进行搜索，得到图片搜索结果和信息搜索结果；组合图片搜索结果和信息搜索结果，得到第一搜索结果，以及推送第一搜索结果。该实施方式提供了一种多模态识图搜索方法，精准满足用户需求，提高了搜索效率，从而提升了用户体验。

Description

多模态识图搜索方法、装置、设备以及存储介质

技术领域

本申请实施例涉及计算机领域，具体涉及自然语言处理、计算机视觉等人工智能领域，尤其涉及多模态识图搜索方法、装置、设备以及存储介质。

背景技术

随着互联网的普及以及用户对效率的极致追求，大家对搜索效率要求越来越高。搜索不像淘宝、抖音等应用具有浏览性的属性，它是一种具有很强的目的性的行为。

目前的识图搜索方式是：用户上传图片进行识图，但从图片中很难揣测用户识图是想了解什么，所以就导致和图片相关的内容全部被搜索出来，例如相关商品、相关相似图、图片出自哪里等等，用户只能从一堆信息里，找到自己要的结果，这样会很浪费时间，而且有时也不一定能满足用户的需求。用户在识图搜索过程中，需求无法得到澄清，只能在结果页筛选有用信息，或者只能通过有效信息，去百度搜索重新搜索，导致搜索效率低，用户体验差。

发明内容

本申请实施例提出了一种多模态识图搜索方法、装置、设备以及存储介质。

第一方面，本申请实施例提出了一种多模态识图搜索方法，包括：接收多模态搜索信息，多模态搜索信息包括待搜索图片和语音需求信息；基于待搜索图片和语音需求信息进行搜索，得到图片搜索结果和信息搜索结果；组合图片搜索结果和信息搜索结果，得到第一搜索结果，以及推送第一搜索结果。

第二方面，本申请实施例提出了一种多模态识图搜索装置，包括：接收模块，被配置成接收多模态搜索信息，多模态搜索信息包括待搜索图片和语音需求信息；搜索模块，被配置成基于待搜索图片和语音需求信息进行搜索，得到图片搜索结果和信息搜索结果；组合模块，被配置成组合图片搜索结果和信息搜索结果，得到第一搜索结果，以及推送第一搜索结果。

第三方面，本申请实施例提出了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面中任一实现方式描述的方法。

第四方面，本申请实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如第一方面中任一实现方式描述的方法。

第五方面，本申请实施例提出了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如第一方面中任一实现方式描述的方法。

本申请实施例提供的多模态识图搜索方法、装置、设备以及存储介质，首先接收多模态搜索信息，多模态搜索信息包括待搜索图片和语音需求信息；然后基于待搜索图片和语音需求信息进行搜索，得到图片搜索结果和信息搜索结果；最后组合图片搜索结果和信息搜索结果，得到第一搜索结果，以及推送第一搜索结果。本申请提供了一种融合多模态信息的搜索方法，能精准满足用户需求，提高了搜索效率，提升了用户体验。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显。附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的多模态识图搜索方法的一个实施例的流程图；

图3是图2所示的多模态识图搜索方法的接收搜索信息步骤的分解流程图；

图4是图2所示的多模态识图搜索方法的搜索步骤的分解流程图；

图5是根据本申请的多模态识图搜索方法的另一个实施例的流程图；

图6是多模态识图搜索方法的应用场景图；

图7是根据本申请的多模态识图搜索装置的一个实施例的结构示意图；

图8是用来实现本申请实施例的多模态识图搜索方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的多模态识图搜索方法或多模态识图搜索装置的实施例的示例性系统架构100。

如图1所示，系统架构100中可以包括终端设备101、网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101通过网络102与服务器103交互，以接收或发送消息等。终端设备101上可以安装有各种客户端应用，例如百度搜索引擎、浏览器等等。

终端设备101可以是硬件，也可以是软件。当终端设备101为硬件时，可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101为软件时，可以安装在上述电子设备中。其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器103可以提供各种服务。例如，服务器103可以对从终端设备101获取到的图片和语音等数据进行分析和处理，并生成处理结果(例如搜索结果)。

需要说明的是，服务器103可以是硬件，也可以是软件。当服务器103为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器103为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本申请实施例所提供的多模态识图搜索方法一般由服务器103执行，相应地，多模态识图搜索装置一般设置于服务器103中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2示出了根据本申请的多模态识图搜索方法的一个实施例的流程200。该多模态识图搜索方法包括以下步骤：

步骤201，接收多模态搜索信息，多模态搜索信息包括待搜索图片和语音需求信息。

在本实施例中，多模态识图搜索方法的执行主体(例如图1所示的服务器103)可以接收包括待搜索图片和语音需求信息的多模态搜索信息。待搜索图片包含用户想了解的事物的信息或是想购买的产品的信息，语音需求信息包含用户对于待搜索图片的需求信息。具体的，用户可以通过手机、平板电脑等客户端在搜索页面点击拍照按钮调用摄像头对想了解的事物或想购买的物品进行拍照，或者从本地相册选择相应的照片，将拍照得到的照片或选择的照片作为待搜索图片；客户端在获取到待搜索图片后，提示用户输入与待搜索图片相对应的语音需求信息，以便后续服务器通过待搜索图片结合语音需求信息为用户搜索到更加准确的结果，精准满足用户需求。例如：当用户拍摄一款产品的图片作为待搜索图片，用户的需求可以为：想要知道这款产品的价格，或是想将图片上的产品描述信息翻译成中文，或是想知道该款产品适不适合孕妇使用等，可以在语音需求信息中表达真正的需求。

客户端在获取到待搜索图片和语音需求信息后，会将待搜索图片和语音需求信息上传至服务器，服务器接收包括待搜索图片和语音需求信息的多模态搜索信息。

在本实施例的一些可选实现方式中，客户端在获取到待搜索图片后，会开启麦克风，并显示有声纹动态效果和文字提示“请说出想查找什么”，以提示用户输入与待搜索图片相对应的语音需求信息。

在本实施例的一些可选实现方式中，基于百度自然语言处理技术来检测用户输入的语音需求信息，当检测到三秒没声音时或判断用户输入的语音为一句完整的话时，客户端的搜索引擎会将待搜索图片和语音需求信息上传至服务器。

步骤202，基于待搜索图片和语音需求信息进行搜索，得到图片搜索结果和信息搜索结果。

在本实施例中，上述执行主体在接收到待搜索图片和语音需求信息后，在互联网中进行搜索，得到图片搜索结果和信息搜索结果。图片结果中包含待搜索图片中事物的信息或是待搜索图片中产品的相关信息，例如：当用户上传的待搜索图片中包含其想要了解的产品且该产品为一化妆水时，得到的图片搜索结果中会显示搜索到的该化妆水的品牌、名称、价格等信息。信息搜索结果包含基于用户语音需求信息搜索得到的相关搜索结果。例如：当用户上传的待搜索图片中包含其想要了解的产品且该产品为一化妆水，且该用户输入的语音需求信息为“该款产品孕妇可以使用吗”时，得到的信息搜索结果中会显示搜索到的该问题的答案。

步骤203，组合图片搜索结果和信息搜索结果，得到第一搜索结果，以及推送第一搜索结果。

在本实施例中，上述执行主体可以将在步骤202得到的图片搜索结果和信息搜索结果进行组合，从而得到第一搜索结果，并将该第一搜索结果推送展示给用户，该第一搜索结果为结合待搜索图片和语音需求信息进行搜索得到的满足用户需求的搜索结果。由于通过搜索得到的图片搜索结果和信息搜索结果都可能为多条，这其中可能包含非常符合用户需求非常的搜索结果，也可能包含与用户需求相关联的、不是很符合用户需求的搜索结果，但是用户可能最想看到的是最符合其需求的搜索结果。所以，将得到的多条搜索结果进行整合，优先展示给用户最能满足用户需求的搜索结果，能精准满足用户的需求，提升用户体验。

本申请实施例提供的多模态识图搜索方法，首先接收多模态搜索信息，多模态搜索信息包括待搜索图片和语音需求信息；然后基于待搜索图片和语音需求信息进行搜索，得到图片搜索结果和信息搜索结果；最后组合图片搜索结果和信息搜索结果，得到第一搜索结果，以及推送第一搜索结果。本申请提供了一种融合多模态信息的搜索方法，能精准满足用户需求，提高了搜索效率，提升了用户体验。

为了便于理解，下面对图2提供的多模态识图搜索方法的各个步骤分别进行详细描述。需要说明的是，以下分解方法仅作为示例，不做具体限定，其他可行分解方法同样适用。

进一步参考图3，其示出了图2所示的多模态识图搜索方法的接收搜索信息步骤的分解流程300。该接收信息步骤可以分解如下：

步骤301，客户端获取待搜索图片。

在本实施例中，客户端在获取待搜索图片时，可以接收到用户点击搜索页面的拍照按钮后，调用摄像头拍摄待搜索图片，或者获取用户直接上传本地相册的图片作为待搜索图片。

步骤302，客户端在照片预览界面显示语音需求信息的输入提示。

在本实施例中，无论用户是调用摄像头进行拍摄的待搜索图片还是直接上传本地相册的图片作为待搜索图片，客户端都会在获取待搜索图片之后生成照片预览界面，以显示待搜索图片。并在照片预览界面显示语音需求信息的输入提示。

在本实施例的一些可选实现方式中，用户基于语音需求信息的输入提示来输入语音需求信息，该输入提示为录音按钮。具体的，用户点击录音按钮时开始进行录音，用户释放录音按钮时停止录音，将该录音作为语音需求信息。

步骤303，客户端获取用户输入的语音需求信息，并将包含待搜索图片和语音需求信息的多模态搜索信息上传至服务器。

在本实施例中，客户端获取到包含待搜索图片和语音需求信息的多模态搜索信息，将多模态搜索信息上传至服务器，以请求服务器根据多模态搜索信息进行搜索。

步骤304，服务器接收多模态搜索信息。

在本实施例中，服务器接收客户端发送的多模态搜索信息。

在本实施例的一些可选实现方式中，服务器接收用户通过摄像头拍摄的待搜索图片；或者接收用户通过本地相册上传的待搜索图片。

在本实施例的一些可选实现方式中，服务器会接收用户基于语音需求信息的输入提示输入的语音需求信息。在获取到待搜索图片后，显示语音需求信息的输入提示，用户基于该提示输入语音需求信息，服务器接收用户输入的语音需求信息，能够更准确的了解用户需求，以进行更有针对性的搜索。

本申请实施例提供的接收搜索信息方法，首先客户端获取待搜索图片；之后客户端在照片预览界面显示语音需求信息的输入提示；然后客户端获取用户输入的语音需求信息，并将包含待搜索图片和语音需求信息的多模态搜索信息上传至服务器；最后服务器接收多模态搜索信息。提供了服务器接收包含待搜索图片和语音需求信息的多模态搜索信息的方法，通过接收用户表达需求的语音需求信息，能够精准满足用户需求进行搜素，提升搜索效率。

进一步参考图4，其示出了图2所示的多模态识图搜索方法的搜索步骤的分解流程400。该搜索步骤可以分解如下：

步骤401，对待搜索图片和语音需求信息进行识别，得到图片识别结果和语音识别结果。

在本实施例中，对接收到的待搜索图片和语音需求信息进行识别，以得到对应的图片识别结果和语音识别结果。通过对图片进行识别能够得到包含图片中事物或产品的主体信息，例如：当待搜索图片包含一款化妆水(具体为某某品牌)时，通过对待搜索图片进行识别，能得到识别结果：待搜索图片的主体为“某某品牌化妆水”。对语音需求信息进行识别包括采用语音识别技术将用户输入的语音需求信息进行分析，以获取用户话语的语义信息。

在本实施例的一些可选实现方式中，基于多目标识别技术对待搜索图片进行识别，得到图片识别结果，图片识别结果包括待搜索图片的主体信息。基于多目标识别技术进行识别的过程是秒级的，能够快速得到待搜索图片中事物或产品的主体信息。

在本实施例的一些可选实现方式中，对语音需求信息进行语义识别，得到语音识别结果，语音识别结果包括与语音需求信息对应的文本信息。通过语义识别生成与语音需求信息相对应的文本信息，对文本信息进行语义理解，基于语义理解的结果能精准确定用户的需求。

步骤402，融合图片识别结果和语音识别结果进行搜索，得到图片搜索结果和信息搜索结果。

在本实施例中，将通过步骤401得到的图片识别结果和语音识别结果进行融合，并在互联网中进行搜索，得到图片搜索结果和信息搜索结果。具体的，基于图片识别结果中的事物或产品的主体信息进行搜索，得到包括名称、产地、价格等信息的图片搜索结果，图片搜索结果能直观的展示给用户待搜索图片中的事物或产品的相关信息。基于用户的语音需求信息所对应的语义信息进行搜素，得到信息搜索结果，信息搜索结果展示结合用户真实需求的相关搜索结果。

在本实施例的一些可选实现方式中，将语音识别结果中的主体信息替换为待搜索图片的主体信息，得到第一需求信息。通过对待搜索图片进行识别能得到图片识别结果，该图片识别结果中包含待搜索图片中的产品或事物的主体信息，有些时候用户输入的语音需求信息中没有包含待搜索主体，这时就需要将用户语音需求信息对应的文本信息中的主体信息替换为通过识别得到的待搜索图片的主体信息，得到第一需求信息，该第一需求信息为一句完整的能表达用户需求的文本信息。例如：当待搜索图片为一款化妆水(具体为某某品牌)，通过图片识别得到该待搜索图片的主体为某某品牌化妆水；且通过对用户的语音需求信息进行语音识别得到语音识别结果为“这款产品孕妇可以使用吗”时，可以将该文本信息中的主体进行替换，得到第一需求信息“某某品牌化妆水孕妇可以使用吗”。通过此过程可以更加清楚的表达用户真实的需求，以便后续结合用户的真实需求进行搜索。

在本实施例的一些可选实现方式中，融合图片识别结果和第一需求信息进行搜索，得到图片搜索结果和信息搜索结果。结合图片识别结果和包含用户完整需求的第一需求信息进行搜索，得到的搜索结果将用户最想要了解的内容展示给用户，能够精准的满足用户需求。

本申请实施例提供的搜索方法，首先对待搜索图片和语音需求信息进行识别，得到图片识别结果和语音识别结果；然后融合图片识别结果和语音识别结果进行搜索，得到图片搜索结果和信息搜索结果。提供了一种融合图片和语音识别结果进行搜索的方法，能针对用户的需求进行搜索并将优质的搜索结果展示给用户，提升用户体验。

图5示出了根据本申请的多模态识图搜索方法的另一个实施例的流程500。该多模态识图搜索方法包括以下步骤：

步骤501，接收多模态搜索信息。

在本实施例中，上述执行主体可以接收包含待搜索图片和语音需求信息的多模态搜索信息。

步骤502，对待搜索图片和语音需求信息进行识别，得到图片识别结果和语音识别结果。

在本实施例中，上述执行主体可以对待搜索图片和语音需求信息进行识别，从而得到相应的图片识别结果和语音识别结果。

步骤503，将语音识别结果中的主体信息替换为待搜索图片的主体信息，得到第一需求信息。

在本实施例中，上述执行主体可以将语音识别结果中的主体信息替换为待搜索图片的主体信息，从而得到包含完整的用户真实需求的第一需求信息。

步骤504，融合图片识别结果和第一需求信息进行搜索，得到图片搜索结果和信息搜索结果。

在本实施例中，上述执行主体可以融合图片识别结果和第一需求信息进行搜索，得到相应的图片搜索结果和信息搜索结果。

步骤505，组合图片搜索结果和信息搜索结果，得到第一搜索结果，并推送第一搜索结果。

在本实施例中，上述执行主体可以对图片搜索结果和信息搜索结果进行组合，得到最终的搜索结果，推送给用户。

在本实施例的一些可选实现方式中，图片搜索结果包括但不限于：带有预定ID标识的第一识图结果、没有预定ID标识的第二识图结果。比如当使用百度搜索引擎进行搜索时，会将搜索结果以卡片化的方式进行呈现，卡片展现内容以图片、视频为主，以文字为辅，便于用户快速获取搜索结果，减少用户的交互成本。卡片是指显示界面中能够独立显示一条搜索结果的区域，例如以方形或者长方形等形状展示。得到的图片搜索结果可能为一条或者多条，在图片搜索结果列表中第一个为带有卡片ID的识图结果认知卡，该条搜索结果的主要内容是展示图片主体目标的相关信息。图片搜索结果列表中可能还会包括没有卡片ID的其他识图卡。将图片搜索结果分为带有预定ID标识的识图结果和没有预定ID标识的识图结果，并将带有预定ID标识的识图结果优先展示给用户，能够达到将优质的搜索结果展示给用户的效果。

在本实施例的一些可选实现方式中，信息搜索结果包括但不限于：带有预定第一结果标识的第一信息结果、没有预定第一结果标识的第二信息结果。比如当使用百度搜索引擎进行搜索时，得到的信息搜索结果列表中会有带有预定第一结果标识的第一信息结果，如带有top1结果标识的结果，top1的结果不是自然结果，是百度内部整理的数据资源，并用阿拉丁卡片的形式展示在第一位的结果。另外，信息搜索结果列表中也包括没有预定第一结果标识的信息结果。将信息搜索结果分为带有预定第一结果标识的信息结果和没有预定第一结果标识的信息结果，并优先展示给用户有预定第一结果标识(如top1结果标识)的结果，能够达到将优质的搜索结果展示给用户的效果。

在本实施例的一些可选实现方式中，第一搜索结果包括但不限于以下其中一项：带有预定ID标识的第一识图结果及带有预定第一结果标识的第一信息结果；带有预定ID标识的第一识图结果及没有预定第一结果标识的第二信息结果；没有预定ID标识的第二识图结果及没有预定第一结果标识的第二信息结果。展示给用户最终的搜索结果的顺序为：优先展示带有预定ID标识的第一识图结果及带有预定第一结果标识的第一信息结果，即带有卡片ID的识图结果认知卡和带有top1结果标识的文本结果；当没有带有top1结果标识的文本结果时，展示带有卡片ID的识图结果认知卡和文本结果中的前五条结果；最后展示其余的识图结果和其余的文本结果。通过将搜索结果进行整合，将优质内容展示给用户，能精准满足用户需求，从而提升用户体验。

本申请实施例提供的多模态识图搜索方法，首先接收多模态搜索信息；之后对待搜索图片和语音需求信息进行识别，得到图片识别结果和语音识别结果；然后将语音识别结果中的主体信息替换为待搜索图片的主体信息，得到第一需求信息；之后融合图片识别结果和第一需求信息进行搜索，得到图片搜索结果和信息搜索结果；最后组合图片搜索结果和信息搜索结果，得到第一搜索结果，并推送第一搜索结果。本申请提供了一种融合多模态信息的搜索方法，能精准满足用户需求，提高了搜索效率，提升了用户体验。

继续参考图6，其示出了多模态识图搜索的应用场景。如图6所示，通过点击图6中左侧第一幅图片上的拍照按钮来拍摄照片作为待搜索图片，或是直接上传本地相册的图片作为待搜索图片；客户端在获取到待搜索图片后，会生成照片预览界面，以显示待搜索图片，并在照片预览界面显示语音需求信息的输入提示，如图6中的左侧第二幅图片所示。客户端在获取到用户输入的语音需求信息之后，会将待搜索图片和语音需求信息一起上传至服务器，服务器接收待搜索图片和语音需求信息。对待搜索图片进行识别，得到图片识别结果；对语音需求信息进行语义识别，得到语音识别结果。融合所述图片识别结果和所述语音识别结果进行搜索，得到图片搜索结果和信息搜索结果。组合图片搜索结果和信息搜索结果，得到最终的搜索结果，并将该搜索结果推送展示给用户，展示给用户的最终的搜索结果如图6中右侧第一幅图片所示。

进一步参考图7，作为对上述各图所示方法的实现，本申请提供了一种多模态识图搜索装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图7所示，本实施例的多模态识图搜索装置700可以包括：接收模块701、搜索模块702和组合模块703。其中，接收模块701，被配置成接收多模态搜索信息，多模态搜索信息包括待搜索图片和语音需求信息；搜索模块702，被配置成基于待搜索图片和语音需求信息进行搜索，得到图片搜索结果和信息搜索结果；组合模块703，被配置成组合图片搜索结果和信息搜索结果，得到第一搜索结果，以及推送第一搜索结果。

在本实施例中，多模态识图搜索装置700中：接收模块701、搜索模块702和组合模块703的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-203的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，搜索模块包括：识别子模块，被配置成对待搜索图片和语音需求信息进行识别，得到图片识别结果和语音识别结果；融合子模块，被配置成融合图片识别结果和语音识别结果进行搜索，得到图片搜索结果和信息搜索结果。

在本实施例的一些可选的实现方式中，识别子模块进一步配置成：基于多目标识别技术对待搜索图片进行识别，得到图片识别结果，图片识别结果包括待搜索图片的主体信息；对语音需求信息进行语义识别，得到语音识别结果，语音识别结果包括与语音需求信息对应的文本信息。

在本实施例的一些可选的实现方式中，融合子模块进一步配置成：将语音识别结果中的主体信息替换为待搜索图片的主体信息，得到第一需求信息；融合图片识别结果和第一需求信息进行搜索，得到图片搜索结果和信息搜索结果。

在本实施例的一些可选的实现方式中，融合子模块进一步配置成：图片搜索结果包括以下至少一项：带有预定ID标识的第一识图结果、没有预定ID标识的第二识图结果；信息搜索结果包括以下至少一项：带有预定第一结果标识的第一信息结果、没有预定第一结果标识的第二信息结果。

在本实施例的一些可选的实现方式中，组合模块进一步配置成：第一搜索结果包括以下其中一项：带有预定ID标识的第一识图结果及带有预定第一结果标识的第一信息结果；带有预定ID标识的第一识图结果及没有预定第一结果标识的第二信息结果；没有预定ID标识的第二识图结果及没有预定第一结果标识的第二信息结果。

在本实施例的一些可选的实现方式中，接收模块进一步配置成：接收用户通过摄像头拍摄的待搜索图片；或者接收用户通过本地相册上传的待搜索图片。

在本实施例的一些可选的实现方式中，接收模块进一步配置成：在接收待搜索图片后，接收多模态搜索信息还包括接收语音需求信息，接收语音需求信息包括：接收用户基于语音需求信息的输入提示输入的语音需求信息。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

如图8所示，是根据本申请实施例多模态识图搜索方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示，该电子设备包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的多模态识图搜索方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的多模态识图搜索方法。

存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的多模态识图搜索方法对应的程序指令/模块(例如，附图7所示的接收模块701、搜索模块702和组合模块703)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的多模态识图搜索方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据多模态识图搜索方法的电子设备的使用所发送的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至多模态识图搜索方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

多模态识图搜索方法的电子设备还可以包括：输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接，图8中以通过总线连接为例。

输入装置803可接收发送的多模态搜索信息，以及产生与多模态识图搜索方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请的技术方案，首先接收多模态搜索信息，多模态搜索信息包括待搜索图片和语音需求信息；然后基于待搜索图片和语音需求信息进行搜索，得到图片搜索结果和信息搜索结果；最后组合图片搜索结果和信息搜索结果，得到第一搜索结果，以及推送第一搜索结果。本申请提供了一种融合多模态信息的搜索方法，能精准满足用户需求，提高了搜索效率，提升了用户体验。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种多模态识图搜索方法，包括：

接收多模态搜索信息，所述多模态搜索信息包括待搜索图片和语音需求信息；

基于所述待搜索图片和语音需求信息进行搜索，得到图片搜索结果和信息搜索结果；

组合所述图片搜索结果和所述信息搜索结果，得到第一搜索结果，以及推送所述第一搜索结果；

其中，所述基于所述待搜索图片和语音需求信息进行搜索，得到图片搜索结果和信息搜索结果，包括：

对所述待搜索图片和所述语音需求信息进行识别，得到图片识别结果和语音识别结果；

融合所述图片识别结果和所述语音识别结果进行搜索，得到图片搜索结果和信息搜索结果；

其中，所述融合所述图片识别结果和所述语音识别结果进行搜索，得到图片搜索结果和信息搜索结果，包括：

将所述语音识别结果中的主体信息替换为所述待搜索图片的主体信息，得到第一需求信息；

融合所述图片识别结果和所述第一需求信息进行搜索，得到图片搜索结果和信息搜索结果。

2.根据权利要求1所述的方法，其中，所述对所述待搜索图片和所述语音需求信息进行识别，得到图片识别结果和语音识别结果，包括：

基于多目标识别技术对所述待搜索图片进行识别，得到图片识别结果，所述图片识别结果包括所述待搜索图片的主体信息；

对所述语音需求信息进行语义识别，得到语音识别结果，所述语音识别结果包括与所述语音需求信息对应的文本信息。

3.根据权利要求2所述的方法，其中，所述图片搜索结果包括以下至少一项：带有预定ID标识的第一识图结果、没有预定ID标识的第二识图结果；

所述信息搜索结果包括以下至少一项：带有预定第一结果标识的第一信息结果、没有预定第一结果标识的第二信息结果。

4.根据权利要求3所述的方法，其中，所述第一搜索结果包括以下其中一项：

所述带有预定ID标识的第一识图结果及所述带有预定第一结果标识的第一信息结果；

所述带有预定ID标识的第一识图结果及没有预定第一结果标识的第二信息结果；

所述没有预定ID标识的第二识图结果及没有预定第一结果标识的第二信息结果。

5.根据权利要求1所述的方法，其中，所述接收多模态搜索信息包括接收待搜索图片，所述接收待搜索图片包括：

接收用户通过摄像头拍摄的待搜索图片；或者

接收用户通过本地相册上传的待搜索图片。

6.根据权利要求5所述的方法，其中，在所述接收待搜索图片后，所述接收多模态搜索信息还包括接收语音需求信息，所述接收语音需求信息包括：

接收用户基于语音需求信息的输入提示输入的语音需求信息。

7.一种多模态识图搜索装置，包括：

接收模块，被配置成接收多模态搜索信息，所述多模态搜索信息包括待搜索图片和语音需求信息；

搜索模块，被配置成基于所述待搜索图片和语音需求信息进行搜索，得到图片搜索结果和信息搜索结果；

组合模块，被配置成组合所述图片搜索结果和所述信息搜索结果，得到第一搜索结果，以及推送所述第一搜索结果；

其中，所述搜索模块包括：

识别子模块，被配置成对所述待搜索图片和所述语音需求信息进行识别，得到图片识别结果和语音识别结果；

融合子模块，被配置成融合所述图片识别结果和所述语音识别结果进行搜索，得到图片搜索结果和信息搜索结果；

其中，所述融合子模块进一步配置成：

8.根据权利要求7所述的装置，其中，所述识别子模块进一步配置成：

9.根据权利要求8所述的装置，其中，所述融合子模块进一步配置成：

所述图片搜索结果包括以下至少一项：带有预定ID标识的第一识图结果、没有预定ID标识的第二识图结果；

10.根据权利要求9所述的装置，其中，所述组合模块进一步配置成：

所述第一搜索结果包括以下其中一项：

11.根据权利要求7所述的装置，其中，所述接收模块进一步配置成：

接收用户通过摄像头拍摄的待搜索图片；或者

接收用户通过本地相册上传的待搜索图片。

12.根据权利要求7所述的装置，其中，所述接收模块进一步配置成：

在接收待搜索图片后，所述接收多模态搜索信息还包括接收语音需求信息，所述接收语音需求信息包括：

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。