CN116628278A

CN116628278A - 多模态搜索方法、装置、存储介质和设备

Info

Publication number: CN116628278A
Application number: CN202310090103.0A
Authority: CN
Inventors: 杨娟; 杨再飞; 翟士丹; 胡蓉
Original assignee: Beijing Haizhi Xingtu Technology Co ltd
Current assignee: Beijing Haizhi Xingtu Technology Co ltd
Priority date: 2023-02-09
Filing date: 2023-02-09
Publication date: 2023-08-22

Abstract

本发明提供一种多模态搜索方法、装置、存储介质和设备，所述方法包括：分别从多模态数据和待查询数据中提取深语义表征向量和浅语义表征内容，计算待查询数据的深语义表征向量与多模态数据的深语义表征向量的第一相似度，获得第一预设数目个多模态数据，计算待查询数据浅语义表征内容与多模态数据的浅语义表征内容的第二相似度，获得第二预设数目个多模态数据，将第一预设数目个多模态数据和第二预设数目个多模态数据组合后获得召回数据，提取召回数据的特征后输入特征组合模型，输出匹配得分，根据匹配得分获得多模态搜索结果。本发明能够针对待查询内容从多模态数据中一次性找到相应内容，搜索速度快且搜索准确率高。

Description

多模态搜索方法、装置、存储介质和设备

技术领域

本发明涉及人工智能技术领域，尤其涉及一种多模态搜索方法、装置、存储介质和设备。

背景技术

当前是信息爆炸的时代，用户身边被各种数据包围，但是要找的自己想要的数据，需要花费更多的时间仔细筛选。

大多数搜索平台对数据的检索都是某一单一模态，例如：想要搜索某一张图片，则需要在搜索平台中输入与图片相关的文字来搜索；想要搜索某一个视频，需要在搜索平台中输入与视频相关的文字来搜索；想要搜索某些文档或者某条新闻，则需要在搜索平台中输入与文档或者新闻相关的文字来搜索。现有技术采用的搜索方法只能在单一模态的数据中进行搜索，用户需要对每种模态的数据分别搜索才能获得想要的内容，搜索速度慢；与此同时，当用户输入的文字与其想要搜索的内容不太匹配时，还会导致搜索到的内容不准确。

发明内容

有鉴于此，本发明提供一种多模态搜索方法、装置、存储介质和设备，能够针对待查询内容从多模态数据中一次性找到相应内容，搜索速度快且搜索准确率高。

第一方面，本发明实施例提供一种多模态搜索方法，其特征在于，所述方法包括：

从多模态数据中提取多模态文本信息，获得多模态深语义表征向量和多模态浅语义表征内容；

从待查询数据中提取待查询数据信息，获得待查询数据的深语义表征向量和带查询文本的浅语义表征内容；

计算所述待查询数据的深语义表征向量和所述多模态深语义表征向量的第一相似度，根据第一相似度得分获得第一预设数目个多模态数据；

计算所述待查询数据的浅语义表征内容和所述多模态浅语义表征内容的第二相似度，根据第二相似度得分获得第二预设数目个多模态数据；

将所述第一预设数目个多模态数据和第二预设数目个多模态数据进行组合获得召回数据；

对所述召回数据提取特征后输入特征组合模型，输出所述待查询数据与多模态数据的匹配得分，根据匹配得分获得所述待查询数据的多模态搜索结果。

进一步地，所述多模态数据包括各种类型的文档文本、图片、音频和视频，所述从多模态数据中提取多模态文本信息，获得多模态深语义表征向量和多模态浅语义表征内容包括：

对所述文档文本、图片、音频和视频分别进行解析，分别提取所述文档文本、图片、音频和视频中的标题、关键字、摘要和文本内容；

对所述标题、关键字和摘要进行向量化处理，获得多模态深语义表征向量，存入深语义表征数据库；

将所述标题和文本内容作为多模态浅语义表征向量，存入浅语义表征数据库。

进一步地，利用文档解析器对所述文档文本进行解析，提取所述文档文本中的标题、关键词、摘要和文本内容。

进一步地，对所述图片进行解析，提取所述图片中的标题、关键词、摘要和文本内容包括：

利用图片分类模型对图片进行分类，获得图片的分类标签；

使用文字识别方法从所述图片中提取文档文本；

利用文档编辑器对所述图片中提取的文档文本进行解析，获得图片对应的标题、关键词、摘要和文本内容。

进一步地，所述方法还包括：

检测所述图片对应的标题是否存在；

如存在，则将所述图片对应的标题和所述图片的分类标签作为所述召回数据的其中一种提取特征；

如不存在，则将所述图片对应的分类标签作为所述召回数据的其中一种提取特征。

进一步地，所述音频和视频进行解析，提取所述音频和视频中的标题、关键词、摘要和文本内容包括：

检测所述音频和视频中有无字幕；

若有，则提取所述音频和视频中的字幕文本，利用文档解析器提取所述字幕文本中的标题、关键词、摘要和文本内容；

若无，则将所述音频和视频中的语音文本转换为文档文本，利用文档解析器提取所述文档文本中的标题、关键词、摘要和文本内容。

进一步地，对所述召回数据提取特征包括：

将所述第二相似度得分进行归一化，获得归一化后的相似度得分；

计算所述待查询数据的深语义表征向量和所述召回数据的深语义表征向量的第三相似度得分；

所述待查询数据与所述召回数据的可编辑距离；

待查询数据中的文字数目；

所述召回数据中的文字内容总数；

根据所述召回数据的深语义表征向量和所述第三相似度得分的比值获得第一匹配比例；

根据所述第三相似度得分和所述可编辑距离的比例获得第二匹配比例；

所述多模态数据的内容类型标签、更新日期及评论数目。

第二方面，本发明实施例提供一种多模态搜索装置，所述装置包括：

多模态表征内容提取模块，用于从多模态数据中提取多模态文本信息，获得多模态深语义表征向量和多模态浅语义表征内容；

待查询数据表征内容提取模块，用于从待查询数据中提取待查询数据信息，获得待查询数据的深语义表征向量和带查询文本的浅语义表征内容；

第一相似度计算模块，用于计算所述待查询数据的深语义表征向量和所述多模态深语义表征向量的第一相似度，根据第一相似度得分获得第一预设数目个多模态数据；

第二相似度计算模块，用于计算所述待查询数据的浅语义表征内容和所述多模态浅语义表征内容的第二相似度，根据第二相似度得分获得第二预设数目个多模态数据；

组合模块，用于将所述第一预设数目个多模态数据和第二预设数目个多模态数据进行组合获得召回数据；

匹配模块，用于对所述召回数据提取特征后输入特征组合模型，输出所述待查询数据与多模态数据的匹配得分，根据匹配得分获得所述待查询数据的多模态搜索结果。

第三方面，本发明实施例提供一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述第一方面中任一项所述的方法。

第四方面，本发明实施例提供一种设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述第一方面中任一项所述的方法。

本发明提供的技术方案，通过从多模态数据中提取多模态文本信息，获得多模态深语义表征向量和多模态浅语义表征内容，以及从待查询数据中提取待查询数据的深语义表征向量和待查询数据的浅语义表征内容，之后计算待查询数据的深语义表征向量和多模态语义表征向量的第一相似度，根据第一相似度得分获得第一预设数目个多模态数据，计算待查询数据的浅语义表征内容和多模态浅语义表征内容的第二相似度，根据第二相似度得分获得第二预设数目个多模态数据，将第一预设数目个多模态数据和第二预设数目个多模态数据进行组合得到召回数据，将召回数据提取特征后输入特征组合模型，输出待查询数据与多模态数据的匹配得分，根据匹配得分获得待查询数据的搜索结果。由此，本申请通过提取多模态数据中的深语义表征向量和浅语义表征内容，之后分别将待查询数据的深语义表征向量和浅语义表征内容与多模态数据的深语义表征向量和浅语义表征内容进行相似度计算，根据相似度计算结果获得初步筛选的多模态数据，之后将两种相似度计算方式获得的多模态数据进行组合后获得召回数据，最后提取召回数据的特征后输入特征组合模型，最后输出匹配得分，根据匹配得分能够得到搜索结果，因此，本申请能够通过一次搜索，得到与待查询内容相关的文档、图片、音频和视频内容，提高了搜索速度，且由于不需要用户手动输入搜索内容相关的文字，因此提高了搜索准确率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

图1是本发明实施例提供的一种多模态搜索方法流程图；

图2是本发明实施例提供的一种多模态搜索装置的结构图；

图3是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的一种多模态搜索方法的流程图，所述方法包括以下步骤：

步骤101、从多模态数据中提取多模态文本信息，获得多模态深语义表征向量和多模态浅语义表征内容。

在本步骤中，首先对多模态数据进行处理，从多模态数据中提取文本信息，并对文本信息进行向量化处理。其中，多模态数据可以是文档文本、图片、音频和视频中的任意一种或者多种。

在一些实施例中，从所模态数据中提取多模态文本信息，获得多模态语义表征向量和多模态浅语义表征内容可包括：

步骤1011、对所述文档文本、图片、音频和视频分别进行解析，分别提取所述文档文本、图片、音频和视频中的标题、关键字、摘要和文本内容；

步骤1012、对所述标题、关键字和摘要进行向量化处理，获得多模态深语义表征向量，存入深语义表征数据库；

步骤1013、将所述标题和文本内容作为多模态浅语义表征向量，存入浅语义表征数据库。

具体地，针对文档文本，对文档文本进行解析，分别提取文档文本的标题、关键字、摘要和文本内容可通过以下方式来实现：

对多模态数据中的各种类型的文档利用文档解析器进行解析，分别获得每一篇文档的标题、关键词、摘要以及全文文本内容。

在本申请中，将每一篇文档进行解析后，可以获得每一篇文档的标题、关键词、摘要及全文文本内容。其中，标题分为至少两级子标题，并对每个子标题进行扩展，将每个子标题的上级标题和当前子标题作为标题索引，将当前子标题对应的段落内容作为内容索引，分别对所述标题索引和所述内容索引进行向量化处理，将向量化处理后的标题索引和内容索引存储至所述句对索引。

针对多模态数据中的图片，则首先使用图片分类模型将图片进行分类获取分类标签，例如，将图片输入分类模型后，能够获得图片的内容分类标签，如娱乐、军事、社会、少儿等，同时使用文字识别方法(例如：光学字符识别方法，OpticalCharacterRecognition，简称OCR)提取功能提取，图片内的文本文字，再使用文档解析器提取文本内容的关键词与摘要信息，将图片的标题、关键词与摘要信息作为文档的表征内容，进行向量化处理后生成深语句表征向量，存入深语义表征数据库，再把文本的标题以及图片描述以及图片文字识别内容等文本信息作为浅语义表征内容存入浅语义表征数据库。

在一些实施例中，利用文档编辑器对所述图片中提取的文档文本进行解析后，所述方法还包括：检测所述图片对应的标题是否存在，如果存在标题，则图片对应的标题和所述图片的分类标签作为所述召回数据的其中一种提取特征，如不存在，则将所述图片对应的分类标签作为所述召回数据的其中一种提取特征。其中，召回数据指的是根据待查询数据的深语义表征向量和浅语义表征内容分别与多模态深语义表征向量和多模态浅语义表征内容之间的相似度获得的多模态数据的组合，关于召回数据将在下文中详细阐述。

针对多模态数据中的音频和视频文档，对音频和视频内容，首先判断音频和视频中有无字母，有字幕的使用原始字幕，没有字幕的使用语音转文字，提取音频和视频内部的字幕，对字幕内容再使用文档解析器提取文本内容的标题、关键词与摘要信息，将音频和视频的标题、关键词与摘要信息作为文档的表征内容，进行向量化处理后生成深语句表征向量，存入深语义表征数据库，再把文本的标题以及字幕等文本信息作为浅语义表征内容存储处理。

由此，本申请的多模态数据包括了文档文本、图片、音频和视频，深语义表征数据库中存储了文档文本、图片、音频和视频的标题、关键词和摘要信息，浅语义表征数据库中存储了文档文本、图片、音频和视频的标题、关键词、图片内容等。

步骤102、从待查询数据中提取待查询数据信息，获得待查询数据的深语义表征向量和待查询数据的浅语义表征内容。

在本步骤中，对待查询数据进行处理，从待查询数据中提取待查询数据信息，获得待查询数据的深语义表征向量和浅语义表征内容。

具体地，当待查询数据是文本文档时，对待查询文档进行解析，提取待查询文档中的文字，使用文档解析器提取文本内容的标题、关键词与摘要信息。将待查询文档的标题、关键词和摘要信息进行向量化处理后生成待查询数据的深语义表征向量，再把待查询数据文档的标题以及内容等文本信息作为待查询数据的浅语义表征内容。

当待查询数据是图片时，则首先使用图片分类模型将待查询图片进行分类获取分类标签，例如，将待查询图片输入分类模型后，能够获得待查询图片的内容分类标签，如娱乐、军事、社会、少儿等，将图片的分类标签作为图片的标题，同时使用文字识别方法(例如：光学字符识别方法，OpticalCharacter Recognition，简称OCR)提取功能提取，获得待查询图片内的文本文字，再使用文档解析器提取文本内容的关键词与摘要信息，将待查询图片的标题、关键词与摘要信息作为文档的表征内容，进行向量化处理后生成待查询图片的深语句表征向量，再把文本的标题以及图片描述以及图片文字识别内容等文本信息作为待查询图片的浅语义表征内容。

当待查询数据为音频和视频文档时，首先判断待查询音频和视频中有无字母，有字幕的使用原始字幕，没有字幕的使用语音转文字，提取待查询音频和视频内部的字幕，对字幕内容再使用文档解析器提取文本内容的标题、关键词与摘要信息，将待查询音频和视频的标题、关键词与摘要信息作为文档的表征内容，进行向量化处理后生成待查询数据的深语句表征向量，再把文本的标题以及字幕等文本信息作为待查询数据的浅语义表征内容。

步骤103、计算所述待查询数据的深语义表征向量和所述多模态深语义表征向量的第一相似度，根据第一相似度得分获得第一预设数目个多模态数据。

在本步骤中，计算待查询数据生成的深语义表征向量和多模态数据生成的深语义表征向量之间的第一相似度，例如，可以使用余弦相似度的计算方式，计算获取待查询数据生成的深语义表征向量和多模态数据生成的深语义表征向量的第一相似度，根据第一相似度的得分结果，然后排序获取前topN个数的多模态数据。其中，第一预设数目N的取值可以按照经验值来选取。相似度计算方法除了余弦相似度计算方法外，还可采用其他相似度计算方法，本申请对此不作限定。

步骤104、计算所述待查询数据的浅语义表征内容和所述多模态浅语义表征内容的第二相似度，根据第二相似度得分获得第二预设数目个多模态数据。

在本步骤中，可以使用文本相似度计算方法BM25算法计算待查询数据的浅语义表征内容和多模态浅语义表征内容的第二相似度，根据第二相似度得分，对第二相似度得分进行排序后，选取排序靠前的前topM个多模态数据，其中，M的取值可以由经验值得出，M和N的取值可以相同也可以不同。

步骤105、将所述第一预设数目个多模态数据和第二预设数目个多模态数据进行组合获得召回数据。

在本步骤中，把第一预设数目个多模态数据和第二预设数目个多模态数据进行组合，也即将根据第一相似度计算结果获取的前N个多模态数据和根据第二相似度计算结果获取的前M个多模态数据进行组合。

步骤106、对所述召回数据提取特征后输入特征组合模型，输出所述待查询数据与多模态数据的匹配得分，根据匹配得分获得所述待查询数据的多模态搜索结果。

在本步骤中，对召回数据提取特征可包括：

步骤1061、将所述第二相似度得分进行归一化，获得归一化后的相似度得分；

步骤1062、计算所述待查询数据的深语义表征向量和所述召回数据的深语义表征向量的第三相似度得分；

步骤1063、所述待查询数据与所述召回数据的可编辑距离；

步骤1064、待查询数据中的文字数目；

步骤1065、所述召回数据中的文字内容总数；

步骤1066、根据所述召回数据的深语义表征向量和所述第三相似度得分的比值获得第一匹配比例；

步骤1067、根据所述第三相似度得分和所述可编辑距离的比例获得第二匹配比例；

步骤1068、所述多模态数据的内容类型标签、更新日期及评论数目。

在本步骤中，对召回数据提取上述特征后，将上述特征输入特征组合模型，该特征组合模型可以是xgboost+LR模型，以将待查询数据与召回数据的匹配得分，之后将匹配得分按照得分从高到低的顺序进行排序，可以选取得分靠前的多模态数据作为多模态搜索结果。

请参照图2，图2是本发明实施例提供的一种多模态搜索装置的结构图，所述装置包括：

多模态表征内容提取模块21，用于从多模态数据中提取多模态文本信息，获得多模态深语义表征向量和多模态浅语义表征内容；

待查询数据表征内容提取模块22，用于从待查询数据中提取待查询数据信息，获得待查询数据的深语义表征向量和带查询文本的浅语义表征内容；

第一相似度计算模块23，用于计算所述待查询数据的深语义表征向量和所述多模态深语义表征向量的第一相似度，根据第一相似度得分获得第一预设数目个多模态数据；

第二相似度计算模块24，用于计算所述待查询数据的浅语义表征内容和所述多模态浅语义表征内容的第二相似度，根据第二相似度得分获得第二预设数目个多模态数据；

组合模块25，用于将所述第一预设数目个多模态数据和第二预设数目个多模态数据进行组合获得召回数据；

匹配模块26，用于对所述召回数据提取特征后输入特征组合模型，输出所述待查询数据与多模态数据的匹配得分，根据匹配得分获得所述待查询数据的多模态搜索结果。

在一些实施例中，所述多模态数据包括各种类型的文档文本、图片、音频和视频。

在一些实施例中，多模态表征内容提取模块21可包括：

解析单元211，用于对所述文档文本、图片、音频和视频分别进行解析，分别提取所述文档文本、图片、音频和视频中的标题、关键字、摘要和文本内容；

深语义表征单元212，用于对所述标题、关键字和摘要进行向量化处理，获得多模态深语义表征向量，存入深语义表征数据库；

浅语义表征单元213，用于将所述标题和文本内容作为多模态浅语义表征向量，存入浅语义表征数据库。

在一些实施例中，利用文档解析器对所述文档文本进行解析，提取所述文档文本中的标题、关键词、摘要和文本内容。

在一些实施例中，对所述图片进行解析，提取所述图片中的标题、关键词、摘要和文本内容包括：

利用图片分类模型对图片进行分类，获得图片的分类标签；

使用文字识别方法从所述图片中提取文档文本；

利用文档编辑器对所述图片中提取的文档文本进行解析，获得图片对应的关键词、摘要和文本内容。

在一些实施例中，所述装置还包括：

检测模块，用于检测所述图片对应的标题是否存在；

第一处理模块，用于当检测模块检测到图片的标题存在时，将所述图片对应的标题和所述图片的分类标签作为所述召回数据的其中一种提取特征；

第二处理模块，用于当检测模块检测到图片的标题不存在时，将所述图片对应的分类标签作为所述召回数据的其中一种提取特征。

在一些实施例中，所述音频和视频进行解析，提取所述音频和视频中的标题、关键词、摘要和文本内容包括：

检测所述音频和视频中有无字幕；

需要说明的是，本发明实施例中的多模态搜索装置与上述实施例中的多模态搜索方法属于相同的发明构思，未在本装置中详述的技术细节可参见前面对方法的相关描述，在此不再赘述。

此外，本发明实施例还提供一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行前面所述的方法。

图3示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图3所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM12以及RAM13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如空闲检测方法。

在一些实施例中，空闲检测方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM13并由处理器11执行时，可以执行上文描述的空闲检测方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行空闲检测方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种多模态搜索方法，其特征在于，所述方法包括：

从待查询数据中提取待查询数据信息，获得待查询数据的深语义表征向量和待查询数据的浅语义表征内容；

对所述召回数据提取特征后输入特征组合模型，输出所述待查询数据与多召回数据的匹配得分，根据匹配得分获得所述待查询数据的多模态搜索结果。

2.根据权利要求1所述的方法，其特征在于，所述多模态数据包括各种类型的文档文本、图片、音频和视频，所述从多模态数据中提取多模态文本信息，获得多模态深语义表征向量和多模态浅语义表征内容包括：

3.根据权利要求2所述的方法，其特征在于，利用文档解析器对所述文档文本进行解析，提取所述文档文本中的标题、关键词、摘要和文本内容。

4.根据权利要求2所述的方法，其特征在于，对所述图片进行解析，提取所述图片中的标题、关键词、摘要和文本内容包括：

利用图片分类模型对图片进行分类，获得图片的分类标签；

使用文字识别方法从所述图片中提取文档文本；

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

检测所述图片对应的标题是否存在；

6.根据权利要求2所述的方法，其特征在于，所述音频和视频进行解析，提取所述音频和视频中的标题、关键词、摘要和文本内容包括：

检测所述音频和视频中有无字幕；

7.根据权利要求1所述的方法，其特征在于，对所述召回数据提取特征包括：

所述待查询数据与所述召回数据的可编辑距离；

待查询数据中的文字数目；

所述召回数据中的文字内容总数；

所述多模态数据的内容类型标签、更新日期及评论数目。

8.一种多模态搜索装置，其特征在于，所述装置包括：

9.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至7中任一项所述的方法。

10.一种设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7中任一项所述的方法。