CN117556067A

CN117556067A - 数据检索方法、装置、计算机设备和存储介质

Info

Publication number: CN117556067A
Application number: CN202410041699.XA
Authority: CN
Inventors: 汪翔
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2024-01-11
Filing date: 2024-01-11
Publication date: 2024-02-13
Anticipated expiration: 2044-01-11
Also published as: CN117556067B

Abstract

本申请涉及一种数据检索方法、装置、计算机设备、存储介质和计算机程序产品。涉及人工智能领域，方法包括：针对多模态图文数据中图像数据，通过视觉相似度模型查找相似度满足相似条件的相似图像，得到粗召目标图像；针对其中的文本数据，通过文本相似度模型查找相似度满足相似条件的相似文本，得到粗召候选样本；通过属性分类模型进行属性分类处理，得到属性类别；而后将与多模态图文数据的属性类别一致的粗召候选样本作为数据检索结果。本申请公开了基于分级匹配的多模态相似检索方式，首先利用视觉相似度和文本相似度来快速召回相关样本，然后利用属性分类模型进一步筛选，从而得到符合实际应用场景的检索结果，有效提高检索准确性。

Description

数据检索方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种数据检索方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着计算机技术的发展，出现了人工智能(Artificial Intelligence, AI)技术，人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。目前，人工智能可应用于图文数据检索领域，例如通过多模态相似的方案来针对所提供的图文数据进行检索，而这种多模态的图文数据检索方案，一般综合采用图片和文本信息提取图片特征计算相似度，进而进行匹配。

然而在某些情况下，相似度的定义是模糊的，例如对于情感等属性无法进行有效地相似度定义，在这种情况，基于相似度的方法大概率会将图文相似，但是属性不符合匹配要求的样本匹配上，从而影响数据检索的准确性。

发明内容

基于此，有必要针对上述技术问题，提供一种能够有效提高数据检索准确性的数据检索方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种数据检索方法，包括：

针对多模态图文数据中图像数据，通过视觉相似度模型查找相似度满足相似条件的相似图像，得到粗召目标图像，所述视觉相似度模型以历史图像数据为训练样本，通过预训练方式构建；

基于所述粗召目标图像，针对多模态图文数据中文本数据，通过文本相似度模型查找相似度满足相似条件的相似文本，得到粗召候选样本，所述文本相似度模型以历史文本数据为训练样本构建；

通过属性分类模型分别对所述多模态图文数据、和所述粗召候选样本进行属性分类处理，得到所述多模态图文数据的属性类别以及每个粗召候选样本各自的属性类别，所述属性分类模型以历史数据中标注属性的图文数据为训练样本构建；

将与所述多模态图文数据的属性类别一致的粗召候选样本作为数据检索结果。

第二方面，本申请还提供了一种数据检索装置，包括：

图像召回模块，用于针对多模态图文数据中图像数据，通过视觉相似度模型查找相似度满足相似条件的相似图像，得到粗召目标图像，所述视觉相似度模型以历史图像数据为训练样本，通过预训练方式构建；

文本召回模块，用于基于所述粗召目标图像，针对多模态图文数据中文本数据，通过文本相似度模型查找相似度满足相似条件的相似文本，得到粗召候选样本，所述文本相似度模型以历史文本数据为训练样本构建；

属性分类模块，用于通过属性分类模型分别对所述多模态图文数据、和所述粗召候选样本进行属性分类处理，得到所述多模态图文数据的属性类别以及每个粗召候选样本各自的属性类别，所述属性分类模型以历史数据中标注属性的图文数据为训练样本构建；

结果获取模块，用于将与所述多模态图文数据的属性类别一致的粗召候选样本作为数据检索结果。

第三方面，本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述数据检索方法、装置、计算机设备、存储介质和计算机程序产品，在检索过程中，先针对多模态图文数据中图像数据，通过视觉相似度模型查找相似度满足相似条件的相似图像，得到粗召目标图像。对于多模态的图文数据，可以先针对图像模态的数据来进行粗召回，得到图像维度上的粗召目标图像，而后针对多模态图文数据中文本数据，通过文本相似度模型查找相似度满足相似条件的相似文本，得到粗召候选样本。即针对文本模态的数据进行粗召回，而后结合召回的文本和图像来组合得到粗召候选样本。在得此基础上，再通过属性分类模型分别对多模态图文数据、和粗召候选样本进行属性分类处理，得到多模态图文数据的属性类别以及每个粗召候选样本各自的属性类别。再将与多模态图文数据的属性类别一致的粗召候选样本作为数据检索结果。通过属性分类，可以在图像模态和文本模态的基础上，针对多模态图文数据，筛选出属性一致的数据作为检索结果，从而有效提高针对多模态图文数据进行数据检索的准确性。本申请公开了基于分级匹配的多模态相似检索方式，首先利用视觉相似度和文本相似度来快速召回相关样本，然后利用属性分类模型对召回的样本进行进一步筛选，从而得到符合实际应用场景的检索结果，从而有效提高检索准确性。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中数据检索方法的应用环境图；

图2为一个实施例中数据检索方法的流程示意图；

图3为一个实施例中粗召候选样本召回步骤的流程示意图；

图4为另一个实施例中粗召候选样本召回步骤的流程示意图；

图5为一个实施例中视觉相似度模型训练步骤的流程示意图；

图6为一个实施例中属性分类模型的网络结构示意图；

图7为一个实施例中图像粗召回步骤的流程示意图；

图8为另一个实施例中数据检索方法的流程示意图；

图9为一个实施例中数据检索装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请涉及人工智能技术，它是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等技术。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请具体涉及人工智能技术中的计算机视觉 (Computer Vision, CV) 技术，自然语言处理(Nature Language processing, NLP)技术和机器学习（Machine Learning, ML）技术。

其中，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟随和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革，swin-transformer，ViT，V-MOE，MAE等视觉领域的预训练模型经过微调（fine tune）可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。自然语言处理是计算机科学领域与人工智能领域中的重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理涉及自然语言，即人们日常使用的语言，与语言学研究密切；同时涉及计算机科学和数学。人工智能领域模型训练的重要技术，预训练模型，即是从NLP领域的大语言模型（Large Language Model）发展而来。经过微调，大语言模型可以广泛应用于下游任务。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果，融合了以上技术。

本申请实施例提供的数据检索方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。当终端102方的目标对象，希望检索与特定多模态数据相似的其他图文数据时，可以通过终端102将特定的多模态数据发送到服务器104，而后服务器104则会分离出多模态图文数据中的图像数据和文本数据，针对多模态图文数据中图像数据，通过视觉相似度模型查找相似度满足相似条件的相似图像，得到粗召目标图像，视觉相似度模型以历史图像数据为训练样本，通过预训练方式构建；基于粗召目标图像，针对多模态图文数据中文本数据，通过文本相似度模型查找相似度满足相似条件的相似文本，得到粗召候选样本，文本相似度模型以历史文本数据为训练样本构建；通过属性分类模型分别对多模态图文数据、和粗召候选样本进行属性分类处理，得到多模态图文数据的属性类别以及每个粗召候选样本各自的属性类别，属性分类模型以历史数据中标注属性的图文数据为训练样本构建；将与多模态图文数据的属性类别一致的粗召候选样本作为数据检索结果。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个示例性的实施例中，如图2所示，提供了一种数据检索方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤201至步骤207。

步骤201，针对多模态图文数据中图像数据，通过视觉相似度模型查找相似度满足相似条件的相似图像，得到粗召目标图像，视觉相似度模型以历史图像数据为训练样本，通过预训练方式构建。

其中，多模态图文数据指的是即包含文本内容又包含图像内容的数据类型。视觉相似度模型则是指用于进行图像相似识别的模型，视觉相似度模型可以提取出图像数据中的图像特征，而后在图像特征数据库中查找相似的图像特征，从而实现针对图像数据的粗召回处理。视觉相似度模型可以由骨干网络和全连接层组成，骨干网络可以选用VGG16或者ResNet50等，模型的输出维度为相似度特征的维度，而后通过相似度特征进行向量检索，得到粗召目标图像。而在训练时则基于历史图像数据来构建正负样本，而后以孪生网络结合预训练方式来完成对视觉相似度模型的训练。

预训练模型（Pre-training model），也称基石模型、大模型，指具有大参量的深度神经网络（Deep neural network，DNN），在海量未标记的数据上对其进行训练，利用大参量DNN的函数近似能力使PTM在数据上提取共性特征，经微调（fine tune）、参数高效微调（PEFT）、prompt-tuning等技术，适用于下游任务。因此，预训练模型可以在小样本（Few-shot）或零样本（Zero-shot）场景下达到理想效果。PTM按照处理的数据模态可以分为语言模型（ELMO,BERT,GPT)、视觉模型（swin-transformer，ViT，V-MOE）、语音模型（VALL-E）、多模态模型(ViBERT, CLIP，Flamingo，Gato)等，其中多模态模型指建立两种或以上数据模态特征表示的模型。预训练模型是输出人工智能生成内容（AIGC）重要工具，也可以作为连接多个具体任务模型的通用接口。

示例性地，当终端102的目标对象希望针对既包含图像又包含文本的多模态数据进行检索，已确定是否存在其该多模态数据相似的其他图文数据时，可以通过终端102将多模态图文数据提交到服务器104，而后由服务器104来启动数据检索的流程，查找相应的相似图文数据，并反馈结果至终端102。服务器104在得到有终端102所提交的多模态图文数据后，会先对多模态图文数据进行分离处理，例如包含文本内容的图像数据，可以通过如OCR（Optical Character Recognition，光学字符识别）等技术，识别出图像中包含的文本数据，得到多模态图文数据。又如同时包含文本内容和图像内容的数据，如新闻文章或者网页等，此时可以分离出其中的文本数据和图像数据，得到多模态图文数据。而所得的多模态图文数据中的图像数据和文本数据也被有效地分离开来。而后针对其中所包含的图像数据，服务器104可以将图像数据输入到预先训练得到的视觉相似度模型中，通过视觉相似度模型提取图像数据中的相似度特征，从而从图像特征的数据库中查找到相似度满足相似条件的相似图像，相似图像的集合即为粗召目标图像。

步骤203，基于粗召目标图像，针对多模态图文数据中文本数据，通过文本相似度模型查找相似度满足相似条件的相似文本，得到粗召候选样本，文本相似度模型以历史文本数据为训练样本构建。

其中，文本相似度模型则是指用于进行文本相似识别的模型，文本相似度模型可以提取出文本数据中的文本特征，而后在文本特征数据库中查找相似的文本特征，从而实现针对文本数据的粗召回处理。视觉相似度模型可以由骨干网络和全连接层组成，骨干网络则选用BERT等网络，模型的输出维度为相似度特征的维度，而后通过相似度特征进行向量检索，得到粗召目标文本。而在训练时则基于历史多模态数据来构建正负样本，而后以孪生网络结合预训练方式来完成对文本相似度模型的训练。

示例性地，在得到粗召目标图像后，即可在粗召目标图像的基础上再进行文本数据的相似度检索，同样可以通过预先训练得到的文本相似度模型，来查找与文本数据相似度满足相似条件的相似文本。其中，对于相似文本的查找过程，在其中一个实施例中，可以直接在文本特征的数据中查找相似度满足相似条件的相似文本，从而得到粗召目标文本，再通过求交集或者求并集的方式结合粗召目标图像和粗召目标文本，得到粗召候选样本。而在另一个实施例中，则可以查找到粗召目标图像所对应的候选文本数据，而后在候选文本数据中，通过文本相似度模型查找相似度满足相似条件的相似文本，得到多模态图文的粗召候选样本，从而有效降低检索过程设计的文本样本数，从而有效提高检索效率。

步骤205，通过属性分类模型分别对多模态图文数据、和粗召候选样本进行属性分类处理，得到多模态图文数据的属性类别以及每个粗召候选样本各自的属性类别，属性分类模型以历史数据中标注属性的图文数据为训练样本构建。

步骤207，将与多模态图文数据的属性类别一致的粗召候选样本作为数据检索结果。

其中，属性分类模型是指用于对多模态图文数据进行指定属性分类的模型，具体地属性类型可以根据多模态图文数据检索的应用场景来确定，例如针对评论内容进行分类的场景，可以按照情感分类的方法将多模态图文数据分类为正面、中性和负面。而针对购物信息进行分类的场景，则可以按照商品分类的方法，将多模态图文数据分类为不同类型的商品。属性分类模型同样可以由历史数据训练得到，此处可以根据属性分类的场景，为不同的图文数据标注属性，而后由标注属性的图文数据为训练样本来实现对属性分类模型的训练处理。

示例性地，在得到粗召候选样本后，因为所得到的粗召候选样本不能并不能体现出相应的属性特征，因此可以针对所有的粗召候选样本再次进行分类处理。此时，可以通过预先训练得到的属性分类模型，来对终端102所输入的多模态图文数据，以及查找到的每个粗召候选样本都进行属性分类处理，得到每个多模态数据各自的属性类别。最后再将与多模态图文数据的属性类别一致的粗召候选样本作为数据检索结果，而后所得到的数据检索结果可以反馈至终端102。在其中一个实施例中，本申请的方案适用于针对情感类别的多模态图文数据进行分类处理，此时针对输入的多模态图文数据和粗召候选样本的多模态图文数据，可以通过情感分类模型，确定每个多模态图文数据所对应的情感类别，具体包括有正面、中性和负面等，而后根据情感类别来进行最终的检索结果判定，将与输入的多模态图文数据的属性类别一致的粗召候选样本作为数据检索结果。例如输入的多模态图文数据被分类到正面的情感类别，则从在对粗召候选样本分类后中，选取分类结果为正面类型的粗召候选样本作为数据检索结果。通过分级匹配的方式，可以在相似性判别的基础上，结合多模态图文数据的属性类别来对召回的样本进一步地分类，从而使得检索结果能符合多模态数据检索的场景需求，提高检索准确性。

上述数据检索方法，在检索过程中，先针对多模态图文数据中图像数据，通过视觉相似度模型查找相似度满足相似条件的相似图像，得到粗召目标图像。对于多模态的图文数据，可以先针对图像模态的数据来进行粗召回，得到图像维度上的粗召目标图像，而后针对多模态图文数据中文本数据，通过文本相似度模型查找相似度满足相似条件的相似文本，得到粗召候选样本。即针对文本模态的数据进行粗召回，而后结合召回的文本和图像来组合得到粗召候选样本。在得此基础上，再通过属性分类模型分别对多模态图文数据、和粗召候选样本进行属性分类处理，得到多模态图文数据的属性类别以及每个粗召候选样本各自的属性类别。再将与多模态图文数据的属性类别一致的粗召候选样本作为数据检索结果。通过属性分类，可以在图像模态和文本模态的基础上，针对多模态图文数据，筛选出属性一致的数据作为检索结果，从而有效提高针对多模态图文数据进行数据检索的准确性。本申请公开了基于分级匹配的多模态相似检索方式，首先利用视觉相似度和文本相似度来快速召回相关样本，然后利用属性分类模型对召回的样本进行进一步筛选，从而得到符合实际应用场景的检索结果，从而有效提高检索准确性。

在一个示例性的实施例中，步骤203包括：查找粗召目标图像的图像文本数据；针对多模态图文数据中文本数据，在图像文本数据中通过文本相似度模型查找相似度大于第一文本相似度阈值的相似文本，得到粗召候选样本。

示例性地，可以结合粗召目标图像来实现对相似文本数据的召回处理，从而有效提高文本检索处理的效率。由于数据库中保存的文本特征数据的数据量一般都会远大于图像特征数据的数据量，所以需要先进行图像维度上的粗召回处理，得到粗召目标图像，而后再在粗召目标图像的基础上进行文本数据的粗召回处理，从而有效降低文本维度下数据召回的计算量，加快处理的速率。因此，在得到粗召目标图像后，可以基于数据库中样本数据的关联性，来查找粗召目标图像所对应的图像文本数据。在其中一个实施例中，可以在建立图像特征的特征数据库和文本特征的特征数据库时，为来自同一个多模态图文数据的样本分配相同或者相应的特征编号，而后在检索得到粗召目标图像，即可基于粗召目标图像的特征编号来查找文本特征数据，从而确定图像文本数据。而在查找到图像文本数据后，即可在图像文本数据的范围内，通过文本相似度模型查找相似度大于第一文本相似度阈值的相似文本，直接得到粗召候选样本。在其中一个实施例中，数据检索的流程可以参照图3所示，先通过视觉相似度检索来确定粗召回的目标图像，而后通过文本相似度检索来确定粗召候选样本，再通过多模态分类来针对输入的多模态图文数据和粗召候选样本进行属性分类处理，从而匹配出属性一致的数据检索结果。本实施例中，通过在得到粗召目标图像后，直接在粗召目标图像中进行文本粗召回，可以有效降低文本粗召回过程中的计算量，从而提高检索效率，并提高多模态图文数据的检索准确性。

在一个示例性的实施例中，步骤203包括：针对多模态图文数据中文本数据，在文本特征数据库中通过文本相似度模型查找相似度大于第二文本相似度阈值的相似文本，得到粗召目标文本；基于粗召目标图像和粗召目标文本，得到粗召候选样本。

示例性地，除了在粗召目标图像所对应的图像文本数据上进行召回处理外，还可以针对文本数据库进行全量的召回处理，从而有效提高文本数据召回的覆盖率，防止漏检。因此，在得到粗召目标图像后，针对多模态图文数据中文本数据，在文本特征数据库中通过文本相似度模型查找相似度大于第二文本相似度阈值的相似文本，得到粗召目标文本，而后根据所查找到的粗召目标文本和粗召目标图像结合起来，得到粗召候选样本。其中，第二文本相似度相对于第一文本相似度的召回阈值条件会变得更加严格，从而防止检索到关联性较低的文本数据。而对于具体的结合方式，则可以根据多模态数据检索的任务需求来确定。在其中一个实施例中，需要保证多模态图文数据检索的准确性和处理效率，此时可以先确定粗召目标文本和粗召目标图像各自对应的多模态图文数据，而后对两者作求并集处理，得到最终的粗召候选样本。而在另一个实施例中，需要保证多模态图文数据检索的覆盖率，避免漏检，此时，则需要先确定粗召目标文本和粗召目标图像各自对应的多模态图文数据，而后对其两者作求并集处理，得到最终的粗召候选样本。在其中一个实施例中，数据检索的流程可以参照图4所示，可以通过视觉相似度检索来确定粗召回的目标图像，并通过文本相似度检索来确定粗召回的目标文本，而后结合两者得到粗召候选样本，再通过多模态分类来针对输入的多模态图文数据和粗召候选样本进行属性分类处理，从而匹配出属性一致的数据检索结果。本实施例中，通过在得到粗召目标图像的基础上，结合通过文本相似度模型查找到的粗召目标文本，从而提高检索的覆盖率，防止漏检，提高多模态图文数据的检索准确性。

在一个示例性的实施例中，方法还包括：获取历史图像数据；基于历史图像数据，构建由相似图像构建的图像正样本对数据和由不相似图像构建的图像负样本对数据；基于图像正样本对数据和图像负样本对数据，以孪生网络方式对初始视觉相似度模型进行预训练处理，得到预训练视觉相似度模型；基于多模态图文数据的来源场景，对预训练视觉相似度模型进行微调训练，得到视觉相似度模型。

其中，历史图像数据是指从各个领域收集得到的进行图像预训练的数据，可以通过历史图像数据来进行模型的预训练处理，得到通用的视觉相似度模型，而后再基于具体检索任务来完成模型的微调处理，完成视觉相似度模型的构建。图像正样本对数据是指包含了两张相似图像的样本数据，图像负样本对数据则是包含了两张不相似图像的样本数据。孪生网络即孪生神经网络（Siamese neural network），又名双生神经网络，是基于两个人工神经网络建立的耦合构架。孪生神经网络以两个样本为输入，输出其嵌入高维度空间的表征，以比较两个样本的相似程度。孪生神经网络由两个结构相同，且权重共享的神经网络拼接而成。微调(fine-tune)通过使用在大数据上得到的预训练好的模型来初始化自己的模型权重,从而提升精度。

示例性地，本申请的方案中还包含了对视觉相似度模型的训练过程，训练过程具体包含了样本收集、模型预训练以及模型微调等步骤，其中对于样本收集的过程，可以先获取历史图像数据，而后通过对历史图像数据的修改，来构造与当前历史图像数据相似的图像，得到图像正样本对数据。而基于不同历史图像数据所构建的图像则可组成图像负样本对数据。而对于模型预训练的过程，图像相似度网络的结构可以采用任意的骨干网络，如VGG16, ResNet50等。而骨干网络后的全连接层所输出维度不再是类别数，而是相似度特征的维度，例如可以设定为1024。在其中一个实施例中，初始视觉相似度模型预训练过程的结构示意图可以如图5所示。训练方法具体可以采用孪生网络的方式，使用对比损失（Contrastive Loss）作为监督损失函数。假设网络输入的样本对内两个样本分别为x1和x2，经过网络提取特征得到f1和 f2，记特征之间的欧式距离为d=(f1-f2)^2，记类别标签为y，其中正样本对对应y=1，负样本对对应y=0。则网络的loss函数为：

其中m为约束负样本对特征距离范围的边缘（margin）值，一般可以设置为1。而在预训练完成，得到预训练视觉相似度模型后，实际场景中会存在更复杂的无法自动生成的变异样本，因此还需要结合数据检索的具体应用场景来对训练得到的预训练模型作进一步地微调处理，从而使得视觉相似度模型符合应用场景的需要，即结合多模态图文的应用场景来分别对模型进行训练，例如评论信息的数据检索方法，可以基于评论信息场景下的历史图文数据来对预训练视觉相似度模型进一步地进行调整。本实施例中，通过视觉相似度模型的预训练和微调，来完成视觉相似度模型的构建，可以有效保证通过视觉相似度模型召回视觉模态下粗召目标图像的准确性。

在一个示例性的实施例中，基于历史图像数据，构建由相似图像构建的图像正样本对数据和由不相似图像构建的图像负样本对数据包括：通过不同的图像变换方式对历史图像数据进行图像变换处理，得到图像变换子图；基于对同一张历史图像数据，进行不同的图像变换方式所得到的图像变换子图构建图像正样本对数据；基于对不同历史图像数据，进行随机的图像变换方式所得到的图像变换子图构建图像负样本对数据。

其中，不同的图像变换方式具体包括了裁剪、边框、旋转、镜像、调色、涂抹以及噪声等变换方式。具体的操作方式包括：

裁剪：随机从原图中裁剪一定大小的区域，为了保证裁剪后的图与原图差异不会太大，这里可以限制裁剪比例不低于70%；

边框：在原图四周随机添加一定的边框，边框可以是任意的颜色；

旋转：将原图分别旋转90度180度270度获得的新图；

镜像：将原图进行镜像翻转得到的新图；

调色：对原图进行色调的改变得到的新图；

涂抹：在原图上添加一定的涂抹干扰得到的新图；

噪声：在原图上添加一定比例的干扰噪声得到的新图。

示例性地，可以通过以上不同的图像变换方式来对一张历史图像数据进行变换，得到该历史图像数据所对应的多张图像变换子图，变换过程具体可以通过预先编写的脚本文件实现。而后，这张历史图像数据即可与变换得到的各个图像变换子图组成图像正样本对数据，同一张图像变换得到的各个图像变换子图之间也各自构成图像正样本对数据。而对于不同的历史图像数据，则可以通过随机的图像变换方式所得到的图像变换子图构建图像负样本对数据。例如，对于图A，对其进行图像变换处理后，得到a1、a2、a3、a4等图像变换子图，则A和a1、A和a2、a2和a3、 a1和a4…都构成了图像正样本对数据。而若是还包含有图B，其进行图像变换处理后，得到b1、b2、b3、b4等图像变换子图，则a1和b1、a1和b2、a2和b3、a1和b4…都构成了图像负样本对数据。本实施例中，通过图像变换的方式来对历史图像数据来构造出模型训练所用的样本对数据，从而有效保证样本的多样性，保证模型训练效果。

在一个示例性的实施例中，基于多模态图文数据的来源场景，对预训练视觉相似度模型进行微调训练，得到视觉相似度模型包括：获取多模态图文数据的来源场景对应的场景图像数据；基于场景图像数据构建微调正样本对数据和微调正样本对数据；基于微调正样本对数据和微调负样本对数据，以孪生网络方式对预训练视觉相似度模型进行微调训练，得到视觉相似度模型。

其中，场景图像数据是指根据具体的检索应用场景，预先标注完成的图像样本对数据，不同的检索场景对应了不同场景图像数据。场景图像数据中包含预先标注好的相似图像数据，因此可以基于这些场景图像数据来构建微调正样本对数据和微调正样本对数据。

具体地，在预训练过程中，可以通过生变换样本的方式来构成正样本对和负样本对，从而实现模型的预训练处理，然而实际检索应用场景中会存在更复杂的无法自动生成的变异样本，因此可以手工等方式来收集一批这样的场景图像数据，并对其中的相似图像进行标注处理，而后在进行模型微调时，即可将标注出的相似图像构建成微调正样本对数据，而不同对的相似图像互相还可组成微调负样本对数据。再基于这部分构建得到的构建微调正样本对数据和微调正样本对数据，同样以孪生网络方式对预训练视觉相似度模型进行微调训练，得到视觉相似度模型。本实施例中，通过场景图像数据构建用于模型微调的样本数据，从而实现针对模型的微调处理，保证视觉相似度模型在多模态图文数据对应检索场景下的检索准确性。

在一个示例性的实施例中，方法还包括：获取历史文本数据；基于历史文本数据，构建由相似文本构建的文本正样本对数据和由不相似文本构建的文本负样本对数据；基于文本正样本对数据和文本负样本对数据，以孪生网络方式对初始文本相似度模型进行训练处理，得到文本相似度模型。

其中，历史文本数据是指从各个领域收集得到的文本数据，可以通过历史文本数据来进行文本相似度模型的训练处理，得到适用于文本相似度判别的文本相似度模型。文本正样本对数据是指包含了两段相似文本的样本数据，文本负样本对数据则是包含了两段不相似文本的样本数据。

示例性地，本申请的方案中还包含了对文本相似度模型的训练过程，训练过程具体包含了样本收集、模型训练两个步骤，其中对于样本收集的过程，类似于图像样本的收集过程，可以先获取历史文本数据，而后通过对历史文本数据的修改，来构造与当前历史文本数据相似的文本，得到文本正样本对数据。而基于不同历史文本数据所构建的文本则可组成文本负样本对数据。而对于模型训练的过程，文本相似度网络的结构可以采用例如BERT模型这样的骨干网络。而骨干网络后的全连接层所输出维度不再是类别数，而是相似度特征的维度，例如可以设定为1024。在其中一个实施例中，文本相似度模型的训练方法同样可以采用孪生网络的方式，使用对比损失作为监督损失函数进行训练。本实施例中，通过构造正样本和负样本，来完成文本相似度模型的训练，可以有效保证通过文本相似度模型进行文本粗召回的准确性。

在一个实施例中，基于历史文本数据，构建由相似文本构建的文本正样本对数据和由不相似文本构建的文本负样本对数据包括：通过不同的文本变换方式对历史文本数据进行文本变换处理，得到变换子文本；基于对同一历史文本数据，进行不同的文本变换方式所得到的变换子文本构建文本正样本对数据；基于对不同历史文本数据，进行随机的文本变换方式所得到的变换子文本构建文本负样本对数据。

其中，不同的文本变换方式具体包括了随机遮掩、随机截断、随机加字、分段排序以及翻译改写等变换方式。具体的操作方式包括：

随机遮掩：随机将原文本段去重一定比例的文字，为了保证文本不发生较大的差异，控制遮掩比例不高于20%；

随机截断：随机在开头或结尾截取一定比例的文字并舍弃，为了保证文本不发生较大的差异，控制截断比例不高于20%；

随机加字：在原文本段中随机的加入一定比例的文字，为了保证文本不发生较大的差异，控制添加比例不高于20%；

分段排序：将文本随机分成几个片段，打乱顺序重新拼接为一段文本；

翻译改写：将中文翻译为英文，然后将英文重新翻译为中文。

示例性地，可以通过以上不同的文本变换方式来对一段历史文本数据进行变换，得到该历史文本数据所对应的多段变换子文本，变换过程具体可以通过预先编写的脚本文件实现。而后，这段历史文本数据即可与变换得到的各段变换子文本组成文本正样本对数据，同一段文本变换得到的各段变换子文本之间也各自构成文本正样本对数据。而对于不同的历史文本数据，则同样可以通过随机的文本变换方式所得到的变换子文本，构建文本负样本对数据。例如，对于文本C，对其进行文本变换处理后，得到c1、c2、c3、c4等变换子文本，则C和c1、C和c2、c2和c3、 c1和c4…都构成了文本正样本对数据。若是还包含有图D，其进行图像变换处理后，得到d1、d2、d3、d4等变换子文本，则c1和d1、c1和d2、c2和d3、 c1和d4…都构成了文本负样本对数据。本实施例中，通过文本变换的方式来对历史文本数据来构造出模型训练所用的样本对数据，从而有效保证样本的多样性，保证模型训练效果。

在一个示例性的实施例中，方法还包括：基于带属性标注的历史图文数据的构建属性分类训练样本；通过属性分类训练样本对初始属性分类模型进行训练，得到属性分类模型，初始属性分类模型用于分别提取属性分类训练样本中的图像特征和文本特征，并基于拼接得到的特征对属性分类训练样本进行属性分类。

其中，历史图文数据是指同时带有图像模态和文本模态的历史数据。这些历史图文数据已经根据检索的应用场景，被预先标注了相应的属性类别。

示例性地，利用视觉相似度或文本相似度所召回的粗召样本对，在客观相似度上是能满足多模态图文数据匹配要求的，但是当应用于特定的检索场景下时，往往会要求输入数据与检索结果在某些属性方面保持一致，例如情感分类中，要求检索结果与多模态图文数据中的情感倾向是一致的，此时则必须依赖分类模型来对上述基于相似度召回的样本进行进一步的筛选。例如要求情感分类一致的场景，可以先训练一个应用于情感分类的属性分类模型，其输入为图像和文本，输出为判定情感属性：正面、中性、负面。即通过属性分类训练样本对初始属性分类模型进行训练，得到属性分类模型。而后在检索过程中，即可通过训练得到的属性分类模型来完成对粗召候选样本的属性分类处理，保证检索的准确性，训练过程所采用的监督损失函数则可以选用交叉熵损失函数。在其中一个实施例中，多模态的属性分类模型的网络结构图如图6所示，属性分类模型具体可以选择任意的多模态分类模型，例如其中的视觉分支可以使用swin transformer模型，文本分支则使用bert模型，而后各自提取特征后进行拼接，再使用若干个全连接层（fc）进行属性分类。本实施例中，通过收集带属性标注的历史图文数据来构建样本，从而实现对初始属性分类模型的模型训练，构建可用于属性分类的属性分类模型。

在一个实施例中，相似度包括欧式距离。步骤201包括：针对多模态图文数据中图像数据，通过视觉相似度模型提取多模态图文数据中图像数据的图像特征；基于图像特征在图像特征检索库内进行向量检索处理，得到图像特征与图像特征检索库内图像特征的欧式距离；召回欧式距离小于或等于欧氏距离阈值的图像特征所对应的图像数据，作为多模态图文数据中图像数据的相似图像，得到粗召目标图像。

其中，图像特征检索库是指基于历史图文数据所建立的，用于存储向量的数据库，同时可以通过库中保存的向量直接得到这些历史图文数据。而向量检索处理是指基于视觉相似度模型所提取出的特征向量，在预先建立的图像特征检索库中查找到与其相似的图像特征。相似具体可以为欧式距离，它是指在m维空间中两个点之间的真实距离。欧式距离越近，说明两个向量越相似，因此可以通过召回欧式距离小于或等于欧氏距离阈值的图像特征所对应的图像数据。

示例性地，对于图像数据的粗召过程，可以先提取出多模态图文数据中的图像数据，而后通过训练得到的视觉相似度模型提取图像数据中的图像特征。在得到图像特征后，基于图像特征在图像特征检索库内进行向量检索处理，检索方式具体可以选用faiss等检索工具来高效地实现向量检索。并计算图像特征与图像特征检索库内图像特征的欧式距离，通过欧式距离来衡量相似度，即召回欧式距离小于或等于欧氏距离阈值的图像特征所对应的图像数据，作为多模态图文数据中图像数据的相似图像，得到粗召目标图像。在其中一个实施例中，图像数据召回的流程图可以参照图7所示，首先输入图像数据，而后通过骨干网络和全连接层，输出得到的图像特征，再基于图像特征来检索粗召目标图像，从而保证图像召回处理过程的效率与准确性。而文本数据粗召回的流程同样可以参照本实施例，与图像数据粗召回的流程类似。本实施例中，通过图像特征在图像特征检索库内进行向量检索处理，而后根据检索结果与输入图像数据的欧氏距离来进行图像粗召回，可以有效图像模态数据检索的准确性，从而提高最终所得的数据检索结果的有效性。

在一个实施例中，方法还包括：提取数据检索结果中图文数据的摘要信息；基于摘要信息生成并展示多模态图文数据的检索结果页面。

具体地，在得到数据检索结果后，数据检索结果的量可能过多，无法进行直观地展示，此时可以通过摘要的方式来在结果页面上实现数据检索结果的展示。而对于图文数据的摘要方式，对于图像，可以直接提取缩略图所谓摘要信息，而对于文本内容，则可以通过提取文本内容的关键词加文本内容首段方式实现。摘要信息，提取完成后，可以将提取得到的摘要信息填充到固定格式的检索结果页面。而后根据图像相似度信息结合文本相似度信息，对数据检索结果进行排序，得到检索结果页面，并将生成的检索结果页面展示给到检索信息的提供方，从而完成检索的整体流程，保证数据检索过程的准确性与有效性。

本申请还提供一种应用场景，该应用场景应用上述的数据检索方法。具体地，该数据检索方法在该应用场景的应用如下：

当用户需要在内容发布平台发表新的图文内容时，内容发布平台需要对用户所提交的图文内容进行审核，以避免重复发布，此时，可以通过本申请的方案来检索数据库中是否存在相似的图文内容数据。在进行审核前，内容发布平台可以根据平台所面向的领域，选用相应的历史图文内容数据来完成对视觉相似度模型、文本相似度模型和属性分类模型的训练，其中视觉相似度模型可以选用大批量的图像数据进行预训练，而后根据历史图文内容数据构造领域内的场景图像数据来完成微调得到。文本相似度模型可以根据历史图文内容数据中包含的文本数据训练得到。而属性分类模型则可以选取部分历史图文内容数据进行属性标注后，通过有监督训练获得。在得到三个模型，同时构建了这些历史图文内容数据对应的图像特征检索库和文本特征检索库后，即可通过模型和特征库来执行输入多模态图文数据的检索查重处理。

当用户提交多模态图文数据后，平台可以先将多模态图文数据拆分为图像数据和文本数据，针对图像数据，通过视觉相似度模型查找相似度满足相似条件的相似图像，得到粗召目标图像，针对文本数据，则通过文本相似度模型查找相似度满足相似条件的相似文本，得到粗召目标文本。而后对粗召回的粗召目标图像和粗召目标文本做求交集的处理，得到粗召候选样本。如果不存在粗召候选样本，则可以反馈未检索到相似图文信息的结果，而如果得到了粗召候选样本，则还需要通过属性分类模型分别对多模态图文数据、和粗召候选样本进行属性分类处理。而后判断是否存在于多模态图文数据属性相同的粗召候选样本，若存在，则说明当前的多模态图文数据为重复提交的数据，若不存在，则反馈未检索到相似图文信息的结果。

在一个实施例中，本申请的数据检索方法的完整流程可以参照图8所示，包括：

步骤801，获取历史图像数据。步骤803，基于历史图像数据，构建由相似图像构建的图像正样本对数据和由不相似图像构建的图像负样本对数据。步骤805，基于图像正样本对数据和图像负样本对数据，以孪生网络方式对初始视觉相似度模型进行预训练处理，得到预训练视觉相似度模型。步骤807，基于多模态图文数据的来源场景，对预训练视觉相似度模型进行微调训练，得到视觉相似度模型。步骤809，获取历史文本数据。步骤811，基于历史文本数据，构建由相似文本构建的文本正样本对数据和由不相似文本构建的文本负样本对数据。步骤813，基于文本正样本对数据和文本负样本对数据，以孪生网络方式对初始文本相似度模型进行训练处理，得到文本相似度模型。步骤815，基于带属性标注的历史图文数据的构建属性分类训练样本。步骤817，通过属性分类训练样本对初始属性分类模型进行训练，得到属性分类模型。步骤819，针对多模态图文数据中图像数据，通过视觉相似度模型查找相似度满足相似条件的相似图像，得到粗召目标图像。步骤821，基于粗召目标图像，针对多模态图文数据中文本数据，通过文本相似度模型查找相似度满足相似条件的相似文本，得到粗召候选样本。步骤823，通过属性分类模型分别对多模态图文数据、和粗召候选样本进行属性分类处理，得到多模态图文数据的属性类别以及每个粗召候选样本各自的属性类别。步骤825，将与多模态图文数据的属性类别一致的粗召候选样本作为数据检索结果。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的数据检索方法的数据检索装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个数据检索装置实施例中的具体限定可以参见上文中对于数据检索方法的限定，在此不再赘述。

在一个示例性的实施例中，如图9所示，提供了一种数据检索装置，包括：

图像召回模块902，用于针对多模态图文数据中图像数据，通过视觉相似度模型查找相似度满足相似条件的相似图像，得到粗召目标图像，视觉相似度模型以历史图像数据为训练样本，通过预训练方式构建。

文本召回模块904，用于基于粗召目标图像，针对多模态图文数据中文本数据，通过文本相似度模型查找相似度满足相似条件的相似文本，得到粗召候选样本，文本相似度模型以历史文本数据为训练样本构建。

属性分类模块906，用于通过属性分类模型分别对多模态图文数据、和粗召候选样本进行属性分类处理，得到多模态图文数据的属性类别以及每个粗召候选样本各自的属性类别，属性分类模型以历史数据中标注属性的图文数据为训练样本构建。

结果获取模块908，用于将与多模态图文数据的属性类别一致的粗召候选样本作为数据检索结果。

在一个实施例中，文本召回模块904具体用于：查找粗召目标图像的图像文本数据；针对多模态图文数据中文本数据，在图像文本数据中通过文本相似度模型查找相似度大于第一文本相似度阈值的相似文本，得到粗召候选样本。

在一个实施例中，文本召回模块904具体用于：针对多模态图文数据中文本数据，在文本特征数据库中通过文本相似度模型查找相似度大于第二文本相似度阈值的相似文本，得到粗召目标文本；基于粗召目标图像和粗召目标文本，得到粗召候选样本。

在一个实施例中，包括视觉模型训练模块，用于：获取历史图像数据；基于历史图像数据，构建由相似图像构建的图像正样本对数据和由不相似图像构建的图像负样本对数据；基于图像正样本对数据和图像负样本对数据，以孪生网络方式对初始视觉相似度模型进行预训练处理，得到预训练视觉相似度模型；基于多模态图文数据的来源场景，对预训练视觉相似度模型进行微调训练，得到视觉相似度模型。

在一个实施例中，视觉模型训练模块还用于：通过不同的图像变换方式对历史图像数据进行图像变换处理，得到图像变换子图；基于对同一张历史图像数据，进行不同的图像变换方式所得到的图像变换子图构建图像正样本对数据；基于对不同历史图像数据，进行随机的图像变换方式所得到的图像变换子图构建图像负样本对数据。

在一个实施例中，视觉模型训练模块还用于：获取多模态图文数据的来源场景对应的场景图像数据；基于场景图像数据构建微调正样本对数据和微调正样本对数据；基于微调正样本对数据和微调负样本对数据，以孪生网络方式对预训练视觉相似度模型进行微调训练，得到视觉相似度模型。

在一个实施例中，还包括文本模型训练模块，用于：获取历史文本数据；基于历史文本数据，构建由相似文本构建的文本正样本对数据和由不相似文本构建的文本负样本对数据；基于文本正样本对数据和文本负样本对数据，以孪生网络方式对初始文本相似度模型进行训练处理，得到文本相似度模型。

在一个实施例中，文本模型训练模块还用于：通过不同的文本变换方式对历史文本数据进行文本变换处理，得到变换子文本；基于对同一历史文本数据，进行不同的文本变换方式所得到的变换子文本构建文本正样本对数据；基于对不同历史文本数据，进行随机的文本变换方式所得到的变换子文本构建文本负样本对数据。

在一个实施例中，还包括分类模型训练模块，用于：基于带属性标注的历史图文数据的构建属性分类训练样本；通过属性分类训练样本对初始属性分类模型进行训练，得到属性分类模型，初始属性分类模型用于分别提取属性分类训练样本中的图像特征和文本特征，并基于拼接得到的特征对属性分类训练样本进行属性分类。

在一个实施例中，相似度包括欧式距离。图像召回模块具体用于：针对多模态图文数据中图像数据，通过视觉相似度模型提取多模态图文数据中图像数据的图像特征；基于图像特征在图像特征检索库内进行向量检索处理，得到图像特征与图像特征检索库内图像特征的欧式距离；召回欧式距离小于或等于欧氏距离阈值的图像特征所对应的图像数据，作为多模态图文数据中图像数据的相似图像，得到粗召目标图像。

在一个实施例中，还包括结果页面生成模块，用于：提取数据检索结果中图文数据的摘要信息；基于摘要信息生成并展示多模态图文数据的检索结果页面。

上述数据检索装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个示例性的实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据检索数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据检索方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要符合相关规定。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种数据检索方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述粗召目标图像，针对多模态图文数据中文本数据，通过文本相似度模型查找相似度满足相似条件的相似文本，得到粗召候选样本包括：

查找所述粗召目标图像的图像文本数据；

针对多模态图文数据中文本数据，在所述图像文本数据中通过文本相似度模型查找相似度大于第一文本相似度阈值的相似文本，得到粗召候选样本。

3.根据权利要求1所述的方法，其特征在于，所述基于所述粗召目标图像，针对多模态图文数据中文本数据，通过文本相似度模型查找相似度满足相似条件的相似文本，得到粗召候选样本包括：

针对多模态图文数据中文本数据，在文本特征数据库中通过文本相似度模型查找相似度大于第二文本相似度阈值的相似文本，得到粗召目标文本；

基于所述粗召目标图像和所述粗召目标文本，得到粗召候选样本。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取历史图像数据；

基于所述历史图像数据，构建由相似图像构建的图像正样本对数据和由不相似图像构建的图像负样本对数据；

基于所述图像正样本对数据和所述图像负样本对数据，以孪生网络方式对初始视觉相似度模型进行预训练处理，得到预训练视觉相似度模型；

基于所述多模态图文数据的来源场景，对所述预训练视觉相似度模型进行微调训练，得到视觉相似度模型。

5.根据权利要求4所述的方法，其特征在于，所述基于所述历史图像数据，构建由相似图像构建的图像正样本对数据和由不相似图像构建的图像负样本对数据包括：

通过不同的图像变换方式对所述历史图像数据进行图像变换处理，得到图像变换子图；

基于对同一张历史图像数据，进行不同的图像变换方式所得到的图像变换子图构建图像正样本对数据；

基于对不同历史图像数据，进行随机的图像变换方式所得到的图像变换子图构建图像负样本对数据。

6.根据权利要求4所述的方法，其特征在于，所述基于所述多模态图文数据的来源场景，对所述预训练视觉相似度模型进行微调训练，得到视觉相似度模型包括：

获取所述多模态图文数据的来源场景对应的场景图像数据；

基于所述场景图像数据构建微调正样本对数据和微调正样本对数据；

基于所述微调正样本对数据和微调负样本对数据，以孪生网络方式对所述预训练视觉相似度模型进行微调训练，得到视觉相似度模型。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取历史文本数据；

基于所述历史文本数据，构建由相似文本构建的文本正样本对数据和由不相似文本构建的文本负样本对数据；

基于所述文本正样本对数据和所述文本负样本对数据，以孪生网络方式对初始文本相似度模型进行训练处理，得到文本相似度模型。

8.根据权利要求7所述的方法，其特征在于，所述基于所述历史文本数据，构建由相似文本构建的文本正样本对数据和由不相似文本构建的文本负样本对数据包括：

通过不同的文本变换方式对所述历史文本数据进行文本变换处理，得到变换子文本；

基于对同一历史文本数据，进行不同的文本变换方式所得到的变换子文本构建文本正样本对数据；

基于对不同历史文本数据，进行随机的文本变换方式所得到的变换子文本构建文本负样本对数据。

9.根据权利要求1至8任意一项所述的方法，其特征在于，所述方法还包括：

基于带属性标注的历史图文数据的构建属性分类训练样本；

通过所述属性分类训练样本对初始属性分类模型进行训练，得到属性分类模型，所述初始属性分类模型用于分别提取所述属性分类训练样本中的图像特征和文本特征，并基于拼接得到的特征对所述属性分类训练样本进行属性分类。

10.根据权利要求1所述的方法，其特征在于，所述相似度包括欧式距离；

所述针对多模态图文数据中图像数据，通过视觉相似度模型查找相似度满足相似条件的相似图像，得到粗召目标图像包括：

针对多模态图文数据中图像数据，通过视觉相似度模型提取所述多模态图文数据中图像数据的图像特征；

基于所述图像特征在图像特征检索库内进行向量检索处理，得到图像特征与所述图像特征检索库内图像特征的欧式距离；

召回欧式距离小于或等于欧氏距离阈值的图像特征所对应的图像数据，作为所述多模态图文数据中图像数据的相似图像，得到粗召目标图像。

11.根据权利要求1所述的方法，其特征在于，所述方法还包括：

提取所述数据检索结果中图文数据的摘要信息；

基于所述摘要信息生成并展示所述多模态图文数据的检索结果页面。

12.一种数据检索装置，其特征在于，所述装置包括：

13.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。