CN116431855B

CN116431855B - 图像检索方法和相关设备

Info

Publication number: CN116431855B
Application number: CN202310693751.5A
Authority: CN
Inventors: 李宇; 蒋雪涵
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2023-06-13
Filing date: 2023-06-13
Publication date: 2023-10-20
Anticipated expiration: 2043-06-13
Also published as: CN116431855A

Abstract

本申请实施例提供图像检索方法和相关设备。该方法包括：电子设备在目标应用的第一界面中接收到第一文本；其中，第一文本包括第一标签；电子设备显示一张或多张第一图像；其中，一张或多张第一图像包括目标应用中与第一标签匹配的图像；第一图像为电子设备中的第一模型基于第一文本和目标应用中的图像确定的，第一模型是根据目标应用中的图文对进行学习得到的，目标应用中的图文对包括对象的标签和对象的图像，对象的标签包括第一标签。这样，电子设备可以在图库应用中根据个性化词语搜索到与该个性化词语相关的视频，扩展了图像检索的场景，提升了搜索结果的准确性，从而提升用户的使用体验。

Description

图像检索方法和相关设备

技术领域

本申请涉及终端技术领域，尤其涉及一种图像检索方法和相关设备。

背景技术

电子设备的图库应用中可存储有视频和照片，用户可查看、编辑或向他人分享视频和/或照片等。例如，用户想要查看某一照片，用户可通过在图库应用中对图像进行逐个浏览找到该照片；当图库应用中存储有大量照片时，用户也可通过图库应用中的搜索功能找到该图片。

可能的实现中，电子设备的图库应用支持搜索功能，电子设备可提供一些简单的图片检索。例如，图库应用中预设有图片对应的标签，例如，标签可以为蓝天、白云、动物、文档和美食等，当用户在图库的搜索栏中输入这些预先定义好的标签时，电子设备可显示标签所对应的照片和/或包括对应图片的视频。

但一些场景中，通过标签检索图像的方法准确率较低。例如，当用户在搜索栏输入“宝贝”、“二宝”和“咕咕家”等词语时，电子设备可能无法准确的得到与其对应的图片和/或视频。用户仍需要通过手动翻找和/或拉动视频的进度条等方法，获取到照片和/或视频，过程繁琐，用户体验差。

发明内容

本申请实施例提供一种图像检索方法和相关设备，应用于终端技术领域，可提供一种在图库应用中根据个性化词语搜索到与该个性化词语相关的视频和/或图片，扩展了图像检索的场景，提升用户的使用体验。

第一方面，本申请实施例提出一种图像检索方法。该方法包括：电子设备在目标应用的第一界面中接收到第一文本；其中，第一文本包括第一标签；电子设备显示一张或多张第一图像；其中，一张或多张第一图像包括目标应用中与第一标签匹配的图像；第一图像为电子设备中的第一模型基于第一文本和目标应用中的图像确定的，第一模型是根据目标应用中的图文对进行学习得到的，目标应用中的图文对包括对象的标签和对象的图像，对象的标签包括第一标签。这样，电子设备可以在图库应用中搜索到与包括个性化词语的搜索词相关的视频，扩展了图像检索的场景，提升了搜索结果的准确性，从而提升用户的使用体验。

其中，第一界面可以为图3中的c所示界面；一张或多张第一图像可对应于图3中的c所示界面中视频310。

在一种可能的实现方式中，第一模型包括图像编码器、文本解码器和文本编码器；在电子设备在目标应用的第一界面中接收到第一文本之前，还包括：电子设备获取对象的标签和对象的图像；电子设备通过图像编码器将对象的图像转化为第一向量；电子设备通过文本解码器将第一向量转化为第二文本；第二文本包括用于描述对象的第一关键词，且第二文本不包括对象的标签；电子设备将第一关键词替换为对象的标签，得到第三文本；第三文本包括对象的标签，且第三文本不包括第一关键词；电子设备通过文本编码器将第三文本转化为第二向量；电子设备基于第一向量和第二向量学习得到第一模型，使得第一模型学习有对象的标签与对象的图像进行匹配的能力。这样，第一模型可通过对人物称呼和人物称呼的图像进行个性此词语的学习与更新，使得电子设备拥有根据个性化词语搜索到与个性化词语相关的图像的能力；当用户输入的搜索词包括该个性化词语时，第二设备可显示较准确的搜索结果。从而提升图像检索的准确性，提升用户的使用体验。

在一种可能的实现方式中，电子设备显示一张或多张第一图像之后，包括：在第一预设时间内，电子设备未接收到针对第一图像的触发操作，以及电子设备在目标应用的第二界面中接收到第四文本；第四文本包括第二关键词和第三关键词；电子设备显示一张或多张第二图像，其中，第二图像包括目标应用中与第二关键词匹配的图像；当电子设备接收到针对一张或多张第二图像中目标第二图像的触发操作时，电子设备识别目标第二图像中的对象，以及电子设备将第一对象的图像与第三关键词设置为图文对；其中，目标第二图像中的对象包括第一对象和第二对象；第二对象与第二关键词相匹配；电子设备根据第一对象的图像和第三关键词构成的图文对更新第一模型；更新后的第一模型学习有将第一对象与第三关键词进行匹配的能力。这样，第一模型可通过对特殊词语和特殊词语的图像进行个性化词语的学习与更新，使得电子设备拥有根据个性化词语搜索到与个性化词语相关的图像的能力；当用户输入的搜索词包括该个性化词语时，第二设备可显示较准确的搜索结果。从而提升了图像检索的准确性，提升用户的使用体验。

其中，第二界面可对应于图8中的a所示界面，一张或多张第二图像可对应于图8中的a所示界面中的视频802、视频803、视频804和视频805。目标第二图像可对应于图8中的a界面所示视频803。

在一种可能的实现方式中，在电子设备根据第一对象的图像和第三关键词构成的图文对更新第一模型之前，还包括：电子设备基于第一模型生成随机数；电子设备根据第一对象的图像和第三关键词构成的图文对更新第一模型，包括：若随机数大于或等于预设值，电子设备根据第一对象的图像和第三关键词构成的图文对更新第一模型。这样，可以使得第一模型有一定概率在迭代中学习到第三关键词，从而实现第二目标图像文件和第三关键词的匹配。

在一种可能的实现方式中，方法还包括：电子设备在目标应用的第三界面中接收到第五文本，其中，第五文本包括第四关键词；电子设备显示用于提示未得到与第五文本关联的图像的提示信息；在第二预设时间内，电子设备在目标应用的第四界面中接收到第六文本，其中，第六文本包括第五关键词；电子设备显示一张或多张第三图像，当电子设备接收到针对一张或多张第三图像中的目标第三图像的触发操作时，电子设备识别目标第三图像中的第三对象，以及电子设备将第三对象与第四关键词设置为图文对；电子设备根据第三对象和第四关键词构成的图文对更新第一模型；更新后的第一模型学习有将第三对象与第四关键词进行匹配的能力。这样，第一模型可通过对特殊词语和特殊词语的图像进行个性化词语的学习与更新，使得电子设备拥有根据个性化词语搜索到与个性化词语相关的图像的能力；当用户输入的搜索词包括该个性化词语时，第二设备可显示较准确的搜索结果。从而提升了图像检索的准确性，提升用户的使用体验。

其中，第三界面可对应于图21中的a所示界面；提示信息可对应于图21中的a所示界面中的提示信息2102。第四界面可对应于图21中的b所示界面。第三图像可对应于图21中的b所示界面中的照片2104和视频2105。

在一种可能的实现方式中，在电子设备显示一张或多张第一图像之前，还包括：若第一文本中包括人物标签和/或地点信息，则电子设备在目标应用中筛选第四图像，其中，第四图像包括与人物标签和/或地点信息相匹配的图像；第一模型基于第一文本与第四图像得到第一图像；其中，第一图像与第一文本的相似度大于相似度阈值。这样，电子设备可优先基于第一文本中的人物标签和/或地点信息筛选得到待处理图像，可减少待处理图像的数量，从而减小第一模型的运算压力，提升第一模型执行图形检索方法的效率。

在一种可能的实现方式中，第一图像包括目标视频，第一模型基于第一文本与第四图像得到第一图像之前，还包括：电子设备对第四图像进行分镜处理，得到一个或多个第四图像的视频片段；电子设备得到第四图像的视频片段的帧图片；第一模型基于第一文本与第四图像得到第一图像，包括：第一模型基于第一文本与帧图片得到目标视频，目标视频中的帧图片与第一文本的相似度大于相似度阈值。这样，电子设备可通过第一文本检索到第一文本所对应的视频，扩充了图库应用的检索场景，从而提升用户的使用体验。

在一种可能的实现方式中，第一界面还包括目标视频的提示信息，目标视频的提示信息用于提示目标视频中与第一文本相匹配的视频片段的起始时间和/或结束时间；在第一模型基于第一文本与帧图片得到目标视频之后，还包括：当电子设备接收到针对目标视频的触发操作时，电子设备显示第五界面；其中，第五界面显示有具有播放进度的目标视频，目标视频的播放进度与起始时间一致。这样，当用户选中目标视频后，电子设备可将播放进度调整到与提示信息中的起始时间相对应；从而简化用户手动调整播放进度的操作，提升用户的使用体验。

其中，目标视频的提示信息可对应于图3中的c所示界面中的提示文字311，第五界面可对应于图3中的d所示界面。

在一种可能的实现方式中，目标视频包括第一视频和第二视频，第一视频为目标应用中的原视频，第二视频为第一视频中与第一文本相匹配的视频片段。这样，当用户选择第二视频时，电子设备可使用裁剪后的视频，不需要再对原始视频进行裁剪，简化用户操作；当用户选择第一视频时，用户查看原始视频，从而提升用户的使用体验。

其中，第一视频可对应于图4中的a所示界面中的视频403，第二视频可对应于图4中的a所示界面中的视频402。

在一种可能的实现方式中，目标视频还包括第三视频，第三视频与第一文本的相似度小于第二视频与第一文本的相似度；在第一界面中，第三视频的显示位置在第二视频的显示位置的后方。这样，电子设备可根据相似度的高低依次显示多个目标视频，从而提升图文检索方法的准确性，提升用户的使用体验。

其中，第二视频可对应于图5中的视频503，第三视频可对应于图5中的视频504。

在一种可能的实现方式中，在第一模型基于第一文本与帧图片得到目标视频之后，还包括：当电子设备接收到针对目标视频的触发操作时，电子设备显示第六界面，第六界面包括目标视频和目标视频的进度条，其中，进度条设置有标记，进度条中设置有标记的部分所对应的视频片段与第一文本相匹配。这样，当原视频中与搜索词相匹配的视频片段较多时，电子设备可简洁的显示出目标视频。

其中，第六界面可对应于图6中的b所示界面，进度条设置有标记可对应于标记信息603和标记信息604。

在一种可能的实现方式中，第一模型是对第二模型压缩后得到的模型，第一模型的模型层数和/或模型中间层向量的维数小于第二模型的模型层数和/或模型中间层向量的维数。这样，蒸馏方法可以在维持较高的学习准确率的同时减小模型的大小，节省内存占用空间。

在一种可能的实现方式中，第二模型是服务器通过多模态对比学习的方法和/或自回归的方法对图文对样本集进行训练得到，图文对样本集包括：样本图像与样本图像对应的文本。这样，服务器可对第二模型进行训练，使得第二模型拥有相对准确的匹配图文对的能力。

第二方面，本申请实施例提供一种电子设备，终端设备也可以称为终端（terminal）、用户设备（user equipment，UE）、移动台（mobile station，MS）、移动终端（mobile terminal，MT）等。终端设备可以是手机（mobile phone）、智能电视、穿戴式设备、平板电脑（Pad）、带无线收发功能的电脑、虚拟现实（virtual reality，VR）终端设备、增强现实（augmented reality，AR）终端设备、工业控制（industrial control）中的无线终端、无人驾驶（self-driving）中的无线终端、远程手术（remote medical surgery）中的无线终端、智能电网（smart grid）中的无线终端、运输安全（transportation safety）中的无线终端、智慧城市（smart city）中的无线终端、智慧家庭（smart home）中的无线终端等等。

该电子设备包括：包括：处理器和存储器；存储器存储计算机执行指令；处理器执行存储器存储的计算机执行指令，使得终端设备执行如第一方面的方法。

第三方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序。计算机程序被处理器执行时实现如第一方面的方法。

第四方面，本申请实施例提供一种计算机程序产品，计算机程序产品包括计算机程序，当计算机程序被运行时，使得计算机执行如第一方面的方法。

第五方面，本申请实施例提供了一种芯片，芯片包括处理器，处理器用于调用存储器中的计算机程序，以执行如第一方面所述的方法。

应当理解的是，本申请的第二方面至第五方面与本申请的第一方面的技术方案相对应，各方面及对应的可行实施方式所取得的有益效果相似，不再赘述。

附图说明

图1为本申请实施例提供的电子设备100的结构示意图；

图2为本申请实施例提供的终端设备100的软件结构框图；

图3为本申请实施例提供的一种图像检索的界面示意图；

图4为本申请实施例提供的一种显示搜索结果的界面示意图；

图5为本申请实施例提供的一种排序显示搜索结果的界面示意图；

图6为本申请实施例提供的另一种显示搜索结果的界面示意图；

图7为本申请实施例提供的一种获取个性化词语和个性化词语对应图像的界面示意图；

图8为本申请实施例提供的另一种获取个性化词语和个性化词语对应图像的界面示意图；

图9为本申请实施例提供的一种多模态预训练模型的训练过程的流程示意图；

图10为本申请实施例提供的一种多模态预训练模型的训练过程的示意图；

图11为本申请实施例提供的一种多模态预训练模型的训练过程的示意图；

图12为本申请实施例提供的一种模型学习个性化词语的流程示意图；

图13为本申请实施例提供的一种模型学习个性化词语的流程示意图；

图14为本申请实施例提供的一种模型学习个性化词语的示意图；

图15为本申请实施例提供的另一种模型学习个性化词语的流程示意图；

图16为本申请实施例提供的另一种模型学习个性化词语的示意图；

图17为本申请实施例提供的一种模型学习个性化词语的流程示意图；

图18为本申请实施例提供的一种图像检索的流程示意图；

图19为本申请实施例提供的一种图像检索的示意图；

图20为本申请实施例提供的一种图像检索方法的流程示意图；

图21为本申请实施例提供的又一种获取个性化词语和个性化词语对应图像的界面示意图；

图22为本申请实施例提供的一种图像检索装置的结构示意图。

具体实施方式

为了便于清楚描述本申请实施例的技术方案，本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项（个）”或其类似表达，是指的这些项中的任意组合，包括单项（个）或复数项（个）的任意组合。例如，a，b，或c中的至少一项（个），可以表示：a，b，c，a-b，a-c，b-c，或a-b-c，其中a，b，c可以是单个，也可以是多个。

需要说明的是，本申请实施例中的“在……时”，可以为在某种情况发生的瞬时，也可以为在某种情况发生后的一段时间内，本申请实施例对此不作具体限定。此外，本申请实施例提供的显示界面仅作为示例，显示界面还可以包括更多或更少的内容。

可能的实现中，电子设备的图库应用支持搜索功能，但电子设备通过搜索功能得到的结果，准确度较低。示例性的，当用户在搜索栏中输入或录入的搜索词为蓝天、白云、动物、文档和/或美食等共性的词语时，电子设备能够较为准确的显示搜索结果；例如：搜索词为美食，电子设备可以显示拍摄有食物的照片和/或视频。而当用户在搜索栏中输入或录入的搜索词为“宝贝”、“二宝”和“咕咕家”等与用户相关的个性化词语时，电子设备可能无法准确的显示出搜索词对应的照片和/或视频。用户仍需要通过手动翻找和/或拉动视频的进度条等方法，获取到照片和/或视频，过程繁琐，用户体验差。

有鉴于此，本申请实施例提供了一种图像检索方法，用户可在搜索栏中录入或输入搜索词并进行搜索操作，其中，搜索词可包括与用户有关的个性化词语，例如：个性化词语可以包括人物称呼和/或特殊词语；响应于搜索操作，电子设备可基于模型的输出结果显示与搜索词相关的照片和/或视频，其中，模型是根据预先得到的个性化词语与个性化词语对应的图像训练的，模型拥有根据个性化词语搜索个性化词语相关的图像的能力。这样，当用户输入的搜索词为个性化词语时，电子设备也能够准确地显示对应的照片和/或视频，从而扩展了图库应用的检索图像的场景，简化用户操作，提升用户的使用体验。

本申请实施例中，电子设备也可以称为终端设备、终端（terminal）、用户设备（user equipment，UE）、移动台（mobile station，MS）、移动终端（mobile terminal，MT）等。终端设备可以是手机（mobile phone）、智能电视、可穿戴设备、平板电脑（Pad）、带无线收发功能的电脑、虚拟现实（virtual reality，VR）终端设备、增强现实（augmented reality，AR）终端设备、工业控制（industrial control）中的无线终端、无人驾驶（self-driving）中的无线终端、远程手术（remote medical surgery）中的无线终端、智能电网（smart grid）中的无线终端、运输安全（transportation safety）中的无线终端、智慧城市（smart city）中的无线终端、智慧家庭（smart home）中的无线终端等等。

其中，可穿戴设备也可以称为穿戴式智能设备，是应用穿戴式技术对日常穿戴进行智能化设计、开发出可以穿戴的设备的总称，如眼镜、手套、手表、服饰及鞋等。可穿戴设备即直接穿在身上，或是整合到用户的衣服或配件的一种便携式设备。可穿戴设备不仅仅是一种硬件设备，更是通过软件支持以及数据交互、云端交互来实现强大的功能。广义穿戴式智能设备包括功能全、尺寸大、可不依赖智能手机实现完整或者部分的功能，例如：智能手表或智能眼镜等，以及只专注于某一类应用功能，需要和其它设备如智能手机配合使用，如各类进行体征监测的智能手环、智能首饰等。

此外，在本申请实施例中，终端设备还可以是物联网（internet of things，IoT）系统中的终端设备，IoT是未来信息技术发展的重要组成部分，其主要技术特点是将物品通过通信技术与网络连接，从而实现人机互连，物物互连的智能化网络。本申请的实施例对终端设备所采用的具体技术和具体设备形态不做限定。

在本申请实施例中，电子设备可以包括硬件层、运行在硬件层之上的操作系统层，以及运行在操作系统层上的应用层。该硬件层包括中央处理器（central processingunit，CPU）、内存管理单元（memory management unit，MMU）和内存（也称为主存）等硬件。该操作系统可以是任意一种或多种通过进程（process）实现业务处理的计算机操作系统，例如，Linux操作系统、Unix操作系统、Android操作系统、iOS操作系统或windows操作系统等。该应用层包含浏览器、通讯录、文字处理软件、即时通信软件等应用。

为了能够更好地理解本申请实施例，下面对本申请实施例的电子设备的结构进行介绍：

图1示出了电子设备100的结构示意图。电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线（universal serial bus，USB）接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块（subscriberidentification module，SIM）卡接口195等。

其中，传感器模块180可以包括压力传感器，陀螺仪传感器，气压传感器，磁传感器，加速度传感器，距离传感器，接近光传感器，指纹传感器，温度传感器，触摸传感器，环境光传感器，骨传导传感器等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器（application processor，AP），调制解调处理器，图形处理器（graphics processingunit，GPU），图像信号处理器（image signal processor，ISP），控制器，视频编解码器，数字信号处理器（digital signal processor，DSP），基带处理器，和/或神经网络处理器（neural-network processing unit，NPU）等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。在本申请实施例中，处理器110可用于支持图像检索方法中信息处理的步骤。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从存储器中调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器（low noise amplifier，LNA）等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网（wirelesslocal area networks，WLAN）（如无线保真（wireless fidelity，Wi-Fi）网络），蓝牙（bluetooth，BT），全球导航卫星系统（global navigation satellite system，GNSS），调频（frequency modulation，FM），近距离无线通信技术（near field communication，NFC），红外技术（infrared，IR）等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在本申请实施例中，电子设备可更新多模态图文检索模型，电子设备也可基于服务更新多模态图文检索模型。一些场景中，电子设备可将收集的个性化词语的图文对通过移动通信模块150和/或无线通信模块160上传到服务器，由服务器对多模态图文检索模型进行更新，随后，电子设备通过移动通信模块150和/或无线通信模块160接收服务器的更新后的多模态图文检索模型。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像检索的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏（liquid crystal display，LCD），有机发光二极管（organic light-emittingdiode，OLED），有源矩阵有机发光二极体或主动矩阵有机发光二极体（active-matrixorganic light emitting diode的，AMOLED），柔性发光二极管（flex light-emittingdiode，FLED），Miniled，MicroLed，Micro-oLed，量子点发光二极管（quantum dotlightemitting diodes，QLED）等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件（charge coupled device，CCD）或互补金属氧化物半导体（complementary metal-oxide-semiconductor，CMOS）光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组（moving picture experts group，MPEG）1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络（neural-network，NN）计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

内部存储器121可以用于存储计算机可执行程序代码，可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序（比如声音播放功能，图像播放功能等）等。存储数据区可存储电子设备100使用过程中所创建的数据（比如音频数据，电话本等）等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器（universal flash storage，UFS）等。处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行电子设备100的各种功能应用以及数据处理。

电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构，等。本申请实施例以分层架构的Android系统为例，示例性说明电子设备100的软件结构。图2是本申请实施例的电子设备100的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时（Android runtime）和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图2所示，应用程序包可以包括相机，日历，电话，地图，社交、设置、邮箱、视频和音乐等应用程序。

应用程序框架层为应用程序层的应用程序提供API和编程框架。应用程序框架层包括一些预先定义的函数。

如图2所示，应用程序框架层可以包括窗口管理器，内容提供器，资源管理器，视图系统，通知管理器，活动管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，触摸屏幕，拖拽屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

活动管理器用于负责管理应用的活动(activity)的启动、状态、生命周期等与activity相关的事务。其中，activity是一个应用程序组件，可以提供一个界面，以供用户通过该界面与电子设备进行交互，从而完成某项任务。

Android runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器（surface manager），媒体库（Media Libraries），三维图形处理库（例如：OpenGL ES），2D图形引擎（例如：SGL）等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层可以包含显示驱动，摄像头驱动，音频驱动，传感器驱动等。

下面先结合附图3-图6对本申请实施例提供的图像检索方法所适用的场景进行描述。以电子设备为手机为例，图3示出了本申请实施例提供的一种图像检索方法的界面示意图，如图3所示：

电子设备可通过图库应用向用户展示拍摄的照片、下载的图片、截屏的图片、录制的视频和录屏的视频等图像。当电子设备中存储的图像数量较大时，电子设备也可利用图库应用的搜索功能快速得到用户想要的图像。

示例性的，电子设备前台运行有图库应用，电子设备显示如图3中的a所示界面，图3中的a所示界面中可包括图片、视频和功能按钮等，功能按钮可包括：照片按钮301、相册按钮302、时刻按钮303、发现按钮304、搜索按钮305和更多功能按钮306；搜索按钮305可用于根据搜索词搜索目标图像。用户通过点击搜索按钮305使用图库应用的搜索功能。当电子设备接收到针对搜索按钮305的触发操作时，电子设备可进入如图3中的b所示界面。

在图3中的b所示界面中，电子设备可显示图像的搜索栏307。一种可能的实现方式中，用户可在搜索栏307中文字输入搜索词；另一种可能的实现方式中，搜索栏307可包括语音按钮308；用户可基于语音按钮308在搜索栏307中语音录入搜索词。

当电子设备接收到用户在搜索栏中输入或录入的搜索词时，电子设备可根据搜索词显示搜索结果；其中，搜索结果可以是与搜索词相关的图片和/或视频，搜索结果中图像的数量可以为一个或多个。

一些实施例中，以搜索词为“二宝在树下玩耍”，搜索结果中包括一个视频，该视频为图库应用中的原始视频为例。

电子设备接收到搜索词“二宝在树下玩耍”，电子设备显示图3中的c所示界面。图3中的c所示界面包括搜索栏307、搜索词309、视频310和提示文字311；其中，搜索词309可以为“二宝在树下玩耍”，视频310可以为电子设备基于搜索词“二宝在树下玩耍”得到的搜索结果。提示文字311可用于提示视频310中与搜索词相关的视频片段的起始时间和/或结束时间；例如，提示文字311中包括与搜索词相关的视频片段的起始时间(2秒)和结束时间(12秒)；提示文字311也可包括与搜索词相关的视频片段的起始时间(2秒)，且不包括与搜索词相关的视频片段的结束时间(12秒)，本申请实施例对提示文字的具体形式不做限制。

当电子设备接收到针对视频310的触发操作时，电子设备可显示如图3中的d所示界面。图3中的d所示界面可显示视频310。一种可能的实现方式中，视频310的播放进度312可与提示文字311中的起始时间一致，例如，电子设备从视频310的第2秒开始播放视频310。

可以理解的是，搜索词的文本与图像的对象相对应，例如：搜索词中包括“二宝”和“树”，视频310中的对象包括小女孩和树木；其中，视频310中的树木可对应于“树”。基于常规理解，视频310中的小女孩应对应于搜索词“小女孩”，但本申请实施例中，电子设备可使用本申请实施例中提供的图像检索方法将个性化词语“二宝”与特定的小女孩建立匹配关系。本申请实施例后续会对个性化词语和对象的匹配方法进行说明，此处不做说明。

本申请实施例中，电子设备可以在图库应用中搜索到与搜索词相关的视频，其中，搜索词包括个性化词语。这样，可扩展图像检索的场景，提升搜索结果的准确性，进而提升用户的使用体验。

另一些实施例中，下面以搜索词为“二宝在树下玩耍”，搜索结果中包括多个视频为例，结合图4对本申请实施例提供的图像检索方法的使用场景进行说明。其中，搜索结果中包括图库应用中的原始视频和根据搜索词对原始视频进行裁剪的视频片段。

电子设备接收到搜索词“二宝在树下玩耍”，电子设备显示图4中的a所示界面。图4中的a所示界面包括搜索词401、视频402、视频402的提示文字404、视频403和视频403的提示文字405，其中，视频402可以为视频403中与搜索词401相关的视频片段。提示文字404可用于提示视频402的起始时间和/或结束时间；例如，提示文字404中包括视频402的起始时间(0秒)和结束时间(10秒)。提示文字405可用于提示视频403的起始时间和/或结束时间；例如，提示文字405中包括视频403的起始时间(0秒)和结束时间(1分42秒)。

本申请实施例中，电子设备可播放与搜索词相关的视频片段。

可选的，当电子设备接收到针对视频的触发操作时，电子设备可播放该视频，其中，该视频的播放时间可与提示文字中的起始时间一致，该过程可参考图3中的c所示界面和图3中的d所示界面中的相关描述，此处不再赘述。

可选的，当电子设备接收到针对视频402的触发操作时，电子设备进入图4中的b所示界面。图4中的b所示界面包括视频402，其中，视频402的播放时长可与视频403中与搜索词相关的视频片段的起始时间与结束时间的时间差相同，例如，视频402可以是视频403中第2秒至第12秒的10s内视频片段。

可以理解的是，一些场景中，原始视频中可包括与搜索词相关的视频片段和与搜索词无关的视频片段，用户可能希望对与搜索词相关的视频片段进行编辑，而不希望得到与搜索词无关的视频片段。这时，电子设备可对原始视频进行裁剪，去掉与搜索词无关的部分视频片段。例如，视频402可以为电子设备对视频403进行裁剪后得到的与搜索词相关的视频片段，视频402的播放时长可对应于视频403中与搜索词相关的视频片段的时长。本申请实施例不对电子设备裁剪视频片段的方法进行限制。

本申请实施例中，电子设备所显示的搜索结果可包括根据搜索词对原始视频进行裁剪的视频片段，这样，电子设备可使用裁剪后的视频，不需要再对原始视频进行裁剪，从而简化用户操作，提升用户的使用体验。

本申请实施例中，电子设备还可以播放与搜索词相关的原始视频。

示例性的，电子设备可显示图4中的c所示界面，图4中的a所示界面包括搜索词401、视频402、视频402的提示文字404、视频403和视频403的提示文字405；提示文字405可用于提示视频403的起始时间和/或结束时间；例如，提示文字405中包括视频403的起始时间(0秒)和结束时间(1分42秒)。

当电子设备接收到针对视频403的触发操作时，电子设备进入图4中的d所示界面。图4中的d所示界面包括视频403，其中，视频403的播放时长可与提示文字405中起始时间和结束时间的时间差相同。

可以理解的是，一些场景中，用户可能希望根据搜索词得到与搜索词相关的原始视频。例如，对于部分保存时间比较久的视频，用户可能能够想起的视频内容较少，用户希望使用少量的搜索词得到原始视频。这时，电子设备可根据搜索词显示图库应用中与搜索词相关的原始视频。

本申请实施例中，电子设备可根据包括个性化词语的搜索词得到搜索结果，搜索结果包括原始视频和根据搜索词对原始视频进行裁剪的视频片段。这样，用户可根据自身需求选择相应的视频，从而简化用户操作，提升用户的使用体验。

又一些实施例中，以搜索词为“二宝在松树下玩耍”，搜索结果包括多个视频为例，结合图5对本申请实施例提供的图像检索方法的搜索结果的显示顺序进行说明。

示例性的：电子设备接收到搜索词“二宝在松树下玩耍”，电子设备显示图5所示界面。图5所示界面包括搜索词501、视频502、视频503、视频504、视频502的提示文字505、视频503的提示文字506和视频504的提示文字507。

一种可能的实现方式中，电子设备可根据视频片段与搜索词的相似度显示搜索结果。

示例性的，视频502与搜索词的相似度大于或等于视频503与搜索词的相似度，且视频503与搜索词的相似度大于视频504与搜索词的相似度。电子设备显示搜索结果的顺序可以为视频502、视频503和视频504，如图5所示。

本申请实施例中，相似度可以是电子设备基于多模态图文检索模型对图像和搜索词的相似度进行打分的分数，相似度可理解为图像与搜索词的匹配程度，例如，视频502和视频503中的对象均包括“二宝”和“松树”，而视频504中的对象包括“二宝”和“杨树”，可以看出，视频504与搜索词的相似度要低于视频502和视频503。本申请实施例后续会对相似度的计算方法进行说明，此处不做说明。

另一种可能的实现方式中，当多个视频片段来源于同一原始视频时，电子设备可根据与搜索词相关的视频片段的起始时间显示搜索结果。

示例性的，视频502和视频503可来源于同一原始视频，其中，视频502的提示文字505所指示的起始时间为2秒，视频503的提示文字506所指示的起始时间为42秒；对于原始视频而言，2秒早于42秒，电子设备可依次显示视频502和视频503。

本申请实施例仅示例性的示出了两种搜索结果的显示顺序，本申请实施例对此并不造成限制。

又一些实施例中，以搜索结果包括一个视频为例，结合图6对本申请实施例提供的图像检索方法的使用场景进行说明。如图6所示：

示例性的，电子设备接收到搜索词“二宝在树下玩耍”，电子设备显示如图6中的a所示界面。图6中的a所示界面包括搜索词601和视频602，其中，视频602与搜索词601相匹配。当电子设备接收到针对视频602的触发操作时，电子设备可显示图6中的b所示界面。在图6中的b所示界面，电子设备可根据用户操作调整视频的播放进度，其中，视频的进度条可设置有标记信息，标记信息可用于标记视频602中与搜索词相关的视频片段。例如，标记信息可以为图6中的b所示界面中的标记信息603和标记信息604，其中，标记信息603和标记信息604可以分别为视频602的进度条上突出显示的部分。用户可通过滑动进度条将视频602的播放进度调整到标记信息603对应的区域，如图6中的c界面所示。

本申请实施例中，同一原始视频中可能包括多个视频片段与搜索词相关，电子设备可通过标记信息在原始视频中突出显示出与搜索词相关的视频片段。本申请实施例对标记信息的表现形式不做限制，标记信息也可以为提示文字，提示文字包括视频片段的起始时间和结束时间，用户可根据提示文字将视频的播放进度调整至与搜索词相关的视频片段的位置上。电子设备可通过改变相关进度条的颜色、添加提示边框和添加蒙层等方式设置标记信息。本申请实施例对此不作限制。

以上实施例以搜索结果包括视频为例，对本申请实施例中图像检索方法的使用场景进行了说明。搜索结果还可以包括图片，电子设备显示图片的方式与显示视频的方式相似，本申请实施例对图片的显示方式不再赘述。

本申请实施例中，电子设备可显示视频和设置有标记的进度条。这样，当搜索结果为多个视频，且多个视频来自同一原始视频时，电子设备可通过该方法简洁的显示出与搜索词相关的视频片段，不需要将多个视频片段一一展示；在用户查看视频的过程中，用户不需要查看完毕一视频后再返回上一界面查看另一个视频，从而简化用户操作，同时也可提升界面的美观性。

为提升本申请实施例提供的图像检索方法的准确性，电子设备将个性化词语与图像进行了关联。下面结合图7和图8对电子设备获取个性化词语的场景进行说明。

本申请实施例中，电子设备可基于用户在图库应用中输入的个性化词语为目标图像标注标签。示例性的，图7以个性化词语为人物称呼为例示出了本申请实施例提供的一种图像检索方法的界面示意图，如图7所示：

电子设备可显示图7中的a所示界面，图7中的a所示界面中包括人物图像显示区域701，其中，人物图像显示区域701可显示已标注人物称呼的图像和未标注人物称呼的图像，例如，已标注人物称呼的图像可以为照片702，照片702所对应的人物标签为“姐姐”；未标注人物称呼的图像可以为照片703。可以理解的是，本申请实施例以标注标签的图像是照片为例进行说明，本申请实施例中设置有标签的图像也可以照片集合、视频集合等，本申请实施例对此不作限制。

电子设备可根据用户输入的人物称呼将小女孩标注为“二宝”，“二宝”可以为该小女孩所对应的人物标签。例如，当电子设备接收到针对照片703的触发操作时，电子设备显示图7中的b所示界面。图7中的b所示界面中显示有人物称呼输入框704和确认按钮705，其中，人物称呼输入框704用于显示用户输入的人物称呼，人物称呼可以为“二宝”。当电子设备接收到针对确认按钮705的触发操作时，电子设备可显示图7中的c所示界面。在图7中的c所示界面中，电子设备将照片703标注为“二宝”。

后续用户在图库应用的搜索栏中输入与“二宝”相关的搜索词时，电子设备可显示与照片703中的小女孩的人脸特征相同或相似的图片或视频，如图3至图6所示。

本申请实施例以个性化词语为人物称呼为例，对电子设备标注个性化词语的方法进行了说明。电子设备还可将地点、动物和风景等标注为特殊词语。本申请实施例对此不再重复说明。

本申请实施例中，电子设备还可以根据用户对搜索结果的选择结果为图像标注个性化词语。示例性的，图8以个性化词语为特殊词语为例示出了本申请实施例提供的一种图像检索方法的界面示意图，如图8所示：

电子设备接收到搜索词“今天在动物园，二宝在咕咕家玩耍”时，电子设备可显示图8中的a所示界面。图8中的a所示界面包括搜索栏801、视频802、视频803、视频804和视频805；其中，视频802、视频803、视频804和视频805可以为原始视频，也可以为视频片段。搜索词“今天在动物园，二宝在咕咕家玩耍”中包括个性化词语“咕咕家”，当个性化词语与图像未建立匹配关系时，电子设备可能无法准确的显示与“咕咕家”对应的图像。电子设备可显示与“今天”、“动物园”和“二宝”相关的视频或图片，例如，视频802、视频803、视频804和视频805。

当电子设备接收到针对视频803的触发操作时，电子设备可显示如图8中的b所示界面，以及电子设备将“今天在动物园，二宝在咕咕家玩耍”与视频803存储为图文对；图文对可以为具有弱关联性的图像和文本。图8中的b所示界面可包括视频803。

可以理解的是，电子设备可收集多组与个性化词语相关的图文对，电子设备通过该图文对更新多模态图文检索模型。更新后的多模态图文检索模型可准确的根据该个性化词语搜索到相关的图像。

示例性的，图文对中，文本可以为“今天在动物园，二宝在咕咕家玩耍”，图像可以为视频803中的任一帧图片。电子设备将多组图文对作为样本集对多模态图文检索模型进行训练，得到更新后的多模态图文检索模型。当用户再次在搜索栏中输入“咕咕家”时，电子设备可显示对象为羊驼的照片和/或视频。例如，用户再次输入“今天在动物园，二宝在咕咕家玩耍”，电子设备可显示如图8中的c所示界面。图8中的c所示界面包括视频803，其中，视频803的拍摄时间可对应于“今天”，拍摄地点可以对应于“动物园”，视频803的对象小女孩可对应于“二宝”，视频803的对象羊驼的位置可对应于“咕咕家”。可以看出，图8中的c所示界面中的搜索结果与搜索词的相似度大于或等于图8中的a所示界面中的搜索结果与搜索词的相似度。因此，更新后的多模态图文检索模型可以提供更加准确的搜索结果。

可以理解的是，本申请实施例仅示例性的提供了上述两种获取个性化词语与图像对应关系的方法，本申请实施例也可采用其他方式，例如，用户输入包括个性化词语的搜索词时，电子设备所显示的图像不是用户期望的图像；在预设时间内，用户重新输入新的搜索词，电子设备显示与新的搜索词相关的搜索结果，用户选中搜索结果中的视频和/或图片；这时，电子设备可将用户选中的图像与个性化词语建立图文对。本申请实施例对此不再一一列举。

可以理解的是，本申请实施例中提供的界面仅作为一种示例，并不能构成对本申请实施例的限定。

在上述实施例的基础上，本申请实施例提供一种图像检索方法，电子设备可基于多模态图文检索模型得到与搜索词相关的搜索结果，下面先结合图9对模型的构建过程进行说明。示例性的，图9为本申请实施例提供的一种图像检索方法的流程示意图。如图9所示：

需要说明的是，电子设备可包括第一设备和第二设备，其中，第一设备可以为算力较大，内存较大，可以处理海量数据的电子设备，例如，第一设备可以为端侧服务器。第二设备可以为内存较小，计算能力有限，能够便携使用的电子设备，例如，第二设备可以为手机、平板和穿戴设备等

示例性的，S901、第一设备训练多模态预训练模型。

多模态预训练模型可以为设置在第一设备中的模型，基于第一设备在算力和内存等方面的优势，多模态预训练模型能够训练的样本更多，输出的结果也更准确。

具体的，第一设备训练多模态预训练模型的过程可包括：

S9011、第一设备获取图文对样本集。

图文对样本集可包括多个图文对。其中，任一图文对中，图像与文本之间存在关联性。示例性的，第一设备可从网络侧获取大量图像与文本作为图文对样本，其中，文本可以为对图像中的对象的简单描述。第一设备也可从其他来源获取图文对样本集，第一设备也可对获取图文对进行处理得到图文对样本集，本申请实施例对此不做限制。

S9012、第一设备利用图文对样本集对多模态预训练模型进行训练，其中，多模态预训练模型包括根据文本搜索图像的能力。

多模态预训练模型可包括第一图像编码器、第一文本编码器和第一文本解码器等，其中，第一图像编码器用于将图像转化为用数字表示的向量，例如，第一设备可以用128个数字表示帧图片，也可以理解为用128维的向量来表示该帧图片，该128维的向量可以称为该帧图片的高维空间的表示；第一文本编码器用于将文本转化为用数字表示的向量，第一文本解码器用于将数字表示的向量转化为文本。文本的高维空间表示类似，本申请实施例对此不再赘述。本申请实施例中第一文本编码器和第一文本解码器可以是同一模型，也可以是不同模型，本申请实施例对此不作赘述。

第一设备基于对比学习的方式对多模态预训练模型进行训练的训练过程可如图10所示：

示例性的，文本1可以为“一个小女孩在树下”，第一设备将文本1输入第一文本编码器；第一文本编码器将文本1转化为向量1；第一设备分别将图像1、图像2和图像3输入第一图像编码器；第一图像编码器将图像1、图像2和图像3分别转化为向量2、向量3和向量4。

电子设备通过对比学习的方式对图像和文本进行训练，得到图像与文本的相似度。训练时候，同一图文对的相似度设置为1，非配对图文对相似度设置为0；经过训练，模型可以从海量图文对数据中习得自然语言语义与图像元素之间的映射关系。经过训练，第一设备可分别得到向量1与向量2的相似度、向量1与向量3的相似度以及向量1与向量4的相似度；其中，文本和图像的相似度可以用文本的向量和图像的向量的余旋相似度计算，其取证范围在0到1之间。例如，图像1即为一个小女孩在树下，图像2为一名女性，图3为花朵特写，那么第一设备根据图像的向量值和文本的向量值计算图像和文本的距离，就会得到向量1与向量2的相似度大于向量1与向量3的相似度，以及向量1与向量3大于向量1与向量4的相似度。

可以理解的是，经过多模态对比学习之后，该多模态预训练模型最后可以逐渐收敛，这时，该多模态预训练模型的输出结果和正确值的误差比较小，可以进行相对准确的图文对表示。对于给定的图文对来说，图像与文本的相似度大于相似度阈值，表示该图像与该文本的相似度较高，例如，图10中的文本1与图像1的相似度高于相似度阈值，文本1与图像1可以判断属于一个图文对。

本申请实施例中，多模态预训练模型经过步骤S9012的训练后，多模态预训练模型可包括根据文本搜索图像的能力和根据图像搜索文本的能力，由于本申请实施例的应用场景如图3-图8所示，多模态预训练模型可以根据搜索词搜索到与搜索词相关的搜索结果，因此本申请实施例对根据图像搜索文本的能力不做过多说明。

S9013、第一设备通过对比学习和自回归的方式对多模态预训练模型进行训练，其中，对比学习可以使得多模态预训练模型具有根据文本搜索图像的能力和根据图像检索文本的能力；自回归的预训练任务可以使得模型具有根据图像生成文本的能力。

对比学习的流程可参考步骤S9012中的相关描述，此处不做赘述。

本申请实施例可通过自回归的方式对多模态预训练模型做进一步的训练，从而提升多模态预训练模型输出结果的准确性，以及使多模态预训练模型具备对个性化词语进行训练的能力。

第一设备基于自回归的方式对多模态预训练模型进行训练的训练过程可如图11所示：

第一设备将图像1输入第一图像编码器，第一图像编码器将图像1转化为向量2；第一文本解码器接收向量2，第一文本解码器基于向量2预测文本1中的第一个字“一”；随后，第一设备将文本“一”和向量2一起传到第一文本解码器，第一文本解码器预测文本1中的第二个字“个”；依次类推，第一设备通过对自身数据的迭代，最终可输出本文1“一个小女孩在树下”。

经过多模态自回归的迭代之后，该多模态预训练模型最后可以逐渐收敛，这时，该多模态预训练模型的输出结果和正确值的误差比较小，可以根据图像较准确的输出文本。根据图像生成文本的训练任务，可以帮助模型对齐图像和文本的表示空间，有助于基于文本的图像检索任务效果提升。

本申请实施例仅示例性的示出了自回归方式的训练过程，本申请实施例对此不做限制。

本申请实施例中，多模态预训练模型的参数量和计算量较大，可适用于第一设备，而算力小内存小的第二设备可能无法支持多模态预训练模型的运行，因此，本申请实施例可将多模态预训练模型的能力转移到小模型上，小模型保留多模态预训练模型的能力，这样，小模型设置在第二设备上后，第二设备可基于小模型实现根据搜索词得到与搜索词相关的图像。电子设备将多模态预训练模型的能力转移到小模型的过程如步骤S902所示：

S902、第一设备通过蒸馏的方法对多模态预训练模型进行压缩。

本申请实施例中，第一设备可通过蒸馏的方法训练一个规模较小的小模型，其中，小模型可模仿多模态预训练模型的行为，从而实现保证模型较高准确度的前提下，缩小模型的占用空间及算力。小模型可以为上述实施例中部署在第二设备中的多模态图文检索模型。

一种可能的实现方式中，第一设备可通过减少模型层数和/或减小模型中间层向量的维数实现模型压缩，第二设备通过图文对样本集在多模态预训练模型上的向量表示，对小模型进行训练，使小模型的图文向量表示与多模态预训练模型的向量尽可能接近，从而使得小模型与多模态预训练模型的图文表示能力同步。压缩模型的过程可减少模型的复杂度和参数数量，压缩后的模型还可以减少计算量，提高模型的训练速度和推理速度。

本申请实施例中，多模态预训练模型具备将文本和图像转化为高维空间的向量的能力，小模型也具备将文本和图像转化为高维空间的向量的能力。例如，小模型可包括第二图像编码器、第二文本编码器和第二文本解码器；其中，第二图像编码器可拥有第一图像编码器将图像转化为向量的能力，第二文本编码器可拥有第一文本编码器将文本转化为向量的能力，第二文本解码器可拥有第一文本解码器将向量转化为文本的能力。

第一设备将多模态预训练模型进行压缩后，得到多模态图文检索模型。多模态图文检索模型可被部署在第二设备中。

本申请实施例中，第一设备通过对多模态预训练模型进行训练和压缩，得到能够部署在第二设备上的多模态图文检索模型，这样，内存较小、算力较小的第二设备也可基于多模态图文检索模型实现根据搜索词得到搜索结果的效果。

进一步的，本申请实施例中，第二设备中的多模态图文检索模型可支持基于包括个性化词语的搜索词搜索图像的功能，例如，图3-图6中所示场景中，第二设备可显示与个性化词语相关的搜索结果。图12示出了本申请实施例提供的一种图像检索方法，如图12所示：

S1201、第二设备获取与个性化词语相关的目标图像和目标文本。

个性化词语可包括人物称呼和特殊词语，人物称呼可以包括：名字、昵称和人物关系等词语，例如：人物称呼可以为领导、宝宝、哥哥和姐姐等词语；特殊词语可以是用户自定义的词语。

目标图像可以为用户标注有个性化词语的图像，和/或与个性化词语相关的图像检索过程中，第二设备收集到的图像；目标文本可以为包括个性化词语的文本。例如，用户标注有个性化词语的图像可对应于图7中的c所示界面中的照片703，其中，照片703被用户标注为“二宝”。又例如，第二设备收集到的图像可对应于图8中的a所示界面中，用户选中的视频803；或，第二设备收集到的图像可对应于图21中的b所示界面中的视频2105。电子设备可将上述目标图像和目标文本进行匹配，得到图文对。

S1202、第二设备得到基于目标图像和目标文本训练后的多模态图文检索模型，训练后的多模态图文检索模型拥有将目标文本与目标图像进行匹配的能力。

第二设备可更新多模态图文检索模型，更新后的多模态图文检索模型拥有根据个性化词语得到相应图像的功能。

一种可能的实现方式中，第二设备可通过目标图像和目标文本的图文对对多模态图文检索模型进行训练，得到训练后的多模态图文检索模型。示例性的，第二设备基于目标图像和目标文本的图文对对模型进行训练的过程与步骤S9011的过程相似，此处不再赘述。

另一种可能的实现方式中，第二设备可将目标图像和目标文本对发送到第一设备，第一设备根据目标图像和目标文本的图文对对多模态图文检索模型进行训练，得到训练后的多模态图文检索模型。第二设备得到训练后的多模态图文检索模型，并对现有的模型进行更新。第一设备基于目标图像和目标文本的文本对对模型进行训练的过程与步骤S9011的过程相似，此处不再赘述。

本申请实施例中，多模态图文检索模型可对个性化词语进行学习和更新，当用户输入的搜索词包括该个性化词语时，第二设备可显示较准确的搜索结果；从而提升图像检索的准确性，提升用户的使用体验。

下面以个性化词语为人物称呼，第二设备训练并更新模型为例，结合图13和图14对模型的个性化表述的训练过程和更新过程做详细说明。图13示出了本申请实施例提供的一种图像检索方法，如图13所示：

S1301、第二设备得到个性化词语和个性化词语对应的图像。

以个性化词语为人物称呼为例，第二设备可通过人脸特征聚类获得图库应用中的高频人物的图像，用户可为这些人物标注人物称呼的标签，例如图7中的c所示界面中，用户将照片702标注为“姐姐”，将照片703标注为“二宝”，其中“二宝”的目标图像可以为照片703，也可以为与照片703人脸特征匹配度高的图像。

第二设备得到个性化词语和个性化词语的目标图像，如图14所示，个性化词语可以为“这是一张<二宝>的照片”的标签、文本“二宝”的向量参数和/或文本“二宝”等，本申请实施例对个性化词语的形式不做限制；个性化词语的目标图像可以为图14中的图像1。

一种可能的实现方式中，第二设备可在充电、版本更新、灭屏状态和夜间等非工作时段识别并获取用户标注的个性化词语。

S1302、第二设备利用多模态图文检索模型得到目标图像的源文本。

多模态图文检索模型包括根据图像生成文本的能力。第二设备可通过第二图像编码器将目标图像转化为向量；第二文本解码器得到向量后，将向量转化为文本，从而得到目标图像的源文本。

例如，第二设备可通过第二图像编码器将图像1转化为向量5；第二文本解码器得到向量5，将向量5转化为图像1的源文本，图像1的源文本可以为“一个女孩在树下玩耍”。

S1303、第二设备根据个性化词语和目标图像的源文本得到目标文本。

第二设备得到个性化词语与目标图像的源文本后，将个性化词语和目标图像的源文本进行整合，得到目标文本。例如，如图14所示，第二设备可将 “一个女孩在树下玩耍”的源文本和“这是一张<二宝>的照片”的个性化词语整合为“<二宝>在树下玩耍”，从而得到目标文本。

一种可能的实现方式中，第二设备可得到用户标注的人物标签，以及第二设备可得到目标图像的源文本中与人像对应的词语；第二设备将与人像对应的词语替换为人物标签，得到目标文本。示例性的，第二设备可根据这是一张<人物称呼>的照片的，确定目标图像所对应的人物标签。例如，第二设备得到这是一张<二宝>的照片，确定人物标签为<二宝>；第二设备识别“一个女孩在树下玩耍”中与人像对应的词语为“一个女孩”；第二设备将“一个女孩”替换为“二宝”；第二设备得到目标文本，目标文本可以为“二宝在树下玩耍”。

S1304、第二设备使用目标图像和目标文本对多模态图文检索模型进行训练，得到更新后的多模态图文检索模型。

第二设备可根据目标图像的向量与目标文本的向量对多模态图文检索模型进行训练，例如，如图14所示，第二文本编码器将目标文本“<二宝>在树下玩耍”转化为向量6，第二设备利用向量5和向量6对多模态图文检索模型进行训练，得到更新后的多模态图文检索模型。训练的过程与步骤S9011的过程相似，此处不再赘述。

更新后的多模态图文检索模型拥有根据个性化词语搜索图像的能力。例如，如图3-图6所示，用户输入的搜索词包括“二宝”时，第二设备可显示与“二宝”相关的图像。

下面以个性化词语为人物称呼，第一设备训练并更新模型为例，结合图15和图16对模型的个性化表述的训练过程和更新过程做详细说明。图15示出了本申请实施例提供的一种图像检索方法，如图15所示：

S1501、第二设备得到个性化词语和个性化词语的目标图像。

第二设备得到的个性化词语的目标图像可以为视频，例如，目标图像为图16中的视频1。可以理解的是，视频可包括帧图片，第二设备可得到多个帧图片并基于人脸特征模型筛选出目标人物。例如，第二设备可得到视频1中的多个与小女孩的人脸特征相同或相似的帧图片，这些帧图片可以为个性化词语“二宝”的目标图像。

步骤S1501与步骤S1301的原理类似，此处不再赘述。

一些实施例中，多模态预训练模型在压缩得到多模态图文检索模型过程中，多模态图文检索模型可能包括根据文本搜索图像的能力，但不包括根据图像生成文本的能力。因此，模型的个性化词语的学习过程需要第一设备中多模态预训练模型的根据图像生成文本的能力。第二设备可得到第一设备更新后的多模态图文检索模型，如步骤S1502-S1505所示：

S1502、第一设备得到来自第二设备的个性化词语和目标图像的向量。

一种可能的实现方式中，第二设备可将个性化词语和个性化词语的目标图像上传到第一设备。第一设备经第一图像编码器将目标图像转化为向量，从而得到目标图像的向量。

另一种可能的实现方式中，第二设备可将个性化词语和目标图像的向量上传到第一设备。例如，如图16所示：第二设备将视频1中的帧图片经第二图像编码器转化为向量7，第二设备将个性化词语和向量7上传到第一设备。

S1503、第一设备将目标图像的向量转化为目标图像的源文本。

第一设备可利用多模态预训练模型中根据图像生成文本的能力，通过第一文本解码器将目标图像的向量转化为目标图像的源文本。如图16所示，第一设备将向量7经第一文本解码器转化为源文本，源文本可对应于“一个女孩在树下玩耍”。

S1504、第一设备根据个性化词语和目标图像的源文本得到目标文本。

步骤S1504可参考步骤S1303处的相关描述，此处不再赘述。

S1505、第一设备使用目标图像的向量和目标文本的向量对多模态预训练模型进行训练，得到训练后的多模态预训练模型。

第一设备利用第一文本编码器将目标文本转化为目标文本的向量，第一设备基于对比学习的方式得到目标文本的向量和目标图像的向量的相似度，从而对模型进行训练。例如，如图16所示，第一设备将目标文本“<二宝>在树下玩耍”经第一文本编码器转化为向量8，第一设备对比学习向量7和向量8的相似度，得到训练后的多模态预训练模型。

S1506、第二设备更新多模态图文检索模型。

在得到训练后的多模态预训练模型时，第一设备可对训练后的多模态预训练模型进行压缩，得到更新后的多模态图文检索模型。第二设备可同步更新后的多模态图文检索模型。

一种可能的实现中，第二设备可以将图库应用中多个目标图像的数据进行批量上传。为了不影响用户体验，可以在用户不使用第二设备的时候进行数据上传，例如，第二设备可以在晚上或午夜时上传数据，或者在用户自定义的时间段上传数据，本申请实施例对上传数据的方式和时间不作限定。第二设备也可在上述非工作时段更新多模态图文检索模型，本申请实施例对此不作限制。

下面以个性化词语为特殊词语为例，结合图17对模型的个性化表述的训练过程和更新过程做详细说明。图17示出了本申请实施例提供的一种图像检索方法，如图17所示：

S1701、第二设备获取搜索词和搜索词的目标图像，搜索词包括个性化词语。

个性化词语包括特殊词语，特殊词语可以为用户自定义的词语，也就是说，不同的用户可能对同一个物体的命名方式不同。例如，图 8中的“咕咕家”可以为特殊词语。

第二设备可通过在线数据收集埋点的方式，得到包括个性化词语的搜索词和搜索词的目标图像。例如，第二设备可针对用户的特定行为或事件进行追踪，获取包括个性化词语的搜索词和搜索词的目标图像。

一种可能的实现方式中，第二设备可采用随机采样方法与用户反馈相结合进行模型的更新。对于用户选中的图像，第二设备中的多模态图文检索模型可以将用户选中的图文对为锚点。

示例性的，一些场景中，如图8所示：在图8中的a所示界面中，第二设备显示有视频802、视频803、视频804和视频803；当第二设备接收到针对视频803的触发操作时，第二设备显示图8中的b所示界面。可以理解的是，用户选中了视频803，表明视频803与“今天在动物园，二宝在咕咕家玩耍”的匹配度更高，则第二设备可将视频803与“今天在动物园，二宝在咕咕家玩耍”构建成图文对。为便于说明，下面以视频803中的帧图片为图像1，“今天在动物园，二宝在咕咕家玩耍”为文本1为例，第二设备构建图像1和文本1的图文对。

本申请实施例中，多模态图文检索模型可以以预设概率接受图像1与文本1的匹配为真，也就是说，多模态图文检索模型可以以预设概率接受图像1与文本1为匹配的图文对，并将图像1与文本1建立起的图文对进行学习训练。其中，预设概率可以由多模态图文检索模型进行设置，多模态图文检索模型可以取值不同的预设概率，例如预设概率可以取值为50%，本申请实施例对预设概率的具体取值不作限定。

以预设概率为50%为例，多模态图文检索模型可以产生随机数a，若a大于或等于50%，则可以认为图像1与文本1为匹配的图文对；若a小于50%，则认为图像1与文本1为不匹配的图文对。

可以理解的是，如果在用户多次使用了某个固定的特殊词语时，多模态图文检索模型就有很大的概率在迭代中学习到该特殊词语的个性化表达，可以实现图像与文本的匹配。

示例性的，如果多模态图文检索模型基于图像1与文本1的图文对进行学习，得到学习后的多模态图文检索模型；那么当学习后的多模态图文检索模型再次基于图像1与文本1的图文对进行学习时，图像1与文本1的相似度计算的值会更高，更有可能完成匹配。如果错误地将图像1与文本1作为图文对更新了模型，也就是说，图像1与文本1本质上是没有关系的，那么下一次遇到了图像1与文本1一起出现的概率就比较小。因此，第二设备可通过随机采样方法与用户反馈相结合的方式较为准确的得到匹配的图文对。

本申请实施例以图8所示的场景为例，对特殊词语的图文对的获取方法进行了说明，本申请实施例中也可通过其他方式得到特殊词语的图文对。例如，用户输入第一搜索词，第一搜索词中包括特殊词语，但电子设备所显示的图像不是用户期望的图像；在预设时间内，用户期望的图像可能未发生变化，且用户更改了搜索词；用户重新输入第二搜索词，电子设备显示与第二搜索词相关的搜索结果，用户选中了一个图像；这时，在一定的预设概率下，第二设备也可将第一搜索词与用户选中的图像作为匹配的图文对。本申请实施例对此不作限制。

S1702、第二设备得到基于搜索词和搜索词的目标图像训练后的多模态图文检索模型。

模型的训练过程可参考步骤S1302-S1304或步骤S1502-S1506处的相关描述，本申请实施例对此不再赘述。

以上实施例对模型的训练过程以及个性化词语的学习过程进行了说明，下面结合图18对本申请实施例中图像检索方法的搜索过程进行描述，如图18所示：

S1801、第二设备接收搜索词。

搜索词可以为用户输入的文本或基于用户录入的语音转化的文本。

例如，图19中，搜索词为“二宝在公园的树下玩耍”。

S1802、第二设备对搜索词进行文本分析，获取搜索词中的人物标签和/或地点信息。

例如，图19中，搜索词为“二宝在公园的树下玩耍”，人物标签为“二宝”，地点信息为“公园”。

S1803、第二设备在图库应用中筛选满足人物标签和/或地点信息的图像，得到待处理图像。

一种可能的实现方式中，当搜索词中包括地点信息时，第二设备可在图库应用中筛选出满足地点信息的图像。其中，图像的可交换图像文件(Exchangeable Image File，Exif)中可包括图像的地点信息，地点信息可以为第二设备在拍摄图像时基于定位系统得到的。

另一种可能的实现方式中，当搜索词中包括人物标签时，第二设备可在图库应用中筛选出满足人物标签的图像。其中，第二设备可基于人脸特征聚类得到与人物标签相关的图像，第二设备也可基于预先标注的人物称呼的标签得到与人物标签相关的图像。

又一种可能的实现方式中，当搜索词中包括地点信息和人物标签时，第二设备可在图库应用中筛选出满足地点信息和人物标签的图像。例如，图19中，第二设备筛选的待处理图像与“二宝”和“公园”有关。

S1804、第二设备对待处理图像进行分镜，得到多个视频片段。

第二设备可根据分镜算法对待处理图像进行分镜，得到多个视频片段；其中，任一视频片段中的帧图片所描述的场景相似；第二设备可得到任一视频片段的起始时间和结束时间。多个视频片段可以为视频片段1、视频片段2和视频片段3，其中，视频片段1、视频片段2和视频片段3可来源于同一原始视频，也可以来源于不同的原始视频。

S1805、第二设备对任一视频片段进行抽帧，得到多个该视频片段的帧图片。

任一视频片段可包括多个帧图片，第二设备可通过抽帧的方式得到其中的部分帧图片，以使用部分帧图片的信息表征该视频片段的信息，提升模型输出搜索结果的效率。

以第二设备抽取视频片段中的一帧作为该视频片段的帧图片为例，如图19所示：帧图片1可以为视频片段1经抽帧后得到的帧图片，帧图片2可以为视频片段2经抽帧后得到的帧图片，帧图片3可以为视频片段3经抽帧后得到的帧图片。

S1806、第二设备利用多模态图文检索模型计算帧图片与搜索词的相似度和相似度的排序。

第二设备通过第二文本编码器将搜索词转化为向量，第二设备通过第二图像编码器将视频帧转化为向量，多模态图文检索模型计算向量之间的相似度。第二设备可对相似度进行排序。

例如，图19中，搜索词的向量为向量9，帧图片1的向量为向量10，帧图片2的向量为向量11，帧图片3的向量为向量12。第二设备分别得到向量9与向量10的相似度、向量9与向量11的相似度、和向量9与向量12的相似度，并对相似度进行排序。

S1807、第二设备按照相似度排序返回视频片段。

相似度可按降序的方式进行排序，第二设备优先显示与搜索词相似度高的视频片段，如图5所示，第二设备根据相似度依次显示视频502、视频503和视频504。

一种可能的实现方式中，第二设备可返回视频片段的起始位置，例如，图3中的c所示界面中，视频310可以为原始视频的视频片段，第二设备返回视频片段的起始位置，起始位置可以为“时间：2秒至12秒”。

需要说明的是，本申请实施例以第二设备执行步骤S1801-S1807为例，对电子设备执行本申请实施例的图像检索方法的实现进行说明，例如，第二设备可用于如图3-图6所示的场景中。可以理解的是，本申请实施例也可基于第一设备训练模型的个性化表述能力，第一设备也可执行与步骤S1801-S1807相似的过程，本申请实施例对此不作限制。

下面通过具体的实施例对本申请实施例的方法进行详细说明。下面的实施例可以相互结合或独立实施，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图20示出了本申请实施例的图像检索方法。方法包括：

S2001、电子设备在目标应用的第一界面中接收到第一文本；其中，第一文本包括第一标签。

本申请实施例中，电子设备可以为上述实施例中的第二设备；一些实施例中，电子设备也可以为上述实施例中的第一设备。

目标应用可以为图库应用、相册应用或其他应用，第一界面可以为能够接收用户输入或录入第一文本的界面，第一标签可以为目标应用中预先设置的标签。例如，第一界面可以为图3中的c所示界面，电子设备可在搜索栏307中输入第一文本，第一文本可对应于搜索词309。第一标签可以为上述实施例中的个性化词语，第一标签可对应于图7中的c所示界面中的标签“姐姐”，标签“二宝”等；第一文本包括第一标签可对应于搜索词“二宝在树下玩耍”中包括“二宝”的标签。

S2002、电子设备显示一张或多张第一图像；其中，一张或多张第一图像包括目标应用中与第一标签匹配的图像；第一图像为电子设备中的第一模型基于第一文本和目标应用中的图像确定的，第一模型是根据目标应用中的图文对进行学习得到的，目标应用中的图文对包括对象的标签和对象的图像，对象的标签包括第一标签。

本申请实施例中，电子设备显示一张第一图像，可对应于图3中的c界面所示的场景，第一图像可对应于视频310。电子设备显示多张第一图像，可对应于图4中的a所示场景，多张第一图像可对应于视频402和视频403；或者，电子设备显示多张第一图像，可对应于图5所示场景，多张第一图像可对应于视频502、视频503和视频504。

一张或多张第一图像包括目标应用中与第一标签匹配的图像可理解为：第一标签为“二宝”，第一图像所显示的对象中包括与“二宝”相对应的小女孩。例如，如图3中的c界面所示，视频310中显示有标签“二宝”所对应的小女孩。

第一模型可以为第二设备中的多模态图文检索模型。第一图像可以为第二设备的多模态图文检索模型基于第一文本和图库应用中的图像确定的；例如：如图3中的c界面所示，第二设备的多模态图文检索模型基于“二宝在树下玩耍”在图库应用的图像中得到视频310。

目标应用中的图文对可理解为：电子设备根据图7或图8所示的方法得到的图库应用中的个性化词语和个性化词语对应的图像。需要说明的是，实际场景中，由于第一文本包括第一标签和其他关键词，因此一般情况下，用于训练的个性化词语对应的图像与根据第一文本搜索到的第一图像不是同一图像。

第一模型是根据目标应用中的图文对进行学习得到的，可以理解为：电子设备执行步骤S1301-S1304、或S1501-S1506、或S1701-S1702之后得到第一模型；此时，第一模型拥有根据个性化词语搜索与该个性化词语相关的图像的能力。

对象可对应为图7中的c所示界面中视频703中的小女孩，对象的标签可对应为标签“二宝”，对象的图像可对应为视频703；目标应用中的图文对包括对象的标签和对象的图像，可理解为：图库应用中包括视频703，电子设备将“二宝”与视频703的帧图片设置为图文对。

本申请实施例提供的一种图像检索方法，电子设备在目标应用中接收到第一文本，第一文本包括第一标签；电子设备显示一张或多张第一图像；该图像包括目标应用中与第一标签匹配的图像。这样，电子设备可以在图库应用中搜索到与包括个性化词语的搜索词相关的视频，扩展了图像检索的场景，提升了搜索结果的准确性，从而提升用户的使用体验。

可选的，在图20、图7、图13和图14对应的实施例的基础上，第一模型包括图像编码器、文本解码器和文本编码器；在电子设备在目标应用的第一界面中接收到第一文本之前，还包括：

1）电子设备获取对象的标签和对象的图像。

本申请实施例中，对象的标签可理解为图7中的c界面所示的标签“二宝”；对象的图像可理解为图7中的c界面所示的照片703，对象可理解为照片703中的小女孩。具体的，在图14中，对象的图像可对应于图像1，对象的标签可以为“这是一张<二宝>的照片”中的<二宝>，对象可以为图像1中的小女孩。

本申请实施例中，电子设备获取对象的标签和对象的图像的方法，可参考图7所示场景以及步骤S1301所述的方法，本申请实施例对此不做赘述。

电子设备通过图像编码器将对象的图像转化为第一向量。

图像编码器可对应于第二设备中的第二图像编码器，第一向量可对应于图14中的向量5。例如，在图14所示场景中，第二设备通过第二图像编码器将图像1转化为向量5。

电子设备通过文本解码器将第一向量转化为第二文本；第二文本包括用于描述对象的第一关键词，且第二文本不包括对象的标签。

文本解码器可对应于第二设备中的第二文本解码器，第二文本可对应于图14中的源文本“一个女孩在树下玩耍”；第一关键词可以为“一个女孩在树下玩耍”中的“一个女孩”，第二文本不包括对象的标签可理解为源文本中不包括标签“二宝”。

本申请实施例中，步骤1与步骤2可对应于步骤S1302，本申请实施例对此不再赘述。

电子设备将第一关键词替换为对象的标签，得到第三文本；第三文本包括对象的标签，且第三文本不包括第一关键词。

第三文本可对应于图14中的<二宝>在树下玩耍，第三文本中包括<二宝>，且第三文本不包括“一个女孩”。

本申请实施例中，电子设备得到第三文本的方式可参照步骤S1303，本申请实施例对此不做赘述。

电子设备通过文本编码器将第三文本转化为第二向量。

文本编码器可以为第二设备中的第二文本编码器，第二向量可以为图14中的向量6。

电子设备基于第一向量和第二向量学习得到第一模型，使得第一模型学习有对象的标签与对象的图像进行匹配的能力。

电子设备可通过对比学习的方式基于向量5和向量6学习到多模态图文检索模型；学习后的多模态图文检索模型拥有根据个性化词语“二宝”搜索到与“二宝”所对应的小女孩的相关图像。

本申请实施例中，步骤6可参考步骤S1304处的相关描述，此处不再赘述。

本申请实施例提供的图像检索方法，第一模型可通过对人物称呼和人物称呼的图像进行个性此词语的学习与更新，使得电子设备拥有根据个性化词语搜索到与个性化词语相关的图像的能力；当用户输入的搜索词包括该个性化词语时，第二设备可显示较准确的搜索结果。从而提升图像检索的准确性，提升用户的使用体验。

可选的，在图20、图8、图17对应的实施例的基础上，电子设备显示一张或多张第一图像之后，包括：

在预设时间内，电子设备未接收到针对第一图像的触发操作，以及电子设备在目标应用的第二界面中接收到第四文本；第四文本包括第二关键词和第三关键词。

电子设备未接收到针对第一图像的触发操作，可以理解为在图3中的c所示界面中，用户未接收到用户点击视频310的触发操作。

第二界面可以为能够接收用户输入或录入第四文本的界面，第二关键词为第一模型能够匹配到相关图像的词语，第三关键词为第一模型不能够匹配到相关图像的词语。例如，第二界面可以为图8中的a所示界面，电子设备可在搜索栏801中输入第四文本，第四文本可对应于搜索词“今天在动物园，二宝在咕咕家玩耍”；其中，第二关键词可以为“今天”、“动物园”和“二宝”等，第三关键词可以为“咕咕家”。

需要说明的是，为便于说明本申请实施例中的图像检索方法，本申请实施例通过步骤1所示的场景得到第四文本。一些实施例中，电子设备也可在步骤S2001之前执行步骤1-步骤4。也就是说，步骤1还可以为：电子设备在目标应用的第二界面中接收到第四文本；第四文本包括第二关键词和第三关键词。本申请实施例对此不作限制。

电子设备显示一张或多张第二图像，其中，第二图像包括目标应用中与第二关键词匹配的图像。

第二图像可对应于图8中的a所示界面中的视频802、视频803、视频804和视频805。这些第二图像中均包括动物园、二宝等第二关键词。

3)当电子设备接收到针对一张或多张第二图像中目标第二图像的触发操作时，电子设备识别目标第二图像中的对象，以及电子设备将第一对象的图像与第三关键词设置为图文对；其中，目标第二图像中的对象包括第一对象和第二对象；第二对象与第二关键词相匹配。

目标第二图像可对应于图8中的a界面所示视频803，针对一张或多张第二图像中目标第二图像的触发操作可以为针对视频803的触发操作；目标第二图像中的对象可对应于视频803中的小女孩二宝和羊驼，其中，第一对象可以为羊驼，第二对象可以为小女孩，小女孩与二宝相匹配。电子设备可将未匹配的第一对象羊驼，与未匹配的第三关键词“咕咕家”设置为图文对，以便于后续电子设备可基于该图文对训练第一模型，使第一模型具备将“羊驼”与“咕咕家”相匹配的能力。

4)电子设备根据第一对象的图像和第三关键词构成的图文对更新第一模型；更新后的第一模型学习有将第一对象与第三关键词进行匹配的能力。

电子设备根据第一对象的图像和第三关键词构成的图文对更新第一模型，可参考步骤S1702处的相关描述，此处不再赘述。

更新后的第一模型学习有将第一对象与第三关键词进行匹配的能力，可理解为：如图8中的c界面所示，当用户再次输入包括咕咕家的搜索词时，电子设备显示包括羊驼的图像，如视频803。

本申请实施例提供的图像检索方法，第一模型可通过对特殊词语和特殊词语的图像进行个性化词语的学习与更新，使得电子设备拥有根据个性化词语搜索到与个性化词语相关的图像的能力；当用户输入的搜索词包括该个性化词语时，第二设备可显示较准确的搜索结果。从而提升了图像检索的准确性，提升用户的使用体验。

可选的，在图20、图8、图17对应的实施例的基础上，在电子设备根据第一对象的图像和第三关键词构成的图文对更新第一模型之前，还包括：

电子设备基于第一模型生成随机数；电子设备根据第一对象的图像和第三关键词构成的图文对更新第一模型，包括：若随机数大于或等于预设值，电子设备根据第一对象的图像和第三关键词构成的图文对更新第一模型。

本申请实施例中，预设值可以为第一模型中预先设置的值，该预设值可以取不同的值，例如预设值可以取值为50%，本申请实施例对预设值的具体取值不作限定。该预设值可以理解为上述步骤S1701对应的实施例中的预设概率的相关描述，不再赘述。

根据第二目标图像文件和第二关键词更新第一模型，这样可以使得第一模型有一定概率在迭代中学习到该第三关键词，从而实现第二目标图像文件和第三关键词的匹配。

可选的，在图20对应的实施例的基础上，图像检索方法还包括：

1）电子设备在目标应用的第三界面中接收到第五文本，其中，第五文本包括第四关键词。

其中，如图21所示，第三界面可以为能够接收用户输入或录入第五文本的界面，例如，第三界面可对应于图21中的a所示界面；第五文本可对应于搜索词2101的“咕咕家”，第四关键词可以为“咕咕家”。

一些实施例中，用户想要在图库应用中搜索“咕咕家”，电子设备可接收用户输入的“咕咕家”。可以理解的是，“咕咕家”为个性化词语，在电子设备中的多模态图文检索模型未学习将个性化词语“咕咕家”与图像进行匹配的能力之前，电子设备是无法得到与“咕咕家”匹配的图像的。

2）电子设备显示用于提示未得到与第五文本关联的图像的提示信息。

其中，提示信息可以对应于图21中的a所示界面中的提示信息2102，提示信息可以为：“无搜索结果”。

需要说明的是，一些场景中，用户输入的搜索词较短，搜索词仅包括一个关键词，例如，搜索词为“咕咕家”时，该搜索词只能拆分出一个关键词。同时，多模态图文检索模型未学习根据“咕咕家”搜索图像的能力。所以，当搜索词是个性化词语，且电子设备不具备根据该个性化词语搜索对应图像的能力时，电子设备可显示提示信息；提示信息可用于提醒用户电子设备无法根据该搜索词搜索到对应图像。随后，用户可放弃该次图像检索，或用户可更换搜索词继续搜索目标图像。当用户更换搜索词进行图像检索时，电子设备可继续执行下述步骤：

3)在第二预设时间内，电子设备在目标应用的第四界面中接收到第六文本，其中，第六文本包括第五关键词。

可以理解的是，第四界面可以为能够接收用户输入或录入第六文本的界面，例如，第四界面可对应于图21中的b所示界面。第五关键词可对应于图21中的b所示界面中的搜索词2103“羊驼”。

可以理解的是，一些情况下，用户可能想要搜索一个目标图像，电子设备可接收到用户输入的用于描述该目标图像的第一次的搜索词，第一次的搜索词可能为个性化词语，例如，第一次的搜索词可以是“咕咕家”，电子设备无法使用第一次的搜索词搜索到目标图像。在短时间内，用户想要搜索的目标图像不会发生变化，这时，用户往往会更换搜索词继续搜索目标图像，例如，用户第二次输入的搜索词为“羊驼”。电子设备基于第二次的搜索词进行图像检索。

4)电子设备显示一张或多张第三图像。

其中，第三图像可对应于图21中的b所示界面中的图像，该界面中显示有照片2104和视频2105，一张或多张第三图像可对应于照片2104和视频2105。

第三图像是电子设备基于第六文本中的第五关键词得到的，因此第三图像包括目标应用中与第五关键词匹配的图像。例如，照片2104中包括羊驼，视频2105中也包括羊驼。

5)当电子设备接收到针对一张或多张第三图像中的目标第三图像的触发操作时，电子设备识别目标第三图像中的第三对象，以及电子设备将第三对象与第四关键词设置为图文。

针对一张或多张第三图像中的目标第三图像的触发操作，可对应于针对图21中的b所示界面中的视频2105的点击操作；目标第三对象可对应于视频2105；第三对象可对应于视频2105中的羊驼。

可以理解的是，如图21中的b界面所示，电子设备可显示多个与搜索词“羊驼”相关的图像，例如，照片2104和视频2105。当电子设备接收到针对视频2105的点击操作时，电子设备可显示如图21中的c所示界面。该点击操作可理解为：用户在多张与搜索词相关的图像中，选定一张目标图像。而如上所述，短期内，用户期望的目标图像不变，那么可认为用户选定的目标图像与第一次的搜索词具有一定的关联性。所以，本申请实施例中，可将目标第三图像中的第三对象与第四关键词建立关系，例如，电子设备将视频2105中的第三对象羊驼与第一次的搜索词中的关键词“咕咕家”建立图文对。

6）电子设备根据第三对象和第四关键词构成的图文对更新第一模型；更新后的第一模型学习有将第三对象与第四关键词进行匹配的能力。

电子设备可使用步骤5)中的图文对作为样本，对多模态图文检索模型进行训练，以学习到将个性化词语“咕咕家”与对象羊驼进行匹配的能力。学习后的多模态图文检索模型可根据“咕咕家”搜索到与羊驼相关的图像。

例如，如图21中的d界面所示，当用户输入搜索词2106“今天在动物园，二宝在咕咕家玩耍”时，电子设备可显示视频2107，其中，视频2107的拍摄时间可对应于今天，视频2107中的小女孩可对应于“二宝”，视频2107中的羊驼可对应于“咕咕家”。

可选的，在图20、图18和图19对应的实施例的基础上，在电子设备显示一张或多张第一图像之前，还包括：

若第一文本中包括人物标签和/或地点信息，则电子设备在目标应用中筛选第四图像，其中，第四图像包括与人物标签和/或地点信息相匹配的图像。第一模型基于第一文本与第四图像得到第一图像；其中，第一图像与第一文本的相似度大于相似度阈值。

其中，第一文本可对应于图19中的“二宝在公园的树下玩耍”，人物标签可以为“二宝”，地点信息可以为“公园”。第四图像可以为图库应用中满足任务标签和/或地点信息的图像，第四图像可以对应于步骤S1803中的待处理图像。第一模型可在第四图像中得到与第一文本的相似度大于相似度阈值的第一图像。本申请实施例，电子设备得到第四图像和第一图像的过程可参考步骤S1801-S1807中的相关描述，此处不再赘述。

本申请实施例中，电子设备可优先基于第一文本中的人物标签和/或地点信息筛选得到待处理图像，可减少待处理图像的数量，从而减小第一模型的运算压力，提升第一模型执行图形检索方法的效率。

可选的，在图20、图18和图19对应的实施例的基础上，第一图像包括目标视频，第一模型基于第一文本与第四图像得到第一图像之前，还包括：

电子设备对第四图像进行分镜处理，得到一个或多个第四图像的视频片段；电子设备得到第四图像的视频片段的帧图片；第一模型基于第一文本与第四图像得到第一图像，包括：第一模型基于第一文本与帧图片得到目标视频，目标视频中的帧图片与第一文本的相似度大于相似度阈值。

第四图像的视频片段可对应于图18的相关描述中的视频片段1、视频片段2和视频片段3。第四图像的视频片段的帧图片可以为图18和/或图19中的帧图片1、帧图片2和帧图片3。本申请实施例，电子设备得到第四图像的视频片段和目标视频的过程可参考步骤S1801-S1807中的相关描述，此处不再赘述。

本申请实施例中，电子设备可通过第一文本检索到第一文本所对应的视频，扩充了图库应用的检索场景，从而提升用户的使用体验

可选的，在图20、图3对应的实施例的基础上，第一界面还包括目标视频的提示信息，目标视频的提示信息用于提示目标视频中与第一文本相匹配的视频片段的起始时间和/或结束时间；在第一模型基于第一文本与帧图片得到目标视频之后，还包括：

当电子设备接收到针对目标视频的触发操作时，电子设备显示第五界面；其中，第五界面显示有具有播放进度的目标视频，目标视频的播放进度与起始时间一致。

第一界面可对应于图3中的c所示界面；目标视频为图3中的c所示界面中的视频310；目标视频的提示信息可以为图3中的c所示界面中的提示文字311，提示文字311包括视频310中与第一文本相关视频片段的起始时间和/或结束时间，比如，提示文字311为时间：2秒至12秒。

针对目标视频的触发操作可对应于针对视频310的触发操作，第五界面可对应于图3中的d所示界面。其中，在图3中的d所示界面，视频310的播放进度与起始时间相同。

本申请实施例中，当用户选中目标视频后，电子设备可将播放进度调整到与提示信息中的起始时间相对应。这样，可简化用户手动调整播放进度的操作，提升用户的使用体验。

可选的，在图20、图4对应的实施例的基础上，目标视频包括第一视频和第二视频，第一视频为目标应用中的原视频，第二视频为第一视频中与第一文本相匹配的视频片段。

其中，目标视频可包括原始视频和视频片段，如图4所示。第一视频可对应于图4中的a所示界面中的视频403，第二视频可对应于图4中的a所示界面中的视频402。第二视频可以第一视频中的一部分。

本申请实施例中，当用户选择第二视频时，电子设备可使用裁剪后的视频，不需要再对原始视频进行裁剪，简化用户操作；当用户选择第一视频时，用户查看原始视频，从而提升用户的使用体验。

可选的，在图20、图5对应的实施例的基础上，目标视频还包括第三视频，第三视频与第一文本的相似度小于第二视频与第一文本的相似度；在第一界面中，第三视频的显示位置在第二视频的显示位置的后方。

其中，第二视频可对应于图5中的视频503，第三视频可对应于图5中的视频504；视频504排列在视频503的后面。

本申请实施例中，电子设备可根据相似度的高低依次显示多个目标视频。这样，可提升图文检索方法的准确性，从而提升用户的使用体验。

可选的，在图20、图6对应的实施例的基础上，在第一模型基于第一文本与帧图片得到目标视频之后，还包括：

当电子设备接收到针对目标视频的触发操作时，电子设备显示第六界面，第六界面包括目标视频和目标视频的进度条，其中，进度条设置有标记，进度条中设置有标记的部分所对应的视频片段与第一文本相匹配。

其中，针对目标视频的触发操作可对应于图6中的a所示界面中针对视频602的触发操作；第六界面可对应于图6中的b所示界面，进度条设置有标记可对应于标记信息603和标记信息604。

本申请实施例中，电子设备可通过标记信息突出显示原视频中与搜索词相匹配的视频片段。这样，当原视频中与搜索词相匹配的视频片段较多时，电子设备可简洁的显示出目标视频。

可选的，在图20对应的实施例的基础上，第一模型是对第二模型压缩后得到的模型，第一模型的模型层数和/或模型中间层向量的维数小于第二模型的模型层数和/或模型中间层向量的维数。

本申请实施例中，第二模型可以为多模态预训练模型，第一模型可以是对第二模型经过压缩算法压缩后得到的模型，压缩算法可以为上述图9对应的实施例中的蒸馏方法。蒸馏方法可以参照上述步骤S902中的相关描述，不再赘述。蒸馏方法可以在维持较高的学习准确率的同时减小模型的大小，节省内存占用空间。

可选的，第二模型是服务器通过多模态对比学习的方法和/或自回归的方式对图文对样本集进行训练得到，图文对样本集包括：样本图像与样本图像对应的文本。

服务器可设置有多模态预训练模型，多模态预训练模型可以是服务器根据图文对样本集进行训练得到的。多模态对比学习的方法和自回归的方法可以参照步骤S9012和S9013处的相关描述，不再赘述。经过多模态对比学习方法和自回归的方法可以使得第二模型的输出结果接近正确值，从而可以相对准确的匹配图文对。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

上面已对本申请实施例的图像检索方法进行了说明，下面对本申请实施例提供的执行上述图像检索方法的装置进行描述。本领域技术人员可以理解，方法和装置可以相互结合和引用，本申请实施例提供的相关装置可以执行上述图像检索方法中的步骤。

如图22所示，图22为本申请实施例提供的一种图像检索装置的结构示意图，该图像检索装置可以是本申请实施例中的终端设备，也可以是终端设备内的芯片或芯片系统。

如图22所示，图像检索装置2200可以用于通信设备、电路、硬件组件或者芯片中，该图像检索装置包括：显示单元2201、以及处理单元2202。其中，显示单元2201用于支持图像检索装置2200执行的显示的步骤；处理单元2202用于支持图像检索装置2200执行信息处理的步骤。

可能的实现方式中，该图像检索装置2200中也可以包括通信单元2203。具体的，通信单元用于支持图像检索装置2200执行数据的发送以及数据的接收的步骤。其中，该通信单元2203可以是输入或者输出接口、管脚或者电路等。

可能的实施例中，图像检索装置还可以包括：存储单元2204。处理单元2202、存储单元2204通过线路相连。存储单元2204可以包括一个或者多个存储器，存储器可以是一个或者多个设备、电路中用于存储程序或者数据的器件。存储单元2204可以独立存在，通过通信线路与图像检索装置具有的处理单元2202相连。存储单元2204也可以和处理单元2202集成在一起。

存储单元2204可以存储终端设备中的方法的计算机执行指令，以使处理单元2202执行上述实施例中的方法。存储单元2204可以是寄存器、缓存或者RAM等，存储单元2204可以和处理单元2202集成在一起。存储单元2204可以是只读存储器（read-only memory，ROM）或者可存储静态信息和指令的其他类型的静态存储设备，存储单元2204可以与处理单元2202相独立。

本申请实施例提供的图像检索方法，可以应用在具备通信功能的电子设备中。电子设备包括终端设备，终端设备的具体设备形态等可以参照上述相关说明，此处不再赘述。

本申请实施例提供一种电子设备，该电子设备包括：包括：处理器和存储器；存储器存储计算机执行指令；处理器执行存储器存储的计算机执行指令，使得电子设备执行上述方法。

本申请实施例提供一种芯片。芯片包括处理器，处理器用于调用存储器中的计算机程序，以执行上述实施例中的技术方案。其实现原理和技术效果与上述相关实施例类似，此处不再赘述。

本申请实施例还提供了一种计算机可读存储介质。计算机可读存储介质存储有计算机程序。计算机程序被处理器执行时实现上述方法。上述实施例中描述的方法可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。如果在软件中实现，则功能可以作为一个或多个指令或代码存储在计算机可读介质上或者在计算机可读介质上传输。计算机可读介质可以包括计算机存储介质和通信介质，还可以包括任何可以将计算机程序从一个地方传送到另一个地方的介质。存储介质可以是可由计算机访问的任何目标介质。

一种可能的实现方式中，计算机可读介质可以包括RAM，ROM，只读光盘（compactdisc read-only memory，CD-ROM）或其它光盘存储器，磁盘存储器或其它磁存储设备，或目标于承载的任何其它介质或以指令或数据结构的形式存储所需的程序代码，并且可由计算机访问。而且，任何连接被适当地称为计算机可读介质。例如，如果使用同轴电缆，光纤电缆，双绞线，数字用户线（Digital Subscriber Line，DSL）或无线技术（如红外，无线电和微波）从网站，服务器或其它远程源传输软件，则同轴电缆，光纤电缆，双绞线，DSL或诸如红外，无线电和微波之类的无线技术包括在介质的定义中。如本文所使用的磁盘和光盘包括光盘，激光盘，光盘，数字通用光盘（Digital Versatile Disc，DVD），软盘和蓝光盘，其中磁盘通常以磁性方式再现数据，而光盘利用激光光学地再现数据。上述的组合也应包括在计算机可读介质的范围内。

本申请实施例提供一种计算机程序产品，计算机程序产品包括计算机程序，当计算机程序被运行时，使得计算机执行上述方法。

本申请实施例是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理单元以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理单元执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种图像检索方法，其特征在于，包括：

电子设备在目标应用的第一界面中接收到第一文本；其中，所述第一文本包括第一标签；

所述电子设备显示一张或多张第一图像；其中，所述一张或多张第一图像包括所述目标应用中与所述第一标签匹配的图像；所述第一图像为所述电子设备中的第一模型基于所述第一文本和所述目标应用中的图像确定的，所述第一模型是根据所述目标应用中的图文对进行学习得到的，所述目标应用中的图文对包括对象的标签和所述对象的图像，所述对象的标签包括所述第一标签；

所述电子设备显示一张或多张第一图像之后，包括：

在第一预设时间内，所述电子设备未接收到针对所述第一图像的触发操作，以及所述电子设备在所述目标应用的第二界面中接收到第四文本；所述第四文本包括第二关键词和第三关键词；

所述电子设备显示一张或多张第二图像，其中，所述第二图像包括所述目标应用中与所述第二关键词匹配的图像；

当所述电子设备接收到针对一张或多张所述第二图像中目标第二图像的触发操作时，所述电子设备识别所述目标第二图像中的对象，以及所述电子设备将第一对象的图像与所述第三关键词设置为图文对；其中，所述目标第二图像中的对象包括所述第一对象和第二对象；所述第二对象与所述第二关键词相匹配；

所述电子设备根据所述第一对象的图像和所述第三关键词构成的图文对更新所述第一模型；更新后的所述第一模型学习有将所述第一对象与所述第三关键词进行匹配的能力。

2.根据权利要求1所述的方法，其特征在于，所述第一模型包括图像编码器、文本解码器和文本编码器；在所述电子设备在目标应用的第一界面中接收到第一文本之前，还包括：

所述电子设备获取所述对象的标签和所述对象的图像；

所述电子设备通过所述图像编码器将所述对象的图像转化为第一向量；

所述电子设备通过所述文本解码器将所述第一向量转化为第二文本；所述第二文本包括用于描述所述对象的第一关键词，且所述第二文本不包括所述对象的标签；

所述电子设备将所述第一关键词替换为所述对象的标签，得到第三文本；所述第三文本包括所述对象的标签，且所述第三文本不包括所述第一关键词；

所述电子设备通过所述文本编码器将所述第三文本转化为第二向量；

所述电子设备基于所述第一向量和所述第二向量学习得到所述第一模型，使得所述第一模型学习有所述对象的标签与所述对象的图像进行匹配的能力。

3.根据权利要求2所述的方法，其特征在于，在所述电子设备根据所述第一对象的图像和所述第三关键词构成的图文对更新所述第一模型之前，还包括：

所述电子设备基于所述第一模型生成随机数；

所述电子设备根据所述第一对象的图像和所述第三关键词构成的图文对更新所述第一模型，包括：

若所述随机数大于或等于预设值，所述电子设备根据所述第一对象的图像和所述第三关键词构成的图文对更新所述第一模型。

4.根据权利要求1或2任一项所述的方法，其特征在于，所述方法还包括：

所述电子设备在所述目标应用的第三界面中接收到第五文本，其中，所述第五文本包括第四关键词；

所述电子设备显示用于提示未得到与所述第五文本关联的图像的提示信息；

在第二预设时间内，所述电子设备在所述目标应用的第四界面中接收到第六文本，其中，所述第六文本包括第五关键词；

所述电子设备显示一张或多张第三图像，

当所述电子设备接收到针对一张或多张所述第三图像中的目标第三图像的触发操作时，所述电子设备识别所述目标第三图像中的第三对象，以及所述电子设备将所述第三对象与所述第四关键词设置为图文对；

所述电子设备根据所述第三对象和所述第四关键词构成的图文对更新所述第一模型；更新后的所述第一模型学习有将所述第三对象与所述第四关键词进行匹配的能力。

5.根据权利要求1或2所述的方法，其特征在于，在所述电子设备显示一张或多张第一图像之前，还包括：

若所述第一文本中包括人物标签和/或地点信息，则所述电子设备在所述目标应用中筛选第四图像，其中，所述第四图像包括与所述人物标签和/或所述地点信息相匹配的图像；

所述第一模型基于所述第一文本与所述第四图像得到所述第一图像；其中，所述第一图像与所述第一文本的相似度大于相似度阈值。

6.根据权利要求5所述的方法，其特征在于，所述第一图像包括目标视频，所述第一模型基于所述第一文本与所述第四图像得到所述第一图像之前，还包括：

所述电子设备对所述第四图像进行分镜处理，得到一个或多个所述第四图像的视频片段；

所述电子设备得到所述第四图像的视频片段的帧图片；

所述第一模型基于所述第一文本与所述第四图像得到所述第一图像，包括：

所述第一模型基于所述第一文本与所述帧图片得到所述目标视频，所述目标视频中的所述帧图片与所述第一文本的相似度大于所述相似度阈值。

7.根据权利要求6所述的方法，其特征在于，所述第一界面还包括所述目标视频的提示信息，所述目标视频的提示信息用于提示所述目标视频中与所述第一文本相匹配的视频片段的起始时间和/或结束时间；在所述第一模型基于所述第一文本与所述帧图片得到所述目标视频之后，还包括：

当所述电子设备接收到针对所述目标视频的触发操作时，所述电子设备显示第五界面；其中，所述第五界面显示有具有播放进度的所述目标视频，所述目标视频的播放进度与所述起始时间一致。

8.根据权利要求6或7所述的方法，其特征在于，所述目标视频包括第一视频和第二视频，所述第一视频为所述目标应用中的原视频，所述第二视频为所述第一视频中与所述第一文本相匹配的视频片段。

9.根据权利要求8所述的方法，其特征在于，所述目标视频还包括第三视频，所述第三视频与所述第一文本的相似度小于所述第二视频与所述第一文本的相似度；在所述第一界面中，所述第三视频的显示位置在所述第二视频的显示位置的后方。

10.根据权利要求6所述的方法，其特征在于，在所述第一模型基于所述第一文本与所述帧图片得到所述目标视频之后，还包括：

当所述电子设备接收到针对所述目标视频的触发操作时，所述电子设备显示第六界面，所述第六界面包括所述目标视频和所述目标视频的进度条，其中，所述进度条设置有标记，所述进度条中设置有标记的部分所对应的视频片段与所述第一文本相匹配。

11.根据权利要求1或2所述的方法，其特征在于，所述第一模型是对第二模型压缩后得到的模型，所述第一模型的模型层数和/或模型中间层向量的维数小于所述第二模型的模型层数和/或模型中间层向量的维数。

12.根据权利要求11所述的方法，其特征在于，所述第二模型是服务器通过多模态对比学习的方法和/或自回归的方法对图文对样本集进行训练得到，所述图文对样本集包括：样本图像与所述样本图像对应的文本。

13.一种电子设备，其特征在于，包括：处理器和存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，使得所述电子设备执行如权利要求1-12中任一项所述的方法。

14.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-12任一项所述的方法。

15.一种芯片，其特征在于，包括处理器，所述处理器用于执行计算机程序，使得所述芯片以执行如权利要求1-12任一项所述的方法。