CN117011581A

CN117011581A - 图像识别方法、介质、装置和计算设备

Info

Publication number: CN117011581A
Application number: CN202310572092.XA
Authority: CN
Inventors: 张寅东; 杨卫强; 李雨珂; 魏凯峰; 朱浩齐
Original assignee: Hangzhou Netease Zhiqi Technology Co Ltd
Current assignee: Hangzhou Netease Zhiqi Technology Co Ltd
Priority date: 2023-05-17
Filing date: 2023-05-17
Publication date: 2023-11-07

Abstract

本公开的实施方式提供了一种图像识别方法、介质、装置和计算设备，涉及计算机技术领域，该图像识别方法包括：将待识别图像输入视觉‑语言跨模态预训练模型进行特征提取，得到待识别图像对应的第一表示向量，视觉‑语言跨模态预训练模型是基于图文配对数据进行预训练获得的；获取第一表示向量与类别中心向量的相似度，类别中心向量是基于预设类别的多个预设图像分别对应的第二表示向量获得的，第二表示向量是将预设图像输入视觉‑语言跨模态预训练模型进行特征提取获得的；根据相似度，确定待识别图像对应的类别识别结果。本公开能够更加准确地获得图像识别结果，具有更好的泛化能力。

Description

图像识别方法、介质、装置和计算设备

技术领域

本公开的实施方式涉及计算机技术领域，更具体地，本公开的实施方式涉及一种图像识别方法、介质、装置和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

图像识别，是指利用计算机对图像进行处理、分析和理解，以识别各种不同的目标和对象的技术，是应用深度学习算法的一种实践应用。随着科技的发展，图像识别技术的应用日益广泛。

目前，通常使用训练好的图像识别模型，对待识别图像进行图像识别，得到图像识别结果。其中，图像识别模型的训练过程一般分为两个阶段，即预训练阶段和下游任务微调阶段。在预训练阶段，采用开源的标注有标签的数据集进行图像识别模型的训练，并积累下游任务的标注有标签的数据，得到预训练好的图像识别模型；然后，基于预训练好的图像识别模型，进行下游任务微调训练，得到训练好的图像识别模型。但是，标注有标签的数据的数据量有限，导致训练好的图像识别模型泛化能力较差，进而导致获得的图像识别结果不够准确。

发明内容

本公开提供一种图像识别方法、介质、装置和计算设备，以解决标注有标签的数据的数据量有限，导致训练好的图像识别模型泛化能力较差，进而导致获得的图像识别结果不够准确的问题。

在本公开实施方式的第一方面中，提供了一种图像识别方法，包括：

将待识别图像输入视觉-语言跨模态预训练模型进行特征提取，得到待识别图像对应的第一表示向量，视觉-语言跨模态预训练模型是基于图文配对数据进行预训练获得的；

获取第一表示向量与类别中心向量的相似度，类别中心向量是基于预设类别的多个预设图像分别对应的第二表示向量获得的，第二表示向量是将预设图像输入视觉-语言跨模态预训练模型进行特征提取获得的；

根据相似度，确定待识别图像对应的类别识别结果。

在一种可能的实施方式中，类别中心向量是通过以下方式获得的：对多个第二表示向量取平均，得到类别中心向量。

在一种可能的实施方式中，获取第一表示向量与类别中心向量的相似度，包括：获取第一表示向量与类别中心向量的内积，得到相似度。

在一种可能的实施方式中，预设类别包括多个，获取第一表示向量与类别中心向量的相似度，包括：将多个类别中心向量拼接为类别中心矩阵；基于矩阵乘法，获取第一表示向量与类别中心矩阵中每个类别中心向量的相似度。

在一种可能的实施方式中，根据相似度，确定待识别图像对应的类别识别结果，包括：若相似度大于或等于预设阈值，则确定待识别图像对应的类别识别结果为相似度大于或等于预设阈值的类别中心向量对应的预设类别；若相似度小于预设阈值，则确定待识别图像对应的类别识别结果不为相似度小于预设阈值的类别中心向量对应的预设类别。

在一种可能的实施方式中，视觉-语言跨模态预训练模型包括视觉神经网络模型，将待识别图像输入视觉-语言跨模态预训练模型进行特征提取，得到待识别图像对应的第一表示向量，包括：将待识别图像输入视觉-语言跨模态预训练模型，通过视觉神经网络模型进行特征提取，得到待识别图像对应的第一表示向量。

在一种可能的实施方式中，预设类别的预设图像的数量小于或等于数量阈值。

第二方面，本公开实施例提供一种图像识别装置，包括：

提取模块，用于将待识别图像输入视觉-语言跨模态预训练模型进行特征提取，得到待识别图像对应的第一表示向量，视觉-语言跨模态预训练模型是基于图文配对数据进行预训练获得的；

获取模块，用于获取第一表示向量与类别中心向量的相似度，类别中心向量是基于预设类别的多个预设图像分别对应的第二表示向量获得的，第二表示向量是将预设图像输入视觉-语言跨模态预训练模型进行特征提取获得的；

确定模块，用于根据相似度，确定待识别图像对应的类别识别结果。

在一种可能的实施方式中，获取模块在用于获得类别中心向量时，具体用于：对多个第二表示向量取平均，得到类别中心向量。

在一种可能的实施方式中，获取模块具体用于：获取第一表示向量与类别中心向量的内积，得到相似度。

在一种可能的实施方式中，预设类别包括多个，获取模块具体用于：将多个类别中心向量拼接为类别中心矩阵；基于矩阵乘法，获取第一表示向量与类别中心矩阵中每个类别中心向量的相似度。

在一种可能的实施方式中，确定模块具体用于：若相似度大于或等于预设阈值，则确定待识别图像对应的类别识别结果为相似度大于或等于预设阈值的类别中心向量对应的预设类别；若相似度小于预设阈值，则确定待识别图像对应的类别识别结果不为相似度小于预设阈值的类别中心向量对应的预设类别。

在一种可能的实施方式中，视觉-语言跨模态预训练模型包括视觉神经网络模型，提取模块具体用于：将待识别图像输入视觉-语言跨模态预训练模型，通过视觉神经网络模型进行特征提取，得到待识别图像对应的第一表示向量。

第三方面，本公开实施例提供一种计算设备，包括：处理器，以及与处理器通信连接的存储器；

存储器存储计算机执行指令；

处理器执行存储器存储的计算机执行指令，以实现如本公开第一方面所述的图像识别方法。

第四方面，本公开实施例提供一种存储介质，存储介质中存储有计算机程序指令，计算机程序指令被执行时，实现如本公开第一方面所述的图像识别方法。

第五方面，本公开实施例提供一种计算机程序产品，包括计算机程序，计算机程序被执行时实现如本公开第一方面所述的图像识别方法。

本公开实施例提供的图像识别方法、介质、装置和计算设备，通过将待识别图像输入视觉-语言跨模态预训练模型进行特征提取，得到待识别图像对应的第一表示向量，视觉-语言跨模态预训练模型是基于图文配对数据进行预训练获得的；获取第一表示向量与类别中心向量的相似度，类别中心向量是基于预设类别的多个预设图像分别对应的第二表示向量获得的，第二表示向量是将预设图像输入视觉-语言跨模态预训练模型进行特征提取获得的；根据相似度，确定待识别图像对应的类别识别结果。由于本公开基于视觉-语言跨模态预训练模型提取图像的表示向量，能够实现对海量语义信息的理解，类别覆盖广泛，泛化能力较强，得到的表示向量包含更加丰富的视觉特征和语义特征；根据待识别图像对应的第一表示向量与预设类别对应的类别中心向量的相似度，确定待识别图像对应的类别识别结果，能够更加准确地获得图像识别结果，具有更好的泛化能力；且以类别检索的方式进行图像识别，无需训练模型，能够提高图像识别的效率。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1为本公开实施例提供的一种应用场景示意图；

图2为本公开一实施例提供的图像识别方法的流程图；

图3为本公开一实施例提供的视觉-语言跨模态预训练模型的示意图；

图4为本公开另一实施例提供的图像识别方法的流程图；

图5为本公开一实施例提供的图像识别装置的结构示意图；

图6为本公开一实施例提供的存储介质示意图；

图7为本公开一实施例提供的计算设备的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。本公开所涉及的数据可以为经用户授权或者经过各方充分授权的数据，本公开实施方式/实施例可以互相组合。

根据本公开的实施方式，提出了一种图像识别方法、介质、装置和计算设备。

在本文中，需要理解的是，所涉及的术语：

有监督训练，即使用有标签数据进行训练；

图像分类，即将图像映射到对应的语义类别，从已知的类别标签集合中为给定的输入图像选定一个类别标签；

类别检索，即从图像库中查找出与给定查询图像属于同一类别的图像；

跨模态预训练模型，模态对应着图像、视频、音频或文本等多种数据输入格式，跨模态是指在不同类型的数据和模型之间进行交互和融合的技术，例如，将文本和图像信息结合，可以实现自然语言生成图像的应用；跨模态预训练模型包括图像-文本、视频-文本以及音频-文本等多种跨模态预训练模型，本文中的跨模态预训练模型特指视觉-语言跨模态预训练模型。

需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神。

发明概述

本发明人发现，一相关技术中，通常使用训练好的图像识别模型，对待识别图像进行图像识别，得到图像识别结果。其中，在预训练阶段，图像识别模型所能涵盖的类别有限，导致下游任务微调阶段通常需要相当数量的标注有标签的数据；而在下游任务微调阶段，由于标注有标签的数据的数据量有限，图像识别模型所能包含的类别有限，难以泛化到海量的语义概念，导致训练好的图像识别模型泛化能力较差，进而导致获得的图像识别结果不够准确。

另一相关技术中，可以基于图像检索的方式进行图像识别，即根据待识别图像，召回具有相似视觉特征的图像。具体的，基于有监督预训练神经网络模型提取待识别图像的全局特征，利用尺度不变特征变换(Scale-Invariant Feature Transform，SIFT)等算法提取待识别图像的局部特征，结合全局特征和局部特征，进行图像匹配，实现图像检索的功能。通过图像检索，针对检索分数设定阈值后，在一定程度上起到图像分类的作用。但是图像检索只能召回视觉上相似的图像，不能召回语义类似(即相同类别)但是视觉差异较大的图像，特别是不同风格的图像，例如写实图像和抽象图像，因此，泛化能力较差。

基于上述问题，本公开提供一种图像识别方法、介质、装置和计算设备，通过视觉-语言跨模态预训练模型提取图像特征，能够提高模型的类别覆盖，降低标注数据的需求；基于图像特征，以类别检索的方式进行图像分类，无需训练模型，能够实现覆盖类别广、泛化能力更强的图像分类，其中，以预设类别的多个预设图像的表示向量作为检索依据，能够更加准确地获得图像识别结果。

应用场景总览

首先参考图1对本公开提供的方案的应用场景进行示例说明。图1为本公开实施例提供的一种应用场景示意图，如图1所示，该应用场景可以包括：服务器集群11和终端12。其中，服务器集群11包括多个服务器111和存储器112，终端12可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、车载终端等，服务器111和终端12通过无线网络或有线网络进行通信。用户通过终端12输入待识别图像，终端12将待识别图像发送给服务器111进行图像识别。服务器111将待识别图像对应的类别识别结果发送给终端12，并将产生的数据存储在存储器112中。终端12将待识别图像对应的类别识别结果显示给用户。

需要说明的是，图1仅是本公开实施例提供的一种应用场景的示意图，本公开实施例不对图1中包括的设备进行限定，也不对图1中设备之间的位置关系进行限定。

示例性方法

下面结合图1的应用场景，参考图2来描述根据本公开示例性实施方式的用于图像识别方法。需要注意的是，上述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。

首先，通过具体实施例介绍图像识别方法。

图2为本公开一实施例提供的图像识别方法的流程图。本公开实施例的方法可以应用于计算设备中，该计算设备可以是服务器或服务器集群等。如图2所示，本公开实施例的方法包括：

S201、将待识别图像输入视觉-语言跨模态预训练模型进行特征提取，得到待识别图像对应的第一表示向量，视觉-语言跨模态预训练模型是基于图文配对数据进行预训练获得的。

本公开实施例中，待识别图像可以是用户向执行本方法实施例的计算设备输入的，或者，是其它设备向执行本方法实施例的计算设备发送的。视觉-语言跨模态预训练模型是基于图文配对数据进行预训练获得的，具体的，可以收集来自互联网的海量图像-文本描述(即图文)配对数据，利用自监督预训练方法将图像表征(即图像表示向量)和文本语义表征(即文本表示向量)进行对齐，得到训练好的视觉-语言跨模态预训练模型。视觉-语言跨模态预训练模型可以应用于广泛的下游单模态或者多模态任务。由于视觉-语言跨模态预训练模型是基于图像和对应的文本描述获得的，而文本描述包含所有可能的语言概念，因此，文本描述对应的图像表征也包含海量的语义概念，类别覆盖广泛，泛化能力较强。

图3为本公开一实施例提供的视觉-语言跨模态预训练模型的示意图，如图3所示，视觉-语言跨模态预训练模型301包含视觉神经网络模型和语言神经网络模型，其中，视觉神经网络模型用于处理图文配对数据中的图像，得到图像的表示向量；语言神经网络模型用于处理图文配对数据中的文本，得到文本的表示向量。视觉-语言跨模态预训练模型具体比如为对比图文预训练模型(Contrastive Language-Image Pre-Training，CLIP)。

该步骤中，将待识别图像(比如用y表示)输入视觉-语言跨模态预训练模型(比如用M表示)进行特征提取，可以得到待识别图像对应的第一表示向量(比如用Z_y表示)，即：Z_y＝M(y)。

进一步地，可选的，视觉-语言跨模态预训练模型包括视觉神经网络模型，将待识别图像输入视觉-语言跨模态预训练模型进行特征提取，得到待识别图像对应的第一表示向量，可以包括：将待识别图像输入视觉-语言跨模态预训练模型，通过视觉神经网络模型进行特征提取，得到待识别图像对应的第一表示向量。

示例性地，参考图3，可以将待识别图像输入视觉-语言跨模态预训练模型，通过视觉神经网络模型进行特征提取，得到待识别图像对应的第一表示向量，而不需要使用视觉-语言跨模态预训练模型包含的语言神经网络模型。可以理解，与有监督预训练神经网络模型相比较，通过视觉神经网络模型提取获得的待识别图像对应的第一表示向量，包含更加丰富的视觉特征和语义特征。

S202、获取第一表示向量与类别中心向量的相似度，类别中心向量是基于预设类别的多个预设图像分别对应的第二表示向量获得的，第二表示向量是将预设图像输入视觉-语言跨模态预训练模型进行特征提取获得的。

该步骤中，预设类别可以按需设置，本公开实施例不对预设类别进行具体限定。可选的，预设类别的预设图像的数量小于或等于数量阈值。

示例性地，数量阈值比如为100，一个预设类别的预设图像的数量具体比如为50。可以理解，对于一个预设类别，只需要少量的预设图像即可，能够有效降低成本，便于新增类别，不断适应业务的需要。假设预设类别为类别A，则针对类别A，可以收集50张代表性图像，构成案例图像集(比如用Φ表示)。其中，代表性图像是一组具有相同类别，但是背景、风格、大小以及姿态可能有所不同的图像。对于案例图像集中的每张图像(比如用x_i表示)，将图像x_i输入视觉-语言跨模态预训练模型M中，可以得到每张图像x_i对应的第二表示向量(比如用z_i表示)，即：z_i＝M(x_i)，x_i∈Φ。在获得了类别A的50张代表性图像分别对应的第二表示向量后，可以基于获得的第二表示向量来获得类别A对应的类别中心向量。对于具体如何获得类别中心向量，可参考后续实施例，此处不再赘述。

可以理解，基于视觉-语言跨模态预训练模型的特性，第二表示向量z_i在包含类别信息的同时，也可能包含背景、风格以及着色等视觉信息。

S203、根据相似度，确定待识别图像对应的类别识别结果。

该步骤中，在获得了待识别图像对应的第一表示向量与预设类别对应的类别中心向量的相似度后，可以根据相似度，确定待识别图像对应的类别识别结果。示例性地，比如将相似度与预设阈值进行比较，来确定待识别图像对应的类别识别结果。对于具体如何根据相似度，确定待识别图像对应的类别识别结果，可参考后续实施例，此处不再赘述。在确定待识别图像对应的类别识别结果后，可以输出待识别图像对应的类别识别结果。

本公开实施例提供的图像识别方法，通过将待识别图像输入视觉-语言跨模态预训练模型进行特征提取，得到待识别图像对应的第一表示向量，视觉-语言跨模态预训练模型是基于图文配对数据进行预训练获得的；获取第一表示向量与类别中心向量的相似度，类别中心向量是基于预设类别的多个预设图像分别对应的第二表示向量获得的，第二表示向量是将预设图像输入视觉-语言跨模态预训练模型进行特征提取获得的；根据相似度，确定待识别图像对应的类别识别结果。由于本公开实施例基于视觉-语言跨模态预训练模型提取图像的表示向量，能够实现对海量语义信息的理解，类别覆盖广泛，泛化能力较强，得到的表示向量包含更加丰富的视觉特征和语义特征；根据待识别图像对应的第一表示向量与预设类别对应的类别中心向量的相似度，确定待识别图像对应的类别识别结果，能够更加准确地获得图像识别结果，具有更好的泛化能力；且以类别检索的方式进行图像识别，无需训练模型，能够提高图像识别的效率。

图4为本公开另一实施例提供的图像识别方法的流程图。在上述实施例的基础上，本公开实施例对图像识别方法进行进一步说明。如图4所示，本公开实施例的方法可以包括：

S401、对预设类别的多个预设图像分别对应的第二表示向量取平均，得到类别中心向量，第二表示向量是将预设图像输入视觉-语言跨模态预训练模型进行特征提取获得的。

该步骤中，可以将预设类别的多个预设图像中的每个预设图像输入视觉-语言跨模态预训练模型进行特征提取，得到每个预设图像对应的第二表示向量，进而对得到的所有第二表示向量取平均，得到类别中心向量。

示例性地，参考S202步骤的示例，假设案例图像集Φ中的图像数量为N，则案例图像集Φ可以表示为{x_i,0≤i<N}，通过视觉-语言跨模态预训练模型，可以得到案例图像集Φ对应的第二表示向量集合为{z_i,0≤i<N}，对第二表示向量集合中的所有第二表示向量取平均，可以得到类别A对应的类别中心向量(比如用Z_c表示)，即：

可以理解，对案例图像集对应的第二表示向量取平均的原因为：基于视觉-语言跨模态预训练模型得到的表示向量包含丰富的视觉特征和语义特征；假设待召回的类别为青蛙这一类别，通过一张动漫青蛙图像召回青蛙图像的同时，也会召回动漫风格的其他图像，通过一张包含荷叶和青蛙的图像则既会召回青蛙图像，也可能召回荷叶的图像；而对第二表示向量取平均的方式则可以去掉单张图像带来的噪音，突出一组图像的共同语义，即青蛙。因此，可以将多张图像的表示向量的平均向量定义为一个类别中心向量，该类别中心向量表征关注的类别，而非特定的图像。经过验证，通过对多张图像的表示向量取平均的方式可以定义一个抽象概念的类别中心向量，有效提高召回准确率。

该步骤中，对预设类别的多个预设图像分别对应的第二表示向量取平均，得到类别中心向量，将类别中心向量作为检索依据，而不是将单张图像的表示向量作为检索依据，能够显著提高图像分类的准确率。

S402、将待识别图像输入视觉-语言跨模态预训练模型进行特征提取，得到待识别图像对应的第一表示向量，视觉-语言跨模态预训练模型是基于图文配对数据进行预训练获得的。

该步骤的具体描述可以参见图2所示实施例中S201的相关描述，此处不再赘述。

本公开实施例中，图2中S202步骤可以进一步包括如下的S403步骤：

S403、获取第一表示向量与类别中心向量的内积，得到第一表示向量与类别中心向量的相似度。

示例性地，参考S201步骤的示例，待识别图像对应的第一表示向量为Z_y，参考S401步骤的示例，预设类别对应的类别中心向量为Z_c，则可以获取第一表示向量Z_y与类别中心向量Z_c的内积，得到第一表示向量Z_y与类别中心向量Z_c的相似度(比如用S表示)，即：该相似度S也可以理解为相似性分数。

可选的，预设类别包括多个，获取第一表示向量与类别中心向量的相似度，可以包括：将多个类别中心向量拼接为类别中心矩阵；基于矩阵乘法，获取第一表示向量与类别中心矩阵中每个类别中心向量的相似度。

示例性地，参考S401步骤的示例，可以获得多个预设类别中每个预设类别对应的类别中心向量，将多个类别中心向量拼接为类别中心矩阵，可以基于矩阵乘法，获取第一表示向量与类别中心矩阵中每个类别中心向量的相似度，能够一次性地获得第一表示向量与每个类别中心向量的相似度，有效降低计算开销。

对于新增预设类别，参考S401步骤的示例，可以得到新增预设类别对应的类别中心向量。每个类别中心向量假设为均为D维向量，k个类别中心向量可以拼接成为类别中心矩阵Z，Z为k×D维矩阵。参考S201步骤的示例，待识别图像对应的第一表示向量为Z_y，Z_y为D维向量，以矩阵乘法的方式，可以一次性获得待识别图像相对于所有预设类别的相似度。因此，可以方便地新增预设类别，并一次性输出所有预设类别的判断结果，而计算开销的增长很低。

本公开实施例中，图2中S203步骤可以进一步包括如下的S404和S405两个步骤：

S404、若相似度大于或等于预设阈值，则确定待识别图像对应的类别识别结果为相似度大于或等于预设阈值的类别中心向量对应的预设类别。

该步骤中，在确定预设类别时，可以选定预设类别对应的预设阈值，用于将预设阈值与相似度进行比较。示例性地，假设预设阈值用σ表示，参考S403步骤的示例，在获得了相似度S后，若S≥σ，则可以确定待识别图像对应的类别识别结果为相似度大于或等于预设阈值的类别中心向量对应的预设类别。

S405、若相似度小于预设阈值，则确定待识别图像对应的类别识别结果不为相似度小于预设阈值的类别中心向量对应的预设类别。

示例性地，参考S404步骤的示例，在获得了相似度S后，若S<σ，则可以确定待识别图像对应的类别识别结果不为相似度小于预设阈值的类别中心向量对应的预设类别。

本公开实施例提供的图像识别方法，通过对预设类别的多个预设图像分别对应的第二表示向量取平均，得到类别中心向量，第二表示向量是将预设图像输入视觉-语言跨模态预训练模型进行特征提取获得的；将待识别图像输入视觉-语言跨模态预训练模型进行特征提取，得到待识别图像对应的第一表示向量，视觉-语言跨模态预训练模型是基于图文配对数据进行预训练获得的；获取第一表示向量与类别中心向量的内积，得到第一表示向量与类别中心向量的相似度；若相似度大于或等于预设阈值，则确定待识别图像对应的类别识别结果为相似度大于或等于预设阈值的类别中心向量对应的预设类别；若相似度小于预设阈值，则确定待识别图像对应的类别识别结果不为相似度小于预设阈值的类别中心向量对应的预设类别。由于本公开实施例基于视觉-语言跨模态预训练模型提取图像的表示向量，能够实现对海量语义信息的理解，类别覆盖广泛，泛化能力较强，得到的表示向量包含更加丰富的视觉特征和语义特征；根据待识别图像对应的第一表示向量与预设类别对应的类别中心向量的相似度，确定待识别图像对应的类别识别结果，其中，类别中心向量是对预设类别的多个预设图像分别对应的第二表示向量取平均获得的，将类别中心向量作为检索依据，能够显著提高图像分类的准确率，从而能够更加准确地获得图像识别结果，具有更好的泛化能力；且以类别检索的方式进行图像识别，无需训练模型，能够提高图像识别的效率。

示例性装置

在介绍了本公开示例性实施方式的介质之后，接下来，参考图5对本公开示例性实施方式的图像识别装置进行说明。本公开示例性实施方式的装置，可以实现前述图像识别方法实施例中的各个过程，并达到相同的功能和效果。

图5为本公开一实施例提供的图像识别装置的结构示意图，如图5所示，本公开实施例的图像识别装置500包括：提取模块501、获取模块502和确定模块503。其中：

提取模块501，用于将待识别图像输入视觉-语言跨模态预训练模型进行特征提取，得到待识别图像对应的第一表示向量，视觉-语言跨模态预训练模型是基于图文配对数据进行预训练获得的。

获取模块502，用于获取第一表示向量与类别中心向量的相似度，类别中心向量是基于预设类别的多个预设图像分别对应的第二表示向量获得的，第二表示向量是将预设图像输入视觉-语言跨模态预训练模型进行特征提取获得的。

确定模块503，用于根据相似度，确定待识别图像对应的类别识别结果。

在一些实施例中，获取模块502在用于获得类别中心向量时，可以具体用于：对多个第二表示向量取平均，得到类别中心向量。

在一些实施例中，获取模块502可以具体用于：获取第一表示向量与类别中心向量的内积，得到相似度。

可选的，预设类别包括多个，获取模块502可以具体用于：将多个类别中心向量拼接为类别中心矩阵；基于矩阵乘法，获取第一表示向量与类别中心矩阵中每个类别中心向量的相似度。

在一些实施例中，确定模块503可以具体用于：若相似度大于或等于预设阈值，则确定待识别图像对应的类别识别结果为相似度大于或等于预设阈值的类别中心向量对应的预设类别；若相似度小于预设阈值，则确定待识别图像对应的类别识别结果不为相似度小于预设阈值的类别中心向量对应的预设类别。

可选的，视觉-语言跨模态预训练模型包括视觉神经网络模型，提取模块501可以具体用于：将待识别图像输入视觉-语言跨模态预训练模型，通过视觉神经网络模型进行特征提取，得到待识别图像对应的第一表示向量。

可选的，预设类别的预设图像的数量小于或等于数量阈值。

本公开实施例的装置，可以用于执行上述任一方法实施例中图像识别方法的方案，其实现原理和技术效果类似，此处不再赘述。

示例性介质

在介绍了本公开示例性实施方式的方法之后，接下来，参考图6对本公开示例性实施方式的存储介质进行说明。

图6为本公开一实施例提供的存储介质示意图。参考图6所示，存储介质600中存储着根据本公开的实施方式的用于实现上述方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备。

示例性计算设备

在介绍了本公开示例性实施方式的方法、介质和装置之后，接下来，参考图7对本公开示例性实施方式的计算设备进行说明。

图7显示的计算设备700仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

图7为本公开一实施例提供的计算设备的结构示意图，如图7所示，计算设备700以通用计算设备的形式表现。计算设备700的组件可以包括但不限于：上述至少一个处理单元701、上述至少一个存储单元702，连接不同系统组件(包括处理单元701和存储单元702)的总线703。示例性地，处理单元701可以具体为处理器，存储单元702存储计算机执行指令，处理单元701执行存储单元702存储的计算机执行指令，以实现上述的图像识别方法。

总线703包括数据总线、控制总线和地址总线。

存储单元702可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)7021和/或高速缓存存储器7022，可以进一步包括非易失性存储器形式的可读介质，例如只读存储器(ROM)7023。

存储单元702还可以包括具有一组(至少一个)程序模块7024的程序/实用工具7025，这样的程序模块7024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备700也可以与一个或多个外部设备704(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口705进行。并且，计算设备700还可以通过网络适配器706与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图7所示，网络适配器706通过总线703与计算设备700的其它模块通信。应当理解，尽管图中未示出，可以结合计算设备700使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了图像识别装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种图像识别方法，包括：

将待识别图像输入视觉-语言跨模态预训练模型进行特征提取，得到所述待识别图像对应的第一表示向量，所述视觉-语言跨模态预训练模型是基于图文配对数据进行预训练获得的；

获取所述第一表示向量与类别中心向量的相似度，所述类别中心向量是基于预设类别的多个预设图像分别对应的第二表示向量获得的，所述第二表示向量是将所述预设图像输入所述视觉-语言跨模态预训练模型进行特征提取获得的；

根据所述相似度，确定所述待识别图像对应的类别识别结果。

2.根据权利要求1所述的图像识别方法，所述类别中心向量是通过以下方式获得的：

对多个所述第二表示向量取平均，得到所述类别中心向量。

3.根据权利要求1所述的图像识别方法，所述获取所述第一表示向量与类别中心向量的相似度，包括：

获取所述第一表示向量与所述类别中心向量的内积，得到所述相似度。

4.根据权利要求3所述的图像识别方法，所述预设类别包括多个，所述获取所述第一表示向量与类别中心向量的相似度，包括：

将多个所述类别中心向量拼接为类别中心矩阵；

基于矩阵乘法，获取所述第一表示向量与所述类别中心矩阵中每个类别中心向量的相似度。

5.根据权利要求1至4中任一项所述的图像识别方法，所述根据所述相似度，确定所述待识别图像对应的类别识别结果，包括：

若所述相似度大于或等于预设阈值，则确定所述待识别图像对应的类别识别结果为所述相似度大于或等于所述预设阈值的类别中心向量对应的预设类别；

若所述相似度小于所述预设阈值，则确定所述待识别图像对应的类别识别结果不为所述相似度小于所述预设阈值的类别中心向量对应的预设类别。

6.根据权利要求1至4中任一项所述的图像识别方法，所述视觉-语言跨模态预训练模型包括视觉神经网络模型，所述将待识别图像输入视觉-语言跨模态预训练模型进行特征提取，得到所述待识别图像对应的第一表示向量，包括：

将所述待识别图像输入视觉-语言跨模态预训练模型，通过所述视觉神经网络模型进行特征提取，得到所述待识别图像对应的第一表示向量。

7.根据权利要求1至4中任一项所述的图像识别方法，所述预设类别的预设图像的数量小于或等于数量阈值。

8.一种图像识别装置，包括：

提取模块，用于将待识别图像输入视觉-语言跨模态预训练模型进行特征提取，得到所述待识别图像对应的第一表示向量，所述视觉-语言跨模态预训练模型是基于图文配对数据进行预训练获得的；

获取模块，用于获取所述第一表示向量与类别中心向量的相似度，所述类别中心向量是基于预设类别的多个预设图像分别对应的第二表示向量获得的，所述第二表示向量是将所述预设图像输入所述视觉-语言跨模态预训练模型进行特征提取获得的；

确定模块，用于根据所述相似度，确定所述待识别图像对应的类别识别结果。

9.一种计算设备，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1至7中任一项所述的图像识别方法。

10.一种存储介质，所述存储介质中存储有计算机程序指令，所述计算机程序指令被执行时，实现如权利要求1至7中任一项所述的图像识别方法。