CN118279560A

CN118279560A - 一种图像识别方法、装置、电子设备及存储介质

Info

Publication number: CN118279560A
Application number: CN202410428627.0A
Authority: CN
Inventors: 林国森
Original assignee: Ainnovation Hefei Technology Co ltd
Current assignee: Ainnovation Hefei Technology Co ltd
Filing date: 2024-04-10
Publication date: 2024-07-02

Abstract

本申请实施例提供一种图像识别方法、装置、电子设备及存储介质，该方法包括：获取第一图像和与第一图像对应的第一信息；根据第一图像，确定与第一图像对应的第二图像；根据第一视觉编码器和第一图像，确定与第一图像对应的第一视觉特征信息；根据第二视觉编码器和第二图像，确定与第二图像对应的第二视觉特征信息；根据第一信息，确定与第一信息对应的第三特征信息；根据第一视觉特征信息、第二视觉特征信息和第三特征信息和预先训练好的识别模型，确定与第一图像对应的第二信息，这样，通过双重视觉编码器对不同图片进行编码，兼顾关注区域和背景图像，提高了图像识别的准确性。

Description

一种图像识别方法、装置、电子设备及存储介质

技术领域

本申请涉及图像处理技术领域，具体而言，涉及一种图像识别方法、装置、电子设备及存储介质。

背景技术

随着深度学习技术的不断发展，多模态大模型在图像理解和文本生成等领域取得了显著的成果。目前，将需要待识别的图像输入到视觉多模态大模型中，可以对待识别图像进行整体识别，但是在具体的识别过程中，若对待识别图像中的某一个关注区域来说，在不同的背景环境下，表达不同含义，而采用现有技术的方案只能整体识别，无法兼顾关注区域和背景环境，如何在对图像进行识别时，同时兼顾关注区域和背景区域，是目前急需解决的问题。

发明内容

本申请的一些实施例的目的在于提供一种图像识别方法、装置、电子设备及存储介质，通过本申请的实施例的技术方案，通过获取第一图像和与所述第一图像对应的第一信息；根据所述第一图像，确定与所述第一图像对应的第二图像；根据第一视觉编码器和所述第一图像，确定与所述第一图像对应的第一视觉特征信息；根据第二视觉编码器和所述第二图像，确定与所述第二图像对应的第二视觉特征信息；根据所述第一信息，确定与所述第一信息对应的第三特征信息；根据所述第一视觉特征信息、所述第二视觉特征信息和所述第三特征信息和预先训练好的识别模型，确定与所述第一图像对应的第二信息，本申请实施例中通过建立双重视觉编码结构的多模态大模型，同时对整体图像和关注区域图像采用双重视觉编码器进行编码处理，得到两个视觉特征信息，然后自然语言转换成第三特征信息，都输入到预先训练好的大语言模型即识别模型，识别出图像内容，这样，同时兼顾关注区域和背景图像，提高了图像识别的准确性。

第一方面，本申请的一些实施例提供了一种图像识别方法，包括：

获取第一图像和与所述第一图像对应的第一信息；

根据所述第一图像，确定与所述第一图像对应的第二图像；

根据第一视觉编码器和所述第一图像，确定与所述第一图像对应的第一视觉特征信息；

根据第二视觉编码器和所述第二图像，确定与所述第二图像对应的第二视觉特征信息；

根据所述第一信息，确定与所述第一信息对应的第三特征信息；

根据所述第一视觉特征信息、所述第二视觉特征信息和所述第三特征信息和预先训练好的识别模型，确定与所述第一图像对应的第二信息。

本申请的一些实施例通过建立双重视觉编码结构的多模态大模型，同时对整体图像和关注区域图像采用双重视觉编码器进行编码处理，得到两个视觉特征信息，然后自然语言转换成第三特征信息，都输入到预先训练好的大语言模型即识别模型，识别出图像内容，这样，同时兼顾关注区域和背景图像，提高了图像识别的准确性。

可选地，所述预先训练好的识别模型是采用样本数据对大语言模型进行训练得到的。

本申请的一些实施例通过采用大量的样本数据对大语言模型进行训练，得到识别模型，可以将双编码器输出的特征信息和自然语言转换成的特征信息输入到大语言模型中，识别出图像内容，提高了图像识别的准确性。

可选地，所述根据第一视觉编码器和所述第一图像，确定与所述第一图像对应的第一视觉特征信息，包括：

将所述第一图像输入到第一视觉编码器中，得到与所述第一图像对应的第一特征向量；

根据所述第一特征向量和第一投影矩阵，确定与所述第一图像对应的第一视觉特征信息，其中，所述第一视觉特征信息至少包括第一标识信息。

本申请的一些实施例将第一图像即整体图像，该整体图像包括背景图像，输入到第一视觉编码器中，得到第一特征向量，然后再通过第一投影矩阵进行转换，得到第一视觉特征信息，作为大语言模型的输入信息。

可选地，所述根据第二视觉编码器和所述第二图像，确定与所述第二图像对应的第二视觉特征信息，包括：

将所述第二图像输入到第二视觉编码器中，得到与所述第二图像对应的第二特征向量；

根据所述第二特征向量和第二投影矩阵，确定与所述第二图像对应的第二视觉特征信息，其中，所述第二视觉特征信息至少包括第二标识信息。

本申请的一些实施例，从第一图像中截取关注区域，即得到第二图像，将第二图像输入到第二视觉编码器中，得到第二特征向量，然后再通过第二投影矩阵进行转换，得到第二视觉特征信息，作为大语言模型的输入信息。

可选地，所述根据所述第一信息，确定与所述第一信息对应的第三特征信息，包括：

根据所述第一信息和第三投影矩阵，确定与所述第一信息对应的第三特征信息。

本申请的一些实施例对自然语言进行投影矩阵的转换，得到第三特征信息，用于输入到大语言模型中，作为识别模型的输入。

可选地，所述方法还包括：

在对各个模型训练的过程中，保持所述第一视觉编码器和所述识别模型不变的情况下，对所述第一初始投影矩阵进行更新；

保持所述第二视觉编码器和所述识别模型不变的情况下，对所述第二初始投影矩阵进行更新，直至视觉特征和语言特征对齐；

在视觉特征和语言特征对齐情况下，将所述第一初始投影模型确定为所述第一投影矩阵，并将所述第二初始投影模型确定为所述第二投影模型。

本申请的一些实施例使用一个可训练的投影矩阵来将视觉特征映射到语言模型的空间中，使得视觉编码器的输出空间与语言模型的输入空间能够实现较好的对齐，在这个阶段，只有投影矩阵会被更新，而视觉编码器和语言模型的其他部分则保持冻结状态。

可选地，所述方法还包括：

在确定所述第一投影矩阵和所述第二投影矩阵的情况下，对所述第一编码器、所述第二编码器和所述识别模型进行更新。

本申请的一些实施例针对特定的应用场景对模型进行进一步的调整和优化，在这个阶段，不仅投影矩阵会被更新，语言模型本身也会根据不同的使用场景进行相应的调整。

第二方面，本申请的一些实施例提供了一种图像识别装置，包括：

获取模块，用于获取第一图像和与所述第一图像对应的第一信息；

截取模块，用于根据所述第一图像，确定与所述第一图像对应的第二图像；

第一编码模块，用于根据第一视觉编码器和所述第一图像，确定与所述第一图像对应的第一视觉特征信息；

第二编码模块，用于根据第二视觉编码器和所述第二图像，确定与所述第二图像对应的第二视觉特征信息；

确定模块，用于根据所述第一信息，确定与所述第一信息对应的第三特征信息；

识别模块，用于根据所述第一视觉特征信息、所述第二视觉特征信息和所述第三特征信息和预先训练好的识别模型，确定与所述第一图像对应的第二信息。

可选地，所述第一编码模块用于：

可选地，所述第二编码模块用于：

可选地，所述确定模块用于：

可选地，所述识别模块，用于：

第三方面，本申请的一些实施例提供一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述程序时可实现如第一方面任一实施例所述的图像识别方法。

第四方面，本申请的一些实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时可实现如第一方面任一实施例所述的图像识别方法。

第五方面，本申请的一些实施例提供一种计算机程序产品，所述的计算机程序产品包括计算机程序，其中，所述的计算机程序被处理器执行时可实现如第一方面任一实施例所述的图像识别方法。

附图说明

为了更清楚地说明本申请的一些实施例的技术方案，下面将对本申请的一些实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种图像识别方法的流程示意图；

图2为本申请实施例提供的又一种图像识别方法的流程示意图；

图3为本申请实施例提供的第一图像的示意图；

图4为本申请实施例提供的第二图像的示意图；

图5为本申请实施例提供的一种图像识别装置的结构示意图；

图6为本申请实施例提供的一种电子设备示意图。

具体实施方式

下面将结合本申请的一些实施例中的附图，对本申请的一些实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

随着深度学习技术的不断发展，多模态大模型在图像理解和文本生成等领域取得了显著的成果。目前，将需要待识别的图像输入到视觉多模态大模型中，可以对待识别图像进行整体识别，但是在具体的识别过程中，若对待识别图像中的某一个关注区域来说，在不同的背景环境下，表达不同含义，而采用现有技术的方案只能整体识别，无法兼顾关注区域和背景环境，鉴于此，本申请的一些实施例提供了一种图像识别方法，该方法包括获取第一图像和与第一图像对应的第一信息；根据第一图像，确定与第一图像对应的第二图像；根据第一视觉编码器和第一图像，确定与第一图像对应的第一视觉特征信息；根据第二视觉编码器和第二图像，确定与第二图像对应的第二视觉特征信息；根据第一信息，确定与第一信息对应的第三特征信息；根据第一视觉特征信息、第二视觉特征信息和第三特征信息和预先训练好的识别模型，确定与第一图像对应的第二信息，本申请实施例中通过建立双重视觉编码结构的多模态大模型，同时对整体图像和关注区域图像采用双重视觉编码器进行编码处理，得到两个视觉特征信息，然后自然语言转换成第三特征信息，都输入到预先训练好的大语言模型即识别模型，识别出图像内容，这样，同时兼顾关注区域和背景图像，提高了图像识别的准确性。

如图1所示，本申请的实施例提供了一种图像识别方法，该方法包括：

S101、获取第一图像和与第一图像对应的第一信息；

具体地，终端设备获取待识别图像，即第一图像，同时，终端设备获取到与第一图像对应的第一信息，该第一信息可以是针对图像的理解问题。

S102、根据第一图像，确定与第一图像对应的第二图像；

具体地，终端设备对第一图像中的关注区域进行截取，将得到的关注区域作为第二图像，具体的截取方式可以是采用固定框对图像的关注区域进行截取，也可以是采用神经网络算法对图像的目标位置进行识别，进而进行截取，还可以是人工对图像中的关注区域进行截取。

其中，截取的图像可以是一个，也可以是多个。

S103、根据第一视觉编码器和第一图像，确定与第一图像对应的第一视觉特征信息；

具体地，终端设备上预先存储多个视觉编码器，分别对多个图像进行视觉编码，得到对应的视觉特征信息。

本申请实施例中，将完整的图像即第一图像输入到第一视觉编码器中，得到第一视觉特征信息。

S104、根据第二视觉编码器和第二图像，确定与第二图像对应的第二视觉特征信息；

进而，终端设备将截取出来的关注区域，即第二图像输入到第二视觉编辑器中，得到与第二图像对应的第二视觉特征信息。

S105、根据第一信息，确定与第一信息对应的第三特征信息；

终端设备对自然语言的第一信息进行投影矩阵的转换，得到与第一信息对应的第三特征信息。

S106、根据第一视觉特征信息、第二视觉特征信息和第三特征信息和预先训练好的识别模型，确定与第一图像对应的第二信息。

终端设备预先对大预言模型进行训练，得到识别模型，然后在获得第一视觉特征信息、第二视觉特征信息和第三特征信息后，将第一视觉特征信息、第二视觉特征信息和第三特征信息输入到预先训练好的识别模型，得到与第一图像对应的第二信息，即文本信息，该第二信息是针对提出的问题得到的答案。

本申请又一实施例对上述实施例提供的图像识别方法做进一步补充说明。

可选地，预先训练好的识别模型是采用样本数据对大语言模型进行训练得到的。

其中，大语言模型可以是基于LLaMa架构的大语言模型，也可以是其他类类型的大语言模型，在本申请中不做具体限定。

可选地，根据第一视觉编码器和第一图像，确定与第一图像对应的第一视觉特征信息，包括：

将第一图像输入到第一视觉编码器中，得到与第一图像对应的第一特征向量；

根据第一特征向量和第一投影矩阵，确定与第一图像对应的第一视觉特征信息，其中，第一视觉特征信息至少包括第一标识信息。

可选地，根据第二视觉编码器和第二图像，确定与第二图像对应的第二视觉特征信息，包括：

将第二图像输入到第二视觉编码器中，得到与第二图像对应的第二特征向量；

根据第二特征向量和第二投影矩阵，确定与第二图像对应的第二视觉特征信息，其中，第二视觉特征信息至少包括第二标识信息。

可选地，根据第一信息，确定与第一信息对应的第三特征信息，包括：

根据第一信息和第三投影矩阵，确定与第一信息对应的第三特征信息。

可选地，该方法还包括：

在对各个模型训练的过程中，保持第一视觉编码器和识别模型不变的情况下，对第一初始投影矩阵进行更新；

保持第二视觉编码器和识别模型不变的情况下，对第二初始投影矩阵进行更新，直至视觉特征和语言特征对齐；

在视觉特征和语言特征对齐情况下，将第一初始投影模型确定为第一投影矩阵，并将第二初始投影模型确定为第二投影模型。

具体地，终端设备需要预先对视觉编码器、投影矩阵和大语言模型进行训练，在训练过程中要实现视觉特征和语言特征之间的对齐。其中，使用一个可训练的投影矩阵来将视觉特征映射到语言模型的空间中，这样做的目的是使得视觉编码器的输出空间与语言模型的输入空间能够实现较好的对齐。

在训练过程中，先保持视觉编码器和大预言模型不改变，单独对投影矩阵进行训练，即投影矩阵会被不断更新，而视觉编码器和语言模型的其他部分则保持冻结状态，直到视觉特征和语言特征对齐。

可选地，该方法还包括：

在确定第一投影矩阵和第二投影矩阵的情况下，对第一编码器、第二编码器和识别模型进行更新。

具体地，终端设备在对投影矩阵训练完成后，可以根据需要对视觉编码器和大语言模型进行训练，即实现端到端微调，在预训练完成后，模型会进入端到端的微调阶段。这个阶段的目标是针对特定的应用场景对模型进行进一步的调整和优化，在这个阶段，不仅投影矩阵会被更新，语言模型本身也会根据不同的使用场景进行相应的调整。

图2为本申请实施例提供的又一种图像识别方法的流程示意图，如图2所示：在图像识别过程中，包括第一视觉编码器、第一投影矩阵W1、第二视觉编码器、第二投影矩阵W2和语言大模型；

其中，视觉编码器可以是CLIP视觉编码器ViT-L/336px(分辨率为336乘336)，也可以是ViT-L/14(分辨率为224乘224)，第一视觉编码器和第二视觉编码器可以是相同的，也可以是不相同的，可以根据实际的图像进行具体设置，在本申请实施例中不做具体限定，对于两个视觉编码器，都使用的是最后一个Transformer层之前和之后的网格特征。

1)终端设备获取第一图像、第二图像和第一信息，其中，第一图像为X_V背景图片，第二图像为X_V关注区域图片，第一信息为X_q自然语言指令；

2)将第一图像输入到第一视觉编码器中，得到第一特征向量Z_V1，然后将第一特征向量经过第一投影矩阵W1的转换，得到第一视觉特征信息Hv1，即宏观背景视觉特征；

3)将第二图像输入到第二视觉编码器中，得到第二特征向量Z_V2，然后将第二特征向量经过第二投影矩阵W2的转换，得到第二视觉特征信息Hv2，即关注区域视觉特征；

4)对第一信息即Xq自然语言指令进行投影矩阵W3进行转换，得到Hq。

5)将第一视觉特征信息Hv1、第二视觉特征信息Hv2和Hq输入到大语言模型即识别模型中，得到第二信息，即针对第一信息进行自然答复。

本申请实施例中视觉编码器分别负责对背景图片以及关注区域内的图片进行编码，将图片数据转换为大模型的tocken(标志符号)。

本申请实施例中的投影矩阵为多层感知机(multilayer perceptron，MLP)将图像特征连接到单词嵌入空间中。具体而言，应用可训练投影矩阵W将视觉指令Zv转换成视觉特征向量Hv，然后将自然语言指令Xq转换为语言嵌入标记Hq，Hq具有与语言模型中的单词嵌入空间相同的维度。双重视觉特征和文本特征一起接入预训练好的Ainno-15B模型(一种基于LLaMa架构的大语言模型)，最后得到文本输出(即第二信息)。

本申请实施例通过双重视觉编码，能够同时兼顾图片整体背景和关注区域的细节特征，提高模型对图像的理解能力相关性。

示例性地，图3为整体背景图即第一图像，图4为局部区域图片即第二图像。

问题(第一信息)：关注区域在图片中的矩形区域为[0.5,0.2,0.1,0.15],请详细描述一下该关注区域所发生的内容。

回答(第二信息)：这是一幅描绘冬季儿童在户外玩耍的画面。图片中有多个儿童形象，他们正在进行不同的活动：有的在雪地里奔跑、有的打雪仗、有的堆雪人、还有的在滑雪。背景中可以看到一些建筑物和树木。整体上，这幅画传达了儿童的快乐和活力。关注区域的画面中是一个留着刘海的小女孩，他的表情看起来很紧张。他的眼睛瞪得大大的，嘴巴微张，双手放在头上，好像在做躲避的动作。结合背景图片的信息可知，她可能是担心被雪球打到，所以感到紧张，并双手抱头来保护自己。

需要说明的是，本实施例中各可实施的方式可以单独实施，也可以在不冲突的情况下以任意组合方式结合实施本申请不做限定。

本申请另一实施例提供一种图像识别装置，用于执行上述实施例提供的图像识别方法。

如图5所示，为本申请实施例提供的图像识别装置的结构示意图。该图像识别装置包括，其中：

获取模块501用于获取第一图像和与第一图像对应的第一信息；

截取模块502用于根据第一图像，确定与第一图像对应的第二图像；

第一编码模块503用于根据第一视觉编码器和第一图像，确定与第一图像对应的第一视觉特征信息；

第二编码模块504用于根据第二视觉编码器和第二图像，确定与第二图像对应的第二视觉特征信息；

确定模块505用于根据第一信息，确定与第一信息对应的第三特征信息；

识别模块506用于根据第一视觉特征信息、第二视觉特征信息和第三特征信息和预先训练好的识别模型，确定与第一图像对应的第二信息。

关于本实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请又一实施例对上述实施例提供的图像识别装置做进一步补充说明。

可选地，第一编码模块用于：

可选地，第二编码模块用于：

可选地，确定模块用于：

可选地，识别模块，用于：

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，程序被处理器执行时可实现如上述实施例提供的图像识别方法中的任意实施例所对应方法的操作。

本申请实施例还提供了一种计算机程序产品，的计算机程序产品包括计算机程序，其中，的计算机程序被处理器执行时可实现如上述实施例提供的图像识别方法中的任意实施例所对应方法的操作。

如图6所示，本申请的一些实施例提供一种电子设备600，该电子设备600包括：存储器610、处理器620以及存储在存储器610上并可在处理器620上运行的计算机程序，其中，处理器620通过总线630从存储器610读取程序并执行程序时可实现如上述图像识别方法包括的任意实施例的方法。

处理器620可以处理数字信号，可以包括各种计算结构。例如复杂指令集计算机结构、结构精简指令集计算机结构或者一种实行多种指令集组合的结构。在一些示例中，处理器620可以是微处理器。

存储器610可以用于存储由处理器620执行的指令或指令执行过程中相关的数据。这些指令和/或数据可以包括代码，用于实现本申请实施例描述的一个或多个模块的一些功能或者全部功能。本公开实施例的处理器620可以用于执行存储器610中的指令以实现上述所示的方法。存储器610包括动态随机存取存储器、静态随机存取存储器、闪存、光存储器或其它本领域技术人员所熟知的存储器。

以上仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

获取第一图像和与所述第一图像对应的第一信息；

根据所述第一图像，确定与所述第一图像对应的第二图像；

2.根据权利要求1所述的图像识别方法，其特征在于，所述预先训练好的识别模型是采用样本数据对大语言模型进行训练得到的。

3.根据权利要求1所述的图像识别方法，其特征在于，所述根据第一视觉编码器和所述第一图像，确定与所述第一图像对应的第一视觉特征信息，包括：

4.根据权利要求1所述的图像识别方法，其特征在于，所述根据第二视觉编码器和所述第二图像，确定与所述第二图像对应的第二视觉特征信息，包括：

5.根据权利要求1所述的图像识别方法，其特征在于，所述根据所述第一信息，确定与所述第一信息对应的第三特征信息，包括：

6.根据权利要求3所述的图像识别方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的图像识别方法，其特征在于，所述方法还包括：

8.一种图像识别装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述程序时可实现权利要求1-7中任意一项权利要求所述的图像识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述程序被处理器执行时可实现权利要求1-7中任意一项权利要求所述的图像识别方法。