CN117173483A

CN117173483A - 物体识别方法、装置、设备及存储介质

Info

Publication number: CN117173483A
Application number: CN202311196008.5A
Authority: CN
Inventors: 吴嘉嘉; 张圆; 赖嘉骏; 殷兵; 胡金水
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2023-09-15
Filing date: 2023-09-15
Publication date: 2023-12-05

Abstract

本申请公开了一种物体识别方法、装置、设备及存储介质，本申请获取待识别图片对应的文本模态的多条候选类别，多条候选类别包括待识别图片中物体的真实类别；利用多模态大模型分别提取每条候选类别的文本特征，以及，提取待识别图片的视觉特征；计算待识别图片的视觉特征与每条候选类别的文本特征间的相似度，取最高相似度对应的候选类别作为待识别图片中物体的目标类别。本申请借助多模态大模型强大的通用知识的表示能力，可以更加准确地提取特征，进而基于提取的特征进行物体识别，提升识别准确度，避免了传统物体识别模型在训练数据不充足时识别准确率不高的问题，以及面对特殊视角拍摄的图片的识别准确率不高的问题。

Description

物体识别方法、装置、设备及存储介质

技术领域

本申请涉及图像处理技术领域，更具体的说，是涉及一种物体识别方法、装置、设备及存储介质。

背景技术

物体识别是指对提供的图片中所包含的物体种类进行识别，物体识别广泛应用于多种场景下，示例如对机器人拍摄的环境图像进行物体识别，从而帮助机器人确定工作区域中的物体类别，进而更好的构建工作区域的户型图，如图7所示，在工作区域的户型地图上展示有各种类别的物体贴图，如餐桌、沙发、柜子等。

传统的物体识别方法一般是采用标注有物体类别标签的训练图像训练一个物体识别模型，进而利用物体识别模型对待识别图片进行物体识别。但是，物体识别模型的精度与训练数据的规模有较大关系，当训练数据不充分时，容易出现训练的物体识别模型的精度不够。尤其是对于一些非正常视角所拍摄的图片，如扫地机器人通过较低视角所拍摄的图片，其中包含的物体并不完整，采用传统的物体识别模型对此类图片进行识别时，识别准确度会进一步降低。示例如图1所示，其为扫地机器人拍摄的一张图片，由于其中物体并未拍摄完整，在采用传统物体识别模型进行识别时，无法准确地区分其属于沙发还是床，进而有可能给出错误的识别结果。

发明内容

鉴于上述问题，提出了本申请以便提供一种物体识别方法、装置、设备及存储介质，用于解决传统物体识别模型受限于训练数据规模以及待识别图片的拍摄视角，容易存在识别精度不高的问题。具体方案如下：

第一方面，提供了一种物体识别方法，包括：

获取待识别图片对应的文本模态的多条候选类别，所述多条候选类别包括所述待识别图片中物体的真实类别；

利用配置的多模态大模型分别提取每条所述候选类别的文本特征，以及，利用所述多模态大模型提取所述待识别图片的视觉特征；

计算所述待识别图片的视觉特征与每条所述候选类别的文本特征间的相似度，取最高相似度对应的所述候选类别，作为所述待识别图片中物体的目标类别。

优选地，利用配置的多模态大模型分别提取每条所述候选类别的文本特征，以及，利用所述多模态大模型提取所述待识别图片的视觉特征，包括：

利用所述多模态大模型的文本编码器，对每条所述候选类别进行文本编码，得到每条所述候选类别的文本特征；

利用所述多模态大模型的视觉编码器，对所述待识别图片进行视觉编码，得到视觉特征。

优选地，所述待识别图片为机器人对工作区域所拍摄的视频流中的若干帧图片；

在计算每一帧待识别图片的视觉特征与所述每一帧待识别图片对应的每条候选类别的文本特征间的相似度之前，还包括：

将所述每一帧待识别图片的视觉特征送入预配置的序列模型，得到所述序列模型提取的所述每一帧待识别图片的隐层状态特征，并将所述隐层状态特征作为所述每一帧待识别图片的最新的视觉特征，其中，所述序列模型被配置为用于提取输入的待识别图片序列中每一帧待识别图片的隐层状态特征。

计算所述待识别图片的视觉特征与每条所述候选类别的文本特征间的相似度的过程，包括：

计算每一帧待识别图片的视觉特征与所述每一帧待识别图片对应的每条候选类别的文本特征间的第一相似度；

该方法还包括：

将所述每一帧待识别图片的视觉特征送入预配置的序列模型，得到所述序列模型提取的所述每一帧待识别图片的隐层状态特征，其中，所述序列模型被配置为用于提取输入的待识别图片序列中每一帧待识别图片的隐层状态特征；

计算所述每一帧待识别图片的隐层状态特征与所述每一帧待识别图片对应的每条候选类别的文本特征间的第二相似度；

则所述取最高相似度对应的所述候选类别，作为所述待识别图片所包含物体的目标类别的过程，包括：

针对所述每一帧待识别图片：

基于所述每一帧待识别图片与每条候选类别的所述第一相似度与所述第二相似度，确定第三相似度，取最高的所述第三相似度对应的所述候选类别，作为所述每一帧待识别图片所包含物体的目标类别。

优选地，基于所述每一帧待识别图片与每条候选类别的所述第一相似度与所述第二相似度，确定第三相似度的过程，包括：

将所述每一帧待识别图片与每条候选类别的所述第一相似度与所述第二相似度进行平均，将平均相似度作为所述第三相似度。

优选地，所述机器人的工作区域包括至少一个房间；

将所述每一帧待识别图片的视觉特征送入预配置的序列模型的过程，包括：

若当前帧待识别图片为所述机器人在进入所述工作区域内的一个房间后所拍摄的首张照片时，将所述序列模型的隐层状态特征重置为0，之后将所述当前帧待识别图片的视觉特征送入所述序列模型。

优选地，所述待识别图片为机器人对工作区域所拍摄的视频流中的若干帧图片，该方法还包括：

获取所述机器人对应的所述工作区域的户型地图；

确定拍摄的每一帧待识别图片中的物体在所述户型地图中的位置；

按照所述每一帧待识别图片中物体的目标类别，在所述户型地图中所述物体对应的位置处展示所述目标类别的物体贴图。

优选地，所述获取待识别图片对应的文本模态的多条候选类别，包括：

将所述待识别图片送入预配置的物体识别模型，得到所述物体识别模型输出的多条候选类别；所述物体识别模型为采用标注有物体类别标签的训练图片训练得到。

第二方面，提供了一种物体识别装置，包括：

候选类别获取单元，用于获取待识别图片对应的文本模态的多条候选类别，所述多条候选类别包括所述待识别图片中物体的真实类别；

特征提取单元，用于利用配置的多模态大模型分别提取每条所述候选类别的文本特征，以及，利用所述多模态大模型提取所述待识别图片的视觉特征；

第一相似度计算单元，用于计算所述待识别图片的视觉特征与每条所述候选类别的文本特征间的相似度；

目标类别确定单元，用于取最高相似度对应的所述候选类别，作为所述待识别图片中物体的目标类别。

第三方面，提供了一种物体识别设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如前所述的物体识别方法的各个步骤。

第四方面，提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如前所述的物体识别方法的各个步骤。

借由上述技术方案，对于待识别图片本申请首先获取其对应的文本模态的多条候选类别，该多条候选类别中包含了待识别图片中物体的真实类别，后续步骤中可以从该多条后续类别中筛选出物体的真实类别。具体地，本申请利用配置的多模态大模型来分别提取每条候选类别的文本特征，以及利用多模态大模型提取待识别图片的视觉特征，由于多模态大模型已经在大规模数据集(文本、图像、视频等多模态数据)上进行了预训练，且其网络参数量也更大，因而多模态大模型本身就具备强大的通用知识的表示能力，利用多模态大模型提取的每条候选类别的文本特征可以更加准确地表征候选类别，利用多模态大模型提取的待识别图片的视觉特征可以更加准确地表征待识别图片，在此基础上，可以计算视觉特征与每条候选类别的文本特征间的相似度，并选取最高相似度对应的候选类别作为待识别图片中物体的目标类别。显然，本申请借助多模态大模型已有强大的知识表达能力，可以更加准确地提取候选类别的文本特征及待识别图片的视觉特征，进而通过特征相似度对比的方式来选取待识别图片中物体的目标类别，提升了识别准确度，避免了传统物体识别模型在训练数据不充足时识别准确率不高的问题，以及面对特殊视角拍摄的图片的识别准确率不高的问题。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示例了一张扫地机器人拍摄的图片；

图2为本申请实施例提供的物体识别方法的一流程示意图；

图3示例了一种基于多模态大模型的物体识别方法流程示意图；

图4示例了一种基于多模态大模型和序列模型相结合的物体识别方法流程示意图；

图5示例了另一种基于多模态大模型和序列模型相结合的物体识别方法流程示意图；

图6示例了一种通过SLAM算法构建的机器人的环境地图；

图7示例一种户型地图；

图8为本申请实施例提供的一种物体识别装置结构示意图；

图9为本申请实施例提供的物体识别设备的结构示意图。

具体实施方式

在介绍本申请方案之前，首先对本文中涉及到基本概念进行解释：

人工智能模型：又可以称之为大型深度学习模型，是一种基于深度学习技术的人工智能模型，它由数以亿计的参数组成，可以通过对大量数据的学习、训练，实现自然语音处理、图像识别、语音识别等复杂任务。人工智能模型可以包括大模型。

大模型又可以称之为大规模预训练模型(Large Pre-Trained-Models)，是指在大规模数据集上进行预训练的模型，根据数据集的不同，大模型又可以分为不同模态的大模型，如语言大模型、图像大模型、语音大模型以及多模态大模型。其中多模态大模型能够同时对多种不同模态的数据进行处理，多模态大模型的训练数据集通常包括互联网上的大量文本、图像、视频等多模态数据。大模型通过学习数据中的模式和特征来获取通用的知识表示。这些大模型的目标是学习到一种通用的表示能力，以便在各种下游任务中进行微调或迁移学习。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供了一种物体识别方案，可以适用于对图片中的物体进行识别的场景。示例如，可以应用于对机器人(如扫地机器人、搬运机器人等)所拍摄的工作区域的图片进行物体识别。则执行本申请的物体识别方法的设备可以是机器人，如机器人通过摄像模块拍摄到视频流后，从中提取需要进行物体识别的若干帧图片，进而对每一帧图片执行本申请的物体识别方法。

此外，本申请的物体识别方法也可以是基于与机器人通信的基站、服务器、智能音响等终端设备实现，如机器人在拍摄到视频流后传输给终端设备，由终端设备从中提取需要进行物体识别的若干帧图片，进而对每一帧图片执行本申请的物体识别方法。

再或者，本申请的物体识别方法还可以是由机器人和终端设备配合共同实现。

接下来，结合图2所述，本申请的物体识别方法可以包括如下步骤：

步骤S100、获取待识别图片对应的文本模态的多条候选类别。

其中，所述多条候选类别包括所述待识别图片中物体的真实类别。

待识别图片为需要进行物体识别的图片，其可以是用户提供的，也可以是设备拍摄的，示例如可以是机器人上的摄像模块所拍摄的图片。

本步骤中，获取待识别图片对应的多条候选类别是指对待识别图片进行物体种类识别后得到的多条候选结果，多条候选类别中包含了待识别图片中物体所有可能的类别，因而也包含了物体的真实类别，本申请的目的即从多条候选类别中确定出物体的真实类别，又可以称之为物体的目标类别。

以待识别图片为扫地机器人所拍摄的图片为例，则多条候选类别可以是扫地机器人所在工作区域内的各类型家具、物体等。

本步骤中，可以通过多种方式获取待识别图片对应的多条候选类别，示例如可以通过预训练的物体识别模型，对待识别图片进行物体识别，得到模型输出的多条候选类别。该物体识别模型可以是采用标注有物体类别标签的训练图片训练得到。物体识别模型可以采用各种类型的神经网络模型，虽然物体识别模型的精度可能不是特别高，但是物体识别模型可以输出多条候选类别(一般可以选择10条或其它数目)，该多条候选类别中一般都包含了物体的正确类别。

再比如，还可以由用户输入待识别图片中物体的所有可能的类别，作为多条候选类别。或者是，获取其它终端输出的待识别图片中物体的各条候选类别，等等。

步骤S110、利用配置的多模态大模型分别提取每条所述候选类别的文本特征，以及，利用所述多模态大模型提取所述待识别图片的视觉特征。

具体地，本申请预先配置了多模态大模型，该多模态大模型可以处理不同模态的输入数据，如文本数据、图片数据等。通过借助多模态大模型强大的知识表达能力，可以更加准确地提取每条候选类别的文本特征，以及提取待识别图片的视觉特征。

参照图3所示，多模态大模型可以包括文本编码器和视觉编码器，则可以通过文本编码器分别对每条候选类别进行文本编码，得到每条候选类别的文本特征。通过视觉编码器，对待识别图片进行视觉编码，得到视觉特征。

进一步可选的，在使用多模态大模型提取候选类别的文本特征和待识别图片的视觉特征之前，还可以增加采用训练数据对多模态大模型进行微调训练的过程，即：

获取由训练图片及标注文本组成的训练数据，其中训练图片及对应的标注文本组成正例样本对，训练图片与其余图片的标注文本组成负例样本对，其中，训练图片对应的标注文本为对训练图片中包含的物体的描述内容。利用多模态大模型分别提取训练图片的视觉特征，及标注文本的文本特征，并计算视觉特征和文本特征的余弦相似度，以最大化正例样本对间的相似度，最小化负例样本对间的相似度为目标，更新多模态大模型的参数，直至达到设定收敛条件。

通过上述训练过程，可以进一步将标注文本及其对应的图片拉近到相同的向量表征空间。

步骤S120、计算所述待识别图片的视觉特征与每条所述候选类别的文本特征间的相似度，取最高相似度对应的所述候选类别，作为所述待识别图片中物体的目标类别。

具体地，各条候选类别中包含了待识别图片中物体的真实类别，为了从中筛选出该真实类别，可以计算待识别图片的视觉特征与每条候选类别的文本特征间的相似度，如图3所示。可以理解的是，理论上来说物体的真实类别的文本特征与待识别图片的视觉特征间的相似度是最高的，因此本步骤中可以选取最高相似度对应的候选类别，将其作为待识别图片中物体的目标类别(也即，本申请判定的物体的真实类别)。

本步骤中计算视觉特征与文本特征间的相似度时，具体可以采用余弦距离或其它距离计算公式来计算相似度大小。

本申请实施例提供的物体识别方法，对于待识别图片本申请首先获取其对应的文本模态的多条候选类别，该多条候选类别中包含了待识别图片中物体的真实类别，后续步骤中可以从该多条后续类别中筛选出物体的真实类别。具体地，本申请利用配置的多模态大模型来分别提取每条候选类别的文本特征，以及利用多模态大模型提取待识别图片的视觉特征，由于多模态大模型已经在大规模数据集(文本、图像、视频等多模态数据)上进行了预训练，且其网络参数量也更大，因而多模态大模型本身就具备强大的通用知识的表示能力，利用多模态大模型提取的每条候选类别的文本特征可以更加准确地表征候选类别，利用多模态大模型提取的待识别图片的视觉特征可以更加准确地表征待识别图片，在此基础上，可以计算视觉特征与每条候选类别的文本特征间的相似度，并选取最高相似度对应的候选类别作为待识别图片中物体的目标类别。显然，本申请借助多模态大模型已有强大的知识表达能力，可以更加准确地提取候选类别的文本特征及待识别图片的视觉特征，进而通过特征相似度对比的方式来选取待识别图片中物体的目标类别，提升了识别准确度，避免了传统物体识别模型在训练数据不充足时识别准确率不高的问题，以及面对特殊视角拍摄的图片的识别准确率不高的问题。

本申请的一些实施例中，介绍了上述物体识别方法的一种可选应用场景。具体地，上述物体识别方法可以应用于构建机器人所在工作区域的户型地图的过程。

具体地，机器人通过其上设置的摄像模块对工作区域拍摄视频流，进而可以将视频中的各帧或部分帧图片作为待识别图片，应用本案的物体识别方法，识别每一帧待识别图片中物体的类别。

在此基础上，还可以获取机器人对应的工作区域的户型地图，该户型地图可以是通过SLAM算法构建的环境地图，如图6所示。可以用不同的颜色或灰度来表示地图中不同的物体。

进一步，确定每一帧待识别图片中的物体在所述户型地图中的位置。

具体地，可以结合机器人上的雷达传感器等，确定拍摄的每一帧待识别图片中物体在工作环境中的实际位置，并通过位置映射的方式，得到物体在户型地图中的位置。

按照每一帧待识别图片中物体的目标类别，在所述户型地图中所述物体对应的位置处展示所述目标类别的物体贴图。如图7所示，其示例了一种包含物体贴图的户型地图，其上包含有沙发、餐桌、柜子等所识别到的家具、物品的贴图，从而便于用户更加直观的浏览地图情况。

仍以上述机器人对工作区域拍摄的视频流中的部分或全部帧图片作为待识别图片这一场景为例，本申请实施例中进一步介绍了在这一场景下，物体识别方法的几种不同实现方式。

考虑到机器人工作区域内不同物体的摆放一般有内在的顺序，为了充分挖掘物体间的关系信息，进而提升物体识别的准确度，本实施例中在多模态大模型的基础上还可以进一步引入序列模型。

序列模型(sequence model)即处理序列数据(具有先后顺序的数据)的模型，常见的序列模型如循环神经网络RNN、长短时记忆网络LSTM等模型。序列数据的特点在于某一时刻的数据不仅和现在有关，而且和过去、未来有关，数据出现的先后顺序也是重要的信息，序列模型能学习到这些信息。

本实施例中考虑到机器人工作区域内物体的摆放一般也有内在的顺序，因此可以借助序列模型天然处理序列数据的优势，将视频流中各帧待识别图片的视觉特征依次送入序列模型，进而提取每一帧待识别图片的隐层状态特征，该隐层状态特征能够更好的表征待识别图片中物体的特征信息，以及与前后其它帧待识别图片中物体间的关联信息。

本实施例中可以将多模态大模型与序列模型相结合，共同进行物体识别。

一种可选的结合方案参照图4所示，可以包括：

对于每一帧待识别图片，通过物体识别模型识别得到多条候选类别，之后通过多模态大模型的文本编码器分别提取每一候选类别的文本特征。

对于每一帧待识别图片，通过多模态大模型视觉编码器提取其视觉特征，之后将每一帧待识别图片的视觉特征送入序列模型，得到序列模型提取的每一帧待识别图片的隐层状态特征，将该隐层状态特征作为每一帧待识别图片的最新的视觉特征，与每一候选类别的文本特征进行相似度计算，选取最高相似度的候选类别，作为每一帧待识别图片的目标类别。

其中，序列模型被配置为用于提取输入的待识别图片序列中每一帧待识别图片的隐层状态特征。

序列模型能够对前后输入的各帧待识别图片的视觉特征进行序列连接，后一帧待识别图片的隐层状态特征的确定过程可以用到前一帧待识别图片的隐层状态特征，也即会考虑前后输入的不同帧待识别图片之间的顺序关系。

图4示例的第1帧待识别图片的隐层状态特征会传递到第1+t帧待识别图片的隐层状态特征提取过程，其中t为大于等于1的正整数。也即，本申请可以对视频流中每一帧图片均进行物体识别，则此时t取值为1。除此之外，本申请还可以从视频流中间隔抽取若干关键帧进行物体识别，则t为抽取的两个关键帧之间的间隔帧数。

本实施例提供的将多模态大模型与序列模型相结合的方案，在利用多模态大模型视觉编码器提取每一帧待识别图片的视觉特征之后，可以进一步利用序列模型提取每一帧待识别图片的隐层状态特征，将其作为每一帧待识别图片的最新的视觉特征，该最新的视觉特征进一步考虑了前后不同帧待识别图片中物体间的摆放顺序信息，在此基础上与每一候选类别的文本特征进行相似度计算，取最高相似度的候选类别作为每一帧待识别图片中物体的目标类别，由于过程中考虑了不同物体间的内在摆放顺序信息，使得最终的识别结果更加准确。

在采用图4所示的模型结构进行物体识别之前，还可以采用训练数据训练模型结构。如，获取由训练图片及标注文本组成的训练数据，其中训练图片及对应的标注文本组成正例样本对，训练图片与其余图片的标注文本组成负例样本对，其中，训练图片对应的标注文本为对训练图片中包含的物体的描述内容。利用图4所示结构对训练数据进行处理，并以最大化正例样本对间的相似度，最小化负例样本对间的相似度为目标，更新多模态大模型和序列模型的参数，直至达到设定收敛条件。

另一种可选的结合方案，可以将图3和图4示例的两种模型架构进一步组合，采用如图5所示的模型架构针对每一帧待识别图片进行物体识别。

如图5所示，整个模型架构可以分为上下两个模块(如图5中上下两个虚线框)，上面的模块采用如图3所示的结构，针对每一帧待识别图片，计算其视觉特征与每条候选类别的文本特征间的第一相似度。具体过程可以参照图3对应实施例的描述，此处不再赘述。

下面的模块采用如图4所示的结构，针对每一帧待识别图片，计算其隐层状态特征与每条候选类别的文本特征间的第二相似度。具体过程可以参照图4对应实施例的描述，此处不再赘述。

在上述得到第一相似度和第二相似度之后，可以针对每一帧待识别图片：

基于所述每一帧待识别图片与每条候选类别的第一相似度与第二相似度，确定第三相似度，取最高的所述第三相似度对应的候选类别，作为所述每一帧待识别图片所包含物体的目标类别。

示例如，针对第i帧待识别图片，通过图5上面的模块计算得到：

候选类别x1的第一相似度为q11、候选类别x2的第一相似度为q12、候选类别x3的第一相似度为q13。

通过图5下面的模块计算得到：

候选类别x1的第二相似度为q21、候选类别x2的第二相似度为q22、候选类别x3的第二相似度为q23。

综合第一相似度和第二相似度，得到第三相似度：

候选类别x1的第三相似度为q31、候选类别x2的第三相似度为q32、候选类别x3的第三相似度为q33。

取最高的第三相似度对应的候选类别，作为第i帧待识别图片所包含物体的目标类别。假设q31>q32>q33，则可以将候选类别x1作为第i帧待识别图片所包含物体的目标类别。

一种可选的实施方式下，上述基于每一帧待识别图片与每条候选类别的第一相似度与第二相似度，确定第三相似度的过程，可以包括：

将每一帧待识别图片与每条候选类别的第一相似度与第二相似度进行平均，将平均相似度作为第三相似度。

除此之外，还可以采用其它方式确定第三相似度，示例如为第一相似度和第二相似度分别赋予不同的权重，进而对第一相似度和第二相似度进行加权求平均，结果作为第三相似度。

上述实施例中介绍了将多模态大模型与序列模型相结合来进行物体识别的过程，在借助多模态大模型强大的知识表达能力的同时，能够考虑机器人工作区域内不同物体的摆放顺序，通过序列模型挖掘这一物体间关系信息，从而帮助进一步提升物体识别的准确度。

在此基础上，本申请实施例中可以将机器人工作区域进一步按照房间进行划分，也即工作区域包含若干个不同的房间。本实施例中，将物体间的摆放顺序限定在同一房间内，也即认为同一房间内不同物体间存在特定的摆放顺序，跨房间的物体间没有明显的摆放顺序。在这一认知基础上，上述实施例中将每一帧待识别图片的视觉特征送入序列模型的过程，可以包括：

若当前帧待识别图片为机器人在进入所述工作区域内的一个房间后所拍摄的首张照片时，则可以首先将序列模型的隐层状态特征重置为0，之后将所述当前帧待识别图片的视觉特征送入所述序列模型。

基于此，可以让序列模型仅抓取同一房间内物体间的内在摆放逻辑，而忽略不同房间的物体间的摆放逻辑，降低房间外的其它物体对房间内物体识别的干扰。

下面对本申请实施例提供的物体识别装置进行描述，下文描述的物体识别装置与上文描述的物体识别方法可相互对应参照。

参见图8，图8为本申请实施例公开的一种物体识别装置结构示意图。

如图8所示，该装置可以包括：

候选类别获取单元11，用于获取待识别图片对应的文本模态的多条候选类别，所述多条候选类别包括所述待识别图片中物体的真实类别；

特征提取单元12，用于利用配置的多模态大模型分别提取每条所述候选类别的文本特征，以及，利用所述多模态大模型提取所述待识别图片的视觉特征；

第一相似度计算单元13，用于计算所述待识别图片的视觉特征与每条所述候选类别的文本特征间的相似度；

可选的，上述特征提取单元利用配置的多模态大模型分别提取每条所述候选类别的文本特征，以及，利用所述多模态大模型提取所述待识别图片的视觉特征的过程，包括：

可选的，待识别图片可以是机器人对工作区域所拍摄的视频流中的若干帧图片，在此基础上，本申请的装置还可以包括：

第一序列模型处理单元，用于在第一相似度计算单元计算每一帧待识别图片的视觉特征与所述每一帧待识别图片对应的每条候选类别的文本特征间的相似度之前，将所述每一帧待识别图片的视觉特征送入预配置的序列模型，得到所述序列模型提取的所述每一帧待识别图片的隐层状态特征，并将所述隐层状态特征作为所述每一帧待识别图片的最新的视觉特征，其中，所述序列模型被配置为用于提取输入的待识别图片序列中每一帧待识别图片的隐层状态特征。

可选的，待识别图片可以是机器人对工作区域所拍摄的视频流中的若干帧图片，在此基础上，上述第一相似度计算单元计算所述待识别图片的视觉特征与每条所述候选类别的文本特征间的相似度的过程，包括：

计算每一帧待识别图片的视觉特征与所述每一帧待识别图片对应的每条候选类别的文本特征间的第一相似度。本申请的装置还可以包括：

第二序列模型处理单元，用于将所述每一帧待识别图片的视觉特征送入预配置的序列模型，得到所述序列模型提取的所述每一帧待识别图片的隐层状态特征，其中，所述序列模型被配置为用于提取输入的待识别图片序列中每一帧待识别图片的隐层状态特征；

第二相似度计算单元，用于计算所述每一帧待识别图片的隐层状态特征与所述每一帧待识别图片对应的每条候选类别的文本特征间的第二相似度。上述目标类别确定单元取最高相似度对应的所述候选类别，作为所述待识别图片所包含物体的目标类别的过程，包括：

针对所述每一帧待识别图片：

可选的，上述目标类别确定单元基于所述每一帧待识别图片与每条候选类别的所述第一相似度与所述第二相似度，确定第三相似度的过程，包括：

可选的，机器人的工作区域包括至少一个房间。则上述第一序列模型处理单元和第二序列模型处理单元将所述每一帧待识别图片的视觉特征送入预配置的序列模型的过程，包括：

可选的，所述待识别图片为机器人对工作区域所拍摄的视频流中的若干帧图片，该装置还可以包括：

户型地图获取单元，用于获取所述机器人对应的所述工作区域的户型地图；

物体位置确定单元，用于确定拍摄的每一帧待识别图片中的物体在所述户型地图中的位置；

贴图单元，用于按照所述每一帧待识别图片中物体的目标类别，在所述户型地图中所述物体对应的位置处展示所述目标类别的物体贴图。

可选的，上述候选类别获取单元获取待识别图片对应的文本模态的多条候选类别的过程，包括：

本申请实施例提供的物体识别装置可应用于物体识别设备，如机器人、电脑、服务器、智能终端等。可选的，图9示出了物体识别设备的硬件结构框图，参照图9，物体识别设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物体或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物体或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物体或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以根据需要进行组合，且相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种物体识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，利用配置的多模态大模型分别提取每条所述候选类别的文本特征，以及，利用所述多模态大模型提取所述待识别图片的视觉特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述待识别图片为机器人对工作区域所拍摄的视频流中的若干帧图片；

4.根据权利要求1所述的方法，其特征在于，所述待识别图片为机器人对工作区域所拍摄的视频流中的若干帧图片；

该方法还包括：

针对所述每一帧待识别图片：

5.根据权利要求4所述的方法，其特征在于，基于所述每一帧待识别图片与每条候选类别的所述第一相似度与所述第二相似度，确定第三相似度的过程，包括：

6.根据权利要求3或4所述的方法，其特征在于，所述机器人的工作区域包括至少一个房间；

7.根据权利要求1所述的方法，其特征在于，所述待识别图片为机器人对工作区域所拍摄的视频流中的若干帧图片，该方法还包括：

获取所述机器人对应的所述工作区域的户型地图；

8.根据权利要求1～5、7中的任意一项所述的方法，其特征在于，所述获取待识别图片对应的文本模态的多条候选类别，包括：

9.一种物体识别装置，其特征在于，包括：

10.一种物体识别设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～8中任一项所述的物体识别方法的各个步骤。

11.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～8中任一项所述的物体识别方法的各个步骤。